lincor – descrierea informa ţiilor lingvistice
Post on 15-Jan-2016
65 Views
Preview:
DESCRIPTION
TRANSCRIPT
11.09.200911.09.2009 Page 1
LINCORLINCOR
LINCOR – Descrierea informaţiilor lingvistice
Felicia Codirlaşu* fcodirlasu@softwin.ro
*SOFTWIN
11.09.200911.09.2009 Page 2
LINCORLINCOR SecSecţţiuni implicateiuni implicate
Morfologie
Lexic
Sintaxă
Corespondenţe
11.09.200911.09.2009 Page 3
LINCORLINCOR
Configuratorul morfologic
Descrie structura morfologică a unei limbi
Organizat sub forma unui arbore atribut-valoare (AVT)
• nodurile “atribut”: categorii morfologice
• nodurile “valoare”: valori ale categoriilor morfologice
Alte tipuri de informaţii ataşate fiecărui nod:
• abrevierea
• categoria – flexionabilă sau nu
• forma este lemă sau nu
• forma este supliment sau nu
Configuratorul morfologicConfiguratorul morfologic......
11.09.200911.09.2009 Page 4
LINCORLINCOR ......Configuratorul morfologicConfiguratorul morfologic......
Arbore atribut-valoare (AVT)
clasa
substantiv
gen
masculin
feminin
neutru
singular
plural
singular
plural
număr
numărverb
neflexionabil
flexionabil
atribut
valoare
flexionabil
neflexionabil
11.09.200911.09.2009 Page 5
LINCORLINCOR ...Configuratorul Morfologic ...Configuratorul Morfologic [RO]…[RO]…
11.09.200911.09.2009 Page 6
LINCORLINCOR ...Configuratorul Morfologic ...Configuratorul Morfologic [EN][EN]
11.09.200911.09.2009 Page 7
LINCORLINCOR Configuratorul Morfologic Configuratorul Morfologic [RO]…[RO]…
Nume Număr situaţii de flexiune (EC)
Total atribute Total valoriAtribute
neflexionabile
Clasa 20179 854 2207 99
Clasa = Substantiv 360 10 30 3
Clasa = Articol 82 13 38 2
Clasa = Adjectiv 420 12 30 0
Clasa = Pronume 1.118 112 324 12
Clasa = Numeral 1.145 154 447 43
Clasa = Verb 16.944 507 1212 23
Clasa = Adverb 68 32 88 7
Clasa = Prepoziţie 3 1 4 1
Clasa= Conjuncţie 7 3 10 3
Clasa = Interjecţie 3 2 5 2
Clasa = Semn 1 1 6 1
Clasa = Morfem 6 6 13 1
Statistici Configurator Morfologic pentru limba română:
11.09.200911.09.2009 Page 8
LINCORLINCOR Configuratorul Morfologic Configuratorul Morfologic [EN]…[EN]…
Statistici Configurator Morfologic pentru limba engleză:
Nume Număr situaţii de flexiune (EC)
Total atribute
Total valori
Atribute neflexionabile
Part of speach 3551 534 1206 106
Part of speach = Noun 155 56 111 42
Part of speach = Article 3 3 6 1
Part of speach = Adjective 48 14 30 3
Part of speach = Pronoun 353 74 168 27
Part of speach = Numeral 12 5 12 2
Part of speach = Verb 2703 325 747 7
Part of speach = Adverb 265 52 116 19
Part of speach = Preposition 1 0 1 0
Part of speach = Conjunction 2 1 3 1
Part of speach = Interjection 1 0 1 0
Part of speach = Sign 5 1 6 1
Part of speach = Particle 3 2 5 2
11.09.200911.09.2009 Page 9
LINCORLINCOR
• NTPAR - N (neterminal) - simboluri care nu apar în
enunţuri şi se expandează conform regulilor
- T (terminal) - reprezintă un şir de caractere.
- P (pseudoterminal) - reprezintă o clasă
lexicală
- A (acţiuni procedurale)
- R (relaţie) – reprezintă relaţiile de coordonare
sau regenţă-subordonare descrise în arborele
de dependenţe.
SintaxaSintaxa
11.09.200911.09.2009 Page 10
LINCORLINCOR
Neterminal
AVT
Membrul stâng Membrul drept
Alternant
SintaxaSintaxa – reguli sintactice – reguli sintactice
Secţiune sintactică
Secţiune de dependenţe
NTPA AVT
Liste de relaţionare
Nume
Relaţie
Liste de relaţionare
Nume + tip (RS/RC)
AVT
Secţiune de acord
Condiţie de acord
Acţiuni
Regulă sintactică
11.09.200911.09.2009 Page 11
LINCORLINCOR• Simboluri folosite în regulile sintactice, care se vor regăsi în arborele
de dependenţe:
Sintaxa - Sintaxa - Arbori de dependenţe Arbori de dependenţe ((conventii conventii graficgraficee))
“...” Terminal (T)
#...# Acţiune procedurală (A)
Relaţie de Coordonare(RC)
2
@...@
1
@...@ Relaţie de Subordonare(RS)
<...> Neterminal (N)
%...% Pseudoterminal (P)
11.09.200911.09.2009 Page 12
LINCORLINCOR
% substantiv %
@coordonare logica@
1 2
% substantiv %
% verb %
@compl - regent verb@
"şi"
@subordonare particula logica@
Sintaxa - Sintaxa - Arbori de dependenţe Arbori de dependenţe ((reprezentare reprezentare grafică)grafică)
11.09.200911.09.2009 Page 13
LINCORLINCOR LexiconulLexiconul
Un LEXICON GRAALAN este o structură de date ce conţine trei tipuri de intrări:
a) Intrări de tip lexical;b) Intrări de tip morfologic;c) Intrări de tip procedural.
• În acest proiect ne-am ocupat de un subtip al intrărilor de tip lexical - intrările de tip expresii multicuvânt (MWE - Multi Word Expression).
11.09.200911.09.2009 Page 14
LINCORLINCOR
Intrările de tip multicuvânt (MWE) - similare cu intrările de tip “lemma” + o secţiune morfo-sintactică.
Tipuri de intrări MWE: - locuţiuni - expresii - cuvinte compuse (alăturare – cu sau fără cratimă) - alte îmbinări fixe de cuvinte.
=> cuvântul “expresie” are o accepţiune mai largă decât cea tradiţională.
MWE...MWE...
11.09.200911.09.2009 Page 15
LINCORLINCOR ......MWEMWE......
Multiword entry (MWE)
Text (normal şi fonetic)
Semantică (sensuri, relaţii semantice, exemple...)
Arbore de dependenţe
Secţiune sintactică
Neterminal AVT+ + Listă de relaţionare
Secţiune de dependenţe
Relaţie RS/RC AVT+ + Listă de relaţionare
11.09.200911.09.2009 Page 16
LINCORLINCOREntry_001: Entry multiword Text “a avea pâinea şi cuţitul" Phonetic "ˈˈa ave� ˈa pˈɨjne�a ʃˈi kuʦˈitul" Meaning “A avea la îndemână toată puterea, toate mijlocele.”Syntax T1:"a avea" partial variable
[clasa = verb] [conjugarea = II] [tranzitivitate = tranzitiv] [diateza = activa] Governor R1
T2:“pâine" invariable [clasa = substantiv] [numar = singular] [caz = acuzativ] [articulare = articol hotarat] Coordinate R2 (1)
T3:“şi” invariable [clasa = conjuncţie]
Subordinate R3 T4:“cuţit" invariable [clasa = substantiv] [numar = singular] [caz = acuzativ] [articulare = articol hotarat]
Coordinate R2 (2) Dependency R1:@complement – regent verb@() R2:@coordonare logica@ (2) Subordinatte R1, Governor R3 R3:@subordonare particula logica@()
......MWE – Text GRAALANMWE – Text GRAALAN......
11.09.200911.09.2009 Page 17
LINCORLINCOR ...MWE –...MWE –Editare prin aplicaţia LKT... Editare prin aplicaţia LKT...
Text expresie
Cuvânt de sortare
Sens expresie
11.09.200911.09.2009 Page 18
LINCORLINCOR ... MWE –... MWE –Editare prin apEditare prin apiilcaţia LKT lcaţia LKT ......
11.09.200911.09.2009 Page 19
LINCORLINCORProprietăţile terminalilor - infomaţii lexicale, semantice şi morfologice
a) Text/lema
b) Meaning
c) Variability - invariable - un
cuvânt la o singură formă de flexiune
- partial variable -acelaşi cuvânt, având diverse forme de flexiune.
- total variable -orice cuvânt care corespunde clase lexicale din AVT
d) AVT
...MWE - ...MWE - Structură...Structură...
11.09.200911.09.2009 Page 20
LINCORLINCOR• Arborele de dependenţe - schema sintactică a expresiei +
informaţii suplimentare de natură lexicală şi morfologică.
“a avea pâinea şi cuţitul”
... MWE - ... MWE - ArborArboree de dependenţe de dependenţe ((reprezentare graficăreprezentare grafică))......
11.09.200911.09.2009 Page 21
LINCORLINCOR CorespondenCorespondenţe bilingveţe bilingve......
Lexicon limba 1Expresie
...Text...Cuvânt de sortare...Arbore de dependenţe Legătura terminalilor cu tokenii Caracterizare morfologică terminali Desen arbore sintactic
Aplicaţie creare corespondenţe bilingve
Corespondenţe Bilingve
Lexicon limba 2Expresie
...Text...Cuvânt de sortare...Arbore de dependenţe Legătura terminalilor cu tokenii Caracterizare morfologică terminali Desen arbore sintactic
Lema...
Text...Structură...
Lema...
Text...Structură...
11.09.200911.09.2009 Page 22
LINCORLINCOR
Corespondenţele bilingve se stabilesc între intrările lexicoanelor a două limbi şi pot fi:
a) Corespondenţe lexicale;
b) Corespondenţe morfologice;
c) Corespondenţe între acţiuni procedurale.
Aplicaţia utilizată în proiect tratează corespondenţele lexicale.
...Coresponden...Corespondenţe bilingveţe bilingve
11.09.200911.09.2009 Page 23
LINCORLINCOR CorespondenCorespondenţe lexicaleţe lexicale......
Tipuri de corespondenţe lexicale- expresie – expresie: Ex: a duce cu zăhărelul - to hand somebody a lemon
- expresie – lemă: Ex: idee fixă - obsession
- expresie – traducere: Ex: a ieşi în relief - to be prominent
11.09.200911.09.2009 Page 24
LINCORLINCOR ...Coresponden...Corespondenţe lexicaleţe lexicale......
În descrierea unei corespondeţe se pot folosi clauze de:
a) mapare
b) transfer
c) combinare
11.09.200911.09.2009 Page 25
LINCORLINCOR ...Corespondente lexicale - mapare...Corespondente lexicale - mapare
Mapare:
- TPA sunt relativ echivalenţi în cele două expresii, şi
- TPA din expresie din limba ţintă va prelua toate legăturile (cu descendenţele respective) din extensia expresiei corespunzătoare TPA din expresie din limba sursă.
11.09.200911.09.2009 Page 26
LINCORLINCOR
a înduioşa
pe
@complement - regent verb@
@complement - regent verb@
până
to move
somebody
@verb – complement@
@verb – adverbial@
to
cineva
@prep-nominal@
la
lacrimi
@prep-nominal@
@prep-grup prepozitional@
tears
@prep phrase – complement@
“a înduioşa pe cineva până la lacrimi” “to move somebody to tears”
Exemplu - Mapare Exemplu - Mapare
11.09.200911.09.2009 Page 27
LINCORLINCOR
Transfer:
- TPA nu sunt echivalenţi în cele două expresii, iar..
- Legăturile din extensia expresiei corespunzătoare nodului din expresie din limba sursă, cu toate descendenţele lor, vor fi preluate de nodul din expresie din limba ţintă .
...Corespondente lexicale - transfer...Corespondente lexicale - transfer
11.09.200911.09.2009 Page 28
LINCORLINCOR Exemplu - TransferExemplu - Transfer
“a da relaţii” “to give information”
a da
relaţii
@complement- regent verb@
to give
information
@verb – complement@
11.09.200911.09.2009 Page 29
LINCORLINCOR
Combinare:
- Prin combinare se indică modul prin care echivalenţii în limba ţintă, ai eventualilor subordonaţi din extensia expresiei sursă se vor coordona cu subordonaţii deja existenţi în expresia ţintă.
! Se poate defini o combinare doar pentru acei terminali din ţintă care au deja definită o clauză de mapare sau transfer.
...Corespondente lexicale - combinare...Corespondente lexicale - combinare
11.09.200911.09.2009 Page 30
LINCORLINCOR Combinare – ExempluCombinare – Exemplu
@compl - regent verb@
E1: a face
E2: cuiva
@compl - regent verb@
E3: o figură
@atribut - regent@
E4: urâtă
@verb - complement@
E1: to play
E4: on
@verb - complement@
E2: trick
@premodifier – noun phrase@
E3: dirty
@prep phrase – complement@
E5:somebody
“a face cuiva o figură urâtă” “to play a dirty trick on somebody”
combination E2 @coordinate relation@
11.09.200911.09.2009 Page 31
LINCORLINCOR Combinare – ExempluCombinare – Exemplu
Expresia sursă
@compl - regent verb@
a face
cuiva
@compl - regent verb@
o figură
@atribut - regent@
urâtă
@atribut - regent@
neaşteptată
Extensie expresia sursă
Expresia ţintă
@verb - complement@
to play
on
@verb - complement@
a trick
@premodifier – noun phrase@
dirty
@prep phrase – complement@
somebody
“a face cuiva o neaşteptată figură urâtă” + “to play a dirty trick on somebody”
11.09.200911.09.2009 Page 32
LINCORLINCOR Combinare – ExempluCombinare – Exemplu
@compl - regent verb@
to play
@compl - regent verb@
a trick
@premodifier – noun phrase@
dirty
@logical coordination@
unexpected
1 2
on
@prep phrase – complement@
somebody
Expresia ţintă rezultantă
“to play a dirty and unexpected trick on somebody”
11.09.200911.09.2009 Page 33
LINCORLINCOR ...Coresponden...Corespondenţe lexicale ţe lexicale – Statistici – Statistici peste 1000 expresii din ROpeste 1000 expresii din RO
Tip corespondenţe Număr
Număr total corespondenţe 4404
Număr total corespondenţe RO - EN 2202
Expresie RO – expresie EN 1727
Expresie RO – lemă EN 307
Expresie RO – traducere EN 177
Clauze de mapare 764
Clauze de transfer 1225
11.09.200911.09.2009 Page 34
LINCORLINCOR
• Q&A
top related