nyelvtechnológia 1home.mit.bme.hu › ~strausz › komplexmialkalmazások... · 8 pers birt....
TRANSCRIPT
Nyelvtechnológia
1
BME, Dr. Prószéky Gábor.
Prószéky GáborPrószéky Gábor
A számítógépes nyelvészet történelme
Általános tapasztalat: a nyelv változikEzért: a nyelvészet a 20. századig = történeti nyelvészetA deskriptív nyelvészet (és a „preskriptív” nyelvészet)A világháborúk körül:
– 1947-49: USA/UK Booth és Weaver: kriptográfiaAmerikai kezdemények
– 1951: Bar-Hillel (MIT) - kés bb (1959) megkérd jelezi a TAGF-t– 1954: Georgetown/IBM – az USA kormánya támogatta
Szovjetunió és Kelet-Európa: matematikai nyelvészetGeneratív grammatika: Chomsky „Syntactic Structures”-e épp 50 éve (!)Transzformációk a „csúcson”: az „Aspects” (1965)A GF-korszak vége: ALPAC Report (1966)Woods (1969): Lunar (holdprogram!), ATNWinograd (1972): SHRDLUGF-túlél k: Systran, Logos (vietnami háború!) és MetalAz USÁ-n kívül:
– Kanada: METEO– Európai közösség: EC–Systran + közvetít nyelves GF (Eurotra, DLT)– Japán: 5. generációs számítógép (!)
A számítógépes nyelvészet történelme 2.
• 1970-es évek vége: megjelennek a „Bay Area” nyelvtanok• 1980-as évek: tudás-alapú GF-rendszerek (CMU)• 1980-as évek: Rosetta(Montague-szemantika mint interlingva)• 1983: Language as a Cognitive Process (Winograd)• 1983: kétszintes morfológia (Koskenniemi)• 1980-1990-as évek: megjelennek a piaci alkalmazások
– Apple Macintosh, IBM PC: helyesírás, elválasztás stb.– Logos
– Siemens Metal > Langenscheidt T1
– PC-alapú rendszerek: Globalink, Tovna, Kielikone, ProMT
• 1980-as évek vége: IBM – statisztikai módszerek• 1990-es évek: megszület ben a korpusznyelvészet• 1990-es évek vége: a Lernout & Hauspie tündöklése és bukása,
majd a ScanSoft (amit 2005-t l a Nuance) felvásárolja• 2000-es évek (?): a beszédfordító rendszerek ígérete• … és minden egyre inkább statisztikai módszerekkel
A természetes nyelvek számítógépes
ábrázolásának kutatási problémái
• Formális nyelvek a természetes nyelvekkutatásában
• A nyelvmodellek és a nyelv„távolságáról”
• Pontosság és lefedettség
• Túl- és alulgenerálás
Prószéky GáborPrószéky Gábor
A természetes nyelvek modellezésének
szintjei és eszközei
• Nagy paradigmák: a statisztikai, a szabály-alapú és a példa-alapú rendszerek
• A korpusznyelvészet kialakulása: akorpuszok alkalmazása a nyelv különbözszintjeinek kutatásában (treebank)
• A nyelvi kutatások szintjei: fonológia,morfológia, szintaxis, szemantika,pragmatika
• Szövegnyelvészet, dialógus-kutatás,világismeret-kutatás
Prószéky GáborPrószéky Gábor
Az angol morfológia
• 1. walk (ige): walk, walks, walking,walked, walker, walkable
• 2. simple (mn): simple, simpler, simplest,simply, simplier, simplicity
• 3. computer (fn; belevéve a képzéssel kapottteljes igei paradigmát is): computer,computer’s, computers, computers’,computerize, computerizes,computerized, computerizing
Prószéky GáborPrószéky Gábor
Az angol morfológia VÁA-ja
Prószéky GáborPrószéky Gábor
reg-noun: fox, cat, dog;
irreg-pl-noun: geese, sheep, mice;
irreg-sg-noun: goose, sheep, mouse;
plural: -s
reg-verb-stem: walk, fry, talk;
irreg-verb-stem: cut, speak, sing, sang;
irreg-past-verb: caught, ate, eaten;
past: -ed;
past-part: -ed;
pres-part: -ing;
3sg: -s
Az angol morfológia VÁA-ja (2)
Prószéky GáborPrószéky Gábor
A magyar morfológia
• 1. tesz (ige): teszek, teszel, tesz, teszünk, tesztek,tesznek stb.… tettem, tetted, tette, tettük, tettétek,tették stb. … tenném, tennéd, tenné, tennénk,tennétek, tennék stb.… tehetek, tehetsz, tehet,tehetünk, tehettek, tehetnek stb. … tev , tev k,tev nek, tev leges stb. …
• 2. egyszer (melléknév): egyszer en, egyszer t,egyszer nek, egyszer vel, egyszer vé stb. …egyszer ek, egyszer eknek stb. … egyszer sít,egyszer södik, egyszer sít stb. (és az igealakok sora) …egyszer bb, egyszer bbnek, egyszer bbeket stb.…legegyszer bb, legegyszer bbé stb.
• 3. számítógép (f név): számítógépem, számítógéped,számítógépe stb. … számítógépeimet,számítógépeidet, számítógépeit stb. …számítógépezem, számítógépezel, számítógépezik stb.… számítógépes, számítógépesnek stb.
Prószéky GáborPrószéky Gábor
A magyar morfológia - 2
A morfológiai elemzés mint program egy olyanfekete doboz, mely az alábbi lépéseket végziel a bemenetül kapott szóalakon:
1.elemi morfémáira bontja;
2.meghatározza a morfémák lexikális alakját;
3.meghatározza az egyes morfémák morfo-szintaktikai tulajdonságait (esetleg másnyelvtani tulajdonságokat is)
Prószéky GáborPrószéky Gábor
Átmenetgráfos ábrázolás(alma, alom, anya, anyag, apa, apad )
Prószéky GáborPrószéky Gábor
S
A
B
C D
G K
H L*
E* F* I* M*
J*
a
l n p
m o y a
a m a d
g
Trie = szófa
Prószéky GáborPrószéky Gábor
Trie (=szófa)(to, this, the, that)
A szófa egy olyan, a szavak rákövetkez karaktereivel címkézettélsorozatokat tartalmazó fa, amelyben egy szót úgy találunk meg, hogyvégigjárjuk karakterenként.
Szófa és véges fordító (transducer)(alma, almafa, almák, almával)
Prószéky GáborPrószéky Gábor
S A B C
D
G H
I J K
E F
a l m
a
f a
á
k
v
a l
S A B Ca:a l:l m:m
a:a
á:a
G Hk:k
v:V
I J Ka:A l:l
G’’:+
H’:[PL]
J
:[IN]
D E Ff:f a:a
E’:+ F’
:[FN]
G’
:[FN]
D’
:[FN]
• alma : alma[FN]• almafa : alma[FN]+fa[FN]• almák : alma[FN]+k[PL]• almával : alma[FN]+VAl[IN]
Prószéky GáborPrószéky Gábor
A módosított szófa(alma, alom, anya, anyag, apa, apad, aránytalanság)
• Ha tudjuk, hogy véges sok elemünk van, módosítható azelágazási helyeknél:alm a
alo m
anyaanyagapaapadar ánytalanság
• Akkor éri meg, ha jelent sen különböznek a szóvégek
• További módosítások: az el tagok (igeköt k, re-, pre-, anti-stb.) elkülönítése mellett a tipikus és ritka kezd bet párokegyedi kódolása
• Az angol lexikonok tanúsága szerint 262=676 indító bet párbólcsak 309 létezik, amib l 88 csak 15-nél kevesebb szó elején)
A Kay-féle szótárábrázolás(alma, alom, anya, anyag, apa, apad, aránytalanság)
Kay (1977): tömörítés numerikus prefixekkelalma 0
alom 2
anya 1
anyag 4
apa 1
apad 3
aránytalanság 1
Tehát a szótár:alma, 2om, 1nya, 4g, 1pa, 3d, 1ránytalanság
Akkor éri meg, ha hasonlítanak a szókezdetek(nagy szótár esetén mindig!)
A morfológiai elemzéshez kapcsolódó
alapfogalmak
Prószéky GáborPrószéky Gábor
szókészletszótárábrázoláskeresési lépésektúlgenerálászártság
Prószéky GáborPrószéky Gábor
Emlékezetfrissítés
Nyelv:füzérek halmazaReguláris nyelv:füzérek olyan halmaza, melykonkatenációval, iterációval és egyszerhalmazm veletekkelhozható létreReguláris kifejezés:a reguláris nyelvet leíró kompakt formulaVéges állapotú automata:egy olyan absztrakt gép, mely egy regulárisnyelvet fogad el
Reguláris kifejezés nyelv VÁA
Prószéky GáborPrószéky Gábor
Reguláris kifejezések VÁA-ként
Prószéky GáborPrószéky Gábor
Újraírószabályok egy VÁA-ban
Prószéky GáborPrószéky Gábor
Újraírószabályok egy VÁA-ban - 2
Prószéky GáborPrószéky Gábor
Kétszintes megfogalmazások
Prószéky GáborPrószéky Gábor
Párhuzamosság: VÁA-metszet
Prószéky GáborPrószéky Gábor
Két szint: felszíni és lexikális
Prószéky GáborPrószéky Gábor
A kétszintes szabályok
L:S => E
„Csak akkor, de nem mindig."
L csak az E környezetben realizálódik S-ként.
Az S-ként realizált L nem megengedett a ¬E környezetben.
Ha L:S, akkor annak E környezetben kell lennie.
Persze L:¬S is engedélyezett lehet az E környezetben.
L:S <= E
„Mindig, de nem csak akkor."
L mindig S-ként realizálódik az E környezetben.
Az ¬S-ként realizált L nincs megengedve az E környezetben.
Ha L illeszkedik az E környezetbe, akkor L:S.
Persze L:S el fordulhat máshol is.
A kétszintes szabályok (2)
L:S <=> E
„Akkor és csak akkor"
Az L S-ként akkor és csak akkor realizálódik, ha E a környezet.
Mind L:S => E, mind L:S <= E fennáll.
L:S kötelez az E környezetben.
L:S sehol máshol nem fordulhat el .
L:S /<= E
„Soha."
L soha nem realizálódik S-ként az E környezetben.
Az S-ként realizált L nincs megengedve az E környezetben.
Ha L az E környezetben áll, akkor fenn kell álljon L:¬S.
Egy konkrét kétszintes szabály
Prószéky GáborPrószéky Gábor
A kétszintes rendszer
• a felhasználó környezetfügg szabályokat ír
• minden jelenségre egy szabály (a többi arendszer dolga)
• az ábécé(k) megadandó(k):
• lexikonok és folytatási osztályok
• metakarakterek használhatók
• speciális szimbólumok (üres, akármi)
• szabályfordító és táblázatos formaPrószéky GáborPrószéky Gábor
Kés bb: szabályok és lexikonok
kompozíciója
Prószéky GáborPrószéky Gábor
Szabályok és lexikonok metszete a
gyakorlatban
Prószéky GáborPrószéky Gábor
Több szalag: felszíni és több lexikális
Prószéky GáborPrószéky Gábor
Folytatási osztályok
Leegyszer sített magyar névszói toldalékolás:
S A C DFN PL ACC | DAT | INS
B
IGEÁS
ACC | DAT | INS
Szóalaktani alapséma
nemterminális nemterminális terminális
t toldalék toldalék toldalék
(relatív) t / relatív toldalék
relatív t / relatív toldalék
relatív t / (relatív) toldalék
HUMOR
High-speed Unification Morphology
folytatási osztályok (mátrix)
jegy-érték párok
unifikáció: részletes definíció kés bb
ld. Prolog, de nem rögzített aritás
unifikáció vs. unifikálhatóság
minden tulajdonság jegyként
nincs más „valós” m velet, csakaz unifikálhatóság-ellen rzés
Jegyszerkezetek
Unifikáció
DAG-ok ábrázolása
Az unifikáció definíciója
Bináris kérdések
a magyar morfo-fonológiáról
= + = –1 névszó névszó ige2 fn f név melléknév, számnév3 szótári szótári alapalak nem szótári alapalak4 elöl elöl képzett hátul képzett5 kerek ajakkerekítéses nem ajakkerekítéses6 PL többes szám nem állhat többes számban7 PLköt PL köt hanggal PL nem köt hanggal8 PERS birt. szem.ragos nem kap birt. szem.ragot9 ACC van tárgyesete nem tárgyesetes10 ACCköt ACC köt hanggal ACC nem köt hanggal11 DAT van részesesete nincs részesesete12 INS:ß van eszk.h.esete nincs eszk.h.esete13 ÁS -ás/-és képz s nem kap -ás/-és képz t
Szótövek tára
szó [][+névszó +fn +szótári –elöl –kerek –PL
–PERS +ACC –ACCköt +DAT +INS:V]
szav [][+névszó +fn –szótári –elöl –kerek +PL
+PLköt +PERS –ACC +DAT –INS]
képez [][–névszó +szótári +elöl –kerek –ÁS]
képz [][–névszó –szótári +elöl –kerek +ÁS]
...
Toldalékok tára
ás [–névszó –elöl +ÁS][+névszó +fn +szótári –elöl –kerek +PL
+PLköt +ACC –ACCköt +DAT +INS:S]
és [–névszó +elöl +ÁS][+névszó +fn +szótári +elöl –kerek +PL
+PLköt +ACC –ACCköt +DAT +INS:S]
ak [+névszó –elöl –kerek +PL +PLköt ][+névszó –elöl –kerek –PL –PERS +ACC
+ACCköt +DAT +INS:K]
ek [+névszó +elöl –kerek +PL +PLköt ][+névszó +elöl –kerek –PL –PERS +ACC
+ACCköt +DAT +INS:K]
nak [+névszó –elöl +DAT ][]
nek [+névszó +elöl +DAT][]
...
Unifikációs morfológia
szó [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V]
*szav [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC +DAT –INS]
szó+nak [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V][+névszó –elöl +DAT ]
*szav+nak [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC –DAT][+névszó –elöl +DAT]
*szó+vel [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V][+névszó +elöl +INS:V]
*szav [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC +DAT –INS]
képz+és+nek [–névszó –szótári +elöl –kerek +ÁS][–névszó +elöl +ÁS][+névszó +fn +szótári +elöl –kerek +PL +PLköt +ACC –ACCköt +DAT
+INS:S][+névszó +elöl +DAT]
Morfo-fonológiai „guesser”
kacsónak + 0 FN + 0
kacsóna + k * FN + PL
kacsón + ak * FN + PL
kacsó + nak FN + DAT
kacsó + nak * IGE + PL3
kacs + ó + nak * IGE + MNI + DAT
ka | csónak + 0 * FN|FN
Tipikus hibák a számítógéppel létrehozott
dokumentumokban
• karakterhibák
• valódi helyesírási hibák
• nyelvhelyességi hibák
• tipográfiai hibák
• helyesírás-ellen rzés a szavak szintjén
• a szóellen rzés és a nyelvhelyesség-ellen rzésviszonya
• a nyelvi programrendszer lehetséges hibái(kör/k r, -ít)
A szóellen rzés menete
(1) Morfológiai elemzés
kérdésse <nincs ilyen szó a magyarban>
(2) Ajánlás
törlés:
érdésse, krdésse, kérésse, kédésse, kérdése, kérdéss
helycsere:
ékrdésse, krédésse, kérédsse, ..., kérdéses
nyelvspecifikus csere:
kérdéssé, kérdesse, ...
...
(3) Ellen rzés morfológiai elemzéssel
kérdése, kérdéses, kérdesse, kérdéssé
Szóellen rzés morfológiával
kérdése
kérdés[FN]+e[PSe3] f névi
kérd[IGE]+és[IF]+e[PSe3] f névi
kérdéses
kérdéses[MN] melléknévi
kérdés[FN]+es[SKEP] melléknévi
kérd[IGE]+és[IF]+es[SKEP] melléknévi
kérdesse
kérd[IGE]+es[MUV]+se[TPe3] igei
kérdéssé
kérdés[FN]+sé[FAC] f névi
kérd[IGE]+és[IF]+sé[FAC] f névi
Nyelvhelyesség-ellen rzés a szóhatáron túl
lehetséges-e mondatszint helyesírás-ellen rzés?
„grammar checker” ?parciális elemzések
hiba-nyelvtan vs. nyelvtan
hibaelemzések, a hibák súlyozása
a hiba és a nem-hiba határának elmosódása
a nyelvi vagy a formai természet hibáksz résének preferálása
stílusellen rzés számítógéppel
A magyar elválasztás szabályai
Alap Elválasztva Példa
VV V–V ba-uxit
VC1C2V VC1–C2V er-kély
VCiCiV VCi–CiV vet-tem
VCc1c2V VC–c1c2V mor-zsa
Vc1c2CV Vc1c2–CV asz-tal
Vc11c12c21c22V Vc11c12–c21c22V tarisz-nya
Vc1c1c2V Vc1c2–c1c2V össze/ösz-sze
#VV #VV autó
#VC #VC alaki
VV# VV# hazai
Automatikus szövegelválasztás
az elválasztás alkalmazásaautomatikus és interaktív módszereka morfológiai felülbírálás kérdésealternatív elválasztások kezelése(többértelm ség, illetve a szabályok„engedékenysége” miatt)tipográfiai szempontokkülönleges elválasztások (hosszú kett smássalhangzók, mássalhangzó-háromszorozódás) helyes kezelése
Számítógépes szinonimaszótárak
és tezauruszok
a szinonimákrólszinonimaszótár vagy tezaurusz?
tárolási és keresési problémák
a rokonértelm ség definíciója
az automatikus csere problémáit visszaállítás
többértelm ségek kezelése
a lexikai és a szintaktikai szó különbségéb l adódónehézségekaz összetett szavak szinonimáinak problémája
morfológiai generálás minta alapján
Szintaxis
közvetlen összetev s szerkezet
függ ségi szerkezet
Prószéky GáborPrószéky Gábor
Összetev s szerkezet
Függ ségi szerkezet
I gave him my address.
A mondatszerkezet leírásának
f bb eszközei
Közvetlen összetev s nyelvtanok: el nyüka magasabb szint kategóriákbevezetésének lehet sége, hátrányuk aszintaktikai viszonyok egy részének„kifejezhetetlensége”Függ ségi szerkezet: el nyük a szintaktikaifügg ség kifejezésének lehet sége,hátrányuk a magasabb szint kategóriákkezelhetetlenségeEgy elegáns közös megoldás: az X-vonásnyelvtanok
X-vonás: összetev k és függ ség
S NP VPAz összetev s szerkezetben az NP és a VP„testvérek”, azaz mindketten az S„gyermekei”, de ezt nem fejezi ki a függ ségileírásAzt viszont a közvetlen összetev s leírás nemfejezi ki, hogy testvérek bár, de nemegyforma súllyal, ui. a VP a szerkezet fejeX-vonás szabályként: V” N’ V’Azaz: a V” a V maximális projekciója, tehát amondat feje az ige!Csak endocentrikus szerkezetekre!(v.ö. exocentrikus)
X-vonás szerkezetek
X-vonás mondatszerkezet
Balrekurzió, önbeágyazás
Önbeágyazás balrekurzióval (S NP VP, NP Pron S):0: A fiú elment.
1: A fiú, akit a barátom meghívott, elment.
2: A fiú, akit a barátom, akir l a kollégám mesélt, meghívott, elment.
3: A fiú, akit a barátom, akir l a kollégám, akivel egy iskolába jártam,mesélt, meghívott, elment.
Veremkezelés helyett egyszer utalás:Az a fiú elment, akit az a barátom hívott meg, akir l az a kollégám mesélt,akivel egy iskolába jártam.
Jobbrekurzió
„az agyag
ölel karjai közül
kibontakozni akaró kocsikerék
rettent nyikorgásától
megriadt juhászkutya
bundájába
kapaszkodó kullancs
kidülledt félszeméb l
alácseppen könnycseppben
visszatükröz d holdvilág
fényét l
illuminált rablólovagvár
felvonóhídjából
kiálló vasszegek
kohéziós erejének
hatása”
(Fehér G.)
A „PP-attachment” probléma
RTN
(Recursive Transition Network)
RTN
(kiegészítések a VÁA-hoz)
A szokásos VÁA m ködtetésén túl figyelni kell:
az aktuális bemeneti pozíciót,
az aktuális állapotot és
hogy hova kell visszatérni
összegezve: veremkezelés kell
RTN
(összefoglalva)
az RTN egymást hívó VÁA-k hálózata:az élek címkéin megjelenik akategória, azaz más VÁA-k „neve”
a VÁA (a reguláris nyelvek) O(n) idalatt elemezhet k
az RTN viszont veremautomata, azazkörnyezet-független nyelvekelemzésére is alkalmas, tehát csakO(n3) elemzési id garantálható
ATN(az RTN b vítése)
ÉLCÍMKÉK:
WRD *, CAT *, PUSH *, POP, JUMP *
ÉRTÉKEK:
GETR, *, QUOTE, GETF, BUILDQ *, APPEND
TESZTEK:
T, EQ, AND, OR, NOT
AKCIÓK:
SETR, TO
Példák ATN-élekre
Mire elég a szintaxis?
Lehet, hogy többet érne a „jelentés”?
Sok mondat - egy jelentés
Hasonló mondat - különböz jelentés
„Mély” esetek
Híres fogalmi hálók
AZ MI kezdetén: Quillian, Minsky, Charniak, ...
Fogalmi függ ség: Schank
Logikák:Hendrix, Sowa (fogalmi gráfok), …
Ontológiák:CyC, MindNet, FrameNet, ...
WordNet (pszichológusok indították):WordNet, EuroWordNet,eXtendedWordNet, ...
Szemantikus web: (?)
A fogalmi függ ség igeosztályai
Eseményábrázolás a FF elméletében
A fogalmi függ ség állapotosztályai
Schank (1)
Schank (2)
Forgatókönyvek
Az „étterem” forgatókönyve
(a tipikus eseménysor)
Az „étterem” forgatókönyve
(alapismeretek)
Az „étterem” teljes forgatókönyve
Szótárak és terminológiakezelés
nyomtatott szótárak és elektronikus szótárak
terminológiai adatbázisok
közvetlen és közvetett elektronikus szótárak
egynyelv , kétnyelv és többnyelv szótárak
a forrásnyelv és a célnyelvek aszimmetriája
Szerkesztési elvek
Az (önálló ill. utaló) szócikkek és felépítésükA szócikkfej: címszó, homonimák ésálhomonimák, alak- és írásváltozatok, kiejtés,elválasztás, szófaj, f bb toldalékos alakok,nyelvtani megjegyzés, stílusmin sítésJelentéscsoportok (alapjelentés ésjelentésárnyalatok): értelmezések (ekvivalensek)és példákSzóláshasonlatok, közmondások, más szavakkalalkotott összetételek, származékszók
Keresés a szótár(ak)ban
bet szerintcsonkolt keresés
hasonlósági keresés (fuzzy, spell)
nyelvi alapú keresés a bemeneti oldalon
nyelvi alapú keresés a találati oldalona kifejezések kezelésének problémái:alcímszók, kulcsszó-választás, indexek,egyazon kifejezés több címszó alatt
„könyvespolc”: egységes felület
egyidej használat: párhuzamos(nak t n )keresés
Többszavas kifejezések keresése
csak címszóként
bet szerint
teljes szöveg kereséssel
reguláris kifejezéskéntt indexekkel: készítéskor vagyelemzési id ben (is)
A szótári jobboldal szerepe
papírszótárak esetében: csak tipográfiai
elektronikusan: új lehet ség
ábécé-környezet helyett szinonimáktöbbféle jelentés kezelése a baloldalicímszavak segítségével
új találati ablak
elektronikusan érdemes „kifordítani” aszótárakat
Az elektronikus szótárak megfordíthatók
Gyorsfordítók
amikor információ kell, pl. szótári, akkor:
csak amit kérek, nem többet,de azt gyorsan,
kevés aktív m velettel
és a lehet legautomatikusabban!
kialakul a „pop-up” viselkedésa kijelölhet ség, ill. az automatikusindíthatóság szerepe
A „rávetít s” megoldás lépései
szöveg(rész)-felismerésnyelvi elemzés: morfológia, lemmák,szókapcsolatok (esetleg környezetelemzés)
szótári keresés: tövesítve vagy csakliterálisan
megjelenítés: buborékban vagy fixablakban
log: automatikus információgy jtéslehet sége
A fordítómemória gondolata
A lefordítandó mondat:
After a few seconds, a window will appear in which you are
expected to enter a valid User ID and (if necessary) a password.
Korábban már fordítottuk ezt:
After 5 seconds, a window will appear on the screen in which you
are expected to enter a User ID and (if required) a password.
Méghozzá így:
Öt másodperc múlva egy ablak jelenik meg a képerny n, amelybe
be kell gépelni egy felhasználó-azonosítót és (ha szükséges) egy
jelszót.
Ebb l a következ fordítás könnyen el állhat:
Néhány másodperc múlva egy ablak jelenik meg, amelybe be kell
gépelni egy érvényes felhasználó-azonosítót és (ha szükséges) egy
jelszót.
A fordítómemória mint eszköz
Szövegszinkronizálás
bi-text
párhuzamos korpuszokszinkronizálás: valós id ben és utólag
pl. a Biblia
„You will not surely die,” the
serpent said to the woman.
(Genesis 3:4)
A kígyó erre azt mondta az
asszonynak: „Dehogy is haltok meg!”
(Ter 3,4)
Szövegszinkronizálási szintek
bekezdésszint
mondatszint
frázis-szint (?)
szószint (??)mondathatár-problémák
horgonyok
statisztikai módszerek
Nem feltétlenül 1-1 értelm
(1 = 1,2) O stylographe à laplume de platine, que tacourse rapide et sans heurttrace sur le papier au dossatiné les glyphesalphabétiques quitrans mettront aux hommesaux lunettes étin ce lantesle récit narcissique d’unedouble ren contre à lacause autobusilistique.
(1 = 1) Ó, platinahegytölt toll!
(2 = 1) Vajha tajtékos-gyorsfutásod a szaténhátúpapirosra róná amazalfabéta-cikornyákat,melyek a csillogó okulárésemberek tudomására hozzákaz autóbuszilisztikus-okútalálkozás önbálványozókrónikáját!
A nyelvi szerkezetek hasonlóságáról
zöld kutyazöld macskasárga kutyasárga macskapiros egérkis asztalhét kis ágya tegnapi bulirólelmentem a tegnapi bulirólbeléptünk az EU-bajó napot!
A gépi fordítás alapmódszerei
szabály-alapú:közvetlen fordításközvetít nyelves fordítástranszfer rendszerek
statisztikai
Egy szó mint száz...
Becslések az európai nyelven írt internetes
szövegek lehetséges méretér l
… milyen „min ség ” szövegek vannak a weben?
1 150 000
441 000
522 000
436 000
2 480 000
19 400 000
1 940 000
19 200 000
47 700
66 400
128 000
193 000
116 000
681 000
67 400
2 460 000 000
Full
.nternet
i.ternet
in.ernet
int.rnet
inte.net
inter.et
intern.t
interne.
niternet
itnernet
inetrnet
intrenet
intenret
interent
internte
internet
Fordítási modellNyelvmodell
Bayes
Statisztikai gépi fordítás
Egy szó mint száz...
• Nincs külön szótár és külön nyelvtan
• Csak minta-párok vannak: bemenet/interpretációszerkezet-párok
• Egyetlen elemzési menet: nincs rákövetkezm velet (pl. transzfer)
• Célszerkezet-generálás:az elemzés „melléktermékeként”
• Új:
MetaMorpho-elvek
Egy szó mint száz...
Minták: általánosított nyelvészeti információk
• Rövid, specifikus minták:
szótári címszavak
• Hosszabb, specifikus minták:
többtagú kifejezések
• Részlegesen alulspecifikált minták:
kollokációk, idiómák
• Teljesen alulspecifikált minták:
nyelvészeti szabályok
• Fordítástámogató nyelv:
minta–interpretáció párok
Egy szó mint száz...
A MetaMorpho projekt
Egy szó mint száz...
• A projekt: 1991-t l folyamatosan készített moduljainkfelhasználásával (kb. 100 emberév) 2000-ben indult,bels projektként (semmilyen küls támogatása nincs)
• Cél: mondatszint fordítás – új elven: a szavakkörnyezetének felhasználásával (egy n elemmondatban éppen n darab (n-1) elemb l álló környezetvan)
• Forrásnyelv: angol, magyar
• Célnyelv(ek): magyar, angol, …
• Szakterület: nincs de dinamikusan b víthet
• Minta-alapú: példák (TM) és szabályok (MT) egységesen
• Minták száma: kb. 200.000
• Lexikon: kb. 100.000 alapszó
• Elvárt sebesség: 50 karakter/s
• Felhasználói felület: MoBiCAT, MoBiWAP, MMO-Office,MorphoWord, MoBiWeb, webforditas.hu
A MetaMorpho „belülr l”
EN: The whole class was obsessed with the coming match.
SFULL CS S SP SUBJ NP DET The 0122 0121 0120 0119 0112 0109 0108 Az [the]
NN ADJP ADJ whole 0105 0104 0098 egész [whole] N class 0091 osztályt [class+ACC] MPRED PRED VP TV TVR TVR BE was 0062 0061 0060 0059 0058 0057 0055 foglalkoztatta [deal+FAC+PAST+Sg3] V obsessed 0044 PPOBJ PREP with 0042 0039 OBJP NP DET the 0032 0031 0030 a [the] NN ADJP ADJ coming 0027 0026 0015 közelg [coming] N match 0002 mérk zés [match+NOM]
END . 0001
.
HU: Az egész osztályt foglalkoztatta a közelg mérk zés.
Egy szó mint száz...
Angol-magyar gyorsfordító szolgáltatás
MoBiCAT: teljes mondatok fordítása(MoBiCAT-szerver akár intraneten vagy interneten)
Angol-magyar weblap-fordítás(MorphoWeb, webforditas.hu)