nyelvtechnológia 1home.mit.bme.hu › ~strausz › komplexmialkalmazások... · 8 pers birt....

104
Nyelvtechnológia 1 BME, Dr. Prószéky Gábor. Prószéky Gábor Prószéky Gábor

Upload: others

Post on 27-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Nyelvtechnológia

1

BME, Dr. Prószéky Gábor.

Prószéky GáborPrószéky Gábor

Page 2: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A számítógépes nyelvészet történelme

Általános tapasztalat: a nyelv változikEzért: a nyelvészet a 20. századig = történeti nyelvészetA deskriptív nyelvészet (és a „preskriptív” nyelvészet)A világháborúk körül:

– 1947-49: USA/UK Booth és Weaver: kriptográfiaAmerikai kezdemények

– 1951: Bar-Hillel (MIT) - kés bb (1959) megkérd jelezi a TAGF-t– 1954: Georgetown/IBM – az USA kormánya támogatta

Szovjetunió és Kelet-Európa: matematikai nyelvészetGeneratív grammatika: Chomsky „Syntactic Structures”-e épp 50 éve (!)Transzformációk a „csúcson”: az „Aspects” (1965)A GF-korszak vége: ALPAC Report (1966)Woods (1969): Lunar (holdprogram!), ATNWinograd (1972): SHRDLUGF-túlél k: Systran, Logos (vietnami háború!) és MetalAz USÁ-n kívül:

– Kanada: METEO– Európai közösség: EC–Systran + közvetít nyelves GF (Eurotra, DLT)– Japán: 5. generációs számítógép (!)

Page 3: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A számítógépes nyelvészet történelme 2.

• 1970-es évek vége: megjelennek a „Bay Area” nyelvtanok• 1980-as évek: tudás-alapú GF-rendszerek (CMU)• 1980-as évek: Rosetta(Montague-szemantika mint interlingva)• 1983: Language as a Cognitive Process (Winograd)• 1983: kétszintes morfológia (Koskenniemi)• 1980-1990-as évek: megjelennek a piaci alkalmazások

– Apple Macintosh, IBM PC: helyesírás, elválasztás stb.– Logos

– Siemens Metal > Langenscheidt T1

– PC-alapú rendszerek: Globalink, Tovna, Kielikone, ProMT

• 1980-as évek vége: IBM – statisztikai módszerek• 1990-es évek: megszület ben a korpusznyelvészet• 1990-es évek vége: a Lernout & Hauspie tündöklése és bukása,

majd a ScanSoft (amit 2005-t l a Nuance) felvásárolja• 2000-es évek (?): a beszédfordító rendszerek ígérete• … és minden egyre inkább statisztikai módszerekkel

Page 4: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A természetes nyelvek számítógépes

ábrázolásának kutatási problémái

• Formális nyelvek a természetes nyelvekkutatásában

• A nyelvmodellek és a nyelv„távolságáról”

• Pontosság és lefedettség

• Túl- és alulgenerálás

Prószéky GáborPrószéky Gábor

Page 5: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A természetes nyelvek modellezésének

szintjei és eszközei

• Nagy paradigmák: a statisztikai, a szabály-alapú és a példa-alapú rendszerek

• A korpusznyelvészet kialakulása: akorpuszok alkalmazása a nyelv különbözszintjeinek kutatásában (treebank)

• A nyelvi kutatások szintjei: fonológia,morfológia, szintaxis, szemantika,pragmatika

• Szövegnyelvészet, dialógus-kutatás,világismeret-kutatás

Prószéky GáborPrószéky Gábor

Page 6: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Az angol morfológia

• 1. walk (ige): walk, walks, walking,walked, walker, walkable

• 2. simple (mn): simple, simpler, simplest,simply, simplier, simplicity

• 3. computer (fn; belevéve a képzéssel kapottteljes igei paradigmát is): computer,computer’s, computers, computers’,computerize, computerizes,computerized, computerizing

Prószéky GáborPrószéky Gábor

Page 7: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Az angol morfológia VÁA-ja

Prószéky GáborPrószéky Gábor

reg-noun: fox, cat, dog;

irreg-pl-noun: geese, sheep, mice;

irreg-sg-noun: goose, sheep, mouse;

plural: -s

reg-verb-stem: walk, fry, talk;

irreg-verb-stem: cut, speak, sing, sang;

irreg-past-verb: caught, ate, eaten;

past: -ed;

past-part: -ed;

pres-part: -ing;

3sg: -s

Page 8: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Az angol morfológia VÁA-ja (2)

Prószéky GáborPrószéky Gábor

Page 9: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A magyar morfológia

• 1. tesz (ige): teszek, teszel, tesz, teszünk, tesztek,tesznek stb.… tettem, tetted, tette, tettük, tettétek,tették stb. … tenném, tennéd, tenné, tennénk,tennétek, tennék stb.… tehetek, tehetsz, tehet,tehetünk, tehettek, tehetnek stb. … tev , tev k,tev nek, tev leges stb. …

• 2. egyszer (melléknév): egyszer en, egyszer t,egyszer nek, egyszer vel, egyszer vé stb. …egyszer ek, egyszer eknek stb. … egyszer sít,egyszer södik, egyszer sít stb. (és az igealakok sora) …egyszer bb, egyszer bbnek, egyszer bbeket stb.…legegyszer bb, legegyszer bbé stb.

• 3. számítógép (f név): számítógépem, számítógéped,számítógépe stb. … számítógépeimet,számítógépeidet, számítógépeit stb. …számítógépezem, számítógépezel, számítógépezik stb.… számítógépes, számítógépesnek stb.

Prószéky GáborPrószéky Gábor

Page 10: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A magyar morfológia - 2

A morfológiai elemzés mint program egy olyanfekete doboz, mely az alábbi lépéseket végziel a bemenetül kapott szóalakon:

1.elemi morfémáira bontja;

2.meghatározza a morfémák lexikális alakját;

3.meghatározza az egyes morfémák morfo-szintaktikai tulajdonságait (esetleg másnyelvtani tulajdonságokat is)

Prószéky GáborPrószéky Gábor

Page 11: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Átmenetgráfos ábrázolás(alma, alom, anya, anyag, apa, apad )

Prószéky GáborPrószéky Gábor

S

A

B

C D

G K

H L*

E* F* I* M*

J*

a

l n p

m o y a

a m a d

g

Page 12: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Trie = szófa

Prószéky GáborPrószéky Gábor

Trie (=szófa)(to, this, the, that)

A szófa egy olyan, a szavak rákövetkez karaktereivel címkézettélsorozatokat tartalmazó fa, amelyben egy szót úgy találunk meg, hogyvégigjárjuk karakterenként.

Page 13: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szófa és véges fordító (transducer)(alma, almafa, almák, almával)

Prószéky GáborPrószéky Gábor

S A B C

D

G H

I J K

E F

a l m

a

f a

á

k

v

a l

S A B Ca:a l:l m:m

a:a

á:a

G Hk:k

v:V

I J Ka:A l:l

G’’:+

H’:[PL]

J

:[IN]

D E Ff:f a:a

E’:+ F’

:[FN]

G’

:[FN]

D’

:[FN]

• alma : alma[FN]• almafa : alma[FN]+fa[FN]• almák : alma[FN]+k[PL]• almával : alma[FN]+VAl[IN]

Page 14: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Prószéky GáborPrószéky Gábor

A módosított szófa(alma, alom, anya, anyag, apa, apad, aránytalanság)

• Ha tudjuk, hogy véges sok elemünk van, módosítható azelágazási helyeknél:alm a

alo m

anyaanyagapaapadar ánytalanság

• Akkor éri meg, ha jelent sen különböznek a szóvégek

• További módosítások: az el tagok (igeköt k, re-, pre-, anti-stb.) elkülönítése mellett a tipikus és ritka kezd bet párokegyedi kódolása

• Az angol lexikonok tanúsága szerint 262=676 indító bet párbólcsak 309 létezik, amib l 88 csak 15-nél kevesebb szó elején)

Page 15: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A Kay-féle szótárábrázolás(alma, alom, anya, anyag, apa, apad, aránytalanság)

Kay (1977): tömörítés numerikus prefixekkelalma 0

alom 2

anya 1

anyag 4

apa 1

apad 3

aránytalanság 1

Tehát a szótár:alma, 2om, 1nya, 4g, 1pa, 3d, 1ránytalanság

Akkor éri meg, ha hasonlítanak a szókezdetek(nagy szótár esetén mindig!)

Page 16: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A morfológiai elemzéshez kapcsolódó

alapfogalmak

Prószéky GáborPrószéky Gábor

szókészletszótárábrázoláskeresési lépésektúlgenerálászártság

Page 17: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Prószéky GáborPrószéky Gábor

Emlékezetfrissítés

Nyelv:füzérek halmazaReguláris nyelv:füzérek olyan halmaza, melykonkatenációval, iterációval és egyszerhalmazm veletekkelhozható létreReguláris kifejezés:a reguláris nyelvet leíró kompakt formulaVéges állapotú automata:egy olyan absztrakt gép, mely egy regulárisnyelvet fogad el

Page 18: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Reguláris kifejezés nyelv VÁA

Prószéky GáborPrószéky Gábor

Page 19: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Reguláris kifejezések VÁA-ként

Prószéky GáborPrószéky Gábor

Page 20: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Újraírószabályok egy VÁA-ban

Prószéky GáborPrószéky Gábor

Page 21: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Újraírószabályok egy VÁA-ban - 2

Prószéky GáborPrószéky Gábor

Page 22: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Kétszintes megfogalmazások

Prószéky GáborPrószéky Gábor

Page 23: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Párhuzamosság: VÁA-metszet

Prószéky GáborPrószéky Gábor

Page 24: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Két szint: felszíni és lexikális

Prószéky GáborPrószéky Gábor

Page 25: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A kétszintes szabályok

L:S => E

„Csak akkor, de nem mindig."

L csak az E környezetben realizálódik S-ként.

Az S-ként realizált L nem megengedett a ¬E környezetben.

Ha L:S, akkor annak E környezetben kell lennie.

Persze L:¬S is engedélyezett lehet az E környezetben.

L:S <= E

„Mindig, de nem csak akkor."

L mindig S-ként realizálódik az E környezetben.

Az ¬S-ként realizált L nincs megengedve az E környezetben.

Ha L illeszkedik az E környezetbe, akkor L:S.

Persze L:S el fordulhat máshol is.

Page 26: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A kétszintes szabályok (2)

L:S <=> E

„Akkor és csak akkor"

Az L S-ként akkor és csak akkor realizálódik, ha E a környezet.

Mind L:S => E, mind L:S <= E fennáll.

L:S kötelez az E környezetben.

L:S sehol máshol nem fordulhat el .

L:S /<= E

„Soha."

L soha nem realizálódik S-ként az E környezetben.

Az S-ként realizált L nincs megengedve az E környezetben.

Ha L az E környezetben áll, akkor fenn kell álljon L:¬S.

Page 27: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Egy konkrét kétszintes szabály

Prószéky GáborPrószéky Gábor

Page 28: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A kétszintes rendszer

• a felhasználó környezetfügg szabályokat ír

• minden jelenségre egy szabály (a többi arendszer dolga)

• az ábécé(k) megadandó(k):

• lexikonok és folytatási osztályok

• metakarakterek használhatók

• speciális szimbólumok (üres, akármi)

• szabályfordító és táblázatos formaPrószéky GáborPrószéky Gábor

Page 29: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Kés bb: szabályok és lexikonok

kompozíciója

Prószéky GáborPrószéky Gábor

Page 30: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szabályok és lexikonok metszete a

gyakorlatban

Prószéky GáborPrószéky Gábor

Page 31: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Több szalag: felszíni és több lexikális

Prószéky GáborPrószéky Gábor

Page 32: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Folytatási osztályok

Leegyszer sített magyar névszói toldalékolás:

S A C DFN PL ACC | DAT | INS

B

IGEÁS

ACC | DAT | INS

Page 33: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szóalaktani alapséma

nemterminális nemterminális terminális

t toldalék toldalék toldalék

(relatív) t / relatív toldalék

relatív t / relatív toldalék

relatív t / (relatív) toldalék

Page 34: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

HUMOR

High-speed Unification Morphology

folytatási osztályok (mátrix)

jegy-érték párok

unifikáció: részletes definíció kés bb

ld. Prolog, de nem rögzített aritás

unifikáció vs. unifikálhatóság

minden tulajdonság jegyként

nincs más „valós” m velet, csakaz unifikálhatóság-ellen rzés

Page 35: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Jegyszerkezetek

Page 36: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Unifikáció

Page 37: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

DAG-ok ábrázolása

Page 38: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Az unifikáció definíciója

Page 39: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Bináris kérdések

a magyar morfo-fonológiáról

= + = –1 névszó névszó ige2 fn f név melléknév, számnév3 szótári szótári alapalak nem szótári alapalak4 elöl elöl képzett hátul képzett5 kerek ajakkerekítéses nem ajakkerekítéses6 PL többes szám nem állhat többes számban7 PLköt PL köt hanggal PL nem köt hanggal8 PERS birt. szem.ragos nem kap birt. szem.ragot9 ACC van tárgyesete nem tárgyesetes10 ACCköt ACC köt hanggal ACC nem köt hanggal11 DAT van részesesete nincs részesesete12 INS:ß van eszk.h.esete nincs eszk.h.esete13 ÁS -ás/-és képz s nem kap -ás/-és képz t

Page 40: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szótövek tára

szó [][+névszó +fn +szótári –elöl –kerek –PL

–PERS +ACC –ACCköt +DAT +INS:V]

szav [][+névszó +fn –szótári –elöl –kerek +PL

+PLköt +PERS –ACC +DAT –INS]

képez [][–névszó +szótári +elöl –kerek –ÁS]

képz [][–névszó –szótári +elöl –kerek +ÁS]

...

Page 41: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Toldalékok tára

ás [–névszó –elöl +ÁS][+névszó +fn +szótári –elöl –kerek +PL

+PLköt +ACC –ACCköt +DAT +INS:S]

és [–névszó +elöl +ÁS][+névszó +fn +szótári +elöl –kerek +PL

+PLköt +ACC –ACCköt +DAT +INS:S]

ak [+névszó –elöl –kerek +PL +PLköt ][+névszó –elöl –kerek –PL –PERS +ACC

+ACCköt +DAT +INS:K]

ek [+névszó +elöl –kerek +PL +PLköt ][+névszó +elöl –kerek –PL –PERS +ACC

+ACCköt +DAT +INS:K]

nak [+névszó –elöl +DAT ][]

nek [+névszó +elöl +DAT][]

...

Page 42: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Unifikációs morfológia

szó [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V]

*szav [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC +DAT –INS]

szó+nak [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V][+névszó –elöl +DAT ]

*szav+nak [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC –DAT][+névszó –elöl +DAT]

*szó+vel [+névszó +fn +szótári –elöl –kerek –PL –PERS +ACC –ACCköt +DAT +INS:V][+névszó +elöl +INS:V]

*szav [+névszó +fn –szótári –elöl –kerek +PL +PLköt +PERS –ACC +DAT –INS]

képz+és+nek [–névszó –szótári +elöl –kerek +ÁS][–névszó +elöl +ÁS][+névszó +fn +szótári +elöl –kerek +PL +PLköt +ACC –ACCköt +DAT

+INS:S][+névszó +elöl +DAT]

Page 43: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Morfo-fonológiai „guesser”

kacsónak + 0 FN + 0

kacsóna + k * FN + PL

kacsón + ak * FN + PL

kacsó + nak FN + DAT

kacsó + nak * IGE + PL3

kacs + ó + nak * IGE + MNI + DAT

ka | csónak + 0 * FN|FN

Page 44: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Tipikus hibák a számítógéppel létrehozott

dokumentumokban

• karakterhibák

• valódi helyesírási hibák

• nyelvhelyességi hibák

• tipográfiai hibák

• helyesírás-ellen rzés a szavak szintjén

• a szóellen rzés és a nyelvhelyesség-ellen rzésviszonya

• a nyelvi programrendszer lehetséges hibái(kör/k r, -ít)

Page 45: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A szóellen rzés menete

(1) Morfológiai elemzés

kérdésse <nincs ilyen szó a magyarban>

(2) Ajánlás

törlés:

érdésse, krdésse, kérésse, kédésse, kérdése, kérdéss

helycsere:

ékrdésse, krédésse, kérédsse, ..., kérdéses

nyelvspecifikus csere:

kérdéssé, kérdesse, ...

...

(3) Ellen rzés morfológiai elemzéssel

kérdése, kérdéses, kérdesse, kérdéssé

Page 46: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szóellen rzés morfológiával

kérdése

kérdés[FN]+e[PSe3] f névi

kérd[IGE]+és[IF]+e[PSe3] f névi

kérdéses

kérdéses[MN] melléknévi

kérdés[FN]+es[SKEP] melléknévi

kérd[IGE]+és[IF]+es[SKEP] melléknévi

kérdesse

kérd[IGE]+es[MUV]+se[TPe3] igei

kérdéssé

kérdés[FN]+sé[FAC] f névi

kérd[IGE]+és[IF]+sé[FAC] f névi

Page 47: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Nyelvhelyesség-ellen rzés a szóhatáron túl

lehetséges-e mondatszint helyesírás-ellen rzés?

„grammar checker” ?parciális elemzések

hiba-nyelvtan vs. nyelvtan

hibaelemzések, a hibák súlyozása

a hiba és a nem-hiba határának elmosódása

a nyelvi vagy a formai természet hibáksz résének preferálása

stílusellen rzés számítógéppel

Page 48: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A magyar elválasztás szabályai

Alap Elválasztva Példa

VV V–V ba-uxit

VC1C2V VC1–C2V er-kély

VCiCiV VCi–CiV vet-tem

VCc1c2V VC–c1c2V mor-zsa

Vc1c2CV Vc1c2–CV asz-tal

Vc11c12c21c22V Vc11c12–c21c22V tarisz-nya

Vc1c1c2V Vc1c2–c1c2V össze/ösz-sze

#VV #VV autó

#VC #VC alaki

VV# VV# hazai

Page 49: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Automatikus szövegelválasztás

az elválasztás alkalmazásaautomatikus és interaktív módszereka morfológiai felülbírálás kérdésealternatív elválasztások kezelése(többértelm ség, illetve a szabályok„engedékenysége” miatt)tipográfiai szempontokkülönleges elválasztások (hosszú kett smássalhangzók, mássalhangzó-háromszorozódás) helyes kezelése

Page 50: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Számítógépes szinonimaszótárak

és tezauruszok

a szinonimákrólszinonimaszótár vagy tezaurusz?

tárolási és keresési problémák

a rokonértelm ség definíciója

az automatikus csere problémáit visszaállítás

többértelm ségek kezelése

a lexikai és a szintaktikai szó különbségéb l adódónehézségekaz összetett szavak szinonimáinak problémája

morfológiai generálás minta alapján

Page 51: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szintaxis

közvetlen összetev s szerkezet

függ ségi szerkezet

Prószéky GáborPrószéky Gábor

Page 52: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Összetev s szerkezet

Page 53: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Függ ségi szerkezet

I gave him my address.

Page 54: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A mondatszerkezet leírásának

f bb eszközei

Közvetlen összetev s nyelvtanok: el nyüka magasabb szint kategóriákbevezetésének lehet sége, hátrányuk aszintaktikai viszonyok egy részének„kifejezhetetlensége”Függ ségi szerkezet: el nyük a szintaktikaifügg ség kifejezésének lehet sége,hátrányuk a magasabb szint kategóriákkezelhetetlenségeEgy elegáns közös megoldás: az X-vonásnyelvtanok

Page 55: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

X-vonás: összetev k és függ ség

S NP VPAz összetev s szerkezetben az NP és a VP„testvérek”, azaz mindketten az S„gyermekei”, de ezt nem fejezi ki a függ ségileírásAzt viszont a közvetlen összetev s leírás nemfejezi ki, hogy testvérek bár, de nemegyforma súllyal, ui. a VP a szerkezet fejeX-vonás szabályként: V” N’ V’Azaz: a V” a V maximális projekciója, tehát amondat feje az ige!Csak endocentrikus szerkezetekre!(v.ö. exocentrikus)

Page 56: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

X-vonás szerkezetek

Page 57: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

X-vonás mondatszerkezet

Page 58: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Balrekurzió, önbeágyazás

Önbeágyazás balrekurzióval (S NP VP, NP Pron S):0: A fiú elment.

1: A fiú, akit a barátom meghívott, elment.

2: A fiú, akit a barátom, akir l a kollégám mesélt, meghívott, elment.

3: A fiú, akit a barátom, akir l a kollégám, akivel egy iskolába jártam,mesélt, meghívott, elment.

Veremkezelés helyett egyszer utalás:Az a fiú elment, akit az a barátom hívott meg, akir l az a kollégám mesélt,akivel egy iskolába jártam.

Page 59: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Jobbrekurzió

„az agyag

ölel karjai közül

kibontakozni akaró kocsikerék

rettent nyikorgásától

megriadt juhászkutya

bundájába

kapaszkodó kullancs

kidülledt félszeméb l

alácseppen könnycseppben

visszatükröz d holdvilág

fényét l

illuminált rablólovagvár

felvonóhídjából

kiálló vasszegek

kohéziós erejének

hatása”

(Fehér G.)

Page 60: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A „PP-attachment” probléma

Page 61: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

RTN

(Recursive Transition Network)

Page 62: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

RTN

(kiegészítések a VÁA-hoz)

A szokásos VÁA m ködtetésén túl figyelni kell:

az aktuális bemeneti pozíciót,

az aktuális állapotot és

hogy hova kell visszatérni

összegezve: veremkezelés kell

Page 63: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

RTN

(összefoglalva)

az RTN egymást hívó VÁA-k hálózata:az élek címkéin megjelenik akategória, azaz más VÁA-k „neve”

a VÁA (a reguláris nyelvek) O(n) idalatt elemezhet k

az RTN viszont veremautomata, azazkörnyezet-független nyelvekelemzésére is alkalmas, tehát csakO(n3) elemzési id garantálható

Page 64: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

ATN(az RTN b vítése)

ÉLCÍMKÉK:

WRD *, CAT *, PUSH *, POP, JUMP *

ÉRTÉKEK:

GETR, *, QUOTE, GETF, BUILDQ *, APPEND

TESZTEK:

T, EQ, AND, OR, NOT

AKCIÓK:

SETR, TO

Page 65: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Példák ATN-élekre

Page 66: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Mire elég a szintaxis?

Page 67: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Lehet, hogy többet érne a „jelentés”?

Page 68: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Sok mondat - egy jelentés

Page 69: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Hasonló mondat - különböz jelentés

Page 70: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

„Mély” esetek

Page 71: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Híres fogalmi hálók

AZ MI kezdetén: Quillian, Minsky, Charniak, ...

Fogalmi függ ség: Schank

Logikák:Hendrix, Sowa (fogalmi gráfok), …

Ontológiák:CyC, MindNet, FrameNet, ...

WordNet (pszichológusok indították):WordNet, EuroWordNet,eXtendedWordNet, ...

Szemantikus web: (?)

Page 72: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A fogalmi függ ség igeosztályai

Page 73: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Eseményábrázolás a FF elméletében

Page 74: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A fogalmi függ ség állapotosztályai

Page 75: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Schank (1)

Page 76: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Schank (2)

Page 77: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Forgatókönyvek

Page 78: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Az „étterem” forgatókönyve

(a tipikus eseménysor)

Page 79: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Az „étterem” forgatókönyve

(alapismeretek)

Page 80: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Az „étterem” teljes forgatókönyve

Page 81: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szótárak és terminológiakezelés

nyomtatott szótárak és elektronikus szótárak

terminológiai adatbázisok

közvetlen és közvetett elektronikus szótárak

egynyelv , kétnyelv és többnyelv szótárak

a forrásnyelv és a célnyelvek aszimmetriája

Page 82: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szerkesztési elvek

Az (önálló ill. utaló) szócikkek és felépítésükA szócikkfej: címszó, homonimák ésálhomonimák, alak- és írásváltozatok, kiejtés,elválasztás, szófaj, f bb toldalékos alakok,nyelvtani megjegyzés, stílusmin sítésJelentéscsoportok (alapjelentés ésjelentésárnyalatok): értelmezések (ekvivalensek)és példákSzóláshasonlatok, közmondások, más szavakkalalkotott összetételek, származékszók

Page 83: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Keresés a szótár(ak)ban

bet szerintcsonkolt keresés

hasonlósági keresés (fuzzy, spell)

nyelvi alapú keresés a bemeneti oldalon

nyelvi alapú keresés a találati oldalona kifejezések kezelésének problémái:alcímszók, kulcsszó-választás, indexek,egyazon kifejezés több címszó alatt

„könyvespolc”: egységes felület

egyidej használat: párhuzamos(nak t n )keresés

Page 84: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Többszavas kifejezések keresése

csak címszóként

bet szerint

teljes szöveg kereséssel

reguláris kifejezéskéntt indexekkel: készítéskor vagyelemzési id ben (is)

Page 85: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A szótári jobboldal szerepe

papírszótárak esetében: csak tipográfiai

elektronikusan: új lehet ség

ábécé-környezet helyett szinonimáktöbbféle jelentés kezelése a baloldalicímszavak segítségével

új találati ablak

elektronikusan érdemes „kifordítani” aszótárakat

Page 86: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Az elektronikus szótárak megfordíthatók

Page 87: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Gyorsfordítók

amikor információ kell, pl. szótári, akkor:

csak amit kérek, nem többet,de azt gyorsan,

kevés aktív m velettel

és a lehet legautomatikusabban!

kialakul a „pop-up” viselkedésa kijelölhet ség, ill. az automatikusindíthatóság szerepe

Page 88: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A „rávetít s” megoldás lépései

szöveg(rész)-felismerésnyelvi elemzés: morfológia, lemmák,szókapcsolatok (esetleg környezetelemzés)

szótári keresés: tövesítve vagy csakliterálisan

megjelenítés: buborékban vagy fixablakban

log: automatikus információgy jtéslehet sége

Page 89: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A fordítómemória gondolata

A lefordítandó mondat:

After a few seconds, a window will appear in which you are

expected to enter a valid User ID and (if necessary) a password.

Korábban már fordítottuk ezt:

After 5 seconds, a window will appear on the screen in which you

are expected to enter a User ID and (if required) a password.

Méghozzá így:

Öt másodperc múlva egy ablak jelenik meg a képerny n, amelybe

be kell gépelni egy felhasználó-azonosítót és (ha szükséges) egy

jelszót.

Ebb l a következ fordítás könnyen el állhat:

Néhány másodperc múlva egy ablak jelenik meg, amelybe be kell

gépelni egy érvényes felhasználó-azonosítót és (ha szükséges) egy

jelszót.

Page 90: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A fordítómemória mint eszköz

Page 91: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szövegszinkronizálás

bi-text

párhuzamos korpuszokszinkronizálás: valós id ben és utólag

pl. a Biblia

„You will not surely die,” the

serpent said to the woman.

(Genesis 3:4)

A kígyó erre azt mondta az

asszonynak: „Dehogy is haltok meg!”

(Ter 3,4)

Page 92: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Szövegszinkronizálási szintek

bekezdésszint

mondatszint

frázis-szint (?)

szószint (??)mondathatár-problémák

horgonyok

statisztikai módszerek

Page 93: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Nem feltétlenül 1-1 értelm

(1 = 1,2) O stylographe à laplume de platine, que tacourse rapide et sans heurttrace sur le papier au dossatiné les glyphesalphabétiques quitrans mettront aux hommesaux lunettes étin ce lantesle récit narcissique d’unedouble ren contre à lacause autobusilistique.

(1 = 1) Ó, platinahegytölt toll!

(2 = 1) Vajha tajtékos-gyorsfutásod a szaténhátúpapirosra róná amazalfabéta-cikornyákat,melyek a csillogó okulárésemberek tudomására hozzákaz autóbuszilisztikus-okútalálkozás önbálványozókrónikáját!

Page 94: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A nyelvi szerkezetek hasonlóságáról

zöld kutyazöld macskasárga kutyasárga macskapiros egérkis asztalhét kis ágya tegnapi bulirólelmentem a tegnapi bulirólbeléptünk az EU-bajó napot!

Page 95: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A gépi fordítás alapmódszerei

szabály-alapú:közvetlen fordításközvetít nyelves fordítástranszfer rendszerek

statisztikai

Egy szó mint száz...

Page 96: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Becslések az európai nyelven írt internetes

szövegek lehetséges méretér l

Page 97: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

… milyen „min ség ” szövegek vannak a weben?

1 150 000

441 000

522 000

436 000

2 480 000

19 400 000

1 940 000

19 200 000

47 700

66 400

128 000

193 000

116 000

681 000

67 400

2 460 000 000

Full

.nternet

i.ternet

in.ernet

int.rnet

inte.net

inter.et

intern.t

interne.

niternet

itnernet

inetrnet

intrenet

intenret

interent

internte

internet

Page 98: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Fordítási modellNyelvmodell

Bayes

Statisztikai gépi fordítás

Egy szó mint száz...

Page 99: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

• Nincs külön szótár és külön nyelvtan

• Csak minta-párok vannak: bemenet/interpretációszerkezet-párok

• Egyetlen elemzési menet: nincs rákövetkezm velet (pl. transzfer)

• Célszerkezet-generálás:az elemzés „melléktermékeként”

• Új:

MetaMorpho-elvek

Egy szó mint száz...

Page 100: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Minták: általánosított nyelvészeti információk

• Rövid, specifikus minták:

szótári címszavak

• Hosszabb, specifikus minták:

többtagú kifejezések

• Részlegesen alulspecifikált minták:

kollokációk, idiómák

• Teljesen alulspecifikált minták:

nyelvészeti szabályok

• Fordítástámogató nyelv:

minta–interpretáció párok

Egy szó mint száz...

Page 101: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A MetaMorpho projekt

Egy szó mint száz...

• A projekt: 1991-t l folyamatosan készített moduljainkfelhasználásával (kb. 100 emberév) 2000-ben indult,bels projektként (semmilyen küls támogatása nincs)

• Cél: mondatszint fordítás – új elven: a szavakkörnyezetének felhasználásával (egy n elemmondatban éppen n darab (n-1) elemb l álló környezetvan)

• Forrásnyelv: angol, magyar

• Célnyelv(ek): magyar, angol, …

• Szakterület: nincs de dinamikusan b víthet

• Minta-alapú: példák (TM) és szabályok (MT) egységesen

• Minták száma: kb. 200.000

• Lexikon: kb. 100.000 alapszó

• Elvárt sebesség: 50 karakter/s

• Felhasználói felület: MoBiCAT, MoBiWAP, MMO-Office,MorphoWord, MoBiWeb, webforditas.hu

Page 102: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

A MetaMorpho „belülr l”

EN: The whole class was obsessed with the coming match.

SFULL CS S SP SUBJ NP DET The 0122 0121 0120 0119 0112 0109 0108 Az [the]

NN ADJP ADJ whole 0105 0104 0098 egész [whole] N class 0091 osztályt [class+ACC] MPRED PRED VP TV TVR TVR BE was 0062 0061 0060 0059 0058 0057 0055 foglalkoztatta [deal+FAC+PAST+Sg3] V obsessed 0044 PPOBJ PREP with 0042 0039 OBJP NP DET the 0032 0031 0030 a [the] NN ADJP ADJ coming 0027 0026 0015 közelg [coming] N match 0002 mérk zés [match+NOM]

END . 0001

.

HU: Az egész osztályt foglalkoztatta a közelg mérk zés.

Egy szó mint száz...

Page 103: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Angol-magyar gyorsfordító szolgáltatás

MoBiCAT: teljes mondatok fordítása(MoBiCAT-szerver akár intraneten vagy interneten)

Page 104: Nyelvtechnológia 1home.mit.bme.hu › ~strausz › KomplexMIalkalmazások... · 8 PERS birt. szem.ragos nem kap birt. szem.ragot 9 ACC van tárgyesete nem tárgyesetes 10 ACCköt

Angol-magyar weblap-fordítás(MorphoWeb, webforditas.hu)