szintaktikai elemzés

Post on 13-Jan-2016

42 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Szintaktikai elemzés. 2010. február 23. Szófaji egyértelműsítés. A morfológiai elemző előállítja az egyes szavak összes lehetséges elemzését. Ezután az egész mondatot figyelembe véve kiválasztjuk a lehetséges elemzések közül a megfelelőt. Part of Speech Tagger (POS) – szófaji egyérteműsítő. - PowerPoint PPT Presentation

TRANSCRIPT

Szintaktikai elemzés

2010. február 23.

Szófaji egyértelműsítés

A morfológiai elemző előállítja az egyes szavak összes lehetséges elemzését. Ezután az egész mondatot figyelembe véve kiválasztjuk a lehetséges elemzések közül a megfelelőt.

Part of Speech Tagger (POS) – szófaji egyérteműsítő

Szintaktikai elemzésA mondat egységeinek azonosítása, a közöttük lévő szintaktikai kapcsolatok feltárása.

Megközelítések:• alany, állítmány, tárgy …

• konstituens fa (constituency parsing)

• függőségi nyelvtan (dependency parsing)

Alkalmazás• Információ kinyerés, gépi fordításA Kis Hal bt.-t felvásárolta a Nagy Hal kft.

A Kis Hal bt. felvásárolta a Nagy Hal kft.-t.

• Nyelvtani ellenőrzés

Nyelvtan

• „Egy nyelv elemei, szerkezete, törvényszerűségei”

• 3 évesen tökéletes az anyanyelven

• Implicit!

• Iskolai nyelvtan?

Konstituens fa

• Szavak csoportjai (eredeti sorrendben) egységeket alkotnak

• Az egységek osztályokba sorolhatóak amelyek külső és belső szempontokból jól definiáltan viselkednek.

Például főnévi csoportok:

én, a város, a piros labda, a tegnapelőtt vásárolt nagy kerek piros labda

Konstituens fa

S: mondat

VP: igei csoport

NP: főnévi csoport

Egy példa a Szeged TreeBank-ből

Strukturális többértelműség

Láttam a lányt távcsővel.

S

VP

NP

Strukturális többértelműség

Láttam a lányt távcsővel.

S

VP

NP

NP

Környezetfüggetlen nyelvtanok (CFG)

• Terminálisok: szavak

• Nemterminálisok: konstituensek

• Szabályok: baloldal egyetlen nemterminális

Szintaktikai elemzés

• Adott szabályok egy halmaza

• S a gyökér

• Minden szót fedjen le és csak azokat

• Top-Down vs. Bottom-Up

Bottom-Up elemzés

a

has

|dog

Det

V

boneN

NDetNP

NPVVP

VPNPS

a dog has a bone

S

Det N V

Det N

NP

NP

VP

PCFG• Minden szabályhoz egy

valószínűség (baloldalak feletti eloszlások)

• Treebankből becsülhető

• Strukturális többértelműség?

Shift Reduce elemzés

• Bottom – Up, backtrack nélkül

• Verem segítségével dolgozik, O(n)

• Shift: Leválasztja a mondat legbaloldalibb elemét, és a verembe teszi.

• Reduce: A veremben lévő elemekre próbál szabályt illeszteni.

Shift Reduce elemzés →|

Step Action Stack Input0 (start) the dog barked1 shift the dog barked2 reduce d dog barked3 shift dog d barked4 reduce n d barked5 reduce np barked6 shift barked np7 reduce v np8 reduce vp np9 reduce s

Shift Reduce tanulás

Tanító halmaz alapján:

• reduce szabályok generálása

• szabályok közötti sorrend felállítása (mohó, valószínűségi)

• akciók (S/R) alkalmazásának tanulása

Megkötések

’hány -t’ – fitty

’hány -rA’ – szem

‘hány -nAk’ !?

Fej azonosítása

Függőségi nyelvtan• Irányított, bináris kapcsolat szavak közt• Minden szóhoz pontosan egy bemenő él

(fa)• Kiindulási pont a főige

Eltérés a konstituens fától:• Nincsenek frázisok, • nem csak az egymást követő szavak közti

kapcsolatokat vizsgálja.

Függőségi nyelvtan

Különösen alkalmas szabad szórendű nyelvek kezelésére!

Dependecia elemző tanulása• Tranzakció-alapú

– Minden lépésben egy új él felvétele– Osztályozási probléma:

• egyedek: szópárok• jellemzők: szavak, POS kódok• akció: új él behúzása vagy semmi

• Gráf-alapú– Jósági függvény – Legjobb gráf megtalálása

Gráf-alapú dependencia elemzés

• Jósági függvény– Él szintű jósági értékek aggregáltja– Él szintű érték: gyerek és szülő,

szavak és POS kódok– Paramétereinek megtanulása a tanító

adatbázisból

• Legjobb gráf megtalálása– Maximális feszítő fa– Dinamikus programozás

Konstituens vs. függőségi nyelvtan

Főige: robbed

alany: the burglar

robbed tárgya: the appartament

Konstituens vs. függőségi nyelvtan

• Melyiket?

Alkalmazás-orientáltan…

• függőségi nyelvtan könnyebben gépi tanulható

• szemantikához közelebb áll a függőségi

Szintaktikai elemzés jóságának mérése

• Konstituens elemzés– Minden konstituenst hasonlítunk

(címkézve vagy anélkül)– Egyes szavak őseinek sorozatát

hasonlítjuk

• Dependencia elemzés– minden szóra– ős és/vagy reláció típusának

eltalálása

Hol tart a világ?• Korpuszok

– Konstituens alapú korpuszok

(Penn TreeBank, Szeged TreeBank)– Ezek átalakítása dependenciára– Magyarra is folyamatban

• Elemzők– Nyelvtől, jelölés mélységétől függ– ~75-85% (CoNLL 2007)

top related