szemantika: jelentés-egyértelműsítés, nyelvi bizonytalanság, nem kompozicionális kifejezések

29
Szemantika: jelentés- egyértelműsítés, nyelvi bizonytalanság, nem kompozicionális kifejezések A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 21.

Upload: zuleika-inara

Post on 30-Dec-2015

20 views

Category:

Documents


1 download

DESCRIPTION

Szemantika: jelentés-egyértelműsítés, nyelvi bizonytalanság, nem kompozicionális kifejezések. A számítógépes nyelvfeldolgozás alapjai. A számítógépes nyelvfeldolgozás alapjai – 2013. március 21. Bevezetés. Szemantika: jelentéssel foglalkozó nyelvészeti részterület Mi a jelentés? - PowerPoint PPT Presentation

TRANSCRIPT

Szemantika: jelentés-egyértelműsítés, nyelvi

bizonytalanság, nem kompozicionális kifejezések

A számítógépes nyelvfeldolgozás alapjai

A számítógépes nyelvfeldolgozás alapjai – 2013. március 21.

Bevezetés• Szemantika: jelentéssel foglalkozó

nyelvészeti részterület• Mi a jelentés?

– Térben és időben változhat (leó, király)– Egyéni különbségek (fogas)

• Szavak jelentése: lexikális szemantika• Mondatjelentés: predikátumlogika• Szövegek jelentése: kijelentéslogika

Formális szemantika a nyelvészetben

• Kijelentéslogikap v q

¬p

• Szavak jelentéseKutya ‘kutya’

Ugat ‘ugat’

• (Elsőrendű) predikátumlogika¬∃x(kutya(x) & ugat(x) & harap(x))

Mennyire adtuk meg a tényleges jelentést?

Számítógépes szemantika• Tartalmi elemzés automatikusan?

• Szöveg jelentésének megragadása távoli cél…

• Információkinyerést és gépi fordítást nagyban segítené

• Szavak jelentésének azonosítása könnyebb jelentés-egyértelműsítés (WSD)

Miért kell tartalmi / jelentéstani elemzés?

• A mondatszerkezet, morfológiai információk ismerete nem nyújt elég információt

• A forrás szempontjából egyértelmű üzenet többértelműségek, melyeket a vevőnek kell feloldani

• Ezt az egyértelműsítést olyan gyorsan képes elvégezni az agy, hogy egyszerre akár 2 forrást is értelmezni tudunk, valós időben– „Miért fejt több ember keresztrejtvényt, mint

szenet?”

Jelentés-egyértelműsítés• Word sense disambiguation: Egy szóalak

jelentésének kiválasztása, egy előre megadott (lehetséges jelentés-) halmazból– A lehetséges jelentések ált. egy szótárból– Osztályozási modellek alkalmazhatók (előre egyértelműsített példák szükségesek)

• Word sense discrimination: Az adott szóalak különböző használati eseteit (~jelentés) elkülöníteni, anélkül, hogy a lehetséges jelentéseket kívülről megadnánk /és így címkézett példáink sem lehetnek/– Felügyelet nélküli statisztikai modellek

WSD• Típusai

– All wordsA cél az összes szóalak egyértelműsítése, folyó szövegben

– Lexical sampleA cél bizonyos szóalakok egyértelműsítése, minden szóalakra önálló modell

– Finom jelentésmegkülönböztetés (min. 6-8 jelentés)– Durva jelentésmegkülönböztetés (max. 3-4 jelentés)

JÁR (movement in space, in time,

abstract motion)

stage by stage

5, 9, 21

REPETITIVE MOVEMENT

regular3, 4, 6, 31________

approaching15, 16, 18, 19

|

back and forth2, 12

||||

step by step1, 33

functioning10, 11, 13, 17,

20

consequence

23, 24, 25

BELONGING TOGETHER

occurring together

22--

many-to-one32

OTHER

one-to-one8, 27, 30

state7, 14, 29

idioms26, 28

verbs with prefixes*

Pro és Kontra• All words

– Nagyon kevés erőforrás áll rendelkezésre

– Olyan mintákat kell tanulni, melyek függetlenek az adott szóalaktól

– Nincs kielégítő megoldás még

– Gyakorlatban ez lenne jól használható

• Lexical sample– Több erőforrás van,

és olcsóbban előállítható 1-1 új szóalakra

– Az adott szóra jellemző mintákat tanulhatunk, könnyebb feladat

– Tűrhető (nem jó!) megoldások vannak

– Gyakorlatban ritkán használható

WSD magyarra• elkészült Szegeden az első (Lexical

Sample) tanítókorpusz magyarra (finom jelentésmegkülönböztetés)

• melléknév: anyagi, élő, erős, képes, pontos, szociális

• főnév: civil, család, élet, ház, helyzet, intézmény, iskola, kép, képviselő, kormány, nap, oldal, ország, perc, pont, program, század, személy, szervezet, tanár, világ, víz

• ige: függ, hat, jár, kap, kerül, marad, rendelkezik, szerepel, tart, tartozik, tud, válik

Magyar WSD-statisztikák

Magyar WSD-statisztikák

Modalitás• Az események lehetnek

– igazak– hamisak (tagadás)– bizonytalanok

• Nagyon fontos őket elkülöníteni és sajátos kezelésben részesíteni (alkalmazások: IE, IR, MT, OM…)

• Fókuszban: bizonytalanság azonosítása (angol nyelvre)

A feladat• Bizonytalanságot jelző nyelvi elemek

(kulcsszavak) azonosítása a szövegben és egyértelműsítése

In May, there may be heavy storms.• Hatókör azonosítása / a kulcsszavak és

események összerendelése• Alkalmazásnak megfelelően az adott

szövegrészek kiszűrése, törlése, kigyűjtése stb.

Mi a bizonytalanság?• Uncertainty• Hedge• Speculation• Factuality• Polarity• Weasel• Uncertain• Speculative• Probable• Possible• Doubtful

Korpuszok• BioScope (Vincze et al. 2008)• FactBank (Saurí and Pustejovsky 2009)• WikiWeasel (Farkas et al. 2010) • MPQA (Wiebe, Wilson, and Cardie 2005)• Biológiai cikkek (Medlock & Briscoe 2007)• PubMed-absztraktok (Settles, Craven, and Friedland 2008) • Genia Event (Kim, Ohta, and Tsujii 2008) • 10K biológiai mondat (Shatkay et al. 2008) • E. Coli (Thompson et al. 2008).• Genia Pathway (Nawaz, Thompson, and Ananiadou 2010)• 112 újságcikk (Rubin, Liddy, and Kando 2005; Rubin 2010)• Orvosi zárójelentések (Uzuner, Zhang, and Sibanda 2009)

Egységesítés• Egységes definíció:• Bizonytalanság = információ hiánya: a

befogadó nem lehet biztos valamely információban

• vs. tény = a befogadó biztos afelől, hogy az információ helytálló (és a világban is helytálló)

• vs. tagadás = a befogadó biztos afelől, hogy az információ téves (és a világban is téves)

A bizonytalanság fajtái• Szemantikai bizonytalanság: nem

rendelhető igazságérték a propozícióhozAlthough IL-1 has been reported to contribute to Th17 differentiation in mouse and man, it remains to be determined {whether therapeutic targeting of IL-1 will substantially affect IL-17 in RA}.

• Diskurzusszintű bizonytalanság: a propozíciónak van igazságértéke, a bizonytalanság a forrás/viszonyítási pont hiányából fakadSome people claim that this results in a better taste than that of other diet colas.

Szemantikai bizonytalanság• EPISTEMIC: It may be raining.

• HYPOTHETICAL:– DYNAMIC: I have to go.– DOXASTIC: He believes that the Earth

is flat.– INVESTIGATION: We examined the

role of NF-kappa B in protein activation.

– CONDITION: If it rains, we’ll stay in.

Diskurzusszintű bizonytalanság• WEASEL: homályos, félrevezető kifejezések,

forrás nélküli mondatok (kik?)Some people claim that this results in a better taste than that of

other diet colas.• HEDGE: mennyiséget/minőséget módosítják

(elmossák a határokat) (pontosan mennyi?)Amsterdam Zuidoost has approximately 86,000 inhabitants and

consists of some 38,000 houses.• PEACOCK: alá nem támasztott vélemények,

túlzások, szubjektív elemekThe main source of their inspiration was native Georgia, with its rich

and complex history and culture, its breathtaking landscapes and its courageous and hardworking people.

• Az információ megbízhatósága kérdéses

Bizonytalanság automatikus azonosítása

• Angolra jól működő gépi tanuló rendszerek a világban (Szegeden is) – szemantikai bizonytalanság

• Diskurzusszintű bizonytalanság: vannak próbálkozások (Szegeden is)

• Magyarra korpusz épül…

Kompozicionalitás• Egy összetett kifejezés jelentése

meghatározható tagjainak jelentéséből és azok kapcsolódási módjából

piros autó

kenyeret eszik

• De nem minden nyelvi kifejezés kompozicionális…

Többszavas kifejezések (MWE)

• Több szövegszóból álló lexikai egységek

• Szintaktikai, szemantikai, pragmatikai vagy statisztikai szempontból sajátos viselkedést mutatnak

• Kompozicionalitás (teljes) hiánya jellemzi őket

MWE típusai• Összetett főnevek: középiskola, farkasétvágy• Összetett melléknevek: római katolikus,

nagyotmondó• Igekötős igék: berúg• Közmondások, szólások: alulról szagolja az

ibolyát• Félig kompozicionális főnév + ige

szerkezetek (FX): előadást tart, csődbe megy• Egyéb: status quo, ilyen az élet

MWE-k a számítógépes nyelvészetben

• Sajátos bánásmód alkalmazások szintjén: racing car – versenyautó (MT), előadást tart - *tartás – előadás (IE)

• Azonosítani kell őket szövegkörnyezetben (give a ring, tevékenységet folytat)

• Annotált korpuszok (Wiki50, magyar FX-korpuszok…)

Angol MWE-k gyakorisága

MWE-k kezelése• Automatikus azonosításukra

szabályalapú és gépi tanulási módszerek angol és magyar nyelvre

• Annotált korpuszok több doménre és nyelvre

Alkalmazások szintje• Egy MWE egy egységként tárolódik

(pl. fordítási egység)• Speciális szabályok:

– IE: FX-eknél a főnév jelentése számít– Nem kompozicionálisoknál nem

használható egyik alkotóelem sem - lexikon

• Gépi fordításban nagyon nagy jelentősége van az MWE-knek (fűbe harap – to kick the bucket)