felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

24
Felügyelet nélküli jelentés- Felügyelet nélküli jelentés- egyértelműsítési módszerek egyértelműsítési módszerek összehasonlítása összehasonlítása Papp Gyula PPKE-ITK

Upload: channing-carlson

Post on 02-Jan-2016

30 views

Category:

Documents


0 download

DESCRIPTION

Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása. Papp Gyula PPKE-ITK. Tartalom. Bevezetés Korpuszalapú jelentés-reprezentáció gráfokkal vektorokkal Felügyelet nélküli jelentés-egyértelműsítés Gráf- és vektoralapú módszerek összehasonlítása Eredmények. Bevezetés. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Felügyelet nélküli jelentés-Felügyelet nélküli jelentés-egyértelműsítési módszerek egyértelműsítési módszerek összehasonlításaösszehasonlítása

Papp GyulaPPKE-ITK

Page 2: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

TartalomTartalomBevezetésKorpuszalapú jelentés-reprezentáció

◦gráfokkal◦vektorokkal

Felügyelet nélküli jelentés-egyértelműsítés

Gráf- és vektoralapú módszerek összehasonlítása

Eredmények

Page 3: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

BevezetésBevezetésHosszútávú cél:

nagyobb szövegegységek jelentés-reprezentációja korpuszbeli szó-együttelőfordulások alapján

Mire lehet hasznos a korpusz?◦ „You shall know a word by the company it

keeps”(Firth, 1957)

◦ „Meanings of words are largely determined by their distributional patterns” (Harris, 1968)

◦ „Words that occur in similar contexts will have similar meanings” (Miller és Charles, 1991)

A szavak jellemző együtt-előfordulásai meghatározzák a szövegegység jelentését

Page 4: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Gráfalapú jelentés-Gráfalapú jelentés-reprezentációreprezentáció„Drágulnak a részletek, de még

mindig jobban megéri a devizás, mint a forintalapú hitel.”

forintalapú

hitel

törlesztés

részlet

euro

kamat

forint

svájci frank

árfolyam

THM

deviza

3

3

3 3

3

2

2

2

4

4

4

4

7

7

7

7

5

6

Page 5: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Vektoralapú jelentés-Vektoralapú jelentés-reprezentációreprezentáció„Drágulnak a részletek, de még

mindig jobban megéri a devizás, mint a forintalapú hitel.”

árfolyam hitel bank deviza forint

0 1 0 1 0

részlet+hitel bank+euro árfolyam+forint pénznem+deviza

1 0 0 0

Page 6: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Mitől jó a reprezentáció?Mitől jó a reprezentáció?Mitől jó a reprezentáció?

◦azonos jelentés – azonos ábrázolás◦hasonló jelentés – hasonló ábrázolás◦eltérő jelentés – eltérő ábrázolás

Az előző reprezentációk jók voltak???◦az ábrázolások összehasonlíthatóak◦probléma: a jelentéseket nem tudjuk összehasonlítani!

Page 7: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

„Drágulnak a részletek, de még mindig jobban megéri a devizás, mint a forintalapú hitel.”

„A forint sokat vesztett értékéből az euróhoz képest.”

euro

forint

svájci frank

árfolyam

deviza

érték

7

9

7

8

5

73

4

forintalapú

hitel

törlesztés

részlet

euro

kamat

forint

svájci frank

árfolyam

THM

deviza

3

3

3 3

3

2

2

2

4

4

4

4

7

7

7

7

5

6

Page 8: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

„A postás kézbesíti a levelet.”

„A levél feladója rossz címet írt rá a borítékra.”

„A növények levelei zöldek.”

levél1

levél1

levél2

feladó

címzett

postás

borítékposta

levélcímzett

postás

kézbesítposta

levél

zöld

fa

növény

virággyökér

levél

Page 9: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Felügyelet nélküli JEÉFelügyelet nélküli JEÉVan sok, a célszót tartalmazó környezetünk,

de ezek nincsenek jelentésekkel címkézveMilyen információhoz juthatunk csupán a

környezetet használva?Hipotézis: egy szó adott jelentéssel hasonló

szavakkal fordul elő egy környezetben◦ pl. a levél szó:

posta, feladó, postás, címzett, kézbesít, … fa, növény, virág, ősz, hullik, …

◦ a célszó környezetét vizsgálva sok esetben elkülöníthetők a különböző „jelentések” (használati esetek)

◦ az elkülönített használati esetekhez hozzárendelhetők a megfelelő jelentések a posta, … sorhoz a levél1 a fa, … sorhoz a levél2

Page 10: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

levél1levél2postás

postazöld

növény fa kézbesítfeladó

címzettfotoszintézis

3

3

7

84

46

6

59

44

3

Gráfalapú JEÉGráfalapú JEÉ

postás

posta

zöld

növény

fa kézbesít

feladó címzett

fotoszintézis

0,1

0,2 0,2

0,30,1

0,8

0,1

Page 11: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

postás

posta

zöld

növény

fa kézbesít

feladócímze

tt

fotoszintézis

0,1

0,2 0,2

0,30,1

0,8

0,1

AlkalmazásAlkalmazás

„A zöld autóból kiszálló postás adta át a levelet.”1- 0,1 - 0,8 = 0,1 pont 1 pont<

Page 12: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Vektoralapú JEÉVektoralapú JEÉA célszóval jellemzően együtt

előforduló jegyek meghatározása◦statisztikai módszerrel (ami a

véletlennél gyakrabban fordul elő a célszóval azonos környezetben)

◦a jegyek lehetnek szavak vagy együtt előforduló szópárok

◦például a levél szónál a jegyek lehetnek: fa, posta, feladó, növény, postás, címzett,

virág, kézbesít, ősz, hullik

Page 13: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Vektoralapú JEÉVektoralapú JEÉAz egyes környezetekre vektorok

készítése a bennük szereplő jegyek alapján

növény cím postás ősz fa

1. 0 1 1 0 0

2. 0 0 0 1 1

1. „A postás viszi a levelet a borítékon feltüntetett címre.”

2. „Ősszel a fákról lehullanak a levelek.”

3. …

Page 14: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Vektoralapú JEÉVektoralapú JEÉHasonló vektorok csoportosítása

◦klaszterezési algoritmus segítségével◦csoportok „középpontjainak”

meghatározása

Page 15: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Vektoralapú JEÉVektoralapú JEÉKözéppontokhoz jelentések

hozzárendeléselevél1

levél2

Page 16: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

ÖsszehasonlításÖsszehasonlítás

A korpuszt egészében csak a jegyek kiválasztására használják

Bekezdésenként ábrázolják a korpuszt, majd ezeket csoportosítják

Hatékony futási idő Jobb eredmények

Az egész korpuszra építenek kapcsolat-rendszert

Az így előállt gráfot bontják csoportokra

Hosszabb futási időKevésbé jó

eredmények

Vektoralapú módszerek Gráfalapú módszerek

Page 17: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

KísérletKísérlet20 angol főnév – 20 korpuszKorpuszok bekezdései:

◦tartalmazzák az aktuális célszót◦BNC-ből címkézetlenek (3000db/szó)◦Senseval-2 adatokból címkézettek

(80-200db/szó)Gráfalapú és vektoralapú

algoritmusok

Page 18: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

EredményekEredmények SZÓ MFS GRÁF VEKTORart 0.44 0,46 0,46authority 0.39 0,41 0,52bar 0.43 0,56 0,59chair 0.85 0,80 0,82channel 0.30 0,49 0,64child 0.59 0,65 0,63church 0.57 0,70 0,71circuit 0.27 0,36 0,63day 0.63 0,63 0,62facility 0.52 0,61 0,68feeling 0.63 0,63 0,63holiday 0.89 0,84 0,78feeling 0.71 0,60 0,67material 0.42 0,50 0,54mouth 0.48 0,53 0,59nation 0.85 0,77 0,74nature 0.48 0,50 0,53post 0.39 0,41 0,52sense 0.33 0,45 0,43stress 0.55 0,55 0,56

Átlag 0,509 0,551 0,603

Page 19: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Köszönöm a figyelmet!

Page 20: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Webes keresés – találat?Webes keresés – találat?

…..………. Az elsőbbségi levél olyan

külön jelzéssel ellátott postai

küldemény..……….címzett…………….boríték……….…bélyeg…..

…..

A postás kézbesíti a levelet.………………

A levél (fillum) a növények

hajtás-tengelyének

…..….A növények

levelei……………..levél……………….

……levél…………

……levelek……

Page 21: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Gépi fordításGépi fordítás

„The postman delivers the letters.”

„The postman delivers the leaves.”

„A postás kézbesíti a leveleket.”

vagy

Page 22: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

Vektoralapú JEÉVektoralapú JEÉHasonló vektorok csoportosítása

◦ klaszterezési algoritmus segítségével◦ csoportok „középpontjainak”

meghatározása

Page 23: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

MérhetőségMérhetőség Hogyan tudnánk mérhetővé tenni a reprezentáció

minőségét?◦ alkalmazzuk a reprezentációkat többjelentésű

szavak jelentéseinek az elkülönítésére◦ kiindulás: célszót tartalmazó bekezdések◦ a kiindulási bekezdésekre elkészítjük a

reprezentációt◦ a hasonló reprezentációkat csoportokba szedjük◦ a csoportokat megfeleltetjük a célszó egyes

jelentéseinek◦ mérési eredmény: milyen arányban sikerült eltalálni

a tényleges jelentést (ehhez a célszó jelentéseivel címkézett környezetekre is szükség van)

Jelentés-egyértelműsítés (JEÉ)

Page 24: Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása

AlkalmazásokAlkalmazásokGépi fordításWebes keresés