felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása
DESCRIPTION
Felügyelet nélküli jelentés-egyértelműsítési módszerek összehasonlítása. Papp Gyula PPKE-ITK. Tartalom. Bevezetés Korpuszalapú jelentés-reprezentáció gráfokkal vektorokkal Felügyelet nélküli jelentés-egyértelműsítés Gráf- és vektoralapú módszerek összehasonlítása Eredmények. Bevezetés. - PowerPoint PPT PresentationTRANSCRIPT
Felügyelet nélküli jelentés-Felügyelet nélküli jelentés-egyértelműsítési módszerek egyértelműsítési módszerek összehasonlításaösszehasonlítása
Papp GyulaPPKE-ITK
TartalomTartalomBevezetésKorpuszalapú jelentés-reprezentáció
◦gráfokkal◦vektorokkal
Felügyelet nélküli jelentés-egyértelműsítés
Gráf- és vektoralapú módszerek összehasonlítása
Eredmények
BevezetésBevezetésHosszútávú cél:
nagyobb szövegegységek jelentés-reprezentációja korpuszbeli szó-együttelőfordulások alapján
Mire lehet hasznos a korpusz?◦ „You shall know a word by the company it
keeps”(Firth, 1957)
◦ „Meanings of words are largely determined by their distributional patterns” (Harris, 1968)
◦ „Words that occur in similar contexts will have similar meanings” (Miller és Charles, 1991)
A szavak jellemző együtt-előfordulásai meghatározzák a szövegegység jelentését
Gráfalapú jelentés-Gráfalapú jelentés-reprezentációreprezentáció„Drágulnak a részletek, de még
mindig jobban megéri a devizás, mint a forintalapú hitel.”
forintalapú
hitel
törlesztés
részlet
euro
kamat
forint
svájci frank
árfolyam
THM
deviza
3
3
3 3
3
2
2
2
4
4
4
4
7
7
7
7
5
6
Vektoralapú jelentés-Vektoralapú jelentés-reprezentációreprezentáció„Drágulnak a részletek, de még
mindig jobban megéri a devizás, mint a forintalapú hitel.”
árfolyam hitel bank deviza forint
0 1 0 1 0
részlet+hitel bank+euro árfolyam+forint pénznem+deviza
1 0 0 0
Mitől jó a reprezentáció?Mitől jó a reprezentáció?Mitől jó a reprezentáció?
◦azonos jelentés – azonos ábrázolás◦hasonló jelentés – hasonló ábrázolás◦eltérő jelentés – eltérő ábrázolás
Az előző reprezentációk jók voltak???◦az ábrázolások összehasonlíthatóak◦probléma: a jelentéseket nem tudjuk összehasonlítani!
„Drágulnak a részletek, de még mindig jobban megéri a devizás, mint a forintalapú hitel.”
„A forint sokat vesztett értékéből az euróhoz képest.”
euro
forint
svájci frank
árfolyam
deviza
érték
7
9
7
8
5
73
4
forintalapú
hitel
törlesztés
részlet
euro
kamat
forint
svájci frank
árfolyam
THM
deviza
3
3
3 3
3
2
2
2
4
4
4
4
7
7
7
7
5
6
„A postás kézbesíti a levelet.”
„A levél feladója rossz címet írt rá a borítékra.”
„A növények levelei zöldek.”
levél1
levél1
levél2
feladó
címzett
postás
borítékposta
levélcímzett
postás
kézbesítposta
levél
zöld
fa
növény
virággyökér
levél
Felügyelet nélküli JEÉFelügyelet nélküli JEÉVan sok, a célszót tartalmazó környezetünk,
de ezek nincsenek jelentésekkel címkézveMilyen információhoz juthatunk csupán a
környezetet használva?Hipotézis: egy szó adott jelentéssel hasonló
szavakkal fordul elő egy környezetben◦ pl. a levél szó:
posta, feladó, postás, címzett, kézbesít, … fa, növény, virág, ősz, hullik, …
◦ a célszó környezetét vizsgálva sok esetben elkülöníthetők a különböző „jelentések” (használati esetek)
◦ az elkülönített használati esetekhez hozzárendelhetők a megfelelő jelentések a posta, … sorhoz a levél1 a fa, … sorhoz a levél2
levél1levél2postás
postazöld
növény fa kézbesítfeladó
címzettfotoszintézis
3
3
7
84
46
6
59
44
3
Gráfalapú JEÉGráfalapú JEÉ
postás
posta
zöld
növény
fa kézbesít
feladó címzett
fotoszintézis
0,1
0,2 0,2
0,30,1
0,8
0,1
postás
posta
zöld
növény
fa kézbesít
feladócímze
tt
fotoszintézis
0,1
0,2 0,2
0,30,1
0,8
0,1
AlkalmazásAlkalmazás
„A zöld autóból kiszálló postás adta át a levelet.”1- 0,1 - 0,8 = 0,1 pont 1 pont<
Vektoralapú JEÉVektoralapú JEÉA célszóval jellemzően együtt
előforduló jegyek meghatározása◦statisztikai módszerrel (ami a
véletlennél gyakrabban fordul elő a célszóval azonos környezetben)
◦a jegyek lehetnek szavak vagy együtt előforduló szópárok
◦például a levél szónál a jegyek lehetnek: fa, posta, feladó, növény, postás, címzett,
virág, kézbesít, ősz, hullik
Vektoralapú JEÉVektoralapú JEÉAz egyes környezetekre vektorok
készítése a bennük szereplő jegyek alapján
növény cím postás ősz fa
1. 0 1 1 0 0
2. 0 0 0 1 1
…
1. „A postás viszi a levelet a borítékon feltüntetett címre.”
2. „Ősszel a fákról lehullanak a levelek.”
3. …
Vektoralapú JEÉVektoralapú JEÉHasonló vektorok csoportosítása
◦klaszterezési algoritmus segítségével◦csoportok „középpontjainak”
meghatározása
Vektoralapú JEÉVektoralapú JEÉKözéppontokhoz jelentések
hozzárendeléselevél1
levél2
ÖsszehasonlításÖsszehasonlítás
A korpuszt egészében csak a jegyek kiválasztására használják
Bekezdésenként ábrázolják a korpuszt, majd ezeket csoportosítják
Hatékony futási idő Jobb eredmények
Az egész korpuszra építenek kapcsolat-rendszert
Az így előállt gráfot bontják csoportokra
Hosszabb futási időKevésbé jó
eredmények
Vektoralapú módszerek Gráfalapú módszerek
KísérletKísérlet20 angol főnév – 20 korpuszKorpuszok bekezdései:
◦tartalmazzák az aktuális célszót◦BNC-ből címkézetlenek (3000db/szó)◦Senseval-2 adatokból címkézettek
(80-200db/szó)Gráfalapú és vektoralapú
algoritmusok
EredményekEredmények SZÓ MFS GRÁF VEKTORart 0.44 0,46 0,46authority 0.39 0,41 0,52bar 0.43 0,56 0,59chair 0.85 0,80 0,82channel 0.30 0,49 0,64child 0.59 0,65 0,63church 0.57 0,70 0,71circuit 0.27 0,36 0,63day 0.63 0,63 0,62facility 0.52 0,61 0,68feeling 0.63 0,63 0,63holiday 0.89 0,84 0,78feeling 0.71 0,60 0,67material 0.42 0,50 0,54mouth 0.48 0,53 0,59nation 0.85 0,77 0,74nature 0.48 0,50 0,53post 0.39 0,41 0,52sense 0.33 0,45 0,43stress 0.55 0,55 0,56
Átlag 0,509 0,551 0,603
Köszönöm a figyelmet!
Webes keresés – találat?Webes keresés – találat?
…..………. Az elsőbbségi levél olyan
külön jelzéssel ellátott postai
küldemény..……….címzett…………….boríték……….…bélyeg…..
…..
A postás kézbesíti a levelet.………………
A levél (fillum) a növények
hajtás-tengelyének
…..….A növények
levelei……………..levél……………….
……levél…………
……levelek……
Gépi fordításGépi fordítás
„The postman delivers the letters.”
„The postman delivers the leaves.”
„A postás kézbesíti a leveleket.”
vagy
Vektoralapú JEÉVektoralapú JEÉHasonló vektorok csoportosítása
◦ klaszterezési algoritmus segítségével◦ csoportok „középpontjainak”
meghatározása
MérhetőségMérhetőség Hogyan tudnánk mérhetővé tenni a reprezentáció
minőségét?◦ alkalmazzuk a reprezentációkat többjelentésű
szavak jelentéseinek az elkülönítésére◦ kiindulás: célszót tartalmazó bekezdések◦ a kiindulási bekezdésekre elkészítjük a
reprezentációt◦ a hasonló reprezentációkat csoportokba szedjük◦ a csoportokat megfeleltetjük a célszó egyes
jelentéseinek◦ mérési eredmény: milyen arányban sikerült eltalálni
a tényleges jelentést (ehhez a célszó jelentéseivel címkézett környezetekre is szükség van)
Jelentés-egyértelműsítés (JEÉ)
AlkalmazásokAlkalmazásokGépi fordításWebes keresés