kisvilágunk, a nyelv

23
Varjú Zoltán, Precognox 2015.11.17.

Upload: zoltan-varju

Post on 16-Apr-2017

2.156 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Kisvilágunk, a nyelv

Varjú Zoltán, Precognox

2015.11.17.

Page 2: Kisvilágunk, a nyelv

"Every time I fire a linguist, the

performance of the speech recognizer

goes up"(Frederick Jelinek)

Page 3: Kisvilágunk, a nyelv

Zoli nagyon örül, mert Nóri elvitte végre krumplilángost enni. A krumplilángos Zoli számára a legfinomabb kaja a világon és reméli, hogy Nórinak is ízlett. Zoli és Nóri legközelebb nem krumplilángost fog enni, hanem elmennek megnézni az új Avengersfilmet.

zoli nagyon örül mert nóri vinni végre krumplilángos enni a krumplilángos zoli számára a finom kaja a világon és reméli hogy nóri is ízleni zoli és nóri közel nem krumplilángos fog enni hanem menni nézni az új avengers film

Page 4: Kisvilágunk, a nyelv

zoli nagyon örül

nagyon örül mert

örül mert nóri

stb.

zoli - nagyon

zoli - örül

nagyon - örül

nagyon - mert

örül - mert

mert - nóri

stb.

Page 5: Kisvilágunk, a nyelv
Page 6: Kisvilágunk, a nyelv

SZTAKI Wikipedia dump egy szelete

463409 szó, 46096 egyedi szótári elem

Page 7: Kisvilágunk, a nyelv

Csak az 1500 leggyakoribb elemet tartalmazó trigram

1500 csomópont

87749 él

Page 8: Kisvilágunk, a nyelv
Page 9: Kisvilágunk, a nyelv
Page 10: Kisvilágunk, a nyelv
Page 11: Kisvilágunk, a nyelv

Magyar WordNet

42359 csomópont

38335 él

Átlagos utak hossza: 2.35

Átmérő: 13

Page 12: Kisvilágunk, a nyelv
Page 13: Kisvilágunk, a nyelv
Page 14: Kisvilágunk, a nyelv
Page 15: Kisvilágunk, a nyelv

Agykapocs

8049 csomópont

13635 él

Átlagos utak hossza: 4.36

Átmérő: 353

Page 16: Kisvilágunk, a nyelv
Page 17: Kisvilágunk, a nyelv
Page 18: Kisvilágunk, a nyelv
Page 19: Kisvilágunk, a nyelv
Page 20: Kisvilágunk, a nyelv

Mihalcea – Tarau: TextRank: Bringing OrderInto Texts

PageRank alapján rangsorolja a csomópontokat

Felügyelet nélküli módszer

Precision: 31.2%, Recall: 43.1%

Page 21: Kisvilágunk, a nyelv

Figyelembe veszi a nyelvi struktúrát (pl. A-N nagyobb súlyt kap mint N-A)

Fokszám alapján rangsoroljuk a csomópontokat

Kulcsszókinyerés esetén alacsony kb. 10% precision, elfogadható, 35% recall kulcsszókinyerés esetén angol és magyar korpuszokon tesztelve

Szövegkivonatolás esetén 35% precision, 29% recall

Page 22: Kisvilágunk, a nyelv

Az előre adott kulcsszavakon túl lehetnek más, releváns kulcsszavak?

Online kérdőívvel értékeltük ki mennyire relevánsak a PrecoRank kulcsszavai magyar szövegek esetében

A PrecoRank által adott kulcsszavak és kulcskifejezések 7.6% inkább releváns, 46.4% releváns, 32.4% valamennyire releváns, 13.2% inkább irreleváns, 0.4% teljesen irreleváns

Page 23: Kisvilágunk, a nyelv

[email protected]

@zoltanvarju / @varjuzoli

http://kereses.blog.hu/