![Page 1: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/1.jpg)
Szöveg alapú dokumentumok összehasonlításának optimális paraméterei
KISS ANDRÁS KÁROLYBUDAPESTI CORVINUS EGYETEM
![Page 2: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/2.jpg)
Amiről szó lesz
u Bevezetésu Irodalmi áttekintés és kutatási résu Hipotézisek megfogalmazásau Kutatás módszertanau Kutatási eredmények ismertetéseu Konklúziók levonása, összegzés
2
![Page 3: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/3.jpg)
3Bevezetés
BSc (2011 – 2014)
MSc (2014 – 2016)
PhD (2016 – ?)
![Page 4: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/4.jpg)
Irodalmi áttekintés és kutatási rés 4
Előnyök Hátrányok
Szavak
Statisztikai szempontbólelőnyös, szinonimák
problémája kezelhető
Hiányzik a kontextus,
szófordulatok szétesnek
Frázisok
elemezhető kontextus, szemantika nem veszik
el, megmaradószófordulatok
Statisztikai szempontbólnem előnyös
A. Stavrianou, P. Andritsos & N. Nicoloyannis:
Hogyan valósítható mindez meg?Mit jelent ez számokban?
KOPI működési elve:
![Page 5: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/5.jpg)
Alapfogalmak 5
Ez itt egy dokumentum teljes szövege.Szövegkörnyezetbeli sorrend
Forrás dokumentum
Tokenek halmaza
2. token
N = 5 hosszúságú token
(Reprezentáló képesség)
![Page 6: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/6.jpg)
Kutatási kérdések
1. A tokenek hosszúsága befolyásolja-e azok halmazánakdokumentum reprezentáló képességét?
2. A tokenizálás során a szavak szövegkörnyezetbelisorrendjének elhagyása befolyásolja-e a tokenekhalmazának dokumentum reprezentáló képességét?
3. A tokenek súlyozása befolyásolja-e azok halmazánakdokumentum reprezentáló képességét?
6
![Page 7: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/7.jpg)
Teszthalmaz 7
Forrás és egyben kontroll dokumentum
Teszthalmaz
Összesen Másolt Egyezésdokumentum 1 152 20 0,13dokumentum 2 145 86 0,59dokumentum 3 154 31 0,20dokumentum 4 185 59 0,32dokumentum 5 137 33 0,24dokumentum 6 57 25 0,44dokumentum 7 100 21 0,21dokumentum 8 80 15 0,19dokumentum 9 83 20 0,24dokumentum 10 79 30 0,38
kontroll dokumentum 167
![Page 8: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/8.jpg)
Az algoritmus 8
Kontroll és teszt dokumentum halmaz
Dokumentumok tartalmának beolvasása Java nyelvi elemekkel
Szöveg szavakká tördelése a sorrendiség megőrzése mellett
Tokenizálás elvégzése eltérő logikák mentén(N = 1,2,3,4 illetve random sorrend esetén)
Kontroll és teszt dokumentum közös tokeneinek keresése
![Page 9: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/9.jpg)
Eredmények kiértékelése 9
-60.00
-50.00
-40.00
-30.00
-20.00
-10.00
0.00
10.00
20.00
30.00
1 2 3 4 5 6 7 8 9 10
Elté
rés
%-b
an
Axis Title
N=1 N=2 N=3 N=4 random N=2
![Page 10: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/10.jpg)
Kutatási eredmények ismertetése
u Tokenek hosszúsága erősen befolyásolu Szavak szövegkörnyezetbeli sorrendjének elhagyása nem vezetett
eredményreu Tokenek súlyozása nem megfelelő megoldás a problémára:
u Nincsenek fontosabb szókapcsolatok
u A leggyakoribb szókapcsolatok csak azt bizonyítják, hogy azonos témában íródtak
u Nem meghatározható, hogy a súlyok miként befolyásolják az átfedés mértékét
10
![Page 11: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/11.jpg)
Összegzés
u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes elvégezni
u A szavak sorrendisége a szöveg egy fontos tulajdonsága, melyet nem érdemes heurisztika alkalmazásával megtörni
u A tokenek között nincsen olyan, ami több információt hordoz a dokumentumra nézve, mint a többi
11
![Page 12: Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei](https://reader031.vdocuments.pub/reader031/viewer/2022030309/58f1c6331a28ab18348b45c1/html5/thumbnails/12.jpg)
Szöveg alapú dokumentumok összehasonlításának optimális paraméterei
KISS ANDRÁS KÁROLYBUDAPESTI CORVINUS EGYETEM