s v e u Č i l i Š t e u s p l i t u fakultet ......iv pronalaženje rečenica korištenjem...
Post on 14-Feb-2020
0 Views
Preview:
TRANSCRIPT
S V E U Č I L I Š T E U S P L I T U
FAKULTET ELEKTROTEHNIKE, STROJARSTVA I BRODOGRADNJE
Alen Doko
Pronalaženje rečenica korištenjem lokalnog konteksta
rečenice i informacija na razini dokumenta
DOKTORSKA DISERTACIJA
Split, 2013.
ii
Doktorska disertacija je izrađena na Zavodu za elektroniku, Fakulteta elektrotehnike, strojarstva i brodogradnje u Splitu
Mentor: dr. sc. Maja Štula, izv. prof.
Rad br. _______
iii
Povjerenstvo za ocjenu doktorske disertacije:
1. Dr. sc. Darko Stipaničev, red. prof. FESB Split
2. Dr. sc. Maja Štula, izv. prof. FESB Split
3. Dr. sc. Bojana Dalbelo-Bašić, red. prof. FER Zagreb
4. Dr. sc. Marko Rosić, red. prof. PMF Split
5. Dr. sc. Ljiljana Šerić, doc. FESB Split
Povjerenstvo za obranu doktorske disertacije:
1. Dr. sc. Darko Stipaničev, red. prof. FESB Split
2. Dr. sc. Maja Štula, izv. prof. FESB Split
3. Dr. sc. Bojana Dalbelo-Bašić, red. prof. FER Zagreb
4. Dr. sc. Marko Rosić, red. prof. PMF Split
5. Dr. sc. Ljiljana Šerić, doc. FESB Split
Disertacija obranjena dana: _____________________
iv
Pronalaženje rečenica korištenjem lokalnog konteksta
rečenice i informacija na razini dokumenta
Kratki sažetak: U ovoj disertaciji fokus je stavljen na zadatak pronalaženja rečenica. Pronalaženje rečenica je slično pronalaženju dokumenata s tom razlikom što je jedinica pronalaženja rečenica, a ne dokument. Predložene su nove i unaprjeđene TF-ISF (Term Frequency-Inverse Sentence Frequency) bazirane metode koje koriste lokalni kontekst rečenica i duljinu rečenice. Također su predložene dodatne varijante novih metoda na razini dokumenta koje koriste samo informacije iz dokumenta koji sadrži rečenicu. Sve nove metode pokazuju statistički signifikantna poboljšanja u odnosu na SOTA (state of the art) metode prilikom testiranja. Za testiranje su korišteni skupovi podataka TREC staza novosti koji služe kao testne kolekcije (eng. test collection) za metode pronalaženja rečenica. U disertaciji je pokazano da nove metode na razini dokumenta mogu ubrzati proces pronalaženja rečenica radi mogućnosti računanja ocjena relevantnosti prije nego što su svi dokumenti dohvaćeni. Nove metode na razini dokumenta su također korištene za razvoj OWL (Web Ontology Language) prikaza tekstnog dokumenta, s prikazom konteksta i duljine rečenice, koji pojednostavljuje implementaciju pronalaženja rečenica. Pokazano je na koji način se može automatski generirati OWL prikaz dokumenta i na koji se način isti može koristiti za pronalaženje rečenica. Ključne riječi: pronalaženja informacija, pronalaženje rečenica, TF-ISF, kontekst, duljina rečenice, OWL, prikaz dokumenta
v
Local context and document level based sentence
retrieval
Abstract: In this dissertation the focus is set on the task of sentence retrieval. Sentence retrieval is similar to document retrieval with the difference that the unit of retrieval is a sentence and not a document. We propose several improved new TF-ISF (Term Frequency-Inverse Sentence Frequency) based methods that make use of local context of sentences and of sentence length. We also propose a new document based variant of the new methods that use information only from the document that contains the sentence. All new methods show statistically significant improvements in tests to the state of the art methods. For testing purposes data sets from TREC novelty tracks are used that serve as test collections for sentence retrieval methods. We show that the new document based methods can speed up the sentence retrieval task because of the possibility of calculating relevance scores before all documents are retrieved. We also use the document level methods to develop an OWL (Web Ontology Language) representation of textual documents with representation of context and document length that simplifies the implementation of sentence retrieval. We show how to automatically generate the OWL representation of a document and also how to use it for sentence retrieval. Keywords: Information Retrieval, Sentence Retrieval, TF-ISF, Context, Sentence Length, OWL, Document Representation
vii
SADRŽAJ
1. UVOD ..................................................................................................... 1
1.1. Hipoteza .......................................................................................................2
1.2. Znanstveni doprinosi ...................................................................................2
1.3. Struktura disertacije ...................................................................................3
2. PRONALAŽENJE INFORMACIJA .................................................... 5
2.1. Mjerenje učinkovitosti sustava za pretraživanje informacija ...................6
2.1.1. Mjere za ne-rangirane rezultate .....................................................................6
2.1.2. Mjere za rangirane rezultate ..........................................................................8
3. PRONALAŽENJE REČENICA ......................................................... 12
3.1. Model vektorskog prostora i pronalaženje rečenica ................................ 13
3.1.1. Varijante frekvencije izraza ......................................................................... 16
3.1.2. Varijante invertne frekvencije dokumenta .................................................. 17
3.1.3. Varijante normalizacije ................................................................................ 17
3.1.4. Model vektorskog prostora primijenjen na pronalaženje rečenica ............. 19
3.2. Modeliranje jezika i pronalaženje rečenica .............................................. 21
3.2.1. Model vjerojatnosti upita .............................................................................. 22
3.3. BM25 .......................................................................................................... 25
3.4. Povratna informacija relevantnosti i proširivanje upita ......................... 25
3.4.1. Globalne metode proširivanja upita ............................................................. 26
3.4.2. Povratna informacija relevantnosti .............................................................. 26
3.4.3. Pseudo povratna informacija relevantnosti ................................................. 27
3.4.4. Povratna informacija relevantnosti i proširivanje upita kod pronalaženja
rečenica.................................................................................................................... 28
3.5. Korištenje lokalnog konteksta za unapređenje pronalaženja rečenica ... 30
viii
3.5.1. Mješavina tri modela ..................................................................................... 30
3.5.2. Model dvije faze ............................................................................................ 32
3.5.3. Klizeći prozor ................................................................................................ 36
3.5.4. TF-ISF metoda i korištenje konteksta .......................................................... 38
4. NOVE METODE ZA PRONALAŽENJE REČENICA .................... 39
4.1. TREC i zadatak otkrivanja novih rečenica .............................................. 39
4.1.1. TREC 2002 staza novosti .............................................................................. 39
4.1.2. TREC 2003 staza novosti .............................................................................. 46
4.1.3. TREC 2004 staza novosti .............................................................................. 51
4.1.4. Pregled TREC 2002, 2003 i 2004 staza novosti ............................................ 56
4.2. TF-ISF sa lokalnim kontekstom ................................................................ 57
4.2.1. Usporedba TF-ISFcon sa TF-ISF i tfmix ........................................................ 60
4.3. Korištenje duljine rečenice za poboljšanje pronalaženja rečenica .......... 80
4.3.1. Dodavanje komponente za forsiranje dohvaćanja dugih rečenica u TF-ISF
funkciju rangiranja ................................................................................................. 81
4.3.2. Mješavina tri modela sa forsiranjem dugih rečenica ili 3MMPDS ............. 82
4.3.3. Pregled svih testiranih metoda...................................................................... 83
4.3.4. Empirijska studija ......................................................................................... 85
4.4. TF-ISF bazirane metode na razini dokumenta ........................................ 99
4.4.1. TF-ISF na razini dokumenta i TF-ISFcon na razini dokumenta .................. 99
4.4.2. TF-ISFcon, length na razini dokumenta .......................................................... 109
4.5. Prednost metoda za pronalaženje rečenica na razini dokumenta ......... 116
4.5.1. Usporedba vremenskih složenosti algoritama ............................................ 120
5. OWL PRIKAZ DOKUMENTA ZA PRONALAŽENJE REČENICA
138
5.2. Razvoj OWL prikaza dokumenta ........................................................... 139
6. ZAKLJUČAK .................................................................................... 146
ix
6.1. Budući rad ................................................................................................ 148
LITERATURA ......................................................................................... 149
DODATAK A - LISTA UOBIČAJENIH RIJEČI .................................. 156
DODATAK B – RAPIDMINER I RAPIDANALYTICS ....................... 160
DODATAK C – RAZVIJENI SUSTAV ZA EMPIRIJSKU STUDIJU 164
x
POPIS TABLICA
Tablica 3.1. Varijante komponente frekvencije izraza za TF-IDF metodu s odgovarajućim
nazivima i oznakama SMART notacije.............................................................................. 18
Tablica 3.2. Varijante komponente invertne frekvencije dokumenata za TF-IDF metodu s
odgovarajućim nazivima i oznakama SMART notacije ..................................................... 19
Tablica 3.3. Varijante komponente normalizacije za TF-IDF metodu s ogovarajućim
nazivima i oznakama SMART notacije.............................................................................. 19
Tablica 4.1. Pregled osnovnih karakteristika TREC 2002, 2003 i 2004 staza novosti ....... 56
Tablica 4.2. Optimalne vrijednosti parametra μ za skupove podataka iz TREC 2002, 3003 i
2004 staza novosti ............................................................................................................ 63
Tablica 4.3. Optimalne vrijednosti parametra α tfmix metode za skupove podataka iz
TREC 2002, 3003 i 2004 staza novosti ............................................................................. 63
Tablica 4.4. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.2, α=0.7 ...................... 64
Tablica 4.5. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0.1, α=0.85 .................... 65
Tablica 4.6. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0.2, α=0.6 ...................... 67
Tablica 4.7. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC
2003 i TREC 2004............................................................................................................ 69
Tablica 4.8. Optimalne vrijednosti parametra μ i α za skup podataka iz TREC 2002, 3003 I
2004 staza novosti ............................................................................................................ 71
Tablica 4.9. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.25, α=0.95 .................. 72
Tablica 4.10. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0.2, α=0.75 .................. 73
Tablica 4.11. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0.2, α=0.75 .................. 75
Tablica 4.12. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC
2003 i TREC 2004............................................................................................................ 77
Tablica 4.13. Primjer rečenica s istom ocjenom prema TF-ISF metodi i različitim
ocjenama prema TF-ISFcon metodi (μ=0,01) .................................................................... 79
Tablica 4.14. Pregled svih metoda pronalaženja rečenica testiranih u poglavlju 4.3. ....... 84
Tablica 4.15. Optimalne vrijednosti parametra μ za metode TF-ISFcon, TF-ISFcon,length ..... 86
Tablica 4.16. Optimalne vrijednosti parametara metoda tfmix i 3MMPDS ....................... 86
Tablica 4.17. TREC 2003 i TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length,
α=0,7, λ=0,9, γ=0,05 ...................................................................................................... 87
xi
Tablica 4.18. TREC 2002 i TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length,
α=0,85, λ=0,95, γ=0,0 .................................................................................................... 88
Tablica 4.19. TREC 2002 i TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length,
α=0,6, λ=0,9, γ=0,05 ...................................................................................................... 90
Tablica 4.20. TREC 2003 i TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length...... 92
Tablica 4.21. TREC 2002 i TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length...... 94
Tablica 4.22. TREC 2002 i TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length .... 95
Tablica 4.23. Optimalne vrijednosti parametra μ za metodu DL TF-ISFcon ..................... 101
Tablica 4.24. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.05 ........................... 103
Tablica 4.25. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0.05 ........................... 104
Tablica 4.26. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0.15 ........................... 106
Tablica 4.27. P@X, MAP i R-precision za kombinirane skupove podataka TREC 2002,
TREC 2003 i TREC 2004 konferencije ........................................................................... 108
Tablica 4.28. Optimalne vrijednosti parametra μ za metode DL TF-ISFcon i DL TF-
ISFcon,length ...................................................................................................................... 110
Tablica 4.29. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0,05 za DL TF-ISFcon,
μ=0,2 za DL TF-ISFcon,length ............................................................................................ 111
Tablica 4.30. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0,05 za DL TF-ISFcon,
μ=0,3 za DL TF-ISFcon,length ............................................................................................ 113
Tablica 4.31. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0,15 za DL TF-ISFcon,
μ=0,3 za DL TF-ISFcon,length ............................................................................................ 114
Tablica 4.32. Koraci metoda na razini kolekcije sa statičkim indeksom i metoda na razini
dokumenta čije vremenske složenosti se uspoređuju ....................................................... 122
Tablica 4.33. Usporedba vremenskih kompleksnosti koraka nakon trenutka t3 ............... 135
Tablica 4.34. Usporedba vremenskih kompleksnosti koraka nakon trenutka t3 ............... 137
xii
POPIS ILUSTRACIJA
Slika 2.1. Shematski prikaz skupova korištenih za mjere preciznost i odaziv .......................7
Slika 2.2. Preciznost-odaziv krivulja [18] ...........................................................................9
Slika 3.1. Ilustracija modela vektorskog prostora pronalaženja dokumenata .................... 14
Slika 3.2. Primjer računanja udaljenosti između izraza [47] ............................................ 36
Slika 3.3. Primjer klizećeg prozora veličine 2 [47] ........................................................... 37
Slika 4.1. Isječak iz datoteke sa izvornim podacima za TRAC 2002 stazu novosti ............. 42
Slika 4.2. Primjer teme iz TREC 2002 staze novosti i odgovarajućih po relevantnosti
poredanih dokumenata ..................................................................................................... 43
Slika 4.3. Isječak iz datoteke min_qrels.relevant koja sadrži relevantne dokumente .......... 45
Slika 4.4. Isječak iz datoteke sa izvornim podacima za TRAC 2003 stazu novosti ............. 47
Slika 4.5. Primjer teme iz TREC 2003 staze novosti i odgovarajućih kronološki poredanih
relevantnih dokumenata ................................................................................................... 49
Slika 4.6. Isječak iz datoteke sa relevantnim rečenicama .................................................. 50
Slika 4.7. Isječak iz datoteke za izvornim podacima za TRAC 2004 stazu novosti ............. 52
Slika 4.8. Primjer teme iz TREC 2004 staze novosti i odgovarajućih kronološki poredanih
dokumenata...................................................................................................................... 54
Slika 4.9. Isječak iz datoteke sa relevantnim rečenicama za TREC 2004 stazu novosti...... 55
Slika 4.10. Trenutna rečenica i susjedne rečenice korištene u funkciji rangiranja
Rcon(s│q) ........................................................................................................................ 59
Slika 4.11. Primjer TREC teme iz TREC 2003 staze novosti ............................................. 61
Slika 4.12. Primjer kratkog upita ..................................................................................... 61
Slika 4.13. P@x, MAP i R-precision za TREC 2003, μ=0.2, α=0.7 ................................... 64
Slika 4.14. P@x, MAP i R-precision za TREC 2004, 휇=0.2, 훼=0.7 .................................. 65
Slika 4.15. P@x, MAP i R-precision za TREC 2002, 휇=0.1, 훼=0.85 ................................ 66
Slika 4.16. P@x, MAP i R-precision za TREC 2004, 휇=0.1, 훼=0.85 ................................ 66
Slika 4.17. P@x, MAP i R-precision za TREC 2002, 휇=0.2, 훼=0.6 .................................. 67
Slika 4.18. P@x, MAP i R-precision za TREC 2003, 휇=0.2, 훼=0.6 .................................. 68
Slika 4.19. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC
2003 i TREC 2004............................................................................................................ 69
Slika 4.20. Primjer dugog upita korištenog u testu ........................................................... 71
Slika 4.21. P@x, MAP i R-precision za TREC 2003, μ=0.25, α=0.95 ............................... 72
xiii
Slika 4.22. P@x, MAP i R-precision za TREC 2004, μ=0.25, α=0.95 ............................... 73
Slika 4.23. P@x, MAP i R-precision za TREC 2002, 휇=0.2, 훼=0.75 ................................ 74
Slika 4.24. P@x, MAP i R-precision za TREC 2004, 휇=0.2, 훼=0.75 ................................ 74
Slika 4.25. P@x, MAP i R-precision za TREC 2002, 휇=0.2, 훼=0.75 ................................ 75
Slika 4.26. P@x, MAP i R-precision za TREC 2003, 휇=0.2, 훼=0.75 ................................ 76
Slika 4.27. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC
2003 i TREC 2004............................................................................................................ 77
Slika 4.28. Nastajanje različitih metoda pronalaženja rečenica korištenih u poglavlju 4.3.
........................................................................................................................................ 85
Slika 4.29. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length, α=0,7, λ=0,9,
γ=0,05 ............................................................................................................................. 87
Slika 4.30. TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length, α=0,7, λ=0,9,
γ=0,05 ............................................................................................................................. 88
Slika 4.31. TREC 2002, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length, α=0,85, λ=0,95,
γ=0,0 ............................................................................................................................... 89
Slika 4.32. TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length, α=0,85, λ=0,95,
γ=0,0 ............................................................................................................................... 89
Slika 4.33. TREC 2002, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length, α=0,6, λ=0,9,
γ=0,05 ............................................................................................................................. 90
Slika 4.34. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length, α=0,6, λ=0,9,
γ=0,05 ............................................................................................................................. 91
Slika 4.35. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length ............................... 93
Slika 4.36. TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length ............................... 93
Slika 4.37. TREC 2002, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length ............................... 94
Slika 4.38. TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length ............................... 94
Slika 4.39. TREC 2002, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length ............................. 95
Slika 4.40. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length ............................. 96
Slika 4.41. P@x, MAP i R-precision za TREC 2003, μ=0.05 .......................................... 103
Slika 4.42. P@x, MAP i R-precision za TREC 2004, μ=0.05 .......................................... 104
Slika 4.43. P@x, MAP i R-precision za TREC 2002, μ=0.05 .......................................... 105
Slika 4.44. P@x, MAP i R-precision za TREC 2004, μ=0.05 .......................................... 105
Slika 4.45. P@x, MAP i R-precision za TREC 2002, μ=0.15 .......................................... 106
Slika 4.46. P@x, MAP i R-precision za TREC 2003, μ=0.15 .......................................... 107
xiv
Slika 4.47. P@X, MAP i R-precision za kombinirane skupove podataka TREC 2002, TREC
2003 i TREC 2004 konferencije ...................................................................................... 108
Slika 4.48. P@x, MAP i R-precision za TREC 2003, μ=0,05 za DL TF-ISFcon, μ=0,2 za DL
TF-ISFcon,length ................................................................................................................ 112
Slika 4.49. P@x, MAP i R-precision za TREC 2004, μ=0,05 za DL TF-ISFcon, μ=0,2 za DL
TF-ISFcon,length ................................................................................................................ 112
Slika 4.50. P@x, MAP i R-precision za TREC 2002, μ=0,05 za DL TF-ISFcon, μ=0,3 za DL
TF-ISFcon,length ................................................................................................................ 113
Slika 4.51. P@x, MAP i R-precision za TREC 2004, μ=0,05 za DL TF-ISFcon, μ=0,3 za DL
TF-ISFcon,length ................................................................................................................ 114
Slika 4.52. P@x, MAP i R-precision za TREC 2002, μ=0,15 za DL TF-ISFcon, μ=0,3 za DL
TF-ISFcon,length ................................................................................................................ 115
Slika 4.53. P@x, MAP i R-precision za TREC 2003, μ=0,15 za DL TF-ISFcon, μ=0,3 za DL
TF-ISFcon,length ................................................................................................................ 115
Slika 4.54. Vremena izvršavanja metoda na razini kolekcije i metoda na razini dokumenta
...................................................................................................................................... 118
Slika 4.55. Vrijeme izvršavanja koraka „Predprocesiranje i indeksiranje dokumenta i
Integriranje sa postojećim indeksom“ u odnosu na vrijeme dohvaćanja dokumenta ....... 120
Slika 4.56. Vrijeme izvršavanja koraka „Predprocesiranje i indeksiranje Dokumenta“ i
„Računanje ocjene relevantnosti rečenica iz Dokumenta“ u odnosu na vrijeme
dohvaćanja dokumenta................................................................................................... 121
Slika 4.57. Primjer rezultata algoritama GenerateTermPostingPairsCollection i
GenerateTermPostingPairsDocument ............................................................................ 129
Slika 4.58. Primjer rezultata algoritma GenerateIndexCollection .................................. 131
Slika 5.1. Prikaz rečenice korišten za pronalaženje rečenica s klasama, vrstama podataka i
svojstvima ...................................................................................................................... 143
1
1. UVOD
Količina informacija na webu koja danas stoji na raspolaganju korisnicima pronalaženje
informacija čini kompleksnim i zahtjevnim područjem istraživanja. Veličina digitalnog
univerzuma informacija kako je web nazvan u istraživanju [1] procjenjuje se za 2011
godinu na 1.8 (1021) zetabajtova. Pronalaženje informacija (eng. Information Retrieval -
IR) iz digitalnog univerzuma sve je zahtjevniji i traženiji proces. Rješenje nudi vizija
naprednog weba tzv. semantičkog weba koja predviđa pretvaranje današnjeg weba koji se
sastoji pretežno od nestrukturiranih ili polu-strukturiranih podataka u web sa semantičkim
strukturama koji omogućava napredno procesiranje od strane strojeva. Pronalaženje
rečenica (eng. sentence retrieval) spada u šire područje pronalaženja informacija i može se
unaprijediti korištenjem dodatnih struktura podataka. Ovaj zadatak spada u šire područje
pronalaženja informacija. Analogan je pronalaženju dokumenata i može se definirati kao
pronalaženje relevantnih rečenica iz skupa dokumenata kao odgovor na upit korisnika.
Pronalaženje rečenica predstavlja prvi korak zadataka kao što su detekcija novosti [2], [3],
[4], [5], [6], [7], odgovaranje na pitanja [7], [8], [9], [10] i sažimanje teksta [11], [12], [13].
U dosadašnjim radovima na temu pronalaženja rečenica korištene su metode iz područja
pronalaženja dokumenata, model vektorskog prostora i model vjerojatnosti upita, koje su
na trivijalan način prilagođene zadatku pronalaženja rečenica. Tako dobivene metode za
pronalaženje rečenica poboljšavane su dodatno koristeći kontekst rečenice. To se pokazalo
uspješnim kod metode vjerojatnosti upita koja predstavlja pristup baziran na modeliranju
jezika [5], [6], [7]. Međutim kada je u pitanju model vektorskog prostora primijenjen na
zadatak pronalaženja rečenica, tj. TF-ISF metoda (Term Frequency – Invers Sentence
Frequency), [14], [15], [16], korištenje dodatnih informacija kao konteksta rečenice u
obliku dokumenta ili susjednih rečenica nije pokazalo poboljšanje u odnosu na osnovnu
metodu [5]. Dosadašnji radovi nisu istražili ni mogućnost stvaranja eksplicitnog zapisa na
razini dokumenta u obliku XML dokumenta ili preciznije OWL (Ontology Web Language)
dokumenta koji se može koristiti za unaprjeđenje pronalaženja rečenica. U ovoj doktorskoj
disertaciji istražiti će se je li moguće iz tekstova izdvojiti dodatne informacije s kojima se
može unaprijediti TF-ISF metoda za pronalaženje rečenica. Također će se istražiti je li tu
istu informaciju moguće eksplicitno zapisati kao dodatak običnom tekstu strukturirajući ga
i tako u širem smislu graditi semantički web.
2
1.1. Hipoteza
Osnovna hipoteza na kojoj se temelji ovaj rad je da je analiziranjem tekstnih dokumenata
moguće automatski generirati dodatnu informaciju s kojom se može unaprijediti TF-ISF
(eng. Term Frequency - Inverse Sentence Frequency) metoda za pronalaženje rečenica.
Drugim riječima u tekstnim dokumentima krije se informacija koja može biti uspješno
korištena za poboljšanje TF-ISF metode. Ovo podrazumijeva sljedeće:
Korištenjem lokalnog konteksta rečenice može se poboljšati TF-ISF metoda.
Korištenjem duljine rečenice može se poboljšati TF-ISF metoda
Još jedna hipoteza istraživanja je kako je također moguće TF-ISF metodu poboljšati
koristeći samo informaciju na razini dokumenta. Ovo podrazumijeva ograničavanje
ocjenjivanja relevantnosti rečenice u smislu da je za obračun ocjene relevantnosti moguće
koristiti informaciju samo iz onog dokumenta u kojem se rečenica nalazi, a ne kao inače
koristiti informacije iz cijelog korpusa (kolekcije) dokumenata.
Na osnovu prethodnih hipoteza moguće je definirati i novi OWL prikaz dokumenta kojeg
je moguće automatski generirati za svaki dokument i koji opisuje dokument neovisno od
ostalih dokumenata u korpusu. OWL prikaz je moguće koristiti za pronalaženje rečenica.
Na takav način se nestrukturirani podaci strukturiraju čime se olakšava i ubrzava računalno
procesiranje dokumenata.
1.2. Znanstveni doprinosi
Osnovni znanstveni doprinosi doktorske disertacije su:
1. TF-ISFcon metoda temeljena na TF-ISF metodi proširenoj uključenjem lokalnog
konteksta rečenice
2. TF-ISFlength metoda temeljena na TF-ISF metodi proširenoj uključenjem
informacije o duljini rečenice.
3
3. TF-ISFcon,length metoda temeljena na TF-ISF metodi proširenoj uključenjem
lokalnog konteksta rečenice i informacije o duljini rečenice.
4. DL TF-ISF, DL TF-ISFcon i DL TF-ISF con,length metode za pronalaženje rečenica na
razini dokumenta bez korištenja cijelog korpusa.
5. Definicija OWL prikaza dokumenta za pronalaženje rečenica.
Dodatni znanstveni doprinosi su
1. Pronalazak efekta unapređenja pronalaženja rečenica istovremenim korištenjem
konteksta rečenice i forsiranja dohvaćanja dugih rečenica kod modela vektorskog
prostora.
2. Ubrzanja procesa pronalaženja rečenica koristeći metode na razini dokumenta
računajući ocjene relevantnosti za vrijeme dohvaćanja dokumenata.
1.3. Struktura disertacije
U poglavlju 2. definirano je područje pronalaženja informacija. Također su predstavljene
osnovne mjere za mjerenje učinkovitosti sustava za pronalaženje dokumenata.
U poglavlju 3. predstavljeno je područje pronalaženja rečenica. Predstavljene su SOTA
(eng. state of the art) metode pronalaženja rečenica. Posebna pažnja je posvećena
metodama koje koriste lokalni kontekst rečenice za unapređenje pronalaženja rečenica.
U poglavlju 4. definirane su i testirane nove metode za pronalaženja rečenica. Najprije su
predstavljeni skupovi podataka sa TREC Staza novosti (eng. Novelty Track) koji se koriste
za testiranje metoda pronalaženja rečenica. Predstavljena su tri skupa podataka sa Staza
novosti iz godina 2002., 2003. i 2004 nad kojima su izvedene empirijske studije unutar ove
disertacije. Zatim je definirana i testirana nova metoda TF-ISFcon. Ova metoda koristi
lokalni kontekst rečenice u cilju unapređenja pronalaženja rečenica. TF-ISFcon je testirana
nad skupovima podataka iz Staza novosti iz 2002., 2003. i 2004. godine koristeći kratke i
duge upite. U testovima nova metoda je uspoređena sa osnovnom TF-ISF metodom i s
prijašnjim pokušajem uključivanja konteksta u TF-ISF metodu nazvaim tfmix. Također su
definirane i testirane nove metode TF-ISFlength i TF-ISFcon,length. Ove metode koriste duljinu
rečenice u cilju unapređenja pronalaženja rečenica. Metode TF-ISFlength i TF-ISFcon,length su
testirane nad skupovima podataka iz Staza novosti iz 2002., 2003. i 2004. godine koristeći
4
kratke upite. Nove metode uspoređene su sa SOTA TF-ISF baziranim metodama kao i sa
SOTA metodom iz područja modeliranja jezika (varijantom mješavine tri modela). U
nastavku ovog poglavlja definirane su i testirane varijante već spomenutih novih metoda
(TF-ISFcon i TF-ISFcon,length) koje koriste informacije na razini dokumenta odnosno DL TF-
ISFcon i DL TF-ISFcon,length. Nove metode su testirane na skupovima podataka iz Staza
novosti iz 2002., 2003. i 2004. godine koristeći kratke upite. Demonstrirana je prednost
metoda na razini dokumenta kada je u pitanju brzina davanja odgovora krajnjem korisniku
koja dolazi od mogućnosti računanja ocjena relevantnosti rečenica prije nego što su
dohvaćene sve rečenice.
U poglavlju 5. definiran je OWL (eng. Ontology Web Language), [17] prikaz dokumenta
koji se bazira na metodi DL TF-ISFcon,length i koji olakšava implementaciju sustava za
pronalaženje rečenica. Demonstrirano je na koji se način prikaz dokumenta može
automatski generirati. Također je prikazano na koji se način novi prikaz dokumenta može
koristiti za pronalaženje rečenica.
Doktorska disertacija u poglavlju 6. završava sa zaključkom, nakon kojeg su navedene
literatura i dodaci.
5
2. PRONALAŽENJE INFORMACIJA
Pronalaženje informacija (eng. Information Retrieval - IR) može se definirati kako slijedi:
Pronalaženje informacija je pronalaženje materijala (obično dokumenata)
nestrukturirane prirode (obično tekstne) koji zadovoljavaju određenu informacijsku
potrebu unutar velikih kolekcija (obično spremljenih na računalima), [18].
Pronalaženje informacija bavi se sa prezentacijom, pohranom, organizacijom i
pristupanjem informacijskim stavkama [19].
Pronalaženje informacija često se poistovjećuje sa pronalaženjem dokumenata.
Pronalaženje dokumenata može se definirati kao:
Pronalaženje dokumenata je računalni proces generiranja rangirane liste
relevantnosti dokumenata kao odgovor na upit korisnika uspoređujući upit sa
automatski produciranim indeksom dokumenata u sustavu [20].
Pronalaženje dokumenata sastoji se od dohvaćanja dokumenata ili tekstnih isječaka
iz skupa dokumenata koji zadovoljavaju određenu informacijsku potrebu [6].
Osnovni pojmovi koje se koriste kod pronalaženja informacija su [18]:
Informacijska potreba (eng. information need)
Upit (eng. query)
Indeks (eng. index)
Relevantnost (eng. relevance)
Preciznost (eng. precision)
Odaziv (eng. recall)
Informacijska potreba je tema o kojoj korisnik želi saznati više. Upit je ono što korisnik
preda računalu u cilju prenošenja informacijske potrebe i sastoji se obično od nekoliko
ključnih izraza. Indeks je podatkovna struktura koja sadrži vezu od izraza do dokumenata
iz kolekcije koji sadrže izraz. Dokument je relevantan ako korisnik smatra da sadrži
6
korisnu informaciju u odnosu na informacijsku potrebu. Uspješnost sustava za
pretraživanje informacija se mjeri preciznošću (eng. precision) i odazivom (eng. recall)
koji se mogu definirati kako slijedi [18]:
Preciznost je razlomak pronađenih dokumenata koji su relevantni.
Odaziv je razlomak relevantnih dokumenata u kolekciji dobivenih sustavom.
Općenito, sustavi za pronalaženje dokumenata nastoje iz kolekcije dokumenata pronaći
dokumente koji odgovaraju upitu korisnika. Pritom se koristi indeks dokumenata koji
olakšava pronalaženje. Koristeći upit korisnika i indeks dokumenata sustav za traženje
dokumenata može, koristeći određene mjere sličnost, ocijeniti (odnosno izračunati)
relevantnost svakog dokumenta. Krajnjem korisniku se najčešće prezentira rezultat u
obliku liste u kojoj se na početku nalaze dokumenti sa najvećom izračunatom
relevantnošću. Krećući se dalje kroz listu relevantnost dokumenata opada. Na kraju liste su
dokumenti sa najnižom relevantnošću.
2.1. Mjerenje učinkovitosti sustava za pretraživanje informacija
Mjere učinkovitosti sustava za pretraživanje informacija mogu se podijeliti na dvije
skupine prema obliku rezultata na
Mjere za ne-rangirane rezultate
Mjere za rangirane rezultate
2.1.1. Mjere za ne-rangirane rezultate
Već su spomenute osnovne mjere učinkovitosti, preciznost i odaziv. Koriste se u slučaju
kad sustav za pronalaženje informacija vraća rezultat u obliku skupa ne-rangiranih
dokumenata. One se mogu formalno definirati kao u [21]. Ovdje prikazani opis odgovara
opisu iz [21] uz modifikacije radi boljeg uklapanja u područje pretraživanja informacija.
7
Pretpostavimo da imamo kolekciju dokumenata퐷 od kojih je samo jedan dio 휋 (휋 ⊆ 퐷)
relevantan. Pretpostavimo da sustav za pretraživanje pronađe dio dokumenata 푅(푅 ⊆ 퐷)
iz D. Neka je 퐻 (퐻 ⊆ 푅) dio dokumenata iz 푅 koji je relevantan (H dolazi od eng. hits ili
pogodak). Drugim riječima 퐻 = 푅 ∩ 휋. Ovo je shematski prikazano na slici 2.1.
Slika 2.1. Shematski prikaz skupova korištenih za mjere preciznost i odaziv
Odaziv 푟 je razlomak relevantnih dokumenata u kolekciji dobivenih sustavom i definira se
kao u jednadžbi (2.1):
푟 =퐻휋=푅 ∩ 휋휋
=|{푃푟표푛푎đ푒푛푖푑표푘푢푚푒푛푡푖} ∩ {푅푒푙푒푣푎푛푡푛푖푑표푘푢푚푒푛푡푖}|
|{푅푒푙푒푣푎푛푡푛푖푑표푘푢푚푒푛푡푖}| (2.1)
Preciznost 푝 je razlomak pronađenih dokumenata koji su relevantni i definira se kao u
jednadžbi (2.2):
푝 =퐻푅=푅 ∩ 휋푅
=|{푃푟표푛푎đ푒푛푖푑표푘푢푚푒푛푡푖} ∩ {푅푒푙푒푣푎푛푡푛푖푑표푘푢푚푒푛푡푖}|
|{푃푟표푛푎đ푒푛푖푑표푘푢푚푒푛푡푖}| (2.2)
Koja je od ove dvije mjere važnija ovisi od vrsti korisnika [18]. Tipičan korisnik weba
(surfer) želi rezultat koji se sastoji od manjeg skup dokumenata u kojem su gotovo svi
dokumenti relevantni i ne želi sve relevantne dokumente. To znači da mu je važna
preciznost, a spreman je prihvatiti nizak odaziv. Za razliku od toga profesionalcima je
8
često važno pronaći što više relevantnih dokumenata. To znači da im je važan odaziv. Pri
tom su spremni prihvatiti nisku preciznost.
Preciznost i odaziv se ponašaju suprotno kada je u pitanju povećavanje i smanjenje broja
dokumenata u rezultatu. Sa povećanjem broja dokumenata preciznost opada, a odaziv raste
a sa smanjenjem broja dokumenata preciznost raste, a odaziv opada. Međutim, u većini
slučajeva od važnosti su obadvije mjere. Iz tog razloga se često koristi i F-mjera koja
kombinira i preciznost i odaziv [18].
2.1.2. Mjere za rangirane rezultate
Mjere preciznost i odaziv baziraju se na skupu dokumenata vraćenih u rezultatu ne
uzimajući u obzir redoslijed dokumenata. Međutim ako je rezultat u obliku rangirane liste
onda je potrebno koristiti mjere koje uzimaju u obzir i redoslijed dokumenata. Postoji
mogućnost korištenja preciznost-odaziv krivulje na način da se promatra preciznost i
odaziv za svaki rezultat u obliku top k rangiranih dokumenata (slika 2.2., zupčasta
krivulja). Da bi se uklonili vršci krivulje, krivulja se obično definira koristeći interpoliranu
preciznost 푝 (jednadžba (2.3)) koja predstavlja najveću preciznost za bilo koji odaziv
푟 > 푟 [18]:
푝 (푟) = max 푝(푟′) (2.3)
Primjer preciznost-odaziv krivulje sa interpoliranom preciznošću je prikazan na slici 2.2.
(slika 2.2., stepenasta krivulja).
9
Slika 2.2. Preciznost-odaziv krivulja [18]
Učinkovitost sustava se može ocijeniti analizirajući preciznost-odaziv krivulju. Međutim, u
zadnje vrijeme se sve više koriste mjere kao što su MAP (eng. Mean Average Precision),
R-precision i P@10 [18], [5], [6], [7]. Ove mjere iskazuju učinkovitost sustava jednom
vrijednošću.
Glavnu ulogu u istraživanjima provedenim u sklopu ove doktorske disertacije koja će biti
prezentirana u sljedećim poglavljima ima mjera srednja prosječna preciznost ili skraćeno
MAP. Ova mjera se pokazala dobrom kada je u pitanju stabilnost i mogućnost razlikovanja
(eng. discrimination) i predstavlja standardnu mjeru TREC zajednice [18]. Prosječna
preciznost (eng. Average Precision) za jedan upit računa se kao prosjek preciznosti top k
dokumenata nakon što je svaki relevantni dokument dohvaćen s tim što je u slučaju kad se
određeni relevantni dokument uopće ne dohvati preciznost jednaka nula. [18], [22].
Srednja vrijednost (tj. prosjek) svih prosječnih preciznosti je srednja prosječna preciznost
ili MAP. Prosječna preciznost i srednja prosječna preciznost mogu se formalno definirati
kao u [18] i [5] kako slijedi:
Neka je
푄 skup upita,
10
푞 ∈ 푄 upit,
푚 broj relevantnih dokumenata za upit 푞 ,
푑 , 푑 ,… , 푑 skup relevantnih dokumenata za upit 푞 ,
푅 skup rangiranih dokumenata iz rezultata kao odgovor na upit 푞 od gornjeg
(top) dokumenta do dokumenta 푑
푛 broj dohvaćenih dokumenata kao odgovor na upit 푞
onda je prosječna preciznost definirana kao
퐴푣푔푃푟푒푐 푞 =1푚
푝(푅 ) (2.4)
gdje je 푝 푅 definiran kao u jednadžbi (2.5):
푝 푅 =푏푟표푗푟푒푙푒푣푎푛푡푛푖ℎ푑표푘푢푚푒푛푎푡푎푢푅
푅푎푘표푗푒푑 푟푒푙푒푣푎푛푡푎푛
0푖푛푎č푒
� (2.5)
Srednja prosječna preciznost za skup upita Q je definirana kao (jednadžba (2.6) i jednadžba
(2.7)):
푀퐴푃(푄) =1|푄|
퐴푣푔푃푟푒푐 푞
| |
(2.6)
Kada uvrstimo jednadžbu za prosječnu preciznost dobijemo:
푀퐴푃(푄) =1|푄|
1푚
푝(푅 )
| |
(2.7)
Za mnoge aplikacije kao što je npr. pretraživanje weba od važnosti je da među prvim
dokumentima iz rezultata bude što više relevantnih. U tu svrhu se korist mjera preciznost
na x ili P@x gdje je x cijeli broj i iznosi obično 5, 10, 15, 20 itd. P@x za jedan upit može
se definirati kako slijedi (jednadžba (2.8)):
11
푃@푥 푞 =푏푟표푗푟푒푙푒푣푎푛푡푛푖ℎ푑표푘푢푚푒푛푎푡푎푢푡표푝푥푑표ℎ푣푎ć푒푛푖ℎ
푥 (2.8)
Prosječna preciznost na x za skup od više upita Q je definirana kao (jednadžba (2.9));
퐴푣푔푃@푥(푄) =1|푄|
푃@푥 푞
| |
(2.9)
U sljedećim poglavljima koristiti će se naziv 푃@푥 a za prosječnu preciznost na x za skup
upita, 퐴푣푔푃@푥(푄), što je uobičajeno u sličnim radovima [5], [7].
Kao dodatna mjera bit će korištena i R-precision mjera koja se empirijski pokazala u jakoj
korelaciji sa MAP mjerom [18]. R-precision se može definirati kako slijedi:
푅 − 푝푟푒푐푖푠푖표푛(푞 ) =푟
|푅푒푙| (2.10)
Gdje je:
|Rel| broj dokumenata koji su relevantni u odnosu na upit 푞 ,
r je broj relevantnih dokumenata u top |Rel| dokumenata rezultata.
Prosječna vrijednost R-precision za skup upita Q je definirana kao:
퐴푣푔푅 − 푝푟푒푐푖푠푖표푛 =1|푄|
푅 − 푝푟푒푐푖푠푖표푛(푞 )
| |
(2.11)
Analogno P@x mjeri i za AvgR-precision mjeru će se koristiti oznaka R-precision.
12
3. PRONALAŽENJE REČENICA
Pronalaženje rečenica je zadatak koji se sastoji od pronalaženja relevantnih rečenica iz
skupa rečenica kao odgovor na upit. Pod skupom rečenica nad kojim se vrši pretraživanje
obično se podrazumijevaju sve rečenice sadržane u korpusu dokumenata (odnosno bazi
dokumenata). Upit se obično sastoji od nekoliko ključnih riječi, ali može biti i cijela
rečenica ili više rečenica. Pronalaženje rečenica definira se kao:
„Zadatak pronalaženja rečenica sastoji se od pronalaženja relevantnih rečenica iz
baze dokumenata ako je zadan upit.“ [5]
„Pronalaženje rečenica je zadatak dohvaćanja relevantne rečenice kao odgovor na
upit, pitanje ili referentnu rečenicu." [7]
Pronalaženje rečenica koristi se kod sljedećih zadataka iz područja pronalaženja
informacija:
Detekcija novosti (eng. novelty detection), [2], [3], [4], [5], [6], [7]
Odgovaranje na pitanja (eng. question answering) [7], [8], [9], [10]
Sažimanje teksta (eng. text summarization), [11], [12], [13].
Traženje rečenica je relativno novo i nedovoljno istraženo područje. Traženje rečenica se
najčešće smatra traženjem dokumenata i metode koje se primjenjuju kod traženja
dokumenata primjenjuju se i na traženje rečenica. U svrhu implementiranja sustava za
pronalaženje rečenica koriste se modificirane metode pronalaženja dokumenata poput TF-
IDF (eng. Term Frequency-Inverse Document Frequency), model vjerojatnosti upita i
BM25 u kojima je umjesto dokumenta jedinica traženja rečenica. Slijedi opis metoda
pronalaženja rečenica.
13
3.1. Model vektorskog prostora i pronalaženje rečenica
Model vektorskog prostora (eng. vector-space model) je jedan od najčešće korištenih
modela za pretraživanje informacija [7]. Ovaj se model koristi za pretraživanje
dokumenata i za pretraživanje rečenica. Većina web tražilica koristi ovaj model [18].
Kod modela vektorskog prostora i dokumenti i upit su predstavljeni kao vektori. Preciznije,
neka je 푇 skup svih izraza koji se koriste u sustavu za pretraživanje dokumenata tj.:
푇 = (푡 , 푡 , … , 푡 ) (3.1)
Gdje je:
푛 broj različitih izraza koji se koriste u sustavu za pretraživanje dokumenata.
Koristeći skup 푇 mogu se definirati vektori za dokument 푑 i upit 푞 kao (jednadžba (3.2) i
(3.3)):
푑 = (푤 ,푤 ,… ,푤 ,… ,푤 ) (3.2)
푞 = (푤 ,푤 ,… ,푤 , … ,푤 ) (3.3)
Gdje je:
푤 težina izraza 푡 u dokumentu 푑,
푤 težina izraza 푡 u upitu 푞.
Sličnost između vektora dokumenta i vektora upita mjeri se pomoću produkta vektora:
푠푙푖č푛표푠푡(푞, 푑) = 푤 ∙푤 (3.4)
Kolekcija dokumenata se sastoji od dokumenata različite duljine. Budući da su dulji
dokumenti predstavljeni duljim vektorom takvi dokumenti imaju veću vjerojatnost da budu
ocjenjeni relevantnim nego kratki dokumenti. Iz tog razloga se često koristi normalizacija
14
vektora dokumenta. Ako se uz to primjeni i normalizacija vektora upita dobije se formula
sličnosti u obliku kosinusa kuta između vektora dokumenta i upita koja se često koristi za
pretraživanje dokumenata (jednadžba (3.5)), [23], [7]:
푠푙푖č푛표푠푡(푞, 푑) =∑ 푤 ∙푤
∑ (푤 ) ∑ (푤 ) (3.5)
Na slici 3.1. shematski je prikazan postupak pronalaženja dokumenata čiji su vektori
najsličniji vektoru upita.
Slika 3.1. Ilustracija modela vektorskog prostora pronalaženja dokumenata
Da bi se izračunale težine izraza za dokumente polazi se od činjenice da su najbolji izrazi
oni koji pomažu prilikom razlikovanja individualnih dokumenata od ostatka kolekcije [23].
U takve izraze spadaju oni koji se često pojavljuju u individualnom dokumentu a rijetko u
kolekciji. Iz tog razloga se koristi TF-IDF mjera koja predstavlja produkt frekvencije
izraza u individualnom dokumentu i invertne frekvencije dokumenta.
15
Kao što joj naziv govori TF-IDF mjera između ostalog uzima u obzir frekvenciju izraza
(eng. Term Frequency) odnosno broj pojavljivanja određenog izraza u dokumentu da bi
procijenila relevantnost tog izraza u odnosu na dokument. Npr. pretpostavka je da
dokument u kojem se izraz „razvoj“ pojavljuje pet puta ima više veze sa upitom „razvoj
benzinskog motora“ nego dokument u kojem se „razvoj“ pojavljuje jedanput.
Najjednostavniji oblik frekvencije izraza definiran je formulom:
푡푓 , = 푐(푡 , 푑) (3.6)
Gdje je:
푡 izraz,
푑 dokument,
푐(푡 , 푑) broj pojavljivanja izraza 푡 u dokumentu 푑.
S druge strane nisu svi izrazi iz dokumenta jednako važni kada je u pitanju odabir
relevantnog dokumenta. Neke riječi imaju malo ili nimalo diskriminatorskog potencijala
kod određivanja relevantnosti [18]. Npr. ako pretražujemo kolekciju dokumenata u vezi
povijesti automobila onda će vjerojatno svaki dokument sadržavati izraz „auto“. Zato je
potrebno smanjiti težinu ovog izraza. Ovo se može postići smanjujući težinu izraza
množeći je invertnom frekvencijom dokumenata. Jedna od najjednostavnijih korištenih
formula za invertnu frekvenciju dokumenta je:
푖푑푓 = log푁푛
(3.7)
Gdje je:
푁 broj dokumenata u korpusu,
푛 broj dokumenata koji sadrža izraz 푡 .
Konačno mjera TF-IDF se računa kao produkt frekvencije izraza 푡푓 , i invertne
frekvencije dokumenta 푖푑푓 tj.:
푇퐹 − 퐼퐷퐹 = 푤 , = 푡푓 , ∙ 푖푑푓 (3.8)
16
Gdje je:
푤 , težina izraza 푡 u dokumentu 푑.
Postoje razne varijante TF-IDF mjere koje modificiraju 푡푓 , i 푖푑푓 komponentu [18],
[23]. Također se može opcionalno koristiti i određena vrsta normalizacija da bi se smanjio
utjecaj veličine dokumenta na ocjenu relevantnosti [18], [23]. Općenito je potrebno i za
vektor dokumenta i za vektor upita izabrati vrstu frekvencije izraza, vrstu invertne
frekvencije dokumenata i vrstu normalizacije.
3.1.1. Varijante frekvencije izraza
Jedna od uobičajenih varijanti frekvencije izraza koristi logaritam frekvencije umjesto
obične frekvencije. Pretpostavka je da npr. 10 pojavljivanja određenog izraza u dokumentu
ipak nije 10 puta vrjednije od jednog pojavljivanja. Formula koja se koristi je [18],
(jednadžba (3.9)):
푡푓 , = 1 + log 푐(푡 , 푑) 푎푘표푗푒푐(푡 , 푑) > 00푖푛푎č푒
� (3.9)
Gdje je:
푐(푡 , 푑) broj pojavljivanja izraza 푡 u dokumentu 푑.
Druga uobičajena varijanta frekvencije izraza koristi maksimalnu frekvenciju izraza u
dokumentu [18]. Polazi se od pretpostavke da se u dugim dokumentima pojavljuju visoke
frekvencije izraza iz razloga što dugi dokumenti teže stalnom ponavljanju jednih te istih
riječi. Da bi se ovaj problem riješio koristi se formula za frekvenciju izraza u kojoj se
frekvencija izraza dijeli sa maksimalnom frekvencijom izraza u dokumentu 푐 (푑) =
푚푎푥 ∈ 푐(푡 , 푑) kako slijedi (jednadžba (3.10)):
푡푓 , = 푎 + (1 − 푎)푐(푡 , 푑)푐 (푑)
(3.10)
17
Gdje je:
푎 između 0 i 1 i predstavlja parametar za izglađivanje koji sprječava velike
skokove 푡푓 , u odnosu na male promjene 푐(푡 , 푑).
푐 (푑) = 푚푎푥 ∈ 푐(푡 , 푑) maksimalna frekvencija izraza u dokumentu d.
Parametar 푎 ograničave 푡푓 , na vrijednosti između 푎 i 1. Uobičajeno se koristi 푎 = 0,5
[24].
3.1.2. Varijante invertne frekvencije dokumenta
Pored spomenute formule za invertnu frekvenciju dokumenta (푖푑푓 = log ) moguće je
koristiti i probabilističku invertnu frekvenciju dokumenta koja se oslanja na probabilistički
model pretraživanja informacija [23], (jednadžba (3.11)):
푖푑푓 = log푁 − 푛푛
(3.11)
Gdje je:
푁 broj dokumenata u kolekciji,
푛 broj dokumenata u kolekciji koji sadrži izraz 푡 .
3.1.3. Varijante normalizacije
Pored već korištene kosinus normalizacije
1
푤 +푤 +⋯+ 푤 (3.12)
moguće je koristiti i tzv. bajtnu (eng. byte size) normalizaciju
1
퐵푟표푗푍푛푎푘표푣푎푈퐷표푘푢푚푒푛푡푢 (3.13)
18
gdje je 훼 < 1. Također je moguće i ne koristiti normalizaciju.
Da bi se mogla prikazati kombinacija varijante frekvencije izraza, invertne frekvencije
dokumenta i normalizacije koristi se takozvana SMART notacija. Inače SMART (eng.
System for the Mechanical Analysis and Retrieval of Text) je sustav za pretraživanje
informacija razvijen šezdesetih godina na Cornel sveučilištu [25]. SMART notacija se
sastoji od slova u obliku ddd.qqq gdje prva tri slova (ddd) označavaju težinu izraza vektora
dokumenta a druga tri slova (qqq) težinu izraza vektora upita. I kod dokumenta i kod upita
prvo slovo označava varijantu frekvencije izraza, drugo slovo varijantu invertne
frekvencije dokumenata i treće slovo varijantu normalizacije. Primjeri varijacija
komponenti TF-IDF metode kao i oznake za SMART notaciju su prikazane u tablicama
3.1. - 3.3. Npr. jedna od uobičajenih kombinacija je lnc.ltc.
Tablica 3.1. Varijante komponente frekvencije izraza za TF-IDF metodu s odgovarajućim
nazivima i oznakama SMART notacije
Frekvencija izraza
Oznaka Naziv Formula
n Prirodna (eng. natural) 푐(푡 , 푑)
l Logaritamska (eng. logarithm) 1 + log 푐(푡 , 푑)
a Proširena (eng. augmented) 0,5 + (1 − 0,5)
푐(푡 , 푑)푐 (푑)
b Booleova (eng. boolean) 1, 푎푘표푗푒푐(푡 , 푑) > 00, 푖푛푎č푒
�
19
Tablica 3.2. Varijante komponente invertne frekvencije dokumenata za TF-IDF metodu s
odgovarajućim nazivima i oznakama SMART notacije
Invertirana frekvencija dokumenata
Oznaka Naziv Formula
n Ne (eng. no) 1
t idf log푁푛
p Probabilistički idf (eng.
probabilistic idf) log
푁 − 푛푛
Tablica 3.3. Varijante komponente normalizacije za TF-IDF metodu s ogovarajućim
nazivima i oznakama SMART notacije
Normalizacija
Oznaka Naziv Formula
n Bez normalizacije (eng. none) 1
c Kosinus (eng. cosine) 1
푤 +푤 +⋯+푤
b Bajtna (eng. byte size) 1퐵푟표푗푍푛푎푘표푣푎푈퐷표푘푢푚푒푛푡푢
, 훼 < 1
3.1.4. Model vektorskog prostora primijenjen na pronalaženje rečenica
Model vektorskog prostora se može primijeniti i na pronalaženje rečenica [5], [14], [16],
[26], [27]. To se može postići na način da se rečenica smatra dokumentom.
Kao što je već spomenuto, kod primjene modela vektorskog prostora na pronalaženje
dokumenata potrebno je i dokumente i upite prikazati kao vektore koji se sastoje od težina
izraza. Zatim se koristi određena mjera sličnosti da bi se ocijenila relevantnost svakog
dokumenta. Krajnji rezultat je lista dokumenata sa padajućom relevantnošću prezentirana
krajnjem korisniku.
Kod primjene modela vektorskog prostora na pronalaženje rečenica polazi se od trivijalne
pretpostavke da je pronalaženje rečenica analogno pronalaženju dokumenata i model se
20
modificira na odgovarajući način. Drugim riječima vektor dokumenata se zamjenjuje
vektorom rečenice.
Kod modela vektorskog prostora primijenjenog na pronalaženje rečenica i rečenica i upit
su predstavljeni kao vektori koji se sastoje od težina izraza. Da bi se ocijenila relevantnost
svake rečenice u odnosu na postavljeni upit koristi se mjera sličnosti između vektora
rečenice i vektora upita. Koristeći dobivene ocjene pridružene rečenicama krajnjem
korisniku se nudi rezultat u obliku liste rečenica sa padajućom relevantnošću.
Detalji primjene vektorskog prostora na pronalaženje rečenica su opisani u [14]. Točnije
Allan definira funkciju za relevantnost rečenice s za zadan upit 푞 kao:
푅(푠|푞) = log(푐(푡, 푞) + 1)log(푐(푡, 푠) + 1)log푁 + 1
0.5 + 푠푓(푡)∈
(3.14)
Gdje je:
푐(푡, 푞) broj pojavljivanja izraza 푡 u upitu 푞,
푐(푡, 푠) broj pojavljivanja izraza 푡 u rečenici 푠,
푠푓(푡) broj rečenica koje sadrže izraz 푡,
푁 broj rečenica u kolekciji.
Gornja funkcija se koristi za računanje ocjene relevantnosti rečenice 푠 u odnosu na upit 푞.
Ona krije u sebi težinsku funkciju vektora rečenice, težinsku funkciju vektora upita i mjeru
sličnosti između vektora rečenice i vektora upita.
Ako je vektor rečenice zadan kao:
푠 = (푤 ,푤 ,… ,푤 ,… ,푤 ) (3.15)
onda je težinska funkcija vektora S koja se koristi u jednadžbi (3.14) definirana kao:
푤 = log(푐(푡, 푠) + 1) (3.16)
Ako je vektor upita zadan kao
21
푞 = (푤 ,푤 ,… ,푤 , … ,푤 ) (3.17)
Onda je težinska funkcija vektora 푞 koja se koristi u jednadžbi (3.14) definirana kao
푤 = log(푐(푡, 푞) + 1) log푁 + 1
0.5 + 푠푓(푡) (3.18)
Težinska funkcija vektora upita 푤 predstavlja varijantu TF-IDF funkcije prilagođenu
procesu pronalaženju rečenica [14]. Težinska funkcija vektora rečenice predstavlja
varijantu obične frekvencije izraza (eng. term fequency). Mjera koja se u ovom slučaju
koristi za sličnost između dva vektora je skalarni produkt (jednadžba 3.14).
Da bi se mogla razlikovati primjena TF-IDF težinske funkcije kod pronalaženja
dokumenata i primjene TF-IDF funkcije kod pronalaženja rečenica u literaturi se koristi i
skraćenica TF-ISF koja označava primjenu TF-IDF funkcije na pronalaženje rečenica [5],
[14], [16], [26], [27].
3.2. Modeliranje jezika i pronalaženje rečenica
Statistički model jezika predstavlja razdiobu vjerojatnosti nad nizovima izraza. Statistički
modeli jezika se npr. primjenjuju kod prepoznavanje govora (eng. speech recognition),
[28].
Niz izraza se može definirat kao (푤 ,푤 ,… , 푤 ) gdje je vjerojatnost niza označena kao
P(푤 ,푤 ,… , 푤 ). Nizovi se mogu odnosit na fraze ili rečenice. Vjerojatnost niza izraza
P(푤 ,푤 ,… , 푤 ) računa se koristeći korpus dokumenata. Računanje vjerojatnosti nizova je
računalno zahtjevno budući da nizovi mogu biti proizvoljne duljine i da se koriste veliki
korpusi dokumenta [28]. Stoga se u praksi koriste n-gram modeli jezika koji aproksimiraju
model jezika. Npr. Mogu se koristiti unigram, bigram i trigram modeli. Kod ovih modela
vjerojatnosti se računaju na sljedeći način [28]:
Unigram: 푃(푤 ,푤 , … ,푤 ) = 푃(푤 ) 푃(푤 ) ∙∙∙ 푃(푤 )
22
Bigram: 푃(푤 , 푤 ,… , 푤 ) = 푃(푤 ) 푃(푤 |푤 ) ∙∙∙ 푃(푤 |푤 )
Trigram: 푃(푤 ,푤 , … ,푤 ) = 푃(푤 ) 푃(푤 |푤 )푃(푤 |푤 , 푤 ) ∙∙∙∙∙∙ 푃(푤 |푤 , 푤 )
Najjednostavniji model je unigram. Unigram modeli polaze od pretpostavke da je svaki
izraz neovisan o drugim izrazima.
Modeliranje jezika se također primjenjuje na pronalaženje dokumenata [29]. Model jezika
primijenjen na pronalaženje dokumenata se naziva i model vjerojatnosti upita.
3.2.1. Model vjerojatnosti upita
Kod ovoga modela cilj je dobiti vjerojatnost dokumenta 푑 ako je poznat upit 푞, odnosno
cilj je izračunati vjerojatnost 푃(푑|푞) . Ova vjerojatnost se ne računa direktno nego se
koristi Bayesov teorem pomoću kojeg se može dobiti sljedeća jednadžba:
푃(푑|푞) =푃(푞|푑)푃(푑)
푃(푞) (3.19)
Vjerojatnost upita 푃(푞) smatra se jednakim za svaki dokument i zato nema utjecaja na
redoslijed dokumenata u rezultatu. Također se i vjerojatnost svakog dokumenta 푃(푑)
smatra jednakom tako da ni ona nema utjecaja na rezultat. Ako se ove dvije činjenice uzmu
o obzir dobije se jednadžba:
푃(푑|푞) = 푃(푞|푑) (3.20)
Sada se dokumenti mogu poredati prema vjerojatnosti pojavljivanja upita 푞 kao slučajnog
uzorka dokumenta 푑 . Ova metoda pretraživanja dokumenata se zato naziva i „model
vjerojatnosti upita“.
Vjerojatnost upita q ako je zadan dokument 푑se može procijeniti koristeći unigram model
jezika. Drugim riječima pretpostavi se da je vjerojatnost pojedinačnih izraza neovisna o
drugim izrazima. U takvom slučaju vjerojatnost pojavljivanja upita 푞 u dokumentu 푑 se
računa kao produkt vjerojatnosti pojavljivanja pojedinačnih izraza:
23
푃(푞|푑) = 푃(푡|푑) ( , )
∈
(3.21)
Gdje je:
푐(푡, 푞) broj pojavljivanja izraza 푡 u upitu 푞.
Vjerojatnost 푃(푡|푑) se računa kao broj pojavljivanja izraza 푡 u dokumentu 푑 , odnosno
푐(푡, 푑) podijeljen sa brojem izraza u dokument 푑 odnosno |푑|:
푃(푡|푑) =푐(푡, 푑)|푑|
(3.22)
Model jezika se analogno može primijeniti i na pronalaženje rečenica. Jednadžba za
vjerojatnost upita primijenjena na pronalaženje rečenica je analogna jednadžbi (3.21) i
glasi:
푃(푞|푠) = 푃(푡|푠) ( , )
∈
(3.23)
푃(푡|푠) =푐(푡, 푠)|푠|
(3.24)
Gdje je:
푐(푡, 푆) broj pojavljivanja izraza 푡 u rečenici 푠,
|푠| duljina rečenice 푠.
3.2.1.1. Izglađivanje
Kod modela vjerojatnosti upita dovoljno je da se samo jedna riječ iz upita ne pojavljuje u
rečenici da bi vjerojatnost 푃(푞|푑) bila 0 (jednadžba (3.23)). Ovaj se problem često naziva
problem nulte vjerojatnosti (eng. zero probability problem), [30], [31]. Takva se situacija
rješava izglađivanjem (eng. smoothing) odnosno davanjem vrijednosti različite od 0
24
izrazima koji se pojavljuju u upita, a ne pojavljuju se u rečenici. Uobičajene metode za
izglađivanje miješaju model rečenice sa modelom kolekcije [31]. Postoji cijeli niz metoda
za izglađivanje [32], [30]. Međutim, dvije metode koje se najčešće koriste kod
pretraživanja rečenica su Jelinek-Mercer izglađivanje i Dirichlet izglađivanje.
Jelinek-Mercer izglađivanje se zasniva na linearnoj interpolaciji distribucije vjerojatnosti
rečenice i distribucije vjerojatnosti kolekcije. Ako se Jelinek-Mercer izglađivanje primjeni
na jednadžbu (3.23) dobije se:
푃(푞|푠) = [(1 − 휆)푃(푡|푠) + 휆푃(푡)] ( , )
∈
(3.25)
Gdje je:
푃(푡) vjerojatnost pojavljivanja izraza u kolekciji,
휆 parametar za podešavanje jačine izglađivanja.
Ako se Dirichlet izglađivanje primjeni na jednadžbu (3.23) dobije se:
푃(푞|푠) =푐(푡, 푠) + 휇푃(푡)
|푠| + 휇∈
(3.26)
Gdje je:
푐(푡, 푠) broj pojavljivanja izraz 푡 u rečenici 푠,
|푠| duljina rečenice,
휇 parametar za podešavanje jačine izglađivanja.
Kada je u pitanju pronalaženje dokumenata studije su pokazale da Dirichlet izglađivanje
ima bolje performanse od Jelinek-Mercer izglađivanja [30]. Za razliku od Jelinek-Mercer
izglađivanja Dirichlet izglađivanje određuje jačinu izglađivanja koristeći duljinu
dokumenta. Dirichlet izglađivanje se pokazalo kao bolje jer se u rezultatu dobiju
dokumenti koji svojom duljinom više sliče relevantnim dokumentima [30].
25
3.3. BM25
U svrhu pretraživanja rečenica također se višestruko koristila i popularna BM25 metoda za
pretraživanje dokumenata [33], [34]. Ova metoda predstavlja primjenu probabilističkog
pretraživanja informacija koje za rangiranje dokumenata koristi vjerojatnost da je
dokument relevantan u odnosu na upit [18].
Funkcija za rangiranje metode BM25 koja se koristi za pronalaženje rečenica je definirana
kao [5]:
푅(푠|푞) = 푙표푔푁 − 푠푓(푡) + 0,5푠푓(푡) + 0,5
∙(푘 + 1)푐(푡, 푠)
푘1 (1 − 푏) + 푏 |푠|푎푣푠푙 + 푐(푡, 푠)
∙∈
(푘 + 1)푐(푡, 푞)푘 + 푐(푡, 푞)
(3.27)
Gdje je:
푁 broj rečenica u kolekciji,
푠푓(푡) broj rečenica koje sadrže izraz 푡,
푐(푡, 푠) broj pojavljivanja izraza 푡 u rečenici 푠,
푐(푡, 푞) broj pojavljivanja izraza 푡 u upitu 푞,
|푠| duljina rečenice 푠,
푎푣푠푙 je prosječna duljina rečenice,
푘 ,푘 i 푏 su parametri koji se podešavaju.
Nakon podešavanja parametara ova metoda ima usporedive performanse kao TF-ISF
metoda [35], [5]. Međutim za razliku od TF-ISF zahtijeva podešavanje što je čini težom za
implementiranje.
3.4. Povratna informacija relevantnosti i proširivanje upita
Krajnjem korisniku nije uvijek lako postaviti kvalitetan upit na koji će dobiti dobre
rezultate. Razlog leži u tome što se u dokumentima često za isti koncept koriste različiti
izraz od onoga u upitu (npr. avion↔zrakoplov). Da bi riješili ovaj problem korisnici često
samostalno mijenjaju tj. poboljšavaju upit da bi dobili bolje rezultate. Međutim postoje i
26
metode koje mogu pomoći korisniku oko poboljšavanja upita ili čak potpuno automatizirati
poboljšavanje upita. Metode se mogu podijeliti na globalne i lokalne. Globalne metode su
neovisne o upitu i o prvom rezultatu. U globalne metode spadaju
proširivanje upita koristeći tezaurus ili WordNet [36]
proširivanje upita koristeći automatsko generiranje tezaurusa.
Lokalne metode koriste upit i prvi rezultat da bi proširile upit. U ove metode spadaju
povratna informacije relevantnosti
pseudo povratna informacija relevantnosti
3.4.1. Globalne metode proširivanja upita
Globalne metode proširivanja upita koriste tezaurus za dodavanje novih izraza u upit koji
predstavljaju sinonime postojećih. U tu svrhu se može koristiti gotov tezaurus ili ga se
može automatski generirati.
Primjer gotovog tezaurusa je UMLS (eng. Unified Medical Language System) koji se
koristi za proširivanje upita prilikom pretraživanje biomedicinske literature [37]. Također
se za proširivanje upita koristi i WordNet [36] u npr. [38]. Kada je u pitanju automatsko
generiranje tezaurusa onda se to može odraditi koristeći zajedničko pojavljivanje izraza u
dokumentima [39]. Također se može koristiti i gramatička analiza [40].
3.4.2. Povratna informacija relevantnosti
Pod povratnom informacijom relevantnosti (eng. relevance feedback) podrazumijeva se
aktivno uključivanje korisnika u proces pretraživanja informacija u smislu da se od
korisnika dobije povratna informacija o relevantnosti dokumenata iz početnog rezultata
pretraživanja. Proces se odvija na sljedeći način [18]:
1. Korisnika daje upit
2. Sustav vraća početni rezultat (tj. listu poredanih dokumenata)
3. Korisnik označava neke dokumente iz rezultata kao relevantne ili ne relevantne
27
4. Sustav generira poboljšanu verziju upita koristeći povratnu informaciju od
korisnika
5. Sustav vraća novi rezultat koristeći poboljšanu verziju upita
Korištenje povratne informacije relevantnosti pretpostavlja da je teško definirati dobar
početni upit ako korisnik ne poznaje kolekciju dokumenata. Za razliku od toga jednostavno
je reći je li određeni dokument relevantan ili ne. U takvom slučaju mogu se jedanput ili
više puta ponoviti prethodno navedeni koraci korištenja povratne informacije relevantnosti.
Standardni algoritam za implementaciju povratne informacije relevantnosti ako se koristi
model vektorskog prostora je Rocchio algoritam [41]. Također se koristi i probabilistički
pristup povratnoj informaciji relevantnosti koji se primjenjuje uz probabilističko
pronalaženje informacija [42].
3.4.3. Pseudo povratna informacija relevantnosti
Pseudo povratna informacija relevantnosti se razlikuje od povratne informacije
relevantnosti u tome što ne uključuje korisnika u proces odnosno automatizira korak
označavanja dokumenata kao relevantnih ili ne-relevantnih. Proces korištenja pseudo
povratne informacije relevantnosti se sastoji od sljedećih koraka:
1. Korisnika daje upit
2. Sustav generira početni rezultat (tj. listu poredanih dokumenata)
3. Sustav pretpostavlja da je k dokumenata na vrhu rezultata relevantno
4. Sustav generira poboljšanu verziju upita koristeći pseudo povratnu informaciju
relevantnosti
5. Sustav vraća novi rezultat koristeći poboljšanu verziju upita
Važno je napomenuti da je primjena pseudo povratne informacije relevantnosti vrlo
osjetljiva na kvalitetu početnog rezultata [27], [43].
28
3.4.4. Povratna informacija relevantnosti i proširivanje upita kod pronalaženja rečenica
U okviru pronalaženja rečenica metode pseudo povratne informacije relevantnosti su se
pokazale kao korisne [44], [16]. Valja napomenuti da se ova metoda često označava i samo
kao pseudo povratna informacija (eng. pseudo feedback).
U [44] koristi se metoda pseudo povratne informacije relevantnosti koja se sastoji od
korištenja top 10 izraza iz 20 top rangiranih rečenica za proširivanje upita. Ova metoda
primijenjena zajedno sa TF-ISF metodom je pokazala visok odaziv.
U [16] testirane su različite strategije odabira izraza za proširenje upita u okviru
pretraživanja rečenica. Također je testirano je li korisno proširivati upit prije dohvaćanja
rečenica. Testirana je metoda za pseudo povratnu informaciju relevantnosti koja se sastoji
od odabira izraza sa najvećim brojem pojavljivanja u nekoliko dokumenata rangiranih na
vrhu. Također je testirana analiza lokalnog konteksta ili LCA (eng. Local Context
Analysis), [43]. Ova metoda je nastala iz razloga što korištenje povratne informacija
relevantnosti nije uspješno ako je u početnom rezultatu velik broj ne-relevantnih
dokumenata. Zato LCA metoda pretpostavlja da izrazi iz relevantnih dokumenata teže
zajedničkom pojavljivanju sa izrazima upita unutar dokumenata rangiranih na vrhu.
Metoda daje prednost rijetkim izrazima. Uzimajući sve to u obzir definira se mjera za
odabir izraza. Neka je zadan upit 푞 sa izrazima 푞푡 , 푞푡 ,… , 푞푡 i skup najviše rangiranih
rečenica 푆 = {푠 , 푠 , … 푠 }. Izrazi iz S se mogu ocijeniti koristeći sljedeći niz formula
(jednadžba (3.28) – (3.31)):
푓(푡, 푞) = (훿 + 푐표_푑푒푔푟푒푒(푡, 푞푡 )) ( )
∈
(3.28)
푐표_푑푒푔푟푒푒(푡, 푞푡 ) = 푙표푔 1 + 푐표(푡, 푞푡 ) ∙ 푖푑푓(푞푡 ) 푙표푔 (푛)⁄ (3.29)
푐표(푡, 푞푡 ) = 푐(푡, 푠 ) ∙ 푐(푞푡 , 푠 )∈
(3.30)
푖푑푓(푡) = 푚푖푛(1,0; 푙표푔 (푁 푁⁄ ) 5,0⁄ ) (3.31)
29
Gdje je:
푁 broj rečenica u kolekciji,
푁 broj rečenica u kolekciji koje sadrže 푡,
푐(푡, 푠 ) je broj pojavljivanja izraza 푡 u rečenici 푠 ,
푐(푞푡 , 푠 ) broj pojavljivanja izraza 푞푡 u rečenici 푠 ,
훿 je konstanta postavljena na 0,1 da bi se izbjegli rezultati jednaki nuli.
Koristeći gornju mjeru moguće je poredati izraze iz najviše rangiranih rečenica i izabrati
određeni broj najviše rangiranih izraza za proširivanje upita. U [16] je također testirana
varijanta prethodno navedenih metoda (pseudo-relevance feedback koristeći top izraze iz
prvotnog rezultata i LCA) koja vrši proširivanje upita prije dohvaćanja rečenica. Ovakav
pristup ima prednosti jer ne ovisi o kvaliteti prvog upita i također predstavlja efikasniju
metodu jer ne zahtijeva početno dohvaćanje rečenica. Prethodne metode su modificirane
tako da koriste početan redoslijed dokumenata (a ne rečenica) odnosno nekoliko najviše
rangiranih dokumenata je korišteno za odabir izraza. Sve četiri metode su pokazale
poboljšanje u odnosu na TF-ISF. Međutim najrobusnije su se pokazale metode pseudo
povratna informacija relevantnosti primijenjena nakon dohvaćanja rečenica i LCA prije
dohvaćanja rečenica.
U [45] korištena je selektivna pseudo povratna informacija relevantnosti. Selektivno znači
da su se neki upiti proširivali a neki ne. Pri tom se polazilo od pretpostavke da upiti sa
izrazima koji se rijetko pojavljuju u dokumentima relevantnim u odnosu na druge upite
bolje prolaze ako se ne proširuju koristeći pseudo povratnu informaciju relevantnosti.
Kada su u pitanju globale metode proširivanja upita za pronalaženje rečenica isprobano je
proširivanje upita koristeći sinonime iz Wordnet-a [15]. Međutim, metode koje koriste
terminološke resurse su problematične radi nepotpunosti terminoloških resursa i mogućeg
unošenja štetnih izraza u upit [16]. Također još ne uspijevaju nadjačati pseudo povratnu
informaciju relevantnosti. U [15] su također korištene metode koje proširuju upit koristeći
izraze koji se često pojavljuju zajedno sa izrazima iz upita u relevantnim dokumentima.
30
3.5. Korištenje lokalnog konteksta za unapređenje pronalaženja rečenica
Budući da se rečenice sastoje od malog broja izraza postoji nizak stupanj poklapanja
između rečenice i upita. U ovoj činjenici se pronalaženje rečenica značajno razlikuje od
pronalaženja dokumenata. Zato se polazi od pretpostavke da je za pronalaženje rečenica
korisno koristiti ne samo sadržaj rečenice nego i dodatne informacije iz konteksta. Pri tom
se kao kontekst rečenice koriste dvije vrste konteksta:
Nekoliko susjednih rečenica trenutne rečenice
Dokument u kojem se rečenica nalazi
Inače, razlog za korištenje lokalnog konteksta rečenice Fernandez vidi u [5]:
Nepoklapanju riječi (eng. word mismatch) radi prorijeđenosti rečenica (eng.
sparsity of sentences).
Postojanju dodatnog sadržaja u kontekstu koji je povezan sa rečenicom, ali nije
sadržan u rečenici.
Slijedi opis metoda za pronalaženje rečenica koje koriste lokalni kontekst rečenice.
3.5.1. Mješavina tri modela
U [7] polazi se od pretpostavke da „dobre“ rečenice potiču iz „dobrih“ dokumenata. Iz tog
razloga se u okvir vjerojatnosti upita uključuje i vjerojatnost da je dokument generirao upit
(jednadžba (3.32)):
푃(푞|푠) = [휆푃(푡|푠) + 훾푃(푡|푑) + (1 − 휆 − 훾)푃(푡)] ( , )
∈
(3.32)
Gdje je:
푃(푡|푠) vjerojatnost pojavljivanja izraza 푡 u rečenici,
푃(푡|푑) vjerojatnost pojavljivanja izraza 푡 u dokumentu,
푃(푡) vjerojatnost pojavljivanja izraza u kolekciji,
휆, 훾 parametri za podešavanje.
31
Gornja jednadžba predstavlja kombinaciju tri modela jezika [5]:
Model jezika za rečenicu (푃(푡|푠))
Model jezika za dokument (푃(푡|푑))
Model jezika za kolekciju (푃(푡))
U [7] 푑 je interpretiran kao lokalni kontekst rečenice koji je definiran na jedan od dva
načina
푑 je cijeli dokument u kojem se nalazi rečenica
푑 ja dio dokumenta koji se sastoji od 푘 susjednih rečenica
Najprije je uspoređena osnovna metoda vjerojatnosti upita sa proširenom metodom koja
koristi kontekst rečenice u obliku dokumenta (jednadžba (3.32)). Ovakav način korištenja
konteksta se naziva i izglađivanje koristeći dokument [7]. Pritom je korištena kolekcija
dokumenata iz TREC staza novosti. Posebno su testirani kratki upiti (Naslov TREC teme) i
duži upiti (Priča TREC teme), [2], [3], [4]. Testiran je niz P@x mjera (P@5 – P@1000)
kao i R-precision i MAP. U većini slučajeva nisu uočene signifikantne razlike između
osnovne metode vjerojatnosti upita i metode koja koristi kontekst u obliku dokumenta.
Kada su u pitanju kratki upiti uočeno je signifikantno poboljšanje prema mjerama (R-
precision, P@5 i P@1000) a kada su u pitanju dugi upiti nije uočeno signifikantno
poboljšanje. Razlog izostanka poboljšanja koristeći kontekst u obliku dokumenta,
zaključeno je, proizlazi iz načina na koji je korpus kreiran. Odnosno korpus je kreiran tako
da se u njemu nalaze samo dokumenti koji su na temu upita (tj. korišten je klasični IR
sustav za odabira skupa dokumenata relevantnih u odnosu na upit). Iz ovog razloga
izglađivanje koristeći dokument daje slične rezultata kao i izglađivanje koristeći kolekciju
[7].
Dodatno je testirana situacija u kojoj se kolekcija sastoji od većeg broja dokumenata
različitih tema u kojima ne postoji informacija koji su dokumenti relevantni, a koji ne. Za
svaki upit korišteno je top 1000 dokumenata. Testirani su dugi upiti (Priče TREC tema) sa
kontekstom koji se sastoji od 5 i 11 susjednih rečenica kao i kontekst u obliku cijelog
dokumenta. U svim slučajevima je uočeno signifikantno poboljšanje kod primjera P@x
32
mjera (P@5-P@1000) kao i kod R-precision i MAP mjera. Još su veća poboljšanja uočena
kada se koriste kratki upiti (Naslovi TREC tema) i kontekst u obliku dokumenta.
U [7] također je korišten lokalni kontekst u obliku dokumenta u okviru zadatka
„Odgovaranje na upit“ (eng. Question-Answering). Uspoređivana je osnovna metoda
vjerojatnosti upita sa proširenom koja koristi kontekst u obliku dokumenta. Korištene su
P@x mjere (P@5,P@10,P@15,P@20). Uočena je signifikantno poboljšanje kada se koristi
kontekst u obliku dokumenta prema svim navedenim mjerama.
U [5] je također korištena verzija mješavine tri modela gdje je 푃(푡|푑) zamijenjen sa
푃(푡|푐표푛푡푒푘푠푡) gdje se 푐표푛푡푒푘푠푡 odnosi na prethodnu, trenutnu i sljedeću rečenicu.
3.5.2. Model dvije faze
U [5] također se polazi od pretpostavke da lokalni kontekst u obliku dokumenta igra važnu
ulogu o određivanju relevantnosti. Problem pronalaženja rečenica se definira kao
procjenjivanje vjerojatnosti upita i dokumenata ako je zadana rečenica. Drugim riječima
rečenica se smatra generatorom i upita i dokumenta. Ova se vjerojatnost (푝(푞, 푑|푠)) može
dalje rastavit kao
푝(푞, 푑|푠) = 푝(푞|푠, 푑)푝(푑|푠) (3.33)
Gdje je:
푝(푞|푠, 푑) vjerojatnost upita ako je zadana rečenica i dokument
푝(푑|푠) vjerojatnost dokumenta ako je zadana rečenica
Gornje dvije vjerojatnosti je potrebno procijeniti (푝(푞|푠, 푑) i 푝(푑|푠)). Vjerojatnost 푝(푑|푠)
se može drugačije napisat koristeći Bayesovo pravilo:
푝(푑|푠) =푝(푠|푑)푝(푑)
푝(푠) (3.34)
Gdje je:
33
푝(푠|푑) vjerojatnost rečenice ako ja zadan dokument,
푝(푠) je vjerojatnost rečenice,
푝(푑) je prethodna vjerojatnost (eng. prior probability) dokumenta.
Pretpostavlja se da općenito ne postoji sklonost prema određenim dokumentima i zato se
vjerojatnost 푝(푑) smatra konstantom. Vjerojatnost rečenice 푝(푠) se račun kao:
푝(푠) = 푝(푡) ( , )
∈
(3.35)
Vjerojatnost 푝(푠|푑) se računa kao:
푝(푠|푑) = 푝(푡|푑) ( , )
∈
(3.36)
Gdje je:
푝(푡) = 푝(푡|퐶) vjerojatnost izraza u kolekciji i može se računati kao 푝(푡) = ( , )| |
gdje je 푐(푡, 퐶) broj pojavljivanja izraza 푡 u kolekciji 퐶 , a |퐶| je broj izraza u
kolekciji (ili duljina kolekcije),
푝(푡|푑) vjerojatnost pojavljivanja izraza 푡 u dokumentu 푑 i može se računati kao
푝(푡|푑)= ( , )| |
gdje je 푐(푡, 푑) broj pojavljivanja izraza 푡 u dokumentu 푑, a |푑| je broj
izraza u dokumentu (ili duljina dokumenta),
푐(푡, 푠) broj pojavljivanja izraza 푡 u rečenici 푠.
Vjerojatnost upita ako je zadana rečenica i dokument 푝(푞|푠, 푑) računa se na sljedeći
način:
푝(푞|푠, 푑) = 푝(푡|푠, 푑) ( , )
∈
(3.37)
Vjerojatnost 푝(푡|푠, 푑) se može računati kao kombinacija vjerojatnosti izraza u rečenici i
vjerojatnosti izraza u dokumentu. Drugim riječima upiti su generirani mješavinom (eng.
34
mixture) distribucija vjerojatnosti modela rečenice i modela dokumenta. U [5] isprobane su
tri varijante računanja 푝(푡|푠, 푑):
Mješavina tri modela (eng. Three Mixture Model) ili skraćeno 3MM
Model dvije faze (eng. Two-Stage model) ili skraćeno 2S
Model dvije faze sa invertiranim fazama (eng. Two-Stage Model, Stages Inverted)
ili skraćeno 2S-I
Mješavina tri modela je jednaka kao u [7]. Metoda slična mješavini tri modela je korištena
također za CADIAL tražilicu sa razlikom što jedinica dohvaćanja nije rečenica nego
element XML strukturiranog dokumenta [46].
Model dvije faze predstavlja kombinaciju Dirichlet (DIR) i Jelinek-Mercer (JM)
izglađivanja. U prvoj fazi se vrši izglađivanje koristeći DIR i dokument (tj. koristeći
푝(푡|푑)), a u drugoj fazi se vrši izglađivanje koristeći JM i kolekciju (tj. koristeći 푝(푡)).
Model dvije faze koristi sljedeću formulu za računanje 푝(푡|푠, 푑), [5]:
푝(푡|푠, 푑) = (1 − 휆)푐(푡, 푠) + 휇푝(푡|푑)
푐(푠) + 휇+ 휆푝(푡) (3.38)
Gdje je:
휆 i 휇parametar za podešavanje.
Kod „Modela dvije faze sa invertiranim fazama“ obrnut je redoslijed primjenjivanja
Dirichlet (DIR) i Jelinek-Mercer (JM) izglađivanja. U prvoj fazi vrši se izglađivanje
koristeći JM izglađivanje sa dokumentom, a u drugoj izglađivanje koristeći DIR
izglađivanje sa kolekcijom. Model dvije faze sa invertiranim fazama koristi sljedeću
formulu za računanje 푝(푡|푠, 푑), [5]:
푝(푡|푠, 푑) = (1 − 훽) (1 − 휆)푝(푡|푠) + 휆푝(푡|푑) + 훽푝(푡) (3.39)
Gdje je:
훽 =( )
.
35
Gornje metode su uspoređivane sa poznatim osnovnim metodama koristeći skup podataka
iz TREC staza novosti:
TF-ISF
BM25
Model vjerojatnosti upita sa Dirichlet izglađivanjem
Model vjerojatnosti upita sa Jelinek-Mercer izglađivanjem
Najprije su testirane vrste modela dvije faze i modela dvije faze sa invertiranim fazama sa
pretpostavkom da je vjerojatnost 푝(푑|푠) jedinstvena odnosno korištena je samo
vjerojatnost 푝(푞|푠, 푑). Dodatno su testirane dvije varijante konteksta tj. kontekst u obliku
dokumenta u kojem se rečenica nalazi i kontekst u obliku prethodne, trenutne i sljedeće
rečenice (tj. gornjim jednadžbama je zamijenjen dokument d sa susjednim rečenicama).
Rezultati su pokazali da je model dvije faze sa invertiranim fazama najbolji kada su u
pitanju mjere R-precision i MAP. Ova metoda je u većini slučajeva signifikantno bolja od
osnovnih metoda TF-ISF i vjerojatnosti upita sa Dirichlet izglađivanjem i u slučaju kada se
kao kontekst koristi dokument i u slučaju kada se kao kontekst koristi prethodna, trenutna i
sljedeća rečenica. Prema P@10 mjeri nove metode su se pokazale manje uspješnima. Iako
su u određenim testovima pokazivale statistički signifikantno bolje rezultate ipak su u
većem broju testova pokazivale blago lošije rezultate od osnovnih metoda.¸
Zatim su testirane i metode koje koriste i 푝(푑|푠) tj. 푝(푞, 푑|푠) = 푝(푞|푠, 푑)푝(푑|푠). Inače
vjerojatnost 푝(푑|푠) se u [5] smatra mjerom važnosti rečenice u okviru teme dokumenta.
Koristeći ovu komponentu sve nove LM (eng. language modeling) metode su pokazale
signifikantno bolje rezultate od osnovnih metoda kada su u pitanju mjere R-precision i
MAP. Treba napomenut da su pored novih metoda (model dvije faze i model dvije faze sa
invertiranim fazama) testirane i varijante poznatih LM metoda koje uključuju 푝(푑|푠):
Mješavina tri modela (eng. Three mixture model)
Vjerojatnost upita sa Dirichlet izglađivanjem
Vjerojatnost upita sa Jelinek-Mercer izglađivanjem
36
3.5.3. Klizeći prozor
U [47] također je uzet u obzir kontekst rečenice prilikom pronalaženja relevantnih
rečenica. Sama metoda zasniva se na analiziranju imenica i glagola iz rečenica. WordNet
[48], [36] je korišten za pronalaženje sinonima i relacija hiponim-hiperonim. Izračunavan
je najkraći put od riječi 푤 do riječi 푤 . Npr. na slici 3.2. razmak između universe
(svemir) i sky (nebo) je 4.
Slika 3.2. Primjer računanja udaljenosti između izraza [47]
U [47] definira se ocjena sličnosti između dvije rečenice koja se također koristi za sličnost
između rečenice i upita (odnosno klizećeg prozora (eng. sliding window) i upita) kako
slijedi:
Dodaj 1 za svaku imenicu i svaki glagol koji se točno poklapaju u obje rečenice
Ako se riječi ne poklapaju točno, koristi se prag udaljenosti. Ako je udaljenost
između dvije riječi 푤 i 푤 manja od praga dodaje se 0,5 na ocjenu relevantnosti
Sličnost između imenica dvije rečenice je definirana kao:
푛표푢푛_푠푖푚(푠 , 푠 ) =푚√푎푏
(3.40)
Sličnost između glagola dvije rečenice je definirana kao:
푣푒푟푏_푠푖푚(푠 , 푠 ) =푛√푐푑
(3.41)
37
Sličnost između dvije rečenice je definirana kao:
푠푖푚(푠 , 푠 ) = 푛표푢푛 ( , ) + 푣푒푟푏_푠푖푚(푠 , 푠 ) (3.42)
Gdje je:
푠 , 푠 rečenice koje se uspoređuju,
푚 broj podudarajućih imenica,
푛 broj podudarajućih glagola,
푎 ukupan broj imenica u rečenici 푠 ,
푏 ukupan broj imenica u rečenici 푠 ,
푐 ukupan broj glagola u rečenici 푠 ,
푑 ukupan broj glagola u rečenici 푠 .
Da bi se ocijenila relevantnost rečenice u odnosu na upit koristi se prethodno opisana mjera
sličnosti. Dodatno se ne uzima samo u obzir trenutna rečenica nego klizeći prozor kao na
slici 3.3.
Slika 3.3. Primjer klizećeg prozora veličine 2 [47]
Rečenice unutar određenog prozora su relevantne u odnosu na upit ako je sličnost veća od
prethodno definiranog praga. Drugim riječima ako je prozor relevantan onda se sve
rečenice iz tog prozora smatraju relevantnim. Testovi na skupu podataka iz TREC staze
38
novosti pokazale su korisnost korištenja klizećeg prozor u smislu da su najbolji rezultati
postignuti kada je veličina prozora 4. Međutim rezultati nisu uspoređeni sa najuspješnijim
metodama (TF-ISF i LM metodama) [5] tako da se ne može mnogo reći o kompetitivnosti
ove metode.
3.5.4. TF-ISF metoda i korištenje konteksta
U [5] također su testirane varijante TF-ISF metode koje uključuju kontekst u obliku
dokumenta ili prethodne, trenutne i sljedeće rečenice. Eksperimentiralo se sa formulom za
rangiranje TF-ISF metode (jednadžba (3.43))
푅(푠|푞) = log(푐(푡, 푞) + 1)log(푐(푡, 푠) + 1)log푁 + 1
0.5 + 푠푓(푡)∈
(3.43)
na način da su testirane sljedeće tri modifikacije
1. tfmix: 푐(푡, 푠) je zamijenjeno sa 훼푐(푡, 푠) + (1 − 훼)푐(푡, 푐표푛푡푒푥푡)
2. idfdoc: 푠푓(푡) je zamijenjen sa 푑푓(푡) ili drugim riječima invertna frekvencija je
računata na razini dokumenta a ne na razini rečenice.
3. tfmix+idfdoc: gdje su primijenjene obje prethodne modifikacije 1. i 2.
Testiranje je izvedeno koristeći skup podataka iz TREC staza novosti. Navedene
modifikacije nisu doprinijele poboljšanju TF-IDF metode [5]. Npr. u fazi treniranja sa
kontekstom u obliku dokumenta ustanovljeno je da se najbolji rezultati dobiju ako je 훼 = 1
što znači da je najbolje ako se potpuno ignorira kontekst u obliku dokumenta. Također je
testiran kontekst u obliku prethodne, trenutne i sljedeće rečenice međutim bez statistički
signifikantnih poboljšanja [5].
39
4. NOVE METODE ZA PRONALAŽENJE REČENICA
U ovom poglavlju su detaljno i formalno opisane nove metode razvijene u sklopu
doktorske disertacije. Za testiranje i vrednovanje novih metoda korišteni su skupovi
podataka TREC staza novosti (eng. Text REtrieval Conference Novelty track) koji služe
kao standardne testne kolekcije metoda pronalaženja rečenica. Iz tog razloga su skupovi
podataka TREC staza novosti također detaljno predstavljeni u ovom poglavlju.
4.1. TREC i zadatak otkrivanja novih rečenica
U eksperimentima koji slijede koristit će se podaci iz zadatka otkrivanja novih rečenica sa
Konferencije za pretraživanje teksta ili skraćeno TREC (eng. Text REtrieval Conference).
Ova konferencija je djelomično sponzorirana od Nacionalnog instituta standarda i
tehnologije ili NIST (eng. National Institute of Standards and Technology) i od Odjela za
obranu SAD-a (eng. U.S. Department of Defense). Njezin cilj je pružiti podršku zajednici
pretraživanja informacija pružajući infrastrukturu potrebnu za opsežno vrednovanje
metodologija pretraživanja teksta [49].
Konferencija TREC svake godine nudi radionice (eng. workshop) koje su podijeljene u
staze (eng. track). Svaka staza predstavlja određeni zadatak pretraživanja. Sastavni dio
radionica su tri godine (2002 - 2004) bili zadaci pronalaženja novih rečenica ili staze
novosti (eng. Novelty track). Za svaku stazu novosti definirane su korištene testne
kolekcije, upiti, popis relevantnih rečenica i mjere za vrednovanje:
TREC 2002 staza novosti [50]
TREC 2003 staza novosti [51]
TREC 2004 staza novosti [52]
4.1.1. TREC 2002 staza novosti
Zadatak na TREC stazi novosti iz 2002 godine je definiran kao [2]:
40
Ako je zadana TREC tema i poredana lista relevantnih dokumenata (poredana
prema relevantnosti), pronađite relevantne i nove rečenice koje će se vratiti
korisniku.
Ovaj zadatak predstavlja napredak u odnosu na klasično pretraživanje dokumenata jer kao
rezultat vraća listu koja se sastoji od manjih jedinica informacije – rečenica. Dodatno se
nastoji eliminirat ponavljajuća informacija.
Ovako definiran zadatak bi mogao naći primjenu u sljedećem aplikacijskom scenariju [2]:
Pretpostavimo napredni sustav za pretraživanje informacija u kojem postoji
pametna „dalje“ tipka. Koristeći „dalje“ tipku korisnik se šeće kroz listu rangiranih
dokumenata u kojima su označe sljedeće relevantne i nove rečenice. Korisnik može
pročitati te rečenica, a može ako želi pročitati i okolne rečenice.
Također se relevantne i nove rečenice mogu koristiti za sažimanje informacije
relevantne u odnosu na određenu temu.
Kao ulazni podaci korištene su teme (eng. topic, upiti koji se koriste u okviru TREC
konferencija se nazivaju teme) iz prethodnih konferencija:
TREC 6 [53]
TREC 7 [54]
TREC 8 [55]
Točnije korištene su teme iz ad hoc zadataka TREC 6, TREC 7 i TREC 8. Ad hoc zadatak
se sastoji od pretraživanja statičkog skupa dokumenata što odgovara realnom zadatku kada
korisnik pretražuje biblioteku [54].
Za TREC 2002 stazu novosti izabrano je 50 tema od ukupno 150 tema iz TREC-a 6, 7, 8
(teme označene brojevima od 300 do 450). Odabrane su samo teme koje imaju između 10 i
70 relevantnih dokumenata. Također su eliminirane neke teme s prevelikim brojem
relevantnih dokumenata iz praktičnih razloga. Zatim je odabrano 25 dokumenata za svaku
temu koristeći tražilicu. Ako tema ima 25 ili manje relevantnih dokumenata uzeti su svi
dokumenti. Ako tema ima više od 25 dokumenata uzeto je 25 najviše rangiranih i ujedno
relevantnih dokumenata. Ako tema ima manje od 25 dokumenata onda su svi relevantni
41
dokumenti uzeti i dodan je slučajan uzorak od preostalih relevantnih dokumenata da bi se
dobilo 25 dokumenata. Dokumenti vezani za svaku temu (njih 25) su poredani po
redoslijedu iz rezultata pretraživanja. Svaki dokument je podijeljen u rečenice i svakoj
rečenici je dodijeljen naziv. Podaci su dostupni u obliku tekstnih datoteka. Isječak iz jedne
tekstne datoteke je prikazan na slici 4.1.
Na slici 4.1 je prikazan dio koji se odnosi na jedan članak sa oznakom LA031689-177.
Članak ja automatski podijeljen na rečenice (uključujući cijeli tekst članka tj. naziv članka,
datum članka itd.) na način da je svaka rečenica označena tagovima koji sadrže naziv
dokumenta i redni broj rečenice u dokumentu kao npr.
<s docid="LA031689-0177" num="8">Sadržaj rečenice</s>
Gdje je:
LA031689-0177 naziv članka,
8 identifikator rečenice.
Pored dokumenata podijeljenih u rečenice učesnicima TREC 2002 staze novosti na
raspolaganju su i teme i popis po relevantnosti poredanih dokumenata. Na slici 4.2. je
prikazan isječak iz datoteke koji se odnosi na temu i odgovarajuću listu poredanih
dokumenata.
42
Slika 4.1. Isječak iz datoteke sa izvornim podacima za TRAC 2002 stazu novosti
43
Slika 4.2. Primjer teme iz TREC 2002 staze novosti i odgovarajućih po relevantnosti
poredanih dokumenata
44
Kao što se vidi iz slike 4.2. jedna TREC tema se sastoji od tri dijela
Naslov (eng. Title)
Opis (eng. Description)
Priča (eng. Narrative)
Naslov, Opis i Priča predstavljaju upite različitih duljina i mogu se koristiti za
standardizirano testiranje sustava u ovisnosti o tome koja je duljina upita od interesa.
Da bi se mogla ocijeniti uspješnost sustava ručno su označene relevantne i nove rečenice.
U tu svrhu su korišteni ljudski ocjenjivači koji su prvo kreirali datoteku koja sadrži sve
relevantne rečenice, a zatim reduciranu datoteku koja sadrži podskup novih rečenica.
Prilikom definiranja novih rečenica ocjenjivači su se kretali kroz relevantne rečenice pri
čemu bi brisali rečenice koje sadrže duplu informaciju. Za svaku temu korištena su dva
ljudska ocjenjivača. Iz tog razloga za vrednovanje rezultata na raspolaganju su dvije
datoteke s relevantnim rečenicama, a to su min_qrels.relevant i max_qrels.relevant [50]. U
datoteci min_qrels.relevant nalaze se rečenice koje su označene relevantnim od strane
ocjenjivača koji je označio manji broj rečenica a u datoteci max_qrels.relevant se nalaze
rečenice koje su označene od ocjenjivača koji je označio veći broj rečenica. Datoteka
min_qrels.relevant definira 2% rečenica relevantnim a datoteka max_qrels.relevant 7%.
Situacija je analogna i sa datotekama koje sadrže podskup novih rečenica min_qrels.new i
max_qrels.new. Na slici 4.3. je prikazan isječak iz datoteke min_qrels.relevant [56].
45
Slika 4.3. Isječak iz datoteke min_qrels.relevant koja sadrži relevantne dokumente
Svaki redak se odnosi na jednu relevantnu rečenicu. Primjer retka je:
305 LA090190-0126:32
Gdje je:
305 broj teme,
LA090190-0126 naziv dokumenta,
32 broj rečenice.
Gornji redak definira rečenicu 32 iz dokumenta LA090190-0126 kao relevantnu u odnosu
na temu 305.
46
4.1.2. TREC 2003 staza novosti
Zabatak na TREC stazi novosti iz 2003 godine je definiran kao:
Ako je zadana TREC tema i lista relevantnih i kronološki poredanih dokumenata,
pronađite relevantne i nove rečenice koje će se vratiti korisniku [3].
Iz definicije zadatka može se uočiti sličnost sa zadatkom iz TREC 2002 staze novosti. Tj.
potrebno je riješiti dva problema, pronaći relevantne rečenice i pronaći nove rečenice.
Međutim razlika je u tome što su dokumenti ovog puta poredani kronološki, a ne prema
relevantnosti.
Ulazni podaci su na novo kreirani. Razlog je nizak postotak relevantnih rečenica i visok
udio novih rečenica među njima kod TREC 2002 skupa podataka. Razlog za to leži prema
[3] u razlici mišljenja između ocjenjivača (autori koji su odabirali rečenice nisu ujedno i
autori koji su kreirali teme i odabrali dokumente) i u tome što su dokumenti odabrani
nekoliko godina ranije. Iz tog razloga je za TREC 2003 stazu novosti kreirano 50 novih
tema. Teme i dokumenti su definirani koristeći AQUAINT kolekciju novinskih članaka
[57]. AQUAINT kolekcija sadrži članke iz tri različita izvora
New York Times News Service (1998-2000 g.)
Associated Press Worldstream News Service (1998-2002 g.)
Xinhua News Service (1996-2000 g.)
Za svaku temu odabrano je 25 relevantnih dokumenata koristeći IR sustav. Zatim su ti
dokumenti poredani kronološki. Svaki dokument je podijeljen u rečenice i svakoj rečenici
je dodijeljen naziv. Podaci su dostupni u obliku tekstnih datoteka. Isječak iz jedne tekstne
datoteke je prikazan na slici 4.4.
47
Slika 4.4. Isječak iz datoteke sa izvornim podacima za TRAC 2003 stazu novosti
48
Na slici 4.4. je prikazan dio koji se odnosi na jedan članak sa oznakom
XIE19970224.0007. Članak je automatski podijeljen na rečenice (uključujući cijeli tekst
članka tj. naziv članka, datum članka, sadržaj itd.) na način da je svaka rečenica označena
tagovima koji sadrže naziv dokumenta i redni broj rečenice u dokumentu kao npr.
<s docid="XIE19970224.0007" num="8">Sadržaj rečenice</s>
Gdje je:
XIE19970224.0007 naziv članka,
8 identifikator rečenice.
Format teme je sličan kao u TREC 2002 stazi novosti, tj. sastoji se od naslova, opisa i priče
(slika 4.5.) s razlikom što je ovog puta dodana i jedna od dvije oznaka klase teme, a to su
mišljenje (eng. opinion) i događaji (eng. event).
49
Slika 4.5. Primjer teme iz TREC 2003 staze novosti i odgovarajućih kronološki poredanih
relevantnih dokumenata
50
Da bi se mogla ocijeniti uspješnost sustava ručno su označene relevantne i nove rečenice.
U tu svrhu su korišteni ocjenjivači koji su prvo kreirali datoteku koja sadrži sve relevantne
rečenice, a zatim reduciranu datoteku koja sadrži podskup novih rečenica. Prilikom
definiranja novih rečenica ocjenjivači su se kretali kroz relevantne rečenice pri čemu bi
brisali rečenice koje sadrže duplu informaciju. Rečenice za svaku temu su ocjenjivali dva
ocjenjivača, jedan koji je prethodno definirao temu i odgovarajuće relevantne dokumente i
jedan dodatni. U natjecanju je odlučeno koristiti rezultate prvog ocjenjivača. Za
vrednovanje rezultata na raspolaganju je jedna datoteka sa popisom relevantnih rečenica i
jedna datoteka koja sadrži podskup novih rečenica [51]. 37.56% rečenica označeno je
relevantnima a od toga je 65.91% označeno novim. Na slici 4.6. je prikazan isječak iz
datoteke koja sadrži popis relevantnih rečenica [58].
Slika 4.6. Isječak iz datoteke sa relevantnim rečenicama
Svaki redak se odnosi na jednu relevantnu rečenicu. Primjer retka je:
51
N2 NYT19990526.0375:29
Gdje je:
N2 broj teme,
NYT19990526.0375 naziv dokumenta,
29 broj rečenice.
Gornji redak definira rečenicu 29 iz dokumenta NYT19990526.0375 kao relevantnu u
odnosu na temu N2.
4.1.3. TREC 2004 staza novosti
Zadatak na TREC stazi novosti iz 2004 godine je definiran kao:
Ako je zadana TREC tema i lista kronološki poredanih dokumenata, pronađite
relevantne i nove rečenice koje će se vratiti korisniku [4].
Iz definicije zadatka se može uočiti sličnost sa zadacima iz TREC 2002 i TREC 2003 staze
novosti. Potrebno je riješiti dva problema, pronaći relevantne rečenice i pronaći nove
rečenice. Razlika naspram TREC 2002 staze novosti jest u tome što su rečenice poredane
kronološki a ne prema relevantnosti. Razlika naspram TREC 2003 stazi novosti jest što su
među dokumentima sadržani i ne relevantni dokumenti pronađeni koristeći tražilicu.
Ulazni podaci su kao i u TREC 2003 stazi novosti na novo kreirani. Izabrano je 50 tema.
Teme i dokumenti su definirani koristeći AQUAINT kolekciju novinskih članaka [57] koja
sadrži podatke iz tri različita izvora:
New York Times News Service (1998-2000 g.)
Associated Press Worldstream News Service (1998-2002 g.)
Xinhua News Service (1996-2000)
52
Slika 4.7. Isječak iz datoteke za izvornim podacima za TRAC 2004 stazu novosti
53
Za svaku temu odabrano je 25 najviše rangiranih dokumenata koristeći IR sustav. To znači
da su sadržani i ne relevantni dokumenti. Svaki dokument je podijeljen u rečenice i svakoj
rečenici je dodijeljen naziv. Podaci su dostupni u obliku tekstnih datoteka. Isječak iz jedne
tekstne datoteke je prikazan na slici 4.7.
Na slici 4.7. je prikazan dio koji se odnosi na jedan članak sa oznakom
NYT19981017.0086. Članak je automatski podijeljen na rečenice (uključujući cijeli tekst
članka tj. naziv članka, datum članka, sadržaj itd.) na način da je svaka rečenica označen
tagovima koji sadrže naziv dokumenta i redni broj rečenice u dokumentu kao npr.
<s docid=" NYT19981017.0086" num="10">Sadržaj rečenice</s>
Gdje je:
NYT19981017.0086 naziv članka,
10 identifikator rečenice.
Format teme je jednak kao u TREC 2003 stazi novosti, tj. sastoji se od naslova, opisa i
priče (slika 4.8.). Također sadrži jednu od dvije oznake klase teme: mišljenje (eng.
opinion) i događaj (eng. event).
54
Slika 4.8. Primjer teme iz TREC 2004 staze novosti i odgovarajućih kronološki poredanih
dokumenata
55
Da bi se mogla ocijeniti uspješnost sustava ručno su označene relevantne i nove rečenice.
U tu svrhu su korišteni ocjenjivači koji su prvo kreirali datoteku koja sadrži sve relevantne
rečenice, a zatim reduciranu datoteku koja sadrži podskup novih rečenica. Prilikom
definiranja novih rečenica ocjenjivači su se kretali kroz relevantne rečenice pri čemu bi
brisali rečenice koje sadrže duplu informaciju. Rečenice za svaku temu su ocjenjivala dva
ocjenjivača, jedan koji je prethodno definirao temu i odgovarajuće relevantne dokumente i
jedan dodatni u svrhu analize razlike između različitih ocjenjivača. U natjecanju je
odlučeno koristiti rezultate prvog ocjenjivača. Za vrednovanje rezultata na raspolaganju je
jedna datoteka sa popisom relevantnih rečenica i jedna datoteka koja sadrži podskup novih
rečenica [52]. 19,2% rečenica označeno je relevantnima a od toga je 42% označeno novim.
Na slici 4.9. je prikazan isječak iz datoteke koja sadrži popis relevantnih rečenica [59].
Slika 4.9. Isječak iz datoteke sa relevantnim rečenicama za TREC 2004 stazu novosti
Format popisa relevantnih rečenica je jednak kao u TREC 2003 stazi novosti. Primjer retka
je:
56
N51 APW19990804.0164:6
Gdje je:
N51 broj teme,
APW19990804.0164 naziv dokumenta,
6 broj rečenice,
Gornji redak definira rečenicu 6 iz dokumenta APW19990804.0164 kao relevantnu u
odnosu na temu N51.
4.1.4. Pregled TREC 2002, 2003 i 2004 staza novosti
U tablici 4.1. su prikazane najvažnije karakteristika staze novosti iz godina 2002, 2003 i
2004.
Tablica 4.1. Pregled osnovnih karakteristika TREC 2002, 2003 i 2004 staza novosti
Poredak
dokumenata Broj
dokumenata
po temi
Broj
tema Sadrži ne
relevantne
dokumente
Postotak
relevantnih
rečenica
Postotak udjela
novih rečenica
među relevantnim
2002 po
relevantnosti 25 50 ne 2% ili 7 % 93%
2003 kronološki 25 50 ne 37.56% 65.91% 2004 kronološki 25 50 da 19.20% 42%
57
4.2. TF-ISF sa lokalnim kontekstom
Usprkos dosadašnjim neuspjelim pokušajima korištenja konteksta rečenice s TF-ISF
metodom [5] predstavljenim u poglavlju 3.5.4. hipoteza postavljena u sklopu istraživanje
provedenog u ovoj doktorskoj disertaciji je mogućnost unaprjeđenja TF-ISF metode
korištenjem lokalnog konteksta. Preciznije, pretpostavlja se da je moguće unaprijediti TF-
ISF metodu koristeći susjedne rečenice.
Funkcija za rangiranje koja se koristi za pronalaženje rečenica kod TF-ISF metode [14],
[16], navedena je veću u poglavlju 3.14. (jednadžba 3.14). Ovdje je ponovo navedene
(jednadžba (4.1)) zbog lakšeg referenciranja u ovom poglavlju:
푅(푠|푞) = log(푐(푡, 푞) + 1)log(푐(푡, 푠) + 1)log푁 + 1
0.5 + 푠푓(푡)∈
(4.1)
Gdje je
푐(푡, 푞) broj pojavljivanja izraza 푡 u upitu 푞,
푐(푡, 푠) je broj pojavljivanja izraza 푡 u rečenici 푠,
푠푓(푡) broj rečenica koje sadrže izraz 푡,
푁 broj rečenica u kolekciji.
Kao lokalni kontekst svake rečenice koristi se prethodna i sljedeća rečenica unutar istog
dokumenta. Pretpostavlja se da relevantnost rečenice ovisi dijelom o sadržaju rečenice i
dijelom o sadržaju dvije susjedne rečenice. Relevantnost susjednih rečenica također opet
ovisi djelomično o sadržaju njihovih susjeda. Koristeći prethodne dvije pretpostavke može
se definirati nova rekurzivna funkcija rangiranja kako slijedi:
푅 (푠|푞) = (1 − 휇) ∙ 푅(푠|푞) + 휇 ∙ 푅 푠 (푠) 푞 + 푅 (푠 (푠)|푞) (4.2)
Gdje je:
푠 (푠) prethodna rečenica rečenice 푠,
푠 (푠) sljedeća rečenica rečenice 푠,
58
푅 푠 (푠) 푞 ocjena relevantnosti prethodne rečenice (푅 푠 (푠) 푞 je po
definicije 0 ako je 푠 prva rečenica u dokumentu),
푅 (푠 (푠)|푞) ocjena relevantnosti sljedeće rečenice (푅 (푠 (푠)|푞) je po
definicije 0 ako je 푠 zadnja rečenica u dokumentu),
휇 parametar za podešavanje.
U testovima u sljedećim poglavljima rekurzivna funkcija rangiranja (jednadžba (4.2))
poziva samu sebe sve dok tri prethodne i tri sljedeće rečenice od rečenice 푠 nisu uzete u
obzir. Nakon toga prestaje se koristiti kontekst tj. 푅 (푠|푞) = 푅(푠|푞) i rekurzija prestaje.
Treba napomenuti da je prilikom razvoja funkcije rangiranja također isprobana i verzija
koja kao kontekst koristi cijeli dokument u kojem se rečenica nalazi koja nije dala
statistički signifikantna poboljšanja u odnosu na osnovnu metodu. Iz tog razloga je
odlučeno koristiti uži kontekst u obliku tri prethodne i tri sljedeće rečenice.
Radi bolje razumljivosti i u cilju bolje mogućnosti reproduciranja metode prezentira se
također ne-rekurzivna verzija jednadžbe (4.2.) kako slijedi:
푅 (푠|푞) =
(1 − 휇)푆 + 휇 (1 − 휇)푃 + 휇 (1 − 휇)푃 + 휇(푃 + 푃 ) + (1 − 휇)푆 + 휇(푃 + 푁 ) +
(1 − 휇)푁 + 휇 (1 − 휇)푆 + 휇(푃 + 푁 ) + (1 − 휇)푁 + 휇(푁 +푁 )
(4.3)
Gdje:
푆 = 푅(푠|푞), 푃 = 푅(푝 |푞), 푁 = 푅(푛 |푞) za 푖 ∈ {1,2,3}
푝 , 푝 , 푝 označavaju prethodne tri rečenice od rečenice 푠 (vidi sliku 4.11.)
푛 , 푛 , 푛 označavaju sljedeće tri rečenice od rečenice 푠 (vidi sliku 4.11.)
Na slici 4.10. su prikazane tri prethodne i tri sljedeće rečenice 푠 i kako su obuhvaćene
koristeći rekurzivnu funkciju.
59
Slika 4.10. Trenutna rečenica i susjedne rečenice korištene u funkciji rangiranja
Rcon(s│q)
Naravno da je koristeći rekurzivnu funkciju moguće također uključiti u proračun sve
rečenice u dokumentu. Međutim, testovi koji pokazuju jeli korisno uključiti više od tri
prethodne i tri sljedeće rečenica u obračun ocjene relevantnosti ostavljeni su za budući rad.
Prednost predstavljene nove TF-ISF metode u odnosu na tfmix metodu iz [5] jest
eksplicitno modeliranje relevantnosti konteksta (tj. prethodne i sljedeće rečenice) u odnosu
na upit (푅 푠 (푠) 푞 + 푅 (푠 (푠)|푞)) dok je u [5] dio TF-ISF funkcije rangiranja
zamijenjen sa komponentama povezanim i sa rečenicom i sa susjednim rečenicama (tj.
푐(푡, 푠) je zamijenjen sa 훼 ∙ 푐(푡, 푠) + (1 − 훼) ∙ 푐(푡, 푐표푛푡푒푥푡) gdje je 훼 parametar za
podešavanje).
Prva prednost nove metode (jednadžba (4.2.) i (4.3)) jest što predstavlja implementaciju
intuitivne pretpostavke da relevantnost rečenice ovisi dijelom o relevantnosti sadržaja same
rečenice i o relevantnosti sadržaja susjednih rečenica. Ovakav pristup se pokazao
uspješnim što je prikazano u testovima u sljedećim poglavljima.
Druga prednost nove metode (jednadžba (4.2.) i (4.3)) jest što omogućava bolje
istraživanje utjecaja konteksta na relevantnost rečenice. U poglavlju 5. je prezentirano
kako se ova osobina može koristiti za kreiranje OWL formatiranog prikaza dokumenta
(koji uključuje prikaz konteksta) za pronalaženje rečenica.
U daljnjem tekstu nova metoda (jednadžba (4.2) i (4.3)) će biti označena kao TF-ISFcon.
60
4.2.1. Usporedba TF-ISFcon sa TF-ISF i tfmix
Pretpostavka je da nova metoda TF-ISFcon daje bolje rezultate glede pretraživanja rečenica
u odnosu na osnovnu TF-ISF metodu i na prijašnji neuspjeli pokušaj unapređenja TF-ISF
metode korištenjem konteksta nazvan tfmix.
U cilju potvrđivanja pretpostavke testirane su performanse nove metode TF-ISFcon u
odnosu na prethodne metode TF-ISF i tfmix kroz dva skupa eksperimenata koja se
razlikuju po duljini korištenih upita.
Skup eksperimenata 1 koristi kratke upite koji se sastoje od sadržaja naslova TREC
teme
Skup eksperimenata 2 koristi duge upite koji se sastoje od spojenog sadržaja
naslova, opisa i priče TREC teme
4.2.1.1. Empirijska studija sa kratkim upitima
Nova metoda za pretraživanje rečenica TF-ISFcon je testirana koristeći podatke iz TREC
staza novosti iz 2002., 2003. i 2004. godine. Kao što je prethodno spomenuto na TREC
stazama novosti zadatak je detekcija novosti koja se detaljnije sastoji od dva koraka
1. Pronalaženje relevantnih rečenica
2. Pronalaženje novih rečenica
Ovdje je od interesa samo prvi zadatak odnosno pronalaženje relevantnih rečenica.
U cilju provjere je li nova metoda TF-ISFcon daje bolje rezultate glede pronalaženja
rečenica ova metoda se uspoređuje sa osnovnom (baseline) TF-ISF metodom i tfmix
metodom.
Za pripremu eksperimenta djelomično je korišten open-source sustav za rudarenje
podataka Rapidminer [60] zajedno s dodatkom za rad sa tekstom Text Extension [61] koji
omogućava rada sa modelom vektorskog prostora (dodatak B). Sa Rapidminer sustavom
sva velika slova unutar dokumenata kolekcije su pretvorena u mala slova. Također su
uklonjene uobičajene riječi (eng stop words). Korjenovanje ili svođenje riječi na osnovni
61
oblik (eng. stemming) nije korišteno. Rezultati iz programa Rapidminer su prezentirani kao
web servis da bi zatim bili dalje korišteni preko samostalno programiranih aplikacija koje
sadrže implementaciju korištenih metoda pronalaženja rečenica (dodatak C).
Kao upiti korišteni su sadržaji iz naslova TREC teme (slika 4.2., 4.5. i 4.8.). Npr. ako se
uzme primjer TREC teme iz TREC staze novosti iz 2003 godine kao na slici 4.11.
Slika 4.11. Primjer TREC teme iz TREC 2003 staze novosti
onda se prilikom testova koristi upit koji se sastoji samo od naslova (tj. sadržaja između
<title> i <toptype>) kao na slici 4.12.
Slika 4.12. Primjer kratkog upita
62
Preciznije kada je u pitanju TREC 2002 kao upit se koristi dio između <title> i <desc>
(slika 4.2.), a kada je u pitanju TREC 2003 i 2004 koristi se dio između <title> i <toptype>
(slika 4.5. i 4.8.).
Kako bismo testirali hipotezu da definirane metode daju bolje rezultate u pronalaženju
rečenica od postojećih metoda usporedili smo performanse novih metoda u odnosu na
postojeće metode koristeći standardne mjere MAP (eng. Mean Average Precision), R-
precision i niz „Preciznost na“ ili P@x mjera (eng. Precision at): P@5, P@10, P@15,
P@20, P@25, P@30, P@50, P@100.
Za svako testiranje postavljene su nulte hipoteze H0 kako su vrijednosti MAP, R-precision
i P@x jednake kod usporedbe svake nove metode i postojeće metode. Alternativne
hipoteze H1 su uvijek da se vrijednosti razlikuju. Za testiranje hipoteza korišten je
dvosmjerni upareni t-test (eng. two-tailed paired t-test) sa razinom signifikantnosti (eng.
significance level) 훼 = 0,05 odnosno 푃 ≤ 0,05 kao u srodnim radovima [7], [5]. Svi
uzorci se sastoje od 50 elemenata i s obzirom na veličinu uzorka nije potrebno testiranje
normalnosti distribucije. Svi podaci nad kojima su izvedeni statistički testovi su dostupni
na webu1.
Za primjer rezultata u tablici 4.4. testirane su dvije skupine nultih hipoteza: 1) MAP TF-
ISFcon= MAP TF-ISF, R-precision TF-ISFcon = R-precision TF-ISF i P@x TF-ISFcon =
P@x TF-ISF te 2) MAP TF-ISFcon = MAP tfmix, R-precision TF-ISFcon = R-precision tfmix
i P@x TF-ISFcon = P@x tfmix , a ekvivalentne hipoteze su postavljene u svim statističkim
testovima. Statistički signifikantne razlike dobivenih mjerenja uz korištenu razinu
signifikantnosti 훼 = 0,05 su označene u tablicama, a ukazuju na to kako promatrana
metoda ima bolje performanse u odnosu na usporednu metodu.
Budući da funkcija rangiranja 푅 (푠|푞) zahtijeva podešavanje parametra휇 upotrebljena je
metodologija treniranja i testiranja kao u [5]. Eksperimentirano je s tri konfiguracije
treniranja i testiranja koristeći podatke iz TREC staza novosti kako slijedi:
Treniranje sa TREC 2002 i testiranje sa TREC 2003 i TREC 2004 stazom novosti
Treniranje sa TREC 2003 i testiranje sa TREC 2002 i TREC 2004 stazom novosti
Treniranje sa TREC 2004 i testiranje sa TREC 2002 i TREC 2004 stazom novosti
Treniranje je potrebno radi pronalaženja vrijednosti parametra 휇 kod koje sustav pokazuje
najbolje rezultate. Tijekom sva tri treninga (TREC 2002, 2003 i 2004) isprobane su
vrijednosti od 휇 = 0,0 do 휇 = 1,0 u koracima od 0,05. Najbolja vrijednost parametra 휇 je
1 http://laris.fesb.hr/alen_doko_doktorat/detaljni_podaci_disertacija.zip
63
zadržana da bi zatim bila testirana sa preostale dvije TREC staze novosti. Važno je
napomenuti da su tijekom treniranja sustavi ocjenjivani isključivo MAP mjerom. Drugi
riječima uzete je vrijednost parametra 휇 kod kojeg sustav pokazuje maksimalnu vrijednost
mjere MAP. Tablica 4.2. pokazuje optimalne vrijednosti parametra 휇 za sva tri skupa
podataka.
Tablica 4.2. Optimalne vrijednosti parametra μ za skupove podataka iz TREC 2002, 3003 i
2004 staza novosti
휇
TREC 2002 0,2
TREC 2003 0,1
TREC 2004 0,2
Trening tfmix metode je izveden identično TF-ISFcon metodi (isprobane su vrijednosti od
훼 = 0,0 to 훼 = 1,0 u koracima od 0,05 ). Tablica 4.3. pokazuje optimalne vrijednosti
parametra 훼 za tri skupa podataka.
Tablica 4.3. Optimalne vrijednosti parametra α tfmix metode za skupove podataka iz
TREC 2002, 3003 i 2004 staza novosti
훼
TREC 2002 0,7
TREC 2003 0,85
TREC 2004 0,6
Sljedeće tablice (Tablica 4.4. - 4.6.) i sljedeći grafovi (Slika 4.13. - 4.18.) prikazuju
rezultate za odgovarajuće tri konfiguracije treniranja i testiranja. Korištena su dva prikaza
(tablični i graf) zbog bolje preglednosti eksperimentalno dobivenih rezultata koji su
značajni jer potvrđuju kako nove definirane metode daju kompetitivne ili statistički
signifikantno bolje rezultate od postojećih metoda. U tablicama su statistički signifikantne
razlike između TF-ISF i TF-ISFcon označene su sa zvjezdicom. Statistički signifikantne
razlike između TF-ISFcon i tfmix su označene s †. Kada je u pitanju MAP mjera testovi
pokazuju statistički signifikantno poboljšanje kada se koristi metoda TF-ISFcon u odnosu na
osnovnu metodu TF-ISF i metodu tfmix za svaki od testiranih skupova podataka i
vrijednosti parametra 휇. TF-ISFcon metoda također pokazuje bolje rezultate u odnosu na
TF-ISF i tfmix u većini slučajeva (5 od 6) kada se koristi R-precision mjera. Što se tiče
64
P@x mjera tablice 4.4. - 4.6. imaju sveukupno 48 usporedbi sa 4 statistički signifikantna
poboljšanja (prema P@100 mjeri) i 44 ne signifikantne razlike.
Tablica 4.4. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.2, α=0.7
TREC 2003 TREC 2004 TF-ISF tfmix TF-ISFcon TF-ISF tfmix TF-ISFcon
P@5 0,7160 0,7200 0,7200 0,4360 0,4440 0,4560 P@10 0,6980 0,7040 0,6980 0,4220 0,4460 0,4460 P@15 0,7040 0,6960 0,7000 0,4280 0,4253 0,4320 P@20 0,6890 0,6880 0,6980 0,4260 0,4240 0,4230 P@25 0,6800 0,6760 0,6864 0,4168 0,4160 0,4176 P@30 0,6707 0,6640 0,6747 0,4113 0,4160 0,4147 P@50 0,6436 0,6496 0,6556 0,4040 0,3972 0,4028 P@100 0,6078 0,6112 0,6184*† 0,3660 0,3650 0,3716 MAP 0,5764 0,5775 0,5930*† 0,3252 0,3260 0,3398*† R-precision 0,5457 0,5481 0,5725*† 0,3376 0,3401 0,3456
Slika 4.13. P@x, MAP i R-precision za TREC 2003, μ=0.2, α=0.7
65
Slika 4.14. P@x, MAP i R-precision za TREC 2004, 휇=0.2, 훼=0.7
Tablica 4.5. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0.1, α=0.85
TREC 2002 TREC 2004 TF-ISF tfmix TF-ISFcon TF-ISF tfmix TF-ISFcon
P@5 0,3200 0,3360 0,3520 0,4360 0,4400 0,4480 P@10 0,2900 0,3140 0,3020 0,4220 0,4420 0,4340 P@15 0,2973 0,2907 0,2960 0,4280 0,4333 0,4347 P@20 0,2760 0,2820 0,2820 0,4260 0,4220 0,4210 P@25 0,2648 0,2776 0,2752 0,4168 0,4192 0,4232 P@30 0,2587 0,2680 0,2680 0,4113 0,4160 0,4187 P@50 0,2416 0,2416 0,2488 0,4040 0,3996 0,3988 P@100 0,1904 0,1934 0,2146*† 0,3660 0,3672 0,3714 MAP 0,1952 0,1973 0,2315*† 0,3252 0,3258 0,3392*† R-prec. 0,2414 0,2448 0,2666*† 0,3376 0,3403 0,3473*†
66
Slika 4.15. P@x, MAP i R-precision za TREC 2002, 휇=0.1, 훼=0.85
Slika 4.16. P@x, MAP i R-precision za TREC 2004, 휇=0.1, 훼=0.85
67
Tablica 4.6. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0.2, α=0.6
TREC 2002 TREC 2003 TF-ISF tfmix TF-ISFcon TF-ISF tfmix TF-ISFcon
P@5 0,3200 0,3200 0,3480 0,7160 0,7240 0,7200 P@10 0,2900 0,3140 0,3040 0,6980 0,6860 0,6980 P@15 0,2973 0,3000 0,3000 0,7040 0,6947 0,7000 P@20 0,2760 0,2910 0,2880 0,6890 0,6830 0,6980 P@25 0,2648 0,2784 0,2792 0,6800 0,6800 0,6864 P@30 0,2587 0,2680 0,2727 0,6707 0,6667 0,6747 P@50 0,2416 0,2440 0,2496 0,6436 0,6508 0,6556 P@100 0,1904 0,1934 0,2154*† 0,6078 0,6100 0,6184*† MAP 0,1952 0,1971 0,2322*† 0,5764 0,5773 0,5930*† R-prec. 0,2414 0,2451 0,2672*† 0,5457 0,5483 0,5725*†
Slika 4.17. P@x, MAP i R-precision za TREC 2002, 휇=0.2, 훼=0.6
68
Slika 4.18. P@x, MAP i R-precision za TREC 2003, 휇=0.2, 훼=0.6
Da bi se postigao bolji uvid u performanse nove metode kada je u pitanju R-precision
mjera i P@x mjere izvedeni su dodatni testovi u kojima su spojena tri skupa podataka iz
TREC staze novosti 2002, 2003 i 2004. U ovom slučaju ne postoji skup podataka za
treniranje s kojim se može odrediti optimalna vrijednost parametra. Iz tog razloga
prikazani su rezultati za cijeli niz vrijednosti. Rezultati su prikazani u tablici 4.7. i kao graf
na slici 4.19. Statistički signifikantne razlike TF-ISFcon u odnosu na osnovnu TF-ISF
metodu su označene zvjezdicom.
69
Tablica 4.7. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC
2003 i TREC 2004
TF-ISF
TF-ISFcon 휇 = 0.1 휇 = 0.2 휇 = 0.3 휇 = 0.4 휇 = 0.5
P@5 0,4907 0,5107 0,5080 0,4987 0,4853 0,4600 P@10 0,4700 0,4847 0,4827 0,4787 0,4633 0,4367 P@15 0,4764 0,4782 0,4773 0,4702 0,4547 0,4409* P@20 0,4637 0,4663 0,4697 0,4657 0,4537 0,4353* P@25 0,4539 0,4629 0,4611 0,4573 0,4480 0,4291* P@30 0,4469 0,4549 0,4540 0,4476 0,4431 0,4187* P@50 0,4297 0,4337 0,4360 0,4353 0,4189 0,3999* P@100 0,3881 0,4014* 0,4018* 0,3974* 0,3903 0,3762* MAP 0,3656 0,3885* 0,3883* 0,3850* 0,3771* 0,3634 R-precision 0,3749 0,3944* 0,3951* 0,3914* 0,3815 0,3683
Slika 4.19. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC
2003 i TREC 2004
Ovoga puta (tablica 4.7. i slika 4.19.) mogu se uočiti poboljšanja za cijeli niz vrijednosti
parametra 휇 (휇 = 0.1 − 0.3) kada su u pitanju mjere MAP i R-precision i P@100. U isto
vrijeme nema statistički signifikantnih razlika prema P@x mjerama (osim za P@100). Kod
većih vrijednosti parametra 휇 (휇 = 0.4 , 휇 = 0.5 ) nova metoda pokazuje signifikantno
70
lošije rezultate prema nekim P@x mjerama i prestaje pokazivati signifikantno bolje
rezultate prema MAP i R-precision mjerama. Ovakav scenarij je očekivan budući da mora
postojati određena granična vrijednost parametra 휇 kod koje je utjecaj susjednih rečenica
prevelik.
Iz tablice 4.7. i grafa sa slike 4.19. može se vidjeti da je prilično jednostavno odabrati
vrijednost parametra 휇 tako da TF-ISFcon pokazuje bolje rezultate nego osnovna metoda
TF-ISF prema MAP i R-precision mjerama a u isto vrijeme pokazuje kompetitivne
rezultate prema testiranim P@x mjerama.
4.2.1.2. Empirijska studija s dugim upitima
U prethodnim eksperimentima korišteni su kratki upiti iz naslova TREC tema. Međutim,
interesantno je ispitati je li metoda TF-ISFcon korisna i kada se koriste duži upiti. Iz tog
razloga prethodni testovi će biti ponovljeni s razlikom što će se koristiti dugi upiti. U tu
svrhu se definira dugi upit kao upit koji se sastoji od spojenih sadržaja sljedećih dijelova
TREC teme:
Naslova (eng. title) tj. dijela između <title> i <desc> (TREC 2002) odnosno dijela
između <title> i <toptype> (TREC 2003 i TREC 2004)
Opisa (eng. description) tj. dijela između <desc>Description: i <narr> (TREC
2002, 2003 i 2004)
Priče (eng. narrative) tj. dijela između <narr>Narrative: i <relevant> (TREC 2002
i 2003) odnosno dijela između <narr>Narrative: i <documents> (TREC 2004)
Primjer dugog upit (koji se odnosi na primjer teme iz TREC 2003 staze novosti sa slike
4.5.) je prikazan na slici 4.20.
71
Slika 4.20. Primjer dugog upita korištenog u testu
Analogno eksperimentima iz prethodnog poglavlja najprije je izvedeno treniranje.
Odnosno pronađene su vrijednosti parametra 휇 kod kojih metoda TF-ISFcon pokazuje
najbolje rezultate kao i vrijednosti parametra 훼 kod kojih metoda tfmix pokazuje najbolje
vrijednosti prema MAP mjeri za sve tri TREC staze novosti. Tablica 4.8. pokazuje
optimalne vrijednosti parametra 휇 i 훼 za tri skupa podataka.
Tablica 4.8. Optimalne vrijednosti parametra μ i α za skup podataka iz TREC 2002, 3003 I
2004 staza novosti
휇 훼
TREC 2002 0,25 0,95
TREC 2003 0,2 0,75
TREC 2004 0,2 0,75
Sljedeće tablice (tablica 4.9. - 4.11.) i grafovi (slika 4.21. - 4.26.) prikazuju rezultate za tri
konfiguracije treniranja i testiranja. Statistički signifikantne razlike između TF-ISF i TF-
ISFcon označene su zvjezdicom. Statistički signifikantne razlike između tfmix i TF-ISFcon
označene su sa †. Rezultati su slični kao kod skupa eksperimenata sa kratkim upitima.
Kada je u pitanju MAP mjera testovi pokazuju statistički signifikantno poboljšanje kada se
koristi metoda TF-ISFcon u odnosu na osnovnu metodu TF-ISF i tfmix za svaki od testiranih
skupova podataka i vrijednosti parametra 휇 i 훼 . TF-ISFcon metoda također pokazuje
statistički signifikantno bolje rezultate u odnosu na TF-ISF i tfmix u većini slučajeva (4 od
6) kada se koristi R-precision mjera. Što se tiče P@x mjera tablice 4.9. - 4.11. imaju
sveukupno 48 usporedbe. Testovi pokazuju dva statistički signifikantna poboljšanja (prema
P@100 mjeri), dva statistički signifikantna pogoršanja (prema P@5 mjeri) i 44 statistički
72
ne signifikantne razlike kada se koristi TF-ISFcon u odnosu na osnovnu metodu TF-ISF i
tfmix. Kada je u pitanju tfmix metoda, jednako kao i kod testova sa kratkim upitima, nije
uočeno nijedno statistički signifikantno poboljšanje u odnosu na osnovnu TF-ISF metodu
što ponovo potvrđuje testove iz [5].
Tablica 4.9. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.25, α=0.95
TREC 2003 TREC 2004 TF-ISF tfmix TF-ISFcon TF-ISF tfmix TF-ISFcon
P@5 0,8080 0,8120 0,7480*† 0,6080 0,6120 0,6120 P@10 0,7560 0,7580 0,7540 0,5500 0,5500 0,5720 P@15 0,7440 0,7467 0,7667 0,5240 0,5173 0,5360 P@20 0,7370 0,7400 0,7510 0,5190 0,5240 0,5240 P@25 0,7360 0,7336 0,7392 0,5200 0,5208 0,5232 P@30 0,7227 0,7247 0,7313 0,5040 0,5080 0,5107 P@50 0,7080 0,7068 0,7064 0,4756 0,4788 0,4752 P@100 0,6612 0,6616 0,6694 0,4326 0,4314 0,4288 MAP 0,6271 0,6271 0,6368*† 0,3829 0,3836 0,3948*† R-prec. 0,5981 0,5986 0,6100*† 0,3836 0,3829 0,3954*†
Slika 4.21. P@x, MAP i R-precision za TREC 2003, μ=0.25, α=0.95
73
Slika 4.22. P@x, MAP i R-precision za TREC 2004, μ=0.25, α=0.95
Tablica 4.10. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0.2, α=0.75
TREC 2002 TREC 2004 TF-ISF tfmix TF-ISFcon TF-ISF tfmix TF-ISFcon
P@5 0,3960 0,4040 0,3960 0,6080 0,6040 0,6240 P@10 0,3840 0,3800 0,3820 0,5500 0,5660 0,5780 P@15 0,3613 0,3573 0,3627 0,5240 0,5347 0,5387 P@20 0,3370 0,3450 0,3410 0,5190 0,5320 0,5220 P@25 0,3264 0,3328 0,3304 0,5200 0,5216 0,5192 P@30 0,3147 0,3113 0,3233 0,5040 0,5087 0,5147 P@50 0,2796 0,2832 0,2868 0,4756 0,4744 0,4796 P@100 0,2280 0,2272 0,2370*† 0,4326 0,4286 0,4310 MAP 0,2436 0,2449 0,2684*† 0,3829 0,3845 0,3959*† R-prec. 0,2753 0,2785 0,2815 0,3836 0,3810 0,3962*†
74
Slika 4.23. P@x, MAP i R-precision za TREC 2002, 휇=0.2, 훼=0.75
Slika 4.24. P@x, MAP i R-precision za TREC 2004, 휇=0.2, 훼=0.75
75
Tablica 4.11. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0.2, α=0.75
TREC 2002 TREC 2003 TF-ISF tfmix TF-ISFcon TF-ISF tfmix TF-ISFcon
P@5 0,3960 0,4040 0,3960 0,8080 0,7960 0,7680*† P@10 0,3840 0,3800 0,3820 0,7560 0,7640 0,7580 P@15 0,3613 0,3573 0,3627 0,7440 0,7467 0,7613 P@20 0,3370 0,3450 0,3410 0,7370 0,7460 0,7490 P@25 0,3264 0,3328 0,3304 0,7360 0,7344 0,7360 P@30 0,3147 0,3113 0,3233 0,7227 0,7273 0,7333 P@50 0,2796 0,2832 0,2868 0,7080 0,7104 0,7096 P@100 0,2280 0,2272 0,2370*† 0,6612 0,6608 0,6678 MAP 0,2436 0,2449 0,2684*† 0,6271 0,6274 0,6381*† R-prec. 0,2753 0,2785 0,2815 0,5981 0,5971 0,6092*†
Slika 4.25. P@x, MAP i R-precision za TREC 2002, 휇=0.2, 훼=0.75
76
Slika 4.26. P@x, MAP i R-precision za TREC 2003, 휇=0.2, 훼=0.75
Kao i u prethodnom poglavlju da bi se postigao bolji uvid u performanse nove metode
kada je u pitanju R-precision mjera i P@x mjere izvedeni su dodatni testovi u kojima su
spojena tri skupa podataka iz TREC staze novosti 2002, 2003 i 2004. Rezultati su prikazani
u tablici 4.12. i kao graf na slici 4.27. Statistički signifikantne razlike TF-ISFcon u odnosu
na osnovnu TF-ISF metodu u tablici 4.12. su označene zvjezdicom.
77
Tablica 4.12. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC
2003 i TREC 2004
TF-ISF
TF-ISF 휇 = 0.1 휇 = 0.2 휇 = 0.3 휇 = 0.4 휇 = 0.5
P@5 0,6040 0,5960 0,5960 0,5773 0,5627* 0,5133* P@10 0,5633 0,5727 0,5727 0,5667 0,5387* 0,5013* P@15 0,5431 0,5489 0,5542 0,5431 0,5253 0,4876* P@20 0,5310 0,5377 0,5373 0,5357 0,5143* 0,4740* P@25 0,5275 0,5299 0,5285 0,5256 0,5064* 0,4680* P@30 0,5138 0,5211 0,5238 0,5158 0,4993* 0,4653* P@50 0,4877 0,4901 0,4920 0,4868 0,4761* 0,4489* P@100 0,4406 0,4449 0,4453 0,4429 0,4327* 0,4135* MAP 0,4179 0,4326* 0,4341* 0,4314* 0,4212 0,4007* R-prec. 0,4190 0,4269* 0,4290* 0,4290* 0,4211 0,4009*
Slika 4.27. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC
2003 i TREC 2004
Rezultati prikazani u tablici 4.12 i slici 4.27. slični su kao kod testiranja sa kratim upitima.
Mogu se uočiti poboljšanja za cijeli niz vrijednosti parametra 휇 (휇 = 0.1 − 0.3) kada su u
pitanju mjere MAP i R-precision. U isto vrijeme nema statistički signifikantnih razlika
prema P@x mjerama. Kod većih vrijednosti parametra 휇 (휇 = 0.4,휇 = 0.5) nova metoda
počinje pokazivati signifikantno lošije rezultate prema većini mjera. Ovakav scenarij je
78
očekivan budući da mora postojati određena granična vrijednost parametra 휇 kod koje je
utjecaj susjednih rečenica prevelik.
Iz tablice 4.12. se može vidjeti da je prilično jednostavno odabrati vrijednost parametra 휇
tako da TF-ISFcon pokazuje bolje rezultate nego osnovna metoda TF-ISF prema MAP i R-
precision mjerama, a u isto vrijeme pokazuje kompetitivne rezultate prema testiranim P@x
mjerama.
4.2.1.3. Analiza rezultata
Mjere MAP i R-precision kod kojih nova metoda TF-ISFcon pokazuje bolje performanse od
TF-ISF orijentirane su na odaziva (eng. recall oriented) . Slično poboljšanje je postignuto
metodom koja uključuje lokalni kontekst u metodu modeliranja jezika [5]. Uključivanje
konteksta promiče rečenice koje nemaju mnogo zajedničkih izraza sa upitom, ali zato
imaju zajedničke izraze u kontekstu što rezultiram višim odazivom. Odaziv je važan u
aplikacijskom scenariju prezentiranom u [2]. U tom scenariju korisnik ima mogućnost
korištenja pametnog „DALJE“ botuna (eng. NEXT) koji mu daje mogućnost šetanja kroz
listu dokumenata označavajući pritom samo relevantne (i nove) rečenice. Visok odaziv
također je važan kada je u pitanju sažimanje dokumenata (eng. multi-document
summarization) [5]. Sa druge strane kada su u pitanju testirane, na preciznost orijentirane
(eng. precision oriented) mjere (P@5, P@10, P@15, P@20, P@25, P@30, P@50,
P@100), performanse TF-ISFcon u odnosu na TF-ISF su kompetitivne. To znači da ne treba
brinuti kada su u pitanju aplikacije koje zahtijevaju visoku preciznost kao što je
odgovaranje na pitanja (eng. question-answering).
Interesantno je da TF-ISFcon pokazuje bolje rezultate prema MAP i R-precision mjerama i
kada se koriste manje vrijednosti parametra 휇 od 0,1. Npr. isprobana je vrijednost 휇 =
0.01 s kratkim i sa dugim upitima u oba slučaja sa signifikantno boljim rezultatima prema
MAP i R-precision. Razlog leži u činjenici da TF-ISF funkcija rangiranja proizvodi iste
ocjene za višestruke rečenice. U takvim situacijama dodatna informacija iz susjednih
rečenica, bez obzira koliko mala bila, može pomoći boljem poretku rečenica u rezultatu. U
tablici 4.13. je prikazan niz rečenica (TREC 2003 staza novosti) koje imaju jednaku ocjenu
ako se koristi TF-ISF metoda (funkcija rangiranja 푅(푠|푞) ). Ako se koristi TF-ISFcon
79
metoda za iste rečenice dobiju se raznovrsnije ocjene (tablica 4.13.) što omogućuje
precizniji poredak rečenica.
Tablica 4.13. Primjer rečenica s istom ocjenom prema TF-ISF metodi i različitim
ocjenama prema TF-ISFcon metodi (μ=0,01)
Naziv dokumenta Broj rečenice TF-ISF TF-ISFcon Relevantna APW20000425.0031 20 2,6174 2,6402 TRUE NYT20000421.0179 41 2,6174 2,6267 FALSE APW20000425.0103 6 2,6174 2,6233 FALSE APW20000405.0092 4 2,6174 2,6175 FALSE NYT19991019.0443 18 2,6174 2,6174 TRUE APW20000629.0092 6 2,6174 2,6174 FALSE APW20000629.0004 30 2,6174 2,6174 FALSE
80
4.3. Korištenje duljine rečenice za poboljšanje pronalaženja rečenica
Korištenje duljine rečenica za poboljšanje pronalaženja rečenica već je uspješno uvedeno u
metode modeliranja jezika [5]. U ovoj doktorskoj disertaciji metode TF-ISF i TF-ISFcon su
poboljšane korištenjem duljine rečenica. U ovom poglavlju opisane su trenutne metode za
pronalaženje rečenica koje koriste duljinu rečenica kao i uvođenje korištenja duljine
rečenica u TF-ISF i TF-ISFcon metode. Nove varijante TF-ISF i TF-ISFcon metoda koje
uzimaju u obzir kontekst rečenice i duljinu rečenice su uspoređene sa osnovnom TF-ISF
metodom, sa prijašnjim pokušajem uključivanja konteksta u TF-ISF metodu nazvanu tfmix
kao i sa varijantom metode mješavine tri modela koja forsira dohvaćanje dugih rečenica.
Kao što je već spomenuto u [5] korištene su metode pronalaženja rečenica koje spadaju u
okvir modeliranja jezika. Te metode su proširene koristeći kontekst rečenice. Međutim,
dodatno su te iste metode proširene koristeći komponentu 푝(푑|푠) koja je nazvana važnost
rečenice unutar teme dokumenta (eng. importance of the sentence within the topic of the
document). Korištenje komponente 푝(푑|푠) je doprinijelo poboljšanju većine metoda
modeliranja jezika. Također je pokazano da komponenta 푝(푑|푠) forsira dohvaćanje dugih
rečenica i da unapređenje metoda pronalaženja rečenica potječe od ovog efekta. U [5]
testirane su sljedeće metoda modeliranja jezika sa lokalnim kontekstom i komponentom
푝(푑|푠):
3MM (mješavina tri modela)
2S (model dvije faze)
2S-I (model dvije faze sa invertiranim fazama)
JM (Jelinek-Mercer izglađivanje)
Dir (Dirichlet izglađivanje)
Međutim od navedenih metoda u ovom radu ponovit će se samo testiranje 3MM metode sa
푝(푑|푠) komponentom. Jedan razlog je što je 3MM metoda višestruko korištena [5], [7],
[46]. Drugi razlog je što ova metoda kada se kombinira sa 푝(푑|푠) komponentom pokazuje
slično dobre rezultate kao i ostale najbolje metode iz [5]. Ova metoda zato ima ulogu
osnovne metode (eng. baseline) koja koristi i kontekst i komponentu za forsiranje
dohvaćanja dugih rečenica (푝(푑|푠)).
81
Nove varijante TF-ISF metode koje uzimaju u obzir kontekst rečenice i duljinu rečenice su
uspoređene sa sljedećim metodama:
Osnovna TF-ISF metoda [14], [16] (jaka osnovna metoda koja je pokazala dobre
rezultate u prijašnjim testovima [14], [27], [26])
tfmix [5] (TF-ISF verzija sa kontekstom koja nije uspjela unaprijediti osnovnu TF-
ISF metodu u testovima u [5] kao ni u ponovljenim testovima u poglavlju 4.2.1.1. i
4.2.1.2.)
Varijanta 3MM metode (eng. Three Mixture Model ili Mješavina tri modela), [5],
[7], (koristi kontekst rečenice i komponentu koja forsira dohvaćanje dugih rečenica
푝(푑|푠)) nazvana 3MMPDS.
4.3.1. Dodavanje komponente za forsiranje dohvaćanja dugih rečenica u TF-ISF funkciju rangiranja
Već je spomenuto da je u [5] korištena vjerojatnost generiranja dokumenta iz rečenice
(푝(푑|푠) ) u cilju unapređenja nekoliko metoda za pronalaženja rečenica baziranih na
modeliranju jezika. U [5] 푝(푑|푠) je nazvano mjerom važnosti rečenice unutar teme
dokumenta. Nekoliko metoda (3MM, 2S, 2S-I, DIR, JM) je testirano sa 푝(푑|푠)
komponentom i sve su pokazale slično dobre performanse. Drugim riječima nije bilo
statistički signifikantnih razlika između njih, a u isto vrijeme su sve pokazale bolje
performanse od osnovnih metoda TF-ISF i BM25. Važna spoznaja iz [5] je da 푝(푑|푠)
forsira dohvaćanje dugih rečenica i da je unapređenje metoda nastalo kroz taj efekt. Iz tog
razloga pretpostavka je da se i TF-ISF metoda može unaprijediti modificirajući je da uzima
u obzir i duljinu rečenice.
Polazi se od pretpostavke da je relevantnost rečenice proporcionalna odnosu između
duljine trenutne rečenice i prosječne duljine rečenice u dokumentu koji sadrži rečenicu.
Nova funkcija rangiranja ovdje se definira kao:
푅 (푠|푞) =|푠|
퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠)푅(푠|푞) (4.4)
Gdje je:
82
|푠| duljina rečenice 푠,
푑(푠) dokument koji sadrži rečenicu 푠,
퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠) prosječna duljinu rečenice u dokumentu koji sadrži
rečenicu 푠.
Funkcija rangiranja 푅 (푠|푞) (jednadžba (4.4)) forsira dohvaćanje dugih rečenica
dajući im dodatnu težinu. Preciznije, vrijednost izraza | |( )
je visoka za
rečenice koje su duge u odnosu na prosječnu duljinu rečenica u dokumentu.
Da bi se kreirala metoda (odnosno funkcija rangiranja) koja u isto vrijeme koristi kontekst
rečenica i forsira dohvaćanje dugih rečenica može se kombinirati jednadžba (4.2) i
jednadžba (4.4) na sljedeći način:
푅 (푠|푞) =|푠|
퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠)푅 (푠|푞) (4.5)
4.3.2. Mješavina tri modela sa forsiranjem dugih rečenica ili 3MMPDS
Kao osnovna metoda izabrana je verzija Mješavine tri modela (3MM) koja koristi kontekst
u obliku prethodne, trenutne i sljedeće rečenice kao i 푝(푑|푠) iz [5]. Funkcija rangiranja je
preuzeta iz [5] i glasi:
푅 (푠|푞) = 푝(푑|푠) ∙ 휆푝(푡|푠) + 훾푝 푡 푐표푛푡푒푥푡(푠) + (1 − 휆 − 훾)푝(푡)( , )
∈
(4.6)
Gornja funkcija rangiranja (jednadžba (4.6)) je identična funkciji rangiranja prezentiranoj u
[7] s tom razlikom što se umjesto 푝(푡|푑) koristi 푝 푡 푐표푛푡푒푥푡(푠) i što se uvodi
komponenta 푝(푑|푠) koja je nazvana mjerom važnosti rečenice unutar teme dokumenta.
푝(푑|푠) komponenta je definirana kako slijedi [5]:
푝(푑|푠) =∏ 푝(푡|푑) ( , )
∈
∏ 푝(푡) ( , )∈
(4.7)
83
U jednadžbama (4.6) i (4.7) je:
푝(푡|푠) = ( , )| |
,
푝(푡|푐표푛푡푒푥푡) = , ( )| ( )|
,
푝(푡|푑) = ( , )| |
,
푝(푡) = ( , )| |
,
푐(푡, 푠) broj pojavljivanja izraza 푡 u rečenici 푠,
푐 푡, 푐표푛푡푒푥푡(푠) broj pojavljivanja izraza 푡 u kontekstu rečenice 푠 koji se sastoji
od prethodne, trenutne i sljedeće rečenice,
푐(푡, 푞) broj pojavljivanja izraza u upitu 푞,
푐(푡, 푑) broj pojavljivanja izraza 푡 u dokumentu 푑,
푐(푡, 푐표푙푙) broj pojavljivanja izraza 푡 u kolekciji 푐표푙푙,
|푠| duljina rečenice 푠,
|푐표푛푡푒푥푡(푠)| duljina konteksta 푐표푛푡푒푥푡(푠),
|푑| duljina dokumenta 푑,
|푐표푙푙| duljina kolekcije.
4.3.3. Pregled svih testiranih metoda
Pregled svih testiranih metoda u ovom poglavlju (tj. u poglavlju 4.3.), s navedenom
funkcijom rangiranja i podacima o ekvivalentnim testiranjima je prikazan tablicom 4.14.
84
Tablica 4.14. Pregled svih metoda pronalaženja rečenica testiranih u poglavlju 4.3.
Metoda Funkcija
rangiranja
Broj
jednadžbe
Prvi put testirana u poglavlju 4.3.?
TF-ISF 푅(푠|푞) (3.14) ne, također testirana u [5], [14], [16] i u
poglavlju 4.2.
tfmix 푅 (푠|푞) (3.43) ne, također testirana u [5] i u poglavlju
4.2.
3MMPDS 푅 (푠|푞) (4.6) ne, također testirana u [5], bez 푝(푑|푠)
također testirana u [7]
TF-ISFcon 푅 (푠|푞) (4.2)
ne, također testirana u [62] i u poglavlju
4.2. sa identičnom postavkom
eksperimenta
TF-ISFlength 푅 (푠|푞) (4.4) da
TF-ISFcon,length 푅 (푠|푞) (4.5) da
Nastanak svake od metoda iz tablice 4.14. je prikazan slikom 4.28.
85
Slika 4.28. Nastajanje različitih metoda pronalaženja rečenica korištenih u poglavlju 4.3.
4.3.4. Empirijska studija
U cilju testiranja novih metoda TF-ISFlength i TF-ISFcon,length korištene se slične postavke
eksperimenta kao u poglavlju 4.2.1.1. Kao ulazni podaci su korišteni skupovi podataka sa
TREC staza novosti. Korištena je konfiguracija treniranja i testiranja. Za razliku od
poglavlja 4.2.1.1. ovdje je radi preglednosti korištena samo P@10 mjera, a ne cijeli niz
P@x mjera. Jednako kao u poglavlju 4.2.1.1. korištene su također i mjere MAP i R-
precision. Kao upiti su korišteni kratki upiti odnosno naslov TREC teme (slika 4.2., 4.5. i
4.8.).
Trening je izveden radi pronalaženja vrijednosti parametara 휇 , 훼 , 휆 , 훾 za koje
odgovarajuće metode pokazuju najbolje performanse. Tijekom sva tri treninga (TREC
2002, 2003, 2004) testirane su vrijednosti od 0,0 to 1,0 u koracima od 0,05 za svaki od
86
parametara. Najbolje vrijednosti parametara su fiksirane u cilju primjenjivanja na preostala
dva skupa podataka. Tijekom treniranja performanse metoda su mjerene koristeći mjeru
MAP.
Tablica 4.15. pokazuje optimalne vrijednosti parametra 휇 za odgovarajuće metode (TF-
ISFlength i TF-ISFcon,length) i tri skupa podataka.
Tablica 4.15. Optimalne vrijednosti parametra μ za metode TF-ISFcon, TF-ISFcon,length
TF-ISFcon TF-ISFcon,length 휇 휇
TREC 2002 0,2 0,2 TREC 2003 0,1 0,3 TREC 2004 0,2 0,35
Tablica 4.16. prikazuje optimalne vrijednosti parametara metoda tfmix i 3MMPDS.
Tablica 4.16. Optimalne vrijednosti parametara metoda tfmix i 3MMPDS
tfmix 3MMPDS
훼 휆 훾 TREC 2002 0,7 0,9 0,05 TREC 2003 0,85 0,95 0,0 TREC 2004 0,6 0,9 0,05
Opet je pregled rezultata testiranja predočen i tablično i grafom zbog bolje preglednosti
rezultata. Sljedeće tablice i grafovi (tablice 4.17. - 4.19. i slike 4.29. - 4.34.) prikazuju
testiranje optimiziranih metoda za tri konfiguracije treniranja i testiranja. U tablicama 4.17.
- 4.19. statistički signifikantne razlike u usporedbi sa osnovnom metodom TF-ISF su
označene s zvjezdicom. Statistički signifikantne razlike u odnosu na tfmix metodu su
označene sa †. Statistički signifikantne razlike u odnosu na 3MMPDS metodu su označene
sa m.
87
Tablica 4.17. TREC 2003 i TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length,
α=0,7, λ=0,9, γ=0,05
TF-ISF tfmix 3MMPDS TF-ISFcon TF-ISFlength TF-ISFcon,length TR
EC
2003
P@10 0,6980 0,7040 0,5780*† 0,6980 m 0,7720*†m 0,7680*†m MAP 0,5764 0,5775 0,5834 0,5930*†m 0,6178*†m 0,6454*†m R-prec. 0,5457 0,5481 0,5785*† 0,5725*†m 0,5762*†m 0,6118*†m
TREC
20
04
P@10 0,4220 0,4440 0,3260*† 0,4460m 0,4560 0,4700*†m MAP 0,3252 0,3260 0,3126*† 0,3398*†m 0,3486*†m 0,3691*†m R-prec. 0,3376 0,3401 0,3254 0,3456m 0,3667*†m 0,3772*†m
Slika 4.29. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length, α=0,7, λ=0,9,
γ=0,05
88
Slika 4.30. TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length, α=0,7, λ=0,9,
γ=0,05
Tablica 4.18. TREC 2002 i TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length,
α=0,85, λ=0,95, γ=0,0
TF-ISF tfmix 3MMPDS TF-ISFcon TF-ISFlength TF-ISFcon, length
TREC
20
02
P@10 0,2900 0,3140 0,2380† 0,3020 m 0,3540*†m 0,3860*†m MAP 0,1952 0,1973 0,2069 0,2315*†m 0,2140*† 0,2583*†m R-prec. 0,2414 0,2448 0,2188 0,2666*†m 0,2600*†m 0,2890*†m
TREC
20
04 P@10 0,4220 0,4420 0,3280*† 0,4340 m 0,4560 0,4860*†m
MAP 0,3252 0,3258 0,3080*† 0,3392*†m 0,3486*†m 0,3709*†m R-prec. 0,3376 0,3403 0,3222*† 0,3473*†m 0,3667*†m 0,3765*†m
89
Slika 4.31. TREC 2002, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length, α=0,85, λ=0,95,
γ=0,0
Slika 4.32. TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length, α=0,85, λ=0,95,
γ=0,0
90
Tablica 4.19. TREC 2002 i TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length,
α=0,6, λ=0,9, γ=0,05
TF-ISF tfmix 3MMPDS TF-ISFcon TF-ISFlength TF-ISFcon, length TR
EC
2002
P@10 0,2900 0,3140 0,2360*† 0,3040 m 0,3540*†m 0,3820*†m MAP 0,1952 0,1971 0,2105 0,2322*†m 0,2140*† 0,2570*†m R-prec. 0,2414 0,2451 0,2198 0,2672*†m 0,2600*†m 0,2861*†m
TREC
20
03
P@10 0,6980 0,6860 0,5780*† 0,6980 m 0,7720*†m 0,7620*†m MAP 0,5764 0,5773 0,5834 0,5930*†m 0,6178*†m 0,6459*†m R-prec. 0,5457 0,5483 0,5785*† 0,5725*†m 0,5762*†m 0,6104*†m
Slika 4.33. TREC 2002, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length, α=0,6, λ=0,9,
γ=0,05
91
Slika 4.34. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length, α=0,6, λ=0,9,
γ=0,05
Metoda tfmix je pokazala slične performanse kao u [5] i u poglavlju 5.1. bez statistički
signifikantnih poboljšanja osnovne metode TF-ISF.
Metoda 3MMPDS je pokazala većinom gore performanse od metoda TF-ISF i tfmix.
Preciznije, metoda 3MMPDS je pokazala statistički signifikantno gore performanse od TF-
ISF i tfmix:
prema mjeri P@10 u 18 od 18 slučajeva,
prema mjeri MAP u 2 od 18 slučajeva,
prema mjeri R-precision u 1 od 18 slučajeva.
Metoda 3MMPDS je također pokazala bolje performanse od metoda TF-ISF i tfmix prema
mjeri MAP u dva od 18 slučajeva.
Metoda TF-ISFcon je pokazala većinom statistički signifikantno bolje rezultate prema MAP
i R-precision mjerama i kompetitivne rezultate prema P@10 mjeri u odnosu na osnovnu
TF-ISF i tfmix metodu. Metoda TF-ISFcon je uvijek pokazala statistički signifikantno bolje
rezultate prema mjerama P@10, MAP i R-precision u odnosu na metodu 3MMPDS.
92
Metoda TF-ISFlength je pokazala većinom statistički signifikantno bolje rezultate prema
svim mjerama (P@10, MAP, R-precision) u odnosu na metode TF-ISF, tfmix i 3MMPDS.
Može se uočiti da nove metode (TF-ISFcon, TF-ISFlength, TF-ISFcon, length) imaju bolje ili
kompetitivne performanse u odnosu na stare metode (TF-ISF, tfmix, 3MMPDS). Najbolja
metoda među testiranima TF-ISFcon,length je kandidat za najbolju metodu pronalaženja
rečenica budući da pokazuje bolje rezultate od prezentiranih SOTA metoda.
Da bi se bolje analizirao efekt uključivanja lokalnog konteksta i efekt forsiranja
dohvaćanja dugih rečenice dodatno su uspoređene samo TF-ISF bazirane metode (TF-ISF,
TF-ISFcon, TF-ISFlength, TF-ISFcon, length). Rezultati su prikazani tablicama 4.20. - 4.22. i
grafovima na slikama 4.35. - 4.40. U tablicama 4.20. - 4.22. statistički signifikantne razlike
u odnosu na osnovnu TF-ISF metodu su označene s zvjezdicom. Statistički signifikantne
razlike u odnosu na metodu TF-ISFcon su označene sa †. Statistički signifikantne razlike u
odnosu na TF-ISFlength metodu su označene sa L.
Tablica 4.20. TREC 2003 i TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length
TF-ISF TF-ISFcon TF-ISFlength TF-ISFcon,length
TREC 2003 P@10 0,6980 0,6980 0,7720*† 0,7680*† MAP 0,5764 0,5930* 0,6178*† 0,6454*†L R-prec. 0,5457 0,5725* 0,5762* 0,6118*† L
TREC 2004 P@10 0,4220 0,4460 0,4560 0,4700* MAP 0,3252 0,3398* 0,3486*† 0,3691*† L R-prec. 0,3376 0,3456 0,3667*† 0,3772*† L
93
Slika 4.35. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length
Slika 4.36. TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length
94
Tablica 4.21. TREC 2002 i TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length
TF-ISF TF-ISFcon TF-ISFlength TF-ISFcon, length
TREC 2002 P@10 0,2900 0,3020 0,3540*† 0,3860*† MAP 0,1952 0,2315* 0,2140*† 0,2583*† L R-prec. 0,2414 0,2666* 0,2600* 0,2890*† L
TREC 2004 P@10 0,4220 0,4340 0,4560 0,4860* MAP 0,3252 0,3392* 0,3486*† 0,3709*† L R-prec. 0,3376 0,3473* 0,3667*† 0,3765*† L
Slika 4.37. TREC 2002, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length
Slika 4.38. TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length
95
Tablica 4.22. TREC 2002 i TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length
TF-ISF TF-ISFcon TF-ISFlength TF-ISFcon,length
TREC 2002 P@10 0,2900 0,3040 0,3540*† 0,3820*† MAP 0,1952 0,2322* 0,2140*† 0,2570*† L R-prec. 0,2414 0,2672* 0,2600* 0,2861*† L
TREC 2003 P@10 0,6980 0,6980 0,7720*† 0,7620*† MAP 0,5764 0,5930* 0,6178*† 0,6459*† L R-prec. 0,5457 0,5725* 0,5762* 0,6104*† L
Slika 4.39. TREC 2002, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length
96
Slika 4.40. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length
Prema prezentiranim rezultatima (tablica 4.20. - 4.22. i slika 4.35. - 4.40.) metoda TF-
ISFcon većinom pokazuje statistički signifikantno bolje rezultate prema mjerama MAP i R-
precision u odnosu na osnovnu metodu (prema mjeri MAP u šest od šest slučajeva i prema
mjeri R-precision u pet od šest slučajeva) što predstavlja ponavljanje rezultata iz poglavlja
4.2.1.1.
Iz eksperimentalnih rezultata se također vidi da nova metoda TF-ISFlength većinom ima
statistički signifikantno bolje rezultate prema svim korištenim mjerama (P@10, MAP, R-
precision) u odnosu na osnovnu TF-ISF metodu (prema P@10 u četiri od šest slučajeva,
prema MAP u šest od šest slučajeva i prema R-precision u šest od šest slučajeva).
Iz rezultata se također vidi da metoda TF-ISFcon,length uvijek pokazuje statistički
signifikantno bolje rezultate prema svim testiranim mjerama (P@10, MAP, R-precision) u
odnosu na osnovnu TF-ISF metodu.
Također je važno uočiti da metoda TF-ISFcon, length također ima statistički signifikantno
bolje rezultate prema mjerama MAP i R-precision u odnosu na metode TF-ISFcon i TF-
ISFlength. Što se može iz ovoga zaključiti? Metoda TF-ISFcon unapređuje osnovnu metodu
TF-ISF prema mjerama MAP i R-precision. Metoda TF-ISFlength također unapređuje
osnovnu metodu TF-ISF prema mjerama MAP i R-precision. Međutim kada se kombinira
97
modifikacija osnovne metode iz TF-ISFcon (tj. korištenje konteksta) i modifikacija osnovne
metode iz TF-ISFlength (tj. forsiranje dohvaćanja dugih rečenica) u novu metodu TF-
ISFcon,length dobivaju se čak statistički signifikantno bolji rezultati prema mjerama MAP i R-
precision u odnosu na svaku od dvije metode koje koriste samo jednu modifikaciju. Ovo
znači da se pozitivan efekt korištenja konteksta i pozitivan efekt forsiranja dugih rečenica
zbrajaju. Jedan efekt se ne preklapa sa drugim. Drugim riječima korisno je koristiti lokalni
kontekst rečenice i u isto vrijeme forsiranje dohvaćanja dugih rečenica.
Kada je u pitanju mjera P@10 metoda TF-ISFcon ima kompetitivne rezultate (bez
statističkih signifikantnih razlika) a metoda TF-ISFlength ima statistički signifikantno bolje
rezultate u odnosu na osnovnu TF-ISF metodu. Metoda TF-ISFcon,length nudi slična
poboljšanja kao i metoda TF-ISFlength u odnosu na osnovnu metodu. Znači i u slučaju
P@10 mjere efekt korištenja konteksta (koji ne daje statistički signifikantna poboljšanja) i
efekt forsiranja dohvaćana dugih rečenica (koji daje statistički signifikantna poboljšanja) se
ne poklapa. Nasuprot, on se zbraja.
Može se zaključiti:
Korištenje lokalnog konteksta rečenice može unaprijediti pronalaženje rečenica
Forsiranje dohvaćanja dugih rečenica može unaprijediti pronalaženje rečenica
Kombiniranje korištenja lokalnog konteksta rečenica i forsiranja dohvaćanja dugih
rečenica može dodatno unaprijediti pronalaženje rečenica
Mjere MAP i R-precision za koje nove metode (TF-ISFlength, TF-ISFcon, length) pokazuju
bolje performanse orijentirane su na odaziv. Može se uočiti da poboljšanja prema MAP i
R-precision mjerama dolaze od dvije različite modifikacije osnovni TF-ISF metode (tj.
korištenje konteksta i forsiranje dohvaćanja dugih rečenica). Uključivanje konteksta potiče
dohvaćanje rečenica koje nemaju mnogo zajedničkih izraza s upitom dok kontekst ima
zajedničkih izraza sa upitom što povećava odaziv. Kada je u pitanju forsiranje dohvaćanja
dugih rečenica razlog poboljšanja prema MAP i R-precision mjerama leži u činjenici što su
relevantne rečenice odabrane od ocjenjivača u prosjeku dulje od ne-relevantnih rečenica
[5]. Odaziv je važan za aplikacijski scenarij prezentiran u [2]. U tom scenariju korisnik
koristi pametni „NEXT“ botun koji mu daje mogućnost šetanja kroz listu rangiranih
dokumenata u kojima su označene relevantne i nove rečenice. Pronalaženje svih
98
relevantnih rečenica (tj. visok odaziv) je također važan za sažimanje više dokumenata [12],
[13], [63].
Kada je u pitanju mjera orijentirana na preciznost tj. P@10 dobivaju se bolji rezultati kada
se koriste metode TF-ISFlength i TF-ISFcon,length zbog forsiranja dohvaćanja dugih rečenica.
Ponovo, kao i kod mjera MAP i R-precision, razlog je u činjenici što su relevantne
rečenice u prosjeku dulje od ne-relevantnih. Inače mjera P@10 je važna kada se izvode
zadaci pronalaženja rečenica koji zahtijevaju visoku preciznost kao odgovaranje na pitanja
(eng. question-answering).
Uzevši u obzir prezentirane rezultate zaključuje se sljedeće:
Osnovna metoda TF-ISF se unaprjeđuje forsirajući dohvaćanje dugih rečenica.
Pozitivni efekti dvije modifikacije (korištenje konteksta i forsiranje dohvaćanja
dugih rečenica) se ne preklapaju. U stvari oni se zbrajaju i zato je korisno koristiti
obje modifikacije u isto vrijeme.
Nova metoda TF-ISFcon,length pokazuje statistički signifikantno bolje rezultate prema
mjerama P@10, MAP i R-precision u odnosu na SOTA metode TF-ISF, tfmix,
3MMPDS.
99
4.4. TF-ISF bazirane metode na razini dokumenta
Ako se usporedi zadatak pronalaženja rečenica s zadatkom pronalaženja dokumenata može
se uočiti različiti odnos između strukture kolekcije dokumenata i jedinice pronalaženja.
Kod pronalaženja dokumenata jedinica podataka koja se pronalazi je dokument. Sljedeća
jedinica podataka koja se nalazi iznad dokumenta je kolekcija dokumenata. Kod
pronalaženja rečenica situacija je drugačija. Jedinica podataka koja se pronalazi jest
rečenica. Iznad rečenice se nalazi dokument, a iznad dokumenta se nalazi kolekcija
dokumenata. Sve do sada testirane metode pronalaženja rečenica oslanjaju se na
informacije iz cijele kolekcije dokumenata. Međutim, interesantno je ispitati je li također
moguće uspješno pronalaziti rečenice na razini dokumenta odnosno koristeći informacije
samo iz dokumenta u kojem se rečenica nalazi. U ovom poglavlju predstavljene su nove
modifikacije TF-ISF baziranih metoda kojima se računanje ocjene relevantnosti rečenica
spušta na razinu pojedinačnog dokumenta bez potrebe razmatranja cjelokupne kolekcije
(korpusa) dokumenata. U sljedećem poglavlju (poglavlje 4.5.) prezentirana je prednost
metoda na razini dokumenta koja se odnosi na ubrzanje pronalaženja rečenica računanjem
ocjena relevantnosti rečenica prije nego što je dohvaćena cijela kolekcija dokumenata. U
poglavlju 8. je prezentirana mogućnost kreiranja OWL prikaza dokumenta koji omogućava
jednostavniju implementaciju pronalaženja rečenica, a koja se temelji na razvijenim TF-
ISF baziranim metodama na razini dokumenta.
4.4.1. TF-ISF na razini dokumenta i TF-ISFcon na razini dokumenta
Pretpostavka je da će TF-ISFcon metoda pokazati dobre performanse čak i ako je računamo
na razini dokumenta odnosno ako koristimo samo informacije iz dokumenata u kojem se
rečenica nalazi, a ne cijelu kolekciju dokumenata. Standardna TF-ISF funkcija rangiranja
(푅(푠|푞)) može se smatrati funkcijom svojstava rečenice i svojstava kolekcije dokumenata.
Nova definirana funkcija rangiranja TF-ISFcon (푅 (푠|푞)), predstavljena u prethodnim
poglavljima rada, može se smatrati funkcijom svojstava rečenice, svojstava susjednih
rečenica i svojstava kolekcije dokumenata. Obje funkcija rangiranja imaju zajedničko što
ovise o cijeloj kolekciji dokumenata. Drugim riječima ako ih želimo upotrijebiti potrebna
nam je cijela kolekcija dokumenata. Interesantno je ispitati je li moguće postići
kompetitivne performanse ograničavajući izvor podataka korišten za funkciju rangiranja na
100
dokument koji sadrži rečenicu. Ako se bolje analizira funkcija rangiranja 푅(푠|푞) i
푅 (푠|푞) mogu se definirati dijelovi funkcije koji ovise o cijeloj kolekciji, a to su:
푠푓(푡) ili broj rečenica u kolekciji koji sadrži izraz 푡
푁 ili broj rečenica u kolekciji
Gornji izraz 푠푓(푡) i 푁 koji ovise o cijeloj kolekciji mogu se zamijeniti odgovarajućim
izrazima 푠푓 (푡) i 푁 koji ovise samo o dokumentu u kojem se rečenica nalazi gdje je:
푠푓 (푡) je broj rečenica koji sadrži izraz 푡 u dokumentu koji sadrži rečenicu 푠
푁 je broj rečenica u dokumentu koji sadrži rečenicu 푠
Najprije se može definirati TF-ISF na razini dokumenta ili skraćeno DL TF-ISF (DL je
skraćenica od engleskog izraza Document Level):
푅 (푠|푞) = log(푐(푡, 푞) + 1)log(푐(푡, 푠) + 1)log푁 + 1
0.5 + 푠푓 (푡)∈
(4.8)
Također se može definirati TF-ISFcon metoda na razini dokumenta ili skraćena DL TF-
ISFcon modificirajući metodu TF-ISFcon. Odgovarajuća funkcija rangiranja 푅 (푠|푞) može
se definirati kako slijedi:
푅 (푠|푞) = (1 − 휇) ∙ 푅 (푠|푞) + 휇 ∙ 푅 푠 (푠) 푞 + 푅 (푠 (푠)|푞) (4.9)
Gdje je:
푅 푠 (푠) 푞 ocjena relevantnosti prethodne rečenice računana na razini
dokumenta,
푅 (푠 (푠)|푞) ocjena relevantnosti sljedeće rečenice računana na razini
dokumenta.
푅 푠 (푠) 푞 je po definiciji 0 ako je s prva rečenica u dokumentu i 푅 (푠 (푠)|푞)
je po definiciji 0 ako je s zadnja rečenica u dokumentu. Jednako kao i funkcija rangiranja
푅 (푠|푞) (jednadžba (4.2)) funkcija 푅 poziva samu sebe dok nisu uključene tri
prethodne i tri sljedeće rečenice trenutne rečenice 푠.
101
4.4.1.1. Empirijska studija
Kada su u pitanju metode za pronalaženje rečenica na razini dokumenta (DL TF-ISF i DL
TF-ISFcon) u cilju testiranja performansi napravljene su sljedeće usporedbe:
DL TF-ISF u odnosu na TF-ISF
DL TF-ISFcon u odnosu na DL TF-ISF i TF-ISF
U testovima su korišteni isti podaci, pred-procesiranje i metodologija treniranja i testiranja
(treniranje sa skupom podataka jednog TREC-a i testiranje sa skupovima podataka
preostala dva TREC-a) kao u poglavlju 5.1.1. Korišteni se kratki upiti (Naslov TREC teme,
slika 5.3.). Trening se izvodi da bi se pronašla vrijednost parametra 휇 kod kojeg sustav
pokazuje najbolje rezultate. Tijekom sva tri treninga (trening sa TREC 2002, trening sa
TREC 2003, trening sa TREC 2004) isprobavane su vrijednosti od 휇 = 0.0 do 휇 = 1.0 u
koracima od 0.05. Najbolje vrijednosti parametra 휇 su fiksirane da bi se potom primijenile
na preostala dva skupa podataka. Tijekom treninga performanse su mjerene koristeći
srednju prosječnu preciznost (MAP). Tablica 4.23. prikazuje optimalne vrijednosti
parametra 휇 za tri skup podataka TREC 2002, TREC 2003 i TREC 2004 kada se koristi
metoda DL TF-ISFcon.
Tablica 4.23. Optimalne vrijednosti parametra μ za metodu DL TF-ISFcon
휇
TREC 2002 0,05
TREC 2003 0,05
TREC 2004 0,15
Sljedeće tablice (tablica 4.24. - 4.26.) i grafovi (slika 4.41. - 4.46.) prezentiraju rezultate za
tri konfiguracije treniranja i testiranja. Statistički signifikantne razlike u odnosu na metodu
TF-ISF označene su s zvjezdicom (*), a statistički signifikantne razlike u odnosu na
metodu DL TF-ISF su označena sa †.
Kada je u pitanju MAP mjera rezultati su sljedeći:
102
Nema statistički signifikantne razlike između osnovne metode TF-ISF i DL TF-
ISF.
Metoda DL TF-ISFcon pokazuje statistički signifikantno poboljšanje u usporedbi sa
osnovnom metodom TF-ISF za svako od ukupno šest mjerenja.
Metoda DL TF-ISFcon pokazuje statistički signifikantno poboljšanje u usporedbi sa
metodom DL TF-ISF za svako od ukupno šest mjerenja.
Kada je u pitanju R-precision mjera rezultati su sljedeći:
Nema statistički signifikantne razlike između osnovne metode TF-ISF i DL TF-
ISF.
Metoda DL TF-ISFcon pokazuje statistički signifikantno poboljšanje u usporedbi sa
osnovnom metodom TF-ISF za četiri od ukupno šest mjerenja bez statistički
signifikantno lošijih rezultata.
Metoda DL TF-ISFcon pokazuje statistički signifikantno poboljšanje u usporedbi sa
metodom DL TF-ISF za svako od ukupno šest mjerenja.
Kada su u pitanju P@X mjere (P@5 – P@100) rezultati su sljedeći:
Nema statistički signifikantne razlike između osnovne metode TF-ISF i DL TF-
ISF.
Metoda DL TF-ISFcon pokazuje statistički signifikantno poboljšanje u usporedbi sa
osnovnom metodom TF-ISF za dva od ukupno 48 mjerenja bez statistički
signifikantno lošijih rezultata.
Metoda DL TF-ISFcon pokazuje statistički signifikantno poboljšanje u usporedbi sa
metodom DL TF-ISF za dva od ukupno 48 mjerenja bez statistički signifikantno
lošijih rezultata.
103
Tablica 4.24. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.05
TREC 2003 TREC 2004
TF-ISF DL TF-ISF DL TF-ISFcon TF-ISF DL TF-ISF DL TF-ISFcon P@5 0,7160 0,7120 0,7160 0,4360 0,4800 0,4840 P@10 0,6980 0,6980 0,6940 0,4220 0,4360 0,4340 P@15 0,7040 0,6800 0,6733 0,4280 0,4293 0,4307 P@20 0,6890 0,6650 0,6690 0,4260 0,4240 0,4300 P@25 0,6800 0,6624 0,6608 0,4168 0,4216 0,4216 P@30 0,6707 0,6600 0,6587 0,4113 0,4240 0,4240 P@50 0,6436 0,6452 0,6432 0,4040 0,4012 0,4008 P@100 0,6078 0,6048 0,6034 0,3660 0,3572 0,3602 MAP 0,5764 0,5724 0,5857*† 0,3252 0,3225 0,3340*† R-Prec. 0,5457 0,5496 0,5625*† 0,3376 0,3265 0,3321†
Slika 4.41. P@x, MAP i R-precision za TREC 2003, μ=0.05
104
Slika 4.42. P@x, MAP i R-precision za TREC 2004, μ=0.05
Tablica 4.25. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0.05
TREC 2002 TREC 2004
TF-ISF DL TF-ISF DL TF-ISFcon TF-ISF DL TF-ISF DL TF-ISFcon P@5 0,3200 0,3400 0,3280 0,4360 0,4800 0,4840 P@10 0,2900 0,3200 0,3280 0,4220 0,4360 0,4340 P@15 0,2973 0,3187 0,3267 0,4280 0,4293 0,4307 P@20 0,2760 0,3070 0,3120 0,4260 0,4240 0,4300 P@25 0,2648 0,2976 0,3040 0,4168 0,4216 0,4216 P@30 0,2587 0,2893 0,2893 0,4113 0,4240 0,4240 P@50 0,2416 0,2504 0,2600 0,4040 0,4012 0,4008 P@100 0,1904 0,1914 0,2134*† 0,3660 0,3572 0,3602 MAP 0,1952 0,2065 0,2399*† 0,3252 0,3225 0,3340*† R-Prec. 0,2414 0,2470 0,2677*† 0,3376 0,3265 0,3321†
105
Slika 4.43. P@x, MAP i R-precision za TREC 2002, μ=0.05
Slika 4.44. P@x, MAP i R-precision za TREC 2004, μ=0.05
106
Tablica 4.26. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0.15
TREC 2002 TREC 2003
TF-ISF DL TF-ISF DL TF-ISFcon TF-ISF DL TF-ISF DL TF-ISFcon P@5 0,3200 0,3400 0,3480 0,7160 0,7120 0,7240 P@10 0,2900 0,3200 0,3260 0,6980 0,6980 0,6960 P@15 0,2973 0,3187 0,3200 0,7040 0,6800 0,6800 P@20 0,2760 0,3070 0,3070 0,6890 0,6650 0,6580 P@25 0,2648 0,2976 0,2968 0,6800 0,6624 0,6560 P@30 0,2587 0,2893 0,2913 0,6707 0,6600 0,6560 P@50 0,2416 0,2504 0,2596 0,6436 0,6452 0,6360 P@100 0,1904 0,1914 0,2132*† 0,6078 0,6048 0,6062 MAP 0,1952 0,2065 0,2399*† 0,5764 0,5724 0,5839*† R-Prec. 0,2414 0,2470 0,2675*† 0,5457 0,5496 0,5617*†
Slika 4.45. P@x, MAP i R-precision za TREC 2002, μ=0.15
107
Slika 4.46. P@x, MAP i R-precision za TREC 2003, μ=0.15
Da bi se dobio dodatni uvid u performanse DL TF-ISFcon u odnosu na TF-ISF i DL TF-ISF
metode spojeni su podaci sa sve tri TREC konferencije. U ovom slučaju ne postoji trening
skup pomoću kojega možemo izabrati optimalnu vrijednost parametra 휇. Iz tog razloga
prezentirani su rezultati za cijeli niz vrijednosti parametra 휇 . Rezultati su prikazani u
tablici 4.27. i slici 4.47. Statistički signifikantne razlike između DL TF-ISFcon i TF-ISF
označene su sa zvjezdicom a statistički signifikantne razlike između DL TF-ISFcon i DL
TF-ISF metoda su označene sa †. Ovog puta mogu se uočiti poboljšanja za niz vrijednosti
parametra 휇 kada se koristi DL TF-ISFcon metoda u odnosu na TF-ISF i DL TF-ISF
(휇 = 0.1 − 0.3) kada su u pitanju mjere MAP i R-precision i P@100. U isto vrijeme nema
statistički signifikantnih razlika prema P@X mjerama (osim prema P@100). Ako se
parametru 휇 dodjele veće vrijednosti počinju se dobivati statistički lošiji rezultati prema
nekim P@X mjerama i prestaju se dobivati statistički signifikantno bolji rezultati prema
MAP i R-precision mjerama. Ovo je očekivano budući da mora postojati određena
granična vrijednost parametra 휇 kod koje je utjecaj susjednih rečenica prevelik.
108
Tablica 4.27. P@X, MAP i R-precision za kombinirane skupove podataka TREC 2002,
TREC 2003 i TREC 2004 konferencije
TF-ISF DL TF-ISF DL TF-ISFcon
휇 = 0,1 휇 = 0,2 휇 = 0,3 휇 = 0,4 P@5 0,4907 0,5107 0,5187 0,5093 0,4987 0,4747† P@10 0,4700 0,4847 0,4867 0,4907 0,4880 0,4753 P@15 0,4764 0,4760 0,4787 0,4778 0,4773 0,4613 P@20 0,4637 0,4653 0,4693 0,4670 0,4657 0,4493 P@25 0,4539 0,4605 0,4616 0,4584 0,4576 0,4400† P@30 0,4469 0,4578 0,4591 0,4569 0,4487 0,4356† P@50 0,4297 0,4323 0,4353 0,4315 0,4287 0,4137*† P@100 0,3881 0,3845 0,3940† 0,3943† 0,3917† 0,3823 MAP 0,3656 0,3671 0,3867*† 0,3857*† 0,3824*† 0,3732 R-Prec. 0,3749 0,3744 0,3860*† 0,3878*† 0,3841*† 0,3756
Slika 4.47. P@X, MAP i R-precision za kombinirane skupove podataka TREC 2002, TREC
2003 i TREC 2004 konferencije
Iz tablice 4.27. vidi se jednostavnost izbora vrijednosti parametra 휇 kod kojeg metoda DL
TF-ISFcon pokazuje statistički signifikantno bolje rezultate u odnosu na TF-ISF i DL TF-
ISF metode prema MAP i R-precision mjerama.
Testovi u ovom poglavlju dovode do sljedećih zaključaka:
109
TF-ISF metoda može se unaprijedit prema MAP i R-precision mjerama koristeći
lokalni kontekst kada se obje metode računaju na razini dokumenta.
TF-ISF metoda se može unaprijedit prema MAP i R-precision mjerama koristeći
lokalni kontekst čak i kada se osnovna TF-ISF metoda računa na razini kolekcije a
TF-ISFcon računa na razini dokumenta. Osnovna metoda TF-ISF koristi cijelu
kolekciju dokumenata da bi izračunala ocjenu relevantnosti rečenice. Za razliku od
toga metoda DL TF-ISFcon koristi samo dokument koji sadrži trenutnu rečenicu za
isti posao. Čak i s tim ograničenjem metoda DL TF-ISFcon pokazuje bolje
performanse prema mjerama MAP i R-precision.
4.4.2. TF-ISFcon, length na razini dokumenta
U prethodnom poglavlju pokazano je da se koristeći kontekst rečenice može unaprijediti
osnovna metoda TF-ISF čak iako nova metoda koja koristi kontekst koristi sužen izvor
informacija (tj. samo dokument iz kojeg rečenica potječe). Korisnost ovakvog pristupa je
objašnjena u sljedećim poglavljima. Međutim interesantno je također testirati je li se
metoda na razini dokumenta DL TF-ISFcon može dodatno unaprijediti koristeći forsiranje
dugih rečenica. Drugim riječima interesantno je dobiti odgovor na pitanje je li se osnovna
TF-ISF metoda može još značajnije unaprijediti koristeći dodatno forsiranje dugih rečenica
i to sve to na razini dokumenta. Prilikom definiranja metode TF-ISFcon,length (jednadžba
(4.5)) vođeno je računa o tome da se nova metoda može jednostavno pretvoriti u metodu
na razini dokumenta. Iz tog razloga jednostavno je definirati novu verziju metode TF-
ISFcon,length na razini dokumenta, odnosno DL TF-ISFcon,length, kako slijedi:
푅 , (푠|푞) =|푠|
퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠)푅 (푠|푞) (4.10)
Gdje:
|푠| označava duljina rečenice 푠,
푑(푠) označava dokument koji sadrži rečenicu 푠,
퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠) označava prosječnu duljinu rečenice u dokumentu koji
sadrži rečenicu 푠.
110
푅 (푠|푞) označava funkcija rangiranja metode DL TF-ISFcon definiranu
jednadžbom (7.2).
4.4.2.1. Empirijska studija
U cilju testiranja je li se osnovna metoda može dodatno poboljšati pod uvjetom da se
koristi samo informacija iz dokumenta napravit će se sljedeće usporedbe;
DL TF-ISFcon,length u odnos na TF-ISF
DL TF-ISFcon,length u odnosu na DL TF-ISFcon
U testovima se koriste isti podaci, pred-procesiranje i metodologija treniranja i testiranja
(treniranje sa skupom podataka jednog TREC-a i testiranje sa skupovima podataka
preostala dva TREC-a) kao u poglavlju 4.2.1.1. Koriste se kratki upiti (Naslov TREC teme,
slika 4.2., 4.5. i 4.8.). Trening se izvodi da bi se pronašla vrijednost parametra 휇 kod kojeg
sustav pokazuje najbolje rezultate. Tijekom sva tri treninga (trening sa TREC 2002, trening
sa TREC 2003, trening sa TREC 2004) isprobavane su vrijednosti od 휇 = 0,0 do 휇 = 1,0
u koracima od 0,05 . Najbolje vrijednosti parametra 휇 su fiksirane da bi se potom
primijenile na preostala dva skupa podataka. Tijekom treninga performanse se mjere
koristeći srednju prosječnu preciznost (MAP). Tablica 4.28. prikazuje optimalne
vrijednosti parametra 휇 za tri skup podataka TREC 2002, TREC 2003, TREC 2004 za
metode DL TF-ISFcon i DL TF-ISFcon,length.
Tablica 4.28. Optimalne vrijednosti parametra μ za metode DL TF-ISFcon i DL TF-
ISFcon,length
DL TF-ISFcon DL TF-ISFcon,length 휇 휇
TREC 2002 0,05 0,2 TREC 2003 0,05 0,3 TREC 2004 0,15 0,3
Sljedeće tablice (tablica 4.29. - 4.31.) i grafovi (slika 4.48. - 4.53.) prezentiraju rezultate za
tri konfiguracije treniranja i testiranja. Statistički signifikantne razlike u odnosu na
111
osnovnu TF-ISF metodu su označene zvjezdicom (*), a statistički signifikantne razlike u
odnosu na metodu DL TF-ISFcon su označene sa †.
Može se uočiti značajno poboljšanje kada se koristi forsiranje dugih rečenica kada su u
pitanju sve korištene mjere odnosno preciznije:
Kada je u pitanju mjera MAP, metoda DL TF-ISFcon,length pokazuje statistički
signifikantno poboljšanje u usporedbi sa metodama TF-ISF i DL TF-ISFcon za svih
šest mjerenja.
Kada je u pitanju mjera R-precision metoda DL TF-ISFcon,length pokazuje statistički
signifikantno poboljšanje u usporedbi sa metodama TF-ISF i DL TF-ISFcon za svih
šest mjerenja.
Kada su u pitanju P@X mjere (P@5 – P@100) rezultati su sljedeći:
o Metoda DL TF-ISFcon,length pokazuje statistički signifikantno poboljšanje u
usporedbi s TF-ISF metodom za svako od ukupno 48 mjerenja.
o Metoda DL TF-ISFcon,length pokazuje statistički signifikantno poboljšanje u
usporedbi s DL TF-ISFcon metodom za 46 od ukupno 48 mjerenja.
Tablica 4.29. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0,05 za DL TF-ISFcon,
μ=0,2 za DL TF-ISFcon,length
TREC 2003 TREC 2004
TF-ISF DL
TF-ISFcon DL
TF-ISFcon,length TF-ISF DL
TF-ISFcon DL
TF-ISFcon,length P@5 0,7160 0,7160 0,7600*† 0,4360 0,4840 0,4880* P@10 0,6980 0,6940 0,7480*† 0,4220 0,4340 0,4980*† P@15 0,7040 0,6733 0,7307*† 0,4280 0,4307 0,4840*† P@20 0,6890 0,6690 0,7300*† 0,4260 0,4300 0,4640*† P@25 0,6800 0,6608 0,7280*† 0,4168 0,4216 0,4584*† P@30 0,6707 0,6587 0,7207*† 0,4113 0,4240 0,4513*† P@50 0,6436 0,6432 0,7056*† 0,4040 0,4008 0,4436*† P@100 0,6078 0,6034 0,6694*† 0,3660 0,3602 0,3988*† MAP 0,5764 0,5857* 0,6357*† 0,3252 0,3340* 0,3645*† R-Prec. 0,5457 0,5625* 0,6044*† 0,3376 0,3321 0,3664*†
112
Slika 4.48. P@x, MAP i R-precision za TREC 2003, μ=0,05 za DL TF-ISFcon, μ=0,2 za DL
TF-ISFcon,length
Slika 4.49. P@x, MAP i R-precision za TREC 2004, μ=0,05 za DL TF-ISFcon, μ=0,2 za DL
TF-ISFcon,length
113
Tablica 4.30. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0,05 za DL TF-ISFcon,
μ=0,3 za DL TF-ISFcon,length
TREC 2002 TREC 2004
TF-ISF DL
TF-ISFcon DL
TF-ISFcon,length TF-ISF DL
TF-ISFcon DL
TF-ISFcon,length P@5 0,3200 0,3280 0,4120*† 0,4360 0,4840 0,5160* P@10 0,2900 0,3280 0,3840*† 0,4220 0,4340 0,5000*† P@15 0,2973 0,3267 0,3760*† 0,4280 0,4307 0,4787*† P@20 0,2760 0,3120 0,3560*† 0,4260 0,4300 0,4720*† P@25 0,2648 0,3040 0,3384*† 0,4168 0,4216 0,4576*† P@30 0,2587 0,2893 0,3220*† 0,4113 0,4240 0,4500*† P@50 0,2416 0,2600 0,2800*† 0,4040 0,4008 0,4372*† P@100 0,1904 0,2134* 0,2294*† 0,3660 0,3602 0,3998*† MAP 0,1952 0,2399* 0,2602*† 0,3252 0,3340* 0,3658*† R-Prec. 0,2414 0,2677* 0,2900*† 0,3376 0,3321 0,3674*†
Slika 4.50. P@x, MAP i R-precision za TREC 2002, μ=0,05 za DL TF-ISFcon, μ=0,3 za DL
TF-ISFcon,length
114
Slika 4.51. P@x, MAP i R-precision za TREC 2004, μ=0,05 za DL TF-ISFcon, μ=0,3 za DL
TF-ISFcon,length
Tablica 4.31. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0,15 za DL TF-ISFcon,
μ=0,3 za DL TF-ISFcon,length
TREC 2002 TREC 2003
TF-ISF DL
TF-ISFcon DL
TF-ISFcon,length TF-ISF DL
TF-ISFcon DL
TF-ISFcon,length P@5 0,3200 0,3480 0,4120*† 0,7160 0,7240 0,7680*† P@10 0,2900 0,3260 0,3840*† 0,6980 0,6960 0,7480*† P@15 0,2973 0,3200 0,3760*† 0,7040 0,6800 0,7360*† P@20 0,2760 0,3070 0,3560*† 0,6890 0,6580 0,7340*† P@25 0,2648 0,2968 0,3384*† 0,6800 0,6560 0,7320*† P@30 0,2587 0,2913 0,3220*† 0,6707 0,6560 0,7247*† P@50 0,2416 0,2596 0,2800*† 0,6436 0,6360 0,7036*† P@100 0,1904 0,2132* 0,2294*† 0,6078 0,6062 0,6664*† MAP 0,1952 0,2399* 0,2602*† 0,5764 0,5839* 0,6361*† R-Prec. 0,2414 0,2675* 0,2900*† 0,5457 0,5617* 0,6053*†
115
Slika 4.52. P@x, MAP i R-precision za TREC 2002, μ=0,15 za DL TF-ISFcon, μ=0,3 za DL
TF-ISFcon,length
Slika 4.53. P@x, MAP i R-precision za TREC 2003, μ=0,15 za DL TF-ISFcon, μ=0,3 za DL
TF-ISFcon,length
Nova metoda DL TF-ISFcon,length predstavlja metodu na razini dokumenta koja daje bolje
rezultate u odnosu na osnovnu metodu TF-ISF i kada su u pitanju mjere orijentirane na
116
preciznost (P@x) i kada su u pitanju mjere orijentirane na odaziv (MAP i R-precision).
Inače nova metoda DL TF-ISFcon,length također većinom daje signifikantno bolje rezultate
nego DL TF-ISFcon što je čini prvim izborom kada je u pitanju pronalaženje rečenica na
razini dokumenta.
4.5. Prednost metoda za pronalaženje rečenica na razini dokumenta
Kao što je već spomenuto metode za pronalaženje rečenica na razini dokumenta zasnivaju
se na funkcijama rangiranja koje kao izvor informacija koriste samo dokument u kojem se
rečenica nalazi umjesto uobičajeno korištene cijele kolekcije dokumenata. Iz ovog
proizlazi prednost da nije potrebna cijela kolekcija dokumenata da bi se počelo sa
računanjem ocjena relevantnosti rečenica. Ova prednost se može iskoristiti za skraćivanje
vremena koje je potrebno od početka dohvaćanja prvog dokumenata do prvog odgovora
krajnjem korisniku i to u sljedećem scenariju:
1. Korisnik postavlja upit.
2. Standardni sustav za pronalaženje dokumenata pronalazi n dokumenata sa
najvećom ocjenom relevantnosti u odnosu na upit. Sustav za pronalaženje
dokumenata je na udaljenom računalu (poslužitelju).
3. n dokumenata s najvećom ocjenom relevantnosti prosljeđuje se sustavu za
pronalaženje rečenica jedan po jedan.
4. Sustav za pronalaženje rečenica je ugrađen u preglednik (eng. browser) krajnjeg
korisnika. Sustav za pronalaženje rečenica u što kraćem roku vraća odgovor
krajnjem korisniku u obliku k rečenica s najvećom ocjenom relevantnosti koristeći
pri tom dokumente koje je dobio od udaljenog sustava za pronalaženje dokumenata.
Ovakav scenarij odgovara scenariju opisanom u TREC stazama novosti [2].
U okviru pronalaženja rečenica tehnički proces potreban za davanje odgovora na upit
krajnjem korisniku može se podijeliti na sljedeće faze
1. Pred-procesiranje i indeksiranje
2. Računanje ocjena relevantnosti rečenica
3. Dohvaćanje gornjih k rečenica s najvećom ocjenom relevantnosti.
117
Na koji način metode na razini dokumenta skraćuju cijeli proces davanja odgovora na upit
korisnika je prikazano na slici 4.54.
118
Slika 4.54. Vremena izvršavanja metoda na razini kolekcije i metoda na razini dokumenta
119
Na slici 4.54. vremenski je obuhvaćen cijeli proces dohvaćanja rečenica od dohvaćanja
prvog dokumenta do davanja odgovora u obliku k rečenica s najvećom ocjenom
relevantnosti. Na primjeru na slici sustav kao ulaz prima tri dokument. Međutim, ovo se
trivijalno može poopćiti za slučaju u kojem sustav prima n dokumenata.
Na početku je prikazana izvedbe metoda na razini kolekcije sa statičkim indeksom (TF-
ISF, TF-ISFcon, TF-ISFlength, TF-ISFcon,length), (slika 4.54.). Drugim riječima, najprije se
dohvaćaju sva tri dokumenta. Tek nakon što su svi dokumenti dohvaćeni kreće se sa
procesiranjem koje podrazumijeva
Pred-procesiranje i indeksiranje
Računanje ocjena relevantnosti rečenica
Dohvaćanje gornjih k rečenica s najvećom ocjenom relevantnosti.
Zatim je prikazan primjer izvedbe metoda na razini kolekcije sa dinamičkim indeksom
(TF-ISF, TF-ISFcon, TF-ISFlength, TF-ISFcon,length). U ovom slučaju sa procesiranjem
dokumenata se počinje već nakon dohvaćanja prvog dokumenta. Nakon svakog
dohvaćanja dokumenta kreira se indeks za taj dokument i integrira se sa prethodnim
indeksom sve do dohvaćanja zadnjeg dokumenta. Zatim se obavljaju još zadnja dva
koraka.
Računanje ocjena relevantnosti rečenica
Dohvaćanje gornjih k rečenica s najvećom ocjenom relevantnosti.
Na kraju je prikazan primjer izvedbe metoda na razini dokumenta (DL TF-ISF, DL TF-
ISFcon, i DL TF-ISFcon,length). Kod ovih metoda korak pred-procesiranja i indeksiranja
počinje nakon dohvaćanja prvog dokumenta. Budući da ove metode u funkciji rangiranja
ne sadrže statistike koje obuhvaćaju cijelu kolekciju nego samo statistike koje obuhvaćaju
dokument ili dijelove dokumenta (rečenicu i lokalni kontekst) već prije početka
dohvaćanja sljedećeg dokumenta može se krenuti sa računanjem ocjena relevantnosti
pojedinačnih rečenica. Nakon dohvaćanja zadnjeg dokumenta (u ovom primjeru trećeg
dokumenta) potrebno je kreirati indeks samo za zadnji dokument i izračunati ocjene
relevantnosti rečenica samo za zadnji dokument. Na kraju ostaje samo još dohvaćanje
gornjih k rečenica sa najvećom ocjenom relevantnosti.
120
4.5.1. Usporedba vremenskih složenosti algoritama
Prilikom usporedbe vremenskih složenosti algoritama različitih metoda podrazumijeva se
sljedeće:
Dohvaćanje svakog dokumenta traje dulje nego sljedeća dva koraka zajedno koja se
istovremeno izvršavaju sa dohvaćanjem dokumenta:
Pred-procesiranje i indeksiranje dokumenta,
Integriranje sa postojećim indeksom
što je prikazano na slici 4.55.
Slika 4.55. Vrijeme izvršavanja koraka „Predprocesiranje i indeksiranje dokumenta i
Integriranje sa postojećim indeksom“ u odnosu na vrijeme dohvaćanja dokumenta
Također je pretpostavka da dohvaćanje svakog dokumenta traje dulje nego sljedeća dva
koraka zajedno koja se istovremeno izvršavaju sa dohvaćanjem dokumenta:
Pred-procesiranje i indeksiranje dokumenta,
Računanje ocjene relevantnosti rečenica iz dokumenta x
što je prikazano na slici 4.56.
121
Slika 4.56. Vrijeme izvršavanja koraka „Predprocesiranje i indeksiranje Dokumenta“ i
„Računanje ocjene relevantnosti rečenica iz Dokumenta“ u odnosu na vrijeme
dohvaćanja dokumenta
Uz ove dvije pretpostavke usporedba vremenskih složenosti različitih implementacija se
svodi na uspoređivanje vremenskih složenosti koraka nakon trenutka t3 (tj. trenutka nakon
dohvaćanja zadnjeg dokumenta), (slika 4.54.).
Prilikom uspoređivanja vremenskih složenosti algoritama pretpostavlja se sljedeće:
1. Svaki dokument u kolekciji dokumenata sadrži barem jednu riječ koja nije
uobičajena riječ (eng. stop word)
2. Kolekcija dokumenata sadrži dva ili više dokumenata.
4.5.1.1. Usporedba metoda na razini kolekcije (statički indeks) sa metodama na razini
dokumenta nakon trenutka t3
Koraci metoda na razini kolekcije (TF-ISF, TF-ISFcon, TF-ISFlength, TF-ISFcon,length) ako se
koristi statički indeks nakon trenutka t3 su (slika 4.54.):
Pred-procesiranje i indeksiranje dokumenata 1,2 i 3
Računanje ocjene relevantnosti rečenica iz dokumenata 1, 2 i 3
Dohvaćanje gornjih k rečenica
122
Ili poopćeno za n dokumenata
Pred-procesiranje i indeksiranje dokumenata 1,2,…n
Računanje ocjene relevantnosti rečenica iz dokumenata 1, 2,…n
Dohvaćanje gornjih k rečenica
Koraci metoda na razini kolekcije (DL TF-ISF, DL TF-ISFcon i DL TF-ISFcon,length) nakon
trenutka t3 su (slika 4.54.):
Pred-procesiranje i indeksiranje dokumenta 3
Računanje ocjene relevantnosti rečenica iz dokumenta 3
Dohvaćanje gornjih k rečenica
Ili poopćeno za n dokumenata
Pred-procesiranje i indeksiranje dokumenta n
Računanje ocjene relevantnosti rečenica iz dokumenta n
Dohvaćanje gornjih k rečenica
U cilju uspoređivanja vremena izvršavanja ove dvije skupine metoda usporedit će se
odgovarajući koraci kao što je prikazano u tablici 4.32.
Tablica 4.32. Koraci metoda na razini kolekcije sa statičkim indeksom i metoda na razini
dokumenta čije vremenske složenosti se uspoređuju
Metode na razini kolekcije (statički
indeks)
Metode na razini dokumenta
Pred-procesiranje i indeksiranje
dokumenata 1,2,…n
Pred-procesiranje i indeksiranje dokumenta n
Računanje ocjene relevantnosti rečenica
iz dokumenata 1, 2,…n
Računanje ocjene relevantnosti rečenica iz
dokumenata n
Dohvaćanje gornjih k rečenica Dohvaćanje gornjih k rečenica
a) Pred-procesiranje i indeksiranje dokumenata
Pred-procesiranje i indeksiranje dokumenata može se podijeliti na sljedeće pod-korake:
1. Rastavljanje na pojedinačne riječi (eng. tokenization)
2. Pretvaranje svih slova u mala slova.
123
3. Uklanjanje uobičajenih riječi (eng. stopwords)
4. Generiranje parova riječ – posting (posting se sastoji od identifikatora rečenice i
broja pojavljivanja riječi u rečenici)
5. Indeksiranje
Cilj je pokazati da su metode na razini dokumenta brže od metoda na razini kolekcije kada
je u pitanju korak pred-procesiranja i indeksiranja. Pritom je dovoljno pokazati da su
metode na razini dokumenta brže za svaki od pet pod-koraka.
Algoritam za rastavljanje na pojedinačne riječi za metode na razini kolekcije može se
definirati kao:
TokenizeCollection(collection)
Foreachdocumentd ∈ collection
Foreachsentences ∈ d
TokenizeSentence(s)
Returncollection
Algoritam za rastavljanje na pojedinačne riječi za metode na razini dokumenta može se
definirati kao:
TokenizeDocument(d)
Foreachsentences ∈ d
TokenizeSentence(s)
Returncollection
Funkcija TokenizeSentence(s) ispituje svaki znak u rečenici radi potrage za granicama
između riječi i zato ima onoliko koraka koliko ima i znakova u rečenici. Uzevši to u obzir
vremenske složenosti algoritama TokenizeCollection i TokenizeDocument su sljedeće:
Vremenska složenost algoritma TokenizeCollection iznosi O(푛 ) gdje je:
푛 = 푐 = 푐 +⋯+ 푐 (4.11)
124
Gdje je:
N broj dokumenata u kolekciji,
푆 broj rečenica u i-tom dokumentu,
푐 broj znakova u j-toj rečenici i-tog dokumenta.
Vremenska složenost algoritma TokenizeDocument iznosi O(푛 ) gdje je:
푛 = 푐 (4.12)
Gdje je:
푆 broj rečenica u N-tom ili zadnjem dokumentu,
푐 broj znakova u j-toj rečenici N-tog dokumenta.
Uzevši u obzir prethodno navedene pretpostavke da se kolekcija dokumenata sastoji od
najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječ koja nije
uobičajena riječ (eng. stopword) onda je
푛 > 푛
što se jasno vidi ako se ispiše 푛 i 푛
푐 +⋯+ 푐 > 푐
Iz ovoga također slijedi da je vremenska kompleksnost algoritma TokenizeCollection veća
od vremenske kompleksnosti algoritma TokenizeDocument tj.
O(푛 ) > 푂(푛 )
125
Algoritam za normalizaciju (tj. pretvaranje svih slova u mala slova) za metode na razini
kolekcije može se definirati kao:
NormalizeCollection(collection)
Foreachdocumentd ∈ collection
Foreachsentences ∈ d
NormalizeSentence(s)
Returncollection
Algoritam za normalizaciju (tj. pretvaranje svih slova u mala slova) za metode na razini
dokumenta može se definirati kao:
NormalizeDocument(d)
Foreachsentences ∈ d
NormalizeSentence(s)
Returncollection
Funkcija NormalizeSentence(s) ispituje svaki znak u rečenici i zato ima onoliko koraka
koliko ima i znakova u rečenici. Uzevši to u obzir vremenske složenosti algoritama
NormalizeCollection i NormalizeDocument su sljedeće:
Vremenska složenost algoritma NormalizeCollection iznosi O(푛 ) gdje je:
푛 = 푐 = 푐 +⋯+ 푐 (4.13)
Gdje je:
N broj dokumenata u kolekciji,
푆 broj rečenica u i-tom dokumentu,
푐 broj znakova u j-toj rečenici i-tog dokumenta.
Vremenska složenost algoritma NormalizeDocument iznosi O(푛 ) gdje je:
126
푛 = 푐 (4.14)
Gdje je:
푆 broj rečenica u N-tom ili zadnjem dokumentu,
푐 broj znakova u j-toj rečenici N-tog dokumenta.
Uzevši u obzir prethodno navedene pretpostavke da se kolekcija dokumenata sastoji od
najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječi koja nije
uobičajena riječ (eng. stopword) onda je
푛 > 푛
što se jasno vidi ako ispišemo 푛 i 푛
푐 +⋯+ 푐 > 푐
Iz ovoga također slijedi da je vremenska kompleksnost algoritma NormalizeCollection
veća od vremenske kompleksnosti algoritma NormalizeDocument tj.
O(푛 ) > 푂(푛 )
Algoritam za uklanjanje uobičajenih riječi (eng. stop word removal) za metode na razini
kolekcije može se definirat kao:
RemoveStopwordsCollection(collection)
Foreachdocumentd ∈ collection
Foreachsentences ∈ d
RemoveStopwordsFromSentence(s)
Returncollection
Algoritam za uklanjanje uobičajenih riječi (eng. stop word removal) za metode na razini
dokumenta može se definirat kao:
127
RemoveStopwordsDocument(collection)
Foreachsentences ∈ d
RemoveStopwordsFromSentence(s)
Returncollection
Pretpostavka je da metoda RemoveStopwordsFromSentence() čita cijelu riječ i briše je
ako je uobičajena riječ (stopword) u jednomkoraku. Uzevši to u obzir vremenske
složenostialgoritamaRemoveStopwordsCollection iRemoveStopwordsDocumentsu
sljedeće:
Vremenska složenost algoritma RemoveStopwordsCollection iznosi O(푛 ) gdje je
푛 = 푊 = 푊 +⋯+ 푊 (4.15)
Gdje je:
N broj dokumenata u kolekciji,
푆 broj rečenica u i-tom dokumentu,
푊 broj riječi u j-toj rečenici i-tog dokumenta.
Vremenska složenost algoritma RemoveStopwordsDocument iznosi O(푛 ) gdje je
푛 = 푊 (4.16)
Gdje je:
푆 broj rečenica u N-tom ili zadnjem dokumentu,
푊 broj riječi u j-toj rečenici N-tog dokumenta.
Uzevši u obzir prethodno navedene pretpostavke da se kolekcija dokumenata sastoji od
najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječ koje nije
uobičajena riječ (eng. stop word) onda je
128
푛 > 푛
što se jasno vidi ako ispišemo 푛 i 푛
푊 +⋯+ 푊 > 푊
Iz ovoga također slijedi da je vremenska složenost algoritma
RemoveStopwordsCollection veća od vremenske složenosti algoritma
RemoveStopwordsDocument tj.
O(푛 ) > 푂(푛 )
Algoritam za generiranje parova riječ-posting (posting se sastoji od identifikatora rečenice
i broja pojavljivanja riječi u rečenici) za metode na razini kolekcije može se definirat kao:
GenerateTermPostingPairsCollection(collection)
R ← newArray
Foreachdocumentd ∈ collection
Foreachsentences ∈ d
H ← newAssociativeArray
Foreachtermt ∈ sdo
H[t] ← H[t] + 1
Foreachterm푡 ∈ 퐻do
AddToArray(R,(t,(sentID(s),H[t])))
ReturnR
Algoritam za generiranje parova riječ-posting za metode na razini dokumenta može se
definirati kao:
GenerateTermPostingPairsDocument(d)
R ← newArray
Foreachsentences ∈ d
H ← newAssociativeArray
129
Foreachtermt ∈ sdo
H[t] ← H[t] + 1
Foreachterm푡 ∈ 퐻do
AddToArray(R,(t,(sentID(s),H[t])))
ReturnR
Prethodna dva algoritma predstavljaju modifikaciju mapper algoritma iz [64].
Primjer rezultata gornja dva algoritma je prikazan slikom 4.57.
Slika 4.57. Primjer rezultata algoritama GenerateTermPostingPairsCollection i
GenerateTermPostingPairsDocument
Vremenska složenost algoritma GenerateTermPostingPairsCollection iznosi O(푛 )
gdje je:
푛 = 푊 = 푊 +⋯+ 푊 (4.17)
Gdje je:
N broj dokumenata u kolekciji,
푆 broj rečenica u i-tom dokumentu,
푊 broj riječi u j-toj rečenici i-tog dokumenta.
Vremenska složenost algoritma GenerateTermPostingPairsDocument iznosi O(푛 )
gdje je:
푛 = 푊 (4.18)
130
Gdje je:
푆 broj rečenica u N-tom ili zadnjem dokumentu,
푊 broj riječi u j-toj rečenici N-tog dokumenta.
Uzevši u obzir prethodno navedene pretpostavke da se kolekcija dokumenata sastoji od
najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječi koja nije
uobičajena riječi (eng. stop word) onda je
푛 > 푛
što se jasno vidi ako ispišemo 푛 i 푛
푊 +⋯+ 푊 > 푊
Iz ovoga također slijedi da je vremenska složenost algoritma
GenerateTermPostingPairsCollection veća od vremenske složenosti algoritma
GenerateTermPostingPairsDocument tj.
O(푛 ) > 푂(푛 )
Algoritam za generiranje indeksa za metode na razini kolekcije kao i za metode na razini
dokumenta može se definirati kao:
GenerateIndexCollection(ArrayOfTermPostingsPairs)
R ←ArrayOfTermPostingsPairs
SortByTermAndSentenceID(R)
ConvertToIndex(R)
ReturnR
Primjer rezultata algoritma (vezan za primjer sa slike 4.57) je prikazan slikom 4.58.
131
Slika 4.58. Primjer rezultata algoritma GenerateIndexCollection
Vremenski najsloženiji dio algoritma je sortiranje SortByTermAndSentenceID(R) čija
vremenska složenost iznosi
O(푃푙표푔푃)
gdje je P broj parova riječ-posting.
Broj parova riječ-posting je različit kod metoda na razini kolekcije i metoda na razini
dokumenta. Kod metoda na razini kolekcije vremenska složenost algoritma
GenerateIndexCollectioniznosi
O(푃 ∙ 푙표푔푃 )
gdje je 푃 izraženo jednadžbom:
푃 = 푃 (4.19)
Gdje je:
푇 broj riječi u kolekciji
푃 broj postinga generiranih iz cijele kolekcije koji odgovaraju i-toj riječi
Vremenska složenost algoritma GenerateIndexCollection kod metoda na razini
dokumenta je
O(푃 ∙ 푙표푔푃 )
132
gdje je 푃 izraženo jednadžbom
푃 = 푃 (4.20)
Gdje je:
푇 broj riječi u dokumentu
푃 broj postinga generiranih iz dokumenta koji odgovaraju i-toj riječi
Uzevši u obzir prethodno navedene pretpostavke da se kolekcija dokumenata sastoji od
najmanje dva dokumenta i da svaki dokument sadrži riječi koje nisu uobičajene riječi (eng.
stop words) može se zaključiti da veći broj dokumenata (n dokumenata kod metoda na
razini kolekcije naspram jednog dokumentu kod metoda na razini dokumenta) odgovara
većem broja izraza tj. 푇 < 푇
i/ili većem broja postova za jedan od izraza (푃 < 푃 za 푖 ∈ {1,2,… , 푇 } )
U oba slučaja dolazi do povećanja broja parova riječ-posting tj.:
푃 < 푃
Iz čega slijedi da je vremenska složenost metoda na razini kolekcije veća od vremenske
složenosti metoda na razini dokumenta odnosno
O(푃 ∙ 푙표푔푃 ) > 푂(푃 ∙ 푙표푔푃 )
S ovim je pokazano da je svih pet pod-koraka pred-procesiranja i indeksiranja vremenski
manje složeno kod metoda na razini dokumenta iz čega slijedi da je korak pred-
procesiranje i indeksiranje dokumenta n vremenski manje složen od koraka pred-
procesiranje i indeksiranje dokumenata 1,2,…n (slika 4.54. i tablica 4.32)
b) Računanje ocjene relevantnosti rečenica
133
Algoritam za generiranje ocjena relevantnosti (tj. kosinus kuta između vektora upita i
rečenice) za metode na razini kolekcije i za metode na razini dokumenta može se definirat
slično kao u [18]:
RelevanceScore(Index,q)
Scores ← newAssociativeArray
Length← newAssociativeArray
InitializeLength
Foreachquerytermt ∈ q
Docalculatew , andfetchpostingslistfort
Foreachpair SenID, tf , inpostingslist
DoScores[s] ←Scores[s]+tf , ∙w ,
Foreachs
DoScores[s] ← Scores[s] Length[s]⁄
ReturnScores
U algoritmu RelevanceScore:
w , predstavlja broj pojavljivanja izraza u upitu pomnožen sa invertnom
frekvencijom dokumenata koje sadrže izraz,
tf , predstavlja broj pojavljivanja izraza 푡 u rečenici s.
Kod algoritma RelevanceScore vremenski najsloženiji dio je petlja For each
pair 푆푒푛퐼퐷, 푡푓 , in postings list.
Kod metoda na razini kolekcije vremenska složenost algoritma RelevanceScoreiznosi
O(푃 )
gdje se 푃 odnosi na broj koraka petlje For each pair 푆푒푛퐼퐷, 푡푓 , in postings list što
je izraženo jednadžbom:
푃 = 푃 (4.21)
134
Gdje je:
푇 broj riječi u upitu,
푃 broj postinga generiranih iz cijele kolekcije koji odgovaraju i-toj riječi iz
upita.
Vremenska složenost algoritma RelevanceScorekodmetodana razini dokumenta je
O(푃 )
gdje se 푃 odnosi na broj koraka petlje For each pair 푆푒푛퐼퐷, 푡푓 , in postings list što
je izraženo jednadžbom
푃 = 푃 (4.22)
Gdje je:
푇 broj riječi u dokumentu,
푃 broj postinga generiranih iz dokumenta koji odgovaraju i-toj riječi iz upita.
Uzevši u obzir prethodno navedene pretpostavke, da se kolekcija dokumenata sastoji od
najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječ koja nije
uobičajena riječ (eng. stop word), može se zaključiti da veći broj dokumenata (n
dokumenata kod metoda na razini kolekcije naspram jednog dokumentu kod metoda na
razini dokumenta) odgovara većem broja postova za jedan od izraza (푃 < 푃 za neki
izraz).
U takvom slučaju dolazi do povećanja broja parova riječ-posting tj.
푃 > 푃
Iz čega slijedi da je vremenska složenost metoda na razini kolekcije veća od vremenske
složenosti metoda na razini dokumenta odnosno:
135
O(푃 ) > 푂(푃 )
Preostao je još zadnji korak iz tablice 4.32., a to je dohvaćanje gornjih k rečenica. Ovaj
korak je identičan i kod metoda na razini kolekcije i kod metoda na razini dokumenta iz
čega slijedi da je i vremenska kompleksnost odgovarajućih algoritama jednaka. Usporedba
vremenskih kompleksnosti svih koraka nakon trenutka t3 (slika 4.54.) između metoda na
razini kolekcije (sa statičkim indeksom) i metoda na razini dokumenta je prikazan tablicom
4.33.
Tablica 4.33. Usporedba vremenskih kompleksnosti koraka nakon trenutka t3
Metode na razini
kolekcije (statički
indeks)
Metode na razini
dokumenta
Usporedba vremenskih
složenosti algoritama
Pred-procesiranje i
indeksiranje dokumenata
1,2,…n
Pred-procesiranje i
indeksiranje dokumenta n
Manja vremenska složenost kod
metoda na razini dokumenata
Računanje ocjene
relevantnosti rečenica iz
dokumenata 1, 2,…n
Računanje ocjene
relevantnosti rečenica iz
dokumenata n
Manja vremenska složenost kod
metoda na razini dokumenta
Dohvaćanje gornjih k
rečenica
Dohvaćanje gornjih k
rečenica
Jednaka vremenska složenost
Iz prethodnih rezultata (tablica 4.33.) može se zaključit da je vremenska složenost
algoritama nakon trenutka t3 manja kod metoda na razini dokumenta nego kod metoda na
razini kolekcije iz čega slijedi da u scenariju predstavljanom na početku poglavlja 4.5.
metode na razini dokumenta omogućavaju brže davanje odgovora krajnjem korisniku.
4.5.1.2 Usporedba metoda na razini kolekcije (dinamički indeks) sa metodama na razini
dokumenta nakon trenutka t3
Koraci metoda na razini kolekcije (sa dinamičkim indeksom) nakon trenutka t3 su (slika
4.54.):
136
Pred-procesiranje i indeksiranje dokumenata 3
Integracija sa postojećim indeksom
Računanje ocjene relevantnosti rečenica iz dokumenata 1, 2 i 3
Dohvaćanje gornjih 푘rečenica
Ili poopćeno za 푛 dokumenata
Pred-procesiranje i indeksiranje dokumenata 푛
Integracija sa postojećim indeksom
Računanje ocjene relevantnosti rečenica iz dokumenata 1,2,…푛
Dohvaćanje gornjih 푘 rečenica
Koraci metoda na razini dokumenta nakon trenutka t3 su (Slika 4.54.):
Pred-procesiranje i indeksiranje dokumenta 3
Računanje ocjene relevantnosti rečenica iz dokumenta 3
Dohvaćanje gornjih 푘 rečenica
Ili poopćeno za n dokumenata
Pred-procesiranje i indeksiranje dokumenta 푛
Računanje ocjene relevantnosti rečenica iz dokumenta 푛
Dohvaćanje gornjih 푘 rečenica
U cilju uspoređivanja vremena izvršavanja ove dvije skupine metoda usporedit će se
odgovarajući koraci kao što je prikazano u prve dvije kolone tablice 4.34.
137
Tablica 4.34. Usporedba vremenskih kompleksnosti koraka nakon trenutka t3
Metode na razini
kolekcije (dinamički
indeks)
Metode na razini
dokumenta
Usporedba vremenskih složenosti
algoritama
Pred-procesiranje i
indeksiranje
dokumenata 푛
Pred-procesiranje i
indeksiranje dokumenta 푛
Jednaka vremenska složenost
Integracija sa
postojećim indeksom
- Manja vremenska složenost kod
metoda na razini dokumenta
Računanje ocjene
relevantnosti rečenica iz
dokumenata 1, 2,…푛
Računanje ocjene
relevantnosti rečenica iz
dokumenta 푛
Manja vremenska složenost kod
metoda na razini dokumenta
Dohvaćanje gornjih 푘
rečenica
Dohvaćanje gornjih 푘
rečenica
Jednaka vremenska složenost
Cilj je pokazati da je vremenska kompleksnost svih koraka metoda na razini dokumenta
manja nego odgovarajućih koraka metoda na razini kolekcije. U tu svrhu je dovoljno
pokazati da je svaki korak manje ili jednako vremenski složen s tim što barem jedan korak
mora biti manje složen. Procjena vremenske složenosti koraka je već napravljena u
prethodnom poglavlju tako da su rezultati usporedbi već prikazani u zadnjoj koloni tablice
4.34..
Iz prethodnih rezultata (tablica 4.34.) može se zaključit da je vremenska složenost
algoritama nakon trenutka t3 manja kod metoda na razini dokumenta nego kod metoda na
razini kolekcije sa dinamičkim indeksom iz čega slijedi da u scenariju predstavljanom na
početku poglavlja 4.5. metode na razini dokumenta omogućavaju brže davanje odgovora
krajnjem korisniku.
Uzevši sve napravljene usporedbe općenito se može zaključiti da metode na razini
dokumenta mogu ubrzati proces davanja odgovora krajnjem korisniku.
138
5. OWL PRIKAZ DOKUMENTA ZA PRONALAŽENJE REČENICA
Koristeći razvijene metode na razini dokumenta za pronalaženja rečenica moguće je razviti
pristup pronalaženju rečenica zasnovan na semantičkom webu. Drugim riječima, moguće
je definirati OWL prikaz tekstnog dokumenta koji može biti korišten za pronalaženje
rečenica.
Semantički web (eng. Semantic web) je grupa metoda i tehnologija koje strojevima
omogućavaju razumijevanje značenje ili semantiku informacija na web-u [65]. Tim
Berners-Lee definira semantički web kao „Web podataka koji mogu biti procesirani
direktno ili indirektno od strane strojeva“ [66], [67]. Ključni element semantičkog weba su
ontologije. Ontologija je definirana kao eksplicitna specifikacija zajedničke
konceptualizacije domene od interesa [68]. Za definiranje ontologija koriste se
ontologijski jezici. Standardni ontologijski jezici na web-u su (poredani prema rastućoj
kompleksnošću):
RDF [69], [70]
RDFS [71], [72]
OWL [17], [73]
Koristeći ontologije za opisivanje web sadržaja stvara se okruženje u kojem strojevi mogu
izvršavati napredno procesiranje i na taj način pružiti bolje usluge krajnjem korisniku. Da
bi se sadržaji opisali koristeći ontologije najprije je potrebno imati ontologiju (kreirati
klase, podklase, svojstva). Zatim je potrebno izvršiti punjenje ontologije kreirajući instance
klasa i svojstava. Cijeli proces se naziva generiranje i punjenje ontologija (eng. Ontology
learning and population). Međutim automatsko generiranje ontologija je zahtijevan
zadatak koji najčešće ne daje zadovoljavajuće rezultate ako se u cijeli proces ne uključi i
čovjek. Iz ovog razloga će u ovom poglavlju biti demonstriran jedan primjer kako se iz
tekstnih izvora može automatski generirati nova informacija koja se može prikazati
koristeći ontologiju na razini dokumenta (OWL prikaz dokumenta). Takav OWL prikaz
dokumenta se može koristiti za zadatak pronalaženja rečenica pri čemu je implementacija
sustava za pronalaženje rečenica znatno pojednostavljena. Na ovaj način se olakšava
automatsko procesiranje weba što je smisao semantičkog weba.
139
5.2. Razvoj OWL prikaza dokumenta
Na koji način se može automatski generirati OWL prikaz dokumenta? U prethodnim
poglavljima je:
pokazano na koji se način jednostavna struktura običnog tekstnog dokumenta
(rečenice i susjedne rečenice) može dodatno iskoristiti za unapređenje modela
vektorskog prostora pronalaženja rečenica,
pokazano da se informacija iz dokumenta može dodatno iskoristiti u smislu
uzimanja u obzir duljine rečenice,
pokazano da je moguće unaprijediti osnovni model vektorskog prostora
pronalaženja rečenica koristeći kontekst i/ili duljinu rečenice čak i kad nova metoda
koristi samo informacije iz dokumenta u kojem se nalazi rečenica.
Dodatno, treba uzeti u obzir i karakteristike modela vektorskog prostora. Kod modela
vektorskog prostora pronalaženja informacija i dokument i upit predstavljeni su kao
vektori. Formalni prikaz vektora dokumenta 푑 i vektora upita 푞 je definiran kako slijedi
[23]:
푑 = 푡 ,푤(푑, 푡 ); 푡 , 푤(푑, 푡 );… 푡 , 푤(푑, 푡 ); … ; 푡 , 푤(푑, 푡 ) (5.1)
푞 = 푡 , 푤(푞, 푡 ); 푡 , 푤(푞, 푡 );… 푡 , 푤(푞, 푡 ); … ; 푡 , 푤(푞, 푡 ) (5.2)
Gdje:
푛 predstavlja broj izraza (riječi) dozvoljenih u sustavu,
푡 , 푡 , … 푡 predstavlja listu svih izraza dozvoljenih u sustavu,
푤(푑, 푡 ) predstavlja težinu izraza 푡 u dokumentu 푑,
푤(푞, 푡 ) predstavlja težinu izraza 푡 u upitu 푞.
Uzevši u obzir vektorski prikazi dokumenta i upita moguće je dobiti ocjenu sličnosti
koristeći sljedeću funkciju rangiranja:
140
푅(푑|푞) = 푤(푑, 푡 ) ∙ 푤(푞, 푡 ) (5.3)
Težine izraza 푤(푑, 푡 ) and 푤(푞, 푡 ) definirane su koristeći tri komponente: komponentu
frekvenciju izraza, komponentu invertne frekvencije dokumenata i normalizacijsku
komponentu [18]. Jedna primjer funkcije rangiranja modela vektorskog prostora
primijenjen na zadatak pronalaženja rečenica je predstavljen jednadžbom (3.14).
Kada je u pitanju OWL prikaz dokumenta za zadatak pronalaženje rečenica cilj je izraziti
važnost određenog izraza u opisivanju sadržaja rečenice. Ako se krene od klasičnog
zadatka pronalaženja dokumenata tj. ako se uzme u obzir vektor dokumenta 푑 onda se
važnost izraza 푡 u opisivanju dokumenta 푑 može izraziti koristeći sljedeći iskaz u
prirodnom jeziku:
“Dokument 푑 contains term 푡 with weight 푤(푑, 푡).”
Ili na hrvatskom
“Dokument 푑 sadrži izraz 푡 sa težinom 푤(푑, 푡).”
Analogno se važnost izraza 푡 u opisivanju rečenice 푠 može izraziti koristeći sljedeći iskaz u
prirodnom jeziku:
“Sentence 푠 contains term 푡 with weight 푤(푠, 푡)”.
Ili na hrvatskom
“Rečenica 푠 sadrži izraz 푡 sa težinom 푤(푠, 푡)”.
Ako se ova logika primjeni na DL TF-ISFcon,length metodu (jednadžba (4.10)) onda su
moguće dvije vrste iskaza u ovisnosti o tome je li se izraz pojavljuje u rečenici ili u
kontekstu:
1. U slučaju da se izraz pojavljuje u rečenici
141
o “Sentence 풔 contains term 풕 with weight 풘(풔, 풕) ” (ili na hrvatskom
“Rečenica 푠 sadrži izraz 푡 sa težinom 푤(푠, 푡)“)
2. U slučaju da se izraza pojavljuje u kontekstu (susjedne rečenice)
o “Sentence 풔 contains in context term 풕 with weight 풘풄풐풏(풔, 풕)” (ili na
hrvatskom “Rečenica 푠 sadrži u kontekstu izraz 푡 sa težinom 푤(푠, 푡)“)
Dodatno je moguće definirat iskaz u kojem se govori o duljini rečenice:
o “Sentence 풔 has length |풔| .” (ili na hrvatskom “Rečenica 푠 ima duljinu
|푠|“)
Vrijednost 푤(푠, 푡) može se definirati tako da bude sljedeća TF i ISF komponenta iz
jednadžbe (4.10):
푤(푠, 푡) = log 푡푓 , + 1 log푛 + 1
0,5 + 푠푓 (5.4)
Vrijednost 푤 (푠, 푡) može se definirati tako da bude TF-ISF vrijednost povezana sa
prethodnom i sljedećom rečenicom iz jednadžbe (4.10) kako slijedi:
푤 (푠, 푡) = 푤 푠 , 푡 + 푤 (푠 , 푡) (5.5)
Gdje se 푤 푠 , 푡 i 푤 (푠 , 푡) mogu definirati kako slijedi:
푤 푠 , 푡 = (1 − 휇) ∙ 푤 푠 , 푡 + 휇 ∙ 푤 푠 , 푡 + 푤 푠 , 푡 (5.6)
푤 (푠 , 푡) = (1 − 휇) ∙ 푤(푠 , 푡) + 휇 ∙ 푤 푠 , 푡 + 푤 푠 , 푡 (5.7)
Gdje je:
푠 prethodna rečenica od rečenice 푠 ,
푠 sljedeća rečenica od rečenice 푠 ,
푠 prethodna rečenica od rečenice 푠 ,
푠 sljedeća rečenica od rečenice 푠 .
142
푤 푠 , 푡 je po definiciji 0 ako je 푠 prva rečenica u dokumentu, a 푤 (푠 , 푡) je po
definiciji 0 ako je 푠 zadnja rečenica u dokumentu. Osnovni slučaj za koji funkcije
푤 푠 , 푡 i 푤 (푠 , 푡) daju rezultat bez ponovnog pozivanja izostavljen je radi
čitkosti. Osnovni slučaj je definiran jednako kao u poglavlju 5. uzevši u obzir broj puta u
kojima funkcija poziva samu sebe. Kad se dođe do pozivanja funkcije u kojem su
uključene tri prethodne i tri sljedeće rečenice s ponavljanje staje (tj.
푤 푠 , 푡 = 푤 푠 , 푡 ). U testovima u prethodnim poglavljima
nije testirano uključenje većeg broja susjednih rečenica u proces računanja relevantnosti
rečenice. Naravno da je moguće čak uzeti u obzir sve susjedne rečenice u dokumentu.
Međutim, određivanje optimalnog broja prethodnih i sljedećih rečenica je ostavljeno za
budući rad, a svi testovi metoda su rađeni sa tri prethodne i tri sljedeće rečenice pri
računanju relevantnosti rečenice.
Sada je moguće početi kodirati dva spomenuta iskaza prirodnog jezika (“Sentence 푠
contains term 푡 with weight 푤(푠, 푡).” i “Sentence 푠 contains in context term 푡 with weight
푤 (푠, 푡) .”) koristeći OWL. Pritom je potrebno koristiti ternarnu relaciju koja spaja
rečenicu, izraz i težinu. Da bi se definirala ternarna relacija koristi se metoda za
prezentiranje dodatnih atributa koji opisuju relaciju (eng. representing additional
attributes describing a relation) predstavljena u [74]. Da bi se realizirala ternarna relacija
kreirane su dvije klase:
Sentence
TermImportance
Sve rečenice iz dokumenta su instance klase Sentence. Svaka rečenica je povezana sa
stringom (tip Literal) koji sadrži obični tekst rečenice (tj. sadržaj rečenice) kroz relaciju:
hasContent
Svaka rečenica je također povezana sa ne-negativnim cijelim brojem (tip
nonNegativeInteger) koji predstavlja duljinu rečenice:
hasLength
Svaka instanca rečenice povezana je sa instancama klase TermImportance kroz sljedeće
relacije:
contains
143
containsInContext
Da bi se upotpunila ternarna relacija instance klase TermImportance povezane su sa
nazivom izraza (tip Literal) i sa težinom (tip double) kroz sljedeće relacije
hasTermName
hasWeight
Na slici 5.1. prikazane su klase, vrste podataka i svojstva korištena u prikazu rečenice za
zadatak pronalaženja rečenica.
Slika 5.1. Prikaz rečenice korišten za pronalaženje rečenica s klasama, vrstama podataka i
svojstvima
Proces automatskog kreiranja instanci za klase i automatskog kreiranja tvrdnji svojstava
(eng. property assertion) je jednostavan. Svaka instanca rečenice sadrži nekoliko contains i
containsInContekst tvrdnji ovisno o tome je li se izraz pojavljuje u rečenici ili u susjednim
rečenicama. String (tip Literal) svojstva hasTermName jest naziv izraza nakon određenog
pred-procesiranja (npr. sa svim slovima pretvorenim u mala slova). Realni broj (tip double)
od svojstva hasWeight računa se koristeći jednadžbu (8.4) ako govorimo o izrazu iz
rečenice i koristeći jednadžbu (8.5.) ako govorimo o izrazu iz konteksta. Tekstni dokument
je predstavljen koristeći nekoliko rečenica od kojih je svaka spojena s više naziva izraza i
težina. Ako se određeni izraz ne pojavljuje u rečenici ili u kontekstu izostavljena je
contains ili containsInContekst tvrdnja svojstva. Dodatno je svaka rečenica spojena sa ne-
negativnim cijelim brojem koji predstavlja duljinu rečenice preko svojstva hasLength.
144
Koristeći ovakvu prezentaciju dokumenta funkcija rangiranja se može definirati kako
slijedi:
푅 , (푠|푞) =|푠|
퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠)∙
(1 − 휇) ∙ log(푐(푡, 푞) + 1) ∙w(s, t) + 휇 ∙ log(푐(푡, 푞) + 1) ∙푤 (푠, 푡)∈∈
(5.8)
U jednadžbi (5.8) izrazi |푠|, w(s, t), i 푤 (푠, 푡) mogu se dobiti koristeći OWL prikaz
dokumenta.
Prednosti predstavljene OWL prezentacije dokumenta za pronalaženje rečenica su
sljedeće:
Moguće je spremiti djelomične rezultate procesa pronalaženja rečenica. Preciznije,
pod-zadaci kao pred-procesiranje (uklanjanje uobičajenih riječi, pretvaranje slova u
mala slova, korjenovanje itd.) ili računanje TF-ISF vrijednosti mogu se odraditi i
eksplicitno zapisati za buduće potrebe. Novi dokumenti se mogu jednostavno
dodavati u kolekciju dokumenta bez ponovnog procesiranje starih dokumenata.
Kada su u pitanju tekstovi sa web stranica, kao npr. novinski članci, ovakva
prezentacija tekstnog dokumenta može biti spremljena na poslužiteljima (zajedno
sa tekstnim dokumentima) i poslana krajnjem korisniku u slučaju da mu zatreba
pronalaženje rečenica. To čini implementaciju modula za pronalaženje rečenica
mnogo jednostavnijom jer nije potrebno implementirat cijeli proces pronalaženja
rečenica. Tj. nije potrebno raditi pred-procesiranje teksta i jedan dio računanja
ocjena relevantnosti.
Važnost TF-IDF vrijednosti (koja je analogna TF-ISF vrijednosti) prelazi granice
pronalaženja informacija. Na primjer u [75] korištene su riječi sa visokim TF-IDF
vrijednostima kao riječi koje najbolje opisuju sadržaj dokumenta za zadatak
rudarenja asocijacijskih pravila iz teksta. Pretpostavka je da se predstavljena
prezentacija dokumenta može također koristiti i za pojednostavljenje
implementacija rudarenja asocijacijskih pravila iz teksta. Detalji jedne ovakve
implementacije su ostavljeni za budući rad.
145
OWL prezentacija dokumenta za pronalaženje rečenica može se smatrati
ontologijom dokumenta za pronalaženje rečenica. U ovom poglavlju je pokazano
da se cijeli proces generiranja OWL prezentacije dokumenta može odraditi
automatski. Generiranje OWL prezentacije dokumenta spada u područje
automatskog generiranja i punjenja ontologija (eng Ontology Learning and
Population), [76]. OWL prezentacija dokumenta predstavlja primjer na koji se
način tekstni izvori mogu dodatno iskoristiti u automatskom smislu za koristan
zadatak. Preciznije, da bi se generirala prezentacija dokumenta korištene su
informacije iz rečenice i iz susjednih rečenica. Uključujući informacije iz susjednih
rečenica u OWL prezentaciju dokumenta (tj. u ontologiju dokumenta), pokazano je
automatsko generiranje pozadinskog znanja (eng. background knowledge). Ovo se
nastavlja na diskusiju iz [77] gdje se govori o tome da postoji pozadinsko znanje
koje je potrebno za automatsko generiranje ontologija koje nije eksplicitno
navedeno u tekstovima, ali koje je potrebno za generiranje ontologija. U [78] je bilo
govora o tome da je za uspješno generiranje ontologija i gradnju semantičkog weba
među ostalim potrebno temeljno iscrpiti sve informacije iz svih dostupnih izvora. U
ovom poglavlju je upravo to primijenjeno. Odnosno pronađene su nove informacije
(kontekst i duljina rečenice) u dostupnim izvorima (tekstnim dokumentima) i
korištene su za unapređenje korisnog zadatka pronalaženja rečenica.
146
6. ZAKLJUČAK
Na početku ove doktorske disertacije istaknuta je veličina digitalnog univerzuma
informacija što pronalaženje informacija čini sve zahtjevnijim i traženijim procesom.
Predstavljen je uvod u područje pronalaženja informacija, pronalaženje dokumenata i
pronalaženje rečenica. Detaljno je predstavljen zadatak pronalaženja rečenica koji se sve
više primjenjuje u područjima kao što su detekcija novosti, odgovaranje na pitanja i
sažimanje teksta. Pronalaženje rečenica je analogno pronalaženju dokumenata s tim što je
jedinica pronalaženja rečenica, a ne dokument. Predstavljeni su najuspješniji modeli
pronalaženja rečenica:
Model vektorskog prostora
Model vjerojatnosti upita
Također su predstavljene modifikacije osnovnih modela koje omogućavaju dodatno
unapređenje zadataka pronalaženja rečenica. Posebna pažnja je dodijeljena korištenju
dodatnih informacija iz tekstova odnosno konteksta rečenice koji se sastoji od nekoliko
susjednih rečenica ili od cijelog dokumenta u kojem se rečenica nalazi. Prezentirane su
metode bazirane na modelu vjerojatnosti upita koje su unaprjeđene koristeći kontekst
rečenice. Za razliku od metoda baziranih na modelu vjerojatnosti upita ne postoji metoda
bazirana na modelu vektorskog prostora koja uspješno primjenjuje uži kontekst rečenice.
Iz tog razloga je razvijena nova metoda TF-ISFcon, bazirana na standardnoj TF-ISF metodi,
koja koristi prethodne tri i sljedeće tri rečenice od promatrane rečenice u svrhu
unapređenja pronalaženja rečenica. Ova metoda polazi od pretpostavke da relevantnost
rečenice ovisi dijelom o sadržaju same rečenice i dijelom o sadržaju susjednih rečenica.
TF-ISFcon metoda je iscrpno testirana na skupovima podataka iz TREC staza novosti. Pri
tom je pokazala statistički signifikantno bolje rezultate prema mjerama MAP i R-precision
i kompetitivne rezultate (bez statistički signifikantnih razlika) prema nizu P@x mjera
(P@5 – P@100) u odnosu na SOTA metode bazirane na modelu vektorskog prostora (TF-
ISF) i modelu vjerojatnosti upita (3MMPDS).
Budući da su metode bazirane na modelu vjerojatnosti upita također uspješno poboljšane
forsirajući dohvaćanje dugih rečenica ovo poboljšanje je također prvi put primijenjeno i na
osnovnu TF-ISF metodu. Razvijene su dvije nove metode:
147
TF-ISFlength, tj. osnovna TF-ISF metoda s forsiranjem dohvaćanja dugih rečenica
TF-ISFcon,length, tj. TF-ISFcon metoda s forsiranjem dohvaćanja dugih rečenica. Ova
metoda koristi u isto vrijeme i kontekst i forsiranje dohvaćanja drugih rečenica.
Na skupovima podataka iz TREC staza novosti pokazano je da forsiranje dohvaćanja dugih
rečenica može dodatno unaprijediti pronalaženje rečenica. Između ostalog uspješno je
statistički signifikantno poboljšana metoda TF-ISFcon (koristeći TF-ISFcon,length). S ovim je
pokazano da je korisno u isto vrijeme koristiti i kontekst rečenice i forsiranje dohvaćanja
dugih rečenica. Ovo predstavlja dodatni doprinos u ovoj disertaciji uzevši u obzir da u [5]
kod najuspješnijih metoda s kontekstom iz područja modeliranja jezika nije jasno je li, i u
kojoj mjeri poboljšanje dolazi od korištenja konteksta, budući da metode forsiraju
dohvaćanje dugih rečenica.
Općenito metoda TF-ISFcon,length pokazala je najbolje performanse u odnosu na sve testirane
SOTA metode sa statistički signifikantnim poboljšanjima prema svim testiranim mjerama.
Također je po prvi put uvedena i testirana nova modifikacija TF-ISF baziranih metoda na
razini dokumenta u smislu da funkcija rangiranja koristi samo informacije iz dokumenta u
kojem se rečenica nalazi, a ne cijelu kolekciju dokumenata. Na taj način su nastale nove
metode na razini dokumenta: DL TF-ISF, DL TF-ISFcon, DL TF-ISFcon,length. Metode DL
TF-ISFcon i DL TF-ISFcon,length su usprkos užem izvoru informacija pokazale statistički
signifikantno bolje rezultate u odnosu na SOTA metode.
Postavlja se pitanje koja je prednost razvijenih metoda na razini dokumenta. Prva prednost
je mogućnost računanja ocjene relevantnosti rečenica prije nego što su dohvaćeni svi
dokumenti korpusa. Ovo je korisno kod scenarija u kojem se pronalaženja rečenica odvija
na računalu korisnika i gdje se jedan po jedan dokument dohvaća sa servera. U takvoj
situaciji računanje relevantnosti rečenica prije nego što su dohvaćeni svi dokumenti
ubrzava proces davanja odgovora korisniku što je također i formalno pokazano te
predstavlja dodatni doprinos u ovoj disertaciji.
Druga prednost metoda na razini kolekcije jest mogućnost kreiranja OWL prikaza
dokumenta u stilu semantičkog weba. Pokazano je da je koristeći metodu na razini
dokumenta (DL TF-ISFcon,length) moguće automatski generirat OWL prikaz dokumenta koji
148
između ostalog u sebi sadrži informacije o kontekstu rečenice i duljini rečenice. Takav
OWL prikaz dokumenta se može koristiti za pronalaženje rečenice s tim što olakšava
implementaciju modula za pronalaženje rečenica jer već sadrži gotove rezultate većeg
dijela procesa. Ovo je primjer kako se dodatna informacija iz tekstnih izvora može potpuno
automatski koristiti za kreiranje ontologija (OWL prikaza dokumenta) za unapređenje
korisnog zadatak pronalaženja rečenica čime se podržava razvoj semantičkog weba.
6.1. Budući rad
Koristeći OWL prikaz dokumenta pokazan je primjer korištenja dodatnih informacija iz
tekstnih izvora za pronalaženje rečenica. Međutim postoje i drugi izvori informacija koji se
mogu koristiti za dodatno poboljšanje metoda pronalaženja rečenica. U [78] je rečeno da je
za unapređenje automatskog generiranja ontologija i gradnju semantičkog weba potrebno
pronaći mogućnosti dodatnog korištenja postojećih izvora kao i integraciju različitih
izvora. Dodatne informacije se mogu dobiti iz ponašanja korisnika na webu. Npr. mogu se
pratiti nizovi url-ova kojima je korisnik pristupio radi stvaranja profila korisnika s kojim bi
se mogao unaprijediti upit. Drugi mogući izvor informacija su kolekcije dokumenata koje
nisu dio kolekcije nad kojima se vrši pretraživanje rečenica. Npr. dodatne kolekcije
dokumenata bi se mogle koristiti za kreiranje asocijacijskih pravila s kojima bi se mogao
obogatiti OWL prikaz dokumenta.
Što se tiče zadatka pronalaženja rečenica u okviru discipline pronalaženja informacija
interesantno bi bilo isprobati varijante metoda vjerojatnosti upita na razini dokumenta.
Npr. moglo bi se testirati izglađivanje s modelom dokumenta, ali bez izglađivanja sa
modelom kolekcije. Također je dio budućeg rada testiranje novih metoda u okviru drugih
zadataka iz područja pronalaženja informacija kao što su odgovaranje na pitanja i
sažimanje.
149
LITERATURA
[1] Gantz, J. (2008). The Diverse & Exploding Digital Universe: An Updated Forecast of Worldwide Information Growth Through 2011. IDC, EMC, (http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf).
[2] Harman, D. (2002). Overview of the TREC 2002 novelty track. U Proceedings of the
Eleventh Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2002. [3] Soboroff, I., Harman, D. (2003). Overview of the TREC 2003 novelty track. U
Proceedings of the Twelfth Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2003.
[4] Soboroff, I. (2004). Overview of the TREC 2004 novelty track. U Proceedings of the
Thirteenth Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2004. [5] Fernández, R. T., Losada, D. E., Azzopardi, L. (2011). Extending the language
modeling framework for sentence retrieval to include local context. Information Retrieval 14(4), 355-389.
[6] Fernández, R. T. (2011). Improving search effectiveness in sentence retrieval and
novelty detection. SIGIR Forum 45(1), 75-76 [7] Murdock, V. G. (2006). Aspects of sentence retrieval. PhD thesis, University of
Massachusetts Amherst. [8] Voorhees, E. M. (2003). Overview of the TREC 2003 Question Answering Track. U
Proceedings of the Twelfth Text REtrieval Conference (TREC 2003) (pp. 54–68), Gaithersburg, Maryland, Studeni 2003.
[9] Voorhees, E. (2005). Overview of the TREC 2004 Question Answering Track. U
Proceedings of the Thirteenth Text REtreival Conference (TREC 2004) (pp. 52–62), Gaithersburg, Maryland, Studeni 2005.
[10] Murdock, V., Croft, W. B., (2005). Simple translation models for sentence retrieval in
factoid question answering. U Proceedings of the Information Retrieval for Question Answering Workshop at SIGIR. Sheffield, UK, Srpanj 2004.
[11] Chen, P., Verma, R., (2006). A Query-based Medical Information Summarization
System Using Ontology Knowledge. U Proceedings of the 19th IEEE Symposium on Computer-Based Medical Systems (CBMS’06), Salt Lake City, Utah, Lipanj 2006.
150
[12] Ganguly, D., Leveling, J., Jones, G.J.F. (2012). DCU@INEX-2012: Exploring Sentence Retrieval for Tweet Contextualization. CLEF (Online Working Notes/Labs/Workshop).
[13] Damova, M., Koychev, I. (2010). Query-Based Summarization: A survey. U
Proceedings of the Second International Conference S3T. Varna, Bugarska, Rujan 2010.
[14] Allan, J., Wade, C., Bolivar, A. (2003). Retrieval and novelty detection at the
sentence level. U Proceedings of the 26th ACM international conference on research and development in information retrieval (SIGIR 2003) (pp. 314–321). Toronto, Kanada: ACM.
[15] Zhang, H.P., Xu, H.B., Bai, S., Wang, B., Cheng, X.Q. (2004) Experiments in TREC
2004 novelty track at CAS-ICT. U Proceedings of the Thirteenth Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2004.
[16] Losada, D. E. (2008). A study of statistical query expansion strategies for sentence
retrieval. U Proceedings SIGIR 2008 workshop on focused retrieval (question answering, passage retrieval, element retrieval), Singapur: ACM.
[17] http://www.w3.org/TR/owl-features/. OWL Web Ontology Language Overview.
Datum zadnjeg pristupa 28.3.2013. [18] Manning, C. D., Raghavan, P., Schuetze, H. (2008). Introduction to Information
Retrieval. Cambridge, UK: Cambridge University Press. [19] Baeza-Yates, R., Ribeiro-Neto, B. (1990). Modern Information Retrieval. Boston,
MA, SAD: Addison-Wesley Longman Publishing Co. [20] Liddy, E. D. (2005). Automatic Document Retrieval. In: Encyclopedia of Language
and Linguistics. 2nd Edition. Elsevier Press [21] Zhu, M. (2004). Recall, precision and average precision. Technical Report 09,
Department of Statistics & Actuarial Science, University of Waterloo [22] Turpin, A., Scholer, F. (2006). User performance versus precision measures for
simple search tasks. U Proceedings of the 29th Annual international ACM SIGIR Conference on REsearch and Development in information Retrieval (pp. 11-18), Seattle, WA, Kolovoz 2006.
[23] Salton, G., Buckley, C. (1998). Term-weighting approaches in automatic text
retrieval. Information Processing and Management 24(5)
151
[24] Singhal, A., Salton, G., Buckley, C. (1996). Length normalization in degraded text collections. U Proc. SDAIR (pp. 149–162), Las Vegas, Nevada, Travanj 1996.
[25] Salton, G. (Eds.). (1971). The SMART Retrieval System—Experiments in Automatic
Document Retrieval. Englewood Cliffs, NJ: Prentice Hall Inc. [26] Fernández, R. T., Losada, D. E. (2009). Using opinion-based features to boost
sentence retrieval. U Proceedings of the ACM 18th conference on information and knowledge management (CIKM 2009) (pp. 1617–1620). Hong Kong, Kina: ACM.
[27] Losada, D. E., Fernández, R. T. (2007). Highly frequent terms and sentence retrieval.
U Proceedings of the 14th String processing and information retrieval symposium (SPIRE 2007), Lecture Notes in Computer Science (pp. 217–228). Santiago de Chile, Chile: Springer.
[28] Song, F., Croft, W. B. (1999). A general language model for information retrieval. U
Proceedings of Eighth International Conference on Information and Knowledge Management (CIKM’99), Kansas City, MO, SAD: ACM, Studeni 1999.
[29] Ponte, J., Croft, W. B. (1998). A language modeling approach to information
retrieval. U Proceedings of the 21st Annual Conference on Research and Development in Information Retrieval (ACM SIGIR), Melbourne, Australija: ACM, Kolovoz 1998.
[30] Losada, D. E., Azzopardi, L. (2008a). An analysis on document length retrieval trends
in language modeling smoothing. Journal of Information Retrieval 11(2), 109–138. [31] Smucker, M. D., Allan, J. (2005). An investigation of dirichlet prior smoothing's
performance advantage. Tech. Rep. IR-391, The University of Massachusetts, The Center for Intelligent Information Retrieval. (http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.121.5491)
[32] Chen, S. F., Goodman, J. (1996). An empirical study of smoothing techniques for
language modeling. In Proceedings of the 34th annual meeting on Association for Computational Linguistics (pp. 310-318), Santa Cruz, Kalifornija, SAD, Lipanj 1996.
[33] Robertson, S. E., Walker, S., Beaulieu, M. (1999). Okapi at TREC-7: Automatic ad
hoc, filtering, VCL and interactive track. U Proceedings of the 7th text retrieval conference (TREC 1999) (pp. 253–264), Gaithersburg, SAD.
[34] Blott, S., Boydell, O., Camous, F., Ferguson, P., Gaughan, G., Gurrin, C., Murphy,
N., Smeaton, A. F., Smyth, B., Wilkins, P. (2004). Experiments in terabyte searching, genomic retrieval and novelty detection for TREC-2004. U Proceedings of the Thirteenth Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2004.
152
[35] Losada, D. E. (2008b). A study of statistical query expansion strategies for sentence
retrieval. U Proceedings of ACM SIGIR 2008 Workshop on Focused Retrieval (Question Answering, Passage Retrieval, Element Retrieval) (pp. 37–44), Singapur, Srpanj 2008.
[36] Fellbaum, C. D. (1998). WordNet – An Electronic Lexical Database. Cambridge, MA,
SAD: MIT Press. 194, 522 [37] http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed, Home – PubMed - NCBI,
Datum zadnjeg pristupa 17.4.2013. [38] Hsu, M.-H., Tsai, M.-F., Chen, H.-H. (2006) Query expansion with ConceptNet and
WordNet: an intrinsic comparison. In Proceedings of the Third Asia Information Retrieval Symposium (pp. 1-13). Singapore, Listopad 2006.
[39] Schütze, H. (1998). Automatic word sense discrimination. Computational Linguistics
24(1), 97–124. [40] Walker, D., (2001). Query Expansion using Thesauri: Previous Approaches and
Possible New Directions. University of California, Los Angeles [41] Rocchio, J. J. (1971). Relevance feedback in information retrieval. In Salton, G.
(Eds.), SMART Retrieval System – Experiments in Automatic Document Processing. New Jersey, (pp. 313–323. 181, 193, 314, 530). SAD: Prentice Hall.
[42] Ruthven, I., Lalmas, M. (2003). A survey on the use of relevance feedback for
information access systems. Knowl. Eng. Rev. 18(2), 95-145. [43] Xu, J., Croft, B. (1996). Query expansion using local and global document analysis. U
Proc. SIGIR-96, the 19th ACM Conference on Research and Development in Information Retrieval (pp. 4–11), Zurich, Švicarska, Srpanj 1996.
[44] Collins-Thompson, K., Ogilvie, P., Zhang, Y., Callan, J. (2002). Information filtering,
novelty detection and name-page finding. In Proceedings of the 11th text retrieval conference (TREC 2002), Gaithersburg, Maryland, Studeni 2002.
[45] Jaleel, N. A., Allan, J., Croft, W. B., Diaz, F., Larkey, L. S., Li, X., et al. (2004).
UMass at TREC 2004: Novelty and hard. U Proceedings of the 13th text retrieval conference (TREC 2004), volume Special Publication (pp. 500-261). Gaithersburg, Maryland, Studeni 2004.
[46] Mijić, J., Moens, M.-F., Dalbelo Bašić, B. (2009). CADIAL Search Engine at INEX.
Lecture Notes in Computer Science, Advances in Focused Retrieval (INEX 2008).
153
Geva, S., Kamps, J., Trotman, A. (Eds.). Springer Verlag, Berlin, Heidelberg, vol. 5631, (pp. 71-78)
[47] Tsai, M.-F., Chen, H.-H. (2002). Some Similarity Computation Methods in Novelty
Detection. U Proceedings of the Eleventh Text REtrieval Conference (pp. 500-251), Gaithersburg, Maryland, Studeni 2002.
[48] Miller, G. A. (1995). WordNet: A Lexical Database for English. Communications of
the ACM 38(11), 39-41. [49] http://trec.nist.gov/overview.html. Text REtrieval Conference (TREC) Overview.
Datum zadnjeg pristupa 28.3.2013. [50] http://trec.nist.gov/data/t11_novelty.html. Text REtrieval Conference (TREC) 2002
Novelty Track. Datum zadnjeg pristupa 28.3.2013. [51] http://trec.nist.gov/data/t12_novelty.html. Text REtrieval Conference (TREC) 2003
Novelty Track. Datum zadnjeg pristupa 28.3.2013. [52] http://trec.nist.gov/data/t13_novelty.html. Text REtrieval Conference (TREC) 2004
Novelty Track. Datum zadnjeg pristupa 28.3.2013. [53] Voorhees, E. M., Harman, D. (1997). Overview of the sixth Text REtrieval
Conference (TREC-6).In NIST Special Publication 500-240: The Sixth Text REtrieval Conference.
[54] Voorhees, E. M., Soboroff, D. (1998). Overview of the Seventh Text REtrieval
Conference (TREC-7). In NIST Special Publication 500-242: The Seventh Text REtrieval Conference.
[55] Voorhees, E. M. (1999). Overview of the Eighth Text REtrieval Conference (TREC-
8). U Proceedings of the Eighth Text REtrieval Conference (TREC 8), Gaithersburg, Maryland, Studeni 1999.
[56] http://trec.nist.gov/data/t11_novelty/min_qrels.relevant. nist.gov. Datum zadnjeg
pristupa 28.3.2013. [57] http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2002T31. LDC
Catalog. Datum zadnjeg pristupa 28.3.2013. [58] http://trec.nist.gov/data/t12_novelty/qrels.relevant.03.txt. nist.gov. Datum zadnjeg
pristupa 28.3.2013.
154
[59] http://trec.nist.gov/data/t13_novelty/04.qrels.relevant. nist.gov. Datum zadnjeg pristupa 28.3.2013.
[60] http://rapid-i.com/content/view/181/196/. Rapid - I. Datum zadnjeg pristupa
21.4.2013. [61] http://rapid-i.com/content/view/202/206/. Rapid - I - Extensions. Datum zadnjeg
pristupa 21.4.2013. [62] Doko, A., Štula, M., Stipaničev, D. A Recursive TF-ISF Based Sentence Retrieval
Method With Local Context. International Journal of Machine Learning and Computing. Predstoji (forthcoming).
[63] Daume, H., Marcu, D. (2006). Bayesian Query-Focused Summarization. U
Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics (pp. 305-312), Sydney, Australija, Srpanj 2006.
[64] Lin, J., Dyer, C. (2010). Data-Intensive Text Processing with MapReduce. San
Rafael, CA, SAD: Morgan & Claypool Publishers. [65] http://en.wikipedia.org/wiki/Semantic_Web. Semantic Web, Wikipedia, the free
encyclopedia. Datum zadnjeg pristupa 28.3.2013. [66] Berners-Lee, T. (1999). Weaving the Web : The Original Design and Ultimate
Destiny of the World Wide Web by its Inventor, Harper San Francisco. [67] Berners-Lee, T., Hendler, J., Lassila, O. (2001). The Semantic Web, Scientific
American 284(5), 34-43. [68] Gruber, T. (1993). A translation approach to portable ontology specification.
Knowledge Acquisition 5(2), 199–220. [69] http://www.w3.org/RDF/, RDF - Semantic Web Standards, datum zadnjeg pristupa
28.3.2013. [70] http://en.wikipedia.org/wiki/Resource_Description_Framework. Resource
Description Framework - Wikipedia, the free encyclopedia. Datum zadnjeg pristupa 28.3.2013.
[71] http://www.w3.org/TR/rdf-schema/, RDF Vocabulary Description Language 1.0:
RDF Schema, datum zadnjeg pristupa 28.3.2013.
155
[72] http://en.wikipedia.org/wiki/RDFS. RDF Schema - Wikipedia, the free encyclopedia. Datum zadnjeg pristupa 28.3.2013.
[73] http://en.wikipedia.org/wiki/Web_Ontology_Language. Web Ontology Language -
Wikipedia, the free encyclopedia. Datum zadnjeg pristupa 28.3.2013. [74] Noy, N., Rector, A., Hayes, P., Chris W (2006). Defining N-ary Relations on the
Semantic Web. W3C Working Group Note 12 April 2006. (http://www.w3.org/TR/swbp-n-aryRelations/).
[75] Mahgoub, H., Roesner, D., Ismail, N., Torkey F. (2008). A Text Mining Technique
Using Association Rules Extraction. International Journal of Information and Mathematical Sciences 4(1).
[76] http://www.cs.oswego.edu/~sdoherty/CSC466/research/doc/sources/4.pdf. Ontology
Learning And Population. Datum zadnjeg pristupa 28.3.2013. [77] Brewster, C., Ciravegna, P., Wilks, Y. (2003). Back-ground and foreground
knowledge in dynamic ontology construction. U Proceedings of the SIGIR Semantic Web Workshop. Toronto, Canada, Srpanj 2003.
[78] Doko, A., Štula, M. (2012). A general framework for mining relations for the
semantic web. U Proceedings of the Ninth International Workshop on Information Integration on the Web, Scottsdale, AZ, SAD, Svibanj 2012.
[79] http://rapid-
i.com/component/option,com_docman/task,doc_download/gid,59/Itemid,165, RM_RA_FactSheet.pdf, Datum zadnjeg pristupa 17.4.2013.
156
DODATAK A - LISTA UOBIČAJENIH RIJEČI
abaft aboard about above
across afore aforesaid after
again against agin ago
aint albeit all almost
alone along alongside already
also although always am
american amid amidst among
amongst an and anent
another any anybody anyone
anything are aren around
as aslant astride at
athwart away back bar
barring be because been
before behind being below
beneath beside besides best
better between betwixt beyond
both but by can
cannot certain circa close
concerning considering cos could
couldn couldst dare dared
daren dares daring despite
did didn different directly
do does doesn doing
done don dost doth
down during durst each
early either em english
enough ere even ever
every everybody everyone everything
except excepting failing far
few first five following
for four from gonna
157
gotta had hadn hard
has hasn hast hath
have haven having he
her here hers herself
high him himself his
home how howbeit however
id if ill immediately
important in inside instantly
into is isn it
its itself ve just
large last later least
left less lest let
like likewise little living
long many may mayn
me mid midst might
mightn mine minus more
most much must mustn
my myself near neath
need needed needing needn
needs neither never nevertheless
new next nigh nigher
nighest nisi no one
nobody none nor not
nothing notwithstanding now er
of off often on
once oneself only onto
open or other otherwise
ought oughtn our ours
ourselves out outside over
own past pending per
perhaps plus possible present
probably provided providing public
qua quite rather re
158
real really respecting right
round same sans save
saving second several shall
shalt shan she shed
shell short should shouldn
since six small so
some somebody someone something
sometimes soon special still
such summat supposing sure
than that the thee
their theirs them themselves
then there these they
thine this tho those
thou though three thro
through throughout thru thyself
till to today together
too touching toward towards
true twas tween twere
twill twixt two twould
under underneath unless unlike
until unto up upon
us used usually versus
very via vice vis-a-vis
wanna wanting was wasn
way we well were
weren wert what whatever
when whencesoever whenever whereas
where whether which whichever
whichsoever while whilst who
whoever whole whom whore
whose whoso whosoever will
with within without wont
would wouldn wouldst ye
159
yet you your yours
yourself yourselves
160
DODATAK B – RAPIDMINER I RAPIDANALYTICS
Rapidminer je open-source sustav za rudarenje podataka. RapidMiner i serverski dodatak
RapidAnalytics je opisan u [79] kao:
RapidMiner je sveobuhvatna analitička radionica sa jakim fokusom na rudarenje
podataka, rudarenje teksta i prediktivnu analitiku.
RapidAnalytics je poslovni analitički server koji nudi kompletne sposobnosti
izvještavanja i nadzorne ploče (eng. dashboarding) i stoga kompletno rješenje
poslovne inteligencije u kombinaciji sa prediktivnom analitikom.
U ovoj doktorskoj disertaciji od važnosti je sposobnost rada s tekstnim izvorima koja je
dostupna preko Tekst dodatka (eng. Text plugin). Osnovni dio Tekst dodatka je Word
Vector Tool ili WVTool koji se koristi za generiranje vektorske prezentacije tekstnih
dokumenata u modelu vektorskog prostora. Tekst dodatak se integrira u razvojno
okruženje RapidMiner programa. Na slici 1. je prikazan izbornik s nekim koracima iz
područja pronalaženja dokumenata kao što su rastavljanje na pojedinačne riječi (Tokenize),
uklanjanje uobičajenih riječi (Filter Stopwords (English)), pretvaranje u mala slova
(Transform Cases).
161
Slika 1. Izbornik alata za procesiranje teksta
U okviru ove disertacije procesiranje kolekcije dokumenata počinje sa alatom Process
Documents from Files (slika 1.). Ovaj alat omogućava generiranja matrice izraz-dokument
(eng. term-document matrix) iz kolekcije dokumenata u obliku tekstnih dokumenata koji se
nalaze u određenom direktoriju. Opcije ovog alata su prikazane na slici 2. Treba uočiti da
matrica izraz-dokument sadrži broj pojavljivanja izraza u dokumentu (Term Occurences).
Matrica sa brojem izraza u dokumentu može se koristiti za implementaciju funkcija
rangiranja metoda korištenih u ovoj disertaciji.
162
Slika 2. Opcije alata Process Documents from Files
U okviru alata Process Documents from Files definirani su koraci pred-procesiranja
korišteni u ovoj disertaciji koji se sastoje od izdvajanja pojedinačnih riječi, pretvaranje svih
slova u malo slovo i uklanjanje uobičajenih riječi. Svaki od navedena tri koraka dodaje se
vizualno u razvojno okruženje kao što je prikazano na slici 3.
Slika 3. Tri koraka pred-procesiranja
163
Rezultat se može prikazati u okviru programa RapidMiner u obliku tablice koja predstavlja
matricu izraz-dokument. Međutim radi jednostavnijeg daljnjeg procesiranja rezultata
iskorištena je funkcionalnost RapidAnalytics dodatka koji omogućava prikaz rezultata u
obliku XML formatiranog dokumenta kojem se može pristupit preko url-a. Na slici 4.
prikazan je primjer rezultata koji predstavlja isječak matrice izraz-dokument.
Slika 4. Isječak matrice izraz-dokument prikazan kao XML formatirani dokument
164
DODATAK C – RAZVIJENI SUSTAV ZA EMPIRIJSKU STUDIJU
Sustav za pronalaženje rečenica koji se koristi za testiranja provedena u sklopu ove
doktorske disertacije sa jedne strane koristi program RapidMiner i RapidAnalytics, a sa
druge strane vlastite razvijene aplikacije u C# programskom jeziku. Programi RapidMiner i
RapidAnalytics koriste se za standardne zadatke iz područja pronalaženja informacija kao
što su rastavljanje na pojedinačne riječi, uklanjanje uobičajenih riječi, pretvaranje svih
slova u mala slova i generiranje matrice izraz-dokument. Vlastite razvijene aplikacije
koriste se za ne-standardne dijelove sustava. Na slici 1. je prikazan proces pronalaženja
rečenica koji se sastoji od tri koraka.
Slika 1. Tri koraka procesa pronalaženja rečenica korištenog u ovoj disertaciji
Korak 1 podrazumijeva izdvajanje rečenica i upita iz tekstnih datoteka TREC staza
novosti. Na slici 2. je prikazan isječak datoteke sa rečenicama. Na slici 3. je prikazan
isječak datoteke s upitima. Budući da RapidMiner kao ulazne podatke zahtijeva skup
datoteka, i rečenice i upite je bilo potrebno izdvojiti i pretvoriti u datoteke. Na slici 4. je
prikazan isječak datoteka korištenih kao ulaz u program RapidMiner. Svaka datoteka na
slici 4. sadrži jednu rečenicu.
165
Slika 2. Isječak daoteke sa rečenicama TREC 2003 staze novosti
166
Slika 3. Isječak daoteke sa upitima TREC 2003 staze novosti
167
Slika 4. Isječak skupa izgeneriranih datoteka s jednom rečenicom korištenih kao ulaz programa RapidMiner
Korak 2 je opisan u dodatku B.
Korak 3 podrazumijeva:
korištenje podataka iz matrice izraz-dokument (iz programa RapidAnalytics) kao i
informacija iz datoteke TREC staze novosti sa popisom relevantnih rečenica (slika
5.) za implementaciju funkcije rangiranja i računanje ocjene relevantnosti svake
rečenice (slika 6.),
sortiranje rečenica prema ocjeni relevantnosti (slika 6.),
računanje mjera učinkovitosti sustava (P@x, MAP, R-precision), (slika 7. i 8.).
prezentaciju mjera učinkovitosti sustava u obliku pogodnom za prezentaciju
rezultata u disertaciji (slika 7.),
prezentaciju mjera učinkovitosti u obliku pogodnom za kopiranje u Excel radi
testiranja statističke signifikantnosti razlike rezultata (slika 8.).
168
Slika 5. Isječak iz datoteke s popisom relevantnih rečenica TREC staze novosti 2003
Slika 6. Isječak C# koda vezanog za računanje relevantnosti rečenica koristeći metodu TF-
ISFcon i sortiranje rečenica prema ocjeni relevantnosti
169
Slika 7. Isječak iz C# koda vezan za prikaz rezultata u obliku pogodnom za umetanje u
kolonu tablice
Slika 8. Isječak iz C# koda koji generira tekstnu datoteku koja sadrži mjere učinkovitosti
sustava (P@x, MAP, R-precision) za pojedinačne upite radi kopiranja u Excel i testiranja
statističke signifikantnosti razlike rezultata
ŽIVOTOPIS
Alen Doko je rođen u Mostaru, Bosna i Hercegovina, 1982. godine. Osnovnu školu
započeo je u Mostaru, a završio u Passau, Njemačka. Srednju školu (prirodoslovno-
matematičku gimnaziju) završio je u Mostaru. Titulu diplomiranog inženjera računarstva
dobio je 2007. godine na Fakultetu strojarstva i računarstva Sveučilišta u Mostaru. Tijekom
studija dobio je tri Rektorove nagrade i jednu Dekanovu nagradu za najbolje studente. Od
2007. godine zaposlen je u JP Hrvatskim telekomunikacijama Mostar. U istoj godini
upisao je poslijediplomski studij na Fakultetu elektrotehnike, strojarstva i brodogradnje,
Sveučilišta u Splitu. Područja istraživanja koja ga zanimaju su Pronalaženje informacija i
Semantički web sa posebnim interesom za Pronalaženje rečenica.
BIOGRAPHY
Alen Doko was born in Mostar, Bosnia and Herzegovina in 1982. He started primary scool
in Mostar and completed it in Passau, Germany. He completed secondary school in Mostar.
He received his dipl. Ing. Degree in Computer engieneering in 2007 from the Faculty of
Mechanical Engineering and Computer Engineering, University of Mostar. He received
three Chancellor's Awards and one Dean Award for best students during his time at the
University of Mostar. Since 2007 he has been employed by the Croatian
Telecommunications Mostar and also has started postgraduate study at University of Split,
Faculty of Electrical Engineering, Mechanical Engineering and Naval Architecture. His
research interests are in the field of Information Retrieval and Semantic Web with a special
interest in Sentence Retrieval.
top related