parametri za ocenjivanje efikasnosti pronala ž enja
DESCRIPTION
Parametri za ocenjivanje efikasnosti pronala ž enja. Cvetana Krstev Čas 5. Merenje efikasnosti sistema za pronalaženje informacija. - PowerPoint PPT PresentationTRANSCRIPT
1
Parametri za ocenjivanje efikasnosti pronalaženja
Cvetana Krstev
Čas 5.
2
Merenje efikasnosti sistema za pronalaženje informacija Predstavili smo sisteme za pronalaženje
informacija zasnovane na predstavljanju dokumenata izabranom listom termina (koja je nekako izabrana) i razna proširenja osnovne ideje: parametri blizine, podsecanje upitnih termina, sinonimi, težine dodeljenih termina
Ali kako da znamo koji od ovih pristupa je zaista efikasan i u kojim situacijama, odnosno koji je bolji u odnosu na druge?
3
Evaluacija sistema za pronalaženje informacija Da bismo ad hoc izmerili efikasnost nekog
sistema za pronalaženje informacija na neki standardan način, potrebna nam je kolekcija za testiranje koja se sastoji od tri stvari: Kolekcija dokumenata Paket informacionih potreba koje se obično
izražavaju preko upita Skup procena relevantnosti koji se obično
izražava dodeljivanjem binarne vrednosti (relevantan / nije relevantan) svakom paru (upit,dokument)
4
Kolekcija dokumenata za testiranje Obično se naziva zlatni standard I kolekcija dokumenata i paket
informacionih potreba treba da budu razumne veličine. Kolekcija dokumenata treba da bude dovoljno
velika i raznovrsna da rezultati merenja efikasnosti ne bi suviše zavisili od samog izbora dokumenata, a dovoljno mala da se njihova relevantnost može proceniti za svaku informacionu potrebu (jer to treba da uradi jedan čovek, ili što je češće slučaj, više ljudi)
Praksa pokazuje da je 50 informacionih potreba donja granica
5
Odnos informacione potrebe korisnika i upita Relevantnost se određuje relativno u odnosu na
informacionu potrebu, a ne na upit. Primer:
Informaciona potreba: Information on whether drinking red wine is more effective at
reducing your risk of heart attacks than drinking white wine. Može se prevesti u sledeći upit:
wine AND red AND white AND heart AND attack AND effective Dokument je relevantan ako odgovara informacionim
potrebama korisnika, a ne ako slučajno sadrži reči sadržane u upitu.
Zlatni standard treba da omogući procenu raznih sistema – na primer, koliko neki sistemi omogućavaju obradu „inteligentnih“ upita.
6
Još jedan primer
Informaciona potreba: penzioni zakon u republikama bivše Jugoslavije
Google – ništa na prvoj strani "penzioni zakon" AND "republika bivše Jugoslavije"
Google – ništa na prvoj strani (govori se samo o građanima Srbije koji su staž ostvarivali i u republikama bivše YU)
"penzioni zakon" AND (Srbija OR Hrvatska OR Slovenija...) Google – prvi odgovor relevanantan, svi relevantni na
prvoj stanici odnose se na Srbiju
7
Poznate kolekcije za testiranje Cranfield kolekcija
Iz Velike Britanije, sadrži 1398 članaka iz oblasti aerodinamike i paket od 225 upita – iscrpno procenjena relevantnost
TREC8 (Text Retrieval Conference) 528.000 novinskih vesti i 150 informacionih
potreba – nije iscrpno procenjena relevantnost Reuters-RCV1
806.791 dokumenata 20 Newsgroups
Po 1000 članaka iz 20 izabranih Newsgroups
8
Parametri odziv i preciznost za ocenu sistema za pronalaženje bez rangiranih rezultata Dva glavna parametra za ocenjivanje
efikasnosti pronalaženja su u upotrebi već godinama. To su: odnos izdvojenih relevantnih stavki i
ukupno relevantnih stavki, ili odziv (engl. recall - R)
odnos izdvojenih relevantnih stavki i ukupno izdvojenih stavki, ili preciznost (engl. precision - P).
9
Odnos parametara odziv i preciznost Za uska pitanja, preciznost je velika - skoro sve
izdvojeno je i relevantno - ali je odziv mali jer je u stvari jako malo relevantnih stavki pronađeno. Kako se formulacije upita šire, ukupan broj pronađenih relevantnih dokumenata raste, što povećava odziv. Ali u isto vreme raste i broj izdvojenih nerelevantnih stavki, a to smanjuje preciznost. To jest, uski upiti daju visoku preciznost a mali odziv, dok široki upiti daju obrnuti rezultat - veliki odziv a malu preciznost.
Ova dva parametra su obrnuto recipročna.
10
Podela kolekcije dokumenata upitom na četiri dela
Nerelevatne stavke Relevatne stavke
Neizdvojene stavke Izdvojene stavke
11
a – izdvojene relevantne stvake
b – izdvojene nerelevatne stavke
c – neizdvojene relevatne stavke
d – neizdvojenenerelevantne stavke
Odziv: R= a/(a+c)
Preciznost:P=a/(a+b)
Skupovi a i d treba da budu što veči
Skupovi b i c treba da budu što manji
12
Varijacije parametara odziv i preciznost u zavisnosti od širine upita
uzak upitmalo izdvojenih relevantnih
malo izdvojenihnerelevantnih
mnogo neizdvojenihrelevantnih
13
Varijacije parametara odziv i preciznost u zavisnosti od širine upita
širok upit
više neizdvojenihrelevantnih
više neizdvojenihnerelevantnih
14
Odnos parametara preciznost i odziv Odziv uvek može da bude
visok, čak 1 (tj. 100%) ako ponudimo korisniku sva dokumenta. Odziv je neopadajuća funkcija broja pronađenih dokumenata, tj. kako raste broj izdvojenih dokumenata, raste i odziv.
Preciznost obično opada sa brojem pronađenih dokumenata, tj. kako raste broj izdvojenih dokumenata preciznost pada.
(x1, x2) (x1x2 f(x1) f(x2))
R
a+b
(x1, x2) (x1x2 f(x1) f(x2))
P
a+b
15
Alternativna mera – mera tačnosti To je mera koja utvrđuje koliki deo
klasifikovanih dokumenata je ispravno klasifikovan, tj. ispravno smešten u grupu relevantnih odnosno nerelevantnih dokumenata.A (accuracy) = (a+d)/(a+b+c+d) = (a+d)/sve
Ovo je mera uspešnosti klasifikacije, tj. uspešnog klasifikovanja dokumenta relevantan/nerelantan
16
Neadekvatnost mere tačnosti za merenje uspešnosti sistema za pronalaženje Podaci su često vrlo iskrivljeni. Naime,
najčešće je najveći deo dokumenata kolekcije nerelevantan, i do 99,9%. Ako bismo želeli da podesimo sistem na maksimalnu tačnost dovoljno je da odbacimo sva dokumenta i dobićemo tačnost od skoro 100%.
Za korisnike je to nepoželjno jer oni najčešće žele da dobiju bar neki odgovor, čak iako je on izmešan sa dosta nerelevantnih odgovora.
17
Jedan parametar koji meri izbalansiranost odziva i preciznosti U opštem slučaju korisnik želi da dobije
određen nivo odziva pri čemu će tolerisati određen procenat pogrešno određenih relevantnih odgovora (b)
U posebnom slučaju Veb surfer obično želi da mu svi rezultati na prvoj
stranici budu relevantni (visoka preciznost) dok ga uopšte ne interesuje da pronađe sve relevantne niti misli da ih gleda
Istraživač koji radi za tajnu službu želi da pronađe sve relevantne i uopšte ga ne brine ako će zato morati da pregleda i mnogo nerelevantnih ponuđenih.
18
F-mera koja se zasniva na harmonijskoj sredini Šta je
harmonijska sredina? Aritmetička sredina:
A=(P+R)/2 Geometrijska sredina:
G=PR Harmonijska
sredina: H=2/(1/P+1/R)Uvek važi: H G A
Harmonijska sredina naginje manjoj od dve vrednostiOna teži da neutrališe uticaj većeg, a potencira značaj manjeg
19
Prednosti F-mere
Zašto aritmetička sredina nije dobra? Pošto uvek možemo da dobijemo odziv 100% ako
izdvojimo sva dokumenta, preciznost će biti skoro 0, ali aritmetička sredina će biti 50%, tako da ispada da je rezultat pronalaženja skoro dobar
Neka je 1 dokument kolekcije relevantan, i neka je on među 10.000 pronađenih dokumenata. Tada je: R= 1 (ili 100%) P= 1/10000 = 0,0001 (ili 0,01%) A=(1+0,0001)/2 = 0,50005 (ili 50,005%) F= (2*1*0,0001)/(1+0,0001) = 0,0002 (ili 0,02%)
20
Davanje prednosti odzivu ili preciznosti
Takvu vrednost αbi izabrao veb surfer
Takvu vrednost αbi izabrao radniktajne službe
21
Evalucija rezultata rangiranog pronalaženja Preciznost, odziv i F-mera se definišu
na neuređenim skupovima Ove mere moraju da se prošire ili da se
uvedu nove mere ako se rezultati pronalaženja rangiraju (npr. Google)
U ovom slučaju se računaju preciznost i odziv za prvih k dokumenata. Kada se k menja dobija se kriva zavisnosti preciznosti od odziva
22
Grafikon preciznost-odziv
23
Izgled grafikona preciznost-odziv Ovaj graf ima prepoznatljiv testerast izgled. Zašto?
Ako je (k+1)-i dokument nerelevantan onda odziv ostaje isti a preciznost pada
Ako je (k+1)-i dokument relevantan onda rastu i preciznost i odziv i kriva skače nagore i udesno.
Ponekad se uklanjaju ovi zupci tako što se koristi interpolacija: interpolirana preciznost se dobija kao maksimalna preciznost
na nekom utvrđenom nivou odziva r (najveća preciznost za svaki odziv q > r).
Opravdanje za ovo je da je skoro svako spreman da gleda malo više dokumenata ako će time dobiti nešto više relevantnih
Crvena linija na prethodnom grafikonu. Sa rastom odziva, dodavanje novog dokumenata pronađenim
dokumentima jako malo utiče na preciznost (pri kraju grafikona plava i crvena linija se skoro poklapaju).
24
Interpolirana srednja preciznost u 11 tačaka Izučavanje celokupne krive
preciznost-odziv je informativno ali nepraktično. Postoji potreba da se merenje svede ako je moguće na jedan broj.
Za svaku informacionu potrebu iz probnog skupa se računa interpolirana preciznost na 11 nivoa odziva: 0.0, 0.1, 0.2, ..., 0.9, 1.0.
Za svaki od 11 nivoa odziva se zatim računa srednja vrednost interpoliranih preciznost za sve informacione potrebe.
25
Grafikon srednjih interpoliranih vrednosti preciznosti za 11 nivoa odziva (za 50 upita tj. informacionih potreba)
Prosečna preciznost(Average Precision) Daje meru uspešnosti pronalaženja kao jedan broj. AP je prosečna preciznost p(r) u intervalu r=0 do
r=1. Računa se kao zbir za svaki dodati dokument u
listi rangiranih dokumenata.
Gde je k rang u sekvenci pronađenih dokumenata, n je broj pronađenih dokumenata, P(k) je preciznost u presečnoj tački k, a Δr(k) je promena u odzivu s (k-1)-vog rangiranog dokumenta do k-tog.
26
Prosečna preciznost(Average Precision) Prethodna suma je ekvivalentna sa:
gde je rel(k) indikator koji ima vrednost 1 ako je dokument rangiran kao k-ti relevantan, inače dobija vrednost 0. Primetimo da se srednja vrednost računa za sva relevantna dokumenta, pa relevantna koja nisu pronađena dobijaju preciznost 0.
27
Srednja prosečna preciznost(Mean Average Precision) - MAP
Srednja prosečna preciznost za skup upita (informacionih potreba) je srednja vrednost prosečnih vrednosti za svaki upit.
gde je Q broj upita. Ova MAP mera je veoma osetljiva na same
upite (jer neki vraćaju veliki broj dokumenata a neki veoma malo).
28
29
U slučaju ovog sistema i 50 informacionih potreba korišćenih za procemu MAP=0,2553.