pro širenja invertovano-indeksnih operacija

33
1 Proširenja invertovano- indeksnih operacija Cvetana Krstev Čas 4.

Upload: aderyn

Post on 08-Jan-2016

59 views

Category:

Documents


2 download

DESCRIPTION

Pro širenja invertovano-indeksnih operacija. Cvetana Krstev Čas 4. Odsecanje termina. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Pro širenja invertovano-indeksnih operacija

1

Proširenja invertovano-indeksnih operacija

Cvetana Krstev

Čas 4.

Page 2: Pro širenja invertovano-indeksnih operacija

2

Odsecanje termina

Termini za opis sadržaja mogu se dodeliti upitima i uskladištenim zapisima u podsečenom obliku tako što se pre dodele termina uklone sufiksi ili prefiksi. Očigledno je da podsečeni oblik predstavlja širi pojam od originalnog, nepodsečenog oblika, jer podsečeni termin, u stvari, uključuje raznovrsne nepodsečene termine.

Na primer, oblik psychpsych* (gde je * specijalni znak koji predstavlja završetak promenljive dužine) reprezentuje psychiatrist, psychiatry, psychiatric, psychology, psychologist, psychological, i mnoge druge.

Page 3: Pro širenja invertovano-indeksnih operacija

3

Metode za podsecanje termina Mogu se koristiti mnoge metode za

podsecanje termina: uklanjanje određenih sufiksa i prefiksa, uklanjanje fiksnog broja završnih karaktera u

reči, svođenje svake reči na njen koren fiksne dužine.

Obično se određeni krajevi reči ili prefiksi uklanjaju samo ako pri tome ostaje koren koji je dovoljan da identifikuje reč. Tako bi, na primer, sufiks -ing bio uklonjen iz termina kakav je indexing ali ne i iz termina king.

Page 4: Pro širenja invertovano-indeksnih operacija

4

Posecanje sufiksa upitnog termina i invertovani indeksi Kako se podsecanje termina u upitu uklapa u sisteme

koji se zasnivaju na tehnologiji invertovanog teksta? Ako je u formulaciji upita dopušteno samo podsecanje

sufiksa prilikom postavljanja upita, onda se konvencionalna metodologija invertovanih inteksa može zadržati jer su liste slogova koje pokrivaju određeni podsečeni termini susedni u indeksu (ako je on uređen u alfabetskom poretku).

Za dati termin iz upita kakav je PSYCH*, može se lako generisati kombinovana lista koja se sastoji od identifikatora različitih slogova iz bilo koje liste za obuhvaćene, nepodsečene oblike (uključujući psychiatrist, psychology, i tako dalje).

Page 5: Pro širenja invertovano-indeksnih operacija

Čemu odgovara upit PSYCH* On je, zapravo, ekvivalentan upitu: Psychiatrist OR psychiatry OR

psychiatric OR psychology OR psychologist OR psychological...

5

Page 6: Pro širenja invertovano-indeksnih operacija

6

Primer uobičajenog invertovanog indeksa i obrade upita PSYCH* pseudoscience Z1 psittacosis Z2 psychiatry Z3 psychoactive Z2 psychoanalysis Z3 psychogeriatrics Z4 psychology Z3 psychometric Z5 psychoneuroimmunology Z4 psychopathic Z2 psychosis Z3 psychosomatic Z5 psychotherapy Z2 puberty Z6

Spojena lista:Z2, Z3, Z4, Z5

Page 7: Pro širenja invertovano-indeksnih operacija

7

Podsecanje prefiksa upitnog termina i invertovani indeksi U principu se podsecanje prefiksa može uklopiti

na analogan način korišćenjem invertovanih indeksa u kojima su termini alfabetski uređeni u obrnutom poretku (s desna na levo).

Tako će se reč antisymmetry u indeksu pojaviti kao yrtemmysitna dok će se reč asymmetry slično pojaviti u indeksu kao yrtemmysa. Kada se zada upit *SYMMETRY, indeks uređen u alfabetskom poretku s kraja termina se pretražuje sa YRTEMMYS*, pa se proces pronalaženja svodi na slučaj podsecanja sufiksa.

Page 8: Pro širenja invertovano-indeksnih operacija

8

Primer invertovanog indeksa u abecednom poretku s kraja reči i obrade upita *graphy chromatography demography dystrophy electromyography ethnography geography healthy hierarchy mamography onography patriarchy thermography tomography ultrasonography

yhcrairtap yhcrareih yhpargoeg yhpargomam yhpargomed yhpargomot yhpargomreht yhpargonhte yhpargono yhpargonosartlu yhpargotamorhc yhpargoymortcele yhportsyd yhtlaeh

Page 9: Pro širenja invertovano-indeksnih operacija

9

Opšti problem podsecanja

Upitni oblici reči kod kojih su podsečeni i sufiksi i prefiksi, kao na primer *SYMM* (koja predstavlja i antisymmetric i asymmetry) zahtevaju posebna rešenja, na primer kombinovano korišćenje invertovanih indeksa termina koji su uređeni u alfabetskom poretku i unapred i unazad.

Da bi se obradili slučajevi infiksnog podsecanja potrebna su još složenija rešenja. Na primer, upitni termin WOM*N bi obuhvatio i termin woman i termin women, dok bi upitni termin COL*R obuhvatio i termin color i colour.

Page 10: Pro širenja invertovano-indeksnih operacija

10

Opšte rešenje problema podsecanja upitnih termina Invertovani indeks treba da sadrži sve moguće

“rotirane” oblike reči. Takav indeks se može formirati na sledeći način: Svaki termin X=x1x2...xn gde su xi pojedinačni karakteri se

proširuje dodavanjem specijalnog završnog karaktera, na primer kosa crta / (karakter koji se neće pojaviti ni u jednoj reči);

Svaki prošireni termin x1x2...xn/ se ciklično rotira sam oko sebe n+1 puta. To proizvodi n+1 različitih oblika reči: x1x2...xn/, /x1x2...xn, xn/x1x2...xn-1, xn-1xn/x1x2...xn-2 i tako dalje.

Svakoj tako dobijenoj reči se dopisuje blanko karakter; Na kraju se dobijena lista oblika reči sortira u

alfabetskom poretku, pri čemu je poredak karaktera u rečima: blanko,/,a,b,...z.

U rečniku koji se dobija sada postoji ulaz koji može da obradi svaki oblik odsecanja.

Page 11: Pro širenja invertovano-indeksnih operacija

11

PrimerOriginalnirečnik

Prošireniulazi

Ciklično rotirani termini

Sortirani ulazi u indeksu

ABC ABC/ /ABC^ /ABC^

BABC BABC/ C/AB^ /BABC^

BCAB BCAB/ BC/A^ /BCAB^

ABC/^ AB/BC^

/BABC^ ABC/^

C/BAB^ ABC/B^

BC/BA^ B/BCA^

ABC/B^ BABC/^

BABC/^ BC/A^

/BCAB^ BC/BA^

B/BCA^ BCAB/^

AB/BC^ C/AB^

CAB/B^ C/BAB^

BCAB/^ CAB/B^

Page 12: Pro širenja invertovano-indeksnih operacija

12

Strategija pretraživanja koja identifikuje zapise koji odgovaraju različitim oblicimapodsečenih termina: Za upitni termin X, koji predstavlja nepodsečenu karaktersku nisku

(traži se sam termin X), biraju se ulazi u invertovanom indeksu /X^ ili X/^. Odgovarajući identifikatori zapisa se svi odnose na termin X koji je proširen specijalnim karakterima / i blanko (predstavljen kao ^).

Za upitni termin X*, (podsečen sufiks) u indeksu treba tražiti /X koji odgovara svim ulazima koji počinju sa / (početak reči) iza koga sledi X, i možda još neki dodatni karakteri. Pronalazi se /X^, /XY1, /XY2,... koji predstvaljuju termine X, XY1, XY2…

Za upitni termin *X (podsecanje prefiksa) treba tražiti termin X/; taj termin pronalazi listu ulaza: X/^, X/Y1,...,X/Yn koja predstavlja originalni termin X, a zatim i termine Y1X,...,YnX koji sadrže proizvoljan prefiks iza koga sledi X.

Za upitni termin *X* (podsečen i prefiks i sufiks) termin koji se traži je X; on pronalazi liste ulaza XY1/Z1,...,XYn/Zn koji odgovaraju terminima Z1XY1, ...,ZnXYn u kojima je X traženi infiks.

Za upitni termin X*Y (podsecanje infiksa) treba tražiti termin Y/X, koji pronalazi ulaze Y/XZ1,...,Y/XZn, koji odgovaraju terminima XZ1Y,...,XZnY gde je Zi infiks promenljive dužine.

Page 13: Pro širenja invertovano-indeksnih operacija

13

Primer

Sortirani ulazi u indeksu

/ABC^ /BABC^ /BCAB^ AB/BC^ ABC/^ ABC/B^ B/BCA^ BABC/^ BC/A^ BC/BA^ BCAB/^ C/AB^ C/BAB^ CAB/B^

Originalni upitni termin: *B* Termin za traženje: B Pronađeni termin:

B/BCA^ BABC/^ BC/A^ BC/BA^ BCAB/^

Odgovarajući originalni termini: BCAB BABC ABC BABC BCAB

Page 14: Pro širenja invertovano-indeksnih operacija

14

Prednosti i nedostaci ovog rešenja Neki termini se javljaju više puta u izlaznoj listi

(a time i zapisi koji odgovaraju tim terminima) ako se traženi segment pojavljuje više puta u pronađenom terminu, što se u realnim primerima retko događa (na primer, BABC i BCAB se javljaju dva puta u izlaznoj listi zbog dvostrukog pojavljivanja traženog B).

Metod permutovanog rečnika omogućava da se podsečeni termini koriste u formulacijama upita ali po cenu znatnog povećavanja broja stavki u indeksu. Liste identifikatora zapisa koje odgovaraju različitim ulazima u indeks, kao i sami zapisi, ne moraju da se dupliraju.

Page 15: Pro širenja invertovano-indeksnih operacija

15

Realan (realniji) primer - 1 D1: Kad krompir bude obaren, treba ocediti vodu i ostaviti

poklopljen krompir na kraj štednjaka da se dokuva u pari. D2: Kada sam bio u "Partizanu", pre osam godina, došao sam na

"ludu" ideju da iskuvam peškire i čaršave. D3: Grgeč se kuva, a može se i pržiti. D4: Među gastronomima je dobro poznato uputstvo, u praksi

potvrđeno - kuvaj regionalno, slaviće te planetarno. D5: On je posredno optužio jordanskog suverena zbog tvrdnje da

je Irak nameravao da napadne Kuvajt i Jordan. D6: Bio je pomorac, kuvar na brodu, i u periodu od 1958. do

1964. godine, krstario svetskim morima. D7: Stepenište koje vodi u nju je opasno za tu tako često trudnu

ženu, ali ona pravi jelovnik i proverava kuvaričinu knjigu računa; raspoređuje cveće u vaze, bira ili otpušta poslugu.

D8: Ne samo komandantsko no i kaldrmdžisko - parakuvarsko oduševljenje popustilo ga je.

D9: Poneko ostavlja na stolu debelu knjigu kojoj se namerava vratiti pošto skuva čaj

D10: Tačnije, sve je, izgleda, zakuvao bivši ministar finansija. D11: Pribeglo se, kaže on, formiranju tela koje je služilo samo za

paradu.

Page 16: Pro širenja invertovano-indeksnih operacija

16

Originalni termini: dokuva/ iskuvam/ kuva/ kuvaj/ kuvajt/ kuvar/ kuvaričinu/ parakuvarsko/ skuva/ zakuvao/ paradu/

Rotirani termini: dokuva/, /dokuva, a/dokuv, va/doku, uva/dok,

kuva/do, okuva/d iskuvam/, /iskuvam, m/iskuva, am/iskuv, vam/isku,

uvam/isk, kuvam/is, skuvam/i kuva/, /kuva, a/kuv, va/ku, uva/k kuvaj/, /kuvaj, j/kuva, aj/kuv, vaj/ku, uvaj/k kuvajt/, /kuvajt, t/kuvaj, jt/kuva, ajt/kuv, vajt/ku,

uvajt/k kuvar/, /kuvar, r/kuva, ar/kuv, var/ku, uvar/k kuvaričinu/, /kuvaričinu, u/kuvaričin, nu/kuvariči,

inu/kuvarič, ičinu/kuvar, ričinu/kuva, aričinu/kuv, varičinu/ku, uvaričinu/k

parakuvarsko/, /parakuvarsko, o/parakuvarsk, ko/parakuvars, sko/parakuvar, rsko/parakuva, arsko/parakuv, varsko/paraku, uvarsko/parak, kuvarsko/para, akuvarsko/par, rakuvarsko/pa, arakuvarsko/p

skuva/, /skuva, a/skuv, va/sku, uva/sk, kuva/s zakuvao/, /zakuvao, o/zakuva, ao/zakuv, vao/zaku,

uvao/zak, kuvao/za, akuvao/z paradu/, /paradu, u/parad, du/para, adu/par,

radu/pa, aradu/p

Page 17: Pro širenja invertovano-indeksnih operacija

17

Konačan indeks: /dokuva D1 /iskuvam D2 /kuva D3 /kuvaj D4 /kuvajt D5 /kuvar D6 /kuvaričinu D7 /paradu D11 /parakuvarsko D8 /skuva D9 /zakuvao D10 a/dokuv D1 a/kuv D3 a/skuv D9 adu/par D11 aj/kuv D4 ajt/kuv D5 akuvao/z D10 akuvarsko/par D8 am/iskuv D2 ao/zakuv D10 ar/kuv D6 aradu/p D11 arakuvarsko/p D8 aričinu/kuv D7 arsko/parakuv D8 dokuva/ D1

du/para D11 ičinu/kuvar D7 inu/kuvarič D7 iskuvam/ D2 j/kuva D4 jt/kuva D5 ko/parakuvars D8 kuva/ D3 kuva/do D1 kuva/s D9 kuvaj/ D4 kuvajt/ D5 kuvam/is D2 kuvao/za D10 kuvar/ D6 kuvaričinu/ D7 kuvarsko/para D8 m/iskuva D2 nu/kuvariči D7 o/parakuvarsk D8 o/zakuva D10 okuva/d D1 paradu/ D11 parakuvarsko/ D8 r/kuva D6 radu/pa D11 rakuvarsko/pa D8

ričinu/kuva D7rsko/parakuva D8sko/parakuvar D8skuva/ D9skuvam/i D2t/kuvaj D5u/kuvaričin D7u/parad D11uva/dok D1uva/k D3uva/sk D9uvaj/k D4uvajt/k D5uvam/isk D2uvao/zak D10uvar/k D6uvaričinu/k D7uvarsko/parak D8va/doku D1va/ku D3va/sku D9vaj/ku D4vajt/ku D5vam/isku D2vao/zaku D10var/ku D6varičinu/ku D7varsko/paraku D8zakuvao/ D10

Upit: kuvar

Upitni termin:kuvar/^ ili/kuvar^

Pronađeno u indeksu:kuvar/ ili /kuvar^

Odgovara terminu:kuvar

Pronađena dokumenta:D6

Page 18: Pro širenja invertovano-indeksnih operacija

18

Konačan indeks: /dokuva D1 /iskuvam D2 /kuva D3 /kuvaj D4 /kuvajt D5 /kuvar D6 /kuvaričinu D7 /paradu D11 /parakuvarsko D8 /skuva D9 /zakuvao D10 a/dokuv D1 a/kuv D3 a/skuv D9 adu/par D11 aj/kuv D4 ajt/kuv D5 akuvao/z D10 akuvarsko/par D8 am/iskuv D2 ao/zakuv D10 ar/kuv D6 aradu/p D11 arakuvarsko/p D8 aričinu/kuv D7 arsko/parakuv D8 dokuva/ D1

du/para D11 ičinu/kuvar D7 inu/kuvarič D7 iskuvam/ D2 j/kuva D4 jt/kuva D5 ko/parakuvars D8 kuva/ D3 kuva/do D1 kuva/s D9 kuvaj/ D4 kuvajt/ D5 kuvam/is D2 kuvao/za D10 kuvar/ D6 kuvaričinu/ D7 kuvarsko/para D8 m/iskuva D2 nu/kuvariči D7 o/parakuvarsk D8 o/zakuva D10 okuva/d D1 paradu/ D11 parakuvarsko/ D8 r/kuva D6 radu/pa D11 rakuvarsko/pa D8

ričinu/kuva D7rsko/parakuva D8sko/parakuvar D8skuva/ D9skuvam/i D2t/kuvaj D5u/kuvaričin D7u/parad D11uva/dok D1uva/k D3uva/sk D9uvaj/k D4uvajt/k D5uvam/isk D2uvao/zak D10uvar/k D6uvaričinu/k D7uvarsko/parak D8va/doku D1va/ku D3va/sku D9vaj/ku D4vajt/ku D5vam/isku D2vao/zaku D10var/ku D6varičinu/ku D7varsko/paraku D8zakuvao/ D10

Upit: kuvaj*

Upitni termin:/kuvaj

Pronađeno u indeksu:/kuvaj, /kuvajt

Odgovara terminima:kuvaj, kuvajt

Pronađena dokumenta:D4, D5

Page 19: Pro širenja invertovano-indeksnih operacija

19

Konačan indeks: /dokuva D1 /iskuvam D2 /kuva D3 /kuvaj D4 /kuvajt D5 /kuvar D6 /kuvaričinu D7 /paradu D11 /parakuvarsko D8 /skuva D9 /zakuvao D10 a/dokuv D1 a/kuv D3 a/skuv D9 adu/par D11 aj/kuv D4 ajt/kuv D5 akuvao/z D10 akuvarsko/par D8 am/iskuv D2 ao/zakuv D10 ar/kuv D6 aradu/p D11 arakuvarsko/p D8 aričinu/kuv D7 arsko/parakuv D8 dokuva/ D1

du/para D11 ičinu/kuvar D7 inu/kuvarič D7 iskuvam/ D2 j/kuva D4 jt/kuva D5 ko/parakuvars D8 kuva/ D3 kuva/do D1 kuva/s D9 kuvaj/ D4 kuvajt/ D5 kuvam/is D2 kuvao/za D10 kuvar/ D6 kuvaričinu/ D7 kuvarsko/para D8 m/iskuva D2 nu/kuvariči D7 o/parakuvarsk D8 o/zakuva D10 okuva/d D1 paradu/ D11 parakuvarsko/ D8 r/kuva D6 radu/pa D11 rakuvarsko/pa D8

ričinu/kuva D7rsko/parakuva D8sko/parakuvar D8skuva/ D9skuvam/i D2t/kuvaj D5u/kuvaričin D7u/parad D11uva/dok D1uva/k D3uva/sk D9uvaj/k D4uvajt/k D5uvam/isk D2uvao/zak D10uvar/k D6uvaričinu/k D7uvarsko/parak D8va/doku D1va/ku D3va/sku D9vaj/ku D4vajt/ku D5vam/isku D2vao/zaku D10var/ku D6varičinu/ku D7varsko/paraku D8zakuvao/ D10

Upit: *kuva

Upitni termin:kuva/

Pronađeno u indeksu:kuva/, kuva/do, kuva/s

Odgovara terminima:kuva, dokuva, skuva

Pronađena dokumenta:D1, D3, D9

Page 20: Pro širenja invertovano-indeksnih operacija

20

Konačan indeks: /dokuva D1 /iskuvam D2 /kuva D3 /kuvaj D4 /kuvajt D5 /kuvar D6 /kuvaričinu D7 /paradu D11 /parakuvarsko D8 /skuva D9 /zakuvao D10 a/dokuv D1 a/kuv D3 a/skuv D9 adu/par D11 aj/kuv D4 ajt/kuv D5 akuvao/z D10 akuvarsko/par D8 am/iskuv D2 ao/zakuv D10 ar/kuv D6 aradu/p D11 arakuvarsko/p D8 aričinu/kuv D7 arsko/parakuv D8 dokuva/ D1

du/para D11 ičinu/kuvar D7 inu/kuvarič D7 iskuvam/ D2 j/kuva D4 jt/kuva D5 ko/parakuvars D8 kuva/ D3 kuva/do D1 kuva/s D9 kuvaj/ D4 kuvajt/ D5 kuvam/is D2 kuvao/za D10 kuvar/ D6 kuvaričinu/ D7 kuvarsko/para D8 m/iskuva D2 nu/kuvariči D7 o/parakuvarsk D8 o/zakuva D10 okuva/d D1 paradu/ D11 parakuvarsko/ D8 r/kuva D6 radu/pa D11 rakuvarsko/pa D8

ričinu/kuva D7rsko/parakuva D8sko/parakuvar D8skuva/ D9skuvam/i D2t/kuvaj D5u/kuvaričin D7u/parad D11uva/dok D1uva/k D3uva/sk D9uvaj/k D4uvajt/k D5uvam/isk D2uvao/zak D10uvar/k D6uvaričinu/k D7uvarsko/parak D8va/doku D1va/ku D3va/sku D9vaj/ku D4vajt/ku D5vam/isku D2vao/zaku D10var/ku D6varičinu/ku D7varsko/paraku D8zakuvao/ D10

Upit: *skuva*

Upitni termin:skuva

Pronađeno u indeksu:skuva/, skuvam/i

Odgovara terminima:skuva, iskuvam

Pronađena dokumenta:D2, D9

Page 21: Pro širenja invertovano-indeksnih operacija

21

Realan (realniji) primer - 2

D1: A ako ovako potraje, ja ni tri meseca neću izdržati, za tri meseca neću moći da izdam platu ni onima što zaista rade.

D2: Tako, na primer, posmatrajući list uočavamo njegov spoljašnji oblik, veličinu, izgled oboda i nerava.

D3: Operem ga i ceo patos izribam. D4: Iz definicije neposredno sledi da je izomorfizam poliedara

relacija ekvivalencije. D5: Sad su i po rukama. Imam kratke rukave. Zavlače se i ispod

rukava. D6: Povukoh vodu i rekoh sažaljivo, kao da osuđenom izbijam

stolicu ispod nogu: "Davi se."

Page 22: Pro širenja invertovano-indeksnih operacija

22

Originalni termini:

izbijam/ izdam/ izgled/ imam/ izribam/ izomorfizam/

Rotirani termini: izbijam/, /izbijam, m/izbija, am/izbij,

jam/izbi, ijam/izb, bijam/iz, zbijam/i izdam/, /izdam, m/izda, am/izd, dam/iz,

zdam/i izgled/, /izgled, d/izgle, ed/izgl, led/izg,

gled/iz, zgled/i imam/, /imam, m/ima, am/im, mam/i izribam/, /izribam, m/izriba, am/izrib,

bam/izri, ibam/izr, ribam/iz, zribam/i izomorfizam/, /izomorfizam,

m/izomorfiza, am/izomrofiz, zam/izomorfi, izam/izomorf, fizam/izomor, rfizam/izomo, orfizam/izom, morfizam/izo, omorfizam/iz, zomorfizam/i

Page 23: Pro širenja invertovano-indeksnih operacija

23

Konačan indeks:

/imam D5/izbijam D6/izdam D1/izgled D2/izomorfizam D4 /izribam D3am/im D5am/izbij D6am/izd D1am/izomrofiz D4am/izrib D3bam/izri D3bijam/iz D6d/izgle D2dam/iz D1

Upit: iz*am

Upitni termin:am/iz

Pronađeno u indeksu:am/izbij, am/izd, am/izomorfiz, am/izrib

Odgovara terminima:izbijam, izdam, izomorfizam, izribam

Pronađena dokumenta:D1, D3, D4, D6

m/izda D1m/izomorfiza D4m/izriba D3mam/I D5morfizam/izo D4omorfizam/iz D4orfizam/izom D4rfizam/izomo D4ribam/iz D3zam/izomorfi D4zbijam/i D6zdam/i D1zgled/i D2zomorfizam/I D4zribam/i D3

ed/izgl D2fizam/izmorf D4gled/iz D2ibam/izr D3ijam/izb D6imam/ D5izam/izomorf D4izbijam/ D6izdam/ D1izgled/ D2izomorfizam/ D4izribam/ D3jam/izbi D6led/izgl D2m/ima D5m/izbija D6

Page 24: Pro širenja invertovano-indeksnih operacija

24

Regulisanje veličine izlaza bulovskih upita Standardno korišćenje bulovskih formulacija

upita može da postavlja mnogo problema korisnicima jer je izlaz pretrage osetljiv na formulaciju upita, i može ozbiljno da varira sa veoma malim promenama u formulaciji upita.

Osim toga, nedostatak jednostavne kontrole nad veličinom izlaza i proizvodnja rezultata pretrage koji nisu ni na koji način rangirani prema nekoj pretpostavljenoj koristi za korisnika, komplikuje pretragu za mnoge neobučene korisnike.

Mnoge metode su razvijene koje pojednostavljuju operacije pretrage, a u isto vreme zadržavaju tehnogiju pretraživanja utemeljenu na bulovskim formulacijama upita i na standardnim metodama objedinjavanja lista.

Page 25: Pro širenja invertovano-indeksnih operacija

25

Sistem sa pronalaženjem na željenom nivou Kod ovakvog pronalaženja, originalni bulovski upit koji

sadrži n termina se zamenjuje novim upitom koji je izabran iz liste Bulovskih upita od istih n termina, a koji variraju od vrlo uskih formulacija gde je svih n termina uključeno u jedan and iskaz (A and B and ...)

do veoma širokih formulacija gde je svih n termina uključeno u jedan or iskaz (A or B or ...).

Među-upiti se sastoje, prvo od disjunkcije n and iskaza, pri čemu je svaki od ovih n iskaza dobijen od najuže formulacije brisanjem iz nje jednog člana. Sledeća formulacija je još opuštenija i sastoji se od disjunkcije and iskaza koji su iz najuže formulacije dobijeni brisanjem dva člana, i tako redom, dok se ne dođe do or iskaza koji povezuju samo po jedan upitni termin.

Page 26: Pro širenja invertovano-indeksnih operacija

26

Primer: Hijerarhija upita sa četiri upitna termina: A, B, C, DBrojupita

Hijerarhija upita(od najužeg do najšireg)

Brojprona-đenih

Broj prona-đenih rele-vantnih

0 (A B C D) 2 2

1 (A B C) (A B D) (A C D) (B C D)

6 5

2 (A B) (A C ) (A D) (B C) (B D) (C D)

23 15

3 (A B C D) 86 25

Page 27: Pro širenja invertovano-indeksnih operacija

27

Pretraživanje COBISS kataloga Narodne in univerzitetne knjižnice u Ljubljani Pretraživanje s ključevima

AU=Andrić – autor Andrić PY=1988 - godina izdanja 1988 TI=*avlija – naslov dela se završava sa

“avlija” PU=Prosveta – izdavač Prosveta

Page 28: Pro širenja invertovano-indeksnih operacija

28

(AU=Andrić) AND (PY=1988) AND (TI=*avlija) AND (PU=Prosveta)

2 2

prozor_1

((AU=Andrić) AND (PY=1988) AND (TI=*avlija)) OR ((AU=Andrić) AND (PY=1988) AND (PU=Prosveta)) OR ((AU=Andrić) AND (TI=*avlija) AND (PU=Prosveta)) OR ((PY=1988) AND (TI=*avlija) AND (PU=Prosveta))

11 10

prozor_2

((AU=Andrić) AND (PY=1988)) OR ((AU=Andrić) AND (PU=Prosveta)) OR ((AU=Andrić) AND (TI=*avlija)) OR ((PU=Prosveta) AND (TI=*avlija)) OR ((PY=1988) AND (PU=Prosveta)) OR ((TI=*avlija) AND (PY=1988))

205 (4/30)*205=27

prozor_3

(AU=Andrić) OR (PY=1988) OR (TI=*avlija) OR (PU=Prosveta)

34044 ?

prozor_4dalje

Page 29: Pro širenja invertovano-indeksnih operacija

29

(AU=Andrić) AND (PY=1988) AND (TI=*avlija) AND (PU=Prosveta)

nazad

Page 30: Pro širenja invertovano-indeksnih operacija

30

((AU=Andrić) AND (PY=1988) AND (TI=*avlija)) OR ((AU=Andrić) AND (PY=1988) AND (PU=Prosveta)) OR ((AU=Andrić) AND (TI=*avlija) AND (PU=Prosveta)) OR ((PY=1988) AND (TI=*avlija) AND (PU=Prosveta)) nazad

Page 31: Pro širenja invertovano-indeksnih operacija

31

((AU=Andrić) AND (PY=1988)) OR ((AU=Andrić) AND (PU=Prosveta)) OR ((AU=Andrić) AND (TI=*avlija)) OR ((PU=Prosveta) AND (TI=*avlija)) OR ((PY=1988) AND (PU=Prosveta)) OR

((TI=*avlija) AND (PY=1988)) nazad

Page 32: Pro širenja invertovano-indeksnih operacija

32

(AU=Andrić) OR (PY=1988) OR (TI=*avlija) OR (PU=Prosveta)

nazad

Page 33: Pro širenja invertovano-indeksnih operacija

33

Odnos širine upita i broja pronađenih dokumenata U hijerarhiji upita kakva je prikazana u

prethodnim primerima može se očekivati da broj pronađenih dokumenata raste sa širinom upita.

Korisnik tada može da izabere formulaciju iz hijerahije upita koja izdvaja onoliko dokumenata koliko odgovara njegovim potrebama i mogućnostima.

Kada je izabrani upit veoma uzak, ukupan broj pronađenih stavki biće mali, ali će najveći broj njih biti relevantan. S druge starne, kod širokih upita izlaz je veliki, ali može se očekivati da će deo relevantnih dokumenata među svim izdvojenim biti mnogo manji.