pronalaženje informacija na web-u
DESCRIPTION
Pronalaženje informacija na WEB-u. Uvod. P ojava i razvoj WEB-a doveli su do značajnih izmena u načinu pristupa informacijama U osnovi, WEB je sačinjen od miliona WEB stranica pohranjenih na računarima širom sveta, a povezanih intrenetom - PowerPoint PPT PresentationTRANSCRIPT
Pronalaženje Pronalaženje informacija na WEB-uinformacija na WEB-u
Mina Milić - Pronalaženje informacija na WEB-u 1/23
UvodUvod Pojava i razvoj WEB-a doveli su do značajnih izmena u
načinu pristupa informacijama U osnovi, WEB je sačinjen od miliona WEB stranica
pohranjenih na računarima širom sveta, a povezanih intrenetom
Razvoj WEB-a započeo je 1989 u CERN-u gde je Tim Berners-Lee sa kolegama kreirao protokol koji je standardizovao komunikaciju između servera i klijenata (HTTP)
WEB dobija veliku popularnost pojavom grafičkog pretraživača Mosaic koji je uveo novi način pristupa WEB informacijama po principu “uperi i klikni”
Ubrzo zatim pojavljuju se i čuveni Netscape Navigator, a nedugo za njim i Internet Explorer
Od tada pa do danas WEB je nastavio da raste eksponencijalnom progresijom
Tradicionalne tehnike pronalaženja informacija morale su biti testirane i modifikovane kako bi se mogle primenjivati za indeksiranje i pronalaženje WEB dokumenata
Mina Milić - Pronalaženje informacija na WEB-u 2/23
Tradicionalno nasuprot WEB Tradicionalno nasuprot WEB pronalaženju informacijapronalaženju informacija WEB pretraživanje se značajno razlikuje od tradicionalnih sistema
za pretraživanje teksta, a to je precizno oslikano kroz deset ključnih razlika:
1. Distribuirana priroda WEB-a • WEB sadržaji su rašireni širom sveta i smešteni na
raznovrsnim platformama koje se međusobno razlikuju, kako hardverski tako i softverski, što značajno otežava indeksiranje i pronalaženje istih
• Sa druge strane, sistemi za pretraživanje teksta uglavnom pretražuju komplete informacija znatno manjeg obima, a dokumenta su uglavnom kreirana prema određenom skupu standardizovanih pravila (npr. OPAC)
2. Veličina i rast WEB-a• Od svog postanka, WEB je rastao eksponencijalno i bilo je
potrebno prilagoditi tradicionlalne tekst pretraživače za rad sa velikim količinama podataka na WEB-u
3. Duboki nasuprot površinskom WEB-u• Postoji razlika između lako dostupnih površinskih inofmacija i
dublje uskladištenih informacija kojih ima znatno više, ali kojima se pristupa isključivo putem posebno ovlašćenih kanala (često zaštićenih šiframa) ili specijalnih programa
Mina Milić - Pronalaženje informacija na WEB-u 3/23
Tradicionalno nasuprot WEB Tradicionalno nasuprot WEB pronalaženju informacijapronalaženju informacija4. Vrste i formati dokumenata
• Sistemi za pronalaženje teksta rade isključivo sa tekstualnim podacima dok se na WEB-u mogu pronaći raznovrsni podaci (od tekstualnih do multimedijalnih) što je znatno teže za indeksiranje i pronalaženje
5. Kvalitet informacija• WEB sadržaji dolaze iz raznih proverenih i neproverenih
izvora što značajno otežava pronalaženje kvalitetnih informacija za razliku od sistema za pretraživanje teksta koji rade sa kontrolisanim izvorima informacija
6. Frekventnost promena• Indeksiranje i pretraživanje WEB-a je značajno otežano
konstantnim promenama i pomeranjima sadržaja za razliku od sistema za pretraživanje teksta gde se jednom unet tekst gotovo nikad ne menja, a u najgorem slučaju jedino u potpunosti ukloni iz sistema
7. Vlasništvo• Jedan od ključnih problema u pronalaženju informacija na
WEB-u su prava pristupa istim, dok su neke potpuno besplatne, za druge se mora platiti naknada
Mina Milić - Pronalaženje informacija na WEB-u 4/23
Tradicionalno nasuprot WEB Tradicionalno nasuprot WEB pronalaženju informacijapronalaženju informacija8. Distribuirani korisnici
• Korisnici WEB informacija su locirani širom sveta što značajno otežava dizajniranje sistema za pronalaženje informacija na WEB-u usled nedostatka informacija o tipu korisnika, navikama pri pretraživanju, lokaciji itd.
• Nasuprot WEB-u, većina sistema za pronalažanje tekstualnih informacija su dizajnirani prema potrebama određene ciljne grupe korisnika čije su potrebe, navike i lokacije unapred poznate
9. Jezička raznolikost• Uprkos jezičkoj raznolikosti prisutnoj na WEB-u, sistemi za
WEB pretraživanje bi trebalo da daju unificirane rezultate bez obzira na jezik na kom je upit postavljen, što značajno otežava dizajniranje istih
10. Problemi finansiranja• Za kreiranje i održavanje efektnog i efikasnog sistema za WEB
pretraživanje neophodni su ogromni materijalni resursi i problem predstavlja činjenica da ne postoji jedinstven izvor finansiranja za poduhvate te vrste, a sa druge strane svima je neophodan što bolji i efikasniji sistem
Mina Milić - Pronalaženje informacija na WEB-u 5/23
WEB informacije: veličina i WEB informacije: veličina i rastrast Merenje veličine i rasta WEB-a je težak zadatak i postoje dva
pristupa: prema broju WEB sajtova na odgovarajućim IP adresama i prema broju pojedinačnih WEB stranica na svim sajtovima
Prema procenama, 2002. godine je postojalo preko devet miliona WEB sajtova
Znatno teže je prebrojati WEB stranice, a procenjuje se da je Google, kao najveći zvanični pretraživač, imao preko 3,8 milijardi indeksiranih stranica još 2003. godine
Postoje dve kategorije informacija na WEB-u:1. Informacije koje su dostupne korišćenjem alata za
pretraživanje WEB-a i koje spadaju u takozvani površinski WEB lako dostupan svim korisnicima
2. Informacije kojima se može pristupiti isključivo pomoću posebnih programa koji se aktiviraju na WEB stranicama i koje spadajau u takozvani duboki WEB. Informacije ovog tipa smeštene su u odgovarajućim bazama podataka dostupnim za pretraživanje isključivo na direktan zahtev
Mina Milić - Pronalaženje informacija na WEB-u 6/23
WEB informacije: veličina i WEB informacije: veličina i rastrast Istraživanja iz 2000. godine pokazuju da je još tada odnos između
količine podataka površinskog i dubinskog WEB-a bio 1:500 Potrebno je naglasiti da ukupan broj indeksiranih stranica veoma
varira među pretraživačima, ali je činjenica da nijedan od pretraživača ne indeksira više od 16% površinskog WEB-a
Ako se uzme u obzir da se uopšte ne vrši indeksiranje dubinskog WEB-a usled tehnologije pretrage WEB pretraživača, dolazi se do zaključka da današnji pretraživači indeksiraju svega 0.03% dostupnih WEB stranica
Bez obzira na ovako male cifre, indeksirati 4 milijarde WEB stranica (Google) podrazumeva skladištenje ogromne količine dokumenata, znatno veće nego što je bilo koja preko interneta dostupna baza podataka
Dodatni problem čine i konstantne promene sadržaja WEB stranica pa čak i brisanja kompletnih stranica, te stoga, prema Rasmusenu, dinamička priroda WEB-a čini ključnu razliku između tradicionalnih i WEB tehnika pronalaženja informacija
Postoji još jedna ključna razlika, a to je broj izvršenih dnevnih pretraga. Dizajn konvencionalnih sistema za pronalaženje informacija jednostavno ne dozvoljava toliko ogroman broj dnevnih pretraga koliko se izvrši na bilo kom od svetski poznatih WEB pretraživača
Mina Milić - Pronalaženje informacija na WEB-u 7/23
Alati za pristup informacijama na Alati za pristup informacijama na WEB-uWEB-u Korisnik pristupa internetu unošenjem URL-a u odgovarajući
kompjuterski program, takozvani WEB pretraživač (Mozilla, Netscape...) koji u osnovi ima dva glavna zadatka:1. Pristupa WEB serveru i iz mreže “dovlači” odgovarajuću
stranicu na ekran vašeg računara2. Interpretira HTML kod na odgovarajući način tako da stranica
izgleda onako kako je njen autor zamislio Iako korisnici mogu na jednostavan način pretraživati WEB
ukucavanjem URL-a i praćenjem linkova, problem nastaje kada se traži specifična informacija u moru WEB sajtova i WEB stranica
Da bi se prevazišao ovaj problem, dizajnirano je nekoliko alata za pretraživanje što je omogućilo da pretraživanje konkretnih informacija na WEB-u bude krajnje jednostavno
U osnovi, postoje dva načina traženja informacija1. Praćenjem linkova u specijalnoj listi zvanoj direktorijum2. Korišćenjem pretraživača koji pretražuju redovno ažuriranu, ali
fiksnu bazu podataka (koju kreira alat zvani Pauk) na odgovarajuću reč ili frazu koju korisnik unosi i prezentuju odgovarajuće WEB stranice iz te baze
Mina Milić - Pronalaženje informacija na WEB-u 8/23
Kako rade pretraživačiKako rade pretraživači Iako svi pretraživači, u osnovi, imaju isti cilj, u mnogome
se međusobno razlikuju – prema brzini pretrage, načinu prikazivanja podataka, veličini baze podataka, frkvenciji njenog osvežavanja kao i kriterijumima indeksiranja stranica
Bez obzira na razlike među pretraživačima, svi oni, u osnovi, imaju sledeće tri osnovne funkcije:1. Pretraživanje interneta prema određenom kompletu kriterijuma
2. Čuvanje indeksa pronađenih reči i fraza, njihovih adresa, broja pristupa itd.
3. Omogućavaju korisnicima pretragu na reči, fraze ili kombinacije istih prema već formiranom indeksu
Tri osnovne komponente svakog pretraživača su:1. Pauk
2. Softver sa interfejsom za pretraživanje
3. Indeks
Mina Milić - Pronalaženje informacija na WEB-u 9/23
PaukPauk Pauk je program koji automatski donosi WEB
stranice pretraživačima Pauk tretira WEB kao graf i na osnovu unesenog
URL-a on redom iščitava stranice prateći sve linkove bilo po dubini (prateći jedan link do kraja) ili po širini (posećujući redom sve linkove sa jedne strane) čime odaje utisak puzanja po WEB-u
Osnovni problem pauka je odluka o indeksiranju stranice - kvalitet WEB stranice koja će biti indeksirana može da se odredi na osnovu broja poseta toj stranici što baš i nije jednostavno izračunati ili na osnovu broja linkova ka toj stranici što je, generalno, mnogo češći kriterijum indeksiranja programa ovog tipa
Drugi značajan problem je određivanje frekvencije ponovnog posećivanja stranica koje su već indeksirane i proveravanje da li je došlo do izmena njihovih sadržaja
Mina Milić - Pronalaženje informacija na WEB-u 10/23
Softver za pretraživanjeSoftver za pretraživanje Softver za pretraživanje je program za pronalaženje
informacija koji ima dva osnovna zadatka:1. Poređenje unosa sa milionima zapisa sačuvanih u
indeksu2. Rangiranje pronađenih zapisa (WEB stranica) prema
određenom redosledu Svaki pretraživač ima sopstveni kriterijum čuvanja ili
odbacivanja ključnih reči pretrage prema tome gde se ta reč pojavljuje (naslov stranice, link, meta-tag...) ili koliko često se ta reč pojavljuje itd.
Prema tome, različiti pretraživači daju različite rezultate na istu reč pretrage ili različit redosled istih rezultata (pronađenih WEB stranica) itd.
Google koristi princip rangiranja stranica za određivanje važnosti stranice tako što vrši analizu citiranja te stranice tj. najvažnije i time prvorangirane na listi rezultata su one stranice na koje ukazuje najveći broj linkova
Mina Milić - Pronalaženje informacija na WEB-u 11 /23
IndeksiranjeIndeksiranje Stariji pretraživači su indeksirali samo pojedine
komponente svake WEB stranice, ali se sve češće indeksiraju kompletni tekstovi sa WEB stranica
WEB pretraživači uglavnom čuvaju u tajnosti algoritme koje koriste za pretraživanje (uglavnom su to varijacije Bulovog i modela vektosrkog prostora)
Jedno od glavnih pravila kojim se algoritmi vode pri rangiranju je lokacija i frekventnost ključnih reči na WEB stranici• Bitna je lokacija termina pretrage na samoj stranici,
pa ako se on nalazi u naslovu HTML koda tretiraće se važnijim nego ostali ili ako se pojavljuje u paragrafima bližim naslovu itd.
• Stranice na kojima se termini pretrage često pojavljuju tretiraju se važnijim od drugih WEB stranica
Mina Milić - Pronalaženje informacija na WEB-u 12 /23
ProcesProces Pretraživači uglavnom drže u tajnosti svoje
procese “puzanja” i indeksiranja, ali Google javno objavljuje svoju metodologiju koja se sastoji od sledećih koraka:• Puzanje po WEB-u (skidanje WEB stranica) radi
se pomoću nekoliko distribuiranih paukova• URL server šalje paucima listu URL-ova• Dohvaćene WEB stranice se šalju serveru za
skladištenje podataka gde se kompresuju i odlažu u skladište
• Svakoj od tih WEB stranica se dodeljuje identifikacija (docID) čim se njen URL isparsira
• Funkciju indeksiranja vrše indekser i sorter• Indekser čita materijal iz skladišta,
dekompresuje dokumenta i parsira ih
Mina Milić - Pronalaženje informacija na WEB-u 13 /23
ProcesProces• Svaki dokument se konvertuje u komplet takozvanih pogodaka
(pojavljivanja specifičnih reči), a pogotci dokumentuju reč, njenu poziciju u dokumentu, aproksimaciju veličine fonta, prisustvo velikih slova
• Indekser distribuira pogotke u takozvane komplete barela i kreira delimično sortirani indeks
• Indekser takođe parsira linkove sa svake WEB stranice i važne informacije o njima smešta u tzv. sidarni fajl koji sadrži dovoljno informacija da odredi izvor i odredište svakog linka kao i njegov tekst
• Razrešivač URL-ova čita sidarne fajlove i konvertuje relativne URL-ove u apsolutne URL-ove, a zatim u docID. On vezuje tekst iz sidarnog falja i odgovarajući docID i smešta ih u indeks. Razrešivač takođe kreira bazu linkova uparenih sa docID za kasnije izračunavanje ranga stranice za sve dokumente
• Sorter uzima barele (sortirane prema docID) i kreira invertovan indeks sortiran prema wordID, a pored toga kreira i listu wordID
• Program DumpLexicon sastvalja ovu listu sa leksikonom koji je kreirao indekser i kreira novi leksikon koji će koristiti tragač
• Tragača pokreće WEB server i on koristi gore kreirani leksikon zajedno sa invertovanim indeksom i rangom stranica da da konačan odgovor na upit
Mina Milić - Pronalaženje informacija na WEB-u 14 /23
Tipovi pretraživačaTipovi pretraživača Rezultati WEB pretrage zavise od izbora samog pretraživača
usled razlike u indeksiranju, osvežavanju indeksiranih stranica, a i po različitim mogućnostima pretraživača
Najgrublja podela pretraživača je na klasične i meta pretraživače – alati koji omogućavaju korisnicima da vrše paralelnu pretragu preko više pretraživača
Neki ih dele prema karakteristikama indeksiranja, a Saliven sa Searchenginewatch.com je podelio pretraživače na sedam kategorija:1. Generalni pretraživači (http://www.google.com)2. Pretraživači novina (http://news.altavista.com)3. Specijalizovani pretraživači (http://www.askjeeves.com)4. Pretraživači za decu (http://www.yahooligans.com)5. Meta-puzači poput Dogpile (http://www.dogpile.com/info.dogpl/)6. Multimedijalni pretraživači (http://images.google.com)7. Regionalni i državni pretraživači poput Evropskih ili Japanskih
pretraživača (http://www.webmasterworld.com/forum18/544.htm)
Mina Milić - Pronalaženje informacija na WEB-u 15 /23
Zajedničke karakteristike Zajedničke karakteristike pretraživanja WEB pretraživačapretraživanja WEB pretraživača Skoro svi pretraživači poseduju osnovne karakteristike
tekstualne pretrage:• Bulova pretraga kroz tri glavna pristupa:
1. Korišćenjem AND, OR i NOT2. Korišćenjem ‘+’ i ‘-’ ispred termina pretrage3. Korišćenjem opcija poput ‘sve reči’, ‘neka od reči’ ili ‘nijedno od reči’
• Približna pretraga uz primenu odgovarajućeg operatora tipa ‘NEAR’• Pretraga po polju tj pretraga naslova korišćenjem termina ‘u naslovu’
ispred termina pretrage• Pretraga fraza unošenjem odgovarajuće fraze u duple navode• Ograničavajuća pretraga (po vremenu, datumu, tipu fajla, jeziku
pretrage itd.) Ovo su neke od tradicionalnih metoda pretraživanja koje su
prisutne u modernim WEB pretraživačima, a možemo im vrlo jednostavno pristupiti preko naprednih funkcija pretraživanja koje dodatno omogućavaju korisnicima vrlo naprednu i kompleksnu pretragu na krajnje pojednostavljen način
Mina Milić - Pronalaženje informacija na WEB-u 16 /23
Intefejs za naprednu pretragu Goolge pretraživača
Mina Milić - Pronalaženje informacija na WEB-u 17 /23
Zajedničke karakteristike Zajedničke karakteristike pretraživanja WEB pretraživačapretraživanja WEB pretraživača Pored tradicionalnih tehnika pretraživanja, napredne opcije
pretrage kod popularnih pretraživača nude i neke metode pretrage optimizovane isključivo za pretragu WEB sadržaja koje generalno nazivamo specijalnim funkcijama pretraživača:• Pretraživanje domaćina/domena – korisnici Googla mogu uneti ime domena
(URL), a zatim izabrati da li da dobiju sadržaj tog domena ili ne• Pretraživanje URL-a – korisnici mogu u polje za pretragu direktno uneti URL• Pretraživanje linka – u naprednim opcijama korisnici mogu uneti URL da otkriju
koje stranice imaju link ka njemu• Ograničena pretraga – limitirana izabranim faktorima poput jezika pretrage,
formata fajla, datuma, pojavljivanja i domena• Pronađi slično – opcija koja pronalazi stranice slične unetoj• Pretraga prema jeziku• Filtriranje – opcija koja ne dozvoljava da pretraživač prikazuje neželjeni sadržaj• Prevođenje stranice – mogućnost prevoda unetog teksta na željeni jezik• Prikaz rezultata – korisnici mogu da izaberu broj prikazanih stranica na ekranu
prilikom pretrage
Mina Milić - Pronalaženje informacija na WEB-u 18 /23
Zajedničke karakteristikeZajedničke karakteristike pretraživanja WEB pretraživačapretraživanja WEB pretraživačaUzevši u obzir da je Google trenutno
najpopularniji pretraživač na internetu, evo još nekoliko specijalnih opcija koje on nudi korisnicima:• “I’m Feeling Lucky” – učitava prvu
stranicu iz rezultata pretrage• Google Toolbar – omogućava
korisnicima da instaliraju polje za pretragu pomoću Googla direktno na svoj internet pretraživač• TouchGraf GoogleBrowser – prikazuje
korisniku kako WEB izgleda kroz linkove među korisnikovim omiljenim sajtovima
Mina Milić - Pronalaženje informacija na WEB-u 19 /23
Specijalizovani pretraživačiSpecijalizovani pretraživači Pored pretrage teksta, pretraživači omogućavaju
i pronalaženje multimedijalnih informacija, međutim, postoje i specijalizovani pretraživači koji pružaju mogućnost da sam upit bude nekonvencionalan• Upit prirodnim jezikom
Pretraživači poput Askjeeves.com omogućavaju korisnicima da upit unose kao što bi to činili sa nekom osobom u svakodnevnom govoru – prirodnim jezikom. To znači da korisnik ne mora da razmišlja o Bulovim operatorima već jednostavno može uneti kompletnu rečenicu kao upit i dobiti odgovor u formi upita odnosno direktne smernice ka sajtovima koji sadrže odgovor
• Vizuelizacija Pretraživači poput Kartoo.com ili TouchGrapf
GoogleBrowser-a prezentuju rezultate pretrage na drugačiji način. Oni grafički odnosno vizuelno prikazuju rezultate pretrage na ekranu za razliku od standardne tekstualne liste
Mina Milić - Pronalaženje informacija na WEB-u 20 /23
Rezultati pretrage sajta Kartoo
Mina Milić - Pronalaženje informacija na WEB-u 21 /23
Rezultati pretrage sajta TouchGraph GoogleBrowser
Mina Milić - Pronalaženje informacija na WEB-u 22 /23
ZaključakZaključak
Mnogobrojnim statističkim analizama, stručnjaci su došli do veoma važnih zaključaka kada je u pitanju korišćenje WEB pretraživača i kvalitet pronalaženja odgovarajućih informacija:• Većina upita su kratki, nemodifikovani i veoma
proste strukture• Veoma su retke pretrage koje uključuju napredne
metode, a i polovina takvih pretraga su pogrešne• Iako svaka pretraga pruži ogroman broj sajtova kao
odgovor na upit, ljudi najčešće ne pogledaju dalje od prve eventualno druge stranice izlistanih sajtova
• Korisnike ne zanima previše značaj povratnih informacija
• Korisnici imaju poteškoća oko formulisanja svojih upita
• Generalno, korisnici provode malo vremena pretražujući baze podataka WEB pretraživača
Mina Milić - Pronalaženje informacija na WEB-u 23 /23