uir 6 trazilice ppt-1

Upload: vasilisa-zar

Post on 10-Jan-2016

228 views

Category:

Documents


0 download

DESCRIPTION

Računari

TRANSCRIPT

  • to su trailiceKako funkcioniraju trailiceOptimizacija pretraivanja

  • www se ne moe pretraivati direktno vee se pretrauje pomou specijaliziranih alata koji skupljaju podatke o web stranicama i formiraju ih u posebne baze podataka, omoguavajui korisnicima da putem hipertekstnih poveznica (linkova) pristupaju pronaenim stranicama.KategorijePretraivai i metapretraivai,Tematski katalozi (imenici)Tematski vodii Specijalizirane baze podataka

  • Web pretraivai (roboti, indeksi) koriste specijalne automatizirane programe za "uljanje", "gmizanje" po Webu ("to crawl the web") koji se nazivaju Web crawlers (gmizavac, unjalo) ili spiders (pauci) [4]. Oni skau s Web mjesta na Web mjesto preko poveznika, prikupljajui naslove svih mjesta, URL, i najmanje neke od njihovih tekstovnih sadraja. Kada nau mjesto, oni pretrauju (snimaju) (scan) Web stranice toga mjesta i zapisuju (record) sve informacije u indeks. Program kojemu je funkcija indeksiranje ekstrahira informacije iz dokumenata i sprema ih u svoju kataloku bazu podataka. Cilj je spidera posjetiti milijune Web mjesta i ostati s njima u vezi koliko god je mogue. U svojemu hodu po mrei spideri raznih pretraivaa meusobno dijele vie baza podataka koje dotiu.

    Web search engine skup programskih alata koji pretrauju informacije na WWW-u. Rezultati se prikazuju u popisu i nazivaju se pogotci. Informacija moe sadravati web stranicu, sliku, tekst i/ili ostale tipove datoteka. Neke trailice imaju alate za rudarenje (u newsbook-u, bazi ili otvorenim direktorijima (katalog kategoriziranih linkova)

  • to imaju i kako rade alati (strojevi) za pretraivanje:Web crawling (pretraivanje plaenje po web i skidanje podataka o posjeenom URL-u)Indeksiranje oznaavanje skinutog materijala prema definiranim kriterijima (naslovima, poglavljima, zaglavljima, posebnim poljima metatagovima) i formiranje baze podatakaTraenje upotrebom jezika upita (SQL-a) postavlja se zahtjev za traenje indeksne baze prema kriterijima za pretraivanje (kljunim rijeima najee ili uz kombinaciju raspoloivih operatora logikih ili posebnih koje podrava SQL)Problem: kako rangirati dobivene rezultate pretraivanja ovisno o znaaju kojeg imaju za korisnika

  • Web crawler raunalni program koji pretrauje WWW na metodolki automatiziran nain (mrav, automatski indekser, web spider, web robot, web skuter)Kreiraju kopije posjeenih stranica za kasnije indeksiranje pomou search engine-a koji e indeksirati skinute stranice za kasnija pretraivanja. Koriste se takoer za prikupljanje specifinih tipova informacija kao to su e-mail adrese (na koje mogu poslati razliiti spam)To je jedna vrsta softverskog agenta; naelno zapoinje s listom URL-a (sjemenje). Kada je crawler posjetio URL, identificirao je hiperveze na stranici dodao ih u listu URL-a (crawl frontier) koje se rekurzivno posjeuju prema skupu postavljenih politika.Politike Crawling je zahtjevan zadatak zbog:Broja URLa i velikog obujma crawleri mogu skidati samo dio (frakciju) web stranice u danom vremenu i moraju definirati prioriteteBrzine kojom se sadraji mijenjaju crawler uzima stranicu u momentu kad je ona raspoloiva i vrlo je vjerojatno da e se u njoj neto ubzo mijenjatiDinamike prirode promjena na web stranicama server side scripting utie na dinamike promjene sadraja stranice to predstavlja dodatnu potekou u definiranju broja parametara koji e se koristiti za pretraivanje (nain sortiranja, vrsta prikaza, format datoteke, korisniki parametri....)Dodatni problem: irina pristupnog pojasa (odreuje brzinu veze) odreuje takoer stopu osvjeenja i efikasan nain pretraivanja u ogranienom vremenskom periodu

    Yahoo Crawler (Slurp)Google CrawlerWebCrawler

  • Politika izbora koju stranicu skinuti; vanot stranice je funkcija njoj svojstvene kvalitete popularnosti i broja posjeta ili domene; problem ne moe se znati unaprijed. Pretraivanje prvo u irinu pa u dubinu (Ako je pretraivaje prvo u dubinu vertikalne trailice)Restrikcije na linkove koji e se slijediti (pr. Samo na .html, .asp, .php...)Put k traenom pojmuFokusirani crawlingDuboki crawling pretraivanje pojmova ne samo u naslovu i zaglavljima ve bilo gdjeu tekstu ( Politika ponovnog pregleda kada provjeriti promjene na skinutim stanicama starost i stopa osvjeenja definira se algoritamPolitika uljudnosti kojom se utvruje kako izbjei pretrpavanje web stranica; djelomino rjeenje za problem pretrpavanja servera razliitim robot exclusion protocol administratori odreuju koji dio servera se nee dozvoliti za pregledavanje od strane crawlera.Politika paralelizacije kako koordinirati distribuirane web crawlere biljeenjem URL-a kojeg je jedan crawler pronaaoOptimizacija search engina cilj pozicionirati se na prva mjesta u upotrebi pretraivaa

  • Opi (Major Search Engines) - najpopularniji su i najvaniji i pokrivaju cijeli svijet;(Google
  • paralelni ili viestruki pretraivai simultano pretrauju vie pretraivaa na kraju se korisniku daju integrirani rezultati liste razliitih pretraivaa s prozorom za svaki od njih ne spadaju u prave metapretraivae postoje i viestruki pretraivai koji provode simultano pretraivanje, ali ne kombiniraju rezultatePrimjeri:BYTESEARCH (http://www.bytesearch.com) DOGPILE (http://www.dogpile.com) - brojni pretraivai, Usenet, ima jednostavno i sloeno pretraivanje, Boole INFERENCE FIND (http://www.inference.com/ifind) INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraivanja, omoguava odreivanje kategorije unutar koje se pretrauje (poduzetnitvo, raunala, obrazovanje, sport) MAMMA (http://www.mamma.com) METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora PROFUSION (http://www.profusion.com) SAVVYSEARCH (http://www.savvysearch.com)

  • identificirati vlastiti koncept: traimo li informacijski izvor ili konkretan podatakodabrati kljune rijei (samo jedna kljuna rije moda e nam dati previe pogodaka)odrediti sinonimeodabrati Booleove operatore ili simbolepostaviti ogranienja, filtre (jezik, domena, tip dokumenta, datum, naslovi, URL, poveznici, i drugo).http://www.googleguide.com/web_address.html

  • Web direktorij odrava ga uredniki tim daje popis web mjesta po kategorijama i subkategorijamaUnos sadraja odreen je politikom urednitva: sadri RSS feeds (sadraje koji su vezani uz neko podruje moguih interesa)Primjer: http://directory.google.com/

  • Imeniki servisi omoguuju objavljivanje i pretraivanje elektronikih adresa i ostalih podataka o korisnicima mree (White pages) kao i o uslugama i resursima te davateljima usluga na mrei (Yellow pages).U Hrvatskoj pr. http://ds.carnet.hr

  • http://www.googleguide.com/web_address.htmlhttp://prelog.chem.pmf.hr/~tezak/preinin/preinin/vje21I.html