Download - Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST
![Page 1: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/1.jpg)
Gestão e Recuperação de Informação
Recuperação de Informação na Web
José Borbinha – DEI/IST
![Page 2: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/2.jpg)
2
• O problema• A Web superficial• A Web profunda• Outros assuntos
Recuperação de Informação na Web
![Page 3: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/3.jpg)
3
Recuperação de Informação na Web: O Problema
http://news.netcraft.com/archives/2006/04/06/april_2006_web_server_survey.html
Quantos objectos?Quantas páginas?Como achar algo?
![Page 4: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/4.jpg)
4
O “cyberespaço” em 1995
http://robot-club.com/lti/pub/lycos-websize-9510.html
![Page 5: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/5.jpg)
5
O “cyberespaço” indexado pelo Lycos em 1995(“...Between Nov 21, 1994 and Jan 31, 1995, Lycos successfully
downloaded at least one file from 15,858 unique HTTP servers...”)
http://robot-club.com/lti/pub/lycos-websize-9510.html
![Page 6: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/6.jpg)
6
A “Web” em 1999...(“By analyzing the overlap between engines we estimated a lower bound on the size of the "publicly indexable Web" at 320 million pages (see below for more details). The "publicly
indexable Web" excludes pages typically not indexed by the major search engines, e.g. pages behind search forms or authorization requirements. The following figure shows the estimated
coverage of six major Web search engines compared to the estimated size of the Web.”)
http://www.cs.biu.ac.il/home/search/studies/lawrence.htm
![Page 7: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/7.jpg)
7
Como achar algo na Web... ainda por cima quando nem tudo é estático...???
Web Superficial
Web Profunda
![Page 8: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/8.jpg)
8
• O problema• A Web superficial
– Directórios e Catálogos– Search Engines
• A Web profunda• Outros assuntos
Recuperação de Informação na Web
![Page 9: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/9.jpg)
9
No princípio: Directórios e Catálogos
–Yahoo, SAPO, ...–Subject Gateways (Renardus, ...) – ...
![Page 11: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/11.jpg)
11
“Subject Gateways”Renardus – Classificação de recursos de qualidade da web... “à mão”!!!
![Page 12: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/12.jpg)
12
Renardus “mapping tool”...
ddc: Sistema de classificação decimal de
Dewey
![Page 13: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/13.jpg)
13
A “raposa” não resistiu...
![Page 14: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/14.jpg)
14
Mas ainda restam alguns persistentes...
![Page 15: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/15.jpg)
15
Search Engines
–Altavista, Google, A9, tumba!...–Anatomia de uma search engine
![Page 16: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/16.jpg)
16
Altavista...
Yahoo!
AltaVista
![Page 17: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/17.jpg)
17
1998: Google!!!
![Page 18: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/18.jpg)
18
A9.com
![Page 19: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/19.jpg)
19
![Page 20: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/20.jpg)
20
![Page 21: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/21.jpg)
21
tumba! (Temos Um Motor de Busca Alternativo!)
• Motor de busca para sites “portugueses” (de Portugal)
• Suporte ao Arquivo da “Web Portuguesa”
![Page 22: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/22.jpg)
22
Web
Anatomia de uma “Search Engine”
Cra
wle
rs
Rep
osito
ry
Inde
Eng
ine
Ran
king
Eng
ine
Pres
enta
tion
Engi
ne
![Page 23: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/23.jpg)
23
Uma nova área de negócio: ajudar clientes a ter os seus sites melhor “classificados” nos motores de busca...
Caso: “big feet” e Google (Financial Times – UK, September 16, 2005)[http://www.ufppc.org/content/view/3416/36/]...
![Page 24: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/24.jpg)
24
btw, Caso da Semana...
![Page 25: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/25.jpg)
25
• O problema• A Web superficial• A Web profunda
– Pesquisa distribuída– Partilha de Metadados
• Outros assuntos
Recuperação de Informação na Web
![Page 26: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/26.jpg)
26
A Web profunda
• Pesquisa Distribuída– Z39.50 / SRU (relembrar aula 5)
![Page 27: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/27.jpg)
27
Servidores Z39.50 em bibliotecas Portuguesas:
![Page 28: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/28.jpg)
28
b-on
![Page 29: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/29.jpg)
29
Metalib (suporte à b-on...)
http://www.emeraldinsight.com/fig/0721040101001.png
Z39.50HTTP/HTML
...
![Page 30: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/30.jpg)
30
A Web profunda
• Partilha de Metadados– OAI-PMH, Syndication (RSS, ATOM, ...)
![Page 31: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/31.jpg)
31
OAI-PMHProtocol for Metadata Harvesting
(http://www.oaforum.org/tutorial/image/structure-model.gif)
Web-Services segundo o modelo
REST...
![Page 32: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/32.jpg)
32
TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50
![Page 33: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/33.jpg)
33
TEL Portal...
TELcentral index
SRUZ39.50
SRU
Z39.50
OAI-PMH
Search and Retrieval in TEL: Actual Scenario
![Page 34: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/34.jpg)
34
Search and Retrieval in TEL: A Desired Scenario (project TELplus...)
“intelligent” TEL Portal...
TELcentral index
SRU
OAI-PMHOAI-PMH
Z39.50
![Page 35: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/35.jpg)
35
Scholar Google: interoperabilidade com a “Web Profunda”
![Page 36: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/36.jpg)
36
Scholar Google: interoperabilidade com a “Web Profunda”
![Page 37: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/37.jpg)
37
“link” para a “Web
Profunda”...
![Page 38: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/38.jpg)
38
Google News
Feeds em RSS
(RDF) e ATOM (XML)
![Page 39: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/39.jpg)
39
• O problema• A Web superficial• A Web profunda• Outros assuntos
– A Web Semântica– Preservação da Web
Recuperação de Informação na Web
![Page 40: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/40.jpg)
40
A Web Semântica...
![Page 41: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/41.jpg)
41
Preservação da Web
Dinâmica
Estática
Superficial
Profunda
![Page 42: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/42.jpg)
42
Preservação da Web: Internet Archive
![Page 43: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/43.jpg)
43
Preservação da Web: waybackmachine
![Page 44: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/44.jpg)
44
Preservação Digital...
![Page 45: Gestão e Recuperação de Informação Recuperação de Informação na Web José Borbinha – DEI/IST](https://reader036.vdocuments.pub/reader036/viewer/2022062818/5706384c1a28abb8238f6417/html5/thumbnails/45.jpg)
45
Perguntas?