recuperação de informações estéfane george m. de lacerda

Recuperação de Informações

Estéfane George M. de Lacerda

Agentes na Web

• Agentes tem surgido na web de várias maneiras

– Busca

– Filtram e recuperam Informações

– Agentes notificadores

– Suporte ao Comércio

– Chat

– Outros...

Agentes na Web

• Os mais populares Agentes na Web tem sido usado em sistemas de recuperação de informações na web

A Web

• Informação não estruturada• 400 a 500 milhões de documentos (Jul, 1998,

IEEE internet computer).• Duplica de tamanho a cada 4 meses• Multilíngue• Ambígua

Caos para se buscar informações

Tipos de sistemas de Busca na Internet

• Sistemas que usam Diretórios (Yahoo e Magellan)– Catalagos organizados hierarquicamente.

• Sistemas que automatizam a organização das informações na Web. (Altavista, Lycos, WebCrawler, HotBot, Excite). – Robôs ou spiders que exploram a web em

busca de páginas.– A principal tecnologia desses sistemas provém

da área de Recuperação de informação.

Introdução a Recuperação de Informação

• Full text scanning (KMP, Boyer e Moore etc...)• Arquivos de assinatura• Inversão • Indexação• Modelo Booleano • Modelo do Espaço Vetorial

ID doc2

Inversão

ID doc1

Java tutorial

Sun´s Java Site

good

tutorial

on

java

sun

site

doc1

doc1,doc2

doc1

doc1,doc2.doc3

doc3

doc3

Índice invertido

Coleção de Documentos

ID doc3

Good tutorial on Java

Preparação do documento p/ Indexação

• Análise léxica• Stop list : palavras que não são úteis para

recuperação de informações (e.g. palavras comuns, preposição, artigos, etc..)

• Stemming: processo de remover prefixos e sufixos das palavras do documento

engineering engineered engineer

engineer engineer engineer

Term Stem

Modelo Booleano

• A query é uma expressão com AND, OR e NOT• O documento é relevante se o resultado da query

é verdadeiro.• Tem baixo desempenho e não é possivel ranking

de documentos relevantes.

Modelo do Espaço Vetorial

• Documentos e query são representados por um vetor com n dimensões, onde n é o numero de termos diferentes na coleção de documentos.

Achar documentos é comparar o vetor de documentos com o vetor query do usuário

Modelo do Espaço Vetorial

good

tutorial

on

java

sun

site

w11

doc1

w12

w13

w14

0

0

0

doc2

w22

0

w24

0

0

0

doc3

0

0

w34

w35

w36

0

query

0

0

w4

0

0

0 : Indica ausência do termo wit : Peso que indica a importância do termo

termosvetores

Atribuição de pesos

• Term Frequency x Inverse Document Frequency (TF x IDF)

wij = fd,t log(N/fi)

N é o número total de documentos

ft é o número de docs que contém o termo t

fd,t : número de ocorrências do termo t no doc i

• Esta função atribui altos pesos para palavras raras, pois são melhores discriminantes.

Ranking de documentos

• Os documento mais relevantes são retornados ao usuário de acordo com a similaridade entre vetor query e vetor documento

• Medida de similaridade R é dado pelo produto interno entre vetor query Q com vetor documento D (cosine similarity):

R = Q•D

Medidas de desempenho

Recall: total de documentos relevantes retornados

dividido pelo número total dos relevantes.

Precision: documentos relevantes retornados

dividido pelo número total de retornados

Todos os Documentos

Documentos Relevantes

Documentos Retornados

Relevantes Retornados

Medidas de desempenho

• Note que maximizar apenas uma medida isoladamente é fácil:

– retornando 1 doc tem-se máximo precision, mas péssimo recall

– retornando todos docs tem-se máximo recall, mas péssimo precision

• Portanto, o sistema deve maximizar ambos recall e precision simultaneamente

Relevance Feedback

• Processo de refinar resultados de uma recuperação de informações.

• O usuário indica quais dos documentos retornados são os mais relevantes.

• O sistema busca novos documentos com base naqueles documentos indicados pelo usuário.

• O processo é repetido conforme desejado.

Outras técnicas

• Clusterização de documentos• Machine learning• Redes Neurais• Processamento de Linguagem natural

Estudo de caso: o WebCrawler

Internet

Queryserver database

Searchengine

agentswwwlib

Componentes do software do Webcrawler


• Search engine– Começa com um conjunto de HTML´s e usa

suas URL´s para recuperar novos documentos.– Atravessa a web usando busca em largura no

grafo formado pelos links entre documentos– Indexa no mínimo um documento por servidor


• Agents – São eles que realmente recuperam as páginas da

web quando solicitados pelo sistema.• Database

– Prepara documento (Análise léxica, stop-list, stremming, determina pesos usando TF.IDF, indexação)

– Os índices são atualizados semanalmente


• Query server– Suporta operadores AND, OR e NOT e frases– Usa o modelo do espaço vetorial– Efetua o ranking dos documentos com base na

similaridade com o vetor query– Apresenta os documentos mais relevantes com

um resumo e um score de relevância

Conclusão

• A necessidade crescente de organizar informações na WEB.

• Usuários não sabem elaborar a “query”, acham complicados, com muitas possibilidades e sem nenhuma orientação.

• Tempo de resposta ainda é lento.• Técnicas IA são cada vez mais necessárias na

Web.

Bibliografia

• Willian B. Frakes e Ricardo Baeza-Yates Information Retrieval: Data Structures & Algorithms,, Prentice Hall, 1992.

• Gudivada, V. N. et al. Information retrieval on the world wide web. IEEE Internet Computing, Oct, 1997.

• Etzioni, O; Weld, D. S. Intelligent Agents on the Internet: Fact, Fiction, and Forecast, IEEE Expert, Aug., 1995.

• Pinkerton. B. Finding What people want. Experiences with webcrawler. Proc. Second. Int´L www conf., 1994. (http://www.ncsa.uiuc.edu/SDG/IT94/Proceedings/Searching/pinkerton/WebCrawler.html)

• Oard D. W. The State of the Art in Text Filtering,, University of Maryland, 1997.

Referências - Links

• http://almond.srv.cs.cmu.edu/afs/cs/user/katia/www/katia-home.html

• http://www.cs.umbc.edu/agents/• http://www-kr.org/~chitos/ir_and_robot/

indexing.html

recuperação de informações estéfane george m. de lacerda

Documents