gsi024 - organiza˘c~ao e recupera˘c~ao da informa˘c~aoilmerio/ori/ori_s7_avaliacao.pdf · est...
TRANSCRIPT
UFU/FACOM/BSI 7-Avaliacao
GSI024 - Organizacao e Recuperacao daInformacao
Ilmerio Reis da Silva
UFU/FACOM/BSI
Arquivo 7 - Avaliacao
GSI024-ORI Pg:7. 1
UFU/FACOM/BSI 7-Avaliacao
7-Avaliacao
• Sumario de resultadosTornando os resultado uteis ao usuario
• Como avaliar os resultados
– Benchmarks– Precisao e revocacao (abrangencia)
GSI024-ORI Pg:7. 2
UFU/FACOM/BSI 7-Avaliacao
Sumario de Resultados
• Como apresentar o ranking
• lista (tıtulo, resumo)*
• tıtulo extraıdo do documento
• e o resumo?
GSI024-ORI Pg:7. 3
UFU/FACOM/BSI 7-Avaliacao
Construindo ResumosEstatico e Dinamicao
• Estatico: independente da consulta.neste caso o objetivo e expressar o conteudo documento
• Dinamico: dependente da consultaneste caso o objetivo e explicar porque o documento foi recuperado
GSI024-ORI Pg:7. 4
UFU/FACOM/BSI 7-Avaliacao
Resumos Estaticos
• subconjunto de termos do documento
• resumo simples: 50 primeiras palavras do documento, extraıdas na indexacao
• sofisticada: extrair um conjunto de sentencas chave
– use heurısticas de processamento de linguagem natural (NLP)– extrair as sentencas de topo em um ranking
• mais sofisticada: resumo sintetico baseado em NLP (uma area de pesquisa emRI)
GSI024-ORI Pg:7. 5
UFU/FACOM/BSI 7-Avaliacao
Resumos dinamicos
• apresentam uma ou mais janelas do documento, contendo termos da consulta(KWIC : keyword-in-context)
• baseada em score: primeiro frases, depois palavras
• Construcao:
– com ındice posicional e difıcil– varredura do documento apos identificar posicoes no ındice– Exemplo:
ındice localiza frase na posicao 4378acessa documento original (armazenado no tempo de indexacao)mas em geral, somente um prefixo do documento e armazenado.
GSI024-ORI Pg:7. 6
UFU/FACOM/BSI 7-Avaliacao
Resumos
• construir resumos dinamicos e um problema de otimizacao
• geralmente sao pequenos e fixos
• destaca-se KWIC nos resumos fixos ou em tıtulos
• usuarios preferem trechos contendo frases da consulta
• e uma complicacao no sistema, mas suficientemente util.
GSI024-ORI Pg:7. 7
UFU/FACOM/BSI 7-Avaliacao
Avaliacao de maquinas de busca
• Criterios mensuraveis
– velocidade de indexacao (documentos/hora)– velocidade de busca (latencia de apresentacao do resultado)– expressividade da linguagem de consulta (capacidade de expressao)
• Principal problema: satisfacao do usuario
• velocidade e um fator
• mas rapidez em trazer informacoes inuteis nao satisfaz.
GSI024-ORI Pg:7. 8
UFU/FACOM/BSI 7-Avaliacao
Satisfacao do usuario
• Maquina de busca: avalia o retorno do usuario ao sistema
• eCommerce: fracao de usuario que realizam compras
• Empresas: produtividade do usuarioQuanto tempo e gasto em busca de informacoes?
• Outros criterios: capacidade de acessos, seguranca, etc.
GSI024-ORI Pg:7. 9
UFU/FACOM/BSI 7-Avaliacao
Satisfacao do usuario
• difıcil de medir
• criterio comum: relevancia do resultado
• Como medir:
– uma colecao de documentos– um conjunto de consultas– um conjunto de documentos relevantes por consulta (conjunto ideal)– eventualmente, ha um criterio nao binario de relevancia
GSI024-ORI Pg:7. 10
UFU/FACOM/BSI 7-Avaliacao
Avaliacao de Sistemas de Recuperacao de Informacao......
• transformacao de necessidade de informacao em consulta
• Exemplo:
– Necessidade de informacao: I’m looking for information on whether drinkingred wine is more effective at reducing your risk of heart attacks than whitewine;
– Consulta: wine red white heart attack effective
• ter as palavras nao e o mesmo que atender a necessidade de informacao dousuario
• ha uma perda de informacao.
GSI024-ORI Pg:7. 11
UFU/FACOM/BSI 7-Avaliacao
Benchmarks
• TREC - Text RetriEval Conference (NIST)
• REUTERS
• Relevancia manual (pooling na TREC)
• Varias tarefas: ad-hoc, filtering, web, etc.
GSI024-ORI Pg:7. 12
UFU/FACOM/BSI 7-Avaliacao
Avaliacao de Conjuntos Recuperados
• Precisao: fracao dos documentos recuperados que e relevanteP (relevantes recuperados | recuperados)
• Revocacao: fracao dos documentos relevantes que foi recuperadaP (relevantes recuperado | relevantes)
relevante nao relevanteRecuperado tp fpNao recuperado fn tn
P =tp
tp+ fpR =
tp
tp+ fn
GSI024-ORI Pg:7. 13
UFU/FACOM/BSI 7-Avaliacao
Acuracia
• Fracao de classificacoes corretas
tp+ tn
tp+ fp+ tn+ fn
• Nao e um medida muito usada em RI. Por que?
• Para obter alta acuracia ha sacrifıcio de revocacao
• Em geral o usuario de RI tolera falsos positivos.
GSI024-ORI Pg:7. 14
UFU/FACOM/BSI 7-Avaliacao
Precisao e Revocacao
• Recuperando todos os documentos obtemos 100% revocacao, sacrificando aprecisao
• Revocacao nao decresce com numero de documentos recuperados
• Precisao em geral decresce com numero de documentos recuperados ou comaumento da revocacao
GSI024-ORI Pg:7. 15
UFU/FACOM/BSI 7-Avaliacao
Dificuldades com Precisao e Revocacao
• Calculo de media em varias consultas de grandes colecoes
• Atribuicao de relevancia binaria
• Resultados dependem de colecoes e autoria, dificultando uso em outros domınios
GSI024-ORI Pg:7. 16
UFU/FACOM/BSI 7-Avaliacao
Combinando P e R - Medida-F
• A Medida-F e uma media harmonica entre P e R, um tradeoff das duas medidas1
• Versoes ponderadas da medida-F Fα e Fβ:
• Em geral usa-se: β = 1 ou α = 0.5, o que equilibra as duas medidas, chamadaF1:
F1 =1
12
(1P + 1
R
) =2PRP +R
1a medida hamonica e dada por 1H = 1
n
∑ni=1
1xi
GSI024-ORI Pg:7. 17
UFU/FACOM/BSI 7-Avaliacao
Media Harmonica e outras combinacoes
GSI024-ORI Pg:7. 18
UFU/FACOM/BSI 7-Avaliacao
Avaliacao de rankings
• retorna-se qualquer numero de resultados
• varrendo o ranking a partir do topo
• temos varios nıveis de revocacao
• podemos tracar uma curva de precisao-revocacao
GSI024-ORI Pg:7. 19
UFU/FACOM/BSI 7-Avaliacao
Curva de precisao-revocacao
GSI024-ORI Pg:7. 20
UFU/FACOM/BSI 7-Avaliacao
Curva media
• a curva sobre uma consulta nao permite conclusoes
• devemos obter uma curva sobre varias consultas
• mas tem um problema tecnico
• pontos de calculo sao diferentes
• solucao: interpolacao
GSI024-ORI Pg:7. 21
UFU/FACOM/BSI 7-Avaliacao
Interpolacao
• A precisao interpolada no ponto de recall R e a maior precisao encontrada emqualquer ponto de recall maior ou igual a R
Pinterpolada(R) = maxr′≥RP (r′)
GSI024-ORI Pg:7. 22
UFU/FACOM/BSI 7-Avaliacao
Avaliacao
• medias
• precisao em pontos fixos, na web no topo do ranking
• media nos 11-pt e padrao na TREC11 pontos de revocacao com precisoes interpolados para cada consultamedia nos 11-pt para varias consultas
GSI024-ORI Pg:7. 23
UFU/FACOM/BSI 7-Avaliacao
Exemplo de bons resultados na TREC
GSI024-ORI Pg:7. 24
UFU/FACOM/BSI 7-Avaliacao
Outras medidas
• Precisao media (MAP - mean average precision)
– varra os k documentos de topo e calcule a media de precisao em todos ospontos onde ha documento relevante
– evite interpolacao calculando precisao para pontos fixos de revocacao– media aritmetica entre consultas da colecao
• R-precisionsendo Rel o numero idel de relavantes, calcule a precisao na posica Rel doranking
GSI024-ORI Pg:7. 25
UFU/FACOM/BSI 7-Avaliacao
Variancia
• um sistema podem apresentar boa MAP para algumas consultas e pessima paraoutras
• a variancia pode expressar esta anomalia
• comparacao de variancia e entao uma medida importante.
GSI024-ORI Pg:7. 26
UFU/FACOM/BSI 7-Avaliacao
Colecoes de Documentos
GSI024-ORI Pg:7. 27
UFU/FACOM/BSI 7-Avaliacao
Colecoes de Referencia
• necessitam de consultas de teste e conjuntos de relevantes
• consultas de teste devem ser adequadas aos documentos disponıveis
• conjunto de relevantes exige julgamento humano, consumindo tempo
GSI024-ORI Pg:7. 28
UFU/FACOM/BSI 7-Avaliacao
Resolvendo diferencas em julgamentos de relevancia
• kappa: um ındice de acordo ou desacordo entre julgamentos
kappa =P (A)− P (E)
1− P (E)
• P (A): proporcao de acordos em julgamentos
• P (E): ındice esperado de acordos
• kappa = 0 para acordo previsto
• kappa = 1 para acordo total
GSI024-ORI Pg:7. 29
UFU/FACOM/BSI 7-Avaliacao
kappa: Exemplo (julgamentos)
GSI024-ORI Pg:7. 30
UFU/FACOM/BSI 7-Avaliacao
kappa: Exemplo (calculo)
GSI024-ORI Pg:7. 31
UFU/FACOM/BSI 7-Avaliacao
TREC: Text REtrieval Conference - DOCUMENTOS
<doc><docno> WSJ880406-0090 </docno><hl> AT&T Unveils Services to Upgrade Phone Networks Under Global
Plan </hl><author> Janet Guyon (WSJ Staff) </author><dateline> New York </dateline><text>American Telephone & Telegraph Co. introduced the first of a newgeneration of phone services with broad....</text>
GSI024-ORI Pg:7. 32
UFU/FACOM/BSI 7-Avaliacao
TREC: Text REtrieval Conference - CONSULTAS (TOPICOS)
<top><num> Number: 160<title> Topic: Vitamins - The Cure for or Cause of Human Ailments<desc> Description: Document will identify vitamins that havecontributed to the cure for human diseases or ailments or documentswill identify vitamins that have caused health problems in humans.<narr> Narrative: A relevant document will provide informationindicating that vitamins may help to prevent or cure human ailments.Information indicating that vitamins may cause health problems inhumans is also relevant. A document that makes a general referenceto vitamins such as ‘‘good for your health? or ‘‘having nutritionalvalue’’ is not relevant. Information about research being conductedwithout results would not be relevant. References to derivatives ofvitamins are to be treated as the vitamin.</top>
GSI024-ORI Pg:7. 33
UFU/FACOM/BSI 7-Avaliacao
TREC3: diferencas em julgamentos
GSI024-ORI Pg:7. 34
UFU/FACOM/BSI 7-Avaliacao
Crıticas a julgamentos de relevancia
• um documento relevante pode ser redundante
• documentos duplicados
• mesma informacao de diferentes fontes
• relevancia marginal e uma medida melhor da utilidade para o usuario
• fator/entidade como unidades de relevancia seria melhor, mas e difıcil de estab-elecer.
GSI024-ORI Pg:7. 35
UFU/FACOM/BSI 7-Avaliacao
Podemos evitar julgamento humano
• nao
• embora dificulte experimentos, principalmente em larga escala
• exemplo de tentativa: approximate vector space retrieval, baseada na com-paracao entre um cluster de documentos assumidos relevantes e os documentosretornados.
• pooling na TREC
• reutilizacao das colecoes
GSI024-ORI Pg:7. 36
UFU/FACOM/BSI 7-Avaliacao
Referencias
IIR 8
MIR 3
MG 4.5
Carbonell and Goldstein 1998. The use of MMR, diversity-based reranking forreordering documents and producing summaries. SIGIR 21.
GSI024-ORI Pg:7. 37