modelo vetorial eveline alonso veloso puc-minas. referências baeza-yates, ricardo e ribeiro-neto,...
TRANSCRIPT
![Page 1: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/1.jpg)
Modelo Vetorial
Eveline Alonso VelosoPUC-MINAS
![Page 2: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/2.jpg)
Referências
BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 2.
![Page 3: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/3.jpg)
Modelo Vetorial Modelo algébrico. Reconhece que o uso de pesos
binários para os termos de indexação da coleção; é muito limitador.
Propõe um arcabouço em que casamento parcial entre o documento e a consulta é possível. Conseqüência:
o conjunto de documentos recuperados; responde melhor a necessidade de informação
do usuário.
![Page 4: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/4.jpg)
Modelo Vetorial Funciona adequadamente para
coleções gerais. Em geral, o conjunto resposta
do modelo vetorial; é melhor ou pelo menos quase tão
bom quanto as respostas de outras alternativas conhecidas.
Modelo muito popular; especialmente para a web.
![Page 5: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/5.jpg)
Termos de Indexação t:
número de termos distintos da coleção.
Cada termo de indexação identificado na coleção; é um eixo do espaço de termos onde
documentos e consultas são representados.
Os pesos dos termos nos documentos e na consulta; não são binários.
![Page 6: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/6.jpg)
Representação dos Documentos e das Consultas
Os documentos da coleção e a consulta qi; são representados como
vetores no espaço t-dimensional.
O grau de similaridade do documento dj com a consulta qi; é determinado como a
correlação entre os vetores dj e qi.
t1
t2
d2q
d1
12
![Page 7: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/7.jpg)
Ordenação dos Documentos Ordena os documentos em ordem
decrescente de seu grau de similaridade com a consulta.
Um documento pode ser retornado; mesmo que ele “case” apenas
parcialmente com a consulta. É possível também estabelecer um
limite para esse grau de similaridade; são recuperados apenas documentos cujo
grau de similaridade com a consulta; seja maior do que esse limite.
![Page 8: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/8.jpg)
Pesos dos Termos de Indexação
wti,dj = peso do termo ti para o documento dj.
wti,dj = tf x idf; De forma análoga, também
são atribuídos pesos aos termos de indexação da consulta.
![Page 9: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/9.jpg)
tf – Freqüência do Termo no Documento
Mede quanto o termo de indexação descreve o conteúdo do documento.
Caracterização intra-documento.
![Page 10: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/10.jpg)
tf – Freqüência do Termo no Documento
dj
dj,ti
freqmax
freqtf
Onde: freqti,dj indica a freqüência do termo ti
no documento dj; max freqdj indica a freqüência do termo
de maior freqüência no documento dj; calculado considerando-se todos os termos
que ocorrem em dj.
![Page 11: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/11.jpg)
idf – Freqüência Invertida do Termo na Coleção
Mede a dissimilaridade entre os documentos da coleção.
Termos que aparecem em muitos documentos da coleção; não são muito úteis para distinguir um
documento relevante de outro não-relevante.
![Page 12: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/12.jpg)
idf – Freqüência Invertida do Termo na Coleção
Onde: N é o número total de documentos da
coleção; nti é o número de documentos da coleção
que contêm o termo de indexação ti.
tin
Nlogidf
![Page 13: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/13.jpg)
Função de Ranking
Os pesos dos termos são utilizados para computar o grau de similaridade entre cada documento da coleção e a consulta.
![Page 14: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/14.jpg)
Função de Ranking
t1
t2
d2q
d1
w1q
w2q
12
w1q
w2q
R(qi, dj) = sim (qi, dj) = cos j
Seu valor varia entre 0 e 1.
q*d
)w*w(cos
j
t
iq,tidj,ti
j
1
t
iq,ti
t
idj,ti
t
iq,tidj,ti
j
w*w
)w*w(cos
1
2
1
2
1
![Page 15: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/15.jpg)
Vantagens
Sua estratégia de atribuição de pesos não-binários aos termos de indexação; melhora o resultado do processo de
recuperação de informação. Processamento da consulta utilizando-
se o modelo vetorial é rápido. É um modelo simples de ser
implementado.
![Page 16: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/16.jpg)
Vantagens Ao invés de julgar se um documento é
relevante ou não para uma consulta; indica o grau de similaridade do
documento com a consulta. Conseqüências:
considera como possivelmente relevantes;
documentos que “casam” apenas parcialmente com a consulta do usuário.
Possibilita a ordenação dos documentos por relevância;
de acordo com o grau de similaridade dos documentos com a consulta.
![Page 17: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/17.jpg)
Desvantagens
Considera que os termos de indexação são independentes.
![Page 18: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/18.jpg)
Exercício 1 – Coleção Considere uma coleção composta
pelos seguintes documentos: d1: Sistemas. Sistemas, sistemas. d2: informação d3: sistemas de informação. d4: informação. Sistemas e
INFORMAÇÃO.
![Page 19: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/19.jpg)
Exercício 1 – Consulta
Construa o arquivo invertido correspondente a essa coleção e responda a seguinte consulta utilizando o modelo vetorial: q: sistemas. Sistemas de
informação.
![Page 20: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/20.jpg)
Exercício 2 – Arquivo Invertido Considere o arquivo invertido
mostrado a seguir. Nesse arquivo invertido são apresentados, para cada termo do vocabulário da coleção indexada, os documentos em que esse termo aparece e os pesos desse termo para os documentos (wti,dj), calculados de acordo com o modelo vetorial.
![Page 21: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/21.jpg)
Exercício 2 – Arquivo Invertido
vocabulário ocorrências
título d1-0,125 d2-0,125 d3-0,0625
eleitor d1-0,0625 d3-0,125 d4-0,125
![Page 22: Modelo Vetorial Eveline Alonso Veloso PUC-MINAS. Referências BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New](https://reader035.vdocuments.pub/reader035/viewer/2022070310/552fc0fe497959413d8bbc74/html5/thumbnails/22.jpg)
Exercício 2 – Consulta
Utilizando o modelo vetorial e o arquivo invertido apresentado, indique qual é o documento, dessa coleção, mais relevante para a consulta: q = título eleitor.