modelo de espaço vetorial

Ordenação e Recuperação de Dados

Prof. Alexandre Duarte - http://alexandre.ci.ufpb.br

Centro de Informática – Universidade Federal da Paraíba

Aula 7: Modelo de Espaço Vetorial

Matriz de incidências Termo-Documento

Cada documento é representado por um vetor binário ∈ {0, 1}|V|.

Anthony andCleopatra

Julius Caesar

The Tempest

Hamlet Othello Macbeth . . .

ANTHONYBRUTUSCAESARCALPURNIACLEOPATRAMERCYWORSER. . .

1110111

1111000

0000011

0110011

0010011

1010010

Matriz de incidências Termo-Documento

Agora cada documento é representado por um vetor de contagem ∈ N|V|.

Julius Caesar

The Tempest

73157227

0000031

0220081

0010051

1000085

Peso da frequência de um termo em um documento

Peso idf

A frequência de termo em documentos dft é definida como o número de documentos em que o termo t ocorre.

Definimos o peso idf de um termo t como segue:

idf é uma medida de quão informativo é um determinado termo.

Peso tf-idf

O peso tf-idf de um termo é o produto de seus pesos tf e idf.

Binário → Contagem → Matriz de Pesos

Cada documento é agora representado por um vetor de númerosreais com os pesos tf-idf dos seus termos

Julius Caesar

The Tempest

5.251.218.59

0.02.851.511.37

3.186.102.541.54

0.00.00.0

0.00.00.00.00.0

1.900.11

0.01.0

1.510.00.0

0.124.15

0.00.0

0.250.00.0

5.250.25

0.350.00.00.00.0

0.881.95

Documentos como vetores

Cada documento é agora representado por um vetor ∈R|V|

de números reais com os pesos tf-idf de cada um de seus termos.

Temos então um espaço vetorial |V|-dimensional.

Os termos são os eixos desse espaço vetorial.

Os documentos são pontos ou vetores neste espaço.

Dimensões muito grandes: dezenas de milhões quando se aplica a pesquisa na Web

Cada vetor é muito esparso – a maioria das entradas é zero.

Consultas como vetores

Ideia chave 1: fazer o mesmo para as consultas: representá-las como vetores neste espaço multi-dimensional

Ideia chave 2: Classificar os documentos de acordo com sua proximidade com a consulta

proximidade = similaridade

Relembrando: Estamos fazendo isso porque queremos fugir das limitações do modelo booleano.

Ao invés disso: queremos classificar melhor documentos relevantes em relação a documentos não-relevantes

Como formalizamos similaridade em um espaço vetorial?

Primeiro corte: distância entre dois pontos

( distância entre os pontos extremos dos dois vetores)

Distância Euclidiana?

Utilizar a Distância Euclideana é uma má ideia . . .

. . . Porque resulta em valores muito grandes para vetores de diferentes comprimentos.

Porque distância é uma má ideia

A Distância Euclidiana entre a consulta li e o documento é muito grande apesar de ambos terem uma distribuição similar de termos

Usar o ângulo ao invés da distância

Classificar os documentos de acordo com o seu ângulo em relação à consulta

Experimento: escolha um documento d e duplique seu conteúdo. Chame esse documento de d′.

Apesar de d’ ter o dobro do tamanho de d, eles representam “semanticamente” o mesmo conteúdo.

O ângulo entre os dois documentos é 0, correspondendo a similaridade máxima . . .

. . . mas a distância Euclidiana entre os dois pode ser muito grande.

De ângulos para cossenos

As duas noções a seguir são equivalentes.

Classificar os documentos de acordo com o ângulo entre a consulta e o documento em ordem crescente

Classificar os documentos de acordo com o cosseno (consulta,documento) em ordem decrescente

O cosseno é uma função decrescente de um ângulo no intervalo [0◦, 180◦]

Cosseno

Similaridade do cosseno entre consulta e documento

qi é o peso tf-idf do termo i da consulta.

di é o peso tf-idf de cada termo i do documento

| | e | | são os comprimentos dos vetores e

Esta é a similaridade do cosseno entre e

Cosseno de vetores normalizados

Para vetores normalizados, o cosseno é equivalente aoproduto escalar.

(se e foram normalizados em relação ao seucomprimento).

Ilustração da similaridade de cosseno

Cosseno: Exemplo

frequencia de termos (contagem)

O quão similar sãoesses romances? • SaS: Sense andSensibility• PaP: Pride andPrejudice• WH: WutheringHeights

termo SaS PaP WH

AFFECTIONJEALOUSGOSSIPWUTHERING

Cosseno: Exemplo

frequencia de termos (contagem) ponderação das frequências por log

(Para simplificar o exemplo, não estou calculando o peso idf)

termo SaS PaP WH

3.062.0

2.761.85

2.302.041.782.58

termo SaS PaP WH

Cosseno: Exemplo

ponderação das frequências por log normalização de coseno

termo SaS PaP WH

3.062.0

2.761.85

2.302.041.782.58

termo SaS PaP WH

0.7890.5150.335

0.8320.5550.00.0

0.5240.4650.4050.588

cos(SaS,PaP) ≈ 0.789 ∗ 0.832 + 0.515 ∗ 0.555 + 0.335 ∗ 0.0 + 0.0 ∗ 0.0 ≈ 0.94.

cos(SaS,WH) ≈ 0.79 cos(PaP,WH) ≈ 0.69

Sumário: recuperação com classificação utilizando o modelo do espaço vetorial

Representar a consulta como um vetor de pesos tf-idf

Representar cada documento como um vetor de pesos tf-idf

Calcular a similiradade do cosseno entre o vetor da consulta e os vetores de cada documento na coleção

Classifique os documentos de acordo com a consulta

Retorne os primeiros K (ex., K = 10) documentos para o usuário

modelo de espaço vetorial

Education

estatica vetorial

estudo da tÉcnica de modulaÇÃo por espaÇo vetorial

espaço vetorial

manual - ricardo de...

cinematica vetorial

geometria analítica: um tratamento vetorial -...

notação vetorial

internocapítulo 7: espaços com...

modelo autoregressivo vetorial com coeﬁcientes variantes...

modelo espaço vetorial -...

spaÇos vetoriais o -...

projeto modelo espaÇo cultural

aula espaço vetorial

maquinas vetorial

algebra vetorial

espaço vetorial 108

espaÇos vetoriais - wp.ufpel.edu.br§os... · vetorial de...

cinemática vetorial

mecanica vetorial

universidade estadual de mato grosso do sul revisão espaço...