Recuperação de Informações porÁlgebra Linear ComputacionalMAC499 - Projeto de Iniciação Científica
Aluna: Ellen Hidemi Fukuda
Orientador: Paulo Jose da Silva e Silva
Departamento de Ciencia da Computacao - IME - USP
Apoio Financeiro: CNPq
MAC499 - Novembro de 2004 – p.1/13
A Iniciação Científica
Estudo de técnicas de Recuperação deInformações associadas ao modelo vetorial.
Utilização de ferramentas da Álgebra LinearComputacional, em especial, aDecomposição por Valores Singulares (SVD)e a Fatoração QR.
MAC499 - Novembro de 2004 – p.2/13
Recuperação deInformações (IR)
Métodos eficazes para representação,armazenamento, organização e acesso àsinformações.
Banco de dados
PesquisaSistema
Termos
Armazenamento
Processamento
Recuperacao
Documentos
Documentos (relevantes?)
Usuario+
MAC499 - Novembro de 2004 – p.3/13
Dificuldades com IRAutomático
Diferentes idiomas.
Vários tipos de informações: texto, figura,áudio, vídeo.
Sinônimos (várias palavras com o mesmosignificado).
Polissemia (palavras com diferentessignificados).
Enorme quantidade de documentos.
Recurso limitado de processamento.
MAC499 - Novembro de 2004 – p.4/13
Modelo Vetorial: Termos eDocumentos
Matriz A de termos × documentos:dj
ti
a11 . . . a1j . . . a1D... . . . ... . . . ...
ai1 . . . aij . . . aiD... . . . ... . . . ...
aT1 . . . aTj . . . aTD
aij = peso do termo ti associado aodocumento dj, 1 ≤ i ≤ T , 1 ≤ j ≤ D.
MAC499 - Novembro de 2004 – p.5/13
Modelo Vetorial: Termos eDocumentos (Cont.)
Definições possíveis para aij: variávelbooleana, freqüência do termo nodocumento, funções envolvendo logaritmos,etc. As colunas da matriz A podem ou nãoser normalizadas.
Se o termo ti não estiver relacionado aodocumento dj, então aij = 0.
Em geral, o número de termos relacionados aum documento é razoavelmente pequeno. Amatriz é, portanto, esparsa.
MAC499 - Novembro de 2004 – p.6/13
Modelo Vetorial:Pesquisas
Cada pesquisa é definida como um vetorq = (q1, ..., qT )T .
Medida de similaridade entre uma pesquisa q
e um documento dj = (a1j, ..., aTj)T :
cos(θj) =dT
j q
‖dj‖2‖q‖2=
∑Ti=1 aijqi
√
∑Ti=1 a2
ij
√
∑Ti=1 q2
i
Seja L um limiar definido. Se cos(θj) > L,então dj é um documento relevante para apesquisa q.
MAC499 - Novembro de 2004 – p.7/13
Redução do Posto daMatriz (LSI)
LSI (Latent Semantic Indexing): É baseadono modelo vetorial e utiliza-se da matriz determos × documentos com posto reduzido.
A redução do posto permite remover algumasinformações não-pertinentes.
MAC499 - Novembro de 2004 – p.8/13
Decomposição SVD
Decomposição SVD de A ∈ RT×D:
A = UΣV T ,
onde U ∈ RT×T e V ∈ R
D×D são matrizesortogonais e Σ ∈ R
T×D é uma matriz diagonalcujos elementos são os valores singularesσ1 ≥ σ2 ≥ ... ≥ σmin(T,D).
O posto rA da matriz A é igual ao número devalores singulares não nulos.
MAC499 - Novembro de 2004 – p.9/13
Propriedade do SVD
Se Ak =∑k
i=1 σiuivTi , então Ak é a melhor
aproximação de A de posto k.
Cada eixo da hiperelipse associada à matrizA fornece uma informação proporcional a σi.
Escolher um k apropriado não é simples.Usualmente é definido através deexperimentos.
MAC499 - Novembro de 2004 – p.10/13
Analogia com Compressãode Imagens
k = 3 k = 7 k = 15
k = 40 k = 75 rA = 150MAC499 - Novembro de 2004 – p.11/13
Outros Estudos
Uso da fatoração QR no contexto de IR.
Criação de thesaurus: clustering,comparação entre termos e entredocumentos.
Operações com vetores de pesquisas:expansão da pesquisa.
Gerenciamento de coleções dinâmicas.
MAC499 - Novembro de 2004 – p.12/13
Mais Informações
Página de MAC499:http://www.linux.ime.usp.br/˜hidemi/mac499.
E-mail: ellen at ime.usp.br
MAC499 - Novembro de 2004 – p.13/13