cin-ufpe1 mineração na web preparação dos documentos flávia barros
Post on 19-Apr-2015
114 Views
Preview:
TRANSCRIPT
CIn-UFPE 1
Mineração na Web
Preparação dos documentos
Flávia Barros
CIn-UFPE
2
Roteiro
Revisão Etapas dos Sistemas de Recuperação de
Informação
Preparação dos documentos Operações sobre o texto Criação da representação do documento
CIn-UFPE
3Sistemas de Recuperação de Informação
Etapas principais: Preparação dos documentos Indexação dos documentos Busca (casamento com a consulta do
usuário) Ordenação dos documentos recuperados
CIn-UFPE
4
Preparação dos documentos Duas Fases
Operações sobre o texto objetivo: criar a visão lógica do documento
Criação da representação do documento Utilizando algum modelo de RI
“Se o desonesto soubesse a vantagem de ser honesto, ele seria honesto ao menos por desonestidade.”
Sócrates
Doc original
desonesto / soubesse /vantagem / honesto /seria / honesto /menos/desonestidade/socrates
honesto 2desonesto 1soubesse 1vantagem 1seria 1menos 1desonestidade 1socrates 1
Visão LógicaRepresentação
Doc : www.filosofia.com Doc : www.filosofia.comDoc : www.filosofia.com
CIn-UFPE
5
Visão lógica do documento
Conjunto de termos usados para representar (indexar) o documento Vamos tratar aqui apenas documentos textuais
A seleção desses termos pode ser Manual
Realizada por um especialista Ex., um bibliotecário (em sistemas de bibliotecas)
Automática Termos são automaticamente extraídos do texto Ex., a maioria dos sistemas automáticos de RI
CIn-UFPE
6
Visão lógica do documento Seleção automática de termos
Duas opções: Usar o texto completo ou selecionar os
termos mais representativos
Texto completo Visão lógica mais completa do
documento Porém tem alto custo computacional Adotada por sistemas com bases de
documentos pequenas & por alguns engenhos de busca na Web
CIn-UFPE
7
Visão lógica do documento Seleção automática de termos
Conjunto reduzido de termos Obtido através de Operações sobre o
texto O objetivo é selecionar os termos que
melhor descrevem o documento Reduzindo assim a complexidade da
representação do documento Representação mais comum: Centróide
Lista de termos com pesos associados ou não
Problema: perda do “contexto”
CIn-UFPE
8Seleção automática de termos Operações sobre o texto
Fases Análise léxica
Elimina dígitos, pontuação, etc Eliminação de stopwords
Artigos, pronomes, etc Operação de stemming
Redução da palavra ao seu radical Identificação de grupos nominais
Ex., Recuperação de Informação
CIn-UFPE
9Seleção automática de termos Operações sobre o texto
Cada fase de operação de texto pode utilizar diferentes técnicas na sua implementação
Cada sistema de RI implementa uma ou mais dessas fases A escolha depende do tipo de sistema
desejado
Operações sobre o texto: Fases
Documento
Acentos, espaços,...
stopwords
Grupos nominais
stemming
Indexação manual ou automática
Texto completo
Lista reduzida
de termos
• Operações sobre o texto reduzem progressivamente a visão lógica do documento
CIn-UFPE
11
Operações sobre o textoAnálise léxica
Entrada O texto original
uma cadeia de caracteres
Objetivo Converter o texto original em uma lista de palavras Identificando as palavras que ocorrem no texto
Procedimento padrão Utilizar espaços como sendo separadores de
palavras Tratar pontuação, hífens, dígitos, e letras
maiúsculas e minúsculas Cada caso pode requerer tratamentos diferenciados
CIn-UFPE
12Análise léxica Tratamento de pontuação e hífens
Geralmente, todos os caracteres de pontuação são removidos . , ! ? : ; -
Porém, há casos em que eles são mantidos por serem necessários Código de programa dentro do texto
Variável “x.id” xid URLs de Sites na Web
Caso do hífen Palavras compostas e prefixos
Guarda-chuva, pré-processamento Alguns termos compostos
state-of-the-art
CIn-UFPE
13Análise léxica Eliminação de dígitos
Geralmente, dígitos são removidos por serem vagos Por não terem uma semântica associada quando
aparecem isolados Ex. 1910 (ano, peso, tamanho???)
Contudo, dígitos associados a alguns termos/caracteres especiais podem ser importantes 510dC
dC não significa nada em isolamento Windows95, X3PO,...
CIn-UFPE
14
Análise léxica Substituição de letras maiúsculas
Objetivo principal Tornar a representação homogênea Facilitar a recuperação do documento a
partir de consultas
Exceções Carneiro
Animal ou nome próprio? Banco – instituição financeira banco - assento
CIn-UFPE
15
Operações sobre o textoAnálise léxica
Como visto, existem diversas exceções a tratar Isso depende da aplicação, do domínio do
sistema, etc...
Sugestão Preparar lista de exceções e tratar caso a
caso
Engenhos de busca Geralmente, não eliminam nada
Funcionam em todos os domínios... Indexam o texto completo com sua
pontuação, dígitos, etc...
CIn-UFPE
16
Operações sobre o textoEliminação de stopwords
Algumas palavras não são bons discriminadores Palavras muito freqüentas na base de
documentos Palavras sem semântica associada
artigos, preposições, conjunções, alguns advérbios e adjetivos
Aqui também há exceções a considerar Em domínios específicos, podemos
precisar manter algumas dessas palavras Redes de computadores
CIn-UFPE
17
Operações sobre o textoEliminação de stopwords
Vantagens Diminui a representação do texto Melhora a ordenação na recuperação
TF-IDF
Desvantagens Diminui a precisão na recuperação
Ex., “ser ou não ser” Somente o termo “ser” será usado na
indexação documento Mais uma razão para os engenhos de
busca utilizarem representação do texto completo
CIn-UFPE
18Operações sobre o texto Stemming
Problema Freqüentemente, o usuário especifica uma palavra
na consulta, mas apenas uma variação dessa palavra aparece nos documentos relevantes Ex., plural, gerúndio, verbos flexionados,
aumentativo...
Objetivo dessa operação: Substituir a palavra por seu radical (stem)
Porção da palavra que resta após a remoção de prefixos e sufixos
Possibilitar casamento parcial entre variações de uma mesma palavra Ex.: engenheiro, engenharia,...
CIn-UFPE
19Operações sobre o texto Técnicas de stemming
Table look-up Mantém uma tabela de radicais de
palavras Procedimento simples, porém necessita
de dados sobre os todos os radicais da língua
Successor variety Considera os morfemas da língua
menin+o+s Procedimento complexo e muito
dependente da língua
CIn-UFPE
20Operações sobre o texto Técnicas de stemming
Remoção de afixos (prefixos e sufixos)
Algoritmo de Porter: Considera que a remoção de sufixos é mais
importante que a de prefixos A maioria das variações de palavras é gerada por
sufixos Usa uma regra de redução para cada sufixo
O livro texto traz o algoritmo completo para a língua inglesa
Procura pela maior seqüência de letras que casa com alguma regra Plural: “sses ss”, “ies i” , “ss ss”, “s
”
CIn-UFPE
21
Operações sobre o texto Técnicas de stemming
engineer engineer engineer
engineering engineered engineer
Termo Stem
Algoritmo de Porter: Outras regras de redução
ed -> 0 ing -> 0
CIn-UFPE
22
Operações sobre o texto Técnicas de stemming
Para o Português, o problema é mais complexo Plural
existe um número muito maior de formas de fazer plural em português
Para substantivos, artigos e alguns adjetivos Precisamos de regras para tratar
aumentativo, diminutivo, feminino, masculino,...
Número de regras para flexões verbais também aumenta consideravelmente
CIn-UFPE
23
Operações sobre o texto Stemming
Snowball Uma linguagem para processamento de
strings específica para criar algoritmos de stemming para RI
http://snowball.tartarus.org/
Veja algoritmo disponível para Português em http://snowball.tartarus.org/algorithms/po
rtuguese/stemmer.html O site também traz exemplo de stoplist
para Português
CIn-UFPE
24StemmingExemplo do Snowball para
Português
word
stem
quiloquilométricasquilométricosquilômetroquilômetrosquilosquímicaquímicasquímicoquímicosquimioterapiaquimioterápicos
=>
quil quilométrquilométrquilômetrquilômetrquilquímicquímicquímicquímicquimioterapquimioteráp
Operações sobre o texton-grams
Uma alternativa ao uso de stemmers...
Uma n-gram é uma subsequência de n itens de uma dada sequência
Os items podem ser fonemas, letras, palavras... Uma n-gram de tamanho 1 é chamada de
"unigram"; de tamanho 2 é "bigram“, etc, e de tamanho 5 ou mais é apenas chamada de "n-gram".
O objetivo é o mesmo da operação de stemming “Cortar” a palavra para possibilitar casamento
parcial entre variações de uma mesma palavraCIn-UFPE
25
CIn-UFPE
26
Operações sobre o textoThesaurus
Dicionário de sinônimos de uma língua Eg., WordNet
Thesaurus podem ser também definidos para domínios específicos
Entradas contêm palavras isoladas ou termos compostos
Para cada entrada, o thesaurus pode trazer Sinônimos, antônimos, kind-of, part-of,... Classe gramatical E, às vezes, uma definição do termo
CIn-UFPE
27
Operações sobre o textoThesaurus
Uso de thesaurus em sistemas de RI Auxilia na seleção de termos relevantes
para indexar o documento Auxilia no processamento da consulta
Expansão de termos
Objetivo principal de usar thesaurus de um domínio específico em sistemas de RI Restringir o sistema a um vocabulário
controlado para indexação e busca de documentos
CIn-UFPE
28
Operações sobre o textoThesaurus
Para sistemas na Web em inglês, usa-se o WordNet com freqüência
http://wordnet.princeton.edu/
CIn-UFPE
29
Operações sobre o texto Identificação de Grupos Nominais
Objetivo: identificar grupos nominais (termos compostos) para indexar o documento Ex., Recuperação de Informação, Inteligência Artificial
Procedimentos Selecionar substantivos do texto, eliminando
sistematicamente palavras de outras classes gramaticais Usando uma stoplist ou usando um etiquetador automático (parts-of- speech
tagger) para determinar a classe das palavras e/ou usando um thesaurus da língua ou do domínio
Agrupar substantivos para formar termos compostos
CIn-UFPE
30Identificação de Grupos Nominais
Como agrupar substantivos para formar termos compostos Considerando os grupos nominais
identificados pelo tagger Considerando a distância entre os termos no
texto Número de palavras entre os dois substantivos
Ex., Recuperação de Informação Apenas uma palavra (de)
Extraindo esses termos de um thesaurus do domínio Pode conter um vocabulário controlado de
termos em vez de palavras isoladas
CIn-UFPE
31Preparação dos documentos
Criação da Representação do Documento
Entrada Visão lógica do documento
Lista de termos representativos do documento
Saída Representação final do documento
Termos representativos da base + peso associados a cada termo
Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas
CIn-UFPE
32
Operações sobre a Consulta
Em geral... Quando possível, devem ser usadas aqui
as mesmas operações utilizadas para criar a visão lógica do documento, e.g., limpeza das stopwords, uso de stemming,
thesaurus...
Porém, existem mais operações a serem realizadas na consulta Assunto da próxima aula...
CIn-UFPE
33
Criação da Representação da Consulta
Entrada Visão lógica da consulta
Saída Representação final da consulta
Dependente do modelo de RI escolhido Booleano, espaço vetorial, probabilista... Aulas passadas
CIn-UFPE
34Próxima aulaConsultas - queries
Como tratar as Consultas a um sistema de RI Linguagens e Operações
top related