classificação / categorização de documentos
DESCRIPTION
Eduardo Matos (ejvm) Leonardo Vilaça (lhvs) Igor Ebrahim (ies) Thiago Gomes (tgr)MW-2008. Classificação / Categorização de Documentos. Roteiro. Aplicações Categorização de Documentos Construção Manual do Classificador Construção Automática do Classificador Algoritmos Referências. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/1.jpg)
Eduardo Matos (ejvm)Leonardo Vilaça (lhvs)Igor Ebrahim (ies)Thiago Gomes (tgr) MW-2008
1
![Page 2: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/2.jpg)
2
Aplicações Categorização de Documentos Construção Manual do Classificador Construção Automática do Classificador Algoritmos Referências
![Page 3: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/3.jpg)
Criação de Base de documentos especializadas
Manutenção de hierarquias Yahoo
Filtragem e Recomendação Emails
Filtro de Spam Etc...
3
![Page 4: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/4.jpg)
Definição: Atribuição de uma ou mais classes pré-
definidas aos documentos
Objetivos: Organizar os documentos Facilitar a sua busca automática Facilitar sua visualização
4
![Page 5: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/5.jpg)
Documentos
Classe 1
Classe 2
Classe 3
5
![Page 6: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/6.jpg)
Clustering Criar grupos de documentos Classes geradas automaticamente
Classificação Determinar a que grupo pertence um
documento Classes pré-definidas
6
![Page 7: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/7.jpg)
Classificação Manual: Classificação dos documentos por um
especialista
Construção Manual do Classificador: Sistemas baseados em conhecimento
▪ Por exemplo: Base de Regras escrita manualmente
Construção Automática do Classificador: Algoritmos de aprendizagem automática
7
![Page 8: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/8.jpg)
Conjunto de treinamento/construção manual: Aquisição do conhecimento ou Treinamento do
algoritmo Ajuste do sistema
Conjunto de teste: Diferente do conjunto de treinamento Avaliação do desempenho do sistema
8
![Page 9: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/9.jpg)
Sistema baseado em Conhecimento: Base de conhecimento Máquina de Inferência (ex.: JEOPS)
Testese
Validação
Nível deConhecimento
Aquisiçãodo
Conhecimento
Nível Lógico
Formulaçãoda Base de
Conhecimento
Nível deImplementação
Construçãoda Base de
Conhecimento
9
![Page 10: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/10.jpg)
Base de Conhecimento: Regras de Produção
Exemplo: Regras para o reconhecimento de um bloco de
citação em uma página de publicação (CitationFinder)
SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)
10
![Page 11: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/11.jpg)
Criados automaticamente através da apresentação dos exemplos ao algoritmo de treinamento.
Ajuste dos resultados pelo desenvolvedor
Dados classificadosDados de
treinamentoClassificador Comparador
11
![Page 12: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/12.jpg)
Documentos
Representação Inicial
Redução da Dimensãoou
Seleção de Termos
Representação FinalIndução
ConhecimentoAdicional
Categorização
12
![Page 13: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/13.jpg)
Pré-processamento Selecionar termos que vão representar o
documento▪ Stoplist, stemming, thesaurus, termos
compostos, ... Associar pesos aos termos
▪ Pesos booleanos, pesos com freqüência de ocorrência (TF), TF-IDF, TF-IDF normalizado, considerar formatação do texto, ...
13
![Page 14: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/14.jpg)
Montar uma tabela (matriz) onde: Colunas indicam os termos que ocorrem no
conjunto de documentos (vocabulário) Linhas indicam os documentos do conjunto O elemento tij indica o peso do termo j para
o documento i A representação do documento i
corresponde à linha i.
14
![Page 15: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/15.jpg)
Objetivo: Reduzir o tamanho do vocabulário inicial da
base▪ Reduzindo assim a representação dos documentos ▪ para diminuir o risco de super-especialização do
classificador gerado (overfitting)
Abordagens: Seleção de atributos Extração de atributos
15
![Page 16: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/16.jpg)
• Seleção de atributos usa algum critério para filtrar termos irrelevantes ou redundantes– Cada termo recebe uma “relevância”, que é
usada para ordenar a lista de termos– Exemplos de critérios de relevância
– freqüência, ganho de informação,...
• Extração de atributos combina termos existentes para criar novas dimensões– Exemplo: Semântica latente– Pode ser mais eficaz
– mas as dimensões resultantes (conceitos) são de difícil interpretação
16
![Page 17: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/17.jpg)
A relevância do termo Wi para a classe Cj é medida pela diferença de entropia dessa classe antes e depois do uso desse termo na sua predição
c
jjj CPCPH
12 )(log)(
c
jijij WCPWCPH
12 )|(log)|('
(incerteza inicial)
(incerteza final)
HHE ' (qtd. de incerteza removida)
17
![Page 18: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/18.jpg)
Coeficiente de Correlação entre o termo t e a classe Cj :
)()()()()(
nrnrnnrr
nrnr
NNNNNNNNNNNNNC
Nr+ = documentos relevantes para Cj que contêm o termo tNr- = documentos relevantes para Cj que não contêm t
Nn- = documentos não relevantes para Cj que não contêm tNn+ = documentos não relevantes para Cj que contêm t
χ2:mede a dependência entre um termo t e a classe Cj
22 C18
![Page 19: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/19.jpg)
A partir da base de exemplos reduzidos e etiquetados induzir classificador
Técnicas utilizadas: Árvores de decisão, indução de regras,
aprendizagem baseada em instâncias (e.g., kNN), aprendizagem bayesiana (e.g., Naive Bayes), Redes Neurais (e.g., SVM),...
SVMs têm obtido bom desempenho
19
![Page 20: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/20.jpg)
Tempo de Trein.
Tempo de Class.
Sistema Extens.
Interp. do Resul
Repr. do Conhec.
Regras Manuais Lento Rápido Sim Sim Simb.
(regras) Árvores de Decisão Rápido Rápido Não Razoável Simb.
(árvore) Indução de Regras Rápido Rápido Não Sim Simb.
(regras)
20
![Page 21: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/21.jpg)
Tempo de Trein.
Tempo de Class.
Sistema Extens.
Interp. do Resul
Repr. do Conhec.
Apr. Bas. Instâncias - Lento Não Não Num.
(distân.) Aprendiz. Bayesiana Rápido Rápido Não Não Num.
(probab.) Redes Neurais Lento Rápido Não Não Num.
(pesos)
21
![Page 22: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/22.jpg)
Tom Fawcett. An introduction to ROC analysis. Pattern. Recognition Letters, Vol. 27, No. 8., pp. 861-874, 2006.
Slides de George Darmiton e Tsang Ren: Aprendizagem de Máquina
Slide de Flávia Barros: Mineração da Web
22
![Page 23: Classificação / Categorização de Documentos](https://reader036.vdocuments.pub/reader036/viewer/2022081513/56813b57550346895da44a57/html5/thumbnails/23.jpg)
23
Categorização de Documentos: Sebastiani, F. A Tutorial on Automated Text Categorization.
Analia Amandi and Alejandro Zunino (eds.), Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, pp. 7-35. 1999.
Moulinier, I. A Framework for Comparing Text Categorization Approaches. AAAI Spring Symposium on Machine Learning and Information Access, Stanford University, March 1996.
Sistemas Baseados em Conhecimento: Hayes, P. J. & Weinstein, S. P. Construe-TIS: A System for
Content-Based Indexing of a Database of News Stories. Second Annual Conference on Innovative Applications of Artificial Intelligence, pp. 48-64. 1990.
Neves, M. L. CitationFinder: Um Sistema de Meta-busca e Classificação de Páginas de Publicações na Web. Tese de Mestrado, Centro de Informática, UFPE, Fevereiro de 2001.