Árvore de decisão adaptativa na classificação de textos

1
PCS - Departamento de Engenharia de Computação e Sistemas Digitais Projeto de Formatura – Turmas 2010 Engenharia de Computação Integrante: Hugo Pessoa de Baraúna [email protected] om Professor orientador: Ricardo Luis de Azevedo Rocha [email protected]. vore de decisão adaptativa na classificação de te Motivação O século do conhecimento, como é conhecido o século XXI, está sendo marcado por uma abundância de informação. Essa oferta exagerada de informação está galgada em uma série de fatores econômicos e tecnológicos, como por exemplo o baixíssimo custo marginal de distribuição de conteúdo pela internet. O volume de informação é tanto que as pessoas as vezes se perdem nesse mar de dados. Se faz necessário então a criação de ferramentas que ajudem as pessoas a filtrar de modo fácil e intuitivo o que elas realmente estão procurando dentro do vasto volume de informação e notícias que hoje são produzidas diariamente. Um sistema classificador de textos pode ser usado como uma ferramenta para ajudar as pessoas a filtrar esse alto volume de informação. Um exemplo disso é o Google News. Classificação de textos Objetivos do projeto Classificação de textos é a assinalação automática de um documento de texto em formato eletrônico para um ou mais elementos de um conjunto pré-definido de classes. O problema de classificação de textos é divido em duas partes, a fase de aprendizado e a fase de testes. A fase de aprendizado consiste em construir uma função que dado um texto, ela retorna a categoria do mesmo. Para que o sistema aprenda, é necessário ter como entrada do mesmo um conjunto de documentos já categorizados, chamado de conjunto de treinamento. A fase de testes consiste em utilizar a função construída para classificar um documento de texto. O objetivo desde projeto é construir e avaliar um classificador de textos de aprendizado incremental baseado em árvore de decisão adaptativa. Árvore de decisão adaptativa Árvore de decisão adaptativa é um dispositivo adaptativo cujo mecanismo subjacente é uma árvore de decisão. Esse dispositivo permite que a estrutura hierárquica da árvore possa ser dinamicamente alterada durante o processo de decisão. Neste projeto foi utilizado uma árvore de decisão adaptativa para construir o classificador a partir do conjunto de treinamento, mais especificamente, foi utilizado o algoritmo AdapTree. O AdapTree é um algoritmo de aprendizado de máquina supervisionado, incremental, que permite que as fases de treinamento e teste sejam executadas intercaladamente.. Exemplo de árvore de decisão adaptativa

Upload: logan-chandler

Post on 02-Jan-2016

32 views

Category:

Documents


5 download

DESCRIPTION

Árvore de decisão adaptativa na classificação de textos. Motivação. Objetivos do projeto. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Árvore de decisão adaptativa na classificação de textos

PCS - Departamento de Engenharia de Computação e

Sistemas Digitais

Projeto de Formatura – Turmas 2010

Engenharia de Computação

Integrante: Hugo Pessoa de Baraúna [email protected]

Professor orientador: Ricardo Luis de Azevedo Rocha [email protected]

Árvore de decisão adaptativa na classificação de textos

Motivação

O século do conhecimento, como é conhecido o século XXI, está sendo marcado por uma abundância de informação. Essa oferta exagerada de informação está galgada em uma série de fatores econômicos e tecnológicos, como por exemplo o baixíssimo custo marginal de distribuição de conteúdo pela internet.

O volume de informação é tanto que as pessoas as vezes se perdem nesse mar de dados. Se faz necessário então a criação de ferramentas que ajudem as pessoas a filtrar de modo fácil e intuitivo o que elas realmente estão procurando dentro do vasto volume de informação e notícias que hoje são produzidas diariamente.

Um sistema classificador de textos pode ser usado como uma ferramenta para ajudar as pessoas a filtrar esse alto volume de informação. Um exemplo disso é o Google News. Classificação de textos

Objetivos do projeto

Classificação de textos é a assinalação automática de um documento de texto em formato eletrônico para um ou mais elementos de um conjunto pré-definido de classes.

O problema de classificação de textos é divido em duas partes, a fase de aprendizado e a fase de testes. A fase de aprendizado consiste em construir uma função que dado um texto, ela retorna a categoria do mesmo. Para que o sistema aprenda, é necessário ter como entrada do mesmo um conjunto de documentos já categorizados, chamado de conjunto de treinamento.

A fase de testes consiste em utilizar a função construída para classificar um documento de texto.

O objetivo desde projeto é construir e avaliar um classificador de textos de aprendizado incremental baseado em árvore de decisão adaptativa.

Árvore de decisão adaptativaÁrvore de decisão adaptativa é um

dispositivo adaptativo cujo mecanismo subjacente é uma árvore de decisão. Esse dispositivo permite que a estrutura hierárquica da árvore possa ser dinamicamente alterada durante o processo de decisão.

Neste projeto foi utilizado uma árvore de decisão adaptativa para construir o classificador a partir do conjunto de treinamento, mais especificamente, foi utilizado o algoritmo AdapTree.

O AdapTree é um algoritmo de aprendizado de máquina supervisionado, incremental, que permite que as fases de treinamento e teste sejam executadas intercaladamente..

Exemplo de árvore de decisão adaptativa