mineração de dados

14
MINERAÇÃO DE DADOS COM ÁRVORES DE DECISÃO Ângelo Lopes F. US CAMPUS DA PRAIA

Upload: angehlo-lohpes

Post on 05-Aug-2015

22 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: Mineração de dados

MINERAÇÃO DE DADOSCOM

ÁRVORES DE DECISÃO

Ângelo Lopes F.

US CAMPUS DA

PRAIA

Page 2: Mineração de dados

TÓPICOS

• Introdução

• O que é arvore de decisão?

• Breve Historia

• Objetivo de arvore de decisão em DM

• A Heurística & Entropia ID3

• O algoritmo

• Como funciona a arvore na pratica.

• ConclusãoUS CAMPUS DA PRAIA

Page 3: Mineração de dados

INTRODUÇÃO

As árvores de decisão tornaram-se uma das abordagens mais poderosas e populares na descoberta do conhecimento e mineração de dados, a ciência e tecnologia de explorar corpos grandes e complexas de dados, a fim de descobrir padrões úteis. A área é de grande importância, pois permite a modelagem e conhecimento extracção da abundância de dados disponíveis.

US CAMPUS DA PRAIA

Um dado se transforma em informação quando ganha um significado para seu utilizador, caso contrário, continua sendo simplesmente um dado.

Page 4: Mineração de dados

O QUE É ARVORE DE DECISÃO

• É um método adequado quando o objectivo do Data Mining é classificação de dados ou predição de saídas.

•Uma árvore de decisão é formada por um conjunto de nós de decisão, perguntas, que permitem a classificação de cada caso. Ela consiste numa hierarquia de testes a algumas das variáveis envolvidas no problema de decisão. A árvore pode ser lida a partir do teste encontrado na parte superior da mesma, normalmente chamado nó raiz da árvore.

US CAMPUS DA

PRAIA

Page 5: Mineração de dados

BREVE HISTORIA

Foi um professor da Universidade de Sydney, Austrália, Ross Quinlan, que desenvolveu a tecnologia que permitiu o aparecimento das Árvores de Decisão. Muitas pessoas na indústria de Data Mining consideram Quinlan como o "pai das Árvores de Decisão". A contribuição de Quinlan foi a elaboração de um novo algoritmo chamado ID3, desenvolvido em 1983.

US CAMPUS DA

PRAIA

Page 6: Mineração de dados

EXEMPLO/OBJECTIVO ARVORE DE DECISÃO EM DM

US CAMPUS DA PRAIA

Page 7: Mineração de dados

• Uma Árvore de Decisão tem a função de particionar recursivamente um conjunto de treinamento, até que cada subconjunto obtido deste particionamento contenha casos de uma única classe, obtendo-se assim um modelo que servirá para futuras classificações (QUINLAN, 1993).

• Sintetizando, o objectivo é gerar os valores categóricos de um atributo

chamado "classe".

US CAMPUS DA PRAIA

EXEMPLO/OBJECTIVO ARVORE DE DECISÃO EM DM

Page 8: Mineração de dados

A HEURÍSTICA / ALGORITMO ID3

•O algoritmo ID3 usa o conceito de entropia para calcular qual o melhor atributo será utilizado para dividir os dados em subgrupos. Após a construção de uma árvores de decisão é importante avaliá-la. Esta avaliação é realizada através da utilização de dados que não tenham sido usados no treinamento. Esta estratégia permite estimar como a árvore generaliza os dados e se adapta a novas situações, podendo, também, se estimar a proporção de erros e acertos ocorridos na construção da árvore .US CAMPUS DA

PRAIA

Page 9: Mineração de dados

A HEURÍSTICA / ALGORITMO ID3

O algoritmo ID3 segue os seguintes passos: 

• Começar com todos os exemplos do treinamento

• Escolher o atributo que melhor divide os exemplos, ou seja agrupar os exemplos da mesma classe ou exemplos semelhantes

• Para o atributo escolhido, criar um nó filho para cada valor possível do atributo

• Transportar os exemplos para cada filho tendo em conta o valor do filho

• Repetir o procedimento para cada filho não "puro". Um filho é puro quando cada atributo X tem o mesmo valor para todos os exemplos.

Na etapa 2

• O algoritmo, para achar o melhor atributo é necessário encontrar a entropia para cada atributo possível naquele nó.

• Para isto usamos a formula da entropia:US CAMPUS DA PRAIA

Page 10: Mineração de dados

IF Idade =< 30 AND Renda = Baixa THEN Classe = Não

IF Idade =< 30 AND Renda = Média THEN Classe = Sim

IF Idade =< 30 AND Renda = Média-Alta THEN Classe = Sim

IF Idade =< 30 AND Renda = Alta THEN Classe = Sim

IF Idade 31...50 THEN Classe = Sim

IF Idade 51...60 THEN Classe = Sim

IF Idade > 60 THEN Classe = Não

US CAMPUS DA PRAIA

O ALGORITMO DE AD

• Com base na árvore de decisão apresentada na Figura acima pode-se exemplificar a derivação de regras. Dois exemplos de regras obtidas a partir desta árvore são mostrados a seguir.

• SE montante = médio e salário = baixo

ENTÃO classe = não.

• SE montante = médio e salário = alto

ENTÃO classe = sim.

Page 11: Mineração de dados

COMO FUNCIONA NA PRATICA

US CAMPUS DA PRAIA

Page 12: Mineração de dados

US CAMPUS DA PRAIA

COMO FUNCIONA NA PRATICA

Page 13: Mineração de dados

CONCLUSÃO

• No breve espaço deste trabalho, minha principal missão foi introduzir um pouco do pensamento que está por trás da técnica de Data Mining (árvore de decisão).

• A árvore de decisão é muito útil como uma técnica exploratória.

• Ao construir uma árvore de decisão, é possível fazermos uma análise para determinar a escolha mais favorável, levando em consideração os custos, as probabilidades e as conseqüências associados.

US CAMPUS DA PRAIA

Page 14: Mineração de dados

US CAMPUS DA PRAIA

AGRADECIMENTO

• A Professora pela compreensão.

• Aos Colegas da turma pelo … Obrigado!!!

•Ate aqui nos ajudou o Senhor…(Ezequiel)