mineração de dados
TRANSCRIPT
MINERAÇÃO DE DADOSCOM
ÁRVORES DE DECISÃO
Ângelo Lopes F.
US CAMPUS DA
PRAIA
TÓPICOS
• Introdução
• O que é arvore de decisão?
• Breve Historia
• Objetivo de arvore de decisão em DM
• A Heurística & Entropia ID3
• O algoritmo
• Como funciona a arvore na pratica.
• ConclusãoUS CAMPUS DA PRAIA
INTRODUÇÃO
As árvores de decisão tornaram-se uma das abordagens mais poderosas e populares na descoberta do conhecimento e mineração de dados, a ciência e tecnologia de explorar corpos grandes e complexas de dados, a fim de descobrir padrões úteis. A área é de grande importância, pois permite a modelagem e conhecimento extracção da abundância de dados disponíveis.
US CAMPUS DA PRAIA
Um dado se transforma em informação quando ganha um significado para seu utilizador, caso contrário, continua sendo simplesmente um dado.
O QUE É ARVORE DE DECISÃO
• É um método adequado quando o objectivo do Data Mining é classificação de dados ou predição de saídas.
•Uma árvore de decisão é formada por um conjunto de nós de decisão, perguntas, que permitem a classificação de cada caso. Ela consiste numa hierarquia de testes a algumas das variáveis envolvidas no problema de decisão. A árvore pode ser lida a partir do teste encontrado na parte superior da mesma, normalmente chamado nó raiz da árvore.
US CAMPUS DA
PRAIA
BREVE HISTORIA
Foi um professor da Universidade de Sydney, Austrália, Ross Quinlan, que desenvolveu a tecnologia que permitiu o aparecimento das Árvores de Decisão. Muitas pessoas na indústria de Data Mining consideram Quinlan como o "pai das Árvores de Decisão". A contribuição de Quinlan foi a elaboração de um novo algoritmo chamado ID3, desenvolvido em 1983.
US CAMPUS DA
PRAIA
EXEMPLO/OBJECTIVO ARVORE DE DECISÃO EM DM
US CAMPUS DA PRAIA
• Uma Árvore de Decisão tem a função de particionar recursivamente um conjunto de treinamento, até que cada subconjunto obtido deste particionamento contenha casos de uma única classe, obtendo-se assim um modelo que servirá para futuras classificações (QUINLAN, 1993).
• Sintetizando, o objectivo é gerar os valores categóricos de um atributo
chamado "classe".
US CAMPUS DA PRAIA
EXEMPLO/OBJECTIVO ARVORE DE DECISÃO EM DM
A HEURÍSTICA / ALGORITMO ID3
•O algoritmo ID3 usa o conceito de entropia para calcular qual o melhor atributo será utilizado para dividir os dados em subgrupos. Após a construção de uma árvores de decisão é importante avaliá-la. Esta avaliação é realizada através da utilização de dados que não tenham sido usados no treinamento. Esta estratégia permite estimar como a árvore generaliza os dados e se adapta a novas situações, podendo, também, se estimar a proporção de erros e acertos ocorridos na construção da árvore .US CAMPUS DA
PRAIA
A HEURÍSTICA / ALGORITMO ID3
O algoritmo ID3 segue os seguintes passos:
• Começar com todos os exemplos do treinamento
• Escolher o atributo que melhor divide os exemplos, ou seja agrupar os exemplos da mesma classe ou exemplos semelhantes
• Para o atributo escolhido, criar um nó filho para cada valor possível do atributo
• Transportar os exemplos para cada filho tendo em conta o valor do filho
• Repetir o procedimento para cada filho não "puro". Um filho é puro quando cada atributo X tem o mesmo valor para todos os exemplos.
Na etapa 2
• O algoritmo, para achar o melhor atributo é necessário encontrar a entropia para cada atributo possível naquele nó.
• Para isto usamos a formula da entropia:US CAMPUS DA PRAIA
IF Idade =< 30 AND Renda = Baixa THEN Classe = Não
IF Idade =< 30 AND Renda = Média THEN Classe = Sim
IF Idade =< 30 AND Renda = Média-Alta THEN Classe = Sim
IF Idade =< 30 AND Renda = Alta THEN Classe = Sim
IF Idade 31...50 THEN Classe = Sim
IF Idade 51...60 THEN Classe = Sim
IF Idade > 60 THEN Classe = Não
US CAMPUS DA PRAIA
O ALGORITMO DE AD
• Com base na árvore de decisão apresentada na Figura acima pode-se exemplificar a derivação de regras. Dois exemplos de regras obtidas a partir desta árvore são mostrados a seguir.
• SE montante = médio e salário = baixo
ENTÃO classe = não.
• SE montante = médio e salário = alto
ENTÃO classe = sim.
COMO FUNCIONA NA PRATICA
US CAMPUS DA PRAIA
US CAMPUS DA PRAIA
COMO FUNCIONA NA PRATICA
CONCLUSÃO
• No breve espaço deste trabalho, minha principal missão foi introduzir um pouco do pensamento que está por trás da técnica de Data Mining (árvore de decisão).
• A árvore de decisão é muito útil como uma técnica exploratória.
• Ao construir uma árvore de decisão, é possível fazermos uma análise para determinar a escolha mais favorável, levando em consideração os custos, as probabilidades e as conseqüências associados.
US CAMPUS DA PRAIA
US CAMPUS DA PRAIA
AGRADECIMENTO
• A Professora pela compreensão.
• Aos Colegas da turma pelo … Obrigado!!!
•Ate aqui nos ajudou o Senhor…(Ezequiel)