mineração de dados - vivacquabd.webnode.com.br · mineração de dados “discovering hidden...
TRANSCRIPT
Mineração de Dados
Universidade Veiga de AlmeidaLuiz Antônio Vivacqua Corrêa Meyer
Sumário
• Apresentação pessoal• Ementa e bibliografia• Mineração de Dados• Áreas correlatas• Principais Tarefas
Formação Profissional• Formação acadêmica básica
• Engenharia Civil – PUC/RJ (1983)• Especialização – CCE-PUC/RJ (1984)
• Experiência profissional – IBGE (1984)• Técnica• Gerencial
– Chefe da Gerência de Administração de Banco de Dados (1989 a 1995, 1997 a 2002)
– Assistente da Coordenação de Projetos Especiais(2009 a 2014)
– Chefe da Coordenação de Administração de Dados e Cadastros (2014)
• Mestrado – COPPE/UFRJ (1995-1997)• Doutorado – COPPE/UFRJ (2002-2006)
• Sanduiche (2004-2005) – Universidade de Chicago
Formação Profissional
• Experiência acadêmica - UCidade(1999 – 2014)• Disciplinas lecionadas
– Projeto de Banco de Dados– Administração de Banco de Dados– Laboratório de Banco de Dados
Ementa
• Principais pontos:– Introdução à mineração de dados (data
mining)– Conceitos de Data warehousing, OLAP e
Data Mining– Definição de Mineração de dados para
associação, classificação, agrupamento (clustering) e detecção de desvios
– Aplicações e estudos de casos
OBJETIVOS DA DISCIPLINA
• Identificar os conceitos teóricos fundamentais de mineração de dados.
• Aplicar as principais técnicas de mineração de dados com vistas à identificação de padrões importantes e não óbvios em grandes bancos de dados.
BIBLIOGRAFIA BÁSICA
• Data Mining - Conceitos, Técnicas, Algoritmos, Orientações e Aplicações, Editora: CampusAutores: Ronaldo Goldschimidt, Emmanuel Passos e Eduardo Bezerra
• Data Mining – Practical Machine Learning Tools and Techniques, Editora: Morgan KauffmanAutores: Ian H. Witten, Eibe Frank, Mark A. Hall
BIBLIOGRAFIA COMPLEMENTAR
BRAGA, Luis Paulo Vieira. Introdução à Mineração de Dados - 2ª Edição : Edição ampliada e revisada. São Paulo: Epapers, 2012.
• CARVALHO, Luis Alfredo Vidal D. Datamining -A Mineração de Dados no Marketing, Medicina, Economia, Engenharia e Administração. São Paulo: Saraiva, 2011.
• HAN, J., Kamber, M., Pei, J. Data Mining: Concepts and Techniques - 3ª Edição . Morgan Kaufmann Publishers, 2012.
BIBLIOGRAFIA COMPLEMENTAR• ANTHONY T. Velte; Toby J. Velte; Robert C. Elsenpeter.
Cloud Computing: Computação em Nuvem - Uma Abordagem Prática . Rio de Janeiro: Alta Books, 2011. ISBN: 9788576085362.
• DAVENPORT, Thomas H. Big Data No Trabalho -Derrubando Mitos e Descobrindo Oportunidades . São Paulo: Campus, 2014. ISBN: 9788535279146.
• MAYER, Viktor; KUKIER, Schonberger Kenneth. Big Data – Como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana . São Paulo: Campus, 2013.
Introdução• A convergência das áreas de informática e
telecomunicação gerou uma sociedade que produz uma quantidade enorme de informação [2]
• Porém a maioria desta informação encontra-se no seu estado bruto, ou seja, o dado.
• Se o dado pode ser caracterizado como o registro dos fatos, então a informação é o conjunto de padrões que estão subentendidos nos dados.
• Existe uma quantidade enorme de informação presa, escondida, nos bancos de dados – informação esta que é potencialmente importante mas ainda não foi descoberta.
• O que cerveja tem a ver com fraldas?• Por que meu cartão de crédito me ligou?
Mineração de Dados
?
Mineração de Dados
“Discovering hidden value in your data warehouse” - Alex Berson, Stephen Smith,and Kurt Thearling
“Produzir conhecimento novo escondido em grandes bases de dados” – Paulo José Agliari
“Data mining is the process of finding patterns in a given data set” – Varoon Sahgal
?
“Desenvolvimento e a aplicação de técnicas que permitem analisar e obter conhecimentos novos e úteis a partir de grandes bases de dados” – Bezerra e Goldsmith
Mineração de Dados
• Por que é importante?– Ajuda as empresas a focar nas informações
mais importantes nos seus bancos de dados.– Pode prever tendências e comportamentos
permitindo a tomada de decisões proativas.– Usada em vários contextos tais como:
detecção de fralde, campanhas de marketing, estudos de perfil de consumo, saúde, etc.
Interdisciplinaridade• Interação com outras áreas
– Banco de dados operacionais• Transações individuais• OLTP
– Data Warehouses• Permitem ver a mesma informação por múltiplas
dimensões.• Dão suporte à tomada de decisão• OLAP
– Processamento Paralelo– Inteligência artificial
Mineração de Dados• Características:
– Processo de descobrir padrões nos dados. – Processo deve ser automático ou mais
usualmente semiautomático. – Os padrões descobertos devem ter algum
significado importante de forma que levem a obtenção de alguma vantagem, em geral econômica.
– Os dados invariavelmente estão presentes em quantidades substanciais.
Mineração de Dados
• Padrão estrutural:– O que é?– Como descreve-lo?– Qual é a sua forma de entrada?
Age Spectacle Prescription Astigmatism Tear Production Rate Recommended lens
young myope no reduced none
young myope no normal soft
young myope yes reduced none
young myope yes normal hard
young hypermetrope no reduced none
young hypermetrope no normal soft
young hypermetrope yes reduced none
young hypermetrope yes normal hard
pre-presbyopic myope no reduced none
pre-presbyopic myope no normal soft
pre-presbyopic myope yes reduced none
pre-presbyopic myope yes normal hard
pre-presbyopic hypermetrope no reduced none
pre-presbyopic hypermetrope no normal soft
pre-presbyopic hypermetrope yes reduced none
pre-presbyopic hypermetrope yes normal none
presbyopic myope no reduced none
presbyopic myope no normal none
presbyopic myope yes reduced none
presbyopic myope yes normal hard
presbyopic hypermetrope no reduced none
presbyopic hypermetrope no normal soft
presbyopic hypermetrope yes reduced none
presbyopic hypermetrope yes normal none
Padrões Estruturais
• Examinando a tabela de lentes de contato:– Fornece ao oftalmologista as condições pelas quais
ele pode prescrever lentes macias, duras ou nenhuma lente.
– Parte da descrição estrutural desta informação pode ser descrita da seguinte forma:
If tear production rate = reduced then recommendation = noneOtherwise, if age = young and astigmatic = no Then recommendation = soft
Age Spectacle Prescription Astigmatism Tear Production Rate Recommended lens
young myope no reduced none
young myope no normal soft
young myope yes reduced none
young myope yes normal hard
young hypermetrope no reduced none
young hypermetrope no normal soft
young hypermetrope yes reduced none
young hypermetrope yes normal hard
pre-presbyopic myope no reduced none
pre-presbyopic myope no normal soft
pre-presbyopic myope yes reduced none
pre-presbyopic myope yes normal hard
pre-presbyopic hypermetrope no reduced none
pre-presbyopic hypermetrope no normal soft
pre-presbyopic hypermetrope yes reduced none
pre-presbyopic hypermetrope yes normal none
presbyopic myope no reduced none
presbyopic myope no normal none
presbyopic myope yes reduced none
presbyopic myope yes normal hard
presbyopic hypermetrope no reduced none
presbyopic hypermetrope no normal soft
presbyopic hypermetrope yes reduced none
presbyopic hypermetrope yes normal none
Padrões Estruturais
• Padrões estruturais não precisam obrigatoriamente serem obtidos por regras como estas.
• Árvores de decisão que especificam as sequencias de decisões que precisam ser tomadas junto com a recomendação resultante também é um método bastante usado.
Padrões Estruturais
• Observações:– Este exemplo é bastante simples. Primeiro porque
todas as combinações possíveis estão representadas na tabela.
• Existem 24 linhas representando 3 possíveis valores para age e 2 valores para spetacle prescription, astigmatism and tear production rate. (3X2X2X2).
– Na maioria das situações reais, o conjunto de exemplos disponível para entrada está longe de ser completo e parte do trabalho é generalizar para outros novos exemplos.
Padrões Estruturais
• Observações (cont.):– Além disso, os valores foram especificados
para todos os atributos em todos os exemplos.
• Os arquivos na vida real invariavelmente contém exemplos nos quais os valores de algumas características por alguma razão são desconhecidos, por exemplo, medidas que não foram tomadas ou foram perdidas.
– Más classificações ocorrem frequentemente por conta de erros nos dados.
Conjunto de todas as regras If tear production rate = reduced then recommendation = none
If age = young and astigmatic = noand tear production rate = normal then recommendation = soft
If age = pre-presbyopic and astigmatic = noand tear production rate = normal then recommendation = soft
If age = presbyopic and spectacle prescription = myopeand astigmatic = no then recommendation = none
If spectacle prescription = hypermetrope and astigmatic = noand tear production rate = normal then recommendation = soft
If spectacle prescription = myope and astigmatic = yesand tear production rate = normal then recommendation = hard
If age young and astigmatic = yes and tear production rate = normal then recommendation = hard
If age = pre-presbyopicand spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none
If age = presbyopic and spectacle prescription = hypermetropeand astigmatic = yes then recommendation = none
Mineração de Dados
• Normalmente, as aplicações práticas de Data Mining podem ser categorizadas de acordo com a tarefa que se pretende resolver.
• Além disso, os algoritmos de análise de dados utilizados nessas tarefas pressupõem a existência de um conjunto de dados na forma tabular (relacional).
• Esses conjuntos de dados, por sua vez, podem ser resultantes de uma fase prévia de pré-processamento para realização de transformações diversas sobre os dados obtidos de um ambiente transacional.
Mineração de Dados
• Pré-processamento dos dados– Os dados no mundo real podem estar “sujos”:– Necessidade do pré-processamento dos Dados
• Incompletos– ausência de atributos de interesse– apenas dados agregados– ausência de valores
• Ruidosos– erros aleatórios– valores aberrantes (outliers)
• Inconsistentes– discrepâncias nas codificações ou nos nomes
Mineração de dados
• Principais tarefas– Descoberta de associações– Classificação– Agrupamento (clusterização)– Detecção de desvios
Mineração de Dados
• Regras de Associação– Correlacionam a presença de um itemset com
uma faixa de valores para um conjunto de variáveis diverso. Exemplos:
• Quando um compradora adquire uma bolsa provavelmente compra sapatos;
• Uma imagem de raio X contendo características a e b provavelmente também exibe característica c.
Mineração de Dados
• Classificação– É o processo de aprender um modelo que
descreve diferentes classes de dados predefinidas.
– Requer um aprendizado supervisionado– Exemplo:
• Aplicação bancária que classifica os clientes que solicitam cartão de crédito em risco baixo, médio ou alto de acordo com um conjunto de regras envolvendo as informações de salário, estado civil e idade.
Mineração de Dados
• Agrupamento– Consiste em particionar os dados sem ter
uma amostra de treinamento pré-classificada.– Aprendizado não supervisionado.– Exemplos:
• Determinar grupos de clientes que tem padrões de compra semelhantes;
• Determinar grupos de pacientes que mostram reações semelhantes aos medicamentos receitados.
Mineração de Dados
• Algumas ferramentas– WEKA– R– Orange– Rapidminer– Cluto– SAS Enterprise Miner– Oracle Data Mining
Exemplo
Nome Escolaridade Idade Rico ?
Alva Mestrado >30 Sim
Amanda Doutorado <=30 Sim
Ana Mestrado <=30 Não
Eduardo Doutorado >30 Sim
Inês Graduação <=30 Não
Joaquim Graduação >30 Não
Maria Mestrado >30 Sim
Rafael Mestrado <=30 Não
Cada observação contem dados de uma pessoa. Atributo Rico é usado
para indicar se a pessoa tem renda anual >= 50.000 e representa o atributo classe enquanto escolaridade e idade são preditivos.
Descrever o conjunto de regras de classificação e construir uma árvore de decisão.
Regras de classificação
Nome Escolaridade Idade Rico ?
Alva Mestrado >30 Sim
Amanda Doutorado <=30 Sim
Ana Mestrado <=30 Não
Eduardo Doutorado >30 Sim
Inês Graduação <=30 Não
Joaquim Graduação >30 Não
Maria Mestrado >30 Sim
Rafael Mestrado <=30 Não
Regras de classificação:Escolaridade = Graduação => Rico = Não; Escolaridade = Doutorado => Rico = Sim Escolaridade = Mestrado & idade >30 => Rico = SimEscolaridade = Mestrado & idade <=30 => Rico = Não