aula data mining
DESCRIPTION
TRANSCRIPT
![Page 1: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/1.jpg)
Tarefas, Técnicas e Ferramentas
![Page 2: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/2.jpg)
Contexto e Motivação Data Mining – Definições KDD – Definição e Etapas Áreas de Aplicação Cases de Sucesso Abordagens e Metodologias Tarefas de Data Mining Técnicas de Data Mining Visualização de Dados em Data Mining
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 2
![Page 3: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/3.jpg)
Quantidades gigantescas de dados são coletados e armazenados em empresas, corporações, etc... Dados de comércio eletrônico;
Dados de navegação na internet;
Dados de compras de clientes em grandes lojas de departamentos, supermercados;
Dados de transações bancárias, ou de cartão de crédito;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 3
![Page 4: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/4.jpg)
Computadores mais baratos e mais potentes;
Pressão da competição;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 4
![Page 5: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/5.jpg)
Dados coletados e armazenados a velocidades enormes (GB/hora)
Sensores remotos em satélites;
Telescópios;
Microarrays gerando dados de expressões de genes;
Simulações científicas gerando terabytes de dados;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 5
![Page 6: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/6.jpg)
Técnicas tradicionais não apropriadas para analisar tais dados
Ruídos e grande dimensionalidade;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 6
![Page 7: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/7.jpg)
Lei de Moore: Capacidade de processamento dobra a cada 18 meses (CPU, memória, cache)
Capacidade de armazenamento dobra a cada 10 meses
O que estas duas “leis” combinadas produzem? Um gap crescente entre nossa habilidade de gerar
dados e nossa habilidade de fazer uso dele
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 7
![Page 8: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/8.jpg)
Frequentemente existe informação “escondida” nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais.
Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados.
Boa parte dos dados nunca é analisado: “cemitério” de dados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 8
![Page 9: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/9.jpg)
Técnicas de Mineração podem ajudar analistas: Entender e prever as necessidades dos clientes
Descobrir fraudes
Descobrir perfis de comportamento de clientes
Técnicas de Mineração podem ajudar cientistas: Classificar e segmentar dados
Formular hipóteses
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 9
![Page 10: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/10.jpg)
Mineração de dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [WI99].
Mineração de dados é o processo de proposição de várias consultas e extração de informações úteis, padrões e tendências, frequentemente desconhecidos, a partir de grande quantidade de dados armazenada em bancos de dados [BT99].
Mineração de dados, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [HK01].
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 10
![Page 11: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/11.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 11
![Page 12: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/12.jpg)
Limpeza dos dados: etapa onde são eliminados ruídos e dados inconsistentes.
Integração dos dados: etapa onde diferentes fontes de dados podem ser combinadas produzindo um único repositório de dados.
Seleção: etapa onde são selecionados os atributos que interessam ao usuário. Por exemplo, o usuário pode decidir que informações como endereço e telefone não são de relevantes para decidir se um cliente é um bom comprador ou não.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 12
![Page 13: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/13.jpg)
Transformação dos dados: etapa onde os dados são transformados num formato apropriado para aplicação de algoritmos de mineração (por exemplo, através de operações de agregação).
Mineração: etapa essencial do processo consistindo na aplicação de técnicas inteligentes a fim de se extrair os padrões de interesse.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 13
![Page 14: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/14.jpg)
Avaliação ou Pós-processamento: etapa onde são identificados os padrões interessantes de acordo com algum critério do usuário.
Visualização dos Resultados: etapa onde são utilizadas técnicas de representação de conhecimento a m de apresentar ao usuário o conhecimento minerado.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 14
![Page 15: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/15.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 15
![Page 16: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/16.jpg)
Atributos com representação inadequada para tarefa e algoritmo.
Atributos cujos valores não tenham informações adequadas.
Excesso de atributos (podem ser redundantes ou desnecessários).
Atributos insuficientes.
Excesso de instancias (afetam tempo de processamento).
Instâncias insuficientes.
Instâncias incompletas (sem valores para alguns atributos).
Assim como a mineração de dados em si, requer conhecimento sobre os dados e algoritmo que será usado!
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 16
![Page 17: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/17.jpg)
Problemas: Redes Neurais Back-propagation só operam com valores
numéricos. Alguns algoritmos de busca de associações só operam
com valores simbólicos/discretos.
Soluções: Conversão de tipos de atributos (quando aplicável!) Remoção dos atributos inadequados. Separação em subtarefas usando os valores discretos dos
atributos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 17
![Page 18: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/18.jpg)
Problemas: Atributos com baixíssima variabilidade nos valores. Atributos redundantes ou altamente correlacionados
com outros.
Soluções: Remoção dos atributos inadequados. Unificação de atributos ou derivação de novos
atributos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 18
![Page 19: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/19.jpg)
Problemas: Muitos atributos → complexidade de processamento.
Correlações irrelevantes podem complicar o processo de mineração (a não ser que seja necessário descobri-las!)
Soluções:
Remoção dos atributos irrelevantes (possivelmente depois
de alguma analise).
Mudança de representação ou projeção (usando, por exemplo, PCA ou Mapas de Kohonen).
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 19
![Page 20: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/20.jpg)
Problemas: Poucos atributos podem não possibilitar mineração
adequada (para identificar classes, por exemplo).
Soluções: Enriquecimento com dados complementares (se puderem
ser obtidos!) Enriquecimento com combinações não lineares. Data Farming. (Criação de grandes volumes de dados
através de simulação com alta performance usando modelos generativos de dados.)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 20
![Page 21: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/21.jpg)
Problemas: Muitas instâncias podem tornar o processamento inviável:
alguns algoritmos requerem varias iterações com os dados.
Problema relacionado: desbalanceamento de instâncias para classificação.
Soluções:
Redução por amostragem. Redução por prototipagem. Particionamento do conjunto de dados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 21
![Page 22: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/22.jpg)
Problemas: Poucas instâncias podem comprometer o resultado
(que será pouco genérico ou confiável).
Casos raros podem não ser representados.
Soluções: Coleta de mais instâncias.
Data Farming.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 22
![Page 23: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/23.jpg)
Problemas: Dados coletados podem ter valores de atributos faltando. Por que estão faltando? Rever modelagem do processo e coleta!
Soluções: Eliminação de dados/atributos com muitos valores faltando. Completar através de proximidade/similaridade com dados
completos. Separar em conjuntos para processamento independente ou
associado.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 23
![Page 24: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/24.jpg)
Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável;
KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 24
![Page 25: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/25.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 25
![Page 26: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/26.jpg)
Vendas e Marketing
Identificar padrões de comportamento de consumidores
Associar comportamentos à características demográficas de consumidores
Campanhas de marketing direto (mailing campaigns)
Identificar consumidores “leais”
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 26
![Page 27: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/27.jpg)
Bancos
Identificar padrões de fraudes (cartões de crédito)
Identificar características de correntistas
Mercado Financeiro ($$$)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 27
![Page 28: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/28.jpg)
28
Médica
Comportamento de pacientes
Identificar terapias de sucessos para diferentes tratamentos
Fraudes em planos de saúdes
Comportamento de usuários de planos de saúde
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA
![Page 29: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/29.jpg)
Exemplo (1) - Fraldas e cervejas
O que as cervejas tem a ver com as fraldas ?
homens casados, entre 25 e 30 anos;
compravam fraldas e/ou cervejas às sextas-feiras
à tarde no caminho do trabalho para casa;
Wal-Mart otimizou às gôndolas nos pontos de
vendas, colocando as fraldas ao lado das cervejas;
Resultado: o consumo cresceu 30% .
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 29
![Page 30: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/30.jpg)
Exemplo (2) - Lojas Brasileiras (Info 03/98)
Aplicou 1 milhão de dólares em técnicas de data mining
Reduziu de 51000 produtos para 14000 produtos oferecidos em suas lojas.
Exemplo de anomalias detectadas: – Roupas de inverno e guarda chuvas encalhadas no nordeste
– Batedeiras 110v a venda em SC onde a corrente é 220v
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 30
![Page 31: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/31.jpg)
Exemplo (3) - Bank of America (Info 03/98)
Selecionou entre seus 36 milhões de clientes
▪ Aqueles com menor risco de dar calotes
▪ Tinham filhos com idades entre 18 e 21 anos
▪ Resultado em três anos o banco lucrou 30 milhões de dólares com a carteira de empréstimos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 31
![Page 32: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/32.jpg)
Quanto ao tipo de bancos de dados: relacional, transacional, orientado-objeto, relacional-estendido, data warehouse;
Quanto ao tipo de conhecimento minerado: regras de associação, classificação, clustering, outliers, análise de sequências;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 32
![Page 33: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/33.jpg)
Quanto ao tipo de técnicas utilizadas: técnicas de aprendizado de máquina (Machine Learning), estatística, redes neurais, algoritmos genéticos, etc; tipos de interação com o usuário;
Quanto ao tipo de aplicações a que são dirigidos: telecomunicações, análise financeira, bioinformática, mercado de ações, comércio eletrônico;
Diferentes aplicações requerem a integração de métodos específicos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 33
![Page 34: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/34.jpg)
Na busca de conhecimento direta ou supervisionada sua meta é orientada.
Existe um valor para ser prognosticado, uma classe a ser atribuída aos registros ou um determinado relacionamento para ser explorado.
Existe apenas uma vaga idéia do que se estar procurando.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 34
![Page 35: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/35.jpg)
Identificar as fontes dos dados selecionados para mineração;
Prepara os dados para análise; Construir e trinar o modelo computacional; Avaliar o modelo computacional.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 35
![Page 36: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/36.jpg)
Na busca de conhecimento indireta ou não-supervisionada não existe uma meta bem definida.
As ferramentas são mais livres na sua aplicação sobre os dados e espera-se que será descoberto alguma estrutura significante nos dados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 36
![Page 37: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/37.jpg)
Identificar as fontes dos dados; Prepara os dados para análise; Construir e trinar o modelo computacional; Avaliar o modelo computacional; Aplicar o modelo computacional no novo
conjunto de dados; Identificar potenciais objetivos para busca de
conhecimento direta; Gerar novas hipóteses para teste.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 37
![Page 38: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/38.jpg)
Na abordagem top-down, também chamada de teste de hipótese, o usuário parte do princípio que existe uma hipótese, uma idéia pré-concebida e que mesmo deseja confirmá-la ou refutá-la.
Na abordagem bottom-up, também chamada de busca de conhecimento, o usuário inicia o processo de exploração dos dados na tentativa de descobrir alguma coisa que ainda não é de conhecimento
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 38
![Page 39: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/39.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 39
![Page 40: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/40.jpg)
Tarefas: Consistem na especificação do que estamos querendo buscar nos dados, que tipo de regularidades ou categoria de padrões temos interesse em encontrar, ou que tipo de padrões poderiam nos surpreender (por exemplo, um gasto exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus gastos).
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 40
![Page 41: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/41.jpg)
Técnicas: Consiste na especificação de métodos que nos garantam como descobrir os padrões que nos interessam.
Dentre as principais técnicas utilizadas em mineração de dados, temos técnicas estatísticas, técnicas de aprendizado de máquina e técnicas baseadas em crescimento-poda-validação.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 41
![Page 42: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/42.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 42
![Page 43: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/43.jpg)
Uma regra de associação é um padrão da forma X -> Y , onde X e Y são conjuntos de valores (artigos comprados por um cliente, sintomas apresentados por um paciente, etc).
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 43
![Page 44: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/44.jpg)
Exemplo: “Clientes que compram pão também compram leite”
representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado.
Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 44
![Page 45: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/45.jpg)
Um padrão sequencial é uma expressão da forma < I1,..., In >, onde cada Ii é um conjunto de itens. A ordem em que estão alinhados estes conjuntos reflete a ordem cronológica em que aconteceram os fatos representados por estes conjuntos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 45
![Page 46: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/46.jpg)
Exemplo: A sequência < {carro}, {pneu, toca-fitas} >
representa o padrão Clientes que compram carro, tempos depois compram pneu e toca-fitas de carro.
Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 46
![Page 47: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/47.jpg)
Classificação é o processo de encontrar um conjunto de modelos (funções) que descrevem e distinguem classes ou conceitos, com o propósito de utilizar o modelo para predizer a classe de objetos que ainda não foram classificados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 47
![Page 48: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/48.jpg)
O modelo construído baseia-se na análise prévia de um conjunto de dados de amostragem ou dados de treinamento, contendo objetos corretamente classificados.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 48
![Page 49: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/49.jpg)
Exemplo: Suponha que o gerente do supermercado está
interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador.
Um modelo de classificação poderia incluir a seguinte regra: Clientes da faixa econômica B, com idade entre 50 e 60 são maus compradores.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 49
![Page 50: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/50.jpg)
Em algumas aplicações, o usuário está mais interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos.
Neste caso, a tarefa de mineração é denominada Predição.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 50
![Page 51: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/51.jpg)
Diferentemente da classificação e predição onde os dados de treinamento estão devidamente classificados e as etiquetas das classes são conhecidas, a análise de clusters trabalha sobre dados onde as etiquetas das classes não estão definidas.
A tarefa consiste em identificar agrupamentos de objetos, agrupamentos estes que identificam uma classe.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 51
![Page 52: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/52.jpg)
Exemplo: Poderíamos aplicar análise de clusters sobre o banco
de dados de um supermercado a fim de identificar grupos homogêneos de clientes;
Por exemplo, clientes aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 52
![Page 53: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/53.jpg)
Um banco de dados pode conter dados que não apresentam o comportamento geral da maioria. Estes dados são denominados outliers(exceções).
Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado.
Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 53
![Page 54: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/54.jpg)
Exemplo:
Podemos detectar o uso fraudulento de cartões de crédito ao descobrir que certos clientes efetuaram compras de valor extremamente alto, fora de seu padrão habitual de gastos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 54
![Page 55: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/55.jpg)
O que significa um padrão ser interessante ? Fácil de ser entendido
Inesperado
Potencialmente util
Confirma uma hipotese feita pelo usuario
Tipos de medidas:
Objetivas : suporte, confiança
Subjetivas : esperadas, inesperadas
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 55
![Page 56: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/56.jpg)
Associação
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 56
![Page 57: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/57.jpg)
Métricas: Significância em uma associação: ela pode existir mas ser
muito rara em uma base de dados (ex. cerveja → fraldas). ▪ Suporte X → Y: numero de casos que contem X e Y dividido pelo
número total de registros.
Confiança em uma associação: o antecedente pode ocorrer
varias vezes na base de dados mas nem sempre com o mesmo consequente associado. ▪ Confiança X → Y: numero de registros que contem X e Y dividido
pelo numero de registros que contem X.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 57
![Page 58: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/58.jpg)
Algoritmo Apriori
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 58
![Page 59: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/59.jpg)
Sequências
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 59
![Page 60: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/60.jpg)
Algoritmos AprioriALL Algoritmo Apriori-Some Algoritmo GSP Algoritmo SPADE Algoritmo PrefixSpan
Sequências com Restrições
Algoritmo SPIRIT
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 60
![Page 61: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/61.jpg)
Classificação
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 61
![Page 62: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/62.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 62
![Page 63: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/63.jpg)
Métodos de classificação supervisionada: Baseados em distancias e diferenças, usando protótipos ou assinaturas: mínima distancia euclidiana e variantes. Baseados em separabilidade (entropia): hiperparalelepípedo
regular, arvores de decisão e variantes. Baseados em particionamento: redes neurais (back-
propagation), SVM (support vector machines). Baseados diretamente nos dados: vizinhos mais próximos e
similares.
Existe superposição nesta taxonomia...
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 63
![Page 64: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/64.jpg)
Árvores de decisão: (ID3) - 1o Exemplo
Representações simples do conhecimento
Utilização de regras condicionais
A partir de um conjunto de valores decide SIM ou NÃO
Mais rápida e mais compreensível que redes neurais
Exemplo: Sair ou não de acordo com o tempo
Sair Umidade
Chuvoso Nublado Ensolarado
Tempo
Ñ Sair
Alta
Sair
Normal
Muito vento
Ñ Sair
Sim
Sair
Não
Predicado objetivo: Sair ou Não Sair
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 64
![Page 65: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/65.jpg)
Árvores de decisão: (ID3) - 2o Exemplo
Renda > R$ 4.000,00
Dívida < 10% da renda ? Dívida = 0%
Risco de ter crédito Risco de não ter crédito Risco de ter crédito
SIM
SIM SIM NÃO NÃO
NÃO
Nesta árvore de decisões, regras são induzidas nos padrões dos dados e cria-se uma hierarquia de indicações “se-então”.
Classificação de um indivíduo com risco de ter ou não crédito
Predicado objetivo: Crédito ou Não
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 65
![Page 66: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/66.jpg)
Redes Neurais: ▪ Para construir um modelo neural, nós primeiramente
"adestramos" a rede em um dataset de treinamento e então usamos a rede já treinada para fazer predições.
▪ Problemas:
▪ Não retorna informação a priori
▪ Não pode ser treinada em uma grande base de dados
▪ Entrada não pode ser dados alfanuméricos (mapear para numérico)
▪ Nenhuma explanação dos dados é fornecida (caixa preta)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 66
![Page 67: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/67.jpg)
Redes Neurais:
Exemplo prático: risco de câncer
Data mining - Clementine User Guide 09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 67
![Page 68: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/68.jpg)
Redes Neurais: - 2o Exemplo
RENDA
REG. DE
PAGAMENTO IDADE
DÉBITO
Risco de ter
crédito
Risco de não ter crédito
As redes neurais usam seus dados de entrada. Atribui pesos nas conecções entre os atributos (neurônios).
E obtém um resultado (risco de ter ou não crédito) no nível de saída.
Nível
de entrada
Nível oculto
Nível
de saída
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 68
![Page 69: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/69.jpg)
Agrupamento (Clusterização)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 69
![Page 70: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/70.jpg)
Algoritmos para criação de grupos de instâncias Similares entre si, Diferentes de instancias em outros grupos. Não-supervisionado (?)
Também conhecidos como algoritmos de
aprendizado auto organizado.
Diferença entre instancias e (protótipos de) grupos e dada por um valor: medidas de distancia ou similaridade/dissimilaridade.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 70
![Page 71: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/71.jpg)
Duas abordagens gerais: Particionais:
▪ Criam grupos de forma iterativa. ▪ Reparticiona/reorganiza ate atingir um limiar (tempo, erro quadrático, etc). ▪ Ao terminar fornece pertinência final de instancias a grupos.
Hierárquicos:
▪ Bottom-up: cria pequenos grupos juntando as instancias, repetindo ate atingir um critério. ▪ Top-down: considera todas as instancias como pertencentes a um grande grupo,
subdivide recursivamente este grupo.
Podem criar dendogramas: agrupamentos hierárquicos com números
alternativos de grupos.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 71
![Page 72: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/72.jpg)
K-Médias (Particional) Isodata Lógica Nebulosa (Fuzzy Logic) Fuzzy C-Médias Self-Organizing Maps (SOMs) Hierárquicos Aglomerativos
(BIRCH, CURE, CHAMELEON, ROCK...) Hierárquicos Divisórios
(DIANA) Baseados em Densidade
(DBSCAN,OPTICS, DENCLUE)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 72
![Page 73: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/73.jpg)
Outliers
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 73
![Page 74: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/74.jpg)
Outras Técnicas
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 74
![Page 75: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/75.jpg)
Muitas outras técnicas podem ser usadas: Pesquisa Operacional, Inteligência Artificial e
outras.
Outros modelos de redes neurais, Rough Sets, Support Vector Machines, etc.
Técnicas de algoritmos genéticos, Particle Swarm Optimization, etc.
Técnicas baseadas em sistemas imunes artificiais, biologia/vida artificial, etc.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 75
![Page 76: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/76.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 76
![Page 77: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/77.jpg)
Pode ser usada no inicio do processo de mineração... Para ter uma ideia da distribuição dos dados ou de relações entre os
dados para formulação de hipóteses; Para selecionar atributos ou regiões de dados; Para ter uma ideia de que tipos de algoritmos podem trazer resultados
para estes dados;
Pode ser usada no final do processo de mineração... Para ver as informações/regras/grupos/etc. obtidos: sumarização do
conhecimento; Para ver distribuições contextualizadas (isto e, com conhecimento
adicional adquirido integrado); Analise Explorativa/ Analise Confirmativa/Apresentação;
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 77
![Page 78: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/78.jpg)
Desafios: Métodos e técnicas específicos. Limitações de hardware (humano e maquina!) Numero de dimensões (atributos) dos dados. Numero de instancias para visualização. “Empilhamento” e ordenação.
Vantagens: Inerentemente exploratório. Padrões detectados mesmo que não sejam explicáveis!
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 78
![Page 79: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/79.jpg)
Ideia básica: transformações e projeções usando arranjos em um numero menor de dimensões. Scatterplot Matrices: K atributos em grade KxK.
Prosection Views: Scatterplot Matrices com mecanismos de seleção (drill-down).
Parallel Coordinates: muito bom para dados mistos, requer exploração e rearranjos.
Visualização com Mapas de Kohonen (SOMs).
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 79
![Page 80: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/80.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 80
![Page 81: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/81.jpg)
Exemplo de R. Spence.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 81
![Page 82: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/82.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 82
![Page 83: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/83.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 83
![Page 84: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/84.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 84
![Page 85: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/85.jpg)
Origem do vinho a partir de conteúdo físico-químico (13 atributos) http://archive.ics.uci.edu/ml/datasets/Wine (nomes de atributos originais)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 85
![Page 86: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/86.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 86
![Page 87: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/87.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 87
![Page 88: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/88.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 88
![Page 89: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/89.jpg)
Ideia básica: usamos duas dimensões para mostrar ícones que representam outras dimensões adicionais. Interpretação deve ser feita com legendas!
Chernoff faces: atributos das faces (geometria, olhos, excentricidade, curvaturas, etc.) representam outras dimensões.
Stick figures: dimensões adicionais mapeadas para ângulos e comprimentos de segmentos de retas.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 89
![Page 90: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/90.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 90
![Page 91: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/91.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 91
![Page 92: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/92.jpg)
Uso de duas dimensões mais textura
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 92
![Page 93: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/93.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 93
![Page 94: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/94.jpg)
Idéia básica: particionamento das dimensões em subdimensiones. Dimensional Stacking: Particionamento de N dimensões
em conjuntos de 2 dimensões.
Worlds-within-Worlds: Particionamento de N dimensões em conjuntos de 3 dimensões.
Treemap: Preenche área de visualização alternando eixos X e Y.
Cone Trees: Visualizacao interativa de dados hierárquicos.
InfoCube: Visualização hierárquica com 3D e transparência.
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 94
![Page 95: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/95.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 95
![Page 96: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/96.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 96
![Page 97: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/97.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 97
![Page 98: Aula Data Mining](https://reader033.vdocuments.pub/reader033/viewer/2022051323/54831160b07959150c8b4953/html5/thumbnails/98.jpg)
09/11/2010 ©2010 | Mauricio Cesar Santos da Purificação | Grupo DW-UFBA 98