nh consultoria data mining definição gartner group: –data mining is the process of discovering...

33
NH Consultoria www.NHConsultoriaTI.com Data Mining Definição Gartner Group: “Data mining is the process of discovering meaningful new correlations, patterns and trends by shifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.” Descobrimento de conhecimento em BD Extração de padrões de informação de interesse : 1. Não trivial 2. Implícita 3. Previamente desconhecida 4. Potencialmente útil

Upload: internet

Post on 18-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data MiningDefinição

• Gartner Group: – “Data mining is the process of discovering

meaningful new correlations, patterns and trends by shifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.”

• Descobrimento de conhecimento em BD– Extração de padrões de informação de interesse :

1. Não trivial2. Implícita3. Previamente desconhecida4. Potencialmente útil

Page 2: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data MiningDefinições

• O que é :– Descoberta de conhecimento em BD (KDD),

extração de conhecimento, análise de padrões em dados, information harvesting, business intelligence, etc.

• O que não é :– Processamento dedutivo de consultas; – Sistemas especialistas e pequenos

programas estatísticos e de aprendizagem de máquina.

Page 3: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data MiningDefinições

• O Data Mining trabalha com grandes quantitades de dados.

• O Data Mining é diferente da análise de dados e da estatística :– Não precisa establecer uma hipótese a priori para testá-la em

seguida.– É dos próprios dados que devem surgir as hipóteses

(desconhecidas a priori) que o usuário validará depois.– Necessita uma arbitragem entre a validade científica, a

interpretabilidade dos resultados e a facilidade de utilização em ambiante profissional onde os usuários não são especialistas de estatística.

• O Data Mining é EMPÍRICO

Page 4: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data MiningDefinições

EstatísticasBases de

Dados

Inteligência Artificial

Data Mining

Page 5: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data Mining : Aplicações• Analisar

– Comportamento de consumidores– Vendas cruzadas– Similaridades de comportamentos– Cartões de fidelidade

• Prever– Respostas a uma mala direita ou operação Marketing (Ex : OPA).– Probabilidade de um cliente se separar do seu fornecedor (banco, telefone

móvel, etc.)– Necessidades de manutenção preventiva.

• Detectar– Comportamentos anormais ou fraudulento

• Desvios financeiros, Fraude com seguros, Energia, etc.– Problemas de qualidade (pós-venda).

• Procurar– Critérios para avaliar os "bons" clientes sem risco e propor para eles umas

condições financeiras particularizadas (banco, seguro).• Sugerir

– Uma resposta adequada durante uma chamada num call-center.

Page 6: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data Mining : Anedotas• Wal-Mart :

– Primeiros ensaios de KDD com os dados dos "Tickets" de caixa dos supermercados.

– Detecção de forte correlação entre compra de fraldas e cervejas nos sábados pela tarde...

• Os esposos eram mandados pelas esposas para fazer compras volumosas.

• Re-organização das gôndolas deixando as fraldas perto da cerveja : Aumento significativo das vendas de cerveja !

• Coca-Cola :– Baixa de 5% do preço da bebida => aumento de 15% das

vendas.– DM : as vendas de biscoitos aperitivos vão aumentar na mesma

proporção que as de bebida.– Conclusão : baixar o preço da bebida permite aumentar as

vendas de biscoitos aperitivos (margem fraca na bebida e importante nos biscoitos).

Page 7: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data mining & BI

Increasing potentialto supportbusiness decisions End User

Business Analyst

DataAnalyst

DBA

MakingDecisions

Data Presentation

Visualization Techniques

Data MiningInformation Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data SourcesPaper, Files, Information Providers, Database Systems, OLTP

Page 8: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data Mining : O Processo• Formalizar

– O problema que deve ser resolvido a partir de dados.• Coletar

– Os dados adequados onde eles forem.• Preparar

– Os dados para os cálculos futuros. (a etapa é então SUBJETIVA).• Processar

– Os dados aplicando algoritmos de análise. • Avaliar e validar

– Os conhecimentos resultantes do processamento.• Desdobrar

– As análises na Empresa para uma utilização eficaz.

• O Processo é Cíclico !• O DM não é uma soma de vários pequenos estudos, mas sim um método

de capitalização de conhecimentos adquiridos e explícitos.• O DM deve permitir a estruturação dos conteúdos necessários à

engenharia do conhecimento.

Page 9: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data Mining : Os Algoritmos• Não Supervisionado

– Nenhum dado ou variável têm mais importância que os outros.– Nenhuma variável é considerada individualmente como o alvo da análise.– Utilizações típicas :

• Extrair grupos homogêneos a partir de indivíduos• Extrair normas de comportamento e desvios em relação com estas normas (ex :

deteção de novas fraudes)• Compressão de informação

• Supervisionado– Objetivo : prever e/ou explicar um ou vários fenômenos observáveis e medidos.– Algumas variáveis são os alvos.– Utilizações típicas :

• Por que um individuo compra A mais que B ?• Por que um individuo pegou uma doença ?• Por que um individuo visitou muito uma página WEB ?• Etc.

• Redução de dados– Eliminação de ruído.– Redução do volume de dados.– Utilizações típicas :

• Em pré-processamento dos dados.• Complementares das técnicas prévias.

Page 10: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data MiningPré-processamento

• Dados reais são “sujos”:– Incompletos: falta de valores de atributos, falta de

atributos de interesse ou existência de atributos agregados;

– Ruidosos: contem erros e desvios;– Inconsistentes: contêm discrepâncias em nomes e na

codificação.• Sem dados de qualidade, sem resultados de

qualidade em DM:– Decisões de qualidade devem estar baseadas em

dados de qualidade;– DWH necessita da integração consistente de dados

de qualidade.

Page 11: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Data MiningPré-processamento

Page 12: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Pré-processamentoLimpeza de dados

• Valores Faltantes– Ignorar a tupla– Preencher o valor manualmente– Usar uma constante global– Usar o valor médio do atributo na base– Usar o valor mais provável

• Atenuação de ruido– Discretização– Agrupamento– Interação humana– Regressão

Page 13: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Limpeza da dadosExemplo : Regressão linear

• Estatística :– Y e X são correlacionados pela

relação Y = a.X + b– Achar a e b de tal maneira que a

soma seja mínima

– Y = a0 + a1.X1 + ... + an.Xn : regressão linear múltipla

Page 14: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Pré-processamentoIntegração de dados

• Problemas– Redundâncias– Valores conflitantes (incoerências)

• Soluções– Regras de gestão nos ETL– Referenciais de dados– Integração no DWH, não no Datamart !

Page 15: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Pré-processamentoTransformação

• Suavização– Ex : Média Móvel (Moving Average)

• Agregação• Generalização• Normalização

– Utilizado para alguns tipos de análises (ex : ACP, cálculo matricial de correlações, etc.)

• Discretização– Tb pode ser utilizada para transformar os dados (alguns

métodos somente funcionam com dados discretos).

• Etc.

Page 16: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Pré-processamentoDiscretização - Normalização

Valores Centrado Discretizado Reduzido6,8542 1,5298569 MÉDIO 0,476978306

4,33819 -0,986154122 MÉDIO -0,3074628241,57013 -3,754212964 BAIXO -1,1704873454,45158 -0,872765 MÉDIO -0,2721103990,73524 -4,589109535 BAIXO -1,4307911377,94549 2,62114256 ALTO 0,8172190088,29327 2,968924787 ALTO 0,925650442

Média 5,324346611 8,29982 2,975474576 ALTO 0,927692534Dev padrão 3,20739304 0,1267 -5,197646347 BAIXO -1,620520554

7,18096 1,856617738 ALTO 0,5788556980,55746 -4,766886019 BAIXO -1,4862182348,77819 3,453847724 ALTO 1,0768395644,63465 -0,689694275 MÉDIO -0,2150326668,2685 2,944155581 ALTO 0,917927907

4,98172 -0,342630663 MÉDIO -0,1068252818,90626 3,581918156 ALTO 1,1167693246,61938 1,295033331 MÉDIO 0,4037650878,21337 2,889027822 ALTO 0,9007401920,40745 -4,916900248 BAIXO -1,532989623

Page 17: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Pré-processamentoRedução de dados

• Agregação de data cubes

• Redução de dimensionalidade– Ex : Análise em componentes principais

• Compressão de dados

• Redução de instâncias

• Geração de hierarquias de conceitos– Ex : Classificação Ascendente Hierárquica

Page 18: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Redução de dadosExemplo : ACP

-4

-2

0

2

4

6

8

10

12

0 2 4 6 8 10 12

O objetivo da ACP é de determinar os eixos que melhor explicam a dispersão dos pontos disponíveis.

Com N dimensões, a ACP vai determinar N eixos ordenados por inércia explicada.Projetando nos dois primeiros eixos (de maior inércia) os indivíduos, conseguimos uma visualização em duas dimensões das observações.

A ACP também é um meio de :• Descorrelacionar os dados (na nova base os pontos têm correlação 0)• Reduzir o ruído (considerando que os eixos descartados contêm o ruído).• Comprimir os dados (descartando as coordenadas dos eixos excluídos).

Page 19: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

ACPvariáveis

Individuos(realizações)

Reduzida

Centrada no centro de gravidade

1/K * tM * M_ _

Matriz das covariâncias~

1/K * tM * M~

Matriz das correlações

Matrizes quadradas, simétricas e reais.Podem ser diagonalizadas numa base ortogonal e normalizada.

Os vetores próprios da matriz de covariância (ou da matriz de correlação) são aqueles que explicam a maior inércia dos pontos e são ordenados. O problema é então resolvido diagonalizando as matrizes.

•Covariância : uma variável com muita variância vai "atrair" todo resultado par ela.•Correlações : uma variável que é somente ruído será considerada igual que as outras variáveis informativas.

Page 20: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Exemplo de ACP

Modelo CYL POT COMPR LARG PESO V-MAX ACABAM PREÇO PESO/POTAlfasud TI 1350 79 393 161 870 165 B 30570 11,01Audi 100 1588 85 468 177 1110 160 TB 39990 13,06Simca 1300 1294 68 424 168 1050 152 M 29600 15,44Citroen GS Club 1222 59 412 161 930 151 M 28250 15,76Fiat 132 1585 98 439 164 1105 165 B 34900 11,28Lancia Beta 1297 82 429 169 1080 160 TB 35480 13,17Peugeot 504 1796 79 449 169 1160 154 B 32300 14,68Renault 16 TL 1565 55 424 163 1010 140 B 32000 18,36Renault 30 2664 128 452 173 1320 180 TB 47700 10,31Toyota Corolla 1166 55 399 157 815 140 M 26540 14,82Alfetta-1.66 1570 109 428 162 1060 175 TB 42395 9,72Princess-1800 1798 82 445 172 1160 158 B 33990 14,15Datsun-200L 1998 115 469 169 1370 160 TB 43980 11,91Taunus-2000 1993 98 438 170 1080 167 B 35010 11,02Rancho 1442 80 431 166 1129 144 TB 39450 14,11Mazda-9295 1769 83 440 165 1095 165 M 27900 13,19Opel-Rekord 1979 100 459 173 1120 173 B 32700 11,20Lada-1300 1294 68 404 161 955 140 M 22100 14,04

Page 21: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Page 22: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Page 23: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Page 24: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Page 25: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Page 26: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Pré-processamento

Exemplo das "abstrações simbólicas"Discretização, redução, agrupamento, generalização, etc.

com dados temporais e em tempo real

• Clancey W., Heuristic classification, Artificial Intelligence, vol. 27, pp. 289-350, 1985.

• Ramaux N., Fontaine D., Dojat M., Temporal scenario recognition for Intelligent patient monitoring, in Proc. 6th AIME 97, Lecture notes in Artificial Intelligence vol 1211, E. Keravnou, C. Garbay, R. Baud; J. Wyatt Eds, Springer, pp. 331-343, Grenoble, 1997.

• Shahar Y., A framework for knowledge-based temporal abstraction, Artificial Intelligence, vol 90, pp. 79-133, 1997.

Page 27: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Abstração simbólica

Modificação do espaço de indicadores (variáveis)

Modificação da granularidade temporal

Síntese dos dados no tempo

Conversão numérica / simbólica

Abstração "Horizontal" Abstração "Vertical"

Tendência

Page 28: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Freqüência respiratórianumérico, Cyclos/min

Volume aspiradonumérico, Litros/sec

Freqüência respiratóriaSimbólico

Volume aspiradoSimbólico

Abstraçãoqualitativa

Diagnóstico de ventilaçãoSimbólico

Abstração"definicional"

Mecanismos verticais

Page 29: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Tempo

Valores numéricosadquiridos

Estado Estado

Interpolaçãotemporal

Mecanismos horizontais - 1

Persistência do valor

Particular para cada variável

Page 30: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Tempo

var=v var=v

var=v

Prolongaçãopor

continuidade

Mecanismos horizontais - 2

Para qualquer variável

Page 31: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Tempo

Var=a Var=ab

Var=a

Agregaçãorealizada

Tempo

Var=a Var=aVar=bAgregação

Não realizada

Mecanismos horizontais - 3

Particular para cada variável

Page 32: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

A B A B B B

Desconhecido{I

Desconhecido

A {I

Tempo

Valores numéricosbrutos

Classe A

Classe B

t1 t2 t3 t4 t5 t6 t7 t8 t9

B A BIA AI

A I B A B

Nível de abstraçãotemporal

Tempo

ProlongaçãoPor continuidade

Esquecimento

B

AgregaçãoA I

Interpolaçãotemporal

Mecanismos horizontaisexemplo

Page 33: NH Consultoria  Data Mining Definição Gartner Group: –Data mining is the process of discovering meaningful new correlations, patterns

NH Consultoria www.NHConsultoriaTI.com

Tempo

ValoresNuméricos

brutos

Tendência = 1.232Regressão linear

Tendência = "aumento médio"

Interpolação temporal

Intervalo de tempoAbstraçãoqualitativa

Tendência = "Aumento médio"

Tendências