1 capacidades do data warehouse o data warehouse(dw) tem como objetivo criar e manter uma base de...
TRANSCRIPT
1
Capacidades do Data Warehouse
• O Data Warehouse(DW) tem como objetivo criar e manter uma base de dados analítica.
• As análises extremamente flexíveis obtidas através das operações OLAP (drill-down, roll-up, slice) são poderosas mais muito simples, tudo gira em torno de somas (fatos aditivos), médias (fatos semi-aditivos) e/ou contagens (fatos não-aditivos)
2
Limites do OLAP
• As operações Olap podem responder aos seguintes questionamentos:– Qual região vendeu mais? Qual diferença entre vendas
de determinado produto por região ou por vendedor?
• Olap não pode responder:– Qual o perfil dos compradores da região que mais
vendeu determinado produto?– Quais produtos que mais venderam em conjunto?– Quais os prováveis produtos que determinado cliente
irá escolher na próxima compra?
3
Data Mining
• Data Mining visa analisar dados também, só que com a utilização de métodos mais complexos, como conseqüência, os resultados são mais elaborados.– A Mineração de Dados é uma conjunto de
poderosas técnicas de análise para extração de conhecimentos a partir de séries de dados muito grandes, que podem ser de extraordinário valor para análises e decisões nas organizações
4
Relação DW e Data Mining
• Do ponto de vista de um DW, Data Mining pode ser vista como um aplicação cliente do DW. Como uma ferramenta de consulta OLAP ou uma ferramenta de relatórios, a ferramenta de Data Mining pode estar em uma máquina a parte e requisitando dados do DW
• Do ponto de vista de Data Mining, o DW é apenas uma coleção de dados organizada e sem problemas de qualidade, i.e., uma fonte de dados
5
Relação DW e Data Mining
• São independentes e podem ser utilizados em separado.
• As análises são complementares e não sobrepostas• Contudo, um ambiente de análise completo
necessita resultados de ambos, ou seja, o melhor é utilizar os dois em conjunto.
• Existe uma tendência de ter as duas formas de análise no mesmo ambiente
6
Exemplos de Aplicação
• Marketing– Mala direta de produtos para clientes que tem
possibilidade de comprar aquele produto
• Varejo– Produtos organizados nas prateleiras de forma que
o cliente ponha no carrinho de compra os produtos que vendem em conjunto
• Telecomunicações– Ligações fraudulentas de Celulares clonados
7
Exemplos de Aplicação
• Bancário– Liberação de empréstimos para clientes que tem
característica de bom pagador
• Científico– NASA cataloga imagem de satélites classifica eventos
similares nas imagens
• Acadêmico– Disciplinas de graduação que tem maior probabilidade
de serem cursadas em conjunto
8
KDD & Data Mining
• Descoberta de Conhecimento em Base de Dados (KDD)– “é o processo não trivial de identificação de padrões em
dados que sejam válidos, novos, potencialmente úteis e compreensíveis” [Fayyad 96]
– “é uma tarefa cujo uso de conhecimento é intensivo, consistindo de complexas interações, prolongadas no tempo, entre uma pessoa e um banco de dados, possivelmente suportada por um conjunto heterogêneo de ferramentas.” [Brachman 96]
9
KDD & Data Mining
• Data Mining – é uma etapa neste processo onde os recursos
computacionais são mais exigidos– Também chamada de Mineração de Dados e
Prospecção de dados» sondagem» pesquisa» avaliar» investigar» explorar
10
Condições
• Critérios que justificam adoção de KDD [Fayyad 96]– Práticos
• Impacto Potencial • Falta de Alternativa• Suporte Organizacional
11
Condições
• Critérios que justificam adoção de KDD [Fayyad 96]– Técnicos
• Quantidade de dados• Atributos Relevantes• Qualidade dos dados• Conhecimento acerca do domínio
12
Processo de KDD
• Abordagem utilizada– Dividida em etapas [Fayyad 96]
13
Processo de KDD
• Adriaans 97
14
Processo de KDD
• Terra 2000
15
Etapas do Processo
• Definição de Objetivos– Sempre o processo de KDD tem um objetivo
inicial, uma hipótese, que será comprovada ou rejeitada com utilização de exemplos de dados/conhecimento extraído
– Nem sempre o objetivo do processo é diretamente atribuído a um conjunto de dados do universo de discurso. Nestas situações existe o problema chamado de “concept assignment problem”. Por exemplo, como determinar o perfil dos melhores(?) clientes
16
Etapas do Processo
• Preparação dos Dados– A partir do objetivo podemos preparar um
conjunto de dados. • Seleção. Focar em um subconjunto
• Limpeza. Eliminar ruído
• Enriquecimento. Acrescentar dados externos
• Transformação/Codificação. Normalizar dados
– Grande parte da preparação é feita quando temos o DW!
17
Etapas do Processo
• Data Mining– Algoritmos específicos são utilizados para
extrair conhecimento– Existem vários tipos de análises realizadas
pelos algoritmos– Escolher uma análise nem sempre é uma tarefa,
principalmente onde há o “concept assignment problem”
18
Etapas do Processo
• Interpretação/Validação dos resultados– Muitas vezes temos uma quantidade de resultados de difícil
aplicação na etapa de Data Mining (muito grande ou muito pequena)
– A quantidade depende dos valores dos parâmetros escolhidos na análise
• Características desejáveis Result.(Conhecimento)– Correto– Compreensível– Interessante / Útil/ Novo
19
Data Mining
• Tarefas de Mineração/Classes de Problemas– Após criar um conjunto de dados é preciso definir
qual método de mineração será aplicado– Existem vários métodos que são agrupados em
“tarefas” ou “classes” semelhantes:• [Agrawal 93] : Associações, Classificação e Seqüência
• [Fayyad 96] : Link Analysis, Classificação, Agrupamento, Detecção de desvios, Sumarização,...
20
Métodos
• Em [Fayyad 96] é proposta uma divisão em mais alto nível dos métodos segundo a aplicação :– Descritivos
• Procuram criar um modelo para gerar uma representação descritiva dos dados. A partir desta representação podem ser tomadas as devidas ações
– Preditivos• Procuram criar modelos que permitam prever a situação
futura. Não focam necessariamente a compreensão humana do modelo extraído.
21
Algoritmos de Data Mining
• Existem muitos algoritmos que podem ser utilizados em Data Mining
• Em parte, estes algoritmos não são novos, mas sim originários de métodos estatísticos e de IA.
• Contudo, em Data Mining, estes algoritmos devem ser adaptados para que possam tratar uma grande quantidades de dados. Muitos algoritmos não podem ser utilizados
22
Associações/Link Analysis
• As regras de associações representam padrões onde a ocorrência de eventos em conjunto é alta. – Exemplo mais comum é o do supermercado :
• produtos que frequentemente são vendidos conjuntamente• folclore : cerveja e fralda saem em juntas em grande
quantidade de transações• Existem associações usuais por seu uso comum : pão e
manteiga, café e leite• As interessantes são as não usuais.
23
Seqüência
• São regras de associação que utilizam o fator tempo.
• Os dados de uma seqüência podem ser transformados para que sejam aplicados algoritmos de associação– Ex. Utilização do Cartão de Crédito:
• Quem compra um celular vai comprar um micro um tempo depois
24
Agrupamentos/Clustering
• Neste método os pares atributo/valor são analisados com o objetivo de criar grupos onde os valores são semelhantes.
• Existem vários registros (exemplos) que representam um evento
• Não são fornecidos rótulos para os exemplos.– Ex: Quais são os grupos que se comportam da
mesma maneira?
25
Classificação
• Neste método são procurados padrões que “classifiquem” elementos rotulados (exemplos)
• Os exemplos são fornecidos, juntamente com um conjunto de registros. O objetivo é descobrir quais valores justificam o exemplo.
• Podem ser utilizados para “compreender” os agrupamentos– Ex. qual a característica do agrupamento
26
Sumarização
• Os métodos de sumarização são, em geral, métodos estatísticos mais simples. – Ex. Média, Desvio, Correlação
• São muito parecidos com as possibilidades de análise fornecidas pelo OLAP.– Ex. Existe relação entre ações de empresas
diferentes ao longo do tempo?
27
Conclusões
• O processo tem muitas escolhas• Como saber se as escolhas foram corretas?
• Experiência do condutor do processo, o analista
• O Analista não é necessariamente um usuário final!!• O processo pode ser refeito em algumas partes
(iteratividade!!!)• Altamente Interativo, o usuário(especialista) é essencial
“background knowledge”