data warehouse
TRANSCRIPT
UNIVERSIDADE FEDERAL DA PARAÍBACENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO
CAMPUS IV – LITORAL NORTE
DISICPLINA: BANCO DE DADOS IIPROFESSORA VANESSA DANTAS
Data Warehouse & Data Mining
Thiago Oliveira
Agenda
• Por que usar DW e DM?
• Data Warehouse– Características de um Data Warehouse– Dados (OLTP x OLAP)– Operational Data Storage – ODS– Data Marts– Arquiteturas– Tipos de Implementação– Granularidade dos Dados– Estudo de Caso
Agenda
• Data Mining– Conceito– Dados, Informações e Conhecimento– Objetivos– Como implementar um DM– Aplicações de DM– Barreiras no uso de DM
Por que usar DW e DM?
• Business Inteligence– Apoio à tomada de Decisões
• Customer Relationship Management (CRM)– Tratar clientes diferentes de forma diferente
• Várias Plataformas de hardware e Software
• Constantes alterações nos sistemas transacionais corporativos
Data Warehouse
Data Warehouse
• Para se construir deve-se utilizar uma ferramenta ETL (Extraction, Transformation, Load)
• Após a ETL, os dados são processados e armazenados no DW
• Nem todos os dados devem ser transferidos para um DW
• Os dados são organizados no DW de forma simples para o usuário final acessá-lo
Características (1)
• Extração de Dados de fontes heterogêneas
• Transformação e integração de dados
• Visualização de dados em diferentes níveis
Características (2)• Orientação por Assunto
Ambiente Transacional Data Warehouse
Pedido, nota fiscal
Ordem de produção, máquina
Falha, produto
Vendas
Produção
Qualidade
Características (3)
• Variação de Tempo
– Precisão em relação ao tempo
– Data é elemento essencial e componente-chave
– Ao contrário de sistemas transacionais, DW tem espaços de tempo mais longos
Características (4)
• Não Volátil
Bancos de Dados transacionais
Bancos de Dados Data Warehouse
Incluir
Excluir
Acessar
Alterar
Incluir
Acessar
Características (5)
• Integração
DW
Sexo “Masculino”Sexo “Feminino”
Sexo “1”Sexo “2”
ExtraçãoFiltro
Sexo “M”Sexo “F”
Dados (OLTP x OLAP)OLTP:(Online Transactional Processing)
• Do negócio• Transacional• Operacional• Volátil• Não-padronizado
OLAP:(Online Analytical Processing)
• Sobre o Negócio• Analítico• Estratégico• Não-Volátil• Padronizado
• ROLAP (Relacional)• MOLAP (Multi)• DOLAP (Desktop)
Operational Data Storage – ODS (1)
• Objetivo
– Criar um ambiente intermediário de armazenamento e processamento de dados vindos de diversas fontes para o processo de ETL, evitando problemas após a criação do DW.
Operational Data Storage – ODS (2)
• Também chamado de Dynamic Data Storage - DDS e Staging Area
• Representa um armazenamento intermediário dos dados
• Ideal quando se tem várias fontes de dadosDW
Operational Data Storage – ODS (3)
DW
Sistemas Legados
Fontes Externas
ODS
DW
OLAP Data Mining
Todos os dados são filtrados aqui!
Operational Data Storage – ODS (4)
Sistema Conta-Corrente
Sistema Aplicações
Sistema Poupança
Cliente JoãoNum_001
Cliente JoãoNum_579
Cliente JoãoNum_351
ODS
DWJoão+ inf. Conta-corrente+ inf. Aplicações+ inf. poupança
Data Marts (1)
• DW segmentado, por departamento, por exemplo.
• Representa um subconjunto do DW
• Pode ser feito de duas formas:– Capturando dados dos OLTPs
• Mais rápido• Pode haver problemas com padronização de dados
– Capturando dados do DW• Mais eficiente• Mais demorado
Data Marts (2)
Nós somos Data Marts!
Nós somos Data Marts!
Nós somos Data Marts!
Arquiteturas de DW
• Fatores que determinam a arquitetura:– Infra-estrutura– Recursos– Abrangência– Capacitação da equipe
• Muitas vezes a arquitetura é uma combinação das arquiteturas disponíveis e as abordagens de implementação.
Arquitetura GlobalGlobal = Por toda a empresa
Dados Operacionais
e Externos
Arquitetura global distribuída
Arquitetura global centralizada
Arquitetura de DM independente
Dados Operacionais
e Externos
Data Marts Stand Alone sem foco coorporativo nenhum
Arquitetura de DM integrada
Dados Operacionais
e Externos
Dados Operacionais
e Externos
Tipos de Implementação
• A escolha por um tipo é influenciada por fatores como:– Infra-estrutura de TI– Arquitetura escolhida– Escopo– Recursos disponíveis ($)– Necessidade ou não de acesso corporativo dos
dados– Velocidade de implementação
Abordagem Top Down
ODS
.
DW
DM
DM
DM
..
Data Mining OLAP
• Vantagens
– Herança de Arquitetura
– Repositório Centralizado
– Centralização de regras
• Desvantagens
- Implementação longa- Alta taxa de risco- Expectativas
Abordagem Bottom Up
DM 1
DM 2
DM n
... } DM
DM
DM
DM
Data Warehouse
Sistemas Operacionais
• Vantagens
– Implementação rápida
– Retorno rápido– Herança incremental
• Desvantagens
- Perigo de Legamarts (Dificultam futuras integrações)
- Desafio de possuir visão do empreendimento
- A maldição do sucesso
Granularidade dos DadosAlto nível de detalhesBaixo nível de granularidade
ExemploDetalhe de cada transação de venda de um vendedor realizada durante um mês
DataHora
VendedorValor
50 registros por mês
Baixo nível de detalhesAlto nível de granularidade
ExemploSumário das transações de venda de um vendedor realizadas durante um mês
MêsVendedor
Valor
Modelagem Multidimensional• Fato
– Representa um item, uma transação ou um evento de negócio. – Reflete a evolução dos negócios– Exemplo: “O índice de aprovação da cadeira de Cálculo I vem
aumentando nos últimos dois anos”
• Dimensões– Elementos que participam de um fato– Tempo, Localização, Clientes, Vendedores, etc.
• Medidas (Variáveis)– Atributos numéricos que representam um fato– Valor de vendas, número de alunos aprovados, etc.
Star Schema
Fato de Vendas
Dimensão Vendedor
Dimensão Produto
Dimensão Cliente
Dimensão Data
Dimensão Região
Fato de Vendas
Dimensão Vendedor
Dimensão Produto
Dimensão Cliente
Dimensão Data
Dimensão Região
Snowflake Schema
Dimensão Estado
Dimensão Cidade
Dimensão Tipo do Produto
Dimensão Mês
Dimensão Semana
Estudo de Caso
• Uma grande distribuidora de filmes possui um sistema para controle dos seus filmes
• O sistema atual controla os filmes por salas de cinema onde são exibidos, tendo informações sobre capacidade da sala, localização regional, assim como a bilheteria de cada sessão.
O sistema atual
• O sistema controla os atores que participam dos filmes
• Diretor do filme• Filmes são classificados por gênero e por
origem• Quantidade de público e valor arrecadado
pela bilheteria
Necessidades Executivas (1)
• Acompanhar a evolução do público e valor arrecadado por região do país, estado e cidade, classificados por gênero e sala de cinema
• Também é necessário avaliar a evolução de filmes por ator e por diretor
Necessidades Executivas (2)
• Saber quais diretores atraem mais publico e em que gênero está esse público.
• O tempo é fator fundamental de análise, pois é preciso saber quais períodos do ano possuem mais público por gênero, ator e diretor, e geograficamente.
Modelo do DW solicitado
Data Mining
“É o processo de busca por dados, por PADRÕES anteriormente desconhecidos e uso frequente desses padrões para predizer CONSEQUÊNCIAS futuras.”
• Jeff Jonas e Jim Harper
Data Mining
“É a concepção de modelos computacionais capazes de identificar e revelar padrões desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados”
Simplificando...
• Torture os dados até eles confessarem ... Se você torturar o suficiente, eles irão confessar tudo
Dados, Informações e Conhecimento
• “…dados são puramente sintáticos enquanto informação contém, necessariamente, semântica. Conhecimento é uma abstração interior (…) relacionada a alguma coisa existente no mundo real e do qual temos uma experiência direta”.
– Setzer
Objetivos da DM• Descobrir PADRÕES– Representar informações úteis para a empresa– Caso da Cerveja e da Fralda
• Descrever– Explicar resultados ou valores obtidos em
determinados dados ou negócios
• Prever– Antecipar o comportamento ou valor futuro de algum
fenômeno com base em conhecimento prévio.
Como implementar Data Mining• Algoritmos baseados em redes neurais– Processamento de dados de maneira semelhante ao
cérebro humano– Decisões baseadas na aprendizagem
• Algoritmos estatísticos– Utilizados na análise de dados, a fim de encontrar padrões
e correlações entre eles
• Algoritmos de Aprendizado– Extrair padrões a partir da interação com o ambiente
Aplicações de Data Mining
• Cross-Selling– Identificar associação entre produtos
• Up-Selling– Identificar potenciais clientes para determinados
produtos
• Fidelização– Descobrir fatores associados a perda de clientes
Barreiras do uso de DW e DM
• Altos Custos
• Ferramentas muito complexas
• Preparação dos dados (80% do trabalho)
• Dificuldade em estimar o retorno do investimento
Concluindo...
“Um projeto de Data Warehouse nunca termina. As fontes de dados mudam, as necessidades dos usuários também mudam, o número deles aumenta, as regras de mercado se alteram, os usuários demandarão mais informações. Enfim, Data Warehousing não é o OBJETIVO; é o CAMINHO”
Referências
• Tecnologia e Projeto de Data Warehouse– Felipe Nery Rodrigues Machado
• Tecnologia de Data Warehouse– Rafael Ramos Batista de Figueiredo
• Um projeto de Data Warehouse– Angelo Luiz de Bortoli
• Redes Neurais – Uma ferramenta para KDD e Data Mining– Antonio Carlos Gay Thomé
Dúvidas?
Obrigado!