HAC1
MD - junho/2008
Tecnologias de suporte à Mineração de Dados
Gerenciamento de dados Data Warehouse
OLAP
Arquiteturas VisualizaçãoSistemas de Suporte à
Decisão
Aprendizado de Máquina Estatística
HAC2
MD - junho/2008
Tecnologias de suporte para MD● Aprendizado de Máquina
– utilizado especialmente na extração de padrões. quando são aplicados os algoritmos
● Estatística– Apoia, especialmente, os métodos na etapa de
preparação de dados.
HAC3
MD - junho/2008
Tecnologias de suporte para MD● Ferramentas de Visualização
– Importante na etapa de pré-avaliação, possibilitando verificar o que foi extraído, e de que forma está organizado.
● Banco de Dados e Data WarehouseAlgumas ferramentas são utilizadas para auxiliar a
manipulação dos dados.
HAC4
MD - junho/2008
Aprendizado de MáquinaAquisição de conhecimento:
“Transferência e transformação do conhecimento especializado com potencial para a resolução de problemas de alguma fonte
de conhecimento para um programa.”
HAC5
MD - junho/2008
Aprendizado de Máquina● Classificação de técnicas disponíveis:
– Manuais - processo conduzido por engenheiros do conhecimento
– Semi-automáticas – especialistas utilizam ferramentas que minimizam a participação do engenheiro do conhecimento
– Automáticas – objetivam minimizar a participação humana, extraindo conhecimento de fontes de dados extensas
HAC6
MD - junho/2008
Aprendizado de Máquina● AM - subárea da IA relacionada à construção de
sistemas capazes de adquirir conhecimento de forma automática (sem a interferência humana)
HAC7
MD - junho/2008
Aprendizado de Máquina● Paradigmas:
– simbólico - analisam exemplos e contra-exemplos de um conceito e constroem representações simbólicas (expressão lógica, árvore de decisão, regras, redes semânticas)
– estatístico - utilizam modelos estatísticos para encontrar uma boa aproximação do conceito induzido
– baseado em exemplos (instance based) - classificam exemplos nunca vistos por meio de exemplos similares conhecidos. Os exemplos representativos são armazenados. (lazy learning)
– conexionista - relacionado ao treinamento das redes neurais– evolutivo - baseado na teoria da evolução natural
HAC8
MD - junho/2008
Aprendizado de Máquina● Indução: forma de inferência lógica que permite
obter conclusões genéricas sobre um conjunto particular de exemplos.
● Um conceito é aprendido efetuando-se inferência indutiva sobre os exemplos apresentados.
● Hipóteses geradas podem ou não preservar a verdade.
HAC9
MD - junho/2008
Hierarquia do aprendizado indutivo
Aprendizado
indutivo
Aprendizado
supervisionado
Aprendizadonão-
supervisionado
classificação
regressão
HAC10
MD - junho/2008
Sistemas de Aprendizado de Máquina
Modo deAprendizado
Paradigmas deAprendizado
Linguagens deDescrição
Formas deAprendizado
-Supervisionado- NãoSupervisionado
- Simbólico- Estatístico- Instance-Based- Conexionista- Genético
- Instâncias ouExemplos- ConceitosAprendidos ouHipóteses- Teoria deDomínio ouConhecimentode Fundo
- Incremental- NãoIncremental
HAC11
MD - junho/2008
MD X Aprendizado de Máquina
Data Mining
MuitosExemplos
MuitosAtributos
AprendizadoAprendizadode Máquinade Máquina
PoucosExemplos
PoucosAtributos
HAC12
MD - junho/2008
Técnicas Estatísticas● As técnicas estatísticas são fundamentais para o
processo de MD
● Amostragem dos dados (seleção e preparação) ● Naive Bayes , AutoClass (extração de padrões)● Médias, taxas de erros, desvios (avaliação)
HAC13
MD - junho/2008
Técnicas Estatísticas● Essas técnicas, juntamente com técnicas de IA,
especialmente as que manipulam incerteza, provêm mecanismos para:– Evitar overfitting nos dados– Tratar ruídos dos dados– Manipular conjunto de dados incompletos– Incorporar conhecimento de fundo
HAC14
MD - junho/2008
Ferramentas de visualização● É uma ferramenta exploratória na análise dos
dados● Permite o aumento da capacidade de análise e de
interpretação dos resultados obtidos● Os principais tipos dessas ferramentas são:
– linguagens de programação especializadas– ferramentas Graphic User Interface (GUI)
HAC15
MD - junho/2008
Data Warehousing● Definição
– Data Warehousing é um processo, não um produto, para montar e gerenciar dados de várias fontes com o propósito de ganhar uma visão detalhada e singular de parte ou do todo de um negócio
– O produto gerado de um projeto de Data Warehousing é o seu Data Warehouse (DW)
HAC16
MD - junho/2008
● O objetivo principal é ter uma visão mais ampla das informações relacionadas à empresa/organização.
● É responsável pelo agrupamento dos dados históricos da empresa
HAC17
MD - junho/2008
Voltadas para análise multidimensional de dados de modo superior aos mecanismos oferecidos pelas ferramentas tradicionais
É a análise, síntese e consolidação de grandes
volumes de dados multidimensionais [Codd 93].
Ferramenta geralmente utilizada para a análise de Data Warehouse
OLAP (On Line Analytical Processing)
HAC18
MD - junho/2008
Consultas OLAP● Auxiliam os usuários a sintetizar as informações
através de visões comparativas e personalizadas, assim como analisar dados históricos.
● É uma tecnologia que possibilita aos usuários acesso:– rápido– consistente– interativo
HAC19
MD - junho/2008
OLAP
Idade Motivo Duração Valor Risco45 Carro 36 10,000 Baixo20 Negoc. 20 35,000 Alto37 Casa 40 30,000 Baixo29 Carro 24 25,000 Alto66 Mobil. 10 7,000 Alto
HAC20
MD - junho/2008
OLAP
Idade Motivo Duração Valor Risco45 Carro 36 10,000 Baixo20 Negoc. 20 35,000 Alto37 Casa 40 30,000 Baixo29 Carro 24 25,000 Alto66 Mobil. 10 7,000 Alto
107,00
HAC21
MD - junho/2008
OLAP
Idade Motivo Duração Valor Risco45 Carro 36 10,000 Baixo20 Negoc. 20 35,000 Alto37 Casa 40 30,000 Baixo29 Carro 24 25,000 Alto66 Mobil. 10 7,000 Alto
39,4
HAC22
MD - junho/2008
Diferença OLAP e MD
Idade Motivo Duração Valor Risco45 Carro 36 10,000 Baixo20 Negoc. 20 35,000 Alto37 Casa 40 30,000 Baixo29 Carro 24 25,000 Alto66 Mobil. 10 7,000 Alto
Se Idade >= 35 e Duração >=20 então Risco = Baixo
HAC23
MD - junho/2008
Extração de informação e apoio à Extração do Conhecimento
OLAP Informações
Ferramentas de DM Conhecimento
HAC24
MD - junho/2008
Extração de informação e apoio à Extração do Conhecimento
Quando se tem perguntas específicas OLAP
Quando não se sabe qual é a pergunta Ferramentas de MD
HAC25
MD - junho/2008
Conhecimento para os Sistemas de Suporte à Tomada de Decisão
SISTEMAS DE SUPORTE À DECISÃO
MINERAÇÃO DE DADOS
DATA WAREHOUSE
BASES DE DADOSDados para o
Data Warehouse
Dados do Data Warehouse para Mineração
Resultados /Conhecimento
HAC26
MD - junho/2008
OLAP
if ... then
DMDM
BD
Dados
Informação
Conhecimento
DW