TTóópicos Especiais picos Especiais MineraMineraçção de Dadosão de Dados
Profa. Sandra de AmoProfa. Sandra de Amo
Mestrado em Ciência da ComputaçãoMestrado em Ciência da Computação
Faculdade de Computação Faculdade de Computação
Universidade Federal de UberlândiaUniversidade Federal de Uberlândia
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 22
Contexto e MotivaçãoContexto e Motivação Mineração de dados: Por que ? O que é ?Mineração de dados: Por que ? O que é ?
O processo de descoberta de O processo de descoberta de conhecimentoconhecimento
Tarefas de mineração: preditivas, Tarefas de mineração: preditivas, descritivasdescritivas
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 33
Mineração de Dados: Por que ?Mineração de Dados: Por que ?
Quantidades gigantescas de dados são Quantidades gigantescas de dados são coletados e armazenados em coletados e armazenados em empresas, corporações, etcempresas, corporações, etc Dados de comércio eletrônico,Dados de comércio eletrônico, Dados de navegação na internetDados de navegação na internet Dados de compras de clientes em grandes Dados de compras de clientes em grandes
lojas de departamentos, supermercados, lojas de departamentos, supermercados, Dados de transações bancárias, ou de Dados de transações bancárias, ou de
cartão de créditocartão de crédito
Computadores mais baratos e mais Computadores mais baratos e mais potentespotentes
Pressão da Competição Pressão da Competição
Ponto de Vista ComercialPonto de Vista Comercial
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 44
Mineração de Dados: Por que ?Mineração de Dados: Por que ?
Dados coletados e armazenadosDados coletados e armazenados
a velocidades enormes (GB/hora)a velocidades enormes (GB/hora) Sensores remotos em satélitesSensores remotos em satélites
Telescópios Telescópios
Microarrays gerando dados de Microarrays gerando dados de expressões de genes expressões de genes
Simulações científicas gerando terabytes Simulações científicas gerando terabytes de dados.de dados.
Técnicas tradicionais não Técnicas tradicionais não apropriadas para analisar tais dados:apropriadas para analisar tais dados: ruídos e grande dimensionalidaderuídos e grande dimensionalidade
Ponto de Vista Cientifico : Medicina, Biologia, Engenharia
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 55
Mineração de Dados - Por que ?Mineração de Dados - Por que ?
Frequentemente existe informaFrequentemente existe informaçção ão ““escondidaescondida”” nos dados nos dados que não que não éé evidente de ser encontrada utilizando evidente de ser encontrada utilizando linguagens de consultas tradicionais. linguagens de consultas tradicionais.
Analistas humanos podem levar semanas para Analistas humanos podem levar semanas para correlacionar e descobrir alguma informacorrelacionar e descobrir alguma informaçção ão úútil dentro de til dentro de uma grande massa de dados.uma grande massa de dados.
Boa parte dos dados nunca Boa parte dos dados nunca éé analisado: analisado: ““cemitcemitéériorio”” de de dados.dados.
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 66
Mineração de Dados: Por que ?Mineração de Dados: Por que ?
Técnicas de Mineração podem ajudar Técnicas de Mineração podem ajudar analistas:analistas: Entender e prever as necessidades dos clientesEntender e prever as necessidades dos clientes Descobrir fraudesDescobrir fraudes Descobrir perfis de comportamento de clientes Descobrir perfis de comportamento de clientes
Técnicas de Mineração podem ajudar Técnicas de Mineração podem ajudar cientistascientistas:: Classificar e segmentar dadosClassificar e segmentar dados Formular hipótesesFormular hipóteses
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 77
Mineração de Dados: O que é ?Mineração de Dados: O que é ? Sim
1.Agrupar documentos similares retornados pelo Google de acordo com seu contexto.
2. Descobrir se certos nomes aparecem com mais frequência em determinadas regiões da cidade (periferia, centro, bairros abastados,…)
Não 1. Fazer uma
consulta no Google sobre “Data Mining ”
2. Procurar um nome numa lista telefônica
3. Fazer uma consulta SQL a um banco de dados.
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 88
ExemplosExemplos
Qual o perfil do cliente que consome mais ?Qual o perfil do cliente que consome mais ? Que produtos são comprados conjuntamente ? Que produtos são comprados conjuntamente ?
E em sequência ?E em sequência ? Meu site web tem uma boa estrutura ?Meu site web tem uma boa estrutura ? Como as chuvas, variação de temperatura, Como as chuvas, variação de temperatura,
aplicação de pesticidas afetam as colheitas ?aplicação de pesticidas afetam as colheitas ? Existe uma relação entre o aquecimento global Existe uma relação entre o aquecimento global
e a frequência e intensidade das perturbações e a frequência e intensidade das perturbações no ecossistema tais como secas, furacões, no ecossistema tais como secas, furacões, enchentes ? enchentes ?
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 99
Etapas do Processo de KDDEtapas do Processo de KDD
Limpeza dos DadosLimpeza dos DadosIntegração dos DadosIntegração dos DadosSeleçãoSeleçãoTransformaçãoTransformaçãoMineraçãoMineraçãoAvaliação ou Pós-ProcessamentoAvaliação ou Pós-ProcessamentoVisualização dos ResultadosVisualização dos Resultados
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1010
Mineração:Mineração: Etapa central do Etapa central do processo de processo de Descoberta de Descoberta de ConhecimentoConhecimento
Limpeza
Integração dos Dados
Banco de Dados
Data Warehouse
Dados Relevantes
Seleção
Mineração
Análise do Resultado
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1111
Tarefas de MineraçãoTarefas de Mineração
Tarefa ato de descobrir um certo Tarefa ato de descobrir um certo tipo de tipo de padrão padrão
Regras de Associação Regras de Associação Análise de SequênciasAnálise de SequênciasClassificaçãoClassificaçãoAgrupamentoAgrupamentoOutliersOutliers
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1212
Tarefas de Mineração de DadosTarefas de Mineração de Dados
Tarefas PreditivasTarefas Preditivas predizer o valor de um determinado atributo predizer o valor de um determinado atributo
baseado nos valores de outros atributosbaseado nos valores de outros atributosClassificação – PrediçãoClassificação – Predição
Tarefas DescritivasTarefas Descritivas Derivar « Derivar « padrõespadrões » : correlações, » : correlações,
tendências, anomalias, agrupamentos dentro tendências, anomalias, agrupamentos dentro de uma grande massa de dados.de uma grande massa de dados.Regras de Associação – Padrões Regras de Associação – Padrões Sequenciais – Agrupamentos - AnomaliasSequenciais – Agrupamentos - Anomalias
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1313
O que é Mineração ?O que é Mineração ?
Mineração de Dados Mineração de Dados
Descoberta de Conhecimento (KDD)Descoberta de Conhecimento (KDD)
KDD = Knowledge Discovery in DatabasesKDD = Knowledge Discovery in Databases
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 1414
Sistemas de MineraçãoSistemas de Mineração
Intelligent Miner (IBM)Intelligent Miner (IBM)DBMiner DBMiner Enterprise MinerEnterprise MinerClementineClementineMineSetMineSetGenamics ExpressionsGenamics Expressions
Um tópico atualUm tópico atual
Mineração de PreferênciasMineração de Preferências
ConsultaConsulta
Quais os pacotes turísticos de Quais os pacotes turísticos de menos de 15 dias que você menos de 15 dias que você pode me propor em 2011 ? pode me propor em 2011 ?
Resposta
Minhas Preferências ...Minhas Preferências ... Prefiro estadias mais curtas (menos de duas Prefiro estadias mais curtas (menos de duas
semanas) do que estadias longas (de duas semanas) do que estadias longas (de duas semanas ou mais).semanas ou mais).
Prefiro viajar durante as férias de verão.Prefiro viajar durante as férias de verão.
Para estadias curtas prefiro aquelas nas grandes Para estadias curtas prefiro aquelas nas grandes cidades, pois gosto de ir a museus, bons restaurantes e cidades, pois gosto de ir a museus, bons restaurantes e shows.shows.
Para minhas viagens durante as férias de verão, prefiro Para minhas viagens durante as férias de verão, prefiro viajar para a praia, viajar para a praia, caso eu viaje com a famíliacaso eu viaje com a família. . Caso Caso eu viajo sozinhoeu viajo sozinho, , je prefiro ir para uma cidade histórica.je prefiro ir para uma cidade histórica.
Problemas a resolver Problemas a resolver
1. Como modelar as preferências do usuário ? Usar regras ? Usar scores ?
2. Como obter as preferências do usuário ?
3. Como utilizar as preferências do usuáriopara “personalizar”as respostas ?
1) Como modelizar preferências 1) Como modelizar preferências
Conjunto de regras Conjunto de regras
RegrasSE a viagem é durante minhas férias de verão e eu vou viajar com minha família ENTÃO eu prefiro ir para uma praia do que para uma cidade histórica.
SE a viagem é durante minhas férias de verão e eu vou viajar sozinho ENTÃO eu prefiro ir para uma cidade histórica do que para uma praia.
2) 2) Como obter as preferências do Como obter as preferências do usuário ?usuário ?
Perguntar ao usuário ?Perguntar ao usuário ?
Mostrar algumas respostas e pedir um Mostrar algumas respostas e pedir um feedback do usuário se gostou ou não ?feedback do usuário se gostou ou não ?
Utilizar métodos automáticos ? Utilizar métodos automáticos ?
Mineração de PreferênciasMineração de Preferências
33) Como colher as amostras de ) Como colher as amostras de preferências do usuáriopreferências do usuário
Sistema de Amostragem de NOTAS Sistema de Amostragem de NOTAS (scores)(scores)
Sistema de Amostragem de ParesSistema de Amostragem de Pares
Sistema de Amostragem de Listas (muito Sistema de Amostragem de Listas (muito usado em usado em Information RetrievalInformation Retrieval))
11/04/2311/04/23 Mestrado em Ciencia da Computacao 2008Mestrado em Ciencia da Computacao 2008 2121
ExemploExemplo
Internet Movie Database
Dados Coletados Dados Coletados
ID Genero Diretor Ano Ator Rating
1 comedy Woody Allen 80 Charlotte Rampling 8
2 comedy Woody Allen 80 Mia Farrow 7
3 romance Joel Coen 80 Charlote Rampling 7
4 drama Woody Allen 70 Charlote Rampling 5
5 comedy Woody Allen 80 Mia Farrow 3
6 romance Joel Coen 70 Charlote Rampling 6
7 comedy Woody Allen 80 Mia Farrow 3
Pequena amostragem de filmes classificados por um usuário
ID Genero Directo Ano Ator Nota
1 comedy Woody Allen 80 Charlotte Rampling 7
2 comedy Woody Allen 80 Mia Farrow 6
3 romance Joel Coen 80 Charlote Rampling ?
4 drama Woody Allen 70 Charlote Rampling 4
5 comedy Woody Allen 80 Mia Farrow ?
6 romance Joel Coen 70 Charlote Rampling 5
7 comedy Woody Allen 80 Mia Farrow 3
I Genre Director ANO Actor ID Genre Director' ANO Actor Pref
1 comedy W Allen 80 C.Rampling 2 comedy W. Allen 80 Mia Farrow 1
1 comedy W.Allen 80 C.Rampling 4 drama W.Allen 70 C.Rampling 1
1 comedy W. Allen 80 C.Rampling 6 romanc Joel Coen 70 C.Rampling 1
1 comedy W.Allen 80 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1
2 comedy W.Allen 80 Mia Farrow 4 drama W.Allen 70 C.Rampling 1
2 comedy W.Allen 80 Mia Farrow 6 romanc Joel Coen 70 C.Rampling 1
2 comedy W. Allen 80 Mia Farrow 7 comedy W. Allen 80 Mia Farrow 1
4 drama W.Allen 70 C. Rampling 6 romanc Joel Coen 70 C.Rampling 0
4 drama W.Allen 70 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1
6 romanc J.Coen 70 C.Rampling 7 comedy W.Allen 80 Mia Farrow 1
Comparando dois filmes pela nota dada ...
IDGEN Diretor ANO Ator ID' GE' Diretor' ANO Ator' Pref
1 comedy
Woody Allen
80 Charlotte Rampling
3 romance Joel Coen 80 Charlote Ramplin
g
?
1 comedy
Woody Allen
80 Charlotte Rampling
5 comedy Woody Allen
80 Mia Farrow ?
2 comedy
Woody Allen
80 Mia Farrow 3 romance Joel Coen 80 Charlote Ramplin
g
?
2 comedy
Woody Allen
80 Mia Farrow 5 comedy Woody Allen
80 Mia Farrow ?
4 drama
Woody Allen
70 Charlote Rampling
3 romance Joel Coen 80 Charlote Ramplin
g
?
4 drama
Woody Allen
70 Charlote Rampling
5 comedy Woody Allen
80 Mia Farrow ?
6 romance
Joel Coen 70 Charlote Rampling
3 romance Joel Coen 80 Charlote Ramplin
g
?
6 romance
Joel Coen 70 Charlote Rampling
5 comedy Woody Allen
80 Mia Farrow ?
Temas de PesquisaTemas de Pesquisa
Como “descobrir” as preferências de um Como “descobrir” as preferências de um usuário a partir de uma amostra de usuário a partir de uma amostra de preferências capturada na internet ?preferências capturada na internet ?
Como “descobrir” as preferências comuns Como “descobrir” as preferências comuns a um a um perfil perfil de usuários ?de usuários ?
Mineração de Preferências Mineração de Preferências
Pesquisa em desenvolvimentoPesquisa em desenvolvimento
2 métodos desenvolvidos dentro do grupo 2 métodos desenvolvidos dentro do grupo de Banco de Dados de Banco de Dados
Método 1: CprefMiner (tese de Mestrado)Método 1: CprefMiner (tese de Mestrado)
Método 2: ProfMiner (em colaboração com Método 2: ProfMiner (em colaboração com pesquisadores da Université de Tours pesquisadores da Université de Tours (França) (França)