mineração de padrões frequentes
TRANSCRIPT
Mineração de Padrões Frequentes
Thiago Reis da Silva
Mestrado em Ciência da Computação Universidade do Estado do Rio Grande do Norte – (UERN)
Universidade Federal Rural do Semi-Árido – (UFERSA)
Sumário
• Introdução;
• Conceitos básicos;
• Mineração de Padrões Frequentes;
• Mineração de Regra de Associação;
• Medidas de Interesse Objetivas e Subjetivas;
• Mineração de Itemset Frequente;
• Outros tipos de mineração de regras de associação;
• Restrições baseadas em mineração de exceções;
• Estado da arte;
• Aplicação; 2
Introdução
• Padrões de Mineração Frequente (PRF) aparecem repetidas vezes
no BD;
• Ex.: par de itens, como, café e leite
– Sequência de como comprar uma câmera fotográfica e logo depois um cartão
de memória;
• Padrões frequentes (PF) assumem papel essência em tarefas de
Mineração de Dados (MD);
• Objetivo: encontrar padrões de determinado interesse em uma
base de dados:
– Ex.: regras de associação, agrupamentos e outras;
3
Introdução
• PF = suporte maior que um dado limite inferior;
– Interesse não apenas no conjunto de PF;
• A MPF respondem perguntas do tipo:
– Que regras de associação são mais interessante;
– Como podemos tirar proveito de preferências do usuário ou restrições para
acelerar o processo de mineração?
4
Conceitos Básicos
• Mineração de Itemset Frequente;
– Descoberta de associação e correlações;
• Ajuda no processo decisório;
– Ex.: análise de cesta de compra;
• Analisa hábitos de compra dos clientes;
• Design de estratégia de marketing;
5
Conceitos Básicos
• Ex.: “Clientes que compram Leite. Qual a probabilidade de
comprarem pão?”;
• Análise de cesta básica pode ajudar a criar layouts diferentes;
• Ex.:
– Itens comprados juntos podem ser colocados próximos;
– Itens comprados juntos podem ser colocados em seções diferentes;
6
Mineração de Padrões Frequente
• Análise de cesta básica;
• Existem vários tipos;
• A MPF podem ser classificados de diversas maneiras:
– Com base nos níveis de abstração envolvidos na regra:
– Diferentes níveis de aplicação;
• Ex.:
– Compra (X, “Computador”) → Compra (X, “Impressora HP”)
– Compra (X, “Notebook”) → Compra (X, “Impressora HP”)
7
Mineração de Padrões Frequente
• Com base na dimensão de dados envolvidos na regra:
• Dimensão única:
– Ex.:
– Compra (X, “Computador”) → Compra (X, “Antivírus”);
• Multidimensional:
– Ex.:
– Idade (X, “30..39”)^Renda(X, “2000..35000”) → Compra(X, “HDTV”)
8
Mineração de Padrões Frequente
• Com base nos tipos de valores tratados na regra:
• Booleana:
– Ex.:
– Compra (X, “Computador”) → Compra (X, “Impressora HP”);
• Quantitativo:
– Ex.:
– Idade (X, “30..39”)^Renda(X, “2000..35000”) → Compra(X, “HDTV”)
9
Mineração de Regra de Associação
• Importante tarefa de MD;
• Ex.: análise de cesta compra;
• As Regras de associação representam padrões onde a ocorrência de
eventos em conjunto em alta;
• Ex.: 75% que A e B → C;
• Objetivo: encontrar todos os conjuntos de itens que
frequentemente ocorre na base de dados;
10
Mineração de Regra de Associação
• RA = X → Y;
• (X) antecedente e (Y) consequente;
• Medidas de interesse: suporte e confiança;
• Suporte: indica a porcentagem de ocorrência concomitante dos
conjuntos X e Y na base de dados;
11
Figura 1: Regra de suporte
Mineração de Regra de Associação
• Confiança: indica a frequência em que a ocorrência do conjunto de
itens X implica na ocorrência do conjunto Y.
12
Figura 2: Regra de confiança
Mineração de Regra de Associação
• Exemplo prático:
• Itemset, X e Y, {Pão} e {Leite};
• Suporte: é comprado o nº de linha na qual
Ocorrem os 2 itemset
Suporte = 3/5 = 0,6
• Confiança: frequência em que o item consequente Y ocorre dado o
itemset antecedente X;
Confiança = ¾ = 0,75
Pão → Leite [suporte = 60%; confiança = 75%] 13
Figura 3: Análise de cesta de
compras
Mineração de Regra de Associação
• Problema:
• Será que o fato de uma certa regra de associação grau de confiança
alto é o suficiente para considerar a uma “boa regra”?
14
Figura 5: banco de
dados de transações
de clientes
Figura 4: Representação numérica de cada artigo do
supermercado
Mineração de Regra de Associação
• {Cerveja}, {Manteiga} só acontece juntos apenas em uma única
transação;
• Confiança de 100%;
• Regra não é boa (suporte 0,1666%);
• Boa: conf (r) > α e sup (r) ≥ β
15
Mineração de Regra de Associação
• As regras de associação surgiram como opção para responder
questões como:
– Encontre todas as regras que possuem “café” como termo consequente;
– Encontre todas as regras que possuem “café” como termo antecedente;
– Encontre todas as regras que possuem “café” como antecedente e “leite”
como consequente;
16
Medidas de Interesse Subjetiva e Objetiva
• Críticas ao modelo suporte/confiança;
• Problema:
– Geração excessiva de regras;
• Outras medidas foram proposta com o intuito de identificar as
regras que são de fato relevante e úteis;
• Medidas: objetivas e subjetivas;
17
Medidas de Interesse Subjetiva e Objetiva
• Medidas de Interesse Objetivas (MIO):
• Índices estatísticos para avaliar a força da regra;
• Regra interessante (valor do suporte > valor esperado);
• Tipos:
– Lift: regra de associação A → B, esta medida indica o quanto mais frequente
torna-se B quando A ocorre;
– Regra: Lift (A → B ) = conf (A → B)/sup(B)
18
Medidas de Interesse Subjetiva e Objetiva
• Medidas de Interesse Objetivas (MIO):
• Tipos:
– Rule Interest
– Regra: RI (A → B ) = sup (A → B) – supesp(A → B)
19
Medidas de Interesse Subjetiva e Objetiva
• Medidas de Interesse Subjetiva (MIS):
• Considera a opinião do analista;
• As MIO identificam estatisticamente a força da regra;
• Possui valores altos para a MIO e não subjetivas interessantes;
• Fatores para tornar a regra de associação subjetivamente interessante:
utilidade e a inesperabilidade;
20
Medidas de Interesse Subjetiva e Objetiva
• Medidas de Interesse Subjetiva (MIS):
• Medida de utilidade: se o usuário pode fazer algo a partir dela;
• Medida de inesperabilidade: considera que uma regra tem grande
chance de ser interessante se contradiz as expectativas;
• Ex.: associação entre fraldas e cervejas em um supermercado
quando os consumidores são casais jovens;
– É útil e inesperada;
21
Mineração de Itemset Frequente
• É uma tarefa normalmente executada sobre dados de transação de
clientes;
• O processo de descobrir itemset frequente pode ser decomposta
em 2 etapas:
– Encontrar todos os conjuntos de itemset frequente;
– Utilizar os itemset frequentes obtidos para gerar de associações;
22
Mineração de Itemset Frequente
• Algoritmos para a descoberta de itemset frequente:
– Apriori, FPGrowth, Max-miner, outros;
• Apriori:
– Mais utilizado;
– Baseado no fato de usar conhecimento já obtidos nos itens anteriores;
– Fases: geração, poda e validação;
23
Outros tipos de Mineração de Regras de Associação
• Regras de associação envolve conceitos de diferentes níveis:
• Regras de Associação Multinível:
• Pode ser extraído de forma eficiente usando hierarquias
(generalização)
24 Figura 6: Hierarquia de classificação
Outros tipos de Mineração de Regras de Associação
• Regras de Associação Multidimensional:
• Capacidade de minerar regras com atributos categóricos ou
quantitativos;
• Ex.: data warehouse;
• Considerando uma base de dados de um supermercado
• Ex.:
– (Sexo = “F”)^(30 < idade ≤ 35)→Forma de pagamento = “cartão de crédito”;
25
Outros tipos de Mineração de Regras de Associação
• Regras de Associação Hibrída:
• Uma dimensão pode aparecer repetidas vezes;
• Ex.:
– (Sexo=“M”)^(Casado=“N”)^(Produto=“Cerveja”)→ (Produto=“Salaminho”)
• É útil pois envolve dados pessoais e quantitativos;
26
Outros tipos de Mineração de Regras de Associação
• Regras de Associação Quantitativas:
• Dados categóricos estão associados a algum tipo de classificação;
• Dados quantitativos podem ser divididos em 2 classes:
– Indicativo e real;
• Dados quantitativos indicativos são dados numéricos que pertence
ao conjunto dos números reais;
– Ex.: 4 pães, 3 leites;
27
Outros tipos de Mineração de Regras de Associação
• Regras de Associação Quantitativas:
• Dados quantitativos reais são dados numéricos que pertencem ao
conjunto dos números reais e estão associados a um item
específico;
• Ex.: notas de provas;
• Nos BD de aplicações é comum a ocorrência de dados
quantitativos;
28
Outros tipos de Mineração de Regras de Associação
• Regras de Associação Quantitativas:
• X → Y, itemset contém valores quantitativos;
• Os itens são considerados como uma dupla (x, v);
• Ex.: (Pães(cinco) → (Leite(dois);
29
Restrições baseadas em mineração de exceções
• É uma tarefa complicada;
• Tipos de restrições:
– Restrições do tipo de conhecimento;
– Restrições de dados;
– Restrições de padrões interessantes;
– Restrições de regras;
30
Restrições baseadas em mineração de exceções
• Ex.:
• “As famílias que compram couve e linguiça, não costumam compra
brócolis”;
• Identificação de clientes com diferentes perfis de compra;
• {couve}→ {brócolis}
31
Estado da Arte
• Diversas áreas, tais como:
32
Figura 7: compras no cartão de créditos Figura 8: serviços bancários
Estado da Arte
33
Figura 9: históricos de pacientes Figura 10: combinações incomuns
de resgate de seguro
Estado da Arte
34
Figura 11: serviços de telecomunicações
Aplicações
35
Figura 12: aplicativo WEKA
Aplicações
36
Figura 13: regra de associação da situação dos alunos IFPI - PICOS
Figura 14: regra de associação de lentes de contato
Aplicações
37
Figura 15: regra de associação de votação
Figura 16: regra de associação de tempo
Referências Bibliográficas
• Costa, L. S. (2005). Mineração de padrões frequentes ortogonais e sua
aplicação em classificação associativa. 108p. Dissertação de mestrado,
apresentada a Universidade Federal de Minas Gerais.
• Camargo, S. S. (2008). Mineração de regras de associação no problema de
cesta de compras aplicada ao comércio varejista de confecção. 101p.
Dissertação de mestrado, apresentada a Universidade Federal do Rio
grande do Sul.
• Gonçalves, E. C. (2004). Regras de Associação e suas Medidas de Interesse
Objetivas e Subjetivas. Universidade Federal Fluminense.
38
Referências Bibliográficas
• Han, J.; Cheng, H.; Xin, D.; Yan, X. (2008). Frequent pattern mining: current
status and future directions. Data Min Knowl Disc (2007) 15:55–86. DOI
10.1007/s10618-006-0059-1.
• Han, J.; Kamber, M. (2000). Data Mining: Concepts and Techniques.
Morgan Kaufmann.
• Oyama, F. T. (2010). Mineração multirrelacional de regras de associação
em grandes bases de dados. 140p. Dissertação de mestrado apresentada a
Universidade Estadual Paulista.
39