ppgia | programa de pós-graduação em...

99
Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

Upload: others

Post on 04-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

������������� �������

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

Page 2: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

������� ������������� ��������

� Encontrar grupos de objetos tal que objetos em um grupo são similares (ou relacionados) uns aos outros e diferentes de (ou não relacionados) a objetos em outros grupos

�������������� �����������������

����������������� �����������������

Page 3: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� ������������������������ �������

� Compreensão– Agrupa documentos

relacionados para pesquisa, agrupa genes e proteínas que tenham funcionalidade similar, ou agrupa estoques com flutuações de preço similar

� Sumarização– Reduz o tamanho de

grandes bases de dados

Grupos Descobertos Grupo Industrial

1 Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,

DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,

Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN

Technology1-DOWN

2 Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN,

Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN,

Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN

Technology2-DOWN

3 Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN

Financial-DOWN

4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,

Schlumberger-UP

Oil-UP

Agrupando precipitação na Austrália

Page 4: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

����������� ������������� ��������

� Classificação Supervisionada– Tem informação de rótulo da classe

� Segmentação simples– Dividir estudantes em diferentes grupos de registro

alfabeticamente, pelo último nome

� Resultado de uma query– Grupos são resultado de uma especificação externa

� Particionamento de Grafo– Alguma relevância e sinergia mútua, mas áreas não são

idênticas

Page 5: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

����������� �� �������������

Quantos grupos?

Quatro GruposDois Grupos

Seis Grupos

Page 6: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� ������

� Um agrupamento é um conjunto de grupos

� Distinção importante entre conjuntos de grupos hierárquicos e particionais

� Agrupamento Particional– Divide objetos de dados em subconjuntos sem sobreposição

(grupos) tal que cada objeto de dados está em exatamente um subconjunto

� Agrupamento Hierárquico– Um conjunto de grupos aninhados organizado como uma

árvore hierárquica

Page 7: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������������������

Pontos Originais Um Agrupamento Particional

Page 8: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������� ����������

p4p1

p3

p2

p4 p1

p3

p2 p4p1 p2 p3

p4p1 p2 p3

Agrupamento Hierárquico Tradicional

Agrupamento Hierárquico não Tradicional Dendrograma não Tradicional

Dendrograma Tradicional

Page 9: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�������!����������������"��#����������� ��

� Exclusivo versus não exclusivo– Em agrupamentos não exclusivos, pontos podem pertencer a

vários grupos.– Podem representar várias classes ou pontos de ‘fronteira’

� Fuzzy versus não fuzzy– Em agrupamento fuzzy, um ponto pertence a todo grupo com

algum peso entre 0 e 1– Soma dos pesos deve ser 1– Agrupamento probabilístico tem características semelhantes

� Parcial versus completo– Em alguns casos, deseja-se agrupar somente alguns dados

� Heterogêneo versus homogêneo– Grupos de tamanho, formato e densidade completamente

diferentes

Page 10: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� ��

� Grupos bem separados

� Grupos baseados em centro

� Grupos contíguos

� Grupos baseados em densidade

� Propriedade ou Conceitual

� Descrito por uma Função Objetivo

Page 11: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� ��$�%���&� �����

� Grupos bem separados:– Um grupo é um conjunto de pontos tal que qualquer ponto em

um grupo está mais próximo (ou é mais similar) de todo ponto no grupo do que de qualquer ponto que não está no grupo.

3 grupos bem separados

Page 12: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� ��$�%����������"�����

� Baseado em Centro– Um grupo é um conjunto de objetos tal que um objeto em um

grupo está mais próximo (mais similar) ao “centro” de um grupo, que ao centro de qualquer outro grupo

– O centro de um grupo é freqüentemente um centróide, a média de todos os pontos no grupo, ou um medóide, o ponto mais “representativo” de um grupo

4 grupos baseados em centro

Page 13: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� �$�%���������"����'���

� Grupos Contíguos (Vizinho mais Próximo ou Transitivo)– Um grupo é um conjunto de pontos tal que um ponto em um

grupo está mais próximo (ou é mais similar) a um ou mais pontos no grupo do que a qualquer ponto que não está no grupo.

8 grupos contíguos

Page 14: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� �$�%���������!������

� Baseado em Densidade– Um grupo é uma região densa de pontos, que é separada por

regiões de baixa densidade, de outras regiões de alta densidade.

– Usado quando os grupos são irregulares ou entrelaçados, e quando ruído ou outliers estão presentes.

6 grupos baseados em densidade

Page 15: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� �$���� ���"����������

� Propriedade compartilhada ou Grupos Conceituais– Encontrar grupos que partilham alguma propriedade em

comum ou representam um conceito em particular.

2 Círculos Sobrepostos

Page 16: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� �$�(��������#���)�

� Grupos Definidos por uma Função Objetivo– Achar grupos que minimizam ou maximizam função objetivo– Enumerar todas formas possíveis de dividir os pontos em grupos e

avaliar quão bom cada potencial conjunto de grupos é usando a função objetivo dada. (NP Hard)

– Pode-se ter objetivos globais ou locais.� Algoritmos de agrupamento hierárquico tem em geral objetivos locais� Algoritmos particionais em geral tem objetivos globais

– Uma variação da abordagem por função objetivo global consiste no ajuste dos dados a um modelo parametrizado.� Parâmetros para o modelo são determinados a partir dos dados.� Modelos de mistura assumem que os dados são uma ‘mistura’ de um certo número de distribuições estatísticas.

Page 17: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�� �������� �$�(��������#���)��*

� Mapear o problema de agrupamento em um domínio diferente e resolver um problema relacionado naquele domínio– Matriz de Proximidade define um grafo ponderado,

em que os nós são os pontos sendo agrupados, e o peso das arestas representa a proximidade entre pontos

– Agrupamento é equivalente a quebrar o grafo em componentes conectados, um para cada grupo.

– Busca-se minimizar o peso das arestas entre grupos e maximizar o peso das arestas dentro dos grupos

Page 18: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

+� ���,��������"������������������!������-�����

� Tipo de proximidade ou medida de densidade– É uma medida derivada, mas central ao agrupamento

� Esparsidade– Dita o tipo de similaridade– Melhora a eficiência

� Tipo de atributo– Dita o tipo de similaridade

� Tipo de dado– Dita o tipo de similaridade– Outras características, e.g., auto-correlação

� Dimensionalidade� Ruído e Outliers� Tipo de Distribuição

Page 19: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��������������� ������

� K-médio e suas variações

� Agrupamento Hierárquico

� Agrupamento baseado em Densidade

Page 20: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� �������./����

� Abordagem de agrupamento particional� Cada grupo é associado com um centróide (ponto central)� Cada ponto é assinalado ao grupo com o centróide mais

próximo� Número de grupos, K, deve ser especificado� O algoritmo básico é muito simples

Page 21: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� �������./�����0 !����1��

� Centróides iniciais em geral são escolhidos aleatoriamente– Grupos produzidos variam de execução para outra

� O centróide é (tipicamente) a média dos pontos do grupo� ‘Proximidade’ é medida pela distância Euclidiana,

similaridade dos cossenos, correlação, etc.� K-médio converge para as medidas de similaridade já

indicadas� Maioria da convergência acontece nas primeiras iterações

– Freqüentemente a condição de parada é mudada para ‘Até que relativamente poucos pontos mudam de grupo’

� Complexidade é O( n * K * I * d )– n = número de pontos, K = número de grupos,

I = número de iterações, d = número de atributos

Page 22: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

!������� ��������!�2������������3/����

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

xy

Agrupamento Sub-ótimo

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Agrupamento ótimo

Pontos originais

Page 23: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

+� ���,�������-����1�����"����4����+�������

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 6

Page 24: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

+� ���,�������-����1�����"����4����+�������

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

xy

Iteração 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 6

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 4

Page 25: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�)���������� �����3/����

� Medida mais comum é Sum of Squared Error (SSE)– Para cada ponto, o erro é a distância ao grupo mais próximo– Para obter SSE, os erros são elevados ao quadrados e somados

– x é um ponto de dado no grupo Ci e mi é o ponto representativo para o grupo Ci

� pode mostrar que mi corresponde ao centro (média) do grupo

– Dados dois grupos, pode-se escolher aquele com o menor erro– Uma forma fácil de reduzir SSE é aumentar k, o número de

grupos� Um bom agrupamento com k menor pode ter um SSE inferior que um agrupamento pobre com k maior

��= ∈

=K

i Cxi

i

xmdistSSE1

2 ),(

Page 26: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

+� ���,�������-����1�����"����4����+������� *

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

Page 27: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

+� ���,�������-����1�����"����4����+������� *

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteração 5

Page 28: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�����������&����������������+�������

� Se há k grupos ‘reais’ então a chance de selecionar um centróide de cada grupo é pequena.

– Chance é relativamente pequena quando k é grande– Se grupos são de mesmo tamanho, n, então

– Por exemplo, se k = 10, então probabilidade = 10!/1010 = 0.00036

– As vezes os centróides iniciais se reajustam de forma ‘correta’, e as vezes não

– Considere um exemplo de cinco pares de grupos

Page 29: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

-5�� �����67���� ��

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 1

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 2

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 3

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 4

Começando com dois centróides iniciais em um grupo de cada par de grupos

Page 30: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

-5�� �����67���� ��

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

yIteration 1

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 2

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 3

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 4

Começando com dois centróides iniciais em um grupo de cada par de grupos

Page 31: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

-5�� �����67���� ��

Começando com um par de grupos tendo três centróides iniciais, enquanto outro tem somente um

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 1

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 2

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 3

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 4

Page 32: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

-5�� �����67���� ��

Começando com um par de grupos tendo três centróides iniciais, enquanto outro tem somente um

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 1

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 2

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 3

0 5 10 15 20

-6

-4

-2

0

2

4

6

8

x

y

Iteration 4

Page 33: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&�������� ������������������"����4����+�������

� Múltiplas execuções– Ajuda, mas a probabilidade não está a favor

� Amostrar e usar agrupamento hierárquico para determinar centróides iniciais

� Selecionar mais que k centróides iniciais e então selecionar entre estes centróides iniciais– Selecionar os mais largamente separados

� Pós-processamento� K-médio Bi-seccional

– Não é tão suscetível a problemas de inicialização

Page 34: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

8��� ��������� ���9�:���

� Algoritmo básico do k-médio pode levar a grupos vazios

� Várias estratégias– Escolher o ponto que mais contribui para o SSE– Escolher um ponto do grupo com o maior SSE– Se há vários grupos vazios, o procedimento acima

pode ser repetido várias vezes

Page 35: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

������:�����"���������(�����+����������

� No algoritmo K-médio básico, centróides são atualizados após todos os pontos terem sido assinalados a um centróide

� Uma alternativa é atualizar os centróides após cada assinalamento (abordagem incremental)– Cada assinalamento atualiza zero ou dois centróides– Mais caro– Introduz uma ordem de dependência– Nunca chega a um grupo vazio– Pode usar “pesos” para alterar impacto

Page 36: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

���/ ���4�/ ������������

� Pré-processamento– Normalizar dos dados– Eliminar outliers

� Pós-processamento– Eliminar pequenos grupos que podem representar outliers– Dividir grupos ‘frouxos’, i.e., grupos com SSE relativamente alto– Unir grupos que estão ‘próximos’ e que tenham SSE

relativamente baixo– Pode usar estes passos durante o processo de agrupamento

� ISODATA

Page 37: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

./�����%�/���������

� Algoritmo K-médio bi-seccional– Variante do K-médio que pode produzir um agrupamento

particional ou hierárquico

Page 38: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

-5�� ���0 ./�����%�/���������

Page 39: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

;������������./����

� K-médio tem problemas quando os grupos são de diferentes– Tamanhos– Densidades– Formatos não globulares

� K-médio tem problemas quando os dados contém outliers

Page 40: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

;������������./�����$�!�2�������������1��

Pontos Originais K-médio (3 Grupos)

Page 41: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

;������������./����$�!�2��������!�������

Pontos Originais K-médio (3 Grupos)

Page 42: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

;������������./����$�(�������������������

Pontos Originais K-médio (2 Grupos)

Page 43: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&� ������;������������./����

Pontos Originais Grupos K-médio

Uma solução é usar muitos grupos. Encontra partes de grupos, mas precisam ser colocados juntos.

Page 44: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&� ������;������������./����

Pontos Originais Grupos K-médio

Page 45: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&� ������;������������./����

Pontos Originais Grupos K-médio

Page 46: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������� ����������

� Produz um conjunto de grupos aninhados organizado como uma árvore hierárquica

� Pode ser visualizado como um dendograma– Um diagrama tipo árvore que registra a seqüência de

uniões ou divisões

1 3 2 5 4 60

0.05

0.1

0.15

0.2

1

2

3

4

5

6

1

23 4

5

Page 47: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

���������� ������� ����������

� Não precisa assumir qualquer número particular de grupos– Qualquer número desejado de grupos pode ser obtido

‘cortando’ o dendograma no nível apropriado

� Podem corresponder a taxonomias com significado– Exemplo em ciências biológicas (e.g., reino animal,

reconstrução filogenética, …)

Page 48: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������� ����������

� Dois tipos principais de agrupamento hierárquico– Aglomerativo:

� Inicia com os pontos sendo grupos individuais� A cada passo une os pares de grupos mais próximos até que somente um grupo exista (ou k grupos)

– Divisivo:� Inicia com um grupo que inclui todos os pontos� A cada passo divide um grupo até que cada grupo contenha um ponto (ou hajam k grupos)

� Algoritmos hierárquicos tradicionais usam uma matriz de similaridade ou de distância

– Unem ou dividem um grupo por vez

Page 49: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�������������� ����������������)�

� Técnica de agrupamento hierárquica mais popular

� Algoritmo básico é eficiente1. Calcular a matriz de proximidade2. Fazer cada ponto de dados ser um grupo3. Repetir4. Unir os dois grupos mais próximos5. Atualizar a matriz de proximidade6. Até que exista somente um único grupo

� Operação-chave é o cálculo da proximidade de dois grupos

– Diferentes abordagens para definir a distância entre grupos distinguem os diferentes algoritmos

Page 50: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������+������

� Iniciar com grupos de pontos individuais e uma matriz de proximidade

p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

. Matriz de Proximidade

Page 51: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������+�����������

� Após alguns passos de união, têm-se alguns grupos

C1

C4

C2 C5

C3

C2C1

C1

C3

C5

C4

C2

C3 C4 C5

Matriz de Proximidade

Page 52: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������+�����������

� Deseja-se unir os dois grupos mais próximos (C2 e C5) e atualizar a matriz de proximidade

C1

C4

C2 C5

C3

C2C1

C1

C3

C5

C4

C2

C3 C4 C5

Matriz de Proximidade

Page 53: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� 4��<����

� A questão é “Como se atualiza a matriz de proximidade?”

C1

C4

C2 U C5

C3? ? ? ?

?

?

?

C2 U C5C1

C1

C3

C4

C2 U C5

C3 C4

Matriz de Proximidade

Page 54: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

"����!�2�������&����������-�������� ��

p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

.

Similaridade?

� MIN� MAX� Média do Grupo� Distância entre Centróides� Outros métodos definidos por uma

função objetivo– Método de Ward usa erro quadrático

Matriz de Proximidade

Page 55: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

"����!�2�������&����������-�������� ��

p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

. Matriz de Proximidade

� MIN� MAX� Média do Grupo� Distância entre Centróides� Outros métodos definidos por uma

função objetivo– Método de Ward usa erro quadrático

Page 56: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

"����!�2�������&����������-�������� ��

p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

. Matriz de Proximidade

� MIN� MAX� Média do Grupo� Distância entre Centróides� Outros métodos definidos por uma

função objetivo– Método de Ward usa erro quadrático

Page 57: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

"����!�2�������&����������-�������� ��

p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

. Matriz de Proximidade

� MIN� MAX� Média do Grupo� Distância entre Centróides� Outros métodos definidos por uma

função objetivo– Método de Ward usa erro quadrático

Page 58: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

"����!�2�������&����������-�������� ��

p1

p3

p5

p4

p2

p1 p2 p3 p4 p5 . . .

.

.

. Matriz de Proximidade

� MIN� MAX� Média do Grupo� Distância entre Centróides� Outros métodos definidos por uma

função objetivo– Método de Ward usa erro quadrático

×××× ××××

Page 59: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������������� ��$�8+�����&�����;��3

� Similaridade de dois grupos é baseada nos dois pontos mais similares (próximos) nos diferentes grupos– Determinado por um par de pontos, i.e., por uma

ligação no grafo de proximidade

I1 I2 I3 I4 I5I1 1.00 0.90 0.10 0.65 0.20I2 0.90 1.00 0.70 0.60 0.50I3 0.10 0.70 1.00 0.40 0.30I4 0.65 0.60 0.40 1.00 0.80I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Page 60: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������� ����������$�8+�

Grupos Aninhados Dendograma

1

2

3

4

5

6

12

3

4

5

3 6 2 5 4 10

0.05

0.1

0.15

0.2

Page 61: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�������8+�

Pontos Originais Dois Grupos

• Pode manipular formatos não elípticos

Page 62: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

;������������8+�

Pontos Originais Dois Grupos

• Sensível a ruídos e outliers

Page 63: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������������� ��$�8�=����"�� �����;��3��

� Similaridade de dois grupos é baseada nos dois pontos menos similares (mais distantes) nos diferentes grupos– Determinado por todos os pares de pontos nos dois

grupos

I1 I2 I3 I4 I5I1 1.00 0.90 0.10 0.65 0.20I2 0.90 1.00 0.70 0.60 0.50I3 0.10 0.70 1.00 0.40 0.30I4 0.65 0.60 0.40 1.00 0.80I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Page 64: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������� ����������$�8�=

Grupos Aninhados Dendograma

3 6 4 1 2 50

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

1

2

3

4

5

61

2 5

3

4

Page 65: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

�������8�=

Pontos Originais Dois Grupos

• Menos suscetível a ruído e outliers

Page 66: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

;������������8�=

Pontos Originais Dois Grupos

• Tende a quebrar grandes grupos

• Tendencioso para grupos globulares

Page 67: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������������� ��$�8��������� �

� Proximidade de dois grupos é a média da proximidade par-a-par entre pontos dos dois grupos

� Precisa usar conectividade média para escalabilidade já que proximidade total favorece grandes grupos

>>��� �>>��� �

? @�A ��5����

?��� �@�A��� � ��5����#�

��� � ��� �

#�

#�##��

∗=

�∈∈

I1 I2 I3 I4 I5I1 1.00 0.90 0.10 0.65 0.20I2 0.90 1.00 0.70 0.60 0.50I3 0.10 0.70 1.00 0.40 0.30I4 0.65 0.60 0.40 1.00 0.80I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Page 68: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������������� ��$�8��������� �

Grupos Aninhados Dendograma

3 6 4 1 2 50

0.05

0.1

0.15

0.2

0.25

1

2

3

4

5

61

2

5

3

4

Page 69: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������������� ��$�8��������� �

� Compromisso entre Single e Complete Link

� Poder– Menos suscetível a ruído e outliers

� Limitações– Tendência para grupos globulares

Page 70: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

&��������������� �$�8�������B��

� Similaridade de dois grupos é baseada no aumento do erro quadrático quando dois grupos são unidos– Similar à media do grupo se distância entre pontos é

distância quadrática

� Menos suscetível a ruído e outliers

� Tendência para grupos globulares

� Análogo hierárquico do K-médio– Pode ser usado para inicializar o K-médio

Page 71: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������� ����������$�"�� ������

Média do Grupo

Método de Ward

1

23

4

5

61

2

5

3

4

MIN MAX

1

23

4

5

61

2

5

34

1

23

4

5

61

2 5

3

41

23

4

5

61

2

3

4

5

Page 72: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������� ����������$�C��������������� ����-� ���

� O(N2) em espaço já que usa a matriz de proximidade.– N é o número de pontos

� O(N3) em tempo em muitos casos– Há N passos e a cada passo a matriz de proximidade

de tamanho N2 deve ser atualizada e pesquisada– Complexidade pode ser reduzida para O(N2 log(N))

em tempo para algumas abordagens

Page 73: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� ������� ����������$�������������;���������

� Uma vez que uma decisão tenha sido tomada de combinar dois grupos, ela não pode ser desfeita

� Nenhuma função objetivo é minimizada diretamente

� Diferentes esquemas tem problemas com um ou mais dos seguintes pontos:– Sensibilidade a ruído e outliers– Dificuldade de manipular grupos de tamanhos

diferentes e formatos convexos– Quebrar grandes grupos

Page 74: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

8&�$���� ������� �����������!�)���)�

� Construir MST (Minimum Spanning Tree)– Iniciar com uma árvore que consiste de qualquer ponto– Em passos sucessivos buscar o par de pontos mais próximos

(p, q) tal que um ponto (p) está na árvore atual e o outro (q) não– Adicionar q à árvore e colocar uma aresta entre p e q

Page 75: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

8&�$���� ������� �����������!�)���)�

� Usar MST para construir uma hierarquia de grupos

Page 76: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

!%&"��

� DBSCAN é um algoritmo baseado em densidade

– Densidade = número de pontos dentro de um raio específico (Eps)

– Um ponto é um ponto núcleo se ele tem mais que um número especificado de pontos (MinPts) dentro de Eps� Estes são os pontos que estão no interior de um grupo

– Um ponto de fronteira tem menos que MinPts dentro de Epsmas está na vizinhança de um ponto núcleo

– Um ponto de ruído é um ponto que não é nem um ponto núcleo nem um ponto de fronteira

Page 77: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

!%&"��$�����������D����@�(�����������C���

Page 78: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

���������!%&"��

� Eliminar pontos de ruído� Fazer agrupamento sobre os pontos restantes

Page 79: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

!%&"��$�����������D����@�(�����������C���

Pontos Originais Tipos de pontos: núcleo, fronteira e ruído

Eps = 10, MinPts = 4

Page 80: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

E�����!%&"���(��������%��

Pontos Originais Grupos

• Resistente a ruído

• Pode manipular grupos de diferentes formas e tamanhos

Page 81: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

E�����!%&"����F��(��������%��

Pontos Originais

(MinPts=4, Eps=9.75).

(MinPts=4, Eps=9.92)

• Densidades variáveis

• Dados de alta dimensionalidade

Page 82: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

!%&"��$�!�����������-�&���8�����

� Idéia é que para pontos em um grupo, seus k-ésimosvizinhos estão aproximadamente à mesma distância

� Pontos de ruído tem o k-ésimo vizinho a uma distância maior

� Desta forma, o gráfico da distância ordenada de todo ponto até seu k-ésimo vizinho mais próximo

Page 83: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

9������������� ��

� Para classificação supervisionada tem-se uma variedade de medidas para avaliar quão bom o modelo é

– Exatidão, precisão, recuperação(“recall”)

� Para análise de agrupamentos a questão análoga é como avaliar o quão bom são os grupos resultantes

� Mas “grupos estão nos olhos de quem os vê”!

� Então por quê deseja-se avaliá-los?– Para evitar encontrar padrões nos ruídos– Para comparar algoritmos de agrupamento– Para comparar dois conjuntos de grupos– Para comparar dois grupos

Page 84: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

��� �����������������!���������4����

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Pontos Aleatórios

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

K-médio

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

DBSCAN

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Complete Link

Page 85: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

1. Determinar a tendência de agrupamento de um conjunto de dados, i.e., distinguir se uma estrutura não aleatória realmente existe nos dados.

2. Comparar os resultados de uma análise de grupos com resultados externamente conhecidos, e.g., a rótulos de classes externamente fornecidos.

3. Avaliar quão bem os resultados de uma análise de grupos se ajustam aos dados sem referência a informação externa.

- Usar somente os dados4. Comparar os resultados de dois diferentes conjuntos de análise de

grupos para determinar qual deles é melhor.5. Determinar o número ‘correto’ de grupos.

Para 2, 3, e 4 pode-se ainda distinguir se é desejada uma avaliação do agrupamento inteiro ou apenas de grupos individuais.

!�2���������� ��������9������������� ��

Page 86: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� Medidas numéricas que são aplicadas para julgar vários aspectos de avaliação de grupos são classificados em três tipos.– Índice Externo: Usado para medir até que ponto rótulos de grupos

correspondem a rótulos de classes externamente fornecidos.� Entropia

– Índice Interno: Usado para medir quão boa é a estrutura de agrupamento sem relação com informação externa.

� Soma dos Erros Quadráticos (SSE)

– Índice Relativo: Usado para comparar dois grupos ou agrupamentos diferentes.

� Freqüentemente um índice externo ou interno é usado para esta função, e.g., SSE ou entropia

� As vezes eles são chamados de critérios em vez de índices– Entretanto, as vezes critério é a estratégia geral e índice é a medida

numérica que implementa o critério.

8��������)������������� ��

Page 87: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� Duas matrizes– Matriz de Proximidade– Matriz de “Incidência”

� Uma linha e uma coluna para cada ponto de dados� Uma célula é 1 se o par de pontos associado pertence ao mesmo

grupo� Uma célula é 0 se o par de pontos associado pertence a diferentes

grupos

� Calcular a correlação entre as duas matrizes– Como as matrizes são simétricas, somente a correlação entre

n(n-1)/2 entradas precisa ser calculada

� Alta correlação indica que pontos que pertencem ao mesmo grupo estão próximos entre si

� Não é uma boa medida para alguns grupos baseados em densidade ou contigüidade

8��������)������������� ���9���"���������

Page 88: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

8��������)������������� ���9���"���������

� Correlação das matrizes de incidência e proximidade para os agrupamentos K-médio dos seguintes conjuntos de dados

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

xy

Correlação = -0.9235 Correlação = -0.5810

Page 89: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� Ordenar a matriz de similaridade com relação aos rótulos dos grupos e inspecionar visualmente.

<�����8����:���&���������� �����)������������� ��

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Points

Poi

nts

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Page 90: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

<�����8����:���&���������� �����)������������� ��

� Grupos em dados aleatórios não são tão definidos

Points

Poin

ts

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

DBSCAN

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Page 91: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

Points

Poin

ts

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

<�����8����:���&���������� �����)������������� ��

� Grupos em dados aleatórios não são tão definidos

K-médio

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Page 92: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

<�����8����:���&���������� �����)������������� ��

� Grupos em dados aleatórios não são tão definidos

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Points

Poin

ts

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Complete Link

Page 93: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

<�����8����:���&���������� �����)������������� ��

1 2

3

5

6

4

7

DBSCAN

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

500 1000 1500 2000 2500 3000

500

1000

1500

2000

2500

3000

Page 94: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� Grupos em figuras mais complicadas não são bem separados

� Índice Interno: Usado para medir quão boa é a estrutura de agrupamento sem relação a alguma informação externa

� SSE é bom para comparar dois agrupamentos ou dois grupos (SSE média)

� Também pode ser usado para estimar número de grupos

8�����+�������$�&&-

2 5 10 15 20 25 300

1

2

3

4

5

6

7

8

9

10

K

SS

E

5 10 15

-6

-4

-2

0

2

4

6

Page 95: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

8�����+�������$�&&-

� Curva do SSE para conjunto de dados mais complicado

1 2

3

5

6

4

7

SSE de grupos encontrados usando K-médio

Page 96: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� Precisa-se de estrutura para interpretar qualquer medida– Por exemplo, se a medida de avaliação tem valor 10, a qualidade é

boa, mediana ou pobre?

� Estatística fornece estrutura para avaliar grupos– Quanto mais “atípico” o resultado de um agrupamento for, tanto mais

provavelmente ele representa uma estrutura válida nos dados– Pode comparar os valores de um índice que resulta de dados

aleatórios ou agrupamentos com os resultados de agrupamento.� Se o valor de um índice é improvável, então os resultados dos grupos são

válidos

– Estas abordagens são mais complicadas e difíceis de compreender

� Para comparar os resultados de dois diferentes conjuntos de análises de agrupamento, uma estrutura não é tão necessária.

– Entretanto, há a questão sobre se a diferença entre os valores dos dois índices é significante

-��������� �����)������������� ��

Page 97: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� Exemplo– Comparar SSE de 0.005 com três grupos em dados aleatórios– Histograma mostra SSE de três grupos em conjuntos de pontos de

dados aleatórios de tamanho 100 distribuído na faixa 0.2 – 0.8 para valores de x e y

-���������-����������� ����&&-

0.016 0.018 0.02 0.022 0.024 0.026 0.028 0.03 0.032 0.0340

5

10

15

20

25

30

35

40

45

50

SSE

Cou

nt

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Page 98: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

� Correlação das matrizes de incidência e proximidade para os agrupamentos de K-médio dos dois seguintes conjuntos de dados

-���������-����������� ����"���������

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Correlação = -0.9235 Correlação = -0.5810

Page 99: PPGIa | Programa de Pós-Graduação em Informáticafabricio/ftp/Aulas/Mestrado/IA/Nievola/MD/M… · MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

Prof. Júlio Cesar Nievola Data Mining PPGIa – PUCPR

“The validation of clustering structures is the most difficult and frustrating part of cluster analysis.

Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage.”

Algorithms for Clustering Data, Jain and Dubes

"����������(������������)������������� ��