medidas de avaliação de agrupamentos...
TRANSCRIPT
Medidas de avaliacao de agrupamentos(Clustering)
Sarajane M. Peres e Clodoaldo A. M. Lima
12 de novembro de 2015
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 1 / 22
MotivacaoAvaliacao → Validacao
O processo de avaliacao do resultado obtido a partir de um algoritmo de agrupamento
e comumente chamado de validacao.
Objetivo
A pergunta a ser respondida e se o modelo de grupos descoberto e, de fato, a
organizacao em grupos dos dados sob analise. Porem, se nao conhecemos aorganizacao, como saber se o que descobrimos e o que deverıamos terdescoberto?
Estrategias
analisar a compacidade: encontramos grupos que maximizou a similaridadeintragrupo?
analisar a separabilidade: encontramos grupos que minimizou a similaridadeintergrupos?
analisar conhecimento a priori: usar informacoes que ja se tem sobre o
conjunto de dados sob analise para validar os grupos encontrados.
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 2 / 22
Indices de validacao
Possibilidades
Ha dois principais tipos de ındices de validacao de agrupamentos
ındices externos: compara a estrutura de grupos descoberta com uma estrutura
de grupos previamente conhecida;
ındices internos: analisa a estrutura de grupos descoberta em relacao a alguma
criterio, como por exemplo, compacidade e/ou separabilidade.
Os ındices internos tambem podem ser encontrados sob a nomenclatura de “ındices
relativos”.
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 3 / 22
Exemplos de organizacoes em grupos
Figura : Conjuntos de dados (http://cs.joensuu.fi/sipu/datasets/)
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 4 / 22
Indices Externos
Considere:
uma organizacao em grupos G , proveniente da execucao do algoritmo de agrupamento, com k
grupos: G1, ..., Gk ;
uma organizacao em particoes P, conhecida a priori, com c particoes: P1, ..., Pc .
todos os pares de dados {→x p,
→x q} do conjunto de dados submetido ao algoritmo de agrupamento,
sendo p 6= q e {→x p,
→x q} = {→
x q,→x p}
e calcule:
SOMA A: quantidade de pares de exemplares que pertencem a um mesmo grupo G e a uma
mesma particao P;
SOMA B: quatidade de pares de exemplares que pertencem a um mesmo grupo G e a particoes P
diferentes;
SOMA C: quantidade de pares de exemplares que pertencem a grupos G diferentes e a mesma
particao P;
SOMA D: quantidade de pares de exemplares que pertencem a grupos G diferentes e a particoes P
diferentes.
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 5 / 22
Indices Externos
A partir dos calculos do slide anterior, os seguintes ındices podem ser aplicados:
Indice de Rand : (A+D)(A+B+C+D)
Indice de Jaccard : A(A+B+C)
Indice de Folkes e Mallows:√
AA+B∗ A
A+C
Esses ındices variam no intervalo [0, 1]. Valores altos para esses ındices indicam alto
grau de similaridade entre a organizacao em grupos e a organizacao das particoes.
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 6 / 22
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 7 / 22
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 8 / 22
Figura : Com ruıdo - distribuicao normal - 500 pontos
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering) 12 de novembro de 2015 9 / 22
Efeito do ruıdo sobre os ındices externosConsiderando cada ponto ruidoso com sendo um grupo diferente.
Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.818910 67.141 32.980 0 218.680 0.8965 0.6706 0.8189100 67.141 32.980 0 294.595 0.9164 0.6706 0.8189500 67.141 32.980 0 729.995 0.9603 0.6706 0.81891.000 67.141 32.980 0 1.499.245 0.9794 0.6706 0.818910.000 67.141 32.980 0 58.095.745 0.9994 0.6706 0.8189
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 10 / 22
Efeito do ruıdo sobre os ındices externos
Considerando cada ponto ruidoso com sendo um grupo diferente na particao
conhecida, mas um grupo unico identificado no agrupamento.
Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.818910 67.141 33.025 0 217.837 0.8961 0.6703 0.8187100 67.141 37.930 0 288.757 0.9037 0.6390 0.7994500 67.141 157.730 0 603.957 0.8097 0.2986 0.54641.000 67.141 532.480 0 997.957 0.6667 0.1120 0.334610.000 67.141 50.027.980 0 8.089.957 0.1402 0.0013 0.0366
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 11 / 22
Efeito do ruıdo sobre os ındices externos
Considerando cada ponto ruidoso com sendo um grupo diferente na particao conhecida,
mas fazendo parte de um dos grupos (reais) encontrados para o conjunto de dados.
Densidade Soma A Soma B Soma C Soma D Rand Jaccard Folkes-Mallowsdo ruıdo0 67.141 32.980 0 210.745 0.8936 0.6706 0.8189
.... perdi conexao com o servidor .... fiquei sem Matlab ... entao fica como
exercıcio!!!!!!
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 12 / 22
Outros ındices externos
Czekanowski-Dice Hubert Γ
Kulczinski McNemar
Phi Rogers-Tanimoto
Russel-Rao Sokal-Seneath
Tabela : Fonte: Desgraupes, 2013
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 13 / 22
Indices Internos
Indice Dunn
IDunn = min1≤p≤k{min1≤q≤k,p 6=q{dist(Gp,Gq)
maxdisp(Gk)}
em que k e o numero de grupos no agrupamento.
ou
Indice Dunn
IDunn =min1≤p≤q≤kdist(Gp,Gq)
maxdisp(Gk)
em que k e o numero de grupos no agrupamento.
Esse ındice compara as distancias intergrupos com o tamanho do grupo mais disperso.
Quanto MAIOR e o valor deste ındice MELHOR e a organizacao dos grupos em
termos de separabilidade (numerador) e compacidade (denominador).
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 14 / 22
Indices Internos
Indice Davies-Bouldin
IDB =1
k
k∑p=1
Rp
em que
Rp = maxp=1,..k,p 6=qRpq
para p, q = 1..k
Rpq =disp(Cp) + disp(Cq)
dist(Cp,Cq)
Quanto MENOR o valor do ındice MELHOR, pois isso significa baixas medidas de
dispersao intragrupo e grandes distancias intergrupos.
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 15 / 22
Indices Internos
Indice Silhouette
ISIL =b(i)− a(i)
max{a(i), b(i)}em que
a(i) e a distancia media do dado i a todos os demais dados do seu grupo;
b(i) e a distancia mınima do dado i a todos os demais dados que nao
pertencem ao seu grupo;
O ISIL e calculado por dado e o ISIL de um grupo e a media dos ISIL de todos os dados
no grupo. E o ISIL do agrupamento e a media dos ISIL dos grupos.Quanto MAIOR o
valor do ındice MELHOR.
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 16 / 22
Exemplos de organizacoes em grupos
Figura : Conjuntos de dados (http://cs.joensuu.fi/sipu/datasets/)
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 17 / 22
Indice Dunn nos conjuntos de dados
Considerando a distancias entre os pontos mais distantes dentro do grupo como
dispersao de um grupos e a distancia entre centroides como sendo a distancia entre
grupos, os seguintes valores para o Indice Dunn foram obtidos:
Sem normalizacao Com normalizacao
Conjunto Distancia Dispersao Indice Distancia Dispersao Indicede dados mınima maxima Dunn mınima maxima Dunncompound 0.5904 20.7966 0.0284 0.0166 0.9413 0.0176aggregation 8.3044 15.4144 0.5387 0.3049 0.4966 0.6139t4.8k – – – – – –flame 5.4437 13.7179 0.3968 0.4077 1.0014 0.4071jain 17.7020 27.2273 0.6502 0.5790 0.7101 0.8154pathbased 6.2617 29.2959 0.2137 0.2213 1.0408 0.2126R15 1.6584 1.8750 0.8750 0.1208 0.1378 0.8769D31 2.9889 6.0535 0.4937 0.1136 0.2278 0.4986spiral 3.1464 25.9993 0.1210 0.1094 0.8992 0.1217
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 18 / 22
Outros ındices internos
Ball-Hall Banfeld-Raftery C
Calinski-Harabasz Det-Ratio Baker-Hubert Gamma
GDI G-plus Ksq-Det-Ratio
Log-Det-Ratio McClain-Rao PBM
Point-Biserial Ratkowsky-Lance Ray-Turi
Scott-Symons SD S-Dbw
Tau Trace-W Trace-WiB
Wemmert-Gancarski Xie-Beni
Tabela : Fonte: Desgraupes, 2013
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 19 / 22
Escolha do melhor modelo deagrupamento
A melhor particao pode estar relacionada a qualidade dos grupos encontrados e/ou a
quantidade de grupos encontrados. Muito provavelmente, a melhor qualidade estara
relacionada com quantidade ideal.
Estrategia
crie varios modelos de agrupamento para o conjunto de dados sob analise,
variando, sistematicamente, o numero de grupos e os demais parametros do
algoritmo;
para cada modelo de agrupamento compute um ındice de qualidade;
selecione o modelo de agrupamento que gerou o MELHOR valor para o ındice
de qualidade.
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 20 / 22
Comparando diferentes agrupamentos paraum mesmo conjunto de dados
Indice Dunn para o agrupamento com 7 grupos: 0.6139
Indice Dunn para o agrupamento com 4 grupos: 0.4034
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 21 / 22
Referencias Bibliograficas
Davies, D. L.; Bouldin, D. W. A Cluster Separation Measure. In: IEEE
Transaction on Pattern Analysis and Machine Intelligence, v.1, no 2, p.
224-227, 1979.
Desgraupes, B. Clustering Indices. Package clusterCrit for R. University Paris
Ouest - Lab Modal’X, 2013.
Dunn, J. C. A Fuzzy Relative of the ISODATA Process and its Use in Detection
Compact Well-Separate Clusters. In. Journal of Cybernetics, v. 3, no 3, p.
32-57, 1973.
Halkidi, M.; Batistakis, Y.; Vazirgiannis, M. On Clustering Validation
Techniques. In: Journal of Intelligent Information Systems, v. 17, no 2-3, o
107-145, 2001.
Rousseeuw, P. J. Silhouettes: A Graphical Aid to the Interpretation and
Validation of Cluster Analysis. In: Journal of Computational and Applied
Mathematics, v.20, no 1, p. 53-65, 1986.
Sarajane M. Peres e Clodoaldo A. M. Lima Medidas de avaliacao de agrupamentos (Clustering)12 de novembro de 2015 22 / 22