clustering using representatives: an e cient clustering...

Post on 27-Jun-2020

4 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Clustering Using REpresentatives: An EfficientClustering Algorithm for Large Databases

Bilza Marques de Araujobmarques@icmc.usp.br

SCC5895 - Analise de Agrupamento de Dados

Seminario09 de Dezembro de 2010

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 1 / 31

Conteudo

1 Introducao

2 CURE

3 Melhorias - Large Scale Databases

4 Resultados

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 2 / 31

Principais Referencias

Guha, S., Rastogi, R., & Shim, K. (1998).Cure: an efficient clustering algorithm for large databases.In Proceedings of the 1998 ACM SIGMOD international conference onManagement of data, SIGMOD ’98 (pp. 73–84). New York, NY, USA:ACM.

Guha, S., Rastogi, R., & Shim, K. (2001).Cure: an efficient clustering algorithm for large databases.Information Systems, 26, 35–58.

Theodoridis, S. & Koutroumbas, K. (2009).Pattern Recognition, (pp. 683–685).Academic Press, 4th edition.

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 3 / 31

1 Introducao

2 CURE

3 Melhorias - Large Scale Databases

4 Resultados

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 4 / 31

Introducao

Problema de clustering: Dado um conjunto de objetos, agrupar os objetosem clusters tal que cada objetos em um cluster seja mais similares aosdemais objetos no mesmo cluster que a objetos em outros clusters.

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 5 / 31

Representantes

Quando unem grupos, algoritmos aglomerativos utilizam“representantes”:

centroides, medoides: dmean

todos os objetos do grupo: dmin, dmax, dave

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 6 / 31

Deficiencias abordagens classicas

Abordagens classicas favorecem clusters esfericos e tamanhossimilares ou sao frageis na presenca de outliers

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 7 / 31

1 Introducao

2 CURE

3 Melhorias - Large Scale Databases

4 Resultados

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 8 / 31

Clustering Using REpresentatives

Tecnica de Agrupamento de Dados Hierarquica

Cada grupo e representado por min(c, |Ci|) pontos que descrevem aforma* do grupo

Dois grupos, C1 e C2, sao unidos se ∀Ci, Cj

dcure(C1, C2) == min(dcure(Ci, Cj))

dcure(Ci, Cj) e a menor distancia entre representantes de Ci e Cj

Os grupos sao unidos ate que sejam obtidos k grupos

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 9 / 31

c objetos bem distribuıdos

+ +

+ +

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 10 / 31

c objetos bem distribuıdos

+ +

+ +

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 10 / 31

c objetos bem distribuıdos

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 11 / 31

c objetos bem distribuıdos

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 11 / 31

c representantes

Cada representante e encolhidos sentido ao centroide em α

p = p+ α(x− p)

+ +

Dois grupos sao unidos de acordo com os representantes

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 12 / 31

c representantes

Cada representante e encolhidos sentido ao centroide em α

p = p+ α(x− p)

+ +

Dois grupos sao unidos de acordo com os representantes

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 12 / 31

Algoritmo

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 13 / 31

Algoritmo

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 13 / 31

1 Introducao

2 CURE

3 Melhorias - Large Scale Databases

4 Resultados

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 14 / 31

Melhorias - Large Scale Databases

Bases de dados com centenas de milhares de objetos

Limitacoes de memoria

Inviabilidade Computacional O(n2 log n)

Base de dados

Elimina outliers

Agrupa grupos parciais

Rotulação dados no disco

Amostragem sobre

os dados

Particionamento das

amostras

Agrupamento parcial

cada partição

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 15 / 31

Amostragem

Amostra suficientemente grande preserva caracterısticas dos grupos eelimina outliers

De acordo com Chernoff bounds, para clusters bem definidos (densosintra e esparso inter):

smin = ξkρ+ kρ log(1

δ) + kρ

√(log(

1

δ))2 + 2ξ log(

1

δ)

Nao depende do numero de objetos n, mas sim do numero de clustersbem definidos, k

Com grupos de densidades variadas e necessario assumir k de acordocom regioes densas

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 16 / 31

Particionamento

Particionamento da amostra

Agrupamento hierarquico ate npq

Permite melhor tratamento de outliers*

Reduz ainda mais custo computacional

a2 + b2 < (a+ b)2

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 17 / 31

Remocao de outliers

Modelo ainda susceptıvel a outliers

Amostragem e parametro α podem nao eliminar todo efeito de

Uma vez que outliers tendem a ser agrupados no final da hierarquia

Grupos com poucos objetos sao removidos da amostra

ao final de cada particaoquando atinge o numero de grupos k

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 18 / 31

Rotulacao em disco

Objetos em disco sao rotulados de acordo com os representantes degrupos

Cada objeto e atribuıdo ao grupo do representante mais proximo

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 19 / 31

1 Introducao

2 CURE

3 Melhorias - Large Scale Databases

4 Resultados

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 20 / 31

Comparacao com BIRCH e MST

n = 100000, s = 2500, c = 10, α = 0.3, p = 1

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 21 / 31

Comparacao com BIRCH e MST

n = 100000, s = 2500, c = 10, α = 0.3, p = 1

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 22 / 31

Comparacao com BIRCH e MST

n = 121560, s = 3000, c = 100, α = 0.15, p = 1

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 23 / 31

Fator de encolhimento α

n = 100000, s = 2500, c = 10, p = 1, α = [0.1, 0.9]

Quando α = 0 similar ao MST, quando α = 1, similar ao BIRCH

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 24 / 31

Fator de encolhimento α

n = 100000, s = 2500, c = 10, p = 1, α = [0.1, 0.9]

Quando α = 0 similar ao MST, quando α = 1, similar ao BIRCH

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 24 / 31

Numero de representantes, c

n = 100000, s = 2500, α = 0.3, p = 1, c = [1, 100]

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 25 / 31

Numero de representantes, c

n = 100000, s = 2500, α = 0.3, p = 1, c = [1, 100]

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 25 / 31

Tamanho da amostra de representantes, s

n = 100000, α = 0.3, c = 10, p = 1, s = [500, 5000]

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 26 / 31

Numero de particoes, p

n = 100000, α = 0.3, c = 10, s = 2500, p = [1, 100],

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 27 / 31

Performance comparado ao BIRCH

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 28 / 31

Performance

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 29 / 31

Obrigado pela atencao!

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 30 / 31

Bibliografia I

Guha, S., Rastogi, R., & Shim, K. (1998).Cure: an efficient clustering algorithm for large databases.In Proceedings of the 1998 ACM SIGMOD international conference onManagement of data, SIGMOD ’98 (pp. 73–84). New York, NY, USA:ACM.

Guha, S., Rastogi, R., & Shim, K. (2001).Cure: an efficient clustering algorithm for large databases.Information Systems, 26, 35–58.

Theodoridis, S. & Koutroumbas, K. (2009).Pattern Recognition, (pp. 683–685).Academic Press, 4th edition.

Bilza Araujo (SCC5895 - AAD) Clustering Using REpresentatives: CURE 31 / 31

top related