clustering (agrupamento) - departamento de computação e...
TRANSCRIPT
![Page 1: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/1.jpg)
José Augusto BaranauskasDepartamento de Física e Matemática – FFCLRP-USP
E-mail: [email protected]: http://dfm.ffclrp.usp.br/~augusto
ClusteringClustering(Agrupamento)(Agrupamento)
Clustering é uma técnica de aprendizado não-supervisionado, ou seja, quando não há uma classe associada a cada exemploOs exemplos são colocados em clusters (grupos), que normalmente representam algum mecanismo existente no processo do mundo real que gerou os exemplos, fazendo com que alguns exemplos sejam mais similares entre si do que aos restantes
![Page 2: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/2.jpg)
2
O que é O que é ClusteringClustering??
Dado um conjunto de objetos, colocar os objetos em grupos baseados na similaridade entre eles
Utilizado para encontrar padrões inesperados nos dados
Inerentemente é um problema não definido claramente
Como agrupar os animais seguintes?
![Page 3: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/3.jpg)
3
O O queque é Clustering?é Clustering?
Dado um conjunto de objetos, colocar os objetosem grupos baseados nasimilaridade entre eles
Utilizado para encontrarpadrões inesperados nosdados
Inerentemente é um problema não definidoclaramente
Como agrupar os animaisseguintes?
Com Com bicobico
SemSem bicobico
![Page 4: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/4.jpg)
4
O O queque é Clustering?é Clustering?
Dado um conjunto de objetos, colocar os objetosem grupos baseados nasimilaridade entre eles
Utilizado para encontrarpadrões inesperados nosdados
Inerentemente é um problema não definidoclaramente
Como agrupar os animaisseguintes?
TerraTerraÁguaÁgua
![Page 5: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/5.jpg)
5
O O queque é Clustering?é Clustering?
Dado um conjunto de objetos, colocar os objetosem grupos baseados nasimilaridade entre eles
Utilizado para encontrarpadrões inesperados nosdados
Inerentemente é um problema não definidoclaramente
Como agrupar os animaisseguintes?
OvíparoOvíparo
MamíferoMamífero
![Page 6: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/6.jpg)
6
DescriçãoDescrição do do ProblemaProblema
Clustering (Agrupamento): Aprendizado não SupervisionadoDado um conjunto de objetos descritos por múltiplos valores(atributos)
(1) atribuir grupos (clusters) aos objetos particionando-os objetivamenteem grupos homogêneos de maneira a:
Maximizar a similaridade de objetos dentro de um mesmo clusterMinimizar a similaridade de objetos entre clusters distintos
(2) atribuir uma descrição para cada cluster formado
Cluster 1
Cluster 2
Cluster K
.
.
.
DadosAlgoritmo
deClustering
(1)cor=azul
cor=laranja
cor=amarelo
(2)
![Page 7: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/7.jpg)
7
DescriçãoDescrição do do ProblemaProblema
Representação dos Objetos
Clusters
Escolha/Definiçãodos Objetos e seus
Atributos
Similaridade entre Objetos
Algoritmo de Clustering
Validação
Interpretação
![Page 8: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/8.jpg)
8
DescriçãoDescrição do do ProblemaProblema
Representação dos Objetos
Clusters
Conhecimento do Usuário/Especialista
Escolha/Definiçãodos Objetos e seus
Atributos
Similaridade entre Objetos
Algoritmo de Clustering
Validação
Interpretação
![Page 9: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/9.jpg)
9
DescriçãoDescrição do do ProblemaProblema
Representação dos Objetos
Clusters
Conhecimento do Usuário/Especialista
Escolha/Definiçãodos Objetos e seus
Atributos
Similaridade entre Objetos
Algoritmo de Clustering
Validação
Interpretação
Cluster é valido se não ocorreu por acaso,
pois qualquer algoritmo de clustering
encontra clusters, independentemente
se existe ou não similaridade entre os
objetos
![Page 10: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/10.jpg)
10
RepresentaçãoRepresentação dos dos ObjetosObjetos
Cada objeto (dado) de entrada para o algoritmo é representado usualmente por um vetor de atributos(objeto = dado = exemplo = tupla = registro)Tipos de Atributos
Numérico (inteiro, real)Categórico (booleano, conjunto de valores)
Por exemplo: Amostra de dados clínicos (Objeto: Paciente)Idade (atributo numérico: inteiro)Peso (atributo numérico: real)Sexo (atributo categórico: masculino, feminino)Cor da pele (atributo categórico: branca, marrom, amarela, preta)Doente? (atributo booleano: Sim, Não)
Deve também incluir um método para calcular a similaridade (ou a distância) entre os objetos
![Page 11: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/11.jpg)
11
RepresentaçãoRepresentação dos dos ObjetosObjetosExemplo ou Objeto
Atributo
) , , , ,(
) , , , ,(
) , , , ,() , , , ,(
,3,2,1,
,3,2,1,
,23,22,21,2222
,13,12,11,1111
mnnnnnn
miiiiii
m
m
xxxxxz
xxxxxz
xxxxxzxxxxxz
L
MMMM
L
MMMM
L
L
===============
===
n
i
x
x
xx
![Page 12: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/12.jpg)
12
RepresentaRepresentaççãoão de Clustersde Clusters
(b)
ad
kj
h
gif
ec
b
ad
kj
h
g if
ec
b
(a)
(c) 1 2 3abc
0.6 0.1 0.30.1 0.8 0.10.3 0.3 0.4
...
(d)
d a k j h g b c e f i
![Page 13: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/13.jpg)
13
AvaliaçãoAvaliação de Clustersde Clusters
Avaliação Tradicional:
Não aplicável a domínios hierárquicos
Avaliação para Clusters HierárquicosPoucos clusters
Cobertura grande boa generalidadeDescrição de clusters grandes
Mais atributos maior poder de inferênciaMínima (nenhuma) sobreposição (intersecção) entre clusters
Clusters mais distintos conceitos melhor definidos
ClustersIntraDistânciaClusterInter DistânciaCluster do Qualidade
−−
=
![Page 14: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/14.jpg)
14
CalculandoCalculando a a DistânciaDistância
A distância é o método mais natural para dados numéricosValores pequenos indicam maior similaridadeMétricas de Distância
EuclideanaManhattanEtc.
Não generaliza muito bem para dados nãonuméricos
Qual a distância entre “masculino” e “feminino”?
![Page 15: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/15.jpg)
15
NormalizaçãoNormalização
Considerando a distância Euclidiana, mais utilizada nas aplicações, um problema ocorre quando um dos atributos assume valores em um intervalo relativamente grande, podendo sobrepujar os demais atributosPor exemplo, se uma aplicação tem apenas dois atributos A e B e A varia entre 1 e 1000 e B entre 1 e 10, então a influência de B na função de distância será sobrepujada pela influência de APortanto, as distâncias são freqüentemente normalizadas dividindo a distância de cada atributo pelo intervalo de variação (i.e. diferença entre valores máximo e mínimo) daquele atributoAssim, a distância para cada atributo é normalizada para o intervalo [0,1]
![Page 16: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/16.jpg)
16
NormalizaçãoNormalização
De forma a evitar ruídos, é também comum:dividir pelo desvio-padrão ao invés do intervalo ou“cortar” o intervalo por meio da remoção de uma pequena porcentagem (e.g. 5%) dos maiores e menores valores daquele atributo e somente então definir o intervalo com os dados remanescentes
Também é possível mapear qualquer valor fora do intervalo para os valores mínimo ou máximo para evitar valores normalizados fora do intervalo [0,1]
Conhecimento do domínio pode freqüentemente ser utilizada para decidir qual método é mais apropriado
![Page 17: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/17.jpg)
17
MétricasMétricas
Minkowski (Lp): escolha de pdepende da ênfase que se deseja dar a grandes diferenças entre dimensões
Manhattan/City-Block (L1): se atributos binários, é conhecida como distância Hamming
Euclidiana (L2) 2/1
1
2,,2 )()(
−= ∑
=
m
rrjri xx,dist ji xx
pm
r
prjrip xx,dist
/1
1,, )()(
−= ∑
=ji xx
∑=
−=m
rrjriM xx,dist
1,,)( ji xx
) , , , ,() , , , ,(
,3,2,1,
,3,2,1,
mjjjj
miiii
xxxxxxxx
L
L
=
=
j
i
xx
Contornos de distâncias iguais
![Page 18: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/18.jpg)
18
MétricasMétricas
Camberra
Chebychev
Correlação
∑= +
−=
m
r rjri
rjri
xx
xx,dist
1 ,,
,,Ca )( ji xx
rjri
m
rxxdist ,,1Ch max),( −=
=ji xx
∑∑
∑
==
=
−−
−−=
m
rjrj
m
riri
m
rjrjiri
xxxx
xxxx,dist
1
2,
1
2,
1,,
Co
)()(
))(()( ji xx
) , , , ,() , , , ,(
,3,2,1,
,3,2,1,
mjjjj
miiii
xxxxxxxx
L
L
=
=
j
i
xx
rji Xxx atributo do valoresdos média =
![Page 19: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/19.jpg)
19
MétricasMétricas
Correlação Pearson: Remove efeitos de magnitude; intervalo [-1.0, 1.0]-1.0 = inversamente correlacionado, 0.0 = sem correlação, 1.0 = perfeitamente correlacionado
No exemplo, as linhas azul e vermelha têm alta correlação, mesmo que a distância entre as linhas seja significante
−
−
−
=
∑∑∑∑
∑∑∑
====
===
m
rrj
m
rrj
m
kri
m
rri
m
rrj
m
rri
m
rrjri
mxxmxx
mxxxx,dist
1
2,
1
2,
1
2,
1
2,
1,
1,
1,,
Pearson
/)(/)(
/)( ji xx
) , , , ,() , , , ,(
,3,2,1,
,3,2,1,
mjjjj
miiii
xxxxxxxx
L
L
=
=
j
i
xx
![Page 20: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/20.jpg)
20
MétricasMétricas
O método mais simples para atributos categóricos é o seguinte
=≠=
rji,r
rji,r
rji,r
rji,r
xxxxxx
xxoverlap
,
,
,
,
se0 se1
dosdesconheci são ou se1),(
∑=
=m
rrjri xxoverlapdist
1,,Cat ),(),( ji xx
) , , , ,() , , , ,(
,3,2,1,
,3,2,1,
mjjjj
miiii
xxxxxxxx
L
L
=
=
j
i
xx
![Page 21: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/21.jpg)
21
Métrica HeterogêneaMétrica Heterogênea
Heterogeneous Euclidean-Overlap Metric: HEOMUtiliza normalização no intervalo [0,1]Uma forma de lidar com aplicações com atributos nominais e contínuos consiste em utilizar uma função de distância heterogênea que utiliza funções diferentes para tipos de atributos diferentes
−
−=contínuo é atributo se
)()(
nominal é atributo se)()( ,,
,,
,,r
rr
rjri
rrjri
rjriH XXmínXmáx
xxX,xxoverlap
,xxdist
∑=
=m
rrjriHHEOM xxdistdist
1
2,, ),()( ji x,x
![Page 22: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/22.jpg)
22
CalculandoCalculando SimilaridadeSimilaridadeBooleanaBooleana
Dados dois vetores booleanosX e Y, seja A o número de atributos onde ambos vetoresassumem 1, etc. comomostrado abaixoDois métodos para similaridadesão dados ao ladoPodem ser generalizados paradados categóricos
Correlação = (A+D)/(A+B+C+D)
Coef. Jaccard = A / (A+B+C+D)Utilizado quando a ausência de um valor verdadeiro nãosignifica similaridadeExemplo:
Suponha que estamosrealizando um trabalho de filogenética estrutural e X[j] é verdadeiro se o organismo tem asasDois organismos não são maissimilares se ambos não têmasasDessa forma, o coeficiente de Jaccard é mais natural que o coeficiente de correlação nestecaso
X[j]X[j]
Y[j]Y[j]
1111
00
00
AA BB
CC DD
![Page 23: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/23.jpg)
23
Impacto da Escolha da MétricaImpacto da Escolha da Métrica
A escolha da métrica de distância tem grande impacto no cluster final produzido
Note que a validade do cluster final é altamente subjetivaExemplo
Quais os cluster significativos nestes casos?Quantos clusters devem ser considerados?
![Page 24: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/24.jpg)
24
KK--means: means: AlgoritmoAlgoritmo
Dado um conjunto de pontos numéricos no espaço D-dimensional e um inteiro KO algoritmo gera K (ou menos) clusters daseguinte maneira:Escolha K clusters aleatoriamenteCalcule o centróide para cada clusterRepita
Atribua cada ponto ao centróide mais próximoRecalcule o centróide para cada cluster
Até estabilidade
![Page 25: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/25.jpg)
25
KK--means: means: ExemploExemplo, K = 3, K = 3PassoPasso 1:1: EscolhaEscolha aleatóriaaleatória de clusters de clusters
e e cálculocálculo dos dos centróidescentróides ((círculoscírculosmaioresmaiores))
PassoPasso 2:2: AtribuaAtribua cadacada pontoponto aoaocentróidecentróide maismais próximopróximo
PassoPasso 3:3: RecalculeRecalcule centróidescentróides ((nestenesteexemploexemplo, a , a soluçãosolução é agora é agora estávelestável))
![Page 26: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/26.jpg)
26
KK--means: means: ExemploExemplo
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100
![Page 27: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/27.jpg)
27
KK--means: means: ExemploExemplo, K=2, K=2
![Page 28: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/28.jpg)
28
KK--means: means: ExemploExemplo, K=3, K=3
![Page 29: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/29.jpg)
29
KK--means: means: ExemploExemplo, K=4, K=4
![Page 30: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/30.jpg)
30
KK--means: means: ExemploExemplo, K=5, K=5
![Page 31: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/31.jpg)
31
KK--means: means: ExemploExemplo, K=6, K=6
![Page 32: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/32.jpg)
32
KK--means: means: ExemploExemplo, K=7, K=7
![Page 33: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/33.jpg)
33
KK--means: means: ExemploExemplo, K=8, K=8
![Page 34: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/34.jpg)
34
KK--means: means: ExemploExemplo, K=9, K=9
![Page 35: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/35.jpg)
35
KK--means: means: ExemploExemplo, K=10, K=10
![Page 36: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/36.jpg)
36
KK--means: means: ExemploExemplo, K=12, K=12
![Page 37: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/37.jpg)
37
KK--means: means: ExemploExemplo, K=6, K=6
![Page 38: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/38.jpg)
39
DescriçãoDescrição do Cluster: do Cluster: ExemploExemplo, K=6, K=6(J48 (J48 ––C 0.25 C 0.25 ––M 15)M 15)
![Page 39: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/39.jpg)
40
KK--means: means: ExemploExemplo de de AplicaçãoAplicação
Clustering de GenesDada uma série de experimentos de microarray medindo a expressão de um conjunto de genes a intervalos regulares de tempo numa célulaNormalização permite comparação entre microarraysProduz clusters de genes que variam de forma similar ao longo do tempoHipótese: genes que variam da mesma forma pode ser/estar co-regulados
AmostraAmostra de um Array. de um Array. LinhasLinhassãosão genes e genes e colunascolunas sãosão pontospontos
no tempono tempoUm cluster de genes coUm cluster de genes co--
reguladosregulados
![Page 40: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/40.jpg)
41
KK--means: means: ProblemasProblemas
Os clusters finais não representam uma otimização global masapenas local e clusters diferentes podem surgir a partir da diferençana escolha inicial aleatória dos centróides (fig.1)O parâmetro K deve ser escolhido antecipadamente, ou váriosvalores devem ser tentados até encontrar o “melhor”Os dados devem ser numéricos e devem ser comparados através dadistância Euclideana (há uma variante chamado algoritmo K-medians que aborda esse problema)O algoritmo trabalha melhor com dados que contêm clusters esféricos; clusters com outra geometria podem não ser encontradosO algoritmo é sensível a outliers (pontos que não pertencem a nenhum cluster). Esses pontos podem distorcer a posição do centróide e deteriorar o cluster
![Page 41: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/41.jpg)
42
KK--means: means: ProblemasProblemas (cont.)(cont.)
Figura 1
![Page 42: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/42.jpg)
43
Clustering Clustering HierárquicoHierárquico: : AlgoritmoAlgoritmo
Cria uma árvore na qual os objetos são as folhase os nós internos revelam a estrutura de similaridade dos pontos
A árvore é frequentemente chamada “dendograma”O algoritmo pode ser resumido da seguintemaneira:Coloque todos os pontos em seus própriosclustersEnquanto há mais de um cluster Faça
Agrupe o par de clusters mais próximosFim EnquantoO comportamento do algoritmo depende emcomo “par de clusters mais próximo” é definido
![Page 43: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/43.jpg)
44
Clustering Clustering HierárquicoHierárquico: : AgrupandoAgrupando ClustersClusters
Single LinkSingle Link: : DistânciaDistância entreentre doisdois clusters é clusters é a a distânciadistância entreentre osos pontospontos maismais próximospróximos. .
TambémTambém chamadochamado ““agrupamentoagrupamento de de vizinhosvizinhos””
Average LinkAverage Link: : DistânciaDistância entreentre clusters é a clusters é a distânciadistância entreentre osos centróidescentróides
Complete LinkComplete Link: : DistânciaDistância entreentre clusters é a clusters é a distânciadistância entreentre osos pontospontos maismais distantesdistantes
![Page 44: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/44.jpg)
45
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 11
A
B
EF
C D
Este Este exemploexemplo ilustrailustra singlesingle--link clustering no link clustering no espaçoespaçoEuclideanoEuclideano com 6 com 6 pontospontos
A B E FC D
![Page 45: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/45.jpg)
46
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 22
Realizar cluster hierárquico utilizando single-link no seguinte conjunto de objetos:X = {1, 3, 4, 9, 10, 13, 21, 23, 28, 29}No caso de empate, sempre agrupe pares de clusters com maior médiaIndique a ordem na qual as operações de agrupamento ocorrem
Dis
tânc
ia
6.75
16
![Page 46: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/46.jpg)
48
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100
![Page 47: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/47.jpg)
49
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 48: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/48.jpg)
50
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 49: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/49.jpg)
51
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 50: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/50.jpg)
52
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 51: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/51.jpg)
53
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 52: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/52.jpg)
54
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 53: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/53.jpg)
55
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 54: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/54.jpg)
56
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 55: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/55.jpg)
57
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 56: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/56.jpg)
58
Clustering Clustering HierárquicoHierárquico: : ExemploExemplo 33
![Page 57: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/57.jpg)
59
Clustering Clustering HierárquicoHierárquico: : ExemploExemplode de AplicaçãoAplicação
Alinhamento múltiplo de seqüênciasDado um conjunto de seqüências, produzir um alinhamento global de todas as seqüências contra todas as demaisNP-hardUma heurística popular é utilizar clustering hierárquico
EstratégiaCada cluster é representado por sua seqüência consensoQuando os clusters são intercalados, suas seqüências consensos são alinhadas via alinhamento ótimo (optimal pairwise alignment)A heurística utiliza clustering hierárquico para juntar as seqüências mais similares primeiro, sendo que o objetivo é minimizar erros potenciais no alinhamentoUma versão mais sofisticada deste método encontra-se implementada no programa clustalw(http://www.ebi.ac.uk/clustalw/)
![Page 58: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/58.jpg)
60
Clustering Clustering HierárquicoHierárquico: : ProblemasProblemas
A forma mais utilizada, single-link clustering, é particularmente greedy
Se dois pontos provenientes de clusters disjuntosencontram-se próximos entre si, a distinção entreclusters será perdidaPor outro lado, average- e complete-link clustering têmseus bias voltados para clusters esféricos da mesmamaneira que K-means
Na realidade não produz clusters; o usuário devedecidir onde “cortar” a árvore em gruposComo em K-means, é sensível a ruído e outliers
![Page 59: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/59.jpg)
61
Clustering Clustering UtilizandoUtilizando GrafosGrafos
Defina a similaridade de um grafo sobre um conjunto de objetos da seguinte maneira:
Vértices são os próprios objetosArestas interligam objetos que são considerados“similares”
Arestas podem ser ponderadas pelo grau de similaridade
Um componente conexo é um conjunto maximal de objetos tal que cada objeto é alcançávelatravés dos demaisUm corte de peso mínimo é um conjunto de arestas de peso total mínimo que define um novo componente conexo no grafo
![Page 60: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/60.jpg)
62
Clustering Clustering UtilizandoUtilizandoComponentesComponentes ConexosConexos
•• O O grafografo acimaacima tem 3 tem 3 componentescomponentes conexosconexos ((ouou clusters)clusters)
•• O O algoritmoalgoritmo parapara encontráencontrá--loslos é é muitomuito rápidorápido e simplese simples
•• ProblemasProblemas com com esteeste métodométodo (no (no grafografo exemploexemplo))
•• O O vérticevértice vermelhovermelho nãonão é similar à é similar à maioriamaioria dos dos objetosobjetos emem seuseu clustercluster
•• A A arestaaresta vermelhavermelha conectaconecta doisdois componentescomponentes queque deveriamdeveriamprovavelmenteprovavelmente estarestar separadosseparados
![Page 61: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/61.jpg)
63
Corte de Peso Corte de Peso MínimoMínimo paraparaClusteringClustering•• ExecutarExecutar o o algoritmoalgoritmo de de cortecorte de peso de peso mínimomínimo no no grafografo anterior anterior parapara produzirproduzirum um resultadoresultado melhormelhor ((assumindoassumindo o peso de o peso de cadacada arestaaresta igualigual a 1):a 1):
•• Se Se osos objetosobjetos dentrodentro de um cluster de um cluster sãosão muitomuito maismais similaressimilares queque objetosobjetosentreentre outrosoutros clusters, clusters, entãoentão o o métodométodo funcionafunciona bembem
•• ProblemasProblemas
•• AlgoritmoAlgoritmo é lento e é lento e potencialmentepotencialmente devedeve ser ser executadoexecutado váriasvárias vezesvezes
•• NãoNão é é claroclaro quandoquando pararparar a a execuçãoexecução do do algoritmoalgoritmo
![Page 62: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/62.jpg)
64
Clustering Clustering UtilizandoUtilizando GrafosGrafos: : ExemploExemplo de de AplicaçãoAplicação
EST ClusteringDado: um conjunto de seqüências curtas de DNA que sãoderivadas de genes expressos no genomaProduzir: um mapeamento das seqüencias para sua seqüênciaoriginal no geneDefina duas seqüências como “similares” se elas se sobrepõemuma certa quantidade
Cada gene deve ter seu próprio componente conexo no grafo de similaridadeAlguns fragmentos podem estar compartilhados entregenes, ou genes próximos podem compartilhar umaarestaUm algoritmo de corte de peso mínimo pode ser utilizadopara solucionar discrepâncias ocasionais
![Page 63: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/63.jpg)
65
Principal Component AnalysisPrincipal Component Analysis
Problema: objetos possuem muitos atributos para seremvisualizados ou manipulados convenientemente
Por exemplo, um simples experimento de microarray pode ter de 6.000-8.000 genes
PCA é um método para reduzir o número de atributos de dados numéricos enquanto tenta preservar a estrutura do cluster
Depois da PCA, espera-se obter os mesmos clusters como se osobjetos fossem “clusterizados” antes da PCADepois da PCA, gráficos dos objetos devem ainda ter clusters “caindo” nos grupos esperadosUtilizando PCA para reduzir os objetos para 2 ou 3 dimensões, programas convencionais de visualização podem ser utilizados
![Page 64: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/64.jpg)
66
PCA: PCA: AlgoritmoAlgoritmo
Considerar os dados como uma matriz n por m na qual as linhas sãoos objetos e as colunas são os atributosOs auto-vetores correspondente aos maiores d auto-valores da matrizsão os “componentes principais”Ao projetar os objetos nesses vetores, obtém-se pontos d-dimensionaisConsidere o exemplo abaixo, projetando objetos 2D com 2 clusters (vermelho e azul) em 1 dimensão
ComponentePrincipal
Após projeção
![Page 65: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/65.jpg)
67
DesafiosDesafios emem ClusteringClustering
Cálculo de SimilaridadeResultados dos algoritmos dependem inteiramente damétrica de similaridade utilizadaOs sistemas de clustering fornecem pouco auxílio emcomo escolher a similidade adequada aos objetossendo estudadosCalcular a correta similaridade de dados de diferentestipos pode ser difícilSimilaridade é muito dependente da representação dos dados. Deve-se
Normalizar?Representar um dado numericamente, categoricamente, etc.?
Seleção de ParâmetrosAlgoritmos atuais requerem muito parâmetrosarbitrários, que devem ser especificados pelo usuário
![Page 66: Clustering (Agrupamento) - Departamento de Computação e ...dcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-Clustering.pdf · A e B e A varia entre 1 e 1000 e B entre 1 e 10, ... espaço](https://reader031.vdocuments.pub/reader031/viewer/2022021910/5c48b3ad93f3c34c5506728a/html5/thumbnails/66.jpg)
68
ConclusãoConclusão
Clustering é uma método útil de explorar dados, mais ainda muito ad hocBons resultados são dependentes na escolha dacorreta representação dos dados e da métrica de similaridade
Dados: categórico, numérico, booleanoSimilaridade: distância, correlação, etc.
Escolha dentre muitos algoritmos, cada um com vantagens e problemas
k-means, hierárquico, praticionamento de grafos, etc.