![Page 1: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/1.jpg)
Agrupamento de Dados: uma Revisão
Data Clustering
Márcia de Oliveira AlvesJosé de Castro Neto
Maio 2006Universidade Federal de Campina Grande
Mestrado em Informatica
![Page 2: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/2.jpg)
• O que é Agrupamento de Dados?• Qual a utilidade?
Niv
ela
men
to
![Page 3: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/3.jpg)
• Contextualização;
• Processo de Agrupamento;
• Agrupamento de Dados;
• Uma Aplicacão: Mineração de Dados;
• Considerações Finais.
• Bibliografia
Rote
iro
![Page 4: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/4.jpg)
• É crescente a migração dos dados para a mídia digital;
• Na informação reside o conhecimento;
• O volume de informação é cada vez maior;
Análise Automática dos Dados
Con
textu
aliza
ção
Motivação
![Page 5: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/5.jpg)
• Previsão de Dados– Fluxo de Caixa Previsto
• Classificação de Dados– Relatório gerado segundo consulta
• Análise de Agrupamentos– Data Mining – Mineração de Dados
Con
textu
aliza
ção
Análise Automática de Dados
![Page 6: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/6.jpg)
Objetivo
Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos
Pro
cesso d
e
Ag
rup
am
en
to
![Page 7: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/7.jpg)
• Seleção e tratamento dos dados;
• Agrupamento de dados;
• Análise dos resultados;
EtapasP
rocesso d
e
Ag
rup
am
en
to
![Page 8: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/8.jpg)
• Eliminação de dados duplicados ou corrompidos;
• Tratamento de outliers;
• Valores faltantes ou inválidos;
• Transformação dos dados;– Tratamento de Atributos:
• Adequar os diferentes tipos de atributos para o processo de agrupamento.
– Normalização: • Tratar dados com atributos de diferentes dimensões,
quando se pretende que eles tenham a mesma influência no processo.
Pro
cesso d
e
Ag
rup
am
en
toSeleção e Tratamento de Dados
![Page 9: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/9.jpg)
• Métodos:– Hierárquicos;– Segmentação;
• Medidas de proximidade
– Dissimilaridade– Similaridade
Pro
cesso d
e
Ag
rup
am
en
toAgrupamento de Dados
![Page 10: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/10.jpg)
• Métricas comuns em medidas de proximidade
Pro
cesso d
e
Ag
rup
am
en
toAgrupamento de Dados
Figura 2: Surpefícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan
![Page 11: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/11.jpg)
• Gráfico da Silhueta
Pro
cesso d
e
Ag
rup
am
en
toAnálise dos resultados
Figura 3: Gráfico da Silhueta
![Page 12: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/12.jpg)
Análise dos resultados
• Valores da Silhueta
Pro
cesso d
e
Ag
rup
am
en
to
Tabela 1: Valores da Silhueta
Valor Descrição
0,71 – 1,00
Uma estrutura forte foi encontrada.
0,51 – 0,70
Uma estrutura razoável foi encontrada.
0,26 – 0,50
A estrutura é fraca e pode ser superficial.
≤0,25 Nenhuma estrutura substancial foi encontrada.
![Page 13: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/13.jpg)
• Os dados são segmentados sucessivamente, produzindo uma representação hierárquica dos agrupamentos
• Tipos:– Aglomerativos;– Divisivos;
Ag
rup
am
en
to d
e
Dad
os
Métodos Hierárquicos
![Page 14: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/14.jpg)
• Aglomerativos
Ag
rup
am
en
to d
e
Dad
os
Métodos Hierárquicos
Figura 3: Método Hierárquico Aglomerativo
![Page 15: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/15.jpg)
• Aglomerativos
– Principais desvantagens:• Os agrupamentos não podem ser
corrigidos;• Requerem muito espaço de memória e
tempo de processamento;
Ag
rup
am
en
to d
e
Dad
os
Métodos Hierárquicos
![Page 16: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/16.jpg)
• Divisivos
Ag
rup
am
en
to d
e
Dad
os
Métodos Hierárquicos
Figura 4: Método Hierárquico Divisivo
![Page 17: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/17.jpg)
• Divisivos– Principais vantagens
• Considera muitas divisões no primeiro passo;
– Principais desvantagens:• Capacidade computacional maior que os
hierárquicos aglomerativos (grande número de combinações);
• Requerem muito espaço de memória e tempo de processamento
Ag
rup
am
en
to d
e
Dad
os
Métodos Hierárquicos
![Page 18: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/18.jpg)
• Constroem uma única partição k grupos, isto é, classificam os dados em k grupos– Cada grupo deve conter no mínimo um
objeto;– Todo objeto foi atribuído a um grupo.
• Tipos:– Exclusivos
• Cada objeto pertence a exatamente um grupo
– Não-exclusivos• A escolha do grupo do objeto é definida com base
no grau de pertinência do mesmo
Ag
rup
am
en
to d
e
Dad
os
Métodos de Segmentação
![Page 19: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/19.jpg)
Mineração de Dados
“A extração de Conhecimento de base de dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados” (Fayyad, Piatetsky-Shapiro e Smyth citado por Rezende)C
on
textu
alização
![Page 20: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/20.jpg)
Motivação
• Grandes volumes de dados heterogêneos;
• Necessidade de técnicas para extrair a informação que realmente seja relevantes.
Con
textu
alização
![Page 21: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/21.jpg)
• Segmentação;
• Modelos de predição;
• Visualização;Min
era
ção d
e D
ad
os
e A
gru
pam
en
toAbordagem da Mineração de Dados
![Page 22: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/22.jpg)
• Segmentação : Os métodos de agrupamento são utilizados para segmentar bases de dados em grupos homogêneos
Min
era
ção d
e D
ad
os
e A
gru
pam
en
toAbordagem da Mineração de Dados
![Page 23: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/23.jpg)
• Modelos de Prediticao : Usam o agrupamento de dados para agrupar itens, a fim de inferir regras, caracterizar os grupos e sugerir modelos.
Abordagem da Mineração de DadosM
inera
ção d
e D
ad
os
e A
gru
pam
en
to
![Page 24: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/24.jpg)
• Visualização: o agrupamento de dados pode ser utilizado como tecnica que permite observar as informacoes em diferentes niveis e estruturas.
Abordagem da Mineração de DadosM
inera
ção d
e D
ad
os
e A
gru
pam
en
to
![Page 25: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/25.jpg)
Aplicações citadas pelo autores
• Mineração em dados não estruturados WWW;
• Mineração em banco de dados geológicos;
Min
era
ção d
e D
ad
os
![Page 26: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/26.jpg)
Ap
licações -
M
inera
ção d
e D
ad
os
Exemplo Banco de Dados Geológicos
• Regiao do Alasca
![Page 27: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/27.jpg)
Ap
licações -
M
inera
ção d
e D
ad
os
Exemplo Banco de Dados Geológicos
• Regiao do Alasca
![Page 28: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/28.jpg)
Ap
licações -
M
inera
ção d
e D
ad
os
Mineração de dados da bacia do Alaska
• Definição do contexto• Descoberta das estruturas
primitivas para agrupamento;•Definição do contexto em
termos relevantes para agrupamento homogêneos de dados;
• Aplicação do algoritmo k-medias
![Page 29: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/29.jpg)
Min
era
ção d
e D
ad
os
Bacia
do A
laska
Algoritmo K-medias
Algoritmo de agrupamento que segmenta os objetos em conjuntos de elementos semelhantes, segundo algum criterio
![Page 30: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/30.jpg)
Min
era
ção d
e D
ad
os
Bacia
do A
laska
Algoritmo K-medias
• Etapas• Define-se o número de
grupamentos;• Inicia-se os agrupamentos
através de atributos arbitrários ou centróides;
•Atribuição das amostras•Volta-se ao passo 3 até um
critério de convergência ser cumprido;
![Page 31: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/31.jpg)
Min
era
ção d
e D
ad
os
Bacia
do A
laska
Algoritmo K-medias
Inicialização dos centróides Atribuição das amostra
Procura de Novos centróides
![Page 32: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/32.jpg)
• Tipo de atributos que o algoritmo opera;
• Escalabilidade para grandes conjuntos de dados;
• Definição da melhor métrica de similaridade;
• Habilidade de operar com uma dimensão grande de variáveis;
Como escolher um método?C
on
sid
era
ções
Fin
ais
![Page 33: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/33.jpg)
• Tratar valores discrepantes (outliers);
• Tempo de execução;
• Dependência de ordem dos dados;
• Interpretabilidade dos resultados.
Con
sid
era
ções
Fin
ais
Como escolher um método?
![Page 34: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/34.jpg)
• Ferramentas atuais• Dependência dos usuários
– Informação para início do processo– Capacidade de interpretação dos
resultados– Decisão sobre a utilização do
método adequado
ProblemasC
on
sid
era
ções
Fin
ais
![Page 35: Agrupamento de Dados: uma Revisão Data Clustering Márcia de Oliveira Alves José de Castro Neto Maio 2006 Universidade Federal de Campina Grande Mestrado](https://reader036.vdocuments.pub/reader036/viewer/2022062623/552fc10c497959413d8c344a/html5/thumbnails/35.jpg)
Jain, A.K. & Murty, M.N. & Flynn, P.J. “Data Clustering: A Review” – ACM computing Surveys, vol. 31, nº 3, september 1999.
ComplementarVale, Marcos Neves do. “Agrupamentos de dados :
avaliação de métodos e desenvolvimento de aplicativo para análise de grupos” - Orientadores: Marley M. B. R. Vellasco, Ricardo Tanscheit. – Rio de Janeiro : PUC, Departamento de Engenharia Elétrica, 2005.
Rezende, Solange de Almeida “Mineração de Dados ”Lubia Vinhas, Gilberto Ribeiro Queiroz, Karine Reis
Ferreira, gilberto Câmara, Jão Argemiro C. Paiva – “Programação Genética Aplicada a Algoritmos Geográficos ”- INPE – São José dos Campos SP.
BásicaB
ibliog
rafi
a