agrupamento de dados: uma revisão data clustering márcia de oliveira alves josé de castro neto...

Agrupamento de Dados: uma Revisão

Data Clustering

Márcia de Oliveira AlvesJosé de Castro Neto

Maio 2006Universidade Federal de Campina Grande

Mestrado em Informatica

• O que é Agrupamento de Dados?• Qual a utilidade?

• Contextualização;

• Processo de Agrupamento;

• Agrupamento de Dados;

• Uma Aplicacão: Mineração de Dados;

• Considerações Finais.

• Bibliografia

• É crescente a migração dos dados para a mídia digital;

• Na informação reside o conhecimento;

• O volume de informação é cada vez maior;

Análise Automática dos Dados

Motivação

• Previsão de Dados– Fluxo de Caixa Previsto

• Classificação de Dados– Relatório gerado segundo consulta

• Análise de Agrupamentos– Data Mining – Mineração de Dados

Análise Automática de Dados

Objetivo

Figura 1: Gráfico ilustrativo de dados agrupados em quatro grupos

cesso d

• Seleção e tratamento dos dados;

• Agrupamento de dados;

• Análise dos resultados;

EtapasP

rocesso d

• Eliminação de dados duplicados ou corrompidos;

• Tratamento de outliers;

• Valores faltantes ou inválidos;

• Transformação dos dados;– Tratamento de Atributos:

• Adequar os diferentes tipos de atributos para o processo de agrupamento.

– Normalização: • Tratar dados com atributos de diferentes dimensões,

quando se pretende que eles tenham a mesma influência no processo.

cesso d

toSeleção e Tratamento de Dados

• Métodos:– Hierárquicos;– Segmentação;

• Medidas de proximidade

– Dissimilaridade– Similaridade

cesso d

toAgrupamento de Dados

• Métricas comuns em medidas de proximidade

cesso d

toAgrupamento de Dados

Figura 2: Surpefícies observadas pelas distâncias Euclidiana, Mahalanobis e Manhattan

• Gráfico da Silhueta

cesso d

toAnálise dos resultados

Figura 3: Gráfico da Silhueta

Análise dos resultados

• Valores da Silhueta

cesso d

Tabela 1: Valores da Silhueta

Valor Descrição

0,71 – 1,00

Uma estrutura forte foi encontrada.

0,51 – 0,70

Uma estrutura razoável foi encontrada.

0,26 – 0,50

A estrutura é fraca e pode ser superficial.

≤0,25 Nenhuma estrutura substancial foi encontrada.

• Os dados são segmentados sucessivamente, produzindo uma representação hierárquica dos agrupamentos

• Tipos:– Aglomerativos;– Divisivos;

Métodos Hierárquicos

• Aglomerativos

Figura 3: Método Hierárquico Aglomerativo

• Aglomerativos

– Principais desvantagens:• Os agrupamentos não podem ser

corrigidos;• Requerem muito espaço de memória e

tempo de processamento;

• Divisivos

Figura 4: Método Hierárquico Divisivo

• Divisivos– Principais vantagens

• Considera muitas divisões no primeiro passo;

– Principais desvantagens:• Capacidade computacional maior que os

hierárquicos aglomerativos (grande número de combinações);

• Requerem muito espaço de memória e tempo de processamento

• Constroem uma única partição k grupos, isto é, classificam os dados em k grupos– Cada grupo deve conter no mínimo um

objeto;– Todo objeto foi atribuído a um grupo.

• Tipos:– Exclusivos

• Cada objeto pertence a exatamente um grupo

– Não-exclusivos• A escolha do grupo do objeto é definida com base

no grau de pertinência do mesmo

Métodos de Segmentação

Mineração de Dados

“A extração de Conhecimento de base de dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados” (Fayyad, Piatetsky-Shapiro e Smyth citado por Rezende)C

alização

Motivação

• Grandes volumes de dados heterogêneos;

• Necessidade de técnicas para extrair a informação que realmente seja relevantes.

alização

• Segmentação;

• Modelos de predição;

• Visualização;Min

ção d

toAbordagem da Mineração de Dados

• Segmentação : Os métodos de agrupamento são utilizados para segmentar bases de dados em grupos homogêneos

ção d

toAbordagem da Mineração de Dados

• Modelos de Prediticao : Usam o agrupamento de dados para agrupar itens, a fim de inferir regras, caracterizar os grupos e sugerir modelos.

Abordagem da Mineração de DadosM

ção d

• Visualização: o agrupamento de dados pode ser utilizado como tecnica que permite observar as informacoes em diferentes niveis e estruturas.

Abordagem da Mineração de DadosM

ção d

Aplicações citadas pelo autores

• Mineração em dados não estruturados WWW;

• Mineração em banco de dados geológicos;

ção d

licações -

ção d

Exemplo Banco de Dados Geológicos

• Regiao do Alasca

licações -

ção d

Exemplo Banco de Dados Geológicos

• Regiao do Alasca

licações -

ção d

Mineração de dados da bacia do Alaska

• Definição do contexto• Descoberta das estruturas

primitivas para agrupamento;•Definição do contexto em

termos relevantes para agrupamento homogêneos de dados;

• Aplicação do algoritmo k-medias

ção d

Algoritmo K-medias

Algoritmo de agrupamento que segmenta os objetos em conjuntos de elementos semelhantes, segundo algum criterio

ção d

Algoritmo K-medias

• Etapas• Define-se o número de

grupamentos;• Inicia-se os agrupamentos

através de atributos arbitrários ou centróides;

•Atribuição das amostras•Volta-se ao passo 3 até um

critério de convergência ser cumprido;

ção d

Algoritmo K-medias

Inicialização dos centróides Atribuição das amostra

Procura de Novos centróides

• Tipo de atributos que o algoritmo opera;

• Escalabilidade para grandes conjuntos de dados;

• Definição da melhor métrica de similaridade;

• Habilidade de operar com uma dimensão grande de variáveis;

Como escolher um método?C

ções

• Tratar valores discrepantes (outliers);

• Tempo de execução;

• Dependência de ordem dos dados;

• Interpretabilidade dos resultados.

ções

Como escolher um método?

• Ferramentas atuais• Dependência dos usuários

– Informação para início do processo– Capacidade de interpretação dos

resultados– Decisão sobre a utilização do

método adequado

ProblemasC

ções

Jain, A.K. & Murty, M.N. & Flynn, P.J. “Data Clustering: A Review” – ACM computing Surveys, vol. 31, nº 3, september 1999.

ComplementarVale, Marcos Neves do. “Agrupamentos de dados :

avaliação de métodos e desenvolvimento de aplicativo para análise de grupos” - Orientadores: Marley M. B. R. Vellasco, Ricardo Tanscheit. – Rio de Janeiro : PUC, Departamento de Engenharia Elétrica, 2005.

Rezende, Solange de Almeida “Mineração de Dados ”Lubia Vinhas, Gilberto Ribeiro Queiroz, Karine Reis

Ferreira, gilberto Câmara, Jão Argemiro C. Paiva – “Programação Genética Aplicada a Algoritmos Geográficos ”- INPE – São José dos Campos SP.

BásicaB

ibliog

agrupamento de dados: uma revisão data clustering márcia de oliveira alves josé de castro neto...

Documents

clustering ha

clustering (agrupamento)

universidade federal de campina grande … · agradeço à...

clustering aggregation

1. session clustering · 2016-08-22 · session clustering...

4 clustering

אשכול - clustering

1 agenda 21 professora: márcia m. rios ribeiro bolsista...

poluição do ar disciplina: ciências do ambiente...

universidade federal de campina grande – ufcg professora:...

2. clustering - lmu munich · 26 2. clustering inhalt...

poluição do solo disciplina: ciências do ambiente...

chapter 8 clustering : k-means - wipawan's blog ·...

ecossistemas humanos disciplina: ciências do ambiente...

poluição sonora disciplina: ciências do ambiente...

poluição da Água parte 2 disciplina: ciências do...

universidade federal de campina grande unidade acadÊmica de...

lec4 clustering

clustering _ishii_2014__ch10

crescimento populacional disciplina: ciências do ambiente...