Download - Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Programa de Pós-graduação em Biociências
Área de Concentração
“Caracterização e Aplicação da Diversidade Biológica”
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Conceito: Padrão
Um padrão é qualquer entidade da qual é possível extrair algum tipo de característica, seja ela simbólica ou numérica (Nogueira, 2012).
O reconhecimento de padrões é a área de pesquisa que tem por objetivo a classificação de objetos em um número de categorias ou classes (Theodoridis and Koutroumbas, 1999).
O Reconhecimento de Padrões é uma disciplina científica que estuda e desenvolve técnicas com o objetivo de descrever, classificar ou reconhecer regularidades significativas, em meios ruidosos e complexos (Schalkoff 1992).
Dr. Fernando Frei
O Reconhecimento de Padrões está ligada a busca de “ Regularidades ”
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Importância:
Restringir nossa atenção a um conjunto de casos selecionado pelo sistema. Ex. Imagens médicas
Para automatizar completamente o processo de tomada de decisão, sem necessidade de intervenção humana. Ex. placas de carro.
Predizer resultados baseados em características.
Ex. diagnóstico médico.
Dr. Fernando Frei
O princípio básico de qualquer técnica de reconhecimento de padrões é classificaçãoclassificação objetos.
Exemplos
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
ClassificaçãoA solução de um problema de classificação consiste na caracterização das relações existentes entre um conjunto de classes consideradas C, um conjunto O de objetos a serem classificados e um conjunto X de observações tomadas sobre os objetos.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Classes – Características Comuns
Objetos – todos os objetos a serem classificados,
Observações – Conjunto formado por valores de medidas obtidas sobre os objetos
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
EstatísticaÉ o campo de estudo preocupado com (1) a coleta, organização, síntese e análise de dados, e (2) com o estabelecimento de inferências para um corpo de dados (população ou universo estatístico) quando somente parte dos dados é observado (amostra).
Contextualização da Análise de Agrupamentos
Análise Exploratória Inferência
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise ExploratóriaConsiste na coleta, apresentação, análise e interpretação de dados numéricos. Visa descrever e analisar um certo grupo (amostra) sem daí retirar conclusões ou inferências sobre a população da qual foi retirado esse grupo. Face aos resultados de experiências e da observação dos processos naturais, a questão básica que se põe é quase sempre, a seguinte: como resumir os aspectos essenciais dos dados? Será que existem regularidades, tendências, ciclos, concentrações,..., padrões, dignos de nota nos dados?
Contextualização da Análise de Agrupamentos
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise InferencialÉ o conjunto de técnicas, baseada na teoria das probabilidades, que permitem construir proposições de caráter probabilístico acerca da população, partindo da observação de alguns dos seus elementos (amostra). Assim, os métodos de inferência estatística envolvem o cálculo de estatísticas, a partir das quais se infere sobre os parâmetros da população, isto é, permitem com determinado grau de probabilidade, generalizar à população certas conclusões, por comparação com os resultados amostrais.
Contextualização da Análise de Agrupamentos
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise Univariada: Análise de distribuições de uma única variável.
Análise Bivariada: classificação cruzada, correlação, análise de variância e regressão simples para analisar duas variáveis.
Análise Multivariada: Análise simultânea de múltiplas variáveis em um único relacionamento ou conjunto de relações.
Análise de Agrupamentos: Análise Multivariada
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Técnicas MultivariadasEstrutura dos dados
X1 X2 ... Xp
Caso 1 x11 x12 ... x1p
Caso 2 x21 x22 ... x2p
.... ... ... ... ..
Caso n xn1 xn2 ... xnp
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Sujeito Peso Altura CC1 CQ2 Coles3 TG4
1 70,3 177,0 81,4 79,0 190,4 80,0
2 65,9 160,0 83,6 81,5 170,5 69,0
3 66,0 166,8 77,4 78,0 169,6 96,0
4 92,5 178,9 90,2 90,6 169,7 93,0
5 56,0 164,3 75,0 81,0 177,0 77,0
6 76,7 180,0 69,4 90,4 198,7 86,0
7 61,0 170,0 67,3 97,8 173,9 83,0
8 65,9 171,7 77,9 71,0 200,3 83,0
9 55,0 160,7 87,3 88,0 179,0 85,0
10 77,5 181,0 91,0 79,0 205,5 80,5
11 89,0 183,4 77,3 93,3 188,5 90,5
... ... ... ... ... ... ...
76 58,0 159,0 75,4 92,0 199,0 83,0
1 – Circunferência da Cintura2 – Circunferência do Quadril 3 – Colesterol4 - Triglicérides
Matriz (Exemplo Obesidade)
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
O TOC é representado como uma desordem homogênea, com os pacientes agrupados de acordo com a gravidade dos sintomas sem levar em conta os diferentes subtipos de obsessões e compulsões.
Motivação Transtorno Obsessivo-Compulsivo (TOC)
MOCI Inventário Maudsley de Obsessões e Compulsões, consta de 30 itens com respostas dicotômicas, como verdadeiro ou falso.
Paciente S1 S2 S3 ... S29 S30
1 1 0 1 ... 0 1
2 0 0 1 ... 1 0
3 1 1 0 ... 0 0
4 1 1 1 ... 1 1
5 0 0 0 ... 0 0
6 0 0 1 ... 1 1
... ... ... ... ... ... ...
13 1 1 0 ... 0 1
14 0 1 1 ... 0 0
15 1 0 1 ... 1 1
16 0 1 0 ... 1 0
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Técnicas Multivariadas
• Técnica de Dependência– É aquela na qual uma variável ou um conjunto de
variáveis é identificado como variável dependente a ser predita ou explicada por outras variáveis independentes;
• Técnica de Interdependência– É aquela na qual nenhuma das variáveis é definida
como dependente ou independente, mas o procedimento envolve a análise simultânea de todas as variáveis no conjunto.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Técnicas Multivariadas
• Técnicas de Dependência– Podem ser classificadas por duas características:
• O número de variáveis dependentes,• O tipo de escala das variáveis.
• Exemplos de técnicas– Regressão Linear Múltipla– MANOVA– Análise Discriminante– Análise de Correlação Canônica– Análise Conjunta
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Técnicas Multivariadas
• Técnicas de Interdependência– Depende da estrutura procurada:
• Estrutura de variáveis;• Estrutura de casos;• Estrutura de objetos (da matriz de dados).
• Exemplos– Análise Fatorial– Análise de Agrupamentos– Escalonamento Multidimensional– Análise de Correspondências
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Análise de Agrupamentos é o nome genérico atribuído a uma extensa variedade de métodos que procuram elaborar critériospara agrupar objetos (seres humanos, animais, plantas, municípios, regiões etc.). São técnicas estatísticas multivariadas, com conotação exploratória. Desta forma, dada uma amostra de n objetos, cada um deles medidos segundos p variáveis, procura-se um esquema de classificação que agrupe os objetos em k grupos. Os objetos são mensurados nas diversas variáveis de interesse fornecendo uma matriz de dados de n objetos por p variáveis, a qual será manuseada através de algoritmos para a obtenção dos grupos homogêneos.
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Programa“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”
1 – Introdução2 – Contextualização da Análise de Agrupamentos na Estatística3 – Níveis de Mensuração4 – Medidas de similaridade5 – Representação Gráfica6 – Métodos De Agrupamentos 6.1 – Métodos Hierárquicos Aglomerativos 6.2 – Métodos Não Hierárquicos 6.2.1 – Método K-means7 – Estratégias para o Reconhecimento do Número de Grupos 8 – Programas Computacionais9 – Aplicações Práticas
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Programa“Análise de Agrupamentos para Reconhecimento de
Padrões em Saúde e Ecologia.”Bibliografia
ConceituaisConceituais
1. Everitt B, Landau S, Leese M. Cluster Analysis, 4th edition, NY, Wiley, 2009.
2. Frei, F. Introdução à Análise de Agrupamentos: Teoria e Prática. SP, Editora UNESP, 2006.
3. Kaufman L, Rousseeuw P. Finding Groups in Data: An Introduction to Cluster Analysis New Jersey, Wiley-Interscience; 2005.
4. Frei, F. Tópicos de Análise de Agrupamentos. Notas de Aula. FCLAssis – UNESP, 2012.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Bibliografia
AplicaçõesAplicações
1. Albuquerque MA, Caraciolo RLF, Silva JAA, Santos ES, Stosic B, Souza AL. Estabilidade em Análise de Agrupamento: estudo de caso em Ciência florestal. Revista Árvore, 30, (2), pp. 257-265, 2006.
2. Dilts D, Khamalah J, Plotkin A. Using Cluster Analysis for Medical ResourceDecision Making. Med Decis Making; vol. 15, 4: pp. 333-346, 1995.
3. Fernandes FBP, Andrade EM, Fontenele SB, Meireles CM, Ribeiro JÁ.Análise de agrupamento como suporte à gestão qualitativa da água subterrânea no semiárido cearense. Revista Agro@mbiente On-line, v. 4, n. 2, p. 86-95, jul-dez, 2010.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Bibliografia
AplicaçõesAplicações
4. Lima-Verde EPA, Hernández MIM. Sucessão ecológica em áreas reflorestadas de restingas: respostas da comunidade de borboletas Nymphalidae. In: Iniciados (V.B. Bezerra, org.). Universidade Federal da Paraíba. Vol. 12, p. 13-22. 2007.
5. Resende APC, Silveira NAPR, Sabroza PC, Souza-Santos R. Determinação de áreas prioritárias para ações de controle da dengue. Rev Saúde Pública;44(2):274-82, 2010.
6. Selvy PT, Palanisamy V, Purusothaman T. Performance Analysis of Clustering Algorithms in Brain Tumor Detection of MR Images. European Journal of Scientific Research. vol.62 No.3 pp. 321-330, 2011.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Bibliografia
AplicaçõesAplicações
7. Schneider S, Huy C, Schuessler M, Diehl K, Schwarz S. Optimising lifestyle interventions: identification of health behaviour patterns by cluster analysis in a German 50+ survey. European Journal of Public Health, Vol. 19, No. 3, 271–277, 2009.
8. Takeuchi Y, Mori Y. Behavioral Profiles of Feline Breeds in Japan. J. Vet. Med. Sci. 71(8): 1053–1057, 2009.
9. Seidel EJ, Moreira Jr FJ , Ansuj AP, Noal MRC. Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite. Ciência e Natura, UFSM, 30 (1): 7- 15, 2008.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Conceitos e Ferramentas Computacionais
www.assis.unesp.br/ffrei/posgraduacao.html
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Avaliação
Dr. Fernando Frei
Trabalho prático
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Breve Revisão
Dr. Fernando Frei
Escalas (ou níveis) de mensuração
Importância
Escalas Qualitativas:Não possuem valores quantitativos.Classificação dos objetos em categorias
Escalas Quantitativas: são as características que podem ser medidas emuma escala quantitativa.Valores numéricos que fazem sentido
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
1. Escala Qualitativa Nominal: escala que divide as respostas em categorias discretas, não relacionadas numericamente entre si.
Uma escala nominal não mede mas, sobretudo, nomeia.
Variáveis Nominais: números não podem ser sujeitos a quaisquer operações aritméticas. O uso das escalas nominais exige que cada elemento seja incluído única e exclusivamente numa categoria
Exemplos: cor, religião, raça, localização geográfica, o local de nascimento ou os setores de atividade econômica.
Dr. Fernando Frei
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Dr. Fernando Frei
Um caso particular deste tipo de escala de medida ocorre quando a característica em estudo (variável) tem apenas duas categorias: Sucesso ou Fracasso.
São exemplos deste tipo de características: Sexo: Masculino/Feminino)Germinação de determinada semente: Germinou/Não Germinou
1. Variável Qualitativa Binária (Dicotômica)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Dr. Fernando Frei
Escala em que as respostas são ordenadas quanto à sua dimensão relativa, mas em que os intervalos entre as sucessivas posições de ordem não são necessariamente iguais. Tem origem no ponto zero, seguindo-se diferentes valores das observações por ordem crescente ou decrescente, mas não quantifica as diferenças entre esses níveis. As classificações ordinais não podem, portanto, ser somadas ou subtraídas.
ExemploOpinião sobre o sabor de determinado produto alimentar 1- detesta; 2- gosta pouco; 3- indiferente; 4- gosta; 5- adora
2. Escala Qualitativa Ordinal
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Dr. Fernando Frei
Características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores. Somente fazem sentido valores inteiros. Exemplos: Todos os tipos de Contagem!
3. Escala Quantitativa Discreta
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Dr. Fernando Frei
Características mensuráveis que assumem valores em uma escala contínua (na reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum instrumento.
Exemplos: Peso, Altura, Diâmetro do tronco da
4. Escala Quantitativa Contínuas
Escala Quantitativa Contínuas – Intervalar e de Razão
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Dr. Fernando Frei
Medidas
Qualitativa Quantitativa
Nominal Ordinal Discreta Contínua
- +
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
“Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.”
Dr. Fernando Frei