Download - Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
![Page 1: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/1.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Programa de Pós-graduação em Biociências
Área de Concentração
“Caracterização e Aplicação da Diversidade Biológica”
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Dr. Fernando Frei
![Page 2: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/2.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Tópicos Relacionados
Colinearidade e Multicolinearidade
A “multicolinearidade” pode ser definida como o grau de dependência linear existente entre as variáveis independentes. A multicolinearidade pode alterar os padrões de agrupamento, pelo fato das variáveis colineares serem implicitamente ponderadas com maior peso
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
multicolinearidade colinearidade
4 vezes mais chances de afetar a medida de similaridade
O segundo grupo terá menos influência
![Page 3: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/3.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Técnica para detectar a presença de multicolinearidade. A mais utilizada é: os fatores de inflação da variância, VIF (variance inflation factors)
Onde corresponde ao coeficiente de determinação da regressão linear que tem a variável de agrupamento xk como função das demais.
2kR
Quanto maior for o VIF, mais severa é a multicolinearidade.
Uma regra prática aceitável é a de que, se VIF(k) > 10, a colinearidade existente entre a variável “k” e as demais é significativa
![Page 4: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/4.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
A situação ideal para todo pesquisador seria ter diversas variáveis independentes altamente correlacionadas com a variável dependente, mas com pouca correlação entre elas próprias
Providências
Combinar variáveis – Análise Fatorial
Excluir variáveis
![Page 5: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/5.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Outliers podem ser consideradas como objetos com baixaconectividade em oposição à maior conectividade na região intracluster.
As observações que apresentam um grande afastamento das restantes.
Outliers
Métodos de identificação
Gráfico de BoxZ-scores
![Page 6: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/6.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
O gráfico de Box é construído da seguinte forma:
1) Calcula-se a mediana, o quartil inferior (Q1) e o quartil superior (Q3);
2) Subtrai-se o quartil superior do quartil inferior = (L)
3) Os valores que estiverem no intervalo de Q3+1,5L e Q3+3L e no intervaloQ1-1,5L e Q1-3L, serão considerados outliers podendo, portanto ser aceitosna população com alguma suspeita;
4) Os valores que forem maiores que Q3+3L e menores que Q1-3L devem ser considerados suspeitos de pertencer à população, devendo ser Investigada a origem da dispersão. Estes pontos são chamados de extremos.
![Page 7: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/7.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
![Page 8: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/8.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Z-Scores
1) Calcular os z-scores, isto é, os valores z-standardizados dos dados.
2) Se o conjunto dos dados é pequeno (inferior a 50), valores que tenham Zscores inferiores a -2.5 ou superiores a 2.5 devem ser considerados outliers.
3) Se o conjunto dos dados é grande, valores que tenham z-socres inferiores a -3.3 ou superiores a 3.3 são tipicamente considerados outliers.
4) Se o conjunto dos dados é muito grande (1000 ou mais), também valoresmais extremos do que +-3.3 podem ser considerados dados normais e nãooutliers.
![Page 9: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/9.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.
Providências
As aplicações da Análise de Agrupamento são diversas
Qual o objetivo? Detecção de pontos aberrantes!
Qual o objetivo? Obtenção de grupos! Outliers são retirados da análise.São caracterizados como grupo ou grupos.
![Page 10: Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas](https://reader036.vdocuments.pub/reader036/viewer/2022083006/56813a75550346895da27070/html5/thumbnails/10.jpg)
Universidade Estadual Paulista “Júlio de Mesquita Filho” FCLassis – Depto de Ciências Biológicas
Dr. Fernando Frei
Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.Análise de Agrupamentos para Reconhecimento de Padrões em Saúde e Ecologia.