análise em componentes e escalonamento multidimensional
TRANSCRIPT
UFRJ
Universidade Federal do Rio de Janeiro
Analise de componentes principais eescalonamento multidimensional:
duas classes de metodos multivariados dereducao de dimensionalidade
Fabio Luiz Machry Rodrigues Garcia
2015
UFRJ
Analise de componentes principais eescalonamento multidimensional:
duas classes de metodos multivariados dereducao de dimensionalidade
Fabio Luiz Machry Rodrigues Garcia
Projeto Final de Conclusao de Curso apresentado ao
Departamento de Metodos Estatısticos do Instituto
de Matematica da Universidade Federal do Rio de
Janeiro como parte dos requisitos necessarios para
obtencao do tıtulo de Bacharel em Estatstica.
Orientador: Ralph dos Santos Silva
Rio de Janeiro, 25 de setembro de 2015.
Analise de componentes principais eescalonamento multidimensional:
duas classes de metodos multivariados de reducaode dimensionalidade
Fabio Luiz Machry Rodrigues Garcia
Orientador: Ralph dos Santos Silva
Projeto Final de Conclusao de Curso apresentado ao Departamento de Metodos
Estatısticos do Instituto de Matematica da Universidade Federal do Rio de Janeiro
como parte dos requisitos necessarios para obtencao do tıtulo de Bacharel em Es-
tatıstica.
Prof. Ralph dos Santos Silva
IM-UFRJ
Profa. Flavia Maria Pinto Ferreira Landim
IM-UFRJ
Profa. Mariane Branco Alves
IM-UFRJ
Rio de Janeiro, 25 de setembro de 2015.
Garcia, Fabio L. M. Rodrigues
Analise de componentes principais e escalonamento multidimen-
sional: duas classes de metodos multivariados de reducao de dimen-
sionalidade. Fabio Luiz Machry Rodrigues Garcia - Rio de Janeiro:
UFRJ/IM, 2015.
viii, 131f.: il.; 31cm.
Orientador: Ralph dos Santos Silva
Projeto Final - UFRJ/IM/ Graduacao em Estatıstica, 2015.
Referencias Bibliograficas: f.113-116.
1. Analise estatıstica multivariada. 2. Analise de componentes
principais. 3. Escalonamento multidimensional. I. Silva, Ralph dos
Santos. II. Universidade Federal do Rio de Janeiro, Instituto de
Matematica. III. Analise de componentes principais e escalonamento
multidimensional: duas classes de metodos multivariados de reducao
de dimensionalidade.
RESUMO
Analise de componentes principais eEscalonamento multidimensional:
duas classes de metodos multivariados dereducao de dimensionalidade
Fabio Luiz Machry Rodrigues Garcia
Orientador: Ralph dos Santos Silva
Em analise multivariada, ordenacao e o processo de reducao de dimensionalidade.
O conjunto de dados reduzido e muito util para investigar estruturas nos dados.
Dois metodos de ordenacao muito importantes sao analise de componentes principais
(ACP) e escalonamento multidimensional (MDS). ACP e o metodo de ordenacao
mais utilizado por nao estar atrelado a modelos e distribuicoes de probabilidade e
pela possibilidade de seus resultados serem utilizados em analises posteriores, como
por exemplo analise de regressao. Quando os objetos de estudo sao dados por pro-
ximidades, especialmente em casos onde as distancias euclidianas nao fazem sentido,
ACP nao e recomendada. Outra situacao onde ACP nao e recomendada surge quando
a prioridade do pesquisador nao e preservar exatamente as distancias entre os objetos,
mas representar da melhor forma as relacoes de ordem entre os objetos em poucos
eixos. Nas situacoes citadas, uma classe de metodos adequados e o MDS. Abordare-
mos as classes de MDS mais utilizadas, MDS classico e MDS nao-metrico. Ao fim da
explanacao de cada metodo, citamos e comentamos brevemente sobre metodos relaci-
onados tanto com ACP quanto com MDS, e depois faremos varias analises envolvendo
ACP e MDS.
Palavras-chave: Analise de componentes principais; Biplot; Escalonamento multidimensional
classico e nao-metrico; Metodos de ordenacao.
Para
Ana Carla
e
Isadora
Pelo amor gratuito e puro!
AGRADECIMENTOS
A Deus, por ter me dado capacidade intelectual juntamente com um alto
nıvel de obstinacao para que eu pudesse superar minhas limitacoes e as
dificuldades da vida, desde a mais tenra idade, e concluir o curso de Ba-
charelado em Estatıstica da UFRJ;
A meu pai, Gastao, que mesmo tendo pouco estudo, sempre me apoiou, e
apoia ainda hoje, mesmo estando bem distante de mim. Saiba que sem voce,
meu pai, eu jamais teria conseguido... obrigado por ser pai e mae e cuidar
de mim desde a morte prematura da minha mae. Voce sempre estara em
meu coracao;
Ao meu orientador Ralph dos Santos Silva, pela paciencia, otimos conse-
lhos e ensinamentos e pelo excelente curso de Analise multivariada, de
onde cresceu meu interesse por esta area tao interessante da Estatıstica;
Aos professores do IM Mauro Rincon, Mariane Branco e Carlos Abanto,
pelos otimos cursos de Metodos numericos, Estatıstica nao parametrica
e Estatıstica computacional, respectivamente;
Aos autores dos meu livros de Estatıstica favoritos: B. Everitt, T. Hothorn,
M. Crawley, J. Albert, M. Rizzo, J. Maindonald, J. Braun, M. Greenacre,
P. Dalgaard, J. Verzani, I. Borg, J. Gentle, P. Murrell, D. Montgomery,
M. Trosset, S. Weisberg e especialmente a James, Hastie e Tibshirani pelo
livro muito inspirador ”Introduction to Statistical Learning”
A Tuomas Holopainen, tecladista da banda Nightwish, pelas lindas e
poeticas musicas que me fazem sonhar.
SUMARIO
Lista de tabelas iv
Lista de figuras vii
Capıtulo 1: Introducao: dados multivariados e analise multivariada 1
1.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Uma breve historia do desenvolvimento da analise multivariada . . . . . . . . . . 4
1.3 Tipos de variaveis e o possıvel problema dos valores faltantes . . . . . . . . . . 4
1.3.1 Valores faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Alguns conjuntos de dados multivariados . . . . . . . . . . . . . . . . . . . . . 8
1.5 Covariancias, correlacoes e distancias . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.1 Covariancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.2 Correlacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.3 Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6 A funcao de densidade normal multivariada . . . . . . . . . . . . . . . . . . . . 15
Capıtulo 2: Analise de componentes principais: o metodo-chave de ordenacao
em analise multivariada 23
2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Analise de componentes principais - ACP . . . . . . . . . . . . . . . . . . . . . 23
2.3 Encontrando as componentes principais amostrais . . . . . . . . . . . . . . . . 25
2.4 As componentes principais devem ser extraıdas da matriz de covariancias ou da
matriz de correlacoes? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Componentes principais de dados bivariados com coeficiente de correlacao r . . . 31
2.6 Re-escalonando as componentes principais . . . . . . . . . . . . . . . . . . . . 33
2.7 Como as componentes principais predizem a matriz de covariancias observada . . 33
2.8 Escolhendo o numero de componentes . . . . . . . . . . . . . . . . . . . . . . 34
2.9 Calculando escores de componentes principais . . . . . . . . . . . . . . . . . . . 37
i
2.10 Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.11 Tamanho de amostra para ACP . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.12 Exemplos de aplicacao da ACP . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.12.1 Comprimentos de cabeca do primeiro e segundo filhos . . . . . . . . . . 39
2.12.2 Consumo de proteınas em paıses da europa . . . . . . . . . . . . . . . . 44
2.13 Metodos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Capıtulo 3: Escalonamento multidimensional 53
3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Modelos para dados de proximidade . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3 Modelos espaciais para proximidades: escalonamento multidimensional (MDS) . 54
3.4 Outras medidas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5 Escalonamento multidimensional classico (cMDS ou ACoP) . . . . . . . . . . . 59
3.5.1 cMDS: detalhes tecnicos . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Exemplo de aplicacao de cMDS . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.1 cMDS em um pequeno conjunto multivariado do R5 . . . . . . . . . . . 63
3.7 Escalonamento multidimensional nao-metrico (nMDS) . . . . . . . . . . . . . . 68
3.7.1 Exemplo de aplicacao de nMDS . . . . . . . . . . . . . . . . . . . . . . 69
3.8 Arvore de cobertura mınima . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.9 Diagrama de Shepard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.10 Metodos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Capıtulo 4: Analises de dados 75
4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Analises de dados utilizando ACP . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2.1 Esportes: Analisando a estrutura de escores do heptatlo olımpico . . . . 75
4.2.2 Climatologia: Poluicao atmosferica em cidades dos EUA . . . . . . . . . 87
4.3 Analises de dados utilizando MDS . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3.1 Um “mapa” do Brasil: solucao cMDS de distancias entre as 26 capitais
brasileiras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3.2 Zoologia: Aplicando cMDS para comparar populacoes de ratazanas d’agua
britanicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
ii
4.3.3 Polıtica: Aplicando nMDS para analisar o padrao de votacao de congres-
sistas norte-americanos . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Capıtulo 5: Conclusao 109
Referencias Bibliograficas 113
iii
LISTA DE TABELAS
1.1 Um formato tabular muito utilizado para dados multivariados. . . . . . . . . . . 2
1.2 Dados hipoteticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Dados biometricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Notas de exames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Dados de poluicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Matriz de distancias euclidianas dos dados biometricos. . . . . . . . . . . . . . . 15
2.1 Desvios-padrao de variaveis quımicas sanguıneas. . . . . . . . . . . . . . . . . . 29
2.2 Matriz de correlacoes de variaveis quımicas sanguıneas. . . . . . . . . . . . . . . 29
2.3 Resultados da ACP na matriz de covariancias dos dados de quımica do sangue -
parte 1: variancias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4 Resultados da ACP na matriz de covariancias dos dados de quımica do sangue -
parte 2: cargas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.5 Resultados da ACP na matriz de correlacoes dos dados de quımica do sangue -
parte 1: variancias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6 Resultados da ACP na matriz de correlacoes dos dados de quımica do sangue -
parte 2: cargas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.7 Tamanhos de cabeca de irmaos . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.8 Descricao das variaveis - consumo de proteınas. . . . . . . . . . . . . . . . . . . 45
2.9 Consumo de proteınas em paıses europeus . . . . . . . . . . . . . . . . . . . . 45
2.10 Variancias das variaveis de consumo de proteınas. . . . . . . . . . . . . . . . . . 46
2.11 Desvios-padrao e proporcao de variancias acumuladas da ACP dos dados de con-
sumo de proteınas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1 Matriz de ausencia-presenca sıtio × especies. . . . . . . . . . . . . . . . . . . . 55
3.2 Matriz de distancias euclidianas entre os sıtios ecologicos. . . . . . . . . . . . . 55
3.3 Matriz de distancias de Jaccard entre os sıtios ecologicos. . . . . . . . . . . . . 56
3.4 Algumas medidas comuns de proximidade. . . . . . . . . . . . . . . . . . . . . 58
iv
3.5 Matriz de dados X 10× 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6 Matriz de distancias euclidianas. . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.7 Coordenadas da solucao cMDS da matriz de dados X. . . . . . . . . . . . . . . 64
3.8 Adequacao de dimensionalidade segundo os criterios P(1)m e P
(2)m . . . . . . . . . 65
3.9 Matriz de distancias de Manhattan. . . . . . . . . . . . . . . . . . . . . . . . . 66
3.10 Coordenadas da solucao cMDS da matriz de dados de exemplo X utilizando
distancia de Manhattan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.11 Adeq. de dimensionalidade com dist. de Manhattan - criterios P(1)m e P
(2)m . . . . 67
3.12 Regra de ouro de classificacao do ajuste segundo o Stress. . . . . . . . . . . . . 69
3.13 Julgamentos (subjetivos) de (dis)similaridade entre 12 lıderes mundiais da epoca
da II guerra mundial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.14 Coordenadas da solucao nMDS das similaridades de lıderes da 2a guerra. . . . . 71
4.1 Resultados do heptatlo feminino, Seul, 1988. . . . . . . . . . . . . . . . . . . . 76
4.2 Variaveis transformadas - resultados do heptatlo. . . . . . . . . . . . . . . . . . 77
4.3 Matriz de correlacoes do heptatlo feminino. . . . . . . . . . . . . . . . . . . . . 78
4.4 Matriz de correlacoes do heptatlo feminino apos remocao de outlier (atleta de PNG). 79
4.5 ACP do heptatlo - matriz de cargas . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6 ACP do heptatlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.7 Escores da CP1 do heptatlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.8 Matriz de correlacoes das 6 variaveis (exceto SO2) dos dados de poluicao. . . . . 90
4.9 Desvios-padrao e variancias acumuladas da ACP dos dados de poluicao. . . . . . 90
4.10 Matriz de cargas da ACP dos dados de poluicao. . . . . . . . . . . . . . . . . . 90
4.11 Resultados da regressao dos dados de poluicao (variavel resposta SO2) sobre as
componentes principais obtidas de antemao. . . . . . . . . . . . . . . . . . . . 95
4.12 Matriz de distancias (euclidianas) entre 26 capitais brasileiras + DF. . . . . . . 97
4.13 Explanacao das siglas das cidades utilizadas no mapa MDS. . . . . . . . . . . . 98
4.14 Coordenadas cMDS dos dados de distancias entre capitais . . . . . . . . . . . . 100
4.15 Autovalores da solucao cMDS dos dados de distancias entre capitais. . . . . . . 101
4.16 Adequacao de dimensionalidade segundo os criterios P(1)m e P
(2)m . . . . . . . . . 101
4.17 Matriz de dissimilaridades das ratazanas d’agua. . . . . . . . . . . . . . . . . . 102
4.18 Coordenadas (correspondentes aos autovalores positivos) da solucao cMDS da
matriz de dissimilaridades das ratazanas d’agua. . . . . . . . . . . . . . . . . . 103
v
4.19 Autovalores da solucao cMDS da matriz de dissimilaridades das ratazanas d’agua. 103
4.20 Adequacao de dimensionalidade segundo os criterios P(1)m e P
(2)m - ratazanas d’agua.103
4.21 Dados de votacao na camara de deputados norte-americana; (R) para republicanos
e (D) para democratas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.22 Coordenadas da solucao nMDS dos dados de votacao. . . . . . . . . . . . . . . 108
vi
LISTA DE FIGURAS
1.1 Funcao de densidade normal bivariada . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Relacao entre a funcao de distribuicao acumulada e os quantis . . . . . . . . . . 18
1.3 Graficos de probabilidades normais das medidas de torax, cintura e quadril. . . . 19
1.4 Grafico χ2 de distancias generalizadas dos dados biometricos. . . . . . . . . . . 20
1.5 Graficos de probabilidades normais para os dados de poluicao do ar. . . . . . . . 21
1.6 Grafico χ2 de distancias generalizadas para os dados de poluicao do ar. . . . . . 22
2.1 Scree diagram de ACP da quımica do sangue . . . . . . . . . . . . . . . . . . . 36
2.2 Grafico Log-autovalores de ACP da quımica do sangue . . . . . . . . . . . . . . 37
2.3 Antropometria de cabecas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4 Comprimento de cabecas com eixos principais . . . . . . . . . . . . . . . . . . . 42
2.5 Comprimento de cabecas com eixos principais . . . . . . . . . . . . . . . . . . . 43
2.6 Matriz de correlacoes-diagramas de dispersao - consumo de proteınas. . . . . . . 46
2.7 Escolhendo o numero de CP - consumo de proteınas . . . . . . . . . . . . . . . 47
3.1 Diagrama de dispersao da solucao cMDS (com distancias euclidianas) dos dados
da Matriz X de dimensao 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.2 Diagrama de dispersao da solucao cMDS (com distancias de Manhattan) dos dados
da Matriz X de dimensao 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.3 nMDS de julgamentos de similaridade de lıderes da II guerra mundial. . . . . . . 71
4.1 Correlacoes do heptatlo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2 Matriz de diagramas de dispersao das sete provas do heptatlo apos transformacao
de 3 variaveis de sorte que, para todas as provas, pontuacao alta e indicativa de
melhor performance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3 Correlacoes do heptatlo - sem a atleta de PNG. . . . . . . . . . . . . . . . . . . 81
4.4 Matriz de diagramas de dispersao das sete provas do heptatlo apos transformacao
e com a retirada do outlier representado pela atleta de Papua Nova Guine (PNG). 82
4.5 Variancias explicadas pelas CP . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
vii
4.6 Escolhendo o numero de CP - heptatlo . . . . . . . . . . . . . . . . . . . . . . 85
4.7 Diagrama de dispersao dos escores da CP1 versus escores do sistema oficial de
pontuacao da prova do heptatlo . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.8 Biplot das duas componentes principais do heptatlo. . . . . . . . . . . . . . . . 88
4.9 Matriz de diagramas de dispersao dos dados de poluicao do ar. . . . . . . . . . 89
4.10 Correlacoes das 6 variaveis (exceto SO2) dos dados de poluicao. . . . . . . . . . 91
4.11 Boxplots bivariados das 3 primeiras componentes principais. . . . . . . . . . . . 93
4.12 Concentracao de SO2 dependendo das componentes principais. . . . . . . . . . 95
4.13 Mapa MDS das distancias (geodesicas) entre as 27 capitais brasileiras. . . . . . 99
4.14 Mapa geografico do Brasil junto com as 27 capitais brasileiras . . . . . . . . . . 99
4.15 Ratazana d’agua - Arvicola terrestris. . . . . . . . . . . . . . . . . . . . . . . . 102
4.16 mapa cMDS da solucao dos dados de ratazanas d’agua. . . . . . . . . . . . . . 104
4.17 Arvore de cobertura mınima para os dados das ratazanas plotadas juntamente com
a solucao cMDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.18 Representacao nMDS dos dados de votacao. . . . . . . . . . . . . . . . . . . . 107
4.19 Diagrama de Shepard para os dados de votacao . . . . . . . . . . . . . . . . . 108
viii
1
Capıtulo 1
INTRODUCAO: DADOS MULTIVARIADOS E ANALISE
MULTIVARIADA
1.1 Introducao
Dados multivariados aparecem quando pesquisadores registram os valores de varias variaveis em
um numero de indivıduos ou objetos, ou uma variedade de outras coisas (usaremos aqui o termo
geral “unidades”) nos quais estao interessados, levando a uma observacao multidimensional (ou
vetorizada) para cada unidade. Tais dados sao coletados em uma vasta gama de disciplinas, e
de fato e razoavel afirmar que a maioria dos conjuntos de dados encontrados na pratica sao mul-
tivariados. Em alguns estudos, as variaveis sao escolhidas por planejamento porque se sabe que
elas sao preditoras essenciais do sistema sob investigacao. Em outros estudos, particularmente
aqueles que tenham sido difıceis ou dispendiosos de organizar, muitas variaveis podem ser medi-
das simplesmente para coletar tanta informacao quanto possıvel, como questao de expediente ou
economia.
Dados multivariados sao ubıquos conforme ilustrados pelos seguintes exemplos:
• Psicologos e outros cientistas do comportamento frequentemente registram os valores de
varias variaveis cognitivas diferentes, de varios indivıduos;
• Pesquisadores em educacao podem estar interessados em marcos de exames obtidos por
estudantes, em varias disciplinas diferentes;
• Arqueologos podem fazer um conjunto de medicoes em artefatos de interesse;
• Ambientalistas podem avaliar nıveis de poluicao em um conjunto de cidades, juntamente
com a observacao de outras caracterısticas destas cidades ao clima e a ecologia humana.
A maioria dos conjuntos multivariados de dados pode ser representada da mesma forma, ou
seja, num formato de tabela (retangular), tıpico das planilhas eletronicas, onde os elementos de
2
cada linha correspondem as realizacoes das variaveis para uma particular unidade no conjunto
de dados, e os elementos das colunas correspondem as realizacoes de uma particular variavel
(distribuicao marginal unidimensional).
Podemos escrever os dados em tal formato retangular como
Tabela 1.1: Um formato tabular muito utilizado para dados multivariados.
Unidade Variavel 1 · · · Variavel q1 x11 · · · x1q...
......
...n xn1 · · · xnq
onde n e o numero de unidades, q e o numero de variaveis registradas em cada unidade, e xij
denota o valor da j-esima variavel para a i-esima unidade.
A tabela acima e geralmente representada por uma matriz de dados, X n× q. Em contraste
com os dados observados, as entidades teoricas que descrevem as distribuicoes univariadas de
cada uma das q variaveis e sua distribuicao conjunta sao denotadas pelas variaveis aleatorias
X1, X2, · · · , Xq.
Embora em alguns casos onde dados multivariados tenham sido coletados possa fazer sentido
isolar cada variavel e estuda-la separadamente, em geral isto nao faz sentido. Como o conjunto
completo de variaveis e medido em cada unidade, as variaveis estarao relacionadas, em maior ou
menor grau. Consequentemente, se cada variavel for analisada isoladamente, a estrutura completa
dos dados pode nao ser revelada.
Analise estatıstica multivariada, doravante denominada simplesmente analise multivariada, e
a analise estatıstica simultanea de uma colecao de variaveis, que melhora a analise univariada
separada de cada variavel utilizando informacao acerca das relacoes entre as variaveis. A analise
de cada variavel em separado vai perder, muito provavelmente, alguma estrutura-chave nao des-
coberta, e quaisquer “padroes” nos dados multivariados.
As unidades em um conjunto multivariado de dados sao, as vezes, amostradas de uma po-
pulacao de interesse do investigador, uma populacao acerca da qual ele deseja fazer alguma
inferencia. Talvez com mais frequencia, nao se pode dizer de fato que as unidades foram amos-
3
tradas de alguma populacao em qualquer sentido razoavel, e as perguntas feitas sobre os dados
sao, em grande parte, exploratorias por natureza, com o ubıquo p-valor, muitıssimo utilizado na
analise univariada, como ausencia notoria. Consequentemente, existem metodos de analise mul-
tivariada que sao essencialmente exploratorios, e outros que podem ser usados para inferencia
estatıstica. Os metodos de que trata este trabalho se enquadram nesta classe: sao metodos
essencialmente exploratorios, conforme veremos 1.
Para a exploracao de dados multivariados, modelos formais planejados para gerar respostas
especıficas a questoes rigidamente definidas nao sao necessarios. Ao inves disso, sao utilizados
metodos que permitem a deteccao de padroes possivelmente nao antecipados nos dados, abrindo
um amplo leque de explicacoes concorrentes. Tais metodos sao caraterizados em geral por uma
enfase na importancia de metodos graficos e visualizacao dos dados ao mesmo tempo em que
falta qualquer modelo probabilıstico associado que permita inferencias formais.
Uma analise mais formal se torna possıvel em situacoes onde e realıstico assumir que os in-
divıduos nos conjuntos multivariados de dados tenham sido amostrados de alguma populacao e o
investigador deseja testar hipoteses bem definidas sobre os parametros da densidade da populacao.
Agora, o foco principal nao sera nos dados amostrais em si: indo alem, sera usar a informacao
obtida da amostra para fazer inferencias sobre a populacao. E a funcao de densidade de proba-
bilidade quase universalmente assumida como base de inferencias para dados multivariados e a
normal multivariada (na secao 1.6 faremos uma breve descricao da funcao de densidade normal
multivariada e modos de avaliar se um conjunto multivariado de dados esta de acordo com essa
distribuicao). Porem, em muitos casos quando se lida com dados multivariados, essa dicotomia
entre o exploratorio e o inferencial pode nao ser mais nıtida. Na verdade nem importa muito, pois
o alvo em geral da maioria da analise multivariada, seja implicitamente exploratoria ou inferencial,
e descobrir, exibir ou extrair “sinal” nos dados na presenca de ruıdo e descobrir o que os dados
tem a nos dizer.
1Apesar de se enquadrarem como “analise multivariada exploratoria”, podem ser utilizados para inferencia,em especial analise de componentes principais. Um de muitos exemplos de utilizacao desta ferramenta eminferencia e dada pelo que se chama regressao de componentes principais. Consultar Maindonald and Braun(2010); Izenman (2008) para estudo do tema. Vamos comentar sobre isso na secao sobre “metodos relacionados”adiante.
4
1.2 Uma breve historia do desenvolvimento da analise multivariada
A genese da analise multivariada e, provavelmente, o estudo conduzido por Francis Galton e Karl
Pearson no fim do seculo XIX sobre a quantificacao da relacao entre caracterısticas herdadas de
pais para filhos e o desenvolvimento do coeficiente de correlacao. Daı, no inıcio do seculo XX,
Charles Spearman assentou as fundacoes da analise fatorial (falaremos brevemente sobre analise
fatorial ao fim do capıtulo sobre analise de componentes principais) enquanto investigava testes
de QI correlacionados. Nas duas decadas posteriores, o trabalho de Spearman foi estendido por
Hotelling e Thurstone. Metodos multivariados tambem foram motivados por problemas de outras
areas cientıficas alem da Psicologia, e nos anos 1930 Fisher desenvolveu a analise discriminante
linear para resolver um problema taxonomico utilizando medidas botanicas multiplas. E a anterior
introducao da analise de variancia (ANOVA) por Fisher, nos anos 1920, foi seguida rapidamente
pela sua generalizacao multivariada, analise de variancia multivariada (MANOVA), baseada nos
trabalhos de Bartlett e Roy.
Nesses anos iniciais, auxılio computacional para lidar com a pesada carga aritmetico-algebrica
envolvida na aplicacao dos metodos multivariados era muito limitado e, consequentemente, de-
senvolvimentos eram primariamente matematicos (teoricos); destarte, pesquisa multivariada, a
epoca, era mais um ramo da algebra linear. Contudo, com a evolucao tecnologica que entrou em
curso a partir da segunda metade XX, que nos levou, a partir dos anos 1980, a utilizar computa-
dores com softwares estatısticos a disposicao e a um custo mais acessivel, todos os metodos de
analise multivariada podem ser aplicados rotineiramente mesmo para conjuntos de dados muito
grandes, tais como aqueles gerados, por exemplo, em Genetica, Processamento de Imagens e
Astronomia. E a aplicacao das tecnicas multivariadas para tais grandes conjuntos de dados agora
tem seu proprio nome, data mining. Referencias sobre data mining sao (Fayyad et al., 1996; Hand
et al., 2001).
1.3 Tipos de variaveis e o possıvel problema dos valores faltantes
Um exemplo hipotetico de dados multivariados e dado na tabela 1.2. O sımbolo especial NA (do
ingles Not Available) denota valores nao disponıveis; o valor desta variavel para um indivıduo e
“perdido”. Aqui, o numero de unidades (pessoas neste caso) e n = 10, com o numero de variaveis
sendo q = 7 e, por exemplo, x34 = 135. Esses dados ilustram que as variaveis que compoem
um conjunto multivariado de dados nao necessariamente serao do mesmo tipo. Quatro nıveis de
medicao sao frequentemente distinguidos:
5
Tabela 1.2: Conjunto multivariado de dados hipoteticos.
Indivıduo Sexo Idade QI Depressao Saude Peso(lb)1 M 21 120 S Muito Boa 1502 M 43 NA N Muito Boa 1603 M 22 135 N Media 1354 M 86 150 N Muito Ruim 1405 M 60 92 S Boa 1106 F 16 130 S Boa 1107 F NA 150 S Muito Boa 1208 F 43 NA S Media 1209 F 22 84 N Media 105
10 F 80 70 N Boa 100
• Nominal: Variaveis categoricas nao-ordenadas. Exemplos incluem alocacao de tratamento,
sexo do respondente, cor do cabelo, presenca ou ausencia de depressao, e daı por diante;
• Ordinal: onde ha ordenacao porem sem implicar equidistancia entre os diferentes pontos da
escala. Exemplos incluem classe social, auto-percepcao da saude (por exemplo, codificada
de I ate IV), e nıvel educacional (sem escolaridade, fundamental, medio ou superior);
• Intervalar: onde ha diferencas iguais entre pontos sucessivos na escala, porem a posicao do
zero e arbitraria. O exemplo classico e a medida de temperatura usando as escalas Celsius
ou Fahrenheit;
• Razao: O maior nıvel de medicao, onde se pode investigar as magnitudes relativas dos
escores bem como suas diferencas. A posicao do zero esta fixa. O exemplo classico e a
medida absoluta de temperatura (em Kelvin, por exemplo), porem outros exemplos comuns
incluem idade (ou qualquer outro tempo de um evento fixo), peso e comprimento.
Em muitos textos de Estatıstica, a discussao de tipos diferentes de medicao e seguida por
recomendacoes acerca de quais tecnicas estatısticas sao adequadas para cada tipo; por exemplo,
analise de dados nominais devem ser limitados a estatısticas-resumo tais como o numero de casos,
a moda, etc. E, para dados ordinais, medias e desvios-padrao nao sao adequados. Porem Velleman
and Wilkinson (1993) lembram de um ponto importante: a restricao da escolha dos metodos
estatısticos desta forma pode ser uma pratica perigosa para analise de dados - em essencia a
taxonomia das escalas de medicao descrita e frequentemente muito restrita para ser aplicada aos
dados do mundo real. Aqui nao e o lugar para uma discussao detalhada das escalas de medicao,
porem nos assumiremos uma abordagem levemente pragmatica para tais problemas. Por exemplo,
6
nao vamos agonizar em tratar variaveis tais como depressao, ansiedade ou inteligencia como se
elas fossem de escala intervalar, embora estritamente tais variaveis se ajustem na categoria ordinal
descrita acima.
1.3.1 Valores faltantes
A tabela 1.2 tambem ilustra um dos problemas frequentemente encarados pelos estatısticos que
realizam analise estatistica em geral e analise multivariada em particular: a presenca de valores
faltantes nos dados, isto e, observacoes e medidas que deveriam ter sido registradas mas por
um motivo ou outro nao o foram. Valores faltantes em dados multivariados podem aparecer
por varios motivos; como exemplos, nao-respostas em levantamentos amostrais, desistencias em
dados longitudinais ou recusas a responder certas questoes de um questionario.
A abordagem mais importante para lidar com valores faltantes e tentar evita-los durante o
estadio de coleta de dados de um estudo. Contudo, apesar de todos os esforcos que um pesquisador
possa fazer, ele ainda tera que encarar um conjunto de dados repleto de valores faltantes. Entao
o que pode ser feito? Uma resposta a esta questao e tomar a analise de casos completos2 porque
e dessa forma que a maioria dos pacotes estatısticos trabalha automaticamente. Usar analise
de casos completos em dados multivariados significa omitir qualquer caso com um valor faltante
em qualquer variavel (toda linha que contenha algum NA e excluıda). Com isso, e facil ver que,
se o numero de variaveis e grande, entao mesmo um padrao esparso de valores faltantes pode
resultar em um numero substancial de casos incompletos (linhas a excluir). Uma possibilidade para
minimizar esse problema e simplesmente excluir qualquer variavel que contenha muitos valores
faltantes. Porem, analise de casos completos nao e recomendada por duas razoes:
• Omitir um numero substancial de indivıduos vai resultar em uma grande quantidade de
informacao a ser descartada e diminuir o tamanho efetivo da amostra dos dados, tornando
qualquer analise menos efetiva do que seria se a amostra original estivesse disponıvel;
• Mais preocupante e que excluindo os casos com valores faltantes em uma ou mais variaveis
pode levar a serios vıcios na estimacao e inferencia, a menos que os casos descartados
sejam essencialmente uma subamostra aleatoria dos dados observados (o termo missing
completely at random e frequentemente usado; ver capıtulo 8 de Little and Rubin (1987)
para mais detalhes).
2Do ingles complete case analysis.
7
Assim, analise de casos completos leva a uma perda, talvez substancial, em poder ao des-
cartar dados, e pior: analises baseadas apenas em casos completos podem levar a inferencias e
conclusoes erroneas.
Uma alternativa relativamente simples a analise de casos completos que frequentemente e
usada e analise de casos disponıveis. Esta e uma tentativa simples de explorar a informacao in-
completa utilizando todos os casos disponıveis para estimar quantidades de interesse. Por exem-
plo, se o pesquisador esta interessado em estimar a matriz de correlacoes (ver subsecao 1.5.2) de
um conjunto multivariado de dados, entao analise de casos disponıveis usa todos os casos com
variaveis Xi e Xj presentes para estimar a correlacao entre as duas variaveis. Esta abordagem
aparentemente faz melhor uso dos dados do que analise de casos completos, mas infelizmente
analise de casos disponıveis tambem tem os seus problemas. A amostra dos indivıduos utilizada
muda de correlacao para correlacao, criando dificuldades potenciais quando os valores faltantes
nao sao faltantes completamente ao acaso. Nao ha garantia de que a matriz de correlacoes es-
timada seja pelo menos positiva definida, o que pode criar problemas para alguns dos metodos,
tais como analise fatorial e modelagem em equacoes estruturais, que o pesquisador pode desejar
aplicar a matriz.
Tanto a analise de casos completos quanto a analise em casos disponıveis nao sao atrativas
a menos que o numero de valores faltantes no conjunto de dados seja “pequeno”. Uma resposta
alternativa ao problema dos valores faltantes e considerar alguma forma de imputacao, a pratica
de “preencher” valores faltantes com valores plausıveis. Metodos que imputam os valores faltantes
tem a vantagem de, ao contrario da analise de casos completos, os valores observados dos casos
incompletos serem retidos. Superficialmente, parece que imputacao resolvera o problema dos
valores faltantes e permitira aos investigador prosseguir normalmente. Porem, do ponto de vista
estatıstico, consideracoes cuidadosas precisam ser dadas para o metodo utilizado para imputacao,
ou de outra forma ela pode causar mais problemas do que resolver; por exemplo, imputar a media
de uma variavel observada no dado faltante de uma variavel preserva as medias observadas da
amostra porem distorce a matriz de covariancias (ver subsecao 1.5.1), viesando covariancias na
direcao do zero. Por outro lado, imputar valores preditos de modelos de regressao tende a inflar
correlacoes observadas, viesando-as para longe de zero. E tratar dados imputados como se eles
fossem “reais” na estimacao e inferencia pode levar a erros-padrao e p-valores erroneos, pois eles
falham ao refletir a incerteza oriunda dos dados faltantes.
8
O modo mais apropriado para lidar com dados faltantes e um procedimento sugerido por
Rubin (1976) conhecido como imputacao multipla. E uma tecnica Monte Carlo na qual os valores
faltantes sao subtituıdos por m > 1 versoes simuladas, onde m e tipicamente pequeno (entre,
digamos, 3 e 10). Cada um dos conjunto de dados simulados completos e analisado utilizando
o metodo apropriado para a investigacao em voga, e os resultados depois sao combinados para
produzir, digamos, estimativas e intervalos de confianca que incorporam a incerteza dos valores
faltantes. Detalhes sao dados em (Rubin, 1987) e mais concisamente em (Schaffer, 1999). A
grande virtude de imputacao multipla e sua simplicidade e generalidade. O usuario pode analisar
os dados utilizando virtualmente qualquer tecnica que seria apropriada se os dados fossem com-
pletos. Contudo, sempre devemos manter em mente que os valores imputados nao sao medicoes
reais. E, se houver uma proporcao substancial de dados faltantes, temos de nos perguntar se
qualquer forma de analise estatıstica supera as dificuldades de se utilizar um conjunto de dados
tao incompleto.
Para uma amordagem pratica do problema de valores faltantes na analise estatıstica, consultar
o capıtulo 15 de Kabacoff (2011).
1.4 Alguns conjuntos de dados multivariados
Vamos agora observar alguns conjuntos de dados multivariados e brevemente ponderar sobre o
tipo de pergunta que pode ser de interesse em cada caso. Aqui estamos ainda no espırito de
comentarios gerais sobre analise multivariada, de forma que os conjuntos de dados nao necessa-
riamente serao foco das tecnicas abordadas por este trabalho.
Nesta secao, vamos ilustrar nossos comentarios iniciais com alguns pequenos conjuntos de
dados multivariados. Deixaremos os maiores conjuntos de dados para serem analisados de forma
completa no capıtulo 4 (analises de dados).
O primeiro conjunto de dados consiste de medidas de torax, cintura e quadril em uma amostra
de homens e mulheres; as medicoes para 20 indivıduos sao apresentados na tabela 1.3.
Duas perguntas podem ser dirigidas para esses dados:
• Poderiam tamanho e forma do corpo serem resumidos, de alguma forma, combinando as
tres medidas em um unico numero?
9
Tabela 1.3: Dados biometricos. Medidas de torax, cintura e quadril em 20 indivıduos (em pole-gadas).
chest waist hips sexo chest waist hips sexo34 30 32 masculino 36 24 35 feminino34 30 32 masculino 36 24 35 feminino37 32 37 masculino 36 25 37 feminino38 30 36 masculino 34 24 37 feminino36 33 39 masculino 33 22 34 feminino38 29 33 masculino 36 26 38 feminino43 32 38 masculino 37 26 37 feminino40 33 42 masculino 34 25 38 feminino38 30 40 masculino 36 26 37 feminino40 30 37 masculino 38 28 40 feminino41 32 39 masculino 35 23 35 feminino
• Existem subtipos (subgrupos) de formas do corpo entre os homens e mulheres dentro dos
quais indivıduos tem formas semelhantes e fora dos mesmos (olhando-se dois indivıduos,
cada um em um subgrupo distinto) as formas do corpo diferem?
A primeira pergunta pode ser respondida por analise de componentes principais (que e um
dos temas deste trabalho, e e abordado no capıtulo 2), e a segunda questao pode ser investigada
usando analise de cluster3.
(Na pratica, parece sensato intuir que seria necessario registrar as tres medidas de muito mais
do que 20 indivıduos para ter alguma chance de ser capaz de obter respostas convincentes a partir
destas tecnicas para as questoes de interesse. A questao de quantas unidades sao necessarias para
alcancar uma sensata analise ao usar as varias tecnicas de analise multivariada sera retomada para
o caso da analise de componentes principais.)
O segundo conjunto multivariado de dados envolve os resultados dos exames de um grande
3Analise de cluster nao e o tema do trabalho, mas cabe aqui ressaltar que analise de cluster e uma tecnicade classificacao, que segundo B. Everitt and Hothorn (2011) “objetiva descobrir grupos ou aglomerados (osclusters) que sao homogeneos e separados de outros grupos”. Portanto, esta em uma classe distinta dosmetodos que sao o tema deste trabalho, que aborda duas tecnicas de ordenacao (ACP e MDS), cujo objetivoe “extrair as tendencias dos dados na forma de eixos contınuos” Borcard et al. (2011). Mas aqui ressaltamosque, em geral, quase todos os metodos multivariados sao altamente inter-relacionados. Em particular, analisede cluster e analise de componentes principais sao, muitas vezes, metodos que se complementam: pode-sefazer uma analise de componentes principais aos resultados de uma analise de cluster, como faz Borcard et al.(2011); inversamente, e muito comum utilizar fazer analise de cluster nao em relacao aos dados originais, massim em relacao a algumas das primeiras componente principais dos dados; ainda em relacao a analise de cluster,podemos citar que se baseia totalmente em distancias e matrizes de proximidade, da mesma forma que o MDS,o outro tema deste trabalho.
10
numero de estudantes universitarios em seis disciplinas; as pontuacoes para cinco indivıduos sao
mostrados na tabela 1.4. Aqui, a principal questao de interesse pode ser se as notas dos exames
refletem algum traco subjacente em um estudante que nao pode ser medido diretamente, talvez
“inteligencia geral”. A questao pode ser investigada por meio da analise fatorial exploratoria4.
Tabela 1.4: Dados de exame. Notas dos exames para cinco estudantes de psicologia.
Indivıduo matematica ingles historia geografia quımica fısica1 60 70 75 58 53 422 80 65 66 75 70 763 53 60 50 48 45 434 85 79 71 77 68 795 45 80 80 84 44 46
O ultimo conjunto de dados que usaremos para ilustrar esta secao e o de poluicao atmosferica:
foram coletados dados de um estudo da poluicao do ar em 41 cidades nos EUA. Os dados constam
em Hand et al. (1994).
As seguintes variaveis foram obtidas para 41 cidades dos Estados Unidos:
• SO2: teor de SO2 de ar em microgramas por metro cubico;
• temp: temperatura media anual em graus centıgrados;
• manu: numero de empresas industriais que empreguem 20 ou mais trabalhadores;
• popul: tamanho da populacao (censo de 1970) em milhares;
• vento: velocidade do vento media anual em milhas por hora;
• precip: precipitacao media anual em polegadas;
• predays: numero medio de dias com precipitacao por ano.
Os dados estao apresentados na tabela 1.5.
4Analise fatorial nao e tema deste trabalho, mas por ser um metodo importante, muito utilizado e mormentepela sua estreita relacao com analise em componente principais, na secao 2.13 faremos breves comentarios sobreeste metodo.
11
Tabela 1.5: Dados de poluicao do ar em 41 cidades dos EUA.
Cidade SO2 temp manu popul wind precip predays Cidade SO2 temp manu popul wind precip predaysAlbany 46 47,6 44 116 8,8 33,36 135 Louisville 30 55,6 291 593 8,3 43,11 123
Albuquerque 11 56,8 46 244 8,9 7,77 58 Memphis 10 61,6 337 624 9,2 49,10 105Atlanta 24 61,5 368 497 9,1 48,34 115 Miami 10 75,5 207 335 9,0 59,80 128
Baltimore 47 55,0 625 905 9,6 41,31 111 Milwaukee 16 45,7 569 717 11,8 29,07 123Buffalo 11 47,1 391 463 12,4 36,11 166 Minneapolis 29 43,5 699 744 10,6 25,94 137
Charleston 31 55,2 35 71 6,5 40,75 148 Nashville 18 59,4 275 448 7,9 46,00 119Chicago 110 50,6 3344 3369 10,4 34,44 122 NewOrleans 9 68,3 204 361 8,4 56,77 113
Cincinnati 23 54,0 462 453 7,1 39,04 132 Norfolk 31 59,3 96 308 10,6 44,68 116Cleveland 65 49,7 1007 751 10,9 34,99 155 Omaha 14 51,5 181 347 10,9 30,18 98Columbus 26 51,5 266 540 8,6 37,01 134 Philadelphia 69 54,6 1692 1950 9,6 39,93 15
Dallas 9 66,2 641 844 10,9 35,94 78 Phoenix 10 70,3 213 582 6,0 7,05 36Denver 17 51,9 454 515 9,0 12,95 86 Pittsburgh 61 50,4 347 520 9,4 36,22 147
DesMoines 17 49,0 104 201 11,2 30,85 103 Providence 94 50,0 343 179 10,6 42,75 125Detroit 35 49,9 1064 1513 10,1 30,96 129 Richmond 26 57,8 197 299 7,6 42,59 115
Hartford 56 49,1 412 158 9,0 43,37 127 SaltLake 28 51,0 137 176 8,7 15,17 89Houston 10 68,9 721 1233 10,8 48,19 103 S,Francisco 12 56,7 453 716 8,7 20,66 67
Indianapolis 28 52,3 361 746 9,7 38,74 121 Seattle 29 51,1 379 531 9,4 38,79 164Jacksonville 14 68,4 136 529 8,8 54,47 116 St,Louis 56 55,9 775 622 9,5 35,89 105KansasCity 14 54,5 381 507 10,0 37,00 99 Washington 29 57,3 434 757 9,3 38,89 111Little Rock 13 61,0 91 132 8,2 48,52 100 Wichita 8 56,6 125 277 12,7 30,58 82
Wilmington 36 54,0 80 80 9,0 40,25 114
Qual pode ser a questao de maior interesse sobre esses dados? Muito provavelmente e “como o
nıvel de poluicao, medido pela concentracao de dioxido de enxofre, se relaciona com as seis outras
variaveis?” Em primeiro lugar, pelo menos, esta questao sugere a aplicacao de regressao linear
multipla, com concentracao de dioxido de enxofre como a variavel resposta e as seis variaveis res-
tantes, sendo as variaveis independentes ou explicativas. Mas no modelo subjacente de regressao
multipla, apenas a resposta e considerada uma variavel aleatoria; as variaveis explicativas sao
estritamente fixas, nao aleatorias. Na pratica, evidentemente, isto e raramente o caso, e assim
os resultados de uma regressao precisam ser interpretados como sendo condicionais aos valores
observados das variaveis explicativas.
Voltaremos a tratar deste conjunto de dados no capıtulo 4, onde vamos analisa-los usando a
tecnica de analise em componente principais.
Os tres conjuntos de dados acima nao esgotam nem as perguntas que dados multivariados
recolhidos suscitam nem os metodos de analise multivariada que tem sido desenvolvidos para
responde-las, conforme veremos a medida que progredirmos no trabalho.
12
1.5 Covariancias, correlacoes e distancias
A principal razao pela qual devemos analisar um conjunto multivariado de dados utilizando
metodos multivariados, em vez de olhar para cada variavel separadamente usando um ou ou-
tro metodo univariado familiar e que qualquer estrutura ou padrao nos dados e tao suscetıvel de
ser consequencia tanto de “relacoes” entre as variaveis ou pela “proximidade” relativa de unida-
des diferentes, quanto pelos diferentes valores das variaveis; em algumas situacoes, por ambos
os casos. No primeiro caso, qualquer estrutura ou padrao descoberto sera tal que ela “liga” de
alguma forma as colunas da matriz de dados, X, e no segundo caso, uma possıvel estrutura que
pode ser descoberta e o que envolve subconjuntos interessantes das unidades. A questao que
surge agora e como quantificar as relacoes entre as variaveis e como medimos as distancias entre
as diferentes unidades. Esta perguntas sao respondidas nas subsecoes que se seguem.
1.5.1 Covariancias
A covariancia de duas variaveis aleatorias e uma medida da sua dependencia linear. A covariancia
populacional (teorica) de duas variaveis aleatorias, Xi e Xj, e definida por
Cov(Xi, Xj) = E ((Xi − µi)(Xj − µj))
onde µi = E(xi) e µj = E(Xj); E(·) denota esperanca.
Se i = j, a covariancia da variavel com si mesma e simplesmente sua variancia, e, portanto,
nao ha necessidade de definir variancias e covariancias independentemente, no caso multivariado.
Se Xi e Xj sao independentes, a sua covariancia e necessariamente igual a zero, mas o inverso nao
e verdade. A covariancia de Xi e Xj geralmente e denotada por σij. A variancia da variavel Xi
e σ2i = E ((xi − µi)2). Valores maiores da covariancia implicam um maior grau de dependencia
linear entre duas variaveis.
Num conjunto multivariado de dados com q variaveis observadas, ha q variancias e Cq,2 =q(q − 1)
2covariancias. Estas quantidades podem ser convenientemente organizadas em uma
matriz simetrica Σ q × q, onde
Σ =
σ21 σ12 · · · σ1q
σ21 σ22 · · · σ2q
......
. . ....
σq1 σq2 · · · σ2q .
13
Notemos que σij = σji. Esta matriz e geralmente conhecida como matriz de variancias-covariancias
ou simplesmente matriz de covariancias dos dados.
Para um conjunto multivariado de observacoes, talvez amostrados a partir de alguma po-
pulacao, a matriz Σ e estimada por
S =1
n− 1
n∑i=1
(xi − x)(xi − x)T ,
onde xTi = (xi1, xi2, · · · , xiq) e o vetor de observacoes (numericos) para o i-esimo indivıduo e x
e o vetor de medias das observacoes. A diagonal de S contem as variancias amostrais de cada
variavel, o que vamos denotar por s2i .
A matriz de covariancias para os dados na tabela 1.3 pode ser obtida utilizando a funcao var
no R; No entanto, temos que “remover” a variavel categorica gender do data frame measure
fazendo um subsetting sobre as variaveis numericas primeiro:
R>cov(measure[,c(’’chest’’,’’waist’’,’’hips’’)])chest waist hipschest6.632 6.3683.000waist6.36812.5263.579hips 3.000 3.5795.945
Se quisermos fazer matrizes de covariancia separadas para homens e mulheres, podemos fazer
R>cov(subset(measure,gender==’’female’’)[,+ c(’’chest’’,’’waist’’,’’hips’’)])chestwaist hipschest2.2782.1671.556waist2.1672.9892.756hips 1.5562.7563.067
R>cov(subset(measure,gender==’’male’’)[,+ c(’’chest’’,’’waist’’,’’hips’’)])chest waist hipschest6.72220.94443.944waist0.94442.10003.078hips 3.94443.07789.344
onde subset retorna todas as observacoes correspondente ao sexo feminino (primeira de-
claracao) ou masculino (segunda declaracao).
14
1.5.2 Correlacoes
A covariancia e muitas vezes difıcil de interpretar, porque ela depende das escalas em que as
duas variaveis sao medidas; Por conseguinte, e muitas vezes padronizada dividindo-a pelo produto
dos desvios-padrao das duas variaveis para se obter uma quantidade chamada coeficiente de
correlacao, ρij,
ρij =σijσiσj
,
onde σi =√σ2i .
A vantagem da correlacao e que ela e independente das escalas das duas variaveis. O coefi-
ciente de correlacao situa-se entre −1 e +1 e da uma medida da relacao linear das variaveis Xi
e Xj. E positiva se valores altos de Xi estao associados com valores altos de Xj e negativo se
valores altos de Xi estao associados a valores baixos de Xj. Se a relacao entre duas variaveis nao
e linear, o seu coeficiente de correlacao pode ser enganoso.
Da mesma forma que ocorre com as variancias, com q variaveis ha q(q − 1)/2 correlacoes
distintas, que podem ser dispostas em uma matriz de correlacao q × q, cujos elementos da
diagonal sao unitarios. Para dados observados, a matriz de correlacao contem as estimativas
usuais dos ρs, ou seja, coeficientes de correlacao de Pearson, e denotada por R. A matriz pode
ser escrita em termos da matriz de covariancia amostral S
R = D−1/2SD−1/2,
onde D−1/2 = diag{1/s1, · · · , 1/sq} e si =√s2i e o desvio-padrao da amostra da variavel i.
(Em todas as situacoes consideradas neste trabalho, lidaremos com matrizes de covariancia e de
correlacao de posto completo, q, de modo que ambas as matrizes serao nao-singulares, isto e,
inversıveis, gerando matrizes S−1 ou R−1.)
Podemos obter a matriz de correlacoes para as tres variaveis do exemplo constante da tabela
1.3 e obtida usando a funcao cor do R:
R>cor(measure[,c(’’chest’’,’’waist’’,’’hips’’)])chest 1.00000.69870.4778waist 0.69871.00000.4147hips 0.47780.41471.0000
15
1.5.3 Distancias
Para algumas tecnicas de analise multivariada, como escalonamento multidimensional (um dos
temas deste trabalho) e analise de cluster, o conceito de distancia entre as unidades nos dados
e muitas vezes de interesse e importancia consideravel. Assim, tendo em conta os valores de
variaveis para duas unidades, sejam unidade i e unidade j, o que serve como medida da distancia
entre eles? A medida mais comum utilizada e a distancia euclidiana, que e definida como
dij =
√√√√ q∑k=1
(xik − xjk)2 (1.1)
onde xik e xjk, k = 1, · · · , q sao os valores das variaveis para as unidades i e j, respectivamente.
No capıtulo 3, que trata de escalonamento multidimensional, vamos definir outros tipos de
distancia, alem da distancia euclidiana aqui definida.
Quando as variaveis em um conjunto multivariado de dados estao em diferentes escalas, faz
mais sentido calcular as distancias apos alguma forma de padronizacao. Podemos fazer isto com
os dados biometricos. Dividindo cada variavel por seu desvio padrao, obtemos os resultados das
primeiras 12 observacoes, exibidos na tabela 1.6.
Tabela 1.6: Matriz de distancias euclidianas dos dados biometricos.
1 2 3 4 5 6 7 8 9 10 112 0,173 0,15 0,084 0,22 0,07 0,145 0,11 0,15 0,09 0,226 0,29 0,16 0,16 0,19 0,217 0,32 0,16 0,20 0,13 0,28 0,148 0,23 0,11 0,11 0,12 0,19 0,16 0,139 0,21 0,10 0,06 0,16 0,12 0,11 0,17 0,09
10 0,27 0,12 0,13 0,14 0,20 0,06 0,09 0,11 0,0911 0,23 0,28 0,22 0,33 0,19 0,34 0,38 0,25 0,24 0,3212 0,22 0,24 0,18 0,28 0,18 0,30 0,32 0,20 0,20 0,28 0,06· · ·
1.6 A funcao de densidade normal multivariada
Assim como a distribuicao normal e ubıqua em tecnicas univariadas, a distribuicao normal multi-
variada desempenha um papel importante em alguns procedimentos multivariados, embora, como
16
mencionado anteriormente, muitas analises multivariadas sao realizadas no espırito da exploracao
de dados, onde as questoes de significancia estatıstica sao de importancia relativamente menor
ou mesmo nenhuma importancia. No entanto, os investigadores que lidam com as complexidades
de dados multivariados podem, ocasionalmente, precisar conhecer um pouco sobre a funcao de
densidade multivariada e, em especial, a forma de avaliar se pode-se ou nao assumir que um
conjunto multivariado de dados tem essa funcao de densidade. Entao, vamos brevemente definir
a densidade normal multivariada e descrever algumas de suas propriedades.
Para um vetor de q variaveis, xT = (x1, x2, · · · , xq), a funcao de densidade normal multivari-
ada assume a forma
f(x;µ,Σ) = (2π)−q/2det(Σ)−1/2exp
{−1
2(x− µ)TΣ−1(x− µ)
},
onde Σ e a matriz de covariancias populacional das variaveis e µ e o vetor de medias populaci-
onal das variaveis. O exemplo mais simples de funcao de densidade normal multivariada e a de
densidade normal bivariada com q = 2; isto pode ser escrito explicitamente
f((x1, x2); (µ1, µ2), σ1, σ2, ρ) =(2πσ1σ2(1− ρ2)
)−1/2(1.2)
× exp
{− 1
2(1− ρ2)×
[(x1 − µ1
σ1
)2
+
(x2 − µ2
σ2
)2
(1.3)
− 2ρx1 − µ1
σ1
x2 − µ2
σ2
]}, (1.4)
onde µ1 e µ2 sao as medias populacionais das duas variaveis, σ21 e σ2
2 sao as variancias populacio-
nais, e ρ e o coeficiente de correlacao populacional entre as duas variaveis X1 e X2. A figura 1.1
mostra um exemplo de uma funcao de densidade normal bivariada com ambas as medias iguais a
zero, ambas as variancias iguais a um, e correlacao igual a 0.5.
O vetor de medias populacionais e a matriz de covariancias populacionais de uma funcao de
densidade multivariada sao estimados a partir de uma amostra de observacoes multivariadas con-
forme descrito nas subsecoes anteriores.
Uma propriedade da funcao de densidade normal multivariada que vale a pena mencionar e que
combinacoes lineares das variaveis (ou seja, y = a1X1 +a2X2 + · · ·+aqXq, onde a1, a2, · · · , aq e
um conjunto de escalares) sao normalmente distribuıdas com media aTµ e variancia aTΣa, onde
aT = (a1, a2, · · · , aq). Combinacoes lineares de variaveis terao muita importancia neste trabalho,
17
x1
x2
f(x)
Figura 1.1: Funcao de densidade normal bivariada com (µ1, µ2, σ1, σ2, ρ) = (0, 0, 1, 1, 0.5).
particularmente em Analise de componentes principais.
Para muitos metodos multivariados, o pressuposto de normalidade multivariada nao e crıtico
para os resultados da analise, mas pode haver ocasioes em que o teste de normalidade multi-
variada pode ser de interesse. Pode-se iniciar por meio da avaliacao de normalidade univariada
separada para cada variavel usando um grafico de probabilidade. Tais graficos sao comumente
aplicados na analise univariada e envolvem ordenar as observacoes e, em seguida, traca-los contra
os valores apropriados de uma funcao de distribuicao acumulada assumido. Existem dois tipos
basicos de graficos para comparar duas distribuicoes de probabilidade: o grafico P-P e o grafico
Q-Q. O diagrama na figura 1.2 pode ser utilizado para descrever cada tipo.
Um grafico de pontos cujas coordenadas sao as probabilidades acumuladas p1(q) e p2(q) para
diferentes valores de q com
p1(q) = P (X1 ≤ q),
p2(q) = P (X2 ≤ q),
para variaveis aleatorias X1 e X2 e um grafico probabilidade-probabilidade, enquanto que um
grafico dos pontos cujas coordenadas sao os quantis (q1(p), q2(p)) para diferentes valores de p
18
Fun
ção
de d
istr
ibui
ção
acum
ulad
a
q q2(p) q1(p)
0p 1
(q)
p 2(q
)p
1
Figura 1.2: Relacao entre a funcao de distribuicao acumulada e os quantis (funcao quantil) - umae a inversa da outra.
com
q1(p) = p−11 (p),
q2(p) = p−12 (p),
e um grafico quantil-quantil. Por exemplo, um grafico quantil-quantil para investigar o pressuposto
de que um conjunto de dados e oriundo de uma distribuicao normal e feito plotando os valores
amostrais ordenados da variavel 1 (ou seja, x(1)1, x(2)1, · · · , x(n)1) contra os quantis de uma
distribuicao normal padrao, Φ−1(p(i)) , onde geralmente
pi =i− 1
2
ne Φ(x) =
∫ x
−∞
1√2πe−
12u2du.
Isto e conhecido como grafico de probabilidades normais.
Para dados multivariados, graficos de probabilidades normais podem ser usados para examinar
cada variavel separadamente, embora normalidade marginal nao implique normalidade multivari-
ada. Alternativamente (ou adicionalmente), cada observacao multivariada pode de alguma forma
ser convertida em um unico numero antes da plotagem. Por exemplo, no caso especıfico de avaliar
normalidade multivariada para um conjunto de dados, cada observacao q-dimensional, xi, pode
ser convertida em uma distancia generalizada, d2i , fornecendo uma medida da distancia entre a
19
particular observacao e o vetor de medias da amostra, x; d2i e calculada como
d2i = (xi − x)TS−1(xi − x),
onde S e a matriz de covariancias amostrais. Esta medida de distancia leva em conta as diferentes
variancias das variaveis e as covariancias de pares de variaveis. Se as observacoes surgem de uma
distribuicao normal multivariada, entao essas distancias tem aproximadamente uma distribuicao
qui-quadrado com q graus de liberdade, tambem representada pelo sımbolo χ2q. Entao, tracando
as distancias ordenadas contra os quantis correspondentes da adequada distribuicao qui-quadrado
deve levar a uma linha reta que passa pela origem.
Vamos agora avaliar a normalidade dos dados de medidas corporais da tabela 1.3, embora o
pequeno tamanho da amostra (20 observacoes) nos impeca de tirar uma conclusao convincente.
A figura 1.3 mostra graficos de probabilidade (do tipo Q-Q) separados para cada medida; parece
nao haver nenhuma evidencia de eventuais desvios de linearidade. O grafico qui-quadrado das 20
distancias generalizadas da figura 1.4 parece desviar-se um pouco da linearidade, mas com poucas
observacoes e difıcil ter certeza.
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
−2 −1 0 1 2
3436
3840
42
Tórax
Theoretical Quantiles
Samp
le Qua
ntiles
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
●
−2 −1 0 1 2
2224
2628
3032
Cintura
Theoretical Quantiles
Samp
le Qua
ntiles
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
−2 −1 0 1 2
3234
3638
4042
Ancas
Theoretical Quantiles
Samp
le Qua
ntiles
Figura 1.3: Graficos de probabilidades normais das medidas de torax, cintura e quadril.
Vamos agora utilizar o grafico qui-quadrado em um conjunto de dados de poluicao atmosferica
introduzido no inıcio do capıtulo, (ver tabela 1.5). Os graficos de probabilidade normais para cada
variavel separada sao apresentados na figura 1.5.
20
●
●● ● ●
●● ● ● ●
●●
● ●
●
● ●
● ●
●
0 2 4 6 8
24
68
Quantil χ32
Dis
tânc
ias
orde
nada
s
Figura 1.4: Grafico χ2 de distancias generalizadas dos dados biometricos.
Ambos os graficos para a concentracao de SO2 e precipitacao desviam-se consideravelmente
da linearidade, e os graficos de manufatura e de populacao mostram evidencias de outliers. Mas
de maior importancia e o grafico qui-quadrado dos dados, o qual e mostrado na figura 1.6 (Os
dois pontos mais extremos no grafico foram rotulados com os nomes das cidades que lhes corres-
pondem).
Este exemplo ilustra que o grafico qui-quadrado pode tambem ser util para a deteccao de
possıveis outliers em dados multivariados, onde outliers sao informalmente valores “anormais”, no
sentido de se desviarem da variabilidade natural dos dados. Identificacao de outliers e importante
em muitas aplicacoes de analise multivariada ou porque ha algum interesse especıfico em encontrar
observacoes anomalas ou como uma tarefa de pre-processamento antes da aplicacao de algum
metodo multivariado a fim de preservar os resultados enganosos de possıveis efeitos produzidos
por estas observacoes. Varios metodos para a identificacao de outliers multivariados ja foram
propostos (ver, por exemplo, (Rocke & Woodruff, 1996; C. Becker & Gather, 2001).
21
●
●●
●
●
●
●
●
●
●
●●●
●
●
●
●●●●
●
● ● ●●
●●
●
●
●
●
●
●
● ●●
●
●
●
●
●
−2 −1 0 1 2
2080
SO2
Theoretical Quantiles
Sam
ple
Qua
ntile
s
●
●●
●
●
●●
●● ●
●
●● ●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●● ●●
●
−2 −1 0 1 2
4560
75
temp
Theoretical Quantiles
Sam
ple
Qua
ntile
s
● ●●
●●
●
●
●●
●●●
●
●
●●
●●
●● ●●●
● ●●●● ●
●
● ●●●●●●
●●
●●
−2 −1 0 1 2
020
00
manu
Theoretical Quantiles
Sam
ple
Qua
ntile
s
● ●●
●●
●
●
●●●
●●
●
●
●
●●●●
●● ●
●●●
●●● ●
●
●●● ●●
●● ● ●●●
−2 −1 0 1 2
020
00
popul
Theoretical Quantiles
Sam
ple
Qua
ntile
s
● ● ●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●●●
●
●
●●
● ●
●
●
●
●
●●●
●●●
●
●
−2 −1 0 1 2
69
12
wind
Theoretical Quantiles
Sam
ple
Qua
ntile
s
●
●
●●
●●
●●
● ●●
●
●●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●●
●●
●● ●●
●
−2 −1 0 1 2
1040
precip
Theoretical Quantiles
Sam
ple
Qua
ntile
s
●
●
●●
●●
●●
●●
● ●●
●●
●●●
●●
●●
●●●
●● ●●
●
●
●
●●
●
●
●
● ●
●
●
−2 −1 0 1 2
4012
0
predays
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Figura 1.5: Graficos de probabilidades normais para os dados de poluicao do ar.
22
● ●
●● ●
●●●●●●●
●●●●●●●
●●●●
●●●●● ●
● ● ● ●
●●
●
●
●
●
●
●
5 10 15 20
510
1520
25
Quantil χ72
Dis
tânc
ias
orde
nada
s
Providence
Phoenix
Chicago
Figura 1.6: Grafico χ2 de distancias generalizadas para os dados de poluicao do ar.
23
Capıtulo 2
ANALISE DE COMPONENTES PRINCIPAIS: O METODO-CHAVE
DE ORDENACAO EM ANALISE MULTIVARIADA
2.1 Introducao
Um dos problemas com muitos conjuntos de dados multivariados e que simplesmente ha “muitas”
variaveis, e com isso tecnicas graficas exploratorias nao surtirao efeito para o entendimento dos
dados. Alem disso, ter muitas variaveis tambem pode ser um problema para outras tecnicas mul-
tivariadas que podem ser necessarias aplicar aos dados. Tal problema e conhecido na literatura
como maldicao da dimensionalidade - ver Bellman (1961); B. Everitt and Skrondal (2010). Cla-
ramente, diagramas de dispersao, matrizes de diagramas de dispersao e outras tecnicas graficas
sao muito mais uteis quando o numero de variaveis dos dados, a dimensionalidade dos dados, e
relativamente pequena (usualmente dimensao 2 ou 3). Isso nos leva a analise de componentes
principais (doravante ACP), uma tecnica multivariada cujo principal objetivo e reduzir a dimensio-
nalidade de um conjunto de dados, preservando tanto quanto possıvel a variacao original presente
nos dados. Isso e feito fazendo-se uma transformacao nos dados para se obter um novo conjunto
de variaveis, as componentes principais, que sao combinacoes lineares das variaveis originais, nao
correlacionadas e ordenadas de forma que as primeiras poucas componentes principais carregam
a maior parte da variacao de todas as variaveis originais. No melhor dos mundos, o resultado de
uma ACP seria a criacao de um pequeno numero de novas variaveis que podem ser usadas como
substitutas do grande numero de variaveis originais, e consequentemente fornecer uma base mais
simples para, por exemplo, resumir ou visualizar graficamente os dados. Ou, ainda, fazer analises
estatısticas subsequentes.
2.2 Analise de componentes principais - ACP
O objetivo basico da ACP e descrever a variacao em um conjunto de variaveis correlaciona-
das, xT = (x1, · · · , xq), em termos de um novo conjunto de variaveis nao-correlacionadas,
yT = (y1, · · · , yq), cada uma das quais e uma combinacao linear das variaveis x. As novas
variaveis sao obtidas em ordem decrescente de “importancia” no sentido que y1 tem tanta va-
24
riacao quanto possıvel dos dados originais entre todas as combinacoes lineares de x. Entao y2 e
escolhida para ter a maior variacao possıvel restante, com a restricao de ser nao-correlacionada
com y1, e assim por diante. As novas variaveis definidas por esse processo, y1, · · · , yq, sao as
componentes principais.
A esperanca geral da ACP e que as primeiras poucas componentes vao carregar uma proporcao
substancial da variacao das variaveis originais x1, · · · , xq e possa, consequentemente, ser usada
para fornecer um conveniente resumo de baixa dimensao destas variaveis que possa se provar util,
por uma variedade de motivos. Consideremos, por exemplo, um conjunto de dados pedagogico
com notas de alunos em varias disciplinas diferentes. Uma questao de interesse pode ser a melhor
forma de construir um ındice informativo global da performance nas provas. Uma possibilidade
obvia seria o escore medio de cada estudante, embora se a amplitude possıvel ou observada dos
escores variar de disciplina para disciplina, seja mais sensato ponderar os escores de alguma forma
antes de calcular a media, ou alternativamente, padronizar os resultados dos exames individuais
antes de tentar combina-los. Desta forma, seria possıvel dispersar mais os estudantes e obter
assim um melhor ranking. O mesmo resultado poderia ser conseguido aplicando componentes
principais ao resultados observados do exame e usar os escores dos estudantes das primeiras com-
ponentes principais para fornecer uma medida do sucesso do exame que discrimine ao maximo
entre os estudantes.
Um outro exemplo de aplicacao de ACP aparece em Economia, onde dados complexos sao
frequentemente resumidos em algum numero-ındice; por exemplo, ındices de preco, custo de vida
etc. Ao olhar as mudancas de preco no tempo, o economista vai levar em consideracao que
os precos de algumas commodities variam mais que outras, ou que os precos de algumas delas
sao mais importantes que os precos de outras; em cada caso, o ındice necessitara ser ponderado
de acordo. Em tais exemplos, a primeira componente principal frequentemente vai satisfazer as
necessidades do investigador.
Mas nem sempre o interesse maior do pesquisador estara na primeira componente principal.
Um taxonomista, por exemplo, ao investigar variacao em medidas morfologicas de animais cujas
correlacoes sejam provavelmente positivas, frequentemente estara mais interessado na segunda e
subsequentes componentes principais, que podem fornecer uma descricao conveniente de aspec-
tos da “forma” de um animal. Esta ultima frequentemente sera de mais interesse ao pesquisador
do que aspectos do “tamanho” de um animal, os quais serao refletidos na primeira componente
25
principal, devido as correlacoes positivas. Essencialmente pelas mesmas razoes, a primeira compo-
nente principal derivada de escores psiquiatricos de pacientes pode tao somente fornecer um ındice
de severidade dos sintomas, e as componentes remanescentes darao ao psiquiatra informacoes im-
portantes acerca do “padrao” dos sintomas.
Componentes principais sao mais comumente (e propriamente) usadas como meio de construir
uma representacao grafica informativa dos dados, ou como passo inicial para outras analises. Um
exemplo desta ultima utilizacao da ACP e fornecida por analise de regressao. Neste contexto de
analise de regressao, componentes principais podem ser uteis quando:
• Ha muitas variaveis explicativas em relacao ao numero de observacoes;
• As variaveis explicativas sao altamente correlacionadas.
Ambas as situacoes levam a problemas ao aplicar-se tecnicas de analise de regressao. Es-
ses problemas podem ser solucionados substituindo as variaveis originais pelas primeiras poucas
componentes principais delas derivadas. Aplicacoes da tecnica estao descritas em (Rencher, 2002).
Em algumas disciplinas, em particular Psicologia e outras ciencias do comportamento, ACP
pode ser considerada um fim em si mesma, e os pesquisadores vao tentar interpreta-la de forma
similar aos fatores em analise fatorial exploratoria.
2.3 Encontrando as componentes principais amostrais
Componentes principais sao, acima de tudo, uma tecnica exploratoria para dados multivariados.
Apesar de haver metodos de inferencia para utilizar componentes principais amostrais deriva-
das de uma amostra aleatoria de indivıduos de alguma populacao para testar hipoteses sobre as
componentes principais populacionais - como descrito em Jolliffe (2002), tais metodos raramente
aparecem na literatura. Em essencia, ACP ajuda a entender os dados observados, independente
de ser ou nao uma “amostra” em qualquer sentido real. Destarte, doravante serao trabalhadas
componentes principais amostrais neste trabalho.
A primeira componente principal das observacoes e a combinacao linear das variaveis originais
cuja variancia amostral e maxima entre todas as possıveis combinacoes lineares. A segunda com-
ponente principal e definida como sendo a combinacao linear das variaveis originais que conta
para uma proporcao maxima da variancia remanescente, sujeita a ser nao correlacionada com a
26
primeira componente principal. Componentes subsequentes sao definidas similarmente. A questao
que aparece agora e como os coeficientes da combinacao linear que define cada componente sao
encontrados.
A primeira componente principal das observacoes, y1, e a combinacao linear
y1 = a11x1 + a12x2 + · · ·+ a1qxq,
cuja variancia amostral e a maior entre todas as possıveis combinacoes lineares. Como a variancia
de y1 pode ser aumentada sem limite apenas aumentando os coeficientes aT1 = (a11, · · · , a1q),
uma restricao deve ser colocada sobre os coeficientes. Como veremos mais tarde, uma restricao
sensata e impor que a soma dos quadrados dos coeficientes seja um, conquanto outras restricoes
sejam possıveis e qualquer multiplo do vetor a1 produza basicamente a mesma componente.
Para encontrar os coeficientes que definem a primeira componente principal, precisamos esco-
lher os elementos de a1 que maximizem a variancia de y1, com a restricao da soma dos quadrados,
a qual pode ser escrita aT1 a1 = 1. A variancia amostral de y1 que e funcao linear das variaveis
x e dada por aT1Sa1, onde S e a matriz q × q de covariancias amostrais das variaveis x. Para
maximizar uma funcao de varias variaveis sujeitas a uma ou mais restricoes, o metodo dos multi-
plicadores de Lagrange e utilizado. Para detalhes completos, consultar Jolliffe (2002), (a algebra
de um exemplo com q = 2 e dada na Secao 2.5). Apenas afirmamos que o metodo dos multipli-
cadores de Lagrange leva a solucao que a1 e o autovetor (ou vetor caracterıstico) da matriz de
covariancias, S, correspondente ao maior autovalor (ou raiz caracterıstica) de S. Os autovalores
λ e autovetores γ de uma matriz A q × q sao tais que Aγ = λγ ; para mais detalhes, consultar
Mardia et al. (1979).
A segunda componente principal, y2, e definida como a combinacao linear
y2 = a21x1 + a22x2 + · · ·+ a2qxq
(isto e, y2 = aT2 x, onde aT2 = (a21, a22, · · · , a2q) e xT = (x1, x2, · · · , xq)) que tem a maior
variancia sujeita as seguintes duas condicoes:
aT2 a2 = 1,
aT2 a1 = 0.
27
(A segunda restricao garante que y1 e y2 sejam nao-correlacionados; i.e., que a correlacao amos-
tral seja zero).
Analogamente, a j-esima componente principal e a combinacao linear yj = aTj x que tem
maior variancia sujeita as condicoes
aTj aj = 1
aTj ai = 0(i < j).
A aplicacao do metodo dos multiplicadores de Lagrange demonstra que o vetor de coeficientes
definindo a j-esima componente principal, aj, e o autovetor de S associado com o seu j-esimo
maior autovalor. Denotando os q autovalores de S por λ1, λ2, · · · , λq, entao impondo aTi ai = 1,
pode-se mostrar que a variancia da i-esima componente principal e dada por λi. A variancia total
das q componentes principais sera igual a variancia total das variaveis originais, de sorte que
q∑i=1
λi = s21 + s22 + · · ·+ s2q,
onde s2i e a variancia amostral de xi. Podemos escrever isso mais concisamente como∑q
i=1 λi =
tr(S).
Consequentemente, a j-esima componente principal conta para uma proporcao Pj da variacao
dos dados originais, onde
Pj =λj
tr(S).
As primeiras m componentes principais, onde m < q, contam para uma proporcao P (m) da
variacao nos dados originais, onde
P (m) =
∑mj=1 λj
tr(S)
Em termos geometricos, e facil mostrar que a primeira componente principal define a reta de me-
lhor ajuste (no sentido de minimizar os resıduos ortogonais a reta) as observacoes q-dimensionais
na amostra. Essas observacoes podem entao ser representadas em uma dimensao tomando sua
projecao sobre esta reta, ou seja, encontrando seu escore da primeira componente principal. Se
as observacoes calharem de ser colineares nas q dimensoes, esta representacao contaria comple-
tamente para a variacao nos dados e a matriz de covariancias amostral teria apenas um autovalor
nao-nulo. Na pratica, e claro, tal colinearidade e extremamente improvavel, e uma representacao
melhorada seria dada projetando as observacoes q-dimensionais no espaco de melhor ajuste, defi-
nido pelas duas primeiras componentes principais. Similarmente, as primeiras m componentes dao
28
o melhor ajuste em m dimensoes. Se as observacoes se ajustam perfeitamente num espaco de m
dimensoes, isso seria indicado pela presenca de q−m autovalores nulos da matriz de covariancias.
Isso implicaria na presenca de q − m relacoes lineares entre as variaveis. Tais restricoes sao as
vezes referidas como relacoes estruturais. Na pratica, na vasta maioria das aplicacoes de ACP,
todos os autovalores da matriz de covariancias serao nao-nulos.
2.4 As componentes principais devem ser extraıdas da matriz de covariancias ou da
matriz de correlacoes?
Um problema da ACP e que ela nao e invariante a escala. O que isso significa pode ser explicado
usando um exemplo dado em Mardia et al. (1979). Suponha que tres variaveis num conjunto mul-
tivariado de dados sejam peso (em libras), altura (em pes) e idade (em anos), mas por algum
motivo gostarıamos que nossas componentes principais fossem expressas em oncas, polegadas e
decadas, respectivamente. Intuitivamente, duas abordagens parecem razoaveis:
1. Multiplicar as variaveis por 16, 12 e 0.1, respectivamente, e entao fazer ACP na matriz de
covariancias das tres variaveis;
2. Fazer ACP na matriz de covariancias das variaveis originais e entao multiplicar os elementos
das componentes relevantes por 16, 12 e 0.1.
Infelizmente, essas duas abordagens em geral nao levam ao mesmo resultado. Entao, se puder-
mos imaginar um conjunto multivariado de dados com variaveis de tipos completamente distintos,
por exemplo comprimento, temperatura, pressao sanguınea ou taxa de ansiedade, entao a estru-
tura das componentes principais obtidas da matriz de covariancias dependera essencialmente da
escolha arbitraria das unidades de medida; por exemplo, mudando o comprimento de centımetros
para polegadas ira alterar as componentes derivadas. Adicionalmente, se ha grandes diferencas
entre as variancias das variaveis originais, entao aquelas cujas variancias sao maiores tenderao a
dominar as primeiras componentes. Componentes principais devem ser extraıdas da matriz de co-
variancias amostrais apenas quando todas as variaveis originais tem, em geral, escalas parecidas.
Contudo, isso e raro na pratica, e consequentemente, as componentes principais sao extraıdas da
matriz de correlacoes, R. Extrair as componentes como autovetores de R e equivalente a calcular
as componentes principais das variaveis originais apos cada uma ser padronizada de forma a terem
variancia unitaria. Deve se notar, contudo, que raramente ha uma correspondencia simples entre
29
as componentes derivadas de S e as derivadas de R. E escolher trabalhar com R ao inves de S
envolve uma decisao definida, conquanto arbitraria, de fazer variaveis “igualmente importantes”.
Para demonstrar como as componentes principais da matriz de covariancias de um conjunto de
dados podem variar das componentes extraıdas da matriz de correlacoes dos dados, vamos usar o
exemplo contido em Jolliffe (2002). Os dados nesse exemplo consistem de oito variaveis quımicas
do sangue, medidas em 72 pacientes num ensaio clınico. A matriz de correlacoes, juntamente
com os desvios-padrao de cada uma das variaveis, sao dados nas tabelas 2.1 e 2.2:
Tabela 2.1: Desvios-padrao de variaveis quımicas sanguıneas.
Variavel DPrblood 0,37
plate 41,25wblood 1,94
neut 0,08lymph 0,07
bilir 4,04sodium 2,73potass 0,30
Tabela 2.2: Matriz de correlacoes de variaveis quımicas sanguıneas.
1 2 3 4 5 6 7 81 1,00 0,29 0,20 -0,06 -0,10 -0,25 -0,23 0,062 0,29 1,00 0,41 0,28 -0,38 -0,35 -0,16 -0,133 0,20 0,41 1,00 0,42 -0,52 -0,44 -0,14 -0,084 -0,06 0,28 0,42 1,00 -0,88 -0,08 0,02 -0,135 -0,10 -0,38 -0,52 -0,88 1,00 0,21 0,03 0,156 -0,25 -0,35 -0,44 -0,08 0,21 1,00 0,19 0,087 -0,23 -0,16 -0,14 0,02 0,03 0,19 1,00 0,428 0,06 -0,13 -0,08 -0,13 0,15 0,08 0,42 1,00
Ha diferencas consideraveis entre os desvios-padrao. Podemos aplicar ACP tanto na matriz
de covariancias quanto na de correlacoes dos dados. Vamos comecar com ACP na matriz de
covariancias. Os resultados estao nas tabelas 2.3 e 2.4.
Agora vamos fazer ACP na matriz de correlacoes. Os resultados estao nas tabelas 2.5 e 2.6.
(Espacos em branco representam valores muito pequenos). Cada uma das componentes prin-
cipais da matriz de covariancias e largamente dominada por uma unica variavel, enquanto as
30
Tabela 2.3: Resultados da ACP na matriz de covariancias dos dados de quımica do sangue - parte1: variancias.
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8DP 41,29 3,88 2,64 1,62 0,35 0,256 0,085 0,024
Prop. da variancia 0,99 0,0087 0,0040 0,002 0,00 0,00 0,00 0,00Prop. acumulada 0,986 0,994 0,998 0,999 1,00 1,00 1,00 1,00
Tabela 2.4: Resultados da ACP na matriz de covariancias dos dados de quımica do sangue - parte2: cargas.
Variavel Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8rblood 0,943 0,329
plate -0,999wblood -0,192 -0,981
neut 0,758 0,650lymph -0,649 0,760
bilir 0,961 0,195 -0,191sodium 0,193 -0,979potass 0,329 -0,942
Tabela 2.5: Resultados da ACP na matriz de correlacoes dos dados de quımica do sangue - parte1: variancias.
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8DP 1,67 1,24 1,12 0,88 0,79 0,70 0,66 0,32
Prop. da variancia 0,349 0,191 0,156 0,097 0,078 0,06 0,05 0,01Prop. acumulada 0,349 0,540 0,697 0,794 0,872 0,933 0,987 1,00
Tabela 2.6: Resultados da ACP na matriz de correlacoes dos dados de quımica do sangue - parte2: cargas.
Variavel Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8rblood -0,194 0,417 0,400 0,652 0,175 -0,363 0,176 0,102
plate -0,400 0,154 0,168 -0,848 0,230 -0,110wblood -0,459 0,168 -0,274 0,251 0,403 0,677
neut -0,430 -0,472 -0,171 0,169 0,118 -0,237 0,678lymph 0,494 0,360 -0,180 -0,139 0,136 0,157 0,724
bilir 0,319 -0,320 -0,277 0,633 -0,162 0,384 0,377sodium 0,177 -0,535 0,410 -0,163 -0,299 -0,513 0,367potass 0,171 -0,245 0,709 0,198 0,469 -0,376
31
componentes da matriz de correlacoes tem coeficientes de tamanho moderado em varias das
variaveis. E a primeira componente da matriz de covariancias carrega quase 99% da variancia
total das variaveis observadas.
As componentes da matriz de covariancias sao completamente dominadas devido ao fato de
a variancia da variavel plate ser cerca de 400 vezes maior do que a variancia do que todas
as outras 7 variaveis. Consequentemente, as componentes principais da matriz de covariancias
simplesmente refletem a ordem das magnitudes das variancias das variaveis observadas. Os re-
sultados da matriz de correlacoes nos dizem, em particular, que um contraste ponderado das
primeiras quatro e das ultimas quatro variaveis e a funcao linear com maior variancia.
Este exemplo ilustra que, quando as variaveis estao em escalas muito distintas ou tem
variancias muito diferentes, uma ACP dos dados deve ser feita apenas na matriz de correlacoes,
e nao na matriz de covariancias.
2.5 Componentes principais de dados bivariados com coeficiente de correlacao r
Antes de irmos diretamente para alguns exemplos praticos de aplicacao de ACP, sera salutar olhar
um pouco mais em detalhes a matematica do metodo num caso bem simples. Faremos isso nesta
secao para dados bivariados onde as duas variaveis, x1 e x2, tem coeficiente de correlacao r. A
matriz de correlacoes nesse caso e simplesmente
R =
[1 r
r 1
].
Para obter as componentes principais dos dados, necessitamos encontrar os autovalores e auto-
vetores de R. Os autovalores sao encontrados resolvendo a equacao
det(R− λI) = 0.
Isso leva a equacao quadratica em λ
(1− λ)2 − r2 = 0,
e resolvendo esta equacao obtemos os autovalores λ1 = 1 + r, λ2 = 1 − r. Reparemos que∑2i=1 λi = tr(R). O autovetor correspondente a λ1 e obtido resolvendo a equacao
Ra1 = λ1a1.
32
Isso leva as equacoes
a11 + ra12 = (1 + r)a11,
ra11 + a12 = (1 + r)a12.
As duas equacoes sao identicas, e ambas se reduzem a a11 = a12. Introduzindo agora a restricao
normalizante aT1 a1 = 1, encontramos
a11 = a12 =1√2.
Similarmente, encontramos o segundo autovetor dado por a21 = 1√2
e a22 = − 1√2.
As duas componentes principais sao dadas, entao, por
y1 =1√2
(x1 + x2) , y2 =1√2
(x1 − x2).
Podemos calcular a variancia amostral da primeira componente como
V ar(y1) = V ar
[1√2
(x1 + x2)
]=
1
2V ar(x1 + x2)
=1
2[V ar(x1) + V ar(x2) + 2Cov(x1, x2)]
=1
2(1 + 1 + 2r) = 1 + r.
Analogamente, a variancia da segunda componente e 1− r.
Reparemos que, se r < 0, a ordem dos autovalores e, por conseguinte, das componentes
principais e invertida; se r = 0, os autovalores sao ambos iguais a 1 a quaisquer duas solucoes
em angulos retos poderia ser escolhida para representar as duas componentes.
Dois pontos devem ser notados:
1. Ha um sinal arbitrario na escolha dos elementos de ai. E uma convencao escolher ai1 como
sendo positivo;
2. Os coeficientes que definem as duas componentes nao dependem de r, embora a proporcao
da variancia explicada por cada uma mude com r. Quando r tende a 1, a proporcao da
variancia que y1 carrega, (1 + r)/2, tambem tende a 1. Quando r = 1, todos os pontos
estao alinhados em uma linha reta e a variacao nos dados e unidimensional.
33
2.6 Re-escalonando as componentes principais
Os coeficientes que definem as componentes principais encontradas (conforme descrito na secao
anterior) sao frequentemente re-escalonados de forma a serem correlacoes ou covariancias entre as
variaveis originais e as componentes obtidas. Os coeficientes re-escalonados sao frequentemente
uteis em interpretar uma ACP. A covariancia da variavel i com componente j e dada por
Cov(xi, yj) = λjaji.
A correlacao da variavel xi com componente yj e, entao,
rxi,yj =λjaji√
V ar(xi)V ar(yj)=
λjaji
si√λj
=aji√λj
si.
Se as componentes sao extraıdas da matriz de correlacoes ao inves da matriz de covariancias, a
correlacao entre variavel e componente torna-se
rxi,yj = aji√λj,
porque, nesse caso, o desvio-padrao, si, e unitario (embora, por conveniencia, usamos a mesma
nomenclatura para autovalores e autovetores extraıdos da matriz de covariancias ou da matriz
de correlacoes, obviamente eles nao serao iguais). Os coeficientes re-escalonados de uma ACP
de uma matriz de correlacoes sao analogos as cargas fatoriais utilizadas em analise fatorial. Fre-
quentemente esses coeficientes sao apresentados como os resultados de uma ACP e usados na
interpretacao.
2.7 Como as componentes principais predizem a matriz de covariancias observada
Nesta secao, vamos olhar como as componentes principais reproduzem a matriz de covariancias
(ou de correlacoes) observada da qual foram extraıdas. Para comecar, sejam os vetores iniciais
a1,a2, · · · ,aq, que definem as componentes principais usadas para formar uma matriz q × q,
A = (a1,a2, · · · ,aq); vamos assumir que esses sao os vetores extraıdos da matriz de covariancias,
S, e escalonados tais que aTi ai = 1. Aloque os autovalores λ1, λ2, · · · , λq ao longo da diagonal
principal de uma matriz diagonal, Λ. Entao pode-se mostrar que a matriz de covariancias dos
variaveis observadas x1, x2, · · · , xq e dada por
S = AΛAT .
34
Isso e conhecido como a decomposicao espectral de S. Re-escalonando os vetores a1,a2, · · · ,aqde sorte que a soma dos quadrados dos seus elementos seja igual ao autovalor correspondente
(i.e., calculando a∗i = λ1/2i ai) permite que S seja escrita de forma mais simples como
S = A∗A∗T ,
, onde A∗ = (a∗1 · · ·a∗q).
Se a matriz A∗m e formada, por exemplo, pelas primeiras m componentes ao inves de todas
as q componentes, entao A∗mA∗Tm fornece o valor predito de S baseado nessas m componentes.
Frequentemente e util calcular tal valor predito baseado no numero de componentes considerados
adequados para descrever os dados para informalmente avaliar o “ajuste” da ACP. Como esse
numero de componentes pode ser escolhido e o assunto da proxima secao.
2.8 Escolhendo o numero de componentes
Conforme descrito antes, ACP e entendida como uma tecnica para transformar um conjunto de
variaveis observadas em um novo conjunto de variaveis nao correlacionadas. A variacao nas q
variaveis originais e apenas completamente abarcada por todas as q componentes principais. En-
tretanto, a utilidade dessas variaveis transformadas encontra-se exatamente em sua propriedade-
chave de abarcar a variancia em proporcoes decrescentes. A primeira componente, por exemplo,
abarca a quantidade maxima de variacao possıvel para qualquer combinacao linear das variaveis
originais. Porem, o quao util e essa variacao artificial construıda a partir das variaveis originais?
Para responder essa questao, primeiro precisarıamos conhecer a proporcao da variancia total das
variaveis originais que ela abarcou. Por exemplo, se 80% da variacao em um conjunto multiva-
riado de dados envolvendo 6 variaveis pudesse ser abarcada por uma media ponderada simples
dos valores das variaveis, entao quase toda a variacao pode ser expressa ao longo da reta real,
ao inves do espaco de dimensao seis, R6. A ACP proveria um sumario altamente parcimonioso 1
(reduzindo a dimensionalidade dos dados de 6 para 1), que poderia ser util em analises posteriores.
Entao, a questao que agora precisamos responder e: Quantas componentes sao necessarias
para prover um sumario adequado de um dado conjunto de dados? Ha varias tecnicas disponıveis,
formais e informais. Aqui, iremos nos focar nas tecnicas informais; exemplos do uso de metodos
1Princıpio da parcimonia - ver B. Everitt and Skrondal (2010), entrada “parsimony principle” e “Occam’srazor”.
35
inferenciais formais sao dados em Jolliffe (2002); Rencher (2002).
Os mais comuns dos procedimentos relativamente ad hoc ja sugeridos para se decidir pelo
numero de componentes a reter sao os seguintes:
• Reter apenas as componentes suficientes que expliquem um percentual especıfico (pre-
definido) da variacao total das variaveis originais. Valores entre 70% e 90% sao usualmente
sugeridos, embora valores menores tambem possam ser apropriados, a medida que q ou n
(tamanho da amostra) aumentem;
• Excluir as componentes principais cujos autovalores sejam menores que a media,∑q
i=1λiq
.
Como∑q
i=1 λi = tr(S), o autovalor medio e tambem a variancia media das variaveis
originais. Este metodo, entao, retem as componentes que abarcam mais variancia que a
media para as variancias observadas;
• Quando as componentes sao extraıdas da matriz de correlacoes, tr(R) = q, logo a variancia
media e unitaria, entao aplicando a regra anterior, componentes com autovalores menores
que 1 sao excluıdos. Esta regra foi originalmente sugerida por Kaiser (1958) e e conhecida
na literatura como criterio de Kaiser B. Everitt and Skrondal (2010) ou de Kaiser-Harris,
segundo Kabacoff (2011); Jolliffe (1972), com base em varios estudos de simulacao, propos
que um procedimento mais apropriado seria excluir componentes extraıdas da matriz de
correlacoes cujos autovalores associados sejam menores que 0.7 (Vamos chamar este me-
lhoramento de criterio de Jolliffe);
• Cattell (1966) sugere examinar o grafico de λi contra i, o chamado scree diagram. O
numero de componentes selecionados e o valor de i correspondente a um “cotovelo” na
curva, isto e, uma mudanca na inclinacao de “muito inclinada” para “pouco inclinada”. De
fato, Cattell foi mais especıfico do que isso, recomendando procurar um ponto no grafico
alem do qual o scree diagram define uma linha “mais ou menos reta”, nao necessariamente
horizontal. O primeiro ponto nessa linha e entao tomado como a ultima componente a ser
retida. E valido mencionar que Cattell sugeriu o scree diagram mais fortemente no contexto
da analise fatorial do que no contexto da ACP. Vamos chamar esta metodologia de criterio
de Cattell;
• Uma modificacao do scree diagram descrito por Farmer (1971) e o diagrama log-autovalores,
que consiste no grafico de log(λi) contra i;
36
• Kabacoff (2011) cita um metodo chamado analise paralela, que resumidamente consiste em
fazer simulacoes de matrizes aleatorias de mesma dimensao da matriz de dados, e obter os
autovalores. Entao, as componentes cujos autovalores sejam maiores que os correspondentes
autovalores medios das matrizes aleatorias sao retidas.
Retornando aos resultados da ACP dos dados quımicos do sangue mencionados da secao 2.4,
0
1
2
2 4 6 8Número da componente
Var
iânc
ia d
a co
mpo
nent
e
Figura 2.1: Scree diagram para ACP da matriz de correlacoes dos dados de quımica do sangue.
vemos que as primeiras 4 componentes abarcam quase 80% da variancia total, porem necessi-
tamos de mais 2 componentes principais para chegarmos a 90% da variancia total. Um ponto de
corte de 1 para os autovalores nos leva a reter 3 componentes, e com um ponto de corte de 0.7
4 componentes sao retidas. As figuras 2.8 e 2.2 mostram o scree diagram e grafico log-autovalor
para os dados. O primeiro sugere 4 componentes, embora seja um pouco subjetivo, e o ultimo
parece ser pouco elucidativo nesse caso, pois aparentemente indica reter 7 componentes, o que
e demais para os propositos de reducao de dimensionalidade2. Este exemplo ilustra bem que os
metodos propostos para escolha do numero de componentes podem - e frequentemente levam -
a diferentes conclusoes.
2Lembramos que o conjunto de dados original contem 8 variaveis. Destarte, reduzir de 8 para 7 variaveisprovavelmente nao e um ganho que compense o esforco de se fazer a ACP.
37
−2
−1
0
1
2 4 6 8Número da componente
log(
Var
iânc
ia d
a co
mpo
nent
e)
Figura 2.2: Grafico Log-autovalores para ACP da matriz de correlacoes dos dados de quımica dosangue.
2.9 Calculando escores de componentes principais
Tendo entao decidido que precisamos de m componentes principais para representar adequada-
mente nossos dados, utilizando algum(ns) (dos) metodo(s) descrito(s) na secao anterior, geral-
mente o proximo passo e calcular os escores em cada uma das componentes para cada indivıduo
na amostra. Se, por exemplo, tivermos obtido as componentes da matriz de covariancias, S,
entao os escores das m componentes principais para o indivıduo i com vetor q × 1 de variaveis
original xi sao obtidos assim:
yi1 = aT1 xi
yi2 = aT2 xi
...
yim = aTmxi.
Se as componentes sao extraıdas da matriz de correlacoes, entao xi conteria os escores padroni-
zados de cada indivıduo i, para cada variavel.
38
Os escores das componentes principais calculados como acima tem variancias iguais a λj, j =
1, 2 · · · ,m. Muitos analistas preferem ter escores com media 0 e variancia 1. Tais escores podem
ser encontrados usando
z = Λ−1m ATmx,
onde Λm = diag{λ1, λ2, · · · , λm}, Am = (a1 · · ·am), e x e o vetor q×1 de escores padronizados.
E importante ressaltar que as componentes principais sao as mesmas, independente de retermos
todas as q componentes possıveis ou apenas as m primeiras3.
2.10 Biplot
Um biplot e uma representacao grafica da informacao de uma matriz de dados n × p. O “bi”
significa que a tecnica exibe em um unico diagrama as variancias e covariancias das variaveis
como distancias entre as unidades. A tecnica e baseada na decomposicao em valores singulares
de uma matriz.
Um biplot e uma representacao bidimensional de uma matriz de dados obtida dos autovalores
e autovetores da matriz de covariancias, e obtida da seguinte forma:
X2 =[p1 p2
] [√λ1 0
0√λ2
][qT1
qT2
],
onde X2 e a aproximacao de “posto 2” da matriz de dados X, λ1 e λ2 sao os primeiros dois
autovalores da matriz nS, e q1 e q2 sao os autovetores correspondentes. Os vetores p1 e p2 sao
obtidos da seguinte forma:
pi =1√λiXqi; i = 1, 2.
O biplot e o grafico das n linhas de√n(p1,p2) e das q colunas de n−1/2(
√λ1q1,
√λ2q2) repre-
sentada como vetores. A distancia entre os pontos que representam as unidades reflete a distancia
generalizada entre as unidades; o comprimento do vetor, partindo da origem das coordenadas,
que representa uma dada variavel representa a magnitude da variancia daquela variavel; a cor-
relacao de duas variaveis e representada pelo angulo entre os dois respectivos vetores: quanto
menor o angulo, maior a correlacao. Para detalhes tecnicos completos, consultar (Gabriel, 1981;
J. C. Gower & Hand, 1996). No capıtulo 4 faremos uma ACP para dados do heptatlo olımpico
feminino. Ao fim da analise, construiremos um biplot para os referidos dados (ver figura 4.8), e
faremos a interpretacao do biplot para aqueles dados.
3Em analise fatorial, isto nao e verdade no calculo dos escores fatoriais.
39
2.11 Tamanho de amostra para ACP
Muitas sugestoes ja foram propostas acerca do numero de unidades necessarias ao aplicar ACP.
Intuitivamente, n grande deveria levar a resultados mais convincentes e faze-los mais genera-
lizaveis. Contudo, infelizmente muitas das sugestoes feitas - por exemplo a de que n > 100 ou
n > 5q, onde q e o numero de variaveis - tem muito pouco suporte empırico.
Entretanto, Guadagnoli and Velicer (1988) revisaram varios estudos que concluıram que o
mais relevante e o valor mınimo de n, e nao a razao entre n e q, embora a amplitude dos valores
mınimos de n sugeridos nesses artigos, de 50 a 400, gere duvidas quanto a um valor mınimo
consensual. Outros autores, como Gorsuch (1983), indicaram a a razao entre n e q como sendo
mais relevante, indicando min{n : q} = 5 : 1
Talvez a investigacao mais detalhada desta questao esta em Osborne and Costello (2004),
que concluıram que os “melhores” resultados da ACP provem quando tanto n quanto n : q
sao grandes. Porem, os valores verdadeiros necessarios dependem fortemente da separacao dos
autovalores que definem a estrutura das componentes principais. Se estes autovalores estiverem
“proximos”, entao o n necessario devera ser maior do que deveria caso os autovalores estivessem
mais “separados”.
2.12 Exemplos de aplicacao da ACP
2.12.1 Comprimentos de cabeca do primeiro e segundo filhos
Como primeiro exemplo, vamos analisar um conjunto de dados bem simples, envolvendo apenas
duas variaveis. A vantagem, alem da simplicidade, e que vamos poder ilustrar graficamente um
ponto importante acerca deste tipo de analise.
A tabela 2.7 fornece as medidas de comprimento e amplitude de cabecas (em mm) para cada
um dos dois filhos adultos de 25 famılias. A tıtulo de curiosidade e cultura geral, a figura 2.3
explana visualmente o que e comprimento de cabeca (head length) e amplitude de cabeca (head
breadth).
Aqui vamos analisar apenas os comprimentos das cabecas.
Poderıamos fazer a analise univariada individual, mas este nao e o nosso objetivo aqui. Em
40
Figura 2.3: O numero 2 da direita equivale ao comprimento da cabeca, e o numero 1 da esquerdaequivale a amplitude da cabeca.
Tabela 2.7: Dados de tamanhos de cabeca de primeiro e segundo filhos.
Amostra head1 breadth1 head2 breadth2 head1 breadth1 head2 breadth21 191 155 179 145 14 190 159 195 1572 195 149 201 152 15 188 151 187 1583 181 148 185 149 16 163 137 161 1304 183 153 188 149 17 195 155 183 1585 176 144 171 142 18 186 153 173 1486 208 157 192 152 19 181 145 182 1467 189 150 190 149 20 175 140 165 1378 197 159 189 152 21 192 154 185 1529 188 152 197 159 22 174 143 178 147
10 192 150 187 151 23 176 139 176 14311 179 158 186 148 24 197 167 200 15812 183 147 174 147 25 190 163 187 15013 174 150 185 152
41
conjuntos de dados multivariados (a partir de q = 2), o primeiro passo e obter o vetor de medias
e a matriz de covariancias (ou de correlacoes). Obtemos x = (186184)T e
S =
[95 70
70 101
]Neste exemplo, como as duas variaveis estao em escalas muito parecidas, podemos fazer a
ACP tambem na matriz de covariancias. E o que vamos fazer a seguir:
Importancia das componentes:Comp.1 Comp.2
Desvio-padrao 12.69 5.22Prop. da variancia 0.86 0.14Prop. acumulada 0.86 1.00Cargas:
Comp.1 Comp.2head1 0.69 -0.72head2 0.72 0.69
Destarte, as componentes principais sao da forma
y1 = 0.69x1 + 0.72x2
y2 = −0.72x1 + 0.69x2,
com variancias 167.77 e 28.33. A primeira componente principal abarca 167.77/(167.77+28.33) =
86% da variancia total das variaveis originais. Notemos que a variancia total das componentes
principais e 167.77+28.33 = 196.1, o que como esperado e igual a variancia total das variaveis ori-
ginais, encontrada obtendo-se o traco da matriz de covariancias, tr(S) = 95.29 + 100.81 = 196.1
Como devemos interpretar as duas componentes principais? A primeira e, essencialmente, a
soma dos comprimentos das cabecas dos dois filhos, e a segunda e a diferenca no comprimento das
cabecas. Talvez possamos rotular a primeira componente “tamanho” e a segunda “forma”, porem
mais tarde faremos alguns comentarios sobre as tentativas de se rotular as componentes principais.
Para calcular o escore de um indivıduo em uma componente, simplesmente multiplicamos o
valor (centrado) da variavel pela respectiva carga, conforme visto na secao 2.9. Vamos ilustrar este
calculo utilizando os dados da primeira linha da tabela (primeira famılia), onde o comprimento da
cabeca do primeiro filho e 191mm, e do segundo filho e 179mm. O escore da primeira componente
principal para esta famılia e calculado como segue:
0.69 · (191− 185.72) + 0.72 · (179− 183.84) = 0.169,
42
e na segunda componente e
−0.72 · (191− 185.72) + 0.69 · (179− 183.84) = −7.61.
A variancia dos escores da primeira componente principal sera 167.77, e a dos escores da segunda
componente principal sera 28.33
Podemos fazer um grafico mostrando os eixos correspondentes as duas componentes princi-
pais. O primeiro eixo passa pela media dos dados e tem coeficiente angular 0.721/0.693, e o
segundo eixo tambem passa pela media e tem coeficiente angular −0.693/0.721. O grafico esta
mostrado na figura 2.4. Este exemplo ilustra que uma ACP e essencialmente uma rotacao dos
eixos na nuvem multivariada de pontos. E tambem podemos plotar os escores das componentes
principais conforme exibido na figura 2.5 (notemos no grafico que a escala do eixo y esta igual a
do eixo x para termos um efeito visual da maior variancia da primeira componente principal).
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2º eixo
principal
1º eixo
principal
160
170
180
190
200
170 180 190 200 210Tam. da cabeça do 1º. filho(mm)
Tam
. da
cabe
ça d
o 2º
. filh
o(m
m)
Figura 2.4: Comprimento de cabecas do primeiro e segundo filhos, mostrando os eixos correspon-dentes as componentes principais da matriz de covariancias amostrais dos dados.
Conforme vimos na secao 2.6 e 2.7, vamos utilizar a ACP para uma aplicacao interessante:
predizer a matriz de covariancias observada. Primeiro precisamos re-escalonar (ver secao 2.6) as
43
−20
0
20
−20 0 20Componente 1
Com
pone
nte
2
Figura 2.5: Diagrama de dispersao das duas primeiras CP para os dados de tamanhos de cabeca.
componentes principais pelos seus respectivos desvios-padrao para fornecer as novas componentes
y1 = 12.95 · (0.69x1 + 0.72x2)⇒ y1 = 8.976x1 + 9.338x2 e
y2 = 5.32 · (−0.72x1 + 0.69x2)⇒ y2 = −3.837x1 + 3.668x2,
levando a matriz A∗2:
A∗2 =
[8.976 −3.837
9.338 3.688
].
Multiplicando esta matriz por sua transposta, obtemos a predicao da matriz de covariancias dos
dados; fazendo a multiplicacao matricial, recriamos S:
A∗2 (A∗2)T =
[95.29 69.66
69.66 100.81
].
A matriz de covariancias predita recriou exatamente a matriz de covariancias observada porque
utilizamos todas as componentes principais. Fizemos isto aqui apenas para ilustrar a tecnica ACP.
Mas normalmente nao utilizaremos todas as componentes principais, pois desta forma nao havera
reducao de dimensionalidade. Para terminar o exemplo, vamos verificar o que ocorre quando
predizemos a matriz de covariancias utilizando apenas a primeira componente principal. Teremos:
y1 = 8.976x1 + 9.338x2,
44
gerando
A∗1 =
[8.976
9.338
].
Assim,
A∗1 (A∗1)T =
[80.57 83.82
83.82 87.20
]= S.
Percebemos que a matriz predita utilizando somente a primeira componente principal se distancia
um pouco da matriz observada. Esta e de fato uma predicao.
Este exemplo de tamanhos de cabeca de irmaos foi bem util para ilustrarmos a tecnica de
ACP; entretanto, nao e o tıpico exemplo de conjunto multivariado de dados que encontraremos
na pratica; no capıtulo 4, faremos analises de conjuntos de dados maiores e mais interessantes.
2.12.2 Consumo de proteınas em paıses da europa
Vamos fazer uma analise de um conjunto de dados que consiste no consumo de proteınas em 25
paıses europeus no inıcio dos anos 1970. 4
As variaveis deste conjunto de dados sao 9 grupos de alimentos, descritos na tabela 2.8.
Os dados estao mostrados na tabela 2.9
Antes de fazer a ACP, devemos verificar as correlacoes e as variancias. Tambem e uma boa
pratica vermos o comportamento das variaveis atraves de uma matriz de diagramas de dispersao.
Para uma analise rapida, como a deste exemplo, um otimo dispositivo e o exibido pela figura 2.65.
A figura mostra que algumas variaveis tem correlacao moderada, outras tem correlacao baixa (em
ambos os sentidos, positivo e negativo). Indica que sera interessante fazer a ACP para investigar
a estrutura dessas variaveis um pouco mais a fundo.
4Ressaltamos que esse e um famoso conjunto de dados, presente em Hand et al. (1994). E um conhecidoexemplo de aplicacao tanto de ACP quanto de analise de cluster, dado que duas perguntas naturais surgem apartir deste conjunto de dados:
1. Existem grupos (clusters) identificaveis de paıses segundo o consumo alimentar?
2. Qual e a estrutura deste conjunto de dados, e sera que o consumo de carne tem relacao com o consumode outros grupos alimentares?
A primeira pergunta remete a analise de cluster (da qual nao trataremos neste trabalho, embora para um amploentendimento dos dados esta analise seja indispensavel); atacaremos parte da segunda pergunta (para uma analisemais ampla da segunda questao, uma ferramenta indicada e a regressao multivariada, que tambem esta fora doescopo do nosso trabalho) utilizando ACP.
5Comando ggpairs do pacote GGally do R Schloerke et al. (2014).
45
Tabela 2.8: Descricao das variaveis - consumo de proteınas.
Variavel DescricaoRMeat Consumo de carne vermelha
WMeat Consumo de carne brancaEgg Consumo de ovos
Milk Consumo de leiteFish Consumo de pescadoCer Consumo de cereaisSth Consumo de alimentos ricos em amidoNut Consumo de nozes e assemelhadas
FrVeg Consumo de frutas e vegetais
Tabela 2.9: Consumo de proteınas em 25 paıses europeus no inıcio dos anos 1970, segundo 9grupos de alimentos.
RMeat WMeat Egg Milk Fish Cer Sth Nut FrVegAlb 10,10 1,40 0,50 8,90 0,20 42,30 0,60 5,50 1,70Aus 8,90 14,00 4,30 19,90 2,10 28,00 3,60 1,30 4,30Bel 13,50 9,30 4,10 17,50 4,50 26,60 5,70 2,10 4,00Bul 7,80 6,00 1,60 8,30 1,20 56,70 1,10 3,70 4,20Cze 9,70 11,40 2,80 12,50 2,00 34,30 5,00 1,10 4,00Din 10,60 10,80 3,70 25,00 9,90 21,90 4,80 0,70 2,40Aor 8,40 11,60 3,70 11,10 5,40 24,60 6,50 0,80 3,60Fin 9,50 4,90 2,70 33,70 5,80 26,30 5,10 1,00 1,40Fra 18,00 9,90 3,30 19,50 5,70 28,10 4,80 2,40 6,50Gre 10,20 3,00 2,80 17,60 5,90 41,70 2,20 7,80 6,50
Hun 5,30 12,40 2,90 9,70 0,30 40,10 4,00 5,40 4,20Ire 13,90 10,00 4,70 25,80 2,20 24,00 6,20 1,60 2,90Ita 9,00 5,10 2,90 13,70 3,40 36,80 2,10 4,30 6,70
Net 9,50 13,60 3,60 23,40 2,50 22,40 4,20 1,80 3,70Nor 9,40 4,70 2,70 23,30 9,70 23,00 4,60 1,60 2,70Pol 6,90 10,20 2,70 19,30 3,00 36,10 5,90 2,00 6,60Por 6,20 3,70 1,10 4,90 14,20 27,00 5,90 4,70 7,90
Rom 6,20 6,30 1,50 11,10 1,00 49,60 3,10 5,30 2,80Spa 7,10 3,40 3,10 8,60 7,00 29,20 5,70 5,90 7,20Swe 9,90 7,80 3,50 24,70 7,50 19,50 3,70 1,40 2,00Swi 13,10 10,10 3,10 23,80 2,30 25,60 2,80 2,40 4,90UK 17,40 5,70 4,70 20,60 4,30 24,30 4,70 3,40 3,30
RUS 9,30 4,60 2,10 16,60 3,00 43,60 6,40 3,40 2,90Aoc 11,40 12,50 4,10 18,80 3,40 18,60 5,20 1,50 3,80Yug 4,40 5,00 1,20 9,50 0,60 55,90 3,00 5,70 3,20
46
Diag. de dispersão/correlações − Cons. de Proteínas
RM
eat
WM
eat
Egg
Milk
Fis
hC
erS
thN
utF
rVeg
RMeat WMeat Egg Milk Fish Cer Sth Nut FrVeg
5
10
15 Corr:
0.153
Corr:
0.586
Corr:
0.503
Corr:
0.061
Corr:
−0.5
Corr:
0.135
Corr:
−0.349
Corr:
−0.0742
5
10
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
Corr:
0.62
Corr:
0.281
Corr:
−0.234
Corr:
−0.414
Corr:
0.314
Corr:
−0.635
Corr:
−0.0613
12345
●
● ●
●
●
●●
●●
●●
●
●●
●●
●●
●●
●
●
●
●
●●
●●
●
●
●●
●●
● ●
●
●
●
● ●
●●
●●
●
●
●
●
●
Corr:
0.576
Corr:
0.0656
Corr:
−0.712
Corr:
0.452
Corr:
−0.56
Corr:
−0.0455
10
20
30
●
●●
●●
●
●
●
●●
●
●
●
●●●
●
●●
● ●●
●●
● ●
●●
●●
●
●
●
●●
●
●
●
●●●
●
●●
● ●●
●●
● ●
●●
●●
●
●
●
●●
●
●
●
●●●
●
●●
●●●
●●
●
Corr:
0.138
Corr:
−0.593
Corr:
0.222
Corr:
−0.621
Corr:
−0.408
0
5
10
●●
●
● ●
●
●● ●●
●●
●●
●
●
●
●
● ●
●●
● ●
● ●●
●
● ●
●
●● ●●
●●
●●
●
●
●
●
● ●
●●
● ●
● ●●
●
● ●
●
●● ●●
●●
●●
●
●
●
●
●●
●●
● ●
● ●●
●
● ●
●
● ●●●
●●
●●
●
●
●
●
● ●
●●
●●
●
Corr:
−0.524
Corr:
0.404
Corr:
−0.147
Corr:
0.266
1020304050
●
● ●
●
●
●●● ●
●●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
●●
●
●
●●● ●
● ●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●●● ●
●●
●
●
●●
●
●
●
●
●● ●
●
●
●
●
●●
●
●
●● ●●
●●
●
●
●●
●
●
●
●
●●●
●
●
●
●
● ●
●
●
●●●●
●●
●
●
● ●
●
●
●
●
●● ●
●
●
●
Corr:
−0.533
Corr:
0.651
Corr:
0.0465
2
4
6
●
●
●
●
●●
●
● ●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
● ●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
● ●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
Corr:
−0.474
Corr:
0.0844
02468
●
●●
●
●●●●
●
●
●
●
●
●●●
●●●
●●
●●
●
● ●
●●
●
●●●●
●
●
●
●
●
●● ●
●●
●
●●
●●
●
● ●
●●
●
● ●●●
●
●
●
●
●
●●●
●●
●
●●
●●
●
● ●
●●
●
● ●● ●●
●
●
●
●
●●●
●●
●
●●
●●
●
● ●
●●
●
● ●●●
●
●
●
●
●
● ●●
●●
●
●●
●●
●
● ●
●●
●
●●●●
●
●
●
●
●
●● ●
●●
●
●●● ●
●
● ●
●●
●
●● ●●
●
●
●
●
●
●● ●
●●
●
●●
● ●
●
● Corr:
0.375
2468
4 8 12 16
●
● ●● ●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
5 10
●
●●● ●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
1 2 3 4
●
●●● ●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
10 20 30
●
●●● ●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
0 5 10
●
● ●●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●●
●
20304050
●
●● ●●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
● ●●
●
2 4 6
●
● ●● ●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
● ●●
●
2 4 6 8
●
●● ●●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●●●
●
2 4 6 8
Figura 2.6: Matriz de correlacoes-diagramas de dispersao - consumo de proteınas.
Tabela 2.10: Variancias das variaveis de consumo de proteınas.
Variavel VarianciaRMeat 11,20
WMeat 13,65Egg 1,25Milk 50,49Fish 11,58Cer 120,45Sth 2,67Nut 3,94
FrVeg 3,25
47
A tabela 2.10 mostra as variancias das variaveis. Vemos que, pela tabela, as variancias estao
em diferentes escalas (por exemplo, Cereal tem variancia muito alta, enquanto Egg tem uma
variancia baixa, indicando um consumo mais homogeneo entre os paıses). Destarte, como na
maioria dos casos, vamos fazer a ACP na matriz de correlacoes dos dados. Na tabela, temos o
resultado abreviado da ACP, com os desvios-padrao das componentes principais e as proporcoes
acumuladas das variancias. Pela tabela, vemos que as 3 primeiras componentes principais acu-
mulam cerca de 75% da variancia dos dados.
Tabela 2.11: Desvios-padrao e proporcao de variancias acumuladas da ACP dos dados de consumode proteınas.
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9Desvio-padrao 2,002 1,279 1,062 0,977 0,681 0,570 0,521 0,341 0,315
Prop. da variancia 0,445 0,182 0,125 0,106 0,052 0,036 0,030 0,013 0,011Prop. acumulada 0,445 0,627 0,752 0,858 0,910 0,946 0,976 0,989 1,000
2 4 6 8
01
23
4
Component Number
eige
n va
lues
of p
rinci
pal c
ompo
nent
s
KaiserCattellAn. Paralela
Figura 2.7: 3 testes para auxiliar na escolha do numero de componentes no mesmo grafico.
Na figura 2.7, temos embutidos no mesmo grafico 3 testes para escolha do numero de com-
ponentes. Conforme mencionado na secao 2.8, desta vez os tres criterios discordam quanto ao
48
numero de componentes a reter: Pelo criterio de Kaiser, reterıamos as 3 primeiras componentes
principais, que tem variancia maior do que 1; pela analise paralela, reterıamos apenas a primeira
componente principal, cujo autovalor e o unico acima da media de valores simnulados; finalmente,
pelo popular scree plot de Catell, visualmente parece que reterıamos as 4 primeiras componen-
tes principais (embora este criterio seja altamente subjetivo; outra pessoa poderia enxergar um
“cotovelo” a partir da quarta componente principal, ou seja, esta pessoa reteria as 3 primeiras
componentes principais).
Com base na tabela 2.11 e na figura 2.7, concluımos que reter as 3 primeiras componentes
principais fornece uma boa reducao de dimensionalidade aos dados. O proximo passo agora,
entao, e obter uma visualizacao dos escores destas componentes principais.
Para concluir a analise, naturalmente deverıamos construir o biplot dos escores nas 3 compo-
nentes principais. Contudo, tal visualizacao em 3 dimensoes e difıcil, mesmo para o analista de
dados (e mais ainda para o publico em geral). Desta forma, neste exemplo abreviado vamos fazer
o biplot somente para as duas primeiras componentes principais:
2.13 Metodos relacionados
Nesta secao, vamos comentar brevemente sobre outros metodos relacionados com ACP. Obvi-
amente nao comentaremos sobre MDS, que tem um capıtulo proprio e e um dos temas deste
trabalho. Os metodos relacionados a ACP existem a flux6, destarte aqui vamos comentar apenas
alguns poucos:
Regressao de componentes principais - RCP
Segundo B. Everitt and Skrondal (2010), regressao de componentes principais7 e um procedimento
frequentemente utilizado para superar o problema da multicolinearidade na regressao, quando a
simples exclusao de algumas variaveis explicativas nao e considerada apropriada. Essencialmente,
faz-se a regressao da variavel resposta em um pequeno numero de escores de componentes prin-
cipais resultantes de uma analise de componentes principais das variaveis explicativas originais.
Neste trabalho, vamos chegar a fazer uma RCP ao fim de uma ACP. Ver subsecao 4.2.2. O livro
Maindonald and Braun (2010) dedica um capıtulo inteiro a este assunto (RCP).
6Segundo Cegalla (2009), a flux significa “a jorros, em abundancia”. Exemplo: “As lagrimas brotaram-lhe dosolhos a flux”.
7do ingles principal components regression.
49
Analise fatorial
Segundo B. Everitt and Skrondal (2010), analise fatorial e um metodo multivariado que postula
que as correlacoes ou covariancias entre um conjunto de variaveis observadas, xT = [x1, x2, · · · , xq]surgem da relacao destas variaveis com um pequeno numero de variaveis implıcitas, nao-observaveis,
chamadas variaveis latentes, usualmente conhecidas como fatores comuns, fT = [f1, f2, · · · , fk],onde k < q. Explicitamente, o modelo usado e da forma
x = Λf + e,
onde
Λ =
λ11 λ12 · · · λ1k
λ21 λ22 · · · λ2k...
......
...
λq1 λq2 · · · λqk
.contem os coeficientes da regressao (usualmente conhecidas neste contexto como cargas fatoriais)
das variaveis observadas sobre os fatores comuns. A matriz Λ e conhecida como matriz de
cargas. Os elementos do vetor e sao conhecidos como variacoes especıficas. Assumindo que os
fatores comuns sao nao-correlacionados entre si e tambem nao-correlacionados com as variacoes
especıficas e estao em forma padronizada, o modelo implica que a matriz de covariancias das
variaveis observadas, Σ, e da forma
Σ = ΛΛT + Ψ,
onde Ψ e uma matriz diagonal contendo as variancias das variacoes especıficas. Varias abordagens
sao usadas para estimar os parametros do modelo, isto e, os elementos de Λ e Ψ, incluindo analise
de fatores principais e estimacao por maxima verossimilhanca. Apos a fase inicial de estimacao,
em geral e feita uma tentativa de simplificar a tarefa (frequentemente difıcil) de interpretar os
fatores obtidos utilizando um processo conhecido por rotacao dos fatores. O objetivo em geral e
produzir uma solucao que tenha o que se chama de estrutura simples, isto e, que cada fator comum
afete apenas um pequeno numero de variaveis observadas. Embora seja baseado em um modelo
bem definido, o metodo e, pelo menos em seus estadios iniciais, essencialmente exploratorio, e
tal analise fatorial exploratoria precisa ser cuidadosamente diferenciada da analise fatorial confir-
matoria, na qual um conjunto pre-especificado de fatores comuns, com algumas variaveis restritas
a terem cargas nulas, e testado quanto a consistencia com as correlacoes das variaveis observadas.
50
Analise fatorial tem muitas semelhancas com ACP, tanto que muitas pessoas confundem um
metodo com o outro. Nas palavras de Jolliffe (2002),
Ha muita confusao entre ACP e analise fatorial, em parte porque alguns softwares
largamente utilizados tratam ACP como um caso especial de analise fatorial, o que
nao e verdade. Ha varias diferencas tecnicas entre ACP e analise fatorial, porem a
diferenca mais fundamental e que analise fatorial explicitamente especifica um modelo
relacionando as variaveis observadas com um conjunto menor de fatores implıcitos,
nao observaveis. Embora alguns autores expressem ACP no contexto de um mo-
delo, sua principal aplicacao e como tecnica descritiva, exploratoria, sem um modelo
implıcito. Esta natureza descritiva implica que assuncoes de distribuicao nao sao ne-
cessarias para se aplicar ACP em sua forma usual. ACP pode ser usada em dados
discretos e mesmo binarios, embora desta forma seja necessario muito cuidado na
interpretacao dos resultados.
Uma caracterıstica notavel da analise fatorial e que ela e geralmente um procedi-
mento de dois estagios: tendo encontrado uma solucao inicial, ela e rotacionada para
uma estrutura mais simples. Esta ideia pode ser aplicada em ACP; tendo decidido
manter q componentes principais, podemos rotacionar o suespaco q-dimensional de-
finido pelas componentes de sorte que os eixos sejam tao faceis quanto possıvel de
interpretar.
Analise de fatores principais
Segundo B. Everitt and Skrondal (2010), Analise de fatores principais e um metodo de analise
fatorial que e essencialmente equivalente a ACP executada na matriz de covariancias reduzida,
obtida substituindo os elementos da diagonal da matriz de covariancias amostral (ou seja, as
variancias amostrais) pelas comunalidades estimadas. Duas estimativas frequentemente usadas
para as comunalidades sao:
1. O quadrado do coeficiente de correlacao multipla da i-esima variavel com todas as outras;
2. O maior dos modulos dos coeficientes de correlacao entre a i-esima variavel e uma das
outras variaveis.
51
Analise de correlacao canonica - ACC
Segundo B. Everitt and Skrondal (2010), Analise de correlacao canonica8 e um metodo de analise
para investigar a relacao entre dois grupos de variaveis, encontrando-se funcoes lineares de um
dos conjuntos de variaveis que se correlacionem ao maximo com funcoes lineares das variaveis no
outro conjunto. Em muitos aspectos, o metodo pode ser visto como uma extensao de regressao
multipla a situacoes envolvendo mais de uma unica variavel resposta. Alternativamente, ACC
pode ser considerada analoga a ACP, exceto que uma correlacao, e nao uma variancia, e maximi-
zada.
Um exemplo simples de onde este tipo de tecnica pode ser de interesse e quando os resultados
de testes de velocidades de leitura (x1), poder de leitura (x2), velocidade artimetica (y1) e poder
aritmetico (y2) estao disponıveis de uma amostra de uma turma escolar infantil, e a questao de
interesse e se habilidade em leitura (medida por x1 e x2) tem relacao com habilidade aritmetica
(medida por y1 e y2).
Para uma abordagem aplicada simplificada de ACC, ver (B. Everitt & Hothorn, 2011); para
uma referencia de estudo, ver (Johnson & Wichern, 2007) (cap. 10).
Perseguicao da projecao e analise de componentes independentes (ACI)
Segundo B. Everitt and Skrondal (2010), Perseguicao da projecao9 e um procedimento para
obter uma representacao de baixa dimensao (usualmente 2) de dados multivariados, que sera
particularmente util em revelar estruturas interessantes tais como a presenca de grupos distintos
de observacoes (clusters). A representacao em baixa dimensao e encontrada otimizando algum
criterio numerico pre-definido planejado para revelar padroes “interessantes”.
Segundo B. Everitt and Skrondal (2010), Analise de componentes independentes - ACI10 e
um metodo para analisar quantidades medidas complexas, imaginadas como sendo misturas de
outras quantidades mais fundamentais, em suas componentes subjacentes. Exemplos tıpicos de
dados onde ACI pode ser aplicada sao:
• Sinal de eletroencefalograma (EEG), que contem contribuicoes de muitas regioes do cerebro;
8Do ingles canonical correlation analysis.
9Do ingles projection pursuit.
10Do ingles independent component analysis.
52
• Altura de uma pessoa, que e determinada por contribuicoes de muitos fatores geneticos e
ambientais.
Vamos agora tecer comentarios concernentes a relacao entre ACP e perseguicao da projecao
(baseado em Wehrens (2011)).
Variacao em muitos casos se iguala a informacao, uma das razoes da abrangencia da ACP.
Contudo, ha muitos exemplos onde a informacao relevante esta escondida em pequenas dife-
rencas, e e facilmente sobrecarregada por outras origens de variacao que nao sao de interesse. A
perseguicao da projecao e uma generalizacao da ACP, onde varios criterios diferentes podem ser
otimizados. Podemos, por exemplo, escolher uma vista que maximize algum agrupamento nos
dados. Em geral, contudo, nao ha solucao analıtica para nenhum destes criterios, exceto para o
criterio da variancia utilizado em ACP. Um caso especial de perseguicao da projecao e analise de
componentes independentes (ACI), onde a vista e tomada de sorte a maximizar o desvio da nor-
malidade multivariada, dada pela neg-entropia J . Esta e a diferenca da entropia de uma variavel
aleatoria normalmente distribuıda H(xG) e entropia da variavel sob consideracao H(x):
J(x) = H(xG)−H(x),
onde a entropia em si e dada por
H(x) = −∫f(x)log(f(x))dx.
Infelizmente, esta quantidade e difıcil de calcular, e na pratica aproximacoes sao usadas.11
Analise de componentes principais generalizada
Segundo B. Everitt and Skrondal (2010), Analise de componentes principais generalizada e uma
versao nao linear da ACP na qual o objetivo e determinar o sistema de coordenadas nao linear que
esta em maxima concordancia com a configuracao dos dados. Por exemplo, para dados bivariados
(y1, y2), se um sistema de coordenadas quadraticas e procurado, entao como um primeiro passo,
a variavel z e definida como segue:
z = ay1 + by2 + cy1y2 + dy21 + ey22,
com os coeficientes determinados de sorte que a variancia de z seja o maximo entre todas tais
funcoes quadraticas de y1 e y2.
11No R, o pacote fastICA Marchini, Heaton, and Ripley (2013) implementa algoritmos rapidos e robustosfornecidos no artigo de Hyv’arinen and Oja (2000).
53
Capıtulo 3
ESCALONAMENTO MULTIDIMENSIONAL
3.1 Introducao
No capıtulo anterior, notamos que uma das maiores utilidades da ACP e obter um “mapa”
de baixa dimensao que preserve, na medida do possıvel, as distancias euclidianas entre as ob-
servacoes no espaco das q variaveis originais. Neste capıtulo, faremos essa caracteristica da ACP
mais explıcita. Introduziremos uma classe de outros metodos sob denominacao geral de Escalo-
namento multidimensional (doravante MDS), cujo objetivo precıpuo e produzir mapas similares
aos dados, entretanto sem operar diretamente na matriz de dados X: ao inves vez disso, o MDS
e aplicado as matrizes de distancia (ver introducao), que sao derivadas da matriz X (um exemplo
de matriz de distancias derivada de um pequeno conjunto multivariado de dados e mostrado na
subsecao 3.5.1) e tambem aplicado as chamadas matrizes de similaridade-dissimilaridade, que
surgem naturalmente de varias formas, particularmente em julgamentos humanos (psicologicos)
de similaridade entre objetos, comportamentos, estımulos etc. Ao longo deste capıtulo, dare-
mos exemplos de matrizes de distancia bem como de matrizes de similaridade-dissimilaridade. O
termo proximidade e frequentemente utilizado para abarcar tanto similaridades quanto dissimilari-
dades; destarte, podemos doravante simplesmente denotar matrizes de proximidade, especificando
quando se tera o caso de similaridade ou o oposto (dissimilaridade), quando houver risco de con-
fusao.
3.2 Modelos para dados de proximidade
Modelos sao ajustados a proximidades de modo a tornar mais claro, exibir, ajudar a entender e pos-
sivelmente explicar qualquer estrutura ou padrao entre as proximidades observadas ou calculadas
nao prontamente aparentes na colecao de valores numericos. Em algumas areas, particularmente
Psicologia, o objetivo final na analise de um conjunto de proximidades e mais especıfico, qual
seja, o desenvolvimento de teorias para explicar julgamentos de similaridade; em outras palavras,
tentar responder a pergunta “o que faz as coisas serem parecidas ou diferentes?”
De acordo com Carroll et al. (1984), modelos para analise de dados de proximidade podem ser
54
categorizados em uma de tres grandes classes: modelos espaciais, modelos em arvore e modelos
hıbridos. Neste capıtulo (e neste trabalho), apenas lidaremos com a primeira dessas classes. Para
detalhes de modelos em arvore e modelos hıbridos, ver, por exemplo, (B. Everitt & Rabe-Hesketh,
1997).
3.3 Modelos espaciais para proximidades: escalonamento multidimensional (MDS)
Uma representacao espacial de uma matriz de proximidades consiste de um conjunto de n coor-
denadas m-dimensionais, cada uma das quais representa uma das n unidades (observacoes) nos
dados. As coordenadas requeridas sao geralmente encontradas minimizando-se alguma medida
de “ajuste” entre as distancias implicadas pelas coordenadas e as proximidades observadas. Em
termos simples, um modelo geometrico e procurado, onde quanto maior a distancia observada ou
dissimilaridade entre duas observacoes (ou menor a similaridade), mais afastados devem estar os
pontos que as representam no modelo espacial. Em geral (mas nao exclusivamente), assume-se
que as distancias entre os pontos no modelo espacial sao euclidianas. Encontrar o conjunto de
coordenadas de melhor ajuste e o valor apropriado de m que represente adequadamente as pro-
ximidades observadas e o objetivo de muitos metodos de MDS propostos. A esperanca e que
m, a dimensionalidade, seja pequena, idealmente 2 ou 3, de sorte que a configuracao espacial
possa ser facilmente representada graficamente. MDS e essencialmente uma tecnica de reducao
de dimensionalidade, pois o objetivo e encontrar um conjunto de pontos em baixa dimensao que
aproxime a configuracao de provavel alta dimensao representada pela matriz de proximidades ori-
ginal. A variedade de metodos ja propostos diferem em como a concordancia entre distancias
ajustadas e proximidades observadas e avaliada. Neste capıtulo, vamos considerar principalmente
dois metodos, Escalonamento multidimensional classico (doravante cMDS) e Escalonamento mul-
tidimensional nao-metrico (doravante nMDS).
3.4 Outras medidas de distancia
Na secao 1.5.3, fizemos comentarios gerais sobre distancias, em particular sobre distancias eu-
clidianas. Agora vamos nos aprofundar um pouco mais neste assunto, e discorrer tambem sobre
outras medidas de distancia.
A distancia euclidiana e a medida de distancia mais comumente usada. Contudo, nem sempre
e a melhor medida para medir a distancia multivariada entre objetos. Por exemplo, uma questao
55
comum na area da Ecologia e: “Quao diferentes sao dois sıtios (ecologicos) baseados na ocorrencia
(ou abundancia) de especies encontradas nesses dois sıtios?” Em Gotelli and Elisson (2013), ha
um interessante exemplo: em um conjunto de dados hipoteticos, tem-se 3 sıtios ecologicos, x1,
x2 e x3 e 3 especies, y1, y2 e y3, e a tabela 3.1 nos informa o numero de cada especie yi pre-
sente no sıtio xj. A partir desta tabela, a tabela 3.2 exibe as distancias euclidianas destes dados.
Neste exemplo muito simples, os sıtios x1 e x2 nao tem especies em comum, e a distancia euclidi-
ana entre eles e aproximadamente 1,732 especies (ver equacao ou a primeira coluna da tabela 3.4).
Tabela 3.1: Matriz de ausencia-presenca sıtio × especies.
EspeciesSıtio y1 y2 y3x1 0 1 1x2 1 0 0x3 0 4 4
Tabela 3.2: Matriz de distancias euclidianas entre os sıtios ecologicos.
SıtioSıtio x1 x2 x3x1 0x2 1,732 0x3 4,243 5,745 0
Em contraste, x1 e x3 tem todas as suas especies em comum (tanto y2 quanto y3 ocorrem
nestes dois sıtios), contudo a distancia euclidiana entre x1 e x3 e 4,243 especies. Isso com certeza
configura-se um paradoxo, pois quanto maior a dissimilaridade (menos especies em comum) entre
dois sıtios ecologicos, maior deveria ser sua distancia euclidiana.
Devido a paradoxos como o visto no exemplo acima, estatısticos, ecologistas e outros pesqui-
sadores desenvolveram outras medidas de proximidade. Na tabela 3.4, temos algumas destas me-
didas. Estas medidas de distancia dividem-se em duas categorias: distancias metricas e distancias
semi-metricas.
Para ilustrar o uso destas distancias, temos na tabela 3.3 as distancias de Jaccard aplicada aos
dados de ausencia-presenca das especies por sıtio ecologico. Notamos que, ao contrario da matriz
56
de distancias euclidianas, a matriz de distancias de Jaccard reflete adequadamente os dados de
ausencia-presenca em questao.
Tabela 3.3: Matriz de distancias de Jaccard entre os sıtios ecologicos.
SıtioSıtio x1 x2 x3x1 0,67x2 1 0,67x3 0,67 1 0,67
A distancia de Mahalanobis aplica-se somente a grupos de amostras yi e yj, cada uma das
quais contem, respectivamente, mi e mj amostras. Na equacao da distancia de Mahalanobis, d
e o vetor de diferencas entre as medias das m amostras em cada grupo, e
V =1
mi +mj − 2[(mi − 1)Ci + (mj − 1)Cj]
e a matriz de covariancias amostrais combinada dentro dos grupos, onde Ci e a matriz de co-
variancias amostrais para yi.
Segundo B. Everitt and Skrondal (2010), o coeficiente de similaridade de Jaccard e um co-
eficiente de similaridade para uso em dados que consistem em uma serie de variaveis binarias
frequentemente usada em analise de cluster. O coeficiente e dado por si,j =c
a+ b+ c, onde
a e a frequencia que ocorre somente em i, b e a frequencia que ocorre somente em j, e c e a
frequencia que ocorre somente em ambos. Devido ao fato de medidas de similaridade atingirem
o maximo quando os “objetos” forem mais similares, e medidas de dissimilaridade (ou distancia)
assumirem o maximo quando os objetos forem mais “diferentes”, toda medida de similaridade
pode ser convertida em medidas de distancia (dissimilaridade). Se uma medida de similaridade s
e definida no intervalo [0, 1] (como e o caso do coeficiente de Jaccard), ela pode facilmente ser
transformada em medida de distancia utilizando-se uma das tres equacoes:
d = 1− s
d =√
1− s
d =√
1− s2
Destarte, na tabela 3.4, a distancia de Jaccard e igual a 1 - o coeficiente de similaridade de Jaccard.
Distancias metricas tem as seguintes propriedades:
57
1. A distancia mınima e 0, e se 2 “objetos”1 (ou amostras) x1 e x2 sao identicos, entao a
distancia d entre eles tambem e 0: x1 = x2 ⇒ d(x1,x2) = 0;
2. A medida de distancia d e sempre positiva se dois objetos x1 e x2 nao sao identicos:
x1 6= x2 ⇒ d(x1,x2) > 0;
3. A medida de distancia e simetrica: d(x1,x2) = d(x2,x1);
4. A medida de distancia satisfaz a desigualdade triangular: para tres objetos x1, x2 e x3,
d(x1,x2) + d(x2,x3) ≥ d(x1,x3).
As distancias de Minkowski (que generaliza as distancias euclidiana e de Manhattan), Chord,
Mahalanobis, Qui-quadrado e de Jaccard sao exemplos de distancias metricas.
Distancias semi-metricas satisfazem apenas as tres primeiras das propriedades acima, e po-
dem violar a desigualdade triangular. As distancias de Bray-Curtis e Sørensen sao exemplos de
distancias semi-metricas.2
Na secao 3.6, vamos fazer um exemplo em que vamos utilizar, alem da distancia euclidiana,
a distancia de Manhattan, para exemplificar o uso de uma distancia nao euclidiana.
A tabela 3.4 nao e exaustiva: Borg and Groenen (2010) dedica um capıtulo inteiro a distancias
e similaridades e como obte-las: podemos citar, alem das distancias contidas na tabela 3.4, as
distancias do maximo, de Canberra, da separacao angular, da correlacao e a do coeficiente de
monotonicidade. Alem destas, existem outras distancias baseadas em coeficientes de similaridade
de dados de co-ocorrencia (da mesma natureza que as distancias de Jaccard e Sørensen) que nao
cosntam na tabela 3.4. Podemos citar algumas, como as similaridades s2, o coeficiente de corres-
pondencia simples4, a similaridade de Hamman e a similaridade de Yule. Todas estas distancias
constam em Borg and Groenen (2010), e recomendamos o capıtulo 6 desta referencia para um
estudo completo sobre proximidades (distancias e similaridades). Para aplicacoes de distancias
nao-euclidianas a analise de dados ecologicos, em especial metodos baseados em matrizes de
1Um elemento do espaco multivariado com o qual estamos lidando; sem um rigor matematico excessivo,podemos considerar nosso espaco multivariado os elementos do Rp, para uma matriz de dados com p variaveis(colunas).
2Ha um terceiro tipo de medida de distancia, nao-metrica, que viola a segunda propriedade listada, dado quepode assumir valores negativos.
4Do ingles simple matching coefficient.
58
Tabela 3.4: Algumas medidas comuns de proximidade.
Nome Formula Categoria
Euclidiana di,j =
√n∑k=1
(yi,k − yj,k)2 Metrica
Manhattan3 di,j =n∑k=1
| yi,k − yj,k | Metrica
Minkowski di,j =
(n∑k=1
(yi,k − yj,k)2)1/p
, p ≥ 1 Metrica
Chord di,j =
√√√√√√√√√2×
1−
n∑k=1
yi,kyj,k√n∑k=1
y2i,kn∑k=1
y2j,k
Metrica
Mahalanobis dyi,yj= di,jV
−1dTi,j Metrica
Qui-quadrado di,j =
√m∑i=1
m∑j=1
yij ×
√√√√√√√ n∑k=1
1n∑k=1
yjk
×
yikn∑k=1
yik
− yjkn∑k=1
yjk
2 Metrica
Bray-Curtis di,j =
n∑k=1
| yi,k − yj,k |n∑k=1
(yi,k + yj,k)Semi-metrica
Jaccard di,j =a+ b
a+ b+ cMetrica
Sørensen di,j =a+ b
a+ b+ 2cSemi-metrica
59
ausencia-presenca, ver Gotelli and Elisson (2013) e Borcard et al. (2011).
3.5 Escalonamento multidimensional classico (cMDS ou ACoP)
Em primeiro lugar, assim como todas as tecnicas da classe MDS, cMDS busca representar uma
matriz de proximidades por um modelo geometrico simples ou mapa. Tal modelo e caracterizado
por um conjunto de pontos x1,x2, · · · ,xn, em m dimensoes, cada ponto representando uma
das unidades (observacoes) de interesse, e uma medida de distancia entre pares de pontos. O
Objetivo do MDS e determinar tanto m, a dimensionalidade do modelo, quanto as n coordenadas
m-dimensionais, x1,x2, · · · ,xn, de sorte que o modelo forneca um “bom” ajuste para as proxi-
midades observadas. O ajuste frequentemente sera julgado por algum ındice numerico que meca o
quao bem as proximidades e as distancias no modelo geometrico se combinem. Em essencia, isto
significa tao somente que, quanto maior e uma dissimilaridade entre dois “estımulos”5 (ou menor
e a similaridade), mais afastados devem estar os pontos que os representa no modelo geometrico
final.
As questoes com que agora nos defrontamos sao: como estimar m, e como obter as coordena-
das x1,x2, · · · ,xn partindo da matriz de proximidades observada. cMDS nos fornece respostas a
estas questoes com base nos trabalhos de Young and Householder (1938). Para iniciar, devemos
notar que nao ha unicidade nas coordenadas que geram um conjunto de distancias, dado que as
distancias sao invariantes a transformacoes lineares tais como translacoes, rotacoes e reflexoes.
Noutras palavras, nao podemos, de forma unica e simultanea, determinar a locacao e a orientacao
da configuracao. O problema da locacao e usualmente resolvido alocando o vetor de medias da
configuracao na origem. O problema da orientacao significa que qualquer configuracao derivada
esta sujeita a uma transformacao ortogonal arbitraria. Tais transformacoes sao frequentemente
utilizadas para facilitar a interpretacao das solucoes, como sera visto posteriormente.
5Um estımulo, neste contexto, pode ser entendido como um questionamento a um indivıduo num teste psi-cologico. Uma das principais - e de mais longa data - aplicacoes de MDS e exatamente como um modelopsicologico de julgamentos de similaridade. Nas palavras de Borg and Groenen (2010): “(...)A matematica doMDS pode servir como um modelo de julgamentos de similaridade. A abordagem mais comum e hipotetizarque uma pessoa, quando inquirida acerca da dissimilaridade de pares de objetos tomados de um conjunto deobjetos, aja como se ela calculasse uma distancia no seu “espaco psicologico” destes objetos”.
60
3.5.1 cMDS: detalhes tecnicos
Para iniciar o metodo, assumiremos que a matriz de proximidades com a qual estamos lidando
e uma matriz de distancias euclidianas, D, obtida de uma matriz de dados brutos X, n x q.
Na introducao deste trabalho, vimos como calcular distancias euclidianas a partir de X; cMDS
preocupa-se essencialmente com o problema inverso: dadas as distancias, como obter X?
Primeiro, vamos assumir X conhecida e consideremos B a matriz n x n de produto interno,
B = XXT . (3.1)
Os elementos de B sao dados por
bij =
q∑k=1
xikxjk. (3.2)
E facil ver que os quadrados das distancias euclidianas entre as linhas de X podem ser escritas
em termos dos elementos de B como
d2ij = bii + bjj − 2bij (3.3)
Se os b’s pudessem ser encontrados em termos dos d’s na equacao 3.3, entao os valores das
coordenadas desejadas poderiam ser determinados fatorando B como em 3.1. Como ja foi dito,
nao existe solucao unica a nao ser que uma restricao de locacao seja introduzida; usualmente, o
centro dos pontos x e definido na origem, de sorte que∑n
i=1 xik = 0 ∀k = 1, 2, . . . ,m. Estas
restricoes e a relacao 3.2 implicam que a soma dos termos em qualquer linha de B deve ser zero.
Consequentemente, fazendo o somatorio de 3.2 em i, em j e finalmente em i e em j nos leva a
sequencia de equacoes
n∑i=1
d2ij = T + nbjj,
n∑j=1
d2ij = T + nbii,
n∑i=1
n∑j=1
d2ij = 2nT,
onde T =∑n
i=1 bii = tr(B). Os elementos de B agora podem ser encontrados em termos de
distancias euclidianas quadraticas
bij = −1
2(d2ij − d2i· − d2·j + d2··),
61
onde
d2i· =1
n
n∑j=1
d2ij,
d2·j =1
n
n∑i=1
d2ij,
d2·· =1
n2
n∑i=1
n∑j=1
d2ij.
Tendo encontrado os elementos de B em termos das distancias euclidianas, basta fatora-la para
encontrar as coordenadas. Em termos da Decomposicao Espectral (Ver Apendice de Algebra
Linear), B pode ser escrita como
B = V ΛV T
onde Λ = diag{λ1, λ2, . . . , λn} e a matriz diagonal dos autovalores deB e V = (V 1,V 2, . . . ,V n)
a correspondente matriz dos autovetores, normalizados de sorte que V iVTi = 1. Assumimos a
nomenclatura dos autovalores de forma a termos λ1 ≥ λ2 ≥ · · · ≥ λn. Quando D provem de
uma matriz n x q de posto completo, entao o posto de B e q, de sorte que os seus outros n− qautovalores sao nulos. Daı, B pode ser escrita como
B = V 1Λ1VT1 ,
onde V 1 contem os primeiros q autovetores e Λ1 os q autovalores nao-nulos. As coordenadas
que buscamos sao, entao,
X = V 1Λ121 ,
onde Λ121 = diag{λ
121 , · · · , λ
12q }.
Utilizando todas as q dimensoes ira levar a recomposicao completa da matriz de distancias
euclidianas. A representacao de melhor ajuste m-dimensional e dada pelos m autovetores de B
correspondentes aos m maiores autovalores. A adequacao da representacao m-dimensional pode
ser julgada pelo tamanho do criterio
Pm =
∑mi=1 λi∑ni=1 λi
Valores de Pm da ordem de 0.8 sugerem um ajuste razoavel.
Devemos mencionar que, onde a matriz de proximidades contem distancias euclidianas cal-
culadas de uma matriz de dados X n x q, pode se mostrar que o cMDS e equivalente a ACP,
62
com as coordenadas requeridas correspondendo aos escores das componentes principais extraıdas
da matriz de covariancias dos dados. Uma consequencia desta dualidade e que cMDS tambem e
referido na literatura estatıstica como Analise em coordenadas principais (doravante ACoP) - ver
J. Gower (1966). E a solucao de componentes principais m-dimensional (m < q) e “melhor” no
sentido de minimizar a medida de ajuste
S =n∑i=1
n∑i=1
(d2ij − (d(m)ij )2)
onde dij e a distancia euclidiana entre os indivıduos i e j baseado nas suas q variaveis originais e
d(m)ij e a distancia correspondente calculada dos escores das m componentes principais.
Quando a matriz de proximidades observada nao e euclidiana, a matriz B nao e definida
positiva. Em tais casos, alguns dos autovalores de B serao negativos; consequentemente, alguns
valores de coordenadas serao numeros complexos. Se, contudo, B tiver somente um pequeno
numero de autovalores negativos de baixa magnitude, uma representacao util da matriz de proxi-
midades ainda pode ser possıvel usando os autovetores associados com os m maiores autovalores
positivos. A adequacao da solucao resultante pode ser avaliada usando um dos dois criterios
sugeridos por Mardia et al. (1979):
P (1)m =
∑mi=1 |λi|∑ni=1 |λi|
,
P (2)m =
∑mi=1 λ
2i∑n
i=1 λ2i
Novamente procurarıamos por valores acima de 0.8 e julgarıamos por um “bom” ajuste. Alterna-
tivamente, Sibson (1979) recomenda um dos seguintes dois criterios para decidir sobre o numero
de dimensoes para o modelo espacial representar adequadamente as proximidades observadas:
• Criterio do Traco: Escolha o numero de coordenadas de forma que a soma dos autovalores
positivos seja aproximadamente igual a soma de todos os autovalores;
• Criterio da Magnitude: Aceite como genuinamente positivos somente os autovalores cuja
magnitude exceda substancialmente a dos maiores autovalores negativos.
Se, contudo, a matriz B tiver um consideravel numero de autovalores negativos de grande
magnitude, cMDS da matriz de proximidades pode ser desaconselhavel e alguns outros metodos
de MDS, por exemplo escalonamento nao-metrico (que abordaremos na proxima secao), sao mais
indicados.
63
3.6 Exemplo de aplicacao de cMDS
3.6.1 cMDS em um pequeno conjunto multivariado do R5
Vamos usar um pequeno conjunto multivariado de dados X, exibido na tabela 3.5.
Tabela 3.5: Matriz de dados X 10× 1.
3 4 4 6 15 1 1 7 36 2 0 2 61 1 1 0 34 7 3 6 22 2 5 1 00 4 1 1 10 6 4 3 57 6 5 1 42 1 4 3 1
Tendo X, podemos calcular a matriz de distancias D utilizando a equacao 1.1. Vamos obter
a matriz de proximidades exibida na tabela 3.6.
Tabela 3.6: Matriz de distancias euclidianas.
1 2 3 4 5 6 7 8 9 102 5,203 8,37 6,084 7,87 8,06 6,335 3,46 6,56 8,37 9,276 5,66 8,43 8,83 5,29 7,877 6,56 8,60 8,19 3,87 7,42 5,008 6,16 8,89 8,37 6,93 6,00 7,07 5,759 7,42 9,05 6,86 8,89 6,56 7,55 8,83 7,4210 4,36 6,16 7,68 4,80 7,14 2,65 5,10 6,71 8,00
Vamos aplicar cMDS a matriz D. Obtemos, como resultado, as seguintes coordenadas,
exibidas na tabela 3.7.
Os autovalores obtidos sao λ = (75, 1958, 8149, 6130, 4310, 370, 000, 000, 000, 000, 00)T
Notemos que como q = 5 neste exemplo, os valores dos autovalores 6 a 9 sao essencialmente
zero6 e somente as primeiras cinco colunas da tabela 3.7 representam a matriz de distancias eu-
clidianas.
6Numericamente o software R fornece valores nao nulos, mas valores realmente desprezıveis, da ordem de 10−15.
64
Tabela 3.7: Coordenadas da solucao cMDS da matriz de dados X.
1 2 3 4 5 6 7 8 91 -1,60 2,38 -2,23 -0,37 0,12 0,00 0,00 NaN NaN2 -2,82 -2,31 -3,95 0,34 0,33 -0,00 0,00 NaN NaN3 -1,69 -5,14 1,29 0,65 -0,05 0,00 0,00 NaN NaN4 3,95 -2,43 0,38 0,69 -0,03 0,00 0,00 NaN NaN5 -3,60 2,76 -0,26 1,08 -1,26 -0,00 0,00 NaN NaN6 2,95 1,35 -0,19 -2,82 0,12 -0,00 0,00 NaN NaN7 3,47 0,76 0,30 1,64 -1,94 0,00 0,00 NaN NaN8 0,35 2,31 2,22 2,92 2,00 -0,00 0,00 NaN NaN9 -2,94 -0,01 4,31 -2,51 -0,19 0,00 0,00 NaN NaN
10 1,93 0,33 -1,87 -1,62 0,90 0,00 0,00 NaN NaN
Vamos agora confirmar que a solucao cMDS de dimensao 5 “recupera” completamente a
matriz de distancias observadas. Podemos fazer isso simplesmente comparando as distancias
originais com as calculadas a partir da solucao cMDS de dimensao 5 recem-obtidas. Ou seja,
vamos achar o maximo da diferenca absoluta, elemento a elemento, entre a matriz D e a matriz
de coordenadas exibida na tabela 3.7. Computacionalmente, Isso e feito da seguinte forma no
software:
max(abs(dist(X) - dist(cmdscale(D, k = 5))))# [1] 1.065814e-14
Isto confirma que todas as diferencas sao essencialmente nulas, e portanto a matriz de
distancias observadas D pode ser “reconstruıda” pela solucao cMDS de dimensao 5.
Podemos agora usar os criterios P(1)m e P
(2)m , vistos na equacao 3.4, para nos auxiliar a esco-
lher uma dimensao adequada para reproduzir as distancias observadas. Vimos que a dimensao
5 praticamente reproduz exatamente a matriz D. Mas sera que uma dimensao menor que 5 ja
serviria como uma representacao espacial satisfatoria de D?
Na tabela 3.8, temos os valores dos criterios P(1)m e P
(2)m para as dimensoes de 1 a 5:
Segundo a tabela 3.8, ambos os criterios P(1)m e P
(2)m indicam na dimensao 3 uma adequacao
satisfatoria para representar a matriz D. A figura 3.1 e uma representacao grafica em tres
dimensoes desta solucao cMDS.
Agora, vamos verificar neste exemplo a veracidade da observacao feita sobre a dualidade entre
ACP e cMDS quando as distancias euclidianas sao utilizadas: vamos determinar o maximo da
diferenca absoluta, elemento a elemento, entre as coordenadas da solucao cMDS de dimensao 5 e
65
Tabela 3.8: Adequacao de dimensionalidade segundo os criterios P(1)m e P
(2)m .
Dimensao Criterio P(1)m Criterio P
(2)m
1 0,34 0,452 0,60 0,723 0,82 0,924 0,95 0,995 1,00 1,00
−4 −2 0 2 4
−4
−2
0 2
4 6
−6
−4
−2
0
2
4
Dim. 1
Dim
. 2
Dim
. 3
●
●
●
● ●
●
●
●
●
●
Figura 3.1: Diagrama de dispersao da solucao cMDS (com distancias euclidianas) dos dados daMatriz X de dimensao 3.
66
os escores das 5 primeiras componentes principais obtidas aplicando ACP a matriz de covariancias
dos dados originais (exibidos na tabela 3.5):
max(abs(prcomp(X)$x) - abs(cmdscale(D, k = 5)))# [1] 2.663494e-14 ; praticamente 0
Logo, verificamos em nosso exemplo a dualidade entre ACP e cMDS quando a distancia eu-
clidiana e utilizada.
Agora vamos aplicar outro tipo de distancia a matriz de dados X: a distancia de Manhattan
(conforme visto na secao 3.4). A matriz de distancias de Manhattan esta na tabela 3.9
Tabela 3.9: Matriz de distancias de Manhattan.
1 2 3 4 5 6 7 8 9 101 0,00 11,00 18,00 16,00 6,00 10,00 11,00 12,00 15,00 7,002 11,00 0,00 11,00 11,00 11,00 17,00 16,00 19,00 18,00 12,003 18,00 11,00 0,00 12,00 18,00 16,00 15,00 16,00 13,00 15,004 16,00 11,00 12,00 0,00 18,00 10,00 7,00 14,00 17,00 9,005 6,00 11,00 18,00 18,00 0,00 16,00 15,00 12,00 13,00 13,006 10,00 17,00 16,00 10,00 16,00 0,00 9,00 14,00 13,00 5,007 11,00 16,00 15,00 7,00 15,00 9,00 0,00 11,00 16,00 10,008 12,00 19,00 16,00 14,00 12,00 14,00 11,00 0,00 11,00 11,009 15,00 18,00 13,00 17,00 13,00 13,00 16,00 11,00 0,00 16,00
10 7,00 12,00 15,00 9,00 13,00 5,00 10,00 11,00 16,00 0,00
Aplicando agora cMDS a matriz de distancias de Manhattan, obtemos a matriz de coordena-
das, os autovalores e os criterios P(1)m e P
(2)m . Estes resultados estao nas tabelas 3.10 e 3.11, e os
autovalores sao: λ = (280, 68249, 42228, 8592, 5142, 5121, 970, 00− 15, 07− 28, 05− 56, 83)T
Logo, aplicando-se a distancia de Manhattan, os criterios P(1)m e P
(2)m tambem indicam na
dimensao 3 uma adequacao satisfatoria para representar a matriz de distancias. A figura 3.2 e
uma representacao grafica em tres dimensoes desta solucao cMDS.
Para finalizar, vamos verificar se a solucao cMDS utilizando-se as distancias de Manhattan
equivalem aos escores das componentes principais:
max(abs(prcomp(X)$x) - abs(cmdscale(D_m, k = 5)))# [1] 2.306541
Comparando o resultado acima com o calculado utilizando-se as distancias euclidianas, vemos
a absurda mudanca de magnitude (da ordem de 2.31/2.66e − 14 = 8.66e + 13, cerca de 10
trilhoes). Esse exemplo mostra que a grande utilidade do cMDS esta nas situacoes em que,
67
Tabela 3.10: Coordenadas da solucao cMDS da matriz de dados de exemploX utilizando distanciade Manhattan.
1 2 3 4 5 61 -5,83 1,53 -5,28 -1,31 -0,45 -1,842 4,01 9,76 -3,47 0,00 -0,05 0,693 7,48 4,15 6,88 -0,17 0,71 -2,504 8,18 -2,63 -1,57 1,98 -0,21 2,655 -7,99 5,83 -1,16 1,47 -1,10 1,176 0,65 -6,26 -1,93 -5,82 -0,47 0,217 1,89 -5,47 -2,20 3,31 -4,01 -1,348 -4,90 -4,39 3,82 5,22 2,71 -0,079 -3,98 -0,21 9,62 -3,27 -1,09 1,26
10 0,50 -2,31 -4,70 -1,41 3,96 -0,22
Tabela 3.11: Adeq. de dimensionalidade com dist. de Manhattan - criterios P(1)m e P
(2)m .
Dimensao Criterio P(1)m Criterio P
(2)m
1 0,28 0,382 0,52 0,683 0,75 0,934 0,84 0,975 0,88 0,986 0,90 0,98
−10 −5 0 5 10
−10
−5
0 5
10
−10
−5
0
5
10
Dim. 1
Dim
. 2
Dim
. 3
●●
●
●
●
●
●
●
●●
Figura 3.2: Diagrama de dispersao da solucao cMDS (com distancias de Manhattan) dos dadosda Matriz X de dimensao 3.
68
por algum motivo, as distancias euclidianas nao se adequam bem ao problema que esta sendo
estudado. Como vimos na secao 3.4, isto ocorre com frequencia no campo da Ecologia, para citar
apenas um.
3.7 Escalonamento multidimensional nao-metrico (nMDS)
Em alguns trabalhos psicologicos e em pesquisa de mercado, matrizes de proximidades surgem
pedindo a pessoas que facam julgamentos acerca da similaridade (ou dissimilaridade) de objetos ou
estımulos de interesse. Ao coletar tais dados, o investigador pode perceber que, realisticamente, os
indivıduos estao aptos tao somente a fazer julgamentos “ordinais”; por exemplo, ao comparar uma
gama de cores, os indivıduos estao aptos a especificar, com alguma confianca, que uma cor e mais
brilhante que outra, porem estaria muito menos confiante em dar um valor numerico a pergunta
“quao brilhante?”. Tais consideracoes levaram, nos anos 1960, a pesquisa de um metodo de MDS
que use somente a ordem dos postos das proximidades para produzir a sua representacao espacial.
Em outras palavras, procurava-se um metodo que fosse invariante sob transformacoes monotonicas
da matriz de proximidades observadas, isto e, que as coordenadas obtidas permanecam as mesmas
se valores numericos das proximidades forem modificados, porem sem modificar a ordem dos
postos. Tal metodo foi proposto nos marcantes artigos de Shepard (1962a, 1962b); Kruskal
(1964a, 1964b). A ideia-chave do metodo proposto nestes artigos e que as coordenadas na
representacao espacial das proximidades observadas dao origem a distancias ajustadas, dij, e que
estas distancias estao relacionadas a um conjunto de numeros que chamaremos disparidades,
dij, pela formula dij = dij + εij, onde os εij sao os termos de erro que representam os erros
de medida mais os erros de distorcao que surgem devido as distancias nao corresponderem a
configuracao do particular numero de dimensoes escolhido. As disparidades sao monotonicas com
as proximidades observadas e, sujeitas a esta restricao, assemelham-se, tanto quanto possıvel, as
distancias ajustadas. Em geral, somente uma fraca restricao de monotonicidade e aplicada, de
forma que, se as dissimilaridaes δij sao ordenadas da menor para a maior de sorte que
δi1j1 < δi2j2 < · · · < δiN jN ,
onde N = n(n− 1)/2, entao
di1j1 ≤ di2j2 ≤ · · · ≤ diN jN .
Regressao monotonica Barlow et al. (1972) e empregada para encontrar as disparidades, e entao
as coordenadas desejadas na representacao espacial das dissimilaridades observadas, as quais
denotaremos por X(n × m), sao encontradas minimizando-se um criterio, S, conhecido como
69
Stress7, que e uma funcao de X(n×m) e e definido como
S(X) = min
∑i<j(dij − dij)2∑
i<j d2ij
, (3.4)
onde o mınimo e tomado sobre dij tal que dij e monotonica com as dissimilaridades observadas.
Em essencia, o stress representa a extensao em que a ordem dos postos das distancias ajustadas
discorda da ordem dos postos das dissimilaridades observadas. O denominador na formula do
stress 3.4 e escolhido de forma a fazer a representacao final invariante sob mudancas na escala,
isto e, expansao ou contracao uniforme. Um algoritmo para minimizar o stress e desta forma
encontrar as coordenadas da representacao espacial desejada e descrito em um segundo artigo
de Kruskal(1964b). Para cada valor de m (o numero de dimensoes) na configuracao espacial,
a configuracao que tem o menor stress e chamada de configuracao de melhor ajuste em m
dimensoes, Sm; na tabela 3.12, temos uma “regra de ouro” para julgar o ajuste segundo Kruskal.
Tabela 3.12: Regra de ouro de classificacao do ajuste segundo o Stress.
Stress Qualidade do ajusteSm >= 20% FracoSm = 10% RazoavelSm <= 5% BomSm = 0 Perfeito
(este ultimo somente ocorrera se a ordem dos postos das distancias ajustadas combinar exa-
tamente com a ordem dos postos das dissimilaridades observadas. Isto e muito raro na pratica).
A seguir, vamos ver um exemplo de aplicacao de nMDS. Outras serao vistas nas analises de
dados do capıtulo 4.
3.7.1 Exemplo de aplicacao de nMDS
Como exemplo de aplicacao do nMDS, vamos usar o metodo para obter uma representacao
espacial dos julgamentos de dissimilaridades ideologicas de varios lideres mundiais e importantes
polıticos do tempo da II guerra mundial. A tabela 3.13 mostra as similaridades obtidas. Os
indivıduos fizeram julgamentos baseados em uma escala discreta de 1 a 9, onde 1 indica “muito
similar” e 9 indica “muito dissimilar”. Apenas isto foi dito para os indivıduos, que fizeram seus
julgamentos.
7Achamos melhor nao traduzir este termo. Segundo Paulino et al. (2011) podemos manter este termo emingles.
70
Tabela 3.13: Julgamentos (subjetivos) de (dis)similaridade entre 12 lıderes mundiais da epoca daII guerra mundial.
Htl Mss Chr Esn Stl Att Frn DGl MT-T Trm Chm TitHitler 0
Mussolini 3 0Churchill 4 6 0
Eisenhower 7 8 4 0Stalin 3 5 6 8 0Attlee 8 9 3 9 8 0
Franco 3 2 5 7 6 7 0De Gaulle 4 4 3 5 6 5 4 0Tse-Tung 8 9 8 9 6 9 8 7 0
Truman 9 9 5 4 7 8 8 4 4 0Chamberlain 4 5 5 4 7 2 2 5 9 5 0
Tito 7 8 2 4 7 8 3 2 4 5 7 0
As coordenadas do resultado do nMDS estao na tabela 3.14. A solucao nMDS fornece
Stress = 15.21%, levemente razoavel. A solucao bidimensional aparece na figura 3.3. Clara-
mente, podemos ver agrupados os 3 ditadores (Hitler, Mussolini e Franco), bem como aparecem
agrupados tres primeiros-ministros britanicos da epoca (em sequencia de sucessao, Chamberlain,
Churchill e Attlee). Stalin e Mao Tse-Tung estao mais isolados em comparacao com outros
lıderes. Eisenhower parece estar mais relacionado com o governo britanico do que com seu
proprio presidente (Truman). E interessante notar que de Gaulle esta localizado no centro da
solucao, indicando que as pessoas o julgaram em uma posicao de “equidistancia” no conflito
da segunda guerra (segundo o registro historico, seria natural esperar que o comandante militar
frances durante a guerra fosse localizado bem mais proximo a lıderes aliados do que de lıderes
como Mussolini).
3.8 Arvore de cobertura mınima
Vamos aqui introduzir uma ferramenta interessante e muito util para complementar as analises
MDS: a ferramenta chama-se Arvore de cobertura mınima8.
A arvore de cobertura mınima e definida da seguinte forma: suponha que n pontos sejam
dados (possivelmente em varias dimensoes). Entao uma arvore de cobertura destes pontos e
qualquer conjunto de segmentos de reta que unem pares destes pontos tais que:
8Do ingles minimum spanning tree
71
Tabela 3.14: Coordenadas da solucao nMDS das similaridades de lıderes da 2a guerra.
Dimensao 1 Dimensao 2Hitler -2,58 -1,76
Mussolini -3,88 -1,25Churchill 0,31 1,47
Eisenhower 2,99 2,88Stalin -1,43 -3,76Attlee -2,11 5,07
Franco -2,86 0,08De Gaulle 0,66 -0,21Tse-Tung 4,16 -4,58
Truman 4,50 0,29Chamberlain -2,14 2,76
Tito 2,39 -1,00
−4 −2 0 2 4 6
−4
−2
02
46
Coordenada 1
Coo
rden
ada
2
HitlerMussolini
Churchill
Eisenhower
Stalin
Attlee
FrancoDe Gaulle
Tse−Tung
Truman
Chamberlain
Tito
Figura 3.3: nMDS de julgamentos de similaridade de lıderes da II guerra mundial.
• Nao ocorra ciclos fechados;
• Todo ponto seja visitado pelo menos uma vez;
• A arvore seja conectada (ou seja, sempre haja um caminho entre dois pontos quaisquer)
72
O comprimento da arvore e definido pela soma dos comprimentos dos seus segmentos, e
quando um conjunto de n pontos e os comprimentos de todos os Cn,2 segmentos sao dados,
entao a arvore de cobertura mınima e definida como a arvore de cobertura com o menor compri-
mento. Algoritmos para determinar a arvore de cobertura mınima de um conjunto de n pontos,
dadas as distancias entre eles, ja foram fornecidos pela literatura - ver, por exemplo, Prim (1957)
e J. Gower and Ross (1969).
3.9 Diagrama de Shepard
Nossa ferramenta fundamental para calcular a qualidade do ajuste ao utilizarmos nMDS e o Stress,
mas tambem podemos lancar mao de um interessante metodo grafico para avaliar (informalmente)
a qualidade da solucao MDS. Consiste em plotar um diagrama de dispersao das dissimilaridades
contra as distancias obtidas. Este metodo grafico e chamado Diagrama de Shepard.
Na subsecao 4.3.3, na figura 4.19, temos um exemplo de diagrama de Shepard relativo aos
dados de votacao no congresso norte-americano.
3.10 Metodos relacionados
Nesta secao, vamos comentar brevemente sobre outros metodos relacionados com MDS. Obvi-
amente nao comentaremos sobre ACP, que tem um capıtulo proprio e e um dos temas deste
trabalho.
Analise de correspondencia
Segundo B. Everitt and Skrondal (2010), a analise de correspondencia e um metodo para exibir
as relacoes entre variaveis categoricas num tipo de diagrama de dispersao (equivalente a um
mapa cMDS). para tais duas variaveis dispostas na forma de uma tabela de contingencia, por
exemplo, obtendo um conjunto de coordenadas representando as categorias linha e coluna. Um
pequeno numero destas coordenadas (usualmente dois) sao entao usadas para que a tabela possa
ser exibida graficamente. No grafico resultante, as distancias euclidianas aproximam as distancias
qui-quadrado entre as categorias linha e coluna. As coordenadas sao analogas as resultantes
de uma ACP de variaveis contınuas, exceto que elas envolvem uma particao da estatıstica qui-
quadrado e nao a variancia total. Tal analise de uma tabela de contingencia permite um exame
visual de estruturas ou padroes nos dados, e frequentemente age como um suplemento util a
inferencias mais formais. Para um estudo sobre analise de correspondencia, ver Greenacre (2007).
73
Desdobramento multidimensional
Segundo B. Everitt and Skrondal (2010), Desdobramento multidimensional9 e uma forma de MDS
aplicavel tanto a matrizes de proximidade retangulares, onde as linhas e colunas correspondem a
diferentes conjuntos de estımulos (por exemplo, julgamentos de refrigerantes), quanto a matrizes
de proximidade assimetricas (por exemplo, citacoes do jornal A por um jornal B e vice-versa).
Desdobramento foi introduzido como uma forma de representar os juızes e os estımulos em uma
unica dimensao para que a ordem dos postos dos estımulos conforme determinado por cada juiz
seja refletida pela ordem dos postos da distancia do estımulo a esse juiz.
Analise de Procrustes
Segundo B. Everitt and Skrondal (2010), analise de Procrustes10 e um metodo de comparacao
das representacoes geometricas alternativas de um conjunto multivariado de dados ou de uma
matriz de proximidade, por exemplo, duas solucoes MDS concorrentes. As duas solucoes sao
comparadas utilizando um criterio de soma dos quadrados residual que e minimizada permitindo
que as coordenadas correspondentes para uma solucao sejam rotacionadas, refletidas e translada-
das em relacao a outra. A analise de Procrustes generalizada permite a comparacao de mais de
duas solucoes alternativas fazendo as transformacoes lineares indicadas acima (rotacao, reflexao
e translacao) para varias solucoes simultaneamente, de forma a otimizar uma medida de bondade
de ajuste pre-definida.
Escalonamento de diferencas individuais - INDSCAL
Segundo B. Everitt and Skrondal (2010), escalonamento de diferencas individuais11 e uma forma
de MDS aplicavel aos dados consistindo de varias matrizes de proximidade de origens diferentes,
ou seja, indivıduos diferentes. O metodo permite estabelecer diferencas individuais da percepcao
9Do ingles Multidimensional unfolding.
10O nome deste tipo de analise tem origem em Procrustes, ’O esticador”, que, segundo Historia de Procrustes(n.d.) era um bandido que vivia na serra de Eleusis. Em sua casa, ele tinha uma cama de ferro, que tinha seuexato tamanho, para a qual convidava todos os viajantes a se deitar. Se o hospede fosse demasiado alto, eleamputava o excesso de comprimento para ajusta-lo a cama, e os que tinham pequena estatura eram esticadosate atingirem o comprimento suficiente. Uma vıtima nunca se ajustava exatamente ao tamanho da cama porqueProcrustes, secretamente, tinha duas camas de tamanhos diferentes.Procrustes continuou seu reinado de terror ate que foi capturado pelo heroi ateniense Teseu que, em sua ultimaaventura, prendeu Procrustes lateralmente em sua propria cama e cortou-lhe a cabeca e os pes, aplicando-lhe omesmo suplıcio que infligia aos seus hospedes.
11Do ingles Individual differences scaling.
74
de estımulos, aplicando pesos para cada indivıduo, que pode ser utilizado para esticar ou encolher
as dimensoes da solucao geometrica recuperada.
75
Capıtulo 4
ANALISES DE DADOS
4.1 Introducao
Neste capıtulo vamos fazer varias analises de dados referentes as tecnicas que sao o tema deste
trabalho: Analise de componentes principais e escalonamento multidimensional. O capıtulo esta
dividido em duas secoes, cada uma concernente a cada tecnica-tema do trabalho.
4.2 Analises de dados utilizando ACP
4.2.1 Esportes: Analisando a estrutura de escores do heptatlo olımpico
O pentatlo feminino foi realizado pela primeira vez na Alemanha em 1928. A prova consistia inici-
almente de arremesso de peso, salto em distancia, corrida de 100m, salto em altura e arremesso de
dardo, e era realizada em dois dias. Nos jogos olımpicos de 1964, o pentatlo se tornou o primeiro
evento olımpico feminino combinado, passando a consistir em corrida de 80m com barreiras, tiro,
salto em altura, salto em distancia e corrida de 200m. Em 1977 a corrida de 200m foi substituıda
por corrida de 800m, e em 1981 a IAAF1 substituiu o pentatlo pelo heptatlo: agora, no 1o dia
de competicoes, tinha-se corrida 100m com barreiras, tiro, salto em altura e corrida de 200m; no
2o dia, salto em distancia, arremesso de dardo e corrida de 800m. Um sistema de pontuacao e
utilizado para atribuir pontos aos resultados de cada prova e a vencedora e a atleta que acumula
mais pontos durante os dois dias de prova. O heptatlo feminino estreou em olimpıadas em 1984,
em Los Angeles (EUA).
Nos jogos olımpicos de 1988, em Seul (Coreia do Sul), o heptatlo foi vencido por uma grande
atleta norte-americana, Jackie Joyner-Kersee. Os resultados de todas as 25 competidoras em
todas as sete provas e dada na tabela 4.1 (os dados constam em Hand et al. (1994) e estao
incluıdos no pacote HSAUR3 do R B. S. Everitt and Hothorn (2015)).
1International Association of Athletics Federation - em portugues, Associacao Internacional de Federacoes deAtletismo.
76
Tabela 4.1: Resultados do heptatlo feminino, Seul, 1988.
hurdles highjump shot run200m longjump javelin run800m scoreJoyner-Kersee (USA) 12,69 1,86 15,80 22,56 7,27 45,66 128,51 7291
John (GDR) 12,85 1,80 16,23 23,65 6,71 42,56 126,12 6897Behmer (GDR) 13,20 1,83 14,20 23,10 6,68 44,54 124,20 6858
Sablovskaite (URS) 13,61 1,80 15,23 23,92 6,25 42,78 132,24 6540Choubenkova (URS) 13,51 1,74 14,76 23,93 6,32 47,46 127,90 6540
Schulz (GDR) 13,75 1,83 13,50 24,65 6,33 42,82 125,79 6411Fleming (AUS) 13,38 1,80 12,88 23,59 6,37 40,28 132,54 6351Greiner (USA) 13,55 1,80 14,13 24,48 6,47 38,00 133,65 6297
Lajbnerova (CZE) 13,63 1,83 14,28 24,86 6,11 42,20 136,05 6252Bouraga (URS) 13,25 1,77 12,62 23,59 6,28 39,06 134,74 6252Wijnsma (HOL) 13,75 1,86 13,01 25,03 6,34 37,86 131,49 6205
Dimitrova (BUL) 13,24 1,80 12,88 23,59 6,37 40,28 132,54 6171Scheider (SWI) 13,85 1,86 11,58 24,87 6,05 47,50 134,93 6137
Braun (FRG) 13,71 1,83 13,16 24,78 6,12 44,58 142,82 6109Ruotsalainen (FIN) 13,79 1,80 12,32 24,61 6,08 45,44 137,06 6101
Yuping (CHN) 13,93 1,86 14,21 25,00 6,40 38,60 146,67 6087Hagger (GB) 13,47 1,80 12,75 25,47 6,34 35,76 138,48 5975
Brown (USA) 14,07 1,83 12,69 24,83 6,13 44,34 146,43 5972Mulliner (GB) 14,39 1,71 12,68 24,92 6,10 37,76 138,02 5746
Hautenauve (BEL) 14,04 1,77 11,81 25,61 5,99 35,68 133,90 5734Kytola (FIN) 14,31 1,77 11,66 25,69 5,75 39,48 133,35 5686
Geremias (BRA) 14,23 1,71 12,95 25,50 5,50 39,64 144,02 5508Hui-Ing (TAI) 14,85 1,68 10,00 25,23 5,47 39,14 137,30 5290
Jeong-Mi (KOR) 14,53 1,71 10,83 26,61 5,50 39,26 139,17 5289Launa (PNG) 16,42 1,50 11,78 26,16 4,88 46,38 163,43 4566
Vamos analisar estes dados usando ACP com vistas a explorar a estrutura dos dados e avaliar
como os escores das componentes principais se relacionam a pontuacao atribuıda pelo sistema de
pontuacao oficial da IAAF.
Antes de fazermos a ACP nos dados, e uma boa pratica procedermos a uma avaliacao inicial dos
dados usando alguns metodos graficos apropriados. Alguns resumos numericos tambem podem
ser uteis antes de se fazer a analise principal. Antes de tudo, sera muito util executarmos um
passo de pre-processamento: vamos transformar a pontuacao das variaveis hurdles, run200m e
run800m de forma que valores altos sejam indicativos de melhor performance: a transformacao
sera da forma max(Xi) − xi. As transformacoes nessas variaveis nos auxiliarao a identificar um
outlier. Apenas para ilustrar na pratica, vamos aqui indicar como fazer esta transformacao para
a variavel hurdles usando o R:
heptathlon$hurdles <- with(heptathlon, max(hurdles) - hurdles)
Apos a transformacao, a tabela 4.2 exibe as pontuacoes transformadas.
77
Tabela 4.2: Variaveis transformadas - resultados do heptatlo.
hurdles highjump shot run200m longjump javelin run800m scoreJoyner-Kersee (USA) 3,73 1,86 15,80 4,05 7,27 45,66 34,92 7291
John (GDR) 3,57 1,80 16,23 2,96 6,71 42,56 37,31 6897Behmer (GDR) 3,22 1,83 14,20 3,51 6,68 44,54 39,23 6858
Sablovskaite (URS) 2,81 1,80 15,23 2,69 6,25 42,78 31,19 6540Choubenkova (URS) 2,91 1,74 14,76 2,68 6,32 47,46 35,53 6540
Schulz (GDR) 2,67 1,83 13,50 1,96 6,33 42,82 37,64 6411Fleming (AUS) 3,04 1,80 12,88 3,02 6,37 40,28 30,89 6351Greiner (USA) 2,87 1,80 14,13 2,13 6,47 38,00 29,78 6297
Lajbnerova (CZE) 2,79 1,83 14,28 1,75 6,11 42,20 27,38 6252Bouraga (URS) 3,17 1,77 12,62 3,02 6,28 39,06 28,69 6252Wijnsma (HOL) 2,67 1,86 13,01 1,58 6,34 37,86 31,94 6205
Dimitrova (BUL) 3,18 1,80 12,88 3,02 6,37 40,28 30,89 6171Scheider (SWI) 2,57 1,86 11,58 1,74 6,05 47,50 28,50 6137
Braun (FRG) 2,71 1,83 13,16 1,83 6,12 44,58 20,61 6109Ruotsalainen (FIN) 2,63 1,80 12,32 2,00 6,08 45,44 26,37 6101
Yuping (CHN) 2,49 1,86 14,21 1,61 6,40 38,60 16,76 6087Hagger (GB) 2,95 1,80 12,75 1,14 6,34 35,76 24,95 5975
Brown (USA) 2,35 1,83 12,69 1,78 6,13 44,34 17,00 5972Mulliner (GB) 2,03 1,71 12,68 1,69 6,10 37,76 25,41 5746
Hautenauve (BEL) 2,38 1,77 11,81 1,00 5,99 35,68 29,53 5734Kytola (FIN) 2,11 1,77 11,66 0,92 5,75 39,48 30,08 5686
Geremias (BRA) 2,19 1,71 12,95 1,11 5,50 39,64 19,41 5508Hui-Ing (TAI) 1,57 1,68 10,00 1,38 5,47 39,14 26,13 5290
Jeong-Mi (KOR) 1,89 1,71 10,83 0,00 5,50 39,26 24,26 5289Launa (PNG) 0,00 1,50 11,78 0,45 4,88 46,38 0,00 4566
78
Depois de fazer a transformacao nas variaveis, vamos construir uma matriz de diagramas de
dispersao e obter a matriz de correlacoes (tabela 4.3):
Tabela 4.3: Matriz de correlacoes do heptatlo feminino.
hurdles highjump shot run200m longjump javelin run800mhurdles 1,00 0,81 0,65 0,77 0,91 0,01 0,78
highjump 0,81 1,00 0,44 0,49 0,78 0,00 0,59shot 0,65 0,44 1,00 0,68 0,74 0,27 0,42
run200m 0,77 0,49 0,68 1,00 0,82 0,33 0,62longjump 0,91 0,78 0,74 0,82 1,00 0,07 0,70
javelin 0,01 0,00 0,27 0,33 0,07 1,00 -0,02run800m 0,78 0,59 0,42 0,62 0,70 -0,02 1,00
Agora vamos introduzir nas nossas analises um novo metodo grafico que nos permite visualizar
de uma maneira interessante a matriz de correlacoes2: junto as magnitudes das correlacoes, insere-
se um gradiente de cores, com cores agrupadas de acordo com a magnitude da correlacao. Alem
disso, neste grafico das correlacoes, podemos agrupar as variaveis mais correlacionadas de acordo
com algum criterio3.O grafico das correlacoes esta na figura 4.14.
O exame da matriz (e grafico) de correlacoes mostra que a maioria das provas sao positi-
vamente correlacionadas, algumas moderadamente (por exemplo, salto em altura e tiro) e
outras mais altas (por exemplo, salto em altura e corrida com obstaculos). As excecoes
a essa observacao geral sao as relacoes entre a prova de dardo (javelin) e as outras, onde quase
todas as correlacoes sao proximas de zero. Uma explicacao pode ser que arremesso de dardo e
uma prova muito “tecnica” e talvez o treinamento para as outras provas nao ajudem as atletas
nos dardos. Contudo, antes de nos aprofundarmos nas explicacoes, vamos observar atentamente
a matriz de diagramas de dispersao das sete provas mostrada na figura 4.2.
Uma observacao que nos chama fortemente a atencao neste grafico e que para todos os
eventos, exceto dardos, ha um outlier bem afastado dos outros valores, ou seja, alguma atleta
que foi muito mal em relacao as outras em seis das provas. Observando a tabela de dados, vemos
que esse outlier corresponde a atleta de Papua Nova Guine (PNG), que terminou a competicao
2A ideia consta no livro Chang (2013) e e baseada no comando do R corrplot do pacote de mesmo nomeWei (2013).
3Entre outros criterios - ver (Wei, 2013), existe o criterio de ordenacao das variaveis no grafico de correlacoespela primeira componente principal. E este o criterio que vamos utilizar em todos os graficos de correlacaodeste trabalho. Vamos voltar a fazer referencia a esta nota de rodape depois de fazermos a ACP dos dados doheptatlo.
4Neste capıtulo de analises de dados, vamos colocar o grafico de correlacoes junto a todas as matrizes decorrelacoes
79
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1lon
gjum
p
hurd
les
run2
00m
highju
mp
run8
00m
shot
javeli
n
longjump
hurdles
run200m
highjump
run800m
shot
javelin
1
0.91
0.82
0.78
0.7
0.74
0.07
0.91
1
0.77
0.81
0.78
0.65
0.01
0.82
0.77
1
0.49
0.62
0.68
0.33
0.78
0.81
0.49
1
0.59
0.44
0
0.7
0.78
0.62
0.59
1
0.42
−0.02
0.74
0.65
0.68
0.44
0.42
1
0.27
0.07
0.01
0.33
0
−0.02
0.27
1
Figura 4.1: Correlacoes do heptatlo.
em ultimo lugar segundo o escore oficial. Mas surpreendentemente, nos diagramas de dispersao
envolvendo os dardos, e esta mesma atleta que se destaca das demais, mas agora ela se destaca
por ter a terceira pontuacao mais alta nesta prova. Destarte, podemos utilizar um expediente ao
qual ja estamos bem acostumados em analise de dados: vamos refazer a matriz de correlacoes e
a matriz de diagramas de dispersao, apos removermos a competidora de PNG:
Tabela 4.4: Matriz de correlacoes do heptatlo feminino apos remocao de outlier (atleta de PNG).
hurdles highjump shot run200m longjump javelin run800mhurdles 1,00 0,58 0,77 0,83 0,89 0,33 0,56
highjump 0,58 1,00 0,46 0,39 0,66 0,35 0,15shot 0,77 0,46 1,00 0,67 0,78 0,34 0,41
run200m 0,83 0,39 0,67 1,00 0,81 0,47 0,57longjump 0,89 0,66 0,78 0,81 1,00 0,29 0,52
javelin 0,33 0,35 0,34 0,47 0,29 1,00 0,26run800m 0,56 0,15 0,41 0,57 0,52 0,26 1,00
A nova matriz de diagramas de dispersao e exibida na figura 4.4. Varias das correlacoes
mudaram, em especial aquelas envolvendo a prova de dardos, onde correlacoes antes muito pe-
80
hurdles
1.50 1.70
●●●
●●●
●●●
●
●
●
●●● ●
●
●●
●●●
●●
●
●●●
●●●
●●●
●
●
●
● ●● ●
●
●●
●● ●
●●
●
0 1 2 3 4
●●●
●●●●
●●●
●
●
●●●●
●
●●
●●●
●●
●
●●●
●●●●●●
●
●
●
●●● ●
●
●●
●●●
●●
●
36 40 44
●●●
● ●●
●● ●
●
●
●
●●●●
●
●●
●●●
●●
● 01
23
●●●
● ●●
●●●
●
●
●
●● ●●
●
●●
●●●
●●
●
1.50
1.70
●
●●
●
●
●●●
●
●
●
●
●●●
●
●●
●
●●
●●
●
●
highjump
●
●●
●
●
●● ●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●●●
●
●
●
●
●●●
●
●●
●
●●
●●
●
●
●
●●
●
●
●●●
●
●
●
●
●●●
●
●●
●
●●
●●●
●
●
●●
●
●
●●●
●
●
●
●
●●
●
●
●●
●
● ●
●●●
●
●
●●
●
●
●●●
●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●●
●
●●
●●
●●
●● ●
●
●
●
●
●●●
●●
●
●
●
●
●●
●
●●
●●
●●
●●●
●
●
●
●
●●●
●●
●
●
●
●
shot
●●
●
●●
●●
●●
●● ●
●
●
●
●
● ●●
●●
●
●
●
●
●●
●
●●
●●
●●
●●●
●
●
●
●
●●●
●●
●
●
●
●
●●
●
●●
●●
● ●
●● ●
●
●
●
●
● ●●
● ●
●
●
●
●
1013
16●●
●
●●
●●
●●
●●●
●
●
●
●
●● ●
●●
●
●
●
●
01
23
4 ●
●
●
●●
●
●
●●
●
●
●
●●●
●
●
●●
●●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●●●●
●
●●
●●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
● ●●●
●
●●
●●●
●
●●
run200m
●
●
●
●●
●
●
●●
●
●
●
●●●
●
●
●●
●●●●
●●
●
●
●
● ●
●
●
●●
●
●
●
●●●●
●
●●
● ●●
●
●●
●
●
●
● ●
●
●
●●
●
●
●
●● ●●
●
● ●
●●●
●
●●
●
●●
●●● ●●
●●● ●
●●●
● ●●●●
●●●●
●
●
●●
●● ●●●
●● ●●
●●●
●●●●
●●
●●●
●
●
●●
●●●● ●
●●●●
● ●●
●●●●
●●
●● ●
●
●
● ●
●●● ●●
●●● ●
●●●
●●●●
●●●●●
●
longjump
●
● ●
● ●●●●
●●● ●
●●●
●●●●
●●●●●
● 5.0
6.0
7.0●
●●
● ●●●●
●●●●
●● ●
● ●● ●
●●
● ●●
●
3640
44
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
● ●● ●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●●●
●
javelin
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●● ●●
●
0 1 2 3
●●
●
●●
●
●●● ●
● ●●
●
●
●
●
●
●●●
●
●●
●
●●
●
●●
●
●●●●
●●●
●
●
●
●
●
●●●
●
●●
●
10 13 16
●●
●
●●
●
● ●●●
●●●
●
●
●
●
●
●●●
●
●●
●
●●
●
●●
●
●●● ●
● ●●
●
●
●
●
●
●●●
●
●●
●
5.0 6.0 7.0
●●●
●●●
●●●●
●●●
●
●
●
●
●
●●●
●
●●
●
●●
●
●●
●
●●●●
● ●●
●
●
●
●
●
●● ●
●
●●
●
0 20 40
020
40
run800m
Figura 4.2: Matriz de diagramas de dispersao das sete provas do heptatlo apos transformacao de3 variaveis de sorte que, para todas as provas, pontuacao alta e indicativa de melhor performance.
81
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1hurd
les
longju
mp
run2
00m
shot
highju
mp
run8
00m
javeli
n
hurdles
longjump
run200m
shot
highjump
run800m
javelin
1
0.89
0.83
0.77
0.58
0.56
0.33
0.89
1
0.81
0.78
0.66
0.52
0.29
0.83
0.81
1
0.67
0.39
0.57
0.47
0.77
0.78
0.67
1
0.46
0.41
0.34
0.58
0.66
0.39
0.46
1
0.15
0.35
0.56
0.52
0.57
0.41
0.15
1
0.26
0.33
0.29
0.47
0.34
0.35
0.26
1
Figura 4.3: Correlacoes do heptatlo - sem a atleta de PNG.
quenas aumentaram consideravelmente. Dada a mudanca geral consideravel na matriz(e grafico)
de correlacoes omitindo-se a atleta de PNG, vamos extrair as componentes principais dos dados da
matriz de correlacoes apos essa omissao. Os resultados da ACP (cargas e proporcao cumulativa
das variancias explicadas) estao nas tabelas 4.5 e 4.65.
Tabela 4.5: Matriz de cargas da ACP do heptatlo feminino, com a atleta de PNG retirada epadronizacao das variaveis.
CP1 CP2 CP3 CP4 CP5 CP6 CP7hurdles -0,4504 0,0577 -0,1739 0,0484 -0,1989 0,8467 -0,0696
highjump -0,3145 -0,6513 -0,2088 -0,5569 0,0708 -0,0901 0,3316shot -0,4025 -0,0220 -0,1535 0,5483 0,6717 -0,0989 0,2290
run200m -0,4271 0,1850 0,1301 0,2310 -0,6178 -0,3328 0,4697longjump -0,4510 -0,0249 -0,2698 -0,0147 -0,1215 -0,3829 -0,7494
javelin -0,2423 -0,3257 0,8807 0,0602 0,0787 0,0719 -0,2111run800m -0,3029 0,6565 0,1930 -0,5742 0,3188 -0,0522 0,0772
5Observe como a ordem das variaveis no grafico de correlacoes das figuras 4.1 e 4.3 se ordenam de acordo comos pesos das cargas da primeira componente principal.
82
hurdles
1.70 1.80
●●
●
●●
●
●● ●
●
●
●
●●●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●●●
●
●
●
●●●
●
●
●
●
●
● ●
●
●
0 1 2 3 4
●●
●
●●
●
●●●
●
●
●
●●●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●●●
●
●
●
●●●
●
●
●
●
●
●●
●
●
36 40 44
●●
●
●●
●
●● ●
●
●
●
●●●
●
●
●
●
●
●●
●
●
1.5
2.5
3.5●
●
●
●●
●
●●●
●
●
●
●● ●
●
●
●
●
●
●●
●
●
1.70
1.80
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
highjump
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●● ●
●
●
●
●
●●●
●●
●
●
●
●●
●
●●
●
●
● ●
●●●
●
●
●
●
● ●●
●●
●
●
●
shot
●●
●
●●
●
●
●●
●● ●
●
●
●
●
● ●●
●●
●
●
●
●●
●
●●
●
●
●●
●●●
●
●
●
●
●●●
●●
●
●
●
●●
●
●●
●
●
● ●
●● ●
●
●
●
●
● ●●
● ●
●
●
●
1013
16●●
●
●●
●
●
●●
●●●
●
●
●
●
●● ●
●●
●
●
●
01
23
4 ●
●
●
●●
●
●
●●
●
●
●
●●●
●
●
●●
●●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●●
●
●
●●
●●●
●
●
●
●
●
●●
●
●
●●
●
●
●
● ●●
●
●
●●
●●●
●
●
run200m
●
●
●
●●
●
●
●●
●
●
●
●●●
●
●
●●
●●●●
●
●
●
●
● ●
●
●
●●
●
●
●
●●●
●
●
●●
● ●●
●
●
●
●
●
● ●
●
●
●●
●
●
●
●●●
●
●
● ●
●●●
●
●
●
●●
●●● ●●
●●● ●
●●●
● ●
●●●
●
●● ●
●
● ●
●● ●●●
●● ●●
●●●
●●
●●●
●
●● ●
●
●●
●●●●●
●●●●
● ●●
●●
●●●
●
●● ●
●
● ●
●●● ●●
●●● ●
●●●
●●
●●●
●
●●●
longjump
●
● ●
● ●●●●
●●● ●
●●●
●●
●●●
●
●●● 5.5
6.5
●
● ●
● ● ●●●
●● ●●
●● ●
● ●
● ●●
●
● ●●
3640
44
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●●
javelin
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●●
1.5 2.5 3.5
●
●●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●●
●
●●
10 13 16
●
●●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●●
●
●●
5.5 6.5
●
●●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
● ●
●
●●
20 30 40
2030
40
run800m
Figura 4.4: Matriz de diagramas de dispersao das sete provas do heptatlo apos transformacao ecom a retirada do outlier representado pela atleta de Papua Nova Guine (PNG).
Tabela 4.6: ACP do heptatlo feminino, com a atleta de PNG retirada e padronizacao das variaveis.
PC1 PC2 PC3 PC4 PC5 PC6 PC7DP 2,0793 0,9482 0,9109 0,6832 0,5462 0,3375 0,2620
Prop. da variancia 0,6177 0,1284 0,1185 0,0667 0,0426 0,0163 0,0098Prop. acumulada 0,6177 0,7461 0,8646 0,9313 0,9739 0,9902 1,0000
83
Analisando a tabela de cargas, temos que na primeira coluna (referente a primeira compo-
nente principal), os maiores coeficientes (pesos) da combinacao linear sao dados para corrida de
obstaculos (hurdles) e salto em distancia (longjump). Vemos que a prova de dardos possui menor
peso. Isso e sem duvida uma descoberta interessante, e ja aprendemos algo sobre a estrutura da
pontuacao utilizando a tecnica ACP.
Prosseguindo na analise, agora voltamos nosso interesse para os escores das componentes
principais, que afinal podem ser um substituto (ou uma alternativa) ao sistema oficial de pon-
tuacao geral da prova do heptatlo. Vimos, na secao 2.9, que o escore da componente principal
k, 1 ≤ k ≤ q, considerando os vetores de cargas com dimensao q× 1 e o valor xi de um indivıduo
tambem um vetor com dimensao q × 1, e dado por yik = aTkxi. Logo, o escore da k-esima
componente principal e dado por yk = aTkX, ou entao como faz o R, colocando o escore em
vetor-coluna, yk = XTak.
Dito isto, enfim temos os escores da CP1 (1a componente pricipal) na tabela 4.7:
Tabela 4.7: Escores da primeira CP do heptatlo feminino, com a atleta de PNG retirada epadronizacao das variaveis.
Atleta Escore PC1 Atleta Escore PC1Joyner-Kersee (USA) -4,76 Scheider (SWI) 0,00
John (GDR) -3,15 Braun (FRG) 0,11Behmer (GDR) -2,93 Ruotsalainen (FIN) 0,21
Sablovskaite (URS) -1,29 Yuping (CHN) 0,23Choubenkova (URS) -1,50 Hagger (GB) 0,66
Schulz (GDR) -0,96 Brown (USA) 0,76Fleming (AUS) -0,95 Mulliner (GB) 1,88Greiner (USA) -0,63 Hautenauve (BEL) 1,83
Lajbnerova (CZE) -0,38 Kytola (FIN) 2,12Bouraga (URS) -0,52 Geremias (BRA) 2,77Wijnsma (HOL) -0,22 Hui-Ing (TAI) 3,90
Dimitrova (BUL) -1,08 Jeong-Mi (KOR) 3,90
As primeiras duas componentes abarcam 75% da variancia. Um grafico de colunas (mostrado
na figura 4.5) da variancia de cada componente mostra como as primeiras duas componentes
principais “dominam” grande parte da variacao dos dados. Na figura 4.5, inserimos duas linhas
que correspondem aos criterios de Kaiser e Jolliffe (vistos na secao 2.8). Pelo criterio de Kaiser,
apenas a primeira componente principal seria retida; pelo criterio de Jolliffe, as tres primeiras
componentes principais seriam retidas.
84
Var
ianc
es
01
23
45
0.7
1
KaiserJolliffe
Figura 4.5: Variancias explicadas pelas CP (com as observacoes da atleta de PNG removidas).
Uma outra representacao grafica interessante quanto a decisao de quantas componentes reter
esta na figura 4.6. Temos, no mesmo grafico, o criterio de Kaiser, o criterio de Cattell (scree
plot) e o criterio da analise paralela. Os tres criterios indicam reter apenas a primeira componente
principal.
Apenas uma componente principal explica cerca de 62% da variancia dos dados; 2 componen-
tes principais explicam cerca de 75% da variancia, e com 3 componentes principais temos mais
de 86% da variancia dos dados.
Podemos finalmente verificar se os escores da primeira componente principal sao bons substi-
tutos para o sistema oficial de pontuacao da prova olımpica. Basta simplesmente calcularmos a
correlacao entre estes dois vetores. O resultado e -0,99 o que indica uma associacao linear quase
perfeita.
Isto implica que a primeira componente principal esta em enorme concordancia com o sistema
85
1 2 3 4 5 6 7 8
01
23
45
Component Number
eige
n va
lues
of p
rinci
pal c
ompo
nent
s
KaiserCattellAn. Paralela
Figura 4.6: Escolhendo o numero de comp. principais dos dados do heptatlo - os criterios deKaiser, Cattell e analise paralela ajudam a determinar o numero de componentes a reter. Nocaso, os 3 criterios indicam reter apenas a primeira CP.
86
oficial de pontuacao; um diagrama de dispersao da pontuacao oficial e dos escores da primeira
componente principal e exibido na figura 4.7 (o fato de que a correlacao e negativa nao importa,
de acordo com o que comentamos na parte teorica: os sinais das cargas - e consequentemente
dos escores - sao arbitrarios. A magnitude da correlacao e o mais importante aqui).
●
●
●
●
●
●●
●
●●
●
●
●●●●
●●
●●
●
●
●●
5500 6000 6500 7000
−4
−2
02
4
Pontuação oficial
Esc
ore
da 1
ª C
P
Figura 4.7: Diagrama de dispersao dos escores da primeira componente principal versus escoresdo sistema oficial de pontuacao da prova do heptatlo.
Vamos agora fazer o biplot para os dados do heptatlo. Conforme explicado na secao 2.10, o bi-
plot e uma ferramenta muito util para se visualizar, no mesmo grafico, variancias e covariancias das
variaveis num conjunto de eixos rotacionados (no caso, as duas primeiras componentes principais)
juntamente com a representacao espacial em baixa dimensao do conjunto de pontos multivariados
(basicamente representando a distancia generalizada entre as unidades - atletas nesta analise).
Na figura 4.8, temos o biplot para os dados do heptatlo olımpico feminino (retirando-se a atleta
PNG que representa um outlier do conjunto de dados). Podemos ver, no biplot, que a vencedora
da competicao, Jackie-Joyner Kersee, acumula a maioria de seus pontos nos tres eventos: salto
em altura(long jump), corrida de obstaculos (hurdles) e corrida de 200m. Talvez a explicacao para
este fato venha de outra informacao muito interessante que podemos obter tambem a partir do
biplot: estas tres provas citadas sao variaveis altamente correlacionadas. Com isso, especialistas
em atletismo (especificamente em heptatlo feminino) podem investigar o que os dados sugerem:
o treinamento em uma destas tres modalidades pode influenciar no treinamento das duas outras,
87
e o exemplo vivo desta sugestao esta na vencedora da prova.
Podemos observar mais a partir do biplot: o resultado da corrida de 800m tem correlacao
relativamente baixa com todas as outras provas, sendo praticamente nao correlacionada com as
provas de salto em altura e arremesso de dardo.
Quanto a interpretacao das componentes, podemos observar claramente que a primeira com-
ponente ordena as competidoras pelo seu resultado global do heptatlo; a segunda componente
(embora nao seja tao simples de interpretar quanto a primeira componente principal) pode ser
vista como a ordenante dos melhores eventos de cada atleta. Por exemplo, John, Choubenkova
e Behmer estao posicionadas perto do fim do vetor que representa a corrida de 800m, pois foi
nesta prova em que elas foram relativamente melhor. Analogamente, pelo que vemos no biplot,
Yuping, Scheider e Braun tiveram (relativo) bom desempenho no salto em altura.
4.2.2 Climatologia: Poluicao atmosferica em cidades dos EUA
Nesta subsecao, vamos retornar aos dados de poluicao do ar introduzidos no capıtulo 1 (os dados
estao na tabela 1.5). Os dados originalmente foram coletados para se investigar os determinantes
da poluicao atmosferica, provavelmente modelando uma regressao da variavel SO2 segundo as
outras seis, tomadas como regressoras. Contudo, aqui neste trabalho vamos examinar como a
ACP pode ser aplicada para explorar varios aspectos dos dados, e entao aprendermos como tal
analise tambem pode ser usada para atacar a questao dos determinantes da poluicao atmosferica.
Inicialmente, vamos ignorar a variavel S02 e nos concentrar nas demais, duas das quais rela-
cionadas a ecologia humana (popul, manu) e quatro ao clima (temp, Wind, precip, predays).
Podemos fazer uma transformacao que nos sera util posteriormente. Consiste em usar valores
negativos de temperatura de sorte que valores altos representam um ambiente menos atrativo.
Antes de procedermos a ACP dos dados de poluicao, vamos construir a matriz de diagramas
de dispersao, incluindo os histogramas para cada variavel na diagonal principal. O grafico esta na
figura 4.9.
Observando a matriz de diagramas de dispersao, percebemos que ha pelo menos uma cidade
- provavelmente mais de uma - que deve ser considerada um outlier. Na variavel manu, por exem-
88
−0.4 −0.2 0.0 0.2 0.4 0.6
−0.
4−
0.3
−0.
2−
0.1
0.0
0.1
0.2
1ª Comp.
2ª C
omp.
Jy−K
John
Bhmr
Sblv
Chbn
Schl
FlmnGrnr
Ljbn
Borg
Wjns
Dmtr
Schd
Bran
Rtsl
Ypng
Hggr
Brwn
Mlln
Htnv
Kytl
Grms
H−In
Jn−M
−6 −4 −2 0 2 4 6 8
−4
−2
02
hurdles
highjump
shot
run200m
longjump
javelin
run800m
Figura 4.8: Biplot das duas componentes principais (escalonadas e sem a atleta de PNG) doheptatlo.
89
manu
0 1500 3000
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●●●
●●
●●●●
●
●●●
●●
●●
●
●
●● ●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●● ●
●
●●
● ●●●
●
●● ●
● ●
● ●
●
●
●●
10 30 50
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●● ●
●
●●
● ●●●
●
●● ●
●●
● ●
●
●
● ● ●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●●
●
●●
●●●●
●
●●●
●●
● ●
●
●
● ●
−75 −60 −45
015
0030
00
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●●
●
●●
●●● ●
●
●●●
● ●
● ●
●
●
● ●
015
0030
00
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
●●
●
●●
●●●●
●
●●
●●
●
●● ●●
●●
popul
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
● ●
●
●●
● ● ●●
●
● ●
●●
●
●●●●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
● ●
●
●●
● ●●●
●
● ●
●●
●
●●●●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●●
●
● ●
●●●●
●
● ●
●●
●
●●●
●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
●●
●
● ●
●● ● ●
●
● ●
●●
●
●●●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●●
●
●
●
●
●
● ●
● ●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●●
●
●
●
●
●
● ●
●●●
●
●
wind
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
● ●
●●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●●●
●
●
68
1012
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●●●
●
●
1030
50
●
●
●
●
●
●
●
●
●● ●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
precip●
●
●
●
●
●
●
●
●●●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●●
●●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●●
●●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●●
●●
●
●
●●
●
●● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
● ●
●
●●
● ●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●
predays
4080
140
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●●
●●
●
●
●●
●
●● ●
●
●
●
●
●
●
●
●
●
●●
●
●
0 1500 3000
−75
−60
−45
●
●
●
●
●
●
●
●
●●
●
●
● ●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
6 8 10 12
●
●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●●●
●
40 80 140
●
●
●
●
●
●
●
●
●●
●
●
● ●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
negtemp
Figura 4.9: Matriz de diagramas de dispersao de 6 variaveis dos dados de poluicao do ar.
90
plo, Chicago, com um valor de 3344, tem por volta de duas vezes mais industrias que empregam
pelo menos 20 trabalhadores do que a cidade em segundo lugar (Filadelfia). Retornaremos a este
problema em potencial mais tarde, mas no momento vamos fazer a ACP dos dados para todas
as 41 cidades.
Observando os dados que estao na tabela 1.5, parece necessario extrair as componentes da
matriz de correlacoes e nao da matriz de covariancias, pois as 6 variaveis que serao usadas estao
em escalas muito diferentes. A matriz de correlacoes e os resultados da ACP estao nas tabelas
4.8, 4.9 e 4.10. O grafico de correlacoes esta na figura 4.10.
Tabela 4.8: Matriz de correlacoes das 6 variaveis (exceto SO2) dos dados de poluicao.
manu popul wind precip predays negtempmanu 1,00 1,00 0,00 -0,00 0,00 0,00popul 1,00 1,00 0,00 -0,00 0,00 0,00wind 0,00 0,00 1,00 -0,00 0,00 0,00
precip -0,00 -0,00 -0,00 1,00 0,00 -0,00predays 0,00 0,00 0,00 0,00 1,00 0,00
negtemp 0,00 0,00 0,00 -0,00 0,00 1,00
Tabela 4.9: Desvios-padrao e variancias acumuladas da ACP dos dados de poluicao.
CP1 CP2 CP3 CP4 CP5 CP6D,padrao 1,48 1,22 1,18 0,87 0,34 0,19Prop. var 0,37 0,25 0,23 0,13 0,02 0,01
Var. acumulada 0,37 0,62 0,85 0,98 0,99 1,00
Tabela 4.10: Matriz de cargas da ACP dos dados de poluicao.
CP1 CP2 CP3 CP4 CP5 CP6manu -0,61 0,17 -0,27 -0,14 0,10 0,70popul -0,58 0,22 -0,35 -0,69wind -0,35 -0,13 0,30 0,87 -0,11
precip -0,62 -0,50 0,17 0,57predays -0,24 -0,71 -0,31 -0,58
negtemp -0,33 -0,13 0,67 -0,31 0,56 -0,14
Um ponto que tem de ser comentado sobre as correlacoes sao os valores muito altos para manu
e popul, descoberta essa que voltaremos a comentar um pouco mais a frente. Vemos que as
91
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1m
anu
popu
l
wind negt
emp
pred
ays
prec
ip
manu
popul
wind
negtemp
predays
precip
1
0.96
0.24
0.19
0.13
−0.03
0.96
1
0.21
0.06
0.04
−0.03
0.24
0.21
1
0.35
0.16
−0.01
0.19
0.06
0.35
1
0.43
−0.39
0.13
0.04
0.16
0.43
1
0.5
−0.03
−0.03
−0.01
−0.39
0.5
1
Figura 4.10: Correlacoes das 6 variaveis (exceto SO2) dos dados de poluicao.
primeiras tres componentes tem variancias (autovalores) maiores que 1, e juntas agregam quase
85% da variancia das variaveis originais. Os escores destas tres componentes podem ser usados
para fazer o grafico dos dados com pouca perda de informacao. Iremos ilustrar esta possibilidade
um pouco mais a frente.
Mas antes, vamos aproveitar esta analise para fazermos um breve comentario sobre a inter-
pretacao das componentes principais. Nao o fizemos antes pois estavamos justamente esperando
uma analise de dados interessante para contextualizar tais comentarios.
E comum procurarmos interpretar as componentes principais que nos permitam “rotula-las”
em algum sentido. Isto requer examinar as cargas (na saıda exibida na tabela 4.10, as cargas
estao escalonadas de forma que a soma de quadrados e unitaria, e valores nulos indicam valores
muito proximos de zero). Vemos que a primeira componente pode ser considerada como algum
ındice de “qualidade de vida”, com valores altos indicando um ambiente relativamente pobre. A
segunda componente e muito focada com a quantidade de chuva de uma cidade, com altos valo-
res para precip e predays e pode ser rotulada como a componente “clima umido”. A terceira
92
componente e essencialmente um contraste entre precip e negtemp e separa cidades com altas
temperaturas e alto ındice pluviometrico daquelas mais frias e secas. Um rotulo adequado pode
ser simplesmente “tipo de clima”.
Tentar rotular as componentes neste sentido e comum, mas talvez devesse ser um pouco
menos. A seguinte citacao de Marriot (1974) deveria ser um aviso salutar sobre os perigos da
“interpretacao excessiva”:
Deve ser enfatizado que nenhum metodo matematico e, ou pode ser, planejado
para fornecer resultados fisicamente significativos. Se uma expressao matematica
deste tipo tiver um significado fısico obvio, isto deve ser atribuıdo a um lance de sorte,
ou ao fato de que os dados tem uma estrutura fortemente marcada que apareca na
analise. Mesmo neste ultimo caso, ate mesmo flutuacoes aleatorias bem pequenas
podem frustrar a interpretacao; por exemplo, as primeiras duas componentes principais
podem aparecer em ordem invertida, ou podem ser confundidas uma com a outra.
Interpretacacao requer consideravel habilidade e experiencia, se se deseja obter um
verdadeiro cenario do significado fısico dos dados.
Mesmo que nao nos importemos em rotular as tres componentes, elas ainda podem ser usa-
das como base de varias exibicoes graficas das cidades. De fato, este e frequentemente um dos
aspectos mais uteis de uma ACP, pois considerando-a como meio de fornecer uma visualizacao
informativa de dados multivariados, tem-se a vantagem de tornar menos urgente tentar inter-
pretar e rotular as componentes. Os escores das primeiras poucas componentes fornecem um
“mapa” de baixa dimensao das observacoes nas quais as distancias euclidianas entre os pontos
que representam os indivıduos melhor aproximam, em algum sentido, as distancias euclidianas
entre os indivıduos baseadas nas observacoes originais. Neste sentido, ACP se iguala ao cMDS,
como vimos.
Continuando a analise, vamos olhar para a matriz de diagramas de dispersao das 3 primeiras
componentes principais, e em cada painel mostramos o respectivo boxplot bivariado; os pontos
sao rotulados pelos nomes abreviados das cidades. O grafico e mostrado na figura 4.11.
O grafico demonstra claramente que Chicago e um outlier e sugere que Phoenix e Filadelfia
tambem sao suspeitos de o serem. Phoenix parece oferecer a melhor qualidade de vida, e Buffalo
93
Comp.1
−6 −4 −2 0 2 4
Albn
Albq
Atln
Bltm
Bffl
Chrl
Chcg
Cncn
Clvl
Clmb DllsDnvrDsMn
Dtrt
Hrtf
HstnIndn
Jcks
KnsC
LttR
LsvlMmph
Miam
MlwkMnnp
NshvNwOr
NrflOmah
Phld
Phnx
PttsPrvd
RchmSlLC
SnFr
Sttl St.LWshnWcht
Wlmn●
●
●
●
●
●
●
●
●
● ●●●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●●
●
●●
● ●
●
−6
−4
−2
02
4
Albn
Albq
Atln
Bltm
Bffl
Chrl
Chcg
Cncn
Clvl
ClmbDlls DnvrDsMn
Dtrt
Hrtf
Hstn Indn
Jcks
KnsC
LttR
LsvlMmph
Miam
MlwkMnnp
NshvNwOr
NrflOmah
Phld
Phnx
PttsPrvd
RchmSlLC
SnFr
SttlSt.LWshn Wcht
Wlmn●
●
●
●
●
●
●
●
●
●●● ●
●
●
●●
●
●
●
●●
●
●●
●
●
●●
●
●
●●
●●
●
●●
● ●
●
−6
−4
−2
02
4
Albn
Albq
AtlnBltm
Bffl
Chrl
Chcg
CncnClvl
Clmb
Dlls
Dnvr
DsMnDtrt
Hrtf
HstnIndn
Jcks
KnsC
LttRLsvlMmph
Miam
MlwkMnnpNshv
NwOrNrfl
OmahPhld
Phnx
PttsPrvd
Rchm
SlLC
SnFr
Sttl
St.LWshn
Wcht
Wlmn●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●●●
●
●●●
●●
●●
●
●●
●
●
●
●
●●
●
● Comp.2 Albn
Albq
AtlnBltm
Bffl
Chrl
Chcg
CncnClvl
Clmb
Dlls
Dnvr
DsMnDtrt
Hrtf
HstnIndn
Jcks
KnsC
LttRLsvlMmph
Miam
MlwkMnnpNshv
NwOr Nrfl
OmahPhld
Phnx
PttsPrvd
Rchm
SlLC
SnFr
Sttl
St.LWshn
Wcht
Wlmn●
●
●
●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●●●
● ●
●●
●
●●
●
●
●
●
●●
●
●
−6 −4 −2 0 2 4
Albn Albq
Atln
Bltm
Bffl
Chrl
Chcg
Cncn
ClvlClmb
Dlls
DnvrDsMn
DtrtHrtf
Hstn
Indn
Jcks
KnsC
LttRLsvl
Mmph
Miam
MlwkMnnp
Nshv
NwOr
Nrfl
Omah
PhldPhnx
PttsPrvd
Rchm
SlLC
SnFrSttl
St.LWshn
Wcht
Wlmn
● ●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●●
●
●
●●
●●
●
●
Albn Albq
Atln
Bltm
Bffl
Chrl
Chcg
Cncn
ClvlClmb
Dlls
DnvrDsMn
DtrtHrtf
Hstn
Indn
Jcks
KnsC
LttRLsvl
Mmph
Miam
MlwkMnnp
Nshv
NwOr
Nrfl
Omah
PhldPhnx
PttsPrvd
Rchm
SlLC
SnFrSttl
St.LWshn
Wcht
Wlmn
● ●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●●
●
●
●●
●●
●
●
−6 −4 −2 0 2 4
−6
−4
−2
02
4
Comp.3
Figura 4.11: Boxplots bivariados das 3 primeiras componentes principais.
94
e uma cidade a se evitar caso se prefira um ambiente pouco umido.
Vamos agora considerar o principal objetivo que o pesquisador tinha em mente ao coletar dados
de poluicao atmosferica: determinar quais das variaveis climaticas e eutroficas6 sao as melhores
preditoras do grau de poluicao atmosferica em uma cidade, grau este medido pelo conteudo de
dioxido de enxofre (SO2) no ar. Como ja comentamos, normalmente esta questao seria atacada
por regressao multipla. Contudo, ha um problema potencial em aplicar regressao aos dados
de poluicao: multicolinearidade. Podemos ver, no grafico e tabela de correlacoes, que ha uma
alta correlacao entre as variaveis manu e popul. Podemos, e claro, lidar com este problema
simplesmente excluindo uma das duas variaveis, mas aqui iremos considerar uma interessante
abordagem alternativa: fazer a regressao dos nıveis de S02 nas componentes principais obtidas
das seis outras variaveis (ver figura 4.12).
Utilizar componentes principais em analise de regressao e discutida em detalhes em, por exem-
plo, Jolliffe (2002); aqui estamos fazendo um exemplo bem simples. A primeira questao que preci-
samos responder e “quantas componentes principais devem ser usadas como variaveis explicativas
na regressao?” A resposta obvia a esta questao e usar o numero de componentes principais que
identificamos como importantes na analise original; por exemplo, aquelas com autovalores maiores
que 1. Mas devemos ter cuidado: Jolliffe (2002) da um exemplo com 13 variaveis regressoras,
logo 13 componentes principais a considerar, das quais somente as 4 primeiras tem variancia
maior que 1. Contudo, ao usar todas as componentes principais como regressoras, observa-se que
a componente principal 12, com variancia 0.04 e uma preditora significativa da variavel resposta.
Destarte, tendo em mente este exemplo, vamos fazer a regressao da variavel SO2 em todas as 6
componentes principais. Vamos colocar a saıda da regressao feita no R:
Claramente, o escore da primeira componente principal e a mais preditiva da concentracao de
SO2, porem claramente vemos que as componentes principais com menor variancia nao necessa-
riamente terao menor correlacao com a resposta. Por exemplo, as componentes 4 e 6 sao sao
significativas para a regressao, ao passo que as componentes 2 e 3 nao o sao
6Grosso modo, “de influencia humana”.
95
●
●
●
●
●
●
●
●
●
●● ●●
●
●
● ●
●
●
●
●●
●
● ●
●●
●●
●
●
●●
●●
●
● ●●●
●
20 40 60 80 100
−6
−4
−2
02
PC1
Con
cent
raçã
o de
SO
2
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ●●
● ●
●●
●
● ●
●
●
●
●
●●
●
●
20 40 60 80 100
−2
01
23
4
PC2
Con
cent
raçã
o de
SO
2
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
20 40 60 80 100
−2
−1
01
PC3
Con
cent
raçã
o de
SO
2
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
20 40 60 80 100−
2−
10
12
PC4
Con
cent
raçã
o de
SO
2
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●●
●
20 40 60 80 100
−0.
60.
00.
4
PC5
Con
cent
raçã
o de
SO
2
●
●●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●●
20 40 60 80 100
−0.
40.
00.
4
PC6
Con
cent
raçã
o de
SO
2
Figura 4.12: Concentracao de SO2 dependendo das componentes principais.
Tabela 4.11: Resultados da regressao dos dados de poluicao (variavel resposta SO2) sobre ascomponentes principais obtidas de antemao.
Coeficiente Estimativa DP valor t SignificanciaIntercepto 30,05 2,29 13,15 6,91e-15
CP1 -9,94 1,54 -6,45 2,28e-07CP2 -2,24 1,87 -1,20 0,24CP3 -0,38 1,94 -0,19 0,85CP4 -8,55 2,62 -3,26 0,002CP5 15,18 6,75 2,25 0,031CP6 39,27 12,32 3,19 0,003
96
4.3 Analises de dados utilizando MDS
4.3.1 Um “mapa” do Brasil: solucao cMDS de distancias entre as 26 capitais brasi-
leiras
Vamos aqui utlizar cMDS para fazer uma “reconstrucao” de um mapa geografico. Sabemos que,
dado um mapa geografico, junto a escala do mapa podemos, com uma regua, obter facilmente
qualquer distancia entre duas localidades (“pontos”) neste mapa; agora vamos considerar o pro-
blema inverso: suponhamos que tenhamos a distancia (em linha “reta”7) entre alguns pontos;
desejamos, a partir destas distancias dadas, obter um mapa, ou seja, uma configuracao espacial
que represente estas distancias.
Esta e a ideia da analise desta subsecao: vamos utilizar cMDS para obter uma representacao
espacial de baixa dimensao (2 para termos uma representacao espacial usual de um mapa). As
distancias que temos sao as distancias geodesicas (em linha “reta”) entre as 26 capitais brasileiras
mais o distrito federal. Assim, estas distancias nao sao euclidianas. Temos, entao, na tabela 4.12,
as C27,2 = 351 distancias calculadas8.
7Colocamos o termo reta entre aspas pois tecnicamente as distancias entre dois pontos medidas da terradefinem-se como geodesicas. Segundo Gowers (2008), pag. 47, geodesica e
(...) o analogo, para a geometria Riemanniana, da linha reta da geometria euclidiana. Uma curvaC e uma geodesica se, dados dois pontos P e Q suficientemente proximos, o menor caminho de Pate Q e parte de C. Na esfera, as geodesicas sao os cırculos maximos (para uma definicao de cırculomaximo, ver, por exemplo (Weisstein, n.d.))
.
8Calculamos tais distancias no website http://distanciacidades.com/
97
Tab
ela
4.12
:M
atri
zde
dist
anci
as(e
uclid
iana
s)en
tre
26ca
pita
isbr
asile
iras
+D
F.
RIO
SP
OB
HZ
VIT
CT
BF
LN
PO
AC
BA
CG
RG
OIB
RA
SA
LA
JUM
CO
RE
CJP
AN
TL
FO
RT
SN
SL
SP
MS
BE
LM
AN
PV
HB
VS
MC
PR
BR
RIO
0S
PO
361
0B
HZ
342
491
0V
IT41
674
838
30
CT
B68
033
982
210
830
FL
N75
249
097
511
6825
20
PO
A11
2785
313
4415
4354
837
60
CB
A15
8213
2913
7517
5213
0515
4616
820
CG
R12
1489
312
0714
9477
810
0511
1856
40
GO
I94
181
266
810
2897
312
1714
9974
170
50
BR
A93
387
362
194
610
8213
1516
2174
188
217
80
SA
L12
1114
5796
683
717
8819
3423
0719
2019
0812
2910
590
AJU
1481
1457
1240
1097
2061
2208
2581
2124
2156
1464
1289
274
0M
CO
1676
1935
1445
1284
2267
2409
2783
2310
2359
1664
1488
479
208
0R
EC
1875
2132
1641
1481
2463
2608
2981
2457
2534
1834
1656
675
402
199
0JP
A19
7122
2117
3015
8025
5026
0830
7225
0225
9818
9617
1876
549
129
710
50
NT
L20
9023
2718
3617
0726
5228
0931
8025
3126
6019
5617
7887
961
143
425
615
40
FO
R21
9223
7218
9518
5426
7528
6232
1923
3425
5218
5916
8910
2981
972
962
855
643
40
TS
N19
8420
9516
5517
1423
6725
7829
1418
6621
3614
7113
1499
690
793
393
690
990
949
80
SL
S22
7023
5319
3520
2426
0328
2631
4719
4822
9016
6715
2713
2512
2912
3512
0911
6411
6465
332
80
PM
S15
1214
9211
7514
1116
9319
3122
2310
3213
2372
461
911
1312
3313
8514
9715
2315
2313
0383
796
80
BE
L24
5624
6821
1422
7926
7029
1031
9417
8222
1916
9815
9816
9016
4616
8316
7816
4016
4011
3775
048
397
90
MA
N28
5526
9225
5928
7027
3729
8531
3714
5520
1819
1519
3926
1026
7927
8528
3828
2628
2623
8919
2417
5115
1712
960
PV
H27
1524
6824
8228
4424
1726
4627
1211
4016
4118
1619
0928
1429
5130
9931
9632
0832
0828
6223
6622
8017
1818
9176
10
BV
S34
3724
6831
2334
0333
7736
2737
9421
1226
7625
0825
0630
1630
3130
9731
0930
7630
7625
7021
7419
1919
9814
3766
613
380
MC
P26
9326
6923
5325
5028
4130
8833
4718
2623
1518
7217
9720
0519
7320
1520
0919
7030
7614
5710
8280
811
8533
210
5617
2711
130
RB
R29
9227
1127
9331
6726
0728
1528
2114
1818
3521
4322
5732
1433
6735
2236
2736
4336
4333
1028
1327
3121
3723
4011
5245
216
3021
650
98
Na tabela 4.13, identificamos cada sigla com o respectivo nome da cidade. Agora vamos
Tabela 4.13: Explanacao das siglas das cidades utilizadas no mapa MDS.
Sigla Cidade Sigla CidadeRIO Rio de Janeiro REC Recife
SPO Sao Paulo JPA Joao PessoaBHZ Belo Horizonte NTL NatalVIT Vitoria FOR Fortaleza
CTB Curitiba TSN TeresinaFLN Florianopolis SLS Sao LuısPOA Porto Alegre PMS PalmasCBA Cuiaba BEL BelemCGR Campo Grande MAN ManausGOI Goiania PVH Porto Velho
BRA Brasılia BVS Boa VistaSAL Salvador MCP MacapaAJU Aracaju RBR Rio Branco
MCO Maceio
aplicar cMDS a esta matriz de distancias. As coordenadas obtidas estao na tabela 4.14 (como 13
autovalores sao negativos, exibiremos somente as colunas referente aos autovalores positivos), e
os autovalores estao na tabela 4.15.
Como esperado (dado que aplicamos uma solucao cMDS com distancias euclidianas a distancias
reais geodesicas), alguns autovalores sao negativos. Vamos agora utilizar os criterios P(1)m e
P(2)m para avaliar quantas coordenadas precisaremos para representar adequadamente a matriz de
distancias observadas. Os valores dos dois criterios calculados a partir dos autovalores estao na
tabela 4.16.
os valores da tabela 4.16 sugerem que as primeiras 2 coordenadas fornecerao uma repre-
sentacao adequada as distancias observadas. Na figura 4.13, temos o diagrama de dispersao dos
valores das coordenadas bidimensionais da solucao cMDS obtida a partir das distancias dadas na
tabela 4.12.
Para efeito de comparacao, na figura 4.14 exibimos um mapa do Brasil9 juntamente com as
27 capitais.
99
−2000 −1000 0 1000
−20
00−
1000
010
00
Coordenada 1
Coo
rden
ada
2
RIOSPO
BHZVIT
CTB
FLN
POA
CBA
CGR
GOIBRA
SAL
AJU
MCO
RECJPANTL
FOR
TSN
SLS
PMS
BEL
MAN
PVH
BVSMCP
RBR
Figura 4.13: Mapa MDS das distancias (geodesicas) entre as 27 capitais brasileiras.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
Aracaju
Belem
Belo Horizonte
Boa Vista
Campo Grande
Cuiaba
Curitiba
Florianopolis
Fortaleza
Goiania
Joao Pessoa
Macapa
Maceio
Manaus
Natal
Palmas
Porto Alegre
Porto Velho Recife
Rio Branco
Rio de Janeiro
Salvador
Sao Luis
Sao Paulo
Teresina
Vitoria
Figura 4.14: Mapa geografico do Brasil junto com as 27 capitais brasileiras.
100
Tabela 4.14: Coordenadas cMDS com distancias euclidianas dos dados de distancias entre capitaisbrasileiras.
1 2 3 4 5 6 7 8 9 10 11 12 13RIO 781,84 -953,62 -99,64 -18,59 49,69 34,55 -11,87 -1,24 -8,19 -2,14 1,55 0,43 -0,20
SPO 304,98 -1032,91 212,76 982,47 5,22 -2,49 0,02 1,37 -0,01 -0,00 0,00 -0,00 -0,00BHZ 603,01 -655,21 -79,54 -31,09 43,83 -39,30 210,68 16,30 0,03 0,01 -0,00 0,00 -0,00VIT 975,56 -581,03 -115,81 -5,11 50,69 29,19 -21,43 -4,37 -7,92 0,25 -1,69 -0,27 0,18
CTB 286,64 -1427,97 -54,76 -51,18 43,48 45,12 16,40 10,64 1,00 1,17 1,61 -1,51 0,06FLN 446,96 -1621,50 -80,41 -37,22 -297,08 -36,90 -4,21 5,28 -0,02 0,00 -0,00 -0,00 -0,00POA 283,74 -1979,94 -57,36 -41,62 31,38 81,33 41,93 -56,40 5,41 -0,12 -1,01 0,59 -0,05CBA -771,96 -656,43 58,21 -154,89 72,78 -198,88 -28,14 -22,43 -0,02 0,00 0,00 0,00 0,00CGR -428,17 -1103,42 20,72 -109,90 16,36 61,96 -204,42 4,35 -0,01 -0,00 -0,00 -0,00 -0,00GOI -48,66 -505,62 -11,03 -93,53 45,85 4,58 -1,23 85,14 3,82 0,30 -0,66 1,20 0,51
BRA 52,35 -363,42 -16,80 -95,43 84,88 -203,41 -39,22 -23,89 -0,03 -0,01 0,00 0,00 -0,00SAL 905,84 265,56 -97,57 -15,65 45,82 17,50 -17,41 10,70 2,94 1,13 -1,84 0,48 -0,41AJU 987,59 512,92 -66,27 195,46 51,55 12,83 -12,99 17,48 0,02 0,27 1,01 0,08 0,70
MCO 1078,76 715,58 -108,35 0,56 36,73 29,84 -8,71 -28,14 5,82 1,50 1,38 -0,18 -0,63REC 1109,03 914,78 -107,86 3,69 31,70 35,59 -2,42 -45,38 6,59 0,75 -0,43 -0,51 0,34JPA 1083,93 1001,99 -109,94 -3,59 -302,35 -43,87 -9,34 3,12 0,00 0,00 0,00 0,00 0,00NTL 1149,96 998,84 1076,85 -225,36 -1,42 0,75 0,17 -0,24 -0,00 0,00 -0,00 0,00 0,00FOR 571,38 1259,14 -40,95 -53,78 20,44 27,98 8,94 -31,00 -4,29 -3,38 -0,10 1,31 -0,20TSN 172,77 960,23 -27,33 -86,89 25,56 9,15 -0,80 18,76 -1,83 -2,34 0,28 -0,63 0,22SLS -79,92 1176,96 -14,04 -109,76 13,76 12,69 4,17 0,27 -6,54 -0,02 -1,09 -1,64 0,10
PMS -199,98 211,37 21,63 -120,09 35,49 -4,30 -6,29 79,01 3,40 -0,68 0,60 -0,18 -0,70BEL -561,61 1133,04 22,91 -154,34 1,61 10,74 2,30 -1,91 -4,65 4,90 0,57 1,01 0,04
MAN -1689,83 493,06 117,34 -244,18 -31,10 25,44 6,21 -22,09 11,24 -1,81 0,84 0,14 0,38PVH -1846,01 -267,18 145,97 -240,62 -24,57 35,96 28,54 10,98 1,77 -0,46 -1,68 -0,70 -0,23BVS -1971,56 995,19 322,02 852,28 -13,15 -3,96 2,30 -3,33 -0,00 -0,05 -0,18 -0,02 -0,13
MCP -1010,54 1079,19 -1086,27 115,00 5,28 -2,86 -2,30 1,24 0,04 -0,09 0,00 0,02 -0,02RBR -2186,12 -569,61 175,53 -256,65 -42,42 60,79 49,14 -24,24 -8,60 0,80 0,82 0,36 0,05
4.3.2 Zoologia: Aplicando cMDS para comparar populacoes de ratazanas d’agua
britanicas
Nesta subsecao vamos analisar um conjunto de dados obtidos e estudados por Corbet et al. (1970),
que reportam um estudo de ratazanas d’agua (genero Arvicola), cujo objetivo era comparar po-
pulacoes britanicas destes animais com aqueles presentes na Europa continental para investigar se
mais de uma especie pode estar presente na ilha da Gra-bretanha. Os dados originais consistiam de
observacoes de presenca ou ausencia de 13 caracterısticas em cerca de 300 esqueletos de ratazanas
d’agua oriundas de 6 populacoes britanicas e 8 populacoes do resto da Europa. a tabela 4.17 for-
nece uma matriz de dissimilaridades obtidas dos dados, conforme descrito em Corbet et al. (1970).
Nas tabelas 4.18, 4.19 e 4.20, temos a solucao cMDS desta matriz de distancias e os criterios
9construıdo no R utilizando o pacote maps R. A. Becker et al. (2014).
101
Tabela 4.15: Autovalores da solucao cMDS dos dados de distancias entre capitais.
Autovalor Magnitude Autovalor Magnitude1 26522046,36 15 -0,072 25067153,68 16 -1,723 2654065,95 17 -4,904 2099240,41 18 -17,565 217617,22 19 -32,976 109771,24 20 -54,717 95213,14 21 -29829,088 24001,78 22 -81716,419 561,64 23 -92648,16
10 55,82 24 -113302,2511 22,00 25 -217006,2112 11,33 26 -1907774,8013 2,31 27 -2464264,8014 -0,00
Tabela 4.16: Adequacao de dimensionalidade segundo os criterios P(1)m e P
(2)m - distancia entre
capitais brasileiras.
Dim. Crit. P(1)m Crit. P
(2)m Dim. Crit. P
(1)m Crit. P
(2)m
1 0,43 0,52 15 0,92 0,992 0,84 0,98 16 0,92 0,993 0,88 0,99 17 0,92 0,994 0,91 0,99 18 0,92 0,995 0,92 0,99 19 0,92 0,996 0,92 0,99 20 0,92 0,997 0,92 0,99 21 0,92 0,998 0,92 0,99 22 0,92 0,999 0,92 0,99 23 0,92 0,99
10 0,92 0,99 24 0,93 0,9911 0,92 0,99 25 0,93 0,9912 0,92 0,99 26 0,96 1,0013 0,92 0,99 27 1,00 1,0014 0,92 0,99
P(1)m e P
(2)m para avaliarmos a dimensionalidade adequada, conforme ja fizemos antes.
Notemos que alguns autovalores sao negativos. Observando a tabela 4.20, notamos que os
dois criterios P(1)m e P
(2)m dao resultados bem distintos: enquanto o criterio P
(2)m indica a dimensao
dois como adequada, o criterio P(1)m sugere tres ou talvez quatro dimensoes como necessarias para
um bom ajuste. Aqui, vamos seguir a indicacao do criterio P(2)m , de forma que podemos plotar
a solucao bidimensional extraindo as duas primeiras coordenadas da solucao cMDS (2 primeiras
colunas da tabela 4.18). O grafico esta na figura 4.16.
102
Figura 4.15: Ratazana d’agua - Arvicola terrestris.
Tabela 4.17: Matriz de dissimilaridades das ratazanas d’agua.
Srry Shrp Yrks Prth Abrd ElnG Alps Igsl Ale Nor PirI PirII N.Esp S.EspSurrey 0,00 0,10 0,03 0,18 0,15 0,20 0,46 0,63 0,11 0,17 0,43 0,76 0,53 0,59
Shropshire 0,10 0,00 0,02 0,11 0,22 0,04 0,27 0,44 0,07 0,12 0,42 0,63 0,39 0,43Yorkshire 0,03 0,02 0,00 0,04 0,06 0,05 0,32 0,44 0,05 0,16 0,34 0,78 0,48 0,55
Perthshire 0,18 0,11 0,04 0,00 0,07 0,08 0,43 0,41 0,05 0,33 0,50 0,70 0,58 0,53Aberdeen 0,15 0,22 0,06 0,07 0,00 0,05 0,27 0,24 0,03 0,18 0,47 0,76 0,60 0,55
Elean Gamhna 0,20 0,04 0,05 0,08 0,05 0,00 0,02 0,13 0,00 0,04 0,39 0,62 0,50 0,51Alpes 0,46 0,27 0,32 0,43 0,27 0,02 0,00 0,01 0,11 0,09 0,32 0,47 0,37 0,37
Iugoslavia 0,63 0,44 0,44 0,41 0,24 0,13 0,01 0,00 0,13 0,24 0,35 0,62 0,56 0,47Alemanha 0,11 0,07 0,05 0,05 0,03 0,00 0,11 0,13 0,00 0,07 0,15 0,44 0,25 0,23
Noruega 0,17 0,12 0,16 0,33 0,18 0,04 0,09 0,24 0,07 0,00 0,43 0,54 0,38 0,35Pireneus I 0,43 0,42 0,34 0,50 0,47 0,39 0,32 0,35 0,15 0,43 0,00 0,61 0,39 0,46
Pireneus II 0,76 0,63 0,78 0,70 0,76 0,62 0,47 0,62 0,44 0,54 0,61 0,00 0,08 0,09N, Espanha 0,53 0,39 0,48 0,58 0,60 0,50 0,37 0,56 0,25 0,38 0,39 0,08 0,00 0,04S, Espanha 0,59 0,43 0,55 0,53 0,55 0,51 0,37 0,47 0,23 0,35 0,46 0,09 0,04 0,00
103
Tabela 4.18: Coordenadas (correspondentes aos autovalores positivos) da solucao cMDS da matrizde dissimilaridades das ratazanas d’agua.
1 2 3 4 5 6 7Surrey -0,24 0,23 -0,02 -0,03 0,02 0,07 0,00
Shropshire -0,11 0,12 0,04 -0,04 -0,05 -0,06 0,00Yorkshire -0,24 0,08 -0,08 -0,02 0,00 -0,06 0,00
Perthshire -0,21 0,06 0,11 0,16 -0,04 -0,01 0,00Aberdeen -0,25 -0,07 0,07 0,02 0,07 0,02 0,00
Elean Gamhna -0,15 -0,08 0,05 -0,03 -0,08 0,03 0,00Alps 0,05 -0,16 -0,00 -0,11 -0,03 -0,00 0,00
Yugoslavia -0,01 -0,34 0,01 0,03 0,01 -0,01 0,00Germany 0,00 0,01 -0,03 0,07 0,02 0,02 0,00
Norway -0,04 -0,01 0,08 -0,13 0,06 0,01 0,00Pyrenees I 0,04 -0,06 -0,31 0,04 -0,00 0,02 0,00
Pyrenees II 0,52 0,03 0,09 0,02 -0,04 0,05 0,00North Spain 0,32 0,15 -0,07 -0,04 -0,02 -0,03 0,00South Spain 0,32 0,05 0,05 0,05 0,08 -0,04 0,00
Tabela 4.19: Autovalores da solucao cMDS da matriz de dissimilaridades das ratazanas d’agua.
Dimensao 1 2 3 4 5 6 7 8 9 10 11 12 13 14Autovalor 0,74 0,26 0,15 0,07 0,03 0,02 0,00 -0,01 -0,01 -0,03 -0,04 -0,05 -0,07 -0,11
Tabela 4.20: Adequacao de dimensionalidade segundo os criterios P(1)m e P
(2)m - ratazanas d’agua.
Dimensao 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Criterio P(1)m 0,46 0,62 0,72 0,76 0,78 0,79 0,79 0,80 0,81 0,83 0,85 0,88 0,93 1,00
Criterio P(2)m 0,82 0,92 0,96 0,96 0,96 0,96 0,96 0,97 0,97 0,97 0,97 0,97 0,98 1,00
104
−0.2 0.0 0.2 0.4 0.6
−0.
3−
0.2
−0.
10.
00.
10.
2
Coordenada 1
Coo
rden
ada
2
Surrey
Shropshire
YorkshirePerthshire
AberdeenElean Gamhna
Alpes
Iugoslavia
AlemanhaNoruega
Pireneus I
Pireneus II
N. Espanha
S. Espanha
Figura 4.16: mapa cMDS da solucao dos dados de ratazanas d’agua.
Interpretando, parece que as seis populacoes britanicas estao proximas as populacoes que
vivem nos Alpes, Iugoslavia, Alemanha, Noruega e Pireneus I (a especie que vive neste grupo
geografico e Arvicola terrestris), e parecem bem distantes das populacoes dos Pireneus II, Norte
da Espanha e Sul da Espanha (a especie deste grupo geografico e Arvicola sapidus). Este re-
sultado parece implicar que Arvicola terrestris pode estar presente na Gra-bretanha, e e menos
provavel que a especie Arvicola sapidus o esteja. Mas aqui, como a solucao bidimensional pode
nao ser totalmente suficiente para representar as distancias observadas, vamos utilizar a arvore
de cobertura mınima, introduzida na secao 3.8.
As ligacoes da arvore de cobertura mınima da matriz de proximidades de interesse podem
ser plotadas junto a representacao bidimensional da solucao cMDS para que possamos identificar
possıveis distorcoes produzidas pelas solucoes escalonadas. Tais distorcoes sao indicadas quando
pontos proximos no grafico nao estao ligados por uma aresta da arvore.
105
−0.2 0.0 0.2 0.4 0.6
−0.
3−
0.2
−0.
10.
00.
10.
2
Coordenada 1
Coo
rden
ada
2
Surrey
Shropshire
YorkshirePerthshire
AberdeenElean Gamhna
Alpes
Iugoslavia
AlemanhaNoruega
Pireneus I
Pireneus II
N. Espanha
S. Espanha
Figura 4.17: Arvore de cobertura mınima para os dados das ratazanas plotadas juntamente coma solucao cMDS.
106
Na figura 4.17, temos10 a arvore de cobertura mınima da solucao cMDS bidimensional. O
grafico indica, por exemplo, que a aparente proximidade das populacoes na Alemanha e Noruega,
sugerida pelos pontos que as representam na solucao cMDS, nao refletem com acuracia sua
dissimilaridade calculada: as ligacoes da arvore de cobertura mınima mostram que as populacoes
de Aberdeen e Elean Gamhna na verdade sao mais simliares as populacoes de ratazanas da
Alemanha do que as populacoes da Noruega. Entao, a arvore de cobertura mınima sugere que a
solucao bidimensional pode nao representar adequadamente toda a matriz de distancias
4.3.3 Polıtica: Aplicando nMDS para analisar o padrao de votacao de congressistas
norte-americanos
Romesburg (1984) fornece um conjunto de dados que mostra o numero de vezes em que 15 con-
gressistas de Nova Jersey (EUA) votaram diferentemente na Camara (House of representatives)
em 19 contas ambientais. Abstencoes nao foram registradas, porem 2 congressistas se abstiveram
mais frequentemente do que outros: Sandman (9 abstencoes) e Thompson (6 abstencoes). Os
dados estao disponıveis na tabela 4.21 e o interesse aqui em nossa analise e se podemos detectar
se um padrao partidario nas votacoes pode ser detectado nos dados.
Tabela 4.21: Dados de votacao na camara de deputados norte-americana; (R) para republicanose (D) para democratas.
Hnt Snd Hwr Thm Fry Frs Wdn Roe Hlt Rdn Mns Rnl Mrz Dnl PttHunt(R) 0
Sandman(R) 8 0Howard(D) 15 17 0
Thompson(D) 15 12 9 0Freylinghuysen(R) 10 13 16 14 0
Forsythe(R) 9 13 12 12 8 0Widnall(R) 7 12 15 13 9 7 0
Roe(D) 15 16 5 10 13 12 17 0Heltoski(D) 16 17 5 8 14 11 16 4 0Rodino(D) 14 15 6 8 12 10 15 5 3 0Minish(D) 15 16 5 8 12 9 14 5 2 1 0
Rinaldo(R) 16 17 4 6 12 10 15 3 1 2 1 0Maraziti(R) 7 13 11 15 10 6 10 12 13 11 12 12 0Daniels(D) 11 12 10 10 11 6 11 7 7 4 5 6 9 0Patten(D) 13 16 7 7 11 10 13 6 5 6 5 4 13 9 0
10A arvore de cobertura mınima pode ser construıda no R utiizando-se o pacote ape Paradis, Claude, andStrimmer (2004).
107
Vamos agora aplicar nMDS ao comportamento dos votos mostrados na tabela 4.21.11. O
resultado esta na tabela 4.22. O grafico da solucao bidimensional esta na figura 4.18.
−10 −5 0 5
−6
−4
−2
02
46
8
Coordenada 1
Coo
rden
ada
2
Hunt(R)
Sandman(R)
Howard(D)
Thompson(D)
Freylinghuysen(R)
Forsythe(R)
Widnall(R)
Roe(D)
Heltoski(D)
Rodino(D)Minish(D)
Rinaldo(R)
Maraziti(R)
Daniels(D)
Patten(D)
Figura 4.18: Representacao nMDS dos dados de votacao.
O grafico sugere que o comportamento dos votos e essencialmente guiado por ideologias par-
tidarias (propositalmente colocamos cada afiliado de um partido com uma cor), e ha mais variacao
entre os republicanos. O comportamento de um dos republicanos (Rinaldo) parece estar mais ali-
nhado com os democratas do que com o padrao de votacao de seus outros colegas republicanos.
O Stress calculado e menor do que 10%, o que, pela regra de ouro de Kruskal, indica um
ajuste de razoavel para bom. O Diagrama de Shepard (introduzido na secao 3.9), exibido na
figura 4.19, nos auxilia a verificar graficamente a adequacao do ajuste dado pelo valor do Stress.
Observamos alguns desvios entre as dissimilaridades e a solucao nMDS. De qualquer forma, nao
existem serios desvios, o que confirma o razoavel ajuste indicado pelo valor 9,88% do Stress.
11nMDS esta disponıvel, por exemplo, na funcao isoMDS() do pacote MASS Venables and Ripley (2002).
108
Tabela 4.22: Coordenadas da solucao nMDS dos dados de votacao.
Congressista Coord.1 Coord.2 Congressista Coord.1 Coord.2Hunt(R) -8,44 0,91 Heltoski(D) 6,30 0,27
Sandman(R) -7,41 7,88 Rodino(D) 4,28 -0,92Howard(D) 6,09 -1,50 Minish(D) 4,26 -0,39
Thompson(D) 3,52 5,25 Rinaldo(R) 5,03 0,27Freylinghuysen(R) -7,25 -4,18 Maraziti(R) -4,46 -6,22
Forsythe(R) -3,28 -2,57 Daniels(D) 0,81 -0,94Widnall(R) -9,71 -1,12 Patten(D) 3,89 2,23
Roe(D) 6,34 1,04
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
5 10 15
510
15
Dissimilaridade
Dis
tânc
ia
Figura 4.19: O diagrama de Shepard para os dados de votacao mostra algumas discrepanciasentre as dissimilaridades originais e a solucao nMDS.
109
Capıtulo 5
CONCLUSAO
Neste trabalho, discorremos sobre dois metodos multivariados de reducao de dimensionalidade:
analise de componentes principais (ACP) e escalonamento multidimensional (MDS).
A ACP tem por proposito encontrar um pequeno numero de combinacoes lineares das variaveis
originais que pode ser usado para resumir um conjunto de dados, de sorte que durante o processo
se perca tao pouca informacao quanto possıvel - e no contexto de ACP, informacao significa
basicamente “variancia”.
A ACP e essencialmente um metodo multivariado exploratorio - seu objetivo precıpuo e per-
mitir visualizar, em dimensao reduzida (usualmente, dimensao 2 ou 3) a estrutura de um conjunto
multivariado de dados. Alem disso, esta visualizacao facilita em muito o processo de se aventar
hipoteses sobre os dados em questao. Isto ficou muito claro quando fizemos a analise dos dados
do heptatlo olımpico.
Considerando a ACP como metodo exploratorio, um dispositivo grafico intrınseco a ACP que
ajuda muito a entender a estrutura dos dados e o chamado biplot, que a grosso modo pode ser
entendido como o analogo multivariado dos diagramas de dispersao, que aproxima a distribuicao
multivariada de uma amostra em poucas dimensoes, de preferencia duas (embora seja possıvel
construir um biplot em 3 dimensoes, junto aos escores de 3 componente principais, a visualizacao
requer muito mais experiencia e conhecimento dos dados do que nos casos em que o biplot e feito
em duas dimensoes), e sobrepoe ao diagrama de dispersao dos escores das componente principais
as variaveis do conjunto multivariado de dados. Desta forma, podemos ver, de forma resumida,
o maximo da estrutura de um conjunto multivariado de dados: ao mesmo tempo em que temos
o comportamento dos escores das componentes principais, vemos seu comportamento relativa-
mente as variaveis: quanto mais proximas de cada variavel (representado no biplot por um vetor),
maior e o peso (que vimos que neste contexto chamamos de carga) daquela variavel no respectivo
escore. Alem disso, podemos visualizar as variancias de cada variavel (olhando para o “tamanho”
de cada vetor que a representa no biplot) e a covariancia entre quaisquer par delas (por meio
110
do angulo entre os vetores que as representa: quanto menor o angulo, maior a covariancia (ou
correlacao)). Embora biplots sejam ferramentas matematicas independentes de qualquer metodo
especıfico (em Johnson and Wichern (2007), temos exemplos de aplicacao de biplots em analise
de Procrustes; ja em Greenacre (2007), biplots sao utilizados para facilitar a interpretacao de uma
analise de correspondencia), consideramos que, para o entendimento da estrutura de um conjunto
multivariado de dados e dos resultados de uma ACP onde se considere sensato reter mais de uma
componente, a utilizacao de biplots e indispensavel.
Conquanto seja um metodo precipuamente exploratorio, permitindo que se visualize em baixa
dimensao a estrutura de um conjunto multivariado de dados - o que por si so ja representa um
ganho consideravel -, pode-se utilizar ACP tendo em mente analises subsequentes, como, por
exemplo, analise de regressao (dando origem ao metodo chamado regressao de componentes
principais. O uso da regressao de componentes principais torna-se muito importante na presenca
da chamada multicolinearidade em regressao, onde um subconjunto das variaveis regressoras e al-
tamente correlacionado) e analise de cluster. Alem disso, como vimos na secao 2.7, componentes
principais sao uma interessante aplicacao em predizer a matriz de covariancias observada.
A ACP e utilizada quando analisamos dados multivariados e desejamos preservar a distancia
euclidiana entre as observacoes. Em muitos casos, contudo, em alguns metodos (em ’areas
como a Ecologia), como os baseados em matrizes binarias de ausencia-presenca (parecidas com
as do exemplo que vimos no capıtulo 3, mas podendo assumir apenas valores 0 ou 1), tal tipo
de distancia faz pouco sentido. Neste contexto, um metodo mais apropriado e o MDS classico
(cMDS). Tambem chamado de analise em cordenadas principais, (ACoP), e a generalizacao da
ACP, pois quaisquer tipo de distancia pode ser utilizada em cMDS; em particular, se utilizarmos
distancias euclidianas, a solucao cMDS em q dimensoes obtida nada mais sera do que os escores
das q primeiras componentes principais. Com isso, a grande vantagem da utilizacao de cMDS
(ACoP) esta em analises cuja natureza exige aplicacao de distancias nao-euclidianas, como por
exemplo distancias baseadas em dados de co-ocorrencia, como as de Jaccard e Sørensen (vistas
na secao 3.4)
Ilustramos a aplicacao de cMDS obtendo um mapa do Brasil, onde tınhamos como dados
as distancias (geodesicas) entre as 26 capitais mais o Distrito Federal. Utilizamos as distancias
euclidianas por serem as mais adequadas ao contexto desta analise. Fizemos tambem um exemplo
de cMDS aplicado a um pequeno conjunto multivariado, e comparamos as solucoes utilizando,
111
alem das distancias euclidianas, as distancias de Manhattan. Pudemos, com isso, verificar que a
dualidade entre ACP e ACoP so se verifica no caso de utilizacao das distancias euclidianas. Por
fim, fizemos uma comparacao entre populacoes de ratazanas d’agua europeias, com o objetivo
de comparar se o padrao de populacoes britanicas eram “proximas” (parecidas) do padrao pre-
sente na europa continental. Fizemos o mapa cMDS de dimensao 2 da solucao, e utilizamos a
ferramenta adicional da arvore de cobertura mınima que nos auxiliou a verificar que a solucao
cMDS encontrada nao refletia muito bem as proximidades dadas. Isso provavelmente se deu como
consequencia da divergencia dos criterios P(1)m e P
(2)m quanto ao numero de solucoes.
Quando o objetivo e obter um mapa de baixa dimensao no qual objetos dissimilares sejam
alocados separados geometricamente, de forma a representar espacialmente sua dissimilaridade,
ao passo que objetos similares sejam alocados espacialmente proximos, o metodo mais apropriado
e o MDS nao-metrico (nMDS). A caracterıstica principal desta classe MDS e que ela preserva
apenas os postos das distancias originais. O ajuste da solucao nMDS e avaliado por uma medida
de bondade de ajuste conhecida como Stress. Varios algoritmos tem sido desenvolvidos para a
obtencao de solucoes nMDS, desde os trabalhos pioneiros de Shepard e Kruskal Shepard (1962a,
1962b); Kruskal (1964a, 1964b) nos anos 1960.
Ilustramos a aplicacao do nMDS analisando o comportamento de votacao de congressistas
norte-americanos: o objetivo era detectar se o padrao de votacao seguia “orientacoes partidarias”.
O mapa nMDS de dimensao 2 em grande parte confirmou um nıtido padrao partidario, com Re-
publicanos e Democratas visivelmente separados no mapa nMDS. De quebra, ainda pudemos
visualizar um republicano com “alma democrata”, que estava muito mais proximo do padrao de
votacao dos democratas do que do padrao dos seus colegas republicanos.
Analise de componente principais e o mais importante metodo para se realizar a tarefa de
reduzir a dimensionalidade de um conjunto multivariado de dados. Quando, pela natureza dos
dados e\ou do estudo as distancias euclidianas tornam-se nao recomendaveis, podemos utilizar
analise de coordenadas principais (cMDS). Quando o objetivo e obter uma solucao de baixa di-
mensao que reflita espacialmente as proximidades (similaridades-distancias) observadas, podemos
utilizar nMDS.
Segundo B. Everitt and Skrondal (2010), reducao de dimensionalidade e “um termo generico
para o objetivo de metodos de analise que tentam simplificar os dados multivariados complexos
112
para auxiliar a compreensao e interpretacao”, e ordenacao e “O processo de reduzir a dimensionali-
dade (isto e, o numero de variaveis) de dados multivariados obtendo-se de um pequeno numero de
novas variaveis que contem a maior parte da informacao contida nos dados originais. O conjunto
de dados reduzido muitas vezes e mais util para investigar uma possıvel estrutura nas observacoes”.
Destarte, concluımos este trabalho afirmando que analise em componente principais e es-
calonamento multidimensional sao dois metodos de ordenacao muito poderosos e abrangentes.
Dentro de suas caracaterısticas e nuancas, ambos se prestam muito bem a tarefa de reducao de
dimensionalidade.
113
REFERENCIAS BIBLIOGRAFICAS
Barlow, R. E., et al. (1972). Statistical inference under order restrictions. Wiley.
Becker, C., & Gather, U. (2001). The largest nonidentifiable outlier: A comparison of multivariate
simultaneous outlier identification rules. Computational Statistics and Data Analysis, 36 ,
119-127.
Becker, R. A., et al. (2014). maps: Draw geographical maps [Computer software manual].
Retrieved from http://CRAN.R-project.org/package=maps (R package version 2.3-
9)
Bellman, R. (1961). Adaptative control processes. Princeton.
Borcard, D., et al. (2011). Numerical ecology with R. Springer.
Borg, I., & Groenen, P. J. F. (2010). Modern multidimensional scaling - theory and applications
(2nd ed.). Springer.
Carroll, J., et al. (1984). The representation of three-way proximity data by single and multiple
tree structure models. Journal of Classification, 1 , 25-74.
Cattell, R. B. (1966). The scree test for the number of factors. Multivariate Behavioural Research,
1 , 245-276.
Cegalla, D. P. (2009). Dicionario de dificuldades da lıngua portuguesa (3rd ed.). Lexikon.
Chang, W. (2013). R graphics cookbook. O’Reilly.
Corbet, G. B., et al. (1970). The taxonomic structure of british watervoles, genus arvicola. Journal
of Zoology , 61 , 301-316.
Everitt, B., & Hothorn, T. (2011). An introduction to applied multivariate analysis with R.
Springer.
Everitt, B., & Rabe-Hesketh, S. (1997). The analysis of proximity data. Arnold.
Everitt, B., & Skrondal, A. (2010). The cambridge diciotnary of statistics (4th ed.). Cambridge.
Everitt, B. S., & Hothorn, T. (2015). HSAUR3: A handbook of statisti-
cal analyses using R (3rd edition) [Computer software manual]. Retrieved from
http://CRAN.R-project.org/package=HSAUR3 (R package version 1.0-4)
Farmer, S. A. (1971). An investigation into the results of principal components analysis of data
derived from random numbers. Journal of the Royal Statistical Society , 20(4), 63-72.
Retrieved from http://www.jstor.org/stable/2986986
Fayyad, U. M., et al. (1996). Advances in knowledge discovery and data mining. MIT Press.
114
Gabriel, K. R. (1981). Biplot display of multivariate matrices for inspection of data and diagnosis.
Wiley.
Gorsuch, R. L. (1983). Factor analysis (2nd ed.). Lawrence Erlbaum Associates.
Gotelli, N. J., & Elisson, A. M. (2013). A primer of ecological statistics (2nd ed.). Sinauer.
Gower, J. (1966). Some distance properties of latent root and vector methods
used in multivariate analysis. Biometrika, 53(4), 325-338. Retrieved from
http://www.jstor.org/stable/2333639
Gower, J., & Ross, G. (1969). Minimum spanning trees and single linkage cluster
analysis. Journal of the Royal Statistical Society , 18(1), 54-64. Retrieved from
http://www.jstor.org/stable/2346439
Gower, J. C., & Hand, D. J. (1996). Biplots. CRC.
Gowers, T. (2008). The Princeton companion to mathematics. Princeton University Press.
Greenacre, M. (2007). Correspondence analysis in practice (2nd ed.). CRC.
Guadagnoli, E., & Velicer, W. F. (1988). Relation of sample size to the stability of component
patterns. Psychological Bulletin, 103 , 265-275.
Hand, D. J., et al. (1994). A handbook of small data sets. Chapman & Hall.
Hand, D. J., et al. (2001). Principles of data mining. MIT Press.
Historia de Procrustes. (n.d.). https://pt.wikipedia.org/wiki/Procusto. (Accessado em
16-Set-2015)
Hyv’arinen, A., & Oja, E. (2000). Independent component analysis: algorithms and applications.
Neural networks(13), 4111-430.
Izenman, A. J. (2008). Modern multivariate statistical techniques. Springer.
Johnson, R., & Wichern, D. (2007). Applied multivariate statistical analysis (6th ed.). Pearson.
Jolliffe, I. (1972). Discarding variables in a principal component analysis. I: Artificial data. Journal
of the Royal Statistical Society , 21(2), 160-173.
Jolliffe, I. (2002). Principal component analysis. Springer.
Kabacoff, R. (2011). R in action. Manning.
Kaiser, H. (1958). The varimax criterion for analytic rotation in factor analysis. Psychometrika,
29 , 187-200.
Kruskal, J. B. (1964a). Multidimensional scaling by optimizing goodness-of-fit to a nonmetric
hypothesis. Psychometrika, 29(1).
Kruskal, J. B. (1964b). Nonmetric multidimensional scaling: a numerical method. Psychometrika,
29(2).
Little, R., & Rubin, D. (1987). Statistical analysis with missing data. Wiley.
Maindonald, J., & Braun, W. J. (2010). Data analysis and graphics using R (3rd ed.). Cambridge.
115
Marchini, J. L., Heaton, C., & Ripley, B. D. (2013). fastICA: FastICA algorithms
to perform ICA and projection pursuit [Computer software manual]. Retrieved from
http://CRAN.R-project.org/package=fastICA (R package version 1.2-0)
Mardia, K. V., et al. (1979). Multivariate analysis. Academic Press.
Marriot, F. (1974). The interpretation of multiple observations. Academic Press.
Osborne, J. W., & Costello, A. B. (2004). Sample size and subject to item ratio in principal
components analysis. Journal of the Royal Statistical Society . Retrieved from Practical
Assessment, Research and Evaluation
Paradis, E., Claude, J., & Strimmer, K. (2004). APE: analyses of phylogenetics and evolution in
R language. Bioinformatics, 20 , 289-290.
Paulino, C. D., et al. (2011). Glossario ingles-portugues de estatıstica (2nd ed.). Sociedade
Portuguesa de Estatıstica e Associacao Brasileira de Estatıstica.
Prim, R. C. (1957). Shortest connection networks and some generalizations. Bell System Technical
Journal , 36 .
Rencher, A. (2002). Methods of multivariate analysis. Wiley.
Rocke, D., & Woodruff, D. (1996). Identification of outliers in multivariate
data. Journal of the American Statistical Association, 91(435). Retrieved from
http://www.jstor.org/stable/2291724
Romesburg, H. (1984). Cluster analysis for researches. Lifetime Learning.
Rubin, D. (1976, 12). Inference and missing data. Biometrika, 63(3), 581-592.
Rubin, D. (1987). Multiple imputation for survey nonresponse. Wiley.
Schaffer, J. (1999, 02). Multiple imputation: A primer. Statistical Methods in Medical Research,
8(1), 3-15.
Schloerke, B., et al. (2014). Ggally: Extension to ggplot2 [Computer software manual]. Retrieved
from http://CRAN.R-project.org/package=GGally (R package version 0.5.0)
Shepard, R. N. (1962a). The analysis of proximities: Multidimensional scaling with unknown
distance function, part I. Psychometrika, 27(2), 125-140.
Shepard, R. N. (1962b). The analysis of proximities: Multidimensional scaling with unknown
distance function, part II. Psychometrika, 27(3), 219-246.
Sibson, R. (1979). Studies in the robustness of multidimensional scaling. perturbational analysis
of classical scaling. Journal of the Royal Statistical Society , 41(2), 217-229.
Velleman, P. F., & Wilkinson, L. (1993, 02). Nominal, ordinal, interval, and ratio typologies are
misleading. The American Statistician, 47(1), 65-72.
Venables, W. N., & Ripley, B. D. (2002). Modern applied statistics with S (4th ed.). Springer.
Wehrens, R. (2011). Chemometrics with R: Multivariate data analysis in the natural sciences and
116
life sciences. Heidelberg: Springer. doi: 10.1007/978-3-642-17841-2
Wei, T. (2013). corrplot: Visualization of a correlation matrix [Computer software manual].
Retrieved from http://CRAN.R-project.org/package=corrplot (R package version
0.73)
Weisstein, E. W. (n.d.). Great circle. from Mathworld - a Wolfram web resource.
Young, G., & Householder, A. S. (1938, 3). Discussion of a set of points in terms of their mutual
distances. Psychometrika, 3(1), 19-22.