multivariada - ufla
Post on 20-Jan-2016
95 Views
Preview:
TRANSCRIPT
MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CIÊNCIAS EXATAS
ANÁLISE MULTIVARIADA
Daniel Furtado Ferreira
LAVRAS, MG
1996
ii
SUMÁRIO Pág.
1. Aspectos da análise multivariada 1
1.1. Introdução 1
1.2. Aplicação das técnicas multivariadas 3
1.3. Organização de dados 5
1.4. Distâncias 15
1.5. Exercícios 24
2. Álgebra vetorial e matricial 25
2.1. Introdução 25
2.2. Elementos de álgebra vetorial 26
2.3. Elementos de álgebra matricial 34
2.4. Exercícios 82
3. Amostragem multivariada 89
3.1. Introdução 89
3.2. Geometria amostral 90
3.3. Amostras aleatórias e esperanças do vetor de média e da matriz de covariância amostral. 101
3.4. Variância generalizada 104
3.5. Variância generalizada de variáveis generalizadas 113
3.6. Outra generalização da variância 116
3.7. Exercícios 117
iii
4. Distribuição normal multivariada 119
4.1. Introdução 119
4.2. Pressuposições das análises multivariadas 120
4.3. Densidade normal multivariada e suas propriedades 121
4.4. Distribuição normal bivariada 125
4.5. Distribuição amostral de X e S 133
4.6. Distribuições amostral derivada da distribuição normal multivariada 138
4.7. Verificando a normalidade 143
4.8. Exercícios 169
5. Inferências sobre o vetor média 171
5.1. Introdução 171
5.2. Inferências sobre média de uma população normal 171
5.3. Região de confiança e comparações simultâneas de componentes de média 177
5.4. Inferências sobre proporções de grandes amostras 190
5.5. Comparações pareadas 192
5.6. Comparações de vetores de médias de duas populações 199
5.7. Exercícios 215
6. Análise de variância multivariada 219
6.1. Introdução 219
6.2. Delineamento de classificação simples 220
iv
6.3. Intervalos de confiança simultâneos para o efeito de tratamentos 230
6.4. Exercícios 232
7. Componentes principais 233
7.1. Introdução 233
7.2. Componentes principais populacionais 234
7.3. Componentes principais amostrais 250
7.4. Gráficos dos componentes principais 256
7.5. Inferências para grandes amostras 259
7.6. Exercícios 282
8. Análise de agrupamento 285
8.1. Introdução 285
8.2. Medidas de parecença (similaridades e dissimilaridades) 286
8.3. Agrupamentos 296
8.4. Exercícios 308
9. Análise de fatores 309
9.1. Introdução 309
9.2. Modelo de fatores ortogonais 310
9.3. Estimação de cargas fatoriais 316
9.4. Rotação fatorial 342
9.5. Teste da falta de ajuste do modelo fatorial 346
v
9.6. Escores fatoriais 349
9.7. Exercícios 354
10. Análise de correlação canônica 355
10.1. Introdução 355
10.2. Variáveis canônicas e correlação canônica populacionais 356
10.3. Variáveis e correlações canônicas amostrais 371
10.4. Inferências para grandes amostras 380
10.5. Exercícios 386
11. Referencias bibliográficas 389
Apêndices 395
Índice remissivo 397
||[ ]||Aspectos da análise multivariada
1
1.1. Introdução
Nos trabalhos científicos, o problema de se inferir, a partir de dados
mensurados pelo pesquisador, sobre os processos ou fenômenos físicos,
biológicos ou sociais, que não se pode diretamente observar, é uma realidade
constante. A pesquisa científica se constitui num processo interativo de
aprendizado. Para explicação de um fenômeno, o pesquisador em geral coleta e
analisa dados de acordo com uma hipótese. Por outro lado, a análise destes
mesmos dados coletados de amostragem ou experimentação geralmente sugere
modificações da explicação do fenômeno, além disso, devido à complexidade
destes fenômenos, o pesquisador deve coletar observações de diferentes
variáveis. Neste contexto, a inferência estatística é realizada de acordo com o
paradigma hipotético-dedutivo (Bock, 1975).
Devido aos fenômenos serem estudados a partir de dados coletados
ou mensurados em muitas variáveis, os métodos estatísticos delineados para
obter informações a partir destes conjuntos de informações, são denominados de
métodos de análises multivariados. A necessidade de compreensão das relações
1. Aspectos da análise multivariada 2
entre as diversas variáveis faz com que as análises multivariadas sejam
complexas ou até mesmo difíceis. O objetivo do presente material é apresentar a
utilidade das técnicas multivariada de uma forma clara, usando exemplos
ilustrativos e evitando o máximo de possível de cálculo.
Sendo assim, os objetivos gerais, para os quais a análise
multivariada conduz são:
a. redução de dados ou simplificação estrutural: o fenômeno sob estudo é
representado da maneira mais simples possível, sem sacrificar
informações valiosas e tornando as interpretações mais simples;
b. ordenação e agrupamento: agrupamento de objetos (tratamentos) ou
variáveis similares, baseados em dados amostrais ou experimentais;
c. investigação da dependência entre variáveis: estudos das relações
estruturais entre variáveis muitas vezes é de interesse do pesquisador;
d. predição: relações entre variáveis devem ser determinadas para o
propósito de predição de uma ou mais variável com base na observação
de outras variáveis;
e. construção e teste de hipóteses.
Os modelos multivariados possuem em geral, um propósito através
do qual o pesquisador pode testar ou inferir a respeito de uma hipótese sobre um
Ferreira, D.F. Estatística multivariada 3
determinado fenômeno. No entanto a sua utilização adequada depende do bom
conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott
(1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que
apesar de serem uma importante ferramenta para análise e interpretação de
dados, não devem ser utilizados como máquinas automáticas de encher lingüiça,
transformando massas numéricas em pacotes de fatos científicos”.
1.2. Aplicação de técnicas multivariadas
As técnicas estatísticas constituem se uma parte integral da pesquisa
científica e em particular as técnicas multivariadas tem sido regularmente aplicada
em várias investigações científicas nas áreas de biologia, física, sociologia e
ciências médicas. Parece, neste instante, ser apropriado descrever as situações
em que as técnicas multivariadas têm um grande valor.
Medicina
Nos estudos onde as reações de pacientes a um determinado
tratamento são mensuradas em algumas variáveis e possuem difícil diagnóstico,
as técnicas multivariadas podem ser usadas para construir uma medida de
resposta simples ao tratamento, na qual é preservada a maior parte da informação
da amostra e das múltiplas variáveis respostas. Em outras situações as técnicas
1. Aspectos da análise multivariada 4
multivariadas podem ser usadas também quando a classificação de um paciente,
baseada nos sintomas medidos em algumas variáveis, é difícil de ser realizada.
Neste caso, uma técnica multivariada de classificação, em que se cria uma função
que pode ser usada para separar as pessoas doentes das não doentes, pode ser
implementada.
Sociologia
Em alguns estudos o inter-relacionamento e o agrupamento de
indivíduos, cidades ou estados em grupos homogêneos em relação à mobilidade,
número de estrangeiros nascidos e de segunda geração em determinado país é
necessária em alguns estudos sociológicos. As técnicas de análise multivariada,
conhecidas como análise de agrupamento (Cluster analysis), pode ser empregada
com esta finalidade.
Biologia
No melhoramento de plantas é necessário, após o final de uma
geração, selecionar aquelas plantas que serão os genitores da próxima geração. a
seleção deve ser realizada de maneira que a próxima geração seja melhorada em
relação à resposta média de uma série de características da geração anterior. O
objetivo do melhorista consiste em maximizar o ganho genético em um espaço
Ferreira, D.F. Estatística multivariada 5
mínimo de tempo. As análises multivariadas podem ser usadas para converter
uma série de características para um índice, na qual a seleção e escolha dos pais
possam ser feitas.
Em algumas situações se deseja a separação de algumas espécies,
e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é
construída e os seus valores são usados para esta separação.
1.3. Organização de dados
Através deste material pretende-se tratar das análises realizadas em
muitas características ou variáveis. Essas medidas, muitas vezes chamadas de
dados, devem ser organizadas e apresentadas em várias formas. Por exemplo, a
utilização de gráficos e arranjos tabulares são importantes auxiliares nas análises
de dados. Por outro lado, números que resumem, ou seja, que descrevem
quantitativamente certas características, são essenciais para a interpretação de os
dados amostrais ou experimentais.
Arranjos
Os dados multivariados são provenientes de uma pesquisa em
determinada área em que são selecionadas p ≥ 1 variáveis ou características para
1. Aspectos da análise multivariada 6
serem mensuradas. As medidas são tomadas em cada unidade da amostra ou do
experimento. A representação destes dados é feita com a notação xjk para indicar
um valor particular da j-ésima unidade amostral ou experimental e da k-ésima
variável mensurada. Conseqüente, estas medidas de p variáveis em n unidades
amostrais ou experimentais, podem ser representadas conforme o arranjo
apresentado na Tabela 1.1.
Tabela 1.1. Representação de dados através da notação xjk para indicar um valor
particular da k-ésima variável mensurada na j-ésima unidade amostral
ou experimental.
Variáveis
Unidades amostrais ou experimentais
1 2 ... k ... p
1 X11 X12... X1k... X1p
2 X21 X22... X2k... X2p
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. j Xj1 Xj2... Xjk... Xjp
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. n Xn1 Xn2... Xnk... Xnp
Ferreira, D.F. Estatística multivariada 7
Estes valores, apresentados na Tabela 1.1, podem ser
representados em um arranjo retangular, denominado de X, com n linhas e p
colunas, da seguinte forma:
11 12 1 1
21 22 2 2
1 2
1 2
k p
k p
j j jk jp
n n nk np
x x x xx x x x
Xx x x x
x x x x
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥
= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
Exemplo 1.1
Uma seleção de 4 firmas de ração de Minas Gerais foi obtida para
avaliar a venda de rações. Cada observação bivariada forneceu a quantidade de
sacos de ração vendidos e a quantidade de reais de cada venda. Os dados
obtidos na forma tabular são:
Variável 1 (Reais/venda) 80 120 90 110
Variável 2 (número de sacos de ração vendidos)
10
12
6
8
Usando a notação proposta anteriormente, tem-se:
X11=80 X21=120 X31=90 X41=110 X12=10 X22=12 X32=6 X42=8
E a matriz X dos dados é:
1. Aspectos da análise multivariada 8
80 10120 12
90 6110 8
X
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
A organização dos dados em arranjos facilita a exposição e permite
que os cálculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos
na eficiência são: (1) descrição dos cálculos como operações com matrizes e
vetores; e (2) sua fácil implementação em computadores.
ESTATÍSTICAS DESCRITIVAS
Grandes conjuntos de dados possuem um sério obstáculo para
qualquer tentativa de extração de informações visuais pertinentes aos mesmos.
muitas das informações contidas nos dados podem ser obtidas por cálculo de
certos números, conhecidos como estatísticas descritivas. Por exemplo, a média
aritmética ou média amostral, é uma estatística descritiva que fornece informação
de posição, isto é, representa um valor central para o conjunto de dados. Como
um outro exemplo, a média das distâncias ao quadrado de cada dado em relação
à média, fornece uma medida de dispersão, ou variabilidade.
Às estatísticas descritivas que mensuram posição, variação e
associação linear são enfatizadas. As descrições formais destas medidas estão
apresentadas a seguir.
A média amostral, simbolizada por X , é dada por:
Ferreira, D.F. Estatística multivariada 9
1
1 n
k jkj
X Xn =
= ∑ k=1, 2, ..., p (1.1)
Uma medida de variação é fornecida pela variância amostral,
definida para as n observações de i-ésima variável por:
( )22
1
11 =
= = −− ∑
n
k kk jk kj
S S X Xn
k = 1, 2, ..., p (1.2)
A raiz quadrada da variância amostral, kkS , é conhecida como
desvio padrão amostral. Esta medida de variação está na mesma unidade de
medida das observações.
Uma medida de associação entre as observações de duas variáveis,
variáveis k e k’, é dada pela covariância amostral:
( )( )' ' '1
11 =
= − −−∑n
kk jk k jk kjX X X X
nS k, k’=1,2, ..., p (1.3)
Se grandes valores de uma variável são observados em conjunto
com grandes valores da outra variável, e os pequenos valores também ocorrem
juntos, Skk’ será positiva. Se grandes valores de uma variável ocorrem com
pequenos valores da outra, Skk’ será negativa. Se não há associação entre os
1. Aspectos da análise multivariada 10
valores das duas variáveis, Skk’ será aproximadamente zero. Quando k=k’, a
covariância reduz-se a variância amostral. Além disso, Skk’= Sk’k, para todo k e k’.
A última estatística descritiva a ser considerada aqui é o coeficiente
de correlação amostral. Esta medida de associação linear entre duas variáveis
não depende da unidade de mensuração. O coeficiente de correlação amostral
para k-ésima e k’-ésima variável, é definido por:
( )( )
( ) ( )
' '1'
'2 2
' '' '
1 1
=
= =
− −= =
− −
∑
∑ ∑
n
jk k jk kjkk
kk n nkk k k
jk k jk kj j
X X X Xr
X X X X
SS S
(1.4)
Verifica-se que rkk’=rk’k para todo k e k’. O coeficiente de correlação
amostral é a versão estandardizada da covariância amostral, onde o produto das
raízes das variâncias das amostras fornece a estandardização.
O coeficiente de correlação amostral pode ser considerado como
uma covariância amostral. Suponha que os valores Xjk e Xjk’ sejam substituídos
pelos valores padronizados, ( )−jk k
kk
X XS e ' '
' '
( )−jk k
k k
X XS . Esses valores padronizados
são expressos sem escalas de medidas (adimensionais), pois são centrados em
zero e expressos em unidades de desvio padrão. O coeficiente de correlação
amostral é justamente a covariância amostral das observações estandardizadas.
A correlação amostral (r), em resumo, tem as seguintes
propriedades:
Ferreira, D.F. Estatística multivariada 11
1. Os valores de r devem ficar compreendidos entre -1 e 1;
2. Se r = 0, implica em inexistência de associação linear entre as variáveis. Por
outro lado, o sinal de r, indica a direção da associação: se r < 0 há uma
tendência de um dos valores do par ser maior que sua média, quando o outro
for menor do que a sua média, e r > 0 indica que quando um valor do par for
grande o outro também o será, além de ambos valores tender a serem
pequenos juntos;
3. Os valores de rkk’ não se alteram com a alteração da escala de uma das
variáveis.
As estatísticas Skk’ e rkk’, em geral, não necessariamente refletem
todo o conhecimento de associação entre duas variáveis. Associações não
lineares existem, as quais, não podem ser reveladas por estas estatísticas
descritivas. Por outro lado, estas estatísticas são muito sensíveis a observações
discrepantes (outliers).
Além destas, outras estatísticas como a soma de quadrados de
desvios em relação à média (Wkk) e a soma de produtos de desvios (Wkk’), são
muitas vezes de interesse. Essas estão apresentadas a seguir:
1. Aspectos da análise multivariada 12
2
1( )
== −∑
n
kk jk kjX XW
' ' '1( )( )
== − −∑
n
kk jk k jk kj
W X X X X
As estatísticas descritivas multivariadas calculadas de n observações
em p variáveis podem ser organizadas em arranjos.
Médias da amostra
1
2
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦p
XX
X
X
Matriz de covariância amostral
S
S S S
S S S
S S S
p
p
p p pp
=
⎡
⎣
⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥
11 12 1
21 22 2
1 2
Ferreira, D.F. Estatística multivariada 13
Matriz de correlações amostral
R
r r
r r
r r
p
p
p p
=
⎡
⎣
⎢⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥⎥
1
1
1
12 1
21 2
1 2
Exemplo 1.2
Considerando os dados introduzidos no exemplo 1.1, encontrar as o
vetor de médias X e as matrizes S e R. Neste exemplo, cada firma de ração,
representa uma das observações multivariadas, com p = 2 variáveis (valor da
venda em reais e número de sacos de rações vendidas).
As médias amostral são:
4
1 j1j 1
1 1X X (80 120 90 110) 1004 4=
= = + + + =∑
4
2 j2j 1
1 1X X (10 12 6 8) 94 4=
= = + + + =∑
1
2
1009
⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥
⎣ ⎦⎣ ⎦
XX
X
A matriz de covariância amostral é:
1. Aspectos da análise multivariada 14
S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333
S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667
S12=[(80-100)(10-9)+(120-100)(12-9)+(90-100) (6-9)+(110-100)(8-9)]/3 = 20,000
S21=S12=20,000, e
S =⎡
⎣⎢⎤
⎦⎥333 333 20 00020 000 6 667
, ,, ,
A correlação amostral é:
r12
2033 333 6 667
0 424= =, ,
, 3
r21=r12=0,4243
Portanto,
1,0000 0, 4243R
0, 4243 1,0000⎡ ⎤
= ⎢ ⎥⎣ ⎦
Ferreira, D.F. Estatística multivariada 15
1.4. Distâncias
A maioria das técnicas multivariadas é baseada no simples conceito
de distância, por mais formidável que isso possa parecer. O conceito de distância
euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um
ponto P=(x1, x2) no plano cartesiano, a distância deste ponto P da origem O=(0, 0),
definida por d(O,P), é dada pelo teorema de Pitágoras por:
d O P x x( , ) = +12
22 (1.5)
Esta situação é ilustrada na Figura 1.1. Em geral, se o ponto P tem p
coordenadas, de tal forma que P=(x1, x2, ... xp), a distância de P da origem
O=(0, 0, ..., 0), pode ser generalizada por:
d O P x x x p( , ) ...= + + +12
22 2 (1.6)
1. Aspectos da análise multivariada 16
X1
X2
P
d(O, P)
Figura 1.1. Distância entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo teorema de Pitágoras.
Todos os pontos (x1, x2, .., xp) que contém uma distância ao
quadrado, denominada c2, da origem, satisfaz a equação:
d O P x x x cp2
12
22 2 2( , ) ...= + + + = (1.7)
A expressão em (1.7) representa a equação de uma hiperesfera (um
círculo se p = 2), e os pontos eqüidistantes da origem por uma distância d(O, P)
pertencem a essa hiperesfera. A distância de um ponto P a um ponto arbitrário Q,
com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) é dada por:
( ) ( ) ( )d P Q x y x y x yp p( , ) ...= − + − + + −1 12
2 22 2
(1.8)
Ferreira, D.F. Estatística multivariada 17
A distância euclidiana é insatisfatória para muitas situações
estatísticas. Isso ocorre devido à contribuição de cada coordenada ter o mesmo
peso para o cálculo da distância. Quando estas coordenadas representam
medidas são provenientes de um processo que sofre flutuações aleatórias de
diferentes magnitudes é muitas vezes desejável ponderar as coordenadas com
grande variabilidade por menores pesos em relação àquelas com baixa
variabilidade. Isto sugere o uso de uma nova medida de distância.
Será apresentada a seguir uma distância que considera as
diferenças de variação e a presença de correlação. Devido a escolha de a
distância depender das variâncias e das covariâncias amostrais, a partir deste
instante, será utilizado o termo “distância estatística” para distinguir de distância
euclidiana.
A princípio, será considerada a construção de uma distância entre
um ponto P, com p coordenadas, da origem. O argumento que pode ser usado
refere-se ao fato de que as coordenadas de P podem variar no espaço produzindo
diferentes posições para os pontos. Para ilustrar, suponha que se tenha n pares
de medidas em duas variáveis (x1 e x2) e que as medidas de x1 variam
independentemente das mensurações em x2. O significado de independente neste
ponto pode ser dado pelo fato de que os valores de x1 não podem ser preditos
com nenhuma acurácia a partir dos valores de x2 e vice-versa. Em adição, é
assumido que as observações de x1 possuem maior variabilidade que as de x2.
Uma ilustração desta situação está apresentada na Figura 1.2.
1. Aspectos da análise multivariada 18
-6 -4 -2 0 2 4 6
X2
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
Figura 1.2. Diagrama de dispersão, mostrando a maior variabilidade na direção de
x1 do que na direção de x2.
Observando a Figura 1.2, verifica-se que não é surpreendente
encontrar desvios na direção de x1 que se afastem da origem consideravelmente,
o que não ocorre na direção de x2. Parece ser razoável, então, ponderar x2 com
mais peso do que x1 para um mesmo valor, quando as distâncias da origem forem
calculadas.
Ferreira, D.F. Estatística multivariada 19
Um modo de fazer isso é dividir cada coordenada pelo desvio padrão
amostral. Após a divisão, têm-se as coordenadas estandardizadas 1 1 11*x x s= e
2 2 22*x x s= . Após eliminar as diferenças de variabilidade das variáveis
(coordenadas), determina-se a distância usando a fórmula euclidiana padrão:
d O P x xxS
xS
( , ) ( ) ( )* *= + = +12
22 1
2
11
22
22 (1.9)
Usando a equação (1.9) todos os pontos tendo como coordenadas
(x1, x2) e com distância quadrada (c2) da origem devem satisfazer:
12
11
22
22
2xS
xS
c+ = (1.10)
A expressão (1.10) é a equação de uma elipse, cujos maiores e
menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o
caso geral para p = 2 coordenadas.
1. Aspectos da análise multivariada 20
OX1
X2
cS110.5-cS11
0.5
cS220.5
-cS220.5
Figura 1.3. Elipse de uma distância estatística quadrática d2(O,P)= 12
11
22
22
2xS
xS
c+ = .
Exemplo 1.3
Um conjunto de pares (x1, x2) de duas variáveis forneceu 1 2X X 1= = ,
S11=9 e S22=1. Supõe-se que as observações de x1 são independentes de x2. A
distância quadrática de um ponto arbitrário (P) da origem, uma vez que as
variâncias da amostra não são iguais, é dada por:
d O Px x2 1
222
9 1( , ) = +
Ferreira, D.F. Estatística multivariada 21
Todos os pontos (x1, x2) que possuem distâncias quadrada da origem igual a 1,
satisfazem a equação:
x x12
22
9 11+ = (1.11)
As coordenadas de alguns pontos com distância quadrática unitária
da origem foram apresentadas na Tabela 1.2.
Tabela 1.2. Coordenadas de alguns pontos com distância quadrática unitária da
origem.
Coordenadas (x1, x2) Distância ao quadrado
( 0, 1)
( 0,-1)
( 3, 0)
(-3, 0)
09
11
2 21+ =
09
11
2 2
1+ =−( )
39
01
2 21+ =
( )−+ =
39
01
2 21
O gráfico da equação (1.11) é uma elipse centrada na origem (0,0),
cujo maior eixo é o da direção de x1 e o menor da direção de x2. A metade do
maior eixo (semi-eixo maior) é c S11 3= e do menor c S22 1= . A elipse de distância
quadrática unitária foi plotada na Figura 1.4.
1. Aspectos da análise multivariada 22
-5 -4 -3 -2 -1 0 1 2 3 4 5
-5
-4
-3
-2
-1
0
1
2
3
4
5
x1
x2
Figura 1.4. Elipse de distância unitária quadrática da origem obtida a partir da
equação 1.11.
A expressão (1.9) pode ser generalizada para o cálculo da distância
entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente
uma da outra. O caso mais geral, em que a hipótese de independência não é
satisfeita, será abordado futuramente.
d P Qx yS
x yS
x y
Sp p
pp( , )
( ) ( ) ( )=
−+
−+ +
−1 12
11
2 22
22
2
(1.12)
Ferreira, D.F. Estatística multivariada 23
Todos os pontos (P) situados a uma distância quadrática constante
de Q, pertencem a uma hiperelipsóide centrada em Q, cujos maiores e menores
eixos são paralelos aos eixos das coordenadas.
O programa SAS, apresentado a seguir, contém os códigos
necessários para a obtenção das principais estatísticas descritivas multivariadas
apresentadas nesse capítulo. O programa contém códigos matriciais e será
abordado com mais detalhe nos próximos capítulos. Os dados do exemplo 1.1 são
utilizados para a ilustração.
Proc IML; X={ 80 10, 120 12, 90 6, 110 8}; Print X; n=nrow(X);p=ncol(X); Xbar=x`*j(n,1,1)/n; Print Xbar; q=i(n)-(1/n)*j(n,n,1); print q; S=(1/(n-1))*X`*q*X; W=(n-1)*S; print S W; V=diag(S); Vroot=half(V); IVroot=inv(Vroot); R=Ivroot*S*Ivroot; Print V Vroot IVroot; Print R; Quit;
Foi motivado nesse capítulo o estudo das análises multivariadas e
tentou-se fornecer alguns rudimentares, mas importantes, métodos de organizar e
resumir os dados. Em adição, o conceito geral de distância foi apresentado, e será
abordado e generalizado nos próximos capítulos.
1. Aspectos da análise multivariada 24
1.5. Exercícios
■ Considere as amostras com 8 observações e 3 variáveis apresentadas a seguir:
x1 3 5 6 4 8 9 6 7
x2 6 11 11 9 15 16 10 12
x3 14 9 9 13 2 2 9 5
a) Construa o gráfico de dispersão dos pontos das variáveis x1 e x2, x1 e x3, x2 e x3.
Comente sobre sua aparência.
b) Calcule: X , S e R e interprete os valores em R.
c) Calcule a distância euclidiana dada em (1.8) de um ponto
P=( x1, x2, x3)=(5, 12, 8) em relação a origem e em relação a X .
d) Calcule as mesmas distâncias do item c, usando (1.12).
||[ ]||Álgebra vetorial e matricial
2
2.1. Introdução
É desejável que as p respostas multivariadas sejam representadas
por uma notação concisa. Os dados multivariados podem ser dispostos
convenientemente como um arranjo de números, como foi apresentado no
capítulo 1. Em geral, um arranjo retangular destes números, com n linhas e p
colunas, por exemplo, é chamada de matriz de dimensões n x p. Se por outro lado,
o arranjo consiste em n mensurações em apenas 1 variável, ou ainda, de uma
observação multivariada em p variáveis, esses arranjos são denominados de
vetores.
Com esse arranjo bidimensional, não só, a notação fica mais
concisa, mas os muitos resultados matemáticos de álgebra vetorial e matricial
facilitam a derivação e exposição dos métodos estatísticos multivariados. Neste
material, os elementos de álgebra vetorial e matricial, serão considerados como
conhecidos. Nesse capítulo, no entanto, para os estudantes não familiarizados
com o assunto, será apresentada uma breve revisão.
2. Álgebra vetorial e matricial 26
2.2. Elementos de álgebra vetorial
De um ponto de vista geométrico, as observações multivariadas,
podem ser consideradas como pontos no espaço p-dimensional, cujas
coordenadas são dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final
de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal
segmento de reta é denominado de vetor de posição e pode ser denotado
simplesmente por X . O vetor de posições é apenas um exemplo de vetor, para os
quais pode ser elaborada a álgebra, baseada nos seguintes postulados.
POSTULADOS
1. Para qualquer vetor X dado um número escalar c, a multiplicação do escalar
pelo vetor, resulta em outro vetor Y , definido por:
Y = c X
c será considerado um número real;
2. A adição de dois vetores conduz a um único vetor definido como:
Ferreira, D.F. Estatística multivariada 27
Z = X + Y
3. A adição de vetores é:
Comutativa: X + Y = Y + X
Associativa: X + ( )Y Z+ = ( )X Y Z+ +
4. Se 0 é o vetor nulo, então:
X + 0 = X
0 . X = 0
COMPRIMENTO, ÂNGULO E DISTÂNCIA
Inicialmente, é definido produto interno entre dois vetores, que
representa a soma de produtos de pares de coordenadas correspondentes. Para
dois vetores (n x 1) de posição X e Y , o produto interno será o escalar, dado por:
n
i i 1 1 2 2 n ni 1
X.Y x y x y x y x y=
= = + + +∑
2. Álgebra vetorial e matricial 28
É fácil verificar que X.Y Y.X= . Por meio, do produto interno é
possível generalizar o teorema de Pitágoras para o espaço euclidiano
n-dimensional:
n2 2 2 2 2 2
i 1 2 ni 1
X X.X x x x x d (P,O)=
= = = + + + =∑ (2.1)
em que P, é o ponto do espaço n-dimensional, definido pelas coordenadas do
vetor X . A expressão (2.1) é o comprimento ao quadrado do vetor X . A
expressão entre módulo | X | indica a norma de X .
Dessa forma o comprimento do vetor é definido por:
X X.X= (2.2)
O ângulo θ entre dois vetores ( X e Y ) pode ser expresso em função
do produto interno e do comprimento dos vetores, obtido através da lei dos
cosenos, por:
( ) X.YCosX.X Y.Y
θ = (2.3)
As distâncias apresentadas no capítulo 1, entre os pontos
coordenados dos vetores X e Y , podem ser expressos agora como o
Ferreira, D.F. Estatística multivariada 29
comprimento do vetor diferença das coordenadas de X e Y . A distância entre X
e Y é:
d(X, Y) X Y (X Y).(X Y)= − = − − (2.4)
Além de ser não negativa, essa distância entre os dois vetores é
independente da direção das medidas e satisfaz a desigualdade triangular:
d( X , Y ) ≤ d( X , Z ) + d( Y , Z ) (2.5)
Derivada a partir da desigualdade de Cauchy-Schwars:
a.b ≤ a . b (2.6)
O que implica, no fato, que o valor do co-seno do ângulo entre a e b
não pode exceder a unidade.
ORTOGONALIDADE
Dois vetores não nulos são denominados ortogonais, se o co-seno
do ângulo entre eles for zero. Isto indica que:
2. Álgebra vetorial e matricial 30
X.Y = 0 (2.7)
Muitas vezes é desejável (em sistemas de equações lineares)
construir uma base ortonormal de vetores, isto é, cada vetor da base possui
comprimento unitário ( )i iX .X 1= e cada par de vetor da base são ortogonais
( )i jX .X 0, i j= ≠ . Para um conjunto de vetores arbitrários pode-se empregar a
“construção de Gram-Schimidt”. O algoritmo está apresentado a seguir,
considerando o conjunto 1 2 nX , X , ..., X de vetores:
Passo 1: normalize 1X :
11 1 1
1 1
XX ; X .X 0X .X
∗ = ≠
Passo 2: Ortonormalize 2X calculando o produto interno entre *1X e 2X , e
subtraindo de 2X os componentes de *1X :
Ortogonalizando 1X e 2X :
( )* *2 2 2 1 1X X X .X X⊥ = −
Então, normalizando-se 2X⊥ :
Ferreira, D.F. Estatística multivariada 31
*2 2 2 2
2 2
1X X ; X .X 0X .X
⊥ ⊥ ⊥
⊥ ⊥= ≠
Passo 3: Calcule o produto interno de 3X com *1X e *
2X , e subtraia de 3X os
componentes de *1X e *
2X ,
( ) ( )* * * *3 3 3 1 1 3 2 2X X X .X X X .X X⊥ = − −
Então, normalizando-se 3X⊥ :
*3 3 3 3
3 3
1X X ; X .X 0X .X
⊥ ⊥ ⊥
⊥ ⊥= ≠
E assim por diante, até o n-ésimo estágio, quando todos os vetores
entrarem na construção. Se o i-ésimo vetor for linearmente dependente dos
vetores anteriores, então iX⊥ será igual ao vetor nulo, iX 0⊥ = , devendo ser
eliminado do conjunto e o processo deve continuar com o vetor i 1X + . O número de
vetores não nulos remanescentes no conjunto, constituem a dimensão do espaço
vetorial original.
2. Álgebra vetorial e matricial 32
Exemplo 2.1
Dado o conjunto de vetores, a seguir, utilizar como ilustração a construção de
Gram-Schimidt.
1 1 01 1 0
X1 0 11 0 1
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
Os vetores de X são dados por:
X = [ 1X 2X 3X ]
Passo 1. Normalize 1X :
*1
111X121
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
Passo 2: Ortonormalize 2X :
Produto interno: 2X . *1X = 1
Ferreira, D.F. Estatística multivariada 33
ortogonalização: 2
1 1 11 1 11 1X 1.0 1 12 20 1 1
⊥
⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Normalização: *2
1 11 11 1 1X .1 11 2 21 1
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦
Passo 3: Ortonormalização de 3X
Produto interno: *3 1X .X 1= e *
3 2X .X 1= −
ortogonalização:
1 12 21 12 2
3 1 12 21 12 2
00 1 1 000 1 1 01 1X 1. ( 1).11 1 1 02 211 1 1 0
⊥
− +⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− +⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − − − = =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −−⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −− ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦
Verifica-se neste passo que 3X é linearmente dependente dos
vetores 1X e 2X , e deve ser eliminado da base vetorial. É fácil verificar que
3 1 2X X X= − . Agrupando os vetores linearmente independentes ortonormalizados
obtém-se a base vetorial de Gram-Schimidt.
2. Álgebra vetorial e matricial 34
1 12 21 12 2
2 1 12 21 12 2
X
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥−⎢ ⎥−⎢ ⎥⎣ ⎦
Pode ser observar facilmente que o produto interno dos vetores em
X2, é igual a zero.
Um importante tipo de matriz inversa, denominado de inversa de Moore-
Penrose, é obtido de uma base ortonormal das colunas de uma matriz para a qual
se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de
dimensão qualquer nxp e seja U a base ortonormal de vetores obtida da
ortonormalização das colunas de A, então, defini-se T por:
T=U’A
Logo, a inversa generalizada de Moore-Penrose (A+) é definida por:
A+ = T’(TT’)-1U’.
2.3. Elementos de álgebra matricial
Na álgebra matricial as relações e operações são definidas através
de operações em arranjos retangulares dos elementos, denominados de matrizes.
Um exemplo de matriz é:
Ferreira, D.F. Estatística multivariada 35
11 12 1p
21 22 2p
n x p
n1 n2 np
a a aa a aAa a a
⎡ ⎤⎢ ⎥⎢ ⎥
= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
O número de linhas de uma matriz é denominado de ordem de linha
e o número de colunas, ordem de colunas. Se o número de linhas é n e o número
de colunas é p, diz-se que a matriz possui ordem nxp. Pode-se representar a
matriz por:
A=[aij] i=1, 2,..., n j=1, 2, ..., p (2.8)
Nas análises multivariadas, muitas vezes, será feito referências a
matriz de dados, a qual consiste de p respostas de n observações ou unidades
experimentais, e terá ordem nxp.
POSTULADOS
1. Igualdade: Duas matrizes necessariamente com o mesmo número de linhas e
colunas são iguais, se e somente se os elementos correspondentes, forem
iguais:
A=B ⇔ aij=bij i=1, 2, ..., n e j=1, 2, ..., p
2. Álgebra vetorial e matricial 36
2. Adição: A soma de duas matrizes de mesma ordem é obtida pela soma dos
elementos correspondentes:
A+B = [ aij] + [bij] = [aij + bij]
A adição com matriz nula 0, contendo elementos iguais a zero é:
nAp + n0p = nAp
3. Multiplicação por escalar: o produto de um escalar e uma matriz é obtido pela
multiplicação de cada elemento da matriz pelo número escalar:
cA = c[ aij] = [ caij]
4. Multiplicação de matriz: a multiplicação de matrizes é definida para aquelas em
que a ordem coluna do fator que pré multiplica é igual a ordem linha do fator
que pós multiplica. Tais matrizes são denominadas conformáveis para
multiplicação. O elemento (i, k) da matriz resultante do produto é a soma dos
produtos dos elementos correspondentes, da i-ésima linha do fator que pré
multiplica com os da k-ésima coluna do fator que pós multiplica.
nAq qBp = AB = q
ij jkj 1
a b=
⎡ ⎤⎢ ⎥⎣ ⎦∑ = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = C
Ferreira, D.F. Estatística multivariada 37
Em geral AB ≠ BA.
A matriz quadrada com unidades na diagonal e zero nas demais
partes é denominada de matriz unitária ou identidade:
1 0 00 1 0
0 0 1
⎡ ⎤⎢ ⎥⎢ ⎥Ι =⎢ ⎥⎢ ⎥⎣ ⎦
Verifica-se que:
nAp pΙp = nAp
nΙn nAp = nAp
A matriz quadrada cujos elementos fora da diagonal principal são
iguais a zero é denominada matriz diagonal:
D = diag[d1, d2, ..., dn] =
1
2
n
d 0 00 d 0
0 0 d
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
2. Álgebra vetorial e matricial 38
A pré-multiplicação por uma matriz diagonal, simplesmente re-escala
as linhas do fator que pós multiplica, e a pós-multiplicação re-escala as colunas do
pré-fator.
5. Inversão de matriz: a inversa de uma matriz quadrada A, nxn, é chamada de A-1
e é definida de tal forma que A A-1 = A-1 A = Ι.
A inversa de um produto de matrizes é o produto do inverso dos fatores em
ordem inversa a ordem de multiplicação original:
(AB)-1 = B-1A-1
Pois, B-1A-1AB = B-1B = Ι e AB B-1A-1 = AA-1 = Ι
6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de
uma matriz específica é denominada de matriz transposta. É denotada por A’.
nAP = [aij], então, pA’n = [aij]’ = [aji]
(A + B)’ = A’ + B’
(AB)’ = B’A’
Ferreira, D.F. Estatística multivariada 39
(A-1)’ = (A’)-1
7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada
das restantes s=m-r linhas, e as p colunas particionadas das remanescentes
q = n - p colunas. Então, A pode ser representada por submatrizes, como a
seguir:
11 12
21 22
A A rA
A A sp q
⎡ ⎤= ⎢ ⎥
⎣ ⎦
Seja B uma matriz particionada de forma similar e sejam A e B tais
que suas partições sejam conformáveis para adição, logo,
11 11 12 12
21 21 22 22
A B A B rA B
A B A B sp q
+ +⎡ ⎤+ = ⎢ ⎥+ +⎣ ⎦
Suponha agora que B seja particionada em p e q linhas e em t e u
colunas. Então, é possível verificar que:
2. Álgebra vetorial e matricial 40
11 12 11 12
21 22 21 22
11 11 12 21 11 12 12 22
21 11 22 21 21 12 22 22
A A B Br pAB
A A B Bs qp q t u
A B A B A B A B rA B A B A B A B s
t u
⎡ ⎤ ⎡ ⎤= ⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦
+ +⎡ ⎤= ⎢ ⎥+ +⎣ ⎦
Ainda é possível verificar que:
( ) ( )( ) ( )
1 1 11 1 1 11 1
1 111 1
A A B CA A Bp A B p D CA B D CA Bq C D q CAD CA B D CA B
p q p q
− − −− − − −− −
− −−− −
⎡ ⎤+ −⎡ ⎤ − −= ⎢ ⎥⎢ ⎥−⎣ ⎦ ⎢ ⎥− −⎣ ⎦
Método prático para cálculo de matrizes inversas
As rotinas para computadores usualmente fazem uso da versão
compacta do método de Gauss, denominado de método de Gauss-Jordan
(Householder, 1953, 1964).
Os cálculos do método de Gauss-Jordan são recursivos, sendo que
os elementos da matriz no estágio i+1 são trocados pelos resultados da chamada
operação pivotante dos elementos do estágio i, por:
( ) ( )( ) ( )
( )
i ikj ji 1 i
k k ijj
a aa a k e j
a+
×= − ≠
Ferreira, D.F. Estatística multivariada 41
( )( )
( )
iji 1
j ijj
aa j
a+ = ≠
( )( )
( )
ikji 1
kj ijj
aa k j
a+ = − ≠
( )( )
i 1jj i
jj
1aa
+ =
O elemento ( )ijja é chamado de pivô, e sua linha e coluna são
chamados de linha e coluna pivotais. Após n operações pivotantes, a matriz
original é substituída pela sua inversa, garantindo-se que cada linha e coluna seja
pivotada somente uma vez.
Exemplo 2.2
Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir:
( )0 4 2A
2 2⎡ ⎤
= ⎢ ⎥⎣ ⎦
Passo 1. Um bom compromisso com a precisão é pivotar a linha e coluna cujo
elemento da diagonal seja o maior de todos os não pivotados. Assim o
2. Álgebra vetorial e matricial 42
elemento escolhido para pivô é o elemento a11=4. A matriz após a
primeira ação pivotante é:
( )1 14 2112
1 24 4A
12 2 224 4
−
⎡ ⎤⎢ ⎥ ⎡ ⎤
= =⎢ ⎥ ⎢ ⎥− ×⎢ ⎥ ⎣ ⎦−⎢ ⎥⎣ ⎦
Passo 2. Neste passo, a única coluna ou linha não pivotada é a 2. Portanto o pivô
é a22=1, e a matriz resultante da operação pivotante é:
( )( )1 1 1
2 2 2
12
1 112 24 1 1211 21 1
1 11A1 1 22
− −
−
⎡ ⎤ − −− ⎡ ⎤ ⎡ ⎤⎢ ⎥= = =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎣ ⎦⎣ ⎦⎣ ⎦
Ao final da operação pivotante, a matriz resultante, A(2), é a matriz
inversa de A.
Matrizes ortogonais
Classes especiais de matrizes, que serão utilizadas rotineiramente
nas técnicas multivariadas, são denominadas de matrizes ortogonais, sendo
simbolizadas em geral por Q e caracterizada por:
Ferreira, D.F. Estatística multivariada 43
QtQ = QQt = Ι ou Qt = Q-1
O nome deriva da propriedade de que se Q tem i-ésima linha tiq ,
então, se QQt = Ι implica que ti iq q 1= e t
i jq q 0= para i≠j, sendo que as linhas
possuem tamanho unitário e são mutuamente ortogonais (perpendiculares). De
acordo com a condição de que QtQ = Ι, as colunas têm a mesma propriedade.
Exemplo 2.3
Dado a matriz Q, a seguir, verifique sua ortogonalidade:
1 12 2
1 12 2
Q⎡ ⎤
= ⎢ ⎥−⎢ ⎥⎣ ⎦
A transposta de Q é dada por:
1 12 2t
1 12 2
Q−⎡ ⎤
= ⎢ ⎥⎢ ⎥⎣ ⎦
então,
1 1 1 12 2 2 2t1 1 1 12 2 2 2
2 0 1 01QQ0 2 0 12
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
2. Álgebra vetorial e matricial 44
e,
1 1 1 12 2 2 2t
1 1 1 12 2 2 2
2 0 1 01Q Q0 2 0 12
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
sendo, QtQ = QQt = Ι ou Qt = Q-1, verificou-se que Q é ortogonal.
Determinantes
Uma função escalar importante de uma matriz A quadrada nxn, é o
determinante da mesma. O determinante da matriz A é simbolizado por |A| e é
definido por:
( )
11
ni j
ij ijj 1
A a se n 1
A a A 1 se n 1+
=
= =
= − >∑ (2.9)
em que Aij é a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-ésima linha e a
j-ésima coluna de A, para qualquer escolha arbitrária de i=1, 2, ..., n.
Exemplo 2.4
Para ilustrar a definição (2.9), serão consideradas as seguintes matrizes:
Ferreira, D.F. Estatística multivariada 45
4 2 24 1
A [4] B C 2 2 01 2
2 0 2
⎡ ⎤⎡ ⎤ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎣ ⎦
A 4= ;
2 3B 4 2 ( 1) 1 1 ( 1) 4.2.1 1 1 1 7= × × − + × × − = − × × = ;
2 3 4
2 3 2 2 3 3
2 3 4
2 0 2 0 2 2C 4 ( 1) 2 ( 1) 2 ( 1)
0 2 2 2 2 0
4 [2 2 ( 1) 0 0 ( 1) ] ( 1) 2 [2 2 ( 1) 0 2 ( 1) ] ( 1)
2 [2 0 ( 1) 2 2 ( 1) ] ( 1) 16 8 8 0
C 0
= × × − + × × − + × × −
= × × × − + × × − × − + × × × − + × × − × − +
+ × × × − + × × − × − = − − =
∴ =
Propriedades dos determinantes
1. tA A= ;
2. Se uma linha ou coluna de A for multiplicada por uma constante k, o
determinante ficará multiplicado pela constante;
3. Se A é multiplicada por uma constante k, o determinante resultante ficará
multiplicado por kn;
2. Álgebra vetorial e matricial 46
nkA k A=
4. Se duas linhas ou duas colunas são trocadas de posição, então o determinante
muda de sinal;
5. Se duas linhas ou duas colunas são proporcionais, então o determinante de A
será igual a zero;
6. O determinante obtido deletando a i-ésima linha e j-ésima coluna de A é
denominado menor de A, e denotado por |Aij|. A relação entre |A| e |Aij| foi
apresentada na definição de determinante (2.9);
7. 11 1A AA
−− = = ;
8. |AB| = |A|×|B|.
Determinante e posto (rank)
Se |A|≠0, então, A é denominada de posto completo, ou como é mais
comum dizer, A é não-singular e A-1 existe. Uma condição necessária e suficiente
para a existência da inversa de A é que |A|≠0.
Ferreira, D.F. Estatística multivariada 47
Teorema da multiplicação
Seja a matriz A de ordem 2n x 2n, particionada em sub-matrizes
n x n dadas por:
B C nA
D E nn n
⎡ ⎤= ⎢ ⎥
⎣ ⎦
Supõe-se que o determinante de A é não nulo, e se necessário for,
linhas e colunas correspondentes de A devem ser trocadas para assegurar que B
seja não-singular. Como o número de trocas de linhas e colunas é
necessariamente par, o valor de |A| não se altera. Considere matrizes
elementares, com determinante 1, dadas por:
1
0DB−
Ι⎡ ⎤⎢ ⎥− Ι⎣ ⎦
e 1B C
0
−⎡ ⎤Ι −⎢ ⎥Ι⎣ ⎦
Se A for pré e pós-multiplicada, respectivamente, por essas matrizes
o resultado é:
2. Álgebra vetorial e matricial 48
1
1
1
1 1
0 B C B CDB D E 0
B C B 0B C0 DB C E 0 E DB C0
−
−
−
− −
Ι ⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥− Ι Ι⎣ ⎦ ⎣ ⎦ ⎣ ⎦
⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤= =⎢ ⎥⎢ ⎥ ⎢ ⎥− + −Ι⎣ ⎦ ⎣ ⎦⎣ ⎦
Então, A foi reduzida para sua forma quase-diagonal ou bloco
diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma:
1
2
V 0 nV
0 V nn n
⎡ ⎤= ⎢ ⎥
⎣ ⎦
então, o determinante de v é dado por:
1 2V V V=
Aplicando essa regra a A transformada pela pré e pós-multiplicação por
matrizes elementares, cujo determinante é igual a 1, o que não altera o valor de
|A|, tem-se:
11
B 0A B E DB C0 E DB C
−−= = −−
Observe que se A for quasi-triangular, ou seja, triangular por blocos,
o determinante é o produto dos determinantes de suas sub-matrizes principais:
Ferreira, D.F. Estatística multivariada 49
B CB E0 E
=
Agora é possível apresentar e provar o teorema da multiplicação. Se
A e B são matrizes quadradas n x n, então, |AB|=|A|.|B|. Considere para isso a
identidade:
I A A 0 0 AB0 I I B I B
⎡ ⎤ ⎡ ⎤ ⎡ ⎤=⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦
O produto do lado esquerdo da igualdade envolve operações
elementares que não afeta o determinante. Assim, o determinante de ambos os
lados é igualado e o resultado obtido é:
A 0 0 ABI B I B
=− −
Colocando o lado direito na forma quasi-triangular por meio de trocas
nas últimas n colunas o resultado obtido é dado por:
( )nA 0 AB 01I B B I
= −− −
2. Álgebra vetorial e matricial 50
Usando o resultado do determinante de uma matriz triangular por
blocos, têm-se:
( )
( ) ( )
( )
n
n n
2n
A B 1 AB I
A B 1 1 AB
A B 1 AB
AB A B
= − −= − −= −
∴ =
■
Infelizmente, não há teorema simples para a soma de matrizes.
Decorre desse teorema que:
1
1
11
IA A
1AA1
AAA
−
−
−−
=
=
= =
Derivadas de vetores e matrizes
As derivadas de funções envolvendo vetores e matrizes são
necessárias em inúmeras aplicações na multivariada e em outras áreas. Apesar
de ser possível escrever essas mesmas funções em uma forma expandida e
tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é
vantajoso definir regras que retenham vetores e matrizes na notação (Bock, 1975).
Ferreira, D.F. Estatística multivariada 51
A seguir são apresentadas as principais regras de diferenciação vetorial e
matricial.
Derivadas de matrizes de funções em relação a variáveis escalares
Seja A uma matriz m x n cujos elementos são funções diferenciáveis
com relação a uma variável escalar x. A derivada de A em relação a x é uma
matriz m x n:
11 1n
m1 mn
a ax xA
xa ax x
∂ ∂⎡ ⎤⎢ ⎥∂ ∂⎢ ⎥∂
= ⎢ ⎥∂ ⎢ ⎥∂ ∂⎢ ⎥
∂ ∂⎣ ⎦
(2.10)
Seja A uma matriz m x n de funções diferenciáveis em x e B outra
matriz p x q cujos elementos, também, são diferenciáveis em x. Para cada caso
abaixo, são adotadas dimensões tais que as operações matriciais sejam
conformáveis.
( ) A BA B ; m p, n qx x x
∂ ∂ ∂+ = + = =∂ ∂ ∂
(2.11)
( ) B AAB A B; n px x x
∂ ∂ ∂= + =
∂ ∂ ∂ (2.12)
2. Álgebra vetorial e matricial 52
( )11 1AA A A ; m n, 0Ax x
−− −∂ ∂
= − = ≠∂ ∂
(2.13)
Seja X uma matriz m x n com o elemento xij na i-ésima linha e
j-ésima coluna, então,
ijij
X 1x
∂=
∂ (2.14)
em que 1ij é uma matriz m x n com 1 na i-ésima linha e j-ésima coluna e 0 nas
demais posições. Se X for uma matriz diagonal n x n, logo,
iiii
X 1x
∂=
∂ (2.15)
Derivadas de uma função escalar de matrizes em relação a um vetor ou matriz variável
Seja g uma função escalar qualquer de uma matriz X, que pode ser por
exemplo o determinante, o traço, entre outras, então, a diferenciação de g em
relação a X é:
Ferreira, D.F. Estatística multivariada 53
11 1n
m1 mn
g gx x
gX
g gx x
∂ ∂⎛ ⎞⎜ ⎟∂ ∂⎜ ⎟∂ ⎜ ⎟=
∂ ⎜ ⎟∂ ∂⎜ ⎟⎜ ⎟∂ ∂⎝ ⎠
…
(2.16)
a) o traço
O traço de uma matriz n x n é uma função que aparece com muita
freqüência na estatística multivariada, o qual é a soma dos elementos da diagonal
principal dessa matriz:
( )n
iii 1
tr aA=
= ∑ (2.17)
Para as matrizes A, B e C de ordem m x n, p x q e r x s,
respectivamente, o traço tem as seguintes propriedades:
( ) ( ) ( )tr tr tr , m n p qA B A B= + = = =+ (2.18)
( ) ( )tr tr , m nA A= δ =δ (2.19)
( ) ( )ttr tr , m nAA = = (2.20)
( ) ( )tr tr , m q, n pAB BA= = = (2.21)
2. Álgebra vetorial e matricial 54
( ) [ ] ( )tr tr tr , m s, n p, q r(AB)CABC CAB= = = = = (2.22)
Seja C uma matriz r x s de constantes e X uma matriz u x v de
variáveis. As seguintes diretivas de derivação do traço de funções de C e X com
relação aos elementos de X, resultam em matrizes de dimensão u x v:
( )tr C 0, r sX
∂= =
∂ (2.23)
( )tr X I, r sX
∂= =
∂ (2.24)
( ) ttr XC C , r v, s uX
∂= = =
∂ (2.25)
( ) ( )t
ttr X CX X, r v s uC CX
∂= = = =+∂
(2.26)
Essas diretivas de derivação são invariantes as permutações cíclicas
sofridas por transposição ou permutação dos fatores de multiplicação de matrizes.
no entanto, as derivadas com relação a transposta de X resultam em transpostas
das matrizes anteriores de ordem v x u. Em particular:
Ferreira, D.F. Estatística multivariada 55
( ) tt
tr XC C , r v, s uX
∂= = =
∂ (2.27)
( ) ( )t
t tt
tr X CX X , r v s uC CX∂
= = = =+∂ (2.28)
Para obter derivadas de funções elementares das matrizes algumas
diretivas também são definidas. Sejam os elementos de A e B funções de X, e
seja C uma matriz de constantes. Então,
( ) ( ) ( )tr tr trA B A B , m n p qX X X
∂ ∂ ∂+ = + = = =∂ ∂ ∂
(2.29)
( ) ( ) ( )trtr trAB AB AB , m q, n pX X X
∂∂ ∂= + = =
∂ ∂ ∂ (2.30)
( ) ( )1 2tr trA A A , m n, 0AX X
− −∂ ∂= − = ≠
∂ ∂ (2.31)
( ) ( )1 1 1tr trA C A CA A , m n r s, 0AX X
− − −∂ ∂= − = = = ≠
∂ ∂ (2.32)
A barra acima das matrizes anteriores em (2.29) a (2.32) indica que
essas são consideradas constantes para fins de diferenciação.
2. Álgebra vetorial e matricial 56
b) determinante
( ) ( )tt 1X adj , u v, 0X XX XX−
∂= = = ≠
∂ (2.33)
( ) ( )t t1
adjln X X , u v, 0XXX X−
∂= = = ≠
∂ (2.34)
Restrições da variável de diferenciação
Alguns problemas estão sujeitos a maximização ou minimização com
relação a uma variável que por sua vez está sujeita a restrições. Os casos
especiais são àqueles em que X é simétrica. Logo X=Xt e os elementos fora da
diagonal são sujeitos a:
xij = xji i<j (2.35)
Uma abordagem apropriada para o problema é impor restrições por
meio de multiplicadores de Lagrange. Para aplicar esse método, deve-se
diferenciar com relação a x não restrita a expressão da forma:
( )[ ]t1g tr U X X2
+ −
Ferreira, D.F. Estatística multivariada 57
em que g é uma função escalar de X, U a n x n matriz de multiplicadores de
Lagrange. Logo, X deve satisfazer:
( )tg 1 0U UX 2∂
+ =−∂ (2.36)
Como também
( ) ( )t t
tt t1 1g g 0U U U U2 2X X∂ ∂⎛ ⎞ ⎛ ⎞+ = − =− −⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠
(2.37)
Somando essas expressões obtém-se a condição para o extremo
restrito:
tg g 0X X
∂ ∂⎛ ⎞ ⎛ ⎞+ =⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠
(2.38)
Outro caso importante de matriz X restrita é: se X é uma matriz
diagonal n x n e Y uma matriz função de X, então,
11 22 nn
tr(Y) tr(Y) tr(Y)tr(Y) Diagx x xX
∂ ∂ ∂∂ ⎡ ⎤= ⎢ ⎥∂ ∂ ∂∂ ⎣ ⎦
(2.39)
E se X = x Ι, então,
2. Álgebra vetorial e matricial 58
tr(Y) tr(Y)X x
∂ ∂=
∂ ∂ (2.40)
Regra da cadeia para funções escalares de matrizes
Seja g uma função escalar de A diferenciável com relação aos
elementos de A, e deixe os elementos de A ser função diferenciável de x. Então,
tg g Atrx A x
∂ ⎛ ⎞∂ ∂= ⎜ ⎟∂ ∂ ∂⎝ ⎠ (2.41)
Por exemplo, para |A|≠0, g=ln|A| de (2.34) tem-se:
( )t t
t1g ln ln A AA Atr tr Ax x A x x
−∂ ∂ ⎛ ⎞ ⎡ ⎤∂ ∂ ∂= = =⎜ ⎟ ⎢ ⎥∂ ∂ ∂ ∂ ∂⎝ ⎠ ⎣ ⎦
(2.42)
derivada de uma função de um vetor com relação a um vetor
Seja um vetor z m x 1, cujos elementos são diferenciáveis pelos
elementos 1 x n do vetor [ ]t1 2 nx x x x= . A derivada de Z em relação a tx é
a matriz m x n:
Ferreira, D.F. Estatística multivariada 59
tj ij
z i 1, 2, ..., mzx j 1, 2, ..., nx
∂ =⎡ ⎤∂= ⎢ ⎥∂ =∂ ⎣ ⎦
(2.43)
Por exemplo, de (2.26) tem-se a primeira derivada de tx Ax , sendo A
simétrica,
( )tt tr x Axx Ax 2Axx x
∂∂= =
∂ ∂ (2.44)
De (2.43), a segunda derivada é representada em forma matricial
por:
( )tt
t t t
x Ax xx Ax 2Ax 2Ax x x x
∂ ∂ ∂∂ ∂= = =
∂ ∂ ∂ ∂ (2.45)
Formas quadráticas
Definindo A como uma matriz simétrica não nula (nxn), e o vetor
t1 2 nx [X X X ]= a expressão:
n n 1 nt 2
ii i ij i ji 1 i 1 j i 1
Q x A x a X 2 a X X−
= = = +
= = +∑ ∑ ∑
2. Álgebra vetorial e matricial 60
é dita forma quadrática, pois só contém termos quadrados ( )2ix e de produtos
( )i jx x .
Exemplo 2.5
Obtenha a expansão da forma quadrática, dado o vetor x e a matriz A, a seguir:
[ ]1 2
4 1x x x A
1 2⎡ ⎤
= = ⎢ ⎥⎣ ⎦
[ ] [ ]1 11 2 1 2 1 2
2 2
x x4 1Q x x 4x x x 2x
x x1 2⎡ ⎤ ⎡ ⎤⎡ ⎤
= × × = + + ×⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
2 21 1 2 2Q 4x 2x x 2x∴ = + +
Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um
vetor x são realizações de p variáveis aleatórias X1, X2, ..., Xp pode-se
considerá-los como coordenadas de um ponto no espaço p-dimensional. A
distância desse ponto 1 2 p[x x x ] da origem pode e deve, nesse caso, ser
interpretada em termos de unidades de desvio padrão. Desse modo, pode-se
considerar a incerteza inerente (variabilidade) às observações. Pontos com a
mesma incerteza associada são considerados de mesma distância da origem.
Introduzindo agora uma fórmula geral de distância mais apropriada têm-se:
Ferreira, D.F. Estatística multivariada 61
( )n n 1 n
2 2ii i ij i j
i 1 i 1 j i 1d a x 2 a x x0,P
−
= = = +
= +∑ ∑ ∑ (2.46)
e garantindo que d2 > 0 para todo ponto P≠0, e fazendo aij=aji, têm-se:
11 12 1p
121 22 2p2 t
1 p
p
p1 p2 pp
0 d x Ax
a a axa a ax xxa a a
⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎡ ⎤< = = ⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥
⎣ ⎦
(2.47)
Verifica-se que (2.47) é uma forma quadrática, o que permite que a
interprete como uma distância. A determinação, dos coeficientes da matriz A de
(2.47) será apresentada oportunamente.
Classificação de formas quadráticas
As formas quadráticas podem ser classificadas, quanto aos
resultados que produzem. Nesta seção, o interesse residirá nas formas
quadráticas não negativas e nas matrizes associadas (denominadas positivas
definidas). Uma condição necessária e suficiente para que A seja positiva definida
(pd) é que esta possa ser fatorada por:
2. Álgebra vetorial e matricial 62
tn n n n n nA S S=
e que o posto de S seja n, em que S é uma matriz triangular, denominada fator de
Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky,
ela é positiva definida.
t t t t t t t
2 2 21 2 n
Q x Ax x (SS )x (S x) (S x) z z
Z Z Z
= = = =
= + + +
Devido a S ter posto coluna completo, não existe x não nulo, tal que
tz S x 0= = . Portanto, a forma quadrática Q é sempre positiva, como foi afirmado.
Se por outro lado, o posto de S for r≤n, então o posto de A será r, e a forma
quadrática Q x 'Ax= ≥ 0, é denominada positiva semidefinida (psd). Isso se deve
ao fato de que para algum vetor x ≠ 0, a igualdade Q = 0, acontece. O algoritmo
para obtenção do fator de Cholesky de uma matriz pd, está apresentado a seguir.
Algoritmo para obtenção do fator de Cholesky
de uma matriz positiva definida
1. Dada uma matriz A (nxn), com elementos aij.
Ferreira, D.F. Estatística multivariada 63
2. Obtenção da transposta do fator de Cholesky St, é dada pelo algoritmo abaixo,
sendo que os elementos desta matriz não contemplados pelo método devem
ser considerados iguais a zero:
1a linha: 1j11 11 1j
11
aS a S j 1
S= = >
i-ésima linha:
12i 1
2ii ii ri
r 1
i 1
ij ij ri rjr 1ii
S a
1S aS
i 2 j i
S
S S
−
=
−
=
⎛ ⎞= −⎜ ⎟⎝ ⎠
⎛ ⎞= −⎜ ⎟⎝ ⎠
≥ >
∑
∑
3. A obtenção de S-1, inversa de S, com elementos Sij, é dada por:
i 1ii ij rj
rir 1ii ii
ij
1 1S S S S i jS S
para i < j S 0
−
=
−= = >
=
∑
4. A obtenção da A-1, inversa de A, com elementos aij, em que aij=aji, é dada por:
2. Álgebra vetorial e matricial 64
( )n n2ii ri ij ri rj
r i r ia S a S S i j
= =
= = >∑ ∑
Exemplo 2.6
Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir
da matriz A, apresentada a seguir:
4 2 0A 2 2 1
0 1 2
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
Obtenção de St:
Primeira linha:
11 12 132 0S 4 2; S 1; S 02 2
= = = = = =
Segunda linha:
[ ]1
2222 23
1S 2 1 1 S 1 1 0 11
⎡ ⎤= − = = − × =⎣ ⎦
Terceira linha:
Ferreira, D.F. Estatística multivariada 65
( )1
22 233S 2 0 1 1⎡ ⎤= − + =⎣ ⎦
Logo,
t
2 1 0 2 0 0S 0 1 1 e S 1 1 0
0 0 1 0 1 1
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
A matriz S-1 é obtida por:
Linha 1:
11 12 131S ; S S 0 i j2
= = = <
Linha 2:
22 21 121 1 1S 1; S 1 1 ; S 0 pois i j1 2 2
⎛ ⎞= = = − × × = − = <⎜ ⎟⎝ ⎠
linha 3:
33 31 321 1 1 1S 1; S 1 0 1 S 1 (1 1) 11 2 2 2
⎛ ⎞⎛ ⎞−= = = − × × + × = = − × × = −⎜ ⎟⎜ ⎟
⎝ ⎠⎝ ⎠
2. Álgebra vetorial e matricial 66
logo,
1
1 0 021S 1 021 1 12
−
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥−
= ⎢ ⎥⎢ ⎥⎢ ⎥
−⎢ ⎥⎢ ⎥⎣ ⎦
A matriz A-1 é obtida por:
Diagonal principal:
( )
2 2 211
222 2
33 2
1 1 1 3a2 2 2 4
a 1 1 2
a 1 1
⎛ ⎞ ⎛ ⎞ ⎛ ⎞= + − + =⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠
= + − =
= =
Demais elementos:
21
31 32
12 21 13 31 23 32
1 1a 1 ( 1) 1;2 2
1 1a 1 ; a 1 ( 1) 1;2 2
1a a 1; a a ; a a 12
⎛ ⎞= × − + − × = −⎜ ⎟⎝ ⎠
= × = = × − = −
= = − = = = = −
Ferreira, D.F. Estatística multivariada 67
Logo,
3 14 2
1
12
1A 1 2 1
1 1
−
−⎡ ⎤⎢ ⎥= − −⎢ ⎥⎢ ⎥−⎣ ⎦
O fator de Cholesky S e sua inversa têm as seguintes propriedades:
1. SSt = A
2. S-1S = St(S-1) t = Ι
3. S-1A = S t
4. A(S-1) t = S
5. (S-1)A(S-1) t = Ι
6. (S-1) t (S-1) = A-1
2. Álgebra vetorial e matricial 68
Maximização de formas quadráticas
Na estatística multivariada e em outras áreas aplicadas, é muitas
vezes necessária a maximização de uma forma quadrática. Devido à forma
quadrática tQ x Ax= poder ser feita arbitrariamente grande tomando-se os valores
dos elementos de x grandes, é necessário maximizar Q condicionada a alguma
restrição no comprimento de x . Uma conveniente alternativa é tomar uma solução
normalizada de x , ou seja, uma solução tal que x tenha comprimento unitário.
Então a maximização da forma quadrática Q pode ser transformada na
maximização da razão:
t
t
x Axx x
λ =
para toda matriz A simétrica real. Para a maximização deve-se tomar a derivada
em relação a x e igualar a zero, resolvendo o sistema obtido, como demonstrado
a seguir.
t tQ x Ax x x2Ax e 2xx x x
∂ ∂ ∂= = =
∂ ∂ ∂
usando a regra do quociente:
Ferreira, D.F. Estatística multivariada 69
t t t
t 2 t t
2Ax(x x) 2(x Ax)x 2 x AxA xx (x x) x x x x
⎛ ⎞∂λ −= = − Ι⎜ ⎟∂ ⎝ ⎠
igualando a zero essa derivada e dividindo-a por ( )t2 x x , é obtido o sistema
homogêneo de equações:
t
t
x AxA x 0x x
⎛ ⎞− Ι =⎜ ⎟
⎝ ⎠
Desde que t
t
x Axx x
= λ , então para um ponto estacionário qualquer i,
( )i iA x 0− λ Ι = (2.48)
Para que o sistema de equações em (2.48) não possua apenas a
solução trivial, A-λiΙ não pode ter posto completo. Isto significa que seu
determinante deve ser zero:
|A-λiΙ| = 0 (2.49)
A equação polinomial em λ, resultado da expansão dos termos a
esquerda na equação (2.49) através do uso da definição (2.9), é chamada de
equação característica de A. A i-ésima raiz da equação (λi) é denominada de valor
2. Álgebra vetorial e matricial 70
característico de A; ix é denominado vetor característico de A associado a λi.
Outras terminologias podem ser empregadas, tais como, autovalores e
autovetores, ou, valores e vetores próprios, ou ainda, raiz e vetor latente.
Pares de formas quadráticas
É de fundamental importância na análise multivariada o problema de
maximizar razão entre duas formas quadráticas:
t
t
x Ax B 0x Bx
λ = ≠
em que B é uma matriz pd. O máximo é dado da mesma forma que apresentado
anteriormente, a partir da derivada em relação a x , igualando-a a zero, como
apresentado a seguir:
t t
t
x Bx x AxAx Bx (A B)x 0x 2 x Bx
∂λ× = − = − λ =
∂ (2.50)
O sistema homogêneo de equações (2.50) terá solução não trivial
( x ≠ 0 ), se e somente se,
A B 0− λ = (2.51)
Ferreira, D.F. Estatística multivariada 71
Os autovalores (λ) de A em relação a B são denominados de valores
próprios, raízes características, e os autovetores de vetores característicos ou
próprios. Desde que B seja pd, é possível fatorá-la através do fator de Cholesky,
por:
tB BB S S=
Então definindo-se tBz S x= e usando as propriedades do fator de
Cholesky tem-se que ( )t1Bx S z−= . Agora, se (2.50) for pré multiplicada por 1
BS− e
( )t1Bx S z−= for substituído na expressão, têm-se:
( )
( )
t1 1 1B B B
t1 1B B
S A S B S z 0
S A S z 0
− − −
− −
⎡ ⎤− λ =⎣ ⎦
⎡ ⎤− λΙ =⎢ ⎥⎣ ⎦
(2.52)
desde que ( )t1 1B BS B S− − = Ι
A solução de (2.52) é a mesma da obtida pela maximização de uma
forma quadrática, apresentada em (2.48), exceto que ( )t1Bx S Z−= deve ser
recuperado, uma vez que Z é obtido. Os autovalores, no entanto, são invariantes
à transformação não-singular realizada.
2. Álgebra vetorial e matricial 72
Cálculo prático dos autovalores e autovetores
Será apresentado aqui o método denominado “Power method”
derivado por Hotelling (1936). Esse método é apropriado para problemas em que
somente r autovalores de maior magnitude e os seus respectivos autovetores são
necessários (r≤n). O método é iterativo, dado um vetor inicial arbitrário (0)v . O
vetor do estágio i será representado por (i)v e o da próxima iteração será obtido
por:
(i 1) (i)v Av+ =
Usualmente um vetor de elementos iguais a ±1 é usado como vetor
inicial. Os vetores característicos devem ser normalizados em cada estágio, para
que o critério de convergência seja verificado. Quando uma aproximação desejada
para λ1 e 1x sejam alcançados, o segundo autovalor e autovetor devem ser
encontrados na matriz A2, definida por:
t2 1 1 1A A x x= − λ (2.53)
E assim o processo é repetido até que um número r≤n de pares de
autovalores e autovetores sejam obtidos.
Ferreira, D.F. Estatística multivariada 73
Exemplo 2.7
aplicar o “power method” e determinar os autovalores e autovetores da matriz
apresentada a seguir:
4 2A
2 1⎡ ⎤
= ⎢ ⎥⎣ ⎦
1. Determinação de λ1 e 1x
O vetor (0)v será considerado como: (0)v =11
⎡ ⎤⎢ ⎥⎣ ⎦
Na avaliação da convergência, o autovetor em cada estágio será
padronizado através da divisão pelo elemento de maior valor do mesmo.
(i) (1) (0) 4 2 1 6
A2 1 1 3v v ⎡ ⎤ ⎡ ⎤ ⎡ ⎤
= = × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Normalizando (1)v :
6(1) 63 1
26
1v ⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥
⎣ ⎦⎣ ⎦
2. Álgebra vetorial e matricial 74
Para avaliar a convergência, os vetores (0)v e (1)v devem ser comparados. Será
considerado, convergente se todos os elementos de (1)v forem semelhantes aos
elementos correspondentes de (0)v , para uma precisão pré estipulada, ou seja, de
1x10-8. Neste caso, os vetores diferem consideravelmente.
(ii) (2) (1)12
14 2 5v Av
2 1 2.5⎡ ⎤⎡ ⎤ ⎡ ⎤
= = × =⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦
, normalizando
(2)12
1v
⎡ ⎤= ⎢ ⎥
⎣ ⎦
Comparando-se (2)v com (1)v , padronizados, verifica-se que são idênticos,
indicando que o critério de convergência foi alcançado.
O autovetor 1x é obtido pela normalização de (2)v e o primeiro
autovalor λ1, por t1 1 1x A xλ = .
[ ]
(2)
(2)t (2)1
t1 1 1
0,8944V0, 4472V V
0,8944x A x 4, 4721 2, 2361 5
0, 4472
x ⎡ ⎤= = ⎢ ⎥
⎣ ⎦
⎡ ⎤λ = = × =⎢ ⎥
⎣ ⎦
2. determinação de λ2 e 2x
t2 1 1 1A A x x= − λ = [ ]4 2 0,8944 0 0
5 0,8944 0, 44722 1 0, 4472 0 0
⎡ ⎤ ⎡ ⎤ ⎡ ⎤− × × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Ferreira, D.F. Estatística multivariada 75
Portanto os demais autovalores e autovetores de A são nulos (λ2=0 e
2x 0= ).
Os autovalores da matriz da forma quadrática podem servir para
classificação das mesmas. Demonstra-se que se todos os autovalores da matriz
A, dado tQ x Ax= , forem positivos e maiores que zero a matriz A é positiva
definida e a forma quadrática é positiva. Se A possui autovalores positivos e nulos
a matriz será psd, e a forma quadrática poderá ser nula para um vetor x 0≠ .
Os resultados apresentados até agora, a respeito de formas
quadráticas, são conseqüências da expansão de matrizes simétricas em um
processo denominado de decomposição espectral. A decomposição espectral de
uma matriz A (nxn), simétrica, é dada por:
t t t1 1 1 2 2 2 n n nA e e e e e e= λ + λ + + λ (2.54)
em que λi (i=1, 2, ..., n) são os autovalores de A e ie são os autovetores
normalizados associados.
Exemplo 2.8
Considere a matriz simétrica:
4 2A
2 2⎡ ⎤
= ⎢ ⎥⎣ ⎦
com os autovalores e autovetores normalizados, apresentados a seguir:
2. Álgebra vetorial e matricial 76
1 1 2 2
0,8507 0,52575, 2361 e 0,7639 e
0,5257 0,8507−⎡ ⎤ ⎡ ⎤
λ = = λ = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
Obtenha a decomposição espectral de A.
t1 1 1
3,7893 2,3417e e
2,3417 1, 4471⎡ ⎤
λ = ⎢ ⎥⎣ ⎦
t2 2 2
0, 2111 0,3416e e
0,3416 0,5528−⎡ ⎤
λ = ⎢ ⎥−⎣ ⎦
4 2 3,7893 2,3417 0, 2111 0,34162 2 2,3417 1, 4471 0,3416 0,5528
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= +⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦
A expressão da distância como raiz quadrada de uma forma
quadrática positiva definida permite que se obtenha a interpretação geométrica
baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e
suponha que p=2, os pontos tx =[x1, x2] de distância constante c da origem
satisfazem a:
t 2 2 211 1 22 2 12 1 2x Ax a X a X 2a X X c= + + =
pela decomposição espectral de A, como no exemplo 2.8, tem-se:
Ferreira, D.F. Estatística multivariada 77
( ) ( )
t t1 1 1 2 2 2
2 2t t t1 1 2 2
A e e e e
x Ax X e X e
= λ + λ
∴ = λ + λ
Fazendo ti iy x e= , obtém-se: 2 2 2
1 1 2 2c y y= λ + λ que é uma elipse, pois λi>0. Verifica-
se que 12
1 1x c e−= λ satisfaz ( )12
2t t 21 1 1 1x Ax c e e c−= λ λ = e 1
22 2x c e−= λ fornece a
apropriada distância na direção de 2e . Portanto, os pontos de distância c
pertencem a uma elipse cujos eixos são dados pelos autovetores de A com
tamanhos proporcionais ao recíproco da raiz quadrada dos autovalores. A
constante de proporcionalidade é c. A situação é ilustrada na Figura 2.1. Se p>2
os pontos pertencem a uma hiperelipsóide de distância c constante da origem,
cujos eixos são dados pelos autovetores de A. O semi eixo na direção i tem
comprimento de i
c
λ.
x 1
x 2
e1
e2
-0,5 cλ 1
cλ 2-0,5
Figura 2.1. Pontos de distância c constante da origem (λ1 < λ2).
2. Álgebra vetorial e matricial 78
Matriz raiz quadrada
A partir da decomposição espectral, é possível definir uma categoria
de matriz, em função dos autovalores e autovetores, denominada de matriz raiz
quadrada.
Sendo A (nxn), uma matriz com decomposição espectral dada por
nt
i i ii 1
A e e=
= λ∑ , pode-se construir uma matriz P, cujas colunas são os autovetores
normalizados de A, tal que, [ ]1 2 nP e e e= , e uma matriz Λ diagonal, como os
autovalores de A, tal que, Λ=diag[λi]. É fácil verificar que:
t
n1 1 t t
i ii 1 i
A P P
1A P P e e− −
=
= Λ
⎛ ⎞= Λ = ⎜ ⎟λ⎝ ⎠
∑ (2.55)
Definindo, Λ1/2 como uma matriz diagonal com iλ como elemento
da i-ésima diagonal, então, a matriz a seguir é definida como matriz raiz quadrada
de A e é simbolizada por A1/2.
1 12 2
nt t
i i ii 1
A e e P P=
= λ = Λ∑ (2.56)
Ferreira, D.F. Estatística multivariada 79
As suas propriedades são:
1. (A1/2)t= A1/2 (A1/2 é simétrica)
2. A1/2A1/2=A
3. ( )1 12 2
i
n1 t t1i i
i 1A e e P P
− −
λ=
= = Λ∑
4. A1/2A-1/2=A-1/2A1/2=Ι e A-1/2A-1/2=A-1
em que A-1/2 = (A1/2)-1
Exemplo 2.9
Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8),
usando as equações (2.55) e (2.56):
4 2A
2 2⎡ ⎤
= ⎢ ⎥⎣ ⎦
com autovalores e autovetores normalizados, apresentados a seguir:
2. Álgebra vetorial e matricial 80
1 1 2 2
0,8507 0,52575, 2361 e 0,7639 e
0,5257 0,8507−⎡ ⎤ ⎡ ⎤
λ = = λ = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
As matrizes P e Λ foram obtidas pelos autovalores e autovetores, e
estão apresentadas a seguir:
0,8507 0,5257 5, 2361 0P
0,5257 0,8507 0 0,7639−⎡ ⎤ ⎡ ⎤
= Λ =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
1 1 15,2361 2 21 1 t
1 10,7639 2
00,8507 0,5257 0,8507 0,5257A P P
00,5257 0,8507 0,5257 0,8507 1− − − −⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤
= Λ = × × =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦
1 12 2 tA P P
5, 2361 00,8507 0,5257 0,8507 0,5257 1,8975 0,63240,5257 0,8507 0,5257 0,8507 0,6324 1, 26490 0,7639
= Λ =
⎡ ⎤−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= × × =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦
A seguir, um programa SAS é apresentado contendo os principais
comandos para a realização das várias operações matriciais e vetoriais descritas
nesse capítulo.
Ferreira, D.F. Estatística multivariada 81
/* Capitulo 2 de multivariada - principais operações matriciais descritas */ /* por meio do proc iml. Rotinas de inversão, multiplicação, transposição */ options nodate nonumber ps=1000 ls=76; proc iml; /* elementos de algebra vetorial*/ x1={1,1,1,1}; x2={1,1,0,0}; x3={0,0,1,1}; print x1 x2 x3; y=4*x1; z=x1+x2; print y z; yz=y` * z; yy=y`*y; /*distancia quadratica*/ dy=sqrt(yy); /* distancia da origem*/ zz=z`*z; dz=sqrt(zz); costeta=yz/(dy*dz); print yz yy zz dy dz costeta; /* elementos de algebra matricial*/ x=x1||x2||x3;/* concatenando vetores para obter uma matriz*/ xpx=x`*x; xx=xpx#xpx; /* produto de xpx elemento a elemento por xpx*/ print x xpx xx; /*calculo da base ortonormal de Gramshimidt - a matriz p contém as colunas ortonormalizadas de X*/ Call Gsorth(p, t, lindep, X); print lindep p t; /* calculo de autovalores e autovetores */ pu=eigvec(xpx); /* pu matriz de autovetores */ au=eigval(xpx); /* au vetor de autovalores */ print pu; print au; a={4 2,2 2}; /* matriz A*/ ainv=inv(a); /* inversa de A*/ deta=det(a); /* determinante de A*/ print a ainv deta; c={4 2 2,2 2 0, 2 0 2}; detc=det(c); print c detc; /* fator de Cholesky A=S`S em que S e uma matriz triangular superior */ /* S e a transposta do fator de Cholesky */ Sc=root(c); /* matriz c e singular, porem o SAS calcula assim mesmo o fator de Cholesky */ /* pode-se observar que a ultima linha, da matriz Sc e nula devido a isso*/ Sa=root(a); b={4 2 0,2 2 1,0 1 2}; print b; sb=root(b); print Sc Sa sb; /*maximização de pares de formas quadráticas */ /* resolver (D - lG)e=0 */ D={4 2,2 2}; G={7 1,1 4}; print D G; Sg=root(G); /* transposta do fator de Cholesky de G */ Sginv=inv(Sg); /* inversa da transposta do fator de Cholesky de G */
2. Álgebra vetorial e matricial 82
print Sg Sginv; II=Sginv`*G*Sginv; /* mostrar que é igual a identidade */ print ii; H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */ print H; /* D transformada */ zh=eigvec(H); /* zh matriz de autovetores */ auh=eigval(H); /* auh vetor de autovalores */ xh=Sginv*zh; /* matriz de autovetores recuperados */ teste=xh`*g*xh; print teste;/*mostrar que resulta na identidade*/ print xh; print auh; /* obtencao de matriz raiz quadrada - exemplificar com a matriz D */ aud=eigval(D); /* autovalores de D*/ lamb=diag(aud); /* diagonalizando aud e resultado em lamb */ print lamb; lambS=root(lamb); /* achando a raiz quadrada de lamb */ avd=eigvec(D); /* autovetores de D em avd */ Droot=avd*lambS*avd`; /* usando a definição para encontrar a matriz raiz quadrada de D */ print Droot; DD=avd*lamb*avd`; /* checando propriedades */ print DD; /* deve ser igual a D */ quit;
2.4. Exercícios
2.1. Sejam os vetores x ’=[3, 2, 4] e y '=[-1, 2, 2]
(a) plote os dois vetores
(b) encontre (i) o comprimento de x , (ii) o ângulo entre x e y , e (iii) a distância
entre x e y .
(c) plote os vetores x x.1− e y y.1− ( x 3= e y = 1).
Ferreira, D.F. Estatística multivariada 83
2.2. Dada a matriz
1 1 0 01 1 0 0
X 1 0 1 01 0 1 01 0 0 1
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(a) Ortonormalize as colunas de X, usando a construção de Gram-Schimidt.
(b) Determine o vetor (coluna de x) linearmente dependente.
(c) Determine o posto coluna de X, a partir da construção de Gram-Schimidt
realizada em (a).
2.3. Dadas as matrizes
4 2 2 6 4 2A 2 2 0 B 4 4 0
2 0 4 2 0 6
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
(a) Obtenha a inversa de A e de B, usando o algoritmo de Gauss-Jordan.
(b) Verifique usando o processo de Gauss-Jordan que (AB)-1=B-1A-1.
2.4. Verifique se a matriz
2. Álgebra vetorial e matricial 84
0,8507 0,5257P
0,5257 0,8507−⎡ ⎤
= ⎢ ⎥⎣ ⎦
é uma matriz ortogonal.
2.5. Seja
8 1A
1 2−⎡ ⎤
= ⎢ ⎥−⎣ ⎦
(a) Calcule o determinante de A.
(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?
(c) Obtenha o fator de Cholesky, e confirme a resposta dada em (b).
(d) Determine os autovalores e autovetores de A.
(e) Obtenha a decomposição espectral de A.
(f) Encontre A-1.
Ferreira, D.F. Estatística multivariada 85
(g) Encontre os autovalores e autovetores de A-1. Verifique que relação tem como
os valores encontrados em (d).
2.6. Considere as matrizes
4 4,001 4 4,001A B
4,001 4,002 4,001 4,002001⎡ ⎤ ⎡ ⎤
= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
As matrizes são idênticas, exceto por pequenas diferenças no
elemento, a22 e b22 devida a arredondamentos. Mostre que A-1 = -3B-1 (pequenas
mudanças, talvez devido a arredondamentos, podem causar substanciais
diferenças na inversa).
2.7. Verifique se a forma quadrática
2 21 1 2 2Q 2x 2x x 4x= − +
é positiva definida.
Sugestão: Verificar se tQ x Ax= é positiva, pode ser feita verificando se A é pd.
2.8. Dada as matrizes
2. Álgebra vetorial e matricial 86
4 1 2 1A B
1 2 1 1−⎡ ⎤ ⎡ ⎤
= =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦
(a) determine os autovalores e autovetores que maximizam a razão
t
t
x Ax B 0x Bx
λ = ≠
Obs. O que é equivalente a resolver o sistema determinantal dado por (2.51)
A B 0− λ = .
(b) Determine a matriz raiz quadrada de A e de B.
2.9. Dada a matriz de covariância amostral (S)
25 2S
2 4−⎡ ⎤
= ⎢ ⎥−⎣ ⎦
(a) Determine R, dada D1/2, definida por:
Ferreira, D.F. Estatística multivariada 87
12
11
22
pp
S 0 0
0 S 0D
0 0 S
⎡ ⎤⎢ ⎥⎢ ⎥
= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
Sendo ( ) ( )1 12 2
1 1R D S D
− −=
(b) Verifique a relação
( ) ( )1 12 2S D R D=
2. Álgebra vetorial e matricial 88
||[ 3 ]||Amostragem multivariada
3.1. Introdução
Com os conceitos de álgebra vetorial introduzidos no capítulo 2,
pode-se aprofundar na interpretação geométrica das estatísticas descritivas X , S
e R. A maioria das explicações usam a representação das colunas de X, como p
pontos no espaço n dimensional. Será introduzida neste instante a pressuposição
de que as observações constituem uma amostra aleatória. De uma forma
simplificada, amostra aleatória significa (i) que as medidas tomadas em diferentes
itens (unidades amostrais ou experimentais) são não relacionadas uma com as
outras, e (ii) que a distribuição conjunta das p variáveis permanece a mesma para
todos os itens. Essa estrutura de amostra aleatória é que justifica uma escolha
particular de distância e dita a geometria para a representação n dimensional dos
dados. Finalmente, quando os dados podem ser tratados como uma amostra
aleatória à inferência estatística terá por base um sólido fundamento.
3. Amostragem multivariada 90
3.2. Geometria amostral
Uma observação multivariada é uma coleção de medidas em p
variáveis tomadas na mesma unidade amostral ou experimental. No capítulo 1,
item 1.3, as n observações obtidas foram dispostas em um arranjo (Matriz) X por,
11 12 1 1
21 22 2 2
1 2
1 2
k p
k p
j j jk jp
n n nk np
x x x xx x x x
Xx x x x
x x x x
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥
= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
em que cada linha de X representa uma observação multivariada. Desde que o
conjunto todo de mensurações é muitas vezes uma particular realização de
variáveis aleatórias, diz-se que os dados representam uma amostra de tamanho n
de uma população p variada.
Os dados podem ser plotados por um gráfico com p coordenadas. As
colunas de X representam n pontos no espaço p dimensional. Esse tipo de gráfico
fornece informações de locação dos pontos e de variabilidade. Se os pontos
pertencem a uma esfera, o vetor de médias amostrais, X , é o centro de balanço
ou de massa. Se a variabilidade ocorre em mais de uma direção, pode-se detectar
pela matriz de covariância, S. Uma medida numérica única de variabilidade é
fornecida pelo determinante da matriz de covariância.
Ferreira, D.F. Estatística multivariada 91
Exemplo 3.1
Calcule o vetor média X para a matriz X apresentada a seguir. Plote os n = 3
pontos no espaço p=2 (bidimensional) e localize X no diagrama resultante.
2 1X 3 0
2 2
⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦
A média amostral é dada por:
( ) ( )( )
2 3 2 3 1X
11 0 2 3
⎡ ⎤+ − + −⎡ ⎤ −⎡ ⎤⎣ ⎦= =⎢ ⎥ ⎢ ⎥+ + ⎣ ⎦⎢ ⎥⎣ ⎦
O primeiro ponto é dado por [ ]t1X 2 1= , o segundo por [ ]t
2X 3 0= − , e
o terceiro por [ ]t3X 2 2= − . A Figura 3.1 mostra os pontos juntamente com X ,
centro de massa ou de balanço, obtidos a partir da matriz X.
3. Amostragem multivariada 92
-4 -3 -2 -1 0 1 2 3 4
-3
-2
-1
0
1
2
3
x3
x1
x2
x_
1
2
Figura 3.1. Diagrama com n=3 pontos no espaço bidimensional (p=2) mostrando o
centro de massa, X .
Uma representação alternativa é obtida através da consideração de p
pontos no espaço n dimensional. Os elementos das linhas de X são utilizados
como coordenadas.
Ferreira, D.F. Estatística multivariada 93
11 12 1 1
21 22 2 2
1 2
1 2
1 2
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥
= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
⎡ ⎤= ⎣ ⎦
k p
k p
j j jk jp
n n nk np
k p
x x x xx x x x
Xx x x x
x x x x
y y y y
As coordenadas do k-ésimo ponto [ ]tk 1k 2k nky x x x= é
determinada pela n-upla de todas as medidas da k-ésima variável. É conveniente
representar tky como vetor ao invés de pontos.
Exemplo 3.2
Plote os dados da matriz X, com p=2 vetores no espaço tridimensional (n=3)
2 13 03 2
X⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦
[ ]t1y 2 3 2= − − e [ ]t
2y 1 0 2=
3. Amostragem multivariada 94
1
2
3
0
Y
Y 2
1
Figura 3.2. Diagrama da matriz de dados X como p=2 vetores no espaço
tridimensional.
Muita das expressões algébricas que serão encontradas na análise
multivariada, podem ser relacionadas às noções geométricas de ângulos,
comprimento (norma) e volumes. Isto é importante, pois representações
geométricas facilitam a compreensão e conduz a novas visões. Infelizmente, o ser
humano está limitado a visualizar objetos no espaço tridimensional, e as
representações da matriz X não serão úteis se n>3. No entanto, os
relacionamentos geométricos e os conceitos estatísticos associados, descritos
para o espaço tridimensional ou bidimensional, permanecem válidos para
dimensões maiores.
Ferreira, D.F. Estatística multivariada 95
É possível, em função do exposto, prover uma interpretação
geométrica ao processo de encontrar a média amostral. O vetor 1 (nx1) será
definido por t1 =[1 1 … 1]. O vetor 1 forma um ângulo igual com cada um dos
eixos coordenados, de tal forma que ( )1 n 1 tenha comprimento unitário e
mesmo ângulo de direção. Considerando o vetor [ ]tk 1k 2k nky x x x= , cuja
projeção em ( )1 n 1 é:
( )n
jkj 1t t
k k k
X1 1 1y 1 1 1 y 1 1 X 1
n nn n=⎛ ⎞ = = =⎜ ⎟
⎝ ⎠
∑
Pois, a projeção geral de X em Y é dada por:
( )tX YProj X em Y Y
Y=
Dessa forma ( )tk k
1X y 1n
= corresponde a um múltiplo de 1, obtido a
partir da projeção de tky em um vetor 1 , de acordo com o esquema a seguir.
3. Amostragem multivariada 96
ky k k ke y X 1= −
1 kX 1
em que, k ky X 1− é perpendicular a kX 1 . Observe, também, que k k ke y X 1= − é
definido como desvio da k-ésima variável em relação a sua média amostral, e
consiste nos elementos apresentados a seguir:
1k k
2k kk k k
nk k
x Xx X
e y X 1
x X
⎡ ⎤−⎢ ⎥−⎢ ⎥= − =⎢ ⎥⎢ ⎥
−⎢ ⎥⎣ ⎦
A decomposição de iy , nos vetores média e desvio da média está
apresentada esquematicamente na Figura 3.3 para p=2 e n=3.
Ferreira, D.F. Estatística multivariada 97
1
Y 1
Y 2
e2
e1
_x11
x21_
x2
x1
x3
Figura 3.3. Decomposição de ky em componentes de média kX 1 e componentes
de desvio k k ke y X 1= − .
Exemplo 3.3
Faça a decomposição de ky em componentes de média kX 1 e componentes de
desvio k k ke y X 1= − , k=1, 2, para os dados do exemplo 3.2.
3. Amostragem multivariada 98
2 13 03 2
X⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦
[ ] [ ]t t1 2y 2 3 2 y 1 0 2= − − =
1 22 ( 3) ( 2) 1 0 2X 1 X 1
3 3+ − + − + +
= = − = =
1
1 1X 1 1 1 1
1 1
−⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= − = −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦
2
1 1X 1 1 1 1
1 1
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
1 1 1
2 1 3e y X 1 3 1 2
2 1 1
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − − − = −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− − −⎣ ⎦ ⎣ ⎦ ⎣ ⎦
2 2 2
1 1 0e y X 1 0 1 1
1 1 1
⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − = −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
Observa-se que: 1X 1 e 1e , 2X 1 e 2e , são perpendiculares.
( ) ( ) [ ]t11 1 11
3X 1 y X 1 1 1 1 2 3 2 1 0
1
⎡ ⎤⎢ ⎥− = − − − × − = − + + =⎢ ⎥⎢ ⎥−⎣ ⎦
A decomposição é:
Ferreira, D.F. Estatística multivariada 99
1
2 1 33 1 22 1 1
y−⎡ ⎤ ⎡ ⎤ ⎡ ⎤
⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − + −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦
; e 2
1 1 00 1 12 1 1
y⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = + −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
.
Os vetores de resíduos podem ser plotados a partir da origem, como
apresentado na Figura 3.4, para os resíduos do exemplo 3.3.
Figura 3.4. Vetores de desvios ie do exemplo 3.3.
Considere o comprimento ao quadrado dos vetores de desvios,
obtidos por (2.2):
| ke |2= ke . ke = 2
1( )
=
−∑n
jk kjx X (3.1)
Observa-se por (3.1) que o comprimento ao quadrado dos vetores de
desvios é proporcional à variância da i-ésima variável. Equivalentemente, o
X1X2
X3
e2
e1
3. Amostragem multivariada 100
comprimento é proporcional ao desvio padrão. Vetores longos representam
maiores variabilidades que os vetores mais curtos.
Para dois vetores desvios ke e e :
( )( )1=
= − −∑n
tk jk k j
j
e e x X x X (3.2)
De (2.3) e denotando o ângulo θik como o ângulo formado pelos
vetores ke e e , tem-se:
( )tk
k t tk k
e eCose e e e
θ =×
(3.3)
Usando (3.1) e (3.2) é fácil verificar que (3.3) é:
( ) kk k
kk
Sr CosS S
= θ = (3.4)
O coseno do ângulo formado entre dois vetores desvios é igual ao
coeficiente de correlação amostral. Portanto, se os dois vetores de desvios
possuem a mesma orientação, o coeficiente de correlação será próximo de 1. Se
os dois vetores estão próximos de serem perpendiculares, a correlação amostral
será próxima de zero. Se os dois vetores forem orientados em direções opostas, o
coeficiente de correlação amostral será próximo de -1. Os conceitos de
Ferreira, D.F. Estatística multivariada 101
comprimento e ângulos permitem que se façam interpretações das estatísticas
amostrais geometricamente, e auxiliam na compreensão dos seus significados.
3.3. Amostras aleatórias e esperanças do vetor de média e da matriz de covariância amostral.
Com a finalidade de estudar a variabilidade amostral de estatísticas
como X e S com a finalidade de se fazer inferências, é necessário fazer
pressuposições a respeito das variáveis cujos valores observados constituem um
conjunto de dados X.
Supondo que os dados não foram ainda observados, mas
pretende-se obter n mensurações em p variáveis. Antes de serem mensurados,
os valores não podem em geral ser preditos exatamente. Conseqüentemente,
estes são tratados como variáveis aleatórias. Neste contexto, os elementos (j, k)
da matriz de dados representam realizações de uma variável aleatória, Xjk. Cada
conjunto de medidas jX em p variáveis é um vetor aleatório.
11 12 1 1 1
21 22 2 2 2
1 2
1 2
⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥
= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥
⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
tk p
tk p
tj j jk jp j
tn n nk np n
x x x x Xx x x x X
Xx x x x X
x x x x X
(3.5)
3. Amostragem multivariada 102
Uma amostra aleatória pode ser definida por: “Se o vetor coluna
1X , 2X , ..., nX em (3.5), representa independentes observações com distribuição
conjunta com densidade f( x )=f(x1, x2, ..., xp), então 1X , 2X , ..., nX é uma amostra
aleatória. Se a função conjunta de densidade é igual ao produto das marginais
f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), então, 1X , 2X , ..., nX é uma
amostra aleatória.”
Algumas conclusões podem ser obtidas da distribuição de X e S
sem pressuposições sobre a forma da distribuição conjunta das variáveis. Dessa
forma, considere 1X , 2X , ..., nX como sendo uma amostra aleatória de uma
distribuição conjunta com vetor média µ e matriz de covariância Σ. Então, X é um
estimador não viciado de µ e sua matriz de covariância é 1n Σ . Isto é,
E( X ) = µ (vetor média populacional)
Cov( X ) = 1n Σ (Matriz de covariância populacional dividida pelo tamanho da
amostra).
PROVA:
X =( X 1+ X 2+...+ X n)/n
Ferreira, D.F. Estatística multivariada 103
( )
( ) ( ) ( )
( )
1 1 11 2 nn n n
1 1 11 2 nn n n
j
E(X) E X X X
E X E X E X
1 1nE X nn n
E(X)
= + + +
= + + +
⎡ ⎤= = × ×µ⎣ ⎦
∴ = µ
Para provar o valor da covariância, pode-se observar que:
( X -µ ) ( X -µ ) t = ( ) ( ) ( )( )tn n n n t
j j2j 1 1 j 1 1
1 1 1X X X Xn n n= = = =
⎛ ⎞ ⎛ ⎞−µ × −µ = −µ −µ⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠
∑ ∑ ∑∑
Então,
( )Cov X = ( )( ) ( )( )n nt t
j2j 1 1
1E X X E X Xn = =
−µ −µ = −µ −µ∑∑
Sendo j≠ e considerando que ( )( )t
jE X X−µ −µ é igual a zero,
devido a covariância entre os elementos independentes jX e X ser nula, então,
( )Cov X ( )( )n t
j j2j 1
1 E X Xn =
= −µ −µ∑
3. Amostragem multivariada 104
Desde que Σ= ( )( )t
j jE X X−µ −µ é a covariância populacional comum
dos componentes jX , têm-se:
( ) ( )( ) ( )n t
j j2 2j 1
2
1 1Cov X E X Xn n
1 1(n )n n
=
= −µ −µ = Σ + Σ + + Σ =
= Σ = Σ
∑
3.4. Variância Generalizada
Com uma única variável, a variância da amostra é usada para
descrever a variação nas mensurações desta variável. Quando p variáveis são
observadas em cada unidade da amostra ou do experimento, a variação é descrita
pela matriz de variância e covariância amostral.
S
S S SS S S
S S S
p
p
p p pp
=
⎡
⎣
⎢⎢⎢⎢
⎤
⎦
⎥⎥⎥⎥
11 12 1
21 22 2
1 2
A matriz de covariância amostral contém p variâncias e ½p(p-1)
covariâncias, potencialmente diferentes. Algumas vezes, no entanto, deseja-se
expressar a variação por um único valor numérico. Uma escolha deste valor é o
determinante de S, o qual reduz à variância amostral usual para o caso de uma
Ferreira, D.F. Estatística multivariada 105
única variável (p=1). Este determinante é denominado de variância amostral
generalizada.
Variância amostral Generalizada=|S| (3.6)
Exemplo 3.4
O peso de espiga PE (X1), e o número de espigas NE (X2), foi avaliado em 28
variedades de milho em Sete Lagoas, MG. A matriz de covariância amostral S,
obtida dos dados é:
S=2 905 9 0969 096 90 817, ,, ,
⎡
⎣⎢
⎤
⎦⎥
A variância generalizada neste caso é:
Variância amostral Generalizada = |S| = 2,905x90,817 - 9,0962 = 181,0862
A variância amostral generalizada se constitui numa forma de
escrever toda a informação de todas as variâncias e covariâncias como um único
valor numérico. Obviamente, quando p>1 é possível que algumas informações
amostrais sejam perdidas no processo. A interpretação geométrica, no entanto,
poderá mostrar a força e as fraquezas desta estatística descritiva.
3. Amostragem multivariada 106
Considerando-se o volume (área) gerado no plano definido por dois
vetores de desvios 1 1 1e Y X 1= − e 2 2 2e Y X 1= − . Seja Le1 e Le2 os comprimentos
dos vetores 1e e 2e , respectivamente. Da geometria têm-se:
1e
h= Le1Sen(θ)
Le2 2e
A área do trapezóide é Le1 x Sen(θ) x Le2, podendo ser expressa por:
Área= ( )e eL L1 221− cos θ
Mas,
n2
e1 j1 1 11j 1
L (X X ) (n 1)S=
= − = −∑
n2
e2 j2 2 22j 1
L (X X ) (n 1)S=
= − = −∑
Cos(θ)=r12
Portanto,
θ
Ferreira, D.F. Estatística multivariada 107
Área = ( )211 22 12(n 1) S S 1 r− − (3.7)
Por outro lado,
SS SS S
S S S rS S r S
S S S S r S S r
= =
= − = −
11 21
12 22
11 11 22 12
11 22 12 22
11 22 11 22 122
11 22 1221( )
(3.8)
Se (3.7) e (3.8) forem comparados, pode-se observar que:
|S|=(Área)2/(n-1)2
Esta expressão pode ser generalizada para p vetores desvios por
indução:
Variância amostral Generalizada = |S| = (Volume)2.(n-1)-p (3.9)
A equação (3.9) mostra que a variância amostral é proporcional ao
quadrado do volume gerado pelos p vetores desvios. Na Figura 3.5 (a) e (b)
mostra-se regiões trapezoidais geradas com p=3 vetores resíduos
correspondentes a “grandes” e “pequenas” variâncias amostrais generalizadas,
respectivamente.
3. Amostragem multivariada 108
(a) (b)
e3 e2
e2 e1 e3 e1
Figura 3.5. (a) grande variância amostral generalizada, e (b) pequena variância
amostral generalizada, para p=3.
Para um tamanho amostral fixo, é óbvio que |S| cresce com o
aumento do comprimento dos vetores de desvios ie (ou iin S( )−1 ). Em adição, o
volume aumentará para um comprimento fixado, se os vetores residuais forem
movidos até possuírem ângulos retos. Por outro lado se um ou mais dos vetores
residuais aproximar do hiperplano formado por outros vetores residuais, o volume
diminuirá tendendo a zero.
Apesar de a variância amostral generalizada possuir algumas
interpretações geométricas formidáveis como as ilustradas na Figura 3.5, ela sofre
Ferreira, D.F. Estatística multivariada 109
alguns problemas como estatística amostral capaz de sumariar a informação
contida na matriz S. Para ilustrar estas deficiências, considere as matrizes de
covariâncias e os coeficientes de correlações apresentados a seguir.
12 12 12
10 8 10 8 6 0S S S
8 10 8 10 0 6
8 8 0r 0,8 r 0,8 r 0,010 10 10 10 6 6
| S | 36 | S | 36 | S | 36
−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦
−= = = = − = =
= = =
Apesar das três matrizes possuírem a mesma variância amostral
generalizada (|S|=36), elas possuem estruturas de correlações distintas. Portanto,
diferentes estruturas de correlações não são detectadas pela variância amostral
generalizada. As situações em que p>2 podem ser ainda mais obscuras.
Muitas vezes é desejável mais informações do que um simples valor
como |S| pode oferecer como resumo de S. Pode-se mostrar que |S| pode ser
expresso como produto dos autovalores de S (|S|=λ1.λ2....λp). A elipsóide centrada
na média é baseada em S-1, possui eixos de comprimento proporcionais a raiz
quadrada de λi’s de S, que reflete a variabilidade no sentido do i-ésimo autovalor.
Esta elipsóide é apresentada a seguir.
( ) ( )1 2X X 'S X X c−− − = (3.10)
3. Amostragem multivariada 110
Demonstra-se que o volume desta hiperelipsóide é proporcional à
raiz quadrada de |S|. Desta forma, os autovalores, fornecem informações da
variabilidade em todas as direções da representação no espaço p-dimensional dos
dados. Portanto, é mais útil apresentar seus valores individuais do que seu
produto. Este tópico será abordado com mais detalhe quando se discutir sobre os
componentes principais.
A variância amostral generalizada será zero se um ou mais vetores
residuais pertencerem a um (hiper) plano formado por uma combinação linear dos
outros, ou seja, quando as linhas da matriz de desvios, forem linearmente
dependentes.
Exemplo 3.5
Mostre que |S|=0 para
3 3 61 3 42 0 2
X⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
O vetor média é:
[ ]tX 2 2 4=
Os vetores dos desvios são:
Ferreira, D.F. Estatística multivariada 111
[ ]1 2 3
1 1 21 1 1 0
0 2 2
⎡ ⎤⎢ ⎥− = = −⎢ ⎥⎢ ⎥− −⎣ ⎦
tX X e e e
Verifica-se que t t t3 1 2e e e= + , ou seja:
[2 0 -2] = [1 -1 0] +[1 1 -2] = [2 0 -2] c.q.d.
Isto significa que um dos vetores resíduos, pertence ao plano gerado
pelos outros dois. Desta forma o volume tridimensional é zero (degenerescência).
Este caso é ilustrado na Figura 3.6 e demonstrado numericamente através da
obtenção de |S|.
S =
⎡
⎣
⎢⎢⎢
⎤
⎦
⎥⎥⎥
1 0 10 3 31 3 4
Pela definição (2.9), têm-se:
| | ( ) ( ) ( )
. . .( ).
S = × × − + × × − + × × − =
= + + − = − =
13 33 4
1 00 13 4
1 10 13 3
1
131 0 1 3 1 3 3 0
2 3 4
3. Amostragem multivariada 112
e1
e2e3
1 2
3
Figura 3.6 Caso em que |S|=0 (degenerescência) para o volume tridimensional.
Em qualquer análise estatística o resultado |S|=0 indica que existem
variáveis redundantes, ou seja, que possuem a mesma informação, e que estas
podem ser removidas do estudo. A matriz de covariância reduzida, será de posto
completo e a variância generalizada diferente de zero. A questão de quais
variáveis devem ser removidas no caso de degenerescência não é fácil de
responder e será abordado nos estudos de componentes principais. No entanto,
quando há possibilidade de escolha, o pesquisador deve reter as medidas de uma
variável (presumidamente) causal ao invés de uma característica secundária.
Ferreira, D.F. Estatística multivariada 113
3.5.Variância generalizada de variáveis padronizadas
A variância amostral generalizada é influenciada pela diferença de
variabilidade das mensurações das variáveis individuais, ou seja, caso a variância
amostral de uma determinada variável (Sii) seja grande ou pequena em relação às
demais. O vetor residual correspondente i i ie Y x 1= − será muito longo ou muito
curto, do ponto de vista geométrico e terá um papel importante na determinação
do volume. É muitas vezes necessário, em função do exposto, padronizar os
vetores residuais, de tal forma que eles tenham o mesmo comprimento.
A padronização destes vetores residuais é equivalente a transformar
as variáveis originais xjk pelos seus valores ( )−jk k kkx x S . A matriz de
covariância amostral das variáveis padronizadas será então igual a R, ou seja,
igual a matriz de correlação das variáveis originais. Dessa forma pode-se definir:
Variância generalizada amostral das variáveis padronizadas=|R| (3.11)
Os vetores resíduos resultantes, cujos valores são dados por
ejk= ( )−jk k kkx x S , possuem todos os comprimentos iguais a n −1. A variância
generalizada amostral das variáveis padronizadas será grande se estes vetores
forem perpendiculares e será pequena se dois ou mais deles tiverem próximas da
mesma direção. Em (3.4) foi visto que o co-seno do ângulo θik entre os vetores
residuais ie e ke , com i≠k, é igual ao coeficiente de correlação amostral rik. Dessa
3. Amostragem multivariada 114
forma, o |R| será grande quando todos os rik forem próximos de zero e será
pequeno quando um ou mais dos rik for próximo de -1 ou de +1.
Utilizando os mesmos argumentos que conduziram a (3.9) pode-se
verificar que:
|R|=(n-1)-p(volume)2 (3.12)
O volume gerado pelos vetores desvios de p=3 variáveis
padronizadas está ilustrado na Figura 3.7. Estes vetores desvios padronizados
são correspondentes aos vetores desvios da Figura 3.5, cuja comparação revela
que a influência do vetor 2e (com grande variabilidade na direção de x2) no volume
quadrado de |S| é maior do que sua influência no volume quadrado de |R|.
e2 e1
e3
e1
2
e2 e3
(a) (b)
Figura 3.7. Volume gerado por três variáveis padronizadas: (a) grande variância e
(b) pequena variância generalizada.
As quantidades |S| e |R| são relacionadas por:
Ferreira, D.F. Estatística multivariada 115
|S| = (S11 S22 ... Spp) |R| (3.13)
Exemplo 3.6
É ilustrada através deste exemplo a relação (3.13) entre |S| e |R| para p=3
caracteres de milho (x1: diâmetro do colmo; x2: número de folhas; e x3:
comprimento de folhas). A matriz R e S obtidas são:
S e R=
⎡
⎣
⎢⎢⎢
⎤
⎦
⎥⎥⎥
=
⎡
⎣
⎢⎢⎢
⎤
⎦
⎥⎥⎥
4 935 0 552 2 9210 552 0 686 19322 921 1932 17 993
100 0 30 0 310 30 100 0 550 31 0 55 100
, , ,, , ,, , ,
, , ,, , ,, , ,
Usando-se a definição de determinante (2.9), tem-se:
|S|=37,3878
|R|=0,6137
Usando (3.13) e os resultados obtidos:
|S| = (S11 S22 ... Spp) |R|
37,3878 = (4,935 x 0,686 x 17,993) x 0,6137
3. Amostragem multivariada 116
(verificado, apesar da pequena diferença devido às
aproximações nos cálculos)
3.6. Outra generalização da variância
Uma outra medida capaz de sintetizar a informação contida na matriz
de covariância que é utilizada em componentes principais é definida pela soma
dos elementos da diagonal da matriz de covariância S e é denominada de
variância amostral total. Portanto,
Variância amostral total = Traço de S= Tr(S) =S11+S22+...+Spp (3.14)
Exemplo 3.7
Calcular a variância amostral total da matriz S do exemplo (3.6)
Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614
Geometricamente a variância amostral total representa a soma dos
comprimentos ao quadrado dos vetores residuais ie (i=1, 2, ...,p) dividido por n-1.
Ela não considera as orientações dos vetores residuais, sendo portanto limitada
37,3878≈37,3828
Ferreira, D.F. Estatística multivariada 117
para ser utilizada com variáveis padronizadas, pois seu valor será sempre o
mesmo para distintos conjuntos de dados desde que o número de variáveis destes
seja igual.
3.7. Exercícios
3.7.1. Plote os n=4 pontos no diagrama bidimensional e localize X no diagrama
resultante.
1 11 11 11 1
X
⎡ ⎤⎢ ⎥− −⎢ ⎥=⎢ ⎥−⎢ ⎥−⎣ ⎦
3.7.2. Encontre o ângulo entre os vetores 1y e 2y do exemplo 3.1. Calcule o
co-seno do mesmo e discuta sobre o significado deste resultado.
3.7.3. Obtenha a decomposição dos vetores 1y e 2y do exemplo 3.1 em
componente de média e componente de desvio. Comprove a
ortogonalidade dos componentes de média com os vetores de desvios ou
residuais.
3. Amostragem multivariada 118
3.7.4. Calcule usando (3.3) o coseno do ângulo entre os vetores residuais 1e e 2e
obtidos em 3.3. Calcule o coeficiente de correlação usando (1.4) entre as
variáveis 1 e 2, e compare os resultados obtidos.
3.7.5. Obtenha as matrizes de covariância amostral para o conjunto de dados do
exercício 3.7.1, e calcule as variâncias amostrais generalizadas das
variáveis originais e padronizadas. Calcule também a variância amostral
total.
3.7.6. Qual é a área do trapezóide gerado pelos p=2 vetores desvios, do exercício
3.7.1.
Distribuição normal multivariada4
4.1. Introdução
A generalização da densidade normal univariada para duas ou mais
dimensões desempenha um papel fundamental na análise multivariada. De fato, a
maioria das técnicas multivariadas parte do pressuposto de que os dados foram
gerados de uma distribuição normal multivariada. Apesar dos dados originais não
serem quase nunca “exatamente” normal multivariados, a densidade normal se
constitui muitas vezes numa aproximação adequada e útil da verdadeira
distribuição populacional.
A distribuição normal, além da sua atratividade pela sua facilidade de
tratamento matemático, possui duas razões práticas que justificam a sua utilidade.
A primeira, diz que a distribuição normal é a mais adequada para modelos
populacionais em várias situações; e a segunda refere-se ao fato da distribuição
amostral de muitas estatísticas multivariadas ser aproximadamente normal,
independentemente da forma da distribuição da população original, devido ao
efeito do limite central.
4. Distribuição normal multivariada 120
4.2. Pressuposições das análises multivariada
É importante compreender que as análises estatísticas de modelos
com erros aditivos baseiam-se na pressuposição de normalidade. A distribuição
normal requerida refere-se, não a variação dos dados, mas a variação residual,
dos erros existentes entre as observações e o modelo ajustado. A variação
sistemática dos dados deve-se presumidamente aos efeitos fixos dos modelos e o
restante da variação aleatória é devida a pequenas influências independentes, as
quais produzem resíduos com distribuição normal (Bock, 1975).
Um segundo ponto, muitas vezes negligenciado nas discussões das
pressuposições sobre a distribuição, refere-se ao fato de que as afirmações
probabilísticas dos testes de significância e dos intervalos de confiança, dizem
respeito a estatísticas tais como médias amostrais ou diferenças entre médias, e
não a distribuição das observações individuais. É conhecido que a distribuição
destas estatísticas torna-se tipicamente normal quando a amostra aumenta de
tamanho. Este resultado se deve ao teorema do limite central.
Do ponto de vista prático existem consideráveis vantagens de se
trabalhar com grandes amostras. Nestes casos, a violação da pressuposição de
que a população seja normal é menos crítica para os testes estatísticos e
intervalos de confiança e a precisão da estimação de parâmetros desconhecidos é
melhor.
Ferreira, D.F. Estatística multivariada 121
4.3. Densidade normal multivariada e suas propriedades
A densidade normal multivariada é uma generalização da densidade
normal univariada. Para a distribuição normal univariada com média µ e variância
2σ , a função de densidade de probabilidade é bem conhecida e é dada por:
( )
] [2
2x1
22
1f (x) e x ;2
−µ−
σ= ∈ −∞ + ∞πσ
(4.1)
O gráfico da função (4.1) tem forma de sino e está apresentado na
Figura 4.1. As probabilidades são áreas sob a curva entre dois valores da variável
X, limitada pela abscissa. É bem conhecido o fato de que as áreas entre ±1 desvio
padrão da média e ±2 desvios padrões da média são respectivamente 68,3% e
95,4%, como ilustrado na Figura 4.1.
4. Distribuição normal multivariada 122
µ
0,6830,954
µ−σ µ+σ µ+2σµ−2σ
Figura 4.1. Densidade normal univariada com média µ e variância 2σ ,
destacando-se as áreas entre µ ± σ e 2µ ± σ .
O expoente da função de densidade normal univariada:
( ) ( )( ) ( )2
122
xx x
−− µ= − µ σ − µ
σ (4.2)
mede a distância quadrada de x em relação à µ em unidade de desvio padrão.
Esta distância pode ser generalizada para o caso multivariado, com
um vetor X de observações (p x 1), dada por,
Ferreira, D.F. Estatística multivariada 123
( ) ( ) ( )t 1X X−− µ Σ − µ (4.3)
Nesta expressão (4.3) o vetor µ (px1) representa o valor esperado
do vetor X e a matriz Σ (pxp) representa a sua covariância. Então, (4.3)
representa a distância generalizada de X para µ .
Substituindo a expressão (4.3) na função de densidade (4.1), a
constante univariada de normalização 22πσ deve ser trocada de modo a fazer
com que o volume sob a superfície da função de densidade multivariada obtida,
seja igual a unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que
esta constante é ( )p 1
222 −−π Σ , sendo a densidade dada por:
( )( )
( ) ( )t 11p22
1 1f X exp X X22
−⎡ ⎤= − − µ Σ − µ⎢ ⎥⎣ ⎦π Σ (4.4)
Propriedades da distribuição normal multivariada
Seja um vetor X tendo distribuição normal multivariada, então:
1. Combinações lineares dos componentes de X serão normalmente distribuídos:
seja a combinação linear ta X =a1X1+a2X2+...+ apXp, então, ta X terá
distribuição N( ta µ , ta Σ a );
4. Distribuição normal multivariada 124
2. Todos os subconjuntos de X tem distribuição normal (multivariada). Pelos
resultados da propriedade 1, fazendo alguns ai’s iguais a zero, isto se torna
evidente;
i) Fazendo ta X =[ ]
1
21
p
XX
1 0 0 X
X
⎡ ⎤⎢ ⎥⎢ ⎥ =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
a propriedade 2 se torna evidente. Assim,
X1 ∼ N( ta µ = 1µ , ta Σ a = 11σ ). De uma forma mais geral pode-se afirmar que todo
componente Xi tem distribuição N( iµ , iiσ ).
ii) A distribuição de várias combinações lineares é:
( )11 1 1p p
q p p 1 q
q1 1 qp p
a X ... a XA X ~ N A ; A A '
a X ... a X
⎡ ⎤+⎢ ⎥= µ Σ⎢ ⎥⎢ ⎥+⎣ ⎦
iii) Todos os subconjuntos de X tem distribuição normal (multivariada)
Tomando-se uma partição: q 1 1p 1
(p q) 1 2
X XXX X−
⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎣ ⎦⎣ ⎦ e suas correspondentes
partições no vetor de média e de covariância, dadas por:
q 1 1p 1
(p q) 1 2−
⎡ ⎤ ⎡ ⎤µ µµ = =⎢ ⎥ ⎢ ⎥
µ µ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ e q q q ( p q )
( p q ) q ( p q ) ( p q )
11 12
21 22
−
− − −
Σ Σ⎡ ⎤Σ = ⎢ ⎥
Σ Σ⎢ ⎥⎣ ⎦
Ferreira, D.F. Estatística multivariada 125
Logo,
( )1 q 1 11X ~ N ;µ Σ
Prova: Basta fazer qAp=[qIq | q0(p-q)] e aplicar (ii).
3. Se os componentes de covariância forem zero entre dois subconjuntos de X ,
implica em dizer que eles são independentemente distribuídos. Esta
propriedade só é valida se X tiver distribuição normal multivariada; e
4. A distribuição condicional de componentes de X é normal (multivariada).
Dada a partição q 1 1p 1
(p q) 1 2
X XXX X−
⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎣ ⎦⎣ ⎦, logo a distribuição condicional de
1 2 2X / X x= é normal e têm média e covariância dados por:
( )1c 1 12 22 2 2x−µ = µ + Σ Σ − µ e 1
c 11 12 22 21−Σ = Σ − Σ Σ Σ
4.4. Distribuição normal bivariada
Sejam X1 e X2 duas variáveis com parâmetros E(X1)=µ1, E(X2)=µ2,
Var(X1)=σ11, Var(X2)=σ22 e 1212
11 221 2ρ
σσ σ
= = Corr X X( , ). A matriz de covariância é
4. Distribuição normal multivariada 126
11 12
21 22
σ σ⎡ ⎤Σ = ⎢ ⎥σ σ⎣ ⎦
Cuja inversa é,
22 1212
21 1111 22 12
1− −⎡ ⎤Σ = ⎢ ⎥−− ⎣ ⎦
σ σσ σσ σ σ
Fazendo 12 12 11 22=σ ρ σ σ , obtém-se
( )12
2 211 22 11 22 121Σ = − = −σ σ σ σ σ ρ , e a distância generalizada de (4.3) será:
[ ]
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡
⎟⎟⎠
⎞⎜⎜⎝
⎛
σ
µ−⎟⎟⎠
⎞⎜⎜⎝
⎛
σ
µ−ρ−⎟
⎟⎠
⎞⎜⎜⎝
⎛
σ
µ−+⎟
⎟⎠
⎞⎜⎜⎝
⎛
σ
µ−ρ−
=
=⎥⎦
⎤⎢⎣
⎡µ−µ−
⎥⎥⎦
⎤
⎢⎢⎣
⎡
σσσρ−σσρ−σµ−µ−
ρ−σσ
22
22
11
1112
2
22
22
2
11
11212
22
11
11221112
2211122222112
122211
XX2XX1
1
XX
XX)1(
1
(4.5)
Desde que, |Σ|=σ11 σ22 - (σ12)2 = σ11 σ22 (1- 212ρ ), podem ser
substituídos Σ-1 e |Σ| em (4.4) para se ter a expressão da densidade normal
bivariada, apresentada a seguir.
Ferreira, D.F. Estatística multivariada 127
( )
( )
1 22
11 22 12
2 2
1 1 2 2 1 1 2 2122
12 11 22 11 22
1f(x ,x )2 1
X X X X1exp 22 1
=π σ σ −ρ
⎧ ⎫⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞−µ −µ −µ −µ−⎪ ⎪⎢ ⎥+ − ρ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎨ ⎬⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎢ ⎥−ρ σ σ σ σ⎪ ⎪⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎣ ⎦⎩ ⎭
(4.6)
Se X1 e X2 não são correlacionadas, 12ρ =0, a densidade conjunta
pode ser escrita como produto das densidades normais univariadas, ambas com a
forma de (4.1), ou seja, f(x1,x2)= f(x1) f(x2), além do que X1 e X2 são ditas
independentes, como comentado na propriedade número 3 da seção 4.3. Duas
distribuições normais bivariadas com variâncias iguais são mostradas nas Figuras
4.2. e 4.3. A Figura 4.2 mostra o caso em que X1 e X2 são independentes ( 12ρ =0)
e a Figura 4.3 o caso de 12ρ =0.8. Observa-se que a presença de correlação faz
com que as probabilidades se concentrem ao longo de uma linha.
4. Distribuição normal multivariada 128
Figura 4.2. Distribuição normal bivariada com 11 22σ σ= e 12ρ =0.
Figura 4.3. Distribuição normal bivariada com 11 22σ σ= e 12ρ =0.8.
Ferreira, D.F. Estatística multivariada 129
Da análise da expressão (4.4), relativa a densidade de p-variáveis
normais, fica claro que alguns valores padrões de X fornecem alturas constantes
para as densidades elipsóides. Isto significa que a densidade normal é constante
em superfícies cujas distâncias quadráticas ( ) ( ) ( )t 1X X−− µ Σ − µ são constantes.
Esses padrões são chamados de contornos ou curvas de nível.
Contornos={todo X tal que ( ) ( ) ( )t 1X X−− µ Σ − µ =c2 } (4.7)
A expressão (4.7) é uma superfície de uma elipsóide centrada em µ ,
cujos eixos possuem direção dos autovetores de Σ-1 e seus comprimentos são
proporcionais ao recíproco da raiz quadrada dos seus autovalores. Demonstra-se
que se λi e ie são os autovalores e autovetores, respectivamente, de Σ, então a
elipsóide ( ) ( ) ( )t 1X X−− µ Σ − µ =c2 é centrada em µ e tem eixos na direção de
iic e± λ (i=1, 2, ..., p).
Considerando como ilustração a densidade normal bivariada com
11 22σ σ= , os eixos da elipsóide dados por (4.7) são fornecidos pelos autovalores e
autovetores de Σ. Portanto, para obtê-los, a equação |Σ-λI|=0 deve ser resolvida.
( )
( )( )
211 12 211 12
12 11
11 12 11 12
0
0
−= − − =
−
= − − − + =
ii
i
i i
σ λ σσ λ σ
σ σ λ
λ σ σ λ σ σ
4. Distribuição normal multivariada 130
Conseqüentemente os autovalores são:
1 11 12 2 11 12λ σ σ λ σ σ= + = −e
Os autovetores são determinados por:
Σ ie =λi ie
Para i=1, tem-se:
11 12
12 11
1
211 12
1
2
σ σσ σ
σ σ⎡
⎣⎢
⎤
⎦⎥
⎡
⎣⎢
⎤
⎦⎥= +
⎡
⎣⎢
⎤
⎦⎥
ee
ee
( )
ou,
11 1 12 2 11 12 1
12 1 11 2 11 12 2
σ σ σ σσ σ σ σ
e e ee e e
+ = ++ = +
( )( )
Essas equações levam ao resultado de que e1=e2, e após
normalização, o primeiro autovetor é:
1
12
12
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
e
Ferreira, D.F. Estatística multivariada 131
De forma similar foi obtido o segundo autovetor, o qual é:
1
12
12
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥−⎢ ⎥⎣ ⎦
e
Se a covariância é positiva, 1 11 12λ σ σ= + é o maior autovalor e seu
autovetor associado se posiciona ao longo de uma linha de 450 através do ponto
[ ]1 2=tµ µ µ , para qualquer 12 0σ > . Os eixos são fornecidos por i ic e± λ (i=1, 2)
e estão representados na Figura 4.4.
2 cv σ σ 11 12 -
cv σ σ 11 12 +
Figura 4.4. Curva de nível de densidade constante para a distribuição normal
bivariada com 11 22σ σ= e 12 0σ > .
Anderson (1984) demonstra que a escolha de c2= p2χ α( ), em que
p2χ α( ) é o percentil (100α) superior da distribuição de qui-quadrado com p graus de
4. Distribuição normal multivariada 132
liberdade, leva aos contornos que contém (1-α)x100% de probabilidade. Para a
distribuição normal multivariada (p variada), a elipsóide dos valores de X
satisfazendo,
( ) ( ) ( )t 1X X−− µ Σ − µ ≤ p2χ α( ) (4.8)
tem probabilidade 1-α.
Os contornos contendo 95% e 99% de probabilidade sob a
densidade normal bivariada das Figuras 4.2 e 4.3, estão representados nas
Figuras 4.5 e 4.6.
X10
X 2
0
95%
99%
µ 2
µ1
Figura 4.5. Curvas de níveis de 95% e 99% de probabilidade para a distribuição
normal bivariada apresentada na Figura 4.2, 11 22σ σ= e 12ρ =0.
Ferreira, D.F. Estatística multivariada 133
95%
99%
Figura 4.6. Curvas de níveis de 95% e 99% de probabilidade para a distribuição
normal bivariada apresentada na Figura 4.3, 11 22σ σ= e 12ρ =0,8.
A densidade (4.4) possui máximo quando X = µ . Portanto, µ é o
ponto de máxima densidade ou moda, bem como o valor esperado de X , ou
média.
4.5. Distribuição amostral de X e S
Se a pressuposição de que as linhas de
4. Distribuição normal multivariada 134
11 12 1p
21 22 2p
n p
n1 n2 np
x x xx x xXx x x
×
⎡ ⎤⎢ ⎥⎢ ⎥
= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
se constituem numa amostra aleatória de uma população normal com média µ e
covariância Σ for verdadeira, então este fato é suficiente para completamente
definir a distribuição amostral de X e de S. São apresentadas a seguir estas
distribuições amostrais, fazendo-se um paralelo com a distribuição amostral
univariada que já é familiar e bem conhecida.
No caso univariado (p = 1), sabe-se que X possui distribuição normal
com média µ (média populacional) e variância
2
nσ
O resultado para o caso multivariado (p≥2) é similar a este, no
sentido que X possui distribuição normal com média µ e matriz de covariância
(1/n)Σ.
Para a variância amostral, caso univariado, sabe-se que a
distribuição de 2 2(n 1)S− σ possui distribuição de qui-quadrado com n - 1 graus de
liberdade. Para o caso multivariado, a distribuição da matriz de covariância é
Ferreira, D.F. Estatística multivariada 135
chamada de distribuição de Wishart, após sua descoberta, com (n – 1) graus de
liberdade. Os resultados a seguir resumem detalhes destas distribuições:
Devido a Σ não ser conhecida, a distribuição de X não pode ser
usada diretamente para se fazer inferência sobre µ . Felizmente, S fornece
informação independente sobre Σ e a distribuição de S não depende de µ . Isto
permite que se construam estatísticas para fazer inferência sobre µ , como será
abordado no capítulo 5.
Densidade da distribuição de Wishart
Seja S uma matriz positiva definida, com n>p, então se pode definir,
[ ]
1(n p 2)/2 tr(S )/2
n 1 p(n 1)/2p(n 1)/2 p(p 1)/4 1
2i 1
S ew (S/ )
2 (n i)
−− − − Σ
−−− −
=
Σ =π Σ Γ −∏
(4.9)
Sendo 1X , 2X , ..., nX uma amostra aleatória de tamanho n de uma população
normal p-variada com média µ e matriz de covariância Σ. Então,
1. X possui distribuição normal com média µ e matriz de covariância (1/n)Σ.
2. (n-1)S possui distribuição de uma matriz aleatória de Wishart com n-1 gl.
3. X e S são independentes.
4. Distribuição normal multivariada 136
em que, Γ(.) representa a função gama.
Retornando ao caso da distribuição das médias amostrais, o
resultado 4.1, sintetiza um importante teorema em estatística.
Como já foi comentado quando n é grande, S converge em
probabilidade para Σ, consequentemente, a substituição de Σ por S causa efeitos
apenas negligíveis nos cálculos de probabilidades. Desta forma, utilizando a
expressão (4.8), pode-se obter o importante resultado, apresentado a seguir.
Resultado 4.1. (teorema do limite central) Sendo 1X , 2X , ..., nX uma amostra
aleatória de n independentes observações de uma população qualquer com média
µ e matriz de covariância Σ, finita e não singular. Então,
( )n X − µ possui distribuição aproximadamente normal Np(0 , Σ) para grandes
amostras. Aqui n deve ser também bem maior do que p (número de variáveis).
Resultado 4.2. (teorema do limite central) Sendo 1X , 2X , ..., nX uma amostra
aleatória de n independentes observações de uma população qualquer com média
µ e matriz de covariância Σ, finita e não singular. Então,
( )n X − µ possui distribuição aproximadamente normal Np(0 , Σ )
e
( ) ( )t 1n X X−− µ Σ − µ se distribui aproximadamente como p2χ para n - p grande.
Ferreira, D.F. Estatística multivariada 137
Para a distribuição normal univariada, se µ e σ são conhecidos, as
probabilidades sob a curva para a distribuição de X , podem ser obtidos das
tabelas da distribuição normal, ou da integral da função apresentada em (4.1) nos
intervalos apropriados, com µ=0 e σ=1, sendo
Xz
n
− µ=
σ (4.10)
Alternativamente, pode-se obter a aproximação de Hasting (1955)
citado por Bock (1975), com erro máximo de 10-6, dada por
Φ( )zG se z
G se z≅
≤− >
⎧⎨⎩
01 0
(4.11)
em que,
Sendo que Φ( )z representa a probabilidade acumulada sob a curva
da distribuição normal de -∞ a z;
G a a a a a z= + + + +( ) ( )1 22
33
44
55η η η η η φ ;
4. Distribuição normal multivariada 138
η =+
11 0 2316418, | |z
;
φ π( ) ( )z ez
= − −2 12
22 ;
a1=0,319381530
a2=-0,356563782
a3=1,781477937
a4=-1,821255978
a5=1,330274429
4.6. Distribuições amostral derivada da distribuição normal multivariada
Teoria da Distribuição das grandes amostras e distribuição exata
Na análise dos dados freqüentemente são utilizadas funções das
observações chamadas estatísticas, as quais servem como estimadores dos
parâmetros ou como critério para os testes de hipóteses. A importância de tais
Ferreira, D.F. Estatística multivariada 139
estatísticas muitas vezes depende do conhecimento da (1) distribuição assumida
para as observações, (2) do método de amostragem, e (3) da natureza da função
das observações. Há dois tipos de teoria amostral avaliada para derivar a
distribuição amostral. A teoria das grandes amostras, a qual fornece a distribuição
aproximada à medida que o tamanho amostral cresce indefinidamente, e a teoria
das pequenas amostras ou teoria exata, a qual é válida para qualquer tamanho
amostral.
As distribuições derivadas assumindo o tamanho amostral
indefinidamente grande são chamadas de distribuições assintóticas ou “limitante”.
A teoria assintótica é especialmente simples, como conseqüência do teorema do
limite central que demonstra que muitas estatísticas têm distribuição normal como
limite. Para tais estatísticas é necessário somente obter a média e a variância para
ter a distribuição assintótica.
A distribuição amostral sem considerar os argumentos da teoria
assintótica, geralmente depende do tamanho da amostra e pode ser não-normal
para pequenas amostras, mesmo se a forma limite for normal. Se este for o caso,
algum indicativo de qual tamanho amostral é necessário para uma dada acurácia
na teoria assintótica é extremamente útil para trabalhos práticos. Como exemplo,
pode citar que a distribuição de F, de razões de variâncias, com ν1 graus de
liberdade do numerador e ν2 do denominador, se aproxima de qui-quadrado
dividido por ν1 quando o valor de ν2 cresce sem limite.
lim ( , )( )
2
11 2
2
1υ
υυ υ
χ
υ→∞=F
4. Distribuição normal multivariada 140
Comparando as tabelas de F e qui-quadrado dividido por ν1, pode-se
concluir que ao nível de 0,05, com erro de duas unidades na segunda casa
decimal, quando ν2 for maior que 40, haverá boa concordância. Semelhantemente,
considerando o valor nominal de significância de 0,01, verifica-se que a
concordância com a mesma precisão se dá quando o valor de ν2 excede 100.
Distribuição da soma de quadrados de n desvios normais aleatórios
Seja Z um vetor ν x 1 de ν observações normais N(0,1) padronizadas.
A estatística
( ) ' ...ν υχ212
22 2= = + + +Z Z z z z (4.12)
é distribuída como uma variável qui-quadrado com ν graus de liberdade. Foi obtida
em 1876 por Helmert e independentemente em 1900 por Karl Pearson. A função
de distribuição de qui-quadrado pode ser expressa pela função gama incompleta.
P t e dtt( / )( )
( )2
2
1
0
122
2 2χ χ υ υ
υ
υ
χ
≤ = ∫ − −
Γ (4.13)
Ferreira, D.F. Estatística multivariada 141
A função de distribuição (4.13) pode ser aproximada para aplicações
em computadores pela série convergente apresentada a seguir.
( )n2
n 0
eP( / )n 1
−χ ∞
−υ=
χ≤χ υ =
χ Γ υ+ +χ ∑ (4.14)
quando 12
12
13χ υ< max( , ), e caso contrário pela expansão assintótica:
2 12
1 ( 1)( 2)P( / ) e 1 ...υ− −χ ⎡ ⎤υ− υ− υ−≤χ υ ≈χ + + +⎢ ⎥χ χ⎣ ⎦
χ (4.15)
Os valores de Γ( )a podem ser obtidos pela fórmula de Stirling:
a a 1/2 1/22 3 4
1 1 139 571(a) (a 1)! e a (2 ) 112a 288a 51840a 2488320a
− − ⎡ ⎤Γ = − ≈ π + + − −⎢ ⎥⎣ ⎦ (4.16)
A forma recursiva Γ( )a +1 =aΓ( )a e Γ( )2 =Γ( )1 pode ser usada quando
“a” for pequeno. Sabe-se que a média da distribuição de qui-quadrado, E( 2χ ), é ν
e que sua variância é 2ν. Para ν>30, as probabilidades podem ser obtidas usando
a aproximação normal assintótica usando 2 2 12χ υ− − como um desvio normal
unitário.
4. Distribuição normal multivariada 142
Razão entre independentes χ2 (F de Fisher)
Sejam 12χ e 2
2χ , dois 2χ independentes com ν1 e ν2 graus de liberdade,
respectivamente. Então,
F = 12
1
22
2
χ υχ υ
possui distribuição de uma variável F com ν1 e ν2 graus de liberdade. A
distribuição de F foi derivada por R. A. Fisher (1924). A função de distribuição de F
pode ser aproximada pela série convergente da função beta incompleta:
⎥⎦
⎤⎢⎣
⎡∑
++++
+−
=∞
=
+
0n
1nba
x x)1n,ba(B)1n,1a(B1
)b,a(aB)x1(x)b,a(I (4.17)
em que, B a ba ba b
( , )( ) ( )( )
=+
Γ ΓΓ
Então,
P F Ix( , , ) ( , )1 22 11
2 2υ υυ υ
= −
em que, xF
=+
2
2 1
υυ υ
Ferreira, D.F. Estatística multivariada 143
4.7. Verificando a normalidade
A pressuposição de que cada vetor de observação jX veio de uma
distribuição normal multivariada será requerida nas técnicas estatísticas que serão
abordadas nos capítulos subsequentes. Por outro lado, nas situações em que a
amostra é grande e as técnicas dependem apenas do comportamento de X , ou
distâncias envolvendo X da forma ( ) ( )t 1n X S X−− µ − µ , a pressuposição de
normalidade das observações individuais jX é menos crucial. Isto devido à
aproximação da distribuição normal assintótica das principais estatísticas. No
entanto, melhor será a qualidade da inferência quanto mais próxima à população
parental se assemelhar da forma da distribuição normal multivariada. É imperativo
que existam procedimentos para detectar os casos em que os dados exibam
desvios de moderados a extremos em relação ao esperado sob normalidade
multivariada.
Baseado na distribuição normal sabe-se que todas as combinações
lineares de variáveis normais são normais e que contornos da densidade normal
são elipsóides. Devido às dificuldades de avaliação de um teste conjunto em todas
as dimensões, os testes para checar a normalidade serão concentrados em uma
ou duas dimensões. Obviamente se paga um preço por estas simplificações, como
não revelar algumas características que só podem ser observadas em dimensões
maiores. É possível, por exemplo, construir uma distribuição não normal bivariada
4. Distribuição normal multivariada 144
com marginais normais. No entanto, muitos tipos de não normalidade são
revelados em geral nas distribuições marginais, e para aplicações práticas será
suficiente checar a normalidade em uma ou duas dimensões.
Verificando a validade da normalidade por meio da distribuição marginal
Textos elementares muitas vezes recomendam que a normalidade
univariada seja investigada, examinando o histograma de freqüência amostral para
avaliar discrepâncias entre as freqüências observadas e esperadas pelo ajuste da
distribuição normal. Usualmente, sugere-se também que as discrepâncias sejam
submetidas ao teste de aderência de qui-quadrado. Um 2χ significativo (P<0,05) é
tido como evidência contra a normalidade da população.
Apesar de este método ter a virtude da simplicidade de computação
e ser livre do tipo de desvios da normalidade que esteja sendo testado (curtose,
assimetria, etc.), tem a desvantagem, quando aplicados a dados contínuos, de
depender da arbitrariedade da escolha dos intervalos de agrupamento dos dados.
Essa escolha determina a resolução do histograma e o número de termos a ser
somado para obter a estatística de 2χ . Uma escolha errada pode conduzir a
resultados não consistentes. Se a escolha de a amplitude dos intervalos for muito
estreita, o histograma pode ser irregular e a acurácia do 2χ pode ser grandemente
afetada devido aos pequenos valores esperados. Se os intervalos são largos,
desvios de normalidade podem ser obscurecidos tanto no histograma quanto no
teste de 2χ .
Ferreira, D.F. Estatística multivariada 145
Uma melhor aproximação, evitando todas essas dificuldades, é
conseguida fazendo uso de métodos que não requerem agrupamento de escores.
Felizmente, excelentes procedimentos gráficos e computacionais existem para
este propósito.
a) Distribuição de proporções
A distribuição normal univariada possui probabilidade de 0,683 para
o intervalo [ ]µ σ µ σi ii i ii− +; e probabilidade de 0,954 para o intervalo
[ ]µ σ µ σi ii i ii− +2 2; (Figura 4.1). Consequentemente, para grandes amostras de
tamanho n, é esperado que a proporção de Pi1 observações contidas no intervalo
[ ]X s X si ii i ii− +; seja de cerca de 0,683, e de forma semelhante, espera-se
que a proporção Pi2 de observações em [ ]X s X si ii i ii− +2 2; seja de cerca de
0,954. Usando a aproximação normal da distribuição de Pi , então se
| , |, , ,
iP n n1 0 683 30 683 0 317 1 396
− >×
=
| , |, , ,
iP n n2 0 954 30 954 0 046 0 628
− >×
=
4. Distribuição normal multivariada 146
devem indicar desvios da distribuição normal para i-ésima característica (Johnson
& Wichern, 1988).
b) Processos gráficos
Os gráficos são em geral úteis para avaliar desvios da normalidade.
Dois processos gráficos serão considerados neste capítulo.
i) Q-Q plot
Esses gráficos são obtidos da distribuição marginal das observações
de cada variável. Consiste em plotar em um plano cartesiano os percentis
amostrais versus os percentis esperados pelo ajuste de uma distribuição normal.
Se os pontos pertencem a uma linha reta a pressuposição de normalidade deve
ser aceita.
Sejam x1, x2, ..., xn as n observações de uma variável X. Sejam x(1),
x(2), ..., x(n) essas observações ordenadas crescentemente, ou seja, x(1) é a menor
observação e x(n) é a maior. Quando os x(j) são distintos, exatamente j
observações são menores ou iguais a x(j) (isto é teoricamente verdadeiro quando
as observações são do tipo contínuo, o que em geral será assumido). A proporção
amostral j/n é aproximada por (j-½)/n, onde ½ é usado para correção de
descontinuidade.
Os percentis esperados sob normalidade são dados por (q(j)):
Ferreira, D.F. Estatística multivariada 147
( )21
/ 22 12
jqzj e dz
n−
π−∞
−= ∫ (4.18)
Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela
inversão da função de distribuição de probabilidade da normal, em rotinas
apropriadas em computadores ou através de tabelas da distribuição normal.
(Tabela A.1).
Os percentis q(j) e x(j) são plotados em um sistema cartesiano com q(j)
na abscissa e x(j) na ordenada. Desvios da normalidade podem ser observados
pela inspeção deste tipo de gráfico, cujos pontos, quando da normalidade devem
pertencer a uma linha reta de mínimos quadrados. No exemplo 4.1 ilustram-se os
cálculos necessários para obtenção dos Q-Q plots.
Exemplo 4.1
Seja uma amostra (n=10) obtida de uma população normal N(3; 4) apresentada a
seguir. Neste caso, a observação 4 constitui-se um “outlier”, propositadamente
gerado.
{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}
Dessa forma para se obter o Q-Q plot é necessário os seguintes
passos:
4. Distribuição normal multivariada 148
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
probabilidade acumulada (j-½)/n.
j x(j) (j-½)/n q(j)
1 2 3 4 5 6 7 8 9 10*
0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65
0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95
-1,645 -1,036 -0,675 -0,385 -0,126 0,126 0,385 0,675 1,036 1,645
2) calcular os percentis da distribuição normal padrão.
Ex. Para a observação 1 tem-se: (1)
21 1/ 22 2 1
2
1 0,0510
qzj e dz
n−
π−∞
− −= = = ∫
Portanto, q(1) = -1,645, e assim sucessivamente.
3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados
Ferreira, D.F. Estatística multivariada 149
Q-Q Plot
Q(j)
-2 -1 0 1 2
X (j)
0
2
4
6
8
10
Outlier
Figura 4.7. Q-Q plot para os dados do exemplo 4.1, destacando a presença de um
outlier.
Observa-se que os pontos amostrais se situam praticamente em uma
linha reta de mínimos quadrados, com exceção da presença de um outlier,
destacado na Figura 4.6. O procedimento adequado seria de eliminar esta
4. Distribuição normal multivariada 150
observação e refazer a análise para os dados amostrais remanescentes, o que é
deixado a cargo do leitor.
Este processo gráfico, embora bastante poderoso para se verificar
desvios da normalidade não constitui num teste formal deste propósito. Para
contornar esta limitação, Johnson & Wichern (1988) apresentam um teste
complementar a este processo gráfico, o qual mede o ajuste dos pontos do Q-Q
Plot a linha reta de mínimos quadrados por meio de uma medida de um
coeficiente de correlação apresentada a seguir.
( ) ( )
( ) ( )
( ) ( )1
2 2
( ) ( )1 1
n
j jj
Qn n
j jj j
x x q qr
x x q q
=
= =
− −=
− −
∑
∑ ∑ (4.19)
Um poderoso teste de normalidade pode ser construído tomando-se
por base este coeficiente de correlação (4.19). Formalmente rejeita-se a hipótese
de normalidade se o valor calculado for menor que os valores críticos para um
determinado nível de significância (Tabela 4.1).
Ferreira, D.F. Estatística multivariada 151
Tabela 4.1. Valores críticos para o teste para normalidade baseado no coeficiente
de correlação Q-Q plot.
Tamanho amostral Nível de significância (α)
n 0,01 0,05 0,10
5 10 15 20 25 30 40 50 60 75 100 150 200 300
0,8299 0,8801 0,9126 0,9269 0,9410 0,9479 0,9599 0,9671 0,9720 0,9771 0,9822 0,9879 0,9905 0,9935
0,8788 0,9198 0,9389 0,9508 0,9591 0,9652 0,9726 0,9768 0,9801 0,9838 0,9873 0,9913 0,9931 0,9953
0,9032 0,9351 0,9503 0,9604 0,9665 0,9715 0,9771 0,9809 0,9836 0,9866 0,9895 0,9928 0,9942 0,9960
Fonte: Johnson & Wichern (1998)
Exemplo 4.1 (continuação)
Calculando a correlação amostral, através de (4.19), obteve-se:
18,77109 0,952344,15849 8,798094Qr = =
Como, o valor tabelado ao nível de 5% de probabilidade (0,918) é
inferior ao valor calculado (0,9523), então, não existe razão para duvidar da
hipótese de normalidade.
4. Distribuição normal multivariada 152
ii) Gráfico das probabilidades acumuladas
Um segundo processo gráfico, bastante utilizado, refere-se aos
gráficos em que são plotados as probabilidades amostrais acumuladas versus
probabilidades acumuladas da distribuição normal (Bock, 1975). O algoritmo é:
1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de
probabilidade acumulada pj = (j-½)/n, amostrais.
2) Calcular a média amostral e o desvio padrão viesado
2
12
1
n
jnj
jj
n
XX
nS
n
=
=
⎛ ⎞⎜ ⎟⎝ ⎠−
=
∑∑
(4.20)
3) Obter as probabilidades normais acumuladas utilizando (4.11) ou tabelas da
distribuição normal, através de:
jj
n
X XZ
S−
=
Pj=Φ(Zj)
Ferreira, D.F. Estatística multivariada 153
4) Plotar Pj (abcissa) contra pj (na ordenada)
Exemplo 4.2
Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,
resultando nos seguintes valores:
j x(j) pj = (j-½)/n Pj
1 2 3 4 5 6 7 8 9 10*
0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65
0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95
0,066 0,189 0,227 0,367 0,436 0,520 0,575 0,677 0,709 0,992
Na Figura 4.8 estão plotados os pontos Pj (abcissa) contra pj (na
ordenada).
0.0 0.2 0.4 0.6 0.8 1.00.0
0.2
0.4
0.6
0.8
1.0
p j
Pj
Figura 4.8. Gráfico normal acumulado da amostra simulada no exemplo 4.1.
4. Distribuição normal multivariada 154
Se a população for normal, os pontos tendem a cair em uma linha
definida pela reta Pj=pj. Uma vez que o gráfico apresenta efeitos cumulativos, os
pontos não são independentes e ainda pode-se afirmar que sucessivos pontos
não tenderão a se situar aleatoriamente em ambos os lados da linha. Em outras
palavras, um grupo de pontos sucessivos poderá estar de um lado da reta ou de
outro, sem ser um indicativo de desvio da normalidade. Alguma familiaridade com
este tipo de gráfico indicará a forma da distribuição e os desvios da normalidade
que possam ocorrer.
De maneira geral, as situações mais comuns devem se enquadrar
nos seguintes tipos de gráficos. Distribuições assimétricas à esquerda tenderão a
ter seus pontos de extremos no lado superior da reta, e os pontos intermediários
no lado inferior da mesma. Para distribuições assimétricas à direita, o oposto deve
ocorrer, ou seja, pontos extremos no lado inferior da reta e pontos intermediários
no lado superior.
Os achatamentos da distribuição, conhecidos por curtose, também
podem ser detectados. Nas distribuições leptocúrticas, os pontos de menor
densidade acumulada se concentram no lado inferior da reta, vindo a cruzá-la no
centro. Os pontos de maior densidade se concentram no lado superior da reta, a
partir do centro. Nas distribuições platicúrticas, o oposto se dá, ou seja, pontos de
menor densidade acumulada se concentram no lado superior, e os pontos de
maior densidade no lado inferior da reta, vindo a cruzá-la no centro. Distribuições
bimodais possuem gráficos que representam os casos extremos da distribuição
platicúrtica.
Ferreira, D.F. Estatística multivariada 155
c) Uso dos momentos
Os momentos não centrados para a média, podem ser calculados a
partir dos dados amostrais, fazendo 1/n como densidade para cada ponto
amostral. Desta forma, pode-se definir, o r-ésimo momento amostral não centrado
para média por:
~mn
xr jr
j
n= ∑
=
11
(4.21)
Pode-se então, definir a média amostral, e o segundo, terceiro e
quarto momentos centrados na média, em função dos momentos não centrados
por:
Média: 1 0µ = (4.22)
Variância: ~ ~ ~µ 2 2 12= −m m (4.23)
Assimetria ~ ~ ~ ~ ~µ3 3 1 2 133 2= − +m m m m (4.24)
Curtose 2 44 4 1 3 1 2 1m 4m m 6m m 3mµ = − + − (4.25)
4. Distribuição normal multivariada 156
Os valores amostrais de o coeficiente de assimetria e curtose são,
respectivamente:
b13
2 2
=~
~ ~µ
µ µ (4.26)
b24
22=
~~µµ
(4.27)
O coeficiente de assimetria populacional, para a distribuição normal,
é 1 0β = e o coeficiente de curtose é β2=3. Se 1 0β < , então, a distribuição é
assimétrica à esquerda, caso contrário, 1 0β > , a distribuição é assimétrica à
direita. Distribuições com β2<3 são platicúrticas (menos pontudas com caudas
mais baixas do que a normal), e aquelas com β2>3 são leptocúrticas (mais
pontudas e com caudas mais altas do que a normal).
Exemplo 4.3
Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de
assimetria e curtose amostrais.
Ferreira, D.F. Estatística multivariada 157
x x2 x3 x4
0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65
36,31
0,2116 3,2041 4,2436 8,4681 10,8900 13,9876 16,1604 21,0681 22,9441 74,8225 176,0001
0,0973 5,7353 8,7418 24,6422 35,9370 52,3136 64,9648 96,7026 109,9022 647,2146 1046,2520
0,0448 10,2663 18,0081 71,7087 118,5921 195,6530 261,1585 443,8648 526,4317 5598,4070 7244,1350
Têm-se:
~m 1=36,31/10=3,631
~m 2=176,0001/10=17,6000
~m 3=1046,2520/10=104,6252
~m 4=7244,135/10=724,4135
~µ1 = 3,631
~µ2 = 17,6 - (3,631)2 = 4,4158
~µ3 = 104,6252 - 3 x 3,631 x 17,6 + 2 x (3,631)3 = 8,6518
~µ4 = 724,4135 - 4 x 3,631 x 104,6252 + 6 x (3,631)2 x 17,6 - 3 x (3,631)4 = 75,6182
4. Distribuição normal multivariada 158
b1 = 8,6518/(4,4158 x 4,41581/2 ) = 0,9324
b2 = 75,6182/(4,4158)2 = 3,8780
c.1) Uso do coeficiente de assimetria
Para se avaliar o grau de assimetria da distribuição, um teste
baseado no coeficiente de assimetria (4.26), pode ser realizado. Níveis críticos
para a estatística b1 , podem ser encontrados em Pearson e Hartley (1966) para
n>24, e em D’Agostino e Tietjen (1973) para n variando de 5 a 35. A assimetria
será à esquerda se b1 for negativo, e à direita se b1 for positivo,
significativamente. Em grandes amostras, os valores críticos de b1 podem ser
obtidos com boa aproximação usando como desvio da normal padrão a estatística:
1 1( 1)( 3)
6( 2)+ +
=−
n nZ bn
(4.28)
c.2) Uso do coeficiente de curtose
Valores críticos para o coeficiente de curtose (4.27), podem ser
encontrados em Pearson e Hartley (1966) para n>49 e D’Agostino e Tietjen (1971)
Ferreira, D.F. Estatística multivariada 159
para n variando de 7 a 50. Em grandes amostras, os valores críticos para o teste
de achatamento da curva, podem ser aproximados usando como desvio normal a
seguinte estatística:
2
2 2(n 1) (n 3)(n 5)6Z b 3
n 1 24n(n 2)(n 3)+ + +⎛ ⎞= − +⎜ ⎟+ − −⎝ ⎠
(4.29)
Valores de b2 maiores que 3 indicam que a distribuição é mais
pontuda com caldas mais altas do que a normal; valores menores que 3 indicam
uma distribuição achatada no centro e com caudas mais baixas do que a
distribuição normal.
Exemplo 4.3 (continuação)
Os valores de Z1 e Z2, para o teste de assimetria e curtose foram:
Z1=1,609 com P(Z>|Z1|)=0,1074
Z2=1,886 com P(Z>|Z2|)=0,0592
Desta forma, ao nível de 5% de probabilidade se aceita a hipótese de
simetria e de não achatamento da curva, demonstrando não se ter desvio da
normalidade.
4. Distribuição normal multivariada 160
Verificando a normalidade multivariada
Em geral se deseja verificar a normalidade para dimensões
superiores a 1, ou seja, para a distribuição p-variada, p≥2. Mesmo que seja
suficiente, como já comentado anteriormente, avaliar apenas as distribuições
univariadas e bivariadas o procedimento apresentado nessa seção é válido para
qualquer p. O caso bivariado será enfocado nesta seção, devido às facilidades de
cálculos para fins didáticos.
Pelo resultado 4.2, dado vetor X com distribuição normal p-variada,
tem-se que,
( ) ( )t 1 2px x (1 )−−µ Σ −µ ≤χ −α
Através deste resultado, pode-se então, generalizar o processo
gráfico conhecido como Q-Q plot. Dada uma amostra bivariada com n
observações, o algoritmo seguinte pode ser usado para generalizar o processo
gráfico mencionado. É importante salientar que este processo não é limitado
apenas ao espaço bidimensional.
O algoritmo será apresentado, utilizando os dados do exemplo 1.1,
com X1 representando a quantidade de reais pela venda de ração, e X2 sendo o
número de sacos de rações vendidos, por n = 4 firmas de Minas Gerais.
Ferreira, D.F. Estatística multivariada 161
Exemplo 4.4
1) Calcular a distância quadrada generalizada amostral d(j) de cada observação
em relação à média amostral, dada por:
2 1j j jd (x x) 'S (x x)−= − − , j=1, 2, ..., n
Os valores da média e da matriz de covariância amostrais foram
apresentados no exemplo 1.2, e são:
100X
9⎡ ⎤
= ⎢ ⎥⎣ ⎦
e ⎥⎦
⎤⎢⎣
⎡=
667,6000,20000,20333,333
S
A matriz inversa de S é:
⎥⎦
⎤⎢⎣
⎡−
−=−
1829,00110,00110,00037,0
S 1
A distância generalizada para primeira observação é:
[ ]21
0,0037 0,0110 80 100d 80 100 10 9 2,0853
0,0110 0,1829 10 9− −⎡ ⎤ ⎡ ⎤
= − − =⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦
E assim sucessivamente, para as demais observações:
4. Distribuição normal multivariada 162
22d = 1,7926; 2
3d = 1,3536 e 24d = 0,7683.
2) ordenar as distâncias quadráticas amostrais do menor para o maior
d (1)2 ≤d ( )2
2 ≤...≤d n( )2 .
3) Obter os valores correspondentes, percentis, de probabilidade acumulada
q(j)=χ p2((j-½)/n), da distribuição de qui-quadrado. Estes percentis dependem da
inversa da função de distribuição de qui-quadrado, e podem ser obtidos em vários
softwares estatísticos.
J d j( )2 (j-½)/n q(j)
1 2 3 4
0,7683 1,3536 1,7926 2,0853
0,125 0,375 0,625 0,875
0,2671 0,9400 2,2479 4,1589
4) Plotar (d j( )2 ; q(j)) e examinar os resultados
Ferreira, D.F. Estatística multivariada 163
0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
1
2
3
4
q (j)
d(j)2
Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de
utilização deste processo para os casos de dimensões superiores ou
iguais a 2.
Pela Figura 4.9, verifica-se que não existem razões para duvidar de
que a distribuição do número de sacos de rações vendidos e o montante de
dinheiro arrecadado pelas firmas de rações em Minas Gerais, não seja normal
bivariada, apesar do pequeno tamanho de amostras.
Verificando a normalidade multivariada por meio da curtose e assimetria de Mardia
Os coeficientes de assimetria e curtose de uma distribuição
multivariada qualquer são definidos por:
4. Distribuição normal multivariada 164
( ) ( ){ }3t 11,p E X Y−β = − µ Σ − µ (4.30)
em que a variável X é independente de Y , mas tem a mesma distribuição com
média µ e covariância Σ ; e
( ) ( ){ }2t 12,p E X X−β = − µ Σ − µ (4.31)
Essas esperanças para a distribuição normal multivariada são:
0p,1 =β e )2p(pp,2 +=β
Para uma amostra de tamanho n, os estimadores de 1,pβ e 2,pβ são:
n n3
1,p ij2i 1 j 1
1ˆ gn = =
β = ∑∑
n n2 4
2,p i i ii 1 i 1
1 1ˆ g dn n= =
β = =∑ ∑
em que,
( ) ( )t 1i j i n jg X X S X X−= − − e iii gd =
Ferreira, D.F. Estatística multivariada 165
Os estimadores 1,pβ (quadrado do coeficiente de assimetria quando
p=1) e 2,pβ (igual ao coeficiente de curtose univariado quando p=1) são não-
negativos. Sob distribuição normal multivariada espera-se que a E( ( )1,pˆE β ) seja
zero. O estimador 2,pβ é muitas vezes usado para avaliar observações que estão a
grandes distâncias da média amostral.
Mardia (1970) mostra que para grandes amostras,
1,p1
ˆnk
6β
=
segue a distribuição de χ2 com p(p+1)(p+2)/6 graus de liberdade, e
{ }2 ,p
2 1 / 2
ˆ p(p 2)k
8p(p 2)n
β − +=
+⎡ ⎤⎢ ⎥⎣ ⎦
segue a distribuição normal padrão. Para pequenos valores de n, as tabelas de
valores críticos para testar a hipótese multivariada de normalidade são fornecidas
por Mardia (1974).
Exemplo 4.5
Usando o exemplo das rações testar a normalidade multivariada pelo teste dos
desvios de assimetria e curtose. Os valores amostrais são:
4. Distribuição normal multivariada 166
Obs Reais Vendas 1 2 3 4
80120
90110
10 12
6 8
As estatísticas amostrais são:
100X
9⎡ ⎤
= ⎢ ⎥⎣ ⎦
⎥⎦
⎤⎢⎣
⎡=
51515250
Sn ⎥⎦
⎤⎢⎣
⎡−
−=−
243902,0014634,0014634,0004878,0
S 1n ou ⎥
⎦
⎤⎢⎣
⎡−
−=−
25015155
10251S 1
n
Os desvios de cada observação da média amostral ( iε ):
1. [ ]t1 20 1ε = − 2. [ ]t
2 20 3ε = 3. [ ]t3 10 3ε = − − 4. [ ]t
4 10 1ε = −
i) Teste baseado no coeficiente de assimetria
É necessário calcular os valores de gij para todos os pares de i e j,
obtidos da seguinte forma:
Para i=1 e j=1, [ ] 7805,2120
S120g 1n11 =⎥
⎦
⎤⎢⎣
⎡−−= −
Para i=1 e j=2, [ ] 11 2 n
20g 20 1 S 0,6341
3− ⎡ ⎤
= − = −⎢ ⎥⎣ ⎦
Ferreira, D.F. Estatística multivariada 167
Para as demais combinações, têm-se: g1 3=-0,4878, g1 4=-1,6585,
g2 2=2,3902, g2 3=-1,8537, g2 4=0,0976, g3 3=1,8049, g3 4=0,5366 e g4 4=1,0244.
Logo,
( )3 3 3
11,,22
2,7805 2( 0,6341) 1,0244ˆ16
+ − + +β = =1,2766
então,
8511,062766,14
6
ˆnk 2,1
1 =×
=β
=
Como k1 ∼ 2χ com p(p+1)(p+2)/6=4 graus de liberdade, e sabendo
que 488,924;05,0 =χ , então H0 não deve ser falseada, ou seja, não existe razões
para suspeitar da violação da simetria da distribuição multivariada.
ii) Teste baseado no coeficiente de curtose
Inicialmente, estima-se o coeficiente de curtose da seguinte forma:
( ) 4378,447513,170244,18049,13902,27805,2
41g
n1ˆ 2222n
1i
2iip,2
==+++=∑=β=
4. Distribuição normal multivariada 168
em seguida, estima-se o valor estimado da normal (0, 1):
2 12
4, 4378 2(2 2) 3,5621k 0,890548 2 4
4
− + −= = = −
× ×⎛ ⎞⎜ ⎟⎝ ⎠
Não existem razões para duvidar de que a distribuição multivariada
tenha algum desvio de curtose, uma vez que 96,1zk 025,02 =< .
iii) Programa SAS para o teste de normalidade
A seguir são apresentados um programa SAS usando o Proc Calis
para o teste da curtose e um programa em IML, para ambos parâmetros. O
programa fornece as estatísticas amostrais e os valores das significâncias
observadas.
Data FR; Input Reais Vendas; cards; 80 10 120 12 90 6 110 8 ; Proc Calis data=FR Kurtosis; Title1 j=1 "Uso do Calis para testar a normalidade"; Title2 "pela Curtose de Mardia"; Lineqs Reais=e1, vendas=e2; std e1=eps1, e2=eps2; Cov e1=eps1, e2=eps2; Run;
Proc IML; use FR; read next 4 into X; /* lendo n observacoes dentro de X */ n=nrow(X);p=ncol(X); dfchi=p*(p+1)*(p+2)/6; /*definindo GL para B1,p */ q=i(n) - (1/n)*j(n,n,1); /* criando q=I-1/nJ, auxiliar */ S=(1/n)*x`*q*x; /* matriz de covariancias viesada */ S_inv=inv(S); /* inversa de S */ print s s_inv; g=q*x*s_inv*x`*q; /* matriz com gij */ print g; beta1=(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n^2 */ beta2=trace(g#g)/n; /* idem com tomada do traco/n */ print beta1 beta2; k1=n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */ k2=(beta2-p*(p+2))/sqrt(8*p*(p+2)/n); pvalskew=1-probchi(k1,dfchi); /* calculo dos p_values respectivos */ pvalkurt=2*(1-probnorm(abs(k2))); print k1 pvalskew; print k2 pvalkurt; Quit; /* abandonando IML */
Ferreira, D.F. Estatística multivariada 169
Finalmente é apresentado a seguir um programa SAS para orientar
os leitores na simulação de dados com distribuição normal multivariada com média
e covariância especificada. O exemplo apresentado gera uma distribuição normal
trivariada.
Proc IML; n=100;p=3; SIG={8 4 1, 4 10 3, 1 3 18}; st=Root(sig); mu={1, 10, 8}; x=j(n,p,0); zi=j(p,1,0); do i=1 to n; do ii=1 to p; zi[ii]=rannor(0); end; xi=st`*zi+mu; do ii=1 to p; x[I,ii]=xi[ii]; end; end; print x; create dtnorm from x; append from x; quit; proc print data=dtnorm; run;quit;
4. Distribuição normal multivariada 170
4.8. Exercícios
4.8.1. Com os dados do exemplo 4.4, tendo como hipótese que os mesmos
seguem a distribuição normal bivariada, utilize o resultado 4.2, ao nível de
50%, de que as distâncias generalizadas seguem a distribuição
qui-quadrado. Utilizando então a distribuição de proporções, item (a),
verifique a normalidade bivariada dos dados, contando a proporção
observada (Pi) de distâncias que pertencem a elipse, e comparando com a
estatística abaixo.
| , |, , ,
iP n n− >
×=0 5 3
0 5 0 5 1 5
4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,
propostos, neste capítulo, para ambas variáveis.
4.8.3. Utilizando os dados climáticos, obtidos por Diniz (1996), na fazenda
Cooparaíso-EPAMIG, Jacuí, MG, de agosto de 1994 a janeiro de 1995,
teste a pressuposição de normalidade tridimensional dos mesmos. Utilize
para isso, o processo gráfico apresentado, e o teste do exercício número
4.8.1 e o teste baseado nos desvios de assimetria e curtose de Mardia.
Ferreira, D.F. Estatística multivariada 171
Temperatura Umidade Relativa (%) Precipitação (mm)
22,7 23,7 24,3 24,4 24,5 25,2 25,5 24,7 24,3 24,7 24,9
64,1 56,1 54,9 58,2 62,8 70,3 75,2 81,4 79,3 74,6 78,0
7,9 1,5 0,0 0,0 8,7 22,5 57,0 75,7 123,2 124,4 148,0
4.8.4. Utilize os dados de uma amostra de 24 cochonilhas, fêmeas adultas, de
Quadraspidiotus perniciosus (Comst.), por ramo de pessegueiro, na região
de Jacuí-MG, e teste a pressuposição de normalidade dos dados, utilizando
os procedimentos apresentados univariados na seção 4.7.
0,8 1,0 0,6 0,6 0,2 0,8 2,5 1,5 0,3 1,7 1,9 2,5 1,1 5,0 0,9 1,7 2,6 4,5
1,8 1,0 0,5 0,4 1,8 0,7
||[ ]||Inferências sobre o vetor média
5
5.1. Introdução
Este capítulo é o primeiro deste material a apresentar inferências,
utilizando as técnicas, os conceitos e os resultados apresentados nos capítulos
prévios. Este capítulo, por estar intimamente relacionado à inferência estatística,
ou seja, é voltado para obtenção de conclusões válidas para a população com
base nas informações amostrais. As inferências realizadas neste capítulo são
relativas a vetor populacional de médias e nos seus componentes. Umas das
mensagens centrais da análise multivariada, que deverá ser abordada neste e nos
próximos capítulos, é que p variáveis correlacionadas devem ser analisadas
simultaneamente.
5.2. Inferências sobre média de uma população normal
Nesta seção serão abordados os testes de significância e a obtenção
de intervalos de confiança (IC) para a média de uma população normal.
5. Inferências sobre o vetor média 172
Inicialmente será abordado o problema de verificar se um determinado valor 0µ é
um possível valor (plausível) para a verdadeira média populacional desconhecida.
Do ponto de vista dos testes de hipóteses este problema pode ser abordado
através do teste:
0 0 1 0H : vs H :µ = µ µ ≠ µ
aqui, H0 é a hipótese nula e H1 é a hipótese (bilateral) alternativa. Considerando o
caso univariado, e se X1, X2, ..., Xn representam uma amostra aleatória extraída de
uma população normal, o teste estatístico apropriado para esta hipótese, quando p
é igual a 1, é:
( )0Xt S
n
−µ= , em que, X
nXj
j
n= ∑
=
11
e Sn
X Xjj
n2 2
1
11
=−
−∑=
( ) .
O teste em questão segue a distribuição de t-student com n-1 graus
de liberdade. A hipótese H0 será rejeitada se o valor observado de |t| exceder um
valor crítico especificado da distribuição de t-student com n-1 graus de liberdade
(GL).
Analogamente, considerando agora a distância quadrada da média
amostral X para o valor a ser testado, pode-se rejeitar H0 a um nível de
significância α, se
Ferreira, D.F. Estatística multivariada 173
2 2 1 20 0 n 1t n(X )(S ) (X ) t ( 2)−
−= −µ −µ ≥ α (5.1)
em que, 21( / 2)nt − α representa o quantil quadrático superior 100(α/2) da distribuição
de t-student com n-1 GL.
Se H0 não é rejeitada, então se conclui que µ0 é um valor plausível
para representar a média populacional normal. No entanto, uma pergunta natural
pode surgir: existem outros valores de µ que são consistentes com os dados? A
resposta é sim. De fato, existe um conjunto de valores plausíveis que serviriam
como média para a população normal estudada. Da bem conhecida
correspondência entre a região de aceitação dos testes de hipóteses e o intervalo
de confiança para µ tem-se:
0n 1
X t ( /2)Sn
−
−µ< α (não rejeitar H0) é equivalente a:
( ) ( )n 1 0 n 1S SX t / 2 X t / 2n n− −− α ≤ µ ≤ + α (5.2)
Antes de a amostra ser retirada, o intervalo de confiança de
100(1-α)% de (5.2) é um intervalo aleatório, pois seus limites dependem das
variáveis aleatórias X e S. A probabilidade do intervalo conter µ é 100(1-α)% e
5. Inferências sobre o vetor média 174
entre um grande número independentes de tais intervalos, 100(1-α)% deles
conterão µ.
É considerada agora a generalização do caso univariado para o
multivariado. O problema de determinar se um dado vetor 0µ (p x 1) é um valor
plausível da média de uma distribuição normal multivariada. Uma generalização da
distância quadrada apresentada em (5.1) é:
( ) ( )t2 10 0T n X S X−= −µ −µ (5.3)
em que,
n
jj 1
1X Xn =
= ∑ , ( )( )n t
j jj 1
1S X X X Xn 1 =
= − −− ∑ e
01
020
0p
⎡ ⎤µ⎢ ⎥µ⎢ ⎥µ = ⎢ ⎥⎢ ⎥µ⎢ ⎥⎣ ⎦
A estatística T2 é chamada de chamada de T2 de Hotelling, em honra
a Harold Hotelling (Bock, 1975), um pioneiro da estatística multivariada, que pela
primeira vez obteve a sua distribuição. Felizmente, tabelas especiais dos pontos
percentuais para a distribuição T2 não são necessárias na realização dos testes de
hipóteses, devido à estatística:
T2 ser distribuída como ,( 1)
p n pn pFn p −
−−
(5.4)
Ferreira, D.F. Estatística multivariada 175
em que, Fp,n-p representa uma variável com distribuição F com p e n-p GL.
De uma forma geral a distribuição de T2 considerando ν graus de
liberdade e dimensão p é dada por:
2p, 1 p
pT F1 pν+ −ν
= ×ν + −
(5.5)
Desta forma para se testar a hipótese 0 0H :µ = µ versus 1 0H :µ ≠ µ ,
no valor nominal α de significância, deve-se rejeitar H0 em favor de H1 se
( ) ( )t2 10 0 p,n p
(n 1)pT n X S X F ( )n p
−−
−= −µ −µ > α
− (5.6)
Infelizmente, é raro, nas situações multivariadas, o pesquisador se
satisfazer com o teste da hipótese 0 0H :µ = µ , em que todos os componentes do
vetor média são especificados sob a hipótese de nulidade. Em geral é preferível
encontrar regiões de valores de µ que são plausíveis para serem o vetor de média
populacional na luz dos dados observados.
Exemplo 5.1
A matriz X, apresentada a seguir, representa uma amostra de n=3 observações
retiradas de uma distribuição normal bivariada.
5. Inferências sobre o vetor média 176
11 2X 10 4
9 3
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
Teste a hipótese de que t0µ =[9 2] seja um valor plausível para representar a média
populacional.
A estatísticas amostrais são:
10X
3⎡ ⎤
= ⎢ ⎥⎣ ⎦
e 1,0 0,50,5 1,0
S−⎡ ⎤
= ⎢ ⎥−⎣ ⎦
Então,
1 4 21S2 43
− ⎡ ⎤= ⎢ ⎥
⎣ ⎦
E o valor de T2 será obtido da seguinte forma:
[ ]2 4 2 10 91T 3 10 9 3 2 122 4 3 23
−⎡ ⎤ ⎡ ⎤= − − =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦
O valor de F2,1 ao nível de 5% é 199,5, então, H0 será rejeitada se o
valor observado de T2 superar
Ferreira, D.F. Estatística multivariada 177
2,1( 1) 4199,5 798,0
1n pFn p−
= =−
.
Como neste caso, o valor de T2 observado (12,0) foi inferior ao valor
crítico (798,0), então, H0 não deve ser rejeitada. É importante salientar neste
ponto, que a hipótese H0 será rejeitada se um ou mais dos componentes do vetor
média amostral, ou alguma combinação de médias, diferir muito do valor hipotético
t0µ = [9 2]. Neste estágio, não se tem idéia de quais os valores hipotéticos não são
suportados pelos dados.
5.3. Região de confiança e Comparações simultâneas de componentes de média
Será inicialmente, generalizado o conceito univariado de intervalo de
confiança para o multivariado de região de confiança, R(X). A região de confiança
conterá 100(1-α)% se antes de a amostra ser selecionada,
P[R(X) cobrir o verdadeiro ] 1θ = −α (5.7)
em que θ , representa um vetor de parâmetros desconhecidos (Krzanowski, 1993).
No caso, a região de confiança para µ de uma distribuição normal p variada, será
todos os valores de µ tais que:
5. Inferências sobre o vetor média 178
( ) ( )t 1p,n p
(n 1)pP n X S X F ( )n p
−−
⎡ ⎤−−µ −µ ≤ α⎢ ⎥−⎣ ⎦
(5.8)
Para determinar se um dado valor 0µ é um valor plausível de µ ,
basta calcular a distância quadrada generalizada t 1n(X ) S (X )−−µ −µ e comparar
com ,( 1) ( ) /( )p n pn pF n p−− α − . Se a distância quadrada for maior que
,( 1) ( ) /( )p n pn pF n p−− α − , então µ 0 não pertence à região de confiança. Isto é
equivalente a testar a hipótese H0: µ=µ 0 contra a H1: µ≠µ 0, a qual possibilita
afirmar que a região de confiança constitui-se em todos os valores de µ 0 cujo
teste T2 não rejeitaria a hipótese nula a favor da alternativa, em um nível de
significância α.
Para p≥4 não se pode fazer o gráfico da região de confiança para µ .
Pode se, no entanto, calcular os eixos da elipsóide de confiança e seus tamanhos
relativos, os quais são determinados pelos autovalores λi e autovetores ie de S.
Os tamanhos dos semi-eixos de
( ) ( )t 1 2p,n p
p(n 1)n X S X c F ( )n p
−−
−−µ −µ ≤ = α
−
são determinados por
Ferreira, D.F. Estatística multivariada 179
,[ ( 1) ( )]/[ ( )]ii p n p
cp n F n n p
n −
λ= λ − α − unidades ao longo de ie .
Começando do centro, determinado por X , os eixos da elipsóide
são:
i p,n p i[p(n 1)F ( )] /[n(n p)] e−± λ − α −
Exemplo 5.2
A partir dos dados do exemplo 5.1, obter a região de confiança de 95%, e verificar
se o ponto t0µ =(13, 4) pertence a mesma.
10X
3⎡ ⎤
= ⎢ ⎥⎣ ⎦
, 1,0 0,50,5 1,0
S−⎡ ⎤
= ⎢ ⎥−⎣ ⎦ e 1 4 21
2 43S− ⎡ ⎤
= ⎢ ⎥⎣ ⎦
Os autovalores e autovetores de S, são:
[ ]t1 11,5 e 0,707107 0,707107λ = = −
[ ]t2 20,5 e 0,707107 0,707107λ = =
5. Inferências sobre o vetor média 180
A elipse de confiança 95% para µ consiste de todos os valores
(µ1, µ2) que satisfazem:
11 2
2
104 21 2 (2)3[10 , 3 ] 199,532 43 1−µ⎡ ⎤⎡ ⎤
−µ −µ ≤ ×⎢ ⎥⎢ ⎥ −µ⎣ ⎦ ⎣ ⎦
ou, 2 21 1 2 24(10 ) 4(10 )(3 ) 4(3 ) 798−µ + − µ −µ + − µ ≤
Para verificar se o ponto t0µ =(13, 4) pertence a elipse, calcula-se:
2 24(10 13) 4(10 13)(3 4) 4(3 4) 52 798,0− + − − + − = ≤
o que permite que se conclua que o ponto testado está na região de confiança. O
gráfico da elipse obtida pode ser visualizado na Figura 5.1. com a análise gráfica,
pode-se confirmar que o ponto em questão pertence à região de confiança.
Ferreira, D.F. Estatística multivariada 181
Figura 5.1. Elipse de 95% de confiança para o vetor populacional de médias,
obtido a partir dos dados do exemplo 5.1.
Exemplo 5.3
Para exemplificar a região tridimensional para a média populacional, os dados de
produção comercial (t/ha), produção de tubérculos graúdos (t/ha) e peso médio de
tubérculos graúdos (g) de 15 clones de batata selecionados em Maria da Fé e
Lavras (Momenté, 1994), foram utilizados e encontram-se no quadro a seguir.
Obter a região de 95% de confiança para o vetor média populacional.
Verificar se o ponto t0 (16,89 8,76 109, 23)µ = pertence a região de confiança (ponto
referente a cultivar Achat). Traçar a região de confiança.
x1
x2
5. Inferências sobre o vetor média 182
Clones Produção comercial
Produção de tubérculos graúdos
Peso médio de tubérculos graúdos
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
47,82 42,40 41,82 40,77 40,27 39,84 38,36 38,15 37,55 36,19 36,15 35,17 34,90 34,57 34,15
40,40 26,96 27,33 21,81 33,06 22,31 32,81 26,02 21,69 25,65 23,46 25,29 22,92 16,25 21,75
146,30 94,58 143,66 127,29 115,17 99,32 150,13 131,17 152,04 154,83 95,43 105,97 113,59 86,39 119,50
Fonte: Momenté, 1994
O vetor de médias e a matriz de covariância amostrais são:
38,541X 25,854
122,358
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
13,8195 15,8284 24,725015,8284 34,8769 63,021524,7250 63,0215 540,1553
S⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
Os autovalores e autovetores de S são:
t1 1549, 208 e (0,049 0,123 0,991)λ = =
t2 234,460 e (0,500 0,856 0,131)λ = = −
t3 35,185 e (0,865 0,502 0,019)λ = = −
Ferreira, D.F. Estatística multivariada 183
A região de confiança fica determinada por:
t 1 2p,n p
p(n 1)n(X ) S (X ) c F ( )n p
−−
−−µ −µ ≤ = α
−
[ ]1
1 2 3 2
3
0,15149 Sim. 38,54115 38,541 25,854 122,358 0,07124 0,06983 25,854
0,00138 0,00489 0,002358 122,3583 14 3, 49 12, 215
12
−µ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥−µ −µ −µ − −µ ≤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥− −µ⎣ ⎦ ⎣ ⎦
×× =
Para verificar se o ponto t0 (16,89 8,76 109, 23)µ = pertence à região
de confiança, basta substituir os valores de µ1 por 16,89, de µ2 por 8,76 e o de µ3
por 109,23. O valor encontrado de 563,4964 é superior a 12,215, o que indica que
a média da Cultivar Achat, não pertence à região de 95% de confiança para média
das 15 famílias clonais estudadas.
Utilizando o programa Maple, através da seguinte macro, foi traçado
o gráfico, elipsóide de confiança (Figura 5.2), da região de 95% de confiança para
µ . Pode-se visualizar também que o ponto em questão não pertence a elipsóide
de confiança.
21 1 2 1 3
2 22 2 3 3
2,27(38,541 ) 2,14(38,541 )(25,854 ) 0,04(38,541 )(122,358 )
1,05(25,854 ) 0,15(25,854 )(122,358 ) 0,04(122,358 ) 12,215
= − µ − − µ − µ + − µ − µ +
+ − µ − −µ − µ + − µ ≤
5. Inferências sobre o vetor média 184
Figura 5.2. Elipsóide de 95% de confiança para o vetor de médias populacional,
obtida a partir dos dados do exemplo 5.3.
Intervalos de confiança simultâneos
Enquanto a região de confiança fornece corretamente o conjunto de
valores plausíveis para a média de uma população normal, qualquer resumo de
conclusões, em geral, inclui intervalos de confiança sobre médias individuais.
Assim, adota-se que todos os intervalos de confiança sejam verdadeiros
simultaneamente com uma alta probabilidade específica. Isto garante com alta
x3
x1 x2
Ferreira, D.F. Estatística multivariada 185
probabilidade que qualquer afirmação não seja incorreta, o que conduz ao termo
intervalo de confiança simultâneo (Johnson e Wichern, 1998).
Considerando uma combinação linear das médias amostrais,
t1 2 p1 2 pX X X X= + + +
cuja distribuição amostral possui estimador da covariância dado por:
tSn
Dessa forma poderia se pensar em se obter intervalos de confiança
de 95% baseados na distribuição de t-student,
tt
n 1S
X t ( / 2)n−± α (5.9)
O intervalo da expressão (5.9) pode ser interpretado como intervalos
sobre componentes do vetor de média, assim, por exemplo, fazendo-se
t [1 0 .... 0]= , a expressão (5.9) se torna o intervalo clássico para a média de uma
população normal univariada. Neste caso tem-se uma série de inferências sobre
os componentes de µ , cada um associado com o coeficiente de confiança de 1-α,
através de diferentes escolhas de . No entanto o coeficiente de confiança para
5. Inferências sobre o vetor média 186
todos os intervalos tomados simultaneamente não é 1-α. Para corrigir esta
imperfeição demonstra-se (Johnson e Wichern, 1988; Anderson, 1984) que para
garantir o coeficiente nominal de confiança simultâneo de 1-α para a cobertura de
os valores paramétricos é necessário recorrer à distribuição de T2. Este resultado
está apresentado a seguir:
t tp,n p
p(n 1)X F ( ) Sn(n p) −
−± α
− (5.10)
Método de Bonferroni para Comparações múltiplas
Muitas vezes um pequeno número de intervalos de confiança é
requerido. Nestas situações pode-se ter uma melhor opção do que as
comparações simultâneas, proposta em (5.10), obtendo intervalos de confiança
mais curtos (mais precisos) do que o intervalo simultâneo de T2. Esta alternativa
de intervalo é conhecida por método de Bonferroni.
A seguir será apresentado o método para obtenções de intervalo de
confiança para os componentes de média. Se as m=p médias forem consideradas,
então, o método de Bonferroni é:
iii n 1 2m
SX t ( ) i 1,2,...,p mn
α−± = = (5.11)
Ferreira, D.F. Estatística multivariada 187
Exemplo 5.4
Utilizando os dados do exemplo 5.2, obter os intervalos clássicos de t-student, T2 e
Bonferroni, para os componentes individuais do vetor de média, e compará-los
entre si, quanto ao comprimento.
O vetor de médias e a matriz de covariância amostral são:
10X
3⎡ ⎤
= ⎢ ⎥⎣ ⎦
e 1,0 0,50,5 1,0
S−⎡ ⎤
= ⎢ ⎥−⎣ ⎦
1. Intervalo T2
■ 1
11(0,95) 1 p,n p
p(n 1) SIC X F ( )n p nµ −−
= ± α−
1 (0,95)
2(3 1) 110 199,53 2 3
ICµ
−= ±
−
1 (0,95) 10 16,31 [ 6,31; 26,31]ICµ = ± = −
■ 2 (0,95)
2(3 1) 13 199,53 2 3
ICµ
−= ±
−
2 (0,95) 3 16,31 [ 13,31;19,31]ICµ = ± = −
5. Inferências sobre o vetor média 188
Observa-se que os limites dos intervalos de confiança múltiplos
representam os limites da elipse de confiança de 95% (Figura 5.1), projetados nos
respectivos eixos.
2. Intervalo de Bonferroni
Neste caso, m=p=2, portanto α/2m=0,0125. O valor de t-student
correspondente, com n-1=2 GL é 6,21. Então,
■ 1 (0,95)
110 6,213
ICµ = ±
1 (0,95) [6,41;13,59]ICµ =
■ 2 (0,95)
13 6,213
ICµ = ±
2 (0,95) [ 0,59; 6,59]ICµ = −
Observa-se nesta situação que os intervalos são bem mais estreitos
que o seu correspondente em 1.
Ferreira, D.F. Estatística multivariada 189
3. Intervalo t de Student
Neste caso α/2=0,025 e o valor de t-student correspondente com 2
GL é 4,30. Então,
■ 1 (0,95)
110 4,303
ICµ = ±
1 (0,95) [7,52;12,48]ICµ =
■ 2 (0,95)
13 4,303
ICµ = ±
2 (0,95) [0,52; 5,48]ICµ =
Apesar de estes últimos intervalos individualmente garantir com 95%
de probabilidade que as médias populacionais estão contidas nos mesmos, não há
garantia de que simultaneamente eles contenham as médias populacionais no
mesmo valor nominal do coeficiente de confiança, diga-se 95%. Na melhor das
hipóteses, variáveis não correlacionadas, o valor real do coeficiente de confiança é
(1-α)p=0,952=0,9025.
5. Inferências sobre o vetor média 190
5.4. Inferências sobre proporções de grandes amostras
Freqüentemente, algumas características de interesse na população
estão na forma de atributos. Cada indivíduo nesta população pode ser descrito em
termos dos atributos que possui, os quais são codificados, pela sua presença e
ausência. Na população, com q característica, a proporção de elementos que
possui os atributos 1, 2, ..., q é p1, p2, ..., pq. Considerando q atributos mutuamente
exclusivos e características exaustivas, então, pq=1-(p1+p2+...+pq-1).
Numa grande amostra de tamanho n, pelo teorema do limite central,
p possui distribuição aproximadamente normal, com
1
2
q
pp
ˆE(p)
p
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
e
1 1 1 2 1 q
2 1 2 2 2 q
q 1 q 2 q q
p (1 p ) p p p pp p p (1 p ) p p1 1ˆCov(p)
n np p p p p (1 p )
− − −⎡ ⎤⎢ ⎥− − −⎢ ⎥= = Σ⎢ ⎥⎢ ⎥− − −⎢ ⎥⎣ ⎦
.
Para grandes amostras, a aproximação continua válida se um
estimador de ( )ˆCov p , (1/n) Σ , for utilizado.
Uma vez que cada elemento da população está associado a apenas
um atributo, então, pq=1-(p1+p2+...+pq-1), o que trás como conseqüência que o
posto de Σ é igual a q-1, portanto sua inversa não existe. Apesar disso, pode-se
desenvolver intervalos de confiança simultâneos aproximados de 100(1-α)%, para
qualquer combinação tp .
Ferreira, D.F. Estatística multivariada 191
Para uma amostra de tamanho n, considerando q categorias da
distribuição multinomial, o intervalo aproximado de confiança simultâneo de
100(1-α)%, para qualquer combinação t1 1 2 2 q qp p p ... p= + + + , é dado por:
tt 2
q 1
ˆp ( )
n−
Σ± χ α (5.12)
garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor
grande de n-q-1, significa que ˆknp deve estar em torno de 20 para cada categoria
k=1, 2, ..., q.
Exemplo 5.5
Numa amostra de n=35 cochonilhas, obtida na região de Jacuí, MG, em fevereiro
de 1995, em plantas de pessegueiro tratadas, Diniz (1996) obteve os seguintes
resultados:
Fêmeas adultas Ninfa móvel Ninfa fêmea Ninfa macho Total 5 11 15 4 35
Obter os intervalos de confiança simultâneos de 95% usando a aproximação de
grandes amostras para proporções de insetos em cada categoria.
O vetor de proporções e a matriz de covariância amostral são:
5. Inferências sobre o vetor média 192
0,14290,3143
p0, 42860,1142
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
e
0,1225 .0,0449 0,2155ˆ0,0612 0,1347 0,24490,0163 0,0359 0,0489 0,1012
Sim⎡ ⎤⎢ ⎥−⎢ ⎥Σ =⎢ ⎥− −⎢ ⎥− − −⎣ ⎦
O valor de 23 (0,05)χ é 7,815, e os intervalos são:
10,1225: 0,1429 7,815 0,1429 0,1654 [ 0,0225; 0,3083]
35p ± = ± = −
20,2155: 0,3143 7,815 [0,0949; 0,5337]
35p ± =
30,2449: 0,4286 7,815 [0,1948; 0,6624]
35p ± =
40,1012: 0,1142 7,815 [ 0,0361; 0,2645]
35p ± = −
5.5. Comparações pareadas
Em muitas situações experimentais deseja-se testar o efeito ou
eficácia de um tratamento. Para isso, medidas são tomadas nas unidades
experimentais antes e após a aplicação do tratamento. Uma outra situação em
que esta comparação pode ser de interesse é quando na mesma unidade
Ferreira, D.F. Estatística multivariada 193
amostral ou experimental dois tratamentos são aplicados. Estas respostas são
denominadas medidas pareadas, e podem ser analisadas calculando-se suas
diferenças, eliminando a influência da variação entre as unidades experimentais
ou amostrais.
Será, inicialmente, abordado o caso univariado e, em seguida, a sua
respectiva generalização para o caso multivariado. Denotando X1j a resposta do
tratamento 1 (ou resposta antes do tratamento) e X2j a resposta do tratamento 2
(ou resposta após o tratamento) para a j-ésima unidade amostral ou experimental,
em que (X1j, X2j) são medidas tomadas na mesma unidade amostral ou
experimental, então as n diferenças:
Dj = X2j - X1j , j=1, 2, ..., n (5.13)
devem refletir somente o efeito diferencial entre os tratamentos.
Assumindo que as diferenças Dj são observações independentes de
uma distribuição normal N(δ, 2Dσ ), a variável
D
Dt Sn
−δ= (5.14)
segue a distribuição de t-student com n-1 graus de liberdade, em que:
5. Inferências sobre o vetor média 194
( )
2n
jn n n2 j 12 2j j jD
j 1 j 1 j 1
D1 1 1D D e D D Dn n 1 n 1 nS =
= = =
⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟⎢ ⎥⎝ ⎠= = − = −⎢ ⎥− − ⎢ ⎥⎢ ⎥⎣ ⎦
∑∑ ∑ ∑ (5.15)
Conseqüentemente, para um coeficiente de confiança de 1-α, o teste
para a hipótese:
0
1
: 0 ( ): 0
H efeito nulo de tratamentoH
δ =δ ≠
pode ser realizado comparando-se | t | com tn-1(α/2), o quantil 100(α/2) superior da
distribuição de t-student com n-1 graus de liberdade.
O intervalo de confiança de 100(1-α)% para o efeito do tratamento
(ou diferença de efeitos dos tratamentos) é dado pela maneira usual e
apresentado a seguir.
Dn 1
SD t ( / 2)n−± α (5.16)
Para extensão multivariada dos procedimentos adotados no caso
univariado, a seguinte notação é utilizada, pois existe a necessidade de distinguir
entre os índices para os dois tratamentos (1o índice), a resposta da j-ésima
unidade experimental ou amostral (2o índice) e as p variáveis (3o índice). Neste
caso, X1jk representa a resposta do tratamento 1 (ou medida antes de se aplicar o
Ferreira, D.F. Estatística multivariada 195
tratamento) na k-ésima variável tomada na j-ésima unidade e, X2jk representa a
resposta do tratamento 2 (ou medida após se aplicar o tratamento) na k-ésima
variável tomada na j-ésima unidade, sendo que j=1, 2, ..., n; k=1, 2, ..., p.
As diferenças têm a mesma notação com exceção do primeiro índice,
do efeito do tratamento, que deve desaparecer. Isto se deve ao fato de as
diferenças refletirem o efeito diferencial dos tratamentos. Assim, Djk representa a
diferença entre os tratamentos na j-ésima unidade amostral ou experimental obtida
na k-ésima variável. Fazendo tj j1 j2 jpD D D D⎡ ⎤= ⎣ ⎦ e assumindo que é
distribuído normal e independentemente, Np( D,δ Σ ), a estatística T2 se aplica para
se realizar inferências sobre o vetor média das diferenças. Os seguintes
resultados podem ser obtidos, a partir das pressuposições assumidas.
Dadas as diferenças observadas tj j1 j2 jpD D D D⎡ ⎤= ⎣ ⎦ ,
j=1, 2, ..., n, um teste de a hipótese o 0 1 0H : vs H :δ = δ δ ≠ δ deve rejeitar H0 se o
valor observado
( ) ( )t2 10 d 0 p,n p
p(n 1)T n D S D F ( )(n p)
−−
−= − δ − δ > α
− (5.17)
em que,
n
jj 1
1D Dn =
= ∑ e ( )( )n t
D j jj 1
1S D D D Dn 1 =
= − −− ∑
5. Inferências sobre o vetor média 196
A região de confiança de 100(1-α)% para δ consiste em todos os
valores de δ tais que
2 t 1D p,n p
p(n 1)T n(D ) S (D ) F ( )(n p)
−−
−= − δ − δ ≤ α
− (5.18)
Os intervalos de confiança simultâneos 100(1-α)% para as diferenças
de médias individuais δi são dados por:
i
D(ii)i p,n p
Sp(n 1)IC (1 ) : D F ( )(n p) nδ −
−−α ± α
− (5.19)
em que, iD é o i-ésimo elemento de D e D(ii)S é i-ésimo elemento da diagonal de
SD.
Para n-p grande, [(n-1)p/(n-p)]Fp,n-p(α) ≅ 2 ( )pχ α , e a normalidade não
precisa ser assumida.
O intervalo simultâneo de Bonferroni 100(1-α)% para as médias
individuais das diferenças δi é:
i
D(ii)i n 1
SIC (1 ) : D t
2p nδ −
⎛ ⎞α−α ± ⎜ ⎟
⎝ ⎠ (5.20)
Ferreira, D.F. Estatística multivariada 197
Exemplo 5.6
Em uma amostra de n=4 fazendas em Marechal Cândido Rondon foram
mensuradas a produção leiteira diária média por animal (X1) e a renda total diária
da produtividade de leite (X2) antes da aplicação do plano governamental “panela
cheia” e após a aplicação. Testar a hipótese de que o plano foi ineficiente em
aumentar a média dos dois índices zootécnicos. Os dados da amostra são:
Antes Após X1j1 X1j2 X2j2 X2j2 10 11 9 8
80 80 60 60
13 15 16 19
90 92 88 90
A hipótese a ser testada é:
0
0H : 0
0⎡ ⎤
δ = = ⎢ ⎥⎣ ⎦
As diferenças foram obtidas e são dadas por:
Dj1 Dj2
3 4 7 11
10 12 28 30
As estimativas amostrais são:
5. Inferências sobre o vetor média 198
6, 25D
20,00⎡ ⎤
= ⎢ ⎥⎣ ⎦
e D
12,9167 34,6667S
34,6667 109,3333⎡ ⎤
= ⎢ ⎥⎣ ⎦
O valor da estatística T2 pode ser computado por:
[ ]2 0,5195 0,1647 6, 25T 4 6, 25 20 14,6515
0,1647 0,0614 20,00−⎡ ⎤ ⎡ ⎤
= =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦
O valor crítico é:
p,n p 2,4 2p(n 1) 2 (4 1)F (5%) F (5%) 3 19 57(n p) (4 2)− −
− × −= = × =
− −
Como T2=14,6515<57, então, H0 não pode ser falseada para o valor
nominal de 5% de significância.
Os intervalos de confiança simultâneos são:
[ ]1 1 2,4 2
2(4 1) 12,9167IC (0,95) : D F (0,05) 6,25 13,57 7,32;19,82(4 2) 4δ −
−± = ± = −
−
[ ]2 2 2,4 2
2(4 1) 109,3333IC (0,95) : D F (0,05) 20 39, 47 19, 47; 59, 47(4 2) 4δ −
−± = ± = −
−
Ferreira, D.F. Estatística multivariada 199
5.6. Comparações de vetores médias de duas populações
O teste T2 para testar a igualdade de vetores média de duas
populações pode ser desenvolvido por analogia ao procedimento univariado. Este
teste T2 é apropriado para comparar a resposta média de um grupo experimental
(população 1) com a resposta média “independente” de outro grupo experimental
(população 2). Se possível, as unidades experimentais devem ser sorteadas para
cada conjunto de observações de ambas as populações, o que abrandará o efeito
da variabilidade entre unidades na comparação entre tratamentos. Apesar disto,
este tipo de comparação, é em geral, menos preciso do que o caso de
comparações pareadas.
Considerando uma amostra aleatória de tamanho n1 da população 1
e uma amostra n2 da população 2. As observações das p variáveis podem ser
organizadas como:
Amostra Estatísticas amostrais (População 1) 11X , 12X , ...,
11nX
(População 2) 21X , 22X , ...,
22nX
1n
1 1jj 11
1X Xn =
= ∑ ( )( )1n t
1 1j 1 1jj 11
1S X X X Xn 1 =
= − −− ∑
2n
2 2 jj 12
1X Xn =
= ∑ ( )( )2n
2 2 j 2 2 j 2j 12
t1S X X X Xn 1 =
= − −− ∑
Subscritos 1 e 2, denotam a população.
5. Inferências sobre o vetor média 200
Deseja-se realizar inferência a respeito da diferença de médias
populacionais ( 1 2µ −µ ), para verificar se esta diferença é nula, o que equivale a
afirmar que não existe efeito dos tratamentos. De forma equivalente, pode-se fazer
tal inferência, testando a hipótese de igualdade dos vetores médias populacionais
( 0 1 2H :µ = µ ). Algumas pressuposições devem ser obedecidas para a validade dos
testes e da inferência realizada. Entre as pressuposições destaca-se a
necessidade de que sejam realizadas amostras aleatórias, de tamanho n1 e n2, de
ambas as populações (população 1 com média 1µ e covariância 1Σ , e população 2
com média 2µ e covariância 2Σ ); além disso, supõe-se que as observações da
amostra 1 são independentemente obtidas em relação aquelas da amostra 2.
Ainda é necessário assumir que ambas as populações sejam normais que a matriz
de covariância amostral seja a mesma ( 1 2Σ = Σ = Σ ).
As matrizes de covariância S1 e S2 são estimadores de 1Σ e de 2Σ ,
respectivamente. Conseqüentemente, pode-se combinar as informações de
ambas as amostras para estimar a variância comum Σ da seguinte forma:
1 1 2 2
1 2
( 1) ( 1)2p
n S n SSn n
− + −=
+ − (5.21)
Para se testar a hipótese 0 1 2 0H :µ −µ = δ , considera-se os seguintes
resultados:
Ferreira, D.F. Estatística multivariada 201
( ) 1 21 2E X X− = µ −µ (5.22)
( )1 21 2
1 1Cov X Xn n
⎛ ⎞− = + Σ⎜ ⎟
⎝ ⎠ (5.23)
Devido ao resultado (5.21), em que Sp é um estimador de Σ, então,
1 2
1 1pS
n n⎛ ⎞
+⎜ ⎟⎝ ⎠
é um estimador de ( )1 2Cov X X− .
Demonstra-se que o teste da razão de verossimilhança para a
hipótese,
0 1 2 0H :µ −µ = δ
é dado pela distância quadrada T2. Rejeita-se H0 se
1 2
1
2 t 1 21 2 0 p 1 2 0 p,n n p 1
1 2 1 2
(n n 2)p1 1T [X X ] S [X X ] F ( )n n (n n p 1)
−
+ − −
⎡ ⎤⎛ ⎞ + −= − − δ + − − δ > α⎢ ⎥⎜ ⎟ + − −⎝ ⎠⎣ ⎦
5. Inferências sobre o vetor média 202
Exemplo 5.7
Os dados a seguir referem-se à produtividade e altura de plantas de duas
variedades de milho (A e B). Determinar a região de 95% de confiança para
diferença 1 2µ −µ .
A B Produtividade Altura da planta Produtividade Altura da planta
5,7 8,9 6,2 5,8 6,8 6,2
2,10 1,90 1,98 1,92 2,00 2,01
4,4 7,5 5,4 4,6 5,9
1,80 1,75 1,78 1,89 1,90
As estatísticas amostrais são:
1
6,57X
1,99⎡ ⎤
= ⎢ ⎥⎣ ⎦
, 1
1,4587 0,05140,0514 0,0051
S−⎡ ⎤
= ⎢ ⎥−⎣ ⎦
2
5,56X
1,82⎡ ⎤
= ⎢ ⎥⎣ ⎦
, 2
1,5430 0,03660,0366 0,0045
S−⎡ ⎤
= ⎢ ⎥−⎣ ⎦
A matriz de variância e covariância amostral combinada é:
1,4962 0,04480,0448 0,0048pS
−⎡ ⎤= ⎢ ⎥−⎣ ⎦
Ferreira, D.F. Estatística multivariada 203
Os autovalores e autovetores de Sp são:
[ ]t1 11, 4975 e 0,9995 0,0300λ = = −
[ ]t2 20,0035 e 0,0300 0,9995λ = =
O valor de F2,8(0,05)=4,459. A região de confiança é dada por:
1 2
1
2 t 1 21 2 0 p 1 2 0 p,n n p 1
1 2 1 2
(n n 2)p1 1T [X X ] S [X X ] F ( )n n (n n p 1)
−
+ − −
⎡ ⎤⎛ ⎞ + −= − −δ + − − δ ≤ α⎢ ⎥⎜ ⎟ + − −⎝ ⎠⎣ ⎦
em que, 1 11 210
2 12 22
δ µ −µ⎡ ⎤ ⎡ ⎤δ = =⎢ ⎥ ⎢ ⎥δ µ −µ⎣ ⎦ ⎣ ⎦
Desta forma com os valores amostrais, tem-se:
[ ] 11 2
2
1,010,9276 8,6575301,01 0,17 10,03280,178,6575 289,136411
− δ⎡ ⎤⎡ ⎤− δ − δ × × ≤⎢ ⎥⎢ ⎥ − δ⎣ ⎦ ⎣ ⎦
Esta equação foi implementada no programa Maple, para se obter a
elipse de 95% de confiança, apresentada na Figura 5, cujos comandos estão
apresentados a seguir:
5. Inferências sobre o vetor média 204
Figura 5.3. Elipse de 95% de confiança para diferença do vetor média de ambas
as variedades de milho.
Verifica-se pela Figura 5.3 que a origem t0 =[0, 0], não pertence a
região de confiança, indicando que as duas variedades diferem quanto ao vetor
média.
11 21µ − µ
12 22µ − µ
Ferreira, D.F. Estatística multivariada 205
Intervalos de confiança simultâneos
Para desenvolver intervalos de confiança simultâneos para um
componente de 1 2µ −µ , adota-se o vetor tal que a combinação t ( 1 2µ −µ ), será
abrangida com probabilidade 1-α, para qualquer escolha de , por
( )1 2
t t1 21 2 p,n n p 1 p
1 2 1 2
(n n 2)p 1 1X X F ( ) Sn n p 1 n n+ − −
⎛ ⎞+ −− ± α +⎜ ⎟+ − − ⎝ ⎠
(5.24)
Método de Bonferroni para comparações múltiplas
O intervalo de confiança simultâneo de 100(1-α)% de Bonferroni para
as p diferenças entre duas médias populacionais é dado por:
1 21i 2i1i 2i n n 2 ii
1 2
1 1: (X X ) t S2p n n+ −
⎛ ⎞⎛ ⎞αµ −µ − ± +⎜ ⎟⎜ ⎟
⎝ ⎠ ⎝ ⎠ (5.25)
Comparações entre vetores médias quando 1 2Σ ≠ Σ
Quando 1 2Σ ≠ Σ , a distribuição das estatísticas dependem de uma
medida de distância que não são independentes das covariâncias populacionais
desconhecidas. Por serem desconhecidas as covariâncias populacionais, o teste
5. Inferências sobre o vetor média 206
de Bartlett pode ser usado para testar H0: 1 2Σ ≠ Σ . No entanto, este teste é
fortemente afetado se a pressuposição de normalidade for violada. O teste em
questão não pode diferenciar entre a ausência de normalidade e a
heterogeneidade das covariâncias. Quando ambos n1-p e n2-p são grandes,
pode-se evitar as complicações da desigualdade de variâncias, utilizando a
elipsóide de 100(1-α)% de confiança aproximada, dada por (5.26). O problema de
covariâncias heterogêneas, quando as amostras são provenientes de populações
normais é conhecido como problema de Behrens-Fisher multivariado.
1t 2
1 2 0 1 2 1 2 0 p1 2
1 1[X X ] S S [X X ] ( )n n
−⎡ ⎤
− − δ + − −δ ≤ χ α⎢ ⎥⎣ ⎦
(5.26)
O intervalo de confiança simultâneo aproximado é dado por:
( )t 2 t1 2 p 1 2
1 2
1 1X X ( ) S Sn n
⎛ ⎞− ± χ α +⎜ ⎟
⎝ ⎠ (5.27)
Sete soluções para o problema multivariado de Behrens-Fisher foram
estudadas por Christensen e Rencher (1997) por meio de simulação Monte Carlo,
comparando as taxas de erro tipo I e o poder destas soluções. Algumas dessas
soluções estudadas por estes autores são apresentadas a seguir.
Ferreira, D.F. Estatística multivariada 207
a) Aproximação de Bennett
A primeira dessas alternativas é àquela estudada por Bennett (1951),
a qual assume que n2≥n1, o que não é limitante. Para contornar o problema, caso
essa condição não seja atendida, basta trocar os nomes das amostras, isto é, a
amostra 1 passa ser a amostra 2 e vice-versa. Inicialmente é necessário calcular
os vetores j 1Z , j 1, 2, , n= da seguinte forma.
1 2n n1
j 1j 2 j 2 j 2kj 1 k 12 21 2
n 1 1Z X X X Xn nn n = =
= − + −∑ ∑ (5.28)
Em seguida calcula-se a média ( Z ) e a covariância (SZ) a partir das n1
observações amostrais p-variadas obtidas na expressão (5.28). A estatística
2 t 11 ZT n Z S Z−= (5.29)
possui distribuição T2 de Hotelling com dimensão p e ν=n1-1 graus de liberdade,
que pode ser dada pela expressão geral (5.5).
b) Aproximação de James
A aproximação de James (1954) envolve uma correção do valor de 2χ
quando se utiliza a estatística T*2, definida por:
5. Inferências sobre o vetor média 208
12 t 2
1 2 1 2 1 2 p1 2
1 1T [X X ] S S [X X ] ~n n
−
∗ ⎡ ⎤= − + − χ⎢ ⎥
⎣ ⎦ (5.30)
James (1954) propõe valores críticos ajustados ao invés de utilizar a
distribuição aproximada de qui-quadrado diretamente. Os valores críticos
propostos por James (1954) são dados em (5.31).
( )2 2p p( ) A B ( )χ α × + χ α (5.31)
em que 2p ( )χ α é o quantil superior α da distribuição de qui-quadrado e A e B são
dados em (5.32) e (5.33).
22
1 ie
i 1 i i
S1 1A 1 tr S2p n 1 n
−
=
⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪= + ⎨ ⎬⎢ ⎥⎜ ⎟− ⎝ ⎠⎣ ⎦⎪ ⎪⎩ ⎭∑ (5.32)
2221 1i i
e ei 1 i i i
1 1 S SB tr 2 S tr S2p(p 2) n 1 n n
− −
=
⎧ ⎫⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞⎪ ⎪⎢ ⎥= +⎨ ⎬⎢ ⎥⎜ ⎟ ⎜ ⎟+ − ⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦⎪ ⎪⎣ ⎦⎩ ⎭∑ (5.33)
em que:
1 2e
1 2
S SSn n
= + (5.34)
Ferreira, D.F. Estatística multivariada 209
c) Aproximação de Yao
A aproximação de Yao (1965) é uma extensão da aproximação de
Welch para os graus de liberdade. A estatística (T*2) apresentada em (5.30) é
aproximada por uma T2 de Hotelling com dimensão p e graus de liberdade ν dados
por (5.35).
( )( ) ( )
22 t 1 1i1 2 e e 1 222 i 1 i i
S1 1 1 X X S S X Xn 1 nT
− −
∗=
⎧ ⎫⎡ ⎤⎪ ⎪= − −⎨ ⎬⎢ ⎥ν − ⎣ ⎦⎪ ⎪⎩ ⎭∑ (5.35)
d) Aproximação de Johansen
A aproximação de Johansen (1980) usa a estatística T*2 de (5.30)
dividida por uma constante C para que a estatística resultante tenha distribuição
aproximada pela distribuição F com ν1=p e ν2=ν graus de liberdade. Assim, os
valores necessários para calcular a estatística Fc de Johansen (1980) são:
2
cTFC
∗
= (5.36)
2D 6DC pp(p 1) 2
+= −
− + (5.37)
5. Inferências sobre o vetor média 210
( ) ( ){ }2 221 1i i
i 1 i
1D tr I V V tr I V V2(n 1)
− −
=
⎡ ⎤ ⎡ ⎤= − + −⎣ ⎦⎢ ⎥⎣ ⎦−∑ (5.38)
p(p 2)3D+
ν = (5.39)
com Vi=(Si/ni)-1 para i=1 ou 2 e V=V1+V2.
e) Aproximação de Nel e Van der Merwe
A aproximação de Nel e Van der Merwe (1986) usa a estatística T*2
de (5.30), a qual é aproximada pela T2 de Hotelling com dimensão p e graus de
liberdade ν, em que:
( ) ( ) 22e e
2 22 2
1 1 2 2
1 1 1 2 2 2
tr S tr S
1 S S 1 S Str tr tr trn 1 n n n 1 n n
+ ⎡ ⎤⎣ ⎦ν =⎧ ⎫ ⎧ ⎫⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎪ ⎪ ⎪ ⎪+ + +⎨ ⎬ ⎨ ⎬⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎣ ⎦ ⎣ ⎦⎪ ⎪ ⎪ ⎪⎩ ⎭ ⎩ ⎭
(5.40)
É conveniente chamar a atenção para o fato de que nas expressões
anteriormente apresentadas aparece um termo como: tr(A)2. Esse termo significa
que é necessário calcular tr(A*A). Em outras ocasiões os termos eram [tr(A)]2, o
que significa que o traço da matriz A deve ser calculado e o seu quadrado é a
resposta almejada.
Ferreira, D.F. Estatística multivariada 211
f) Aproximação de Kim
A aproximação de Kim (1992) é a mais elaborada de todas e também
se refere a uma extensão da aproximação dos graus de liberdade de Welch, como
acontece com o procedimento de Yao (1965). O procedimento de Kim requer a
maximização de um par de formas quadráticas dado por:
t 1
1
t 2
2
Sq qnd Sq qn
=
A maximização desse par de formas quadráticas resulta na solução
do sistema de equações homogêneas dado por (5.41).
1 2k k
1 2
S Sd q 0n n⎡ ⎤
− =⎢ ⎥⎣ ⎦
(5.41)
A solução desse sistema pode ser obtida conforme descrito no
capítulo 2. O autovalores dk e os autovetores kq (k=1, 2, ..., p) são utilizados para
definir a matriz D=diag(d1, d2, ..., dp) e 1 2 pQ q q q⎡ ⎤= ⎣ ⎦ . A partir dessas
matrizes definem-se as seguintes quantidades:
( )t1 2w Q X X= − (5.42)
5. Inferências sobre o vetor média 212
1p 2p
kk 1
r d=
⎛ ⎞= ⎜ ⎟⎝ ⎠∏ (5.43)
( )k
k 2
k
d 1
d r
+=
+ (5.44)
p2k
k 1p
kk 1
c =
=
=∑
∑ (5.45)
2p
kk 1
p2k
k 1
f =
=
⎛ ⎞⎜ ⎟⎝ ⎠=∑
∑ (5.46)
O próximo passo é calcular a estatística do teste que tem uma
aproximação F dada na expressão (5.48) com ν1=f e ν2=ν-p+1 graus de liberdade.
O valor ν é definido em (5.49).
( ) ( )1 1t 1/ 2 1/ 2G w D rI D rI w− −
= + + (5.47)
c( p 1)GF
cfν − +
=ν
(5.48)
Ferreira, D.F. Estatística multivariada 213
2 2t 2 t 2
t 1 t 11 2
1 1 w D(D I) w 1 w (D I) wn 1 w (D I) w n 1 w (D I) w
− −
− −
⎡ ⎤ ⎡ ⎤+ += +⎢ ⎥ ⎢ ⎥ν − + − +⎣ ⎦ ⎣ ⎦
(5.49)
Teste de Bartlett para igualdade de matrizes de covariâncias
O teste da razão de verossimilhança para igualdade de matrizes de
covariâncias de populações Wishart foi apresentado por Bartlett (1947). Este autor
demonstrou que sob a hipótese
o 1 2 kH :Σ = Σ = = Σ = Σ
a estatística da expressão (5.50) tem distribuição assintótica de qui-quadrado com
ν=(k-1)p(p+1)/2 graus de liberdade. Em que, k é o número de grupos ou
subpopulações amostradas, p é a dimensão das matrizes.
( )
2k2c
j 1 j
k
j j pj 1
1 1 2p 3p 11n 1 n k 6(p 1)(k 1)
n 1 ln S (n k) ln S
=
=
⎡ ⎤⎛ ⎞⎛ ⎞ ⎛ ⎞+ −⎢ ⎥χ = − − −⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟− − + −⎢ ⎥⎝ ⎠⎝ ⎠⎝ ⎠⎣ ⎦
⎡ ⎤⎡ ⎤× − − −⎢ ⎥⎣ ⎦⎣ ⎦
∑
∑
(5.50)
5. Inferências sobre o vetor média 214
em que: Sj é o estimador não viesado da covariância da sub-população j, baseado
em nj observações multivariadas de dimensão p; k
jj 1
n n=
=∑ ; j=1, 2, ..., k, e
( )k
j jj 1
p
n 1 SS
n k=
−=
−
∑
Exemplo 5.8. Testar a hipótese de igualdade das covariâncias de 2 populações.
Uma amostra de 11 observações foi obtida da primeira população e outra de 15 da
segunda. Duas variáveis foram mensuradas, sendo as estimativas amostrais
apresentadas a seguir (Fonte: Bock, 1975).
1
0,51964 0, 44700S
0, 44700 0, 47600⎡ ⎤
= ⎢ ⎥⎣ ⎦
com n1=11 e 2
0,85143 0,73786S
0,73786 1,54828⎡ ⎤
= ⎢ ⎥⎣ ⎦
com n2=15
O valor de n=11+15=26 e de k=2 (populações). A hipótese a ser
testada é:
o 1 2H :Σ = Σ = Σ
Os demais valores necessários para a realização do teste de
hipótese são:
1ln S 3,0692181= − ; 2ln S 0, 2564228= − ; e pln S 0,9031351= −
Ferreira, D.F. Estatística multivariada 215
Logo,
( ) ( )( ) ( )
22c
1 1 1 2 2 3 2 1110 14 24 6 3 1
10 3,0692181 14 0, 2564228 24 0,9031351
11, 43
⎡ ⎤⎛ ⎞× + × −⎛ ⎞χ = − − + − ×⎢ ⎥⎜ ⎟⎜ ⎟ × ×⎝ ⎠⎝ ⎠⎣ ⎦
⎡ ⎤× × − + × − − × − =⎣ ⎦
=
Os graus de liberdade são ν=1x2x3/2=3 e os valores críticos 5% e
1% da distribuição de qui-quadrado são 23 (0,05) 7,8147χ = e 2
3 (0,01) 11,3448χ = .
Como o valor calculado (11,43) é superior aos valores críticos, rejeita-se H0 com
P<0,01. Portanto, existem evidências de que as covariâncias das duas populações
não sejam iguais.
5.7. Exercício
5.7.1. A matriz X, apresentada a seguir, representa uma amostra de n=4
observações retiradas de uma distribuição normal bivariada.
5. Inferências sobre o vetor média 216
11 210 4
9 310 6
X
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
a) Teste a hipótese de que µ ´0 = [9 2] seja um valor plausível para representar a
média populacional.
b) Obtenha a região de 95% de confiança e esboce graficamente a mesma,
destacando o valor hipotético nessa região.
5.7.2. Com os dados do exercício 5.7.1, determine os intervalos de confiança
simultâneo para os componentes de média individual por:
a) T2 de Hotelling
b) Procedimento de Bonferroni
c) Teste de t de student univariado.
5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variáveis, teste
a pressuposição de normalidade univariada (marginal) e bivariada,
utilizando os procedimentos apresentados no capítulo 4.
Ferreira, D.F. Estatística multivariada 217
5.7.4. Utilizando os dados do exemplo 5.5, faça o IC simultâneo para proporções
de 90% de confiança.
5.7.5. Os dados abaixo se referem ao peso e ao teor de proteína, medidos em 6
animais antes e após um período de dieta balanceada. Teste a hipótese de
que não houve efeito da dieta. Determinar a região de confiança e o esboço
da região de confiança, o intervalo de confiança simultâneo e de Bonferroni,
no nível de 5% de probabilidade.
Antes Após Peso Teor de proteína
(%) Peso Teor de proteína
(%) 250 300 350 320 400 320
10 12 13 15 9 11
280 320 360 380 410 350
12 16 13 18 15 12
5. Inferências sobre o vetor média 218
5.7.6. Com os dados do exemplo 5.7, reapresentados a seguir, obter os intervalos
de confiança de 95% simultâneos e de Bonferroni, para as diferenças de
médias marginais. Compare os resultados com a Figura 5.3, e obtenha
conclusões de interesse.
A B Produtividade Altura da planta Produtividade Altura da planta
5,7 8,9 6,2 5,8 6,8 6,2
2,10 1,90 1,98 1,92 2,00 2,01
4,4 7,5 5,4 4,6 5,9
1,80 1,75 1,78 1,89 1,90
||[ ]||Análise de variância multivariada
6
6.1. Introdução
Com o desenvolvimento da estatística no século XX a possibilidade
de condução e análise de experimentos propiciou grande sucesso às pesquisas,
principalmente pela habilidade de lidar com variações não controláveis. O primeiro
a representar os resultados experimentais por um modelo foi W. S. Gosset
(Student, 1908).
As terminologias dos delineamentos experimentais,
independentemente da área de aplicação, se tornaram iguais aos dos
experimentos em agricultura. Portanto, unidades experimentais são denominadas
de parcelas e o valor da variável aleatória como resposta. Experimentos com
apenas uma classificação dos tratamentos são denominados de delineamentos
inteiramente casualizados ou de classificação simples. Experimentos em que
vários tipos de tratamentos são aplicados ao material experimental
simultaneamente são denominados de fatoriais. Outra classe de experimentos é
gerada pelos arranjos hierarquizados dos materiais.
6. Análise de variância multivariada 220
O presente capítulo tem por objetivo apresentar a extensão
multivariada dos métodos univariados de análise de variância. As idéias básicas
desse capítulo podem ser estendidas a todos os tipos de delineamentos e arranjos
das estruturas de tratamentos, embora sejam apresentas na situação mais
simples, a do delineamento de classificação simples.
6.2. Delineamento de classificação simples
O caso mais simples dos delineamentos experimentais é o de
classificação simples ou delineamento inteiramente casualizado. O arranjo
experimental consiste em g tratamentos, possivelmente incluindo a(s)
testemunha(s), para os quais as unidades experimentais são aleatorizadas.
As amostras aleatórias de cada tratamento são representadas por:
Tratamento 1: 11X , 12X , ..., 11nX
Tratamento 2: 21X , 22X , ..., 22nX
Tratamento g: g1X , g2X , ..., ggnX
Ferreira, D.F. Estatística multivariada 221
A análise de variância multivariada (MANAVA) é usada para
investigar se os vetores de médias de tratamento são os mesmos, e se não, qual
componente de média difere significativamente. Algumas pressuposições da
estrutura dos dados devem ser obedecidas para validade da inferência estatística:
(a) ii1 i2 i nX ,X , ,X deve ser uma amostra aleatória de tamanho ni do tratamento i,
com média iµ , i=1, 2, ..., g. As amostras dos tratamentos devem ser
independentes; (b) todos os tratamentos possuem covariância comum Σ; e
(c) cada tratamento tem distribuição normal multivariada.
O modelo de análise de variância multivariada está apresentado a
seguir. Neste modelo cada componente é um vetor de p componentes.
i j i i j iX e i 1, 2, , g e j 1, 2, , n= µ+ τ + = = (6.1)
em que, i je é independentemente e identicamente distribuído e Np(0, Σ) para todo i
e j; µ é o vetor média geral e iτ representa o vetor de efeitos do i-ésimo
tratamento. Pode-se adotar a restrição paramétrica g
i ii 1
n 0=
τ =∑ .
Os erros do vetor i jX são correlacionados, no entanto a matriz de
covariância Σ é a mesma para todos os tratamentos.
O vetor de observações pode ser decomposto em:
6. Análise de variância multivariada 222
i j .. i j.. i. i.X X (X X ) (X X )
Observação Estimativa da Estimativa do resíduomédia geral efeito do tratamento
= + − + −
(6.2)
Analogamente, demonstra-se que a soma de quadrados e produtos
totais possui a seguinte decomposição:
Soma de quadrados e produtos (SQP) = SQP tratamentos + SQP resíduo
total corrigido
( )( )
( )( ) ( )( )
i
i
ng t
i j i j.. ..i 1 j 1
ng g tti i. .. i. .. i j i ji. i.
i 1 i 1 j 1
X X X X
n X X X X X X X X
= =
= = =
− − =
= − − + − −
∑∑
∑ ∑∑
(6.3)
A soma de quadrados e produtos do resíduo pode ser expressa por:
( )( )ing t
i j i j 1 1 2 2 g gi. i.i 1 j 1
E X X X X (n 1)S (n 1)S ... (n 1)S= =
= − − = − + − + + −∑∑ (6.4)
em que Si é a matriz de covariância amostral do i-ésimo tratamento.
O teste da hipótese de inexistência de efeitos de tratamentos,
0 1 2 gH : 0τ = τ = = τ = (6.5)
Ferreira, D.F. Estatística multivariada 223
é realizado considerando as magnitudes das somas de quadrados e produtos de
tratamento e resíduo pela variância generalizada.
O esquema de análise de variância multivariada (MANAVA) está
apresentado na Tabela 6.1. A fonte de variação total é particionada em causas de
variação devido a tratamento e ao erro experimental ou resíduo.
Tabela 6.1. Tabela de MANAVA para testar a hipótese de igualdade do vetor de
efeito dos tratamentos em um delineamento de classificação simples.
FV GL Matriz de SQP
Tratamento g-1 ( )( )g t
i i. i... ..i 1
B n X X X X=
= − −∑
Resíduo g
ii 1
n g=
υ = −∑ ( )( )ing t
i j i ji. i.i 1 j 1
E X X X X= =
= − −∑∑
Total corrigido g
ii 1
n 1=
−∑ ( )( )ing t
i j i j.. ..i 1 j 1
B E X X X X= =
+ = − −∑∑
Os critérios para o teste da hipótese apresentada em (6.5), envolvem
variâncias generalizadas e autovalores e autovetores da maximização de duas
formas quadráticas dadas em (2.15 e 2.16).
De maneira geral, supondo que H seja a matriz de SQP relativa aos
efeitos dos tratamentos que se deseja testar a igualdade, para o exemplo H=B,
então a solução da equação determinantal dada por:
6. Análise de variância multivariada 224
( )k kH E e 0−λ =
fornece as estimativas dos autovalores e autovetores, necessários aos testes de
hipótese (6.5), os quais estão apresentados na Tabela 6.2. Quatro critérios
existem para o teste desta hipótese. Muitos autores recomendam utilizar o critério
de Wilks como referência, por se tratar de um teste baseado na razão de
verossimilhança. Outros recomendam que a hipótese nula deva ser rejeitada se
pelo menos três dos quatro critérios forem significativos em um nível nominal de
significância previamente adotado. Esses critérios podem ser aproximados pela
distribuição F. Essas aproximações, também, se encontram apresentadas na
Tabela 6.2.
Ferreira, D.F. Estatística multivariada 225
Tabela 6.2. Estatísticas multivariadas e suas equivalência aproximada com a
distribuição F.
Critério Estatística Aproximação F GL de F
Wilks
k k
|E| 1|H E| 1
Λ= =+ +λ∏ F
rt fpq
t
t
=−⎛
⎝
⎜⎜
⎞
⎠
⎟⎟
−⎛⎝⎜
⎞⎠⎟
1 21
1
Λ
Λ
v1=pq
v2=rt-2f
Traço de Pillai 1 k
k
V tr[H(H E) ]1
− λ= + =
+λ∑ FV
s Vn sm s
=−
⎛⎝⎜
⎞⎠⎟
+ ++ +
⎛⎝⎜
⎞⎠⎟
2 12 1
v1=s(2m+s+1)
v2=s(2n+s+1)
Traço de Hotelling Lawley
1kU tr(HE )−= = λ∑
2
2(sn 1)UFs (2m s 1)
+=
+ +
v1=s(2m+s+1)
v2=2(sn+1)
Raíz máxima
de Roy θ λ= 1 ( d q)F
dθ ν− +
= v1=d
v2= d qν − +
p: número de variáveis = posto(H+E); q: GL de tratamento (ou do contraste); ν: GL do erro; S=min(p,q); r=ν- (p-q+1)/2;f=(pq-2)/4; d=max(p,q); m=(|p-q|-1)/2; n=(ν-p-1)/2; e
tp q
p qSe p q
cc
=−
+ −+ − >
⎧
⎨⎪
⎩⎪
2 2
2 22 24
55 0
1
Obs. Critério de Wilks possui aproximação exata de F se min(p,q)≤2
6. Análise de variância multivariada 226
Exemplo 6.1
Num experimento envolvendo 4 variedades de feijão, avaliou-se na seca, a
produtividade (P) em kg/ha e número de grão por vagem (NGV), utilizando 5
repetições. Os resultados obtidos foram:
Cultivar
A B C D
P NGV P NGV P NGV P NGV
1082 1070 1180 1050 1080
4,66 4,50 4,30 4,70 4,60
1163 1100 1200 1190 1170
5,52 5,30 5,42 5,62 5,70
1544 1500 1550 1600 1540
5,18 5,10 5,20 5,30 5,12
1644 1600 1680 1700 1704
5,45 5,18 5,18 5,40 5,50
5462 22,76 5823 27,56 7734 25,90 8328 26,71
Teste a hipótese de igualdade do vetor média de tratamentos.
Os vetores de médias amostrais de tratamento são:
1.
1092, 400X
4,552⎡ ⎤
= ⎢ ⎥⎣ ⎦
2.
1164,600X
5,512⎡ ⎤
= ⎢ ⎥⎣ ⎦
3.
1546,800X
5,180⎡ ⎤
= ⎢ ⎥⎣ ⎦
4.
1665,600X
5,342⎡ ⎤
= ⎢ ⎥⎣ ⎦
E a média geral:
..
1367,35000X
5,1465⎡ ⎤
= ⎢ ⎥⎣ ⎦
Ferreira, D.F. Estatística multivariada 227
A matriz B é obtida por:
[ ] [ ]{ }
[ ] [ ]{ }
B =⎡
⎣⎢
⎤
⎦⎥ −
⎡
⎣⎢
⎤
⎦⎥
⎧⎨⎩
⎫⎬⎭
− + +
+⎡
⎣⎢
⎤
⎦⎥ −
⎡
⎣⎢
⎤
⎦⎥
⎧⎨⎩
⎫⎬⎭
−
51092 400
4 5521367 3500
5 5121092 400 4 552 1367 3500 5 1465
51665 600
5 3421367 3500
5 5121665 600 5 512 1367 3500 5 1465
,,
,,
, , , ,
,,
,,
, , , ,
Obviamente, quando os cálculos não são realizados no computador,
é mais fácil de se obter as matrizes de somas de quadrados e produtos, pelas
expressões apresentadas a seguir. Para isso, considere que Xi j k representa o
valor observado do i-ésimo tratamento, na j-ésima unidade experimental e na
k-ésima variável. Então,
2 2gi.k ..k
kk gi 1 i
ii 1
X XSQBn n=
=
= −∑∑
(6.6)
representa a soma de quadrados de tratamento para o i-ésimo componente, e
gi.k i. .. ..k
k gi 1 i
ii 1
X X X XSPBn n=
=
= −∑∑
(6.7)
representa a soma de produtos de tratamento entre as variáveis k e , com
k≠ =1, 2, ..., p.
6. Análise de variância multivariada 228
Para o total as SQ e SP são:
i2ng
2 ..kkk gijk
i 1 j 1i
i 1
SQTn
XX= =
=
= −∑∑∑
(6.8)
ing..k ..
k gijk iji 1 j 1
ii 1
SPTn
X XX X= =
=
= −∑∑∑
(6.9)
Para o resíduo basta obter a diferença:
E = T - B (6.10)
No exemplo, as matrizes B, E e T são:
B =⎡
⎣⎢
⎤
⎦⎥
1189302 1500 768 3605768 3605 2 6318
, ,, ,
T=⎡
⎣⎢
⎤
⎦⎥
1218360 5500 778 2645778 2645 2 9517
, ,, ,
E T B= − =⎡
⎣⎢
⎤
⎦⎥
29058 4000 9 90409 9040 0 3199, ,, ,
O quadro de MANAVA está apresentado a seguir:
Ferreira, D.F. Estatística multivariada 229
FV GL SQ&P
Tratamento 3 1189302,1500 768,3605
B768,3605 2,6318
⎡ ⎤= ⎢ ⎥⎣ ⎦
Erro 16 29058, 4000 9, 9040E
9, 9040 0, 3199⎡ ⎤
= ⎢ ⎥⎣ ⎦
Total Corrigido 19 1218360,5500 778, 2645T
778, 2645 2,9517⎡ ⎤
= ⎢ ⎥⎣ ⎦
Para o teste da hipótese 0 1 2 gH : 0τ = τ = = τ = , a razão entre o par
de formas quadráticas t tk k k ke Be e e Ee , deve ser maximizada. Isto equivale a
resolver o sistema de equação,
( )k kB E e 0−λ =
Para o exemplo, os autovalores e autovetores são:
[ ]t1 141,3463 e 0,0058 0,1952λ = =
[ ]t2 26,6781 e 0,0012 1,7667λ = = −
Alguém desavisado poderia pensar que o valor do segundo elemento
do segundo autovetor (1,7667) fosse algum tipo de erro de digitação, por se tratar
de um valor superior a 1. No entanto, isto é perfeitamente possível, pois os
6. Análise de variância multivariada 230
autovetores, no caso da maximização da razão entre duas formas quadráticas,
são normalizados da seguinte forma: t tk k ke Ee 1e e Ee 0 (k )= = ≠ , o que pode ser
facilmente verificado.
Todos os critérios utilizados rejeitaram a hipótese de igualdade dos
vetores efeitos tratamento (P<0,01), como pode ser visto no quadro seguinte.
Critério Estatística F G.L. Pr>F
Wilks Λ=0,0030756 85,16 v1=6 e v2=30 0,0001
Traço de Pillai V=1,846145 64,00 v1=6 e v2=32 0,0001
Traço de Hotelling
Lawley
U=48,0244
112,06
v1=6 e v2=28
0,0001
Raíz máxima de
Roy θ=41,3463 220,51 v1=3 e v2=16 0,0001
p=2; q=3; v=16; s=2; r=16; f=1; d=3; m=0; n=6,5; e t=2
6.3. Intervalos de confiança simultâneos para o efeito de tratamentos
Quando a hipótese de efeitos iguais para tratamentos é rejeitada,
aqueles efeitos que levaram a rejeição são de interesse. Para comparações
simultâneas duas a duas, a aproximação de Bonferroni pode ser usada para
construir intervalos de confiança simultâneos para os componentes da diferença
h iτ − τ (diferenças de efeitos dos tratamentos h e i, respectivamente). Esses
intervalos são mais curtos que os obtidos para todos os contrastes, e requerem
apenas valores críticos da estatística univariada t.
Ferreira, D.F. Estatística multivariada 231
Fazendo ikτ o k-ésimo componente de iτ . Desde que iτ pode ser
estimado por i i. ..ˆ X Xτ = − , então,
i.k ..kikˆ X Xτ = − (6.11)
Devido a (6.11) corresponder a diferença entre duas médias
amostrais independentes, o teste de t de duas amostras é válido, modificando-se
adequadamente o nível de significância. A estimativa da variância do contraste
entre duas médias de tratamentos é dada por,
^kk
h.k i.k
h i
E1 1Var(X X )n n
⎛ ⎞− = +⎜ ⎟ υ⎝ ⎠
(6.12)
A divisão de Ekk pelos seus respectivos graus de liberdade (υ), é
devido ao fato de que, o elemento em questão (Ekk) refere-se a uma soma de
quadrados. Desta forma, desde que p variáveis são consideradas e g(g-1)/2
comparações duas a duas serão realizadas, então o intervalo de confiança
protegido por Bonferroni para diferença de efeitos de tratamento é dado por:
kkh.k i.k
h i
E1 1X Xpg(g 1) n nt υ
⎛ ⎞⎛ ⎞α− ± +⎜ ⎟⎜ ⎟− υ⎝ ⎠ ⎝ ⎠
(6.13)
para todos os k = 1, 2, ..., p e todas as diferenças h i 1, 2, ..., g< = .
6. Análise de variância multivariada 232
6.4. Exercício
6.7.1. Repetir a análise de variância do exemplo 6.1 utilizando o “proc GLM” do
SAS e solicitar a realização dos seguintes contrastes: i) A e B vs C e D; ii) A
vs B e iii) C vs D.
||[ ]||Componentes principais
7
7.1. Introdução
A análise de componentes principais está relacionada com a
explicação da estrutura de covariância por meio de poucas combinações lineares
das variáveis originais em estudo. Os objetivos dessa análise são: i) redução da
dimensão original; e ii) facilitação da interpretação das análises realizadas. Em
geral, a explicação de toda a variabilidade do sistema determinado por p variáveis
só pode ser efetuada por p componentes principais. No entanto, uma grande parte
dessa variabilidade pode ser explicada por um número r menor de componentes,
r≤p. Os componentes principais são uma técnica de análise intermediária e,
portanto não se constituem em um método final e conclusivo. Esse tipo de análise
se presta fundamentalmente como um passo intermediário em grandes
investigações científicas.
Essa técnica pode ser aplicada, ainda, na análise de regressão
múltipla, principalmente, nos casos de colinearidade ou de multicolinearidade;
aplica-se também à análise de agrupamento e como estimadores de fatores nas
técnicas multivariadas denominadas de análises fatoriais. Muitas outras aplicações
7. Componentes principais 234
de componentes principais são encontradas nas literaturas aplicadas. A técnica
AMMI (additive multiplicative interaction model) considera modelos lineares com
interação entre dois fatores e aplica como base para seus procedimentos a análise
de componentes principais.
7.2. Componentes principais populacionais
Algebricamente os componentes principais representam
combinações lineares de p variáveis aleatórias X1, X2, …, Xp. Geometricamente,
essas combinações lineares representam a seleção de novos eixos coordenados,
os quais são obtidos por rotações do sistema de eixos original, representados por
X1, X2, …, Xp. Os novos eixos representam as direções de máxima variabilidade.
Como pode ser demonstrado, os componentes principais dependem
somente da matriz de covariância Σ (ou da matriz de correlação ρ) e de
X1, X2, …, Xp. Seu desenvolvimento não requer pressuposições de normalidade
multivariada, mas possuem interpretações úteis em termos da constante elipsóide
de densidade, se a normalidade existir. A princípio, serão definidos os conceitos
de componentes principais populacionais. Posteriormente, naturalmente esses
conceitos serão estendidos para a situação amostral.
Seja o vetor aleatório t1 2 pX X X X⎡ ⎤= ⎣ ⎦ amostrado de uma
população com covariância Σ, cujos autovalores são λ1≥λ2≥…≥λp≥0, então, os
Ferreira, D.F. Estatística multivariada 235
componentes principais (Y1, Y2,…,Yp) são as combinações lineares dadas por
(7.1)
t1 11 11 1 12 2 1p p
t2 2 21 1 22 2 2p p
tp p p1 1 p2 2 pp p
Y e X e X e X ... e X
Y e X e X e X ... e X
Y e X e X e X ... e X
= = + + +
= = + + +
= = + + +
(7.1)
É fácil verificar que:
( ) ( )t t ti i i i i iVar(Y ) Var e X e Var X e e e= = = Σ (7.2)
( )t t ti k i k i kCov(Y ,Y ) Cov e X,e X e e= = Σ (7.3)
Dessa forma, pode-se definir o i-ésimo componente principal (Yi) por
(7.4), assumindo que o vetor X possui covariância Σ, com pares de autovalores e
autovetores ( )i i,e , i 1, 2, ..., pλ = , em que λ1≥λ2≥…≥λp≥0.
ti i i1 1 i2 2 ip pY e X e X e X ... e X i 1,2,...,p= = + + + = (7.4)
No capítulo 2, verificou-se que a maximização de uma forma
quadrática resultava na solução dada pelo conjunto de todos os pares de
autovalores e autovetores da matriz núcleo. Os autovetores da solução eram
7. Componentes principais 236
restritos ao comprimento unitário. Seja a forma quadrática dada por t
t
e ee eΣ
λ = , então
o seu máximo é obtido pela resolução da equação (7.5).
( )i iI e 0Σ − λ = (7.5)
É fácil perceber que dessa equação surge a seguinte e óbvia
relação, obtida no ponto máximo, dada por: i i ie eΣ = λ . Portanto, a variância e a
covariância de Yi, especificadas em (7.2) e em (7.3) são dadas por:
t t ti i i i i i i i i iVar(Y ) e e e e e e= Σ = λ = λ = λ (7.6)
t t ti k i k i k k k i kCov(Y ,Y ) e e e e e e 0 i k= Σ = λ = λ = ≠ (7.7)
Utilizando algumas propriedades matriciais estudadas no capítulo 2,
pode-se demonstrar que:
p p
i ii 1 i 1
11 22 pp 1 2 p
Var(X ) Var(Y )
... ...
= =
=
σ + σ + + σ = λ + λ + + λ
∑ ∑
A variação total existente nas variáveis Xi, i=1, 2,...,p é igual à
variação existente nos p componentes principais. Para demonstrar isso, seja Σ a
Ferreira, D.F. Estatística multivariada 237
matriz de covariância entre as p variáveis X, cujos pares de autovalores e
autovetores são dados por (λi, ie ). O componente principal Yi é definido por
ti iY e X= , o qual possui variância igual a λi.
Da decomposição espectral de Σ=PΛP’ e sabendo que PPt=PtP=I
verifica-se que:
( )ttr( ) tr P PΣ = Λ
Uma propriedade do traço de uma matriz é: tr(AB)=tr(BA). Fazendo
A=P e B=ΛPt, então,
( ) ( ) ( )p p
t tii i
i 1 i 1tr( ) tr P P tr P P tr
= =Σ = σ = Λ = Λ = Λ = λ∑ ∑
E, portanto, a porcentagem da variação total explicada pelo k-ésimo
componente principal é dada por (7.8).
kk p
ii 1
%VarExp(Y ) 100
=
λ= ×
λ∑ (7.8)
Em muitas situações em que se aplicam os componentes principais
se uma porcentagem de 70% ou mais for atribuída aos primeiros r componentes
principais, então, esses podem substituir as p variáveis originais sem perda de
7. Componentes principais 238
uma quantidade demasiada de informações. A determinação dessa porcentagem
da variação explicada pelos primeiros r componentes deve ser feita pelo
pesquisador interessado e que possui maior conhecimento da área estudada. A
determinação do número r de componentes para que uma determinada
porcentagem fixada da informação seja contemplada por eles é um dos problemas
que dificulta o emprego dessa metodologia.
Os componentes do autovetor ti i1 i2 ipe e e e⎡ ⎤= ⎣ ⎦ podem informar
sobre a importância das variáveis para o i-ésimo componente principal, por meio
de suas magnitudes. No entanto, esses componentes são influenciados pela
escala das variáveis. Para contornar tal problema, os pesquisadores podem
utilizar uma importante medida de associação, a qual não depende da magnitude
das mensurações (escala) das variáveis originais, que é o coeficiente de
correlação entre Yi e Xk. Esse coeficiente de correlação está apresentado em (7.9)
.
i k
ik iY ,X
kk
e, i,k 1,2,...,p
λρ = =
σ (7.9)
Demonstração: Para demonstrar (7.9), primeiro é apresentada a definição do
coeficiente de correlação. Posteriormente, foi avaliado cada termo dessa
expressão individualmente.
( )( ) ( )i k
i kY ,X
i k
Cov Y ,X
Var Y Var Xρ =
Ferreira, D.F. Estatística multivariada 239
Mas,
( ) ( ) ( )t t ti k i k iCov Y ,X Cov e X,X Cov e X, X= =
com, [ ]t 0 ...1... 0= , vetor composto de valores 0 e com 1 na k-ésima posição.
Logo,
( ) ( )t t t ti k i i iCov Y ,X Cov e X, X e e= = Σ = Σ
Como i i ie eΣ = λ , então,
( ) t t ti k i i i i i i ikCov Y ,X e e e e= Σ = λ = λ = λ
Da mesma forma as variâncias de Yi e Xk são:
( ) ( )t t ti i i i i i i iVar Y Var e X e e e e= = Σ = λ = λ
e,
k kkVar(X ) = σ
Assim, a prova fica completa, conforme descrito a seguir:
7. Componentes principais 240
( )( ) ( )i k
i k i iki ikY ,X
i kk kki k
Cov Y ,X eeVar Y Var X
λλρ = = =
λ σ σ
Exemplo 7.1
Sejam as variáveis aleatórias X1, X2 e X3 com covariância dada por:
4 1 01 4 00 0 2
⎡ ⎤⎢ ⎥Σ = ⎢ ⎥⎢ ⎥⎣ ⎦
Obter os componentes principais, a correlação das variáveis originais com os
componentes e verificar a veracidade da afirmativa a seguir de forma numérica:
p p
i ii 1 i 1
11 22 pp 1 2 p
Var(X ) Var(Y )
... ...
= =
=
σ + σ + + σ = λ + λ + + λ
∑ ∑
Aplicando-se o power method, determinaram-se os pares de
autovalores e autovetores de Σ, os quais são:
[ ]t1 15 e 0,7071 0,7071 0λ = = , [ ]t
2 23 e 0,7071 0,7071 0λ = = − e [ ]t3 32 e 0 0 1λ = =
Os componentes principais são:
Ferreira, D.F. Estatística multivariada 241
t1 1 1 2Y e X 0,7071X 0,7071X= = +
t2 2 1 2Y e X 0,7071X 0,7071X= = −
t3 3 3Y e X X= =
A variável X3 é individualmente um de os componentes principais por
não ser correlacionada com nenhuma das outras duas variáveis. As variâncias de
os componentes principais são:
1 1Var(Y ) 5= λ = , 2 2Var(Y ) 3= λ = e 3 3Var(Y ) 2= λ =
Pode-se mostrar, a título de ilustração, que:
1 1 2 1 2 1 22 2 2 2 2 2Var(Y ) Var X X Var X Var X 2Cov X , X
2 2 2 2 2 2⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞
= + = + +⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
=
( ) ( ) ( )1 2 1 21 1 2 2Var X Var X 2 Cov X ,X2 2 2 2
= + + = 11 14 4 1 52 2
+ + = = λ
Verifica-se, também, que:
11 22 33 1 2 3σ + σ + σ = λ + λ + λ
4+4+2=5+3+2
10=10 c.q.m.
7. Componentes principais 242
A porcentagem da variação explicada por cada componente é
apresentada na tabela seguinte.
Componente Var(Yi)=λi % da variação explicada % variação acumulada Y1 5 50 50 Y2 3 30 80 Y3 2 20 100
Os coeficientes de correlação entre os componentes e as variáveis
originais são:
Componente X1 X2 X3 Y1 0,7906 0,7906 0,0000 Y2 0,6124 -0,6124 0,0000 Y3 0,0000 0,0000 1,0000
Para ilustrar um dos cálculos usando a expressão (7.9), apresenta-se
a seguir a correlação entre Y1 e X1.
1 1
11 1Y ,X
11
2 5e 2 0,79064
×λρ = = =
σ.
Para o componente principal mais importante (Y1), concluiu-se que
X1 e X2 são igualmente importantes.
Os componentes principais podem ser obtidos pela padronização das
variáveis originais por:
Ferreira, D.F. Estatística multivariada 243
i ii
ii
XZ −µ=
σ (7.10)
Em notação matricial tem-se:
( )1/ 2Z V X−= −µ (7.11)
em V-1/2 é uma matriz diagonal com os elementos da diagonal dados ii1 σ . É
fácil verificar que:
( )E Z 0= e ( ) 1/ 2 1/ 2Cov Z V V− −= Σ = ρ
Então, os componentes principais de Z são dados pelos autovalores
e autovetores de ρ, matriz de correlação de X . Os autovalores e autovetores de Σ
são, em geral, diferentes daqueles derivados de ρ.
Sejam as variáveis padronizadas Z1, Z2, ...., Zp disposta no vetor Z
com ( )Cov Z = ρ , então, os componentes principais são dados por:
( )t t 1/ 2i i iY e Z e V X−= = −µ , i=1, 2, ..., p (7.12)
Da mesma forma, verifica-se que:
7. Componentes principais 244
p p
i ii 1 i 1p
ii 1
Var(Y ) Var(Z ) p
p
= =
=
= =
λ =
∑ ∑
∑ (7.13)
Também se verifica que:
i kY ,Z ik ieρ = λ (7.14)
Sendo que em todos esses casos (λi, ie ) são os autovalores e
autovetores de ρ, com λ1≥λ2≥...≥λp. As demonstrações de (7.12), (7.13) e (7.14)
podem ser realizadas da mesma forma que as demonstrações anteriores,
substituindo Σ por ρ.
Para algumas matrizes de covariância, com estruturas especiais,
existem simples formas de se expressar os componentes principais. Serão
tratados alguns desses casos, conforme apresentado em Johnson e Wichern,
(1998) e em Morrison (1976). Para uma matriz Σ diagonal,
11
22
pp
0 00 0
0 0
σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ =⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦
(7.15)
Os autovalores e autovetores são dados por:
Ferreira, D.F. Estatística multivariada 245
λi=σii e [ ]tie 0 0 1 0 0= com 1 na i-ésima posição e 0 nas demais.
A demonstração disso pode ser facilmente realizada, uma vez que
das equações de maximização de formas quadráticas verifica-se que : i i ie eΣ = λ .
Assumindo-se as definições anteriores para os autovalores e autovetores verifica-
se que:
i i i
i ii i
11
22ii
pp
e ee e
0 0
0 00 0
0 01 10 0
0 0
0 0
Σ = λ= Σ = σ
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥σ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥σ ⎢ ⎥ ⎢ ⎥⎢ ⎥= = σ⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥σ ⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
Dessa forma, pode-se concluir que (σii, ie ), com ie definido
anteriormente, são os pares de autovalores e autovetores de Σ. Desde que os
componentes principais são dados pelas combinações lineares tie X =Xi, então, os
componentes principais são as próprias variáveis originais não correlacionadas,
cujos autovalores são as próprias variâncias originais das respectivas variáveis
aleatórias. Do ponto de vista de extração de componentes principais nada pode
ser ganho, uma vez que os eixos originais já estão no sentido de maior
variabilidade. Dessa forma não há necessidade para fazer rotação dos eixos
7. Componentes principais 246
originais. A estandardização não altera a situação, uma vez que ρ=I, e o par
autovalor e componente principal é dado por (1, Zi), em que Zi é a i-ésima variável
padronizada.
Outro tipo de matriz de covariância com determinado padrão é
apresentado a seguir, o qual descreve muitas vezes o comportamento de
entidades biológicas, desempenha um papel importante na teoria dos
componentes principais.
2 2 2
2 2 2
2 2 2
⎡ ⎤σ ρσ ρσ⎢ ⎥ρσ σ ρσ⎢ ⎥Σ =⎢ ⎥⎢ ⎥ρσ ρσ σ⎢ ⎥⎣ ⎦
(7.16)
A matriz de correlação correspondente é dada por:
11
1
ρ ρ⎡ ⎤⎢ ⎥ρ ρ⎢ ⎥ρ =⎢ ⎥⎢ ⎥ρ ρ⎣ ⎦
(7.17)
que implica em uma estrutura de igualdade de correlação entre as p variáveis
estudadas.
Morrison (1976) demonstra que os componentes principais de (7.16)
são dados por dois grupos. O primeiro grupo com o primeiro componente e o
segundo com os demais componentes principais. O primeiro componente principal
de (7.16) é definido pelo par autovalor e autovetor apresentado a seguir.
Ferreira, D.F. Estatística multivariada 247
[ ]21 1 (p 1)λ = σ + − ρ (7.18)
t1
1 1 1e , ,...,p p p
⎡ ⎤= ⎢ ⎥⎢ ⎥⎣ ⎦
(7.19)
Para a matriz de correlação definida em (7.17), pode-se demonstrar
que 7.18 e 7.19 permanecem válidos, sendo necessário apenas fazer σ2=1. A
proporção da explicação do primeiro componente principal é dada por
[ ]100 1 (p 1) / p+ − ρ (%) do total do conjunto de variáveis. Se ρ é próximo a 1 o
primeiro componente principal terá uma elevada explicação da variação total.
Os demais (p-1) componentes principais possuem valores
característicos iguais, dados por:
( )2i 1 ; i 2, 3, , pλ = σ −ρ = (7.20)
e seus respectivos autovetores são iguais a:
7. Componentes principais 248
t2
t3
ti
tp
1 1e , ,0,...,01 2 1 21 1 2e , , ,0,...,0
2 3 2 3 2 3
1 1 (i 1)e ,..., , ,0,...,0(i 1) i (i 1) i (i 1) i
1 1 (p 1)e ,..., ,(p 1) p (p 1) p (p 1) p
⎧ −⎡ ⎤=⎪ ⎢ ⎥× ×⎣ ⎦⎪⎪ −⎡ ⎤=⎪ ⎢ ⎥× × ×⎣ ⎦⎪⎪⎪⎨ ⎡ ⎤− −⎪ = ⎢ ⎥⎪ − × − × − ×⎢ ⎥⎣ ⎦⎪⎪⎪ ⎡ ⎤− −⎪ = ⎢ ⎥⎪ − × − × − ×⎢ ⎥⎣ ⎦⎩
(7.21)
Finalmente é tratada a situação em que o vetor X é uma variável
aleatória da distribuição normal multivariada, ou seja, ( )pX N ,µ Σ∼ . Nesse caso os
componentes principais têm uma atrativa interpretação. Foi demonstrado no
capítulo 4 que a densidade de X é constante na elipsóide centrada em µ ,
( ) ( )t 1 2 2pX X c ( )−−µ Σ −µ = = χ α
cujos eixos são dados por 2p i i( ) e , i 1, 2, ..., p± χ α λ = , em que (λi, ie ) são os pares
de autovalor-autovetor de Σ. É possível verificar, fazendo 0µ = por conveniência
de algumas demonstrações que se seguem, que:
( ) ( ) ( )2 2 22 t 1 t t tp 1 2 p
1 2 p
1 1 1( ) X X e X e X ... e X−χ α = Σ = + + +λ λ λ
Ferreira, D.F. Estatística multivariada 249
em que tie X, i 1, 2, ..., p= são os componentes principais de X . Fazendo
ti iY e X, i 1, 2, ..., p= = tem-se
2 t 1 2 2 2p 1 2 p
1 2 p
1 1 1( ) X X Y Y ... Y−χ α = Σ = + + +λ λ λ
Essa última equação define uma elipsóide com os eixos coordenados
Y1, Y2, ..., Yp dispostos nas direções de 1 2 pe , e , ..., e , respectivamente. Como λ1 é o
maior autovalor, o maior eixo tem a direção definida por 1e , os eixos
remanescentes têm a direção definida por 2 pe , ..., e .
Foi assumido que 0µ = . No entanto, é pouco provável que isso
aconteça em uma situação real. Todavia, as interpretações definidas
anteriormente são válidas da mesma forma, apenas sendo necessário definir o
i-ésimo componente principal centrado na média, por:
( )ti iY e X , i 1, 2, ..., p= −µ = (7.22)
o qual tem média zero e direção definida por ie . Na Figura 7.1 ilustram-se os
componentes principais bivariados com densidade fixa de 95%. A rotação dos
eixos X1 e X2 nos novos eixos Y1 e Y2 são a essência dos componentes principais.
7. Componentes principais 250
Figura 7.1. A elipse de 95% de densidade constante e os componentes principais
Y1 e Y2 para a distribuição normal bivariada com média 0µ = .
7.3. Componentes principais amostrais
Seja 1 2 nX , X , , X uma amostra aleatória retirada de uma população
p-variada qualquer com média µ e covariância Σ. O vetor de médias amostrais é
X , a matriz de covariância amostral é S e a matriz de correlação amostral é R. O
objetivo dessa seção é apresentar os conceitos de componentes principais para a
estrutura de covariância amostral.
As combinações lineares das variáveis mensuradas que maximizam
a variação total da amostra e que são mutuamente ortogonais são chamadas de
componentes principais amostrais. Seja a forma quadrática
Y2
Y1
Ferreira, D.F. Estatística multivariada 251
t tˆ ˆ ˆQ Var(Y) Var(e X) e Se= = =
O máximo de Q não existe, pois quanto maior for o comprimento de
e maior será o valor de Q. É conveniente tomar-se o máximo de Q restrito ao
comprimento unitário de e . Dessa forma, o máximo tem que ser obtido da forma
quadrática restrita seguinte.
t
t
e See e
λ =
O máximo é obtido tomando-se a derivada em relação a e e
igualando-se a derivada a zero. O sistema obtido é resolvido em relação a e e as
soluções obtidas referem-se ao máximo.
t t t
t 2 t
t
t
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ2Se(e e) 2(e Se)e 2 e Se ˆS e 0ˆ ˆ ˆ ˆ ˆ ˆe (e e) e 'e e e
ˆ ˆe Se ˆS e 0ˆ ˆe e
⎛ ⎞∂λ −= = − Ι =⎜ ⎟∂ ⎝ ⎠
⎛ ⎞− Ι =⎜ ⎟
⎝ ⎠
A equação resultante é dada por:
( )ˆ ˆS e 0−λΙ = (7.23)
7. Componentes principais 252
A solução de (7.23) conduz aos pares de autovalores e autovetores
( )i iˆ ˆ; eλ de S, que correspondem a variância amostral e combinação linear que
definem os componentes principais amostrais, para i=1, 2, ..., p.
Portanto, o i-ésimo componente principal amostral é:
ti i i1 1 i2 2 ip p
ˆ ˆ ˆ ˆ ˆY e X e X e X ... e X , i 1, 2, ..., p= = + + + = (7.24)
em que 1 2 pˆ ˆ ˆ... 0λ ≥ λ ≥ ≥ λ ≥ são os autovalores amostrais de S correspondentes.
O estimador da variância amostral dos componentes principais é:
( )k kˆˆ ˆVar Y , k 1, 2,..., p= λ = (7.25)
e a covariância entre dois componentes principais (i e k) é:
( )i kˆ ˆˆCov Y , Y 0, i k 1, 2,..., p= ≠ = (7.26)
Pela mesma razão apresentada para os componentes principais
populacionais, verifica-se que a variação total explicada pelos componentes
principais amostrais é igual a p p
i iii 1 i 1
ˆ S= =λ =∑ ∑ . A partir da decomposição espectral de
S, dada por tˆ ˆ ˆS P P= Λ e da propriedade que tr(AB)=Tr(BA) demonstra-se que:
Ferreira, D.F. Estatística multivariada 253
( ) ( ) ( )p n
t tii i
i 1 i 1
ˆˆ ˆ ˆ ˆ ˆ ˆ ˆtr(S) S tr P P tr P P tr= =
= = Λ = Λ = Λ = λ∑ ∑
Dessa forma, a explicação do k-ésimo componente principal amostral
da variação total do sistema é:
kk p
ii 1
ˆˆ%VarExp(Y ) 100ˆ
=
λ= ×
λ∑ (7.27)
A correlação amostral entre iY e Xk é definida por:
i k
ik iY ,X
kk
ˆer , i,k 1,2,...,p
Sλ
= = (7.28)
Os componentes principais podem ser definidos por componentes
principais amostrais centrados na média amostral X , da seguinte forma:
( ) ( ) ( ) ( )ti i i1 1 1 i2 2 2 ip p p
ˆ ˆ ˆ ˆ ˆY e X X e X X e X X ... e X X , i 1, 2, ..., p= − = − + − + + − = (7.29)
Se o vetor X for substituído em (7.29) por jX (vetor de observações
amostrais), pode-se obter os escores dos componentes principais. Esses escores
são plotados, muitas vezes, com o intuito de agrupar objetos ou itens, simplificar a
representação para uma ou duas dimensões, entre outras aplicações.
7. Componentes principais 254
Os componentes principais, em geral, não são invariantes com
relação a transformações nas escalas. A mudança de escala mais usual é aquela
que transforma as escalas das variáveis para uma outra escala sem dimensão,
cuja média é igual a zero e a variância é igual a 1. A padronização é obtida por:
( )1/ 2j jZ D X X , j 1,2,..., n−= − = (7.30)
em que D-1/2= ( )11 22 ppDiag 1/ S ,1/ S ,...,1/ S . O estimador de a covariância de Z é
dado por:
1/ 2 1/ 2 1/ 2 1/ 2ˆ ˆCov(Z) D Cov(X)D D SD R− − − −= = = (7.31)
Os componentes principais obtidos de R são definidos pelos pares
de autovalores e autovetores de R ( )i iˆ ˆ; eλ . Assim, o i-ésimo componente principal
amostral obtido da matriz de correlação amostral é dado por:
ti i i1 1 i2 2 ip p
ˆ ˆ ˆ ˆ ˆY e Z e Z e Z ... e Z , i 1, 2, ..., p= = + + + = (7.32)
A variação total explicada pelo k-ésimo componente principal é dada
por:
kk
ˆˆ%VarExp(Y ) 100pλ
= × (7.33)
Ferreira, D.F. Estatística multivariada 255
A correlação amostral entre iY e Zk é definida por:
i k
ˆ ik iY ,Zˆˆr e , i,k 1,2,...,p= λ = (7.34)
Pequenos valores para os últimos autovalores, tanto de S como de
R, indicam, em geral, a presença de dependência linear no conjunto de dados.
Neste contexto pelo menos uma variável é redundante e pode ser eliminada do
conjunto de variáveis originais.
Existe sempre a questão importante de o número de componentes a
ser retido. Não existe uma resposta definitiva para essa questão. Os aspectos que
devem ser considerados incluem a quantidade da variação amostral explicada, o
tamanho relativo dos autovalores e a interpretação subjetiva dos componentes.
Uma ferramenta visual importante para auxiliar a determinação de o número
suficiente de componentes a ser retido é o “scree plot”. O termo “scree” refere-se
ao acumulo de rochas nas bases de um penhasco, portanto os “scree plots” serão
considerados “gráficos de cotovelos”. Na Figura 7.2 observa-se que um cotovelo é
formado aproximadamente na posição i=4. Isso significa que os componentes
acima de 3λ possuem aproximadamente a mesma magnitude e são relativamente
pequenos. Isso indica que os três primeiros, talvez os quatros primeiros
componentes são suficientes para resumir a variação amostral total.
7. Componentes principais 256
1 2 3 4 5 6
0
2
4
6
8
10λi
componente principal
Figura 7.2. “Scree plot” de um exemplo com p=6 componentes principais para
ilustrar o processo de determinação de o número apropriado de
componentes a ser retido.
7.4. Gráficos dos componentes principais
Os gráficos provenientes dos componentes principais podem ser
reveladores de diversos aspectos presentes nos dados de interesse do
pesquisador. Em muitas áreas os pesquisadores utilizam os primeiros e mais
importantes componentes para agrupar objetos e itens de acordo com a
representação em duas ou no máximo três dimensões retidas. Os gráficos dos
componentes principais podem revelar observações suspeitas, como também
^
Ferreira, D.F. Estatística multivariada 257
permitir uma avaliação da suposição de normalidade. Por se tratarem de
combinações lineares de p variáveis, supostamente normais, é possível assumir a
normalidade para os componentes principais. O teste de normalidade pode ser
feito em apenas alguns poucos componentes, o que pode simplificar a
complexidades das análises necessárias e reduzir o número de testes a ser
realizado.
Os valores amostrais dos componentes principais obtidos a partir de
os dados amostrais originais são chamados de escores. A equação (7.35)
refere-se a definição do escore do k-ésimo componente principal, para a j-ésima
observação amostral.
tjk k j k1 j1 k2 j2 kp jp
ˆ ˆ ˆ ˆ ˆY e X e X e X ... e X , k 1, 2, ..., p; j 1, 2,..., n= = + + + = = (7.35)
De uma forma geral, os escores dos p componentes principais,
representados pelo vetor tj j1 j2 jp
ˆ ˆ ˆ ˆY Y Y ... Y⎡ ⎤= ⎣ ⎦ para a j-ésima observação amostral
tj j1 j2 jpX X X ... X⎡ ⎤= ⎣ ⎦ , são dados por:
t1t2t
j j j
tp
e
eˆ ˆY P X X
e
⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(7.36)
7. Componentes principais 258
Para o agrupamento de objetos e também para avaliar desvios de
normalidade obtêm-se gráficos dos primeiros componentes retidos em um
diagrama contendo pares de componentes. Também, é possível obter os
Q-Q plots para cada componente, conforme descrição realizada no capítulo 4.
Desvios de normalidade podem ser verificados e o teste da correlação Q-Q plot
pode ser realizado.
Para a verificação de observações suspeitas os gráficos dos últimos
componentes principais tomados dois a dois são utilizados. Esse tipo de gráfico
pode ajudar a identificar observações suspeitas. Também, com esse intuito os Q-
Q plots desses componentes, de menor importância para a variação total, são
utilizados.
Da equação (7.36) e relembrando que P é uma matriz ortogonal,
pois t tˆ ˆ ˆ ˆPP P P= = Ι , portanto ( ) 1tˆ ˆP P−= , pode-se demonstrar que:
j j 1 2 p j
j j1 1 j2 2 jp p
ˆ ˆ ˆˆ ˆ ˆX PY e e e Y
ˆ ˆ ˆˆ ˆ ˆX Y e Y e Y e
⎡ ⎤= = ⎣ ⎦
= + + +
(7.37)
Essa é uma importante equação que mostra que a observação
amostral multivariada jX pode ser recuperada dos escores dos componentes
principais correspondentes. Constitui-se, portanto, em uma proeminente forma de
identificar com elevada precisão as observações suspeitas. Para isso um número
q de componentes principais q≤p é retido para ajustar as n observações amostrais
Ferreira, D.F. Estatística multivariada 259
multivariadas. Dessa forma, uma medida da qualidade desse ajuste é obtida
avaliando quanto j1 1 j2 2 jq qˆ ˆ ˆˆ ˆ ˆY e Y e Y e+ + + difere de jX , tendo como desvio o valor
dado por jq 1 q 1 jq 2 q 2 jp pˆ ˆ ˆˆ ˆ ˆY e Y e Y e+ + + ++ + + . Essa medida é feita tomando-se o
quadrado desse desvio, o qual refere-se ao seu comprimento quadrático, ou seja,
por 2 2 2j q 1 j q 2 j p
ˆ ˆ ˆY Y Y+ ++ + + . As observações consideradas suspeitas são aquelas que
possuem pelo menos uma das coordenadas de j q 1 j q 2 j pˆ ˆ ˆY , Y , , Y+ + que contribui
para o comprimento quadrático total com grande valor.
7.5. Inferências para grandes amostras
Foram apresentados os conceitos fundamentais dos componentes
principais. A essência dos componentes principais está na obtenção dos
autovalores e autovetores da matriz de covariância (correlação). Os autovetores
determinam a rotação a ser realizada nos eixos coordenados originais nos
sentidos de maior variabilidade e os autovalores determinam as variâncias desses
novos eixos coordenados. As decisões com relação aos componentes principais
devem ser tomadas com base nos pares de autovalores-autovetores, ( )i iˆ ˆ; eλ ,
estimados na amostra. Esses autovalores e autovetores são diferentes dos
respectivos valores populacionais devido às variações amostrais. Derivações à
respeito das distribuições amostrais de iλ e de ie são apresentadas em Anderson
7. Componentes principais 260
(1963). Os resultados relativos aos resultados de grandes amostras são
apresentados a seguir, de uma forma resumida.
Suponha que 1 2 nX , X , , X seja uma amostra aleatória retirada de
uma população p-variada qualquer com média µ e covariância Σ. O vetor de
médias amostrais é X , a matriz de covariância amostral é S e a matriz de
correlação amostral é R. Suponha que Σ possui autovalores (desconhecidos)
distintos e positivos, quais sejam, 1 2 p 0λ > λ > > λ > com correspondentes
autovetores (desconhecidos) 1 2 pe , e , , e . O estimador amostral de Σ é S, sendo
que os estimadores de λi e ie são 1 2 pˆ ˆ ˆ 0λ > λ > > λ > e 1 2 pˆ ˆ ˆe , e , , e .
Girshik (1939), Lawley (1956) e Anderson (1963) demonstraram que
os resultados doravante apresentados se verificam para grandes amostras. Dessa
forma, os resultados proporcionados referem-se a teoria de distribuições de
grandes amostras para os autovalores t1 2 p
ˆ ˆ ˆ ˆ⎡ ⎤λ = λ λ λ⎣ ⎦ e para os autovetores
1 2 pˆ ˆ ˆe , e , , e de S. Fazendo Λ uma matriz diagonal dos autovalores 1 2 p, , ,λ λ λ de
Σ, então,
1. ( )ˆn λ −λ tem distribuição aproximadamente ( )2pN 0, 2Λ .
2. Seja
( )
ptk
i i k k2k 1 k ik i
E e e=≠
⎡ ⎤λ= λ ⎢ ⎥
λ −λ⎢ ⎥⎣ ⎦∑ (7.38)
então, ( ) ( )i i p 1 iˆn e e N 0, E−− ∼ .
Ferreira, D.F. Estatística multivariada 261
3. Cada iλ tem distribuição independente dos elementos do vetor característico
associado ie .
4. A covariância do r-ésimo elemento de ie e o s-ésimo elemento de je (i≠j) é:
( )( )
i j is jrir js 2
i j
e eˆ ˆCov e ,e (i j)
n
λ λ= ≠
λ −λ (7.39)
Os resultados 1 a 4 são referentes às propriedades distribucionais de
grandes amostras e válidas para o caso de p distintas raízes características.
Entretanto, Anderson (1963) aponta que o resultado 2 requer somente que λi seja
distinto dos demais p-1 valores característicos, os quais podem ter qualquer
multiplicidade. Esses resultados podem ser utilizados para construir testes de
hipóteses e intervalos de confiança para os autovalores e autovetores
populacionais.
O resultado 1 implica, em grande amostras, que os iλ ’s são
independentemente distribuídos com distribuição aproximadamente ( )2i iN , 2 / nλ λ .
As inferências podem ser derivadas desse resultado. O intervalo de confiança
para λi pode ser obtido a partir da afirmativa probabilística:
7. Componentes principais 262
( )i i
i
ˆP Z / 2 1
2n
⎡ ⎤⎢ ⎥λ −λ⎢ ⎥≤ α = −α⎢ ⎥λ⎢ ⎥⎣ ⎦
(7.40)
O intervalo de confiança resultante é dado por:
( ) ( )
i
i iˆ ˆ
IC (1 ) : ;2 21 Z / 2 1 Z / 2n n
λ
⎡ ⎤⎢ ⎥λ λ⎢ ⎥−α⎢ ⎥+ α − α⎢ ⎥⎣ ⎦
(7.41)
Obviamente os valores de α e de n devem ser apropriados para que
o limite superior de (7.41) seja válido. Caso o limite superior não seja válido e n for
suficientemente grande, é possível obter o intervalo alternativo substituindo a
variância paramétrica de iλ pelo seu estimador. Assim,
( ) ( )i i i i i
2 2ˆ ˆ ˆ ˆIC (1 ) : Z / 2 ; Z / 2n nλ
⎡ ⎤−α λ − α λ λ + α λ⎢ ⎥
⎣ ⎦ (7.42)
Testes de hipóteses de o tipo o i 0H :λ = λ podem ser realizados
calculando-se o escore normal padrão:
i 0c
0
ˆZ
2n
λ −λ=λ
(7.43)
Ferreira, D.F. Estatística multivariada 263
Uma inferência importante e mais geral sobre a estrutura de
dependência é apresentada por Anderson (1963). O teste de hipótese de que os r
autovalores intermediários de Σ sejam iguais é apresentado. A hipótese de
interesse é:
0 q 1 q 2 q rH : + + +λ = λ = = λ (7.44)
Aos q maiores e aos (p-q-r) menores autovalores não são impostas
restrições quanto aos seus valores ou multiplicidades. A hipótese alternativa é
especificada da seguinte forma: H1: pelo menos um dos r autovalores difere dos
demais intermediários. O teste de razão de verossimilhança conduz a estatística
( )q r
jq rj q 12
c jj q 1
ˆˆ(n 1) ln (n 1)r ln
r
+
+= +
= +
⎛ ⎞λ⎜ ⎟⎜ ⎟χ = − − λ + −⎜ ⎟⎜ ⎟⎝ ⎠
∑∑ (7.45)
que tem distribuição aproximadamente de qui-quadrado sob H0 com ν=r(r+1)/2 - 1
graus de liberdade para grandes amostras.
Um caso especial importante deste teste de hipótese ocorre quando
q+r=p ou quando a variação das últimas r dimensões é esférica.
Outro importante teste refere-se aos autovetores. A hipótese de que
o i-ésimo autovetor populacional de Σ é igual a um vetor de constantes com norma
1 é apresentada a seguir.
7. Componentes principais 264
0 i 0H : e e= (7.46)
O teste da hipótese nula (7.46) é realizado com base no resultado 2
dessa seção e na matriz de covariância Ei definida em (7.38) devidamente
substituída pelo seu estimador iE , o qual é obtido pela substituição de iλ e ie
pelos seus estimadores iλ e ie . Assim, Anderson (1963) demonstra que o teste
estatístico dado por:
( ) ( )t2 t 1 t gc i 0 0 0 0 i 0 i i 0
i
1ˆ ˆˆ ˆn e S e e Se 2 n e e E e eˆ−⎛ ⎞
χ = λ + − = − −⎜ ⎟λ⎝ ⎠
(7.47)
tem distribuição assintótica de qui-quadrado com p-1 graus de liberdade se H0 for
verdadeira. Em que giE é uma inversa generalizada de iE .
Demonstração: A matriz Ei do resultado 2 pode ser rescrita na forma matricial
como se segue. Para isso, serão definidas as seguintes matrizes:
Ferreira, D.F. Estatística multivariada 265
( )
( )
( )
12
1 i
22
2 ii
p2
p i
0 0
0 0
0 0
λ⎡ ⎤⎢ ⎥λ − λ⎢ ⎥⎢ ⎥λ⎢ ⎥
λ − λ⎢ ⎥Λ =⎢ ⎥⎢ ⎥⎢ ⎥λ⎢ ⎥⎢ ⎥λ − λ⎣ ⎦
uma matriz (p-1)x(p-1) originária da
eliminação da i-ésima linha e i-ésima coluna de uma matriz ( )
j2
j i
Diag⎛ ⎞λ⎜ ⎟⎜ ⎟λ −λ⎝ ⎠
, pxp.
i 1 2 pP e e e p (p 1),⎡ ⎤= × −⎣ ⎦ sendo je os autovetores de Σ, com j≠i e dimensão
px(p-1).
Assim, pode-se definir Ei por:
( )p
jt ti i i i i i j j2
j 1 i jj i
E P P e e=≠
⎡ ⎤λ⎢ ⎥= λ Λ = λ⎢ ⎥λ −λ⎣ ⎦
∑
e sua inversa generalizada, devido a Ei ter posto (dimensão) p-1, por:
( )2p
i jg 1 t ti i i i j j
j 1i i jj i
1 1E P P e e−
=≠
⎡ ⎤λ −λ⎢ ⎥= Λ =⎢ ⎥λ λ λ⎣ ⎦
∑
No capítulo 4 foi visto que sob normalidade ou para grandes
amostras a forma quadrática
( ) ( )t g 2i 0 i i 0 p 1n e e E n e e −− − χ∼
7. Componentes principais 266
Os graus de liberdade são iguais a (p-1) e não a p devido a Ei ter
posto incompleto (p-1). Devido aos autovetores de giE e o autovetor ie serem
ortogonais, a forma quadrática anterior pode ser simplificada por:
( ) ( ) ( )2pt i jg t g t t
i 0 i i 0 0 i 0 0 j j 0j 1i jj i
nn e e E e e ne E e e e e e=≠
⎡ ⎤λ −λ⎢ ⎥− − = =
λ ⎢ λ ⎥⎣ ⎦
∑ =
( )2 2p p p pj i j it t t t t 2 t
0 j j 0 0 j j j i j j i j j 0j 1 j 1 j 1 j 1i j i jj i j i j i j i
2n n 1e e e e e e e 2 e e e e e= = = =≠ ≠ ≠ ≠
⎧ ⎫⎡ ⎤λ − λ λ + λ ⎡ ⎤⎪ ⎪⎡ ⎤ ⎡ ⎤⎢ ⎥= = λ − λ + λ ⎢ ⎥⎨ ⎬⎣ ⎦ ⎣ ⎦λ λ λ λ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦⎣ ⎦ ⎩ ⎭∑ ∑ ∑ ∑ =
Como p
tj j j
j 1e e
=
⎡ ⎤λ = Σ⎣ ⎦∑ , além disso, somando e subtraindo ti i ie eλ ao
termo da expressão p
tj j j
j 1j i
e e=≠
⎡ ⎤λ⎣ ⎦∑ , tem-se que:
pt t t t
j j j i i i i i i i i ij 1j i
e e e e e e e e=≠
⎡ ⎤λ + λ −λ = Σ −λ⎣ ⎦∑
Utilizando o mesmo raciocínio para p
1 tj j
j 1 j
1 e e−
=
⎡ ⎤Σ = ⎢ ⎥
λ⎢ ⎥⎣ ⎦∑ somando e
subtraindo ao termo p
tj j
j 1 jj i
1 e e=≠
⎡ ⎤⎢ ⎥λ⎢ ⎥⎣ ⎦
∑ a quantidade dada por ti i
i
1 e eλ
, tem-se:
pt t t 1 t
j j i i i i i ij 1 j i i ij i
1 1 1 1e e e e e e e e−
=≠
⎡ ⎤+ − = Σ −⎢ ⎥
λ λ λ λ⎢ ⎥⎣ ⎦∑
Ferreira, D.F. Estatística multivariada 267
Finalmente, o termo p
tj j
j 1j i
e e=≠
⎡ ⎤⎣ ⎦∑ é equivalente a seguinte expressão,
lembrando que os autovetores têm norma 1 e são ortogonais e ainda aplicando-se
o mesmo tipo de artifício:
pt t
j j i ij 1j i
e e I e e=≠
⎡ ⎤ = −⎣ ⎦∑
Assim, retornando ao desenvolvimento anterior da aproximação de
qui-quadrado tem-se:
( )
p p pt t t 2 t0 j j j i j j i j j 0
j 1 j 1 j 1i jj i j i j i
t t t 2 1 t0 i i i i i i i i i 0
i i
t t t t0 0 0 i i 0 0
ii i
n 1e e e 2 e e e e e
n 1e e e 2 I e e e e e
e e e e e e e Ien
= = =≠ ≠ ≠
−
⎧ ⎫⎡ ⎤⎪ ⎪⎡ ⎤ ⎡ ⎤λ − λ + λ =⎢ ⎥⎨ ⎬⎣ ⎦ ⎣ ⎦λ λ⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭
⎡ ⎤⎡ ⎤= Σ − λ − λ − + λ Σ − =⎢ ⎥⎢ ⎥λ λ⎣ ⎦⎣ ⎦
Σ= − λ −
λ λ
∑ ∑ ∑
t t t 1 t t2 20 0 i i 0 0 0 0 i i 0
i i i ii i i i i
e e e e e e e e e e2 2
−⎡ ⎤Σλ + λ + λ − λ =⎢ ⎥λ λ λ λ ×λ⎣ ⎦
tt t t t t t 1 t t0 00 i i 0 0 0 0 i i 0 i 0 0 0 i i 0
i
tt 10 0
i 0 0i
e en e e e e 2e e 2e e e e e e e e e e
e en e e 2
−
−
⎡ ⎤Σ= − − + + λ Σ − =⎢ ⎥λ⎣ ⎦
⎡ ⎤Σ= + λ Σ −⎢ ⎥λ⎣ ⎦
7. Componentes principais 268
Substituindo nessa última expressão Σ pelo estimador S, a
distribuição ainda continua aproximadamente de qui-quadrado para grandes
amostras. Dessa forma, a prova fica completa.
Um outro importante teste de interesse é o da hipótese de mesma
estrutura de correlação, ou seja, i k ii kkCov(X , X )= σ σ ρ ou i kCorr(X , X )=ρ , para
todo i≠k. Nesse caso, os autovalores de Σ não são todos distintos e os resultados
anteriores não se aplicam. Embora as distribuições amostrais dos componentes
principais obtidos da matriz R sejam difíceis de derivar, esse caso especial conduz
a resultados tratáveis (Morrison, 1976).
Lawley (1963) propôs um teste para essa hipótese que é alternativo
e equivalente àquele baseado na razão de verossimilhança, para a estrutura de
eqüicorrelação da matriz de correlação populacional ρ (pxp). Para isso basta
aplicar o teste da hipótese de igualdade de todas as p(p-1)/2 correlações (ρij). A
hipótese de interesse é dada por:
0 0 0 0
11
H : vs H :
1
ρ ρ⎡ ⎤⎢ ⎥ρ ρ⎢ ⎥ρ = ρ = ρ ≠ ρ⎢ ⎥⎢ ⎥ρ ρ⎣ ⎦
(7.48)
Essa hipótese pode ser escrita na forma equivalente 0 ijH :ρ = ρ para
todos os subscritos i≠j. O procedimento de Lawley (1963) requer as seguintes
quantidades:
Ferreira, D.F. Estatística multivariada 269
p
k iki 1i k
1r r ; k 1, 2, ..., pp 1 =
≠
= =−∑ (7.49)
p 1 p
iki 1 k i 1
2r rp(p 1)
−
= = +=
−∑ ∑ (7.50)
2 2
2
(p 1) 1 (1 r )ˆ
p (p 2)(1 r )
⎡ ⎤− − −⎣ ⎦γ =− − −
(7.51)
Verifica-se facilmente que kr de (7.49) é a média dos elementos fora
da diagonal para as k colunas de R e r de (7.50) é a média de todos os
elementos fora da diagonal principal de R. Lawley (1963) mostrou que quando n
tende para infinito o teste estatístico:
( ) ( )p 1 p p 222
c ik k2i 1 k i 1 k 1
n 1 ˆr r r r(1 r )
−
= = + =
− ⎡ ⎤χ = − − γ −⎢ ⎥− ⎣ ⎦∑ ∑ ∑ (7.52)
tem distribuição de qui-quadrado com ν=(p+1)(p-2)/2 graus de liberdade.
Finalmente, o teste, denominado de teste de esfericidade, é
apresentado. A hipótese de interesse é dada por:
20 0H : IΣ = Σ = σ (7.53)
7. Componentes principais 270
Para o teste dessa hipótese, suponha uma amostra aleatória da
distribuição normal p-variada com média µ e covariância Σ, dada por
1 2 nX , X , , X . A seguir é apresentado o teste de razão de verossimilhanças para
testar a hipótese de interesse. A função de verossimilhança sob a hipótese
0 :H Σ = Σ é dada por:
( ) ( ) ( ) ( ) ( )/ 2 / 2 1
11
1, exp22
n n tnp nj jj
jj
X X XXL f − − −
==
⎧ ⎫µ Σ − µ − µ= = − Σπ Σ ⎨ ⎬
⎩ ⎭∑∏
A função suporte é determinada pelo logaritmo natural (neperiano) da
função de verossimilhança. O máximo de L deve ser obtido, no entanto, o máximo
da função suporte com relação a µ e Σ coincidem. A função suporte é dada por:
( ) ( ) ( ) ( ) ( )1
1 1
1, ln ln ln22 2 2
−
= =
⎡ ⎤µ Σ − µ − µ= = − − − Σπ Σ⎢ ⎥⎣ ⎦∏ ∑n n t
j j jj j
np nXX X XfS
Para obter o máximo dessa função, é necessário derivar em relação
aos parâmetros µ e Σ . Igualar as derivadas a zero e achar a solução do sistema
de equações formado. Esses resultados estão apresentados na seqüência.
a) Derivada de ( ), XS µ Σ em relação a µ
Ferreira, D.F. Estatística multivariada 271
( ) ( )1
1
, n
jj
XSX−
=
µ Σ∂− µ= Σ
∂µ ∑
Igualando a zero e resolvendo a equação formada obtém-se:
( )1
1
1
ˆ 0
ˆ
ˆ
n
jj
n
jj
n
jj
X
n X
XX
n
=
=
=
− µ =
µ =
µ = =
∑
∑
∑
b) Derivada de ( ), XS µ Σ em relação a Σ
( )( ) 1 11
, 12 2
tn
XS n n S− −−µ Σ∂
= − + Σ ΣΣ∂Σ
Igualando a zero e resolvendo a equação para Σ , substituindo-se o
valor de µ encontrado em (a), tem-se as seguintes passagens.
7. Componentes principais 272
( )
( )
( )
1 11
1 1 1
,0
1 ˆ ˆˆ 02 2
1 ˆ ˆ ˆ2 2
tn
n
XS
n n S
nn S
− −−
− − −
µ Σ∂=
∂Σ
− + Σ Σ =Σ
Σ Σ = Σ
1 1 1ˆ ˆ ˆnS
− − −Σ Σ = Σ
Pré e pós multiplicando ambos os lados dessa última equação por Σ
obtém-se:
1 1 1
1 1
ˆ ˆ ˆ ˆ ˆ ˆ ˆ
1 1ˆ ( )( )
n
n nt
n j j jj j
S
S X X X X Wn n
− − −
= =
ΣΣ Σ Σ = ΣΣ Σ
Σ = = − − =∑ ∑
Substituindo as soluções obtidas em L obtém-se o seu máximo da
seguinte forma:
( ) ( ) ( ) ( )
( ) ( )( )
( ) ( )( )
/ 2/ 2 1
1
/ 2 1/ 2
1
/ 2 1/ 2
1
1ˆˆ exp, 22
1exp22
1exp22
n tnnpn j j n j j
j
n tnnpn j j j jn
j
n tnnpn j j j jn
j
L S X X S X X
S X X X XS tr
S X X X XS tr
−− −
=
− −−
=
− −−
=
⎧ ⎫= − − −µ Σ π ⎨ ⎬
⎩ ⎭⎧ ⎫⎡ ⎤⎪ ⎪− −= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭⎧ ⎫⎡ ⎤⎪ ⎪− −= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭
∑
∑
∑
Ferreira, D.F. Estatística multivariada 273
( ) / 2/ 2 11exp22
−− −⎧ ⎫= − ⎡ ⎤π ⎨ ⎬⎣ ⎦⎩ ⎭nnp
n n nS tr S nS
( ) [ ]/ 2/ 2 exp22
−− ⎧ ⎫= −π Ι⎨ ⎬⎩ ⎭
nnpn
nS tr
( ) / 2/ 2 exp22
−− ⎧ ⎫= −π ⎨ ⎬⎩ ⎭
nnpn
npS
Sob 20 0H : IΣ = Σ = σ a verossimilhança e a função suporte são
dadas por:
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
/ 2/ 2 10 0 0
1
/ 2/ 2 22
1
1, exp22
1exp22
n tnnpj j
j
n tnpnpj j
j
X X XL
X X
−− −
=
−−
=
⎧ ⎫µ Σ − µ −µ= Σ − Σπ ⎨ ⎬
⎩ ⎭⎧ ⎫
− µ − µ= −π ⎨ ⎬σ σ⎩ ⎭
∑
∑
e
( ) ( ) ( ) ( ) ( )2 22
1
1, ln ln22 2 2
n tj j
j
np np X XXS=
− µ − µµ σ = − − −π σ σ ∑
Para obter o máximo dessa função, é necessário derivar em relação
aos parâmetros µ e 2σ . Em seguida deve se igualar às derivadas a zero e achar a
solução do sistema de equações formado.
7. Componentes principais 274
c) Derivada de ( )2, XS µ σ em relação a µ
( ) ( )2
21
, 12
n
jj
XSX
=
µ σ∂− µ=
∂µ σ ∑
Igualando a zero e resolvendo a equação formada obtém-se:
( )1
1
1
ˆ 0
ˆ
ˆ
n
jj
n
jj
n
jj
X
n X
XX
n
=
=
=
− µ =
µ =
µ = =
∑
∑
∑
Essa solução é a mesma do caso anterior.
d) Derivada de ( )2, XS µ σ em relação a 0Σ
( )( )
2
22 2 2 1
, 1 ( ) ( )2 2
nt
j jj
XS np X X=
µ σ∂= − + −µ − µ
∂σ σ σ∑
Igualando a zero e resolvendo a equação para 2σ , substituindo-se o
valor de µ encontrado em (a), tem-se os seguintes resultados.
Ferreira, D.F. Estatística multivariada 275
( )
( )
( )
2
2
22 2 1
2 22 1
,0
1 ( ) ( ) 0ˆ2 2 ˆ
1 ( ) ( )ˆ22 ˆ
nt
j jj
nt
j jj
XS
np X X X X
nptr X X X X
=
=
µ σ∂=
∂σ
− + − − =σ σ
⎡ ⎤ = −− −⎣ ⎦ σσ
∑
∑
( )2 22 1
1 ( )( )ˆˆ
nt
j jj
nptr X X X X=
⎧ ⎫⎡ ⎤ =− −⎨ ⎬⎣ ⎦ σσ ⎩ ⎭
∑
Pré e pós multiplicando ambos os lados dessa última equação por
2σ , e simplificando algumas Expressões obtém-se:
( )( )
( ) ( )( )
2 22 22
2
2
1ˆ ˆˆˆ
1ˆ
ˆ
n
n n
n
nptr nS
np pn tr S tr S
tr Sp
σ = σσσ
= =σ
σ =
Substituindo as soluções obtidas em ( )0, XL µ Σ obtém-se o seu
máximo da seguinte forma:
7. Componentes principais 276
( ) ( ) ( )( ) ( ) ( )
( ) ( )( ) ( )
( ) ( )
/ 2/ 2
01
/ 2/ 2
/ 2/ 2
ˆˆ exp, 22
exp22
exp22
np n tnp nj j j j
jn
npnp n
nn
npnp n
tr S pL X X X Xtr Sp
tr S p tr nStr Sp
tr S npp
−
−
=
−
−
−
−
⎧ ⎫⎡ ⎤ ⎪ ⎪= − − −µ Σ π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦ ⎩ ⎭
⎧ ⎫⎡ ⎤ ⎪ ⎪= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦ ⎩ ⎭
⎡ ⎤ ⎧ ⎫= −π ⎨ ⎬⎢ ⎥⎩ ⎭⎣ ⎦
∑
Para testar a hipótese 20 0H : IΣ = Σ = σ obtém-se a razão do máximo
de as duas funções de verossimilhança. Então, baseando-se no resultado de que
o logaritmo natural multiplicado por -2 tem distribuição aproximada de
qui-quadrado, pode-se efetuar um teste para essa hipótese. Assim, seja:
( )( )
( ) ( )
( ) ( )
/ 2/ 2
/ 20
1 / 2/ 2/ 2
exp2ˆˆ , 2ˆˆ , exp2 2
npnp n
nn
npnnp
nn
tr S npL Sp
npL tr SSp
−−
−−
⎡ ⎤ ⎧ ⎫−π ⎨ ⎬⎢ ⎥µ Σ ⎩ ⎭⎣ ⎦Λ = = =⎧ ⎫µ Σ ⎡ ⎤−π ⎨ ⎬ ⎢ ⎥⎩ ⎭ ⎣ ⎦
Ou ainda, se for considerado que Sn for substituído por S, não há
alteração dos resultados obtidos, e se for considerado também que ˆiλ é o i-ésimo
autovalor de S, então Λ1 pode ser expresso por:
[ ]
np / 2 np / 2p pp pin / 2 ii 1 i 1
1 np / 2 np / 2 pp
ii i 1i 1
ˆ ˆS
tr(S) / p ˆˆ / p/ p
= =
==
⎛ ⎞ ⎛ ⎞λ⎜ ⎟ λ⎜ ⎟⎜ ⎟⎝ ⎠ ⎜ ⎟Λ = = =
⎜ ⎟⎛ ⎞ λλ ⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠
∏ ∏
∑∑ (7.54)
Ferreira, D.F. Estatística multivariada 277
Um teste estatístico pode ser obtido, conforme mencionado
anteriormente por:
( ) ( )[ ] ( ){ }
( ) ( )
21
2
1 1
2ln 2 ln ln ln2 2
ˆˆ2 ln ln ln2 2
c
p p
ïïi i
n nptr pS S
n npp ν
= =
⎡ ⎤χ = − = − =Λ − + −⎢ ⎥⎣ ⎦⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪= − − + − χλλ⎨ ⎬⎢ ⎥⎜ ⎟
⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭∑ ∑ ∼
(7.55)
A distribuição aproximada de qui-quadrado possui ν graus de
liberdade, que referem-se a diferença entre o número de parâmetros do modelo
completo e o número de parâmetros do modelo sob a hipótese nula. Como são
estimadas p médias, p variâncias e p(p-1)/2 covariâncias no modelo completo e p
médias e σ2 no modelo sob a hipótese nula, os graus de liberdade são dados por:
( 1) ( 1) 2 ( 2)( 1)12 2 2
p p p p p pp p+ + − + −ν = + − − = =
Bartlett (1954) sugere uma correção no teste anterior para uma
melhor performance, sendo que para grandes amostras a estatística dada por:
( )2
2c 1
(2p p 2)2 1 ln6pn
⎡ ⎤+ +χ = − − Λ⎢ ⎥
⎣ ⎦ (7.56)
tem distribuição aproximadamente de qui-quadrado com ν=(p+2)(p-1)/2 graus de
liberdade sob H0 dada em (7.53).
7. Componentes principais 278
O teste (7.56) da hipótese nula (7.53) é denominado de teste de
esfericidade, porque os contornos da densidade são esferas quando 2IΣ = σ .
Um teste mais geral do que o teste (7.56) para a hipótese de que
todas as variáveis sejam independentes é dado pelo teste de razão de
verossimilhança. Seja a hipótese
11
220 ii 0
pp
0 00 0
H : ;
0 0
>
σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ = σ⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦
(7.57)
A seguinte estatística deve ser calculada inicialmente:
n / 2
n / 22 n / 2p
iii 1
SR
S=
Λ = =⎛ ⎞⎜ ⎟⎝ ⎠∏
(7.58)
Para grandes amostras, sob H0, o teste estatístico:
( )2c 2
(2p 11)2 1 ln6n+⎡ ⎤χ = − − Λ⎢ ⎥⎣ ⎦
(7.59)
tem distribuição aproximadamente de qui-quadrado com ν=p(p-1)/2 graus de
liberdade sob H0 dada em (7.57). Essa aproximação é devida a Bartlett (1954) em
Ferreira, D.F. Estatística multivariada 279
substituição a aproximação usual -2ln(Λ2). O resultado (7.59) melhora a
aproximação qui-quadrado usual.
Lawley (1940) mostra que o teste (7.59) pode ser aproximado por:
p 1 p
2 2c ik
i 1 k i 1
(2p 11)n r6
−
= = +
+⎡ ⎤χ ≅ −⎢ ⎥⎣ ⎦∑ ∑ (7.60)
Essa expressão representa uma melhor aproximação de (7.59) para
pequenas correlações e para grandes amostras é pouco provável que conduza a
diferentes resultados dos obtidos pela fórmula determinantal exata (7.59),
Morrison (1976).
É apresentado a seguir um programa SAS no procedimento de
matrizes IML para a realização de todas as inferências propostas nessa seção.
Um exemplo é apresentado, com comentários, para que o usuário possa
reproduzir os testes e os procedimentos de estimação propostos.
options ps=5000 ls=75 nodate nonumber;; proc iml; S={4.9810 3.8063 4.7740, 3.8063 3.0680 3.7183, 4.7740 3.7183 4.8264}; p=ncol(S);n=24;alpha=0.05; print 'Valor de p tamanho da amostra e alpha'; print p n alpha; print 'Matriz de covariancias amostral: S'; print S; Ls=diag(eigval(s)); Ps=eigvec(S); print 'Matriz de autovalores de S'; print Ls; print 'Matriz de autovetores de S'; print Ps; D=diag(S); D_12=inv(root(D)); *print D_12;
7. Componentes principais 280
Rs=D_12*S*D_12; print 'Matriz de correlacoes amostrais R'; print Rs; Lr=diag(eigval(Rs)); print 'Matriz de autovalores de R'; print Lr; Pr=eigvec(Rs); print 'Matriz de autovetores de R'; print Pr; /*intervalo de confianca para autovalores de S - equacao 7.41*/ za2=probit(1-alpha/2); print 'Intervalos de confianca para os autovalores de S, sendo 1-alpha=' alpha; print 'Autovalor Li Ls'; do i=1 to p; lin=ls[i,i]/(1+za2*(2/n)**0.5); lsu=ls[i,i]/(1-za2*(2/n)**0.5); print i lin lsu; end; /*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 -equacao 7.42 */ /* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com sig2=4.2 e rho=0.97 */ l0=12.35; Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5; przc=2*(1-probnorm(abs(zc))); print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas um exemplo'; print 'Valor de Zc valor de prob>|zc|'; print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada'; print Zc przc; /* teste 7.43 igualdade de r autovalores intermediarios*/ /* neste exemplo sera testado Ho: l2 = l3 */ /*q=1, r=2, p=3 -teste 7.44 */ aux1=0;aux2=0;q=1;r=2; do i=q+1 to q+r; aux1=aux1+log(ls[i,i]); aux2=aux2+ls[i,i]/r; end; qui2c=-(n-1)*aux1+(n-1)*r*log(aux2); print 'Valores dos somatorios auxiliares para teste H0: l2 = l3'; print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios'; print aux1 aux2; v=r*(r+1)/2-1; prqui2c=1-probchi(qui2c,v); print 'Teste da hipotese de que Ho: l2 = l3 '; print 'Qui-quadrado GL Pr>qui-Quadr'; print qui2c v prqui2c; /* teste para a hipotese de igualdade de um autovetor a um vetor de constantes*/ /* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou seja, igual*/ /* estrutura de correlacao da matriz Sigma que originou a S */ e0=j(p,1,1/3**0.5); E1=j(p,p,0); do i=1 to p; ek=Ps[,i]; if i^=1 then do; E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);
Ferreira, D.F. Estatística multivariada 281
end; end; E1=ls[1,1]*E1; Le=eigval(e1); *print E1 le; ei1=Ps[,1]; print e0 ei1; qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2); qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0); v=p-1; prqui2c=1-probchi(qui2c,v); print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])'; print 'Qui-quadrado1 qui-quad2 GL Pr>qui-Quadr'; print qui2c qui2c2 v prqui2c; /*teste da H0:phoij=pho - igual estrutura de correlacao */ rbar=(sum(Rs)-trace(Rs))/(p*(p-1)); rk=j(p,1,0); do i=1 to p; rk[i]=(sum(Rs[,i])-1)/(p-1); end; gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2); aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar)); aux2=(sum(aux1)-trace(aux1))/2; aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar)); aux4=sum(aux3); qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4); v=(p+1)*(p-2)/2; if qui2c<=0 then qui2c=1e-14; prqui2=1-probchi(qui2c,v); print 'Teste da hipotes phij=pho: igual estrutura de correlacao'; print 'Qui-quadrado GL Pr>qui-Quadr'; print qui2c v prqui2; print 'Valores utilizados no teste-para simples conferencia'; print 'media geral dos rij, vetor de medias de cada coluna de R e gama chapeu'; print rbar rk gama; /*teste de esfericidade-H0: Sigma=Sig^2*I*/ Lamb1=((det(S)**(1/p))/(trace(S)/p)); qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n)); v=(p+2)*(p-1)/2; prqui2=1-probchi(qui2c,v); print 'Teste de esfericidade - H0: Sigma=Sig^2*I'; print 'Qui-quadrado GL Pr>qui-Quadr Lambida 1^(2/(np))'; print qui2c v prqui2 lamb1; /*teste de independencia de variaveis mais geral - H0: Sigma = Diag(sig11 sig22 ... sigpp)*/ Lamb2=det(Rs); qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n)); v=p*(p-1)/2; prqui2=1-probchi(qui2c,v); print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ... sigpp)'; print 'Qui-quadrado GL Pr>qui-Quadr Lambida 2^2/n'; print qui2c v prqui2 lamb2; /*teste de independencia de variaveis - uso da aproximacao de Lawley- pior*/ aux1=Rs#Rs; aux2=(sum(aux1)-trace(aux1))/2; qui2c=aux2*(n-(2*p+11)/6); v=p*(p-1)/2;
7. Componentes principais 282
prqui2=1-probchi(qui2c,v); print 'Teste de independencia aproximado de Lawley (1940)'; print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)'; print 'Qui-quadrado GL Pr>qui-Quadr Soma de rij^2=aux2'; print 'Obs. para grandes valores de rij essa eh uma pessima aproximacao'; print qui2c v prqui2 aux2; quit;
7.6. Exercícios
7.6.1. Extrair os componentes principais da matriz S obtida das mensurações de
três variáveis em carapaças de tartarugas. As variáveis X1, X2, e X3 são
referentes ao comprimento, largura e altura transformadas por logaritmo
natural, respectivamente. Uma amostra de 24 fêmeas foi realizada. A matriz
S é apresentada a seguir, juntamente com o vetor de médias das variáveis
transformadas. Obter os componentes principais de S e interpretá-los,
quando for possível. Obter a matriz R e os respectivos componentes
principais. Obter em ambos os casos: a) a porcentagem de informação
explicada por cada componente; b) a correlação entre as variáveis originais
transformadas e os componentes principais. Observando o primeiro
componente principal de R com mais profundidade, o que pode ser afirmado
sobre a matriz R (sem a realização de teste).
2,1282,0081,710
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
X e 4,9810 3,8063 4,7740
S 3,8063 3,0680 3,71834,7740 3,7183 4,8264
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
Ferreira, D.F. Estatística multivariada 283
7.6.2. Com os dados do exercício 7.6.1, determine os intervalos de 95% de
confiança assintótico para os 3 autovalores de Σ (3x3).
7.6.3. Com os dados do exercício 7.6.1 teste a hipótese de que o primeiro
autovetor de ρ seja igual a t1e 1 3 1 3 1 3⎡ ⎤= ⎣ ⎦ . Qual é sua conclusão
com relação à decisão tomada?
7.6.4. Com os dados do exercício 7.6.1 reproduza a matriz S a partir do primeiro
componente principal e a matriz de resíduos.
7.6.5. Teste a hipótese de que os r=2 últimos valores característicos de Σ, sejam
iguais, utilizando os dados do exemplo 7.6.1.
7.6.6. Teste a hipótese de independência geral entre 3 variáveis, para as quais
uma amostra de n=50 observações apresentou a seguinte matriz de
covariância.
24,9811 0,0796 0,0574S 0,0796 5, 2762 0,0020
0,0574 0,0020 3,0655
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
7.6.7. Os dados a seguir referem a uma amostra de 30 elementos em uma
população normal trivariada. Obtenha os componentes principais e verifique
a normalidade por meio dos dois primeiros componentes. Faça os Q-Q plots
e os gráficos de dispersão dos escores do componente 1 vs 2. Utilize o
último componente para verificar a possibilidade de observações suspeitas.
Caso alguma observação suspeita seja observada, elimine-a da amostra e
refaça o exercício.
7. Componentes principais 284
U.A. X1 X2 X3 1 12,80 29,56 45,19 2 14,12 26,54 49,29 3 19,09 33,26 49,79 4 15,98 31,00 51,73 5 16,00 28,94 50,30 6 16,51 31,67 48,06 7 14,05 30,11 55,15 8 14,34 26,47 46,84 9 16,87 29,00 52,16 10 21,93 38,00 39,24 11 15,21 30,68 54,02 12 15,54 27,37 51,52 13 17,71 30,20 51,66 14 14,42 29,99 52,50 15 13,38 31,61 52,33 16 13,91 29,59 44,19 17 15,53 29,30 53,71 18 16,40 28,96 46,56 19 18,35 30,15 52,18 20 13,59 27,70 52,33 21 19,08 31,26 48,59 22 13,95 29,94 54,73 23 16,11 34,52 52,69 24 17,10 29,39 52,03 25 18,81 31,48 49,79 26 15,27 29,54 43,11 27 14,80 31,88 48,08 28 17,39 28,88 50,69 29 18,02 34,02 49,58 30 9,52 25,23 45,89
||[ ]||Análise de agrupamento
8
8.1. Introdução
As análises rudimentares e exploratórias de dados como os
procedimentos gráficos auxiliam, em geral, o entendimento da complexa natureza
da análise multivariada. No presente capítulo são discutidas algumas técnicas
gráficas adicionais para agrupar objetos (itens ou variáveis) e também apresentar
os algoritmos que devem ser usados para efetivamente realizá-los. Encontrar nos
dados uma estrutura natural de agrupamento é uma importante técnica
exploratória. A análise de agrupamento deve ser distinguida da análise
discriminante, pelo fato desta última ser aplicada a um número de grupos já
conhecidos, tendo por objetivo a discriminação de um novo indivíduo a um destes
grupos. A análise de agrupamento por sua vez não considera o número de grupos
e é realizada com base na similaridade ou dissimilaridade (distâncias).
Objetivo dessa análise é agrupar objetos semelhantes segundo suas
características (variáveis). Todavia, não existem impedimentos para realizar o
agrupamento de variáveis semelhantes segundo as realizações obtidas pelos
objetos amostrados. Um outro problema para o qual uma resposta é necessária
8. Análise de agrupamento 286
consiste em verificar se um indivíduo A é mais parecido com B do que com C.
Quando o número de variáveis envolvidas é pequeno, a inspeção visual poderá
responder. Assim, por exemplo, na Figura 8.1 observa-se uma situação em que A
é mais parecido com C do que com B. Intuitivamente para fazer tal inferência
usou-se o conceito de distância euclidiana, o qual definiu a idéia de parecença.
1.0 1.5 2.0 2.5 3.0 3.5 4.0
10
12
14
16
18
20
AC
B
Variá
vel 2
Variável 1
Figura 8.1. Dispersão entre três indivíduos mensurados com relação a duas
variáveis quantitativas contínuas.
8.2. Medidas de parecença (similaridade e dissimilaridade)
Como foi visto no exemplo da Figura 8.1, é necessário especificar
um coeficiente de parecença que indique a proximidade entre os indivíduos. É
importante considerar, em todos os casos semelhantes a este, a natureza da
Ferreira, D.F. Estatística multivariada 287
variável (discreta, contínua, binária) e a escala de medida (nominal, ordinal, real
ou razão).
No capítulo 1 foi discutida a noção de distância e apresentada a
distância euclidiana entre dois objetos no espaço p-dimensional. Sejam
t1 11 12 1pX X X X⎡ ⎤= ⎣ ⎦ e t
2 21 22 2pX X X X⎡ ⎤= ⎣ ⎦ observações entre dois objetos
(indivíduos). Então, a distância euclidiana entre eles é dada por:
( ) ( ) ( ) ( )22 2 t11 21 12 22 1p 2p 1 2 1 21 2d X X X X ... X X (X X ) (X X )X ,X = − + − + + − = − − (8.1)
Uma importante distância estatística entre estes dois objetos é
conhecida como distância de Mahalanobis, dada por:
( ) t 11 2 1 21 2d (X X ) S (X X )X ,X −= − − (8.2)
em que, S-1 é a inversa da matriz de variância e covariância amostral. Outra
medida de distância é a métrica de Minkowski, a qual depende de funções
modulares.
( )1 mp
m1i i2i1 2
i 1
d X XX ,X=
⎡ ⎤= −⎢ ⎥⎣ ⎦∑ (8.3)
8. Análise de agrupamento 288
Para m=1 a equação (8.3) é conhecida por “métrica do quarteirão”
(métrica city-block) e para m = 2 representa a distância euclidiana e, em geral,
variações de m causam trocas nos pesos dados a pequenas e a grandes
diferenças.
Sempre que possível é conveniente usar distâncias verdadeiras, ou
seja, aquelas que obedecem à desigualdade triangular para o agrupamento de
objetos, embora alguns algoritmos de agrupamento não exigem o atendimento
dessa pressuposição.
De uma maneira geral, sejam Xhj as observações do h-ésimo objeto
na j-ésima variável e Xij as observações do i-ésimo objeto na j-ésima variável, e
sejam Zhj e Zij estes valores padronizados, então, podem ser definidas as
distâncias apresentadas a seguir. Sendo que h, i = 1, 2, ..., n e j = 1, 2, ..., p.
Distância euclidiana média,
( )2
1,
p
hj ijj
h i
X Xd
p=
−=∑
(8.4)
Distância euclidiana padronizada,
( ) ( )2
pthj ij 1
h,i h i h ij 1 jj
X Xd X X D X X
S−
=
⎛ ⎞−⎜ ⎟= = − −⎜ ⎟⎝ ⎠
∑ (8.5)
Ferreira, D.F. Estatística multivariada 289
em que, D é uma matriz diagonal tendo o j-ésimo componente igual a variância Sjj,
ou seja,
11
22
0 00 0
0 0 pp
SS
D
S
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
De modo análogo pode-se definir a distância euclidiana padronizada
média,
( ) ( )
2p
hj ijt 1j 1 jj h i h i
h,i
X XS X X D X X
dp p
−=
⎛ ⎞−⎜ ⎟⎜ ⎟ − −⎝ ⎠= =
∑ (8.6)
Outros tipos de definições de distâncias podem ser encontrados na
literatura (Bussab, Miazaki e Andrade, 1990). Um exemplo é o coeficiente de
Gower, o qual é baseado na proporção da variação em relação a maior
discrepância possível.
, 101 ( ) (1)
1log 1p
hj ijh i
j n j j
X Xd
p X X=
⎧ ⎫⎡ ⎤−⎪ ⎪= − − ⎢ ⎥⎨ ⎬−⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭
∑ (8.7)
8. Análise de agrupamento 290
em que ( )n jX e (1) jX são os valores máximos e mínimos, respectivamente, em
uma amostra de n objetos para a j-ésima variável.
Muitas vezes os objetos não podem ser mensurados em variáveis
quantitativas. Essas variáveis podem ser transformadas em dicotômicas (binárias),
determinado um ponto de corte de interesse prático. Assim, por exemplo, se a
altura (Y) de n indivíduos é mensurada e o interesse é determinar àqueles com
altura superiores a 1,80m, então, defini-se a variável binária (X) da seguinte forma:
se Yi > 1,80m então Xi = 1 caso contrário, se Yi ≤ 1,80m, então Xi = 0. Da mesma
forma, variáveis qualitativas podem ser transformadas em variáveis binárias
tomando-se como valor 1 a presença de uma determinada realização e o valor 0
para as demais. Assim, por exemplo, se na amostra ocorresse um indivíduo com
cor de olhos pretos determinaria o valor 1 e a ocorrência de outro com outra cor de
olhos determinaria o valor 0. De uma maneira geral, a presença e ausência de
uma característica devem ser representadas por uma variável binária, a qual
assume valor 1 se a característica estiver presente e o valor zero se estiver
ausente. A ocorrência de dados binários é bastante comum em genética
molecular. Nesse caso, os indivíduos são genotipados para a presença ou
ausência de um determinado marcador molecular, marcador de DNA.
Como exemplos consideram-se duas linhagens de milho as quais
foram estereotipadas através de marcadores moleculares denominados RAPD. O
melhorista nesse caso estava interessado na similaridade genética dessas
linhagens. Cinco bandas (marcadores diferentes) foram utilizadas. Os resultados
Ferreira, D.F. Estatística multivariada 291
para presença e para a ausência dessas bandas foram obtidos e estão
apresentados a seguir.
Bandas Linhagens 1 2 3 4 5
A 1 0 0 1 1 B 1 1 0 1 0
Existem, neste exemplo, duas concordâncias, uma com 1-1 e outra
com 2-2 e duas discordâncias, quais sejam, 0-1 e 1-0. Representando o escore (1
ou 0) da j-ésima variável binária no h-ésimo objeto por Xhj e da mesma forma Xij
representa o escore do i-ésimo objeto na j-ésima variável, j=1, 2, ..., p.
Conseqüentemente, a diferença ao quadrado entre os dois indivíduos ou objetos
para uma determinada variável resultará apenas no valor 0 ou no valor 1. Isso
pode ser observado facilmente pelos seguintes argumentos.
( )20 1 0
1
hj ij hj ij
hj ij
hj ij
se X X ou se X XX X
se X X
= = = =⎧⎪− = ⎨⎪ ≠⎩
(8.8)
Dessa forma, a distância euclidiana quadrática representa a
contagem do número de pares não coincidentes. Grandes distâncias
correspondem a muitos pares não coincidentes e, portanto, a objetos dissimilares.
Para o exemplo em questão, tem-se:
2, 2A Bd =
8. Análise de agrupamento 292
A equação (8.4) pode ser usada muitas vezes como base para
distância, no entanto, algumas vezes possui algumas limitações por considerar
que os pares (1-1) e (0-0) possuem o mesmo peso, o que em determinadas
situações reais (1-1) representa uma forte evidência de similaridade, mas o (0-0)
não. Muitos coeficientes existem na literatura, dando diferentes tratamentos a este
problema. Cabe ao leitor decidir em qual situação o seu problema se enquadra e
escolher a medida de parecença mais apropriada. Para introduzir estas medidas
de parecença são apresentados os resultados de coincidências e divergências dos
objetos h e i em uma tabela de contingência.
Item i
1 0
Totais
1
Item h
a b a + b
0 c d c + d
Totais a + c b + d p = a + b +c + d
Nesta Tabela pode-se observar que “a” representa a freqüência de
coincidências (1-1), “b” a freqüência de (1-0), e assim sucessivamente. No
exemplo tratado a = 2, b = c = d = 1.
Na Tabela 8.1 apresentam-se alguns dos coeficientes de
semelhança (similaridade) em termos das freqüências descritas anteriormente,
considerando variáveis binárias. Os valores para o exemplo, a variação de cada
Ferreira, D.F. Estatística multivariada 293
uma, o nome comum na literatura e explicação racional para as mesmas foram
apresentados.
Na Tabela 8.1, estão apresentados os coeficientes de similaridades,
no entanto, deve ser ressaltado que a única exceção é a distância binária de
Sokal. Muitas vezes as medidas de dissimilaridade podem ser transformadas em
medidas de similaridade pela relação apresentada em Johnson e Wichern (1988).
,,
11h i
h i
Sd
=+
(8.9)
Outra forma de se obter coeficientes de similaridades a partir da
distância euclidiana, calculada com variáveis padronizadas, pode ser obtida pelo
coeficiente de Cattel (Bussab, Miazaki, Andrade, 1990).
2,
,2,
223223
h i
h i
h i
p dS
p d
⎛ ⎞− −⎜ ⎟⎝ ⎠=⎛ ⎞− +⎜ ⎟⎝ ⎠
(8.10)
Uma outra expressão apresentada é atribuída a Cattel e Coulter
(Bussab, Miazaki, Andrade, 1990), também derivada considerando distâncias
euclidianas padronizadas é dada por:
2,
, 2,
22
h ih i
h i
p dS
p d−
=+
(8.11)
8. Análise de agrupamento 294
No entanto, nem sempre é possível construir distâncias a partir de
similaridades. Isso só pode ser feito se a matriz de similaridades for não negativa
definida. Com a condição de que Si,i = 1, máximo das similaridades, e que a matriz
de similaridades seja não negativa definida, então a expressão (8.12) tem as
propriedades de distância.
( ),, 12 h ih i Sd −= (8.12)
Ferreira, D.F. Estatística multivariada 295
Tabela 8.1. Alguns coeficientes de parecença para variáveis dicotômicas.
Nome Expressão Explicação Variação Ex. Coincidência simples
a dp+
Pesos iguais para 1-1 e 0-0 0-1 0,60
Sokal e Sneath
22
( )( )
a da d b c
++ + +
Peso duplo para 1-1 e 0-0 0-1 0,75
Rogers e Tanimoto
a da b c d
++ + +2( )
Duplo peso para pares não coincidentes
0-1 0,43
Russel e Rao ap
Nenhum 0-0 no numerador 0-1 0,40
Jaccard aa b c+ +
As coincidências 0-0 são tratadas como irrelevantes
0-1 0,50
Sorenson 22
aa b c+ +
0-0 é irrelevante e duplo peso para 1-1.
0-1 0,66
- aa b c+ +2( )
0-0 é irrelevante e duplo peso para não coincidência.
0-1 0,33
- ab c+
Razão entre coincidências e não coincidências - Exceto 0-0
0-(p-1) 1,00
Dist. Binária de Sokal
b cp+
Única medida de dissimilaridade. 0-1 0,63
Ochiai aa b a c( )( )+ +
Concordâncias positivas sobre adaptação da média geométrica de discordâncias
0-1 0,67
Baroni-Urbani-Buser a ad
a b c ad+
+ + +
Concordâncias positivas e a média geom. de concordância positivas e negativas
0-1 0,63
Haman ( ) ( )a d b cp
+ − +
Proporção de coincidências menos a proporção de discordâncias
-1 - +1 0,20
Yule ad bcad bc
−+
Proporção de ad menos a de bc -1 - +1 0,33
φ ad bca b a c b d c d
−
+ + + +( )( )( )( )
Produto de momento de correlação aplicado a variáveis binárias
-1 - +1 0,17
Ochiai II
( )( )( )( )ad
a b a c b d c d+ + + +
Proporção de coincidências em relação à média geom. total modificada
0 -1 0,33
8. Análise de agrupamento 296
Em algumas aplicações é necessário agrupar variáveis ao invés de
objetos. As medidas de similaridades para agrupar variáveis usadas na prática são
baseadas nos coeficientes de correlação amostral. Em algumas aplicações de
agrupamento, as correlações negativas são trocadas pelos seus valores
absolutos. Quando, as variáveis são binárias esta correlação está apresentada na
Tabela 8.1 (φ). Este coeficiente de correlação está associado à estatística de qui-
quadrado, para testar a independência de duas variáveis categóricas por
( 2 2 nφ = χ , n = a + b + c + d, χ2 com 1 grau de liberdade). Para n fixo, uma grande
similaridade (ou correlação) é consistente com a falta de independência entre as
variáveis. Uma outra importante observação que pode ser feita é que para
agrupamento de variáveis os coeficientes de similaridade e de distâncias podem
ser usadas, apenas tomando-se o cuidado de substituir p (número de variáveis)
por n (número de objetos).
8.3. Agrupamentos
Muitos algoritmos existem para formar os agrupamentos, devido a
existência de vários critérios existentes para conceituar os grupos que nem
sempre são aceitos universalmente. Uma outra razão para isso, é que raramente
pode-se examinar todas as possibilidades de agrupamento, mesmos com os mais
rápidos e possantes computadores.
Ferreira, D.F. Estatística multivariada 297
São apresentadas neste material algumas das técnicas de
agrupamentos denominadas hierárquicas e outra do grupo das não hierárquicas.
8.3.1. Agrupamentos hierárquicos
Os agrupamentos hierárquicos são realizados por sucessivas fusões
ou por sucessivas divisões. Os métodos hierárquicos aglomerativos iniciam com
tantos grupos quanto aos objetos, ou seja, cada objeto forma um agrupamento.
Inicialmente, os objetos mais similares são agrupados e fundidos formando um
único grupo. Eventualmente o processo é repetido, e com o decréscimo da
similaridade, todos os subgrupos são fundidos, formando um único grupo com
todos os objetos.
Os métodos hierárquicos divisivos trabalham na direção oposta. Um
único subgrupo inicial existe com todos os objetos e estes são subdivididos em
dois subgrupos de tal forma que exista o máximo de semelhança entre os objetos
dos mesmos subgrupos e a máxima dissimilaridade entre elementos de subgrupos
distintos. Estes subgrupos são posteriormente subdivididos em outros subgrupos
dissimilares. O processo é repetido até que haja tantos subgrupos quantos
objetos.
Os resultados finais destes agrupamentos podem ser apresentados
por gráficos denominados dendrogramas. Os dendrogramas apresentam os
8. Análise de agrupamento 298
elementos e os respectivos pontos de fusão ou divisão dos grupos formados em
cada estágio.
Os esforços deste capítulo serão concentrados nos métodos
hierárquicos aglomerativos (“Linkage Methods”). Serão discutidos os métodos de
ligação simples (mínima distância ou vizinho mais próximo), ligação completa
(máxima distância ou vizinho mais distante) e ligação média (distância média). As
idéias para estes três processos estão, esquematicamente, apresentados na
Figura 8.2.
.1
.2 .3
.4
.5
d24
(a)d15
(b).1
.2 .3
.4
.5
.1
.2 .3
.4
.5
(c)(d13+d14+d15+d23+d24+d25)/6
Figura 8.2. Distâncias entre os grupos para os métodos da (a) ligação simples, (b)
ligação completa e (c) ligação média.
Ferreira, D.F. Estatística multivariada 299
A seguir está apresentado um algoritmo geral para os agrupamentos
hierárquicos aglomerativos com n objetos (itens ou variáveis).
1. Iniciar com n grupos, cada um com um único elemento e com uma matriz
simétrica n x n de dissimilaridades (distâncias) D={dhi}.
2. Buscar na matriz D o par de grupos mais similar (menor distância) e fazer a
distância entre os grupos mais similares U e V igual a duv.
3. Fundir os grupos U e V e nomeá-lo por (UV). Recalcular e rearranjar as
distâncias na matriz D (a) eliminando as linhas e colunas correspondentes a U
e V e (b) acrescentando uma linha e coluna com as distâncias entre o grupo
(UV) e os demais grupos.
4. Repetir os passos 2 e 3 num total de (n-1) vezes (todos os objetos estarão em
único grupo). Anotar a identidade dos grupos que vão sendo fundidos e os
respectivos níveis (distâncias) nas quais isto ocorre.
(a) Ligação simples (vizinho mais próximo)
Para exemplificar é considerado um exemplo, no qual destacam-se 4
objetos (A, B, C, D), e para o qual a matriz de distâncias entre os objetos é
apresentada a seguir.
03 07 9 08 6 5 0
A B C DAB
DCD
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
8. Análise de agrupamento 300
Para ilustrar o método da ligação simples, os objetos menos
distantes devem, inicialmente, ser fundidos. Então, ( ), ,min 3h i A Bd d= = . O próximo
passo é fundir A com B formando o grupo (AB) e em seguida calcular as
distâncias deste grupo e os objetos remanescentes. As distâncias dos vizinhos
mais próximos são,
( ), min{ , } min{7, 9} 7AB C AC BCd d d= = =
( ), min{ , } min{8, 6} 6AB D AD BDd d d= = =
A nova matriz D para o próximo passo é:
07 06 5 0
AB C DAB
D CD
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
A menor distância é entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,
( ),( ) ( ) ( )min{ , } min{6, 7} 6DC AB D AB C ABd d d= = =
A nova matriz D fica,
06 0
DC ABDC
DAB
⎡ ⎤= ⎢ ⎥
⎣ ⎦
Ferreira, D.F. Estatística multivariada 301
Conseqüentemente o grupo DC é fundido com AB na distância 6. Na
Figura 8.3, foi apresentado o dendrograma, com os resultados alcançados.
Figura 8.3. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo método da
ligação simples (vizinho mais próximo).
(b) Ligação completa (vizinho mais distante)
O método da ligação completa é realizado da mesma forma que o do
vizinho mais próximo, com exceção de que a distância entre grupos é tomada
como a “máxima” distância entre dois elementos de cada grupo. Para ilustrar, será
usado o mesmo exemplo. Assim, considerando a mesma matriz de dissimilaridade
D do exemplo anterior. Inicialmente são fundidos os dois objetos menos distantes.
Então, como ( ), ,min 3= =h i A Bd d , os objetos A e B devem ser fundidos formando o
grupo (AB) e em seguida deve-se calcular as distâncias deste grupo e os objetos
remanescentes. As distâncias entre os grupos são consideradas com sendo a
distância entre os vizinhos mais distantes, dadas por:
Dendrograma
Single Linkage
Matriz de dissmilaridade
Distância de ligação
D
C
B
A
2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5
8. Análise de agrupamento 302
( ), max{ , } max{7, 9} 9AB C AC BCd d d= = =
( ), max{ , } max{8, 6} 8AB D AD BDd d d= = =
A nova matriz D para o próximo passo é:
09 08 5 0
AB C DAB
D CD
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
A menor distância é entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nível 5. Recalculando as distâncias entre os grupos
tem-se,
( ),( ) ( ) ( )max{ , } max{8, 9} 9DC AB D AB C ABd d d= = =
A nova matriz D fica,
09 0
DC ABDC
DAB
⎡ ⎤= ⎢ ⎥
⎣ ⎦
Conseqüentemente, o grupo DC é fundido com AB na distância 9.
Na Figura 8.4, foi apresentado o dendrograma, com os resultados alcançados.
Ferreira, D.F. Estatística multivariada 303
Figura 8.4. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo método da
ligação completa (vizinho mais distante).
Comparando-se os resultados alcançados e apresentados nas
Figuras 8.3 e 8.4, pode-se notar que os dendrogramas para o método do vizinho
mais próximo e do vizinho mais distante não diferem na alocação dos objetos e
sim na magnitude da fusão dos grupos CD com AB, para esse exemplo em
particular.
(c) Ligação média (método do centróide)
O método da ligação média é realizado da mesma forma que o do
vizinho mais próximo e mais distante, com exceção de que a distância entre
grupos é tomada como a média da distância entre dois elementos de cada grupo.
Para ilustrar, é usado o mesmo exemplo. Da mesma forma, são fundidos os
Dendrograma
Complete Linkage
Matriz de dissimilaridades
Distância de ligação
D
C
B
A
2 3 4 5 6 7 8 9 10
8. Análise de agrupamento 304
objetos menos distantes. Então, como ( ), ,min 3= =h i A Bd d , os objetos A e B devem
ser fundidos, formando o grupo (AB) e em seguida deve-se calcular as distâncias
deste grupo e os objetos remanescentes. As distâncias entre grupos são
baseadas na média das distâncias entre todos os elementos de um grupo com
relação aos elementos de outro grupo.
( ), ( ) / 2 (7 9) / 2 8AB C AC BCd d d= + = + =
( ), ( ) / 2 (8 6) / 2 7= + = + =AB D AD BDd d d
A nova matriz D para o próximo passo é:
08 07 5 0
AB C DAB
D CD
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
A menor distância é entre D e C, com dDC=5, os quais foram fundidos
formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,
( ),( ) ( ) ( )( ) (7 8) / 2 7,5DC AB D AB C ABd d d= + = + =
A nova matriz D fica,
07,5 0
DC ABDC
DAB
⎡ ⎤= ⎢ ⎥
⎣ ⎦
Ferreira, D.F. Estatística multivariada 305
Conseqüentemente o grupo DC é fundido com AB na distância 7,5.
Na Figura 8.5, foi apresentado o dendrograma, com os resultados alcançados.
Figura 8.5. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo método da
ligação média (centróide).
8.3.2. Agrupamentos não hierárquicos
Os agrupamentos não hierárquicos procuram a partição de n objetos
em k grupos. Os métodos exigem a pré-fixação de critérios que produzam
medidas sobre a qualidade da partição produzida. Um dos mais populares
métodos é o das k-médias.
Dendrograma
Unweighted pair-group average
Matriz de dissimilaridade
Distância de ligação
D
C
B
A
2 3 4 5 6 7 8
8. Análise de agrupamento 306
O algoritmo das k-médias, de uma forma bastante simplificada, é
dividido em três passos:
1. Particionar os itens em k grupos iniciais arbitrariamente;
2. Percorrer a lista de itens e calcular as distâncias de cada um deles para o
centróide (médias) dos grupos. Fazer a realocação do item para o grupo em
que ele apresentar mínima distância, obviamente se não for o grupo ao qual
este pertença. Recalcular os centróides dos grupos que ganharam e perderam
o item.
3. Repetir o passo 2 até que nenhuma alteração seja feita.
Exemplo 8.1
Utilizando 4 itens (A, B, C e D) e 2 variáveis (X1 e X2) dividir em k=2
grupos, pelo método das k-médias.
Observação Objeto x1 x2
A B C D
2 5 1 8
0 2 4 4
i) particionar os itens arbitrariamente em 2 grupos, como por exemplo AD e BC.
Calcular a média de cada grupo.
Centróide Objeto
1X 2X AD BC
(2+8)/2=5 (1+5)/2=3
(0+4)/2=2 (2+4)/2=3
Ferreira, D.F. Estatística multivariada 307
ii) Neste passo a distância de cada item será computada em relação ao centróide
de cada grupo e se necessário, os objetos serão realocados para o grupo mais
próximo.
2 2 2( )
2 2 2( )
(2 5) (0 2) 13
(2 3) (0 3) 10
A AD
A BC
dd
= − + − =
= − + − =
Neste caso há necessidade de realocação de A para o grupo BC,
sendo que os centróides dos grupos devem ser recalculados.
Centróide Objeto
1X 2X D
ABC 8
2,667 4 2
Recalculando as distâncias dos objetos para o centróide dos grupos
e checando a possibilidade de realocação, tem-se:
2
,
2
,( )
52
4,44A D
A ABC
dd
=
=
2
,
2
,( )
13
5,44B D
B ABC
dd
=
=
2
,
2
,( )
49
6,77C D
C ABC
dd
=
=
Item (distância quadrática p/ centróide) Grupo A B C D
D ABC
52,0 4,4
13,0 5,4
49,0 6,8
0,0 32,4
8. Análise de agrupamento 308
Nenhuma realocação deve ser realizada, pois os objetos têm menor
distância para os respectivos grupos aos quais eles pertencem. Para realizar uma
checagem da estabilidade de a partição alcançada é recomendável executar
novamente o algoritmo com uma nova partição inicial.
8.4. Exercícios
Agrupar os 4 objetos cuja matriz de dissimilaridades está
apresentada a seguir, utilizando todos os métodos apresentados nesse material.
A B C DA 0B 9 0
DC 25 36 0D 49 100 16 0
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
||[ ]||Análise de fatores
9
9.1. Introdução
A técnica dos componentes principais consiste em uma
transformação ortogonal dos eixos coordenados do sistema multivariado buscando
as orientações de maior variabilidade. Para o estudo de dependências estruturais
multinormais, as técnicas de explicação das covariâncias das respostas são
preferidas. Apesar de as técnicas dos componentes principais poder ser usada
para essa finalidade, esta não deve ser preferida por ser apenas uma
transformação e não um resultado de um modelo fundamental da estrutura de
covariância. Esse método possui alguns inconvenientes, tais como não ser
invariante quanto às mudanças de escalas e não possuir um critério adequado
para determinar quando uma proporção suficiente da variação total foi explicada
pelos componentes retidos.
Nesse capítulo apresenta-se a técnica de análise de fatores com o
propósito essencial de descrever, se possível, as relações de covariância entre
diversas variáveis em função de poucas, não observáveis, quantidades aleatórias
denominadas de fatores. Sob o modelo de fatores cada variável resposta é
9. Análise de fatores 310
representada por uma função linear de uma pequena quantidade de fatores
comuns, não observáveis, e de uma simples variável latente específica. Os fatores
comuns geram as covariâncias entre as variáveis observadas e os termos
específicos contribuem somente para as variâncias de suas respostas
relacionadas. Os coeficientes dos fatores comuns não são restritos a condição de
ortogonalidade, o que confere generalidade, apesar de se exigir normalidade dos
dados e a determinação, a priori, do número de fatores.
Nesse capítulo são apresentados o modelo de fatores ortogonais, os
métodos de estimação dos parâmetros desse modelo e brevemente o problema
de rotação dos fatores. É considerado um método de estimação que não exige
normalidade. Métodos de estimação de os escores dos fatores são, também,
abordados, o que ao contrário dos componentes principais não é uma tarefa
simples.
9.2. Modelo de fatores ortogonais
Supondo que o sistema multivariado consiste de p resposta descritas
pelas p variáveis observáveis aleatórias X1, X2, ..., Xp. Assumindo que o vetor de
observações multivariadas p 1X possui média µ e covariância Σ, então, o modelo
de fatores pressupõe que o vetor p 1X é linearmente dependente de algumas
poucas variáveis não observáveis F1, F2, ..., Fm chamadas de fatores comuns, e p
Ferreira, D.F. Estatística multivariada 311
fontes de variações adicionais ε1, ε2, ..., εp chamadas de erro ou de fatores
específicos. O modelo de fatores pode ser especificado por:
1 1 11 1 12 2 1m m 1
2 2 21 1 22 2 2m m 2
p p p1 1 p2 2 pm m p
X F F ... FX F F ... F
X F F ... F
−µ = + + + + ε−µ = + + + + ε
−µ = + + + + ε
(9.1)
ou em notação matricial por:
(p 1) (p m) (m 1) (p 1)
X L F× × × ×
−µ = + ε (9.2)
em que ij é denominado de carga da i-ésima variável para o j-ésimo fator, então
a matriz L é chamada matriz de cargas fatoriais. O i-esimo fator específico εi é
associado somente com a i-ésima variável resposta Xi. Os p desvios X1-µ1, X2-µ2,
..., Xp-µp são representados por p + m variáveis aleatórias F1, F2, ..., Fm, ε1, ε2, ...,
εp, as quais são não observáveis. Esse fato distingue o modelo de fatores do
modelo de regressão multivariada, pois este último possui variáveis independentes
(ocupadas em (9.2) por F) que são observáveis.
Devido ao grande número de quantidades não observáveis e
também com a finalidade de tornar útil o modelo de fatores, algumas
pressuposições sobre os vetores F e ε são impostas. Assim é assumido que F
tem distribuição com média 0 e que os elementos de F são independentemente
9. Análise de fatores 312
distribuídos, ou seja, F possui covariância Ι . Da mesma forma é assumido que ε
possui média zero e os seus elementos são independentemente distribuídos, ou
seja, Cov( ε )=Ψ diagonal (p x p). Sendo assim, definem-se:
E(F) 0= (9.3)
tCov(F) E(FF )= = Ι (9.4)
E( ) 0ε = (9.5)
1
2t
p
0 00 0
Cov( ) E( )
0 0
ψ⎡ ⎤⎢ ⎥ψ⎢ ⎥ε = εε = Ψ =⎢ ⎥⎢ ⎥ψ⎢ ⎥⎣ ⎦
(9.6)
Finalmente, é assumido que F e ε são independentes, portanto,
( )t
(p m)Cov( ,F) E F 0
×ε = ε = (9.7)
O modelo (9.2) e essas pressuposições definem o modelo de fatores
ortogonal. Dessa forma a estrutura de covariância de X pode ser dada por:
tCov(X) E(X )(X )= Σ = −µ −µ
Ferreira, D.F. Estatística multivariada 313
Substituindo X −µ pelas definições dadas no modelo (9.2), verifica-
se que:
( )( ) ( )( ) ( ) ( )( )( ) ( )
t t t t
t t t t
X X LF LF LF LF
LF LF LF LF
− µ −µ = + ε + ε = + ε + ε =
= + ε + ε + εε
Então,
( ) ( )
( ) ( ) ( )
t
t t t t
t t t t t t
Cov(X) E(X )(X )
E LF LF LF LF
LE(FF )L E F L L E F E
= Σ = − µ − µ =
⎡ ⎤= + ε + ε + εε⎣ ⎦
= + ε + ε + εε
De acordo com as condições (9.4), (9.6) e (9.7), tem-se:
tCov(X) LL= Σ = + Ψ (9.8)
Também podem ser obtidas as covariâncias entre os componentes
de X e F a partir das suposições assumidas e apresentadas anteriormente.
Assim,
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
t t t t
t t t t
Cov X, F E X F E LF F E LFF F
E LFF E F LE FF E F L 0 L
⎡ ⎤ ⎡ ⎤= − µ = + ε = + ε =⎣ ⎦⎣ ⎦
= + ε = + ε = Ι + =
9. Análise de fatores 314
Logo,
( ) ( )i j ijCov X, F L ou Cov X , F= = (9.9)
Da relação (9.8) verifica-se que:
m2 2 2 2
i ii ij i i1 i2 im ij 1
m
i k ik ij kj i1 k1 i2 k2 im kmj 1
Var(X ) ...
Cov(X , X ) ...
=
=
= σ = +ψ = + + + +ψ
= σ = = + + +
∑
∑
(9.10)
A porção da i-ésima variável explicada por m fatores comuns é
chamada de comunalidade e a porção de σii devida aos fatores específicos é
denominada de variância específica. Denotando a i-ésima comunalidade por 2ih é
fácil observar de (9.10) que:
2 2 2 2i i1 i2 imh ...= + + + (9.11)
Assim,
2ii i ih i 1, 2, ..., pσ = +ψ = (9.12)
Ferreira, D.F. Estatística multivariada 315
Quando m = p a matriz Σ pode ser reproduzida exatamente por tLL ,
de tal forma que Ψ=0. A utilidade da análise de fatores, no entanto, ocorre quando
m é bem menor do que p. Dessa forma, o número de parâmetros na análise de
fatores, p(m+1), é bem menor do que aqueles p(p+1)/2 parâmetros de Σ. Por
exemplo, para p=20 existem 20×21/2=210 parâmetros em Σ. Se m=2 fatores são
utilizados, então, o modelo de fatores possui p(m+1)=20(2+1)=60 parâmetros
( ij ie ψ ).
O grande problema da análise de fatores é a dificuldade ou a
impossibilidade de fatorar a matriz Σ em LL t +Ψ, quando m é bem menor do que p.
Algumas vezes, quando são obtidas soluções, estas são, em geral, inconsistentes
com as interpretações estatísticas. A análise de fatores tem como propósito a
determinação dos elementos da matriz de cargas fatoriais L e dos elementos de
Ψ, obedecendo a restrição (9.12).
Quando m > 1, várias soluções existem para o modelo de fatores,
todas consistentes com as interpretações estatísticas. Essa ambigüidade é a base
para uma importante característica da análise de fatores que é a rotação fatorial.
Para demonstrar essa propriedade, seja T uma matriz ortogonal m x m, ou seja,
TT t =T t T=I. A expressão (9.2) pode ser reescrita por:
t * *X LF LTT F L F−µ = + ε = + ε = + ε (9.13)
em que: *L LT= e * tF T F= .
9. Análise de fatores 316
Como * t tE(F ) T E(F) T 0 0= = = e * t tCov(F ) T 'Cov(F)T T T T T= = Ι = = Ι ,
então, é impossível distinguir as cargas de L das de L*, ou seja, os fatores
* tF e F T F= possuem as mesmas propriedades, uma vez que geram a mesma
matriz de covariância Σ, mesmo que as cargas fatoriais de L e de L* sejam, em
geral, diferentes. Assim,
t t t * *tLL LTT L L LΣ = + Ψ = + Ψ = + Ψ (9.14)
A escolha da matriz T é direcionada por um critério de facilitação da
interpretação dos fatores gerados, uma vez que as propriedades estatísticas não
são alteradas.
9.3. Estimação das cargas fatoriais
Nas situações reais, os parâmetros do modelo de fatores são
desconhecidos e devem ser estimados das observações amostrais. A análise de
fatores é justificável quando Σ difere de uma matriz diagonal, ou quando matriz ρ
de correlações difere da identidade. Para uma amostra 1 2 nX , X , ..., X de tamanho n
em p variáveis correlacionadas a matriz S é um estimador de Σ, bem como R é de
ρ. Com base em uma estimativa de Σ é possível realizar o teste de hipótese de
igualdade de Σ a uma matriz diagonal, conforme descrição realizada no capítulo 7.
Ferreira, D.F. Estatística multivariada 317
Se a hipótese não for rejeitada, os fatores específicos possuem papel dominante,
sendo que a análise de fatores é determinar alguns poucos fatores comuns. Nesse
caso, a análise de fatores não terá grande utilidade.
Se a hipótese de a estrutura de Σ ser igual a uma matriz diagonal for
rejeitada, então, o modelo de fatores será útil e o problema inicial será o de
estimar as cargas fatoriais ij e as variâncias específicas ψi. Nessa seção são
considerados dois métodos de estimação para os parâmetros do modelo de
fatores: o método dos componentes principais e o método da máxima
verossimilhança apresentado por Lawley (1940, 1942 e 1943). Qualquer que seja
o método aplicado, as soluções podem sofrer rotações com a finalidade de
simplificar as interpretações dos fatores. É prudente, também, tentar mais de uma
solução.
9.3.1. Método dos componentes principais
A decomposição espectral vista nos capítulos 2 e 7, representa um
importante método de fatoração de Σ. Sejam as matrizes 1 2 pP e e ... e⎡ ⎤= ⎣ ⎦ e
1 2 pDiag( , , ..., )Λ = λ λ λ compostas dos autovetores e autovalores de Σ, com
1 2 p...λ ≥ λ ≥ ≥ λ , então:
t 1/ 2 1/ 2 t tP P P P LLΣ = Λ = Λ Λ = (9.15)
9. Análise de fatores 318
em que, 1/ 2L P= Λ é uma matriz p x p de cargas fatoriais.
A equação (9.15) reflete um ajuste da estrutura de covariância por
um modelo de fatores tendo tantos fatores quanto variáveis (m = p) e variâncias
específicas ψi nulas para todo i = 1, 2, ..., p. Nesse modelo as cargas fatoriais do j-
ésimo fator representam os coeficientes do j-ésimo componente principal
(autovetor) multiplicado pelo fator de escala jλ . Embora a relação (9.15) seja
exata, esta não é útil por utilizar tantos fatores quanto variáveis e por não deixar
variação alguma para os fatores específicos.
Uma solução para o problema é considerar um número m, de fatores
comuns, menor do que o de variáveis p. Com esse critério p-m autovalores e os
respectivos autovetores são desconsiderados. Esses autovalores são àqueles (p-
m) menores. Dessa forma a contribuição de t t tm 1 m 1 m 1 m 2 m 2 m 2 p p pe e e e ... e e+ + + + + +λ + λ + + λ
para Σ é negligenciada. Desprezando essa contribuição, a seguinte aproximação
de Σ pode ser obtida:
1 1
t2 21 1 2 2 m m
m m
e
ee e ... e LL
e
⎡ ⎤λ⎢ ⎥⎢ ⎥λ⎡ ⎤Σ ≅ λ λ λ =⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥λ⎢ ⎥⎣ ⎦
(9.16)
em que L é uma matriz p x m. A representação (9.16), no entanto, não considera a
contribuição dos fatores específicos. A contribuição desses fatores pode ser
estimada tomando-se a diagonal de Σ - tLL , sendo tLL definida em (9.16).
Ferreira, D.F. Estatística multivariada 319
Dessa forma a matriz Σ pode ser aproximada por:
t
mt 2
i ii ijj 1
LL
Diag( LL ) ou para i=1, 2, ..., p.=
Σ ≅ + Ψ
Ψ = Σ − ψ = σ −∑
(9.17)
É comum trabalhar com a representação das variáveis em uma
escala padronizada. Nessa situação a variável Zi possui média 0 e variância 1. A
padronização pode ser realizada por:
( )
1 11
112 1/ 2
p pp
pp
XZZ
Z V XX
Z
−
⎡ ⎤−µ⎢ ⎥⎡ ⎤
σ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = −µ =⎢ ⎥⎢ ⎥
−µ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ σ⎢ ⎥⎣ ⎦
(9.18)
em que:
11
1/ 222
pp
1 0 0
10 0V
10 0
−
⎡ ⎤⎢ ⎥σ⎢ ⎥⎢ ⎥⎢ ⎥
σ= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦
9. Análise de fatores 320
A matriz de covariância de Z é dada por ρ. O processo de obtenção
dos parâmetros do modelo de fatores é o mesmo descrito nas equações de (9.17),
considerando Σ=ρ e 1/ 2L P= Λ , sendo P a matriz p x m com as colunas compostas
pelos m primeiros autovetores de ρ e Λ1/2 uma matriz m x m com diagonal igual a
iλ . Como ii 1σ = , é fácil perceber que m
2i ij
j 1
1=
ψ = −∑ . A padronização evita que
uma variável com elevada variação influencie indevidamente a determinação das
cargas fatoriais.
A representação apresentada em (9.17), quando Σ ou ρ são
substituídos pelos seus estimadores S ou R, é conhecida como solução dos
componentes principais para a análise de fatores. O nome se origina do fato de os
fatores serem derivados dos primeiros componentes principais amostrais. O
resumo dos principais resultados desse método de estimação é doravante
apresentado.
A análise de fatores por componentes principais obtidos da
covariância amostral S é especificada em função dos pares de autovalores e
autovetores ( )i iˆ ˆ, eλ , i = 1, 2, ..., p, em que 1 2 p
ˆ ˆ ˆ...λ ≥ λ ≥ ≥ λ . Seja m < p, o número
de fatores comuns. A matriz das cargas fatoriais estimadas ( )ijˆ é dada por:
1/ 21 1 2 2 m m 1 1
ˆ ˆ ˆ ˆ ˆˆ ˆ ˆL e e ... e P⎡ ⎤= λ λ λ = Λ⎢ ⎥⎣ ⎦ (9.19)
Ferreira, D.F. Estatística multivariada 321
em que 1P é uma matriz p x m dos autovetores amostrais de S e 1Λ é uma matriz
diagonal m x m dos autovalores amostrais de S.
Os estimadores das variâncias específicas são dados pela matriz
diagonal resultante da seguinte operação matricial.
( )1
2 t
p
0 00 0
Diag S LL
0 0
ψ⎡ ⎤⎢ ⎥ψ⎢ ⎥Ψ = = −⎢ ⎥⎢ ⎥ψ⎢ ⎥⎣ ⎦
(9.20)
De (9.20) verifica-se que:
m
2 2i ii ij ii i
j 1
S S h=
ψ = − = −∑ (9.21)
Sendo que o estimador da comunalidade é dado por:
2 2 2 2i i1 i2 imh ...= + + + (9.22)
A análise de fatores por componentes principais da matriz R, por sua
vez, é obtida substituindo S por R nas equações de (9.19) a (9.22). Na solução
dos componentes principais as estimativas das cargas fatoriais não se alteram
com o aumento do número m de fatores.
9. Análise de fatores 322
É fácil perceber por meio das definições apresentadas que a matriz
S não é fielmente reproduzida pela solução de componentes principais. A diagonal
de S é exatamente reproduzida pelo modelo de fatores, mas os elementos fora da
diagonal principal não são. Assim,
tS LL≅ + Ψ (9.23)
Se o número de fatores não é especificado por considerações a
priori, como por teoria ou por trabalhos anteriores de outros pesquisadores, a
escolha de m para uma decomposição de maior acurácia de S pode ser baseada
nos autovalores estimados, da mesma forma que o número de componentes
principais a serem retidos é determinado. Analiticamente, Johnson e Wichern
(1998) demonstram que a soma de quadrados dos elementos da matriz de
resíduos tS LL− −Ψ é menor ou igual a p
2i
i m 1
ˆ= +
λ∑ . Assim, um pequeno valor da soma
de quadrados dos últimos (p-m) autovalores negligenciados implica em uma
pequena soma de quadrados do erro da aproximação realizada por m
componentes. O ideal é obter uma elevada contribuição dos primeiros fatores para
a variação total amostral. Assim, verifica-se que:
p
2 2 2 2 tij 1j 2 j pj j j j j j
i 1
ˆ ˆ ˆˆ ˆ... e e=
= + + + = λ λ = λ∑ (9.24)
Ferreira, D.F. Estatística multivariada 323
Logo, a porcentagem da variação total devida ao j-ésimo fator é dada
por:
j
j
ˆ100 para fatores de S
Tr(S)%VarExp
ˆ100 para fatores de R
p
⎧ λ×⎪
⎪⎪= ⎨⎪λ⎪ ×⎪⎩
(9.25)
O critério (9.25) é usado como um artifício heurístico para determinar
o valor apropriado de m. O número de fatores comuns retidos deve aumentar até
que uma fração “adequada” da variação amostral tenha sido contemplada.
Exemplo 9.1. Em 24 tartarugas fêmeas foram mensuradas p = 3 variáveis X1, X2 e
X3, quais sejam, comprimento, largura e altura de carapaças transformadas por
logaritmo. A matriz de covariâncias amostrais é apresentada a seguir. Obter a
análise de fatores com m = 1 e m = 2 usando o método dos componentes
principais.
4,9810 3,8063 4,7740S 3,8063 3,0680 3,7183
4,7740 3,7183 4,8264
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
Inicialmente foi testada a hipótese:
9. Análise de fatores 324
11
220 ii 0
pp
0 00 0
H : ;
0 0
>
σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ = σ⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦
O valor de qui-quadrado obtido foi de 2c 127,9805χ = com ν=3 graus
de liberdade. Como ( )2Pr 127,9805 0,00000054χ > = rejeita-se H0 de independência
entre todas as variáveis. Portanto, a análise de fatores deve ser eficiente.
A solução para m = 1 é apresentada a seguir. A solução de 1 fator
explica 98,2% da variação total e pode ser julgada satisfatória. A soma de
quadrados dos dois últimos autovalores, dada por 2 22 3
ˆ ˆ 0,0291λ + λ = , foi considerada
muito pequena e indica que a soma de quadrados dos elementos da matriz de
resíduos não deve ultrapassar esse valor. Os resultados obtidos são:
Variáveis
Cargas fatoriais F1
Comunalidades 2ih
Variâncias específicas
iψ X1 2,2165 4,9129 0,0681 X2 1,7277 2,9849 0,0831 X3 2,1770 4,7394 0,0870
% explicação 98,1500
A matriz de resíduos é dada por:
Ferreira, D.F. Estatística multivariada 325
[ ]
tS LL
4,9810 3,8063 4,77403,8063 3,0680 3,71834,7740 3,7183 4,8264
2, 2165 0,0681 0 01,7277 2, 2165 1,7277 2,1770 0 0,0831 02,1770 0 0 0,0870
0 0,0228 0,05150,0228 0 0,04290,0515 0,
− − Ψ =
⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥⎣ ⎦
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
− −= − −
− − 0429 0
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
A soma de quadrados dos elementos dessa matriz de resíduos é de
apenas 0,01003, que é menor do que 0,0291 conforme já era esperado.
Para m = 2 a solução é dada por:
Cargas fatoriais Variáveis F1 F2
Comunalidades 2ih
Variâncias específicas
iψ X1 2,2165 0,1630 4,9394 0,0418 X2 1,7277 0,1608 3,0108 0,0575 X3 2,1770 -0,2935 4,8255 0,0003
% explicação acumulada
98,15
99,23
A soma de quadrados de resíduos para esse caso (m = 2) é igual a
0,0049, a qual é limitada por 0,0099. Uma vez que os ganhos foram muito
pequenos, o modelo de 1 fator pode ser julgado adequado. O fator 1 pode ser
interpretado como um fator de volume.
9. Análise de fatores 326
Uma aproximação modificada do método dos componentes
principais é denominada solução fatorial principal. O procedimento é válido tanto
para R quanto para S. A descrição que é realizada a seguir utiliza a matriz R. No
modelo de fatores tLLρ = + Ψ é perfeitamente especificado: os m fatores comuns
reconstituirão perfeitamente os elementos fora da diagonal principal de ρ, bem
como os elementos da diagonal com a participação da variância específica:
2i i1 h= +ψ .
Supondo que a contribuição dos fatores específicos seja removida
da reconstituição de ρ, então, a matriz resultante é ρ - Ψ = tLL . Suponha, também,
que estimativas iniciais *iψ tenham sido obtidas por um meio qualquer, então, é
possível definir a matriz de correlação amostral reduzida (Rr) eliminando o efeito
dos fatores específicos por *rR R= −Ψ . Esse processo é equivalente a substituir a
diagonal de R por *2 *i ih 1= −ψ . A matriz Rr é definida por:
*21 12 1p
*221 2 2p*
r
*2p1 p2 p
h r rr h r
R R
r r h
⎡ ⎤⎢ ⎥⎢ ⎥= −Ψ = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(9.26)
Teoricamente, desconsiderando a variação amostral, é possível
estabelecer que a matriz Rr pode ser recomposta pelos m fatores comuns. Dessa
forma, Rr é fatorada em:
Ferreira, D.F. Estatística multivariada 327
* *tr r rR L L≅ (9.27)
em que *rL é a matriz dos estimadores das cargas fatoriais *
ij .
O método fatorial principal de análise de fatores utiliza os
estimadores:
* * * * * * *r 1 1 2 2 m m
m* *2i ij
j 1
ˆ ˆ ˆˆ ˆ ˆL e e e
1=
⎧ ⎡ ⎤= λ λ λ⎪ ⎢ ⎥⎣ ⎦⎪⎪⎨⎪⎪ψ = −⎪⎩
∑
(9.28)
em que ( )* *i í
ˆ ˆ; eλ , i = 1, 2, ..., m são os (maiores) pares de autovalor-autovetor
obtidos de Rr.
As comunalidades devem ser re-estimadas por:
m
*2 *2i ij
j 1
h=
= ∑ (9.29)
O método, então, é aplicado iterativamente, considerando as
comunalidades estimadas em (9.29) para recalcular a matriz Rr em (9.26). Os
autovalores e autovetores dessa nova matriz Rr são obtidos e as estimativas das
cargas fatoriais e variâncias específicas utilizando (9.28) são novamente obtidas.
Novas comunalidades, também, são obtidas utilizando (9.29) e o processo é
repetido em novos estágios sucessivos, até que não haja alterações nas
9. Análise de fatores 328
estimativas das cargas fatoriais e das variâncias específicas para uma dada
precisão.
Um problema que pode surgir nesse procedimento é o aparecimento
de autovalores de Rr negativos. Recomenda-se utilizar o número de fatores
comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores
negativos é devida aos valores iniciais das variâncias específicas utilizadas.
Algumas alternativas existem para a escolha desses valores iniciais. A mais
popular é utilizar * iii 1 rψ = , em que rii é o elemento da i-ésima diagonal da matriz
R-1. As comunalidades iniciais são, então, dadas por:
*2 *i i ii
1h 1 1r
= −ψ = − (9.30)
que é igual ao coeficiente de determinação parcial múltiplo entre a i-ésima variável
(Xi) e as (p-1) demais variáveis. Essa relação é útil, pois permite que *2ih seja
obtida pelo coeficiente de determinação múltiplo, mesmo quando R não tiver posto
completo. Usando S, a variância específica inicial é função de Sii, o elemento da i-
ésima posição da diagonal de S-1, da seguinte forma:
*2 iii ii
mh S 1 S2p
⎛ ⎞= − −⎜ ⎟
⎝ ⎠ (9.31)
Ferreira, D.F. Estatística multivariada 329
9.3.2. Método da máxima verossimilhança
Se os fatores comuns F e os fatores específicos ε possuem
distribuição normal, estimativas de máxima verossimilhança podem ser obtidas.
Do modelo de fatores e da consideração de que as variáveis F e ε possuem
distribuição normal pode concluir que j j jX LF−µ = + ε também é normalmente
distribuído e portanto a função de verossimilhança é:
( )( ) ( )( )
( ) ( )
n / 2np / 2
n tt1j j
j 1
(n 1) / 2(n 1)p / 2 1n
t1/ 2p / 2 1
L( , ) (2 )
1exp tr X X X X n X X2
1(2 ) exp tr S2
n(2 ) exp tr X X2
−−
−
=
− −− − −
−− −
µ Σ = π Σ
⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪⎛ ⎞× − Σ − − + − µ − µ =⎢ ⎥⎨ ⎬⎜ ⎟⎜ ⎟⎝ ⎠ ⎢ ⎥⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭
⎧ ⎫⎛ ⎞ ⎡ ⎤= π Σ − Σ⎨ ⎬⎜ ⎟ ⎣ ⎦⎝ ⎠⎩ ⎭⎧ ⎫⎛ ⎞ ⎡ ⎤× π Σ − − µ Σ −µ⎨ ⎜ ⎟ ⎢ ⎥⎣ ⎦⎝ ⎠⎩
∑
⎬⎭
(9.32)
a qual depende de L e Ψ por meio de tLLΣ = +Ψ .
Devido à multiplicidade de escolhas para L dadas por
transformações ortogonais é imperativo impor uma restrição de unicidade
computacional por:
t 1L L−Ψ = ∆ uma matriz diagonal (9.33)
9. Análise de fatores 330
Os estimadores de máxima verossimilhança L e Ψ devem ser
obtidos por maximização numérica de (9.32). A maximização de (9.32) sujeita a
condição de unicidade (9.33) deve satisfazer:
( )( ) ( )1/ 2 1/ 2 1/ 2 1/ 2n
ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L− − − −Ψ Ψ Ψ = Ψ Ι + ∆ (9.34)
Lawley (1940, 1942, 1943) mostra que o estimador ∆ é dado por:
t 1ˆ ˆ ˆ ˆL L−∆ = Ψ (9.35)
Assim, a equação (9.34) pode ser rescrita de outra forma,
procedendo as seguintes operações:
( ) ( )
( )
1/ 2 1/ 2 1/ 2 1/ 2 t 1n
1/ 2 1/ 2 1/ 2 1/ 2 1/ 2 t 1n
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L L L
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L LL L
− − − − −
− − − − − −
Ψ Ψ Ψ = Ψ Ι + Ψ
Ψ Ψ Ψ −Ψ = Ψ Ψ
( )1/ 2 1/ 2 1/ 2 1/ 2 t 1n
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L LL L− − − − −Ψ Ψ − Ι Ψ = Ψ Ψ
Logo,
( )1/ 2 1/ 2 1/ 2 1/ 2 t 1n
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L LL L− − − − −⎡ ⎤Ψ −Ψ Ψ Ψ = Ψ Ψ⎣ ⎦ (9.36)
Ferreira, D.F. Estatística multivariada 331
Como t 1ˆ ˆ ˆL L−Ψ é uma matriz diagonal para garantir que os elementos
de L sejam únicos, então, os autovalores de ( ) 1n
ˆ ˆS −−Ψ Ψ , e portanto
( )1/ 2 1/ 2n
ˆ ˆ ˆS− −Ψ −Ψ Ψ , são iguais aos valores correspondentes a diagonal de ∆ .
Dessa forma, a i-ésima coluna de 1/ 2ˆ L−Ψ é o vetor característico correspondente
ao i-ésimo autovalor de ( )1/ 2 1/ 2n
ˆ ˆ ˆS− −Ψ −Ψ Ψ . O cálculo desses vetores não é um
processo direto, uma vez que os elementos de Ψ são também desconhecidos, os
quais devem ser obtidos da relação tˆ ˆ ˆDiag(S LL )Ψ = − . Sendo assim, o processo de
estimação deve ser executado iterativamente estimando-se os vetores
característicos correspondentes a valores iniciais de os elementos de Ψ , e então,
utilizá-los para obter novas estimativas mais precisas das variâncias específicas
sucessivamente.
Para o modelo com m fatores os vetores característicos
correspondentes aos m maiores autovalores de Sn podem ser utilizados como
valores iniciais do processo iterativo. Os elementos desses vetores devem ser re-
escalonados para que as somas de seus quadrados sejam iguais aos respectivos
autovalores. O processo iterativo é descrito a seguir:
1. Calcular as m raízes características ( )10 20 m0ˆ ˆ ˆ, ,...,λ λ λ de Sn e os vetores
característicos correspondentes ( )10 20 m0ˆ ˆ ˆe ,e ,..., e , de tal sorte que seus
elementos sejam re-escalonados para que tenham norma quadrática igual
9. Análise de fatores 332
a i0λ , na matriz 0P apresentada a seguir, com i = 1, 2, ..., m. Seja a matriz
0Q (p x m) definida por [ ]0 10 20 m0ˆ ˆ ˆ ˆQ e e ... e= , sem re-escalonar. Dessa forma,
é possível definir as matrizes 0Λ (m x m) e 0P (p x m) por:
10
200
m0
ˆ 0 0ˆ0 0ˆ
ˆ0 0
⎡ ⎤λ⎢ ⎥
λ⎢ ⎥Λ = ⎢ ⎥⎢ ⎥⎢ ⎥λ⎣ ⎦
e
1/ 20 0 0
ˆˆ ˆP Q= Λ
2. Aproximar as variâncias específicas por:
( )t0 n 0 0
ˆ ˆ ˆDiag S P PΨ = − (9.37)
3. Obter a matriz
( )1/ 2 1/ 20 n 0 0
ˆ ˆ ˆS− −Ψ −Ψ Ψ (9.38)
e extrair os m autovetores ( )11 21 m1ˆ ˆ ˆe ,e ,..., e e os correspondentes autovalores
( )11 21 m1ˆ ˆ ˆ, ,...,λ λ λ dessa matriz. Formar a matriz [ ]1 11 21 m1
ˆ ˆ ˆ ˆQ e e ... e= sem re-
escalonar e definir as matrizes:
Ferreira, D.F. Estatística multivariada 333
11
211
m1
ˆ 0 0ˆ0 0ˆ
ˆ0 0
⎡ ⎤λ⎢ ⎥
λ⎢ ⎥Λ = ⎢ ⎥⎢ ⎥⎢ ⎥λ⎣ ⎦
e
1/ 21 1 1
ˆˆ ˆP Q= Λ
A primeira aproximação de L ( )1L é dada por:
1/ 21 0 1
ˆ ˆ ˆL P= Ψ (9.39)
4. Calcular
( )t1 n 1 1
ˆ ˆ ˆDiag S L LΨ = − (9.40)
Repetir os passos 3 e 4 até que os correspondentes elementos de
sucessivas iterações de iL e i 1L + não difiram por um valor superior a uma
quantidade pré-determinada (critério de convergência). O resultado final do
processo iterativo conterá as estimativas de máxima verossimilhança para as
cargas fatoriais L e das variâncias específicas para o modelo m-fatorial. É
apresentado a seguir um programa SAS no procedimento de matrizes IML para a
obtenção de estimativas de máxima verossimilhança do modelo m-fatorial.
9. Análise de fatores 334
As cargas fatoriais e as variâncias específicas da matriz R podem
ser obtidas diretamente de L e Ψ realizando as seguintes transformações.
Formar a matriz diagonal (D) a partir dos elementos Sii de S. Então obter as
estimativas de máxima verossimilhança de R para as cargas fatoriais ( )ZL e para
as variâncias específicas ZΨ . Esses estimadores são:
1/ 2Z
ˆ ˆL D L−= (9.41)
1/ 2 1/ 2Z
ˆ ˆD D− −Ψ = Ψ (9.42)
As estimativas de máxima verossimilhança das comunalidades são
dadas por:
2 2 2 2i i1 i2 im
ˆ ˆ ˆ ˆh ... para i 1, 2, ..., p= + + + = (9.43)
Ferreira, D.F. Estatística multivariada 335
options ps=5000 ls=80 nodate nonumber;; proc iml; S={4.9810 3.8063 4.7740, 3.8063 3.0680 3.7183, 4.7740 3.7183 4.8264}; p=ncol(S);n=24;alpha=0.05; L0=Diag(eigval(S));P0=eigvec(S); numfac=1;numIt=100; L0=L0[1:numfac,1:numfac]; P0=P0[1:p,1:numfac];P0=P0*root(L0); print L0 P0; Psi0=diag(S-P0*P0`); print psi0; psii=psi0; do i=1 to numIt; Print '_______________________________________________________________'; print 'iteracao ' i; Print'________________________________________________________________'; Delta=inv(root(psii))*(S-psii)*inv(root(psii)); *print delta; Li=Diag(eigval(delta));Pi=eigvec(delta); Li=Li[1:numfac,1:numfac]; Pi=Pi[1:p,1:numfac]; Pi=root(psii)*Pi*root(Li); *print Li Pi; Psii=diag(S-Pi*Pi`); /*soma de quadrados dos residuos do modelo*/ resi=S-pi*pi`-psii; print 'Soma de quadrados dos residuos'; SQResiduo=sum(resi#resi); print sqresiduo; *print psii; Print'________________________________________________________________'; end; Print 'Solucao final do modelo de fatores'; Print 'Cargas fatoriais'; print Pi; print 'Variancias especificas'; print psii; resi=S-pi*pi`-psii; print 'matriz de residuos'; print resi; print 'Soma de quadrados dos residuos'; SQResiduo=sum(resi#resi); print sqresiduo; print 'Cargas fatoriais de Z-variaveis padronizadas'; D=root(inv(diag(S))); PiZ=D*Pi; print PiZ; print 'Variancias especificas fatoriais de Z-variaveis padronizadas'; PsiZ=D*psii*D; print PsiZ; Li=Diag(eigval(delta)); print Li; quit;
9. Análise de fatores 336
Dessa forma, a proporção explicada pelo j-ésimo fator é dada por:
p2ij
i 1
p2Z(i j)
i 1
ˆ100 para fatores de S
Tr(S)%VarExp
ˆ100 para fatores de R
p
=
=
⎧⎪⎪ ×⎪⎪= ⎨⎪⎪⎪ ×⎪⎩
∑
∑
(9.44)
O processo descrito anteriormente para a obtenção das soluções de
máxima verossimilhança possui convergência lenta. Aitken (1937) propôs uma
técnica conhecida por processo δ2 de aceleração dos esquemas iterativos de
convergência. Seja jt os elementos do t-ésimo processo iterativo, referente a j-
ésima coluna da matriz de cargas fatoriais Lt do estágio t. O processo de Aitken
(1937) prevê para 3 consecutivos valores de jt o ajuste pela razão:
ij( t 1) ijt
ijt ij( t 1)2i j t
ij( t 1) ijt ij( t 1)2
−
+
+ −
=− +
(9.45)
em que ijt é o i-esimo elemento de jt . Se o denominador de (9.45) for nulo o
valor de 2i j t deve ser feito igual a i j t .
Aitken (1937) mostra que os termos de 2j t convergem mais
rapidamente do que àqueles de j t .
Ferreira, D.F. Estatística multivariada 337
Exemplo 9.2. Utilizando a matriz de covariâncias amostral das 24 tartarugas
fêmeas que foram mensuradas em p = 3 variáveis X1, X2 e X3, as quais são:
comprimento, largura e altura de carapaças transformadas por logaritmo,
determinar o modelo de fatores com m = 1. Ajustar o modelo por meio de
estimativas de máximas verossimilhanças.
4,9810 3,8063 4,7740S 3,8063 3,0680 3,7183
4,7740 3,7183 4,8264
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
i) Inicialmente foram obtidos os autovalores e autovetores de S e
compostas as matrizes 0 0 0ˆˆ ˆ(1 1), Q (3 1) e P (3 1)Λ × × × por:
0ˆ 12,637147Λ = 0
0,6234937Q 0, 4859812
0,612436
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
1/ 20 0 0 0
2, 2164432ˆˆ ˆ ˆL P Q 1,727603
2,1771344
⎡ ⎤⎢ ⎥= = Λ = ⎢ ⎥⎢ ⎥⎣ ⎦
ii) As variâncias específicas iniciais foram obtidas por:
( )t0 n 0 0
0,0683794 0 0ˆ ˆ ˆDiag S P P 0 0,0833879 0
0 0 0,0864857
⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦
iii) Foi obtida a seguinte matriz e desta extraídos os autovalores e
autovetores. O m = 1 primeiro autovalor e autovetor correspondente
foram usados para compor as matrizes 1 1 1ˆˆ ˆ(1 1), Q (3 1) e P (3 1)Λ × × × .
9. Análise de fatores 338
( )1/ 2 1/ 20 n 0 0
71,843527 50,406739 62,079406ˆ ˆ ˆS 50,406739 35,791891 43,784534
62,079406 43,784534 54,805777
− −
⎡ ⎤⎢ ⎥Ψ −Ψ Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦
1ˆ 161,45963Λ = 1
0,6657947Q 0,4691915
0,5801523
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
1/ 21 1 1
8,4600381ˆˆ ˆP Q 5,9618652
7,3718074
⎡ ⎤⎢ ⎥= Λ = ⎢ ⎥⎢ ⎥⎣ ⎦
Finalmente a primeira aproximação 1L é feita por:
1/ 21 0 1
2,2122546ˆ ˆ ˆL P 1,721606
2,167934
⎡ ⎤⎢ ⎥= Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦
iv) Foi calculado o segundo valor 1Ψ por:
( )t1 n 0 0
0,0869296 0 0ˆ ˆ ˆDiag S L L 0 0,1040727 0
0 0 0,1264622
⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦
Os procedimentos 3 e 4 foram repetidos 41 vezes até que as trocas
na matriz (vetor) L fosse da ordem de 1e-7 ou menos. O resultado final foi:
Ferreira, D.F. Estatística multivariada 339
1/ 241 40 41
2,2106526ˆ ˆ ˆL P 1,7217993
2,1595433
⎡ ⎤⎢ ⎥= Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦
e
( )t41 n 41 41
0,0940152 0 0ˆ ˆ ˆDiag S L L 0 0,1034073 0
0 0 0,1627727
⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦
A matriz de resíduos (R) foi:
0 2,9835E-8 3,7474E-8R 2,9835E-8 0 -7,05E-8
3,7474E-8 -7,05E-8 0
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
E a soma de quadrados dos resíduos foi:
SQResíduos= 1,453E-14
As cargas fatoriais obtidas das variáveis padronizadas são:
1/ 2Z
1 0 04,9810 2,2106526 0,9905177
1ˆ ˆL D L 0 0 1,7217993 0,9830033,0680 2,1595433 0,9829926
10 04,8264
−
⎡ ⎤⎢ ⎥⎢ ⎥ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
E as variâncias específicas são:
9. Análise de fatores 340
1/ 2 1/ 2Z
0,0188748 0 0ˆ ˆD D 0 0,0337051 0
0 0 0,0337255
− −
⎡ ⎤⎢ ⎥Ψ = Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦
Exemplo 9.3. A matriz de correlação entre 10 escores das respectivas 10 provas
do declato, medidas em n = 160 atletas, está apresentada a seguir. Obter os m = 4
fatores pelo método da máxima verossimilhança. As dez variáveis mensuradas
são: i) corrida de 100 m rasos; ii) salto em distância; iii) lançamento de peso; iv)
salto em altura; v) corrida dos 400m livres; vi) 110 m com barreiras; vii) arremesso
de disco; viii) salto com vara; ix) arremesso de dardos; e x) corrida de 1500 m. A
matriz de correlação dos escores dos 160 competições.
1,00 0,59 0,35 0,34 0,63 0, 40 0, 28 0, 20 0,11 0,071,00 0, 42 0,51 0, 49 0,52 0,31 0,36 0, 21 0,09
1,00 0,38 0,19 0,36 0,73 0, 24 0, 44 0,081,00 0, 29 0, 46 0, 27 0,39 0,17 0,18
1,00 0,34 0,17 0, 23 0,13 0,39R
1,00 0,32 0,33 0,18 0,001,00 0, 24 0,34 0,0
−
−
=
− 21,00 0, 24 0,17
1,00 0,001,00
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥−⎢ ⎥⎢ ⎥⎣ ⎦
A solução de m = 4 fatores, dada por Johnson e Wichern (1998), foi
obtida pelo algoritmo apresentado nesse material por meio das estimativas de
máxima verossimilhança. Após 100 mil iterações o algoritmo convergiu.
Ferreira, D.F. Estatística multivariada 341
Estimativas de máxima verossimilhança
Cargas fatoriais estimadas Variâncias
específicas Variáveis
F1 F2
F3
F4
2i i
ˆˆ 1 hψ = −
Corrida 100m -0,0869 0,3449 0,8290 -0,1685 0,157935 Salto em distância 0,0688 0,4352 0,5931 0,2746 0,378693 Lançamento de peso -0,1294 0,9911 -0,0038 -0,0007 0,001053 Salto em altura 0,1603 0,4059 0,3343 0,4451 0,499688 corrida 400m 0,3787 0,2437 0,6702 -0,1372 0,329262 110m com barreira -0,0178 0,3629 0,4234 0,3878 0,538310 Arremesso de disco -0,0563 0,7294 0,0268 0,0182 0,463815 Salto com vara 0,1573 0,2640 0,2275 0,3937 0,698795 Arremesso de dardos -0,0218 0,4411 -0,0115 0,0971 0,795340 1500m rasos 0,9986 0,0496 -0,0004 -0,0001 0,000408 Proporção cumulativa da variância explicada
0,12
0,37 0,55
0,61
9. Análise de fatores 342
9.4. Rotação fatorial
A fatoração de Σ em tLL +Ψ não é única, conforme discussão
realizada na seção 9.2. A pós-multiplicação da matriz de cargas fatoriais L por
qualquer matriz ortogonal conformável (T) conduz a uma fatoração igualmente
válida. A solução numérica de Rao-Maxwell para as equações de verossimilhança
remove essa indeterminação por adotar a restrição de que t 1ˆ ˆ ˆL L−Ψ seja uma matriz
diagonal. Não obstante, após a obtenção da solução de máxima verossimilhança,
qualquer transformação ortogonal pode ser realizada. A idéia é aplicar tal
transformação rígida dos eixos coordenados, a qual conduz a um padrão que
tornam as cargas fatoriais mais facilmente interpretáveis. Essa rotação rígida dos
eixos coordenados das m-dimensões fatoriais é chamada de rotação das cargas
fatoriais.
Citado por Morrison (1974) Thurstone sugere um critério de resposta
de simples estrutura para a realização da rotação fatorial. Estruturas como a
sugerida raramente existe em dados reais e não será descrito o procedimento de
Thurstone. Outra técnica de uso limitado é a obtenção de rotação graficamente
dos fatores plotados dois a dois. A rotação analítica é o procedimento mais
comumente empregado. Na rotação ortogonal rígida as propriedades estatísticas
dos fatores ficam inalteradas, embora a matriz de cargas fatoriais não seja a
mesma. Supondo que a matriz p x m de cargas fatoriais seja submetida a uma
rotação rígida pela matriz ortogonal T (m x m) por meio da seguinte operação:
Ferreira, D.F. Estatística multivariada 343
*L LT= . A ortogonalidade de T, isto é, tT T = tT T = Ι, faz com que as
comunalidade fiquem inalteradas:
m m*2 2 *2 2ij ij i i
j 1 j 1
h h= =
= ⇔ =∑ ∑
bem como a soma de seus quadrados:
2p p pm m m 1 m
2 4 2 2ij ij ij ik
i 1 j 1 i 1 j 1 i 1 j 1 k j 1
2−
= = = = = = = +
⎛ ⎞= +⎜ ⎟
⎝ ⎠∑ ∑ ∑∑ ∑∑ ∑ (9.46)
também é invariante.
Com esse resultado em evidência é possível especificar critérios de
simplicidade ou parcimônia propostos pelos analistas de fatores (Morrison, 1976).
Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como
uma medida de parcimônia, por meio de uma escolha adequada de T. Esse
resultado foi determinado quase que ao mesmo tempo e independentemente por
Carroll (1953).
Neuhaus e Wrigley (1954) propuseram a maximização da variância
do quadrado das pm cargas fatoriais para definir T. A variância do quadrado das
cargas fatoriais é:
2p pm m
4 2ij ij
i 1 j 1 i 1 j 1
1Vpm= = = =
⎛ ⎞= − ⎜ ⎟
⎝ ⎠∑∑ ∑∑ (9.47)
Como o termo de correção é meramente soma das comunalidades
tomada ao quadrado, então, a maximização de V é equivalente a maximizar a
9. Análise de fatores 344
soma da quarta potência das cargas fatoriais, ou equivalentemente, minimizar a
medida de parcimônia de Fergusson (1954) e Carroll (1953). Por argumentos
diferentes Sanders (1960) obteve o mesmo critério de Neuhaus e Wrigley (1954).
Esse critério determina o método denominado de “quartimax” por maximizar a
soma da quarta potencia das cargas fatoriais.
Kaiser (1958, 1959) propôs uma medida de estrutura simples
relacionada a soma das variâncias das cargas fatoriais quadráticas dentro de cada
coluna da matriz L de fatores. O critério de “varimax” de linha de Kaiser é:
2p pm
* 4 2ij ij2
j 1 i 1 i 1
1v pp = = =
⎡ ⎤⎛ ⎞= −⎢ ⎥⎜ ⎟
⎢ ⎥⎝ ⎠⎣ ⎦∑ ∑ ∑ (9.48)
Esse critério dá pesos iguais às respostas com grandes e com
pequenas comunalidades e Kaiser sugere a melhora desse critério pelo uso do
critério alternativo:
2p pm
4 2ij ij2
j 1 i 1 i 1
1v p x xp = = =
⎡ ⎤⎛ ⎞= −⎢ ⎥⎜ ⎟
⎢ ⎥⎝ ⎠⎣ ⎦∑ ∑ ∑ (9.49)
em que:
ijij m
2ij
j 1
x
=
=
∑ (9.50)
Ferreira, D.F. Estatística multivariada 345
é j-ésima carga fatorial do i-ésima variável resposta dividida pela raiz quadrada de
sua comunalidade. Na seqüência da rotação os valores de xij devem ser
multiplicados pela raiz quadrada de sua comunalidade respectiva para restaurar a
dimensão original. Esse critério foi nomeado por Kaiser de “varimax”.
O processo computacional para a rotação varimax é descrito a
seguir. Considere o par de fatores r e s, com cargas normalizadas xir e xis. A
rotação desses fatores envolve o simples ângulo φ, e diferenciando (9.49) com
relação a φ Kaiser mostrou que o ângulo deve satisfazer a relação:
( ) ( )
( ) ( ) ( )
p p p2 2 2 2ir is ir is ir is ir is
i 1 i 1 i 1
2 2p p p22 2 2 2
ir is ir is ir is ir isi 1 i 1 i 1
2 2p x x x x x x 2 x xtg( )
p x x 2x x x x 2 x x
= = =
= = =
⎡ ⎤⎛ ⎞− − −⎢ ⎥⎜ ⎟
⎝ ⎠⎣ ⎦φ =⎧ ⎫⎡ ⎤ ⎛ ⎞⎪ ⎪⎡ ⎤− − − − −⎨ ⎬⎜ ⎟⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎝ ⎠⎪ ⎪⎩ ⎭
∑ ∑ ∑
∑ ∑ ∑ (9.51)
Para que a segunda derivada seja negativa é necessário que 4φ seja
colocado no quadrante correto. A escolha é designada pelos sinais do numerador
e denominador de (9.51). A Tabela 9.1 especifica o quadrante de 4φ em função
destes sinais.
A solução iterativa para a rotação é realizada de acordo com os
seguintes procedimentos: a rotação do primeiro e segundo fator é realizada como
ângulo φ determinado conforme descrição anterior; o novo primeiro fator é rotado
9. Análise de fatores 346
com o terceiro fator original, e assim por diante, até que m(m-1)/2 pares de
rotações tenham sido executadas. Essa seqüência de rotações é repetida até que
“todos” os ângulos sejam menores que um critério de convergência especificado ε,
dentro de um ciclo.
Tabela 9.1. Quadrante do ângulo 4φ em função dos sinais do numerador e
denominador da equação (9.51).
Sinal do numerador Sinal do denominador + (positivo) - (negativo)
+ (positivo) Ι: 00≤4φ<900 ΙV: -900≤4φ<00
- (negativo) ΙΙ: 900≤4φ<1800 ΙΙΙ: -1800≤4φ<-900
Exemplo 9.4. Efetuar a rotação varimax dos m = 3 fatores obtidos por Morrison
(1974) apresentados a seguir.
(incompleto)
9.5. Teste da falta de ajuste do modelo de fatores
A natureza das estimativas de máxima verossimilhança das cargas
fatoriais conduz a um teste formal para o m-ésimo modelo fatorial. A hipótese nula
é:
Ferreira, D.F. Estatística multivariada 347
t0
1
H : LL
H : uma matriz p p p.d. sim.
⎧ Σ = +Ψ⎪⎨⎪ Σ ×⎩
(9.52)
Usando a distribuição de Wishart, Morrison (1976) mostra que a
razão de verossimilhança fornece o seguinte teste, com a correção de Bartlett
(1954):
t
2c
n
ˆ ˆ ˆLL(2p 4m 5)n 1 ln6 S
⎧ ⎫+ Ψ+ + ⎪ ⎪⎡ ⎤χ = − − ⎨ ⎬⎢ ⎥⎣ ⎦ ⎪ ⎪⎩ ⎭ (9.53)
o qual tem distribuição qui-quadrado para grandes amostras com:
21 (p m) p m2⎡ ⎤ν = − − −⎣ ⎦ (9.54)
graus de liberdade.
Pela propriedade da invariância das cargas e das variâncias
específicas estimadas segue-se que o valor do teste seria o mesmo da solução de
fatores da matriz de correlação R. Para a aplicação do teste da falta de ajuste é
necessário que os graus de liberdade sejam positivos. Isso significa que o número
de fatores comuns m não pode exceder o maior inteiro que satisfaz a equação:
( )1m 2p 1 8p 12
< + − + (9.55)
9. Análise de fatores 348
O teste de razão de verossimilhança compara as variâncias
generalizadas tˆ ˆ ˆLL +Ψ e nS . Se m for pequeno em relação a p, geralmente H0 é
rejeitada, conduzindo a um modelo com um maior número de fatores comuns. Por
outro lado, quando m for grande em relação a p, a hipótese tende a ser não
rejeitada, principalmente para grandes valores de n. Isso acontece devido ao fato
de tˆ ˆ ˆLL +Ψ aproximar de Sn, de tal sorte que o acréscimo de novos fatores não
traga novas melhoras ao modelo. A diminuição de m pode, ainda, pelas mesmas
razões levar a não rejeição de H0. Algum tipo de bom sendo deve ser aplicado na
escolha de m.
Para demonstrar que a padronização das variáveis não afeta o teste
apresentado seja 1/ 2D− definida anteriormente a matriz diagonal com o recíproco
dos desvios padrões das p variáveis na diagonal principal. Então, a razão que
aparece na equação (9.53) pode ser operada por:
t 1/ 2 t 1/ 2
1/ 2 1/ 2n n
ˆ ˆ ˆ ˆ ˆ ˆLL D LL D
S D S D
− −
− −
+ Ψ +Ψ=
uma vez que a multiplicação do numerador e denominador não altera o resultado
final.
Pela propriedade do determinante |AB|=|A|×|B|, verifica-se que:
Ferreira, D.F. Estatística multivariada 349
t 1/ 2 t 1/ 2 1/ 2 1/ 2 tZ Z z
1/ 2 1/ 2n n
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆLL D LL D D D L L
S RD S D
− − − −
− −
+ Ψ + Ψ +Ψ= =
Dessa forma o teste de qui-quadrado é exatamente o mesmo,
quando for aplicado a partir da matriz Sn ou da matriz R, com os dados
padronizados.
9.6. Escores fatoriais
Os fatores são variáveis não observáveis, muito embora seus
valores possam ser estimados. Os valores estimados dos fatores são
denominados de escores. Dois métodos de estimação são propostos. Ambos
tratam as cargas fatoriais e as variâncias específicas estimadas como se fossem
os verdadeiros valores desconhecidos. Se ocorrer rotação, os escores são obtidos
a partir das cargas fatoriais que sofreram rotação e não a partir das originais. Não
obstante, as fórmulas não distinguirão entre as situações em que ocorreu rotação
daquelas em não ocorreu, uma vez que estas fórmulas não são alteradas pelas
rotações.
9. Análise de fatores 350
9.6.1. Método dos mínimos quadrados ponderados
Suponha que µ , L e Ψ sejam considerados inicialmente como
conhecidos para o modelo fatorial:
X LF−µ = + ε
Como Var(εi)=ψi, não necessariamente igual para todo i, Bartlett
(1937) sugeriu o uso dos quadrados mínimos ponderados, usando como peso o
recíproco das variâncias específicas. A soma de quadrados de resíduos do
modelo fatorial ponderada é dada por:
( ) ( )2p tt 1 1i
i 1 i
X LF X LF− −
=
ε= ε Ψ ε = −µ − Ψ −µ −
ψ∑ (9.56)
Bartlett (1937) propôs a solução F que minimiza (9.56). A solução é:
( ) ( )1t 1 t 1F L L L X−− −= Ψ Ψ −µ (9.57)
Como, de fato, L, Ψ e µ são desconhecidos, os respectivos
estimadores devem ser utilizados para a obtenção dos escores fatoriais:
Ferreira, D.F. Estatística multivariada 351
( ) ( )1t 1 t 1j j
ˆ ˆ ˆ ˆ ˆ ˆF L L L X X j 1, 2, ..., n−
− −= Ψ Ψ − = (9.58)
Se a matriz de correlação for utilizada, então:
( ) 1t 1 t 1j Z Z Z Z Z j
ˆ ˆ ˆ ˆ ˆ ˆF L L L Z j 1, 2, ..., n−
− −= Ψ Ψ = (9.59)
Se as cargas fatoriais que sofreram rotação são usadas *ˆ ˆL LT= ,
então, jF se relaciona com *jF por:
*j j
ˆ ˆF T 'F= (9.60)
9.6.2. Método de regressão
A partir do modelo de fatores originais:
X LF−µ = + ε
Considerando que L e Ψ são conhecidas, e que F e ε possuem
distribuição normal multivariada com média e variâncias dadas pelas equações de
9. Análise de fatores 352
(9.3) a (9.6), a combinação linear X LF−µ = + ε tem distribuição ( )tpN 0, LL +Ψ . A
distribuição conjunta de X −µ e F é, também, ( )*m pN 0,+ Σ ; em que:
t
*t
LL LL
⎡ ⎤+ ΨΣ = ⎢ ⎥Ι⎣ ⎦
(9.61)
A média 0 é um vetor [(m+p)×1] de zeros. A distribuição condicional
de F / x é normal com média e variância dados por:
( ) ( ) ( ) ( )1t 1 t tE F / x L x L LL x−−= Σ −µ = +Ψ −µ (9.62)
e
( ) ( ) 1t 1 t tCov F / x L L L LL L−−= Ι − Σ = Ι − +Ψ (9.63)
Os coeficientes ( ) 1t tL LL−
+ Ψ são os coeficientes de uma regressão
multivariada dos fatores com as variáveis originais. As estimativas desses
coeficientes produzem os escores fatoriais. Dados as observações jX e tomando-
se os estimadores de máxima verossimilhança L e Ψ os escores dos fatores são
dados por:
( ) ( )1t tj j
ˆ ˆ ˆ ˆ ˆF L LL X X j 1, 2, ..., n−
= +Ψ − = (9.64)
Ferreira, D.F. Estatística multivariada 353
O uso da identidade de matrizes:
( ) ( )1 1t t t 1 t 1ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆL LL L L L− −
− −+Ψ = Ι + Ψ Ψ (9.65)
pode simplificar o cálculo dos escores dos fatores, os quais são dados por:
( ) ( )1t 1 t 1j j
ˆ ˆ ˆ ˆ ˆ ˆF L L L X X j 1, 2, ..., n−
− −= Ι + Ψ Ψ − = (9.66)
A comparação dos escores fatoriais obtidos por regressão (LS) e por
mínimos quadrados ponderados (WLS) pode ser realizada subtraindo os
estimadores (9.66) e (9.58). Assim, simbolizando os estimadores de regressão por
LSjF e o de mínimos quadrados ponderados por WLS
jF e usando a identidade de
matriz dada por:
( ) ( )1 1t t 1 t 1 t 1ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆL LL L L L− −
− − −+ Ψ = Ι + Ψ Ψ
Tem-se:
( ) ( ) ( )1 1WLS t 1 t 1 LS LSt 1
j j jˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆˆ ˆ ˆF L L L L F FL L
− −− − −⎡ ⎤= Ψ Ι + Ψ = Ψ + Ι⎢ ⎥⎣ ⎦
Pelas estimativas de máxima verossimilhança verifica-se que
( ) 1t 1ˆ ˆ ˆL L−−Ψ é uma matriz diagonal e quando o seu valor for próximo de zero os
9. Análise de fatores 354
estimadores anteriores serão aproximadamente os mesmo, ou seja, os
estimadores anteriores fornecerão aproximadamente os mesmos escores.
9.7. Exercícios
9.7.1. Teste a hipótese de que o modelo com m = 1 fator, apresentado no exemplo
9.1, é adequado utilizando o teste de qui-quadrado para falta de ajuste do
modelo.
9.7.2. Para o exemplo 9.3 testar a aderência do modelo com m = 4 fatores.
9.7.3. Obter estimativas de máxima verossimilhança para m = 1 e m = 2 dos dados
apresentados no exemplo 7.6.7 e calcular os escores pelos dois métodos
apresentados. Para o caso de m = 2 fatores plotar os escores dos dois
fatores obtidos.
||[ ]||Análise de correlação canônica
10
10.1. Introdução
A análise de correlação canônica é centrada na identificação e
quantificação da associação entre dois grupos de variáveis. O foco da correlação
canônica é direcionado para a correlação entre uma combinação linear das
variáveis em um dos grupos com uma outra combinação linear das variáveis do
outro grupo de variáveis. A idéia fundamental é, a princípio, determinar as
combinações lineares dos dois grupos que possuem a maior correlação. No
próximo estágio, é determinado o par de maior correlação que seja, ainda, não
correlacionado com o par selecionado inicialmente. O processo continua até se
esgotar as dimensões de ambos os grupos ou do menor grupo. Os pares de
combinações lineares são denominados de variáveis canônicas e suas
correlações são chamadas de correlações canônicas. A técnica de encontrar
essas combinações lineares e suas respectivas correlações é devida a Hotelling
(1935 e 1936).
10. Análise de correlação canônica 356
A idéia fundamental é encontrar relações entre dois conjuntos de
variáveis, em alta dimensão, em poucos pares de variáveis canônicas. Várias
aplicações nas ciências humanas, na genética entre outras áreas são encontradas
na literatura.
10.2. Variáveis canônicas e correlação canônica populacionais
Seja X um vetor de dimensão (p+q x 1), o qual possui matriz de
covariância Σ e média µ . Sejam os vetores (1)X (p x 1) e (2)X (q x 1) definidos
como sendo originados de uma partição do vetor original X , representando um
grupo com p variáveis e outro com q, respectivamente. Sem perda de
generalidade é assumido que p≤q. Pressupõe-se, também, que Σ possui
elementos finitos e é positiva definida. Para o vetor aleatório X , os seguintes
resultados são apresentados.
(1)1(1)2
(1)(1)p(2)(2)1(2)2
(2)q
XX
XXX
XXX
X
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥
⎡ ⎤ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(10.1)
Ferreira, D.F. Estatística multivariada 357
Cuja média é:
(1)
(2)E(X)
⎡ ⎤µµ = = ⎢ ⎥
µ⎢ ⎥⎣ ⎦ (10.2)
E cuja matriz de covariância é:
( )( )t 11 12
21 22
p qp
E X Xq
Σ Σ⎡ ⎤Σ = −µ −µ = ⎢ ⎥Σ Σ⎣ ⎦
(10.3)
Assim, para os vetores (1)X (p x 1) e (2)X (q x 1) verifica-se que:
( ) ( )
( ) ( )
( )
(1) (1) (1)11
(2) (2) (2)22
(1) (2) t12 21
E X Cov X
E X Cov X
Cov X , X
⎧ = µ = Σ⎪⎪⎪
= µ = Σ⎨⎪⎪⎪ = Σ = Σ⎩
(10.4)
As covariâncias entre pares de variáveis pertencentes aos dois
grupos, uma de (1)X e outra de (2)X , estão contidas em Σ12. Dessa forma, os pq
elementos de Σ12 medem a associação entre os dois grupos. Se ambos os valores
de p e q são grandes, a interpretação simultânea desse conjunto de covariâncias é
uma tarefa difícil e na maioria das vezes infrutífera. Como a finalidade, em geral, é
10. Análise de correlação canônica 358
de realizar predição ou realizar comparação, o interesse pode ser focado em
combinações lineares das variáveis originais. A idéia é, portanto, concentrar a
atenção em algumas poucas combinações lineares de variáveis pertencentes a
(1)X e a (2)X , ao invés de utilizar todas as pq covariâncias contidas em Σ12.
Seguindo a notação normalmente utilizada na literatura
especializada, sejam as variáveis U e V combinações lineares das variáveis de
(1)X e de (2)X , respectivamente, definidas por:
t (1)
t (2)
U a X
V b X
⎧ =⎪⎨⎪ =⎩
(10.5)
sendo a e b vetores não nulos dos coeficientes dessas combinações lineares.
Assim,
( )( )
( )
t (1) t11
t (2) t22
t (1) (2) t12
Var(U) Cov a X a a
Var(V) Cov b X b b
Cov(U, V) a Cov X , X b a b
⎧ = = Σ⎪⎪ = = Σ⎨⎪
= = Σ⎪⎩
(10.6)
A correlação entre U e V é definida por:
t
12U, V t t
11 22
a bCorr(U, V)a a b b
Σ= ρ =
Σ Σ (10.7)
Ferreira, D.F. Estatística multivariada 359
Hotelling (1935 e 1936) propôs estabelecer os pares (Ui, Vi),
i=1, 2, ..., p, determinando os vetores ia e ib que maximizam (10.7). As variáveis
Ui e Vi são denominadas de variáveis canônicas e a correlação entre elas de
correlação canônica. Na seqüência são apresentados os resultados necessários
para a maximização de (10.7) e, portanto, para a obtenção das variáveis
canônicas e de suas correlações.
Para determinar o máximo de ρU,V, inicialmente são impostas as
restrições:
t t11 22a a b b 1Σ = Σ = (10.8)
A mudança de escala imposta pelas restrições (10.8) não afeta a
correlação (10.7). Para obter o máximo de ρU,V é preciso derivar a equação (10.7)
com relação aos vetores a e b e igualar as derivadas parciais a zero. As
equações obtidas são:
( ) ( ) ( )( )
( ) ( ) ( )( )
1/ 2 1/ 2 3 / 2U,V t t t t22 11 12 12 11 11
1/ 2 1/ 2 3 / 2U,V t t t t t11 22 12 12 22 22
1b b a a b 2 a b a a aa 2
1a a b b a 2 a b b b bb 2
− − −
− − −
⎧ ⎡ ⎤∂ρ ⎛ ⎞−= Σ Σ Σ + Σ Σ Σ⎪ ⎢ ⎥⎜ ⎟∂ ⎝ ⎠⎪ ⎣ ⎦
⎪⎨⎪ ⎡ ⎤∂ρ ⎛ ⎞−⎪ = Σ Σ Σ + Σ Σ Σ⎢ ⎥⎜ ⎟⎪ ∂ ⎝ ⎠⎣ ⎦⎩
(10.9)
Igualando as derivadas parciais de (10.9) a zero e impondo as
restrições (10.8), rearranjando alguns termos, obtém-se:
10. Análise de correlação canônica 360
( )
( )
t12 11 12
t t12 12 22
a b a b 0
a a b b 0
⎧− Σ Σ + Σ =⎪⎪⎨⎪Σ − Σ Σ =⎪⎩
(10.10)
É fácil observar que (10.7) sujeita as restrições (10.8) se torna igual
a tU, V 12a bρ = Σ , que é o valor máximo, então:
U, V 11 12
t12 U, V 22
a b 0
a b 0
⎧−ρ Σ + Σ =⎪⎨⎪Σ − ρ Σ =⎩
(10.11)
Assim, para solução de (10.11) é necessário que o determinante dos
coeficientes do sistema de equações homogêneas seja nulo. Logo,
U, V 11 12t12 U, V 22
0−ρ Σ Σ
=Σ −ρ Σ
(10.12)
Uma importante propriedade dos determinantes é reproduzida a
seguir. Seja uma matriz A com as seguintes partições:
11 12
21 22
A AA
A A⎡ ⎤
= ⎢ ⎥⎣ ⎦
(10.13)
Ferreira, D.F. Estatística multivariada 361
O determinante de A, se A11 e A22 são não singulares, é dado por:
111 22 21 11 12
122 11 12 22 21
A A A A A A
ou
A A A A A A
−
−
⎧ = −⎪⎪⎨⎪ = −⎪⎩
(10.14)
Utilizando o resultado (10.14) no determinante (10.12), obtém-se os
seguintes resultados para a primeira equação:
t 1U, V 11 U, V 22 12 11 12
U, V
1 0−−ρ Σ −ρ Σ + Σ Σ Σ =ρ
Como U, V 11−ρ Σ é diferente de zero, pois Σ11 é positiva definida,
então, o determinante anterior só será zero se:
t 1U, V 22 12 11 12
U, V
1 0−−ρ Σ + Σ Σ Σ =ρ
Como o resultado dessa equação é zero, não há alteração se ambos
os termos da equação à esquerda da desigualdade for multiplicado por ( )U, Vρ . Se
procede da mesma forma para a segunda equação do determinante de (10.14). O
resultado final dessa derivação é:
10. Análise de correlação canônica 362
1 t 212 22 12 U,V 11
t 1 212 11 12 U,V 22
0
0
−
−
⎧ Σ Σ Σ −ρ Σ =⎪⎪⎨⎪ Σ Σ Σ −ρ Σ =⎪⎩
(10.15)
Fazendo 2U,Vλ = ρ , verifica-se que as equações determinantais de
(10.15) podem ser vistas como maximização de pares de formas quadráticas
(capítulo 2) do tipo:
t
t
e Aee Be
λ =
restrito a te Be =1.
Assim, os resultados de (10.15) podem ser reescritos (capítulo 2) da
seguinte forma:
( )
( )
1 t12 22 12 11
t 112 11 12 22
a 0 (a)
b 0 (b)
−
−
⎧ Σ Σ Σ −λΣ =⎪⎪⎨⎪ Σ Σ Σ −λΣ =⎪⎩
(10.16)
A resolução do sistema de equações pode ser feita aplicando uma
transformação linear não singular. Isso é ilustrado doravante com a equação (a)
de (10.16). Seja 1/ 211Σ a matriz raiz quadrada de 11Σ e considere a transformação
linear 1/ 211c a= Σ , então, 1/ 2
11a c−= Σ . Se a equação (a) for pré-multiplicada por 1/ 211−Σ e
a for substituído por 1/ 211a c−= Σ , então:
Ferreira, D.F. Estatística multivariada 363
( )1/ 2 1 t 1/ 211 12 22 12 11 11 c 0− − −Σ Σ Σ Σ −λΣ Σ =
( )1/ 2 1 t 1/ 2 1/ 2 1/ 211 12 22 12 11 11 11 11 c 0− − − − −Σ Σ Σ Σ Σ −λΣ Σ Σ =
Então a solução de (a) é dada pela solução do seguinte sistema de
equações homogêneas:
( )1/ 2 1 t 1/ 211 12 22 12 11 i ic 0− − −Σ Σ Σ Σ Σ −λ Ι = (10.17)
A solução de (10.17) é facilmente obtida pelo cálculo dos autovalores
(λi) e autovetores ( )ic de 1/ 2 1 t 1/ 211 12 22 12 11− − −Σ Σ Σ Σ Σ . Os autovalores (λi) dessa matriz são
os mesmos do sistema não transformados por serem invariantes com relação a
transformações não singulares, no entanto, os autovetores são afetados pela
transformação. Dessa forma, os autovetores devem ser recuperados pela
transformação linear inversa a efetuada. Assim,
1/ 2i 11 ia c−= Σ (10.18)
Tratamento igual é dado para a equação (b) de (10.16), agora
efetuando a transformação linear 1/ 222d b= Σ . Então,
10. Análise de correlação canônica 364
( )1/ 2 t 1 1/ 222 12 11 12 22 i id 0− − −Σ Σ Σ Σ Σ −λ Ι = (10.19)
Os autovetores ib , soluções almejadas, são recuperados por:
1/ 2i 22 ib d−= Σ (10.20)
O máximo é obtido substituindo essas soluções em (10.7). Logo,
( )t
t12U, V 12t t
11 22
a bMax a ba a b ba,b
Σρ = = Σ
Σ Σ
Da equação (10.10), sabendo que tU, V 12 ia bρ = Σ = λ , verifica-se que
( )2t12a bλ = Σ , logo:
( )U, V iMaxa,b
ρ = λ (10.21)
As variáveis canônicas têm as seguintes propriedades:
( )t (1) t t 1/ 2 1/ 2 ti i i 11 i i 11 11 11 i i iVar(U ) Cov a X a a c c c c− −= = Σ = Σ Σ Σ =
Ferreira, D.F. Estatística multivariada 365
Sabendo que ic é um autovetor de 1/ 2 1 t 1/ 211 12 22 12 11− − −Σ Σ Σ Σ Σ com norma 1, e
procedendo da mesma forma para Var(Vi) verifica-se que:
( ) ( )i iVar U Var V 1= = (10.22)
A ( )kCov U , U com (k )≠ é dada por:
( ) ( )t (1) t (1) tk k k 11
t 1/ 2 1/ 2 t tk 11 11 11 k k
Cov U , U Cov a X , a X a a
c c c c c c 0 (k )− −
= = Σ =
= Σ Σ Σ = Ι = = ≠
Logo,
( ) ( ) ( )
( ) ( ) ( )
k k
k k
Cov U , U Corr U , U 0 k
Cov V , V Corr V , V 0 k
= = ≠⎧⎪⎨⎪ = = ≠⎩
(10.23)
Finalmente, a covariância entre Uk e V com ( )k ≠ é dada por:
( ) ( )t (1) t (2) tk k k 12
t 1/ 2 1/ 2k 11 12 22
Cov U , V Cov a X , b X a b
c d 0 (k )− −
= = Σ =
= Σ Σ Σ = ≠
Logo,
10. Análise de correlação canônica 366
( ) ( ) ( )k kCov U , V Corr U , V 0 k= = ≠ (10.24)
Para variáveis padronizadas (1) t (1) (1) (1)1 2 pZ Z Z Z⎡ ⎤= ⎣ ⎦ e
(2)t (1) (2) (2)1 2 qZ Z Z Z⎡ ⎤= ⎣ ⎦ as variáveis canônicas são dadas por:
t (1) t 1/ 2 (1)k k k 11
t (2) t 1/ 2 (2)k k k 22
U a Z c Z
V b Z d Z
−
−
⎧ = = ρ⎪⎨⎪ = = ρ⎩
(10.25)
em que kc e kd são os autovetores de norma 1 das matrizes 1/ 2 1 t 1/ 211 12 22 12 11− − −ρ ρ ρ ρ ρ e
1/ 2 t 1 1/ 222 12 11 12 22− − −ρ ρ ρ ρ ρ , respectivamente. Os autovetores originais devem ser
recuperados por:
1/ 2k 11 k
1/ 2k 22 k
a c
b d
−
−
⎧ = ρ⎪⎨⎪ = ρ⎩
(10.26)
em que: 11ρ (p x p), 12ρ (p x q) e 22ρ (q x q) são partições de ρ (p + q x p + q)
dadas por:
( ) 11 12t
21 22
p qp
E ZZqρ ρ⎡ ⎤
ρ = = ⎢ ⎥ρ ρ⎣ ⎦
(10.27)
Ferreira, D.F. Estatística multivariada 367
de forma que:
( ) ( )
( ) ( )
( )
(1) (1)11
(2) (2)22
(1) (2) t12 21
E Z 0 Cov Z
E Z 0 Cov Z
Cov Z , Z
⎧ = = ρ⎪⎪⎪
= = ρ⎨⎪⎪⎪ = ρ = ρ⎩
(10.28)
As correlações canônicas das combinações lineares padronizadas
são dadas por:
tk 12 k
k k kt tk 11 k k 22 k
a bCorr(U , V )a a b b
ρ= = λ
ρ ρ (10.29)
em que kλ é k-ésimo autovalor de 1/ 2 1 t 1/ 211 12 22 12 11− − −ρ ρ ρ ρ ρ , ou equivalentemente de
1/ 2 t 1 1/ 222 12 11 12 22− − −ρ ρ ρ ρ ρ .
Por se tratarem de variáveis artificiais, as variáveis canônicas não
possuem significado físico. Se (1)X (p x 1) e (2)X (q x 1) são utilizados, os
coeficientes de a e b têm as unidades dos correspondentes coeficientes de (1)X e
de (2)X . Se as variáveis padronizadas forem utilizadas, então, os coeficientes
canônicos não possuem unidades de mensuração e não dependem da escala das
variáveis. Em geral, é dada uma interpretação subjetiva para as variáveis
canônicas de acordo com a magnitude das correlações das variáveis originais com
10. Análise de correlação canônica 368
as variáveis canônicas em foco. Muitos pesquisadores preferem fazer tal
relacionamento utilizando os coeficientes canônicos estandardizados.
Sejam A (p x p) e B (q x q) matrizes definidas pelos vetores
canônicos:
1 1
2 2
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
t t
t t
t tp q
a ba b
A e B
a b
(10.30)
É possível definir os vetores de todas as p ou q variáveis canônicas
simultaneamente por:
1 1
2 2(1) (2)
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦p q
U VU V
U AX e V BX
U V
(10.31)
Logo,
( ) ( ) ( )(1) (1) (1) (1)11, ,= = = ΣCov U X Cov AX X ACov X A (10.32)
A matriz de correlação entre as p variáveis originais de (1)X e as p
variáveis canônicas de U é dada pela “covariância” entre as p variáveis canônicas,
Ferreira, D.F. Estatística multivariada 369
as quais já são estandardizadas, e as p variáveis de (1)X padronizadas. A
padronização de (1)X é dada por:
(1)11 (1)
1(1)2(1)1/ 2 (1)
2211
(1)
(1)
1 0 0
10 0
10 0
−
⎡ ⎤⎢ ⎥σ⎢ ⎥ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥σ= ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥
σ⎢ ⎥⎣ ⎦
p
pp
XX
V X
X
(10.33)
Assim,
( ) ( )(1)(1) (1) 1/ 2 (1) 1/ 2
11 11 11,, , − −ρ = = = Σ
U XCorr U X Cov AX V X A V (10.34)
Cálculo semelhante é realizado para os pares ( )(2),U X , ( )(2),V X e
( )(1),V X que resulta em:
( 2)
( 2)
(1)
1/ 212 22,
1/ 222 22,
1/ 212 11,
( )
( )
( )
−
−
−
⎧ρ = Σ ×⎪⎪⎪⎪ρ = Σ ×⎨⎪⎪⎪ρ = Σ ×⎪⎩
U X
V X
tV X
A V p q
B V q q
B V q p
(10.35)
em que 1/ 222−V é uma matriz diagonal (q x q) com o i-ésimo elemento dado por
(2)1/ σii .
10. Análise de correlação canônica 370
Para as variáveis canônicas calculadas de matrizes de correlação ρ,
a interpretação pode ser realizada alternativamente pelas correlações entre as
variáveis canônicas e as variáveis padronizadas. Sejam AZ (p x p) e BZ (q x q)
matrizes compostas dos coeficientes canônicos de (1)Z e (2)Z , respectivamente.
As correlações entre as variáveis canônicas e as variáveis padronizadas são
dadas por:
(1) ( 2)
( 2) (1)
11 22, ,
12 12, ,
;
;
⎧ = =⎪⎪⎨⎪ = =⎪⎩
Z ZU Z V Z
tZ ZU Z V Z
ρ A ρ ρ B ρ
ρ A ρ ρ B ρ (10.36)
As matrizes de correlação (10.34), (10.35) com (10.36), apresentam,
no entanto, os mesmos valores numéricos, como por exemplo (1) (1), ,=
U Z U Xρ ρ , e
assim por diante. Verifica-se facilmente isso por:
(1) (1)1/ 2 1/ 2 1/ 2 1/ 2
11 11 11 11 11 11 11, ,− − −= Σ = Σ = =ZU X U Z
ρ A V AV V V A ρ ρ
ou seja, a correlação não é afetada pela padronização (mudança de escala).
Ferreira, D.F. Estatística multivariada 371
10.3. Variáveis e correlações canônicas amostrais
Uma amostra aleatória de tamanho n em cada conjunto de (p + q)
variáveis aleatórias (1)X (p x 1) e (2)X (q x 1), dada por (1) (1) (1)1 2, , , nX X X e
(2) (2) (2)1 2, , , nX X X possui vetores de médias amostrais dados por:
(1)1
(1) (1)
(2) (2)1
(2)
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
p
q
X
X XX
X X
X
(10.37)
Em que:
(1) (1) (2) (2)
1 1
1 1= =
= =∑ ∑n n
j jj j
X X e X Xn n
(10.38)
A matriz de correlação amostral S (p + q x p + q) é dada por:
11 12
21 22
⎡ ⎤= ⎢ ⎥
⎣ ⎦
p qS Sp
SS Sq
(10.39)
10. Análise de correlação canônica 372
em que ( )( )( ) ( ) ( ) ( )
1
11
n tk kk j j
jS X X X X
n =
= − −− ∑ , , 1, 2=k .
As k-ésimas variáveis canônicas amostrais são dadas pelas
combinações lineares:
t (1)k k
t (2)k k
ˆ ˆU a X
ˆV b X
⎧ =⎪⎨⎪ =⎩
(10.40)
que maximizam a k-ésima correlação canônica amostral dada por:
k k
tk 12 k
ˆ ˆU , V t tk 11 k k 22 k
ˆa S bˆ ˆˆ ˆa S a b S b
=r (10.41)
O processo de maximização de (10.41) segue estritamente os
mesmos passos da maximização de (10.7), substituindo apenas Σ11, Σ22 e Σ12 por
S11, S22 e S12, respectivamente. As equações homogêneas correspondentes ao
máximo são dadas por:
( )
( )
1 t12 22 12 k 11 k
t 112 11 12 k 22 k
ˆ ˆS S S S a 0 (a)
ˆˆS S S S b 0 (b)
−
−
⎧ − λ =⎪⎪⎨⎪
−λ =⎪⎩
(10.42)
Ferreira, D.F. Estatística multivariada 373
Em que o máximo de ˆˆ ,k ku Vr é dado por kλ , para os autovetores ˆ
ka e
ˆkb obtidos por:
1/ 2k 11 k
1/ 2k 22 k
ˆ ˆa S c (a)
ˆ ˆb S d (b)
−
−
⎧ =⎪⎨⎪ =⎩
(10.43)
sendo que kc é k-ésimo autovetor de 1/ 2 1 t 1/ 211 12 22 12 11S S S S S− − − e kd o k-ésimo autovetor de
1/ 2 t 1 1/ 222 12 11 12 22S S S S S− − − ; kλ é o k-ésimo autovalor de ambas as matrizes, por serem
idênticos; k=1, 2, ..., p≤q.
As variáveis canônicas amostrais têm as seguintes propriedades:
1. Variâncias amostrais unitárias
( ) ( )k kˆ ˆˆ ˆVar U Var V 1= = (10.44)
2. Correlações amostrais:
k k k
ˆ ˆ ˆ ˆ ˆ ˆU ; U V ; V U ; Vr r r 0 (k )= = = ≠ (10.45)
3. Correlação amostral máxima:
k k
ˆ ˆ kU ; Vˆr = λ (10.46)
10. Análise de correlação canônica 374
Sejam as matrizes A (p p)× e B (q q)× definidas pelos vetores
canônicos amostrais:
11
2 2
ˆˆˆˆˆ ˆ
ˆ ˆ
tt
t t
t tp q
baa b
A e B
a b
⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦
(10.47)
Analogamente a (10.31) definem-se:
1 1
(1) (2)2 2
ˆ ˆ
ˆ ˆˆ ˆ ˆ ˆ
ˆ ˆp q
U V
U VU AX e V BX
U V
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥
= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
(10.48)
As correlações entre as variáveis canônicas amostrais e as variáveis
originais de cada um dos grupos podem ser obtidas. Para isso definiu-se as
matrizes diagonais ( )1/ 2 (1)11 iiD Diag 1/ S− = , (pxp) e ( )1/ 2 (2)
22 iiD Diag 1/ S− = , (qxq).
1. Matriz de correlações entre U e (1)X
(1)1/ 2
ˆ 11 11U, XˆR AS D−= (10.49)
Ferreira, D.F. Estatística multivariada 375
2. Matriz de correlações entre U e (2)X
( 2)1/ 2
ˆ 12 22U, XˆR AS D−= (10.50)
3. Matriz de correlações entre V e (1)X
(1)t 1/ 2
ˆ 12 11V, XˆR BS D−= (10.51)
4. Matriz de correlações entre V e (2)X
( 2)1/ 2
ˆ 22 22V, XˆR BS D−= (10.52)
Para variáveis padronizadas, as variáveis canônicas
correspondentes são:
1 1
(1) (2)2 2
ˆ ˆ
ˆ ˆˆ ˆ ˆ ˆ
ˆ ˆ
Z Z
p q
U V
U VU A Z e V B Z
U V
⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥
= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
(10.53)
em que:
1/ 2 1/ 211 22
ˆ ˆ ˆ ˆZ ZA AD e B BD= = (10.54)
10. Análise de correlação canônica 376
Sendo que ˆza e ˆ
zb , para as variáveis padronizadas, são obtidos da
mesma forma que os respectivos vetores para variáveis não padronizadas,
substituindo-se nas expressões correspondentes S11, S22 e S12 por R11, R22 e R12,
respectivamente. A relação (10.54) se verifica para o caso de variáveis canônicas,
mas não se pode estabelecer a mesma relação para os componentes principais
de matriz de covariância e matriz de correlação, como apontado por Johnson e
Wichern (1998). As matrizes de correlações entre as variáveis de cada grupo
padronizadas e as respectivas variáveis canônicas são dadas por:
(1) (1)
( 2) ( 2)
1 tˆ ˆZ 11 Z Z 12U,Z V,Z
1ˆ ˆZ 12 Z 22 ZU,Z V,Z
ˆ ˆ ˆR A R A R B R
ˆ ˆ ˆR A R R B R B
−
−
⎧ = = =⎪⎪⎨⎪ = = =⎪⎩
(10.55)
Da mesma forma, é fácil verificar que as correlações não são
afetadas pela padronização, ou seja, as correlações obtidas em (10.49) a (10.52)
são as mesmas as correspondentes em (10.55).
Uma importante avaliação da qualidade do potencial das variáveis
canônicas é medir o poder de resumo da variabilidade contida respectivo conjunto.
Duas formas básicas são descritas: na primeira apresenta-se uma matriz de erro
da aproximação e na segunda calcula-se a proporção da variância explicada pelas
variáveis canônicas para cada grupo de variáveis.
Ferreira, D.F. Estatística multivariada 377
As matrizes de erro são obtidas como se segue, admitindo as
definições (1)ˆ ˆ=U AX e (2)ˆ ˆ=V BX . Logo, é possível definir:
(1) 1 (2) 1ˆ ˆ ˆ ˆ− −= =X A U e X B V (10.56)
Como A e B são dadas por:
tt11
t t2(1) t 1/ 2 1/ 2 (2)t 1/ 2 1/ 22
11 11 22 22
t tp p
dcˆc dˆ ˆ ˆ ˆA P S S e B P S S
ˆ ˆc d
− − − −
⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = = = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦
(10.57)
Então:
1 1/ 2 (1) 1 1/ 2 (2)11 22
ˆ ˆ ˆ ˆA S P e B S P− −= = (10.58)
devido a (1)P e (2)P serem matrizes ortogonais de autovetores, é fácil perceber que
( ) 1(1)t (1)ˆ ˆP P−= e ( ) 1(2)t (2)ˆ ˆP P
−= .
Das definições de U e V sabe-se que a covariância entre eles é
uma matriz diagonal Λ (pxq) com kλ na k-ésima diagonal para k=1, 2,...p, e
cujas demais p-q colunas são formadas de zeros. Assim,
10. Análise de correlação canônica 378
( )
( )
( )
t (1) t 1/ 2 1/ 2 (2)12 11 12 22
t11
t22
ˆˆ ˆ ˆ ˆ ˆ ˆˆCov U, V AS B P S S S P
ˆ ˆˆˆCov U AS A
ˆ ˆ ˆˆCov V BS B
− −⎧ = = = Λ⎪⎪⎪⎪ = = Ι⎨⎪⎪⎪ = = Ι⎪⎩
(10.59)
Assim,
( )
t12
t 112
t1 112
ˆ ˆ ˆAS B
ˆˆ ˆS B A
ˆ ˆ ˆS A B
−
− −
= Λ
= Λ
= Λ
Da mesma forma:
( )t1 1
11ˆ ˆS A A− −= e ( )t1 1
22ˆ ˆS B B− −=
A idéia é reter um número r menor ou igual a p de variáveis
canônicas em cada grupo. O número r é escolhido de determinada forma que a
covariância amostral dentro de grupo seja reproduzida de uma forma satisfatória.
Da mesma forma é desejável uma boa aproximação das covariâncias entre grupos
S12. Sejam, então, as matrizes compostas das r (r≤p) primeiros autovalores e
autovetores de 1/ 2 1 t 1/ 211 12 22 12 11S S S S S− − − e de 1/ 2 t 1 1/ 2
22 12 11 12 22S S S S S− − − definidas por:
Ferreira, D.F. Estatística multivariada 379
t1t
(1)t 1/ 2 1/ 22r r 11 11
tr
ccˆ ˆA P S S
c
− −
⎡ ⎤⎢ ⎥⎢ ⎥= =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(10.60)
t1
t(2)t 1/ 2 1/ 22
r r 22 22
tr
d
dˆ ˆB P S S
d
− −
⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(10.61)
1
2r
r
ˆ 0 0
ˆ0 0ˆ
ˆ0 0
⎡ ⎤λ⎢ ⎥⎢ ⎥λΛ = ⎢ ⎥⎢ ⎥⎢ ⎥
λ⎢ ⎥⎣ ⎦
(10.62)
Assim, definem-se as matrizes:
1 1/ 2 (1) 1 1/ 2 (2)r 11 r r 22 r
ˆ ˆ ˆ ˆA S P e B S P− −= = (10.63)
Considerando as matrizes de resíduos E11, E22 e E12 das
reproduções de S11, S22 e S12, respectivamente, têm-se:
10. Análise de correlação canônica 380
( )( )
( )( )
( ) ( )
t1 1
11 11 r r
t1 122 22 r r
t1 112 12 r r r
ˆ ˆE S A A (a)
ˆ ˆE S B B (b)
ˆ ˆ ˆE S A B (c)
− −
− −
− −
⎧ = −⎪⎪⎪⎪ = −⎨⎪⎪⎪
= − Λ⎪⎩
(10.64)
A segunda alternativa relacionada a essa que apresenta em simples
número a explicação do respectivo conjunto, em substituição aos p(p-1)/2, q(q-1)/2
ou pq valores de E11, E22 e E12. Como ( ) ( )( ) ( )t
1 111 r r 11
ˆ ˆtr S tr A A tr E− −⎡ ⎤= +⎢ ⎥⎣ ⎦, e assim
por diante para as demais matrizes, a explicação das r variáveis canônicas para o
seu respectivo conjunto é dada por:
( ) ( )( )
( ) ( )( )
11(1)1 2 r
11
22(2)1 2 r
22
tr Eˆ ˆ ˆ%Exp U , U , , U de X 100 1 (a)tr S
tr Eˆ ˆ ˆ%Exp V , V , , V de X 100 1 (b)tr S
⎧ ⎛ ⎞= × −⎪ ⎜ ⎟⎜ ⎟⎪ ⎝ ⎠
⎪⎨⎪ ⎛ ⎞⎪ = × −⎜ ⎟⎜ ⎟⎪ ⎝ ⎠⎩
(10.65)
10.4. Inferências para grandes amostras
Quando Σ12=0 as variáveis canônicas t (1)U a X= e t (2)V b X=
possuem covariância nula para todos os pares de vetores a e b . Dessa forma,
Ferreira, D.F. Estatística multivariada 381
não existem vantagens em realizar uma análise de correlação canônica. Então, é
evidente que um teste de hipótese de que (Σ12) seja igual a uma matriz nula é
primordial para a validação da análise de correlação canônica. A seguir é
apresentado o teste para a hipótese:
0 12 1 12H : 0 (p q) vs H : 0Σ = × Σ ≠ (10.66)
Seja o vetor aleatório normal de dimensão (p + q x 1) com média µ e
covariância Σ, dado por:
(1)j
j (2)j
XX
X⎡ ⎤
= ⎢ ⎥⎢ ⎥⎣ ⎦
cuja covariância pode ser particionada em:
11 12
21 22
p qpq
Σ Σ⎡ ⎤Σ = ⎢ ⎥Σ Σ⎣ ⎦
Sob H0 o máximo da função de verossimilhança é dado por L0 e sob
H1 por L1, quais sejam:
( ) ( )/ 2( ) / 20 11 2211 22 (2 ) exp ( ) / 2, ,
nn p qL S S n p qX S S−− += π ⎡ ⎤ − +⎣ ⎦ (10.67)
10. Análise de correlação canônica 382
em que n é o tamanho da amostra, S11 e S22 são os estimadores das covariâncias
amostrais do grupo 1 e do grupo 2 de variáveis, p e q representam o número total
de variáveis no grupo 1 e 2, respectivamente.
Sob H1, modelo irrestrito tem-se:
( ) ( )/ 2/ 21 (2 ) exp / 2, nnpL npX S S −−= π − (10.68)
A razão de verossimilhança é dada por:
( )( )
/ 2
11 220 11 22
1
, ,,
nS SL X S S
L SX S
−⎡ ⎤
Λ = = ⎢ ⎥⎢ ⎥⎣ ⎦
(10.69)
O teste da razão de verossimilhança para a hipótese (10.66), dado
por:
( )p
11 222c i
i 1
S S ˆ2 ln( ) n ln n ln 1S =
⎛ ⎞ ⎡ ⎤χ = − Λ = = − −λ⎜ ⎟ ⎢ ⎥⎜ ⎟ ⎣ ⎦⎝ ⎠
∏ (10.70)
tem distribuição qui-quadrado com ν=pq graus de liberdade. Em que Λ é a razão
de verossimilhança do teste da hipótese (10.66).
O teste de razão de verossimilhança compara a variância amostral
generalizada sob H0:
Ferreira, D.F. Estatística multivariada 383
1111 22
22
S 0S S
0 S=
com a variância generalizada irrestrita, |S|. O primeiro caso com
p(p + 1)/2 + q(q + 1)/2 parâmetros e o segundo com (p + q)(p + q + 1)/2. A
diferença é igual a ν = pq parâmetros, que é igual aos graus de liberdade do teste
em questão. Bartlett (1939) sugere uma correção para uma melhor aproximação
de qui-quadrado, substituindo n em (10.70) por n – 1 - (p + q + 1)/2. O teste com a
correção de Bartlett (1939) é dado por:
( ) ( ) ( )p
11 222c i
i 1
S S1 1 ˆn 1 p q 1 ln n 1 p q 1 ln 12 2S =
⎛ ⎞ ⎡ ⎤⎡ ⎤ ⎡ ⎤χ = − − + + = − − − + + −λ⎜ ⎟ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎜ ⎟⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎝ ⎠∏ (10.71)
Se a hipótese nula ( )0 12 1 2 pH : 0 0Σ = ρ = ρ = = ρ = for rejeitada, é
natural buscar um número de correlações canônicas r que diferem
significativamente de zero. Em que kρ é a notação abreviada de k kU ;Vρ . Bartlett
(1938) sugere um teste seqüencial baseado na razão de verossimilhança. A
princípio, testar a hipótese de que a primeira correlação canônica é não nula e as
demais (p-1) são nulas; em seguida, testar que as duas primeiras são não nulas e
as demais (p-2) são nulas; e assim por diante. Para o k-ésimo passo desse
processo testar a hipótese (k)0H dada por:
10. Análise de correlação canônica 384
(k )0 1 2 k k 1 k 2 p
(k)1 i
H : 0, 0, , 0, 0
H : 0 para algum i k 1
+ +⎧ ρ ≠ ρ ≠ ρ ≠ ρ = ρ = = ρ =⎪⎨⎪ ρ ≠ ≥ +⎩
(10.72)
O teste dessa hipótese incorporando a correção de Bartlett (1939)
pode ser realizado por:
( ) ( )p
2c i
i k 1
1 ˆn 1 p q 1 ln 12 = +
⎡ ⎤⎡ ⎤χ = − − − + + −λ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦∏ (10.73)
o qual possui distribuição de qui-quadrado com ν=(p-k)(q-k) graus de liberdade. O
teste é realizado para k=1, 2, ..., (p-1).
Cada hipótese da seqüência 0H , (1)0H , (2)
0H , etc. é testada uma de
cada vez até que (k)0H não seja rejeitada para algum k. O valor nominal da
significância não é α, e possui difícil determinação. O teste é especialmente útil
para os dados normais e deve ser interpretado com cautela, e possivelmente deva
melhor ser usado como um guia não muito refinado de seleção do número r de
variáveis canônicas a ser retido. As distribuições amostrais das variáveis
canônicas possuem um estudo mais detalhado em Kshirsagar (1972).
Uma outra opção para esse teste é apresentada por Morrisson
(1976) que afirma que a distribuição do maior autovalor segue a distribuição da
maior raiz característica de Roy, com S=min(p, q), m=(|P-Q| -1)/2 e n=(n-p-q-2)/2.
O teste anterior foi generalizado por Wilks (1935) para avaliar a
independência entre k grupos de variáveis. O teste de razão de verossimilhança
Ferreira, D.F. Estatística multivariada 385
para a hipótese de independência entre k-grupos da distribuição normal
multivariada é apresentado doravante. Seja Σ, matriz de covariância para todas as
variáveis, particionada em k grupos, cada um com pi variáveis; a sub-matriz Σij de
dimensão pixpj (i≠j=1, 2, ...,k) é uma partição de Σ que contem as correspondentes
covariâncias entre as pi variáveis do i-ésimo grupo com as pj variáveis do j-ésimo
grupo. A hipótese de interesse é:
0 ij
1 ij
H : 0 para todo i j=1, 2, ..., k
H : 0 para algum i j=1, 2, ..., k
Σ = ≠⎧⎪⎨⎪ Σ ≠ ≠⎩
(10.74)
Cujo teste apresentado por Wilks (1935) depende da quantidade:
c11 22 kk
SV
S S S=
× × × (10.75)
cuja distribuição é muito complicada. Mas Box (1949) obteve boa aproximação de
qui-quadrado com ν graus de liberdade. O teste proposto é:
( )2c c
n 1ln VC−
χ = − (10.76)
em que:
10. Análise de correlação canônica 386
( )13 2
2
1C 1 2 312 (n 1)
12
−⎧ = − Γ + Γ⎪ ν −⎪⎪⎨⎪⎪ν = Γ⎪⎩
(10.77)
e
Sk k
SS i i
i 1 i 1p p ; S 2, 3
= =
⎛ ⎞Γ = − =⎜ ⎟
⎝ ⎠∑ ∑ (10.78)
Se k = 2 com p1 = p e p2 = q, o teste (10.76) é exatamente o mesmo
de (10.71). Se k = p + q e pi=1, para todo i=1, 2, ..., p + q, o teste é se especifica
no teste apresentado no capítulo 7, para a independência de variáveis, ou seja,
H0: Σ=diag(σii). Então, esse teste é uma generalização dos demais supra citados.
É conveniente que se saliente que se os testes forem aplicados sobre a matriz de
correlação, os resultados são equivalentes aos obtidos para a matriz de
covariâncias, substituindo-se S por R nas expressões anteriores.
10.5. Exercícios
10.5.1. Verifique que a derivação do máximo de (10.7) pode ser obtida a partir de
(10.16) utilizando o fator de Cholesky F, na transformação linear de
( )t111a F c−= e de ( )t1
22b F d−= no lugar de 1/ 211a c−= Σ e de 1/ 2
22b d−= Σ ,
Ferreira, D.F. Estatística multivariada 387
respectivamente; em que, F11 e F22 são os fatores de Cholesky de Σ11 e de
Σ22, respectivamente.
10.5.2. Dois testes ( (1)1X e (1)
2X ) de leitura foram aplicados em n=140 crianças
juntamente com dois testes de aritmética ( (2)1X e (2)
2X ). A matriz de
correlação amostral obtida foi:
11
1,0000 0,6328R
0,6328 1,0000⎡ ⎤
= ⎢ ⎥⎣ ⎦
; 22
1,0000 0, 4248R
0, 4248 1,0000⎡ ⎤
= ⎢ ⎥⎣ ⎦
; e 12
0, 2412 0,0586R
0,0553 0,0655⎡ ⎤
= ⎢ ⎥−⎣ ⎦
a) obtenha todas as variáveis canônicas amostrais e as respectivas correlações
máximas.
b) realizar o teste da hipótese:
0 12 12 1 12 12H : 0 (p q) vs H : 0Σ = ρ = × Σ = ρ ≠
Se H0 for rejeitada realizar o teste da hipótese:
0 1 2 0 2H : 0; 0 Vs H : 0ρ ≠ ρ = ρ ≠
discuta os resultados obtidos.
10. Análise de correlação canônica 388
c) estime as matrizes E11, E22 e E12 para o primeiro par de variáveis canônicas
(r=1).
d) Determine a proporção da variação explicada pelo primeiro par de variáveis
canônicas nos dois grupos.
e) calcule a correlação amostral entre (1)Z e (2)Z com U e com V .
||[ ]||Referências bibliográficas
11
ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed.
New York, John Wiley, 1984, 675p.
ANDERSON, T.W. The asymptotic theory for principal components analysis,
Annals of Mathematical Statistics, v.34, p.122-148, 1963.
BARTLETT, M.S. A note on multiplying factors for various Chi-Square
approximations. Journal of the royal Statistical Society –Series B. v.16,
p.296-298, 1954.
BARTLETT, M.S. A note on tests of significance in multivariate analysis.
Proceedings of the Cambridge Philosophical Society, v.35, p.180-185, 1939.
BARTLETT, M.S. Further aspects of the theory of multiple regression.
Proceedings of the Cambridge Philosophical Society, v.34, p.33-40, 1938.
BARTLETT, M.S. The statistical conception of mental factors. British Journal of
Psychology. v.28, p.97-104, 1937.
11. Referências bibliográficas 390
BENNETT, B.M. Note on a solution of the generalized Behrens-Fisher problem,
Annals of the Institute of Statistical Mathematics, v.2, p.97-90, 1951.
BOCK, R.D. Multivariate statistical methods in behavioral research. McGraw
Hill, 1975.
BOX, G.E.P. A general distribution theory for a class of likelihood criteria,
Biometrika. v.36, p.317346, 1949.
CARROLL, J.B. An analytical solution for approximating simple structure in factor
analysis. Psychometrika. v.18, pp.23-28, 1953.
CHRISTENSEN, W.F.; RENCHER, A.C. A comparison of type I rates and power
levels for seven solutions to the multivariate Behrens-Fisher problem.
Communication in Statistics-Simula., v.26, n.4, p.1251-1273, 1997.
CLEVELAND, W.S.; RELLES, D.A. Clustering by identification with special
application to two way tables of counts. Journal of American Statistical
Association. v.70, n.351, 1975. 626-630p.
D’AGOSTINO, R.B.;TIÉTJEN, G.L. Approaches to the null distribution of b1 ,
Biometrika, v.60, p.169-173, 1973.
D’AGOSTINO, R.B.;TIÉTJEN, G.L. Simulation probability points of b2 in small
samples, Biometrika, v.58, p.669-672, 1971.
Ferreira, D.F. Estatística multivariada 391
DINIZ, L de C. Dinâmica populacional do piolho de são José Quadraspidiotus
perniciosus (Comostock, 1881) (Homóptera: Dispididae) em pessegueiro, no
município de Jacuí - Minas Gerais. UFLA, Lavras, MG, 1996. 61p. (dissertação
de mestrado).
FERGUSON, G.A. The concept of parsimony in factor analysis. Psychometrika.
v.19, pp.281-290, 1954.
GIRSHICK, M.A. On the sampling theory of roots of determinantal equations.
Annals of Mathematical Statistics. v.10, p.203-224, 1939.
HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321-
377, 1936.
HOTELLING, H. The most predictable criterion. Journal of Educational
Psychology. v.26, p.139-142, 1935.
HOUSEHOLDER, A.S. Principles of numerical analysis. McGraw-Hill, New york,
1953.
HOUSEHOLDER, A.S. The theory of matrices in numerical analysis. Blarsdell,
Waltham, Mass., 1964.
JAMES, G.S. Tests of linear hypotheses in univariate and multivariate analysis
when the ratios of the population variances are unknown, Biometrika, v.41,
p.19-43, 1954.
11. Referências bibliográficas 392
JOHANSEN, S. The Welch-James approximation to the distribution of the residual
sum of squares in a weighted linear regression, Biometrika, v.67, n.1, p.85-92,
1980.
JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th
edition. Prentice Hall, New Jersey, 1998. 816p.
KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of
Educational and Psychological Measurement. v.19, pp.413-420, 1959.
KAISER, H.F. The varimax criterion for analytic rotation in factor analysis.
Psychometrika. v.23, pp.187-200, 1958.
KIM, S. A practical solution to the multivariate Behrens-Fisher problem,
Biometrika, v.79, n.1, p.171-176, 1992.
KRZANOWSKI, W.J. Principles of multivariate analysis. A user’s perspective.
Oxford, 3rd edition, 1993. 563p.
KSHIRSAGAR, A.M. Multivariate analysis. New York: Marcel Dekker, 1972.
LAWLEY, D.N. Further estimation in factor analysis. Proceedings of the Royal
Society of Edinburgh, Series A. v.61, pp.176-185, 1942.
LAWLEY, D.N. On testing a set of correlation coefficients for equality, Annals of
Mathematical Statistics, v.34, p.149-151, 1963.
Ferreira, D.F. Estatística multivariada 393
LAWLEY, D.N. Tests of significance for the latent roots of covariance and
correlation matrices. Biometrika, v.43, p.128-136, 1956.
LAWLEY, D.N. Tests of significance in canonical analysis. Biometrika. v.46,
p.59-66, 1959.
LAWLEY, D.N. The application of the maximum likelihood method to factor
analysis. British Journal of Psychology. v.33, pp.172-175, 1943.
LAWLEY, D.N. The estimation of factor loadings by the method of the maximum
likelihood. Proceedings of the Royal Society of Edinburgh, Series A. v.60 ou 40
(checar), pp.64-82, 1940.
MARDIA, K.V. Applications of some measures of multivariate skewness and
kurtosis for testing normality and robustness studies. Sankyã. A36, p.115-128,
1974.
MARDIA, K.V. Measures of multivariate skewness and kurtosis with applications.
Biometrika, p.519-530, 1970.
MARRIOTT, F.H.C. The interpretation of multiple observations. London,
Academic Press, 1974.
MOMENTÉ, V.G. Comparações entre diferentes tipos de famílias clonais para
o melhoramento genético da batata (Solanum tuberosum L.). ESAL, Lavras,
MG, 1994. 83p. (dissertação de mestrado).
11. Referências bibliográficas 394
MORRISON, D.F. Multivariate statistical methods. New York: McGraw-Hill, 2d
ed., 1976. 307p.
NEHAUS, J.; WRIGLEY, C. The quartimax method: an analytical approach to
orthogonal simple structure. British Journal of Psychology. v.7, pp.81-91, 1954.
NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher
problem. Communications in Statistics: Theory and Methods, v.15, p.3719-
3735, 1986.
PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed.
Cambridge University Press, New York, 1966.
SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York,
1966.
WIKS, S.S. On the independence of k sets of normally distributed statistical
variables. Econometrica. v.3, p.309-326, 1935.
YAO, Y. An approximate degrees of freedom solution to the multivariate
Behrens-Fisher problem. Biometrika, v.52, n.1, p.139-147, 1965.
top related