multivariada - ufla

MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CIÊNCIAS EXATAS

ANÁLISE MULTIVARIADA

Daniel Furtado Ferreira

LAVRAS, MG

SUMÁRIO Pág.

1. Aspectos da análise multivariada 1

1.1. Introdução 1

1.2. Aplicação das técnicas multivariadas 3

1.3. Organização de dados 5

1.4. Distâncias 15

1.5. Exercícios 24

2. Álgebra vetorial e matricial 25

2.1. Introdução 25

2.2. Elementos de álgebra vetorial 26

2.3. Elementos de álgebra matricial 34

2.4. Exercícios 82

3. Amostragem multivariada 89

3.2. Geometria amostral 90

3.3. Amostras aleatórias e esperanças do vetor de média e da matriz de covariância amostral. 101

3.4. Variância generalizada 104

3.5. Variância generalizada de variáveis generalizadas 113

3.6. Outra generalização da variância 116

3.7. Exercícios 117

4. Distribuição normal multivariada 119

4.2. Pressuposições das análises multivariadas 120

4.3. Densidade normal multivariada e suas propriedades 121

4.4. Distribuição normal bivariada 125

4.5. Distribuição amostral de X e S 133

4.6. Distribuições amostral derivada da distribuição normal multivariada 138

4.7. Verificando a normalidade 143

5. Inferências sobre o vetor média 171

5.2. Inferências sobre média de uma população normal 171

5.3. Região de confiança e comparações simultâneas de componentes de média 177

5.4. Inferências sobre proporções de grandes amostras 190

5.5. Comparações pareadas 192

5.6. Comparações de vetores de médias de duas populações 199

6. Análise de variância multivariada 219

6.2. Delineamento de classificação simples 220

6.3. Intervalos de confiança simultâneos para o efeito de tratamentos 230

7. Componentes principais 233

7.2. Componentes principais populacionais 234

7.3. Componentes principais amostrais 250

7.4. Gráficos dos componentes principais 256

7.5. Inferências para grandes amostras 259

8. Análise de agrupamento 285

8.2. Medidas de parecença (similaridades e dissimilaridades) 286

8.3. Agrupamentos 296

9. Análise de fatores 309

9.2. Modelo de fatores ortogonais 310

9.3. Estimação de cargas fatoriais 316

9.4. Rotação fatorial 342

9.5. Teste da falta de ajuste do modelo fatorial 346

9.6. Escores fatoriais 349

10. Análise de correlação canônica 355

10.2. Variáveis canônicas e correlação canônica populacionais 356

10.3. Variáveis e correlações canônicas amostrais 371

10.4. Inferências para grandes amostras 380

11. Referencias bibliográficas 389

Apêndices 395

Índice remissivo 397

||[ ]||Aspectos da análise multivariada

1.1. Introdução

Nos trabalhos científicos, o problema de se inferir, a partir de dados

mensurados pelo pesquisador, sobre os processos ou fenômenos físicos,

biológicos ou sociais, que não se pode diretamente observar, é uma realidade

constante. A pesquisa científica se constitui num processo interativo de

aprendizado. Para explicação de um fenômeno, o pesquisador em geral coleta e

analisa dados de acordo com uma hipótese. Por outro lado, a análise destes

mesmos dados coletados de amostragem ou experimentação geralmente sugere

modificações da explicação do fenômeno, além disso, devido à complexidade

destes fenômenos, o pesquisador deve coletar observações de diferentes

variáveis. Neste contexto, a inferência estatística é realizada de acordo com o

paradigma hipotético-dedutivo (Bock, 1975).

Devido aos fenômenos serem estudados a partir de dados coletados

ou mensurados em muitas variáveis, os métodos estatísticos delineados para

obter informações a partir destes conjuntos de informações, são denominados de

métodos de análises multivariados. A necessidade de compreensão das relações

entre as diversas variáveis faz com que as análises multivariadas sejam

complexas ou até mesmo difíceis. O objetivo do presente material é apresentar a

utilidade das técnicas multivariada de uma forma clara, usando exemplos

ilustrativos e evitando o máximo de possível de cálculo.

Sendo assim, os objetivos gerais, para os quais a análise

multivariada conduz são:

a. redução de dados ou simplificação estrutural: o fenômeno sob estudo é

representado da maneira mais simples possível, sem sacrificar

informações valiosas e tornando as interpretações mais simples;

b. ordenação e agrupamento: agrupamento de objetos (tratamentos) ou

variáveis similares, baseados em dados amostrais ou experimentais;

c. investigação da dependência entre variáveis: estudos das relações

estruturais entre variáveis muitas vezes é de interesse do pesquisador;

d. predição: relações entre variáveis devem ser determinadas para o

propósito de predição de uma ou mais variável com base na observação

de outras variáveis;

e. construção e teste de hipóteses.

Os modelos multivariados possuem em geral, um propósito através

do qual o pesquisador pode testar ou inferir a respeito de uma hipótese sobre um

Ferreira, D.F. Estatística multivariada 3

determinado fenômeno. No entanto a sua utilização adequada depende do bom

conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott

(1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que

apesar de serem uma importante ferramenta para análise e interpretação de

dados, não devem ser utilizados como máquinas automáticas de encher lingüiça,

transformando massas numéricas em pacotes de fatos científicos”.

1.2. Aplicação de técnicas multivariadas

As técnicas estatísticas constituem se uma parte integral da pesquisa

científica e em particular as técnicas multivariadas tem sido regularmente aplicada

em várias investigações científicas nas áreas de biologia, física, sociologia e

ciências médicas. Parece, neste instante, ser apropriado descrever as situações

em que as técnicas multivariadas têm um grande valor.

Medicina

Nos estudos onde as reações de pacientes a um determinado

tratamento são mensuradas em algumas variáveis e possuem difícil diagnóstico,

as técnicas multivariadas podem ser usadas para construir uma medida de

resposta simples ao tratamento, na qual é preservada a maior parte da informação

da amostra e das múltiplas variáveis respostas. Em outras situações as técnicas

multivariadas podem ser usadas também quando a classificação de um paciente,

baseada nos sintomas medidos em algumas variáveis, é difícil de ser realizada.

Neste caso, uma técnica multivariada de classificação, em que se cria uma função

que pode ser usada para separar as pessoas doentes das não doentes, pode ser

implementada.

Sociologia

Em alguns estudos o inter-relacionamento e o agrupamento de

indivíduos, cidades ou estados em grupos homogêneos em relação à mobilidade,

número de estrangeiros nascidos e de segunda geração em determinado país é

necessária em alguns estudos sociológicos. As técnicas de análise multivariada,

conhecidas como análise de agrupamento (Cluster analysis), pode ser empregada

com esta finalidade.

Biologia

No melhoramento de plantas é necessário, após o final de uma

geração, selecionar aquelas plantas que serão os genitores da próxima geração. a

seleção deve ser realizada de maneira que a próxima geração seja melhorada em

relação à resposta média de uma série de características da geração anterior. O

objetivo do melhorista consiste em maximizar o ganho genético em um espaço

mínimo de tempo. As análises multivariadas podem ser usadas para converter

uma série de características para um índice, na qual a seleção e escolha dos pais

possam ser feitas.

Em algumas situações se deseja a separação de algumas espécies,

e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é

construída e os seus valores são usados para esta separação.

1.3. Organização de dados

Através deste material pretende-se tratar das análises realizadas em

muitas características ou variáveis. Essas medidas, muitas vezes chamadas de

dados, devem ser organizadas e apresentadas em várias formas. Por exemplo, a

utilização de gráficos e arranjos tabulares são importantes auxiliares nas análises

de dados. Por outro lado, números que resumem, ou seja, que descrevem

quantitativamente certas características, são essenciais para a interpretação de os

dados amostrais ou experimentais.

Arranjos

Os dados multivariados são provenientes de uma pesquisa em

determinada área em que são selecionadas p ≥ 1 variáveis ou características para

serem mensuradas. As medidas são tomadas em cada unidade da amostra ou do

experimento. A representação destes dados é feita com a notação xjk para indicar

um valor particular da j-ésima unidade amostral ou experimental e da k-ésima

variável mensurada. Conseqüente, estas medidas de p variáveis em n unidades

amostrais ou experimentais, podem ser representadas conforme o arranjo

apresentado na Tabela 1.1.

Tabela 1.1. Representação de dados através da notação xjk para indicar um valor

particular da k-ésima variável mensurada na j-ésima unidade amostral

ou experimental.

Variáveis

Unidades amostrais ou experimentais

1 2 ... k ... p

1 X11 X12... X1k... X1p

2 X21 X22... X2k... X2p

. j Xj1 Xj2... Xjk... Xjp

. n Xn1 Xn2... Xnk... Xnp

Estes valores, apresentados na Tabela 1.1, podem ser

representados em um arranjo retangular, denominado de X, com n linhas e p

colunas, da seguinte forma:

11 12 1 1

21 22 2 2

j j jk jp

n n nk np

x x x xx x x x

Xx x x x

x x x x

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

Exemplo 1.1

Uma seleção de 4 firmas de ração de Minas Gerais foi obtida para

avaliar a venda de rações. Cada observação bivariada forneceu a quantidade de

sacos de ração vendidos e a quantidade de reais de cada venda. Os dados

obtidos na forma tabular são:

Variável 1 (Reais/venda) 80 120 90 110

Variável 2 (número de sacos de ração vendidos)

Usando a notação proposta anteriormente, tem-se:

X11=80 X21=120 X31=90 X41=110 X12=10 X22=12 X32=6 X42=8

E a matriz X dos dados é:

80 10120 12

90 6110 8

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

A organização dos dados em arranjos facilita a exposição e permite

que os cálculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos

na eficiência são: (1) descrição dos cálculos como operações com matrizes e

vetores; e (2) sua fácil implementação em computadores.

ESTATÍSTICAS DESCRITIVAS

Grandes conjuntos de dados possuem um sério obstáculo para

qualquer tentativa de extração de informações visuais pertinentes aos mesmos.

muitas das informações contidas nos dados podem ser obtidas por cálculo de

certos números, conhecidos como estatísticas descritivas. Por exemplo, a média

aritmética ou média amostral, é uma estatística descritiva que fornece informação

de posição, isto é, representa um valor central para o conjunto de dados. Como

um outro exemplo, a média das distâncias ao quadrado de cada dado em relação

à média, fornece uma medida de dispersão, ou variabilidade.

Às estatísticas descritivas que mensuram posição, variação e

associação linear são enfatizadas. As descrições formais destas medidas estão

apresentadas a seguir.

A média amostral, simbolizada por X , é dada por:

X Xn =

= ∑ k=1, 2, ..., p (1.1)

Uma medida de variação é fornecida pela variância amostral,

definida para as n observações de i-ésima variável por:

= = −− ∑

k kk jk kj

S S X Xn

k = 1, 2, ..., p (1.2)

A raiz quadrada da variância amostral, kkS , é conhecida como

desvio padrão amostral. Esta medida de variação está na mesma unidade de

medida das observações.

Uma medida de associação entre as observações de duas variáveis,

variáveis k e k’, é dada pela covariância amostral:

( )( )' ' '1

= − −−∑n

kk jk k jk kjX X X X

nS k, k’=1,2, ..., p (1.3)

Se grandes valores de uma variável são observados em conjunto

com grandes valores da outra variável, e os pequenos valores também ocorrem

juntos, Skk’ será positiva. Se grandes valores de uma variável ocorrem com

pequenos valores da outra, Skk’ será negativa. Se não há associação entre os

valores das duas variáveis, Skk’ será aproximadamente zero. Quando k=k’, a

covariância reduz-se a variância amostral. Além disso, Skk’= Sk’k, para todo k e k’.

A última estatística descritiva a ser considerada aqui é o coeficiente

de correlação amostral. Esta medida de associação linear entre duas variáveis

não depende da unidade de mensuração. O coeficiente de correlação amostral

para k-ésima e k’-ésima variável, é definido por:

( )( )

( ) ( )

' '' '

− −= =

− −

∑ ∑

jk k jk kjkk

kk n nkk k k

jk k jk kj j

X X X Xr

X X X X

Verifica-se que rkk’=rk’k para todo k e k’. O coeficiente de correlação

amostral é a versão estandardizada da covariância amostral, onde o produto das

raízes das variâncias das amostras fornece a estandardização.

O coeficiente de correlação amostral pode ser considerado como

uma covariância amostral. Suponha que os valores Xjk e Xjk’ sejam substituídos

pelos valores padronizados, ( )−jk k

X XS e ' '

( )−jk k

X XS . Esses valores padronizados

são expressos sem escalas de medidas (adimensionais), pois são centrados em

zero e expressos em unidades de desvio padrão. O coeficiente de correlação

amostral é justamente a covariância amostral das observações estandardizadas.

A correlação amostral (r), em resumo, tem as seguintes

propriedades:

1. Os valores de r devem ficar compreendidos entre -1 e 1;

2. Se r = 0, implica em inexistência de associação linear entre as variáveis. Por

outro lado, o sinal de r, indica a direção da associação: se r < 0 há uma

tendência de um dos valores do par ser maior que sua média, quando o outro

for menor do que a sua média, e r > 0 indica que quando um valor do par for

grande o outro também o será, além de ambos valores tender a serem

pequenos juntos;

3. Os valores de rkk’ não se alteram com a alteração da escala de uma das

variáveis.

As estatísticas Skk’ e rkk’, em geral, não necessariamente refletem

todo o conhecimento de associação entre duas variáveis. Associações não

lineares existem, as quais, não podem ser reveladas por estas estatísticas

descritivas. Por outro lado, estas estatísticas são muito sensíveis a observações

discrepantes (outliers).

Além destas, outras estatísticas como a soma de quadrados de

desvios em relação à média (Wkk) e a soma de produtos de desvios (Wkk’), são

muitas vezes de interesse. Essas estão apresentadas a seguir:

== −∑

kk jk kjX XW

' ' '1( )( )

== − −∑

kk jk k jk kj

W X X X X

As estatísticas descritivas multivariadas calculadas de n observações

em p variáveis podem ser organizadas em arranjos.

Médias da amostra

⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦p

Matriz de covariância amostral

p p pp

⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥

11 12 1

21 22 2

Matriz de correlações amostral

⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥

Exemplo 1.2

Considerando os dados introduzidos no exemplo 1.1, encontrar as o

vetor de médias X e as matrizes S e R. Neste exemplo, cada firma de ração,

representa uma das observações multivariadas, com p = 2 variáveis (valor da

venda em reais e número de sacos de rações vendidas).

As médias amostral são:

1 j1j 1

1 1X X (80 120 90 110) 1004 4=

= = + + + =∑

2 j2j 1

1 1X X (10 12 6 8) 94 4=

= = + + + =∑

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎣ ⎦⎣ ⎦

A matriz de covariância amostral é:

S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333

S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667

S12=[(80-100)(10-9)+(120-100)(12-9)+(90-100) (6-9)+(110-100)(8-9)]/3 = 20,000

S21=S12=20,000, e

S =⎡

⎣⎢⎤

⎦⎥333 333 20 00020 000 6 667

, ,, ,

A correlação amostral é:

2033 333 6 667

0 424= =, ,

r21=r12=0,4243

Portanto,

1,0000 0, 4243R

0, 4243 1,0000⎡ ⎤

= ⎢ ⎥⎣ ⎦

1.4. Distâncias

A maioria das técnicas multivariadas é baseada no simples conceito

de distância, por mais formidável que isso possa parecer. O conceito de distância

euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um

ponto P=(x1, x2) no plano cartesiano, a distância deste ponto P da origem O=(0, 0),

definida por d(O,P), é dada pelo teorema de Pitágoras por:

d O P x x( , ) = +12

22 (1.5)

Esta situação é ilustrada na Figura 1.1. Em geral, se o ponto P tem p

coordenadas, de tal forma que P=(x1, x2, ... xp), a distância de P da origem

O=(0, 0, ..., 0), pode ser generalizada por:

d O P x x x p( , ) ...= + + +12

22 2 (1.6)

d(O, P)

Figura 1.1. Distância entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo teorema de Pitágoras.

Todos os pontos (x1, x2, .., xp) que contém uma distância ao

quadrado, denominada c2, da origem, satisfaz a equação:

d O P x x x cp2

22 2 2( , ) ...= + + + = (1.7)

A expressão em (1.7) representa a equação de uma hiperesfera (um

círculo se p = 2), e os pontos eqüidistantes da origem por uma distância d(O, P)

pertencem a essa hiperesfera. A distância de um ponto P a um ponto arbitrário Q,

com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) é dada por:

( ) ( ) ( )d P Q x y x y x yp p( , ) ...= − + − + + −1 12

2 22 2

A distância euclidiana é insatisfatória para muitas situações

estatísticas. Isso ocorre devido à contribuição de cada coordenada ter o mesmo

peso para o cálculo da distância. Quando estas coordenadas representam

medidas são provenientes de um processo que sofre flutuações aleatórias de

diferentes magnitudes é muitas vezes desejável ponderar as coordenadas com

grande variabilidade por menores pesos em relação àquelas com baixa

variabilidade. Isto sugere o uso de uma nova medida de distância.

Será apresentada a seguir uma distância que considera as

diferenças de variação e a presença de correlação. Devido a escolha de a

distância depender das variâncias e das covariâncias amostrais, a partir deste

instante, será utilizado o termo “distância estatística” para distinguir de distância

euclidiana.

A princípio, será considerada a construção de uma distância entre

um ponto P, com p coordenadas, da origem. O argumento que pode ser usado

refere-se ao fato de que as coordenadas de P podem variar no espaço produzindo

diferentes posições para os pontos. Para ilustrar, suponha que se tenha n pares

de medidas em duas variáveis (x1 e x2) e que as medidas de x1 variam

independentemente das mensurações em x2. O significado de independente neste

ponto pode ser dado pelo fato de que os valores de x1 não podem ser preditos

com nenhuma acurácia a partir dos valores de x2 e vice-versa. Em adição, é

assumido que as observações de x1 possuem maior variabilidade que as de x2.

Uma ilustração desta situação está apresentada na Figura 1.2.

-6 -4 -2 0 2 4 6

Figura 1.2. Diagrama de dispersão, mostrando a maior variabilidade na direção de

x1 do que na direção de x2.

Observando a Figura 1.2, verifica-se que não é surpreendente

encontrar desvios na direção de x1 que se afastem da origem consideravelmente,

o que não ocorre na direção de x2. Parece ser razoável, então, ponderar x2 com

mais peso do que x1 para um mesmo valor, quando as distâncias da origem forem

calculadas.

Um modo de fazer isso é dividir cada coordenada pelo desvio padrão

amostral. Após a divisão, têm-se as coordenadas estandardizadas 1 1 11*x x s= e

2 2 22*x x s= . Após eliminar as diferenças de variabilidade das variáveis

(coordenadas), determina-se a distância usando a fórmula euclidiana padrão:

d O P x xxS

( , ) ( ) ( )* *= + = +12

22 (1.9)

Usando a equação (1.9) todos os pontos tendo como coordenadas

(x1, x2) e com distância quadrada (c2) da origem devem satisfazer:

c+ = (1.10)

A expressão (1.10) é a equação de uma elipse, cujos maiores e

menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o

caso geral para p = 2 coordenadas.

cS110.5-cS11

cS220.5

-cS220.5

Figura 1.3. Elipse de uma distância estatística quadrática d2(O,P)= 12

c+ = .

Exemplo 1.3

Um conjunto de pares (x1, x2) de duas variáveis forneceu 1 2X X 1= = ,

S11=9 e S22=1. Supõe-se que as observações de x1 são independentes de x2. A

distância quadrática de um ponto arbitrário (P) da origem, uma vez que as

variâncias da amostra não são iguais, é dada por:

d O Px x2 1

9 1( , ) = +

Todos os pontos (x1, x2) que possuem distâncias quadrada da origem igual a 1,

satisfazem a equação:

9 11+ = (1.11)

As coordenadas de alguns pontos com distância quadrática unitária

da origem foram apresentadas na Tabela 1.2.

Tabela 1.2. Coordenadas de alguns pontos com distância quadrática unitária da

origem.

Coordenadas (x1, x2) Distância ao quadrado

( 0, 1)

( 0,-1)

( 3, 0)

(-3, 0)

2 21+ =

1+ =−( )

2 21+ =

( )−+ =

O gráfico da equação (1.11) é uma elipse centrada na origem (0,0),

cujo maior eixo é o da direção de x1 e o menor da direção de x2. A metade do

maior eixo (semi-eixo maior) é c S11 3= e do menor c S22 1= . A elipse de distância

quadrática unitária foi plotada na Figura 1.4.

-5 -4 -3 -2 -1 0 1 2 3 4 5

Figura 1.4. Elipse de distância unitária quadrática da origem obtida a partir da

equação 1.11.

A expressão (1.9) pode ser generalizada para o cálculo da distância

entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente

uma da outra. O caso mais geral, em que a hipótese de independência não é

satisfeita, será abordado futuramente.

d P Qx yS

pp( , )

( ) ( ) ( )=

−+ +

−1 12

(1.12)

Todos os pontos (P) situados a uma distância quadrática constante

de Q, pertencem a uma hiperelipsóide centrada em Q, cujos maiores e menores

eixos são paralelos aos eixos das coordenadas.

O programa SAS, apresentado a seguir, contém os códigos

necessários para a obtenção das principais estatísticas descritivas multivariadas

apresentadas nesse capítulo. O programa contém códigos matriciais e será

abordado com mais detalhe nos próximos capítulos. Os dados do exemplo 1.1 são

utilizados para a ilustração.

Proc IML; X={ 80 10, 120 12, 90 6, 110 8}; Print X; n=nrow(X);p=ncol(X); Xbar=x`*j(n,1,1)/n; Print Xbar; q=i(n)-(1/n)*j(n,n,1); print q; S=(1/(n-1))*X`*q*X; W=(n-1)*S; print S W; V=diag(S); Vroot=half(V); IVroot=inv(Vroot); R=Ivroot*S*Ivroot; Print V Vroot IVroot; Print R; Quit;

Foi motivado nesse capítulo o estudo das análises multivariadas e

tentou-se fornecer alguns rudimentares, mas importantes, métodos de organizar e

resumir os dados. Em adição, o conceito geral de distância foi apresentado, e será

abordado e generalizado nos próximos capítulos.

1.5. Exercícios

■ Considere as amostras com 8 observações e 3 variáveis apresentadas a seguir:

x1 3 5 6 4 8 9 6 7

x2 6 11 11 9 15 16 10 12

x3 14 9 9 13 2 2 9 5

a) Construa o gráfico de dispersão dos pontos das variáveis x1 e x2, x1 e x3, x2 e x3.

Comente sobre sua aparência.

b) Calcule: X , S e R e interprete os valores em R.

c) Calcule a distância euclidiana dada em (1.8) de um ponto

P=( x1, x2, x3)=(5, 12, 8) em relação a origem e em relação a X .

d) Calcule as mesmas distâncias do item c, usando (1.12).

||[ ]||Álgebra vetorial e matricial

2.1. Introdução

É desejável que as p respostas multivariadas sejam representadas

por uma notação concisa. Os dados multivariados podem ser dispostos

convenientemente como um arranjo de números, como foi apresentado no

capítulo 1. Em geral, um arranjo retangular destes números, com n linhas e p

colunas, por exemplo, é chamada de matriz de dimensões n x p. Se por outro lado,

o arranjo consiste em n mensurações em apenas 1 variável, ou ainda, de uma

observação multivariada em p variáveis, esses arranjos são denominados de

vetores.

Com esse arranjo bidimensional, não só, a notação fica mais

concisa, mas os muitos resultados matemáticos de álgebra vetorial e matricial

facilitam a derivação e exposição dos métodos estatísticos multivariados. Neste

material, os elementos de álgebra vetorial e matricial, serão considerados como

conhecidos. Nesse capítulo, no entanto, para os estudantes não familiarizados

com o assunto, será apresentada uma breve revisão.

2.2. Elementos de álgebra vetorial

De um ponto de vista geométrico, as observações multivariadas,

podem ser consideradas como pontos no espaço p-dimensional, cujas

coordenadas são dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final

de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal

segmento de reta é denominado de vetor de posição e pode ser denotado

simplesmente por X . O vetor de posições é apenas um exemplo de vetor, para os

quais pode ser elaborada a álgebra, baseada nos seguintes postulados.

POSTULADOS

1. Para qualquer vetor X dado um número escalar c, a multiplicação do escalar

pelo vetor, resulta em outro vetor Y , definido por:

Y = c X

c será considerado um número real;

2. A adição de dois vetores conduz a um único vetor definido como:

Z = X + Y

3. A adição de vetores é:

Comutativa: X + Y = Y + X

Associativa: X + ( )Y Z+ = ( )X Y Z+ +

4. Se 0 é o vetor nulo, então:

X + 0 = X

0 . X = 0

COMPRIMENTO, ÂNGULO E DISTÂNCIA

Inicialmente, é definido produto interno entre dois vetores, que

representa a soma de produtos de pares de coordenadas correspondentes. Para

dois vetores (n x 1) de posição X e Y , o produto interno será o escalar, dado por:

i i 1 1 2 2 n ni 1

X.Y x y x y x y x y=

= = + + +∑

É fácil verificar que X.Y Y.X= . Por meio, do produto interno é

possível generalizar o teorema de Pitágoras para o espaço euclidiano

n-dimensional:

n2 2 2 2 2 2

i 1 2 ni 1

X X.X x x x x d (P,O)=

= = = + + + =∑ (2.1)

em que P, é o ponto do espaço n-dimensional, definido pelas coordenadas do

vetor X . A expressão (2.1) é o comprimento ao quadrado do vetor X . A

expressão entre módulo | X | indica a norma de X .

Dessa forma o comprimento do vetor é definido por:

X X.X= (2.2)

O ângulo θ entre dois vetores ( X e Y ) pode ser expresso em função

do produto interno e do comprimento dos vetores, obtido através da lei dos

cosenos, por:

( ) X.YCosX.X Y.Y

θ = (2.3)

As distâncias apresentadas no capítulo 1, entre os pontos

coordenados dos vetores X e Y , podem ser expressos agora como o

comprimento do vetor diferença das coordenadas de X e Y . A distância entre X

e Y é:

d(X, Y) X Y (X Y).(X Y)= − = − − (2.4)

Além de ser não negativa, essa distância entre os dois vetores é

independente da direção das medidas e satisfaz a desigualdade triangular:

d( X , Y ) ≤ d( X , Z ) + d( Y , Z ) (2.5)

Derivada a partir da desigualdade de Cauchy-Schwars:

a.b ≤ a . b (2.6)

O que implica, no fato, que o valor do co-seno do ângulo entre a e b

não pode exceder a unidade.

ORTOGONALIDADE

Dois vetores não nulos são denominados ortogonais, se o co-seno

do ângulo entre eles for zero. Isto indica que:

X.Y = 0 (2.7)

Muitas vezes é desejável (em sistemas de equações lineares)

construir uma base ortonormal de vetores, isto é, cada vetor da base possui

comprimento unitário ( )i iX .X 1= e cada par de vetor da base são ortogonais

( )i jX .X 0, i j= ≠ . Para um conjunto de vetores arbitrários pode-se empregar a

“construção de Gram-Schimidt”. O algoritmo está apresentado a seguir,

considerando o conjunto 1 2 nX , X , ..., X de vetores:

Passo 1: normalize 1X :

11 1 1

XX ; X .X 0X .X

∗ = ≠

Passo 2: Ortonormalize 2X calculando o produto interno entre *1X e 2X , e

subtraindo de 2X os componentes de *1X :

Ortogonalizando 1X e 2X :

( )* *2 2 2 1 1X X X .X X⊥ = −

Então, normalizando-se 2X⊥ :

*2 2 2 2

1X X ; X .X 0X .X

⊥ ⊥ ⊥

⊥ ⊥= ≠

Passo 3: Calcule o produto interno de 3X com *1X e *

2X , e subtraia de 3X os

componentes de *1X e *

( ) ( )* * * *3 3 3 1 1 3 2 2X X X .X X X .X X⊥ = − −

Então, normalizando-se 3X⊥ :

*3 3 3 3

1X X ; X .X 0X .X

⊥ ⊥ ⊥

⊥ ⊥= ≠

E assim por diante, até o n-ésimo estágio, quando todos os vetores

entrarem na construção. Se o i-ésimo vetor for linearmente dependente dos

vetores anteriores, então iX⊥ será igual ao vetor nulo, iX 0⊥ = , devendo ser

eliminado do conjunto e o processo deve continuar com o vetor i 1X + . O número de

vetores não nulos remanescentes no conjunto, constituem a dimensão do espaço

vetorial original.

Exemplo 2.1

Dado o conjunto de vetores, a seguir, utilizar como ilustração a construção de

Gram-Schimidt.

1 1 01 1 0

X1 0 11 0 1

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

Os vetores de X são dados por:

X = [ 1X 2X 3X ]

Passo 1. Normalize 1X :

111X121

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

Passo 2: Ortonormalize 2X :

Produto interno: 2X . *1X = 1

ortogonalização: 2

1 1 11 1 11 1X 1.0 1 12 20 1 1

⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Normalização: *2

1 11 11 1 1X .1 11 2 21 1

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦

Passo 3: Ortonormalização de 3X

Produto interno: *3 1X .X 1= e *

3 2X .X 1= −

ortogonalização:

1 12 21 12 2

3 1 12 21 12 2

00 1 1 000 1 1 01 1X 1. ( 1).11 1 1 02 211 1 1 0

− +⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− +⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − − − = =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −−⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −− ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦

Verifica-se neste passo que 3X é linearmente dependente dos

vetores 1X e 2X , e deve ser eliminado da base vetorial. É fácil verificar que

3 1 2X X X= − . Agrupando os vetores linearmente independentes ortonormalizados

obtém-se a base vetorial de Gram-Schimidt.

1 12 21 12 2

2 1 12 21 12 2

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥−⎢ ⎥−⎢ ⎥⎣ ⎦

Pode ser observar facilmente que o produto interno dos vetores em

X2, é igual a zero.

Um importante tipo de matriz inversa, denominado de inversa de Moore-

Penrose, é obtido de uma base ortonormal das colunas de uma matriz para a qual

se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de

dimensão qualquer nxp e seja U a base ortonormal de vetores obtida da

ortonormalização das colunas de A, então, defini-se T por:

T=U’A

Logo, a inversa generalizada de Moore-Penrose (A+) é definida por:

A+ = T’(TT’)-1U’.

2.3. Elementos de álgebra matricial

Na álgebra matricial as relações e operações são definidas através

de operações em arranjos retangulares dos elementos, denominados de matrizes.

Um exemplo de matriz é:

11 12 1p

21 22 2p

n1 n2 np

a a aa a aAa a a

⎡ ⎤⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

O número de linhas de uma matriz é denominado de ordem de linha

e o número de colunas, ordem de colunas. Se o número de linhas é n e o número

de colunas é p, diz-se que a matriz possui ordem nxp. Pode-se representar a

matriz por:

A=[aij] i=1, 2,..., n j=1, 2, ..., p (2.8)

Nas análises multivariadas, muitas vezes, será feito referências a

matriz de dados, a qual consiste de p respostas de n observações ou unidades

experimentais, e terá ordem nxp.

POSTULADOS

1. Igualdade: Duas matrizes necessariamente com o mesmo número de linhas e

colunas são iguais, se e somente se os elementos correspondentes, forem

iguais:

A=B ⇔ aij=bij i=1, 2, ..., n e j=1, 2, ..., p

2. Adição: A soma de duas matrizes de mesma ordem é obtida pela soma dos

elementos correspondentes:

A+B = [ aij] + [bij] = [aij + bij]

A adição com matriz nula 0, contendo elementos iguais a zero é:

nAp + n0p = nAp

3. Multiplicação por escalar: o produto de um escalar e uma matriz é obtido pela

multiplicação de cada elemento da matriz pelo número escalar:

cA = c[ aij] = [ caij]

4. Multiplicação de matriz: a multiplicação de matrizes é definida para aquelas em

que a ordem coluna do fator que pré multiplica é igual a ordem linha do fator

que pós multiplica. Tais matrizes são denominadas conformáveis para

multiplicação. O elemento (i, k) da matriz resultante do produto é a soma dos

produtos dos elementos correspondentes, da i-ésima linha do fator que pré

multiplica com os da k-ésima coluna do fator que pós multiplica.

nAq qBp = AB = q

ij jkj 1

⎡ ⎤⎢ ⎥⎣ ⎦∑ = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = C

Em geral AB ≠ BA.

A matriz quadrada com unidades na diagonal e zero nas demais

partes é denominada de matriz unitária ou identidade:

1 0 00 1 0

⎡ ⎤⎢ ⎥⎢ ⎥Ι =⎢ ⎥⎢ ⎥⎣ ⎦

Verifica-se que:

nAp pΙp = nAp

nΙn nAp = nAp

A matriz quadrada cujos elementos fora da diagonal principal são

iguais a zero é denominada matriz diagonal:

D = diag[d1, d2, ..., dn] =

d 0 00 d 0

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

A pré-multiplicação por uma matriz diagonal, simplesmente re-escala

as linhas do fator que pós multiplica, e a pós-multiplicação re-escala as colunas do

pré-fator.

5. Inversão de matriz: a inversa de uma matriz quadrada A, nxn, é chamada de A-1

e é definida de tal forma que A A-1 = A-1 A = Ι.

A inversa de um produto de matrizes é o produto do inverso dos fatores em

ordem inversa a ordem de multiplicação original:

(AB)-1 = B-1A-1

Pois, B-1A-1AB = B-1B = Ι e AB B-1A-1 = AA-1 = Ι

6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de

uma matriz específica é denominada de matriz transposta. É denotada por A’.

nAP = [aij], então, pA’n = [aij]’ = [aji]

(A + B)’ = A’ + B’

(AB)’ = B’A’

(A-1)’ = (A’)-1

7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada

das restantes s=m-r linhas, e as p colunas particionadas das remanescentes

q = n - p colunas. Então, A pode ser representada por submatrizes, como a

seguir:

A A rA

A A sp q

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Seja B uma matriz particionada de forma similar e sejam A e B tais

que suas partições sejam conformáveis para adição, logo,

11 11 12 12

21 21 22 22

A B A B rA B

A B A B sp q

+ +⎡ ⎤+ = ⎢ ⎥+ +⎣ ⎦

Suponha agora que B seja particionada em p e q linhas e em t e u

colunas. Então, é possível verificar que:

11 12 11 12

21 22 21 22

11 11 12 21 11 12 12 22

21 11 22 21 21 12 22 22

A A B Br pAB

A A B Bs qp q t u

A B A B A B A B rA B A B A B A B s

⎡ ⎤ ⎡ ⎤= ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦

+ +⎡ ⎤= ⎢ ⎥+ +⎣ ⎦

Ainda é possível verificar que:

( ) ( )( ) ( )

1 1 11 1 1 11 1

1 111 1

A A B CA A Bp A B p D CA B D CA Bq C D q CAD CA B D CA B

p q p q

− − −− − − −− −

− −−− −

⎡ ⎤+ −⎡ ⎤ − −= ⎢ ⎥⎢ ⎥−⎣ ⎦ ⎢ ⎥− −⎣ ⎦

Método prático para cálculo de matrizes inversas

As rotinas para computadores usualmente fazem uso da versão

compacta do método de Gauss, denominado de método de Gauss-Jordan

(Householder, 1953, 1964).

Os cálculos do método de Gauss-Jordan são recursivos, sendo que

os elementos da matriz no estágio i+1 são trocados pelos resultados da chamada

operação pivotante dos elementos do estágio i, por:

( ) ( )( ) ( )

i ikj ji 1 i

k k ijj

a aa a k e j

×= − ≠

( )( )

a+ = ≠

( )( )

ikji 1

kj ijj

aa k j

a+ = − ≠

( )( )

i 1jj i

O elemento ( )ijja é chamado de pivô, e sua linha e coluna são

chamados de linha e coluna pivotais. Após n operações pivotantes, a matriz

original é substituída pela sua inversa, garantindo-se que cada linha e coluna seja

pivotada somente uma vez.

Exemplo 2.2

Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir:

( )0 4 2A

2 2⎡ ⎤

= ⎢ ⎥⎣ ⎦

Passo 1. Um bom compromisso com a precisão é pivotar a linha e coluna cujo

elemento da diagonal seja o maior de todos os não pivotados. Assim o

elemento escolhido para pivô é o elemento a11=4. A matriz após a

primeira ação pivotante é:

( )1 14 2112

1 24 4A

12 2 224 4

⎡ ⎤⎢ ⎥ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥− ×⎢ ⎥ ⎣ ⎦−⎢ ⎥⎣ ⎦

Passo 2. Neste passo, a única coluna ou linha não pivotada é a 2. Portanto o pivô

é a22=1, e a matriz resultante da operação pivotante é:

( )( )1 1 1

1 112 24 1 1211 21 1

1 11A1 1 22

− −

⎡ ⎤ − −− ⎡ ⎤ ⎡ ⎤⎢ ⎥= = =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎣ ⎦⎣ ⎦⎣ ⎦

Ao final da operação pivotante, a matriz resultante, A(2), é a matriz

inversa de A.

Matrizes ortogonais

Classes especiais de matrizes, que serão utilizadas rotineiramente

nas técnicas multivariadas, são denominadas de matrizes ortogonais, sendo

simbolizadas em geral por Q e caracterizada por:

QtQ = QQt = Ι ou Qt = Q-1

O nome deriva da propriedade de que se Q tem i-ésima linha tiq ,

então, se QQt = Ι implica que ti iq q 1= e t

i jq q 0= para i≠j, sendo que as linhas

possuem tamanho unitário e são mutuamente ortogonais (perpendiculares). De

acordo com a condição de que QtQ = Ι, as colunas têm a mesma propriedade.

Exemplo 2.3

Dado a matriz Q, a seguir, verifique sua ortogonalidade:

1 12 2

Q⎡ ⎤

= ⎢ ⎥−⎢ ⎥⎣ ⎦

A transposta de Q é dada por:

1 12 2t

1 12 2

Q−⎡ ⎤

= ⎢ ⎥⎢ ⎥⎣ ⎦

então,

1 1 1 12 2 2 2t1 1 1 12 2 2 2

2 0 1 01QQ0 2 0 12

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

1 1 1 12 2 2 2t

1 1 1 12 2 2 2

2 0 1 01Q Q0 2 0 12

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

sendo, QtQ = QQt = Ι ou Qt = Q-1, verificou-se que Q é ortogonal.

Determinantes

Uma função escalar importante de uma matriz A quadrada nxn, é o

determinante da mesma. O determinante da matriz A é simbolizado por |A| e é

definido por:

ij ijj 1

A a se n 1

A a A 1 se n 1+

= − >∑ (2.9)

em que Aij é a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-ésima linha e a

j-ésima coluna de A, para qualquer escolha arbitrária de i=1, 2, ..., n.

Exemplo 2.4

Para ilustrar a definição (2.9), serão consideradas as seguintes matrizes:

4 2 24 1

A [4] B C 2 2 01 2

⎡ ⎤⎡ ⎤ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎣ ⎦

A 4= ;

2 3B 4 2 ( 1) 1 1 ( 1) 4.2.1 1 1 1 7= × × − + × × − = − × × = ;

2 3 2 2 3 3

2 0 2 0 2 2C 4 ( 1) 2 ( 1) 2 ( 1)

0 2 2 2 2 0

4 [2 2 ( 1) 0 0 ( 1) ] ( 1) 2 [2 2 ( 1) 0 2 ( 1) ] ( 1)

2 [2 0 ( 1) 2 2 ( 1) ] ( 1) 16 8 8 0

= × × − + × × − + × × −

= × × × − + × × − × − + × × × − + × × − × − +

+ × × × − + × × − × − = − − =

Propriedades dos determinantes

1. tA A= ;

2. Se uma linha ou coluna de A for multiplicada por uma constante k, o

determinante ficará multiplicado pela constante;

3. Se A é multiplicada por uma constante k, o determinante resultante ficará

multiplicado por kn;

nkA k A=

4. Se duas linhas ou duas colunas são trocadas de posição, então o determinante

muda de sinal;

5. Se duas linhas ou duas colunas são proporcionais, então o determinante de A

será igual a zero;

6. O determinante obtido deletando a i-ésima linha e j-ésima coluna de A é

denominado menor de A, e denotado por |Aij|. A relação entre |A| e |Aij| foi

apresentada na definição de determinante (2.9);

7. 11 1A AA

−− = = ;

8. |AB| = |A|×|B|.

Determinante e posto (rank)

Se |A|≠0, então, A é denominada de posto completo, ou como é mais

comum dizer, A é não-singular e A-1 existe. Uma condição necessária e suficiente

para a existência da inversa de A é que |A|≠0.

Teorema da multiplicação

Seja a matriz A de ordem 2n x 2n, particionada em sub-matrizes

n x n dadas por:

B C nA

D E nn n

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Supõe-se que o determinante de A é não nulo, e se necessário for,

linhas e colunas correspondentes de A devem ser trocadas para assegurar que B

seja não-singular. Como o número de trocas de linhas e colunas é

necessariamente par, o valor de |A| não se altera. Considere matrizes

elementares, com determinante 1, dadas por:

0DB−

Ι⎡ ⎤⎢ ⎥− Ι⎣ ⎦

e 1B C

−⎡ ⎤Ι −⎢ ⎥Ι⎣ ⎦

Se A for pré e pós-multiplicada, respectivamente, por essas matrizes

o resultado é:

0 B C B CDB D E 0

B C B 0B C0 DB C E 0 E DB C0

− −

Ι ⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥− Ι Ι⎣ ⎦ ⎣ ⎦ ⎣ ⎦

⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤= =⎢ ⎥⎢ ⎥ ⎢ ⎥− + −Ι⎣ ⎦ ⎣ ⎦⎣ ⎦

Então, A foi reduzida para sua forma quase-diagonal ou bloco

diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma:

V 0 nV

0 V nn n

⎡ ⎤= ⎢ ⎥

⎣ ⎦

então, o determinante de v é dado por:

1 2V V V=

Aplicando essa regra a A transformada pela pré e pós-multiplicação por

matrizes elementares, cujo determinante é igual a 1, o que não altera o valor de

|A|, tem-se:

B 0A B E DB C0 E DB C

−−= = −−

Observe que se A for quasi-triangular, ou seja, triangular por blocos,

o determinante é o produto dos determinantes de suas sub-matrizes principais:

B CB E0 E

Agora é possível apresentar e provar o teorema da multiplicação. Se

A e B são matrizes quadradas n x n, então, |AB|=|A|.|B|. Considere para isso a

identidade:

I A A 0 0 AB0 I I B I B

⎡ ⎤ ⎡ ⎤ ⎡ ⎤=⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦

O produto do lado esquerdo da igualdade envolve operações

elementares que não afeta o determinante. Assim, o determinante de ambos os

lados é igualado e o resultado obtido é:

A 0 0 ABI B I B

=− −

Colocando o lado direito na forma quasi-triangular por meio de trocas

nas últimas n colunas o resultado obtido é dado por:

( )nA 0 AB 01I B B I

= −− −

Usando o resultado do determinante de uma matriz triangular por

blocos, têm-se:

( ) ( )

A B 1 AB I

A B 1 1 AB

A B 1 AB

AB A B

= − −= − −= −

Infelizmente, não há teorema simples para a soma de matrizes.

Decorre desse teorema que:

−−

Derivadas de vetores e matrizes

As derivadas de funções envolvendo vetores e matrizes são

necessárias em inúmeras aplicações na multivariada e em outras áreas. Apesar

de ser possível escrever essas mesmas funções em uma forma expandida e

tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é

vantajoso definir regras que retenham vetores e matrizes na notação (Bock, 1975).

A seguir são apresentadas as principais regras de diferenciação vetorial e

matricial.

Derivadas de matrizes de funções em relação a variáveis escalares

Seja A uma matriz m x n cujos elementos são funções diferenciáveis

com relação a uma variável escalar x. A derivada de A em relação a x é uma

matriz m x n:

a ax xA

xa ax x

∂ ∂⎡ ⎤⎢ ⎥∂ ∂⎢ ⎥∂

= ⎢ ⎥∂ ⎢ ⎥∂ ∂⎢ ⎥

∂ ∂⎣ ⎦

(2.10)

Seja A uma matriz m x n de funções diferenciáveis em x e B outra

matriz p x q cujos elementos, também, são diferenciáveis em x. Para cada caso

abaixo, são adotadas dimensões tais que as operações matriciais sejam

conformáveis.

( ) A BA B ; m p, n qx x x

∂ ∂ ∂+ = + = =∂ ∂ ∂

(2.11)

( ) B AAB A B; n px x x

∂ ∂ ∂= + =

∂ ∂ ∂ (2.12)

( )11 1AA A A ; m n, 0Ax x

−− −∂ ∂

= − = ≠∂ ∂

(2.13)

Seja X uma matriz m x n com o elemento xij na i-ésima linha e

j-ésima coluna, então,

∂ (2.14)

em que 1ij é uma matriz m x n com 1 na i-ésima linha e j-ésima coluna e 0 nas

demais posições. Se X for uma matriz diagonal n x n, logo,

∂ (2.15)

Derivadas de uma função escalar de matrizes em relação a um vetor ou matriz variável

Seja g uma função escalar qualquer de uma matriz X, que pode ser por

exemplo o determinante, o traço, entre outras, então, a diferenciação de g em

relação a X é:

g gx x

∂ ∂⎛ ⎞⎜ ⎟∂ ∂⎜ ⎟∂ ⎜ ⎟=

∂ ⎜ ⎟∂ ∂⎜ ⎟⎜ ⎟∂ ∂⎝ ⎠

(2.16)

a) o traço

O traço de uma matriz n x n é uma função que aparece com muita

freqüência na estatística multivariada, o qual é a soma dos elementos da diagonal

principal dessa matriz:

tr aA=

= ∑ (2.17)

Para as matrizes A, B e C de ordem m x n, p x q e r x s,

respectivamente, o traço tem as seguintes propriedades:

( ) ( ) ( )tr tr tr , m n p qA B A B= + = = =+ (2.18)

( ) ( )tr tr , m nA A= δ =δ (2.19)

( ) ( )ttr tr , m nAA = = (2.20)

( ) ( )tr tr , m q, n pAB BA= = = (2.21)

( ) [ ] ( )tr tr tr , m s, n p, q r(AB)CABC CAB= = = = = (2.22)

Seja C uma matriz r x s de constantes e X uma matriz u x v de

variáveis. As seguintes diretivas de derivação do traço de funções de C e X com

relação aos elementos de X, resultam em matrizes de dimensão u x v:

( )tr C 0, r sX

∂= =

∂ (2.23)

( )tr X I, r sX

∂= =

∂ (2.24)

( ) ttr XC C , r v, s uX

∂= = =

∂ (2.25)

( ) ( )t

ttr X CX X, r v s uC CX

∂= = = =+∂

(2.26)

Essas diretivas de derivação são invariantes as permutações cíclicas

sofridas por transposição ou permutação dos fatores de multiplicação de matrizes.

no entanto, as derivadas com relação a transposta de X resultam em transpostas

das matrizes anteriores de ordem v x u. Em particular:

( ) tt

tr XC C , r v, s uX

∂= = =

∂ (2.27)

( ) ( )t

tr X CX X , r v s uC CX∂

= = = =+∂ (2.28)

Para obter derivadas de funções elementares das matrizes algumas

diretivas também são definidas. Sejam os elementos de A e B funções de X, e

seja C uma matriz de constantes. Então,

( ) ( ) ( )tr tr trA B A B , m n p qX X X

∂ ∂ ∂+ = + = = =∂ ∂ ∂

(2.29)

( ) ( ) ( )trtr trAB AB AB , m q, n pX X X

∂∂ ∂= + = =

∂ ∂ ∂ (2.30)

( ) ( )1 2tr trA A A , m n, 0AX X

− −∂ ∂= − = ≠

∂ ∂ (2.31)

( ) ( )1 1 1tr trA C A CA A , m n r s, 0AX X

− − −∂ ∂= − = = = ≠

∂ ∂ (2.32)

A barra acima das matrizes anteriores em (2.29) a (2.32) indica que

essas são consideradas constantes para fins de diferenciação.

b) determinante

( ) ( )tt 1X adj , u v, 0X XX XX−

∂= = = ≠

∂ (2.33)

( ) ( )t t1

adjln X X , u v, 0XXX X−

∂= = = ≠

∂ (2.34)

Restrições da variável de diferenciação

Alguns problemas estão sujeitos a maximização ou minimização com

relação a uma variável que por sua vez está sujeita a restrições. Os casos

especiais são àqueles em que X é simétrica. Logo X=Xt e os elementos fora da

diagonal são sujeitos a:

xij = xji i<j (2.35)

Uma abordagem apropriada para o problema é impor restrições por

meio de multiplicadores de Lagrange. Para aplicar esse método, deve-se

diferenciar com relação a x não restrita a expressão da forma:

( )[ ]t1g tr U X X2

em que g é uma função escalar de X, U a n x n matriz de multiplicadores de

Lagrange. Logo, X deve satisfazer:

( )tg 1 0U UX 2∂

+ =−∂ (2.36)

Como também

( ) ( )t t

tt t1 1g g 0U U U U2 2X X∂ ∂⎛ ⎞ ⎛ ⎞+ = − =− −⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠

(2.37)

Somando essas expressões obtém-se a condição para o extremo

restrito:

tg g 0X X

∂ ∂⎛ ⎞ ⎛ ⎞+ =⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠

(2.38)

Outro caso importante de matriz X restrita é: se X é uma matriz

diagonal n x n e Y uma matriz função de X, então,

11 22 nn

tr(Y) tr(Y) tr(Y)tr(Y) Diagx x xX

∂ ∂ ∂∂ ⎡ ⎤= ⎢ ⎥∂ ∂ ∂∂ ⎣ ⎦

(2.39)

E se X = x Ι, então,

tr(Y) tr(Y)X x

∂ ∂=

∂ ∂ (2.40)

Regra da cadeia para funções escalares de matrizes

Seja g uma função escalar de A diferenciável com relação aos

elementos de A, e deixe os elementos de A ser função diferenciável de x. Então,

tg g Atrx A x

∂ ⎛ ⎞∂ ∂= ⎜ ⎟∂ ∂ ∂⎝ ⎠ (2.41)

Por exemplo, para |A|≠0, g=ln|A| de (2.34) tem-se:

( )t t

t1g ln ln A AA Atr tr Ax x A x x

−∂ ∂ ⎛ ⎞ ⎡ ⎤∂ ∂ ∂= = =⎜ ⎟ ⎢ ⎥∂ ∂ ∂ ∂ ∂⎝ ⎠ ⎣ ⎦

(2.42)

derivada de uma função de um vetor com relação a um vetor

Seja um vetor z m x 1, cujos elementos são diferenciáveis pelos

elementos 1 x n do vetor [ ]t1 2 nx x x x= . A derivada de Z em relação a tx é

a matriz m x n:

z i 1, 2, ..., mzx j 1, 2, ..., nx

∂ =⎡ ⎤∂= ⎢ ⎥∂ =∂ ⎣ ⎦

(2.43)

Por exemplo, de (2.26) tem-se a primeira derivada de tx Ax , sendo A

simétrica,

( )tt tr x Axx Ax 2Axx x

∂∂= =

∂ ∂ (2.44)

De (2.43), a segunda derivada é representada em forma matricial

x Ax xx Ax 2Ax 2Ax x x x

∂ ∂ ∂∂ ∂= = =

∂ ∂ ∂ ∂ (2.45)

Formas quadráticas

Definindo A como uma matriz simétrica não nula (nxn), e o vetor

t1 2 nx [X X X ]= a expressão:

n n 1 nt 2

ii i ij i ji 1 i 1 j i 1

Q x A x a X 2 a X X−

= = = +

= = +∑ ∑ ∑

é dita forma quadrática, pois só contém termos quadrados ( )2ix e de produtos

( )i jx x .

Exemplo 2.5

Obtenha a expansão da forma quadrática, dado o vetor x e a matriz A, a seguir:

[ ]1 2

4 1x x x A

1 2⎡ ⎤

= = ⎢ ⎥⎣ ⎦

[ ] [ ]1 11 2 1 2 1 2

x x4 1Q x x 4x x x 2x

x x1 2⎡ ⎤ ⎡ ⎤⎡ ⎤

= × × = + + ×⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

2 21 1 2 2Q 4x 2x x 2x∴ = + +

Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um

vetor x são realizações de p variáveis aleatórias X1, X2, ..., Xp pode-se

considerá-los como coordenadas de um ponto no espaço p-dimensional. A

distância desse ponto 1 2 p[x x x ] da origem pode e deve, nesse caso, ser

interpretada em termos de unidades de desvio padrão. Desse modo, pode-se

considerar a incerteza inerente (variabilidade) às observações. Pontos com a

mesma incerteza associada são considerados de mesma distância da origem.

Introduzindo agora uma fórmula geral de distância mais apropriada têm-se:

( )n n 1 n

2 2ii i ij i j

i 1 i 1 j i 1d a x 2 a x x0,P

= = = +

= +∑ ∑ ∑ (2.46)

e garantindo que d2 > 0 para todo ponto P≠0, e fazendo aij=aji, têm-se:

11 12 1p

121 22 2p2 t

p1 p2 pp

0 d x Ax

a a axa a ax xxa a a

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎡ ⎤< = = ⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥

⎣ ⎦

(2.47)

Verifica-se que (2.47) é uma forma quadrática, o que permite que a

interprete como uma distância. A determinação, dos coeficientes da matriz A de

(2.47) será apresentada oportunamente.

Classificação de formas quadráticas

As formas quadráticas podem ser classificadas, quanto aos

resultados que produzem. Nesta seção, o interesse residirá nas formas

quadráticas não negativas e nas matrizes associadas (denominadas positivas

definidas). Uma condição necessária e suficiente para que A seja positiva definida

(pd) é que esta possa ser fatorada por:

tn n n n n nA S S=

e que o posto de S seja n, em que S é uma matriz triangular, denominada fator de

Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky,

ela é positiva definida.

t t t t t t t

2 2 21 2 n

Q x Ax x (SS )x (S x) (S x) z z

= = = =

= + + +

Devido a S ter posto coluna completo, não existe x não nulo, tal que

tz S x 0= = . Portanto, a forma quadrática Q é sempre positiva, como foi afirmado.

Se por outro lado, o posto de S for r≤n, então o posto de A será r, e a forma

quadrática Q x 'Ax= ≥ 0, é denominada positiva semidefinida (psd). Isso se deve

ao fato de que para algum vetor x ≠ 0, a igualdade Q = 0, acontece. O algoritmo

para obtenção do fator de Cholesky de uma matriz pd, está apresentado a seguir.

Algoritmo para obtenção do fator de Cholesky

de uma matriz positiva definida

1. Dada uma matriz A (nxn), com elementos aij.

2. Obtenção da transposta do fator de Cholesky St, é dada pelo algoritmo abaixo,

sendo que os elementos desta matriz não contemplados pelo método devem

ser considerados iguais a zero:

1a linha: 1j11 11 1j

aS a S j 1

S= = >

i-ésima linha:

2ii ii ri

ij ij ri rjr 1ii

i 2 j i

⎛ ⎞= −⎜ ⎟⎝ ⎠

3. A obtenção de S-1, inversa de S, com elementos Sij, é dada por:

i 1ii ij rj

rir 1ii ii

1 1S S S S i jS S

para i < j S 0

−= = >

4. A obtenção da A-1, inversa de A, com elementos aij, em que aij=aji, é dada por:

( )n n2ii ri ij ri rj

r i r ia S a S S i j

= = >∑ ∑

Exemplo 2.6

Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir

da matriz A, apresentada a seguir:

4 2 0A 2 2 1

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Obtenção de St:

Primeira linha:

11 12 132 0S 4 2; S 1; S 02 2

= = = = = =

Segunda linha:

2222 23

1S 2 1 1 S 1 1 0 11

⎡ ⎤= − = = − × =⎣ ⎦

Terceira linha:

22 233S 2 0 1 1⎡ ⎤= − + =⎣ ⎦

2 1 0 2 0 0S 0 1 1 e S 1 1 0

0 0 1 0 1 1

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

A matriz S-1 é obtida por:

Linha 1:

11 12 131S ; S S 0 i j2

= = = <

Linha 2:

22 21 121 1 1S 1; S 1 1 ; S 0 pois i j1 2 2

⎛ ⎞= = = − × × = − = <⎜ ⎟⎝ ⎠

linha 3:

33 31 321 1 1 1S 1; S 1 0 1 S 1 (1 1) 11 2 2 2

⎛ ⎞⎛ ⎞−= = = − × × + × = = − × × = −⎜ ⎟⎜ ⎟

⎝ ⎠⎝ ⎠

1 0 021S 1 021 1 12

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥−

= ⎢ ⎥⎢ ⎥⎢ ⎥

−⎢ ⎥⎢ ⎥⎣ ⎦

A matriz A-1 é obtida por:

Diagonal principal:

2 2 211

1 1 1 3a2 2 2 4

a 1 1 2

⎛ ⎞ ⎛ ⎞ ⎛ ⎞= + − + =⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠

= + − =

Demais elementos:

12 21 13 31 23 32

1 1a 1 ( 1) 1;2 2

1 1a 1 ; a 1 ( 1) 1;2 2

1a a 1; a a ; a a 12

⎛ ⎞= × − + − × = −⎜ ⎟⎝ ⎠

= × = = × − = −

= = − = = = = −

3 14 2

1A 1 2 1

−⎡ ⎤⎢ ⎥= − −⎢ ⎥⎢ ⎥−⎣ ⎦

O fator de Cholesky S e sua inversa têm as seguintes propriedades:

1. SSt = A

2. S-1S = St(S-1) t = Ι

3. S-1A = S t

4. A(S-1) t = S

5. (S-1)A(S-1) t = Ι

6. (S-1) t (S-1) = A-1

Maximização de formas quadráticas

Na estatística multivariada e em outras áreas aplicadas, é muitas

vezes necessária a maximização de uma forma quadrática. Devido à forma

quadrática tQ x Ax= poder ser feita arbitrariamente grande tomando-se os valores

dos elementos de x grandes, é necessário maximizar Q condicionada a alguma

restrição no comprimento de x . Uma conveniente alternativa é tomar uma solução

normalizada de x , ou seja, uma solução tal que x tenha comprimento unitário.

Então a maximização da forma quadrática Q pode ser transformada na

maximização da razão:

x Axx x

para toda matriz A simétrica real. Para a maximização deve-se tomar a derivada

em relação a x e igualar a zero, resolvendo o sistema obtido, como demonstrado

a seguir.

t tQ x Ax x x2Ax e 2xx x x

∂ ∂ ∂= = =

∂ ∂ ∂

usando a regra do quociente:

t 2 t t

2Ax(x x) 2(x Ax)x 2 x AxA xx (x x) x x x x

⎛ ⎞∂λ −= = − Ι⎜ ⎟∂ ⎝ ⎠

igualando a zero essa derivada e dividindo-a por ( )t2 x x , é obtido o sistema

homogêneo de equações:

x AxA x 0x x

⎛ ⎞− Ι =⎜ ⎟

⎝ ⎠

Desde que t

x Axx x

= λ , então para um ponto estacionário qualquer i,

( )i iA x 0− λ Ι = (2.48)

Para que o sistema de equações em (2.48) não possua apenas a

solução trivial, A-λiΙ não pode ter posto completo. Isto significa que seu

determinante deve ser zero:

|A-λiΙ| = 0 (2.49)

A equação polinomial em λ, resultado da expansão dos termos a

esquerda na equação (2.49) através do uso da definição (2.9), é chamada de

equação característica de A. A i-ésima raiz da equação (λi) é denominada de valor

característico de A; ix é denominado vetor característico de A associado a λi.

Outras terminologias podem ser empregadas, tais como, autovalores e

autovetores, ou, valores e vetores próprios, ou ainda, raiz e vetor latente.

Pares de formas quadráticas

É de fundamental importância na análise multivariada o problema de

maximizar razão entre duas formas quadráticas:

x Ax B 0x Bx

λ = ≠

em que B é uma matriz pd. O máximo é dado da mesma forma que apresentado

anteriormente, a partir da derivada em relação a x , igualando-a a zero, como

apresentado a seguir:

x Bx x AxAx Bx (A B)x 0x 2 x Bx

∂λ× = − = − λ =

∂ (2.50)

O sistema homogêneo de equações (2.50) terá solução não trivial

( x ≠ 0 ), se e somente se,

A B 0− λ = (2.51)

Os autovalores (λ) de A em relação a B são denominados de valores

próprios, raízes características, e os autovetores de vetores característicos ou

próprios. Desde que B seja pd, é possível fatorá-la através do fator de Cholesky,

tB BB S S=

Então definindo-se tBz S x= e usando as propriedades do fator de

Cholesky tem-se que ( )t1Bx S z−= . Agora, se (2.50) for pré multiplicada por 1

BS− e

( )t1Bx S z−= for substituído na expressão, têm-se:

t1 1 1B B B

t1 1B B

S A S B S z 0

S A S z 0

− − −

− −

⎡ ⎤− λ =⎣ ⎦

⎡ ⎤− λΙ =⎢ ⎥⎣ ⎦

(2.52)

desde que ( )t1 1B BS B S− − = Ι

A solução de (2.52) é a mesma da obtida pela maximização de uma

forma quadrática, apresentada em (2.48), exceto que ( )t1Bx S Z−= deve ser

recuperado, uma vez que Z é obtido. Os autovalores, no entanto, são invariantes

à transformação não-singular realizada.

Cálculo prático dos autovalores e autovetores

Será apresentado aqui o método denominado “Power method”

derivado por Hotelling (1936). Esse método é apropriado para problemas em que

somente r autovalores de maior magnitude e os seus respectivos autovetores são

necessários (r≤n). O método é iterativo, dado um vetor inicial arbitrário (0)v . O

vetor do estágio i será representado por (i)v e o da próxima iteração será obtido

(i 1) (i)v Av+ =

Usualmente um vetor de elementos iguais a ±1 é usado como vetor

inicial. Os vetores característicos devem ser normalizados em cada estágio, para

que o critério de convergência seja verificado. Quando uma aproximação desejada

para λ1 e 1x sejam alcançados, o segundo autovalor e autovetor devem ser

encontrados na matriz A2, definida por:

t2 1 1 1A A x x= − λ (2.53)

E assim o processo é repetido até que um número r≤n de pares de

autovalores e autovetores sejam obtidos.

Exemplo 2.7

aplicar o “power method” e determinar os autovalores e autovetores da matriz

apresentada a seguir:

2 1⎡ ⎤

= ⎢ ⎥⎣ ⎦

1. Determinação de λ1 e 1x

O vetor (0)v será considerado como: (0)v =11

⎡ ⎤⎢ ⎥⎣ ⎦

Na avaliação da convergência, o autovetor em cada estágio será

padronizado através da divisão pelo elemento de maior valor do mesmo.

(i) (1) (0) 4 2 1 6

A2 1 1 3v v ⎡ ⎤ ⎡ ⎤ ⎡ ⎤

= = × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Normalizando (1)v :

6(1) 63 1

1v ⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎣ ⎦⎣ ⎦

Para avaliar a convergência, os vetores (0)v e (1)v devem ser comparados. Será

considerado, convergente se todos os elementos de (1)v forem semelhantes aos

elementos correspondentes de (0)v , para uma precisão pré estipulada, ou seja, de

1x10-8. Neste caso, os vetores diferem consideravelmente.

(ii) (2) (1)12

14 2 5v Av

2 1 2.5⎡ ⎤⎡ ⎤ ⎡ ⎤

= = × =⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦

, normalizando

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Comparando-se (2)v com (1)v , padronizados, verifica-se que são idênticos,

indicando que o critério de convergência foi alcançado.

O autovetor 1x é obtido pela normalização de (2)v e o primeiro

autovalor λ1, por t1 1 1x A xλ = .

(2)t (2)1

t1 1 1

0,8944V0, 4472V V

0,8944x A x 4, 4721 2, 2361 5

0, 4472

x ⎡ ⎤= = ⎢ ⎥

⎣ ⎦

⎡ ⎤λ = = × =⎢ ⎥

⎣ ⎦

2. determinação de λ2 e 2x

t2 1 1 1A A x x= − λ = [ ]4 2 0,8944 0 0

5 0,8944 0, 44722 1 0, 4472 0 0

⎡ ⎤ ⎡ ⎤ ⎡ ⎤− × × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Portanto os demais autovalores e autovetores de A são nulos (λ2=0 e

2x 0= ).

Os autovalores da matriz da forma quadrática podem servir para

classificação das mesmas. Demonstra-se que se todos os autovalores da matriz

A, dado tQ x Ax= , forem positivos e maiores que zero a matriz A é positiva

definida e a forma quadrática é positiva. Se A possui autovalores positivos e nulos

a matriz será psd, e a forma quadrática poderá ser nula para um vetor x 0≠ .

Os resultados apresentados até agora, a respeito de formas

quadráticas, são conseqüências da expansão de matrizes simétricas em um

processo denominado de decomposição espectral. A decomposição espectral de

uma matriz A (nxn), simétrica, é dada por:

t t t1 1 1 2 2 2 n n nA e e e e e e= λ + λ + + λ (2.54)

em que λi (i=1, 2, ..., n) são os autovalores de A e ie são os autovetores

normalizados associados.

Exemplo 2.8

Considere a matriz simétrica:

2 2⎡ ⎤

= ⎢ ⎥⎣ ⎦

com os autovalores e autovetores normalizados, apresentados a seguir:

1 1 2 2

0,8507 0,52575, 2361 e 0,7639 e

0,5257 0,8507−⎡ ⎤ ⎡ ⎤

λ = = λ = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Obtenha a decomposição espectral de A.

t1 1 1

3,7893 2,3417e e

2,3417 1, 4471⎡ ⎤

λ = ⎢ ⎥⎣ ⎦

t2 2 2

0, 2111 0,3416e e

0,3416 0,5528−⎡ ⎤

λ = ⎢ ⎥−⎣ ⎦

4 2 3,7893 2,3417 0, 2111 0,34162 2 2,3417 1, 4471 0,3416 0,5528

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= +⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

A expressão da distância como raiz quadrada de uma forma

quadrática positiva definida permite que se obtenha a interpretação geométrica

baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e

suponha que p=2, os pontos tx =[x1, x2] de distância constante c da origem

satisfazem a:

t 2 2 211 1 22 2 12 1 2x Ax a X a X 2a X X c= + + =

pela decomposição espectral de A, como no exemplo 2.8, tem-se:

( ) ( )

t t1 1 1 2 2 2

2 2t t t1 1 2 2

A e e e e

x Ax X e X e

= λ + λ

∴ = λ + λ

Fazendo ti iy x e= , obtém-se: 2 2 2

1 1 2 2c y y= λ + λ que é uma elipse, pois λi>0. Verifica-

se que 12

1 1x c e−= λ satisfaz ( )12

2t t 21 1 1 1x Ax c e e c−= λ λ = e 1

22 2x c e−= λ fornece a

apropriada distância na direção de 2e . Portanto, os pontos de distância c

pertencem a uma elipse cujos eixos são dados pelos autovetores de A com

tamanhos proporcionais ao recíproco da raiz quadrada dos autovalores. A

constante de proporcionalidade é c. A situação é ilustrada na Figura 2.1. Se p>2

os pontos pertencem a uma hiperelipsóide de distância c constante da origem,

cujos eixos são dados pelos autovetores de A. O semi eixo na direção i tem

comprimento de i

-0,5 cλ 1

cλ 2-0,5

Figura 2.1. Pontos de distância c constante da origem (λ1 < λ2).

Matriz raiz quadrada

A partir da decomposição espectral, é possível definir uma categoria

de matriz, em função dos autovalores e autovetores, denominada de matriz raiz

quadrada.

Sendo A (nxn), uma matriz com decomposição espectral dada por

i i ii 1

A e e=

= λ∑ , pode-se construir uma matriz P, cujas colunas são os autovetores

normalizados de A, tal que, [ ]1 2 nP e e e= , e uma matriz Λ diagonal, como os

autovalores de A, tal que, Λ=diag[λi]. É fácil verificar que:

n1 1 t t

i ii 1 i

1A P P e e− −

⎛ ⎞= Λ = ⎜ ⎟λ⎝ ⎠

∑ (2.55)

Definindo, Λ1/2 como uma matriz diagonal com iλ como elemento

da i-ésima diagonal, então, a matriz a seguir é definida como matriz raiz quadrada

de A e é simbolizada por A1/2.

1 12 2

i i ii 1

A e e P P=

= λ = Λ∑ (2.56)

As suas propriedades são:

1. (A1/2)t= A1/2 (A1/2 é simétrica)

2. A1/2A1/2=A

3. ( )1 12 2

n1 t t1i i

i 1A e e P P

− −

= = Λ∑

4. A1/2A-1/2=A-1/2A1/2=Ι e A-1/2A-1/2=A-1

em que A-1/2 = (A1/2)-1

Exemplo 2.9

Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8),

usando as equações (2.55) e (2.56):

2 2⎡ ⎤

= ⎢ ⎥⎣ ⎦

com autovalores e autovetores normalizados, apresentados a seguir:

1 1 2 2

0,8507 0,52575, 2361 e 0,7639 e

0,5257 0,8507−⎡ ⎤ ⎡ ⎤

λ = = λ = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

As matrizes P e Λ foram obtidas pelos autovalores e autovetores, e

estão apresentadas a seguir:

0,8507 0,5257 5, 2361 0P

0,5257 0,8507 0 0,7639−⎡ ⎤ ⎡ ⎤

= Λ =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

1 1 15,2361 2 21 1 t

1 10,7639 2

00,8507 0,5257 0,8507 0,5257A P P

00,5257 0,8507 0,5257 0,8507 1− − − −⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤

= Λ = × × =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦

1 12 2 tA P P

5, 2361 00,8507 0,5257 0,8507 0,5257 1,8975 0,63240,5257 0,8507 0,5257 0,8507 0,6324 1, 26490 0,7639

= Λ =

⎡ ⎤−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= × × =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

A seguir, um programa SAS é apresentado contendo os principais

comandos para a realização das várias operações matriciais e vetoriais descritas

nesse capítulo.

/* Capitulo 2 de multivariada - principais operações matriciais descritas */ /* por meio do proc iml. Rotinas de inversão, multiplicação, transposição */ options nodate nonumber ps=1000 ls=76; proc iml; /* elementos de algebra vetorial*/ x1={1,1,1,1}; x2={1,1,0,0}; x3={0,0,1,1}; print x1 x2 x3; y=4*x1; z=x1+x2; print y z; yz=y` * z; yy=y`*y; /*distancia quadratica*/ dy=sqrt(yy); /* distancia da origem*/ zz=z`*z; dz=sqrt(zz); costeta=yz/(dy*dz); print yz yy zz dy dz costeta; /* elementos de algebra matricial*/ x=x1||x2||x3;/* concatenando vetores para obter uma matriz*/ xpx=x`*x; xx=xpx#xpx; /* produto de xpx elemento a elemento por xpx*/ print x xpx xx; /*calculo da base ortonormal de Gramshimidt - a matriz p contém as colunas ortonormalizadas de X*/ Call Gsorth(p, t, lindep, X); print lindep p t; /* calculo de autovalores e autovetores */ pu=eigvec(xpx); /* pu matriz de autovetores */ au=eigval(xpx); /* au vetor de autovalores */ print pu; print au; a={4 2,2 2}; /* matriz A*/ ainv=inv(a); /* inversa de A*/ deta=det(a); /* determinante de A*/ print a ainv deta; c={4 2 2,2 2 0, 2 0 2}; detc=det(c); print c detc; /* fator de Cholesky A=S`S em que S e uma matriz triangular superior */ /* S e a transposta do fator de Cholesky */ Sc=root(c); /* matriz c e singular, porem o SAS calcula assim mesmo o fator de Cholesky */ /* pode-se observar que a ultima linha, da matriz Sc e nula devido a isso*/ Sa=root(a); b={4 2 0,2 2 1,0 1 2}; print b; sb=root(b); print Sc Sa sb; /*maximização de pares de formas quadráticas */ /* resolver (D - lG)e=0 */ D={4 2,2 2}; G={7 1,1 4}; print D G; Sg=root(G); /* transposta do fator de Cholesky de G */ Sginv=inv(Sg); /* inversa da transposta do fator de Cholesky de G */

print Sg Sginv; II=Sginv`*G*Sginv; /* mostrar que é igual a identidade */ print ii; H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */ print H; /* D transformada */ zh=eigvec(H); /* zh matriz de autovetores */ auh=eigval(H); /* auh vetor de autovalores */ xh=Sginv*zh; /* matriz de autovetores recuperados */ teste=xh`*g*xh; print teste;/*mostrar que resulta na identidade*/ print xh; print auh; /* obtencao de matriz raiz quadrada - exemplificar com a matriz D */ aud=eigval(D); /* autovalores de D*/ lamb=diag(aud); /* diagonalizando aud e resultado em lamb */ print lamb; lambS=root(lamb); /* achando a raiz quadrada de lamb */ avd=eigvec(D); /* autovetores de D em avd */ Droot=avd*lambS*avd`; /* usando a definição para encontrar a matriz raiz quadrada de D */ print Droot; DD=avd*lamb*avd`; /* checando propriedades */ print DD; /* deve ser igual a D */ quit;

2.4. Exercícios

2.1. Sejam os vetores x ’=[3, 2, 4] e y '=[-1, 2, 2]

(a) plote os dois vetores

(b) encontre (i) o comprimento de x , (ii) o ângulo entre x e y , e (iii) a distância

entre x e y .

(c) plote os vetores x x.1− e y y.1− ( x 3= e y = 1).

2.2. Dada a matriz

1 1 0 01 1 0 0

X 1 0 1 01 0 1 01 0 0 1

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(a) Ortonormalize as colunas de X, usando a construção de Gram-Schimidt.

(b) Determine o vetor (coluna de x) linearmente dependente.

(c) Determine o posto coluna de X, a partir da construção de Gram-Schimidt

realizada em (a).

2.3. Dadas as matrizes

4 2 2 6 4 2A 2 2 0 B 4 4 0

2 0 4 2 0 6

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

(a) Obtenha a inversa de A e de B, usando o algoritmo de Gauss-Jordan.

(b) Verifique usando o processo de Gauss-Jordan que (AB)-1=B-1A-1.

2.4. Verifique se a matriz

0,8507 0,5257P

0,5257 0,8507−⎡ ⎤

= ⎢ ⎥⎣ ⎦

é uma matriz ortogonal.

2.5. Seja

1 2−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

(a) Calcule o determinante de A.

(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?

(c) Obtenha o fator de Cholesky, e confirme a resposta dada em (b).

(d) Determine os autovalores e autovetores de A.

(e) Obtenha a decomposição espectral de A.

(f) Encontre A-1.

(g) Encontre os autovalores e autovetores de A-1. Verifique que relação tem como

os valores encontrados em (d).

2.6. Considere as matrizes

4 4,001 4 4,001A B

4,001 4,002 4,001 4,002001⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

As matrizes são idênticas, exceto por pequenas diferenças no

elemento, a22 e b22 devida a arredondamentos. Mostre que A-1 = -3B-1 (pequenas

mudanças, talvez devido a arredondamentos, podem causar substanciais

diferenças na inversa).

2.7. Verifique se a forma quadrática

2 21 1 2 2Q 2x 2x x 4x= − +

é positiva definida.

Sugestão: Verificar se tQ x Ax= é positiva, pode ser feita verificando se A é pd.

2.8. Dada as matrizes

4 1 2 1A B

1 2 1 1−⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

(a) determine os autovalores e autovetores que maximizam a razão

x Ax B 0x Bx

λ = ≠

Obs. O que é equivalente a resolver o sistema determinantal dado por (2.51)

A B 0− λ = .

(b) Determine a matriz raiz quadrada de A e de B.

2.9. Dada a matriz de covariância amostral (S)

2 4−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

(a) Determine R, dada D1/2, definida por:

0 S 0D

⎡ ⎤⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

Sendo ( ) ( )1 12 2

1 1R D S D

− −=

(b) Verifique a relação

( ) ( )1 12 2S D R D=

||[ 3 ]||Amostragem multivariada

3.1. Introdução

Com os conceitos de álgebra vetorial introduzidos no capítulo 2,

pode-se aprofundar na interpretação geométrica das estatísticas descritivas X , S

e R. A maioria das explicações usam a representação das colunas de X, como p

pontos no espaço n dimensional. Será introduzida neste instante a pressuposição

de que as observações constituem uma amostra aleatória. De uma forma

simplificada, amostra aleatória significa (i) que as medidas tomadas em diferentes

itens (unidades amostrais ou experimentais) são não relacionadas uma com as

outras, e (ii) que a distribuição conjunta das p variáveis permanece a mesma para

todos os itens. Essa estrutura de amostra aleatória é que justifica uma escolha

particular de distância e dita a geometria para a representação n dimensional dos

dados. Finalmente, quando os dados podem ser tratados como uma amostra

aleatória à inferência estatística terá por base um sólido fundamento.

3.2. Geometria amostral

Uma observação multivariada é uma coleção de medidas em p

variáveis tomadas na mesma unidade amostral ou experimental. No capítulo 1,

item 1.3, as n observações obtidas foram dispostas em um arranjo (Matriz) X por,

11 12 1 1

21 22 2 2

j j jk jp

n n nk np

x x x xx x x x

Xx x x x

x x x x

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

em que cada linha de X representa uma observação multivariada. Desde que o

conjunto todo de mensurações é muitas vezes uma particular realização de

variáveis aleatórias, diz-se que os dados representam uma amostra de tamanho n

de uma população p variada.

Os dados podem ser plotados por um gráfico com p coordenadas. As

colunas de X representam n pontos no espaço p dimensional. Esse tipo de gráfico

fornece informações de locação dos pontos e de variabilidade. Se os pontos

pertencem a uma esfera, o vetor de médias amostrais, X , é o centro de balanço

ou de massa. Se a variabilidade ocorre em mais de uma direção, pode-se detectar

pela matriz de covariância, S. Uma medida numérica única de variabilidade é

fornecida pelo determinante da matriz de covariância.

Exemplo 3.1

Calcule o vetor média X para a matriz X apresentada a seguir. Plote os n = 3

pontos no espaço p=2 (bidimensional) e localize X no diagrama resultante.

2 1X 3 0

⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦

A média amostral é dada por:

( ) ( )( )

2 3 2 3 1X

11 0 2 3

⎡ ⎤+ − + −⎡ ⎤ −⎡ ⎤⎣ ⎦= =⎢ ⎥ ⎢ ⎥+ + ⎣ ⎦⎢ ⎥⎣ ⎦

O primeiro ponto é dado por [ ]t1X 2 1= , o segundo por [ ]t

2X 3 0= − , e

o terceiro por [ ]t3X 2 2= − . A Figura 3.1 mostra os pontos juntamente com X ,

centro de massa ou de balanço, obtidos a partir da matriz X.

-4 -3 -2 -1 0 1 2 3 4

Figura 3.1. Diagrama com n=3 pontos no espaço bidimensional (p=2) mostrando o

centro de massa, X .

Uma representação alternativa é obtida através da consideração de p

pontos no espaço n dimensional. Os elementos das linhas de X são utilizados

como coordenadas.

11 12 1 1

21 22 2 2

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

⎡ ⎤= ⎣ ⎦

j j jk jp

n n nk np

x x x xx x x x

Xx x x x

x x x x

y y y y

As coordenadas do k-ésimo ponto [ ]tk 1k 2k nky x x x= é

determinada pela n-upla de todas as medidas da k-ésima variável. É conveniente

representar tky como vetor ao invés de pontos.

Exemplo 3.2

Plote os dados da matriz X, com p=2 vetores no espaço tridimensional (n=3)

2 13 03 2

X⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦

[ ]t1y 2 3 2= − − e [ ]t

2y 1 0 2=

Figura 3.2. Diagrama da matriz de dados X como p=2 vetores no espaço

tridimensional.

Muita das expressões algébricas que serão encontradas na análise

multivariada, podem ser relacionadas às noções geométricas de ângulos,

comprimento (norma) e volumes. Isto é importante, pois representações

geométricas facilitam a compreensão e conduz a novas visões. Infelizmente, o ser

humano está limitado a visualizar objetos no espaço tridimensional, e as

representações da matriz X não serão úteis se n>3. No entanto, os

relacionamentos geométricos e os conceitos estatísticos associados, descritos

para o espaço tridimensional ou bidimensional, permanecem válidos para

dimensões maiores.

É possível, em função do exposto, prover uma interpretação

geométrica ao processo de encontrar a média amostral. O vetor 1 (nx1) será

definido por t1 =[1 1 … 1]. O vetor 1 forma um ângulo igual com cada um dos

eixos coordenados, de tal forma que ( )1 n 1 tenha comprimento unitário e

mesmo ângulo de direção. Considerando o vetor [ ]tk 1k 2k nky x x x= , cuja

projeção em ( )1 n 1 é:

jkj 1t t

X1 1 1y 1 1 1 y 1 1 X 1

n nn n=⎛ ⎞ = = =⎜ ⎟

⎝ ⎠

Pois, a projeção geral de X em Y é dada por:

( )tX YProj X em Y Y

Dessa forma ( )tk k

1X y 1n

= corresponde a um múltiplo de 1, obtido a

partir da projeção de tky em um vetor 1 , de acordo com o esquema a seguir.

ky k k ke y X 1= −

1 kX 1

em que, k ky X 1− é perpendicular a kX 1 . Observe, também, que k k ke y X 1= − é

definido como desvio da k-ésima variável em relação a sua média amostral, e

consiste nos elementos apresentados a seguir:

2k kk k k

x Xx X

e y X 1

⎡ ⎤−⎢ ⎥−⎢ ⎥= − =⎢ ⎥⎢ ⎥

−⎢ ⎥⎣ ⎦

A decomposição de iy , nos vetores média e desvio da média está

apresentada esquematicamente na Figura 3.3 para p=2 e n=3.

Figura 3.3. Decomposição de ky em componentes de média kX 1 e componentes

de desvio k k ke y X 1= − .

Exemplo 3.3

Faça a decomposição de ky em componentes de média kX 1 e componentes de

desvio k k ke y X 1= − , k=1, 2, para os dados do exemplo 3.2.

2 13 03 2

X⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦

[ ] [ ]t t1 2y 2 3 2 y 1 0 2= − − =

1 22 ( 3) ( 2) 1 0 2X 1 X 1

3 3+ − + − + +

= = − = =

1 1X 1 1 1 1

−⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= − = −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

1 1X 1 1 1 1

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

2 1 3e y X 1 3 1 2

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − − − = −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− − −⎣ ⎦ ⎣ ⎦ ⎣ ⎦

1 1 0e y X 1 0 1 1

⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − = −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Observa-se que: 1X 1 e 1e , 2X 1 e 2e , são perpendiculares.

( ) ( ) [ ]t11 1 11

3X 1 y X 1 1 1 1 2 3 2 1 0

⎡ ⎤⎢ ⎥− = − − − × − = − + + =⎢ ⎥⎢ ⎥−⎣ ⎦

A decomposição é:

2 1 33 1 22 1 1

y−⎡ ⎤ ⎡ ⎤ ⎡ ⎤

⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − + −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦

1 1 00 1 12 1 1

y⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = + −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Os vetores de resíduos podem ser plotados a partir da origem, como

apresentado na Figura 3.4, para os resíduos do exemplo 3.3.

Figura 3.4. Vetores de desvios ie do exemplo 3.3.

Considere o comprimento ao quadrado dos vetores de desvios,

obtidos por (2.2):

| ke |2= ke . ke = 2

−∑n

jk kjx X (3.1)

Observa-se por (3.1) que o comprimento ao quadrado dos vetores de

desvios é proporcional à variância da i-ésima variável. Equivalentemente, o

comprimento é proporcional ao desvio padrão. Vetores longos representam

maiores variabilidades que os vetores mais curtos.

Para dois vetores desvios ke e e :

( )( )1=

= − −∑n

tk jk k j

e e x X x X (3.2)

De (2.3) e denotando o ângulo θik como o ângulo formado pelos

vetores ke e e , tem-se:

k t tk k

e eCose e e e

θ =×

Usando (3.1) e (3.2) é fácil verificar que (3.3) é:

( ) kk k

Sr CosS S

= θ = (3.4)

O coseno do ângulo formado entre dois vetores desvios é igual ao

coeficiente de correlação amostral. Portanto, se os dois vetores de desvios

possuem a mesma orientação, o coeficiente de correlação será próximo de 1. Se

os dois vetores estão próximos de serem perpendiculares, a correlação amostral

será próxima de zero. Se os dois vetores forem orientados em direções opostas, o

coeficiente de correlação amostral será próximo de -1. Os conceitos de

comprimento e ângulos permitem que se façam interpretações das estatísticas

amostrais geometricamente, e auxiliam na compreensão dos seus significados.

3.3. Amostras aleatórias e esperanças do vetor de média e da matriz de covariância amostral.

Com a finalidade de estudar a variabilidade amostral de estatísticas

como X e S com a finalidade de se fazer inferências, é necessário fazer

pressuposições a respeito das variáveis cujos valores observados constituem um

conjunto de dados X.

Supondo que os dados não foram ainda observados, mas

pretende-se obter n mensurações em p variáveis. Antes de serem mensurados,

os valores não podem em geral ser preditos exatamente. Conseqüentemente,

estes são tratados como variáveis aleatórias. Neste contexto, os elementos (j, k)

da matriz de dados representam realizações de uma variável aleatória, Xjk. Cada

conjunto de medidas jX em p variáveis é um vetor aleatório.

11 12 1 1 1

21 22 2 2 2

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥

= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

tj j jk jp j

tn n nk np n

x x x x Xx x x x X

Xx x x x X

x x x x X

Uma amostra aleatória pode ser definida por: “Se o vetor coluna

1X , 2X , ..., nX em (3.5), representa independentes observações com distribuição

conjunta com densidade f( x )=f(x1, x2, ..., xp), então 1X , 2X , ..., nX é uma amostra

aleatória. Se a função conjunta de densidade é igual ao produto das marginais

f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), então, 1X , 2X , ..., nX é uma

amostra aleatória.”

Algumas conclusões podem ser obtidas da distribuição de X e S

sem pressuposições sobre a forma da distribuição conjunta das variáveis. Dessa

forma, considere 1X , 2X , ..., nX como sendo uma amostra aleatória de uma

distribuição conjunta com vetor média µ e matriz de covariância Σ. Então, X é um

estimador não viciado de µ e sua matriz de covariância é 1n Σ . Isto é,

E( X ) = µ (vetor média populacional)

Cov( X ) = 1n Σ (Matriz de covariância populacional dividida pelo tamanho da

amostra).

PROVA:

X =( X 1+ X 2+...+ X n)/n

( ) ( ) ( )

1 1 11 2 nn n n

E(X) E X X X

E X E X E X

1 1nE X nn n

= + + +

⎡ ⎤= = × ×µ⎣ ⎦

∴ = µ

Para provar o valor da covariância, pode-se observar que:

( X -µ ) ( X -µ ) t = ( ) ( ) ( )( )tn n n n t

j j2j 1 1 j 1 1

1 1 1X X X Xn n n= = = =

⎛ ⎞ ⎛ ⎞−µ × −µ = −µ −µ⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠

∑ ∑ ∑∑

Então,

( )Cov X = ( )( ) ( )( )n nt t

j2j 1 1

1E X X E X Xn = =

−µ −µ = −µ −µ∑∑

Sendo j≠ e considerando que ( )( )t

jE X X−µ −µ é igual a zero,

devido a covariância entre os elementos independentes jX e X ser nula, então,

( )Cov X ( )( )n t

j j2j 1

1 E X Xn =

= −µ −µ∑

Desde que Σ= ( )( )t

j jE X X−µ −µ é a covariância populacional comum

dos componentes jX , têm-se:

( ) ( )( ) ( )n t

j j2 2j 1

1 1Cov X E X Xn n

1 1(n )n n

= −µ −µ = Σ + Σ + + Σ =

= Σ = Σ

3.4. Variância Generalizada

Com uma única variável, a variância da amostra é usada para

descrever a variação nas mensurações desta variável. Quando p variáveis são

observadas em cada unidade da amostra ou do experimento, a variação é descrita

pela matriz de variância e covariância amostral.

S S SS S S

p p pp

⎢⎢⎢⎢

⎥⎥⎥⎥

11 12 1

21 22 2

A matriz de covariância amostral contém p variâncias e ½p(p-1)

covariâncias, potencialmente diferentes. Algumas vezes, no entanto, deseja-se

expressar a variação por um único valor numérico. Uma escolha deste valor é o

determinante de S, o qual reduz à variância amostral usual para o caso de uma

única variável (p=1). Este determinante é denominado de variância amostral

generalizada.

Variância amostral Generalizada=|S| (3.6)

Exemplo 3.4

O peso de espiga PE (X1), e o número de espigas NE (X2), foi avaliado em 28

variedades de milho em Sete Lagoas, MG. A matriz de covariância amostral S,

obtida dos dados é:

S=2 905 9 0969 096 90 817, ,, ,

⎣⎢

⎦⎥

A variância generalizada neste caso é:

Variância amostral Generalizada = |S| = 2,905x90,817 - 9,0962 = 181,0862

A variância amostral generalizada se constitui numa forma de

escrever toda a informação de todas as variâncias e covariâncias como um único

valor numérico. Obviamente, quando p>1 é possível que algumas informações

amostrais sejam perdidas no processo. A interpretação geométrica, no entanto,

poderá mostrar a força e as fraquezas desta estatística descritiva.

Considerando-se o volume (área) gerado no plano definido por dois

vetores de desvios 1 1 1e Y X 1= − e 2 2 2e Y X 1= − . Seja Le1 e Le2 os comprimentos

dos vetores 1e e 2e , respectivamente. Da geometria têm-se:

h= Le1Sen(θ)

Le2 2e

A área do trapezóide é Le1 x Sen(θ) x Le2, podendo ser expressa por:

Área= ( )e eL L1 221− cos θ

e1 j1 1 11j 1

L (X X ) (n 1)S=

= − = −∑

e2 j2 2 22j 1

L (X X ) (n 1)S=

= − = −∑

Cos(θ)=r12

Portanto,

Área = ( )211 22 12(n 1) S S 1 r− − (3.7)

Por outro lado,

SS SS S

S S S rS S r S

S S S S r S S r

= − = −

11 11 22 12

11 22 12 22

11 22 11 22 122

11 22 1221( )

Se (3.7) e (3.8) forem comparados, pode-se observar que:

|S|=(Área)2/(n-1)2

Esta expressão pode ser generalizada para p vetores desvios por

indução:

Variância amostral Generalizada = |S| = (Volume)2.(n-1)-p (3.9)

A equação (3.9) mostra que a variância amostral é proporcional ao

quadrado do volume gerado pelos p vetores desvios. Na Figura 3.5 (a) e (b)

mostra-se regiões trapezoidais geradas com p=3 vetores resíduos

correspondentes a “grandes” e “pequenas” variâncias amostrais generalizadas,

respectivamente.

(a) (b)

e2 e1 e3 e1

Figura 3.5. (a) grande variância amostral generalizada, e (b) pequena variância

amostral generalizada, para p=3.

Para um tamanho amostral fixo, é óbvio que |S| cresce com o

aumento do comprimento dos vetores de desvios ie (ou iin S( )−1 ). Em adição, o

volume aumentará para um comprimento fixado, se os vetores residuais forem

movidos até possuírem ângulos retos. Por outro lado se um ou mais dos vetores

residuais aproximar do hiperplano formado por outros vetores residuais, o volume

diminuirá tendendo a zero.

Apesar de a variância amostral generalizada possuir algumas

interpretações geométricas formidáveis como as ilustradas na Figura 3.5, ela sofre

alguns problemas como estatística amostral capaz de sumariar a informação

contida na matriz S. Para ilustrar estas deficiências, considere as matrizes de

covariâncias e os coeficientes de correlações apresentados a seguir.

12 12 12

10 8 10 8 6 0S S S

8 10 8 10 0 6

8 8 0r 0,8 r 0,8 r 0,010 10 10 10 6 6

| S | 36 | S | 36 | S | 36

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

−= = = = − = =

Apesar das três matrizes possuírem a mesma variância amostral

generalizada (|S|=36), elas possuem estruturas de correlações distintas. Portanto,

diferentes estruturas de correlações não são detectadas pela variância amostral

generalizada. As situações em que p>2 podem ser ainda mais obscuras.

Muitas vezes é desejável mais informações do que um simples valor

como |S| pode oferecer como resumo de S. Pode-se mostrar que |S| pode ser

expresso como produto dos autovalores de S (|S|=λ1.λ2....λp). A elipsóide centrada

na média é baseada em S-1, possui eixos de comprimento proporcionais a raiz

quadrada de λi’s de S, que reflete a variabilidade no sentido do i-ésimo autovalor.

Esta elipsóide é apresentada a seguir.

( ) ( )1 2X X 'S X X c−− − = (3.10)

Demonstra-se que o volume desta hiperelipsóide é proporcional à

raiz quadrada de |S|. Desta forma, os autovalores, fornecem informações da

variabilidade em todas as direções da representação no espaço p-dimensional dos

dados. Portanto, é mais útil apresentar seus valores individuais do que seu

produto. Este tópico será abordado com mais detalhe quando se discutir sobre os

componentes principais.

A variância amostral generalizada será zero se um ou mais vetores

residuais pertencerem a um (hiper) plano formado por uma combinação linear dos

outros, ou seja, quando as linhas da matriz de desvios, forem linearmente

dependentes.

Exemplo 3.5

Mostre que |S|=0 para

3 3 61 3 42 0 2

X⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

O vetor média é:

[ ]tX 2 2 4=

Os vetores dos desvios são:

[ ]1 2 3

1 1 21 1 1 0

⎡ ⎤⎢ ⎥− = = −⎢ ⎥⎢ ⎥− −⎣ ⎦

tX X e e e

Verifica-se que t t t3 1 2e e e= + , ou seja:

[2 0 -2] = [1 -1 0] +[1 1 -2] = [2 0 -2] c.q.d.

Isto significa que um dos vetores resíduos, pertence ao plano gerado

pelos outros dois. Desta forma o volume tridimensional é zero (degenerescência).

Este caso é ilustrado na Figura 3.6 e demonstrado numericamente através da

obtenção de |S|.

⎢⎢⎢

⎥⎥⎥

1 0 10 3 31 3 4

Pela definição (2.9), têm-se:

| | ( ) ( ) ( )

. . .( ).

S = × × − + × × − + × × − =

= + + − = − =

13 33 4

1 00 13 4

1 10 13 3

131 0 1 3 1 3 3 0

Figura 3.6 Caso em que |S|=0 (degenerescência) para o volume tridimensional.

Em qualquer análise estatística o resultado |S|=0 indica que existem

variáveis redundantes, ou seja, que possuem a mesma informação, e que estas

podem ser removidas do estudo. A matriz de covariância reduzida, será de posto

completo e a variância generalizada diferente de zero. A questão de quais

variáveis devem ser removidas no caso de degenerescência não é fácil de

responder e será abordado nos estudos de componentes principais. No entanto,

quando há possibilidade de escolha, o pesquisador deve reter as medidas de uma

variável (presumidamente) causal ao invés de uma característica secundária.

3.5.Variância generalizada de variáveis padronizadas

A variância amostral generalizada é influenciada pela diferença de

variabilidade das mensurações das variáveis individuais, ou seja, caso a variância

amostral de uma determinada variável (Sii) seja grande ou pequena em relação às

demais. O vetor residual correspondente i i ie Y x 1= − será muito longo ou muito

curto, do ponto de vista geométrico e terá um papel importante na determinação

do volume. É muitas vezes necessário, em função do exposto, padronizar os

vetores residuais, de tal forma que eles tenham o mesmo comprimento.

A padronização destes vetores residuais é equivalente a transformar

as variáveis originais xjk pelos seus valores ( )−jk k kkx x S . A matriz de

covariância amostral das variáveis padronizadas será então igual a R, ou seja,

igual a matriz de correlação das variáveis originais. Dessa forma pode-se definir:

Variância generalizada amostral das variáveis padronizadas=|R| (3.11)

Os vetores resíduos resultantes, cujos valores são dados por

ejk= ( )−jk k kkx x S , possuem todos os comprimentos iguais a n −1. A variância

generalizada amostral das variáveis padronizadas será grande se estes vetores

forem perpendiculares e será pequena se dois ou mais deles tiverem próximas da

mesma direção. Em (3.4) foi visto que o co-seno do ângulo θik entre os vetores

residuais ie e ke , com i≠k, é igual ao coeficiente de correlação amostral rik. Dessa

forma, o |R| será grande quando todos os rik forem próximos de zero e será

pequeno quando um ou mais dos rik for próximo de -1 ou de +1.

Utilizando os mesmos argumentos que conduziram a (3.9) pode-se

verificar que:

|R|=(n-1)-p(volume)2 (3.12)

O volume gerado pelos vetores desvios de p=3 variáveis

padronizadas está ilustrado na Figura 3.7. Estes vetores desvios padronizados

são correspondentes aos vetores desvios da Figura 3.5, cuja comparação revela

que a influência do vetor 2e (com grande variabilidade na direção de x2) no volume

quadrado de |S| é maior do que sua influência no volume quadrado de |R|.

(a) (b)

Figura 3.7. Volume gerado por três variáveis padronizadas: (a) grande variância e

(b) pequena variância generalizada.

As quantidades |S| e |R| são relacionadas por:

|S| = (S11 S22 ... Spp) |R| (3.13)

Exemplo 3.6

É ilustrada através deste exemplo a relação (3.13) entre |S| e |R| para p=3

caracteres de milho (x1: diâmetro do colmo; x2: número de folhas; e x3:

comprimento de folhas). A matriz R e S obtidas são:

S e R=

⎢⎢⎢

⎥⎥⎥

⎢⎢⎢

⎥⎥⎥

4 935 0 552 2 9210 552 0 686 19322 921 1932 17 993

100 0 30 0 310 30 100 0 550 31 0 55 100

, , ,, , ,, , ,

Usando-se a definição de determinante (2.9), tem-se:

|S|=37,3878

|R|=0,6137

Usando (3.13) e os resultados obtidos:

|S| = (S11 S22 ... Spp) |R|

37,3878 = (4,935 x 0,686 x 17,993) x 0,6137

(verificado, apesar da pequena diferença devido às

aproximações nos cálculos)

3.6. Outra generalização da variância

Uma outra medida capaz de sintetizar a informação contida na matriz

de covariância que é utilizada em componentes principais é definida pela soma

dos elementos da diagonal da matriz de covariância S e é denominada de

variância amostral total. Portanto,

Variância amostral total = Traço de S= Tr(S) =S11+S22+...+Spp (3.14)

Exemplo 3.7

Calcular a variância amostral total da matriz S do exemplo (3.6)

Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614

Geometricamente a variância amostral total representa a soma dos

comprimentos ao quadrado dos vetores residuais ie (i=1, 2, ...,p) dividido por n-1.

Ela não considera as orientações dos vetores residuais, sendo portanto limitada

37,3878≈37,3828

para ser utilizada com variáveis padronizadas, pois seu valor será sempre o

mesmo para distintos conjuntos de dados desde que o número de variáveis destes

seja igual.

3.7. Exercícios

3.7.1. Plote os n=4 pontos no diagrama bidimensional e localize X no diagrama

resultante.

1 11 11 11 1

⎡ ⎤⎢ ⎥− −⎢ ⎥=⎢ ⎥−⎢ ⎥−⎣ ⎦

3.7.2. Encontre o ângulo entre os vetores 1y e 2y do exemplo 3.1. Calcule o

co-seno do mesmo e discuta sobre o significado deste resultado.

3.7.3. Obtenha a decomposição dos vetores 1y e 2y do exemplo 3.1 em

componente de média e componente de desvio. Comprove a

ortogonalidade dos componentes de média com os vetores de desvios ou

residuais.

3.7.4. Calcule usando (3.3) o coseno do ângulo entre os vetores residuais 1e e 2e

obtidos em 3.3. Calcule o coeficiente de correlação usando (1.4) entre as

variáveis 1 e 2, e compare os resultados obtidos.

3.7.5. Obtenha as matrizes de covariância amostral para o conjunto de dados do

exercício 3.7.1, e calcule as variâncias amostrais generalizadas das

variáveis originais e padronizadas. Calcule também a variância amostral

total.

3.7.6. Qual é a área do trapezóide gerado pelos p=2 vetores desvios, do exercício

3.7.1.

Distribuição normal multivariada4

4.1. Introdução

A generalização da densidade normal univariada para duas ou mais

dimensões desempenha um papel fundamental na análise multivariada. De fato, a

maioria das técnicas multivariadas parte do pressuposto de que os dados foram

gerados de uma distribuição normal multivariada. Apesar dos dados originais não

serem quase nunca “exatamente” normal multivariados, a densidade normal se

constitui muitas vezes numa aproximação adequada e útil da verdadeira

distribuição populacional.

A distribuição normal, além da sua atratividade pela sua facilidade de

tratamento matemático, possui duas razões práticas que justificam a sua utilidade.

A primeira, diz que a distribuição normal é a mais adequada para modelos

populacionais em várias situações; e a segunda refere-se ao fato da distribuição

amostral de muitas estatísticas multivariadas ser aproximadamente normal,

independentemente da forma da distribuição da população original, devido ao

efeito do limite central.

4.2. Pressuposições das análises multivariada

É importante compreender que as análises estatísticas de modelos

com erros aditivos baseiam-se na pressuposição de normalidade. A distribuição

normal requerida refere-se, não a variação dos dados, mas a variação residual,

dos erros existentes entre as observações e o modelo ajustado. A variação

sistemática dos dados deve-se presumidamente aos efeitos fixos dos modelos e o

restante da variação aleatória é devida a pequenas influências independentes, as

quais produzem resíduos com distribuição normal (Bock, 1975).

Um segundo ponto, muitas vezes negligenciado nas discussões das

pressuposições sobre a distribuição, refere-se ao fato de que as afirmações

probabilísticas dos testes de significância e dos intervalos de confiança, dizem

respeito a estatísticas tais como médias amostrais ou diferenças entre médias, e

não a distribuição das observações individuais. É conhecido que a distribuição

destas estatísticas torna-se tipicamente normal quando a amostra aumenta de

tamanho. Este resultado se deve ao teorema do limite central.

Do ponto de vista prático existem consideráveis vantagens de se

trabalhar com grandes amostras. Nestes casos, a violação da pressuposição de

que a população seja normal é menos crítica para os testes estatísticos e

intervalos de confiança e a precisão da estimação de parâmetros desconhecidos é

melhor.

4.3. Densidade normal multivariada e suas propriedades

A densidade normal multivariada é uma generalização da densidade

normal univariada. Para a distribuição normal univariada com média µ e variância

2σ , a função de densidade de probabilidade é bem conhecida e é dada por:

1f (x) e x ;2

−µ−

σ= ∈ −∞ + ∞πσ

O gráfico da função (4.1) tem forma de sino e está apresentado na

Figura 4.1. As probabilidades são áreas sob a curva entre dois valores da variável

X, limitada pela abscissa. É bem conhecido o fato de que as áreas entre ±1 desvio

padrão da média e ±2 desvios padrões da média são respectivamente 68,3% e

95,4%, como ilustrado na Figura 4.1.

0,6830,954

µ−σ µ+σ µ+2σµ−2σ

Figura 4.1. Densidade normal univariada com média µ e variância 2σ ,

destacando-se as áreas entre µ ± σ e 2µ ± σ .

O expoente da função de densidade normal univariada:

( ) ( )( ) ( )2

−− µ= − µ σ − µ

σ (4.2)

mede a distância quadrada de x em relação à µ em unidade de desvio padrão.

Esta distância pode ser generalizada para o caso multivariado, com

um vetor X de observações (p x 1), dada por,

( ) ( ) ( )t 1X X−− µ Σ − µ (4.3)

Nesta expressão (4.3) o vetor µ (px1) representa o valor esperado

do vetor X e a matriz Σ (pxp) representa a sua covariância. Então, (4.3)

representa a distância generalizada de X para µ .

Substituindo a expressão (4.3) na função de densidade (4.1), a

constante univariada de normalização 22πσ deve ser trocada de modo a fazer

com que o volume sob a superfície da função de densidade multivariada obtida,

seja igual a unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que

esta constante é ( )p 1

222 −−π Σ , sendo a densidade dada por:

( )( )

( ) ( )t 11p22

1 1f X exp X X22

−⎡ ⎤= − − µ Σ − µ⎢ ⎥⎣ ⎦π Σ (4.4)

Propriedades da distribuição normal multivariada

Seja um vetor X tendo distribuição normal multivariada, então:

1. Combinações lineares dos componentes de X serão normalmente distribuídos:

seja a combinação linear ta X =a1X1+a2X2+...+ apXp, então, ta X terá

distribuição N( ta µ , ta Σ a );

2. Todos os subconjuntos de X tem distribuição normal (multivariada). Pelos

resultados da propriedade 1, fazendo alguns ai’s iguais a zero, isto se torna

evidente;

i) Fazendo ta X =[ ]

1 0 0 X

⎡ ⎤⎢ ⎥⎢ ⎥ =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

a propriedade 2 se torna evidente. Assim,

X1 ∼ N( ta µ = 1µ , ta Σ a = 11σ ). De uma forma mais geral pode-se afirmar que todo

componente Xi tem distribuição N( iµ , iiσ ).

ii) A distribuição de várias combinações lineares é:

( )11 1 1p p

q p p 1 q

q1 1 qp p

a X ... a XA X ~ N A ; A A '

a X ... a X

⎡ ⎤+⎢ ⎥= µ Σ⎢ ⎥⎢ ⎥+⎣ ⎦

iii) Todos os subconjuntos de X tem distribuição normal (multivariada)

Tomando-se uma partição: q 1 1p 1

(p q) 1 2

X XXX X−

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎣ ⎦⎣ ⎦ e suas correspondentes

partições no vetor de média e de covariância, dadas por:

q 1 1p 1

(p q) 1 2−

⎡ ⎤ ⎡ ⎤µ µµ = =⎢ ⎥ ⎢ ⎥

µ µ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ e q q q ( p q )

( p q ) q ( p q ) ( p q )

− − −

Σ Σ⎡ ⎤Σ = ⎢ ⎥

Σ Σ⎢ ⎥⎣ ⎦

( )1 q 1 11X ~ N ;µ Σ

Prova: Basta fazer qAp=[qIq | q0(p-q)] e aplicar (ii).

3. Se os componentes de covariância forem zero entre dois subconjuntos de X ,

implica em dizer que eles são independentemente distribuídos. Esta

propriedade só é valida se X tiver distribuição normal multivariada; e

4. A distribuição condicional de componentes de X é normal (multivariada).

Dada a partição q 1 1p 1

(p q) 1 2

X XXX X−

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎣ ⎦⎣ ⎦, logo a distribuição condicional de

1 2 2X / X x= é normal e têm média e covariância dados por:

( )1c 1 12 22 2 2x−µ = µ + Σ Σ − µ e 1

c 11 12 22 21−Σ = Σ − Σ Σ Σ

4.4. Distribuição normal bivariada

Sejam X1 e X2 duas variáveis com parâmetros E(X1)=µ1, E(X2)=µ2,

Var(X1)=σ11, Var(X2)=σ22 e 1212

11 221 2ρ

σσ σ

= = Corr X X( , ). A matriz de covariância é

σ σ⎡ ⎤Σ = ⎢ ⎥σ σ⎣ ⎦

Cuja inversa é,

22 1212

21 1111 22 12

1− −⎡ ⎤Σ = ⎢ ⎥−− ⎣ ⎦

σ σσ σσ σ σ

Fazendo 12 12 11 22=σ ρ σ σ , obtém-se

2 211 22 11 22 121Σ = − = −σ σ σ σ σ ρ , e a distância generalizada de (4.3) será:

⎥⎥

⎢⎢

⎟⎟⎠

⎞⎜⎜⎝

µ−⎟⎟⎠

⎞⎜⎜⎝

µ−ρ−⎟

⎟⎠

⎞⎜⎜⎝

µ−+⎟

⎟⎠

⎞⎜⎜⎝

µ−ρ−

=⎥⎦

⎤⎢⎣

⎡µ−µ−

⎥⎥⎦

⎢⎢⎣

σσσρ−σσρ−σµ−µ−

ρ−σσ

11221112

2211122222112

122211

XX2XX1

Desde que, |Σ|=σ11 σ22 - (σ12)2 = σ11 σ22 (1- 212ρ ), podem ser

substituídos Σ-1 e |Σ| em (4.4) para se ter a expressão da densidade normal

bivariada, apresentada a seguir.

11 22 12

1 1 2 2 1 1 2 2122

12 11 22 11 22

1f(x ,x )2 1

X X X X1exp 22 1

=π σ σ −ρ

⎧ ⎫⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞−µ −µ −µ −µ−⎪ ⎪⎢ ⎥+ − ρ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎨ ⎬⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎢ ⎥−ρ σ σ σ σ⎪ ⎪⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎣ ⎦⎩ ⎭

Se X1 e X2 não são correlacionadas, 12ρ =0, a densidade conjunta

pode ser escrita como produto das densidades normais univariadas, ambas com a

forma de (4.1), ou seja, f(x1,x2)= f(x1) f(x2), além do que X1 e X2 são ditas

independentes, como comentado na propriedade número 3 da seção 4.3. Duas

distribuições normais bivariadas com variâncias iguais são mostradas nas Figuras

4.2. e 4.3. A Figura 4.2 mostra o caso em que X1 e X2 são independentes ( 12ρ =0)

e a Figura 4.3 o caso de 12ρ =0.8. Observa-se que a presença de correlação faz

com que as probabilidades se concentrem ao longo de uma linha.

Figura 4.2. Distribuição normal bivariada com 11 22σ σ= e 12ρ =0.

Figura 4.3. Distribuição normal bivariada com 11 22σ σ= e 12ρ =0.8.

Da análise da expressão (4.4), relativa a densidade de p-variáveis

normais, fica claro que alguns valores padrões de X fornecem alturas constantes

para as densidades elipsóides. Isto significa que a densidade normal é constante

em superfícies cujas distâncias quadráticas ( ) ( ) ( )t 1X X−− µ Σ − µ são constantes.

Esses padrões são chamados de contornos ou curvas de nível.

Contornos={todo X tal que ( ) ( ) ( )t 1X X−− µ Σ − µ =c2 } (4.7)

A expressão (4.7) é uma superfície de uma elipsóide centrada em µ ,

cujos eixos possuem direção dos autovetores de Σ-1 e seus comprimentos são

proporcionais ao recíproco da raiz quadrada dos seus autovalores. Demonstra-se

que se λi e ie são os autovalores e autovetores, respectivamente, de Σ, então a

elipsóide ( ) ( ) ( )t 1X X−− µ Σ − µ =c2 é centrada em µ e tem eixos na direção de

iic e± λ (i=1, 2, ..., p).

Considerando como ilustração a densidade normal bivariada com

11 22σ σ= , os eixos da elipsóide dados por (4.7) são fornecidos pelos autovalores e

autovetores de Σ. Portanto, para obtê-los, a equação |Σ-λI|=0 deve ser resolvida.

( )( )

211 12 211 12

11 12 11 12

−= − − =

= − − − + =

σ λ σσ λ σ

σ σ λ

λ σ σ λ σ σ

Conseqüentemente os autovalores são:

1 11 12 2 11 12λ σ σ λ σ σ= + = −e

Os autovetores são determinados por:

Σ ie =λi ie

Para i=1, tem-se:

211 12

σ σσ σ

σ σ⎡

⎣⎢

⎦⎥

⎣⎢

⎦⎥= +

⎣⎢

⎦⎥

11 1 12 2 11 12 1

12 1 11 2 11 12 2

σ σ σ σσ σ σ σ

e e ee e e

+ = ++ = +

( )( )

Essas equações levam ao resultado de que e1=e2, e após

normalização, o primeiro autovetor é:

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

De forma similar foi obtido o segundo autovetor, o qual é:

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥−⎢ ⎥⎣ ⎦

Se a covariância é positiva, 1 11 12λ σ σ= + é o maior autovalor e seu

autovetor associado se posiciona ao longo de uma linha de 450 através do ponto

[ ]1 2=tµ µ µ , para qualquer 12 0σ > . Os eixos são fornecidos por i ic e± λ (i=1, 2)

e estão representados na Figura 4.4.

2 cv σ σ 11 12 -

cv σ σ 11 12 +

Figura 4.4. Curva de nível de densidade constante para a distribuição normal

bivariada com 11 22σ σ= e 12 0σ > .

Anderson (1984) demonstra que a escolha de c2= p2χ α( ), em que

p2χ α( ) é o percentil (100α) superior da distribuição de qui-quadrado com p graus de

liberdade, leva aos contornos que contém (1-α)x100% de probabilidade. Para a

distribuição normal multivariada (p variada), a elipsóide dos valores de X

satisfazendo,

( ) ( ) ( )t 1X X−− µ Σ − µ ≤ p2χ α( ) (4.8)

tem probabilidade 1-α.

Os contornos contendo 95% e 99% de probabilidade sob a

densidade normal bivariada das Figuras 4.2 e 4.3, estão representados nas

Figuras 4.5 e 4.6.

Figura 4.5. Curvas de níveis de 95% e 99% de probabilidade para a distribuição

normal bivariada apresentada na Figura 4.2, 11 22σ σ= e 12ρ =0.

Figura 4.6. Curvas de níveis de 95% e 99% de probabilidade para a distribuição

normal bivariada apresentada na Figura 4.3, 11 22σ σ= e 12ρ =0,8.

A densidade (4.4) possui máximo quando X = µ . Portanto, µ é o

ponto de máxima densidade ou moda, bem como o valor esperado de X , ou

média.

4.5. Distribuição amostral de X e S

Se a pressuposição de que as linhas de

11 12 1p

21 22 2p

n1 n2 np

x x xx x xXx x x

⎡ ⎤⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

se constituem numa amostra aleatória de uma população normal com média µ e

covariância Σ for verdadeira, então este fato é suficiente para completamente

definir a distribuição amostral de X e de S. São apresentadas a seguir estas

distribuições amostrais, fazendo-se um paralelo com a distribuição amostral

univariada que já é familiar e bem conhecida.

No caso univariado (p = 1), sabe-se que X possui distribuição normal

com média µ (média populacional) e variância

O resultado para o caso multivariado (p≥2) é similar a este, no

sentido que X possui distribuição normal com média µ e matriz de covariância

(1/n)Σ.

Para a variância amostral, caso univariado, sabe-se que a

distribuição de 2 2(n 1)S− σ possui distribuição de qui-quadrado com n - 1 graus de

liberdade. Para o caso multivariado, a distribuição da matriz de covariância é

chamada de distribuição de Wishart, após sua descoberta, com (n – 1) graus de

liberdade. Os resultados a seguir resumem detalhes destas distribuições:

Devido a Σ não ser conhecida, a distribuição de X não pode ser

usada diretamente para se fazer inferência sobre µ . Felizmente, S fornece

informação independente sobre Σ e a distribuição de S não depende de µ . Isto

permite que se construam estatísticas para fazer inferência sobre µ , como será

abordado no capítulo 5.

Densidade da distribuição de Wishart

Seja S uma matriz positiva definida, com n>p, então se pode definir,

1(n p 2)/2 tr(S )/2

n 1 p(n 1)/2p(n 1)/2 p(p 1)/4 1

S ew (S/ )

2 (n i)

−− − − Σ

−−− −

Σ =π Σ Γ −∏

Sendo 1X , 2X , ..., nX uma amostra aleatória de tamanho n de uma população

normal p-variada com média µ e matriz de covariância Σ. Então,

1. X possui distribuição normal com média µ e matriz de covariância (1/n)Σ.

2. (n-1)S possui distribuição de uma matriz aleatória de Wishart com n-1 gl.

3. X e S são independentes.

em que, Γ(.) representa a função gama.

Retornando ao caso da distribuição das médias amostrais, o

resultado 4.1, sintetiza um importante teorema em estatística.

Como já foi comentado quando n é grande, S converge em

probabilidade para Σ, consequentemente, a substituição de Σ por S causa efeitos

apenas negligíveis nos cálculos de probabilidades. Desta forma, utilizando a

expressão (4.8), pode-se obter o importante resultado, apresentado a seguir.

Resultado 4.1. (teorema do limite central) Sendo 1X , 2X , ..., nX uma amostra

aleatória de n independentes observações de uma população qualquer com média

µ e matriz de covariância Σ, finita e não singular. Então,

( )n X − µ possui distribuição aproximadamente normal Np(0 , Σ) para grandes

amostras. Aqui n deve ser também bem maior do que p (número de variáveis).

Resultado 4.2. (teorema do limite central) Sendo 1X , 2X , ..., nX uma amostra

aleatória de n independentes observações de uma população qualquer com média

µ e matriz de covariância Σ, finita e não singular. Então,

( )n X − µ possui distribuição aproximadamente normal Np(0 , Σ )

( ) ( )t 1n X X−− µ Σ − µ se distribui aproximadamente como p2χ para n - p grande.

Para a distribuição normal univariada, se µ e σ são conhecidos, as

probabilidades sob a curva para a distribuição de X , podem ser obtidos das

tabelas da distribuição normal, ou da integral da função apresentada em (4.1) nos

intervalos apropriados, com µ=0 e σ=1, sendo

− µ=

σ (4.10)

Alternativamente, pode-se obter a aproximação de Hasting (1955)

citado por Bock (1975), com erro máximo de 10-6, dada por

Φ( )zG se z

G se z≅

≤− >

⎧⎨⎩

(4.11)

em que,

Sendo que Φ( )z representa a probabilidade acumulada sob a curva

da distribuição normal de -∞ a z;

G a a a a a z= + + + +( ) ( )1 22

55η η η η η φ ;

11 0 2316418, | |z

φ π( ) ( )z ez

= − −2 12

a1=0,319381530

a2=-0,356563782

a3=1,781477937

a4=-1,821255978

a5=1,330274429

4.6. Distribuições amostral derivada da distribuição normal multivariada

Teoria da Distribuição das grandes amostras e distribuição exata

Na análise dos dados freqüentemente são utilizadas funções das

observações chamadas estatísticas, as quais servem como estimadores dos

parâmetros ou como critério para os testes de hipóteses. A importância de tais

estatísticas muitas vezes depende do conhecimento da (1) distribuição assumida

para as observações, (2) do método de amostragem, e (3) da natureza da função

das observações. Há dois tipos de teoria amostral avaliada para derivar a

distribuição amostral. A teoria das grandes amostras, a qual fornece a distribuição

aproximada à medida que o tamanho amostral cresce indefinidamente, e a teoria

das pequenas amostras ou teoria exata, a qual é válida para qualquer tamanho

amostral.

As distribuições derivadas assumindo o tamanho amostral

indefinidamente grande são chamadas de distribuições assintóticas ou “limitante”.

A teoria assintótica é especialmente simples, como conseqüência do teorema do

limite central que demonstra que muitas estatísticas têm distribuição normal como

limite. Para tais estatísticas é necessário somente obter a média e a variância para

ter a distribuição assintótica.

A distribuição amostral sem considerar os argumentos da teoria

assintótica, geralmente depende do tamanho da amostra e pode ser não-normal

para pequenas amostras, mesmo se a forma limite for normal. Se este for o caso,

algum indicativo de qual tamanho amostral é necessário para uma dada acurácia

na teoria assintótica é extremamente útil para trabalhos práticos. Como exemplo,

pode citar que a distribuição de F, de razões de variâncias, com ν1 graus de

liberdade do numerador e ν2 do denominador, se aproxima de qui-quadrado

dividido por ν1 quando o valor de ν2 cresce sem limite.

lim ( , )( )

υυ υ

υ→∞=F

Comparando as tabelas de F e qui-quadrado dividido por ν1, pode-se

concluir que ao nível de 0,05, com erro de duas unidades na segunda casa

decimal, quando ν2 for maior que 40, haverá boa concordância. Semelhantemente,

considerando o valor nominal de significância de 0,01, verifica-se que a

concordância com a mesma precisão se dá quando o valor de ν2 excede 100.

Distribuição da soma de quadrados de n desvios normais aleatórios

Seja Z um vetor ν x 1 de ν observações normais N(0,1) padronizadas.

A estatística

( ) ' ...ν υχ212

22 2= = + + +Z Z z z z (4.12)

é distribuída como uma variável qui-quadrado com ν graus de liberdade. Foi obtida

em 1876 por Helmert e independentemente em 1900 por Karl Pearson. A função

de distribuição de qui-quadrado pode ser expressa pela função gama incompleta.

P t e dtt( / )( )

2 2χ χ υ υ

≤ = ∫ − −

Γ (4.13)

A função de distribuição (4.13) pode ser aproximada para aplicações

em computadores pela série convergente apresentada a seguir.

eP( / )n 1

−χ ∞

−υ=

χ≤χ υ =

χ Γ υ+ +χ ∑ (4.14)

quando 12

13χ υ< max( , ), e caso contrário pela expansão assintótica:

1 ( 1)( 2)P( / ) e 1 ...υ− −χ ⎡ ⎤υ− υ− υ−≤χ υ ≈χ + + +⎢ ⎥χ χ⎣ ⎦

χ (4.15)

Os valores de Γ( )a podem ser obtidos pela fórmula de Stirling:

a a 1/2 1/22 3 4

1 1 139 571(a) (a 1)! e a (2 ) 112a 288a 51840a 2488320a

− − ⎡ ⎤Γ = − ≈ π + + − −⎢ ⎥⎣ ⎦ (4.16)

A forma recursiva Γ( )a +1 =aΓ( )a e Γ( )2 =Γ( )1 pode ser usada quando

“a” for pequeno. Sabe-se que a média da distribuição de qui-quadrado, E( 2χ ), é ν

e que sua variância é 2ν. Para ν>30, as probabilidades podem ser obtidas usando

a aproximação normal assintótica usando 2 2 12χ υ− − como um desvio normal

unitário.

Razão entre independentes χ2 (F de Fisher)

Sejam 12χ e 2

2χ , dois 2χ independentes com ν1 e ν2 graus de liberdade,

respectivamente. Então,

F = 12

χ υχ υ

possui distribuição de uma variável F com ν1 e ν2 graus de liberdade. A

distribuição de F foi derivada por R. A. Fisher (1924). A função de distribuição de F

pode ser aproximada pela série convergente da função beta incompleta:

⎥⎦

⎤⎢⎣

⎡∑

x x)1n,ba(B)1n,1a(B1

)b,a(aB)x1(x)b,a(I (4.17)

em que, B a ba ba b

( , )( ) ( )( )

Γ ΓΓ

Então,

P F Ix( , , ) ( , )1 22 11

2 2υ υυ υ

em que, xF

υυ υ

4.7. Verificando a normalidade

A pressuposição de que cada vetor de observação jX veio de uma

distribuição normal multivariada será requerida nas técnicas estatísticas que serão

abordadas nos capítulos subsequentes. Por outro lado, nas situações em que a

amostra é grande e as técnicas dependem apenas do comportamento de X , ou

distâncias envolvendo X da forma ( ) ( )t 1n X S X−− µ − µ , a pressuposição de

normalidade das observações individuais jX é menos crucial. Isto devido à

aproximação da distribuição normal assintótica das principais estatísticas. No

entanto, melhor será a qualidade da inferência quanto mais próxima à população

parental se assemelhar da forma da distribuição normal multivariada. É imperativo

que existam procedimentos para detectar os casos em que os dados exibam

desvios de moderados a extremos em relação ao esperado sob normalidade

multivariada.

Baseado na distribuição normal sabe-se que todas as combinações

lineares de variáveis normais são normais e que contornos da densidade normal

são elipsóides. Devido às dificuldades de avaliação de um teste conjunto em todas

as dimensões, os testes para checar a normalidade serão concentrados em uma

ou duas dimensões. Obviamente se paga um preço por estas simplificações, como

não revelar algumas características que só podem ser observadas em dimensões

maiores. É possível, por exemplo, construir uma distribuição não normal bivariada

com marginais normais. No entanto, muitos tipos de não normalidade são

revelados em geral nas distribuições marginais, e para aplicações práticas será

suficiente checar a normalidade em uma ou duas dimensões.

Verificando a validade da normalidade por meio da distribuição marginal

Textos elementares muitas vezes recomendam que a normalidade

univariada seja investigada, examinando o histograma de freqüência amostral para

avaliar discrepâncias entre as freqüências observadas e esperadas pelo ajuste da

distribuição normal. Usualmente, sugere-se também que as discrepâncias sejam

submetidas ao teste de aderência de qui-quadrado. Um 2χ significativo (P<0,05) é

tido como evidência contra a normalidade da população.

Apesar de este método ter a virtude da simplicidade de computação

e ser livre do tipo de desvios da normalidade que esteja sendo testado (curtose,

assimetria, etc.), tem a desvantagem, quando aplicados a dados contínuos, de

depender da arbitrariedade da escolha dos intervalos de agrupamento dos dados.

Essa escolha determina a resolução do histograma e o número de termos a ser

somado para obter a estatística de 2χ . Uma escolha errada pode conduzir a

resultados não consistentes. Se a escolha de a amplitude dos intervalos for muito

estreita, o histograma pode ser irregular e a acurácia do 2χ pode ser grandemente

afetada devido aos pequenos valores esperados. Se os intervalos são largos,

desvios de normalidade podem ser obscurecidos tanto no histograma quanto no

teste de 2χ .

Uma melhor aproximação, evitando todas essas dificuldades, é

conseguida fazendo uso de métodos que não requerem agrupamento de escores.

Felizmente, excelentes procedimentos gráficos e computacionais existem para

este propósito.

a) Distribuição de proporções

A distribuição normal univariada possui probabilidade de 0,683 para

o intervalo [ ]µ σ µ σi ii i ii− +; e probabilidade de 0,954 para o intervalo

[ ]µ σ µ σi ii i ii− +2 2; (Figura 4.1). Consequentemente, para grandes amostras de

tamanho n, é esperado que a proporção de Pi1 observações contidas no intervalo

[ ]X s X si ii i ii− +; seja de cerca de 0,683, e de forma semelhante, espera-se

que a proporção Pi2 de observações em [ ]X s X si ii i ii− +2 2; seja de cerca de

0,954. Usando a aproximação normal da distribuição de Pi , então se

| , |, , ,

iP n n1 0 683 30 683 0 317 1 396

− >×

| , |, , ,

iP n n2 0 954 30 954 0 046 0 628

− >×

devem indicar desvios da distribuição normal para i-ésima característica (Johnson

& Wichern, 1988).

b) Processos gráficos

Os gráficos são em geral úteis para avaliar desvios da normalidade.

Dois processos gráficos serão considerados neste capítulo.

i) Q-Q plot

Esses gráficos são obtidos da distribuição marginal das observações

de cada variável. Consiste em plotar em um plano cartesiano os percentis

amostrais versus os percentis esperados pelo ajuste de uma distribuição normal.

Se os pontos pertencem a uma linha reta a pressuposição de normalidade deve

ser aceita.

Sejam x1, x2, ..., xn as n observações de uma variável X. Sejam x(1),

x(2), ..., x(n) essas observações ordenadas crescentemente, ou seja, x(1) é a menor

observação e x(n) é a maior. Quando os x(j) são distintos, exatamente j

observações são menores ou iguais a x(j) (isto é teoricamente verdadeiro quando

as observações são do tipo contínuo, o que em geral será assumido). A proporção

amostral j/n é aproximada por (j-½)/n, onde ½ é usado para correção de

descontinuidade.

Os percentis esperados sob normalidade são dados por (q(j)):

/ 22 12

jqzj e dz

π−∞

−= ∫ (4.18)

Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela

inversão da função de distribuição de probabilidade da normal, em rotinas

apropriadas em computadores ou através de tabelas da distribuição normal.

(Tabela A.1).

Os percentis q(j) e x(j) são plotados em um sistema cartesiano com q(j)

na abscissa e x(j) na ordenada. Desvios da normalidade podem ser observados

pela inspeção deste tipo de gráfico, cujos pontos, quando da normalidade devem

pertencer a uma linha reta de mínimos quadrados. No exemplo 4.1 ilustram-se os

cálculos necessários para obtenção dos Q-Q plots.

Exemplo 4.1

Seja uma amostra (n=10) obtida de uma população normal N(3; 4) apresentada a

seguir. Neste caso, a observação 4 constitui-se um “outlier”, propositadamente

gerado.

{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}

Dessa forma para se obter o Q-Q plot é necessário os seguintes

passos:

1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de

probabilidade acumulada (j-½)/n.

j x(j) (j-½)/n q(j)

1 2 3 4 5 6 7 8 9 10*

0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65

0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95

-1,645 -1,036 -0,675 -0,385 -0,126 0,126 0,385 0,675 1,036 1,645

2) calcular os percentis da distribuição normal padrão.

Ex. Para a observação 1 tem-se: (1)

21 1/ 22 2 1

1 0,0510

qzj e dz

π−∞

− −= = = ∫

Portanto, q(1) = -1,645, e assim sucessivamente.

3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados

Q-Q Plot

-2 -1 0 1 2

Outlier

Figura 4.7. Q-Q plot para os dados do exemplo 4.1, destacando a presença de um

outlier.

Observa-se que os pontos amostrais se situam praticamente em uma

linha reta de mínimos quadrados, com exceção da presença de um outlier,

destacado na Figura 4.6. O procedimento adequado seria de eliminar esta

observação e refazer a análise para os dados amostrais remanescentes, o que é

deixado a cargo do leitor.

Este processo gráfico, embora bastante poderoso para se verificar

desvios da normalidade não constitui num teste formal deste propósito. Para

contornar esta limitação, Johnson & Wichern (1988) apresentam um teste

complementar a este processo gráfico, o qual mede o ajuste dos pontos do Q-Q

Plot a linha reta de mínimos quadrados por meio de uma medida de um

coeficiente de correlação apresentada a seguir.

( ) ( )

( ) ( )1

( ) ( )1 1

j jj j

x x q qr

x x q q

− −=

− −

∑ ∑ (4.19)

Um poderoso teste de normalidade pode ser construído tomando-se

por base este coeficiente de correlação (4.19). Formalmente rejeita-se a hipótese

de normalidade se o valor calculado for menor que os valores críticos para um

determinado nível de significância (Tabela 4.1).

Tabela 4.1. Valores críticos para o teste para normalidade baseado no coeficiente

de correlação Q-Q plot.

Tamanho amostral Nível de significância (α)

n 0,01 0,05 0,10

5 10 15 20 25 30 40 50 60 75 100 150 200 300

0,8299 0,8801 0,9126 0,9269 0,9410 0,9479 0,9599 0,9671 0,9720 0,9771 0,9822 0,9879 0,9905 0,9935

0,8788 0,9198 0,9389 0,9508 0,9591 0,9652 0,9726 0,9768 0,9801 0,9838 0,9873 0,9913 0,9931 0,9953

0,9032 0,9351 0,9503 0,9604 0,9665 0,9715 0,9771 0,9809 0,9836 0,9866 0,9895 0,9928 0,9942 0,9960

Fonte: Johnson & Wichern (1998)

Exemplo 4.1 (continuação)

Calculando a correlação amostral, através de (4.19), obteve-se:

18,77109 0,952344,15849 8,798094Qr = =

Como, o valor tabelado ao nível de 5% de probabilidade (0,918) é

inferior ao valor calculado (0,9523), então, não existe razão para duvidar da

hipótese de normalidade.

ii) Gráfico das probabilidades acumuladas

Um segundo processo gráfico, bastante utilizado, refere-se aos

gráficos em que são plotados as probabilidades amostrais acumuladas versus

probabilidades acumuladas da distribuição normal (Bock, 1975). O algoritmo é:

1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de

probabilidade acumulada pj = (j-½)/n, amostrais.

2) Calcular a média amostral e o desvio padrão viesado

⎛ ⎞⎜ ⎟⎝ ⎠−

∑∑

(4.20)

3) Obter as probabilidades normais acumuladas utilizando (4.11) ou tabelas da

distribuição normal, através de:

Pj=Φ(Zj)

4) Plotar Pj (abcissa) contra pj (na ordenada)

Exemplo 4.2

Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,

resultando nos seguintes valores:

j x(j) pj = (j-½)/n Pj

1 2 3 4 5 6 7 8 9 10*

0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65

0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95

0,066 0,189 0,227 0,367 0,436 0,520 0,575 0,677 0,709 0,992

Na Figura 4.8 estão plotados os pontos Pj (abcissa) contra pj (na

ordenada).

0.0 0.2 0.4 0.6 0.8 1.00.0

Figura 4.8. Gráfico normal acumulado da amostra simulada no exemplo 4.1.

Se a população for normal, os pontos tendem a cair em uma linha

definida pela reta Pj=pj. Uma vez que o gráfico apresenta efeitos cumulativos, os

pontos não são independentes e ainda pode-se afirmar que sucessivos pontos

não tenderão a se situar aleatoriamente em ambos os lados da linha. Em outras

palavras, um grupo de pontos sucessivos poderá estar de um lado da reta ou de

outro, sem ser um indicativo de desvio da normalidade. Alguma familiaridade com

este tipo de gráfico indicará a forma da distribuição e os desvios da normalidade

que possam ocorrer.

De maneira geral, as situações mais comuns devem se enquadrar

nos seguintes tipos de gráficos. Distribuições assimétricas à esquerda tenderão a

ter seus pontos de extremos no lado superior da reta, e os pontos intermediários

no lado inferior da mesma. Para distribuições assimétricas à direita, o oposto deve

ocorrer, ou seja, pontos extremos no lado inferior da reta e pontos intermediários

no lado superior.

Os achatamentos da distribuição, conhecidos por curtose, também

podem ser detectados. Nas distribuições leptocúrticas, os pontos de menor

densidade acumulada se concentram no lado inferior da reta, vindo a cruzá-la no

centro. Os pontos de maior densidade se concentram no lado superior da reta, a

partir do centro. Nas distribuições platicúrticas, o oposto se dá, ou seja, pontos de

menor densidade acumulada se concentram no lado superior, e os pontos de

maior densidade no lado inferior da reta, vindo a cruzá-la no centro. Distribuições

bimodais possuem gráficos que representam os casos extremos da distribuição

platicúrtica.

c) Uso dos momentos

Os momentos não centrados para a média, podem ser calculados a

partir dos dados amostrais, fazendo 1/n como densidade para cada ponto

amostral. Desta forma, pode-se definir, o r-ésimo momento amostral não centrado

para média por:

n= ∑

(4.21)

Pode-se então, definir a média amostral, e o segundo, terceiro e

quarto momentos centrados na média, em função dos momentos não centrados

Média: 1 0µ = (4.22)

Variância: ~ ~ ~µ 2 2 12= −m m (4.23)

Assimetria ~ ~ ~ ~ ~µ3 3 1 2 133 2= − +m m m m (4.24)

Curtose 2 44 4 1 3 1 2 1m 4m m 6m m 3mµ = − + − (4.25)

Os valores amostrais de o coeficiente de assimetria e curtose são,

respectivamente:

µ µ (4.26)

~~µµ

(4.27)

O coeficiente de assimetria populacional, para a distribuição normal,

é 1 0β = e o coeficiente de curtose é β2=3. Se 1 0β < , então, a distribuição é

assimétrica à esquerda, caso contrário, 1 0β > , a distribuição é assimétrica à

direita. Distribuições com β2<3 são platicúrticas (menos pontudas com caudas

mais baixas do que a normal), e aquelas com β2>3 são leptocúrticas (mais

pontudas e com caudas mais altas do que a normal).

Exemplo 4.3

Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de

assimetria e curtose amostrais.

x x2 x3 x4

0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65

0,2116 3,2041 4,2436 8,4681 10,8900 13,9876 16,1604 21,0681 22,9441 74,8225 176,0001

0,0973 5,7353 8,7418 24,6422 35,9370 52,3136 64,9648 96,7026 109,9022 647,2146 1046,2520

0,0448 10,2663 18,0081 71,7087 118,5921 195,6530 261,1585 443,8648 526,4317 5598,4070 7244,1350

Têm-se:

~m 1=36,31/10=3,631

~m 2=176,0001/10=17,6000

~m 3=1046,2520/10=104,6252

~m 4=7244,135/10=724,4135

~µ1 = 3,631

~µ2 = 17,6 - (3,631)2 = 4,4158

~µ3 = 104,6252 - 3 x 3,631 x 17,6 + 2 x (3,631)3 = 8,6518

~µ4 = 724,4135 - 4 x 3,631 x 104,6252 + 6 x (3,631)2 x 17,6 - 3 x (3,631)4 = 75,6182

b1 = 8,6518/(4,4158 x 4,41581/2 ) = 0,9324

b2 = 75,6182/(4,4158)2 = 3,8780

c.1) Uso do coeficiente de assimetria

Para se avaliar o grau de assimetria da distribuição, um teste

baseado no coeficiente de assimetria (4.26), pode ser realizado. Níveis críticos

para a estatística b1 , podem ser encontrados em Pearson e Hartley (1966) para

n>24, e em D’Agostino e Tietjen (1973) para n variando de 5 a 35. A assimetria

será à esquerda se b1 for negativo, e à direita se b1 for positivo,

significativamente. Em grandes amostras, os valores críticos de b1 podem ser

obtidos com boa aproximação usando como desvio da normal padrão a estatística:

1 1( 1)( 3)

6( 2)+ +

n nZ bn

(4.28)

c.2) Uso do coeficiente de curtose

Valores críticos para o coeficiente de curtose (4.27), podem ser

encontrados em Pearson e Hartley (1966) para n>49 e D’Agostino e Tietjen (1971)

para n variando de 7 a 50. Em grandes amostras, os valores críticos para o teste

de achatamento da curva, podem ser aproximados usando como desvio normal a

seguinte estatística:

2 2(n 1) (n 3)(n 5)6Z b 3

n 1 24n(n 2)(n 3)+ + +⎛ ⎞= − +⎜ ⎟+ − −⎝ ⎠

(4.29)

Valores de b2 maiores que 3 indicam que a distribuição é mais

pontuda com caldas mais altas do que a normal; valores menores que 3 indicam

uma distribuição achatada no centro e com caudas mais baixas do que a

distribuição normal.

Exemplo 4.3 (continuação)

Os valores de Z1 e Z2, para o teste de assimetria e curtose foram:

Z1=1,609 com P(Z>|Z1|)=0,1074

Z2=1,886 com P(Z>|Z2|)=0,0592

Desta forma, ao nível de 5% de probabilidade se aceita a hipótese de

simetria e de não achatamento da curva, demonstrando não se ter desvio da

normalidade.

Verificando a normalidade multivariada

Em geral se deseja verificar a normalidade para dimensões

superiores a 1, ou seja, para a distribuição p-variada, p≥2. Mesmo que seja

suficiente, como já comentado anteriormente, avaliar apenas as distribuições

univariadas e bivariadas o procedimento apresentado nessa seção é válido para

qualquer p. O caso bivariado será enfocado nesta seção, devido às facilidades de

cálculos para fins didáticos.

Pelo resultado 4.2, dado vetor X com distribuição normal p-variada,

tem-se que,

( ) ( )t 1 2px x (1 )−−µ Σ −µ ≤χ −α

Através deste resultado, pode-se então, generalizar o processo

gráfico conhecido como Q-Q plot. Dada uma amostra bivariada com n

observações, o algoritmo seguinte pode ser usado para generalizar o processo

gráfico mencionado. É importante salientar que este processo não é limitado

apenas ao espaço bidimensional.

O algoritmo será apresentado, utilizando os dados do exemplo 1.1,

com X1 representando a quantidade de reais pela venda de ração, e X2 sendo o

número de sacos de rações vendidos, por n = 4 firmas de Minas Gerais.

Exemplo 4.4

1) Calcular a distância quadrada generalizada amostral d(j) de cada observação

em relação à média amostral, dada por:

2 1j j jd (x x) 'S (x x)−= − − , j=1, 2, ..., n

Os valores da média e da matriz de covariância amostrais foram

apresentados no exemplo 1.2, e são:

9⎡ ⎤

= ⎢ ⎥⎣ ⎦

e ⎥⎦

⎤⎢⎣

667,6000,20000,20333,333

A matriz inversa de S é:

⎥⎦

⎤⎢⎣

⎡−

−=−

1829,00110,00110,00037,0

A distância generalizada para primeira observação é:

0,0037 0,0110 80 100d 80 100 10 9 2,0853

0,0110 0,1829 10 9− −⎡ ⎤ ⎡ ⎤

= − − =⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦

E assim sucessivamente, para as demais observações:

22d = 1,7926; 2

3d = 1,3536 e 24d = 0,7683.

2) ordenar as distâncias quadráticas amostrais do menor para o maior

d (1)2 ≤d ( )2

2 ≤...≤d n( )2 .

3) Obter os valores correspondentes, percentis, de probabilidade acumulada

q(j)=χ p2((j-½)/n), da distribuição de qui-quadrado. Estes percentis dependem da

inversa da função de distribuição de qui-quadrado, e podem ser obtidos em vários

softwares estatísticos.

J d j( )2 (j-½)/n q(j)

1 2 3 4

0,7683 1,3536 1,7926 2,0853

0,125 0,375 0,625 0,875

0,2671 0,9400 2,2479 4,1589

4) Plotar (d j( )2 ; q(j)) e examinar os resultados

0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de

utilização deste processo para os casos de dimensões superiores ou

iguais a 2.

Pela Figura 4.9, verifica-se que não existem razões para duvidar de

que a distribuição do número de sacos de rações vendidos e o montante de

dinheiro arrecadado pelas firmas de rações em Minas Gerais, não seja normal

bivariada, apesar do pequeno tamanho de amostras.

Verificando a normalidade multivariada por meio da curtose e assimetria de Mardia

Os coeficientes de assimetria e curtose de uma distribuição

multivariada qualquer são definidos por:

( ) ( ){ }3t 11,p E X Y−β = − µ Σ − µ (4.30)

em que a variável X é independente de Y , mas tem a mesma distribuição com

média µ e covariância Σ ; e

( ) ( ){ }2t 12,p E X X−β = − µ Σ − µ (4.31)

Essas esperanças para a distribuição normal multivariada são:

0p,1 =β e )2p(pp,2 +=β

Para uma amostra de tamanho n, os estimadores de 1,pβ e 2,pβ são:

1,p ij2i 1 j 1

1ˆ gn = =

β = ∑∑

n n2 4

2,p i i ii 1 i 1

1 1ˆ g dn n= =

β = =∑ ∑

em que,

( ) ( )t 1i j i n jg X X S X X−= − − e iii gd =

Os estimadores 1,pβ (quadrado do coeficiente de assimetria quando

p=1) e 2,pβ (igual ao coeficiente de curtose univariado quando p=1) são não-

negativos. Sob distribuição normal multivariada espera-se que a E( ( )1,pˆE β ) seja

zero. O estimador 2,pβ é muitas vezes usado para avaliar observações que estão a

grandes distâncias da média amostral.

Mardia (1970) mostra que para grandes amostras,

segue a distribuição de χ2 com p(p+1)(p+2)/6 graus de liberdade, e

{ }2 ,p

2 1 / 2

ˆ p(p 2)k

8p(p 2)n

β − +=

+⎡ ⎤⎢ ⎥⎣ ⎦

segue a distribuição normal padrão. Para pequenos valores de n, as tabelas de

valores críticos para testar a hipótese multivariada de normalidade são fornecidas

por Mardia (1974).

Exemplo 4.5

Usando o exemplo das rações testar a normalidade multivariada pelo teste dos

desvios de assimetria e curtose. Os valores amostrais são:

Obs Reais Vendas 1 2 3 4

As estatísticas amostrais são:

9⎡ ⎤

= ⎢ ⎥⎣ ⎦

⎥⎦

⎤⎢⎣

51515250

Sn ⎥⎦

⎤⎢⎣

⎡−

−=−

243902,0014634,0014634,0004878,0

S 1n ou ⎥

⎤⎢⎣

⎡−

−=−

25015155

10251S 1

Os desvios de cada observação da média amostral ( iε ):

1. [ ]t1 20 1ε = − 2. [ ]t

2 20 3ε = 3. [ ]t3 10 3ε = − − 4. [ ]t

4 10 1ε = −

i) Teste baseado no coeficiente de assimetria

É necessário calcular os valores de gij para todos os pares de i e j,

obtidos da seguinte forma:

Para i=1 e j=1, [ ] 7805,2120

S120g 1n11 =⎥

⎤⎢⎣

⎡−−= −

Para i=1 e j=2, [ ] 11 2 n

20g 20 1 S 0,6341

3− ⎡ ⎤

= − = −⎢ ⎥⎣ ⎦

Para as demais combinações, têm-se: g1 3=-0,4878, g1 4=-1,6585,

g2 2=2,3902, g2 3=-1,8537, g2 4=0,0976, g3 3=1,8049, g3 4=0,5366 e g4 4=1,0244.

( )3 3 3

11,,22

2,7805 2( 0,6341) 1,0244ˆ16

+ − + +β = =1,2766

então,

8511,062766,14

ˆnk 2,1

Como k1 ∼ 2χ com p(p+1)(p+2)/6=4 graus de liberdade, e sabendo

que 488,924;05,0 =χ , então H0 não deve ser falseada, ou seja, não existe razões

para suspeitar da violação da simetria da distribuição multivariada.

ii) Teste baseado no coeficiente de curtose

Inicialmente, estima-se o coeficiente de curtose da seguinte forma:

( ) 4378,447513,170244,18049,13902,27805,2

n1ˆ 2222n

2iip,2

==+++=∑=β=

em seguida, estima-se o valor estimado da normal (0, 1):

4, 4378 2(2 2) 3,5621k 0,890548 2 4

− + −= = = −

× ×⎛ ⎞⎜ ⎟⎝ ⎠

Não existem razões para duvidar de que a distribuição multivariada

tenha algum desvio de curtose, uma vez que 96,1zk 025,02 =< .

iii) Programa SAS para o teste de normalidade

A seguir são apresentados um programa SAS usando o Proc Calis

para o teste da curtose e um programa em IML, para ambos parâmetros. O

programa fornece as estatísticas amostrais e os valores das significâncias

observadas.

Data FR; Input Reais Vendas; cards; 80 10 120 12 90 6 110 8 ; Proc Calis data=FR Kurtosis; Title1 j=1 "Uso do Calis para testar a normalidade"; Title2 "pela Curtose de Mardia"; Lineqs Reais=e1, vendas=e2; std e1=eps1, e2=eps2; Cov e1=eps1, e2=eps2; Run;

Proc IML; use FR; read next 4 into X; /* lendo n observacoes dentro de X */ n=nrow(X);p=ncol(X); dfchi=p*(p+1)*(p+2)/6; /*definindo GL para B1,p */ q=i(n) - (1/n)*j(n,n,1); /* criando q=I-1/nJ, auxiliar */ S=(1/n)*x`*q*x; /* matriz de covariancias viesada */ S_inv=inv(S); /* inversa de S */ print s s_inv; g=q*x*s_inv*x`*q; /* matriz com gij */ print g; beta1=(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n^2 */ beta2=trace(g#g)/n; /* idem com tomada do traco/n */ print beta1 beta2; k1=n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */ k2=(beta2-p*(p+2))/sqrt(8*p*(p+2)/n); pvalskew=1-probchi(k1,dfchi); /* calculo dos p_values respectivos */ pvalkurt=2*(1-probnorm(abs(k2))); print k1 pvalskew; print k2 pvalkurt; Quit; /* abandonando IML */

Finalmente é apresentado a seguir um programa SAS para orientar

os leitores na simulação de dados com distribuição normal multivariada com média

e covariância especificada. O exemplo apresentado gera uma distribuição normal

trivariada.

Proc IML; n=100;p=3; SIG={8 4 1, 4 10 3, 1 3 18}; st=Root(sig); mu={1, 10, 8}; x=j(n,p,0); zi=j(p,1,0); do i=1 to n; do ii=1 to p; zi[ii]=rannor(0); end; xi=st`*zi+mu; do ii=1 to p; x[I,ii]=xi[ii]; end; end; print x; create dtnorm from x; append from x; quit; proc print data=dtnorm; run;quit;

4.8. Exercícios

4.8.1. Com os dados do exemplo 4.4, tendo como hipótese que os mesmos

seguem a distribuição normal bivariada, utilize o resultado 4.2, ao nível de

50%, de que as distâncias generalizadas seguem a distribuição

qui-quadrado. Utilizando então a distribuição de proporções, item (a),

verifique a normalidade bivariada dos dados, contando a proporção

observada (Pi) de distâncias que pertencem a elipse, e comparando com a

estatística abaixo.

| , |, , ,

iP n n− >

×=0 5 3

0 5 0 5 1 5

4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,

propostos, neste capítulo, para ambas variáveis.

4.8.3. Utilizando os dados climáticos, obtidos por Diniz (1996), na fazenda

Cooparaíso-EPAMIG, Jacuí, MG, de agosto de 1994 a janeiro de 1995,

teste a pressuposição de normalidade tridimensional dos mesmos. Utilize

para isso, o processo gráfico apresentado, e o teste do exercício número

4.8.1 e o teste baseado nos desvios de assimetria e curtose de Mardia.

Temperatura Umidade Relativa (%) Precipitação (mm)

22,7 23,7 24,3 24,4 24,5 25,2 25,5 24,7 24,3 24,7 24,9

64,1 56,1 54,9 58,2 62,8 70,3 75,2 81,4 79,3 74,6 78,0

7,9 1,5 0,0 0,0 8,7 22,5 57,0 75,7 123,2 124,4 148,0

4.8.4. Utilize os dados de uma amostra de 24 cochonilhas, fêmeas adultas, de

Quadraspidiotus perniciosus (Comst.), por ramo de pessegueiro, na região

de Jacuí-MG, e teste a pressuposição de normalidade dos dados, utilizando

os procedimentos apresentados univariados na seção 4.7.

0,8 1,0 0,6 0,6 0,2 0,8 2,5 1,5 0,3 1,7 1,9 2,5 1,1 5,0 0,9 1,7 2,6 4,5

1,8 1,0 0,5 0,4 1,8 0,7

||[ ]||Inferências sobre o vetor média

5.1. Introdução

Este capítulo é o primeiro deste material a apresentar inferências,

utilizando as técnicas, os conceitos e os resultados apresentados nos capítulos

prévios. Este capítulo, por estar intimamente relacionado à inferência estatística,

ou seja, é voltado para obtenção de conclusões válidas para a população com

base nas informações amostrais. As inferências realizadas neste capítulo são

relativas a vetor populacional de médias e nos seus componentes. Umas das

mensagens centrais da análise multivariada, que deverá ser abordada neste e nos

próximos capítulos, é que p variáveis correlacionadas devem ser analisadas

simultaneamente.

5.2. Inferências sobre média de uma população normal

Nesta seção serão abordados os testes de significância e a obtenção

de intervalos de confiança (IC) para a média de uma população normal.

Inicialmente será abordado o problema de verificar se um determinado valor 0µ é

um possível valor (plausível) para a verdadeira média populacional desconhecida.

Do ponto de vista dos testes de hipóteses este problema pode ser abordado

através do teste:

0 0 1 0H : vs H :µ = µ µ ≠ µ

aqui, H0 é a hipótese nula e H1 é a hipótese (bilateral) alternativa. Considerando o

caso univariado, e se X1, X2, ..., Xn representam uma amostra aleatória extraída de

uma população normal, o teste estatístico apropriado para esta hipótese, quando p

é igual a 1, é:

( )0Xt S

−µ= , em que, X

n= ∑

−∑=

O teste em questão segue a distribuição de t-student com n-1 graus

de liberdade. A hipótese H0 será rejeitada se o valor observado de |t| exceder um

valor crítico especificado da distribuição de t-student com n-1 graus de liberdade

Analogamente, considerando agora a distância quadrada da média

amostral X para o valor a ser testado, pode-se rejeitar H0 a um nível de

significância α, se

2 2 1 20 0 n 1t n(X )(S ) (X ) t ( 2)−

−= −µ −µ ≥ α (5.1)

em que, 21( / 2)nt − α representa o quantil quadrático superior 100(α/2) da distribuição

de t-student com n-1 GL.

Se H0 não é rejeitada, então se conclui que µ0 é um valor plausível

para representar a média populacional normal. No entanto, uma pergunta natural

pode surgir: existem outros valores de µ que são consistentes com os dados? A

resposta é sim. De fato, existe um conjunto de valores plausíveis que serviriam

como média para a população normal estudada. Da bem conhecida

correspondência entre a região de aceitação dos testes de hipóteses e o intervalo

de confiança para µ tem-se:

X t ( /2)Sn

−µ< α (não rejeitar H0) é equivalente a:

( ) ( )n 1 0 n 1S SX t / 2 X t / 2n n− −− α ≤ µ ≤ + α (5.2)

Antes de a amostra ser retirada, o intervalo de confiança de

100(1-α)% de (5.2) é um intervalo aleatório, pois seus limites dependem das

variáveis aleatórias X e S. A probabilidade do intervalo conter µ é 100(1-α)% e

entre um grande número independentes de tais intervalos, 100(1-α)% deles

conterão µ.

É considerada agora a generalização do caso univariado para o

multivariado. O problema de determinar se um dado vetor 0µ (p x 1) é um valor

plausível da média de uma distribuição normal multivariada. Uma generalização da

distância quadrada apresentada em (5.1) é:

( ) ( )t2 10 0T n X S X−= −µ −µ (5.3)

em que,

1X Xn =

= ∑ , ( )( )n t

j jj 1

1S X X X Xn 1 =

= − −− ∑ e

⎡ ⎤µ⎢ ⎥µ⎢ ⎥µ = ⎢ ⎥⎢ ⎥µ⎢ ⎥⎣ ⎦

A estatística T2 é chamada de chamada de T2 de Hotelling, em honra

a Harold Hotelling (Bock, 1975), um pioneiro da estatística multivariada, que pela

primeira vez obteve a sua distribuição. Felizmente, tabelas especiais dos pontos

percentuais para a distribuição T2 não são necessárias na realização dos testes de

hipóteses, devido à estatística:

T2 ser distribuída como ,( 1)

p n pn pFn p −

−−

em que, Fp,n-p representa uma variável com distribuição F com p e n-p GL.

De uma forma geral a distribuição de T2 considerando ν graus de

liberdade e dimensão p é dada por:

2p, 1 p

pT F1 pν+ −ν

= ×ν + −

Desta forma para se testar a hipótese 0 0H :µ = µ versus 1 0H :µ ≠ µ ,

no valor nominal α de significância, deve-se rejeitar H0 em favor de H1 se

( ) ( )t2 10 0 p,n p

(n 1)pT n X S X F ( )n p

−−

−= −µ −µ > α

− (5.6)

Infelizmente, é raro, nas situações multivariadas, o pesquisador se

satisfazer com o teste da hipótese 0 0H :µ = µ , em que todos os componentes do

vetor média são especificados sob a hipótese de nulidade. Em geral é preferível

encontrar regiões de valores de µ que são plausíveis para serem o vetor de média

populacional na luz dos dados observados.

Exemplo 5.1

A matriz X, apresentada a seguir, representa uma amostra de n=3 observações

retiradas de uma distribuição normal bivariada.

11 2X 10 4

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Teste a hipótese de que t0µ =[9 2] seja um valor plausível para representar a média

populacional.

A estatísticas amostrais são:

3⎡ ⎤

= ⎢ ⎥⎣ ⎦

e 1,0 0,50,5 1,0

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

Então,

1 4 21S2 43

− ⎡ ⎤= ⎢ ⎥

⎣ ⎦

E o valor de T2 será obtido da seguinte forma:

[ ]2 4 2 10 91T 3 10 9 3 2 122 4 3 23

−⎡ ⎤ ⎡ ⎤= − − =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

O valor de F2,1 ao nível de 5% é 199,5, então, H0 será rejeitada se o

valor observado de T2 superar

2,1( 1) 4199,5 798,0

1n pFn p−

= =−

Como neste caso, o valor de T2 observado (12,0) foi inferior ao valor

crítico (798,0), então, H0 não deve ser rejeitada. É importante salientar neste

ponto, que a hipótese H0 será rejeitada se um ou mais dos componentes do vetor

média amostral, ou alguma combinação de médias, diferir muito do valor hipotético

t0µ = [9 2]. Neste estágio, não se tem idéia de quais os valores hipotéticos não são

suportados pelos dados.

5.3. Região de confiança e Comparações simultâneas de componentes de média

Será inicialmente, generalizado o conceito univariado de intervalo de

confiança para o multivariado de região de confiança, R(X). A região de confiança

conterá 100(1-α)% se antes de a amostra ser selecionada,

P[R(X) cobrir o verdadeiro ] 1θ = −α (5.7)

em que θ , representa um vetor de parâmetros desconhecidos (Krzanowski, 1993).

No caso, a região de confiança para µ de uma distribuição normal p variada, será

todos os valores de µ tais que:

( ) ( )t 1p,n p

(n 1)pP n X S X F ( )n p

−−

⎡ ⎤−−µ −µ ≤ α⎢ ⎥−⎣ ⎦

Para determinar se um dado valor 0µ é um valor plausível de µ ,

basta calcular a distância quadrada generalizada t 1n(X ) S (X )−−µ −µ e comparar

com ,( 1) ( ) /( )p n pn pF n p−− α − . Se a distância quadrada for maior que

,( 1) ( ) /( )p n pn pF n p−− α − , então µ 0 não pertence à região de confiança. Isto é

equivalente a testar a hipótese H0: µ=µ 0 contra a H1: µ≠µ 0, a qual possibilita

afirmar que a região de confiança constitui-se em todos os valores de µ 0 cujo

teste T2 não rejeitaria a hipótese nula a favor da alternativa, em um nível de

significância α.

Para p≥4 não se pode fazer o gráfico da região de confiança para µ .

Pode se, no entanto, calcular os eixos da elipsóide de confiança e seus tamanhos

relativos, os quais são determinados pelos autovalores λi e autovetores ie de S.

Os tamanhos dos semi-eixos de

( ) ( )t 1 2p,n p

p(n 1)n X S X c F ( )n p

−−

−−µ −µ ≤ = α

são determinados por

,[ ( 1) ( )]/[ ( )]ii p n p

cp n F n n p

λ= λ − α − unidades ao longo de ie .

Começando do centro, determinado por X , os eixos da elipsóide

i p,n p i[p(n 1)F ( )] /[n(n p)] e−± λ − α −

Exemplo 5.2

A partir dos dados do exemplo 5.1, obter a região de confiança de 95%, e verificar

se o ponto t0µ =(13, 4) pertence a mesma.

3⎡ ⎤

= ⎢ ⎥⎣ ⎦

, 1,0 0,50,5 1,0

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦ e 1 4 21

2 43S− ⎡ ⎤

= ⎢ ⎥⎣ ⎦

Os autovalores e autovetores de S, são:

[ ]t1 11,5 e 0,707107 0,707107λ = = −

[ ]t2 20,5 e 0,707107 0,707107λ = =

A elipse de confiança 95% para µ consiste de todos os valores

(µ1, µ2) que satisfazem:

104 21 2 (2)3[10 , 3 ] 199,532 43 1−µ⎡ ⎤⎡ ⎤

−µ −µ ≤ ×⎢ ⎥⎢ ⎥ −µ⎣ ⎦ ⎣ ⎦

ou, 2 21 1 2 24(10 ) 4(10 )(3 ) 4(3 ) 798−µ + − µ −µ + − µ ≤

Para verificar se o ponto t0µ =(13, 4) pertence a elipse, calcula-se:

2 24(10 13) 4(10 13)(3 4) 4(3 4) 52 798,0− + − − + − = ≤

o que permite que se conclua que o ponto testado está na região de confiança. O

gráfico da elipse obtida pode ser visualizado na Figura 5.1. com a análise gráfica,

pode-se confirmar que o ponto em questão pertence à região de confiança.

Figura 5.1. Elipse de 95% de confiança para o vetor populacional de médias,

obtido a partir dos dados do exemplo 5.1.

Exemplo 5.3

Para exemplificar a região tridimensional para a média populacional, os dados de

produção comercial (t/ha), produção de tubérculos graúdos (t/ha) e peso médio de

tubérculos graúdos (g) de 15 clones de batata selecionados em Maria da Fé e

Lavras (Momenté, 1994), foram utilizados e encontram-se no quadro a seguir.

Obter a região de 95% de confiança para o vetor média populacional.

Verificar se o ponto t0 (16,89 8,76 109, 23)µ = pertence a região de confiança (ponto

referente a cultivar Achat). Traçar a região de confiança.

Clones Produção comercial

Produção de tubérculos graúdos

Peso médio de tubérculos graúdos

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

47,82 42,40 41,82 40,77 40,27 39,84 38,36 38,15 37,55 36,19 36,15 35,17 34,90 34,57 34,15

40,40 26,96 27,33 21,81 33,06 22,31 32,81 26,02 21,69 25,65 23,46 25,29 22,92 16,25 21,75

146,30 94,58 143,66 127,29 115,17 99,32 150,13 131,17 152,04 154,83 95,43 105,97 113,59 86,39 119,50

Fonte: Momenté, 1994

O vetor de médias e a matriz de covariância amostrais são:

38,541X 25,854

122,358

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

13,8195 15,8284 24,725015,8284 34,8769 63,021524,7250 63,0215 540,1553

S⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Os autovalores e autovetores de S são:

t1 1549, 208 e (0,049 0,123 0,991)λ = =

t2 234,460 e (0,500 0,856 0,131)λ = = −

t3 35,185 e (0,865 0,502 0,019)λ = = −

A região de confiança fica determinada por:

t 1 2p,n p

p(n 1)n(X ) S (X ) c F ( )n p

−−

−−µ −µ ≤ = α

1 2 3 2

0,15149 Sim. 38,54115 38,541 25,854 122,358 0,07124 0,06983 25,854

0,00138 0,00489 0,002358 122,3583 14 3, 49 12, 215

−µ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥−µ −µ −µ − −µ ≤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥− −µ⎣ ⎦ ⎣ ⎦

×× =

Para verificar se o ponto t0 (16,89 8,76 109, 23)µ = pertence à região

de confiança, basta substituir os valores de µ1 por 16,89, de µ2 por 8,76 e o de µ3

por 109,23. O valor encontrado de 563,4964 é superior a 12,215, o que indica que

a média da Cultivar Achat, não pertence à região de 95% de confiança para média

das 15 famílias clonais estudadas.

Utilizando o programa Maple, através da seguinte macro, foi traçado

o gráfico, elipsóide de confiança (Figura 5.2), da região de 95% de confiança para

µ . Pode-se visualizar também que o ponto em questão não pertence a elipsóide

de confiança.

21 1 2 1 3

2 22 2 3 3

2,27(38,541 ) 2,14(38,541 )(25,854 ) 0,04(38,541 )(122,358 )

1,05(25,854 ) 0,15(25,854 )(122,358 ) 0,04(122,358 ) 12,215

= − µ − − µ − µ + − µ − µ +

+ − µ − −µ − µ + − µ ≤

Figura 5.2. Elipsóide de 95% de confiança para o vetor de médias populacional,

obtida a partir dos dados do exemplo 5.3.

Intervalos de confiança simultâneos

Enquanto a região de confiança fornece corretamente o conjunto de

valores plausíveis para a média de uma população normal, qualquer resumo de

conclusões, em geral, inclui intervalos de confiança sobre médias individuais.

Assim, adota-se que todos os intervalos de confiança sejam verdadeiros

simultaneamente com uma alta probabilidade específica. Isto garante com alta

probabilidade que qualquer afirmação não seja incorreta, o que conduz ao termo

intervalo de confiança simultâneo (Johnson e Wichern, 1998).

Considerando uma combinação linear das médias amostrais,

t1 2 p1 2 pX X X X= + + +

cuja distribuição amostral possui estimador da covariância dado por:

Dessa forma poderia se pensar em se obter intervalos de confiança

de 95% baseados na distribuição de t-student,

X t ( / 2)n−± α (5.9)

O intervalo da expressão (5.9) pode ser interpretado como intervalos

sobre componentes do vetor de média, assim, por exemplo, fazendo-se

t [1 0 .... 0]= , a expressão (5.9) se torna o intervalo clássico para a média de uma

população normal univariada. Neste caso tem-se uma série de inferências sobre

os componentes de µ , cada um associado com o coeficiente de confiança de 1-α,

através de diferentes escolhas de . No entanto o coeficiente de confiança para

todos os intervalos tomados simultaneamente não é 1-α. Para corrigir esta

imperfeição demonstra-se (Johnson e Wichern, 1988; Anderson, 1984) que para

garantir o coeficiente nominal de confiança simultâneo de 1-α para a cobertura de

os valores paramétricos é necessário recorrer à distribuição de T2. Este resultado

está apresentado a seguir:

t tp,n p

p(n 1)X F ( ) Sn(n p) −

−± α

− (5.10)

Método de Bonferroni para Comparações múltiplas

Muitas vezes um pequeno número de intervalos de confiança é

requerido. Nestas situações pode-se ter uma melhor opção do que as

comparações simultâneas, proposta em (5.10), obtendo intervalos de confiança

mais curtos (mais precisos) do que o intervalo simultâneo de T2. Esta alternativa

de intervalo é conhecida por método de Bonferroni.

A seguir será apresentado o método para obtenções de intervalo de

confiança para os componentes de média. Se as m=p médias forem consideradas,

então, o método de Bonferroni é:

iii n 1 2m

SX t ( ) i 1,2,...,p mn

α−± = = (5.11)

Exemplo 5.4

Utilizando os dados do exemplo 5.2, obter os intervalos clássicos de t-student, T2 e

Bonferroni, para os componentes individuais do vetor de média, e compará-los

entre si, quanto ao comprimento.

O vetor de médias e a matriz de covariância amostral são:

3⎡ ⎤

= ⎢ ⎥⎣ ⎦

e 1,0 0,50,5 1,0

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

1. Intervalo T2

11(0,95) 1 p,n p

p(n 1) SIC X F ( )n p nµ −−

= ± α−

1 (0,95)

2(3 1) 110 199,53 2 3

−= ±

1 (0,95) 10 16,31 [ 6,31; 26,31]ICµ = ± = −

■ 2 (0,95)

2(3 1) 13 199,53 2 3

−= ±

2 (0,95) 3 16,31 [ 13,31;19,31]ICµ = ± = −

Observa-se que os limites dos intervalos de confiança múltiplos

representam os limites da elipse de confiança de 95% (Figura 5.1), projetados nos

respectivos eixos.

2. Intervalo de Bonferroni

Neste caso, m=p=2, portanto α/2m=0,0125. O valor de t-student

correspondente, com n-1=2 GL é 6,21. Então,

■ 1 (0,95)

110 6,213

ICµ = ±

1 (0,95) [6,41;13,59]ICµ =

■ 2 (0,95)

13 6,213

ICµ = ±

2 (0,95) [ 0,59; 6,59]ICµ = −

Observa-se nesta situação que os intervalos são bem mais estreitos

que o seu correspondente em 1.

3. Intervalo t de Student

Neste caso α/2=0,025 e o valor de t-student correspondente com 2

GL é 4,30. Então,

■ 1 (0,95)

110 4,303

ICµ = ±

1 (0,95) [7,52;12,48]ICµ =

■ 2 (0,95)

13 4,303

ICµ = ±

2 (0,95) [0,52; 5,48]ICµ =

Apesar de estes últimos intervalos individualmente garantir com 95%

de probabilidade que as médias populacionais estão contidas nos mesmos, não há

garantia de que simultaneamente eles contenham as médias populacionais no

mesmo valor nominal do coeficiente de confiança, diga-se 95%. Na melhor das

hipóteses, variáveis não correlacionadas, o valor real do coeficiente de confiança é

(1-α)p=0,952=0,9025.

5.4. Inferências sobre proporções de grandes amostras

Freqüentemente, algumas características de interesse na população

estão na forma de atributos. Cada indivíduo nesta população pode ser descrito em

termos dos atributos que possui, os quais são codificados, pela sua presença e

ausência. Na população, com q característica, a proporção de elementos que

possui os atributos 1, 2, ..., q é p1, p2, ..., pq. Considerando q atributos mutuamente

exclusivos e características exaustivas, então, pq=1-(p1+p2+...+pq-1).

Numa grande amostra de tamanho n, pelo teorema do limite central,

p possui distribuição aproximadamente normal, com

ˆE(p)

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

1 1 1 2 1 q

2 1 2 2 2 q

q 1 q 2 q q

p (1 p ) p p p pp p p (1 p ) p p1 1ˆCov(p)

n np p p p p (1 p )

− − −⎡ ⎤⎢ ⎥− − −⎢ ⎥= = Σ⎢ ⎥⎢ ⎥− − −⎢ ⎥⎣ ⎦

Para grandes amostras, a aproximação continua válida se um

estimador de ( )ˆCov p , (1/n) Σ , for utilizado.

Uma vez que cada elemento da população está associado a apenas

um atributo, então, pq=1-(p1+p2+...+pq-1), o que trás como conseqüência que o

posto de Σ é igual a q-1, portanto sua inversa não existe. Apesar disso, pode-se

desenvolver intervalos de confiança simultâneos aproximados de 100(1-α)%, para

qualquer combinação tp .

Para uma amostra de tamanho n, considerando q categorias da

distribuição multinomial, o intervalo aproximado de confiança simultâneo de

100(1-α)%, para qualquer combinação t1 1 2 2 q qp p p ... p= + + + , é dado por:

ˆp ( )

Σ± χ α (5.12)

garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor

grande de n-q-1, significa que ˆknp deve estar em torno de 20 para cada categoria

k=1, 2, ..., q.

Exemplo 5.5

Numa amostra de n=35 cochonilhas, obtida na região de Jacuí, MG, em fevereiro

de 1995, em plantas de pessegueiro tratadas, Diniz (1996) obteve os seguintes

resultados:

Fêmeas adultas Ninfa móvel Ninfa fêmea Ninfa macho Total 5 11 15 4 35

Obter os intervalos de confiança simultâneos de 95% usando a aproximação de

grandes amostras para proporções de insetos em cada categoria.

O vetor de proporções e a matriz de covariância amostral são:

0,14290,3143

p0, 42860,1142

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

0,1225 .0,0449 0,2155ˆ0,0612 0,1347 0,24490,0163 0,0359 0,0489 0,1012

Sim⎡ ⎤⎢ ⎥−⎢ ⎥Σ =⎢ ⎥− −⎢ ⎥− − −⎣ ⎦

O valor de 23 (0,05)χ é 7,815, e os intervalos são:

10,1225: 0,1429 7,815 0,1429 0,1654 [ 0,0225; 0,3083]

35p ± = ± = −

20,2155: 0,3143 7,815 [0,0949; 0,5337]

35p ± =

30,2449: 0,4286 7,815 [0,1948; 0,6624]

35p ± =

40,1012: 0,1142 7,815 [ 0,0361; 0,2645]

35p ± = −

5.5. Comparações pareadas

Em muitas situações experimentais deseja-se testar o efeito ou

eficácia de um tratamento. Para isso, medidas são tomadas nas unidades

experimentais antes e após a aplicação do tratamento. Uma outra situação em

que esta comparação pode ser de interesse é quando na mesma unidade

amostral ou experimental dois tratamentos são aplicados. Estas respostas são

denominadas medidas pareadas, e podem ser analisadas calculando-se suas

diferenças, eliminando a influência da variação entre as unidades experimentais

ou amostrais.

Será, inicialmente, abordado o caso univariado e, em seguida, a sua

respectiva generalização para o caso multivariado. Denotando X1j a resposta do

tratamento 1 (ou resposta antes do tratamento) e X2j a resposta do tratamento 2

(ou resposta após o tratamento) para a j-ésima unidade amostral ou experimental,

em que (X1j, X2j) são medidas tomadas na mesma unidade amostral ou

experimental, então as n diferenças:

Dj = X2j - X1j , j=1, 2, ..., n (5.13)

devem refletir somente o efeito diferencial entre os tratamentos.

Assumindo que as diferenças Dj são observações independentes de

uma distribuição normal N(δ, 2Dσ ), a variável

−δ= (5.14)

segue a distribuição de t-student com n-1 graus de liberdade, em que:

jn n n2 j 12 2j j jD

j 1 j 1 j 1

D1 1 1D D e D D Dn n 1 n 1 nS =

⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟⎢ ⎥⎝ ⎠= = − = −⎢ ⎥− − ⎢ ⎥⎢ ⎥⎣ ⎦

∑∑ ∑ ∑ (5.15)

Conseqüentemente, para um coeficiente de confiança de 1-α, o teste

para a hipótese:

: 0 ( ): 0

H efeito nulo de tratamentoH

δ =δ ≠

pode ser realizado comparando-se | t | com tn-1(α/2), o quantil 100(α/2) superior da

distribuição de t-student com n-1 graus de liberdade.

O intervalo de confiança de 100(1-α)% para o efeito do tratamento

(ou diferença de efeitos dos tratamentos) é dado pela maneira usual e

apresentado a seguir.

SD t ( / 2)n−± α (5.16)

Para extensão multivariada dos procedimentos adotados no caso

univariado, a seguinte notação é utilizada, pois existe a necessidade de distinguir

entre os índices para os dois tratamentos (1o índice), a resposta da j-ésima

unidade experimental ou amostral (2o índice) e as p variáveis (3o índice). Neste

caso, X1jk representa a resposta do tratamento 1 (ou medida antes de se aplicar o

tratamento) na k-ésima variável tomada na j-ésima unidade e, X2jk representa a

resposta do tratamento 2 (ou medida após se aplicar o tratamento) na k-ésima

variável tomada na j-ésima unidade, sendo que j=1, 2, ..., n; k=1, 2, ..., p.

As diferenças têm a mesma notação com exceção do primeiro índice,

do efeito do tratamento, que deve desaparecer. Isto se deve ao fato de as

diferenças refletirem o efeito diferencial dos tratamentos. Assim, Djk representa a

diferença entre os tratamentos na j-ésima unidade amostral ou experimental obtida

na k-ésima variável. Fazendo tj j1 j2 jpD D D D⎡ ⎤= ⎣ ⎦ e assumindo que é

distribuído normal e independentemente, Np( D,δ Σ ), a estatística T2 se aplica para

se realizar inferências sobre o vetor média das diferenças. Os seguintes

resultados podem ser obtidos, a partir das pressuposições assumidas.

Dadas as diferenças observadas tj j1 j2 jpD D D D⎡ ⎤= ⎣ ⎦ ,

j=1, 2, ..., n, um teste de a hipótese o 0 1 0H : vs H :δ = δ δ ≠ δ deve rejeitar H0 se o

valor observado

( ) ( )t2 10 d 0 p,n p

p(n 1)T n D S D F ( )(n p)

−−

−= − δ − δ > α

− (5.17)

em que,

1D Dn =

= ∑ e ( )( )n t

D j jj 1

1S D D D Dn 1 =

= − −− ∑

A região de confiança de 100(1-α)% para δ consiste em todos os

valores de δ tais que

2 t 1D p,n p

p(n 1)T n(D ) S (D ) F ( )(n p)

−−

−= − δ − δ ≤ α

− (5.18)

Os intervalos de confiança simultâneos 100(1-α)% para as diferenças

de médias individuais δi são dados por:

D(ii)i p,n p

Sp(n 1)IC (1 ) : D F ( )(n p) nδ −

−−α ± α

− (5.19)

em que, iD é o i-ésimo elemento de D e D(ii)S é i-ésimo elemento da diagonal de

Para n-p grande, [(n-1)p/(n-p)]Fp,n-p(α) ≅ 2 ( )pχ α , e a normalidade não

precisa ser assumida.

O intervalo simultâneo de Bonferroni 100(1-α)% para as médias

individuais das diferenças δi é:

D(ii)i n 1

SIC (1 ) : D t

2p nδ −

⎛ ⎞α−α ± ⎜ ⎟

⎝ ⎠ (5.20)

Exemplo 5.6

Em uma amostra de n=4 fazendas em Marechal Cândido Rondon foram

mensuradas a produção leiteira diária média por animal (X1) e a renda total diária

da produtividade de leite (X2) antes da aplicação do plano governamental “panela

cheia” e após a aplicação. Testar a hipótese de que o plano foi ineficiente em

aumentar a média dos dois índices zootécnicos. Os dados da amostra são:

Antes Após X1j1 X1j2 X2j2 X2j2 10 11 9 8

80 80 60 60

13 15 16 19

90 92 88 90

A hipótese a ser testada é:

0H : 0

0⎡ ⎤

δ = = ⎢ ⎥⎣ ⎦

As diferenças foram obtidas e são dadas por:

Dj1 Dj2

3 4 7 11

10 12 28 30

As estimativas amostrais são:

6, 25D

20,00⎡ ⎤

= ⎢ ⎥⎣ ⎦

12,9167 34,6667S

34,6667 109,3333⎡ ⎤

= ⎢ ⎥⎣ ⎦

O valor da estatística T2 pode ser computado por:

[ ]2 0,5195 0,1647 6, 25T 4 6, 25 20 14,6515

0,1647 0,0614 20,00−⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

O valor crítico é:

p,n p 2,4 2p(n 1) 2 (4 1)F (5%) F (5%) 3 19 57(n p) (4 2)− −

− × −= = × =

− −

Como T2=14,6515<57, então, H0 não pode ser falseada para o valor

nominal de 5% de significância.

Os intervalos de confiança simultâneos são:

[ ]1 1 2,4 2

2(4 1) 12,9167IC (0,95) : D F (0,05) 6,25 13,57 7,32;19,82(4 2) 4δ −

−± = ± = −

[ ]2 2 2,4 2

2(4 1) 109,3333IC (0,95) : D F (0,05) 20 39, 47 19, 47; 59, 47(4 2) 4δ −

−± = ± = −

5.6. Comparações de vetores médias de duas populações

O teste T2 para testar a igualdade de vetores média de duas

populações pode ser desenvolvido por analogia ao procedimento univariado. Este

teste T2 é apropriado para comparar a resposta média de um grupo experimental

(população 1) com a resposta média “independente” de outro grupo experimental

(população 2). Se possível, as unidades experimentais devem ser sorteadas para

cada conjunto de observações de ambas as populações, o que abrandará o efeito

da variabilidade entre unidades na comparação entre tratamentos. Apesar disto,

este tipo de comparação, é em geral, menos preciso do que o caso de

comparações pareadas.

Considerando uma amostra aleatória de tamanho n1 da população 1

e uma amostra n2 da população 2. As observações das p variáveis podem ser

organizadas como:

Amostra Estatísticas amostrais (População 1) 11X , 12X , ...,

(População 2) 21X , 22X , ...,

1 1jj 11

1X Xn =

= ∑ ( )( )1n t

1 1j 1 1jj 11

1S X X X Xn 1 =

= − −− ∑

2 2 jj 12

1X Xn =

= ∑ ( )( )2n

2 2 j 2 2 j 2j 12

t1S X X X Xn 1 =

= − −− ∑

Subscritos 1 e 2, denotam a população.

Deseja-se realizar inferência a respeito da diferença de médias

populacionais ( 1 2µ −µ ), para verificar se esta diferença é nula, o que equivale a

afirmar que não existe efeito dos tratamentos. De forma equivalente, pode-se fazer

tal inferência, testando a hipótese de igualdade dos vetores médias populacionais

( 0 1 2H :µ = µ ). Algumas pressuposições devem ser obedecidas para a validade dos

testes e da inferência realizada. Entre as pressuposições destaca-se a

necessidade de que sejam realizadas amostras aleatórias, de tamanho n1 e n2, de

ambas as populações (população 1 com média 1µ e covariância 1Σ , e população 2

com média 2µ e covariância 2Σ ); além disso, supõe-se que as observações da

amostra 1 são independentemente obtidas em relação aquelas da amostra 2.

Ainda é necessário assumir que ambas as populações sejam normais que a matriz

de covariância amostral seja a mesma ( 1 2Σ = Σ = Σ ).

As matrizes de covariância S1 e S2 são estimadores de 1Σ e de 2Σ ,

respectivamente. Conseqüentemente, pode-se combinar as informações de

ambas as amostras para estimar a variância comum Σ da seguinte forma:

1 1 2 2

( 1) ( 1)2p

n S n SSn n

− + −=

+ − (5.21)

Para se testar a hipótese 0 1 2 0H :µ −µ = δ , considera-se os seguintes

resultados:

( ) 1 21 2E X X− = µ −µ (5.22)

( )1 21 2

1 1Cov X Xn n

⎛ ⎞− = + Σ⎜ ⎟

⎝ ⎠ (5.23)

Devido ao resultado (5.21), em que Sp é um estimador de Σ, então,

n n⎛ ⎞

+⎜ ⎟⎝ ⎠

é um estimador de ( )1 2Cov X X− .

Demonstra-se que o teste da razão de verossimilhança para a

hipótese,

0 1 2 0H :µ −µ = δ

é dado pela distância quadrada T2. Rejeita-se H0 se

2 t 1 21 2 0 p 1 2 0 p,n n p 1

1 2 1 2

(n n 2)p1 1T [X X ] S [X X ] F ( )n n (n n p 1)

+ − −

⎡ ⎤⎛ ⎞ + −= − − δ + − − δ > α⎢ ⎥⎜ ⎟ + − −⎝ ⎠⎣ ⎦

Exemplo 5.7

Os dados a seguir referem-se à produtividade e altura de plantas de duas

variedades de milho (A e B). Determinar a região de 95% de confiança para

diferença 1 2µ −µ .

A B Produtividade Altura da planta Produtividade Altura da planta

5,7 8,9 6,2 5,8 6,8 6,2

2,10 1,90 1,98 1,92 2,00 2,01

4,4 7,5 5,4 4,6 5,9

1,80 1,75 1,78 1,89 1,90

As estatísticas amostrais são:

1,99⎡ ⎤

= ⎢ ⎥⎣ ⎦

1,4587 0,05140,0514 0,0051

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

1,82⎡ ⎤

= ⎢ ⎥⎣ ⎦

1,5430 0,03660,0366 0,0045

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

A matriz de variância e covariância amostral combinada é:

1,4962 0,04480,0448 0,0048pS

−⎡ ⎤= ⎢ ⎥−⎣ ⎦

Os autovalores e autovetores de Sp são:

[ ]t1 11, 4975 e 0,9995 0,0300λ = = −

[ ]t2 20,0035 e 0,0300 0,9995λ = =

O valor de F2,8(0,05)=4,459. A região de confiança é dada por:

2 t 1 21 2 0 p 1 2 0 p,n n p 1

1 2 1 2

(n n 2)p1 1T [X X ] S [X X ] F ( )n n (n n p 1)

+ − −

⎡ ⎤⎛ ⎞ + −= − −δ + − − δ ≤ α⎢ ⎥⎜ ⎟ + − −⎝ ⎠⎣ ⎦

em que, 1 11 210

2 12 22

δ µ −µ⎡ ⎤ ⎡ ⎤δ = =⎢ ⎥ ⎢ ⎥δ µ −µ⎣ ⎦ ⎣ ⎦

Desta forma com os valores amostrais, tem-se:

[ ] 11 2

1,010,9276 8,6575301,01 0,17 10,03280,178,6575 289,136411

− δ⎡ ⎤⎡ ⎤− δ − δ × × ≤⎢ ⎥⎢ ⎥ − δ⎣ ⎦ ⎣ ⎦

Esta equação foi implementada no programa Maple, para se obter a

elipse de 95% de confiança, apresentada na Figura 5, cujos comandos estão

apresentados a seguir:

Figura 5.3. Elipse de 95% de confiança para diferença do vetor média de ambas

as variedades de milho.

Verifica-se pela Figura 5.3 que a origem t0 =[0, 0], não pertence a

região de confiança, indicando que as duas variedades diferem quanto ao vetor

média.

11 21µ − µ

12 22µ − µ

Intervalos de confiança simultâneos

Para desenvolver intervalos de confiança simultâneos para um

componente de 1 2µ −µ , adota-se o vetor tal que a combinação t ( 1 2µ −µ ), será

abrangida com probabilidade 1-α, para qualquer escolha de , por

( )1 2

t t1 21 2 p,n n p 1 p

1 2 1 2

(n n 2)p 1 1X X F ( ) Sn n p 1 n n+ − −

⎛ ⎞+ −− ± α +⎜ ⎟+ − − ⎝ ⎠

(5.24)

Método de Bonferroni para comparações múltiplas

O intervalo de confiança simultâneo de 100(1-α)% de Bonferroni para

as p diferenças entre duas médias populacionais é dado por:

1 21i 2i1i 2i n n 2 ii

1 1: (X X ) t S2p n n+ −

⎛ ⎞⎛ ⎞αµ −µ − ± +⎜ ⎟⎜ ⎟

⎝ ⎠ ⎝ ⎠ (5.25)

Comparações entre vetores médias quando 1 2Σ ≠ Σ

Quando 1 2Σ ≠ Σ , a distribuição das estatísticas dependem de uma

medida de distância que não são independentes das covariâncias populacionais

desconhecidas. Por serem desconhecidas as covariâncias populacionais, o teste

de Bartlett pode ser usado para testar H0: 1 2Σ ≠ Σ . No entanto, este teste é

fortemente afetado se a pressuposição de normalidade for violada. O teste em

questão não pode diferenciar entre a ausência de normalidade e a

heterogeneidade das covariâncias. Quando ambos n1-p e n2-p são grandes,

pode-se evitar as complicações da desigualdade de variâncias, utilizando a

elipsóide de 100(1-α)% de confiança aproximada, dada por (5.26). O problema de

covariâncias heterogêneas, quando as amostras são provenientes de populações

normais é conhecido como problema de Behrens-Fisher multivariado.

1 2 0 1 2 1 2 0 p1 2

1 1[X X ] S S [X X ] ( )n n

−⎡ ⎤

− − δ + − −δ ≤ χ α⎢ ⎥⎣ ⎦

(5.26)

O intervalo de confiança simultâneo aproximado é dado por:

( )t 2 t1 2 p 1 2

1 1X X ( ) S Sn n

⎛ ⎞− ± χ α +⎜ ⎟

⎝ ⎠ (5.27)

Sete soluções para o problema multivariado de Behrens-Fisher foram

estudadas por Christensen e Rencher (1997) por meio de simulação Monte Carlo,

comparando as taxas de erro tipo I e o poder destas soluções. Algumas dessas

soluções estudadas por estes autores são apresentadas a seguir.

a) Aproximação de Bennett

A primeira dessas alternativas é àquela estudada por Bennett (1951),

a qual assume que n2≥n1, o que não é limitante. Para contornar o problema, caso

essa condição não seja atendida, basta trocar os nomes das amostras, isto é, a

amostra 1 passa ser a amostra 2 e vice-versa. Inicialmente é necessário calcular

os vetores j 1Z , j 1, 2, , n= da seguinte forma.

1 2n n1

j 1j 2 j 2 j 2kj 1 k 12 21 2

n 1 1Z X X X Xn nn n = =

= − + −∑ ∑ (5.28)

Em seguida calcula-se a média ( Z ) e a covariância (SZ) a partir das n1

observações amostrais p-variadas obtidas na expressão (5.28). A estatística

2 t 11 ZT n Z S Z−= (5.29)

possui distribuição T2 de Hotelling com dimensão p e ν=n1-1 graus de liberdade,

que pode ser dada pela expressão geral (5.5).

b) Aproximação de James

A aproximação de James (1954) envolve uma correção do valor de 2χ

quando se utiliza a estatística T*2, definida por:

12 t 2

1 2 1 2 1 2 p1 2

1 1T [X X ] S S [X X ] ~n n

∗ ⎡ ⎤= − + − χ⎢ ⎥

⎣ ⎦ (5.30)

James (1954) propõe valores críticos ajustados ao invés de utilizar a

distribuição aproximada de qui-quadrado diretamente. Os valores críticos

propostos por James (1954) são dados em (5.31).

( )2 2p p( ) A B ( )χ α × + χ α (5.31)

em que 2p ( )χ α é o quantil superior α da distribuição de qui-quadrado e A e B são

dados em (5.32) e (5.33).

i 1 i i

S1 1A 1 tr S2p n 1 n

⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪= + ⎨ ⎬⎢ ⎥⎜ ⎟− ⎝ ⎠⎣ ⎦⎪ ⎪⎩ ⎭∑ (5.32)

2221 1i i

e ei 1 i i i

1 1 S SB tr 2 S tr S2p(p 2) n 1 n n

− −

⎧ ⎫⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞⎪ ⎪⎢ ⎥= +⎨ ⎬⎢ ⎥⎜ ⎟ ⎜ ⎟+ − ⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦⎪ ⎪⎣ ⎦⎩ ⎭∑ (5.33)

em que:

S SSn n

= + (5.34)

c) Aproximação de Yao

A aproximação de Yao (1965) é uma extensão da aproximação de

Welch para os graus de liberdade. A estatística (T*2) apresentada em (5.30) é

aproximada por uma T2 de Hotelling com dimensão p e graus de liberdade ν dados

por (5.35).

( )( ) ( )

22 t 1 1i1 2 e e 1 222 i 1 i i

S1 1 1 X X S S X Xn 1 nT

− −

⎧ ⎫⎡ ⎤⎪ ⎪= − −⎨ ⎬⎢ ⎥ν − ⎣ ⎦⎪ ⎪⎩ ⎭∑ (5.35)

d) Aproximação de Johansen

A aproximação de Johansen (1980) usa a estatística T*2 de (5.30)

dividida por uma constante C para que a estatística resultante tenha distribuição

aproximada pela distribuição F com ν1=p e ν2=ν graus de liberdade. Assim, os

valores necessários para calcular a estatística Fc de Johansen (1980) são:

= (5.36)

2D 6DC pp(p 1) 2

+= −

− + (5.37)

( ) ( ){ }2 221 1i i

1D tr I V V tr I V V2(n 1)

− −

⎡ ⎤ ⎡ ⎤= − + −⎣ ⎦⎢ ⎥⎣ ⎦−∑ (5.38)

p(p 2)3D+

ν = (5.39)

com Vi=(Si/ni)-1 para i=1 ou 2 e V=V1+V2.

e) Aproximação de Nel e Van der Merwe

A aproximação de Nel e Van der Merwe (1986) usa a estatística T*2

de (5.30), a qual é aproximada pela T2 de Hotelling com dimensão p e graus de

liberdade ν, em que:

( ) ( ) 22e e

2 22 2

1 1 2 2

1 1 1 2 2 2

tr S tr S

1 S S 1 S Str tr tr trn 1 n n n 1 n n

+ ⎡ ⎤⎣ ⎦ν =⎧ ⎫ ⎧ ⎫⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎪ ⎪ ⎪ ⎪+ + +⎨ ⎬ ⎨ ⎬⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎣ ⎦ ⎣ ⎦⎪ ⎪ ⎪ ⎪⎩ ⎭ ⎩ ⎭

(5.40)

É conveniente chamar a atenção para o fato de que nas expressões

anteriormente apresentadas aparece um termo como: tr(A)2. Esse termo significa

que é necessário calcular tr(A*A). Em outras ocasiões os termos eram [tr(A)]2, o

que significa que o traço da matriz A deve ser calculado e o seu quadrado é a

resposta almejada.

f) Aproximação de Kim

A aproximação de Kim (1992) é a mais elaborada de todas e também

se refere a uma extensão da aproximação dos graus de liberdade de Welch, como

acontece com o procedimento de Yao (1965). O procedimento de Kim requer a

maximização de um par de formas quadráticas dado por:

Sq qnd Sq qn

A maximização desse par de formas quadráticas resulta na solução

do sistema de equações homogêneas dado por (5.41).

1 2k k

S Sd q 0n n⎡ ⎤

− =⎢ ⎥⎣ ⎦

(5.41)

A solução desse sistema pode ser obtida conforme descrito no

capítulo 2. O autovalores dk e os autovetores kq (k=1, 2, ..., p) são utilizados para

definir a matriz D=diag(d1, d2, ..., dp) e 1 2 pQ q q q⎡ ⎤= ⎣ ⎦ . A partir dessas

matrizes definem-se as seguintes quantidades:

( )t1 2w Q X X= − (5.42)

⎛ ⎞= ⎜ ⎟⎝ ⎠∏ (5.43)

+ (5.44)

∑ (5.45)

⎛ ⎞⎜ ⎟⎝ ⎠=∑

∑ (5.46)

O próximo passo é calcular a estatística do teste que tem uma

aproximação F dada na expressão (5.48) com ν1=f e ν2=ν-p+1 graus de liberdade.

O valor ν é definido em (5.49).

( ) ( )1 1t 1/ 2 1/ 2G w D rI D rI w− −

= + + (5.47)

c( p 1)GF

cfν − +

(5.48)

2 2t 2 t 2

t 1 t 11 2

1 1 w D(D I) w 1 w (D I) wn 1 w (D I) w n 1 w (D I) w

− −

⎡ ⎤ ⎡ ⎤+ += +⎢ ⎥ ⎢ ⎥ν − + − +⎣ ⎦ ⎣ ⎦

(5.49)

Teste de Bartlett para igualdade de matrizes de covariâncias

O teste da razão de verossimilhança para igualdade de matrizes de

covariâncias de populações Wishart foi apresentado por Bartlett (1947). Este autor

demonstrou que sob a hipótese

o 1 2 kH :Σ = Σ = = Σ = Σ

a estatística da expressão (5.50) tem distribuição assintótica de qui-quadrado com

ν=(k-1)p(p+1)/2 graus de liberdade. Em que, k é o número de grupos ou

subpopulações amostradas, p é a dimensão das matrizes.

j j pj 1

1 1 2p 3p 11n 1 n k 6(p 1)(k 1)

n 1 ln S (n k) ln S

⎡ ⎤⎛ ⎞⎛ ⎞ ⎛ ⎞+ −⎢ ⎥χ = − − −⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟− − + −⎢ ⎥⎝ ⎠⎝ ⎠⎝ ⎠⎣ ⎦

⎡ ⎤⎡ ⎤× − − −⎢ ⎥⎣ ⎦⎣ ⎦

(5.50)

em que: Sj é o estimador não viesado da covariância da sub-população j, baseado

em nj observações multivariadas de dimensão p; k

=∑ ; j=1, 2, ..., k, e

j jj 1

n 1 SS

Exemplo 5.8. Testar a hipótese de igualdade das covariâncias de 2 populações.

Uma amostra de 11 observações foi obtida da primeira população e outra de 15 da

segunda. Duas variáveis foram mensuradas, sendo as estimativas amostrais

apresentadas a seguir (Fonte: Bock, 1975).

0,51964 0, 44700S

0, 44700 0, 47600⎡ ⎤

= ⎢ ⎥⎣ ⎦

com n1=11 e 2

0,85143 0,73786S

0,73786 1,54828⎡ ⎤

= ⎢ ⎥⎣ ⎦

com n2=15

O valor de n=11+15=26 e de k=2 (populações). A hipótese a ser

testada é:

o 1 2H :Σ = Σ = Σ

Os demais valores necessários para a realização do teste de

hipótese são:

1ln S 3,0692181= − ; 2ln S 0, 2564228= − ; e pln S 0,9031351= −

( ) ( )( ) ( )

1 1 1 2 2 3 2 1110 14 24 6 3 1

10 3,0692181 14 0, 2564228 24 0,9031351

11, 43

⎡ ⎤⎛ ⎞× + × −⎛ ⎞χ = − − + − ×⎢ ⎥⎜ ⎟⎜ ⎟ × ×⎝ ⎠⎝ ⎠⎣ ⎦

⎡ ⎤× × − + × − − × − =⎣ ⎦

Os graus de liberdade são ν=1x2x3/2=3 e os valores críticos 5% e

1% da distribuição de qui-quadrado são 23 (0,05) 7,8147χ = e 2

3 (0,01) 11,3448χ = .

Como o valor calculado (11,43) é superior aos valores críticos, rejeita-se H0 com

P<0,01. Portanto, existem evidências de que as covariâncias das duas populações

não sejam iguais.

5.7. Exercício

5.7.1. A matriz X, apresentada a seguir, representa uma amostra de n=4

observações retiradas de uma distribuição normal bivariada.

11 210 4

9 310 6

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

a) Teste a hipótese de que µ ´0 = [9 2] seja um valor plausível para representar a

média populacional.

b) Obtenha a região de 95% de confiança e esboce graficamente a mesma,

destacando o valor hipotético nessa região.

5.7.2. Com os dados do exercício 5.7.1, determine os intervalos de confiança

simultâneo para os componentes de média individual por:

a) T2 de Hotelling

b) Procedimento de Bonferroni

c) Teste de t de student univariado.

5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variáveis, teste

a pressuposição de normalidade univariada (marginal) e bivariada,

utilizando os procedimentos apresentados no capítulo 4.

5.7.4. Utilizando os dados do exemplo 5.5, faça o IC simultâneo para proporções

de 90% de confiança.

5.7.5. Os dados abaixo se referem ao peso e ao teor de proteína, medidos em 6

animais antes e após um período de dieta balanceada. Teste a hipótese de

que não houve efeito da dieta. Determinar a região de confiança e o esboço

da região de confiança, o intervalo de confiança simultâneo e de Bonferroni,

no nível de 5% de probabilidade.

Antes Após Peso Teor de proteína

(%) Peso Teor de proteína

(%) 250 300 350 320 400 320

10 12 13 15 9 11

280 320 360 380 410 350

12 16 13 18 15 12

5.7.6. Com os dados do exemplo 5.7, reapresentados a seguir, obter os intervalos

de confiança de 95% simultâneos e de Bonferroni, para as diferenças de

médias marginais. Compare os resultados com a Figura 5.3, e obtenha

conclusões de interesse.

A B Produtividade Altura da planta Produtividade Altura da planta

5,7 8,9 6,2 5,8 6,8 6,2

2,10 1,90 1,98 1,92 2,00 2,01

4,4 7,5 5,4 4,6 5,9

1,80 1,75 1,78 1,89 1,90

||[ ]||Análise de variância multivariada

6.1. Introdução

Com o desenvolvimento da estatística no século XX a possibilidade

de condução e análise de experimentos propiciou grande sucesso às pesquisas,

principalmente pela habilidade de lidar com variações não controláveis. O primeiro

a representar os resultados experimentais por um modelo foi W. S. Gosset

(Student, 1908).

As terminologias dos delineamentos experimentais,

independentemente da área de aplicação, se tornaram iguais aos dos

experimentos em agricultura. Portanto, unidades experimentais são denominadas

de parcelas e o valor da variável aleatória como resposta. Experimentos com

apenas uma classificação dos tratamentos são denominados de delineamentos

inteiramente casualizados ou de classificação simples. Experimentos em que

vários tipos de tratamentos são aplicados ao material experimental

simultaneamente são denominados de fatoriais. Outra classe de experimentos é

gerada pelos arranjos hierarquizados dos materiais.

O presente capítulo tem por objetivo apresentar a extensão

multivariada dos métodos univariados de análise de variância. As idéias básicas

desse capítulo podem ser estendidas a todos os tipos de delineamentos e arranjos

das estruturas de tratamentos, embora sejam apresentas na situação mais

simples, a do delineamento de classificação simples.

6.2. Delineamento de classificação simples

O caso mais simples dos delineamentos experimentais é o de

classificação simples ou delineamento inteiramente casualizado. O arranjo

experimental consiste em g tratamentos, possivelmente incluindo a(s)

testemunha(s), para os quais as unidades experimentais são aleatorizadas.

As amostras aleatórias de cada tratamento são representadas por:

Tratamento 1: 11X , 12X , ..., 11nX

Tratamento 2: 21X , 22X , ..., 22nX

Tratamento g: g1X , g2X , ..., ggnX

A análise de variância multivariada (MANAVA) é usada para

investigar se os vetores de médias de tratamento são os mesmos, e se não, qual

componente de média difere significativamente. Algumas pressuposições da

estrutura dos dados devem ser obedecidas para validade da inferência estatística:

(a) ii1 i2 i nX ,X , ,X deve ser uma amostra aleatória de tamanho ni do tratamento i,

com média iµ , i=1, 2, ..., g. As amostras dos tratamentos devem ser

independentes; (b) todos os tratamentos possuem covariância comum Σ; e

(c) cada tratamento tem distribuição normal multivariada.

O modelo de análise de variância multivariada está apresentado a

seguir. Neste modelo cada componente é um vetor de p componentes.

i j i i j iX e i 1, 2, , g e j 1, 2, , n= µ+ τ + = = (6.1)

em que, i je é independentemente e identicamente distribuído e Np(0, Σ) para todo i

e j; µ é o vetor média geral e iτ representa o vetor de efeitos do i-ésimo

tratamento. Pode-se adotar a restrição paramétrica g

i ii 1

τ =∑ .

Os erros do vetor i jX são correlacionados, no entanto a matriz de

covariância Σ é a mesma para todos os tratamentos.

O vetor de observações pode ser decomposto em:

i j .. i j.. i. i.X X (X X ) (X X )

Observação Estimativa da Estimativa do resíduomédia geral efeito do tratamento

= + − + −

Analogamente, demonstra-se que a soma de quadrados e produtos

totais possui a seguinte decomposição:

Soma de quadrados e produtos (SQP) = SQP tratamentos + SQP resíduo

total corrigido

( )( )

( )( ) ( )( )

i j i j.. ..i 1 j 1

ng g tti i. .. i. .. i j i ji. i.

i 1 i 1 j 1

X X X X

n X X X X X X X X

− − =

= − − + − −

∑∑

∑ ∑∑

A soma de quadrados e produtos do resíduo pode ser expressa por:

( )( )ing t

i j i j 1 1 2 2 g gi. i.i 1 j 1

E X X X X (n 1)S (n 1)S ... (n 1)S= =

= − − = − + − + + −∑∑ (6.4)

em que Si é a matriz de covariância amostral do i-ésimo tratamento.

O teste da hipótese de inexistência de efeitos de tratamentos,

0 1 2 gH : 0τ = τ = = τ = (6.5)

é realizado considerando as magnitudes das somas de quadrados e produtos de

tratamento e resíduo pela variância generalizada.

O esquema de análise de variância multivariada (MANAVA) está

apresentado na Tabela 6.1. A fonte de variação total é particionada em causas de

variação devido a tratamento e ao erro experimental ou resíduo.

Tabela 6.1. Tabela de MANAVA para testar a hipótese de igualdade do vetor de

efeito dos tratamentos em um delineamento de classificação simples.

FV GL Matriz de SQP

Tratamento g-1 ( )( )g t

i i. i... ..i 1

B n X X X X=

= − −∑

Resíduo g

υ = −∑ ( )( )ing t

i j i ji. i.i 1 j 1

E X X X X= =

= − −∑∑

Total corrigido g

−∑ ( )( )ing t

i j i j.. ..i 1 j 1

B E X X X X= =

+ = − −∑∑

Os critérios para o teste da hipótese apresentada em (6.5), envolvem

variâncias generalizadas e autovalores e autovetores da maximização de duas

formas quadráticas dadas em (2.15 e 2.16).

De maneira geral, supondo que H seja a matriz de SQP relativa aos

efeitos dos tratamentos que se deseja testar a igualdade, para o exemplo H=B,

então a solução da equação determinantal dada por:

( )k kH E e 0−λ =

fornece as estimativas dos autovalores e autovetores, necessários aos testes de

hipótese (6.5), os quais estão apresentados na Tabela 6.2. Quatro critérios

existem para o teste desta hipótese. Muitos autores recomendam utilizar o critério

de Wilks como referência, por se tratar de um teste baseado na razão de

verossimilhança. Outros recomendam que a hipótese nula deva ser rejeitada se

pelo menos três dos quatro critérios forem significativos em um nível nominal de

significância previamente adotado. Esses critérios podem ser aproximados pela

distribuição F. Essas aproximações, também, se encontram apresentadas na

Tabela 6.2.

Tabela 6.2. Estatísticas multivariadas e suas equivalência aproximada com a

distribuição F.

Critério Estatística Aproximação F GL de F

|E| 1|H E| 1

Λ= =+ +λ∏ F

rt fpq

=−⎛

⎜⎜

⎟⎟

−⎛⎝⎜

⎞⎠⎟

v2=rt-2f

Traço de Pillai 1 k

V tr[H(H E) ]1

− λ= + =

+λ∑ FV

s Vn sm s

⎛⎝⎜

⎞⎠⎟

+ ++ +

⎛⎝⎜

⎞⎠⎟

2 12 1

v1=s(2m+s+1)

v2=s(2n+s+1)

Traço de Hotelling Lawley

1kU tr(HE )−= = λ∑

2(sn 1)UFs (2m s 1)

v1=s(2m+s+1)

v2=2(sn+1)

Raíz máxima

de Roy θ λ= 1 ( d q)F

dθ ν− +

= v1=d

v2= d qν − +

p: número de variáveis = posto(H+E); q: GL de tratamento (ou do contraste); ν: GL do erro; S=min(p,q); r=ν- (p-q+1)/2;f=(pq-2)/4; d=max(p,q); m=(|p-q|-1)/2; n=(ν-p-1)/2; e

p qSe p q

+ −+ − >

⎨⎪

⎩⎪

2 22 24

Obs. Critério de Wilks possui aproximação exata de F se min(p,q)≤2

Exemplo 6.1

Num experimento envolvendo 4 variedades de feijão, avaliou-se na seca, a

produtividade (P) em kg/ha e número de grão por vagem (NGV), utilizando 5

repetições. Os resultados obtidos foram:

Cultivar

A B C D

P NGV P NGV P NGV P NGV

1082 1070 1180 1050 1080

4,66 4,50 4,30 4,70 4,60

1163 1100 1200 1190 1170

5,52 5,30 5,42 5,62 5,70

1544 1500 1550 1600 1540

5,18 5,10 5,20 5,30 5,12

1644 1600 1680 1700 1704

5,45 5,18 5,18 5,40 5,50

5462 22,76 5823 27,56 7734 25,90 8328 26,71

Teste a hipótese de igualdade do vetor média de tratamentos.

Os vetores de médias amostrais de tratamento são:

1092, 400X

4,552⎡ ⎤

= ⎢ ⎥⎣ ⎦

1164,600X

5,512⎡ ⎤

= ⎢ ⎥⎣ ⎦

1546,800X

5,180⎡ ⎤

= ⎢ ⎥⎣ ⎦

1665,600X

5,342⎡ ⎤

= ⎢ ⎥⎣ ⎦

E a média geral:

1367,35000X

5,1465⎡ ⎤

= ⎢ ⎥⎣ ⎦

A matriz B é obtida por:

[ ] [ ]{ }

B =⎡

⎣⎢

⎦⎥ −

⎣⎢

⎦⎥

⎧⎨⎩

⎫⎬⎭

− + +

⎣⎢

⎦⎥ −

⎣⎢

⎦⎥

⎧⎨⎩

⎫⎬⎭

51092 400

4 5521367 3500

5 5121092 400 4 552 1367 3500 5 1465

51665 600

5 3421367 3500

5 5121665 600 5 512 1367 3500 5 1465

, , , ,

Obviamente, quando os cálculos não são realizados no computador,

é mais fácil de se obter as matrizes de somas de quadrados e produtos, pelas

expressões apresentadas a seguir. Para isso, considere que Xi j k representa o

valor observado do i-ésimo tratamento, na j-ésima unidade experimental e na

k-ésima variável. Então,

2 2gi.k ..k

kk gi 1 i

X XSQBn n=

= −∑∑

representa a soma de quadrados de tratamento para o i-ésimo componente, e

gi.k i. .. ..k

k gi 1 i

X X X XSPBn n=

= −∑∑

representa a soma de produtos de tratamento entre as variáveis k e , com

k≠ =1, 2, ..., p.

Para o total as SQ e SP são:

2 ..kkk gijk

i 1 j 1i

= −∑∑∑

ing..k ..

k gijk iji 1 j 1

X XX X= =

= −∑∑∑

Para o resíduo basta obter a diferença:

E = T - B (6.10)

No exemplo, as matrizes B, E e T são:

B =⎡

⎣⎢

⎦⎥

1189302 1500 768 3605768 3605 2 6318

, ,, ,

⎣⎢

⎦⎥

1218360 5500 778 2645778 2645 2 9517

, ,, ,

E T B= − =⎡

⎣⎢

⎦⎥

29058 4000 9 90409 9040 0 3199, ,, ,

O quadro de MANAVA está apresentado a seguir:

FV GL SQ&P

Tratamento 3 1189302,1500 768,3605

B768,3605 2,6318

⎡ ⎤= ⎢ ⎥⎣ ⎦

Erro 16 29058, 4000 9, 9040E

9, 9040 0, 3199⎡ ⎤

= ⎢ ⎥⎣ ⎦

Total Corrigido 19 1218360,5500 778, 2645T

778, 2645 2,9517⎡ ⎤

= ⎢ ⎥⎣ ⎦

Para o teste da hipótese 0 1 2 gH : 0τ = τ = = τ = , a razão entre o par

de formas quadráticas t tk k k ke Be e e Ee , deve ser maximizada. Isto equivale a

resolver o sistema de equação,

( )k kB E e 0−λ =

Para o exemplo, os autovalores e autovetores são:

[ ]t1 141,3463 e 0,0058 0,1952λ = =

[ ]t2 26,6781 e 0,0012 1,7667λ = = −

Alguém desavisado poderia pensar que o valor do segundo elemento

do segundo autovetor (1,7667) fosse algum tipo de erro de digitação, por se tratar

de um valor superior a 1. No entanto, isto é perfeitamente possível, pois os

autovetores, no caso da maximização da razão entre duas formas quadráticas,

são normalizados da seguinte forma: t tk k ke Ee 1e e Ee 0 (k )= = ≠ , o que pode ser

facilmente verificado.

Todos os critérios utilizados rejeitaram a hipótese de igualdade dos

vetores efeitos tratamento (P<0,01), como pode ser visto no quadro seguinte.

Critério Estatística F G.L. Pr>F

Wilks Λ=0,0030756 85,16 v1=6 e v2=30 0,0001

Traço de Pillai V=1,846145 64,00 v1=6 e v2=32 0,0001

Traço de Hotelling

Lawley

U=48,0244

112,06

v1=6 e v2=28

0,0001

Raíz máxima de

Roy θ=41,3463 220,51 v1=3 e v2=16 0,0001

p=2; q=3; v=16; s=2; r=16; f=1; d=3; m=0; n=6,5; e t=2

6.3. Intervalos de confiança simultâneos para o efeito de tratamentos

Quando a hipótese de efeitos iguais para tratamentos é rejeitada,

aqueles efeitos que levaram a rejeição são de interesse. Para comparações

simultâneas duas a duas, a aproximação de Bonferroni pode ser usada para

construir intervalos de confiança simultâneos para os componentes da diferença

h iτ − τ (diferenças de efeitos dos tratamentos h e i, respectivamente). Esses

intervalos são mais curtos que os obtidos para todos os contrastes, e requerem

apenas valores críticos da estatística univariada t.

Fazendo ikτ o k-ésimo componente de iτ . Desde que iτ pode ser

estimado por i i. ..ˆ X Xτ = − , então,

i.k ..kikˆ X Xτ = − (6.11)

Devido a (6.11) corresponder a diferença entre duas médias

amostrais independentes, o teste de t de duas amostras é válido, modificando-se

adequadamente o nível de significância. A estimativa da variância do contraste

entre duas médias de tratamentos é dada por,

h.k i.k

E1 1Var(X X )n n

⎛ ⎞− = +⎜ ⎟ υ⎝ ⎠

(6.12)

A divisão de Ekk pelos seus respectivos graus de liberdade (υ), é

devido ao fato de que, o elemento em questão (Ekk) refere-se a uma soma de

quadrados. Desta forma, desde que p variáveis são consideradas e g(g-1)/2

comparações duas a duas serão realizadas, então o intervalo de confiança

protegido por Bonferroni para diferença de efeitos de tratamento é dado por:

kkh.k i.k

E1 1X Xpg(g 1) n nt υ

⎛ ⎞⎛ ⎞α− ± +⎜ ⎟⎜ ⎟− υ⎝ ⎠ ⎝ ⎠

(6.13)

para todos os k = 1, 2, ..., p e todas as diferenças h i 1, 2, ..., g< = .

6.4. Exercício

6.7.1. Repetir a análise de variância do exemplo 6.1 utilizando o “proc GLM” do

SAS e solicitar a realização dos seguintes contrastes: i) A e B vs C e D; ii) A

vs B e iii) C vs D.

||[ ]||Componentes principais

7.1. Introdução

A análise de componentes principais está relacionada com a

explicação da estrutura de covariância por meio de poucas combinações lineares

das variáveis originais em estudo. Os objetivos dessa análise são: i) redução da

dimensão original; e ii) facilitação da interpretação das análises realizadas. Em

geral, a explicação de toda a variabilidade do sistema determinado por p variáveis

só pode ser efetuada por p componentes principais. No entanto, uma grande parte

dessa variabilidade pode ser explicada por um número r menor de componentes,

r≤p. Os componentes principais são uma técnica de análise intermediária e,

portanto não se constituem em um método final e conclusivo. Esse tipo de análise

se presta fundamentalmente como um passo intermediário em grandes

investigações científicas.

Essa técnica pode ser aplicada, ainda, na análise de regressão

múltipla, principalmente, nos casos de colinearidade ou de multicolinearidade;

aplica-se também à análise de agrupamento e como estimadores de fatores nas

técnicas multivariadas denominadas de análises fatoriais. Muitas outras aplicações

de componentes principais são encontradas nas literaturas aplicadas. A técnica

AMMI (additive multiplicative interaction model) considera modelos lineares com

interação entre dois fatores e aplica como base para seus procedimentos a análise

de componentes principais.

7.2. Componentes principais populacionais

Algebricamente os componentes principais representam

combinações lineares de p variáveis aleatórias X1, X2, …, Xp. Geometricamente,

essas combinações lineares representam a seleção de novos eixos coordenados,

os quais são obtidos por rotações do sistema de eixos original, representados por

X1, X2, …, Xp. Os novos eixos representam as direções de máxima variabilidade.

Como pode ser demonstrado, os componentes principais dependem

somente da matriz de covariância Σ (ou da matriz de correlação ρ) e de

X1, X2, …, Xp. Seu desenvolvimento não requer pressuposições de normalidade

multivariada, mas possuem interpretações úteis em termos da constante elipsóide

de densidade, se a normalidade existir. A princípio, serão definidos os conceitos

de componentes principais populacionais. Posteriormente, naturalmente esses

conceitos serão estendidos para a situação amostral.

Seja o vetor aleatório t1 2 pX X X X⎡ ⎤= ⎣ ⎦ amostrado de uma

população com covariância Σ, cujos autovalores são λ1≥λ2≥…≥λp≥0, então, os

componentes principais (Y1, Y2,…,Yp) são as combinações lineares dadas por

t1 11 11 1 12 2 1p p

t2 2 21 1 22 2 2p p

tp p p1 1 p2 2 pp p

Y e X e X e X ... e X

= = + + +

É fácil verificar que:

( ) ( )t t ti i i i i iVar(Y ) Var e X e Var X e e e= = = Σ (7.2)

( )t t ti k i k i kCov(Y ,Y ) Cov e X,e X e e= = Σ (7.3)

Dessa forma, pode-se definir o i-ésimo componente principal (Yi) por

(7.4), assumindo que o vetor X possui covariância Σ, com pares de autovalores e

autovetores ( )i i,e , i 1, 2, ..., pλ = , em que λ1≥λ2≥…≥λp≥0.

ti i i1 1 i2 2 ip pY e X e X e X ... e X i 1,2,...,p= = + + + = (7.4)

No capítulo 2, verificou-se que a maximização de uma forma

quadrática resultava na solução dada pelo conjunto de todos os pares de

autovalores e autovetores da matriz núcleo. Os autovetores da solução eram

restritos ao comprimento unitário. Seja a forma quadrática dada por t

e ee eΣ

λ = , então

o seu máximo é obtido pela resolução da equação (7.5).

( )i iI e 0Σ − λ = (7.5)

É fácil perceber que dessa equação surge a seguinte e óbvia

relação, obtida no ponto máximo, dada por: i i ie eΣ = λ . Portanto, a variância e a

covariância de Yi, especificadas em (7.2) e em (7.3) são dadas por:

t t ti i i i i i i i i iVar(Y ) e e e e e e= Σ = λ = λ = λ (7.6)

t t ti k i k i k k k i kCov(Y ,Y ) e e e e e e 0 i k= Σ = λ = λ = ≠ (7.7)

Utilizando algumas propriedades matriciais estudadas no capítulo 2,

pode-se demonstrar que:

i ii 1 i 1

11 22 pp 1 2 p

Var(X ) Var(Y )

... ...

σ + σ + + σ = λ + λ + + λ

∑ ∑

A variação total existente nas variáveis Xi, i=1, 2,...,p é igual à

variação existente nos p componentes principais. Para demonstrar isso, seja Σ a

matriz de covariância entre as p variáveis X, cujos pares de autovalores e

autovetores são dados por (λi, ie ). O componente principal Yi é definido por

ti iY e X= , o qual possui variância igual a λi.

Da decomposição espectral de Σ=PΛP’ e sabendo que PPt=PtP=I

verifica-se que:

( )ttr( ) tr P PΣ = Λ

Uma propriedade do traço de uma matriz é: tr(AB)=tr(BA). Fazendo

A=P e B=ΛPt, então,

( ) ( ) ( )p p

t tii i

i 1 i 1tr( ) tr P P tr P P tr

= =Σ = σ = Λ = Λ = Λ = λ∑ ∑

E, portanto, a porcentagem da variação total explicada pelo k-ésimo

componente principal é dada por (7.8).

%VarExp(Y ) 100

λ= ×

λ∑ (7.8)

Em muitas situações em que se aplicam os componentes principais

se uma porcentagem de 70% ou mais for atribuída aos primeiros r componentes

principais, então, esses podem substituir as p variáveis originais sem perda de

uma quantidade demasiada de informações. A determinação dessa porcentagem

da variação explicada pelos primeiros r componentes deve ser feita pelo

pesquisador interessado e que possui maior conhecimento da área estudada. A

determinação do número r de componentes para que uma determinada

porcentagem fixada da informação seja contemplada por eles é um dos problemas

que dificulta o emprego dessa metodologia.

Os componentes do autovetor ti i1 i2 ipe e e e⎡ ⎤= ⎣ ⎦ podem informar

sobre a importância das variáveis para o i-ésimo componente principal, por meio

de suas magnitudes. No entanto, esses componentes são influenciados pela

escala das variáveis. Para contornar tal problema, os pesquisadores podem

utilizar uma importante medida de associação, a qual não depende da magnitude

das mensurações (escala) das variáveis originais, que é o coeficiente de

correlação entre Yi e Xk. Esse coeficiente de correlação está apresentado em (7.9)

ik iY ,X

e, i,k 1,2,...,p

λρ = =

σ (7.9)

Demonstração: Para demonstrar (7.9), primeiro é apresentada a definição do

coeficiente de correlação. Posteriormente, foi avaliado cada termo dessa

expressão individualmente.

( )( ) ( )i k

i kY ,X

Cov Y ,X

Var Y Var Xρ =

( ) ( ) ( )t t ti k i k iCov Y ,X Cov e X,X Cov e X, X= =

com, [ ]t 0 ...1... 0= , vetor composto de valores 0 e com 1 na k-ésima posição.

( ) ( )t t t ti k i i iCov Y ,X Cov e X, X e e= = Σ = Σ

Como i i ie eΣ = λ , então,

( ) t t ti k i i i i i i ikCov Y ,X e e e e= Σ = λ = λ = λ

Da mesma forma as variâncias de Yi e Xk são:

( ) ( )t t ti i i i i i i iVar Y Var e X e e e e= = Σ = λ = λ

k kkVar(X ) = σ

Assim, a prova fica completa, conforme descrito a seguir:

( )( ) ( )i k

i k i iki ikY ,X

i kk kki k

Cov Y ,X eeVar Y Var X

λλρ = = =

λ σ σ

Exemplo 7.1

Sejam as variáveis aleatórias X1, X2 e X3 com covariância dada por:

4 1 01 4 00 0 2

⎡ ⎤⎢ ⎥Σ = ⎢ ⎥⎢ ⎥⎣ ⎦

Obter os componentes principais, a correlação das variáveis originais com os

componentes e verificar a veracidade da afirmativa a seguir de forma numérica:

i ii 1 i 1

11 22 pp 1 2 p

Var(X ) Var(Y )

... ...

σ + σ + + σ = λ + λ + + λ

∑ ∑

Aplicando-se o power method, determinaram-se os pares de

autovalores e autovetores de Σ, os quais são:

[ ]t1 15 e 0,7071 0,7071 0λ = = , [ ]t

2 23 e 0,7071 0,7071 0λ = = − e [ ]t3 32 e 0 0 1λ = =

Os componentes principais são:

t1 1 1 2Y e X 0,7071X 0,7071X= = +

t2 2 1 2Y e X 0,7071X 0,7071X= = −

t3 3 3Y e X X= =

A variável X3 é individualmente um de os componentes principais por

não ser correlacionada com nenhuma das outras duas variáveis. As variâncias de

os componentes principais são:

1 1Var(Y ) 5= λ = , 2 2Var(Y ) 3= λ = e 3 3Var(Y ) 2= λ =

Pode-se mostrar, a título de ilustração, que:

1 1 2 1 2 1 22 2 2 2 2 2Var(Y ) Var X X Var X Var X 2Cov X , X

2 2 2 2 2 2⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞

= + = + +⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠

( ) ( ) ( )1 2 1 21 1 2 2Var X Var X 2 Cov X ,X2 2 2 2

= + + = 11 14 4 1 52 2

+ + = = λ

Verifica-se, também, que:

11 22 33 1 2 3σ + σ + σ = λ + λ + λ

4+4+2=5+3+2

10=10 c.q.m.

A porcentagem da variação explicada por cada componente é

apresentada na tabela seguinte.

Componente Var(Yi)=λi % da variação explicada % variação acumulada Y1 5 50 50 Y2 3 30 80 Y3 2 20 100

Os coeficientes de correlação entre os componentes e as variáveis

originais são:

Componente X1 X2 X3 Y1 0,7906 0,7906 0,0000 Y2 0,6124 -0,6124 0,0000 Y3 0,0000 0,0000 1,0000

Para ilustrar um dos cálculos usando a expressão (7.9), apresenta-se

a seguir a correlação entre Y1 e X1.

11 1Y ,X

2 5e 2 0,79064

×λρ = = =

Para o componente principal mais importante (Y1), concluiu-se que

X1 e X2 são igualmente importantes.

Os componentes principais podem ser obtidos pela padronização das

variáveis originais por:

XZ −µ=

σ (7.10)

Em notação matricial tem-se:

( )1/ 2Z V X−= −µ (7.11)

em V-1/2 é uma matriz diagonal com os elementos da diagonal dados ii1 σ . É

fácil verificar que:

( )E Z 0= e ( ) 1/ 2 1/ 2Cov Z V V− −= Σ = ρ

Então, os componentes principais de Z são dados pelos autovalores

e autovetores de ρ, matriz de correlação de X . Os autovalores e autovetores de Σ

são, em geral, diferentes daqueles derivados de ρ.

Sejam as variáveis padronizadas Z1, Z2, ...., Zp disposta no vetor Z

com ( )Cov Z = ρ , então, os componentes principais são dados por:

( )t t 1/ 2i i iY e Z e V X−= = −µ , i=1, 2, ..., p (7.12)

Da mesma forma, verifica-se que:

i ii 1 i 1p

Var(Y ) Var(Z ) p

∑ ∑

∑ (7.13)

Também se verifica que:

i kY ,Z ik ieρ = λ (7.14)

Sendo que em todos esses casos (λi, ie ) são os autovalores e

autovetores de ρ, com λ1≥λ2≥...≥λp. As demonstrações de (7.12), (7.13) e (7.14)

podem ser realizadas da mesma forma que as demonstrações anteriores,

substituindo Σ por ρ.

Para algumas matrizes de covariância, com estruturas especiais,

existem simples formas de se expressar os componentes principais. Serão

tratados alguns desses casos, conforme apresentado em Johnson e Wichern,

(1998) e em Morrison (1976). Para uma matriz Σ diagonal,

0 00 0

σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ =⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦

(7.15)

Os autovalores e autovetores são dados por:

λi=σii e [ ]tie 0 0 1 0 0= com 1 na i-ésima posição e 0 nas demais.

A demonstração disso pode ser facilmente realizada, uma vez que

das equações de maximização de formas quadráticas verifica-se que : i i ie eΣ = λ .

Assumindo-se as definições anteriores para os autovalores e autovetores verifica-

se que:

i ii i

e ee e

0 00 0

0 01 10 0

Σ = λ= Σ = σ

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥σ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥σ ⎢ ⎥ ⎢ ⎥⎢ ⎥= = σ⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥σ ⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Dessa forma, pode-se concluir que (σii, ie ), com ie definido

anteriormente, são os pares de autovalores e autovetores de Σ. Desde que os

componentes principais são dados pelas combinações lineares tie X =Xi, então, os

componentes principais são as próprias variáveis originais não correlacionadas,

cujos autovalores são as próprias variâncias originais das respectivas variáveis

aleatórias. Do ponto de vista de extração de componentes principais nada pode

ser ganho, uma vez que os eixos originais já estão no sentido de maior

variabilidade. Dessa forma não há necessidade para fazer rotação dos eixos

originais. A estandardização não altera a situação, uma vez que ρ=I, e o par

autovalor e componente principal é dado por (1, Zi), em que Zi é a i-ésima variável

padronizada.

Outro tipo de matriz de covariância com determinado padrão é

apresentado a seguir, o qual descreve muitas vezes o comportamento de

entidades biológicas, desempenha um papel importante na teoria dos

componentes principais.

⎡ ⎤σ ρσ ρσ⎢ ⎥ρσ σ ρσ⎢ ⎥Σ =⎢ ⎥⎢ ⎥ρσ ρσ σ⎢ ⎥⎣ ⎦

(7.16)

A matriz de correlação correspondente é dada por:

ρ ρ⎡ ⎤⎢ ⎥ρ ρ⎢ ⎥ρ =⎢ ⎥⎢ ⎥ρ ρ⎣ ⎦

(7.17)

que implica em uma estrutura de igualdade de correlação entre as p variáveis

estudadas.

Morrison (1976) demonstra que os componentes principais de (7.16)

são dados por dois grupos. O primeiro grupo com o primeiro componente e o

segundo com os demais componentes principais. O primeiro componente principal

de (7.16) é definido pelo par autovalor e autovetor apresentado a seguir.

[ ]21 1 (p 1)λ = σ + − ρ (7.18)

1 1 1e , ,...,p p p

⎡ ⎤= ⎢ ⎥⎢ ⎥⎣ ⎦

(7.19)

Para a matriz de correlação definida em (7.17), pode-se demonstrar

que 7.18 e 7.19 permanecem válidos, sendo necessário apenas fazer σ2=1. A

proporção da explicação do primeiro componente principal é dada por

[ ]100 1 (p 1) / p+ − ρ (%) do total do conjunto de variáveis. Se ρ é próximo a 1 o

primeiro componente principal terá uma elevada explicação da variação total.

Os demais (p-1) componentes principais possuem valores

característicos iguais, dados por:

( )2i 1 ; i 2, 3, , pλ = σ −ρ = (7.20)

e seus respectivos autovetores são iguais a:

1 1e , ,0,...,01 2 1 21 1 2e , , ,0,...,0

2 3 2 3 2 3

1 1 (i 1)e ,..., , ,0,...,0(i 1) i (i 1) i (i 1) i

1 1 (p 1)e ,..., ,(p 1) p (p 1) p (p 1) p

⎧ −⎡ ⎤=⎪ ⎢ ⎥× ×⎣ ⎦⎪⎪ −⎡ ⎤=⎪ ⎢ ⎥× × ×⎣ ⎦⎪⎪⎪⎨ ⎡ ⎤− −⎪ = ⎢ ⎥⎪ − × − × − ×⎢ ⎥⎣ ⎦⎪⎪⎪ ⎡ ⎤− −⎪ = ⎢ ⎥⎪ − × − × − ×⎢ ⎥⎣ ⎦⎩

(7.21)

Finalmente é tratada a situação em que o vetor X é uma variável

aleatória da distribuição normal multivariada, ou seja, ( )pX N ,µ Σ∼ . Nesse caso os

componentes principais têm uma atrativa interpretação. Foi demonstrado no

capítulo 4 que a densidade de X é constante na elipsóide centrada em µ ,

( ) ( )t 1 2 2pX X c ( )−−µ Σ −µ = = χ α

cujos eixos são dados por 2p i i( ) e , i 1, 2, ..., p± χ α λ = , em que (λi, ie ) são os pares

de autovalor-autovetor de Σ. É possível verificar, fazendo 0µ = por conveniência

de algumas demonstrações que se seguem, que:

( ) ( ) ( )2 2 22 t 1 t t tp 1 2 p

1 1 1( ) X X e X e X ... e X−χ α = Σ = + + +λ λ λ

em que tie X, i 1, 2, ..., p= são os componentes principais de X . Fazendo

ti iY e X, i 1, 2, ..., p= = tem-se

2 t 1 2 2 2p 1 2 p

1 1 1( ) X X Y Y ... Y−χ α = Σ = + + +λ λ λ

Essa última equação define uma elipsóide com os eixos coordenados

Y1, Y2, ..., Yp dispostos nas direções de 1 2 pe , e , ..., e , respectivamente. Como λ1 é o

maior autovalor, o maior eixo tem a direção definida por 1e , os eixos

remanescentes têm a direção definida por 2 pe , ..., e .

Foi assumido que 0µ = . No entanto, é pouco provável que isso

aconteça em uma situação real. Todavia, as interpretações definidas

anteriormente são válidas da mesma forma, apenas sendo necessário definir o

i-ésimo componente principal centrado na média, por:

( )ti iY e X , i 1, 2, ..., p= −µ = (7.22)

o qual tem média zero e direção definida por ie . Na Figura 7.1 ilustram-se os

componentes principais bivariados com densidade fixa de 95%. A rotação dos

eixos X1 e X2 nos novos eixos Y1 e Y2 são a essência dos componentes principais.

Figura 7.1. A elipse de 95% de densidade constante e os componentes principais

Y1 e Y2 para a distribuição normal bivariada com média 0µ = .

7.3. Componentes principais amostrais

Seja 1 2 nX , X , , X uma amostra aleatória retirada de uma população

p-variada qualquer com média µ e covariância Σ. O vetor de médias amostrais é

X , a matriz de covariância amostral é S e a matriz de correlação amostral é R. O

objetivo dessa seção é apresentar os conceitos de componentes principais para a

estrutura de covariância amostral.

As combinações lineares das variáveis mensuradas que maximizam

a variação total da amostra e que são mutuamente ortogonais são chamadas de

componentes principais amostrais. Seja a forma quadrática

t tˆ ˆ ˆQ Var(Y) Var(e X) e Se= = =

O máximo de Q não existe, pois quanto maior for o comprimento de

e maior será o valor de Q. É conveniente tomar-se o máximo de Q restrito ao

comprimento unitário de e . Dessa forma, o máximo tem que ser obtido da forma

quadrática restrita seguinte.

e See e

O máximo é obtido tomando-se a derivada em relação a e e

igualando-se a derivada a zero. O sistema obtido é resolvido em relação a e e as

soluções obtidas referem-se ao máximo.

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ2Se(e e) 2(e Se)e 2 e Se ˆS e 0ˆ ˆ ˆ ˆ ˆ ˆe (e e) e 'e e e

ˆ ˆe Se ˆS e 0ˆ ˆe e

⎛ ⎞∂λ −= = − Ι =⎜ ⎟∂ ⎝ ⎠

⎛ ⎞− Ι =⎜ ⎟

⎝ ⎠

A equação resultante é dada por:

( )ˆ ˆS e 0−λΙ = (7.23)

A solução de (7.23) conduz aos pares de autovalores e autovetores

( )i iˆ ˆ; eλ de S, que correspondem a variância amostral e combinação linear que

definem os componentes principais amostrais, para i=1, 2, ..., p.

Portanto, o i-ésimo componente principal amostral é:

ti i i1 1 i2 2 ip p

ˆ ˆ ˆ ˆ ˆY e X e X e X ... e X , i 1, 2, ..., p= = + + + = (7.24)

em que 1 2 pˆ ˆ ˆ... 0λ ≥ λ ≥ ≥ λ ≥ são os autovalores amostrais de S correspondentes.

O estimador da variância amostral dos componentes principais é:

( )k kˆˆ ˆVar Y , k 1, 2,..., p= λ = (7.25)

e a covariância entre dois componentes principais (i e k) é:

( )i kˆ ˆˆCov Y , Y 0, i k 1, 2,..., p= ≠ = (7.26)

Pela mesma razão apresentada para os componentes principais

populacionais, verifica-se que a variação total explicada pelos componentes

principais amostrais é igual a p p

i iii 1 i 1

ˆ S= =λ =∑ ∑ . A partir da decomposição espectral de

S, dada por tˆ ˆ ˆS P P= Λ e da propriedade que tr(AB)=Tr(BA) demonstra-se que:

( ) ( ) ( )p n

t tii i

i 1 i 1

ˆˆ ˆ ˆ ˆ ˆ ˆ ˆtr(S) S tr P P tr P P tr= =

= = Λ = Λ = Λ = λ∑ ∑

Dessa forma, a explicação do k-ésimo componente principal amostral

da variação total do sistema é:

ˆˆ%VarExp(Y ) 100ˆ

λ= ×

λ∑ (7.27)

A correlação amostral entre iY e Xk é definida por:

ik iY ,X

ˆer , i,k 1,2,...,p

= = (7.28)

Os componentes principais podem ser definidos por componentes

principais amostrais centrados na média amostral X , da seguinte forma:

( ) ( ) ( ) ( )ti i i1 1 1 i2 2 2 ip p p

ˆ ˆ ˆ ˆ ˆY e X X e X X e X X ... e X X , i 1, 2, ..., p= − = − + − + + − = (7.29)

Se o vetor X for substituído em (7.29) por jX (vetor de observações

amostrais), pode-se obter os escores dos componentes principais. Esses escores

são plotados, muitas vezes, com o intuito de agrupar objetos ou itens, simplificar a

representação para uma ou duas dimensões, entre outras aplicações.

Os componentes principais, em geral, não são invariantes com

relação a transformações nas escalas. A mudança de escala mais usual é aquela

que transforma as escalas das variáveis para uma outra escala sem dimensão,

cuja média é igual a zero e a variância é igual a 1. A padronização é obtida por:

( )1/ 2j jZ D X X , j 1,2,..., n−= − = (7.30)

em que D-1/2= ( )11 22 ppDiag 1/ S ,1/ S ,...,1/ S . O estimador de a covariância de Z é

dado por:

1/ 2 1/ 2 1/ 2 1/ 2ˆ ˆCov(Z) D Cov(X)D D SD R− − − −= = = (7.31)

Os componentes principais obtidos de R são definidos pelos pares

de autovalores e autovetores de R ( )i iˆ ˆ; eλ . Assim, o i-ésimo componente principal

amostral obtido da matriz de correlação amostral é dado por:

ti i i1 1 i2 2 ip p

ˆ ˆ ˆ ˆ ˆY e Z e Z e Z ... e Z , i 1, 2, ..., p= = + + + = (7.32)

A variação total explicada pelo k-ésimo componente principal é dada

ˆˆ%VarExp(Y ) 100pλ

= × (7.33)

A correlação amostral entre iY e Zk é definida por:

ˆ ik iY ,Zˆˆr e , i,k 1,2,...,p= λ = (7.34)

Pequenos valores para os últimos autovalores, tanto de S como de

R, indicam, em geral, a presença de dependência linear no conjunto de dados.

Neste contexto pelo menos uma variável é redundante e pode ser eliminada do

conjunto de variáveis originais.

Existe sempre a questão importante de o número de componentes a

ser retido. Não existe uma resposta definitiva para essa questão. Os aspectos que

devem ser considerados incluem a quantidade da variação amostral explicada, o

tamanho relativo dos autovalores e a interpretação subjetiva dos componentes.

Uma ferramenta visual importante para auxiliar a determinação de o número

suficiente de componentes a ser retido é o “scree plot”. O termo “scree” refere-se

ao acumulo de rochas nas bases de um penhasco, portanto os “scree plots” serão

considerados “gráficos de cotovelos”. Na Figura 7.2 observa-se que um cotovelo é

formado aproximadamente na posição i=4. Isso significa que os componentes

acima de 3λ possuem aproximadamente a mesma magnitude e são relativamente

pequenos. Isso indica que os três primeiros, talvez os quatros primeiros

componentes são suficientes para resumir a variação amostral total.

1 2 3 4 5 6

componente principal

Figura 7.2. “Scree plot” de um exemplo com p=6 componentes principais para

ilustrar o processo de determinação de o número apropriado de

componentes a ser retido.

7.4. Gráficos dos componentes principais

Os gráficos provenientes dos componentes principais podem ser

reveladores de diversos aspectos presentes nos dados de interesse do

pesquisador. Em muitas áreas os pesquisadores utilizam os primeiros e mais

importantes componentes para agrupar objetos e itens de acordo com a

representação em duas ou no máximo três dimensões retidas. Os gráficos dos

componentes principais podem revelar observações suspeitas, como também

permitir uma avaliação da suposição de normalidade. Por se tratarem de

combinações lineares de p variáveis, supostamente normais, é possível assumir a

normalidade para os componentes principais. O teste de normalidade pode ser

feito em apenas alguns poucos componentes, o que pode simplificar a

complexidades das análises necessárias e reduzir o número de testes a ser

realizado.

Os valores amostrais dos componentes principais obtidos a partir de

os dados amostrais originais são chamados de escores. A equação (7.35)

refere-se a definição do escore do k-ésimo componente principal, para a j-ésima

observação amostral.

tjk k j k1 j1 k2 j2 kp jp

ˆ ˆ ˆ ˆ ˆY e X e X e X ... e X , k 1, 2, ..., p; j 1, 2,..., n= = + + + = = (7.35)

De uma forma geral, os escores dos p componentes principais,

representados pelo vetor tj j1 j2 jp

ˆ ˆ ˆ ˆY Y Y ... Y⎡ ⎤= ⎣ ⎦ para a j-ésima observação amostral

tj j1 j2 jpX X X ... X⎡ ⎤= ⎣ ⎦ , são dados por:

eˆ ˆY P X X

⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(7.36)

Para o agrupamento de objetos e também para avaliar desvios de

normalidade obtêm-se gráficos dos primeiros componentes retidos em um

diagrama contendo pares de componentes. Também, é possível obter os

Q-Q plots para cada componente, conforme descrição realizada no capítulo 4.

Desvios de normalidade podem ser verificados e o teste da correlação Q-Q plot

pode ser realizado.

Para a verificação de observações suspeitas os gráficos dos últimos

componentes principais tomados dois a dois são utilizados. Esse tipo de gráfico

pode ajudar a identificar observações suspeitas. Também, com esse intuito os Q-

Q plots desses componentes, de menor importância para a variação total, são

utilizados.

Da equação (7.36) e relembrando que P é uma matriz ortogonal,

pois t tˆ ˆ ˆ ˆPP P P= = Ι , portanto ( ) 1tˆ ˆP P−= , pode-se demonstrar que:

j j 1 2 p j

j j1 1 j2 2 jp p

ˆ ˆ ˆˆ ˆ ˆX PY e e e Y

ˆ ˆ ˆˆ ˆ ˆX Y e Y e Y e

⎡ ⎤= = ⎣ ⎦

= + + +

(7.37)

Essa é uma importante equação que mostra que a observação

amostral multivariada jX pode ser recuperada dos escores dos componentes

principais correspondentes. Constitui-se, portanto, em uma proeminente forma de

identificar com elevada precisão as observações suspeitas. Para isso um número

q de componentes principais q≤p é retido para ajustar as n observações amostrais

multivariadas. Dessa forma, uma medida da qualidade desse ajuste é obtida

avaliando quanto j1 1 j2 2 jq qˆ ˆ ˆˆ ˆ ˆY e Y e Y e+ + + difere de jX , tendo como desvio o valor

dado por jq 1 q 1 jq 2 q 2 jp pˆ ˆ ˆˆ ˆ ˆY e Y e Y e+ + + ++ + + . Essa medida é feita tomando-se o

quadrado desse desvio, o qual refere-se ao seu comprimento quadrático, ou seja,

por 2 2 2j q 1 j q 2 j p

ˆ ˆ ˆY Y Y+ ++ + + . As observações consideradas suspeitas são aquelas que

possuem pelo menos uma das coordenadas de j q 1 j q 2 j pˆ ˆ ˆY , Y , , Y+ + que contribui

para o comprimento quadrático total com grande valor.

7.5. Inferências para grandes amostras

Foram apresentados os conceitos fundamentais dos componentes

principais. A essência dos componentes principais está na obtenção dos

autovalores e autovetores da matriz de covariância (correlação). Os autovetores

determinam a rotação a ser realizada nos eixos coordenados originais nos

sentidos de maior variabilidade e os autovalores determinam as variâncias desses

novos eixos coordenados. As decisões com relação aos componentes principais

devem ser tomadas com base nos pares de autovalores-autovetores, ( )i iˆ ˆ; eλ ,

estimados na amostra. Esses autovalores e autovetores são diferentes dos

respectivos valores populacionais devido às variações amostrais. Derivações à

respeito das distribuições amostrais de iλ e de ie são apresentadas em Anderson

(1963). Os resultados relativos aos resultados de grandes amostras são

apresentados a seguir, de uma forma resumida.

Suponha que 1 2 nX , X , , X seja uma amostra aleatória retirada de

uma população p-variada qualquer com média µ e covariância Σ. O vetor de

médias amostrais é X , a matriz de covariância amostral é S e a matriz de

correlação amostral é R. Suponha que Σ possui autovalores (desconhecidos)

distintos e positivos, quais sejam, 1 2 p 0λ > λ > > λ > com correspondentes

autovetores (desconhecidos) 1 2 pe , e , , e . O estimador amostral de Σ é S, sendo

que os estimadores de λi e ie são 1 2 pˆ ˆ ˆ 0λ > λ > > λ > e 1 2 pˆ ˆ ˆe , e , , e .

Girshik (1939), Lawley (1956) e Anderson (1963) demonstraram que

os resultados doravante apresentados se verificam para grandes amostras. Dessa

forma, os resultados proporcionados referem-se a teoria de distribuições de

grandes amostras para os autovalores t1 2 p

ˆ ˆ ˆ ˆ⎡ ⎤λ = λ λ λ⎣ ⎦ e para os autovetores

1 2 pˆ ˆ ˆe , e , , e de S. Fazendo Λ uma matriz diagonal dos autovalores 1 2 p, , ,λ λ λ de

Σ, então,

1. ( )ˆn λ −λ tem distribuição aproximadamente ( )2pN 0, 2Λ .

2. Seja

i i k k2k 1 k ik i

E e e=≠

⎡ ⎤λ= λ ⎢ ⎥

λ −λ⎢ ⎥⎣ ⎦∑ (7.38)

então, ( ) ( )i i p 1 iˆn e e N 0, E−− ∼ .

3. Cada iλ tem distribuição independente dos elementos do vetor característico

associado ie .

4. A covariância do r-ésimo elemento de ie e o s-ésimo elemento de je (i≠j) é:

( )( )

i j is jrir js 2

e eˆ ˆCov e ,e (i j)

λ λ= ≠

λ −λ (7.39)

Os resultados 1 a 4 são referentes às propriedades distribucionais de

grandes amostras e válidas para o caso de p distintas raízes características.

Entretanto, Anderson (1963) aponta que o resultado 2 requer somente que λi seja

distinto dos demais p-1 valores característicos, os quais podem ter qualquer

multiplicidade. Esses resultados podem ser utilizados para construir testes de

hipóteses e intervalos de confiança para os autovalores e autovetores

populacionais.

O resultado 1 implica, em grande amostras, que os iλ ’s são

independentemente distribuídos com distribuição aproximadamente ( )2i iN , 2 / nλ λ .

As inferências podem ser derivadas desse resultado. O intervalo de confiança

para λi pode ser obtido a partir da afirmativa probabilística:

( )i i

ˆP Z / 2 1

⎡ ⎤⎢ ⎥λ −λ⎢ ⎥≤ α = −α⎢ ⎥λ⎢ ⎥⎣ ⎦

(7.40)

O intervalo de confiança resultante é dado por:

( ) ( )

i iˆ ˆ

IC (1 ) : ;2 21 Z / 2 1 Z / 2n n

⎡ ⎤⎢ ⎥λ λ⎢ ⎥−α⎢ ⎥+ α − α⎢ ⎥⎣ ⎦

(7.41)

Obviamente os valores de α e de n devem ser apropriados para que

o limite superior de (7.41) seja válido. Caso o limite superior não seja válido e n for

suficientemente grande, é possível obter o intervalo alternativo substituindo a

variância paramétrica de iλ pelo seu estimador. Assim,

( ) ( )i i i i i

2 2ˆ ˆ ˆ ˆIC (1 ) : Z / 2 ; Z / 2n nλ

⎡ ⎤−α λ − α λ λ + α λ⎢ ⎥

⎣ ⎦ (7.42)

Testes de hipóteses de o tipo o i 0H :λ = λ podem ser realizados

calculando-se o escore normal padrão:

λ −λ=λ

(7.43)

Uma inferência importante e mais geral sobre a estrutura de

dependência é apresentada por Anderson (1963). O teste de hipótese de que os r

autovalores intermediários de Σ sejam iguais é apresentado. A hipótese de

interesse é:

0 q 1 q 2 q rH : + + +λ = λ = = λ (7.44)

Aos q maiores e aos (p-q-r) menores autovalores não são impostas

restrições quanto aos seus valores ou multiplicidades. A hipótese alternativa é

especificada da seguinte forma: H1: pelo menos um dos r autovalores difere dos

demais intermediários. O teste de razão de verossimilhança conduz a estatística

( )q r

jq rj q 12

c jj q 1

ˆˆ(n 1) ln (n 1)r ln

⎛ ⎞λ⎜ ⎟⎜ ⎟χ = − − λ + −⎜ ⎟⎜ ⎟⎝ ⎠

∑∑ (7.45)

que tem distribuição aproximadamente de qui-quadrado sob H0 com ν=r(r+1)/2 - 1

graus de liberdade para grandes amostras.

Um caso especial importante deste teste de hipótese ocorre quando

q+r=p ou quando a variação das últimas r dimensões é esférica.

Outro importante teste refere-se aos autovetores. A hipótese de que

o i-ésimo autovetor populacional de Σ é igual a um vetor de constantes com norma

1 é apresentada a seguir.

0 i 0H : e e= (7.46)

O teste da hipótese nula (7.46) é realizado com base no resultado 2

dessa seção e na matriz de covariância Ei definida em (7.38) devidamente

substituída pelo seu estimador iE , o qual é obtido pela substituição de iλ e ie

pelos seus estimadores iλ e ie . Assim, Anderson (1963) demonstra que o teste

estatístico dado por:

( ) ( )t2 t 1 t gc i 0 0 0 0 i 0 i i 0

1ˆ ˆˆ ˆn e S e e Se 2 n e e E e eˆ−⎛ ⎞

χ = λ + − = − −⎜ ⎟λ⎝ ⎠

(7.47)

tem distribuição assintótica de qui-quadrado com p-1 graus de liberdade se H0 for

verdadeira. Em que giE é uma inversa generalizada de iE .

Demonstração: A matriz Ei do resultado 2 pode ser rescrita na forma matricial

como se segue. Para isso, serão definidas as seguintes matrizes:

λ⎡ ⎤⎢ ⎥λ − λ⎢ ⎥⎢ ⎥λ⎢ ⎥

λ − λ⎢ ⎥Λ =⎢ ⎥⎢ ⎥⎢ ⎥λ⎢ ⎥⎢ ⎥λ − λ⎣ ⎦

uma matriz (p-1)x(p-1) originária da

eliminação da i-ésima linha e i-ésima coluna de uma matriz ( )

Diag⎛ ⎞λ⎜ ⎟⎜ ⎟λ −λ⎝ ⎠

, pxp.

i 1 2 pP e e e p (p 1),⎡ ⎤= × −⎣ ⎦ sendo je os autovetores de Σ, com j≠i e dimensão

px(p-1).

Assim, pode-se definir Ei por:

jt ti i i i i i j j2

j 1 i jj i

E P P e e=≠

⎡ ⎤λ⎢ ⎥= λ Λ = λ⎢ ⎥λ −λ⎣ ⎦

e sua inversa generalizada, devido a Ei ter posto (dimensão) p-1, por:

i jg 1 t ti i i i j j

j 1i i jj i

1 1E P P e e−

⎡ ⎤λ −λ⎢ ⎥= Λ =⎢ ⎥λ λ λ⎣ ⎦

No capítulo 4 foi visto que sob normalidade ou para grandes

amostras a forma quadrática

( ) ( )t g 2i 0 i i 0 p 1n e e E n e e −− − χ∼

Os graus de liberdade são iguais a (p-1) e não a p devido a Ei ter

posto incompleto (p-1). Devido aos autovetores de giE e o autovetor ie serem

ortogonais, a forma quadrática anterior pode ser simplificada por:

( ) ( ) ( )2pt i jg t g t t

i 0 i i 0 0 i 0 0 j j 0j 1i jj i

nn e e E e e ne E e e e e e=≠

⎡ ⎤λ −λ⎢ ⎥− − = =

λ ⎢ λ ⎥⎣ ⎦

( )2 2p p p pj i j it t t t t 2 t

0 j j 0 0 j j j i j j i j j 0j 1 j 1 j 1 j 1i j i jj i j i j i j i

2n n 1e e e e e e e 2 e e e e e= = = =≠ ≠ ≠ ≠

⎧ ⎫⎡ ⎤λ − λ λ + λ ⎡ ⎤⎪ ⎪⎡ ⎤ ⎡ ⎤⎢ ⎥= = λ − λ + λ ⎢ ⎥⎨ ⎬⎣ ⎦ ⎣ ⎦λ λ λ λ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦⎣ ⎦ ⎩ ⎭∑ ∑ ∑ ∑ =

Como p

tj j j

j 1e e

⎡ ⎤λ = Σ⎣ ⎦∑ , além disso, somando e subtraindo ti i ie eλ ao

termo da expressão p

tj j j

j 1j i

e e=≠

⎡ ⎤λ⎣ ⎦∑ , tem-se que:

pt t t t

j j j i i i i i i i i ij 1j i

e e e e e e e e=≠

⎡ ⎤λ + λ −λ = Σ −λ⎣ ⎦∑

Utilizando o mesmo raciocínio para p

1 tj j

1 e e−

⎡ ⎤Σ = ⎢ ⎥

λ⎢ ⎥⎣ ⎦∑ somando e

subtraindo ao termo p

j 1 jj i

1 e e=≠

⎡ ⎤⎢ ⎥λ⎢ ⎥⎣ ⎦

∑ a quantidade dada por ti i

1 e eλ

, tem-se:

pt t t 1 t

j j i i i i i ij 1 j i i ij i

1 1 1 1e e e e e e e e−

⎡ ⎤+ − = Σ −⎢ ⎥

λ λ λ λ⎢ ⎥⎣ ⎦∑

Finalmente, o termo p

j 1j i

e e=≠

⎡ ⎤⎣ ⎦∑ é equivalente a seguinte expressão,

lembrando que os autovetores têm norma 1 e são ortogonais e ainda aplicando-se

o mesmo tipo de artifício:

j j i ij 1j i

e e I e e=≠

⎡ ⎤ = −⎣ ⎦∑

Assim, retornando ao desenvolvimento anterior da aproximação de

qui-quadrado tem-se:

p p pt t t 2 t0 j j j i j j i j j 0

j 1 j 1 j 1i jj i j i j i

t t t 2 1 t0 i i i i i i i i i 0

t t t t0 0 0 i i 0 0

n 1e e e 2 e e e e e

n 1e e e 2 I e e e e e

e e e e e e e Ien

= = =≠ ≠ ≠

⎧ ⎫⎡ ⎤⎪ ⎪⎡ ⎤ ⎡ ⎤λ − λ + λ =⎢ ⎥⎨ ⎬⎣ ⎦ ⎣ ⎦λ λ⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭

⎡ ⎤⎡ ⎤= Σ − λ − λ − + λ Σ − =⎢ ⎥⎢ ⎥λ λ⎣ ⎦⎣ ⎦

Σ= − λ −

∑ ∑ ∑

t t t 1 t t2 20 0 i i 0 0 0 0 i i 0

i i i ii i i i i

e e e e e e e e e e2 2

−⎡ ⎤Σλ + λ + λ − λ =⎢ ⎥λ λ λ λ ×λ⎣ ⎦

tt t t t t t 1 t t0 00 i i 0 0 0 0 i i 0 i 0 0 0 i i 0

tt 10 0

i 0 0i

e en e e e e 2e e 2e e e e e e e e e e

e en e e 2

⎡ ⎤Σ= − − + + λ Σ − =⎢ ⎥λ⎣ ⎦

⎡ ⎤Σ= + λ Σ −⎢ ⎥λ⎣ ⎦

Substituindo nessa última expressão Σ pelo estimador S, a

distribuição ainda continua aproximadamente de qui-quadrado para grandes

amostras. Dessa forma, a prova fica completa.

Um outro importante teste de interesse é o da hipótese de mesma

estrutura de correlação, ou seja, i k ii kkCov(X , X )= σ σ ρ ou i kCorr(X , X )=ρ , para

todo i≠k. Nesse caso, os autovalores de Σ não são todos distintos e os resultados

anteriores não se aplicam. Embora as distribuições amostrais dos componentes

principais obtidos da matriz R sejam difíceis de derivar, esse caso especial conduz

a resultados tratáveis (Morrison, 1976).

Lawley (1963) propôs um teste para essa hipótese que é alternativo

e equivalente àquele baseado na razão de verossimilhança, para a estrutura de

eqüicorrelação da matriz de correlação populacional ρ (pxp). Para isso basta

aplicar o teste da hipótese de igualdade de todas as p(p-1)/2 correlações (ρij). A

hipótese de interesse é dada por:

0 0 0 0

H : vs H :

ρ ρ⎡ ⎤⎢ ⎥ρ ρ⎢ ⎥ρ = ρ = ρ ≠ ρ⎢ ⎥⎢ ⎥ρ ρ⎣ ⎦

(7.48)

Essa hipótese pode ser escrita na forma equivalente 0 ijH :ρ = ρ para

todos os subscritos i≠j. O procedimento de Lawley (1963) requer as seguintes

quantidades:

k iki 1i k

1r r ; k 1, 2, ..., pp 1 =

= =−∑ (7.49)

iki 1 k i 1

2r rp(p 1)

= = +=

−∑ ∑ (7.50)

(p 1) 1 (1 r )ˆ

p (p 2)(1 r )

⎡ ⎤− − −⎣ ⎦γ =− − −

(7.51)

Verifica-se facilmente que kr de (7.49) é a média dos elementos fora

da diagonal para as k colunas de R e r de (7.50) é a média de todos os

elementos fora da diagonal principal de R. Lawley (1963) mostrou que quando n

tende para infinito o teste estatístico:

( ) ( )p 1 p p 222

c ik k2i 1 k i 1 k 1

n 1 ˆr r r r(1 r )

= = + =

− ⎡ ⎤χ = − − γ −⎢ ⎥− ⎣ ⎦∑ ∑ ∑ (7.52)

tem distribuição de qui-quadrado com ν=(p+1)(p-2)/2 graus de liberdade.

Finalmente, o teste, denominado de teste de esfericidade, é

apresentado. A hipótese de interesse é dada por:

20 0H : IΣ = Σ = σ (7.53)

Para o teste dessa hipótese, suponha uma amostra aleatória da

distribuição normal p-variada com média µ e covariância Σ, dada por

1 2 nX , X , , X . A seguir é apresentado o teste de razão de verossimilhanças para

testar a hipótese de interesse. A função de verossimilhança sob a hipótese

0 :H Σ = Σ é dada por:

( ) ( ) ( ) ( ) ( )/ 2 / 2 1

1, exp22

n n tnp nj jj

X X XXL f − − −

⎧ ⎫µ Σ − µ − µ= = − Σπ Σ ⎨ ⎬

⎩ ⎭∑∏

A função suporte é determinada pelo logaritmo natural (neperiano) da

função de verossimilhança. O máximo de L deve ser obtido, no entanto, o máximo

da função suporte com relação a µ e Σ coincidem. A função suporte é dada por:

( ) ( ) ( ) ( ) ( )1

1, ln ln ln22 2 2

⎡ ⎤µ Σ − µ − µ= = − − − Σπ Σ⎢ ⎥⎣ ⎦∏ ∑n n t

j j jj j

np nXX X XfS

Para obter o máximo dessa função, é necessário derivar em relação

aos parâmetros µ e Σ . Igualar as derivadas a zero e achar a solução do sistema

de equações formado. Esses resultados estão apresentados na seqüência.

a) Derivada de ( ), XS µ Σ em relação a µ

( ) ( )1

XSX−

µ Σ∂− µ= Σ

∂µ ∑

Igualando a zero e resolvendo a equação formada obtém-se:

− µ =

µ = =

b) Derivada de ( ), XS µ Σ em relação a Σ

( )( ) 1 11

, 12 2

XS n n S− −−µ Σ∂

= − + Σ ΣΣ∂Σ

Igualando a zero e resolvendo a equação para Σ , substituindo-se o

valor de µ encontrado em (a), tem-se as seguintes passagens.

1 ˆ ˆˆ 02 2

1 ˆ ˆ ˆ2 2

− −−

− − −

µ Σ∂=

− + Σ Σ =Σ

Σ Σ = Σ

1 1 1ˆ ˆ ˆnS

− − −Σ Σ = Σ

Pré e pós multiplicando ambos os lados dessa última equação por Σ

obtém-se:

ˆ ˆ ˆ ˆ ˆ ˆ ˆ

1 1ˆ ( )( )

n j j jj j

S X X X X Wn n

− − −

ΣΣ Σ Σ = ΣΣ Σ

Σ = = − − =∑ ∑

Substituindo as soluções obtidas em L obtém-se o seu máximo da

seguinte forma:

( ) ( ) ( ) ( )

( ) ( )( )

/ 2/ 2 1

/ 2 1/ 2

1ˆˆ exp, 22

1exp22

n tnnpn j j n j j

n tnnpn j j j jn

L S X X S X X

S X X X XS tr

−− −

− −−

⎧ ⎫= − − −µ Σ π ⎨ ⎬

⎩ ⎭⎧ ⎫⎡ ⎤⎪ ⎪− −= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭⎧ ⎫⎡ ⎤⎪ ⎪− −= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭

( ) / 2/ 2 11exp22

−− −⎧ ⎫= − ⎡ ⎤π ⎨ ⎬⎣ ⎦⎩ ⎭nnp

n n nS tr S nS

( ) [ ]/ 2/ 2 exp22

−− ⎧ ⎫= −π Ι⎨ ⎬⎩ ⎭

( ) / 2/ 2 exp22

−− ⎧ ⎫= −π ⎨ ⎬⎩ ⎭

Sob 20 0H : IΣ = Σ = σ a verossimilhança e a função suporte são

dadas por:

( ) ( ) ( ) ( )

/ 2/ 2 10 0 0

/ 2/ 2 22

1, exp22

1exp22

n tnnpj j

n tnpnpj j

X X XL

−− −

−−

⎧ ⎫µ Σ − µ −µ= Σ − Σπ ⎨ ⎬

⎩ ⎭⎧ ⎫

− µ − µ= −π ⎨ ⎬σ σ⎩ ⎭

( ) ( ) ( ) ( ) ( )2 22

1, ln ln22 2 2

n tj j

np np X XXS=

− µ − µµ σ = − − −π σ σ ∑

Para obter o máximo dessa função, é necessário derivar em relação

aos parâmetros µ e 2σ . Em seguida deve se igualar às derivadas a zero e achar a

solução do sistema de equações formado.

c) Derivada de ( )2, XS µ σ em relação a µ

( ) ( )2

µ σ∂− µ=

∂µ σ ∑

Igualando a zero e resolvendo a equação formada obtém-se:

− µ =

µ = =

Essa solução é a mesma do caso anterior.

d) Derivada de ( )2, XS µ σ em relação a 0Σ

( )( )

22 2 2 1

, 1 ( ) ( )2 2

XS np X X=

µ σ∂= − + −µ − µ

∂σ σ σ∑

Igualando a zero e resolvendo a equação para 2σ , substituindo-se o

valor de µ encontrado em (a), tem-se os seguintes resultados.

22 2 1

2 22 1

1 ( ) ( ) 0ˆ2 2 ˆ

1 ( ) ( )ˆ22 ˆ

np X X X X

nptr X X X X

µ σ∂=

− + − − =σ σ

⎡ ⎤ = −− −⎣ ⎦ σσ

( )2 22 1

1 ( )( )ˆˆ

nptr X X X X=

⎧ ⎫⎡ ⎤ =− −⎨ ⎬⎣ ⎦ σσ ⎩ ⎭

Pré e pós multiplicando ambos os lados dessa última equação por

2σ , e simplificando algumas Expressões obtém-se:

( )( )

( ) ( )( )

2 22 22

1ˆ ˆˆˆ

nptr nS

np pn tr S tr S

σ = σσσ

Substituindo as soluções obtidas em ( )0, XL µ Σ obtém-se o seu

máximo da seguinte forma:

( ) ( ) ( )( ) ( ) ( )

( ) ( )( ) ( )

( ) ( )

/ 2/ 2

ˆˆ exp, 22

np n tnp nj j j j

npnp n

tr S pL X X X Xtr Sp

tr S p tr nStr Sp

tr S npp

⎧ ⎫⎡ ⎤ ⎪ ⎪= − − −µ Σ π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦ ⎩ ⎭

⎧ ⎫⎡ ⎤ ⎪ ⎪= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦ ⎩ ⎭

⎡ ⎤ ⎧ ⎫= −π ⎨ ⎬⎢ ⎥⎩ ⎭⎣ ⎦

Para testar a hipótese 20 0H : IΣ = Σ = σ obtém-se a razão do máximo

de as duas funções de verossimilhança. Então, baseando-se no resultado de que

o logaritmo natural multiplicado por -2 tem distribuição aproximada de

qui-quadrado, pode-se efetuar um teste para essa hipótese. Assim, seja:

( )( )

( ) ( )

/ 2/ 2

1 / 2/ 2/ 2

exp2ˆˆ , 2ˆˆ , exp2 2

npnp n

tr S npL Sp

npL tr SSp

−−

⎡ ⎤ ⎧ ⎫−π ⎨ ⎬⎢ ⎥µ Σ ⎩ ⎭⎣ ⎦Λ = = =⎧ ⎫µ Σ ⎡ ⎤−π ⎨ ⎬ ⎢ ⎥⎩ ⎭ ⎣ ⎦

Ou ainda, se for considerado que Sn for substituído por S, não há

alteração dos resultados obtidos, e se for considerado também que ˆiλ é o i-ésimo

autovalor de S, então Λ1 pode ser expresso por:

np / 2 np / 2p pp pin / 2 ii 1 i 1

1 np / 2 np / 2 pp

ii i 1i 1

ˆ ˆS

tr(S) / p ˆˆ / p/ p

⎛ ⎞ ⎛ ⎞λ⎜ ⎟ λ⎜ ⎟⎜ ⎟⎝ ⎠ ⎜ ⎟Λ = = =

⎜ ⎟⎛ ⎞ λλ ⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠

∏ ∏

∑∑ (7.54)

Um teste estatístico pode ser obtido, conforme mencionado

anteriormente por:

( ) ( )[ ] ( ){ }

( ) ( )

2ln 2 ln ln ln2 2

ˆˆ2 ln ln ln2 2

ïïi i

n nptr pS S

n npp ν

⎡ ⎤χ = − = − =Λ − + −⎢ ⎥⎣ ⎦⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪= − − + − χλλ⎨ ⎬⎢ ⎥⎜ ⎟

⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭∑ ∑ ∼

(7.55)

A distribuição aproximada de qui-quadrado possui ν graus de

liberdade, que referem-se a diferença entre o número de parâmetros do modelo

completo e o número de parâmetros do modelo sob a hipótese nula. Como são

estimadas p médias, p variâncias e p(p-1)/2 covariâncias no modelo completo e p

médias e σ2 no modelo sob a hipótese nula, os graus de liberdade são dados por:

( 1) ( 1) 2 ( 2)( 1)12 2 2

p p p p p pp p+ + − + −ν = + − − = =

Bartlett (1954) sugere uma correção no teste anterior para uma

melhor performance, sendo que para grandes amostras a estatística dada por:

(2p p 2)2 1 ln6pn

⎡ ⎤+ +χ = − − Λ⎢ ⎥

⎣ ⎦ (7.56)

tem distribuição aproximadamente de qui-quadrado com ν=(p+2)(p-1)/2 graus de

liberdade sob H0 dada em (7.53).

O teste (7.56) da hipótese nula (7.53) é denominado de teste de

esfericidade, porque os contornos da densidade são esferas quando 2IΣ = σ .

Um teste mais geral do que o teste (7.56) para a hipótese de que

todas as variáveis sejam independentes é dado pelo teste de razão de

verossimilhança. Seja a hipótese

220 ii 0

0 00 0

σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ = σ⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦

(7.57)

A seguinte estatística deve ser calculada inicialmente:

n / 22 n / 2p

Λ = =⎛ ⎞⎜ ⎟⎝ ⎠∏

(7.58)

Para grandes amostras, sob H0, o teste estatístico:

( )2c 2

(2p 11)2 1 ln6n+⎡ ⎤χ = − − Λ⎢ ⎥⎣ ⎦

(7.59)

tem distribuição aproximadamente de qui-quadrado com ν=p(p-1)/2 graus de

liberdade sob H0 dada em (7.57). Essa aproximação é devida a Bartlett (1954) em

substituição a aproximação usual -2ln(Λ2). O resultado (7.59) melhora a

aproximação qui-quadrado usual.

Lawley (1940) mostra que o teste (7.59) pode ser aproximado por:

2 2c ik

i 1 k i 1

(2p 11)n r6

+⎡ ⎤χ ≅ −⎢ ⎥⎣ ⎦∑ ∑ (7.60)

Essa expressão representa uma melhor aproximação de (7.59) para

pequenas correlações e para grandes amostras é pouco provável que conduza a

diferentes resultados dos obtidos pela fórmula determinantal exata (7.59),

Morrison (1976).

É apresentado a seguir um programa SAS no procedimento de

matrizes IML para a realização de todas as inferências propostas nessa seção.

Um exemplo é apresentado, com comentários, para que o usuário possa

reproduzir os testes e os procedimentos de estimação propostos.

options ps=5000 ls=75 nodate nonumber;; proc iml; S={4.9810 3.8063 4.7740, 3.8063 3.0680 3.7183, 4.7740 3.7183 4.8264}; p=ncol(S);n=24;alpha=0.05; print 'Valor de p tamanho da amostra e alpha'; print p n alpha; print 'Matriz de covariancias amostral: S'; print S; Ls=diag(eigval(s)); Ps=eigvec(S); print 'Matriz de autovalores de S'; print Ls; print 'Matriz de autovetores de S'; print Ps; D=diag(S); D_12=inv(root(D)); *print D_12;

Rs=D_12*S*D_12; print 'Matriz de correlacoes amostrais R'; print Rs; Lr=diag(eigval(Rs)); print 'Matriz de autovalores de R'; print Lr; Pr=eigvec(Rs); print 'Matriz de autovetores de R'; print Pr; /*intervalo de confianca para autovalores de S - equacao 7.41*/ za2=probit(1-alpha/2); print 'Intervalos de confianca para os autovalores de S, sendo 1-alpha=' alpha; print 'Autovalor Li Ls'; do i=1 to p; lin=ls[i,i]/(1+za2*(2/n)**0.5); lsu=ls[i,i]/(1-za2*(2/n)**0.5); print i lin lsu; end; /*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 -equacao 7.42 */ /* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com sig2=4.2 e rho=0.97 */ l0=12.35; Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5; przc=2*(1-probnorm(abs(zc))); print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas um exemplo'; print 'Valor de Zc valor de prob>|zc|'; print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada'; print Zc przc; /* teste 7.43 igualdade de r autovalores intermediarios*/ /* neste exemplo sera testado Ho: l2 = l3 */ /*q=1, r=2, p=3 -teste 7.44 */ aux1=0;aux2=0;q=1;r=2; do i=q+1 to q+r; aux1=aux1+log(ls[i,i]); aux2=aux2+ls[i,i]/r; end; qui2c=-(n-1)*aux1+(n-1)*r*log(aux2); print 'Valores dos somatorios auxiliares para teste H0: l2 = l3'; print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios'; print aux1 aux2; v=r*(r+1)/2-1; prqui2c=1-probchi(qui2c,v); print 'Teste da hipotese de que Ho: l2 = l3 '; print 'Qui-quadrado GL Pr>qui-Quadr'; print qui2c v prqui2c; /* teste para a hipotese de igualdade de um autovetor a um vetor de constantes*/ /* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou seja, igual*/ /* estrutura de correlacao da matriz Sigma que originou a S */ e0=j(p,1,1/3**0.5); E1=j(p,p,0); do i=1 to p; ek=Ps[,i]; if i^=1 then do; E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);

end; end; E1=ls[1,1]*E1; Le=eigval(e1); *print E1 le; ei1=Ps[,1]; print e0 ei1; qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2); qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0); v=p-1; prqui2c=1-probchi(qui2c,v); print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])'; print 'Qui-quadrado1 qui-quad2 GL Pr>qui-Quadr'; print qui2c qui2c2 v prqui2c; /*teste da H0:phoij=pho - igual estrutura de correlacao */ rbar=(sum(Rs)-trace(Rs))/(p*(p-1)); rk=j(p,1,0); do i=1 to p; rk[i]=(sum(Rs[,i])-1)/(p-1); end; gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2); aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar)); aux2=(sum(aux1)-trace(aux1))/2; aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar)); aux4=sum(aux3); qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4); v=(p+1)*(p-2)/2; if qui2c<=0 then qui2c=1e-14; prqui2=1-probchi(qui2c,v); print 'Teste da hipotes phij=pho: igual estrutura de correlacao'; print 'Qui-quadrado GL Pr>qui-Quadr'; print qui2c v prqui2; print 'Valores utilizados no teste-para simples conferencia'; print 'media geral dos rij, vetor de medias de cada coluna de R e gama chapeu'; print rbar rk gama; /*teste de esfericidade-H0: Sigma=Sig^2*I*/ Lamb1=((det(S)**(1/p))/(trace(S)/p)); qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n)); v=(p+2)*(p-1)/2; prqui2=1-probchi(qui2c,v); print 'Teste de esfericidade - H0: Sigma=Sig^2*I'; print 'Qui-quadrado GL Pr>qui-Quadr Lambida 1^(2/(np))'; print qui2c v prqui2 lamb1; /*teste de independencia de variaveis mais geral - H0: Sigma = Diag(sig11 sig22 ... sigpp)*/ Lamb2=det(Rs); qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n)); v=p*(p-1)/2; prqui2=1-probchi(qui2c,v); print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ... sigpp)'; print 'Qui-quadrado GL Pr>qui-Quadr Lambida 2^2/n'; print qui2c v prqui2 lamb2; /*teste de independencia de variaveis - uso da aproximacao de Lawley- pior*/ aux1=Rs#Rs; aux2=(sum(aux1)-trace(aux1))/2; qui2c=aux2*(n-(2*p+11)/6); v=p*(p-1)/2;

prqui2=1-probchi(qui2c,v); print 'Teste de independencia aproximado de Lawley (1940)'; print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)'; print 'Qui-quadrado GL Pr>qui-Quadr Soma de rij^2=aux2'; print 'Obs. para grandes valores de rij essa eh uma pessima aproximacao'; print qui2c v prqui2 aux2; quit;

7.6. Exercícios

7.6.1. Extrair os componentes principais da matriz S obtida das mensurações de

três variáveis em carapaças de tartarugas. As variáveis X1, X2, e X3 são

referentes ao comprimento, largura e altura transformadas por logaritmo

natural, respectivamente. Uma amostra de 24 fêmeas foi realizada. A matriz

S é apresentada a seguir, juntamente com o vetor de médias das variáveis

transformadas. Obter os componentes principais de S e interpretá-los,

quando for possível. Obter a matriz R e os respectivos componentes

principais. Obter em ambos os casos: a) a porcentagem de informação

explicada por cada componente; b) a correlação entre as variáveis originais

transformadas e os componentes principais. Observando o primeiro

componente principal de R com mais profundidade, o que pode ser afirmado

sobre a matriz R (sem a realização de teste).

2,1282,0081,710

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

X e 4,9810 3,8063 4,7740

S 3,8063 3,0680 3,71834,7740 3,7183 4,8264

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

7.6.2. Com os dados do exercício 7.6.1, determine os intervalos de 95% de

confiança assintótico para os 3 autovalores de Σ (3x3).

7.6.3. Com os dados do exercício 7.6.1 teste a hipótese de que o primeiro

autovetor de ρ seja igual a t1e 1 3 1 3 1 3⎡ ⎤= ⎣ ⎦ . Qual é sua conclusão

com relação à decisão tomada?

7.6.4. Com os dados do exercício 7.6.1 reproduza a matriz S a partir do primeiro

componente principal e a matriz de resíduos.

7.6.5. Teste a hipótese de que os r=2 últimos valores característicos de Σ, sejam

iguais, utilizando os dados do exemplo 7.6.1.

7.6.6. Teste a hipótese de independência geral entre 3 variáveis, para as quais

uma amostra de n=50 observações apresentou a seguinte matriz de

covariância.

24,9811 0,0796 0,0574S 0,0796 5, 2762 0,0020

0,0574 0,0020 3,0655

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

7.6.7. Os dados a seguir referem a uma amostra de 30 elementos em uma

população normal trivariada. Obtenha os componentes principais e verifique

a normalidade por meio dos dois primeiros componentes. Faça os Q-Q plots

e os gráficos de dispersão dos escores do componente 1 vs 2. Utilize o

último componente para verificar a possibilidade de observações suspeitas.

Caso alguma observação suspeita seja observada, elimine-a da amostra e

refaça o exercício.

U.A. X1 X2 X3 1 12,80 29,56 45,19 2 14,12 26,54 49,29 3 19,09 33,26 49,79 4 15,98 31,00 51,73 5 16,00 28,94 50,30 6 16,51 31,67 48,06 7 14,05 30,11 55,15 8 14,34 26,47 46,84 9 16,87 29,00 52,16 10 21,93 38,00 39,24 11 15,21 30,68 54,02 12 15,54 27,37 51,52 13 17,71 30,20 51,66 14 14,42 29,99 52,50 15 13,38 31,61 52,33 16 13,91 29,59 44,19 17 15,53 29,30 53,71 18 16,40 28,96 46,56 19 18,35 30,15 52,18 20 13,59 27,70 52,33 21 19,08 31,26 48,59 22 13,95 29,94 54,73 23 16,11 34,52 52,69 24 17,10 29,39 52,03 25 18,81 31,48 49,79 26 15,27 29,54 43,11 27 14,80 31,88 48,08 28 17,39 28,88 50,69 29 18,02 34,02 49,58 30 9,52 25,23 45,89

||[ ]||Análise de agrupamento

8.1. Introdução

As análises rudimentares e exploratórias de dados como os

procedimentos gráficos auxiliam, em geral, o entendimento da complexa natureza

da análise multivariada. No presente capítulo são discutidas algumas técnicas

gráficas adicionais para agrupar objetos (itens ou variáveis) e também apresentar

os algoritmos que devem ser usados para efetivamente realizá-los. Encontrar nos

dados uma estrutura natural de agrupamento é uma importante técnica

exploratória. A análise de agrupamento deve ser distinguida da análise

discriminante, pelo fato desta última ser aplicada a um número de grupos já

conhecidos, tendo por objetivo a discriminação de um novo indivíduo a um destes

grupos. A análise de agrupamento por sua vez não considera o número de grupos

e é realizada com base na similaridade ou dissimilaridade (distâncias).

Objetivo dessa análise é agrupar objetos semelhantes segundo suas

características (variáveis). Todavia, não existem impedimentos para realizar o

agrupamento de variáveis semelhantes segundo as realizações obtidas pelos

objetos amostrados. Um outro problema para o qual uma resposta é necessária

consiste em verificar se um indivíduo A é mais parecido com B do que com C.

Quando o número de variáveis envolvidas é pequeno, a inspeção visual poderá

responder. Assim, por exemplo, na Figura 8.1 observa-se uma situação em que A

é mais parecido com C do que com B. Intuitivamente para fazer tal inferência

usou-se o conceito de distância euclidiana, o qual definiu a idéia de parecença.

1.0 1.5 2.0 2.5 3.0 3.5 4.0

Variá

Variável 1

Figura 8.1. Dispersão entre três indivíduos mensurados com relação a duas

variáveis quantitativas contínuas.

8.2. Medidas de parecença (similaridade e dissimilaridade)

Como foi visto no exemplo da Figura 8.1, é necessário especificar

um coeficiente de parecença que indique a proximidade entre os indivíduos. É

importante considerar, em todos os casos semelhantes a este, a natureza da

variável (discreta, contínua, binária) e a escala de medida (nominal, ordinal, real

ou razão).

No capítulo 1 foi discutida a noção de distância e apresentada a

distância euclidiana entre dois objetos no espaço p-dimensional. Sejam

t1 11 12 1pX X X X⎡ ⎤= ⎣ ⎦ e t

2 21 22 2pX X X X⎡ ⎤= ⎣ ⎦ observações entre dois objetos

(indivíduos). Então, a distância euclidiana entre eles é dada por:

( ) ( ) ( ) ( )22 2 t11 21 12 22 1p 2p 1 2 1 21 2d X X X X ... X X (X X ) (X X )X ,X = − + − + + − = − − (8.1)

Uma importante distância estatística entre estes dois objetos é

conhecida como distância de Mahalanobis, dada por:

( ) t 11 2 1 21 2d (X X ) S (X X )X ,X −= − − (8.2)

em que, S-1 é a inversa da matriz de variância e covariância amostral. Outra

medida de distância é a métrica de Minkowski, a qual depende de funções

modulares.

( )1 mp

m1i i2i1 2

d X XX ,X=

⎡ ⎤= −⎢ ⎥⎣ ⎦∑ (8.3)

Para m=1 a equação (8.3) é conhecida por “métrica do quarteirão”

(métrica city-block) e para m = 2 representa a distância euclidiana e, em geral,

variações de m causam trocas nos pesos dados a pequenas e a grandes

diferenças.

Sempre que possível é conveniente usar distâncias verdadeiras, ou

seja, aquelas que obedecem à desigualdade triangular para o agrupamento de

objetos, embora alguns algoritmos de agrupamento não exigem o atendimento

dessa pressuposição.

De uma maneira geral, sejam Xhj as observações do h-ésimo objeto

na j-ésima variável e Xij as observações do i-ésimo objeto na j-ésima variável, e

sejam Zhj e Zij estes valores padronizados, então, podem ser definidas as

distâncias apresentadas a seguir. Sendo que h, i = 1, 2, ..., n e j = 1, 2, ..., p.

Distância euclidiana média,

hj ijj

−=∑

Distância euclidiana padronizada,

( ) ( )2

pthj ij 1

h,i h i h ij 1 jj

X Xd X X D X X

⎛ ⎞−⎜ ⎟= = − −⎜ ⎟⎝ ⎠

∑ (8.5)

em que, D é uma matriz diagonal tendo o j-ésimo componente igual a variância Sjj,

ou seja,

0 00 0

0 0 pp

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

De modo análogo pode-se definir a distância euclidiana padronizada

média,

( ) ( )

hj ijt 1j 1 jj h i h i

X XS X X D X X

⎛ ⎞−⎜ ⎟⎜ ⎟ − −⎝ ⎠= =

∑ (8.6)

Outros tipos de definições de distâncias podem ser encontrados na

literatura (Bussab, Miazaki e Andrade, 1990). Um exemplo é o coeficiente de

Gower, o qual é baseado na proporção da variação em relação a maior

discrepância possível.

, 101 ( ) (1)

1log 1p

hj ijh i

j n j j

p X X=

⎧ ⎫⎡ ⎤−⎪ ⎪= − − ⎢ ⎥⎨ ⎬−⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭

∑ (8.7)

em que ( )n jX e (1) jX são os valores máximos e mínimos, respectivamente, em

uma amostra de n objetos para a j-ésima variável.

Muitas vezes os objetos não podem ser mensurados em variáveis

quantitativas. Essas variáveis podem ser transformadas em dicotômicas (binárias),

determinado um ponto de corte de interesse prático. Assim, por exemplo, se a

altura (Y) de n indivíduos é mensurada e o interesse é determinar àqueles com

altura superiores a 1,80m, então, defini-se a variável binária (X) da seguinte forma:

se Yi > 1,80m então Xi = 1 caso contrário, se Yi ≤ 1,80m, então Xi = 0. Da mesma

forma, variáveis qualitativas podem ser transformadas em variáveis binárias

tomando-se como valor 1 a presença de uma determinada realização e o valor 0

para as demais. Assim, por exemplo, se na amostra ocorresse um indivíduo com

cor de olhos pretos determinaria o valor 1 e a ocorrência de outro com outra cor de

olhos determinaria o valor 0. De uma maneira geral, a presença e ausência de

uma característica devem ser representadas por uma variável binária, a qual

assume valor 1 se a característica estiver presente e o valor zero se estiver

ausente. A ocorrência de dados binários é bastante comum em genética

molecular. Nesse caso, os indivíduos são genotipados para a presença ou

ausência de um determinado marcador molecular, marcador de DNA.

Como exemplos consideram-se duas linhagens de milho as quais

foram estereotipadas através de marcadores moleculares denominados RAPD. O

melhorista nesse caso estava interessado na similaridade genética dessas

linhagens. Cinco bandas (marcadores diferentes) foram utilizadas. Os resultados

para presença e para a ausência dessas bandas foram obtidos e estão

apresentados a seguir.

Bandas Linhagens 1 2 3 4 5

A 1 0 0 1 1 B 1 1 0 1 0

Existem, neste exemplo, duas concordâncias, uma com 1-1 e outra

com 2-2 e duas discordâncias, quais sejam, 0-1 e 1-0. Representando o escore (1

ou 0) da j-ésima variável binária no h-ésimo objeto por Xhj e da mesma forma Xij

representa o escore do i-ésimo objeto na j-ésima variável, j=1, 2, ..., p.

Conseqüentemente, a diferença ao quadrado entre os dois indivíduos ou objetos

para uma determinada variável resultará apenas no valor 0 ou no valor 1. Isso

pode ser observado facilmente pelos seguintes argumentos.

( )20 1 0

hj ij hj ij

se X X ou se X XX X

se X X

= = = =⎧⎪− = ⎨⎪ ≠⎩

Dessa forma, a distância euclidiana quadrática representa a

contagem do número de pares não coincidentes. Grandes distâncias

correspondem a muitos pares não coincidentes e, portanto, a objetos dissimilares.

Para o exemplo em questão, tem-se:

2, 2A Bd =

A equação (8.4) pode ser usada muitas vezes como base para

distância, no entanto, algumas vezes possui algumas limitações por considerar

que os pares (1-1) e (0-0) possuem o mesmo peso, o que em determinadas

situações reais (1-1) representa uma forte evidência de similaridade, mas o (0-0)

não. Muitos coeficientes existem na literatura, dando diferentes tratamentos a este

problema. Cabe ao leitor decidir em qual situação o seu problema se enquadra e

escolher a medida de parecença mais apropriada. Para introduzir estas medidas

de parecença são apresentados os resultados de coincidências e divergências dos

objetos h e i em uma tabela de contingência.

Item i

Totais

Item h

a b a + b

0 c d c + d

Totais a + c b + d p = a + b +c + d

Nesta Tabela pode-se observar que “a” representa a freqüência de

coincidências (1-1), “b” a freqüência de (1-0), e assim sucessivamente. No

exemplo tratado a = 2, b = c = d = 1.

Na Tabela 8.1 apresentam-se alguns dos coeficientes de

semelhança (similaridade) em termos das freqüências descritas anteriormente,

considerando variáveis binárias. Os valores para o exemplo, a variação de cada

uma, o nome comum na literatura e explicação racional para as mesmas foram

apresentados.

Na Tabela 8.1, estão apresentados os coeficientes de similaridades,

no entanto, deve ser ressaltado que a única exceção é a distância binária de

Sokal. Muitas vezes as medidas de dissimilaridade podem ser transformadas em

medidas de similaridade pela relação apresentada em Johnson e Wichern (1988).

Outra forma de se obter coeficientes de similaridades a partir da

distância euclidiana, calculada com variáveis padronizadas, pode ser obtida pelo

coeficiente de Cattel (Bussab, Miazaki, Andrade, 1990).

223223

⎛ ⎞− −⎜ ⎟⎝ ⎠=⎛ ⎞− +⎜ ⎟⎝ ⎠

(8.10)

Uma outra expressão apresentada é atribuída a Cattel e Coulter

(Bussab, Miazaki, Andrade, 1990), também derivada considerando distâncias

euclidianas padronizadas é dada por:

h ih i

p d−

(8.11)

No entanto, nem sempre é possível construir distâncias a partir de

similaridades. Isso só pode ser feito se a matriz de similaridades for não negativa

definida. Com a condição de que Si,i = 1, máximo das similaridades, e que a matriz

de similaridades seja não negativa definida, então a expressão (8.12) tem as

propriedades de distância.

( ),, 12 h ih i Sd −= (8.12)

Tabela 8.1. Alguns coeficientes de parecença para variáveis dicotômicas.

Nome Expressão Explicação Variação Ex. Coincidência simples

Pesos iguais para 1-1 e 0-0 0-1 0,60

Sokal e Sneath

( )( )

a da d b c

++ + +

Peso duplo para 1-1 e 0-0 0-1 0,75

Rogers e Tanimoto

a da b c d

++ + +2( )

Duplo peso para pares não coincidentes

0-1 0,43

Russel e Rao ap

Nenhum 0-0 no numerador 0-1 0,40

Jaccard aa b c+ +

As coincidências 0-0 são tratadas como irrelevantes

0-1 0,50

Sorenson 22

aa b c+ +

0-0 é irrelevante e duplo peso para 1-1.

0-1 0,66

- aa b c+ +2( )

0-0 é irrelevante e duplo peso para não coincidência.

0-1 0,33

- ab c+

Razão entre coincidências e não coincidências - Exceto 0-0

0-(p-1) 1,00

Dist. Binária de Sokal

Única medida de dissimilaridade. 0-1 0,63

Ochiai aa b a c( )( )+ +

Concordâncias positivas sobre adaptação da média geométrica de discordâncias

0-1 0,67

Baroni-Urbani-Buser a ad

a b c ad+

Concordâncias positivas e a média geom. de concordância positivas e negativas

0-1 0,63

Haman ( ) ( )a d b cp

+ − +

Proporção de coincidências menos a proporção de discordâncias

-1 - +1 0,20

Yule ad bcad bc

Proporção de ad menos a de bc -1 - +1 0,33

φ ad bca b a c b d c d

+ + + +( )( )( )( )

Produto de momento de correlação aplicado a variáveis binárias

-1 - +1 0,17

Ochiai II

( )( )( )( )ad

a b a c b d c d+ + + +

Proporção de coincidências em relação à média geom. total modificada

0 -1 0,33

Em algumas aplicações é necessário agrupar variáveis ao invés de

objetos. As medidas de similaridades para agrupar variáveis usadas na prática são

baseadas nos coeficientes de correlação amostral. Em algumas aplicações de

agrupamento, as correlações negativas são trocadas pelos seus valores

absolutos. Quando, as variáveis são binárias esta correlação está apresentada na

Tabela 8.1 (φ). Este coeficiente de correlação está associado à estatística de qui-

quadrado, para testar a independência de duas variáveis categóricas por

( 2 2 nφ = χ , n = a + b + c + d, χ2 com 1 grau de liberdade). Para n fixo, uma grande

similaridade (ou correlação) é consistente com a falta de independência entre as

variáveis. Uma outra importante observação que pode ser feita é que para

agrupamento de variáveis os coeficientes de similaridade e de distâncias podem

ser usadas, apenas tomando-se o cuidado de substituir p (número de variáveis)

por n (número de objetos).

8.3. Agrupamentos

Muitos algoritmos existem para formar os agrupamentos, devido a

existência de vários critérios existentes para conceituar os grupos que nem

sempre são aceitos universalmente. Uma outra razão para isso, é que raramente

pode-se examinar todas as possibilidades de agrupamento, mesmos com os mais

rápidos e possantes computadores.

São apresentadas neste material algumas das técnicas de

agrupamentos denominadas hierárquicas e outra do grupo das não hierárquicas.

8.3.1. Agrupamentos hierárquicos

Os agrupamentos hierárquicos são realizados por sucessivas fusões

ou por sucessivas divisões. Os métodos hierárquicos aglomerativos iniciam com

tantos grupos quanto aos objetos, ou seja, cada objeto forma um agrupamento.

Inicialmente, os objetos mais similares são agrupados e fundidos formando um

único grupo. Eventualmente o processo é repetido, e com o decréscimo da

similaridade, todos os subgrupos são fundidos, formando um único grupo com

todos os objetos.

Os métodos hierárquicos divisivos trabalham na direção oposta. Um

único subgrupo inicial existe com todos os objetos e estes são subdivididos em

dois subgrupos de tal forma que exista o máximo de semelhança entre os objetos

dos mesmos subgrupos e a máxima dissimilaridade entre elementos de subgrupos

distintos. Estes subgrupos são posteriormente subdivididos em outros subgrupos

dissimilares. O processo é repetido até que haja tantos subgrupos quantos

objetos.

Os resultados finais destes agrupamentos podem ser apresentados

por gráficos denominados dendrogramas. Os dendrogramas apresentam os

elementos e os respectivos pontos de fusão ou divisão dos grupos formados em

cada estágio.

Os esforços deste capítulo serão concentrados nos métodos

hierárquicos aglomerativos (“Linkage Methods”). Serão discutidos os métodos de

ligação simples (mínima distância ou vizinho mais próximo), ligação completa

(máxima distância ou vizinho mais distante) e ligação média (distância média). As

idéias para estes três processos estão, esquematicamente, apresentados na

Figura 8.2.

(a)d15

(c)(d13+d14+d15+d23+d24+d25)/6

Figura 8.2. Distâncias entre os grupos para os métodos da (a) ligação simples, (b)

ligação completa e (c) ligação média.

A seguir está apresentado um algoritmo geral para os agrupamentos

hierárquicos aglomerativos com n objetos (itens ou variáveis).

1. Iniciar com n grupos, cada um com um único elemento e com uma matriz

simétrica n x n de dissimilaridades (distâncias) D={dhi}.

2. Buscar na matriz D o par de grupos mais similar (menor distância) e fazer a

distância entre os grupos mais similares U e V igual a duv.

3. Fundir os grupos U e V e nomeá-lo por (UV). Recalcular e rearranjar as

distâncias na matriz D (a) eliminando as linhas e colunas correspondentes a U

e V e (b) acrescentando uma linha e coluna com as distâncias entre o grupo

(UV) e os demais grupos.

4. Repetir os passos 2 e 3 num total de (n-1) vezes (todos os objetos estarão em

único grupo). Anotar a identidade dos grupos que vão sendo fundidos e os

respectivos níveis (distâncias) nas quais isto ocorre.

(a) Ligação simples (vizinho mais próximo)

Para exemplificar é considerado um exemplo, no qual destacam-se 4

objetos (A, B, C, D), e para o qual a matriz de distâncias entre os objetos é

apresentada a seguir.

03 07 9 08 6 5 0

A B C DAB

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

Para ilustrar o método da ligação simples, os objetos menos

distantes devem, inicialmente, ser fundidos. Então, ( ), ,min 3h i A Bd d= = . O próximo

passo é fundir A com B formando o grupo (AB) e em seguida calcular as

distâncias deste grupo e os objetos remanescentes. As distâncias dos vizinhos

mais próximos são,

( ), min{ , } min{7, 9} 7AB C AC BCd d d= = =

( ), min{ , } min{8, 6} 6AB D AD BDd d d= = =

A nova matriz D para o próximo passo é:

07 06 5 0

AB C DAB

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

A menor distância é entre D e C, com dDC=5, os quais foram fundidos

formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,

( ),( ) ( ) ( )min{ , } min{6, 7} 6DC AB D AB C ABd d d= = =

A nova matriz D fica,

DC ABDC

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Conseqüentemente o grupo DC é fundido com AB na distância 6. Na

Figura 8.3, foi apresentado o dendrograma, com os resultados alcançados.

Figura 8.3. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo método da

ligação simples (vizinho mais próximo).

(b) Ligação completa (vizinho mais distante)

O método da ligação completa é realizado da mesma forma que o do

vizinho mais próximo, com exceção de que a distância entre grupos é tomada

como a “máxima” distância entre dois elementos de cada grupo. Para ilustrar, será

usado o mesmo exemplo. Assim, considerando a mesma matriz de dissimilaridade

D do exemplo anterior. Inicialmente são fundidos os dois objetos menos distantes.

Então, como ( ), ,min 3= =h i A Bd d , os objetos A e B devem ser fundidos formando o

grupo (AB) e em seguida deve-se calcular as distâncias deste grupo e os objetos

remanescentes. As distâncias entre os grupos são consideradas com sendo a

distância entre os vizinhos mais distantes, dadas por:

Dendrograma

Single Linkage

Matriz de dissmilaridade

Distância de ligação

2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5

( ), max{ , } max{7, 9} 9AB C AC BCd d d= = =

( ), max{ , } max{8, 6} 8AB D AD BDd d d= = =

09 08 5 0

AB C DAB

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

formando o subgrupo DC, no nível 5. Recalculando as distâncias entre os grupos

tem-se,

( ),( ) ( ) ( )max{ , } max{8, 9} 9DC AB D AB C ABd d d= = =

DC ABDC

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Conseqüentemente, o grupo DC é fundido com AB na distância 9.

Na Figura 8.4, foi apresentado o dendrograma, com os resultados alcançados.

ligação completa (vizinho mais distante).

Comparando-se os resultados alcançados e apresentados nas

Figuras 8.3 e 8.4, pode-se notar que os dendrogramas para o método do vizinho

mais próximo e do vizinho mais distante não diferem na alocação dos objetos e

sim na magnitude da fusão dos grupos CD com AB, para esse exemplo em

particular.

(c) Ligação média (método do centróide)

O método da ligação média é realizado da mesma forma que o do

vizinho mais próximo e mais distante, com exceção de que a distância entre

grupos é tomada como a média da distância entre dois elementos de cada grupo.

Para ilustrar, é usado o mesmo exemplo. Da mesma forma, são fundidos os

Dendrograma

Complete Linkage

Matriz de dissimilaridades

2 3 4 5 6 7 8 9 10

objetos menos distantes. Então, como ( ), ,min 3= =h i A Bd d , os objetos A e B devem

ser fundidos, formando o grupo (AB) e em seguida deve-se calcular as distâncias

deste grupo e os objetos remanescentes. As distâncias entre grupos são

baseadas na média das distâncias entre todos os elementos de um grupo com

relação aos elementos de outro grupo.

( ), ( ) / 2 (7 9) / 2 8AB C AC BCd d d= + = + =

( ), ( ) / 2 (8 6) / 2 7= + = + =AB D AD BDd d d

08 07 5 0

AB C DAB

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,

( ),( ) ( ) ( )( ) (7 8) / 2 7,5DC AB D AB C ABd d d= + = + =

07,5 0

DC ABDC

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Conseqüentemente o grupo DC é fundido com AB na distância 7,5.

Na Figura 8.5, foi apresentado o dendrograma, com os resultados alcançados.

ligação média (centróide).

8.3.2. Agrupamentos não hierárquicos

Os agrupamentos não hierárquicos procuram a partição de n objetos

em k grupos. Os métodos exigem a pré-fixação de critérios que produzam

medidas sobre a qualidade da partição produzida. Um dos mais populares

métodos é o das k-médias.

Dendrograma

Unweighted pair-group average

Matriz de dissimilaridade

2 3 4 5 6 7 8

O algoritmo das k-médias, de uma forma bastante simplificada, é

dividido em três passos:

1. Particionar os itens em k grupos iniciais arbitrariamente;

2. Percorrer a lista de itens e calcular as distâncias de cada um deles para o

centróide (médias) dos grupos. Fazer a realocação do item para o grupo em

que ele apresentar mínima distância, obviamente se não for o grupo ao qual

este pertença. Recalcular os centróides dos grupos que ganharam e perderam

o item.

3. Repetir o passo 2 até que nenhuma alteração seja feita.

Exemplo 8.1

Utilizando 4 itens (A, B, C e D) e 2 variáveis (X1 e X2) dividir em k=2

grupos, pelo método das k-médias.

Observação Objeto x1 x2

A B C D

2 5 1 8

0 2 4 4

i) particionar os itens arbitrariamente em 2 grupos, como por exemplo AD e BC.

Calcular a média de cada grupo.

Centróide Objeto

1X 2X AD BC

(2+8)/2=5 (1+5)/2=3

(0+4)/2=2 (2+4)/2=3

ii) Neste passo a distância de cada item será computada em relação ao centróide

de cada grupo e se necessário, os objetos serão realocados para o grupo mais

próximo.

2 2 2( )

(2 5) (0 2) 13

(2 3) (0 3) 10

= − + − =

Neste caso há necessidade de realocação de A para o grupo BC,

sendo que os centróides dos grupos devem ser recalculados.

Centróide Objeto

1X 2X D

2,667 4 2

Recalculando as distâncias dos objetos para o centróide dos grupos

e checando a possibilidade de realocação, tem-se:

4,44A D

5,44B D

6,77C D

Item (distância quadrática p/ centróide) Grupo A B C D

52,0 4,4

13,0 5,4

49,0 6,8

0,0 32,4

Nenhuma realocação deve ser realizada, pois os objetos têm menor

distância para os respectivos grupos aos quais eles pertencem. Para realizar uma

checagem da estabilidade de a partição alcançada é recomendável executar

novamente o algoritmo com uma nova partição inicial.

8.4. Exercícios

Agrupar os 4 objetos cuja matriz de dissimilaridades está

apresentada a seguir, utilizando todos os métodos apresentados nesse material.

A B C DA 0B 9 0

DC 25 36 0D 49 100 16 0

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

||[ ]||Análise de fatores

9.1. Introdução

A técnica dos componentes principais consiste em uma

transformação ortogonal dos eixos coordenados do sistema multivariado buscando

as orientações de maior variabilidade. Para o estudo de dependências estruturais

multinormais, as técnicas de explicação das covariâncias das respostas são

preferidas. Apesar de as técnicas dos componentes principais poder ser usada

para essa finalidade, esta não deve ser preferida por ser apenas uma

transformação e não um resultado de um modelo fundamental da estrutura de

covariância. Esse método possui alguns inconvenientes, tais como não ser

invariante quanto às mudanças de escalas e não possuir um critério adequado

para determinar quando uma proporção suficiente da variação total foi explicada

pelos componentes retidos.

Nesse capítulo apresenta-se a técnica de análise de fatores com o

propósito essencial de descrever, se possível, as relações de covariância entre

diversas variáveis em função de poucas, não observáveis, quantidades aleatórias

denominadas de fatores. Sob o modelo de fatores cada variável resposta é

representada por uma função linear de uma pequena quantidade de fatores

comuns, não observáveis, e de uma simples variável latente específica. Os fatores

comuns geram as covariâncias entre as variáveis observadas e os termos

específicos contribuem somente para as variâncias de suas respostas

relacionadas. Os coeficientes dos fatores comuns não são restritos a condição de

ortogonalidade, o que confere generalidade, apesar de se exigir normalidade dos

dados e a determinação, a priori, do número de fatores.

Nesse capítulo são apresentados o modelo de fatores ortogonais, os

métodos de estimação dos parâmetros desse modelo e brevemente o problema

de rotação dos fatores. É considerado um método de estimação que não exige

normalidade. Métodos de estimação de os escores dos fatores são, também,

abordados, o que ao contrário dos componentes principais não é uma tarefa

simples.

9.2. Modelo de fatores ortogonais

Supondo que o sistema multivariado consiste de p resposta descritas

pelas p variáveis observáveis aleatórias X1, X2, ..., Xp. Assumindo que o vetor de

observações multivariadas p 1X possui média µ e covariância Σ, então, o modelo

de fatores pressupõe que o vetor p 1X é linearmente dependente de algumas

poucas variáveis não observáveis F1, F2, ..., Fm chamadas de fatores comuns, e p

fontes de variações adicionais ε1, ε2, ..., εp chamadas de erro ou de fatores

específicos. O modelo de fatores pode ser especificado por:

1 1 11 1 12 2 1m m 1

2 2 21 1 22 2 2m m 2

p p p1 1 p2 2 pm m p

X F F ... FX F F ... F

X F F ... F

−µ = + + + + ε−µ = + + + + ε

−µ = + + + + ε

ou em notação matricial por:

(p 1) (p m) (m 1) (p 1)

X L F× × × ×

−µ = + ε (9.2)

em que ij é denominado de carga da i-ésima variável para o j-ésimo fator, então

a matriz L é chamada matriz de cargas fatoriais. O i-esimo fator específico εi é

associado somente com a i-ésima variável resposta Xi. Os p desvios X1-µ1, X2-µ2,

..., Xp-µp são representados por p + m variáveis aleatórias F1, F2, ..., Fm, ε1, ε2, ...,

εp, as quais são não observáveis. Esse fato distingue o modelo de fatores do

modelo de regressão multivariada, pois este último possui variáveis independentes

(ocupadas em (9.2) por F) que são observáveis.

Devido ao grande número de quantidades não observáveis e

também com a finalidade de tornar útil o modelo de fatores, algumas

pressuposições sobre os vetores F e ε são impostas. Assim é assumido que F

tem distribuição com média 0 e que os elementos de F são independentemente

distribuídos, ou seja, F possui covariância Ι . Da mesma forma é assumido que ε

possui média zero e os seus elementos são independentemente distribuídos, ou

seja, Cov( ε )=Ψ diagonal (p x p). Sendo assim, definem-se:

E(F) 0= (9.3)

tCov(F) E(FF )= = Ι (9.4)

E( ) 0ε = (9.5)

0 00 0

Cov( ) E( )

ψ⎡ ⎤⎢ ⎥ψ⎢ ⎥ε = εε = Ψ =⎢ ⎥⎢ ⎥ψ⎢ ⎥⎣ ⎦

Finalmente, é assumido que F e ε são independentes, portanto,

(p m)Cov( ,F) E F 0

×ε = ε = (9.7)

O modelo (9.2) e essas pressuposições definem o modelo de fatores

ortogonal. Dessa forma a estrutura de covariância de X pode ser dada por:

tCov(X) E(X )(X )= Σ = −µ −µ

Substituindo X −µ pelas definições dadas no modelo (9.2), verifica-

se que:

( )( ) ( )( ) ( ) ( )( )( ) ( )

t t t t

X X LF LF LF LF

LF LF LF LF

− µ −µ = + ε + ε = + ε + ε =

= + ε + ε + εε

Então,

( ) ( )

( ) ( ) ( )

t t t t

t t t t t t

Cov(X) E(X )(X )

E LF LF LF LF

LE(FF )L E F L L E F E

= Σ = − µ − µ =

⎡ ⎤= + ε + ε + εε⎣ ⎦

= + ε + ε + εε

De acordo com as condições (9.4), (9.6) e (9.7), tem-se:

tCov(X) LL= Σ = + Ψ (9.8)

Também podem ser obtidas as covariâncias entre os componentes

de X e F a partir das suposições assumidas e apresentadas anteriormente.

Assim,

( ) ( ) ( ) ( )

t t t t

Cov X, F E X F E LF F E LFF F

E LFF E F LE FF E F L 0 L

⎡ ⎤ ⎡ ⎤= − µ = + ε = + ε =⎣ ⎦⎣ ⎦

= + ε = + ε = Ι + =

( ) ( )i j ijCov X, F L ou Cov X , F= = (9.9)

Da relação (9.8) verifica-se que:

m2 2 2 2

i ii ij i i1 i2 im ij 1

i k ik ij kj i1 k1 i2 k2 im kmj 1

Var(X ) ...

Cov(X , X ) ...

= σ = +ψ = + + + +ψ

= σ = = + + +

(9.10)

A porção da i-ésima variável explicada por m fatores comuns é

chamada de comunalidade e a porção de σii devida aos fatores específicos é

denominada de variância específica. Denotando a i-ésima comunalidade por 2ih é

fácil observar de (9.10) que:

2 2 2 2i i1 i2 imh ...= + + + (9.11)

Assim,

2ii i ih i 1, 2, ..., pσ = +ψ = (9.12)

Quando m = p a matriz Σ pode ser reproduzida exatamente por tLL ,

de tal forma que Ψ=0. A utilidade da análise de fatores, no entanto, ocorre quando

m é bem menor do que p. Dessa forma, o número de parâmetros na análise de

fatores, p(m+1), é bem menor do que aqueles p(p+1)/2 parâmetros de Σ. Por

exemplo, para p=20 existem 20×21/2=210 parâmetros em Σ. Se m=2 fatores são

utilizados, então, o modelo de fatores possui p(m+1)=20(2+1)=60 parâmetros

( ij ie ψ ).

O grande problema da análise de fatores é a dificuldade ou a

impossibilidade de fatorar a matriz Σ em LL t +Ψ, quando m é bem menor do que p.

Algumas vezes, quando são obtidas soluções, estas são, em geral, inconsistentes

com as interpretações estatísticas. A análise de fatores tem como propósito a

determinação dos elementos da matriz de cargas fatoriais L e dos elementos de

Ψ, obedecendo a restrição (9.12).

Quando m > 1, várias soluções existem para o modelo de fatores,

todas consistentes com as interpretações estatísticas. Essa ambigüidade é a base

para uma importante característica da análise de fatores que é a rotação fatorial.

Para demonstrar essa propriedade, seja T uma matriz ortogonal m x m, ou seja,

TT t =T t T=I. A expressão (9.2) pode ser reescrita por:

t * *X LF LTT F L F−µ = + ε = + ε = + ε (9.13)

em que: *L LT= e * tF T F= .

Como * t tE(F ) T E(F) T 0 0= = = e * t tCov(F ) T 'Cov(F)T T T T T= = Ι = = Ι ,

então, é impossível distinguir as cargas de L das de L*, ou seja, os fatores

* tF e F T F= possuem as mesmas propriedades, uma vez que geram a mesma

matriz de covariância Σ, mesmo que as cargas fatoriais de L e de L* sejam, em

geral, diferentes. Assim,

t t t * *tLL LTT L L LΣ = + Ψ = + Ψ = + Ψ (9.14)

A escolha da matriz T é direcionada por um critério de facilitação da

interpretação dos fatores gerados, uma vez que as propriedades estatísticas não

são alteradas.

9.3. Estimação das cargas fatoriais

Nas situações reais, os parâmetros do modelo de fatores são

desconhecidos e devem ser estimados das observações amostrais. A análise de

fatores é justificável quando Σ difere de uma matriz diagonal, ou quando matriz ρ

de correlações difere da identidade. Para uma amostra 1 2 nX , X , ..., X de tamanho n

em p variáveis correlacionadas a matriz S é um estimador de Σ, bem como R é de

ρ. Com base em uma estimativa de Σ é possível realizar o teste de hipótese de

igualdade de Σ a uma matriz diagonal, conforme descrição realizada no capítulo 7.

Se a hipótese não for rejeitada, os fatores específicos possuem papel dominante,

sendo que a análise de fatores é determinar alguns poucos fatores comuns. Nesse

caso, a análise de fatores não terá grande utilidade.

Se a hipótese de a estrutura de Σ ser igual a uma matriz diagonal for

rejeitada, então, o modelo de fatores será útil e o problema inicial será o de

estimar as cargas fatoriais ij e as variâncias específicas ψi. Nessa seção são

considerados dois métodos de estimação para os parâmetros do modelo de

fatores: o método dos componentes principais e o método da máxima

verossimilhança apresentado por Lawley (1940, 1942 e 1943). Qualquer que seja

o método aplicado, as soluções podem sofrer rotações com a finalidade de

simplificar as interpretações dos fatores. É prudente, também, tentar mais de uma

solução.

9.3.1. Método dos componentes principais

A decomposição espectral vista nos capítulos 2 e 7, representa um

importante método de fatoração de Σ. Sejam as matrizes 1 2 pP e e ... e⎡ ⎤= ⎣ ⎦ e

1 2 pDiag( , , ..., )Λ = λ λ λ compostas dos autovetores e autovalores de Σ, com

1 2 p...λ ≥ λ ≥ ≥ λ , então:

t 1/ 2 1/ 2 t tP P P P LLΣ = Λ = Λ Λ = (9.15)

em que, 1/ 2L P= Λ é uma matriz p x p de cargas fatoriais.

A equação (9.15) reflete um ajuste da estrutura de covariância por

um modelo de fatores tendo tantos fatores quanto variáveis (m = p) e variâncias

específicas ψi nulas para todo i = 1, 2, ..., p. Nesse modelo as cargas fatoriais do j-

ésimo fator representam os coeficientes do j-ésimo componente principal

(autovetor) multiplicado pelo fator de escala jλ . Embora a relação (9.15) seja

exata, esta não é útil por utilizar tantos fatores quanto variáveis e por não deixar

variação alguma para os fatores específicos.

Uma solução para o problema é considerar um número m, de fatores

comuns, menor do que o de variáveis p. Com esse critério p-m autovalores e os

respectivos autovetores são desconsiderados. Esses autovalores são àqueles (p-

m) menores. Dessa forma a contribuição de t t tm 1 m 1 m 1 m 2 m 2 m 2 p p pe e e e ... e e+ + + + + +λ + λ + + λ

para Σ é negligenciada. Desprezando essa contribuição, a seguinte aproximação

de Σ pode ser obtida:

t2 21 1 2 2 m m

ee e ... e LL

⎡ ⎤λ⎢ ⎥⎢ ⎥λ⎡ ⎤Σ ≅ λ λ λ =⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥λ⎢ ⎥⎣ ⎦

(9.16)

em que L é uma matriz p x m. A representação (9.16), no entanto, não considera a

contribuição dos fatores específicos. A contribuição desses fatores pode ser

estimada tomando-se a diagonal de Σ - tLL , sendo tLL definida em (9.16).

Dessa forma a matriz Σ pode ser aproximada por:

i ii ijj 1

Diag( LL ) ou para i=1, 2, ..., p.=

Σ ≅ + Ψ

Ψ = Σ − ψ = σ −∑

(9.17)

É comum trabalhar com a representação das variáveis em uma

escala padronizada. Nessa situação a variável Zi possui média 0 e variância 1. A

padronização pode ser realizada por:

112 1/ 2

Z V XX

⎡ ⎤−µ⎢ ⎥⎡ ⎤

σ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = −µ =⎢ ⎥⎢ ⎥

−µ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ σ⎢ ⎥⎣ ⎦

(9.18)

em que:

1/ 222

⎡ ⎤⎢ ⎥σ⎢ ⎥⎢ ⎥⎢ ⎥

σ= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦

A matriz de covariância de Z é dada por ρ. O processo de obtenção

dos parâmetros do modelo de fatores é o mesmo descrito nas equações de (9.17),

considerando Σ=ρ e 1/ 2L P= Λ , sendo P a matriz p x m com as colunas compostas

pelos m primeiros autovetores de ρ e Λ1/2 uma matriz m x m com diagonal igual a

iλ . Como ii 1σ = , é fácil perceber que m

ψ = −∑ . A padronização evita que

uma variável com elevada variação influencie indevidamente a determinação das

cargas fatoriais.

A representação apresentada em (9.17), quando Σ ou ρ são

substituídos pelos seus estimadores S ou R, é conhecida como solução dos

componentes principais para a análise de fatores. O nome se origina do fato de os

fatores serem derivados dos primeiros componentes principais amostrais. O

resumo dos principais resultados desse método de estimação é doravante

apresentado.

A análise de fatores por componentes principais obtidos da

covariância amostral S é especificada em função dos pares de autovalores e

autovetores ( )i iˆ ˆ, eλ , i = 1, 2, ..., p, em que 1 2 p

ˆ ˆ ˆ...λ ≥ λ ≥ ≥ λ . Seja m < p, o número

de fatores comuns. A matriz das cargas fatoriais estimadas ( )ijˆ é dada por:

1/ 21 1 2 2 m m 1 1

ˆ ˆ ˆ ˆ ˆˆ ˆ ˆL e e ... e P⎡ ⎤= λ λ λ = Λ⎢ ⎥⎣ ⎦ (9.19)

em que 1P é uma matriz p x m dos autovetores amostrais de S e 1Λ é uma matriz

diagonal m x m dos autovalores amostrais de S.

Os estimadores das variâncias específicas são dados pela matriz

diagonal resultante da seguinte operação matricial.

0 00 0

Diag S LL

ψ⎡ ⎤⎢ ⎥ψ⎢ ⎥Ψ = = −⎢ ⎥⎢ ⎥ψ⎢ ⎥⎣ ⎦

(9.20)

De (9.20) verifica-se que:

2 2i ii ij ii i

S S h=

ψ = − = −∑ (9.21)

Sendo que o estimador da comunalidade é dado por:

2 2 2 2i i1 i2 imh ...= + + + (9.22)

A análise de fatores por componentes principais da matriz R, por sua

vez, é obtida substituindo S por R nas equações de (9.19) a (9.22). Na solução

dos componentes principais as estimativas das cargas fatoriais não se alteram

com o aumento do número m de fatores.

É fácil perceber por meio das definições apresentadas que a matriz

S não é fielmente reproduzida pela solução de componentes principais. A diagonal

de S é exatamente reproduzida pelo modelo de fatores, mas os elementos fora da

diagonal principal não são. Assim,

tS LL≅ + Ψ (9.23)

Se o número de fatores não é especificado por considerações a

priori, como por teoria ou por trabalhos anteriores de outros pesquisadores, a

escolha de m para uma decomposição de maior acurácia de S pode ser baseada

nos autovalores estimados, da mesma forma que o número de componentes

principais a serem retidos é determinado. Analiticamente, Johnson e Wichern

(1998) demonstram que a soma de quadrados dos elementos da matriz de

resíduos tS LL− −Ψ é menor ou igual a p

λ∑ . Assim, um pequeno valor da soma

de quadrados dos últimos (p-m) autovalores negligenciados implica em uma

pequena soma de quadrados do erro da aproximação realizada por m

componentes. O ideal é obter uma elevada contribuição dos primeiros fatores para

a variação total amostral. Assim, verifica-se que:

2 2 2 2 tij 1j 2 j pj j j j j j

ˆ ˆ ˆˆ ˆ... e e=

= + + + = λ λ = λ∑ (9.24)

Logo, a porcentagem da variação total devida ao j-ésimo fator é dada

ˆ100 para fatores de S

Tr(S)%VarExp

ˆ100 para fatores de R

⎧ λ×⎪

⎪⎪= ⎨⎪λ⎪ ×⎪⎩

(9.25)

O critério (9.25) é usado como um artifício heurístico para determinar

o valor apropriado de m. O número de fatores comuns retidos deve aumentar até

que uma fração “adequada” da variação amostral tenha sido contemplada.

Exemplo 9.1. Em 24 tartarugas fêmeas foram mensuradas p = 3 variáveis X1, X2 e

X3, quais sejam, comprimento, largura e altura de carapaças transformadas por

logaritmo. A matriz de covariâncias amostrais é apresentada a seguir. Obter a

análise de fatores com m = 1 e m = 2 usando o método dos componentes

principais.

4,9810 3,8063 4,7740S 3,8063 3,0680 3,7183

4,7740 3,7183 4,8264

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Inicialmente foi testada a hipótese:

220 ii 0

0 00 0

σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ = σ⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦

O valor de qui-quadrado obtido foi de 2c 127,9805χ = com ν=3 graus

de liberdade. Como ( )2Pr 127,9805 0,00000054χ > = rejeita-se H0 de independência

entre todas as variáveis. Portanto, a análise de fatores deve ser eficiente.

A solução para m = 1 é apresentada a seguir. A solução de 1 fator

explica 98,2% da variação total e pode ser julgada satisfatória. A soma de

quadrados dos dois últimos autovalores, dada por 2 22 3

ˆ ˆ 0,0291λ + λ = , foi considerada

muito pequena e indica que a soma de quadrados dos elementos da matriz de

resíduos não deve ultrapassar esse valor. Os resultados obtidos são:

Variáveis

Cargas fatoriais F1

Comunalidades 2ih

Variâncias específicas

iψ X1 2,2165 4,9129 0,0681 X2 1,7277 2,9849 0,0831 X3 2,1770 4,7394 0,0870

% explicação 98,1500

A matriz de resíduos é dada por:

4,9810 3,8063 4,77403,8063 3,0680 3,71834,7740 3,7183 4,8264

2, 2165 0,0681 0 01,7277 2, 2165 1,7277 2,1770 0 0,0831 02,1770 0 0 0,0870

0 0,0228 0,05150,0228 0 0,04290,0515 0,

− − Ψ =

⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥⎣ ⎦

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

− −= − −

− − 0429 0

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

A soma de quadrados dos elementos dessa matriz de resíduos é de

apenas 0,01003, que é menor do que 0,0291 conforme já era esperado.

Para m = 2 a solução é dada por:

Cargas fatoriais Variáveis F1 F2

Comunalidades 2ih

Variâncias específicas

iψ X1 2,2165 0,1630 4,9394 0,0418 X2 1,7277 0,1608 3,0108 0,0575 X3 2,1770 -0,2935 4,8255 0,0003

% explicação acumulada

A soma de quadrados de resíduos para esse caso (m = 2) é igual a

0,0049, a qual é limitada por 0,0099. Uma vez que os ganhos foram muito

pequenos, o modelo de 1 fator pode ser julgado adequado. O fator 1 pode ser

interpretado como um fator de volume.

Uma aproximação modificada do método dos componentes

principais é denominada solução fatorial principal. O procedimento é válido tanto

para R quanto para S. A descrição que é realizada a seguir utiliza a matriz R. No

modelo de fatores tLLρ = + Ψ é perfeitamente especificado: os m fatores comuns

reconstituirão perfeitamente os elementos fora da diagonal principal de ρ, bem

como os elementos da diagonal com a participação da variância específica:

2i i1 h= +ψ .

Supondo que a contribuição dos fatores específicos seja removida

da reconstituição de ρ, então, a matriz resultante é ρ - Ψ = tLL . Suponha, também,

que estimativas iniciais *iψ tenham sido obtidas por um meio qualquer, então, é

possível definir a matriz de correlação amostral reduzida (Rr) eliminando o efeito

dos fatores específicos por *rR R= −Ψ . Esse processo é equivalente a substituir a

diagonal de R por *2 *i ih 1= −ψ . A matriz Rr é definida por:

*21 12 1p

*221 2 2p*

*2p1 p2 p

h r rr h r

⎡ ⎤⎢ ⎥⎢ ⎥= −Ψ = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(9.26)

Teoricamente, desconsiderando a variação amostral, é possível

estabelecer que a matriz Rr pode ser recomposta pelos m fatores comuns. Dessa

forma, Rr é fatorada em:

* *tr r rR L L≅ (9.27)

em que *rL é a matriz dos estimadores das cargas fatoriais *

O método fatorial principal de análise de fatores utiliza os

estimadores:

* * * * * * *r 1 1 2 2 m m

m* *2i ij

ˆ ˆ ˆˆ ˆ ˆL e e e

⎧ ⎡ ⎤= λ λ λ⎪ ⎢ ⎥⎣ ⎦⎪⎪⎨⎪⎪ψ = −⎪⎩

(9.28)

em que ( )* *i í

ˆ ˆ; eλ , i = 1, 2, ..., m são os (maiores) pares de autovalor-autovetor

obtidos de Rr.

As comunalidades devem ser re-estimadas por:

*2 *2i ij

= ∑ (9.29)

O método, então, é aplicado iterativamente, considerando as

comunalidades estimadas em (9.29) para recalcular a matriz Rr em (9.26). Os

autovalores e autovetores dessa nova matriz Rr são obtidos e as estimativas das

cargas fatoriais e variâncias específicas utilizando (9.28) são novamente obtidas.

Novas comunalidades, também, são obtidas utilizando (9.29) e o processo é

repetido em novos estágios sucessivos, até que não haja alterações nas

estimativas das cargas fatoriais e das variâncias específicas para uma dada

precisão.

Um problema que pode surgir nesse procedimento é o aparecimento

de autovalores de Rr negativos. Recomenda-se utilizar o número de fatores

comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores

negativos é devida aos valores iniciais das variâncias específicas utilizadas.

Algumas alternativas existem para a escolha desses valores iniciais. A mais

popular é utilizar * iii 1 rψ = , em que rii é o elemento da i-ésima diagonal da matriz

R-1. As comunalidades iniciais são, então, dadas por:

*2 *i i ii

1h 1 1r

= −ψ = − (9.30)

que é igual ao coeficiente de determinação parcial múltiplo entre a i-ésima variável

(Xi) e as (p-1) demais variáveis. Essa relação é útil, pois permite que *2ih seja

obtida pelo coeficiente de determinação múltiplo, mesmo quando R não tiver posto

completo. Usando S, a variância específica inicial é função de Sii, o elemento da i-

ésima posição da diagonal de S-1, da seguinte forma:

*2 iii ii

mh S 1 S2p

⎛ ⎞= − −⎜ ⎟

⎝ ⎠ (9.31)

9.3.2. Método da máxima verossimilhança

Se os fatores comuns F e os fatores específicos ε possuem

distribuição normal, estimativas de máxima verossimilhança podem ser obtidas.

Do modelo de fatores e da consideração de que as variáveis F e ε possuem

distribuição normal pode concluir que j j jX LF−µ = + ε também é normalmente

distribuído e portanto a função de verossimilhança é:

( )( ) ( )( )

( ) ( )

n / 2np / 2

n tt1j j

(n 1) / 2(n 1)p / 2 1n

t1/ 2p / 2 1

L( , ) (2 )

1exp tr X X X X n X X2

1(2 ) exp tr S2

n(2 ) exp tr X X2

−−

− −− − −

−− −

µ Σ = π Σ

⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪⎛ ⎞× − Σ − − + − µ − µ =⎢ ⎥⎨ ⎬⎜ ⎟⎜ ⎟⎝ ⎠ ⎢ ⎥⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭

⎧ ⎫⎛ ⎞ ⎡ ⎤= π Σ − Σ⎨ ⎬⎜ ⎟ ⎣ ⎦⎝ ⎠⎩ ⎭⎧ ⎫⎛ ⎞ ⎡ ⎤× π Σ − − µ Σ −µ⎨ ⎜ ⎟ ⎢ ⎥⎣ ⎦⎝ ⎠⎩

⎬⎭

(9.32)

a qual depende de L e Ψ por meio de tLLΣ = +Ψ .

Devido à multiplicidade de escolhas para L dadas por

transformações ortogonais é imperativo impor uma restrição de unicidade

computacional por:

t 1L L−Ψ = ∆ uma matriz diagonal (9.33)

Os estimadores de máxima verossimilhança L e Ψ devem ser

obtidos por maximização numérica de (9.32). A maximização de (9.32) sujeita a

condição de unicidade (9.33) deve satisfazer:

( )( ) ( )1/ 2 1/ 2 1/ 2 1/ 2n

ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L− − − −Ψ Ψ Ψ = Ψ Ι + ∆ (9.34)

Lawley (1940, 1942, 1943) mostra que o estimador ∆ é dado por:

t 1ˆ ˆ ˆ ˆL L−∆ = Ψ (9.35)

Assim, a equação (9.34) pode ser rescrita de outra forma,

procedendo as seguintes operações:

( ) ( )

1/ 2 1/ 2 1/ 2 1/ 2 t 1n

1/ 2 1/ 2 1/ 2 1/ 2 1/ 2 t 1n

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L L L

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L LL L

− − − − −

− − − − − −

Ψ Ψ Ψ = Ψ Ι + Ψ

Ψ Ψ Ψ −Ψ = Ψ Ψ

( )1/ 2 1/ 2 1/ 2 1/ 2 t 1n

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L LL L− − − − −Ψ Ψ − Ι Ψ = Ψ Ψ

( )1/ 2 1/ 2 1/ 2 1/ 2 t 1n

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L LL L− − − − −⎡ ⎤Ψ −Ψ Ψ Ψ = Ψ Ψ⎣ ⎦ (9.36)

Como t 1ˆ ˆ ˆL L−Ψ é uma matriz diagonal para garantir que os elementos

de L sejam únicos, então, os autovalores de ( ) 1n

ˆ ˆS −−Ψ Ψ , e portanto

( )1/ 2 1/ 2n

ˆ ˆ ˆS− −Ψ −Ψ Ψ , são iguais aos valores correspondentes a diagonal de ∆ .

Dessa forma, a i-ésima coluna de 1/ 2ˆ L−Ψ é o vetor característico correspondente

ao i-ésimo autovalor de ( )1/ 2 1/ 2n

ˆ ˆ ˆS− −Ψ −Ψ Ψ . O cálculo desses vetores não é um

processo direto, uma vez que os elementos de Ψ são também desconhecidos, os

quais devem ser obtidos da relação tˆ ˆ ˆDiag(S LL )Ψ = − . Sendo assim, o processo de

estimação deve ser executado iterativamente estimando-se os vetores

característicos correspondentes a valores iniciais de os elementos de Ψ , e então,

utilizá-los para obter novas estimativas mais precisas das variâncias específicas

sucessivamente.

Para o modelo com m fatores os vetores característicos

correspondentes aos m maiores autovalores de Sn podem ser utilizados como

valores iniciais do processo iterativo. Os elementos desses vetores devem ser re-

escalonados para que as somas de seus quadrados sejam iguais aos respectivos

autovalores. O processo iterativo é descrito a seguir:

1. Calcular as m raízes características ( )10 20 m0ˆ ˆ ˆ, ,...,λ λ λ de Sn e os vetores

característicos correspondentes ( )10 20 m0ˆ ˆ ˆe ,e ,..., e , de tal sorte que seus

elementos sejam re-escalonados para que tenham norma quadrática igual

a i0λ , na matriz 0P apresentada a seguir, com i = 1, 2, ..., m. Seja a matriz

0Q (p x m) definida por [ ]0 10 20 m0ˆ ˆ ˆ ˆQ e e ... e= , sem re-escalonar. Dessa forma,

é possível definir as matrizes 0Λ (m x m) e 0P (p x m) por:

ˆ 0 0ˆ0 0ˆ

⎡ ⎤λ⎢ ⎥

λ⎢ ⎥Λ = ⎢ ⎥⎢ ⎥⎢ ⎥λ⎣ ⎦

1/ 20 0 0

ˆˆ ˆP Q= Λ

2. Aproximar as variâncias específicas por:

( )t0 n 0 0

ˆ ˆ ˆDiag S P PΨ = − (9.37)

3. Obter a matriz

( )1/ 2 1/ 20 n 0 0

ˆ ˆ ˆS− −Ψ −Ψ Ψ (9.38)

e extrair os m autovetores ( )11 21 m1ˆ ˆ ˆe ,e ,..., e e os correspondentes autovalores

( )11 21 m1ˆ ˆ ˆ, ,...,λ λ λ dessa matriz. Formar a matriz [ ]1 11 21 m1

ˆ ˆ ˆ ˆQ e e ... e= sem re-

escalonar e definir as matrizes:

ˆ 0 0ˆ0 0ˆ

⎡ ⎤λ⎢ ⎥

λ⎢ ⎥Λ = ⎢ ⎥⎢ ⎥⎢ ⎥λ⎣ ⎦

1/ 21 1 1

ˆˆ ˆP Q= Λ

A primeira aproximação de L ( )1L é dada por:

1/ 21 0 1

ˆ ˆ ˆL P= Ψ (9.39)

4. Calcular

( )t1 n 1 1

ˆ ˆ ˆDiag S L LΨ = − (9.40)

Repetir os passos 3 e 4 até que os correspondentes elementos de

sucessivas iterações de iL e i 1L + não difiram por um valor superior a uma

quantidade pré-determinada (critério de convergência). O resultado final do

processo iterativo conterá as estimativas de máxima verossimilhança para as

cargas fatoriais L e das variâncias específicas para o modelo m-fatorial. É

apresentado a seguir um programa SAS no procedimento de matrizes IML para a

obtenção de estimativas de máxima verossimilhança do modelo m-fatorial.

As cargas fatoriais e as variâncias específicas da matriz R podem

ser obtidas diretamente de L e Ψ realizando as seguintes transformações.

Formar a matriz diagonal (D) a partir dos elementos Sii de S. Então obter as

estimativas de máxima verossimilhança de R para as cargas fatoriais ( )ZL e para

as variâncias específicas ZΨ . Esses estimadores são:

ˆ ˆL D L−= (9.41)

1/ 2 1/ 2Z

ˆ ˆD D− −Ψ = Ψ (9.42)

As estimativas de máxima verossimilhança das comunalidades são

dadas por:

2 2 2 2i i1 i2 im

ˆ ˆ ˆ ˆh ... para i 1, 2, ..., p= + + + = (9.43)

options ps=5000 ls=80 nodate nonumber;; proc iml; S={4.9810 3.8063 4.7740, 3.8063 3.0680 3.7183, 4.7740 3.7183 4.8264}; p=ncol(S);n=24;alpha=0.05; L0=Diag(eigval(S));P0=eigvec(S); numfac=1;numIt=100; L0=L0[1:numfac,1:numfac]; P0=P0[1:p,1:numfac];P0=P0*root(L0); print L0 P0; Psi0=diag(S-P0*P0`); print psi0; psii=psi0; do i=1 to numIt; Print '_______________________________________________________________'; print 'iteracao ' i; Print'________________________________________________________________'; Delta=inv(root(psii))*(S-psii)*inv(root(psii)); *print delta; Li=Diag(eigval(delta));Pi=eigvec(delta); Li=Li[1:numfac,1:numfac]; Pi=Pi[1:p,1:numfac]; Pi=root(psii)*Pi*root(Li); *print Li Pi; Psii=diag(S-Pi*Pi`); /*soma de quadrados dos residuos do modelo*/ resi=S-pi*pi`-psii; print 'Soma de quadrados dos residuos'; SQResiduo=sum(resi#resi); print sqresiduo; *print psii; Print'________________________________________________________________'; end; Print 'Solucao final do modelo de fatores'; Print 'Cargas fatoriais'; print Pi; print 'Variancias especificas'; print psii; resi=S-pi*pi`-psii; print 'matriz de residuos'; print resi; print 'Soma de quadrados dos residuos'; SQResiduo=sum(resi#resi); print sqresiduo; print 'Cargas fatoriais de Z-variaveis padronizadas'; D=root(inv(diag(S))); PiZ=D*Pi; print PiZ; print 'Variancias especificas fatoriais de Z-variaveis padronizadas'; PsiZ=D*psii*D; print PsiZ; Li=Diag(eigval(delta)); print Li; quit;

Dessa forma, a proporção explicada pelo j-ésimo fator é dada por:

p2Z(i j)

ˆ100 para fatores de S

Tr(S)%VarExp

ˆ100 para fatores de R

⎧⎪⎪ ×⎪⎪= ⎨⎪⎪⎪ ×⎪⎩

(9.44)

O processo descrito anteriormente para a obtenção das soluções de

máxima verossimilhança possui convergência lenta. Aitken (1937) propôs uma

técnica conhecida por processo δ2 de aceleração dos esquemas iterativos de

convergência. Seja jt os elementos do t-ésimo processo iterativo, referente a j-

ésima coluna da matriz de cargas fatoriais Lt do estágio t. O processo de Aitken

(1937) prevê para 3 consecutivos valores de jt o ajuste pela razão:

ij( t 1) ijt

ijt ij( t 1)2i j t

ij( t 1) ijt ij( t 1)2

=− +

(9.45)

em que ijt é o i-esimo elemento de jt . Se o denominador de (9.45) for nulo o

valor de 2i j t deve ser feito igual a i j t .

Aitken (1937) mostra que os termos de 2j t convergem mais

rapidamente do que àqueles de j t .

Exemplo 9.2. Utilizando a matriz de covariâncias amostral das 24 tartarugas

fêmeas que foram mensuradas em p = 3 variáveis X1, X2 e X3, as quais são:

comprimento, largura e altura de carapaças transformadas por logaritmo,

determinar o modelo de fatores com m = 1. Ajustar o modelo por meio de

estimativas de máximas verossimilhanças.

4,9810 3,8063 4,7740S 3,8063 3,0680 3,7183

4,7740 3,7183 4,8264

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

i) Inicialmente foram obtidos os autovalores e autovetores de S e

compostas as matrizes 0 0 0ˆˆ ˆ(1 1), Q (3 1) e P (3 1)Λ × × × por:

0ˆ 12,637147Λ = 0

0,6234937Q 0, 4859812

0,612436

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

1/ 20 0 0 0

2, 2164432ˆˆ ˆ ˆL P Q 1,727603

2,1771344

⎡ ⎤⎢ ⎥= = Λ = ⎢ ⎥⎢ ⎥⎣ ⎦

ii) As variâncias específicas iniciais foram obtidas por:

( )t0 n 0 0

0,0683794 0 0ˆ ˆ ˆDiag S P P 0 0,0833879 0

0 0 0,0864857

⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦

iii) Foi obtida a seguinte matriz e desta extraídos os autovalores e

autovetores. O m = 1 primeiro autovalor e autovetor correspondente

foram usados para compor as matrizes 1 1 1ˆˆ ˆ(1 1), Q (3 1) e P (3 1)Λ × × × .

( )1/ 2 1/ 20 n 0 0

71,843527 50,406739 62,079406ˆ ˆ ˆS 50,406739 35,791891 43,784534

62,079406 43,784534 54,805777

− −

⎡ ⎤⎢ ⎥Ψ −Ψ Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦

1ˆ 161,45963Λ = 1

0,6657947Q 0,4691915

0,5801523

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

1/ 21 1 1

8,4600381ˆˆ ˆP Q 5,9618652

7,3718074

⎡ ⎤⎢ ⎥= Λ = ⎢ ⎥⎢ ⎥⎣ ⎦

Finalmente a primeira aproximação 1L é feita por:

1/ 21 0 1

2,2122546ˆ ˆ ˆL P 1,721606

2,167934

⎡ ⎤⎢ ⎥= Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦

iv) Foi calculado o segundo valor 1Ψ por:

( )t1 n 0 0

0,0869296 0 0ˆ ˆ ˆDiag S L L 0 0,1040727 0

0 0 0,1264622

⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦

Os procedimentos 3 e 4 foram repetidos 41 vezes até que as trocas

na matriz (vetor) L fosse da ordem de 1e-7 ou menos. O resultado final foi:

1/ 241 40 41

2,2106526ˆ ˆ ˆL P 1,7217993

2,1595433

⎡ ⎤⎢ ⎥= Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦

( )t41 n 41 41

0,0940152 0 0ˆ ˆ ˆDiag S L L 0 0,1034073 0

0 0 0,1627727

⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦

A matriz de resíduos (R) foi:

0 2,9835E-8 3,7474E-8R 2,9835E-8 0 -7,05E-8

3,7474E-8 -7,05E-8 0

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

E a soma de quadrados dos resíduos foi:

SQResíduos= 1,453E-14

As cargas fatoriais obtidas das variáveis padronizadas são:

1 0 04,9810 2,2106526 0,9905177

1ˆ ˆL D L 0 0 1,7217993 0,9830033,0680 2,1595433 0,9829926

10 04,8264

⎡ ⎤⎢ ⎥⎢ ⎥ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

E as variâncias específicas são:

1/ 2 1/ 2Z

0,0188748 0 0ˆ ˆD D 0 0,0337051 0

0 0 0,0337255

− −

⎡ ⎤⎢ ⎥Ψ = Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦

Exemplo 9.3. A matriz de correlação entre 10 escores das respectivas 10 provas

do declato, medidas em n = 160 atletas, está apresentada a seguir. Obter os m = 4

fatores pelo método da máxima verossimilhança. As dez variáveis mensuradas

são: i) corrida de 100 m rasos; ii) salto em distância; iii) lançamento de peso; iv)

salto em altura; v) corrida dos 400m livres; vi) 110 m com barreiras; vii) arremesso

de disco; viii) salto com vara; ix) arremesso de dardos; e x) corrida de 1500 m. A

matriz de correlação dos escores dos 160 competições.

1,00 0,59 0,35 0,34 0,63 0, 40 0, 28 0, 20 0,11 0,071,00 0, 42 0,51 0, 49 0,52 0,31 0,36 0, 21 0,09

1,00 0,38 0,19 0,36 0,73 0, 24 0, 44 0,081,00 0, 29 0, 46 0, 27 0,39 0,17 0,18

1,00 0,34 0,17 0, 23 0,13 0,39R

1,00 0,32 0,33 0,18 0,001,00 0, 24 0,34 0,0

− 21,00 0, 24 0,17

1,00 0,001,00

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥−⎢ ⎥⎢ ⎥⎣ ⎦

A solução de m = 4 fatores, dada por Johnson e Wichern (1998), foi

obtida pelo algoritmo apresentado nesse material por meio das estimativas de

máxima verossimilhança. Após 100 mil iterações o algoritmo convergiu.

Estimativas de máxima verossimilhança

Cargas fatoriais estimadas Variâncias

específicas Variáveis

ˆˆ 1 hψ = −

Corrida 100m -0,0869 0,3449 0,8290 -0,1685 0,157935 Salto em distância 0,0688 0,4352 0,5931 0,2746 0,378693 Lançamento de peso -0,1294 0,9911 -0,0038 -0,0007 0,001053 Salto em altura 0,1603 0,4059 0,3343 0,4451 0,499688 corrida 400m 0,3787 0,2437 0,6702 -0,1372 0,329262 110m com barreira -0,0178 0,3629 0,4234 0,3878 0,538310 Arremesso de disco -0,0563 0,7294 0,0268 0,0182 0,463815 Salto com vara 0,1573 0,2640 0,2275 0,3937 0,698795 Arremesso de dardos -0,0218 0,4411 -0,0115 0,0971 0,795340 1500m rasos 0,9986 0,0496 -0,0004 -0,0001 0,000408 Proporção cumulativa da variância explicada

0,37 0,55

9.4. Rotação fatorial

A fatoração de Σ em tLL +Ψ não é única, conforme discussão

realizada na seção 9.2. A pós-multiplicação da matriz de cargas fatoriais L por

qualquer matriz ortogonal conformável (T) conduz a uma fatoração igualmente

válida. A solução numérica de Rao-Maxwell para as equações de verossimilhança

remove essa indeterminação por adotar a restrição de que t 1ˆ ˆ ˆL L−Ψ seja uma matriz

diagonal. Não obstante, após a obtenção da solução de máxima verossimilhança,

qualquer transformação ortogonal pode ser realizada. A idéia é aplicar tal

transformação rígida dos eixos coordenados, a qual conduz a um padrão que

tornam as cargas fatoriais mais facilmente interpretáveis. Essa rotação rígida dos

eixos coordenados das m-dimensões fatoriais é chamada de rotação das cargas

fatoriais.

Citado por Morrison (1974) Thurstone sugere um critério de resposta

de simples estrutura para a realização da rotação fatorial. Estruturas como a

sugerida raramente existe em dados reais e não será descrito o procedimento de

Thurstone. Outra técnica de uso limitado é a obtenção de rotação graficamente

dos fatores plotados dois a dois. A rotação analítica é o procedimento mais

comumente empregado. Na rotação ortogonal rígida as propriedades estatísticas

dos fatores ficam inalteradas, embora a matriz de cargas fatoriais não seja a

mesma. Supondo que a matriz p x m de cargas fatoriais seja submetida a uma

rotação rígida pela matriz ortogonal T (m x m) por meio da seguinte operação:

*L LT= . A ortogonalidade de T, isto é, tT T = tT T = Ι, faz com que as

comunalidade fiquem inalteradas:

m m*2 2 *2 2ij ij i i

j 1 j 1

h h= =

= ⇔ =∑ ∑

bem como a soma de seus quadrados:

2p p pm m m 1 m

2 4 2 2ij ij ij ik

i 1 j 1 i 1 j 1 i 1 j 1 k j 1

= = = = = = = +

⎛ ⎞= +⎜ ⎟

⎝ ⎠∑ ∑ ∑∑ ∑∑ ∑ (9.46)

também é invariante.

Com esse resultado em evidência é possível especificar critérios de

simplicidade ou parcimônia propostos pelos analistas de fatores (Morrison, 1976).

Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como

uma medida de parcimônia, por meio de uma escolha adequada de T. Esse

resultado foi determinado quase que ao mesmo tempo e independentemente por

Carroll (1953).

Neuhaus e Wrigley (1954) propuseram a maximização da variância

do quadrado das pm cargas fatoriais para definir T. A variância do quadrado das

cargas fatoriais é:

2p pm m

4 2ij ij

i 1 j 1 i 1 j 1

1Vpm= = = =

⎛ ⎞= − ⎜ ⎟

⎝ ⎠∑∑ ∑∑ (9.47)

Como o termo de correção é meramente soma das comunalidades

tomada ao quadrado, então, a maximização de V é equivalente a maximizar a

soma da quarta potência das cargas fatoriais, ou equivalentemente, minimizar a

medida de parcimônia de Fergusson (1954) e Carroll (1953). Por argumentos

diferentes Sanders (1960) obteve o mesmo critério de Neuhaus e Wrigley (1954).

Esse critério determina o método denominado de “quartimax” por maximizar a

soma da quarta potencia das cargas fatoriais.

Kaiser (1958, 1959) propôs uma medida de estrutura simples

relacionada a soma das variâncias das cargas fatoriais quadráticas dentro de cada

coluna da matriz L de fatores. O critério de “varimax” de linha de Kaiser é:

* 4 2ij ij2

j 1 i 1 i 1

1v pp = = =

⎡ ⎤⎛ ⎞= −⎢ ⎥⎜ ⎟

⎢ ⎥⎝ ⎠⎣ ⎦∑ ∑ ∑ (9.48)

Esse critério dá pesos iguais às respostas com grandes e com

pequenas comunalidades e Kaiser sugere a melhora desse critério pelo uso do

critério alternativo:

4 2ij ij2

j 1 i 1 i 1

1v p x xp = = =

⎡ ⎤⎛ ⎞= −⎢ ⎥⎜ ⎟

⎢ ⎥⎝ ⎠⎣ ⎦∑ ∑ ∑ (9.49)

em que:

ijij m

∑ (9.50)

é j-ésima carga fatorial do i-ésima variável resposta dividida pela raiz quadrada de

sua comunalidade. Na seqüência da rotação os valores de xij devem ser

multiplicados pela raiz quadrada de sua comunalidade respectiva para restaurar a

dimensão original. Esse critério foi nomeado por Kaiser de “varimax”.

O processo computacional para a rotação varimax é descrito a

seguir. Considere o par de fatores r e s, com cargas normalizadas xir e xis. A

rotação desses fatores envolve o simples ângulo φ, e diferenciando (9.49) com

relação a φ Kaiser mostrou que o ângulo deve satisfazer a relação:

( ) ( )

( ) ( ) ( )

p p p2 2 2 2ir is ir is ir is ir is

i 1 i 1 i 1

2 2p p p22 2 2 2

ir is ir is ir is ir isi 1 i 1 i 1

2 2p x x x x x x 2 x xtg( )

p x x 2x x x x 2 x x

⎡ ⎤⎛ ⎞− − −⎢ ⎥⎜ ⎟

⎝ ⎠⎣ ⎦φ =⎧ ⎫⎡ ⎤ ⎛ ⎞⎪ ⎪⎡ ⎤− − − − −⎨ ⎬⎜ ⎟⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎝ ⎠⎪ ⎪⎩ ⎭

∑ ∑ ∑

∑ ∑ ∑ (9.51)

Para que a segunda derivada seja negativa é necessário que 4φ seja

colocado no quadrante correto. A escolha é designada pelos sinais do numerador

e denominador de (9.51). A Tabela 9.1 especifica o quadrante de 4φ em função

destes sinais.

A solução iterativa para a rotação é realizada de acordo com os

seguintes procedimentos: a rotação do primeiro e segundo fator é realizada como

ângulo φ determinado conforme descrição anterior; o novo primeiro fator é rotado

com o terceiro fator original, e assim por diante, até que m(m-1)/2 pares de

rotações tenham sido executadas. Essa seqüência de rotações é repetida até que

“todos” os ângulos sejam menores que um critério de convergência especificado ε,

dentro de um ciclo.

Tabela 9.1. Quadrante do ângulo 4φ em função dos sinais do numerador e

denominador da equação (9.51).

Sinal do numerador Sinal do denominador + (positivo) - (negativo)

+ (positivo) Ι: 00≤4φ<900 ΙV: -900≤4φ<00

- (negativo) ΙΙ: 900≤4φ<1800 ΙΙΙ: -1800≤4φ<-900

Exemplo 9.4. Efetuar a rotação varimax dos m = 3 fatores obtidos por Morrison

(1974) apresentados a seguir.

(incompleto)

9.5. Teste da falta de ajuste do modelo de fatores

A natureza das estimativas de máxima verossimilhança das cargas

fatoriais conduz a um teste formal para o m-ésimo modelo fatorial. A hipótese nula

H : LL

H : uma matriz p p p.d. sim.

⎧ Σ = +Ψ⎪⎨⎪ Σ ×⎩

(9.52)

Usando a distribuição de Wishart, Morrison (1976) mostra que a

razão de verossimilhança fornece o seguinte teste, com a correção de Bartlett

(1954):

ˆ ˆ ˆLL(2p 4m 5)n 1 ln6 S

⎧ ⎫+ Ψ+ + ⎪ ⎪⎡ ⎤χ = − − ⎨ ⎬⎢ ⎥⎣ ⎦ ⎪ ⎪⎩ ⎭ (9.53)

o qual tem distribuição qui-quadrado para grandes amostras com:

21 (p m) p m2⎡ ⎤ν = − − −⎣ ⎦ (9.54)

graus de liberdade.

Pela propriedade da invariância das cargas e das variâncias

específicas estimadas segue-se que o valor do teste seria o mesmo da solução de

fatores da matriz de correlação R. Para a aplicação do teste da falta de ajuste é

necessário que os graus de liberdade sejam positivos. Isso significa que o número

de fatores comuns m não pode exceder o maior inteiro que satisfaz a equação:

( )1m 2p 1 8p 12

< + − + (9.55)

O teste de razão de verossimilhança compara as variâncias

generalizadas tˆ ˆ ˆLL +Ψ e nS . Se m for pequeno em relação a p, geralmente H0 é

rejeitada, conduzindo a um modelo com um maior número de fatores comuns. Por

outro lado, quando m for grande em relação a p, a hipótese tende a ser não

rejeitada, principalmente para grandes valores de n. Isso acontece devido ao fato

de tˆ ˆ ˆLL +Ψ aproximar de Sn, de tal sorte que o acréscimo de novos fatores não

traga novas melhoras ao modelo. A diminuição de m pode, ainda, pelas mesmas

razões levar a não rejeição de H0. Algum tipo de bom sendo deve ser aplicado na

escolha de m.

Para demonstrar que a padronização das variáveis não afeta o teste

apresentado seja 1/ 2D− definida anteriormente a matriz diagonal com o recíproco

dos desvios padrões das p variáveis na diagonal principal. Então, a razão que

aparece na equação (9.53) pode ser operada por:

t 1/ 2 t 1/ 2

1/ 2 1/ 2n n

ˆ ˆ ˆ ˆ ˆ ˆLL D LL D

S D S D

− −

+ Ψ +Ψ=

uma vez que a multiplicação do numerador e denominador não altera o resultado

final.

Pela propriedade do determinante |AB|=|A|×|B|, verifica-se que:

t 1/ 2 t 1/ 2 1/ 2 1/ 2 tZ Z z

1/ 2 1/ 2n n

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆLL D LL D D D L L

S RD S D

− − − −

− −

+ Ψ + Ψ +Ψ= =

Dessa forma o teste de qui-quadrado é exatamente o mesmo,

quando for aplicado a partir da matriz Sn ou da matriz R, com os dados

padronizados.

9.6. Escores fatoriais

Os fatores são variáveis não observáveis, muito embora seus

valores possam ser estimados. Os valores estimados dos fatores são

denominados de escores. Dois métodos de estimação são propostos. Ambos

tratam as cargas fatoriais e as variâncias específicas estimadas como se fossem

os verdadeiros valores desconhecidos. Se ocorrer rotação, os escores são obtidos

a partir das cargas fatoriais que sofreram rotação e não a partir das originais. Não

obstante, as fórmulas não distinguirão entre as situações em que ocorreu rotação

daquelas em não ocorreu, uma vez que estas fórmulas não são alteradas pelas

rotações.

9.6.1. Método dos mínimos quadrados ponderados

Suponha que µ , L e Ψ sejam considerados inicialmente como

conhecidos para o modelo fatorial:

X LF−µ = + ε

Como Var(εi)=ψi, não necessariamente igual para todo i, Bartlett

(1937) sugeriu o uso dos quadrados mínimos ponderados, usando como peso o

recíproco das variâncias específicas. A soma de quadrados de resíduos do

modelo fatorial ponderada é dada por:

( ) ( )2p tt 1 1i

X LF X LF− −

ε= ε Ψ ε = −µ − Ψ −µ −

ψ∑ (9.56)

Bartlett (1937) propôs a solução F que minimiza (9.56). A solução é:

( ) ( )1t 1 t 1F L L L X−− −= Ψ Ψ −µ (9.57)

Como, de fato, L, Ψ e µ são desconhecidos, os respectivos

estimadores devem ser utilizados para a obtenção dos escores fatoriais:

( ) ( )1t 1 t 1j j

ˆ ˆ ˆ ˆ ˆ ˆF L L L X X j 1, 2, ..., n−

− −= Ψ Ψ − = (9.58)

Se a matriz de correlação for utilizada, então:

( ) 1t 1 t 1j Z Z Z Z Z j

ˆ ˆ ˆ ˆ ˆ ˆF L L L Z j 1, 2, ..., n−

− −= Ψ Ψ = (9.59)

Se as cargas fatoriais que sofreram rotação são usadas *ˆ ˆL LT= ,

então, jF se relaciona com *jF por:

ˆ ˆF T 'F= (9.60)

9.6.2. Método de regressão

A partir do modelo de fatores originais:

X LF−µ = + ε

Considerando que L e Ψ são conhecidas, e que F e ε possuem

distribuição normal multivariada com média e variâncias dadas pelas equações de

(9.3) a (9.6), a combinação linear X LF−µ = + ε tem distribuição ( )tpN 0, LL +Ψ . A

distribuição conjunta de X −µ e F é, também, ( )*m pN 0,+ Σ ; em que:

⎡ ⎤+ ΨΣ = ⎢ ⎥Ι⎣ ⎦

(9.61)

A média 0 é um vetor [(m+p)×1] de zeros. A distribuição condicional

de F / x é normal com média e variância dados por:

( ) ( ) ( ) ( )1t 1 t tE F / x L x L LL x−−= Σ −µ = +Ψ −µ (9.62)

( ) ( ) 1t 1 t tCov F / x L L L LL L−−= Ι − Σ = Ι − +Ψ (9.63)

Os coeficientes ( ) 1t tL LL−

+ Ψ são os coeficientes de uma regressão

multivariada dos fatores com as variáveis originais. As estimativas desses

coeficientes produzem os escores fatoriais. Dados as observações jX e tomando-

se os estimadores de máxima verossimilhança L e Ψ os escores dos fatores são

dados por:

( ) ( )1t tj j

ˆ ˆ ˆ ˆ ˆF L LL X X j 1, 2, ..., n−

= +Ψ − = (9.64)

O uso da identidade de matrizes:

( ) ( )1 1t t t 1 t 1ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆL LL L L L− −

− −+Ψ = Ι + Ψ Ψ (9.65)

pode simplificar o cálculo dos escores dos fatores, os quais são dados por:

( ) ( )1t 1 t 1j j

ˆ ˆ ˆ ˆ ˆ ˆF L L L X X j 1, 2, ..., n−

− −= Ι + Ψ Ψ − = (9.66)

A comparação dos escores fatoriais obtidos por regressão (LS) e por

mínimos quadrados ponderados (WLS) pode ser realizada subtraindo os

estimadores (9.66) e (9.58). Assim, simbolizando os estimadores de regressão por

LSjF e o de mínimos quadrados ponderados por WLS

jF e usando a identidade de

matriz dada por:

( ) ( )1 1t t 1 t 1 t 1ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆL LL L L L− −

− − −+ Ψ = Ι + Ψ Ψ

Tem-se:

( ) ( ) ( )1 1WLS t 1 t 1 LS LSt 1

j j jˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆˆ ˆ ˆF L L L L F FL L

− −− − −⎡ ⎤= Ψ Ι + Ψ = Ψ + Ι⎢ ⎥⎣ ⎦

Pelas estimativas de máxima verossimilhança verifica-se que

( ) 1t 1ˆ ˆ ˆL L−−Ψ é uma matriz diagonal e quando o seu valor for próximo de zero os

estimadores anteriores serão aproximadamente os mesmo, ou seja, os

estimadores anteriores fornecerão aproximadamente os mesmos escores.

9.7. Exercícios

9.7.1. Teste a hipótese de que o modelo com m = 1 fator, apresentado no exemplo

9.1, é adequado utilizando o teste de qui-quadrado para falta de ajuste do

modelo.

9.7.2. Para o exemplo 9.3 testar a aderência do modelo com m = 4 fatores.

9.7.3. Obter estimativas de máxima verossimilhança para m = 1 e m = 2 dos dados

apresentados no exemplo 7.6.7 e calcular os escores pelos dois métodos

apresentados. Para o caso de m = 2 fatores plotar os escores dos dois

fatores obtidos.

||[ ]||Análise de correlação canônica

10.1. Introdução

A análise de correlação canônica é centrada na identificação e

quantificação da associação entre dois grupos de variáveis. O foco da correlação

canônica é direcionado para a correlação entre uma combinação linear das

variáveis em um dos grupos com uma outra combinação linear das variáveis do

outro grupo de variáveis. A idéia fundamental é, a princípio, determinar as

combinações lineares dos dois grupos que possuem a maior correlação. No

próximo estágio, é determinado o par de maior correlação que seja, ainda, não

correlacionado com o par selecionado inicialmente. O processo continua até se

esgotar as dimensões de ambos os grupos ou do menor grupo. Os pares de

combinações lineares são denominados de variáveis canônicas e suas

correlações são chamadas de correlações canônicas. A técnica de encontrar

essas combinações lineares e suas respectivas correlações é devida a Hotelling

(1935 e 1936).

A idéia fundamental é encontrar relações entre dois conjuntos de

variáveis, em alta dimensão, em poucos pares de variáveis canônicas. Várias

aplicações nas ciências humanas, na genética entre outras áreas são encontradas

na literatura.

10.2. Variáveis canônicas e correlação canônica populacionais

Seja X um vetor de dimensão (p+q x 1), o qual possui matriz de

covariância Σ e média µ . Sejam os vetores (1)X (p x 1) e (2)X (q x 1) definidos

como sendo originados de uma partição do vetor original X , representando um

grupo com p variáveis e outro com q, respectivamente. Sem perda de

generalidade é assumido que p≤q. Pressupõe-se, também, que Σ possui

elementos finitos e é positiva definida. Para o vetor aleatório X , os seguintes

resultados são apresentados.

(1)1(1)2

(1)(1)p(2)(2)1(2)2

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥

⎡ ⎤ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(10.1)

Cuja média é:

(2)E(X)

⎡ ⎤µµ = = ⎢ ⎥

µ⎢ ⎥⎣ ⎦ (10.2)

E cuja matriz de covariância é:

( )( )t 11 12

E X Xq

Σ Σ⎡ ⎤Σ = −µ −µ = ⎢ ⎥Σ Σ⎣ ⎦

(10.3)

Assim, para os vetores (1)X (p x 1) e (2)X (q x 1) verifica-se que:

( ) ( )

(1) (1) (1)11

(2) (2) (2)22

(1) (2) t12 21

E X Cov X

Cov X , X

⎧ = µ = Σ⎪⎪⎪

= µ = Σ⎨⎪⎪⎪ = Σ = Σ⎩

(10.4)

As covariâncias entre pares de variáveis pertencentes aos dois

grupos, uma de (1)X e outra de (2)X , estão contidas em Σ12. Dessa forma, os pq

elementos de Σ12 medem a associação entre os dois grupos. Se ambos os valores

de p e q são grandes, a interpretação simultânea desse conjunto de covariâncias é

uma tarefa difícil e na maioria das vezes infrutífera. Como a finalidade, em geral, é

de realizar predição ou realizar comparação, o interesse pode ser focado em

combinações lineares das variáveis originais. A idéia é, portanto, concentrar a

atenção em algumas poucas combinações lineares de variáveis pertencentes a

(1)X e a (2)X , ao invés de utilizar todas as pq covariâncias contidas em Σ12.

Seguindo a notação normalmente utilizada na literatura

especializada, sejam as variáveis U e V combinações lineares das variáveis de

(1)X e de (2)X , respectivamente, definidas por:

⎧ =⎪⎨⎪ =⎩

(10.5)

sendo a e b vetores não nulos dos coeficientes dessas combinações lineares.

Assim,

( )( )

t (1) t11

t (2) t22

t (1) (2) t12

Var(U) Cov a X a a

Var(V) Cov b X b b

Cov(U, V) a Cov X , X b a b

⎧ = = Σ⎪⎪ = = Σ⎨⎪

= = Σ⎪⎩

(10.6)

A correlação entre U e V é definida por:

12U, V t t

a bCorr(U, V)a a b b

Σ= ρ =

Σ Σ (10.7)

Hotelling (1935 e 1936) propôs estabelecer os pares (Ui, Vi),

i=1, 2, ..., p, determinando os vetores ia e ib que maximizam (10.7). As variáveis

Ui e Vi são denominadas de variáveis canônicas e a correlação entre elas de

correlação canônica. Na seqüência são apresentados os resultados necessários

para a maximização de (10.7) e, portanto, para a obtenção das variáveis

canônicas e de suas correlações.

Para determinar o máximo de ρU,V, inicialmente são impostas as

restrições:

t t11 22a a b b 1Σ = Σ = (10.8)

A mudança de escala imposta pelas restrições (10.8) não afeta a

correlação (10.7). Para obter o máximo de ρU,V é preciso derivar a equação (10.7)

com relação aos vetores a e b e igualar as derivadas parciais a zero. As

equações obtidas são:

( ) ( ) ( )( )

1/ 2 1/ 2 3 / 2U,V t t t t22 11 12 12 11 11

1/ 2 1/ 2 3 / 2U,V t t t t t11 22 12 12 22 22

1b b a a b 2 a b a a aa 2

1a a b b a 2 a b b b bb 2

− − −

⎧ ⎡ ⎤∂ρ ⎛ ⎞−= Σ Σ Σ + Σ Σ Σ⎪ ⎢ ⎥⎜ ⎟∂ ⎝ ⎠⎪ ⎣ ⎦

⎪⎨⎪ ⎡ ⎤∂ρ ⎛ ⎞−⎪ = Σ Σ Σ + Σ Σ Σ⎢ ⎥⎜ ⎟⎪ ∂ ⎝ ⎠⎣ ⎦⎩

(10.9)

Igualando as derivadas parciais de (10.9) a zero e impondo as

restrições (10.8), rearranjando alguns termos, obtém-se:

t12 11 12

t t12 12 22

a b a b 0

a a b b 0

⎧− Σ Σ + Σ =⎪⎪⎨⎪Σ − Σ Σ =⎪⎩

(10.10)

É fácil observar que (10.7) sujeita as restrições (10.8) se torna igual

a tU, V 12a bρ = Σ , que é o valor máximo, então:

U, V 11 12

t12 U, V 22

⎧−ρ Σ + Σ =⎪⎨⎪Σ − ρ Σ =⎩

(10.11)

Assim, para solução de (10.11) é necessário que o determinante dos

coeficientes do sistema de equações homogêneas seja nulo. Logo,

U, V 11 12t12 U, V 22

0−ρ Σ Σ

=Σ −ρ Σ

(10.12)

Uma importante propriedade dos determinantes é reproduzida a

seguir. Seja uma matriz A com as seguintes partições:

A A⎡ ⎤

= ⎢ ⎥⎣ ⎦

(10.13)

O determinante de A, se A11 e A22 são não singulares, é dado por:

111 22 21 11 12

122 11 12 22 21

A A A A A A

⎧ = −⎪⎪⎨⎪ = −⎪⎩

(10.14)

Utilizando o resultado (10.14) no determinante (10.12), obtém-se os

seguintes resultados para a primeira equação:

t 1U, V 11 U, V 22 12 11 12

1 0−−ρ Σ −ρ Σ + Σ Σ Σ =ρ

Como U, V 11−ρ Σ é diferente de zero, pois Σ11 é positiva definida,

então, o determinante anterior só será zero se:

t 1U, V 22 12 11 12

1 0−−ρ Σ + Σ Σ Σ =ρ

Como o resultado dessa equação é zero, não há alteração se ambos

os termos da equação à esquerda da desigualdade for multiplicado por ( )U, Vρ . Se

procede da mesma forma para a segunda equação do determinante de (10.14). O

resultado final dessa derivação é:

1 t 212 22 12 U,V 11

t 1 212 11 12 U,V 22

⎧ Σ Σ Σ −ρ Σ =⎪⎪⎨⎪ Σ Σ Σ −ρ Σ =⎪⎩

(10.15)

Fazendo 2U,Vλ = ρ , verifica-se que as equações determinantais de

(10.15) podem ser vistas como maximização de pares de formas quadráticas

(capítulo 2) do tipo:

e Aee Be

restrito a te Be =1.

Assim, os resultados de (10.15) podem ser reescritos (capítulo 2) da

seguinte forma:

1 t12 22 12 11

t 112 11 12 22

a 0 (a)

b 0 (b)

⎧ Σ Σ Σ −λΣ =⎪⎪⎨⎪ Σ Σ Σ −λΣ =⎪⎩

(10.16)

A resolução do sistema de equações pode ser feita aplicando uma

transformação linear não singular. Isso é ilustrado doravante com a equação (a)

de (10.16). Seja 1/ 211Σ a matriz raiz quadrada de 11Σ e considere a transformação

linear 1/ 211c a= Σ , então, 1/ 2

11a c−= Σ . Se a equação (a) for pré-multiplicada por 1/ 211−Σ e

a for substituído por 1/ 211a c−= Σ , então:

( )1/ 2 1 t 1/ 211 12 22 12 11 11 c 0− − −Σ Σ Σ Σ −λΣ Σ =

( )1/ 2 1 t 1/ 2 1/ 2 1/ 211 12 22 12 11 11 11 11 c 0− − − − −Σ Σ Σ Σ Σ −λΣ Σ Σ =

Então a solução de (a) é dada pela solução do seguinte sistema de

equações homogêneas:

( )1/ 2 1 t 1/ 211 12 22 12 11 i ic 0− − −Σ Σ Σ Σ Σ −λ Ι = (10.17)

A solução de (10.17) é facilmente obtida pelo cálculo dos autovalores

(λi) e autovetores ( )ic de 1/ 2 1 t 1/ 211 12 22 12 11− − −Σ Σ Σ Σ Σ . Os autovalores (λi) dessa matriz são

os mesmos do sistema não transformados por serem invariantes com relação a

transformações não singulares, no entanto, os autovetores são afetados pela

transformação. Dessa forma, os autovetores devem ser recuperados pela

transformação linear inversa a efetuada. Assim,

1/ 2i 11 ia c−= Σ (10.18)

Tratamento igual é dado para a equação (b) de (10.16), agora

efetuando a transformação linear 1/ 222d b= Σ . Então,

( )1/ 2 t 1 1/ 222 12 11 12 22 i id 0− − −Σ Σ Σ Σ Σ −λ Ι = (10.19)

Os autovetores ib , soluções almejadas, são recuperados por:

1/ 2i 22 ib d−= Σ (10.20)

O máximo é obtido substituindo essas soluções em (10.7). Logo,

t12U, V 12t t

a bMax a ba a b ba,b

Σρ = = Σ

Da equação (10.10), sabendo que tU, V 12 ia bρ = Σ = λ , verifica-se que

( )2t12a bλ = Σ , logo:

( )U, V iMaxa,b

ρ = λ (10.21)

As variáveis canônicas têm as seguintes propriedades:

( )t (1) t t 1/ 2 1/ 2 ti i i 11 i i 11 11 11 i i iVar(U ) Cov a X a a c c c c− −= = Σ = Σ Σ Σ =

Sabendo que ic é um autovetor de 1/ 2 1 t 1/ 211 12 22 12 11− − −Σ Σ Σ Σ Σ com norma 1, e

procedendo da mesma forma para Var(Vi) verifica-se que:

( ) ( )i iVar U Var V 1= = (10.22)

A ( )kCov U , U com (k )≠ é dada por:

( ) ( )t (1) t (1) tk k k 11

t 1/ 2 1/ 2 t tk 11 11 11 k k

Cov U , U Cov a X , a X a a

c c c c c c 0 (k )− −

= = Σ =

= Σ Σ Σ = Ι = = ≠

( ) ( ) ( )

Cov U , U Corr U , U 0 k

Cov V , V Corr V , V 0 k

= = ≠⎧⎪⎨⎪ = = ≠⎩

(10.23)

Finalmente, a covariância entre Uk e V com ( )k ≠ é dada por:

( ) ( )t (1) t (2) tk k k 12

t 1/ 2 1/ 2k 11 12 22

Cov U , V Cov a X , b X a b

c d 0 (k )− −

= = Σ =

= Σ Σ Σ = ≠

( ) ( ) ( )k kCov U , V Corr U , V 0 k= = ≠ (10.24)

Para variáveis padronizadas (1) t (1) (1) (1)1 2 pZ Z Z Z⎡ ⎤= ⎣ ⎦ e

(2)t (1) (2) (2)1 2 qZ Z Z Z⎡ ⎤= ⎣ ⎦ as variáveis canônicas são dadas por:

t (1) t 1/ 2 (1)k k k 11

t (2) t 1/ 2 (2)k k k 22

U a Z c Z

V b Z d Z

⎧ = = ρ⎪⎨⎪ = = ρ⎩

(10.25)

em que kc e kd são os autovetores de norma 1 das matrizes 1/ 2 1 t 1/ 211 12 22 12 11− − −ρ ρ ρ ρ ρ e

1/ 2 t 1 1/ 222 12 11 12 22− − −ρ ρ ρ ρ ρ , respectivamente. Os autovetores originais devem ser

recuperados por:

1/ 2k 11 k

1/ 2k 22 k

⎧ = ρ⎪⎨⎪ = ρ⎩

(10.26)

em que: 11ρ (p x p), 12ρ (p x q) e 22ρ (q x q) são partições de ρ (p + q x p + q)

dadas por:

( ) 11 12t

E ZZqρ ρ⎡ ⎤

ρ = = ⎢ ⎥ρ ρ⎣ ⎦

(10.27)

de forma que:

( ) ( )

(1) (1)11

(2) (2)22

(1) (2) t12 21

E Z 0 Cov Z

Cov Z , Z

⎧ = = ρ⎪⎪⎪

= = ρ⎨⎪⎪⎪ = ρ = ρ⎩

(10.28)

As correlações canônicas das combinações lineares padronizadas

são dadas por:

tk 12 k

k k kt tk 11 k k 22 k

a bCorr(U , V )a a b b

ρ= = λ

ρ ρ (10.29)

em que kλ é k-ésimo autovalor de 1/ 2 1 t 1/ 211 12 22 12 11− − −ρ ρ ρ ρ ρ , ou equivalentemente de

1/ 2 t 1 1/ 222 12 11 12 22− − −ρ ρ ρ ρ ρ .

Por se tratarem de variáveis artificiais, as variáveis canônicas não

possuem significado físico. Se (1)X (p x 1) e (2)X (q x 1) são utilizados, os

coeficientes de a e b têm as unidades dos correspondentes coeficientes de (1)X e

de (2)X . Se as variáveis padronizadas forem utilizadas, então, os coeficientes

canônicos não possuem unidades de mensuração e não dependem da escala das

variáveis. Em geral, é dada uma interpretação subjetiva para as variáveis

canônicas de acordo com a magnitude das correlações das variáveis originais com

as variáveis canônicas em foco. Muitos pesquisadores preferem fazer tal

relacionamento utilizando os coeficientes canônicos estandardizados.

Sejam A (p x p) e B (q x q) matrizes definidas pelos vetores

canônicos:

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

t tp q

a ba b

(10.30)

É possível definir os vetores de todas as p ou q variáveis canônicas

simultaneamente por:

2 2(1) (2)

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦p q

U VU V

U AX e V BX

(10.31)

( ) ( ) ( )(1) (1) (1) (1)11, ,= = = ΣCov U X Cov AX X ACov X A (10.32)

A matriz de correlação entre as p variáveis originais de (1)X e as p

variáveis canônicas de U é dada pela “covariância” entre as p variáveis canônicas,

as quais já são estandardizadas, e as p variáveis de (1)X padronizadas. A

padronização de (1)X é dada por:

(1)11 (1)

1(1)2(1)1/ 2 (1)

⎡ ⎤⎢ ⎥σ⎢ ⎥ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥σ= ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥

σ⎢ ⎥⎣ ⎦

(10.33)

Assim,

( ) ( )(1)(1) (1) 1/ 2 (1) 1/ 2

11 11 11,, , − −ρ = = = Σ

U XCorr U X Cov AX V X A V (10.34)

Cálculo semelhante é realizado para os pares ( )(2),U X , ( )(2),V X e

( )(1),V X que resulta em:

1/ 212 22,

1/ 222 22,

1/ 212 11,

⎧ρ = Σ ×⎪⎪⎪⎪ρ = Σ ×⎨⎪⎪⎪ρ = Σ ×⎪⎩

A V p q

B V q q

B V q p

(10.35)

em que 1/ 222−V é uma matriz diagonal (q x q) com o i-ésimo elemento dado por

(2)1/ σii .

Para as variáveis canônicas calculadas de matrizes de correlação ρ,

a interpretação pode ser realizada alternativamente pelas correlações entre as

variáveis canônicas e as variáveis padronizadas. Sejam AZ (p x p) e BZ (q x q)

matrizes compostas dos coeficientes canônicos de (1)Z e (2)Z , respectivamente.

As correlações entre as variáveis canônicas e as variáveis padronizadas são

dadas por:

(1) ( 2)

( 2) (1)

11 22, ,

12 12, ,

⎧ = =⎪⎪⎨⎪ = =⎪⎩

Z ZU Z V Z

tZ ZU Z V Z

ρ A ρ ρ B ρ

ρ A ρ ρ B ρ (10.36)

As matrizes de correlação (10.34), (10.35) com (10.36), apresentam,

no entanto, os mesmos valores numéricos, como por exemplo (1) (1), ,=

U Z U Xρ ρ , e

assim por diante. Verifica-se facilmente isso por:

(1) (1)1/ 2 1/ 2 1/ 2 1/ 2

11 11 11 11 11 11 11, ,− − −= Σ = Σ = =ZU X U Z

ρ A V AV V V A ρ ρ

ou seja, a correlação não é afetada pela padronização (mudança de escala).

10.3. Variáveis e correlações canônicas amostrais

Uma amostra aleatória de tamanho n em cada conjunto de (p + q)

variáveis aleatórias (1)X (p x 1) e (2)X (q x 1), dada por (1) (1) (1)1 2, , , nX X X e

(2) (2) (2)1 2, , , nX X X possui vetores de médias amostrais dados por:

(1) (1)

(2) (2)1

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(10.37)

Em que:

(1) (1) (2) (2)

1 1= =

= =∑ ∑n n

j jj j

X X e X Xn n

(10.38)

A matriz de correlação amostral S (p + q x p + q) é dada por:

⎡ ⎤= ⎢ ⎥

⎣ ⎦

p qS Sp

(10.39)

em que ( )( )( ) ( ) ( ) ( )

n tk kk j j

jS X X X X

= − −− ∑ , , 1, 2=k .

As k-ésimas variáveis canônicas amostrais são dadas pelas

combinações lineares:

t (1)k k

t (2)k k

ˆ ˆU a X

ˆV b X

⎧ =⎪⎨⎪ =⎩

(10.40)

que maximizam a k-ésima correlação canônica amostral dada por:

tk 12 k

ˆ ˆU , V t tk 11 k k 22 k

ˆa S bˆ ˆˆ ˆa S a b S b

=r (10.41)

O processo de maximização de (10.41) segue estritamente os

mesmos passos da maximização de (10.7), substituindo apenas Σ11, Σ22 e Σ12 por

S11, S22 e S12, respectivamente. As equações homogêneas correspondentes ao

máximo são dadas por:

1 t12 22 12 k 11 k

t 112 11 12 k 22 k

ˆ ˆS S S S a 0 (a)

ˆˆS S S S b 0 (b)

⎧ − λ =⎪⎪⎨⎪

−λ =⎪⎩

(10.42)

Em que o máximo de ˆˆ ,k ku Vr é dado por kλ , para os autovetores ˆ

ˆkb obtidos por:

1/ 2k 11 k

1/ 2k 22 k

ˆ ˆa S c (a)

ˆ ˆb S d (b)

⎧ =⎪⎨⎪ =⎩

(10.43)

sendo que kc é k-ésimo autovetor de 1/ 2 1 t 1/ 211 12 22 12 11S S S S S− − − e kd o k-ésimo autovetor de

1/ 2 t 1 1/ 222 12 11 12 22S S S S S− − − ; kλ é o k-ésimo autovalor de ambas as matrizes, por serem

idênticos; k=1, 2, ..., p≤q.

As variáveis canônicas amostrais têm as seguintes propriedades:

1. Variâncias amostrais unitárias

( ) ( )k kˆ ˆˆ ˆVar U Var V 1= = (10.44)

2. Correlações amostrais:

ˆ ˆ ˆ ˆ ˆ ˆU ; U V ; V U ; Vr r r 0 (k )= = = ≠ (10.45)

3. Correlação amostral máxima:

ˆ ˆ kU ; Vˆr = λ (10.46)

Sejam as matrizes A (p p)× e B (q q)× definidas pelos vetores

canônicos amostrais:

ˆˆˆˆˆ ˆ

t tp q

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

(10.47)

Analogamente a (10.31) definem-se:

(1) (2)2 2

ˆ ˆˆ ˆ ˆ ˆ

ˆ ˆp q

U VU AX e V BX

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

(10.48)

As correlações entre as variáveis canônicas amostrais e as variáveis

originais de cada um dos grupos podem ser obtidas. Para isso definiu-se as

matrizes diagonais ( )1/ 2 (1)11 iiD Diag 1/ S− = , (pxp) e ( )1/ 2 (2)

22 iiD Diag 1/ S− = , (qxq).

1. Matriz de correlações entre U e (1)X

(1)1/ 2

ˆ 11 11U, XˆR AS D−= (10.49)

2. Matriz de correlações entre U e (2)X

( 2)1/ 2

ˆ 12 22U, XˆR AS D−= (10.50)

3. Matriz de correlações entre V e (1)X

(1)t 1/ 2

ˆ 12 11V, XˆR BS D−= (10.51)

4. Matriz de correlações entre V e (2)X

( 2)1/ 2

ˆ 22 22V, XˆR BS D−= (10.52)

Para variáveis padronizadas, as variáveis canônicas

correspondentes são:

(1) (2)2 2

ˆ ˆˆ ˆ ˆ ˆ

U VU A Z e V B Z

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

(10.53)

em que:

1/ 2 1/ 211 22

ˆ ˆ ˆ ˆZ ZA AD e B BD= = (10.54)

Sendo que ˆza e ˆ

zb , para as variáveis padronizadas, são obtidos da

mesma forma que os respectivos vetores para variáveis não padronizadas,

substituindo-se nas expressões correspondentes S11, S22 e S12 por R11, R22 e R12,

respectivamente. A relação (10.54) se verifica para o caso de variáveis canônicas,

mas não se pode estabelecer a mesma relação para os componentes principais

de matriz de covariância e matriz de correlação, como apontado por Johnson e

Wichern (1998). As matrizes de correlações entre as variáveis de cada grupo

padronizadas e as respectivas variáveis canônicas são dadas por:

(1) (1)

( 2) ( 2)

1 tˆ ˆZ 11 Z Z 12U,Z V,Z

1ˆ ˆZ 12 Z 22 ZU,Z V,Z

ˆ ˆ ˆR A R A R B R

ˆ ˆ ˆR A R R B R B

⎧ = = =⎪⎪⎨⎪ = = =⎪⎩

(10.55)

Da mesma forma, é fácil verificar que as correlações não são

afetadas pela padronização, ou seja, as correlações obtidas em (10.49) a (10.52)

são as mesmas as correspondentes em (10.55).

Uma importante avaliação da qualidade do potencial das variáveis

canônicas é medir o poder de resumo da variabilidade contida respectivo conjunto.

Duas formas básicas são descritas: na primeira apresenta-se uma matriz de erro

da aproximação e na segunda calcula-se a proporção da variância explicada pelas

variáveis canônicas para cada grupo de variáveis.

As matrizes de erro são obtidas como se segue, admitindo as

definições (1)ˆ ˆ=U AX e (2)ˆ ˆ=V BX . Logo, é possível definir:

(1) 1 (2) 1ˆ ˆ ˆ ˆ− −= =X A U e X B V (10.56)

Como A e B são dadas por:

t t2(1) t 1/ 2 1/ 2 (2)t 1/ 2 1/ 22

11 11 22 22

t tp p

dcˆc dˆ ˆ ˆ ˆA P S S e B P S S

ˆ ˆc d

− − − −

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = = = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

(10.57)

Então:

1 1/ 2 (1) 1 1/ 2 (2)11 22

ˆ ˆ ˆ ˆA S P e B S P− −= = (10.58)

devido a (1)P e (2)P serem matrizes ortogonais de autovetores, é fácil perceber que

( ) 1(1)t (1)ˆ ˆP P−= e ( ) 1(2)t (2)ˆ ˆP P

−= .

Das definições de U e V sabe-se que a covariância entre eles é

uma matriz diagonal Λ (pxq) com kλ na k-ésima diagonal para k=1, 2,...p, e

cujas demais p-q colunas são formadas de zeros. Assim,

t (1) t 1/ 2 1/ 2 (2)12 11 12 22

ˆˆ ˆ ˆ ˆ ˆ ˆˆCov U, V AS B P S S S P

ˆ ˆˆˆCov U AS A

ˆ ˆ ˆˆCov V BS B

− −⎧ = = = Λ⎪⎪⎪⎪ = = Ι⎨⎪⎪⎪ = = Ι⎪⎩

(10.59)

Assim,

t1 112

ˆ ˆ ˆAS B

ˆˆ ˆS B A

ˆ ˆ ˆS A B

− −

Da mesma forma:

( )t1 1

11ˆ ˆS A A− −= e ( )t1 1

22ˆ ˆS B B− −=

A idéia é reter um número r menor ou igual a p de variáveis

canônicas em cada grupo. O número r é escolhido de determinada forma que a

covariância amostral dentro de grupo seja reproduzida de uma forma satisfatória.

Da mesma forma é desejável uma boa aproximação das covariâncias entre grupos

S12. Sejam, então, as matrizes compostas das r (r≤p) primeiros autovalores e

autovetores de 1/ 2 1 t 1/ 211 12 22 12 11S S S S S− − − e de 1/ 2 t 1 1/ 2

22 12 11 12 22S S S S S− − − definidas por:

(1)t 1/ 2 1/ 22r r 11 11

ccˆ ˆA P S S

− −

⎡ ⎤⎢ ⎥⎢ ⎥= =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(10.60)

t(2)t 1/ 2 1/ 22

r r 22 22

dˆ ˆB P S S

− −

⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(10.61)

ˆ 0 0

ˆ0 0ˆ

⎡ ⎤λ⎢ ⎥⎢ ⎥λΛ = ⎢ ⎥⎢ ⎥⎢ ⎥

λ⎢ ⎥⎣ ⎦

(10.62)

Assim, definem-se as matrizes:

1 1/ 2 (1) 1 1/ 2 (2)r 11 r r 22 r

ˆ ˆ ˆ ˆA S P e B S P− −= = (10.63)

Considerando as matrizes de resíduos E11, E22 e E12 das

reproduções de S11, S22 e S12, respectivamente, têm-se:

( )( )

( ) ( )

11 11 r r

t1 122 22 r r

t1 112 12 r r r

ˆ ˆE S A A (a)

ˆ ˆE S B B (b)

ˆ ˆ ˆE S A B (c)

− −

⎧ = −⎪⎪⎪⎪ = −⎨⎪⎪⎪

= − Λ⎪⎩

(10.64)

A segunda alternativa relacionada a essa que apresenta em simples

número a explicação do respectivo conjunto, em substituição aos p(p-1)/2, q(q-1)/2

ou pq valores de E11, E22 e E12. Como ( ) ( )( ) ( )t

1 111 r r 11

ˆ ˆtr S tr A A tr E− −⎡ ⎤= +⎢ ⎥⎣ ⎦, e assim

por diante para as demais matrizes, a explicação das r variáveis canônicas para o

seu respectivo conjunto é dada por:

( ) ( )( )

11(1)1 2 r

22(2)1 2 r

tr Eˆ ˆ ˆ%Exp U , U , , U de X 100 1 (a)tr S

tr Eˆ ˆ ˆ%Exp V , V , , V de X 100 1 (b)tr S

⎧ ⎛ ⎞= × −⎪ ⎜ ⎟⎜ ⎟⎪ ⎝ ⎠

⎪⎨⎪ ⎛ ⎞⎪ = × −⎜ ⎟⎜ ⎟⎪ ⎝ ⎠⎩

(10.65)

10.4. Inferências para grandes amostras

Quando Σ12=0 as variáveis canônicas t (1)U a X= e t (2)V b X=

possuem covariância nula para todos os pares de vetores a e b . Dessa forma,

não existem vantagens em realizar uma análise de correlação canônica. Então, é

evidente que um teste de hipótese de que (Σ12) seja igual a uma matriz nula é

primordial para a validação da análise de correlação canônica. A seguir é

apresentado o teste para a hipótese:

0 12 1 12H : 0 (p q) vs H : 0Σ = × Σ ≠ (10.66)

Seja o vetor aleatório normal de dimensão (p + q x 1) com média µ e

covariância Σ, dado por:

j (2)j

X⎡ ⎤

= ⎢ ⎥⎢ ⎥⎣ ⎦

cuja covariância pode ser particionada em:

Σ Σ⎡ ⎤Σ = ⎢ ⎥Σ Σ⎣ ⎦

Sob H0 o máximo da função de verossimilhança é dado por L0 e sob

H1 por L1, quais sejam:

( ) ( )/ 2( ) / 20 11 2211 22 (2 ) exp ( ) / 2, ,

nn p qL S S n p qX S S−− += π ⎡ ⎤ − +⎣ ⎦ (10.67)

em que n é o tamanho da amostra, S11 e S22 são os estimadores das covariâncias

amostrais do grupo 1 e do grupo 2 de variáveis, p e q representam o número total

de variáveis no grupo 1 e 2, respectivamente.

Sob H1, modelo irrestrito tem-se:

( ) ( )/ 2/ 21 (2 ) exp / 2, nnpL npX S S −−= π − (10.68)

A razão de verossimilhança é dada por:

( )( )

11 220 11 22

nS SL X S S

L SX S

−⎡ ⎤

Λ = = ⎢ ⎥⎢ ⎥⎣ ⎦

(10.69)

O teste da razão de verossimilhança para a hipótese (10.66), dado

11 222c i

S S ˆ2 ln( ) n ln n ln 1S =

⎛ ⎞ ⎡ ⎤χ = − Λ = = − −λ⎜ ⎟ ⎢ ⎥⎜ ⎟ ⎣ ⎦⎝ ⎠

∏ (10.70)

tem distribuição qui-quadrado com ν=pq graus de liberdade. Em que Λ é a razão

de verossimilhança do teste da hipótese (10.66).

O teste de razão de verossimilhança compara a variância amostral

generalizada sob H0:

1111 22

S 0S S

com a variância generalizada irrestrita, |S|. O primeiro caso com

p(p + 1)/2 + q(q + 1)/2 parâmetros e o segundo com (p + q)(p + q + 1)/2. A

diferença é igual a ν = pq parâmetros, que é igual aos graus de liberdade do teste

em questão. Bartlett (1939) sugere uma correção para uma melhor aproximação

de qui-quadrado, substituindo n em (10.70) por n – 1 - (p + q + 1)/2. O teste com a

correção de Bartlett (1939) é dado por:

( ) ( ) ( )p

11 222c i

S S1 1 ˆn 1 p q 1 ln n 1 p q 1 ln 12 2S =

⎛ ⎞ ⎡ ⎤⎡ ⎤ ⎡ ⎤χ = − − + + = − − − + + −λ⎜ ⎟ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎜ ⎟⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎝ ⎠∏ (10.71)

Se a hipótese nula ( )0 12 1 2 pH : 0 0Σ = ρ = ρ = = ρ = for rejeitada, é

natural buscar um número de correlações canônicas r que diferem

significativamente de zero. Em que kρ é a notação abreviada de k kU ;Vρ . Bartlett

(1938) sugere um teste seqüencial baseado na razão de verossimilhança. A

princípio, testar a hipótese de que a primeira correlação canônica é não nula e as

demais (p-1) são nulas; em seguida, testar que as duas primeiras são não nulas e

as demais (p-2) são nulas; e assim por diante. Para o k-ésimo passo desse

processo testar a hipótese (k)0H dada por:

(k )0 1 2 k k 1 k 2 p

(k)1 i

H : 0, 0, , 0, 0

H : 0 para algum i k 1

+ +⎧ ρ ≠ ρ ≠ ρ ≠ ρ = ρ = = ρ =⎪⎨⎪ ρ ≠ ≥ +⎩

(10.72)

O teste dessa hipótese incorporando a correção de Bartlett (1939)

pode ser realizado por:

( ) ( )p

1 ˆn 1 p q 1 ln 12 = +

⎡ ⎤⎡ ⎤χ = − − − + + −λ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦∏ (10.73)

o qual possui distribuição de qui-quadrado com ν=(p-k)(q-k) graus de liberdade. O

teste é realizado para k=1, 2, ..., (p-1).

Cada hipótese da seqüência 0H , (1)0H , (2)

0H , etc. é testada uma de

cada vez até que (k)0H não seja rejeitada para algum k. O valor nominal da

significância não é α, e possui difícil determinação. O teste é especialmente útil

para os dados normais e deve ser interpretado com cautela, e possivelmente deva

melhor ser usado como um guia não muito refinado de seleção do número r de

variáveis canônicas a ser retido. As distribuições amostrais das variáveis

canônicas possuem um estudo mais detalhado em Kshirsagar (1972).

Uma outra opção para esse teste é apresentada por Morrisson

(1976) que afirma que a distribuição do maior autovalor segue a distribuição da

maior raiz característica de Roy, com S=min(p, q), m=(|P-Q| -1)/2 e n=(n-p-q-2)/2.

O teste anterior foi generalizado por Wilks (1935) para avaliar a

independência entre k grupos de variáveis. O teste de razão de verossimilhança

para a hipótese de independência entre k-grupos da distribuição normal

multivariada é apresentado doravante. Seja Σ, matriz de covariância para todas as

variáveis, particionada em k grupos, cada um com pi variáveis; a sub-matriz Σij de

dimensão pixpj (i≠j=1, 2, ...,k) é uma partição de Σ que contem as correspondentes

covariâncias entre as pi variáveis do i-ésimo grupo com as pj variáveis do j-ésimo

grupo. A hipótese de interesse é:

H : 0 para todo i j=1, 2, ..., k

H : 0 para algum i j=1, 2, ..., k

Σ = ≠⎧⎪⎨⎪ Σ ≠ ≠⎩

(10.74)

Cujo teste apresentado por Wilks (1935) depende da quantidade:

c11 22 kk

S S S=

× × × (10.75)

cuja distribuição é muito complicada. Mas Box (1949) obteve boa aproximação de

qui-quadrado com ν graus de liberdade. O teste proposto é:

( )2c c

n 1ln VC−

χ = − (10.76)

em que:

( )13 2

1C 1 2 312 (n 1)

−⎧ = − Γ + Γ⎪ ν −⎪⎪⎨⎪⎪ν = Γ⎪⎩

(10.77)

SS i i

i 1 i 1p p ; S 2, 3

⎛ ⎞Γ = − =⎜ ⎟

⎝ ⎠∑ ∑ (10.78)

Se k = 2 com p1 = p e p2 = q, o teste (10.76) é exatamente o mesmo

de (10.71). Se k = p + q e pi=1, para todo i=1, 2, ..., p + q, o teste é se especifica

no teste apresentado no capítulo 7, para a independência de variáveis, ou seja,

H0: Σ=diag(σii). Então, esse teste é uma generalização dos demais supra citados.

É conveniente que se saliente que se os testes forem aplicados sobre a matriz de

correlação, os resultados são equivalentes aos obtidos para a matriz de

covariâncias, substituindo-se S por R nas expressões anteriores.

10.5. Exercícios

10.5.1. Verifique que a derivação do máximo de (10.7) pode ser obtida a partir de

(10.16) utilizando o fator de Cholesky F, na transformação linear de

( )t111a F c−= e de ( )t1

22b F d−= no lugar de 1/ 211a c−= Σ e de 1/ 2

22b d−= Σ ,

respectivamente; em que, F11 e F22 são os fatores de Cholesky de Σ11 e de

Σ22, respectivamente.

10.5.2. Dois testes ( (1)1X e (1)

2X ) de leitura foram aplicados em n=140 crianças

juntamente com dois testes de aritmética ( (2)1X e (2)

2X ). A matriz de

correlação amostral obtida foi:

1,0000 0,6328R

0,6328 1,0000⎡ ⎤

= ⎢ ⎥⎣ ⎦

1,0000 0, 4248R

0, 4248 1,0000⎡ ⎤

= ⎢ ⎥⎣ ⎦

; e 12

0, 2412 0,0586R

0,0553 0,0655⎡ ⎤

= ⎢ ⎥−⎣ ⎦

a) obtenha todas as variáveis canônicas amostrais e as respectivas correlações

máximas.

b) realizar o teste da hipótese:

0 12 12 1 12 12H : 0 (p q) vs H : 0Σ = ρ = × Σ = ρ ≠

Se H0 for rejeitada realizar o teste da hipótese:

0 1 2 0 2H : 0; 0 Vs H : 0ρ ≠ ρ = ρ ≠

discuta os resultados obtidos.

c) estime as matrizes E11, E22 e E12 para o primeiro par de variáveis canônicas

(r=1).

d) Determine a proporção da variação explicada pelo primeiro par de variáveis

canônicas nos dois grupos.

e) calcule a correlação amostral entre (1)Z e (2)Z com U e com V .

||[ ]||Referências bibliográficas

ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed.

New York, John Wiley, 1984, 675p.

ANDERSON, T.W. The asymptotic theory for principal components analysis,

Annals of Mathematical Statistics, v.34, p.122-148, 1963.

BARTLETT, M.S. A note on multiplying factors for various Chi-Square

approximations. Journal of the royal Statistical Society –Series B. v.16,

p.296-298, 1954.

BARTLETT, M.S. A note on tests of significance in multivariate analysis.

Proceedings of the Cambridge Philosophical Society, v.35, p.180-185, 1939.

BARTLETT, M.S. Further aspects of the theory of multiple regression.

Proceedings of the Cambridge Philosophical Society, v.34, p.33-40, 1938.

BARTLETT, M.S. The statistical conception of mental factors. British Journal of

Psychology. v.28, p.97-104, 1937.

11. Referências bibliográficas 390

BENNETT, B.M. Note on a solution of the generalized Behrens-Fisher problem,

Annals of the Institute of Statistical Mathematics, v.2, p.97-90, 1951.

BOCK, R.D. Multivariate statistical methods in behavioral research. McGraw

Hill, 1975.

BOX, G.E.P. A general distribution theory for a class of likelihood criteria,

Biometrika. v.36, p.317346, 1949.

CARROLL, J.B. An analytical solution for approximating simple structure in factor

analysis. Psychometrika. v.18, pp.23-28, 1953.

CHRISTENSEN, W.F.; RENCHER, A.C. A comparison of type I rates and power

levels for seven solutions to the multivariate Behrens-Fisher problem.

Communication in Statistics-Simula., v.26, n.4, p.1251-1273, 1997.

CLEVELAND, W.S.; RELLES, D.A. Clustering by identification with special

application to two way tables of counts. Journal of American Statistical

Association. v.70, n.351, 1975. 626-630p.

D’AGOSTINO, R.B.;TIÉTJEN, G.L. Approaches to the null distribution of b1 ,

Biometrika, v.60, p.169-173, 1973.

D’AGOSTINO, R.B.;TIÉTJEN, G.L. Simulation probability points of b2 in small

samples, Biometrika, v.58, p.669-672, 1971.

DINIZ, L de C. Dinâmica populacional do piolho de são José Quadraspidiotus

perniciosus (Comostock, 1881) (Homóptera: Dispididae) em pessegueiro, no

município de Jacuí - Minas Gerais. UFLA, Lavras, MG, 1996. 61p. (dissertação

de mestrado).

FERGUSON, G.A. The concept of parsimony in factor analysis. Psychometrika.

v.19, pp.281-290, 1954.

GIRSHICK, M.A. On the sampling theory of roots of determinantal equations.

Annals of Mathematical Statistics. v.10, p.203-224, 1939.

HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321-

377, 1936.

HOTELLING, H. The most predictable criterion. Journal of Educational

Psychology. v.26, p.139-142, 1935.

HOUSEHOLDER, A.S. Principles of numerical analysis. McGraw-Hill, New york,

HOUSEHOLDER, A.S. The theory of matrices in numerical analysis. Blarsdell,

Waltham, Mass., 1964.

JAMES, G.S. Tests of linear hypotheses in univariate and multivariate analysis

when the ratios of the population variances are unknown, Biometrika, v.41,

p.19-43, 1954.

JOHANSEN, S. The Welch-James approximation to the distribution of the residual

sum of squares in a weighted linear regression, Biometrika, v.67, n.1, p.85-92,

JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th

edition. Prentice Hall, New Jersey, 1998. 816p.

KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of

Educational and Psychological Measurement. v.19, pp.413-420, 1959.

KAISER, H.F. The varimax criterion for analytic rotation in factor analysis.

Psychometrika. v.23, pp.187-200, 1958.

KIM, S. A practical solution to the multivariate Behrens-Fisher problem,

Biometrika, v.79, n.1, p.171-176, 1992.

KRZANOWSKI, W.J. Principles of multivariate analysis. A user’s perspective.

Oxford, 3rd edition, 1993. 563p.

KSHIRSAGAR, A.M. Multivariate analysis. New York: Marcel Dekker, 1972.

LAWLEY, D.N. Further estimation in factor analysis. Proceedings of the Royal

Society of Edinburgh, Series A. v.61, pp.176-185, 1942.

LAWLEY, D.N. On testing a set of correlation coefficients for equality, Annals of

Mathematical Statistics, v.34, p.149-151, 1963.

LAWLEY, D.N. Tests of significance for the latent roots of covariance and

correlation matrices. Biometrika, v.43, p.128-136, 1956.

LAWLEY, D.N. Tests of significance in canonical analysis. Biometrika. v.46,

p.59-66, 1959.

LAWLEY, D.N. The application of the maximum likelihood method to factor

analysis. British Journal of Psychology. v.33, pp.172-175, 1943.

LAWLEY, D.N. The estimation of factor loadings by the method of the maximum

likelihood. Proceedings of the Royal Society of Edinburgh, Series A. v.60 ou 40

(checar), pp.64-82, 1940.

MARDIA, K.V. Applications of some measures of multivariate skewness and

kurtosis for testing normality and robustness studies. Sankyã. A36, p.115-128,

MARDIA, K.V. Measures of multivariate skewness and kurtosis with applications.

Biometrika, p.519-530, 1970.

MARRIOTT, F.H.C. The interpretation of multiple observations. London,

Academic Press, 1974.

MOMENTÉ, V.G. Comparações entre diferentes tipos de famílias clonais para

o melhoramento genético da batata (Solanum tuberosum L.). ESAL, Lavras,

MG, 1994. 83p. (dissertação de mestrado).

MORRISON, D.F. Multivariate statistical methods. New York: McGraw-Hill, 2d

ed., 1976. 307p.

NEHAUS, J.; WRIGLEY, C. The quartimax method: an analytical approach to

orthogonal simple structure. British Journal of Psychology. v.7, pp.81-91, 1954.

NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher

problem. Communications in Statistics: Theory and Methods, v.15, p.3719-

3735, 1986.

PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed.

Cambridge University Press, New York, 1966.

SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York,

WIKS, S.S. On the independence of k sets of normally distributed statistical

variables. Econometrica. v.3, p.309-326, 1935.

YAO, Y. An approximate degrees of freedom solution to the multivariate

Behrens-Fisher problem. Biometrika, v.52, n.1, p.139-147, 1965.

multivariada - ufla

Documents

normal multivariada 2013 - professor francisco multivariada...

analise fatorial - análise multivariada

jornal ufla fev 2012

manual de redação - ufla

anÁlise multivariada de parcelamentos

relatório de evento - ufla

manual de normalizacao ufla

orientação sobre vistos - ufla

krigagem e geovisualização multivariada

jornal ufla - maio 2013

estatistica multivariada, aplicaçao

análise multivariada - trabalho

análise multivariada

regressão multivariada

regressão multipla - análise multivariada

estatística multivariada aplicada -...

estatística multivariada

apresentação ufla lattes

100 anos ufla

aplicaÇÃo de anÁlise estatÍstica multivariada no...