anÁlise de correspondÊncias (associaÇÕes)...
TRANSCRIPT
1
ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES)
1
• A análise de componentes principais ou análise fatorial exigem dados mensurados em escala numérica contínua e não é apropriada para dados nominais, tais como contagem de números de diversos tipos de fósseis em um nível estratigráfico ou número de fraturas com diferentes orientações num maciço rochoso.
• Nesses casos, em que os dados são agrupados em categorias, a Análise de Correspondências permite estudar a associação entre variáveis qualitativas.
• Análise de Correspondências e Análise de Correspondências Múltiplas.
2
A matriz original de dados é constituída por “p” linhas (amostras) e “q” colunas (variáveis); os elementos, xij, da matriz são contagens
Na tabela de contingências os valores originais são transformados de modo a poder ser interpretados como probabilidades condicionais.
Por causa da natureza dessa transformação as relações entre colunas e linhas da tabela transformada são as mesmas que aquelas da matriz original da dados.
3
Isso significa que as soluções, tanto entre amostras
como entre variáveis, são equivalentes e, desse modo, o produto final mostra num espaço bidimensional, definido pelos dois mais importantes eixos de variabilidade, a distribuição simultânea tanto das amostras como das variáveis.
Tal resultado gráfico mostra a correspondência (associação) entre amostras e variáveis.
4
•Medir a associação entre duas variáveis qualitativas é complexa a exigir primeiro a transformação dos dados; não é possível calcular um coeficiente de correlação para valores qualitativos, como no caso de variáveis quantitativas.
•A transformação consiste em recodificar duas variáveis qualitativas V1 e V2 em duas tabelas disjuntivas Z1 e Z2 .
•Para cada categoria de uma variável, há uma coluna na respectiva tabela disjuntiva. Cada vez que a categoria c da variável V1 ocorre para uma observação i, o valor da Z1(i, c) é definido como 1(um) e a mesma regra é aplicada para a variável V2.
•Os outros valores de Z1 e Z2 são definidos como 0(zero).
•A generalização desta idéia para mais de duas variáveis é conhecida como Análise de Correspondências Múltiplas.
•Quando há apenas duas variáveis, é suficiente examinar a tabela de contingência das duas variáveis, que é a tabela Z1'Z2 (onde ‘ indica matriz transposta).
5
•A distância pelo qui-quadrado tem sido sugerida para medir a distância entre as duas categorias.
•Para representar a distância entre duas categorias não é necessário o uso das tabelas disjuntivas X1 e X2. É suficiente iniciar a partir da tabela de contingência que algebricamente corresponde ao produto de X1'X2 .
6
2
Tabela de contingências (p x q)
1 2 … q total
1 N11 N12 … N1q N1.
2 N21 N22 … N2q N2.
… … … … … ׃
p Np1 Np2 … Npq Np.
total N.1 N.2 … N.q N.. = N
Variável X
Variável Y
7
1 2 … q total
1 N11 N12 … N1q N1.
2 N21 N22 … N2q N2.
… … … … … ׃
p Np1 Np2 … Npq Np.
total N.1 N.2 … N.q N.. = N
0 1 2 >2 total
<200 15 27 50 43 135
200-500 25 37 12 8 82
>500 8 13 9 10 40
total 48 77 71 61 257
Tabela de contingências
Número de filhos (variáveis)
Renda familiar
(amostras,
casos)
8
039,0035,0051,0031,0
031,0047,0144,0097,0
167,0195,0105,0058,0
P 4,3
Tabela de frequências (pij = nij/N)
1 2 … q total
1 N11 N12 … N1q N1.
2 N21 N22 … N2q N2.
… … … … … ׃
p Np1 Np2 … Npq Np.
total N.1 N.2 … N.q N.. = N
0 1 2 >2 total
<200 15 27 50 43 135
200-500 25 37 12 8 82
>500 8 13 9 10 40
total 48 77 71 61 257
15/257 = 0,058 9
156,000
0319,00
00525,0
PL
1 2 … q total
1 N11 N12 … N1q N1.
2 N21 N22 … N2q N2.
… … … … … ׃
p Np1 Np2 … Npq Np.
total N.1 N.2 … N.q N.. = N
0 1 2 >2 total
<200 15 27 50 43 135
200-500 25 37 12 8 82
>500 8 13 9 10 40
total 48 77 71 61 257
Matriz de perfil de linhas: Pi,j=(n1.//N, n2./N...np./N)
135/257 = 0,525 10
237,0000
0276,000
00299,00
000187,0
PC
1 2 … q total
1 N11 N12 … N1q N1.
2 N21 N22 … N2q N2.
… … … … … ׃
p Np1 Np2 … Npq Np.
total N.1 N.2 … N.q N.. = N
0 1 2 >2 total
<200 15 27 50 43 135
200-500 25 37 12 8 82
>500 8 13 9 10 40
total 48 77 71 61 257
Matriz de perfil de colunas: Pi,j=(n.1 /N, n.2/N...n.q/N)
48/257 = 0,187 11 12
3
Análise de Correspondência
>2F
2F
1F
0F
$>500
$200-500$<200
-0.1
-0.02
0.06
-0.48 -0.4 -0.32 -0.24 -0.16 -0.08 0 0.08 0.16 0.24 0.32 0.4 0.48 0.56
Colunas Linhas
1 2 … q total
1 N11 N12 … N1q N1.
2 N21 N22 … N2q N2.
… … … … … ׃
p Np1 Np2 … Npq Np.
total N.1 N.2 … N.q N.. = N
0 1 2 >2 total
<200 15 27 50 43 135
200-500 25 37 12 8 82
>500 8 13 9 10 40
total 48 77 71 61 257
13
•Inércia é uma medida, inspirada na Física, freqüentemente utilizada em Análise de Correspondências. •A inércia de um conjunto de pontos é a média ponderada das distâncias ao quadrado ao centro de gravidade. •No caso específico, a inércia total do conjunto de pontos (um ponto corresponde a uma categoria) pode ser escrita como:
1m
1i
2m
1j
2m
1j
1m
1iijj.ij.i
2
j..i
2
2
j..iij
22 nnenncom,
n
nnn
nn
n
n
n
χφ
.n é a soma de freqüencias na tabela de contingências; desse modo a inércia é proporcional à estatística qui-quadrado de Pearson, calculada a partir da tabela de contingência
•O objetivo da Análise de Correspondências é o de representar o máximo possível da inércia no primeiro eixo principal, a inércia residual sobre o segundo eixo principal e assim por diante até que toda a inércia esteja representada no espaço dos eixos principais.
14
•A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale à Analise de Componentes Principais para variáveis quantitativas.
•O produto final são gráficos onde é possível visualizar simultaneamente as distâncias entre as categorias das variáveis qualitativas e entre as observações.
•Também pode ser entendida como uma generalização da Análise de Correspondências para o caso em que existam mais de duas variáveis.
•Embora seja possível resumir numa tabela, com n observações e p (p> 2) variáveis qualitativas, numa estrutura próxima a uma tabela de contingência, é mais comum a ACM iniciar a partir da tabela original de observações e variáveis.
•A geração da tabela disjuntiva é o passo preliminar para o cáculo da ACM.
15
•As p variáveis qualitativas são recodificadas em p tabelas disjuntivas Z1, Z2, ..., ZP, compostas por um número de colunas idêntico ao de categorias em cada uma das variáveis.
•Cada vez que uma categoria c da j’ésima variável corresponder a uma observação i, o valor de ZJ (i,c) é definido como 1(um). Os outros valores Zj serão definidos como 0(zero). As p tabelas disjuntivas são concatenadas em uma tabela disjuntiva plena.
•Uma série de transformações permite a computação das coordenadas das categorias das variáveis qualitativas, bem como as coordenadas das observações em uma representação espacial ótima para um critério baseado na inércia.
•No caso da ACM a inércia total é igual à média do número de categorias menos um.
•A inércia depende fundamentalmente do grau de associação entre as categorias. 16
Avaliação de desempenho em uma oficina de automóveis
Satisfação: SIM – NÃO
Solução do problema: SIM – NÃO – DÚVIDA
Qualidade da recepção: 1-2-3-4-5
O preço cobrado esta de acordo com a razão custo/benefício: SIM – NÃO
Retorno à oficina: SIM – NÃO - DÚVIDA
17
Satisfeito Consertado Recepção Q/Preço Retorno
C01 Sim Sim 5 Sim Sim
C02 Sim Sim 4 Sim Dúvida
C03 Sim Sim 4 Sim Dúvida
C04 Sim Dúvida 4 Sim Dúvida
C05 Sim Dúvida 4 Sim Sim
C06 Sim Dúvida 4 Sim Sim
C07 Sim Dúvida 5 Sim Não
C08 Sim Dúvida 3 Sim Não
C09 Sim Sim 2 Sim Não
C10 Sim Sim 5 Não Dúvida
C11 Sim Sim 4 Não Dúvida
C12 Sim Sim 3 Não Sim
C13 Sim Sim 1 Não Não
C14 Sim Sim 1 Não Não
C15 Sim Dúvida 3 Não Não
C16 Não Não 3 Não Dúvida
C17 Não Sim 4 Não Dúvida
C18 Não Não 5 Sim Dúvida
C19 Não Sim 3 Não Dúvida
C20 Não Sim 3 Não Dúvida
C21 Não Não 3 Não Dúvida
C22 Não Não 1 Não Dúvida
C23 Não Sim 2 Não Dúvida
C24 Não Sim 2 Não Não
C25 Não Não 1 Não Não
C26 Não Sim 1 Não Não
C27 Não Sim 1 Não Não
C28 Não Dúvida 2 Não Não
18
4
19
“Marketing” e tomada de decisões: clientes e modelos de carros
Modelo A Modelo B Modelo C Modelo D
Fem-1-S 58 36 24 10
Fem-2-S 54 33 49 15
Fem-3-S 36 23 55 24
Fem-1-C 45 20 25 8
Fem-2-C 24 12 45 12
Fem-3-C 45 15 23 12
Mas-1-S 23 61 15 14
Mas-2-S 21 59 16 20
Mas-3-S 15 45 21 13
Mas-1-C 12 50 32 14
Mas-2-C 21 48 21 18
Mas-3-C 14 49 25 15
20
Análise de Correspondência
Modelo D
Modelo C
Modelo B
Modelo A
Mas-3-C
Mas-2-C
Mas-1-C
Mas-3-S
Mas-2-S
Mas-1-S Fem-3-C
Fem-2-C
Fem-1-C
Fem-3-S
Fem-2-S
Fem-1-S
-0.45
-0.35
-0.25
-0.15
-0.05
0.05
0.15
0.25
0.35
-0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6
Eixo I (70.69 %)
Eix
o II (26.4
4 %
)
Colunas Linhas21
Epidemiologia de doenças transmissíveis
Endemia de malária em Porto Velho (RO): um estudo baseado na análise estatística espacial de dados multivariados.
22
23
BAIRROS Criadouros Drenagens Áreas
Alagadas
Florestas
Remanescentes Nascentes Riscos
C1 >2 SIM SIM SIM SIM 2
C2 1 SIM SIM SIM SIM 1
C3 0 SIM SIM NÃO SIM 2
C4 2 SIM SIM NÃO SIM 2
C5 1 SIM NÃO SIM SIM 2
C6 0 NÃO NÃO SIM NÃO 2
C7 1 SIM SIM SIM SIM 2
C8 0 NÃO NÃO NÃO NÃO 1
C9 1 SIM NÃO NÃO SIM 1
C10 0 SIM SIM NÃO NÃO 2
C11 >2 SIM SIM SIM SIM 2
C12 0 NÃO NÃO NÃO NÃO 1
C13 1 SIM SIM NÃO SIM 1
C14 2 SIM NÃO SIM SIM 1
C15 >2 SIM SIM SIM SIM 3
C16 1 SIM SIM NÃO SIM 1
C17 0 SIM SIM NÃO SIM 3
C18 0 SIM SIM NÃO NÃO 2
C19 0 NÃO NÃO NÃO SIM 1
C20 0 SIM NÃO NÃO SIM 1
C21 0 SIM NÃO SIM SIM 2
C22 0 SIM NÃO NÃO NÃO 1
C23 0 NÃO SIM SIM NÃO 2
C24 1 SIM SIM SIM SIM 1
C25 1 SIM SIM SIM NÃO 1
C26 1 SIM SIM SIM SIM 1
C27 0 NÃO NÃO NÃO SIM 1
C28 0 SIM NÃO NÃO SIM 2
C29 >2 SIM SIM SIM SIM 3
C30 >2 SIM SIM NÃO NÃO 1
C31 0 NÃO NÃO NÃO NÃO 2
C32 0 NÃO SIM NÃO NÃO 1
C33 2 SIM SIM NÃO SIM 1
C34 0 SIM NÃO NÃO NÃO 1
C35 2 NÃO NÃO NÃO NÃO 2
C36 1 SIM SIM NÃO NÃO 2
C37 0 SIM SIM SIM SIM 1
C38 0 NÃO NÃO NÃO NÃO 1
C39 0 SIM SIM NÃO NÃO 2
C40 2 SIM SIM SIM SIM 3
C41 0 NÃO NÃO NÃO NÃO 1
C42 2 SIM SIM SIM SIM 3
24
5
25
Em seguida essas informações nominais foram transformadas , para
notação binária, com a finalidade de fornecer uma tabela disjuntiva, segundo
os critérios:
a) número de criadouros: níveis; 0, 1 , 2 e m ais de 2 ;
b) drenagens: presença (1) ou ausência (0) ;
c) áreas alagadas: presença (1) ou ausência (0);
d) floresta remanescente: presença (1) ou ausência (0);
e) nascentes: presença (1) ou ausência (0);
f) risco de contrair a doença, segundo o Índice P arasitário Anual (IPA):
sem risco IPA = 0 (nível 0); baixo risco 0,1 a 9,9 (nível 1); médio risco 10
a 49,9 (nível 2); alto risco IPA maior ou igual a 50 (nível 3).
Criadouros Drenagens Áreas
alagadas
Florestas
Remanescentes Nascentes Riscos
BAIRROS
0 1 2 >2 Sim Não Sim Não Sim Não Sim Não 0 1 2 3
1 0 0 0 1 1 0 1 0 1 0 1 0 0 0 1 0
2 0 1 0 0 1 0 1 0 0 1 1 0 0 1 0 0
3 1 0 0 0 1 0 1 0 1 0 1 0 0 0 1 0
4 0 0 1 0 1 0 0 1 0 1 1 0 0 0 1 0
5 0 1 0 0 1 0 1 0 1 0 1 0 0 0 1 0
6 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 0
7 0 1 0 0 1 0 1 0 1 0 1 0 0 0 1 0
8 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0
9 0 1 0 0 1 0 0 1 0 1 1 0 0 1 0 0
10 1 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0
11 0 0 0 1 1 0 1 0 1 0 1 0 0 0 1 0
12 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0
13 0 1 0 0 1 0 0 1 0 1 1 0 0 1 0 0
14 0 0 1 0 1 0 1 0 1 0 1 0 0 1 0 0
15 0 0 0 1 1 0 1 0 1 0 1 0 0 0 0 1
16 0 1 0 0 1 0 1 0 0 1 1 0 0 1 0 0
17 1 0 0 0 1 0 0 1 0 1 1 0 0 0 0 1
18 1 0 0 0 1 0 1 0 0 1 1 0 0 0 1 0
19 1 0 0 0 0 1 1 0 0 1 1 0 0 1 0 0
20 1 0 0 0 1 0 1 0 0 1 1 0 0 1 0 0
21 1 0 0 0 1 0 0 1 1 0 1 0 0 0 1 0
22 1 0 0 0 1 0 0 1 0 1 0 1 0 1 0 0
23 1 0 0 0 0 1 1 0 1 0 0 1 0 0 1 0
24 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0
25 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0
26 0 1 0 0 1 0 1 0 1 0 1 0 0 1 0 0
27 1 0 0 0 0 1 1 0 0 1 1 0 0 1 0 0
28 1 0 0 0 1 0 1 0 0 0 1 0 0 0 1 0
29 0 0 0 1 1 0 1 0 1 0 1 0 0 0 0 1
30 0 0 0 1 1 0 1 0 0 1 0 1 0 1 0 0
31 1 0 0 0 0 1 0 1 0 1 0 1 0 0 1 0
32 1 0 0 0 0 1 1 0 0 1 0 1 0 1 0 0
33 0 0 1 0 1 0 1 0 1 0 1 0 0 1 0 0
34 1 0 0 0 0 1 0 1 0 1 0 1 0 1 0 0
35 0 0 1 0 0 1 1 0 0 1 0 1 0 0 1 0
36 0 1 0 0 1 0 1 0 0 1 0 1 0 0 1 0
37 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0 0
38 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0 0
26
27 28
Análise de Correspondências: Levantamento de solos efetuado pelo “Swiss Federal Institute of Technology” em Lausanne/Suíça, tendo sido coletado um total de 100 amostras
30
Na matriz de dados apresentada no exercício 02 constam valores para Cd, Cu e Pb.
6
Os limites máximos considerados toleráveis para o consumo humano são: Cd = 0.8; Cu = 50; Pb = 50 Tendo em vista esses valores, preliminarmente, efetuar uma transformação para as variáveis Cd, Cu e Pb da seguinte maneira: Se Cdi ≥ 0.8, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero) Se Cu ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero) Se Pb ≥ 50, substituir pelo valor 1 (um); caso contrário pelo valor 0 (zero)
31 32
Para a transformação binária usar o aplicativo Excel®|função (fx)|Lógica|SE, da seguinte maneira:
Para cádmio: =SE(x,y<=0.8;0;1) Para cobre: =SE(x,y<=50;0;1) Para chumbo =SE(x,y<=50;0;1)
De posse dessa nova tabela, com valores binários, efetuar análise de correspondências múltiplas para confrontar os resultados das 3 variáveis geoquímicas tanto com a litologia como com o uso da terra.
33 34
35 36
7
37
Concentrações de Cd e Pb
acima dos limites toleráveis estão associadas à lavoura.
Associação entre pradaria e
terrenos J3; entre floresta e terrenos J2.
explicação
38
39 40
41
Dados: metais pesados (ppm) provenientes de diversas profundidades (cm) de uma sondagem no leito de uma laguna
8
43
Tendência do teor em metais pesados com o aumento da profundidade?
Comportamento das variáveis é o mesmo com o aumento da profundidade?