correlação e regressão linear - estatística
Post on 10-Dec-2015
42 Views
Preview:
DESCRIPTION
TRANSCRIPT
Correlação e regressãolinear simples
Daniela Benzano
Dr. Mário B. Wagner, PhDServiço de Epidemiologia e
Bioestatística/HCPA
Correlação linear
Karl Pearson
�1857, Londres, Inglaterra
� 1936, Londres, Inglaterra
O desenvolvimento da correlação linear recebeu uma importante contribuição a partir de 1893 com os estudos de Karl Pearson.
Pearson formou-se em matemática em Cambridge, 1879 e atuou como professor de Matemática Aplicada no University College,
London durante a maior parte do tempo de sua carreira acadêmica.
Correlação linear
• Para avaliar se existe associação linear entre duas variáveis quantitativas é comum a utilização do coeficiente de correlação(produto-momento) de Pearson (r)
• O coeficiente de Pearson avalia o quanto duas séries numéricas repousam sobre uma linha reta, indicando assim o grau de sua associação linear.
Correlação linear
• O coeficiente de Pearson (r) varia entre −1 e +1.
• Valores negativos indicam relação inversa: x↑ e y↓
• Valores positivos indicam relação direta: x ↑ e y ↑
• Os valores mínimo (-1) e máximo (+1) de r ocorrem quando todos os pontos estão sobre a reta.
r = −1 r = +1
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 1500.0
0.2
0.4
0.6
0.8
1.0
1.2
Gráficos de dispersão de pontos
r = 0,76 r = 0,42
r = - 0,82r = 0
relação não linear
Correlação linear
• A fórmula do coeficiente de Pearson (r) é
yx
xy
ss
covr
⋅= onde
( )( )( )1n
yyxxcovxy −
−−= ∑
• Quando x e y não estão associados eles não covariam,
a covariância (covxy) é pequena, e o r é pequeno.
• Quando x e y estão associados a covariância tende a ser tão grande quanto (sx × sy) e assim o valor de r torna-se grande (próximo de 1).
Correlação linear
• A fórmula mais conhecida do coeficiente dePearson (r) é
( )( )
( ) ( )
−
−
−=
∑ ∑∑ ∑
∑∑∑
n
yy
n
xx
n
yxxy
r2
2
2
2
Correlação linear
• O coeficiente de Pearson como toda estatística obtida em amostra sofre variação aleatória, devendo ser testado estatisticamente.
• O r populacional é representado por “rô” (ρ).
• O procedimento clássico é testar o desvio de r em relação ao ρ populacional
Teste de significância do coeficiente de correlação (r)
ρ = 0 +1−1
Teste t de Student para o
coeficiente de correlação
Dados da amostra
r = 0,58 e n=8
• Ho: ρ = 0
• Ha: ρ ≠ 0
• α = 0,05
• gl=nº de pares-2=6
• tα;gl = t0,05;6 = 2,447Estudo (horas)
0 1 2 3 4 5 6 7 8 9
No
ta n
a p
rova
0
1
2
3
4
5
6
7
8
9
10
2n
r1
r
EP
rt
2r
−−
=ρ−
=
Como |tcalc| = 1,74 < t0,05;6 = 2,447, não há evidência de correlação uma vez que o desvio de r em relação a ρ=0 não foi significativo.
Teste t de Student para o
coeficiente de correlação
741
28
5801
580t
2,
,
,=
−−
=
*
* É possível obter-se, também, o intervalo de confiança para o r
rgl EPtr ⋅±≅ρ α;ˆ
Li = 0,58 −( 2,447 × 0,33) = −0,23
Intervalo de 95% confiança para a ρpor aproximação t
Ls = 0,58 + (2,447 × 0,33) = 1,39 ≅ 1
IC 95%assintótico (ρ): −0,23 a 1,0
t 0,05;6 = 2,447
IC 95%exato (ρ): −0,22 a 0,91
Uma escala de magnitudes
TEP
f dif.
Trivial Pequena Moderada Grande Mt. Grande Q Prf
Adaptada de Will Hopkins, http://www.sportsci.org/resource/stats/effectmag.html
Correlação linearCoeficiente de determinação
• O quadrado do coeficiente de correlação (r2) é conhecido como coeficiente de determinação e representa a “variância explicada”, ou seja, qual a proporção da variabilidade de y que pode ser explicada pela variabilidade de x.
Explorador e antropologista, Galton tornou-se famoso por seus estudos pioneiros sobre hereditariedade da inteligência.Galton descobriu a regressão linear (a qual chamou inicialmente de reversão) estudando ervilhas, provavelmente influenciado por seu não menos famoso primo, o biólogo Charles Darwin. Apesar de não ser matemático, Galtoninfluenciou o pensamento estatístico da época tendo como um de seus seguidores o jovem matemático Karl Pearson.
Francis Galton�1822, Birmingham, Inglaterra� 1911, Surrey, Inglaterra
Galton e a reversão
Regressão linear
• Técnica de análise de dados que permite quantificar o efeito de x sobre y partindo de um modelo linear (reta).
• Com regressão linear é possível estimar o valor de y (variável dependente) a partir de um valor de x (variável independente).
Altura (cm)
Peso (Kg)
A reta de regressão linear
altura peso152 55153 56160 63163 60165 61171 64172 70178 71180 73181 85185 80186 89186 75
• y: peso (v. dependente)
• x: altura (v. independente)
• b: coeficiente angular. Efeito de x em y, ou seja, para cada alteração de uma unidade em x, y altera-se em b unidades.
• a: coeficiente linear. Ponto em y quando x for igual a zero.
Altura (cm)
Peso (Kg)
A reta de regressão linear
y = a + bx
Regressão linear
( )( )
( )∑ ∑
∑∑∑
−
−=
n
xx
n
yxxy
b2
2
xbya −=
y = a + bx
Regressão linear
Assim, no exemplo da altura (cm) e do peso (kg) temos
( )( )
( )∑ ∑
∑∑∑
−
−=
n
xx
n
yxxy
b2
2
xbya −=
x8105369y ,, +−=
altura8105369peso ⋅+−= ,,
Teste de significância do coeficiente angular (b)
Β = 0
Teste t de Student para o
coeficiente angular
• Ho: Β = 0
• Ha: Β ≠ 0
• α = 0,05
• gl=nº de pares-2=11
• tα;gl = t0,05;11 = 2,201
altura peso152 55153 56160 63163 60165 61171 64172 70178 71180 73181 85185 80186 89186 75
bb EP
b
EP
Bbt =
−=
Teste t de Student para o
coeficiente angular (b)
( ) ( )
−−
−−=
∑ ∑∑∑ ∑
2
2
2
2n
xxn
xybyayEPb
onde
Teste t de Student para o
coeficiente angular (b)*
altura(x)8105369peso(y) ⋅+−= ,,
Coefficientsa
-69.527 19.070 -3.646 .004
.809 .111 .910 7.301 .000
(Constant)
ALTURA
Model1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: PESOa.
SPSS output
Teste t de Student para o
coeficiente angular (b)*
Como |tcalc| = 7,30 > t0,05;11 = 2,201, o “b”é significativamente diferente de zero, havendo regressão do peso sobre a altura.
* É possível obter-se o IC para o b.
Coefficientsa
-69.527 19.070 -3.646 .004
.809 .111 .910 7.301 .000
(Constant)
ALTURA
Model1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: PESOa.
SPSS output
bgl EPtbB ⋅±= α;ˆ
Li = 0,81 − ( 2,201 × 0,11) = 0,57
Intervalo de 95% de confiança para a Β
Ls = 0,81 + (2,201 × 0,11) = 1,05
IC 95%assintótico (Β): 0,57 a 1,05
t 0,05;11= 2,201
Tema
Ex: 60
64
Tema: solução do exercício 60
E: igual número de acidentes nos 6 dias da semana. 180/6=30 por dia
• χ2 calculado = 23.7 > χ20,01;5 = 15,09, rej.
Ho.
• Acidentes não ocorrem com igual freqüência nos seis dias da semana.
Tema: solução do exercício 64 (cont)
Associação idade início vida sexual com
câncer uterino
Idade início vida sexual
<16 17-20 >20
Casos 19 22 2 43
Controles 16 33 14 63
• 35 55 16 106
E: TC x TL/TG em cada casela
ex: 35 x 43/106 na primera casela
Tema: solução do exercício 64
Testes de associação da idade de início da vida sexual com câncer uterino
• χ2 calculado = 7,97 > χ20,05;2 = 5,99, rej. Ho.
• Há associação entre idade de início da vida sexual e câncer da cérvice uterina.
Tema: solução do exercício 64 (cont)Associação com alelo DQB1*03
DQB1*03 Outro
Casos 33 10
Controles 24 39
• Como é uma tabela 2x2, usar correção de Yates.
• χ2 Yates = 13,84 > χ20,001;1 = 10,83, rej. Ho.
• Mulheres portadoras do alelo DQB1*03 têm maior risco.
Tema: solução do exercício 64 (cont)
Associação câncer uterino com alelo DQB1*03
• Como é uma tabela 2x2, usar correção de Yates.
• χ2 Yates = 13,84 > χ20,001;1 = 10,83, rej. Ho.
• Mulheres portadoras do alelo DQB1*03 têm maior risco.
top related