noÇÕes sobre correlaÇÃo e regressÃo linear...
TRANSCRIPT
NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
1
O nosso objetivo é estudar a relação entre duas variáveis
quantitativas.
Exemplos:
i. Idade e altura das crianças
ii. Tempo de prática de esportes e ritmo cardíaco
iii. Tempo de estudo e nota na prova
iv. Taxa de desemprego e taxa de criminalidade
v. Expectativa de vida e taxa de analfabetismo
2
Investigaremos a presença ou ausência de relação linear sob
dois pontos de vista:
ANÁLISE DE CORRELAÇÃO
◦ Interesse em mensurar a “força” da associação entre as
variáveis (geralmente através do cálculo de algum
coeficiente).
ANÁLISE DE REGRESSÃO
◦ Interesse em realizar previsões sobre os valores da variável
dependente (resposta) a partir dos valores das variáveis
independentes (preditoras).
◦ Construir um modelo estatístico (modelo de regressão):
uma equação que mostre o relacionamento entre as
variáveis.
3
Representação gráfica de duas variáveis quantitativas:
Diagrama de dispersão.
Exemplo: Tempo de estudo e Nota da Prova de Bioestatística:
X : tempo de estudo (em horas)
Y : nota da prova
Pares de observações (Xi , Yi) para cada estudante
4
Tempo (X) Nota(Y)
3,0 4,0
3,5 3,5
4,0 7,0
5,0 6,5
7,0 4,7
8,0 8,0
9,0 7,7
11,0 8,5
12,0 9,8
5
0,00
2,00
4,00
6,00
8,00
10,00
12,00
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00
Nota
Tempo
Diagrama de Dispersão
Diagrama de dispersão indica a possibilidade de correlação
linear.
Coeficiente de correlação de Pearson (r): É uma medida
(coeficiente) do grau de relação linear entre duas variáveis
“quantitativas”
6
dados dos médias as são e que Em
1i
2
1i
2
1
)(.)(
))((
yx
n
i
n
i
n
i
ii
yyxx
yyxx
r
Ou
7
n
yy
n
xx
n
yxyx
i
i
i
i
ii
ii
r2
22
2)()(
O coeficiente de correlação varia de -1 a 1.
Valores negativos indicam uma relação inversamente
proporcional entre as variáveis.
Exemplo: Mortalidade infantil X Percentual de mães com pré-
natal.
Valores positivos do coeficiente indicam uma relação
diretamente proporcional entre as variáveis.
Exemplo: Peso X Altura
Valores próximos a 0 (negativos ou positivos) indicam uma
relação de independência entre as variáveis.
Exemplo: Altura X Nota na Prova
8
Tipos de correlação entre as variáveis
Correlação
Linear
Positiva ou
direta
Correlação Linear
Negativa ou
inversa
SEM
Correlação
Correlação Não
linear
Casos particulares:
r = 1 correlação linear positiva e perfeita
r = -1 correlação linear negativa e perfeita
r = 0 inexistência de correlação linear
Do Exemplo anterior temos:
r=47,47
87,22. 37,16= 0,83
11
Tempo (X) Nota(Y) (x- média X) (y-média Y) (x- média X)² (y-média Y)²(x- média X)(y-média
Y)
3,00 4,00 -3,94 -2,63 15,52 6,92 10,36
3,50 3,50 -3,44 -3,13 11,83 9,80 10,77
4,00 7,00 -2,94 0,37 8,64 0,14 -1,09
5,00 6,50 -1,94 -0,13 3,76 0,02 0,25
7,00 4,70 0,06 -1,93 0,00 3,72 -0,12
8,00 8,00 1,06 1,37 1,12 1,88 1,45
9,00 7,70 2,06 1,07 4,24 1,14 2,20
11,00 8,50 4,06 1,87 16,48 3,50 7,59
12,00 9,80 5,06 3,17 25,60 10,05 16,04
Total 87,22 37,16 47,47
O coeficiente de correlação mede o grau de correlação entre
duas variáveis, mas absolutamente não significa que
necessariamente haja uma relação de causa-efeito entre as
variáveis.
Quando encontramos uma correlação que se demonstra
importante para o nosso estudo, normalmente desejamos
extrair mais informações a respeito da relação entre as
variáveis , tais como estimar um modelo (equação
matemática) que a represente, realizar predições, etc.
Um modo de avançarmos mais nesta análise é realizarmos
uma Análise de Regressão.
12
Quando realizamos uma regressão linear queremos estimar
uma função linear ( Y = a + bX) que represente a relação
entre duas variáveis. Então primeiro precisamos definir qual
será a variável independente (X), a que “tentará” explicar a
variável dependente (Y).
Portanto desejamos estimar a reta que melhor represente a
relação entre as variáveis X e Y, ou em outra palavras, o
modelo linear (reta) que exprima a reação de Y conforme X
varia.
13
dados. dos médias as são que Em yex
xbya
n
xx
n
yxyx
bi
i
ii
ii
22 )(
Utilizando as propriedades da média (estamos procurando uma
reta média) e aplicando conceitos de determinação de pontos
mínimos e máximos ( derivadas parciais), chega-se a conclusão
que os coeficientes linear (a) e angular (b) da equação de regressão
serão dados por:
• As curvas ajustadas são utilizadas para fazer predição
(previsões)
•Os erros de predição devem ser os menores possíveis.
O coeficiente de regressão b informa o número de unidades
de variação de Y ao se acrescentar uma unidade de X.
O coeficiente de correlação de Pearson é usado para qualificar
a reta ajustada, assim, quanto mais próximo de 1 ou de -1
menores serão os erros de previsão. Consequentemente,
modelos com r muito baixo não devem ser usados (
geralmente os módulos dos r’s adotados em pesquisas
biológicas devem ficar acima de 0,8.)
15
Exercício:
Um pesquisador deseja verificar se um instrumento para medir a
concentração de determinada substância no sangue está bem
calibrado. Para isto, ele tomou 15 amostras de concentrações
conhecidas (X) e determinou a respectiva concentração através do
instrumento (Y), obtendo:
a) Encontre o coeficiente de correlação, usando os seguintes dados:
X 2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0
Y 2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7 9,6 10,0 10,1
b) Obtenha a reta de regressão da variável Y em função de X.
R:
Exercício Extra: É esperado que a massa muscular de uma pessoa
diminua com a idade. Para estudar essa relação, uma
nutricionista selecionou 18 mulheres, com idade entre 40 e 79
anos, e observou em cada uma delas a idade (X) e a massa
muscular (Y).
18
Massa muscular (Y) Idade (X)
82.0 71.0
91.0 64.0
100.0 43.0
68.0 67.0
87.0 56.0
73.0 73.0
78.0 68.0
80.0 56.0
65.0 76.0
84.0 65.0
116.0 45.0
76.0 58.0
97.0 45.0
100.0 53.0
105.0 49.0
77.0 78.0
73.0 73.0
78.0 68.0
a) Calcule o coeficiente de correlação linear entre X e Y.
Denotamos as variáveis: Y = Massa Muscular e X = Idade ,
n=18
b) Ajuste uma reta de regressão para a relação entre as
variáveis Y: massa muscular (dependente) e X: idade
(independente).
19