modelo de regressão linear simples · 2019-09-12 · objetivos –modelo de regressão linear...
TRANSCRIPT
Modelo de Regressão Linear Modelo de Regressão Linear Modelo de Regressão Linear Modelo de Regressão Linear SimplesSimples
Prof.a Dr.a Simone Daniela Sartorio de Medeiros
DTAiSeR-Ar
1
IntroduçãoIntrodução
Considere uma variável aleatória Y de interesse. Já vimos que podemosescrever essa variável como sendo:
mY
onde m é o valor esperado desta variável e é o erro.
Esse modelo sugere que podemos utilizar a esperança e a variância de Ypara descrever essa variável de forma resumida.
2
No R:y<- c(10,12,25,23,26,12,15)ybarra = mean(y); ybarravar(y)
e = y - ybarra ; eround(mean(e),4)var(e)
cbind(y, ybarra, e)
• Portanto podemos dizer que o erro é também umavariável aleatória que tem média zero e variânciaigual de a Y.
• Esse erro é geralmente chamado de resíduo erepresenta os inúmeros fatores que, conjuntamente,fazem as observações de Y oscilarem em torno de .
• No caso particular de Y ter distribuição Normal,teremos também que:
),0(~ 2yN
Uma variável auxiliarUma variável auxiliar
Considere agora que exista uma outra variável X, com alguma relação coma variável Y.
Isso sugere uma maneira alternativa de estudar Y tendo como baseinformações sobre X. Portanto, as quantidades que descrevem Y são agoraesperanças e variâncias condicionadas a valores específicos de X, ou seja:
]|[]|[ xYVarexYE
onde x é um valor conhecido de X.
3
onde x é um valor conhecido de X.
• Se existir uma certa associação entre X e Y,
talvez os valores de E[Y|x] sigam um padrão e
os valores de Var[Y|x] sejam menores do que Var[Y]
HistóriaHistóriaA teoria de regressão teve origem no
século XIX com Galton.
Francis Galton foi um antropólogo, meteorologista, matemático e
estatístico inglês.
Em um de seus trabalhos ele estudou a relação entre a altura dos pais e dos filhos (Xi e Yi),
procurando saber como a altura do pais influenciava a altura do filho. Notou que se os pais fossem muito alto ou muito baixo, o filho
teria uma altura tendendo à média.
Por isso, ele chamou de regressão, ou seja, existe uma tendência de os dados regredirem à média.
4
É muito útil quantificar essa associação.
Existem muitos tipos de associações possíveis, iremos apresentar o tipo derelação mais simples, que é a relação linear simples.
Quantificando a associação entre 2 variáveis quantitativasQuantificando a associação entre 2 variáveis quantitativas
Objetivos Objetivos –– Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples
1) Determinar como duas variáveis se relacionam;
2) Estimar a função que determina a relação entre as variáveis;
3) Usar a equação ajustada para prever valores da variável dependente.
5
DefiniçãoDefinição::Dados n pares de valores (x1 , y1), (x2 ,y2), …, (xn , yn), chama-se de coeficiente
de correlação linear de Pearson entre as duas variáveis X e Y a:
Coeficiente de Correlação de PearsonCoeficiente de Correlação de Pearson
Esse mede o grau de associação entre 2 variáveis quantitativas e também da proximidade dos dados a uma reta.
Esta medida avalia o quanto a nuvem de pontos do gráfico de dispersão se aproxima deuma reta.
ou seja, a média dos produtos dos valores padronizados das variáveis.
yx
n
iYiXi
ssn
mymx
YXcorrr)1(
)ˆ)(ˆ(
),( 1
–1 ≤ r ≤ 1
No R:cor(x,y)
6
Ou seja,r = cor(X, Y) ≈ 0
A correlação é forte positiva se
r = cor(X, Y) ≈ +1
A correlação é forte negativa se
r = cor(X, Y) ≈ –1
Classificação da correlaçãoClassificação da correlação
Não existe associação
–1 ≤ r ≤ 1
7
+1–1 0
Correlação negativa Correlação positiva
Existe associação
Existe associação
CUIDADOCUIDADO
Você já deve ter visto inúmeras vezes estudos correlacionando coisas. Mas sem saber tudo sobre os dois ou mais fatores, ou sem buscar saber,
você pode acabar sendo enganado achando que uma coincidência é
8Site: http://www.tylervigen.com/spurious-correlations
você pode acabar sendo enganado achando que uma coincidência é causalidade.
Pra provar isso, Tyler Vigen fez um site mostrando coisascompletamente aleatórias que se relacionam em gráfico, podendo ser umarelação diretamente proporcional ou inversamente. Veja:
9
Assim, se pudermos descrever a E[Y|x] como:
XxYE ]|[
A variável aleatória Y será então descrita como:
]|[ xYEY
10
XY
Este modelo chama-se modelo de regressão linear simples
em que:
O modelo de regressão linear simples é dado por:
yi = + xi + i , i=1,2,...,n
Ou
Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples
y = + x +
em que:Y é a variável dependente (variável resposta, ou variável endógena);
X é a variável independente (covariável, variável explanatória, variável
regressora, ou variável exógena);
, e x são constantes;
é o intercepto (ou coeficiente linear), isto é, o valor de y quando x = 0;
é a declividade (ou coeficiente angular): quando x aumenta 1 unidade, y
aumenta unidades.11
Significado dos parâmetros do modelo de regressão linear simplesSignificado dos parâmetros do modelo de regressão linear simples
x=1
yyi = α + xi
x
y
adjacentecat
opostocat
ˆtan
.
.ˆtan
Y
^ ^ ^
^
12
α
x x+1
α (intercepto); quando a região experimental inclui X=0, α é o valor da média da distribuição de Yem X = 0, caso contrário, não tem significado prático como um termo separado (isolado) no modelo;
(inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre amudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidadede Y por unidade de acréscimo em X.
X
^
Pressuposições do modelo de regressãoPressuposições do modelo de regressão
Para procedermos ao estudo da regressão linear simples, as seguintesexigências do modelo devem ser satisfeitas:
1) Os erros ei são independentes Cov(ei, ej) = 0, todo i,j=1, ..., n; i j.2) Os erros ei têm média nula E(ei) = 0;3) Os erros ei possuem variância constante Var(ei) = 2 ;4) Os erros ei possuem distribuição normal com média zero e variância
constante 2 ei ~ N(0, 2).constante 2 ei ~ N(0, 2).
Além destas, poderíamos acrescentar:
a) Existe uma relação linear entre X e Y.b) A variável X é pré-determinada com precisão (fixa), enquanto que Y é uma
variável aleatória.
OBS: Se X for uma variável aleatória, e, portanto, sujeita a erros de determinação, podemos admitir os valores de X pré-determinados, isto é, fixos, sem prejudicar a
validade dos resultados. 13
EstimaçãoEstimação dosdos parâmetrosparâmetros
Seja uma amostra de observações de tamanho n, onde cada elemento dessaamostra tem duas informações (variáveis).
Existe alguma associação entre essas variáveis? Faz sentido?Como determinar o “melhor” modelo para representar esses dados?
14
Y
X
Y
EstimaçãoEstimação dosdos parâmetrosparâmetros
VALOR
3,5
4,5
5,5
6,5
15
Y
IDADE
1,5
2,5
2 6 10 14 18 22
X
Assim, considerando nosso modelo original:yi = + xi + ei
VALOR
2,5
3,5
4,5
5,5
6,5
e2
e1
e3
EstimaçãoEstimação dosdos parâmetrosparâmetros
n
i
n
iiii xyeS
1 1
22 )]([),(
IDADE
1,5
2,5
2 6 10 14 18 22
X
e5
16
Como determinar a estimativa de e ?Através do método de estimação dos mínimos quadrados (MMQ).
yi = + xi + ei ei = yi – ( + xi)
n
i
n
iiii xyeS
1 1
22 )]([),(
Deseja-se encontrar os valores de α e β que minimizem a soma de quadrados dos desvios, S(,).
Para encontrar o mínimo, basta derivar S(,) em
17
Para encontrar o mínimo, basta derivar S(,) em relação a α e β e igualar a zero.
OBS: Lembre-se de verificar se este é mesmo um ponto de mínimo!!!
n
i
n
iiii xyeS
1 1
22 )]([),(
02)1(2),(
11
n
iii
n
iii xyxy
S
02)(2),(
1
2
1
n
iiiii
n
iiii xxyxxxy
S
(I)
(II)
(I)
Para minimizar S(,) temos:
0ˆˆ11
n
ii
n
ii xny
0ˆ
2
1211
x
x
xy
yx
n
iin
n
ii
n
iin
n
x
x
n
xy
yx
n
iin
ii
n
ii
n
iin
iii
2
1
1
2
11
1ˆ
18
11 ii
n
ii
n
ii xyn
11
ˆˆ
xy ˆˆ
(II) 0ˆˆ1
2
11
n
ii
n
ii
n
iii xxyx
0ˆˆ1
2
1
11
1
n
ii
n
ii
n
ii
n
iin
iii xx
n
x
n
y
yx
0ˆ 1
1
211
1
nx
nyx i
ii
ii
iii
Estimação dos parâmetrosEstimação dos parâmetros
XX
XY
n
in
n
ii
n
iin
iii
s
s
x
n
yx
yx
2
11
1
Os estimadores e de mínimos quadrados para e , respectivamente são:
xy ˆˆˆ
xyn
x
n
yn
ii
n
ii
ˆˆˆ 11
iin
ii
n
x
x
1
1
2
Assim, a curva estimada é dada por:Logo, encontrando os valores
estimados de α e β obtém então os valores esperados de Y.
19
Nove amostras de solo foram preparadas com diversas quantidades defósforo inorgânico (X). Plantas de milho, que foram cultivadas em ambos ossolos, foram colhidas ao final do 38º dia e analisadas para verificar a quantidadede fósforo que elas continham (Y). A partir daí foi estimada a quantidade defósforo disponível no solo. Os valores observados foram os que se seguem:
ExemploExemplo
P inorgânico no solo (x) 1 4 5 9 11 13 23 23 28
Objetivo: É possível prever o P nas plantas utilizando apenas a informação de Pinorgânico no solo?
Faça um gráfico de dispersão, verifique se as variáveis possuem algumarelação. Se sim, encontre a equação que possa representar essa relação.
20
P inorgânico no solo (x) 1 4 5 9 11 13 23 23 28
P nas plantas (y) 64 71 54 81 76 93 77 95 109
No R:
ExemploExemplo
Pelo gráfico é possível verificar que existe um relação linear
crescente (ou positiva) entre as variáveis X e Y.
No R:
x<- c( 1, 4, 5, 9, 11, 13, 23, 23, 28)y<- c(64, 71, 54, 81, 76, 93, 77, 95, 109)
# O gráfico de dispersãoplot(x, y, pch=19)
# Coeficiente de correlaçãocor(x,y)0.8049892
O coeficiente de correlação linear de Pearson confirma e quantifica a existência
dessa relação, sendo uma relação fortemente positiva. Ou seja, se a variável
X cresce, Y cresce também.
21
ExemploExemploNo R: RLS<- lm(y ~ x); RLScoef(RLS)
abline(RLS, col=‘red’) # Veja como o modelo estimado está explicando os dados
xy ˆˆˆ
22
xy
xy
416894,1580381,61ˆ
ˆˆˆ
Tarefa 1: Obtenha essa equação sem o uso do software. Faça as contas na mão.
Será que realmente existe uma relação entre Y e X?
Será que o coeficiente de inclinação da regressão linear é significativamente diferente de zero?
Respondemos essas questões através da construção da análise de variância (ANOVA) para testar o modelo de regressão linear.
Análise de VariânciaAnálise de Variância
A divisão da variação na amostra dos valores de y em uma variação que pode ser atribuída à
regressão linear (chamada de Soma de Quadrados de Regressão - SQReg) e uma
variação residual (variação dos pontos acima e abaixo da reta de regressão - SQRes), ou seja:
SQTotal = SQReg + SQRes
23
n
i
n
inyx
2
Em que:Análise de VariânciaAnálise de Variância
n
y
ySQTotal
n
iin
ii
2
1
1
2
No R:sum(x); sum(x^2)
sum(y); sum(y^2)
sum(x*y)
XX
XY
n
iin
ii
ii
ii
i
n
ii
s
s
n
x
x
n
yx
yx
gSQ2
2
1
1
2
11
1
Re
gSQSQTotalsSQ ReRe 24
H0: β = 0H0: β ≠ 0
FV gl. SQ QM Fcalc
Regressão linear 1 SQReg QMReg=SQReg/1 QMReg/QMRes
Resíduo n – 2 SQRes QMRes=SQRes/(n – 2) -
Análise de VariânciaAnálise de Variância
Número de parâmetros do modelo – 1 = 2 – 1 =1
Resíduo n – 2 SQRes QMRes=SQRes/(n – 2) -
Total n – 1 SQTotal - -
Conclusão:
Rejeitaremos H0 a um nível de significância pré fixado α se Fcalc > F(1, n-2) ,concluindo que β ≠ 0 e portanto, a regressão é significativa.
Caso contrario, aceitamos H0 .
25
No R: anova(RLS)
ExemploExemplo
Conclusão: Rejeitaremos H0 a um nível de significância de 1%, pois Fcalc > F(1, 7, 1%) , concluindo que β ≠ 0 e portanto, a regressão é significativa.
26
VerificandoVerificando asas pressuposiçõespressuposições dodo modelomodelo
shapiro.test(rstudent(RLS))
# valores preditos versus resíduos estudentizadosplot(predict(RLS), rstudent(RLS), ylim=c(-5,5))abline(h=c(-3,3), lty=2)
27
Intervalo de confiança para os Intervalo de confiança para os αα e e
n
ii
n
xx
x
nsQMtIC
1
2
2
2/;2
)(
1Reˆ:%);(
]4447,83;7171,39[734
169
9
1114,355809,61:%)99;(
2
%1,495,0;7
tIC
=0,01
n
ii
n
xx
sQMtIC
1
22/;2
)(
Reˆ:%);(
28
]7982,2;0356,0[734
35,1141,4169:%)99;( 495,0;7 tIC
confint(RLS, level=.99)
PrediçãoPredição
Um dos usos mais comuns de regressão é a estimativa (ou predição) de umvalor de y para um determinado valor para x (que não foi incluído no estudo).Isso é obtido pela substituição do valor particular de x na equação de regressãolinear. Assim, por exemplo, se x = 20 ppm de fósforo inorgânico, teremos:
No R:plot(x,y, pch=19); abline(RLS, col="red")
y_chapeu<- function(x) {coef(RLS)[1] +
OBS: Só podemos fazer a predição dentro do intervalo de x estudado (no caso, de 1 a 28). A utilização de valores fora desse intervalo recebe o nome de
extrapolação e, deve ser usada com muito cuidado, pois o modelo adotado pode não ser correto fora do intervalo estudado.
9,89)20).(417,1(58,61)20(ˆ y
y_chapeu<- function(x) {coef(RLS)[1] + coef(RLS)[2]*x}
y_chapeu(20)
29
No R:
cbind(y, y_chapeu(x))
30
CoeficienteCoeficiente dede DeterminaçãoDeterminação
A quantidade R2, ou r2, é conhecida como coeficiente de determinação. Essamedida indica a proporção da variação na variável Y que é explicada pelaregressão em X, sendo dada por:
Quanto mais próximo de 1 maior é a relação entre X e Y.
SQTotal
gSQYXcorrrR
Re),( 222 0 ≤ R2 ≤ 1
Quanto mais próximo de 1 maior é a relação entre X e Y.
648197,02274
1474Re2 SQTotal
gSQR
Interpretação:
64,8% da variação em Y é explicada pela relação linear com X.
Portanto, ainda permanecem 35,2% de variação devida ao acaso (inexplicada).
Assim, no exemplo:
31
Adequação do modeloAdequação do modelo
Para verificar se o modelo de regressão é adequado utilizamos o coeficientede determinação R2. Contudo, como o R2 depende do número de observações daamostra, o coeficiente de determinação ajustado acaba sendo mais utilizado:
1
)1( 22
kn
kRnRajustado
Sendo:Sendo: k o número de parâmetros fixos desconhecidos do modelo menos 1.
Exemplo: Para a regressão linear simples k = 1; n o tamanho da amostra observada.
0,5977119
164,0)19(2
ajustadoR
Assim, no exemplo:
OBS: Sua interpretação é a mesma do R2
32
ExemploExemplo
No R:
summary(RLS)Call:lm(formula = y ~ x)
Residuals:Min 1Q Median 3Q Max
-17.169 -1.166 1.003 6.668 13.000
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 61.5804 6.2477 9.857 2.35e-05 ***x 1.4169 0.3947 3.590 0.00886 ** ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.69 on 7 degrees of freedomMultiple R-squared: 0.648, Adjusted R-squared: 0.5977 F-statistic: 12.89 on 1 and 7 DF, p-value: 0.008859
33
• Cuidado com algumas situações:
OBS: O R2 deve ser analisado com cuidado, pois R2 grande não implica necessariamente que o modelo seja
um bom preditor linear.
34
• Cuidado com algumas situações:
OBS: Dizer que não existe relação linear entre X e Y não implica que não existe relação. Pode existir outro tipo de relação entre variáveis.
35
Interpretações errôneas Interpretações errôneas do Rdo R22 e re r
1) Um alto coeficiente de correlação indica que predições úteis podem ser feitas. Istonão é necessariamente correto. Observe se as amplitudes dos intervalos de confiançasão grandes, isto é, não são muito precisos.
2) Um alto coeficiente de correlação indica que a equação de regressão estimada estábem ajustada aos dados. Isto também não é necessariamente correto (veja Figura 1).
3) Um coeficiente de correlação próximo de zero indica que X e Y não sãocorrelacionadas. Idem (veja Figura 2).
Figura 1. Tem um alto valor de r; o ajuste de uma equação de regressão linear não é adequada
Figura 2. Tem um baixo valor de r; porém existe uma forte relação entre X e Y.
36
Calibração ou capacidade de predição de novas observações, pode ser feita usando uma nova amostra e comparando os valores estimados com os
observados.
Ou seja, dado um valor de Y0, para o qual o correspondente valor de X0 é desconhecido, estimar o valor de X0.
CalibraçãoCalibração
37
Tipos de modelos de regressãoTipos de modelos de regressão
• RegressãoRegressão linearlinear simplessimples: quando há relação de um única variável resposta (Y)com uma única variável explanatória (X)
y = 0 + 1 x +
• RegressãoRegressão linearlinear múltiplamúltipla: quando há relação de um única variável resposta(Y) com duas ou mais variável explanatória (X1 , X2 , ..., Xp)
y = 0 + 1 x1 + 2 x2 + ... + p xp +
OBS: Considere que cada unidade amostral pode ser escrita como:
y = 0 + 1 x1 + 2 x2 + ... + p xp +
• RegressãoRegressão linearlinear multivariadamultivariada: quando há relação de um conjunto de duas oumais variáveis respostas (Y1 , Y2 , ..., Yk) com um conjunto de duas ou maisvariável explanatória (X1 , X2 , ..., Xp) sendo que este último conjunto pode serdiferente (ou igual) para cada uma das variáveis.
• RegressãoRegressão nãonão linearlinear: ocorre quando pelo menos uma das primeiras derivadasparciais referentes aos parâmetros desconhecidos (0 , 1 , 2 , ...,p ) dependemde algum parâmetro desconhecido. Exemplo:
y = 0 + 1 [1 – exp(– 2 x)] + 38