regressão - moodle-arquivo · grafico da raíz quadrada dos resíduos vs valores estimados:...

47
Introdução Regressão linear Regressão de dados independentes Regressão não linear Regressão Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Upload: vokhanh

Post on 10-Feb-2019

221 views

Category:

Documents


0 download

TRANSCRIPT

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Regressão

Susana Barbosa

Mestrado em Ciências Geofísicas 2012-2013

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Regressão linear

x : variável explanatória

y : variável resposta

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Gráfico primeiro!

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Gráfico primeiro!

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Gráfico primeiro!

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Modelo linear

x : variável explanatória

y : variável resposta

yi = α + βxi + εi εi ∼ N (0,Σ)

Ajuste do modelo linear→ estimação de α, β e Σ

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Modelo linear

x : variável explanatória

y : variável resposta

yi = α + βxi + εi εi ∼ N (0,Σ)

Ajuste do modelo linear→ estimação de α, β e Σ

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Estimador (maxima verosimilhança)

Modelo linear

yi = α + βxi + εi εi ∼ N (0,Σ)

Estimador de maxima verosimilhança

β̂ = (xT Σ−1x)−1xT Σ−1y

V [β̂] = (xT Σ−1x)−1

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Matriz de covariância Σ

I erros não correlacionados e variância constante Σ = σ2I

I Σ é diagonal, entradas iguaisI OLS (ordinary least squares)

I erros não correlacionados e variância não constante Σ = σ2i I

I Σ é diagonal, entradas diferentesI WLS (weighted least squares)

I erros correlacionados Σ

I Σ é não diagonalI GLS (generalised least squares)

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Matriz de covariância Σ

I erros não correlacionados e variância constante Σ = σ2I

I Σ é diagonal, entradas iguaisI OLS (ordinary least squares)

I erros não correlacionados e variância não constante Σ = σ2i I

I Σ é diagonal, entradas diferentesI WLS (weighted least squares)

I erros correlacionados Σ

I Σ é não diagonalI GLS (generalised least squares)

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Matriz de covariância Σ

I erros não correlacionados e variância constante Σ = σ2I

I Σ é diagonal, entradas iguaisI OLS (ordinary least squares)

I erros não correlacionados e variância não constante Σ = σ2i I

I Σ é diagonal, entradas diferentesI WLS (weighted least squares)

I erros correlacionados Σ

I Σ é não diagonalI GLS (generalised least squares)

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Regressão linear - dados independentes

yi = α + βxi + εi εi ∼ i.i.d N (0, σ2)

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo> summary(lm(y∼x))

Call: lm(formula = y ∼ x)

Residuals: Min 1Q Median 3Q Max-313.183 -65.187 -2.143 62.922 317.422

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -5.52023 6.07176 -0.909 0.363x 0.50806 0.01051 48.347 <2e-16 ***--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 95.93 on 998 degrees of freedomMultiple R-squared: 0.7008, Adjusted R-squared: 0.7005F-statistic: 2337 on 1 and 998 DF, p-value: < 2.2e-16

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo> summary(lm(y∼x))

Call: lm(formula = y ∼ x)

Residuals: Min 1Q Median 3Q Max-313.183 -65.187 -2.143 62.922 317.422

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -5.52023 6.07176 -0.909 0.363x 0.50806 0.01051 48.347 <2e-16 ***--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 95.93 on 998 degrees of freedomMultiple R-squared: 0.7008, Adjusted R-squared: 0.7005F-statistic: 2337 on 1 and 998 DF, p-value: < 2.2e-16

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo> summary(lm(y∼x))

Call: lm(formula = y ∼ x)

Residuals: Min 1Q Median 3Q Max-313.183 -65.187 -2.143 62.922 317.422

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -5.52023 6.07176 -0.909 0.363x 0.50806 0.01051 48.347 <2e-16 ***--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 95.93 on 998 degrees of freedomMultiple R-squared: 0.7008, Adjusted R-squared: 0.7005F-statistic: 2337 on 1 and 998 DF, p-value: < 2.2e-16

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo> summary(lm(y∼x))

Call: lm(formula = y ∼ x)

Residuals: Min 1Q Median 3Q Max-313.183 -65.187 -2.143 62.922 317.422

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) -5.52023 6.07176 -0.909 0.363x 0.50806 0.01051 48.347 <2e-16 ***--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 95.93 on 998 degrees of freedomMultiple R-squared: 0.7008, Adjusted R-squared: 0.7005F-statistic: 2337 on 1 and 998 DF, p-value: < 2.2e-16

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo (cont)

> confint(lm(y~x))

2.5 % 97.5 %(Intercept) -17.4351058 6.3946417x 0.4874383 0.5286817

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo (cont)

> summary(lm(y~-1+x))Call: lm(formula = y ~ -1 + x)Residuals: Min 1Q Median 3Q Max-315.64 -67.03 -3.33 60.64 320.06

Coefficients: Estimate Std. Error t value Pr(>|t|)x 0.49978 0.00525 95.2 <2e-16 ***

Residual standard error: 95.92 on 999 degrees of freedomMultiple R-squared: 0.9007, Adjusted R-squared: 0.9006F-statistic: 9063 on 1 and 999 DF, p-value: < 2.2e-16

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo (cont)

> AIC(lm(y~-1+x))[1] 11967.96

> AIC(lm(y~x))[1] 11969.13

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Análise de resíduos

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Gráficos dos resíduos

Resíduos vs valores estimados: visualização de padrões nosresíduos que sugiram outra dependência que não linear

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Gráficos dos resíduos

Grafico Q-Q: verificação visual de que os resíduos são consistentescom uma distribuição normal

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Gráficos dos resíduos

Grafico da raíz quadrada dos resíduos vs valores estimados:verificação visual de a variância é aproximadamente constante

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Gráficos dos resíduos

Grafico da distância de Cook: medida de influência (mede quanto arecta mudaria se o ponto fosse omitido)

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Outliers

I Regressão resistente: tem por objectivo omitir outliers domodelo de regressão, de modo a que não contribuam para omodelo estimadoEx: lqs (package MASS)

I Regressão robusta: em vez de incluir outliers ou omiti-los, dápesos menores a outliers, reduzindo a sua influência no modeloestimadoEx: lrm (package MASS)

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Outliers

I Regressão resistente: tem por objectivo omitir outliers domodelo de regressão, de modo a que não contribuam para omodelo estimadoEx: lqs (package MASS)

I Regressão robusta: em vez de incluir outliers ou omiti-los, dápesos menores a outliers, reduzindo a sua influência no modeloestimadoEx: lrm (package MASS)

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Regressão usual Regressão robusta

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Previsão

A incerteza na previsão deve incluir

I a incerteza na recta estimadaIC a 95% para o declive da recta: β̂ ± t0.975SEb

I a variação de pontos individuais em torno da recta(desvio de novas observações para a recta estimada)

Nota: a recta de regressão só é válida no domínio no qual foiestimada (intervalo original de valores da variável independente) -cuidado com extrapolações!

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Bootstrap

Observações: (xi , yi), i = 1, ...n

I Re-amostragem com repetição→ m amostras i.i.d de comprimento n

I Estimação do modelo linear para cada uma das mamostras bootstrap

I Erro calculado a partir do desvio padrão das m estimativasobtidas para o declive

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Bootstrap

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Transformações

(Maindonald & Braun, 2010)

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Transformações

Transformações mais comuns

I logaritmo(ex: razao entre os valores mais alto e mais baixo elevada, & 10)

I raiz quadrada ou cubica(ex: dados de contagem ou eventos raros)

Transformação de Box-Cox

y(λ) = yλ−1λ se λ 6= 0

y(λ) = log(y) se λ = 0

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Regressão sinusoidal

yi = Acos(wxi) + Bsin(wxi) + εi

Parâmetros: A, B (amplitudes)

w = 2π/T , T período

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Regressão polinomial

y = a0 + a1x + a2x2 + ...+ anxn

Parâmetros: a0, a1,... an

n: grau do polinómio

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

Call: lm(formula = density ~ Time)Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 2.884e+01 6.585e-03 4379.27 <2e-16 ***Time 3.605e-03 1.659e-04 21.73 <2e-16 ***Residual standard error: 0.02685 on 66 degrees of freedomMultiple R-squared: 0.8774, Adjusted R-squared: 0.8755F-statistic: 472.3 on 1 and 66 DF, p-value: < 2.2e-16

Call: lm(formula = density ~ Time + I(Time^2))Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 2.880e+01 8.374e-03 3439.404 < 2e-16 ***Time 6.593e-03 5.600e-04 11.773 < 2e-16 ***I(Time^2) -4.330e-05 7.866e-06 -5.505 6.73e-07 ***Residual standard error: 0.02234 on 65 degrees of freedomMultiple R-squared: 0.9164, Adjusted R-squared: 0.9138F-statistic: 356.2 on 2 and 65 DF, p-value: < 2.2e-16

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Exemplo

density.lin <- lm(density ~ Time)density.poly <- lm(density ~ Time + I(Time^2))

AIC(density.lin)-295.0338

AIC(density.poly)-319.0584

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013

Introdução Regressão linear Regressão de dados independentes Regressão não linear

Lowess

LOWESS - LOcally-WEighted Scatterplot Smoothing

Susana Barbosa: Análise de dados em Geociências Mestrado em Ciências Geofísicas 2012-2013