modelo de regressão linear: aspectos teóricos e computacionais

Introdução

A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos da outra;

Um economista pode tentar explicar as variações na procura de automóveis usados em termos de desemprego;

Um agricultor pode suspeitar que a quantidade de fertilizante por ele usada tenha influenciado a safra;

Dentro desse contexto, o objetivo desta monografia foi demonstrar as técnicas de análise de regressão dentro de uma abordagem teórica e computacional, utilizando o software estatístico R.

020406080

100120140

0 10 20 30 40

Modelo Matemático

• Considere duas variáveis X eY tal que y = f(x). Dado um conjunto de valores , os correspondentes valores de são conhecidos exatamente;

• Todos os pontos caem na curva da relação funcional;

• Esse tipo de situação configura um modelo matemático ou determinístico.

( 1,2,..., )iX i n ( )i iY f X

• Em um modelo estatístico, geralmente a variável resposta é afetada por várias variáveis;

• Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização dasoutras m variáveis.

50

55

60

65

70

75

80

85

90

95

100

150 160 170 180 190

Altura (cm)

Pe

so

(k

g)

Modelo Estatístico

1 2 1( , ,..., , ,..., )k k k mY f X X X X X

Se apenas uma variável explicativa é observada, temos:

Os erros também podem ser devido a erros obtidos no processo de Mensuração da variável dependente.

Modelo Estatístico

( )i i iY f X

1 2( , ,..., )i i i ki iY f X X X 1,2,...,i n Assim, o modelo ficaria:

1. Determinar como duas variáveis se relacionam;

2. Estimar a função que determina a relação entre as variáveis;

3. Usar a equação ajustada para prever valores da variável dependente.

Regressão Linear Simples

i i iY X Modelo de Regressão Linear Simples

Inclinaçãopopulacional

Interceptopopulacional Erro Aleatório

Variável Independente

Variável Dependente

X

Y

Coeficienteangular

i i iY X

i}

Regressão Linear Simples

( ) iE Y x

Ao estabelecer o modelo de regressão linear simples, pressupomos que:

A relação entre X e Y é Linear;

Os valores de X são fixos, isto é, X não é uma variável aleatória;

A média dos erros é nula, isto é:

( ) 0iE 1,2,...,i n

Para um dado valor x de X, a variância dos erros é sempre denotada variância residual, dizemos que o erro é homocedástico;

i 2

2 2 2( ) ( ) [ ( )] ( )i i i iVar E E E

O erro em uma observação é não correlacionado com o erro em qualquer outra observação;

Os erros têm distribuição normal.

Suposições do modelo

Os estimadores de e

Uma vez que o modelo foi especificado e as suposições foram feitas,

devemos estimar os parâmetros da regressão, e .

Dados n pares de observações das var. X e Y, i=1,2,...,n,

queremos encontrar uma equação do tipo: ( , )i ix y

i iY a bx onde e são os estimadores de , e . ˆ ,iy a b ( )iE y

Para cada par observado podemos estabelecer a seguinte relação:

( , )i ix y

ˆ ( )i i i i ie y y y a bx

Resíduo

Os estimadores de e

a Y bX

Na estimação por mínimos quadrados, queremos encontrar e que

minimizam a soma dos quadrados dos resíduos. Ou seja, queremos

tornar mínima a expressão:

a b

2 2

1 1

[ ]n n

i i ii i

Z e y a bx

1 1

1

2

2 1

1

( )( )

( )

n n

i ini i

i ii

n

ini

ii

y xy x

nb

xx

n

Para minimizar esta expressão em e , temos as derivadas em

relação a e :a b

a b

2

1 1

1 1 1

2 2 2

2 2 2

n n

i ii i

n n n

i i i ii i i

Zna y b x

a

Zy x a x b x

b

Somas de quadrados

Onde:

e1

( )( )n

i ii

Sxy X X Y Y

2

1

( )n

ii

Sxx X X

2

2 1

1

( )n

ini

ii

YSQtot Y

n

SQreg bSxy

SQres SQtot SQreg

1 1

1

2

2 1

1

( )( )

( )

n n

i ini i

i ii

n

ini

ii

y xy x

nb

xx

n

Coeficiente de Determinação

O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra.

2R

Definimos o coeficiente de determinação ou explicação do modelo, que é dado por:

2 SQreg bSxyR

SQtot Syy

O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.

20 1R 2R

Coeficiente de Determinação Corrigido

É importante enfatizar que a medida depende do número de observações

da amostra, sendo que tende a aumentar a medida que n diminui;

2R

2 1R Especialmente, para n=2 temos , já que dois pontos determinam umaúnica reta;

Para contornar este problema, definimos o C.D.C para G.L;

Dividindo as somas de quadrados pelos graus de liberdade temos:

21 1SQreg SQtot SQreg SQres

RSQtot SQtot SQtot

22 2 (1 )

2

RR R

n

Análise de Variância

Agora, uma vez que o modelo foi ajustado e todos os parâmetros estimados surgem a seguinte pergunta:

• Existe realmente alguma relação linear entre X e Y ? Como podemos responder isso estatisticamente ?

Para responder à pergunta , observamos que se ,não existe relaçãolinear explicando Y em função de X.

0

Assim, a estatística F é uma estatística para testar contra quanto maior o valor de F, maior evidência a favor de

1 : 0H 0 : 0H 1.H

Análise de Variância

A partir daí, procedemos à análise de variância do modelo linear, dado pela tabela a seguir:

2;1~QMRes

QMReg nFF 0:H

0:H

11

10

se H0 verdadeiro (Não existe relação linear)

se H0 falso (existe relação linear)

Testes de Hipóteses

Entretanto, ainda existe outra maneira de se testar :

0 1

1 1

H : 0

H : 0

Lembremos que, sob as suposições usuais do modelo de regressão linear simples, temos que:

1 ~ (0,1)/

bZ N

Sxx

Porém, não conhecemos o verdadeiro valor de e usamos o estimador.

2 22~ nS Logo: 2~

/b n

bt t

S Sxx

2

2

SQresS

n

onde

Intervalos de Confiança

Outra forma para se avaliar a significância dos resultados obtidos para b, que é o estimador de , é através da utilização de intervalos de confiança (IC's).

Para construir um I.C para com de confiança, temos que encontrar um valor ,tal que:

(1 )%/2t

/2 /2( ) 1S S

P b t b tSxx Sxx

/2 /2( ( ) ) 1Sxx Sxx

P t b tS S

Ajuste do Modelo

Muitas vezes, podemos encontrar problemas na especificação da funçãoque relaciona as variáveis (não linearidade);

Pode ser verificado através de um gráfico de dispersão entre X e Y;

Existem funções que podem ser transformadas em modelos lineares;

Existem vários tipos de funções que podemos transformar, tais como:

• Função Potência;• Função Exponencial;• Função Hiperbólica.

Função Potência

Esta função é dada pela expressão: Y xO gráfico desta função é esboçado como:

Aplicando o log em ambos os lados daigualdade podemos linearizar a função:

log( ) log( )i i iY x log( ) log( ) log( )i ix

e então, temos um modelo:

i i iz A Bv com: log( ), log( ), log( )i i i iz Y A v X log( )i i

Análises de Resíduos

• É importante, após a análise de regressão, testar se os pressupostos do modelo linear se aplicam aos dados estudados;

• Resíduos representam a diferença entre o valor observado de y e oque foi predito pelo modelo de regressão;

• A primeira forma de se avaliar resíduos é plotar um gráfico no qual os resíduos (y - ˆ y) são colocados no eixo vertical (y) e os valores esperados de y (b y) no eixo horizontal (x);

Análises de Resíduos

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

“ideal”

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

2 não constante

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

não linearidade

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

não independência

tempo

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

0 2 4 6 8 10

X

Res

íduo

s Pa

dron

izad

os

“outlier”

Aplicação

Software Estatístico R

O Software R é um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica. Entre outras características, ele permite:

Uma facilidade efetiva para manipulação e armazenagem de dados;

Um conjunto de operadores para cálculos sobre quadros de dados, em particular as matrizes;

Uma grande e coerente coleção integrada de ferramentas para análise de dados;

Facilidades gráficas com capacidade de visualização na tela ou impressora;

Uma linguagem de programação bem desenvolvida, simples e eficiente.

Sobre o banco de dados

• Para ilustrar os conceitos de regressão linear simples abordados nessa monografia, resolvemos utilizar um conjunto de dados chamado "gala", que trata de um conjunto de dados relativo ao número de espécies de tartaruga sobre as várias ilhas Galápagos.

• Estes dados estão contidos no livro Faraway (2004) o banco de dados é composto por 30 observações organizadas em sete colunas com cabeçalho, que são: Species, Endemics, Elevation, Area, Nearest, Scruz e Adjacent.

• Neste trabalho utilizamos apenas as duas primeiras variáveis Species corresponde ao número de espécies de tartaruga encontrados na ilha, e a segunda coluna Endemics corresponde ao número de espécies endêmicas.

Estimando o modelo linear (lm())

> gfit = lm(Species ~ Endemics, data=gala)> gfitCall:lm(formula = Species ~ Endemics, data = gala)

Coefficients:(Intercept) Endemics -21.048 4.072

• Para ajustar um modelo de regressão a este conjunto de dados, de modo que Species = a + b(Endemics), precisamos utilizar a função lm() para criar um modelo linear;

• Podemos visualizar os parâmetros estimados para a reta de regressão linear simples escrevendo o nome do objeto;

Plotando o gráfico de dispersão

> plot(Species,Endemics)> abline(gfit)

Teste de significância (summary)

>summary (gfit)

Call:lm(formula = Species ~ Endemics, data = gala)Residuals:

Min 1Q Median 3Q Max -71.791 -15.894 3.507 12.088 78.200

Coefficients: Estimate Std. Error t value Pr > | t | (Intercept) -21.0480 7.1138 -2.959 0.00622 ** Endemics 4.0721 0.1899 21.443 < 2e-16 ***

---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1}

Residual standard error: 27.95 on 28 degrees of freedom Multiple R-squared: 0.9426, Adjusted R-squared: 0.9406 F-statistic: 459.8 on 1 and 28 DF, p-value: < 2.2e-16

Intervalos de Confiança

O intervalo de confiança para o coeficiente de regressão pode ser

construído a partir do erro associado ao mesmo, usando a distribuição t, por exemplo, o valor crítico do t para os 28 graus de liberdade residuais do modelo, associado ao intervalo de confiança de 95% será:

> qt(0.975,28)

[1] 2.048407

E os limites de confiança para o coeficiente de regressão podem ser calculados como:

> c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899)

[1] 3.683108 4.461092

Resíduos e testes diagnósticos

• Importância da análise de resíduos;

• Quebra de suposições;

• Normalidade;

•


• Padronizando os resíduos;

> padronizados = rstandard(gfit)

• Plotando os valores estimados contra os resíduos padronizados;

> plot(Species,padronizados)

> abline(h=0)

0 100 200 300 400

-3-2

-10

12

3

Species

padr

oniz

ados

• Teste de homocedasticidade;

> gqtest(gfit)

Goldfeld-Quand testData: modeloGQ= p-value = 0.2960

• Uma série de gráficos estão disponíveis no R para o teste de premissas do modelo linear;


• Para verificar a normalidade dos resíduos utilizamos QQplot;

-2 -1 0 1 2

-3-2

-10

12

3

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

lm(Species ~ Endemics)

Normal Q-Q

25

24

7

> qqnorm(padronizados)> qqline(padronizados)

• Teste de Normalidade;

> shapiro.test(padronizados)

Shapiro-Wilk normality test

data: padronizados W = 0.9268, p-value = 0.06041

Conclusão

• Diante deste trabalho pode-se concluir que a análise de regressão é de grande valia para áreas onde atividades em que o planejamento do futuro é fundamental, nos dias atuais é impossível pensar em análise de regressão sem o uso de computadores devido a complexidade de cálculos e representações gráficas que são necessárias durante as análises.

• Apesar do nosso enfoque ter sido, a análise de regressão linear explanando a utilização do software R, não deixamos de abordar toda a teoria que compõe esta técnica, pois acreditamos que a utilização de uma ferramenta estatística sem o aprofundamento teórico de nada tem serventia, pois o manuseio de um software estatístico deve ter sempre como suporte um adequado conhecimento das técnicas estatísticas envolvidas,

• O aprofundamento de conhecimento sobre o software R ainda é bastante recente, no entanto explorarmos as potencialidades e benefícios do mesmo, e deixamos nossa contribuição para estudantes e professores que desejam conhecer e aplicar a análise de regressão utilizando o software estatístico R.

modelo de regressão linear: aspectos teóricos e computacionais

Documents