modelo de regressão linear: aspectos teóricos e computacionais
TRANSCRIPT
Introdução
A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos da outra;
Um economista pode tentar explicar as variações na procura de automóveis usados em termos de desemprego;
Um agricultor pode suspeitar que a quantidade de fertilizante por ele usada tenha influenciado a safra;
Dentro desse contexto, o objetivo desta monografia foi demonstrar as técnicas de análise de regressão dentro de uma abordagem teórica e computacional, utilizando o software estatístico R.
020406080
100120140
0 10 20 30 40
Modelo Matemático
• Considere duas variáveis X eY tal que y = f(x). Dado um conjunto de valores , os correspondentes valores de são conhecidos exatamente;
• Todos os pontos caem na curva da relação funcional;
• Esse tipo de situação configura um modelo matemático ou determinístico.
( 1,2,..., )iX i n ( )i iY f X
• Em um modelo estatístico, geralmente a variável resposta é afetada por várias variáveis;
• Então, analisamos Y como função apenas das K primeiras variáveis, sendo que permanece um erro (ou resíduo), devido a não utilização dasoutras m variáveis.
50
55
60
65
70
75
80
85
90
95
100
150 160 170 180 190
Altura (cm)
Pe
so
(k
g)
Modelo Estatístico
1 2 1( , ,..., , ,..., )k k k mY f X X X X X
Se apenas uma variável explicativa é observada, temos:
Os erros também podem ser devido a erros obtidos no processo de Mensuração da variável dependente.
Modelo Estatístico
( )i i iY f X
1 2( , ,..., )i i i ki iY f X X X 1,2,...,i n Assim, o modelo ficaria:
1. Determinar como duas variáveis se relacionam;
2. Estimar a função que determina a relação entre as variáveis;
3. Usar a equação ajustada para prever valores da variável dependente.
Regressão Linear Simples
i i iY X Modelo de Regressão Linear Simples
Inclinaçãopopulacional
Interceptopopulacional Erro Aleatório
Variável Independente
Variável Dependente
X
Y
Coeficienteangular
i i iY X
i}
Regressão Linear Simples
( ) iE Y x
Ao estabelecer o modelo de regressão linear simples, pressupomos que:
A relação entre X e Y é Linear;
Os valores de X são fixos, isto é, X não é uma variável aleatória;
A média dos erros é nula, isto é:
( ) 0iE 1,2,...,i n
Para um dado valor x de X, a variância dos erros é sempre denotada variância residual, dizemos que o erro é homocedástico;
i 2
2 2 2( ) ( ) [ ( )] ( )i i i iVar E E E
O erro em uma observação é não correlacionado com o erro em qualquer outra observação;
Os erros têm distribuição normal.
Suposições do modelo
Os estimadores de e
Uma vez que o modelo foi especificado e as suposições foram feitas,
devemos estimar os parâmetros da regressão, e .
Dados n pares de observações das var. X e Y, i=1,2,...,n,
queremos encontrar uma equação do tipo: ( , )i ix y
i iY a bx onde e são os estimadores de , e . ˆ ,iy a b ( )iE y
Para cada par observado podemos estabelecer a seguinte relação:
( , )i ix y
ˆ ( )i i i i ie y y y a bx
Resíduo
Os estimadores de e
a Y bX
Na estimação por mínimos quadrados, queremos encontrar e que
minimizam a soma dos quadrados dos resíduos. Ou seja, queremos
tornar mínima a expressão:
a b
2 2
1 1
[ ]n n
i i ii i
Z e y a bx
1 1
1
2
2 1
1
( )( )
( )
n n
i ini i
i ii
n
ini
ii
y xy x
nb
xx
n
Para minimizar esta expressão em e , temos as derivadas em
relação a e :a b
a b
2
1 1
1 1 1
2 2 2
2 2 2
n n
i ii i
n n n
i i i ii i i
Zna y b x
a
Zy x a x b x
b
Somas de quadrados
Onde:
e1
( )( )n
i ii
Sxy X X Y Y
2
1
( )n
ii
Sxx X X
2
2 1
1
( )n
ini
ii
YSQtot Y
n
SQreg bSxy
SQres SQtot SQreg
1 1
1
2
2 1
1
( )( )
( )
n n
i ini i
i ii
n
ini
ii
y xy x
nb
xx
n
Coeficiente de Determinação
O coeficiente de determinação ou simplesmente . É uma medida da proporção da variabilidade em uma variável que é explicada pela variabilidade da outra.
2R
Definimos o coeficiente de determinação ou explicação do modelo, que é dado por:
2 SQreg bSxyR
SQtot Syy
O coeficiente está entre logo, quanto mais próximo de 1 Estiver o valor de , melhor será o ajuste do modelo e quanto mais Próximo de 0 (zero), pior é o ajuste.
20 1R 2R
Coeficiente de Determinação Corrigido
É importante enfatizar que a medida depende do número de observações
da amostra, sendo que tende a aumentar a medida que n diminui;
2R
2 1R Especialmente, para n=2 temos , já que dois pontos determinam umaúnica reta;
Para contornar este problema, definimos o C.D.C para G.L;
Dividindo as somas de quadrados pelos graus de liberdade temos:
21 1SQreg SQtot SQreg SQres
RSQtot SQtot SQtot
22 2 (1 )
2
RR R
n
Análise de Variância
Agora, uma vez que o modelo foi ajustado e todos os parâmetros estimados surgem a seguinte pergunta:
• Existe realmente alguma relação linear entre X e Y ? Como podemos responder isso estatisticamente ?
Para responder à pergunta , observamos que se ,não existe relaçãolinear explicando Y em função de X.
0
Assim, a estatística F é uma estatística para testar contra quanto maior o valor de F, maior evidência a favor de
1 : 0H 0 : 0H 1.H
Análise de Variância
A partir daí, procedemos à análise de variância do modelo linear, dado pela tabela a seguir:
2;1~QMRes
QMReg nFF 0:H
0:H
11
10
se H0 verdadeiro (Não existe relação linear)
se H0 falso (existe relação linear)
Testes de Hipóteses
Entretanto, ainda existe outra maneira de se testar :
0 1
1 1
H : 0
H : 0
Lembremos que, sob as suposições usuais do modelo de regressão linear simples, temos que:
1 ~ (0,1)/
bZ N
Sxx
Porém, não conhecemos o verdadeiro valor de e usamos o estimador.
2 22~ nS Logo: 2~
/b n
bt t
S Sxx
2
2
SQresS
n
onde
Intervalos de Confiança
Outra forma para se avaliar a significância dos resultados obtidos para b, que é o estimador de , é através da utilização de intervalos de confiança (IC's).
Para construir um I.C para com de confiança, temos que encontrar um valor ,tal que:
(1 )%/2t
/2 /2( ) 1S S
P b t b tSxx Sxx
/2 /2( ( ) ) 1Sxx Sxx
P t b tS S
Ajuste do Modelo
Muitas vezes, podemos encontrar problemas na especificação da funçãoque relaciona as variáveis (não linearidade);
Pode ser verificado através de um gráfico de dispersão entre X e Y;
Existem funções que podem ser transformadas em modelos lineares;
Existem vários tipos de funções que podemos transformar, tais como:
• Função Potência;• Função Exponencial;• Função Hiperbólica.
Função Potência
Esta função é dada pela expressão: Y xO gráfico desta função é esboçado como:
Aplicando o log em ambos os lados daigualdade podemos linearizar a função:
log( ) log( )i i iY x log( ) log( ) log( )i ix
e então, temos um modelo:
i i iz A Bv com: log( ), log( ), log( )i i i iz Y A v X log( )i i
Análises de Resíduos
• É importante, após a análise de regressão, testar se os pressupostos do modelo linear se aplicam aos dados estudados;
• Resíduos representam a diferença entre o valor observado de y e oque foi predito pelo modelo de regressão;
• A primeira forma de se avaliar resíduos é plotar um gráfico no qual os resíduos (y - ˆ y) são colocados no eixo vertical (y) e os valores esperados de y (b y) no eixo horizontal (x);
Análises de Resíduos
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
“ideal”
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
2 não constante
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
não linearidade
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
não independência
tempo
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
“outlier”
Aplicação
Software Estatístico R
O Software R é um conjunto integrado de pacotes ou bibliotecas para manipulação de dados, cálculo e visualização gráfica. Entre outras características, ele permite:
Uma facilidade efetiva para manipulação e armazenagem de dados;
Um conjunto de operadores para cálculos sobre quadros de dados, em particular as matrizes;
Uma grande e coerente coleção integrada de ferramentas para análise de dados;
Facilidades gráficas com capacidade de visualização na tela ou impressora;
Uma linguagem de programação bem desenvolvida, simples e eficiente.
Sobre o banco de dados
• Para ilustrar os conceitos de regressão linear simples abordados nessa monografia, resolvemos utilizar um conjunto de dados chamado "gala", que trata de um conjunto de dados relativo ao número de espécies de tartaruga sobre as várias ilhas Galápagos.
• Estes dados estão contidos no livro Faraway (2004) o banco de dados é composto por 30 observações organizadas em sete colunas com cabeçalho, que são: Species, Endemics, Elevation, Area, Nearest, Scruz e Adjacent.
• Neste trabalho utilizamos apenas as duas primeiras variáveis Species corresponde ao número de espécies de tartaruga encontrados na ilha, e a segunda coluna Endemics corresponde ao número de espécies endêmicas.
Estimando o modelo linear (lm())
> gfit = lm(Species ~ Endemics, data=gala)> gfitCall:lm(formula = Species ~ Endemics, data = gala)
Coefficients:(Intercept) Endemics -21.048 4.072
• Para ajustar um modelo de regressão a este conjunto de dados, de modo que Species = a + b(Endemics), precisamos utilizar a função lm() para criar um modelo linear;
• Podemos visualizar os parâmetros estimados para a reta de regressão linear simples escrevendo o nome do objeto;
Plotando o gráfico de dispersão
> plot(Species,Endemics)> abline(gfit)
Teste de significância (summary)
>summary (gfit)
Call:lm(formula = Species ~ Endemics, data = gala)Residuals:
Min 1Q Median 3Q Max -71.791 -15.894 3.507 12.088 78.200
Coefficients: Estimate Std. Error t value Pr > | t | (Intercept) -21.0480 7.1138 -2.959 0.00622 ** Endemics 4.0721 0.1899 21.443 < 2e-16 ***
---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1}
Residual standard error: 27.95 on 28 degrees of freedom Multiple R-squared: 0.9426, Adjusted R-squared: 0.9406 F-statistic: 459.8 on 1 and 28 DF, p-value: < 2.2e-16
Intervalos de Confiança
O intervalo de confiança para o coeficiente de regressão pode ser
construído a partir do erro associado ao mesmo, usando a distribuição t, por exemplo, o valor crítico do t para os 28 graus de liberdade residuais do modelo, associado ao intervalo de confiança de 95% será:
> qt(0.975,28)
[1] 2.048407
E os limites de confiança para o coeficiente de regressão podem ser calculados como:
> c(4.0721-2.048407*0.1899, 4.0721+2.048407*0.1899)
[1] 3.683108 4.461092
Resíduos e testes diagnósticos
• Importância da análise de resíduos;
• Quebra de suposições;
• Normalidade;
•
Resíduos e testes diagnósticos
• Padronizando os resíduos;
> padronizados = rstandard(gfit)
• Plotando os valores estimados contra os resíduos padronizados;
> plot(Species,padronizados)
> abline(h=0)
0 100 200 300 400
-3-2
-10
12
3
Species
padr
oniz
ados
• Teste de homocedasticidade;
> gqtest(gfit)
Goldfeld-Quand testData: modeloGQ= p-value = 0.2960
• Uma série de gráficos estão disponíveis no R para o teste de premissas do modelo linear;
Resíduos e testes diagnósticos
• Para verificar a normalidade dos resíduos utilizamos QQplot;
-2 -1 0 1 2
-3-2
-10
12
3
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
lm(Species ~ Endemics)
Normal Q-Q
25
24
7
> qqnorm(padronizados)> qqline(padronizados)
• Teste de Normalidade;
> shapiro.test(padronizados)
Shapiro-Wilk normality test
data: padronizados W = 0.9268, p-value = 0.06041
Conclusão
• Diante deste trabalho pode-se concluir que a análise de regressão é de grande valia para áreas onde atividades em que o planejamento do futuro é fundamental, nos dias atuais é impossível pensar em análise de regressão sem o uso de computadores devido a complexidade de cálculos e representações gráficas que são necessárias durante as análises.
• Apesar do nosso enfoque ter sido, a análise de regressão linear explanando a utilização do software R, não deixamos de abordar toda a teoria que compõe esta técnica, pois acreditamos que a utilização de uma ferramenta estatística sem o aprofundamento teórico de nada tem serventia, pois o manuseio de um software estatístico deve ter sempre como suporte um adequado conhecimento das técnicas estatísticas envolvidas,
• O aprofundamento de conhecimento sobre o software R ainda é bastante recente, no entanto explorarmos as potencialidades e benefícios do mesmo, e deixamos nossa contribuição para estudantes e professores que desejam conhecer e aplicar a análise de regressão utilizando o software estatístico R.