análise de regressão múltipla
DESCRIPTION
Análise de Regressão Múltipla. y = b 0 + b 1 x 1 + b 2 x 2 + . . . b k x k + u Inferência. Hipóteses do Modelo Linear Clássico (MLC). Dadas as hipóteses de Gass-Markov, o estimador de MQO é “BLUE”. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/1.jpg)
Letícia e Idilio 1
Análise de Regressão Múltipla
y = 0 + 1x1 + 2x2 + . . . kxk + u
Inferência
![Page 2: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/2.jpg)
2
Hipóteses do Modelo Linear Clássico (MLC)
Dadas as hipóteses de Gass-Markov, o estimador de MQO é “BLUE”.Afim de aplicar os testes de hipóteses clássicos, uma nova hipótese é adicionada ao modelo (além das suposições de Gauss-Markov): Assumir que u é independente de x1, x2,…, xk e
u segue distribuição normal com média igual a 0 e variância 2. Ou seja, u ~ Normal(0,2).
![Page 3: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/3.jpg)
3
Hipóteses do MLC (cont.)
Considerando as hipóteses do MLC, o estimador de MQO não somente é “BLUE”, como também o estimador não-viesado de menor variância.
As hipóteses do MLC podem ser resumidas por: y|x ~ Normal(0 + 1x1 +…+ kxk, 2).
Há casos em que a hipótese de “normalidade” não é verdadeira (neste momento, não serão considerados).
![Page 4: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/4.jpg)
4
..
x1 x2
Exemplo de normal homoscedástica com uma variável independente.
E(y|x) = 0 + 1x
y
f(y|x)
Normais
![Page 5: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/5.jpg)
5
Distribuições amostrais Normais
erros. doslinear
combinação umaser por odistribuíd enormalment é ˆ
0,1Normal ~ ˆˆ
:Portanto
ˆ,Normal ~ˆ
tes,independen variáveisdas amostrais
valoresaos lcondiciona MLC, do hipóteses as doConsideran
j
onde
dp
Var
j
jj
jjj
![Page 6: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/6.jpg)
6
Testes de Hipóteses sobre um único parâmetro: Teste t
Lembrando, modelo populacional pode ser escrito como:
y0 + 1x1 +…+ xk + u
A idéia é construir hipóteses sobre o valor de j
Utilizar inferência estatística para testar nossa hipótese.
![Page 7: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/7.jpg)
7
O Teste t
1:liberdade degrau o émNotar tamb
.ˆpor estimado foi porque
Normal), uma não (e ãodistribuiç uma é isto queNotar
~ ˆˆ
MLC, do hipóteses as doConsideran
22
1j
kn
t
tep kn
j
j
![Page 8: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/8.jpg)
8
O Teste t (cont.)
Saber essa distribuição amostral do estimador padrão permite que sejam feitos testes de hipóteses que envolvem j.Começar pela hipótese nula, que é a mais utilizada.
H0: j=0.
Dizer que j=0 significa que xj não tem efeito em y, controlando os demais x’s.
![Page 9: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/9.jpg)
9
O Teste t (cont.)
Ex: log(salarioh)= 0 + 1 educ + 2 exper + 3 perm + u
A hipótese nula H0: 2 =0 significa que, se a educação formal e a permanência foram consideradas, o número de anos no mercado de trabalho (exper) não tem nenhum efeito sobre o salário.
![Page 10: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/10.jpg)
10
Teste t: Hipóteses alternativas
Além da hipótese nula H0, é necessária uma hipótese alternativa H1 e um nível de significância.
H1 pode ser unilateral ou bilateral.
H1: j > 0 e H1: j < 0 são unilaterais.
H1: j 0 é a alternativa bilateral.
![Page 11: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/11.jpg)
11
Escolha do nível de significância
Nível de significância: probabilidade de rejeitar erroneamente Ho quando ela é verdadeira.
Se o desejável é ter somente 5% de probabilidade de rejeitar H0 quando ela for verdadeira, então é dito que o nível de significância é de 5%.
![Page 12: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/12.jpg)
12
A estatística t
Para determinar se uma hipótese nula H0 deve ser rejeitada usaremos regras de rejeição junto com a estatística t.
j
j
ept
t
j
ˆˆ
:como definida é ˆ de aestatísticA
ˆ
j
![Page 13: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/13.jpg)
13
Alternativas unilaterais
Por exemplo, escolhendo um nível de significância 5%, procura-se pelo 95º percentil em uma distribuição t com n – k – 1 graus de liberdade. Este valor é chamado de c (valor crítico). Se t > c => a hipótese nula será rejeitada.Se t < c => não é possível rejeitar a hipótese nula.
![Page 14: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/14.jpg)
14
yi = 0 + 1xi1 + … + kxik + ui
H0: j = 0 H1: j > 0
c0
Alternativas unilaterais (cont.)
Não-rejeitadaRejeitada
![Page 15: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/15.jpg)
15
Exemplo:Retomando o exemplo do salário:
log(salarioh)= 0 + 1 educ + 2 exper + 3 perm + u
log(salarioh)= + educ +0,0041exper + perm n=526 (0,104) (0,007) (0,0017) (0,003)
Ho: 2=0 H1: 2>0gl: 526-4=522 nível de significância: 1% => c=2,326
t = 0,0041/ 0,0017 =2,41 > 2,326Logo, exper é estatisticamente significante ao nível de 1%,
rejeitamos então H0.
![Page 16: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/16.jpg)
16
Unilateral X bilateralSendo a distribuição t simétrica, testar
H1: j < 0 é trivial. O valor crítico é o negativo do valor anterior.
Rejeita-se a hipótese nula se o valor da estatística t < –c.
Para o caso bilateral, o valor crítico será /2 e rejeita-se H0: j = 0 (em favor de H1: j ≠ 0) se |t| > c.
![Page 17: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/17.jpg)
17
yi = 0 + 1Xi1 + … + kXik + ui
H0: j = 0 H1: j ≠ 0
c0
-c
Alternativa Bilateral
Rejeitada Rejeitada
Não-rejeitada
![Page 18: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/18.jpg)
18
Testando outras hipóteses
Uma forma mais geral da estatística t pode ser escrita para verificar hipóteses do tipo H0: j = aj
Neste caso, a seguinte estatística t deve ser usada:
Exemplo 4.5...
padrão testeo para 0
:onde
ˆˆ
j
j
jj
a
epa
t
![Page 19: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/19.jpg)
19
Calculando os “p-valores” para testes t
Uma alternativa à abordagem clássica é perguntar: “qual o menor nível de significância no qual a hipótese nula pode ser rejeitada?”Para isto, calcule o valor da estatística t e procure em qual percentil ele se encontra em uma tabela com a distribuição t apropriada. Este será o “p-valor”.O “p-valor” é a probabilidade de observar-se o valor da estatística t, se a hipótese nula for verdadeira.
![Page 20: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/20.jpg)
20
Calculando os “p-valores” para testes t
![Page 21: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/21.jpg)
21
Significância x Importância
Significância x Importância
Normalmente, cria-se a hipótese antes de conhecer os dados.
No caso de amostras pequenas, o erro tende a ser maior (mais difícil de rejeitar H0). Nestes casos é normal aumentar o nível de significância.
![Page 22: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/22.jpg)
22
Intervalos de confiança
Outra forma de utilizar os testes clássicos da estatística é construir um intervalo de confiança usando o mesmo valor crítico do teste bilateral.
Um intervalo de confiança de (1 - )% pode ser definido como:
1 ãodistribuiç uma em percentil
2-1 o é c onde
ˆ*ˆ
kn
jj
t
epc
![Page 23: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/23.jpg)
23
Intervalos de confiança
Interpretação: Se criarmos intervalos de confiança em várias
amostrar aleatórias, o valor real de j estará contido no intervalo em (1 - )% dos intervalos criados.
Por azar, justamente na amostra que você tinha disponível, j não estava contido no intervalo (o intervalo está errado). Isso ocorrerá em % dos casos.
![Page 24: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/24.jpg)
24
Stata: p-valores, testes t etc.
A maioria dos programas estatísticos computam os p-valores assumindo o teste bilateral.
Se for o caso de um teste unilateral, basta dividir o p-valor do teste bilateral por 2.
O Stata gera a estatística t, o p-valor e o intervalo de confiança de 95% para H0: j = 0, nas colunas nomeadas “t”, “P > |t|” e “[95% Conf. Interval]”.
Exemplo 4.7
![Page 25: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/25.jpg)
25
Testando uma combinação linear
Suponha que ao invés de testar se 1 é igual a uma constante, deseja-se testar se 1 é igual a outro parâmetro, isto é H0 : 1 = 2.
Use o mesmo procedimento para criar a estatística t:
21
21
ˆˆ
ˆˆ
ep
t
![Page 26: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/26.jpg)
26
Testando uma combinação linear
2112
21
12
2
2
2
121
212121
2121
ˆ,ˆ de estimativa uma é onde
2ˆˆˆˆ
ˆ,ˆ2ˆˆˆˆ
então ,ˆˆˆˆ
que Dado
Covs
sepepep
CovVarVarVar
Varep
![Page 27: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/27.jpg)
27
Testando uma combinação linear
O cálculo de s12 é complicado.Alguns softwares terão uma opção para calculá-lo ou para executar o teste automaticamente, mas nem todos. Mas.... Há uma alternativa muito mais fácil, basta reorganizar o problema para obter o teste na forma necessária.
![Page 28: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/28.jpg)
28
Exemplo:Suponha que queremos comparar se um ano de curso superior profissionalizante é equivalente a um ano de universidade (no salário).log(salário) =0 + 1cp + 2univ + 3exper + u
H0: 1 = 2 e H1: 1 < 2
Fazendo H0: 1 = 1 - 2
1 = 1 + 2, substituindo e rearranjando:log(salário) =0 + 1 + 2cp + 2univ + 3exper + u
![Page 29: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/29.jpg)
29
Exemplo:log(salário) =0 + 1 + 2cp + 2 univ + 3 exper + u
log(salário) =0 + 1 cp + 2 (cp +univ) + 3 exper + u
log(salário) =0 + 1cp + 2totalgrad + 3exper + u
=> Notar que agora 1 aparece explicitamente e ep(1) é calculado junto com as demais estimativas.
log(salário) = + cp + 0,0769 totalgrad+ 0,0049 exper (0,021) (0,0069) (0,0023) (0,0002)
O modelo modificado é igual ao original, mas agora tem-se diretamente na saída da regressão o ep(1).
![Page 30: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/30.jpg)
30
Exemplo (cont.):
Qualquer combinação linear das parâmetros pode ser testado de maneira similar.
Outros exemplos de hipóteses sobre combinações lineares simples dos parâmetros: 1 = 1 + 2 ; 1 = 52 ; 1 = -1/22
![Page 31: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/31.jpg)
31
Restrições Lineares Múltiplas
Tudo apresentado até aqui envolvia apenas o teste de uma única restrição: (i.e. 1 = ou 1 = 2 ).Porém, pode-se querer testar várias hipóteses sobre os parâmetros em conjunto.Um exemplo típico é testar “restrições excludentes” – um grupo de parâmetros é todo igual a zero.
![Page 32: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/32.jpg)
32
Restrições Excludentes
A hipótese nula agora será algo como: H0: k-q+1 = 0, , k = 0
A alternativa é H1: “H0 não é verdadeira”.
Porque não analisar somente a estatística t de cada parâmetros em separado? Porque desejamos saber se os q parâmetros são conjuntamente significantes dado um nível de significância – é possível que nenhum seja significante no nível desejado (e que o grupo seja).
![Page 33: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/33.jpg)
33
Restrições Excludentes (cont.)É necessário estimar:
“modelo irrestrito” com todas variáveis x1,, …, xk incluídas.
“modelo restrito” sem as variáveis xk-q+1,, …, xk
Queremos verificar se as mudanças em SQR são grandes suficientes para justificar a inclusão de xk-q+1,, …, xk no modelo.
1
knSQR
qSQRSQRF
ir
irr
Onde:r é o modelo restrito q = números de restrições, ou glr – glir
ir é o irrestrito n – k – 1 = glir
![Page 34: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/34.jpg)
34
A estatística F
É sempre positiva, dado que sempre SQR do modelo restrito >= SQR do modelo irrestrito.
Essencialmente, é uma medida do crescimento relativo de SQR quando saímos do modelo irrestrito para o modelo restrito.
Se o crescimento de SQR, quando mudamos de modelo, for “grande o suficiente” podemos rejeitar a exclusão das variáveis.
![Page 35: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/35.jpg)
35
0 c
f(F)
F
A estatística F (cont.)
Rejeitada
Não-rejeitada
Rejeite H0 com nível de significância se F > c
![Page 36: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/36.jpg)
36
Exemplo:Modelo original (irrestrito): log(salário) =0 + 1anos + 2jogosanos + 3medreb + 4rebpontos+ 5rebcorrida+ u
n=353 SQR=183,186
Testar se as estatísticas que medem desempenho: medreb,rebpontos e rebcorrida não tem efeito sobre salário
=> Ho=3=0, 4=0, 5 =0
Modelo restrito:
log(salário) =0 + 1anos + 2jogosanos +un=353 SQR=198,311
![Page 37: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/37.jpg)
37
Exemplo(cont.):
Assim:
Com 347 graus de liberdade, o valor crítico a 1% de significância é c= 3,78
F > 3,78, portanto rejeitamos completamente a hipótese de que medreb, rebpontos e rebcorrida não tem efeito sobre salário .
9.55 3
347 *
186,183
186,183311,198
F
![Page 38: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/38.jpg)
38
A forma R2 da estatística F
Dado que os SQRs dos modelos podem ser grandes e de manipulação difícil, uma alternativa de formulação é útil neste caso.Usando o fato que SQR = SQT(1 – R2) para qualquer regressão, pode-se substituir SQRr e SQRir
irrestrito modelo o éir
restrito modelo o ér
novamente, onde,
,11 2
22
knR
qRRF
ir
rir
![Page 39: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/39.jpg)
39
Significância completa
Um caso especial de restrições excludentes é testar H0: 1 = 2 =…= k = 0Dado que o valor R2 de um modelo somente com intercepto será zero, o valor da estatística F é simplificado para:
11 2
2
knR
kRF
![Page 40: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/40.jpg)
40
Restrições Lineares Gerais
A forma básica da estatística F funcionará para qualquer conjunto de restrições lineares.
Inicialmente, estime o modelo irrestrito e então estime o modelo restrito.
Em cada caso, guarde o valor de SQR.
Impor as restrições pode ser complicado, será necessário redefinir as variáveis novamente.
Não usar a versão R2 neste caso.
![Page 41: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/41.jpg)
41
Exemplo:
Gastos implicam votos?O modelo:voteA = 0 + 1log(expendA) + 2log(expendB) + 3prtystrA + u
H0: 1 = 1, = 0Substituindo as restrições: voteA = 0 + log(expendA) + 2log(expendB) + u
Usa-se:voteA - log(expendA) = 0 + 2log(expendB) + u
como modelo restrito.
![Page 42: Análise de Regressão Múltipla](https://reader034.vdocuments.pub/reader034/viewer/2022051401/568138c3550346895da07d66/html5/thumbnails/42.jpg)
42
Resumo da estatística F
Assim como no caso da estatística t, os p-valores podem ser calculados procurando o percentil na tabela da distribuição F adequada. O Stata gerará estes valores com o comando:“display fprob(q, n – k – 1, F)”onde os valores apropriados de “F”, “q” e “n – k – 1” devem ser usados.Se somente uma exclusão está sendo testada, então F = t2 e os p-valores serão exatamente os mesmos.