introdução ao sas - eco.unicamp.br
TRANSCRIPT
Dados EmpilhadosCE 731 – Econometria II
Prof. Alexandre Gori Maia
Instituto de Economia - UNICAMP
1
Ementa
Introdução a Dados em Painel
Regressão com Dados Empilhados
Teste para Contribuição Marginal
Bibliografia
Wooldridge, J. M. 2001. Econometric analysis of cross section and panel data. Caps. 6.3.
Corte Transversal (Cross-Section)
iY
ni ,...,2,11Y
2Y
nY
...
Séries Temporais (Time Series)
tY
Tt ,...,2,1 1Y 2Y TY...
Dados Empilhados (Pooled)
itY
Tni ,...,2,1 11Y
21Y
11nY
...
Dados em Painel (Panel Data)
itY
Tt ,...,2,1
12Y
22Y
22nY...
TY1
TY2
TnTY
...
... ni ,...,2,1
Tt ,...,2,1
11Y
21Y
1nY
...
12Y
22Y
2nY
...
TY1
TY2
nTY
...
...
...
...
...
Unidades distintas
observadas em um mesmo
período do tempo
Mesma unidade
observada em
diferentes períodos
do tempo
Unidades não
necessariamente
idênticas em diferentes
períodos do tempo
Mesmas unidades em
diferentes períodos
do tempo
Dadoes em Painel - Definição
2
• Exemplos de amostras:
Painel Balanceado (balanced) Painel Desbalanceado (Unbalanced)
Painel Rotativo (Rotating Panel)
itYPainel Dividido (Split Panel)
itY11Y
21Y
11nY
12Y
22Y
22nY
TY1
TY2
TnTY
...
...
...
Há rotação entre as
unidades, de tal
forma que cada uma
seja observadoa em
apenas um
determinado número
de períodos.
Combina características
de dados em painel com
dados em corte
transversal, ou seja, uma
parte da amostra é
observada continuamente
e outra é formada por
unidades distintas em
cada período do tempo.
itY11Y
21Y
1nY
...
12Y
22Y
2nY
...
TY1
TY2
nTY
...
...
...
...
...
O mesmo número de
períodos para cada
unidade de corte
transversal.
itY11Y
21Y...
12Y
2nY
...21Y
3nY
...
...
...
...
...
Uma unidade de corte
transversal não é
necessariamente
observadoa em todos
os períodos do tempo.
11Y
21Y 22Y
32YTnY 1
nTY
...... ... ...
Dadoes em Painel - Definição• Exemplos de amostras de dados em painel:
3
4
Pressupõe que as relações de causa e efeito sejam as
mesmas em qualquer período do tempo.
Y
X
Intercepto e coeficientes angulares constantesY
X
Y
X
eXY
t=1
t=0
t=1
t=0
t=1
t=0
Pressupõe variação de Y no tempo mas relações
marginais constantes entre X e Y.
Intercepto variável e coeficientes angulares constantes
etXY
Pressupõe quebra estrutural da relação entre X eY no
tempo.
Intercepto e coeficientes angulares variáveis
eXttXY )(
Dados Empilhados –Tipos de Modelos
Dados Empilhados - Exemplo
5
• A planilha Dados_Filhos contém informações sobre escolaridade e número de filhos de duas amostras independentes de mulheres: a primeira de 1972 e a segunda de 1984;
Como as amostras são independentes (as mulheres não são necessariamente as mesmas nos dois anos), trabalharemos com uma amostra de dados empilhados: 24 observações no primeiro período (1972) e 26 observações no segundo período (1984).
Dados Empilhados – PROC GLM
6
• Há 3 procedimentos no SAS que são mais frequentementeutilizados para ajustes de modelos com dados empilhados:
• PROC REG: Ajusta modelo por MQO. Variáveis nominais devem
previamente transformadas em binárias para serem consideradas nos ajustes;
• PROC GLM: Ajusta modelos de MQO e MQG. Variáveis nominais
podem são tratadas diretamente no procedimento através do comando CLASS. Apresenta ainda recursos gráficos (ODS GRAPHICS) para visualização de ajustes com variáveis nominais;
• PROC MIXED: É o mais versátil dos 3 procedimentos. Permite o
ajuste de modelos com correlação entre erros e regressores, assim como modelos de erros heterocedásticos.
Dados Empilhados – Exemplo 1
7
• O procedimento GLM ajustará um modelo de MQO com intercepto e coeficiente angular constantes. O ODS GRAPHICS permitirá visualizar a dispersão dos valores observados e a função ajustada;
• Teremos os seguintes resultados:
Este modelo pressupões intercepto e coeficientes angulares constantes. Em outras palavras, espera-se que o número esperado de filhos para cada ano de estudo seja o mesmo em 1972 e 1984.
Dados Empilhados – Exemplo 2
8
• O PROC GLM permite ajustar diretamente um modelo com intercepto variável e coeficiente angular constante.
• O comando CLASS identifica variáveis nominais do ajuste. Binárias serão automaticamente criadas para representar as categorias;
• Quando se utiliza o comando CLASS, é necessário incorporar a opção SOLUTION no comando MODEL para que as estimativas dos parâmetros sejam apresentadas;
• O ODS GRAPHICS permitirá visualizar a dispersão dos valores para cada categoria da variável em CLASS;
Como a variável independente foi definida como nominal pelo comando CLASS, será estimado um intercepto diferente (binárias) para cada categoria (72 e 84).
Dados Empilhados – Exemplo 2
9
• Alguns resultados do ajuste serão:
Embora todas as categorias de Ano constem como parâmetros, apresenta-se uma estimativa nula para a categoria utilizada como referência (84).
Este modelo pressupõe que, independente dos anos de estudo, o número esperado de filhos em 1972 era, em média, 1,40 superior ao de 1984. A relação entre anos de estudo e filhos permanece a mesma.
Dados Empilhados – Exemplo 3
10
• Finalmente, podemos também considerar um modelo com intercepto variável e coeficiente angular variável no PROC GLM.
• Uma vez definida a variável nominal no comando CLASS, sua interação com outra variável independente pode ser considerada através do símbolo “*”;
Os valores das categorias de Ano serão cruzados com os valores de Escolaridade.
Dados Empilhados – Exemplo 3
11
• Entre os resultados, teremos:
• Em outras palavras, o ajuste será dado por:
• O que significa um ajuste para cada ano. Em 1972:
Este modelo pressupõe que o número esperado de filhos para cada ano de estudo seja diferente em 1972 e 1984. Também pressupõe uma quebra estrutura na relação entre anos de estudo e número de filhos entre 1972 e 1984. Segundo as estimativas obtidas, a relação entre escolaridade e número de filhos seria mais acentuada em 1984.
eAnodeEscolaridaAnodeEscolaridaFilhos ˆ7219,07210329,002,6
edeEscolaridaFilhos ˆ29,002,6
edeEscolaridaFilhos ˆ)19,029,0()03,102,6(
• E, para 1984:
Modelos Interativos ou Independentes?
12
• Alternativamente ao modelo com intercepto e coeficientes angulares variáveis:
• Por que não considerar ajustes independentes para cada ano?
• A diferença está nos pressupostos sobre a dispersão dos erros. Os coeficientes estimados serão semelhantes mas os erros padrão diferentes. Caso 72= 84, então o modelo de dados empilhados gerará estimadores mais eficientes (mais graus de liberdade). Caso contrário, seu erro padrão não refletirá a heterogeneidade da variabilidade nos anos (heterocedasticia).
eAnodeEscolaridaAnodeEscolaridaFilhos 7272 3210
8410 edeEscolaridaFilhos 7210 edeEscolaridaFilhos e
Dados Empilhados - Definição
13
• A análise de dados empilhados apresenta uma série de vantagens em relação aos dados de corte transversal. Por exemplo, o maior tamanho da amostra e a possibilidade de identificar mudanças estruturais na relação entre a variável dependente e as variáveis independentes;
• Se pressupormos que as relações são as mesmas no tempo, teremos:
• Se pressupormos que os valores de Y variam no tempo (t=0 ou 1, por exemplo) para um mesmo valor de X (interceptos variáveis), teremos:
• Se pressupormos mudanças estruturais da relação entre Y e X no tempo, teremos:
ij
k
j
j eXY 1
0
ij
k
j
j etXY
1
0
ij
k
j
jj
k
j
j etXtXY 11
0
Y
X1 X2
SQReg devido a X1 e X2 (Irrestrito):
Variabilidade da variável dependente explicada pelo conjunto das variáveis X1 e X2.
)/(Re 21 XeXYgSQ
Y
X1 X2
SQReg devido exclusivamente a X1 (Restrito):
Variabilidade da variável dependente explicada exclusivamente por X1.
)/(Re 1XYgSQ
Y
X1 X2
SQReg devido ao acréscimo de X2:
Variabilidade da variável dependente explicada por X2 após considerada a variabilidade explicada por X1.
rir gSQgSQXãoContribuiç ReRe2
Graus de liberdade: 2 coeficientes angulares do modelo Yi=+1X1+2X2+e.
Graus de liberdade: 1 coeficiente angular do modelo Yi=+1X1+e.
Graus de liberdade: 1 novo coeficiente angular incorporado no modelo (2).
ouirgSQRe
ourgSQRe
Contribuição Marginal - Definição
14
Seja o modelo irrestrito de RLM:
Em outras palavras, estaríamos interesados em testar a hipótese nula de que os q
coeficientes do modelo irrestrito são nulos:
Podemos desejar verificar se a contribuição de um grupo de q variáveis é
significativa no modelo. Fazemos esse teste colocando restrições aos parâmetros .
Suponha que, por simplicidade, as q variáveis que desejamos testar são as últimas
das k variáveis do modelo irrestrito (a ordem, obviamente, não faz importância).
Nosso modelo restrito seria:
Analogamente ao teste F para a ANOVA irrestrita, o teste estatístico para restrição aos
parâmetros consiste agora em verificar se a contribuição marginal dessas q variáveis é
significativa . A estatística F será então dada por:
eXXXY kk ...2211
eXXXY qkqk ...2211
0...,,0: 10 kqkH
)1/(Re
/)ReRe(
knsSQ
qgSQgSQF
ir
rir
Onde SQRegir e SQRegr são, respectivamente, a soma dos quadrados da regressão
sem e com restrição nos parâmetros, SQResir é a soma dos quadrados dos resíduos da
regressão sem restrição.
ou)1/(Re
/)ReRe(
knsSQ
qsSQsSQF
ir
irr
Teste de Contribuição Marginal
15
Teste de Contribuição Marginal• A Soma dos Quadrados do Tipo I (SS1) permite verificar se a inclusão de
variáveis adicionais no modelo representa uma contribuição marginal significativa;
• Em outras palavras, seja o modelo: etXtXY 3210
• Primeiro a SS1 verifica se a inclusão da variável X(a primeira variável especificada), acrescenta uma contribuição marginal significativa:
• Segundo, após considerar a contribuição de X, verifica se a variável t (a segunda do modelo) acrescenta uma contribuição marginal significativa:
• Terceiro, após considerar as contribuições de X e t, verifica se a contribuição marginal da variável Xt(a terceira do modelo) é significativa:
Y
X
Y
X t
Y
X t
X.t
16
Teste de Contribuição Marginal• A Soma dos Quadrados do Tipo III (SS3) permite verificar, considerando todas
as demais variáveis explanatórias do modelo, a contribuição marginal de uma variável é significativa;
• Em outras palavras, seja o modelo: etXtXY 3210
• A SS3 para X verifica se a contribuição marginal da variável X é significativa, após considerar a parcela da variabilidade já explicada por t e X.t:
• A SS3 para t verifica se a contribuição marginal da variável t é significativa, após considerar a parcela da variabilidade já explicada por X e X.t:
• A SS3 para X.t verifica se a contribuição marginal da variável X.t é significativa, após considerar a parcela da variabilidade já explicada por X e t:
Y
X t
X.t
17
Y
X t
X.t
Y
X t
X.t
Contribuição Marginal – Exemplo
18
• A Soma dos Quadrados (SS1 e SS3) para as contribuições marginais das variáveis do modelo são automaticamente apresentadas com a execução do procedimento GLM:
As SS1 para as variáveis do modelo sugerem que, após consideradas as contribuições das variáveis Escolaridade e Ano, a interação Escolaridade*Ano não acrescenta informação significativa ao modelo.Adicionalmente, as SS3 sugerem que, após considerada a contribuição conjunta de todas variáveis, as variáveis Ano e Escolaridade*Ano não acrescentam contribuição marginal significativa. Em outras palavras, há uma forte inter-relação entre as variáveis. Os efeitos isolados passam a ser insignificantes.
Exercícios
19
1) O arquivo Dados_PrecoResidenciais.XLS contém amostras coletadas em dois pontos do tempo (1978 e 1981).
a) Ajuste um modelo de dados empilhados para o log do preço em função da área construída, distância ao incinerador de lixo e outras variáveis que achar relevante;
b) Considere agora interceptos variáveis no tempo. Interprete os resultados.
c) Considere interceptos e coeficientes angulares para a relação entre preço e distância ao incinerador variáveis no tempo. Interprete os resultados;
d) Analise a contribuição marginal do tempo e de suas interações para o modelo;
e) A variável DIST refere-se à distância das residências a um incinerador de lixo que foi construído entre 1978 e 1981. Elabore e interprete um modelo que possa avaliar seu impacto sobre o preço das residências.