linha técnica sessão i: inferência...
TRANSCRIPT
Day 2 - Technical Track Session I: Causal Inference
1
Impact EvaluationImpact Evaluation
World Bank InstituteHuman Development
Network
Middle East and North Africa
Region Spanish Impact Evaluation Fund
www.worldbank.org/sief
Human Development
Network
Linha Técnica
Sessão I:
Inferência Causal
2
Questões políticas são causais por natureza…
Relações de causa-efeito são parte do trabalho de formuladores de políticas:
A descentralização das escolas melhora a qualidade da educação?
Um ano a mais de educação causa maior renda?
Transferências condicionais de renda causam melhores resultados de saúde infantil?
Como melhoramos o aprendizado de um aluno?
Day 2 - Technical Track Session I: Causal Inference
2
Questões políticas são causais por natureza…
… mas a Estatística que você
aprendeu na escola/universidade
não lida com isso…
3
4
Análise estatística padrão
Ferramentas: verossimilhança e outras técnicas de
estimação
Objetivo: inferir parâmetros de uma distribuição a partir
de amostras retiradas dessa distribuição
Utilidade: com o auxílio desses parâmetros, pode-se:
Inferir associação entre variáveis
Estimar a probabilidade de eventos passados e futuros
Atualizar a probabilidade de eventos a partir de novas
evidências ou novas medidas
Condição para que isso funcione corretamente: condições
experimentais devem permanecer inalteradas
Day 2 - Technical Track Session I: Causal Inference
3
Análise estatística padrão
Condição: condições experimentais devem permanecer
inalteradas
Mas nossas questões políticas eram…
Se eu descentralizar as escolas, a qualidade melhora?
Se eu encontrar uma forma de fazer com que uma criança
permaneça mais tempo na escola, ela ganhará mais dinheiro?
Se eu começar a dar dinheiro às famílias, suas crianças serão
mais saudáveis?
Se eu treinar os professores, seus alunos aprenderão mais?
As condições mudam!!!
5
6
Análise causal
Para questões causais, devemos inferir aspectos do processo gerador de dados
Em outras palavras, precisamos ser capazes de deduzir:
a probabilidade de eventos sob condições estáticas(como na Análise Estatística Padrão)
assim como a dinâmica de eventos sob condições variáveis
Day 2 - Technical Track Session I: Causal Inference
4
7
Análise causal
“dinâmica de eventos sob condições variáveis” inclui:
1. Prever os efeitos de intervenções
2. Prever os efeitos de mudanças espontâneas
3. Identificar as causas de eventos relatados
8
Causalidade vs. correlação
Análise estatística padrão / teoria da probabilidade:
A palavra “causa” não está em seu vocabulário
Nos permite dizer que dois eventos são
mutuamento correlacionados ou dependentes
Isso não é suficiente para formuladores de políticas
Eles buscam motivos para decisões de política:
se fizermos XXX, obteremos YYY?
Precisamos de um vocabulário para causalidade
Day 2 - Technical Track Session I: Causal Inference
5
O MODELO CAUSAL DE RUBIN:
VOCABULÁRIO PARA CAUSALIDADE
9
10
População e variável de resultado
Defina a população por U
Cada unidade em U é denotada por u
O resultado de interesse é Y
Também chamada de variável de resposta
Para cada u U, há um valor associado Y(u)
Day 2 - Technical Track Session I: Causal Inference
6
Causas / Tratamento
11
Rubin define “causa”
Causa é aquilo que pode ser tratamento em experimentos hipotéticos
Para simplificar, supomos que há apenas dois estados possíveis:
Unidade u é exposta ao tratamento
Unidade u é exposta ao controle
A variável de tratamento
Seja D uma variável indicando o estado ao qual cada
unidade de U é exposta:
De onde vem o D?
Em um estudo controlado: construído pelo
experimentador
Em um estudo não-controlado: determinado por
fatores além do controle do experimentador
12
D = 1 se a unidade u é exposta ao tratamento
0 se a unidade u é exposta ao controle
Day 2 - Technical Track Session I: Causal Inference
7
Relacionando Y e D
13
Y = variável de resposta
D = variável de tratamento
A resposta Y é potencialmente afetada pelo fato de u receber ou não tratamento
Portanto, precisamos de duas variáveis de resposta:
Y1(u) é o resultado se a unidade u é exposta ao tratamento
Y0(u) é o resultado se a unidade u é exposta ao controle
Efeito do tratamento sobre o resultado
Variável de tratamento D:
D = 1 se a unidade u é exposta ao tratamento
D = 0 se a unidade u é exposta ao controle
Variável de resposta Y:
Y1(u) é o resultado se a unidade u é exposta ao tratamento
Y0(u) é o resultado se a unidade u é exposta ao controle
Para qualquer unidade u, o tratamento causa o efeito
δu = Y1 (u) - Y0 (u)
14
Day 2 - Technical Track Session I: Causal Inference
8
Mas há um problema…
Para qualquer unidade u, o tratamento causa o efeito
δu = Y1 (u) - Y0 (u)
Problema fundamental da inferência causal:
Para uma dada unidade u, observamos ou Y1 (u) OU Y0 (u)
É impossível observar o efeito do tratamento sobre um
mesmo u!
Não observamos o contrafactual
Se tratamos u, não podemos observar o que teria
acontecido com u na ausência do tratamento
15
O que fazemos, então?
Em vez de medir o efeito do tratamento sobre a unidade u, identificamos o efeito de tratamento médio para a população U (ou para sub-populações)
16
1 0
1 0
1 0
1 0
u
[ ( ) ( )]
[ ( )] [ ( )]
(
( ) (
1)
)
U U
U U
ATE E Y u Y u
E Y u E Y u
Y
u Y u
Y
Y
ETMU
Day 2 - Technical Track Session I: Causal Inference
9
Estimando o ETM
Então,
Substitua o que é impossível observar: o efeito de
tratamento de D sobre uma unidade específica de u…
… pelo que é possível estimar: a média do efeito de
tratamento de D em uma população U de tais unidades
Embora EU (Y1 ) e EU (Y0 ) não possam ser calculadas,
elas podem ser estimadas
A maioria dos métodos econométricos busca construir,
a partir de dados observacionais, estimadores
consistentes de EU (Y1 ) = Y̅1 e EU (Y0 )= Y̅0
17
Um estimador simples do ETMU
18
Queremos estimar:
ETMU = EU (Y1) - EU (Y0) = Y̅1 - Y̅0 (1)
Considere o seguinte estimador simples:
δ̅ ̅̂ = [ Y̅̅̂1 | D = 1] - [ Y̅̅̂
0 | D =0 ] (2)
Note que:
a equação (1) é definida para toda a população
a equação (2) é um estimador a ser calculado a partir de uma amostra obtida dessa população
Day 2 - Technical Track Session I: Causal Inference
10
Um lema importante
19
Lema:
Supondo que
e
Então
é um estimador consistente de
01 11 DYDY 01 00 DYDY
01 0
^
1
^^
DYDY
01 YY
Condições fundamentais
21
Portanto, uma condição suficiente para que o estimador simples
estime consistentemente o verdadeiro ETM é dada por:
O resultado médio sob tratamento Y̅1 é o mesmo para
os grupos de tratamento (D=1) e controle (D=0)
E
O resultado médio sob controle Y̅0 é o mesmo para
os grupos de tratamento (D=1) e controle (D=0)
01 11 DYDY
01 00 DYDY
Day 2 - Technical Track Session I: Causal Inference
11
Quando essas condições serão
satisfeitas?
É suficiente que a designação do tratamento D seja não-correlacionada com a distribuição de resultados potenciais Y0 and Y1
Intuitivamente: não pode haver correlação entre
uma pessoa receber o tratamento
e quanto essa pessoa potencialmente se beneficia do tratamento
A forma mais fácil de alcançar essa não-correlação é através da aleatorização da designação do tratamento
22
Uma outra forma de olhar para isso
Com alguma álgebra, mostra-se que:
23
DYDY 01 00
^
011 DD -π
estimador
simples
impacto
verdadeirodiferença na linha de base
resposta heterogênea ao tratamento
Day 2 - Technical Track Session I: Causal Inference
12
Uma outra forma de olhar para isso(em palavras)
Há duas fontes de viés que devem ser eliminadas das estimativas de efeitos causais:
Diferença na linha de base / viés de seleção
Resposta heterogênea ao tratamento
A maioria dos métodos disponíveis lida somente com o viés de seleção
24
25
Tratamento nos Tratados
O Efeito de Tratamento Médio nem sempre é o
parâmetro de interesse
Frequentemente, é o efeito de tratamento médio nos
tratados que desperta interesse:
1 0
1 0
[ ( ) ( ) | 1]
[ ( ) | 1] [ ( ) | 1]
TOT E Y u Y u D
E Y u D E Y u D
ETT
Day 2 - Technical Track Session I: Causal Inference
13
26
Tratamento nos Tratados
Se precisamos estimar o Tratamento nos Tratados
O estimador simples (2)
estima consistentemente o Tratamento nos Tratados se:
“não há diferença na linha de base entre
os grupos de tratamento e controle”
0 0[ | 1] [ | 0] Y D Y D
1 0
ˆ ˆ ˆ[ | 1]-[ | 0]Y D Y D
1 0 [ ( ) | 1] [ ( ) | 1] TOT E Y u D E Y u D ETT
27
Referências
Judea Pearl (2000): Causality: Models, Reasoning and Inference,
Cambridge University press. (Book) Chapters 1, 5 and 7.
Trygve Haavelmo (1944): “The probability approach in
econometrics,” Econometrica 12, pp. iii-vi+1-115.
Arthur Goldberger (1972): “Structural Equations Methods in the
Social Sciences,” Econometrica 40, pp. 979-1002.
Donald B. Rubin (1974): “Estimating causal effects of treatments
in randomized and nonrandomized experiments,” Journal of
Educational Psychology 66, pp. 688-701.
Paul W. Holland (1986): “Statistics and Causal Inference,”
Journal of the American Statistical Association 81, pp. 945-70,
with discussion.