linha técnica sessão i: inferência...

Day 2 - Technical Track Session I: Causal Inference

1

Impact EvaluationImpact Evaluation

World Bank InstituteHuman Development

Network

Middle East and North Africa

Region Spanish Impact Evaluation Fund

www.worldbank.org/sief

Human Development

Network

Linha Técnica

Sessão I:

Inferência Causal

2

Questões políticas são causais por natureza…

Relações de causa-efeito são parte do trabalho de formuladores de políticas:

A descentralização das escolas melhora a qualidade da educação?

Um ano a mais de educação causa maior renda?

Transferências condicionais de renda causam melhores resultados de saúde infantil?

Como melhoramos o aprendizado de um aluno?


2

Questões políticas são causais por natureza…

… mas a Estatística que você

aprendeu na escola/universidade

não lida com isso…

3

4

Análise estatística padrão

Ferramentas: verossimilhança e outras técnicas de

estimação

Objetivo: inferir parâmetros de uma distribuição a partir

de amostras retiradas dessa distribuição

Utilidade: com o auxílio desses parâmetros, pode-se:

Inferir associação entre variáveis

Estimar a probabilidade de eventos passados e futuros

Atualizar a probabilidade de eventos a partir de novas

evidências ou novas medidas

Condição para que isso funcione corretamente: condições

experimentais devem permanecer inalteradas


3

Análise estatística padrão

Condição: condições experimentais devem permanecer

inalteradas

Mas nossas questões políticas eram…

Se eu descentralizar as escolas, a qualidade melhora?

Se eu encontrar uma forma de fazer com que uma criança

permaneça mais tempo na escola, ela ganhará mais dinheiro?

Se eu começar a dar dinheiro às famílias, suas crianças serão

mais saudáveis?

Se eu treinar os professores, seus alunos aprenderão mais?

As condições mudam!!!

5

6

Análise causal

Para questões causais, devemos inferir aspectos do processo gerador de dados

Em outras palavras, precisamos ser capazes de deduzir:

a probabilidade de eventos sob condições estáticas(como na Análise Estatística Padrão)

assim como a dinâmica de eventos sob condições variáveis


4

7

Análise causal

“dinâmica de eventos sob condições variáveis” inclui:

1. Prever os efeitos de intervenções

2. Prever os efeitos de mudanças espontâneas

3. Identificar as causas de eventos relatados

8

Causalidade vs. correlação

Análise estatística padrão / teoria da probabilidade:

A palavra “causa” não está em seu vocabulário

Nos permite dizer que dois eventos são

mutuamento correlacionados ou dependentes

Isso não é suficiente para formuladores de políticas

Eles buscam motivos para decisões de política:

se fizermos XXX, obteremos YYY?

Precisamos de um vocabulário para causalidade


5

O MODELO CAUSAL DE RUBIN:

VOCABULÁRIO PARA CAUSALIDADE

9

10

População e variável de resultado

Defina a população por U

Cada unidade em U é denotada por u

O resultado de interesse é Y

Também chamada de variável de resposta

Para cada u U, há um valor associado Y(u)


6

Causas / Tratamento

11

Rubin define “causa”

Causa é aquilo que pode ser tratamento em experimentos hipotéticos

Para simplificar, supomos que há apenas dois estados possíveis:

Unidade u é exposta ao tratamento

Unidade u é exposta ao controle

A variável de tratamento

Seja D uma variável indicando o estado ao qual cada

unidade de U é exposta:

De onde vem o D?

Em um estudo controlado: construído pelo

experimentador

Em um estudo não-controlado: determinado por

fatores além do controle do experimentador

12

D = 1 se a unidade u é exposta ao tratamento

0 se a unidade u é exposta ao controle


7

Relacionando Y e D

13

Y = variável de resposta

D = variável de tratamento

A resposta Y é potencialmente afetada pelo fato de u receber ou não tratamento

Portanto, precisamos de duas variáveis de resposta:

Y1(u) é o resultado se a unidade u é exposta ao tratamento

Y0(u) é o resultado se a unidade u é exposta ao controle

Efeito do tratamento sobre o resultado

Variável de tratamento D:

D = 1 se a unidade u é exposta ao tratamento

D = 0 se a unidade u é exposta ao controle

Variável de resposta Y:

Y1(u) é o resultado se a unidade u é exposta ao tratamento

Y0(u) é o resultado se a unidade u é exposta ao controle

Para qualquer unidade u, o tratamento causa o efeito

δu = Y1 (u) - Y0 (u)

14


8

Mas há um problema…

Para qualquer unidade u, o tratamento causa o efeito

δu = Y1 (u) - Y0 (u)

Problema fundamental da inferência causal:

Para uma dada unidade u, observamos ou Y1 (u) OU Y0 (u)

É impossível observar o efeito do tratamento sobre um

mesmo u!

Não observamos o contrafactual

Se tratamos u, não podemos observar o que teria

acontecido com u na ausência do tratamento

15

O que fazemos, então?

Em vez de medir o efeito do tratamento sobre a unidade u, identificamos o efeito de tratamento médio para a população U (ou para sub-populações)

16

1 0

1 0

1 0

1 0

u

[ ( ) ( )]

[ ( )] [ ( )]

(

( ) (

1)

)

U U

U U

ATE E Y u Y u

E Y u E Y u

Y

u Y u

Y

Y

ETMU


9

Estimando o ETM

Então,

Substitua o que é impossível observar: o efeito de

tratamento de D sobre uma unidade específica de u…

… pelo que é possível estimar: a média do efeito de

tratamento de D em uma população U de tais unidades

Embora EU (Y1 ) e EU (Y0 ) não possam ser calculadas,

elas podem ser estimadas

A maioria dos métodos econométricos busca construir,

a partir de dados observacionais, estimadores

consistentes de EU (Y1 ) = Y̅1 e EU (Y0 )= Y̅0

17

Um estimador simples do ETMU

18

Queremos estimar:

ETMU = EU (Y1) - EU (Y0) = Y̅1 - Y̅0 (1)

Considere o seguinte estimador simples:

δ̅ ̅̂ = [ Y̅̅̂1 | D = 1] - [ Y̅̅̂

0 | D =0 ] (2)

Note que:

a equação (1) é definida para toda a população

a equação (2) é um estimador a ser calculado a partir de uma amostra obtida dessa população


10

Um lema importante

19

Lema:

Supondo que

e

Então

é um estimador consistente de

01 11 DYDY 01 00 DYDY

01 0

^

1

^^

DYDY

01 YY

Condições fundamentais

21

Portanto, uma condição suficiente para que o estimador simples

estime consistentemente o verdadeiro ETM é dada por:

O resultado médio sob tratamento Y̅1 é o mesmo para

os grupos de tratamento (D=1) e controle (D=0)

E

O resultado médio sob controle Y̅0 é o mesmo para

os grupos de tratamento (D=1) e controle (D=0)

01 11 DYDY

01 00 DYDY


11

Quando essas condições serão

satisfeitas?

É suficiente que a designação do tratamento D seja não-correlacionada com a distribuição de resultados potenciais Y0 and Y1

Intuitivamente: não pode haver correlação entre

uma pessoa receber o tratamento

e quanto essa pessoa potencialmente se beneficia do tratamento

A forma mais fácil de alcançar essa não-correlação é através da aleatorização da designação do tratamento

22

Uma outra forma de olhar para isso

Com alguma álgebra, mostra-se que:

23

DYDY 01 00

^

011 DD -π

estimador

simples

impacto

verdadeirodiferença na linha de base

resposta heterogênea ao tratamento


12

Uma outra forma de olhar para isso(em palavras)

Há duas fontes de viés que devem ser eliminadas das estimativas de efeitos causais:

Diferença na linha de base / viés de seleção

Resposta heterogênea ao tratamento

A maioria dos métodos disponíveis lida somente com o viés de seleção

24

25

Tratamento nos Tratados

O Efeito de Tratamento Médio nem sempre é o

parâmetro de interesse

Frequentemente, é o efeito de tratamento médio nos

tratados que desperta interesse:

1 0

1 0

[ ( ) ( ) | 1]

[ ( ) | 1] [ ( ) | 1]

TOT E Y u Y u D

E Y u D E Y u D

ETT


13

26

Tratamento nos Tratados

Se precisamos estimar o Tratamento nos Tratados

O estimador simples (2)

estima consistentemente o Tratamento nos Tratados se:

“não há diferença na linha de base entre

os grupos de tratamento e controle”

0 0[ | 1] [ | 0] Y D Y D

1 0

ˆ ˆ ˆ[ | 1]-[ | 0]Y D Y D

1 0 [ ( ) | 1] [ ( ) | 1] TOT E Y u D E Y u D ETT

27

Referências

Judea Pearl (2000): Causality: Models, Reasoning and Inference,

Cambridge University press. (Book) Chapters 1, 5 and 7.

Trygve Haavelmo (1944): “The probability approach in

econometrics,” Econometrica 12, pp. iii-vi+1-115.

Arthur Goldberger (1972): “Structural Equations Methods in the

Social Sciences,” Econometrica 40, pp. 979-1002.

Donald B. Rubin (1974): “Estimating causal effects of treatments

in randomized and nonrandomized experiments,” Journal of

Educational Psychology 66, pp. 688-701.

Paul W. Holland (1986): “Statistics and Causal Inference,”

Journal of the American Statistical Association 81, pp. 945-70,

with discussion.

linha técnica sessão i: inferência...

Documents