Avaliação de Impacto para Prestação de Contas:
Algumas opções de Métodos
Tom CookNorthwestern University
Resumo Geral• Importância da avaliação de impacto • Defender a noção de que essa avaliação deve
ter altos níveis de validade• Introduzir alguma Terminologia• Experimentos de Distribuição Aleatória• Melhores desenhos alternativos caso os
experimentos não sejam possíveis : (a) Regressão Descontínua; (b) Séries Temporais Interrompidas (c) Desenho de Grupos Pareados
I: Porque avaliar com métodos que asseguram níveis mais altos de validade?
O custo de decidir que um programa funciona, se ele não funcionarO custo de decidir que ele não funciona, se funcionarMétodos que tem maior tendência a apresentar esse viés (e que em geral não conseguem determinar o tamanho do efeito):
Estudos de caso; levantamentos simples realizados uma única vez; desenhos simples de “antes e depois”; desenhos de comparações realizadas uma única vez; e modelagem causal complexa
O que resta?• Estudos Experimentais baseados no desenho,
ou• Método Quase-Experimental
Estes testam as consequências de uma única causa conhecida (programa) e NÃO as várias causas de um efeito conhecido (ex: abuso de drogas)
Enfatizam um tratamento manipulável, um propulsor de política pública que alguém gostaria de acionar para obter alguns resultados socialmente desejáveis
II. Alguma Terminologia• Experimentação – intrusão deliberada em um
processo em andamento, para identificar os efeitos dessa intrusão – papel do choque exógeno
• Experimentos aleatorizados envolvem a distribuição dos participantes entre grupos de tratamento e de controle baseada no acaso — expectativa de não haver viés
• Experimento natural denota alguma intrusão súbita e não controlada pelo pesquisador em um processo em andamento – exemplos com e sem distribuição aleatória
Terminologia• Quase-experimentos envolvem também choques
exógenos, mas os grupos controle não são aleatorizados — os exemplos parecem experimentos em sua estrutura, exceto pelo processo de distribuição
• Um não-experimento lida com um agente causal não deliberadamente manipulado, e que não interfere subitamente em um processo em andamento – digamos, o uso de levantamentos longitudinais.
• Aqui excluímos o trabalho não-experimental
Terminologia: Causalidade• Manipulabilidade/Atividade/Teoria da
Receita: a relação “Se/Então” – sobre intrusões
• Teoria menor na filosofia da ciência, porque não é necesariamente explanatória
• Condicional INUS de Mackie – Porção insuficiente porém não redundante de uma condição desnecessária porém suficiente, para que o efeito se manifeste
• Mas pragmaticamente importante para a Avaliação
Validade Interna• Validade Interna: Validade das inferências
sobre se a covariação observada entre A (o tratamento presumido) e B (o resultado presumido), reflete uma relação causal de A para B quando essas variáveis foram manipuladas ou medidas.
• Ou, dito mais simplesmente: o tratamento afetou o resultado?
• Esta será a principal prioridade desta apresentação.
Ameaças à Validade Interna1. Precedência temporal ambígua2. Seleção3. História4. Maturação5. Regressão6. Atrição7. Teste 8. Instrumentação9. Efeitos aditivos e interativos das ameaças à validade
internaPense nessas ameaças como contrafactuais específicos – coisas que poderiam ter ocorrido aos participantes se não tivessem recebido o
tratamento.
III. Experimentos Aleatorizados
com indivíduos, famílias e agrupamentos de prédios
Atribuição Aleatória• Qualquer procedimento que atribui unidades a
condições, baseando-se unicamente no acaso, onde cada unidade tem uma probabilidade não-zero de ser atribuída a uma condição.
• Por exemplo: Cara ou coroa; jogar dados; loteria; ou métodos mais formais
(mais brevemente)Delineamento de escolha para a causalidadeImportanza actual nos compendios de praticas efficaces
A atribuição aleatória não é:
• A atribuição aleatória não é uma amostragem aleatória– A amostragem aleatória é raramente viável
nos experimentos• A atribuição aleatória não requer que cada
unidade tenha uma probabilidade igual de ser atribuída às condições– É possível atribuir proporções desiguais às
condições
Vantagens dos experimentos• Prometem estimativas sobre os efeitos isentas
de viés• As premissas são relativamente poucas,
transparentes e testáveis• Maior poder estatístico do que as alternativas• Longo histórico de implementação na saúde e
em algumas áreas da educação• Frequentemente possíveis, apesar das
argumentações dos críticos• Alta credibilidade na ciência, políticas públicas +
mídia
Premissas para Inferir um Efeito• As médias nos grupos pós-teste devem diferir,
porém somente serão causalmente interpretáveis se:
• A atribuição for adequada, de modo que as médias do pré-teste e das outras covariáveis não difiram nos observáveis
• Não existe atrição diferencial, e assim o índice de atrição e o perfil das demais unidades será constante através dos grupos de tratamento
• Não existe contaminação entre os grupos, o que é relevante para responder às perguntas sobre o tratamento nos tratados, mas não sobre a intenção de tratar.
Desvantagens falsamente atribuídas aos experimentos
• Os experimentos são raros• A atrição realcionada ao tratamento é
comum e não há como lidar com isso• A contaminação do tratamento é comum e
não há como lidar com isso• A implementação do tratamento é
frequentemente parcial
Desvantagens corretamente ataribuídas aos experimentos
• Nem sempre são viáveis por motivos de ética, política, logística e ignorância
• A experiência é limitada em muitos campos, especialmente em unidades maiores, como prédios ou bairros
• A generalização dos resultados é limitada – o voluntarismo e as condicionais INUS devem ser revistos
• Perigo de que o método sozinho venha a determinar os tipos de perguntas causais feitas e não feitas
• Perigo de que o método expulsará outros tipos de conhecimento avaliativo e também de teorias substativas
IV. Delineamentos AlternativosA. Regressão Desconínua
Regressão Descontínua (RD)
A alocação de recursos pode ser feita por pontuação de mérito, necessidade (ou risco), primeiro da fila…., data de nascimento
Qual a prevalência dos mecanismos de alocação desse tipo em determinada sociedade? Podem ser ainda mais prevalentes?
A RD é o delineamento adequado para essas circunstâncias.O delineamento funciona com variáveis de atribuição reais e
construtos e com pontos de corte Funciona com a pontuação obtidaÉ preciso aprender a linguagem da RD para invocar uma variável
de atribuição, o ponto de corte que define o tratamento, e um resultado
Visão gráfica da RD
Comparison
Visão gráfica da RD
Comparison Treatment
Visão gráfica da RD
Comparison Treatment
Counterfactual regression line
Descontinuidade,ou Efeito do Tratamento
Duas justificativas para a RD
1. O processo de seleção é perfeitamente conhecido e pode ser modelado através de uma linha de regressão da atribuição e das variáveis do resultado – A porção não tratada da VA serve como um
contrafactual2. É como um experimento em torno do ponto de
corte– Benefício: A forma funcional não precisa ser
identificada
• Exigem que a probabilidade de tratamento mude descontinuamente de 1 a 0 no ponto de corte.
• Na prática, isso significa que não há superposição e não há não comparecimento no estudo.
• No delineamento básico, os efeitos do tratamento são identificados no ponto de corte. Nos delineamentos suplementares, não é necessariamente assim
• As abordagens paramétrica e não-paramétrica podem ser aplicadas para estimar os efeitos do tratamento
Delineamentos de RD determinística (SHARP)
Limitações da RD Básica
• Menos poder statistico do que os experimentos
• Dependente de premissas paramétricas funcionais
• Generalização do impacto limitada ao valor de corte
• Cada uma destas é mitigada adicionando-se uma função de regressão pré-teste
4. Manipulação Deliberada davariável distribuição
• Ocorre quando os participantes manipulam pontuação de distribuição para receber ou evitar o tratamento.
• Diferente de “substituição para o ponto de corte”, porque o pesquisador não sabe a pontuação – e a distribuição de tratamento – que os participantes deveriam ter recebido.
• Não há teste definitivo para saber quando ocorre, porém a análise gráfica pode ajudar a detectá-lo.
Exemplo: Dados da AYP doTexas
Histograma Plotagem da Densidade de Kernel
Queda na densidade das observações antes do ponto de corte
Salto na densidade das observações no ponto de corte
Resumo do delineamento da RD• Bem afiançado na teoria e comparado aos Estudos
Randomizados Controlados (RCT)• Atualmente, usado com frequência, ao menos nos EUA • Uma grande ameaça é a forma funcional mal especificada • Outra grande ameaça é a manipulação – mais fácil descrever
do que controlar• Generalização limitada ao ponto de corte, mas uma RD
comparativa pode ser usada para ampliar a generalização• Pesquisas sobre complexidades adicionais estão a pleno vapor
atualmente e o estado da arte está sendo desenvolvido
IV:B. Séries Temporais Interrompidas
O que é uma Série Temporal Interrompida (STI) ?
• Uma série de observações da mesma variável dependente ao longo do tempo
• A STI é um tipo especial de série temporal onde o tratamento/intervenção ocorreu em um ponto específico e a série é interrompida pela introdução da intervenção.
• Se o tratamento tem um impacto causal a série pós-intervenção terá um nível ou uma inclinação diferente do que a série pré-intervenção .
Os efeitos da cobrança do serviço de auxílio à lista em Cincinnati
Intervenção
E se todo o mundo no Canadá desse descarga ao mesmo tempo?
Reforma da Lei anti-estupro no Canadá
A Série Temporal Interrompida pode produzir fortes evidências sobre efeitos causais
• Ponto claro da Intervenção
• Efeito grande, imediato
• Forma funcional pré-teste clara + muitas Observações
• Nenhuma alternativa pode explicar a mudança
Quão bem essas condições são atendidas na maioria das pesquisas?
• Dados abrangendo longos períodos não estão disponíveis, assim a forma funcional pré-teste é com frequência mais curta e menos clara
• Implementar a intervenção pode abranger muitos anos• Os efeitos instantâneo são raros • O tamanho do efeito em geral é pequeno
• Assim, surge a necessidade de desenvolver métodos para séries temporais abreviadas e complementá-los com outros recursos de delineamento, tais como série de controle, para ajudar a reforçar os contrafactuais fracos associados a uma série temporal pré-teste curta.
Ameaças à Validade Interna: História
• Na maioria das STI simples, a principal ameaça à validade interna é a história - algum outro evento ocorrido próximo ao momento da intervenção e que poderia ter produzido o mesmo efeito.
• Possíveis soluções: – Acrescentar um grupo de controle à série temporal
– Acrescentar uma variável dependente não equivalente
– Quanto mais estreitos os intervalos medidos (ex: mensalmente em vez de anualmente) menos eventos históricos que possam explicar os achados dentro daquele intervalo.
Ameaças à Validade: Instrumentação
• Instrumentação: a maneira como foi medido o resultado mudou ao mesmo tempo em que se introduziu a intervenção.
– Em Chicago, quando Orlando Wilson assumiu o Dep. de Polícia de Chicago, ele mudou os requisitos dos relatórios, tornando-os mais precisos. O resultado aparentemente foi um aumento na criminalidade quando assumiu o cargo.
– É importante explorar a qualidade da medição dos resultados ao longo do tempo, perguntar a respeito de quaisquer mudanças que tenham sido feitas quanto à operacionalização das mensurações.
Exemplo da Educação: Projeto Hope• Programa de ajuda financeira baseado no mérito
instituído na Georgia– Implementado em 1993– ponto de corte de 3.0 GPA no ensino médio (RDD?)
• O objetivo era melhorar– O acesso à educação superior– Os resultados educacionais
• Grupos controle– Dados dos EUA– Dados do Sudoeste americano
Resultados: Porcentagem de alunos que atingiram GPA 3.00 na escola de ensino
médio
Porcentagem de alunos com nota B ou melhor
74.00%76.00%78.00%80.00%82.00%84.00%86.00%88.00%90.00%
90 92 94 96 982000
Ano
Porc
enta
gem Sudeste
EUA
GA
Resultados: Média das notas SAT dos estudantes de segundo grau com GPA 3.00
Acescentar na série temporal uma variável dependente não equivalente
VDNE: Variável dependente que estima-se que não deve mudar devido ao tratamento, mas espera-se que responda a algumas ou a todas as ameaças à validade interna contextualmente importantes, da mesma maneira que o resultado visado
Exemplo: Experimento do bafômetro britânico• Intervenção: Reprimir o uso de álcool na direção mediante o uso de
bafômetro.
• Presume-se que muitos casos de motoristas bêbados ocorriam depois destes terem bebido em bares que ficavam abertos durante os horários permitidos por lei.
• Variável dependente: Acidentes de trânsito durante os horários em que os bares estavam abertos.
• Variável dependente não equivalente: Acidentes de trânsito durante os horários em que os bares não estavam abertos
• Ajuda a reduzir a plausabilidade das ameaças da história, de que a diminuição era devida a fatores tais como:– Mudança do clima– Automóveis mais seguros– Repressão policial ao excesso de velocidade
Observe que a variável do resultado (horários abertos no fim de semana) demonstrou um efeito, porém a variável dependente não equivalente (horários em que os bares estavam fechados) não mostrou qualquer efeito.
0
200
400
600
800
1000
1200
1400
160019
66
1967
1968
Traf
fic C
asua
lties
YearClosed Hours Weekend
Resumo: Série Temporal Interrompida
• É um delineamento poderoso, porém sua viabilidade em geral depende da disponibilidade de um resultado bem arquivado ou da capacidade de coletar dados originais
• Muita informação prévia encontra-se disponível nas áreas de economia e educação, em níveis individual, de coorte e de escolas
• Hoje cada vez mais usado nos EUA nessas áreas• Raramente podemos usar um delineamento STI simples• Em vez disto, devemos adicionar recursos de
delineamento como: grupos de controle, variáveis dependentes não equivalentes, adicionar replicações.
IVc. Pareamento de Grupos Não Equivalentes
Delineamento “Work horse” : o mais comum dos NECGD
• _O _X_O_ O O
• Dois elementos no delineamento que podem ajudar causalmente: pré-teste e grupos de comparação não-aleatorizados
• Uma mudança neste último significa quanta mudança deveria ter ocorrido no grupo do programa, caso não tivesse sido incluído no programa
• Mas esta última afirmação com frequência não é verdade; e se fosse, não haveria como saber.
Principais ameaças à validade interna com esse desenho
Seleção–Maturação• Seleção-História (História Local)• Seleção–Instrumentação• Seleção- Regressão estatística• Então por que não parear, para eliminar todas
essas diferentes faces da seleção? Se os grupos puderem se tornar equivalentes desde o começo, a intuição seria que o problema desapareceria, assim como na distribuição aleatória?
Pareamento de grupo intacto como parte da estratégia de pareamento
• Bloom, Michalopoulos et al.
• Aiken, West et al.
Bloom, Michalopoulos et al • Estudo randomizado controlado que analisa o treinamento
na função, em 11 locais• Bloom et al restringem a STI a 5 comparações intra-
estado, 4 delas intra-cidade. Esta última basicamente faz o pareamento das caraterísticas da cidade, inclusive do mercado de trabalho.
• Assim, os casos de comparação não-aleatorizados são selecionados dos centros de treinamento da mesma cidade dos locais de tratamento
• O resultado foi medido da mesma maneira no mesmo momento em todos os locais. Portanto, esses fatores não confundiram o tratamento.
Resultados: 3 amostras intra-cidades
Seleção de Grupos Intactos pareados localmente nos resultados do pré-teste• Sem que fosse essa a intenção, o fato de Bloom e colegas
terem escolhido controles intra-cidade-não-equivalentes conseguiu comparabilidade com os controles experimentais formados aleatóriamente.
Quer dizer que • Não houve viés entre 3 das 4 amostras intra-cidade; nem
tampouco para a média ponderada de todos os 4 locais.• Assim, a superposição dos observáveis foi conseguida através
do desenho de amostragem isoladamente, dispensando a necessidade de ajustes estatísticos
• Lembre-se: Houve viés nas comparações transversais entre os estados, que não pode ser ajustado estatísticamente com os dados e modelos usados.
Seleção de Grupos Intactos com o máximo de sobreposição: 2o Exemplo
• Aiken et al. ASU—efeitos do curso de redação• A seleção das amostras no Quase-experimento foi feita da
mesma faixa dos ACTs e SATs que as usadas no seu experimento
• Diferiram pela incapacidade de os pesquisadores conseguirem contatar os alunos na matrículas de verão e mais tarde
• Qual será o papel das variáveis não observadas correlacionadas com essas duas características diferenciando as unidades de controle formadas aleatória e não-aleatoriamente?
• Observe que o marco de medidas foi idêntico no experimento e quase-experimento, assim como a intervenção e experiências do grupo de controle excetuando o curso de redação
ResultadosOs grupos de comparação formados aleatória e não aleatoriamente não diferiram no SAT/CAT nem nas duas mensurações de redação pré-teste
• Portanto, houve uma correspondência próxima dos grupos nos observáveis, sem necessidade de ajuste subsequente; e
• Portanto no Q-E, os controles OLS (ordinary least square) para pré-teste acrescentam poder porém não reduzem o viés, pois havia muito pouco a igualar no controle.
• Resultados para teste de redação com múltipla escolha nas unidades SD = .RCT = 59 e NECGD = .57– ambos significativos
• Resultados para o ensaio RCT = .06 e NECGD =.16 – ambos não significativos
Os Resultados foram isentos de viés na comparação de cidades não-equivalentes?
• No pré-teste, as famílias elegíveis das cidades não-equivalentes em geral não eram diferentes das famílias de controle elegíveis nas cidades tratadas.
• Houve algumas poucas diferenças, no entanto, e estas foram acrescidas como controles no resultado final da análise.
• Portanto, obtidos os mesmos resultados que no experimento, mesmo com as cidades não-equivalentes pois as famílias elegíveis eram equivalentes nos não observáveis.
Implicações dos 2 estudos• O modo de fazer a amostragem dos grupos intactos
pode eliminar todo viés observado sem necessidade de mais nada.
• Sabíamos disto porque tínhamos resultados experimentais para comparar. Porém em geral, não há um experimento disponível para a comparação
• Portanto o pareamento de grupo local intacto ajuda, mas não é uma garantia.
• Felizmente, podemos parear pessoas individualmente ou famílias.
O que é um Grupo Controle Local, Focal, Não-Equivalente Intacto
• Gêmeos univitelinos• Gêmeos bivitelinos• Irmãos e irmãs• Sucessivas Coortes de uma classe na mesma escola• Mesma Coorte entre diferentes escolas no mesmo
distrito• Mesma Coorte entre diferentes escolas em diferentes
distritos do mesmo estado• Mesma Coorte entre diferentes escolas em diferentes
estados, etc.
Análise dos dados do delineamento Work horse se houver diferenças de grupos
• Modelagem da seleção, como Escores de Propensão – atual furor, mas não há tempo para descrevê-lo aqui em detalhe.
• Como se saber que a analise de dados da la riposta correcto, sem vias?
• Debbo describir la metodolgia de la design experiment
Alocação aleatória de pessoas a uma alocação aleatória ou não aleatória
• Uma forma de testar isto é alocar os participantes aleatóriamente a um experimento aleatorizado ou não aleatorizado, onde são tratados de forma idêntica.
• A seguir, podemos ajustar os resultados quase-experimentais para ver até que ponto se aproximam dos resultados aleatorizados.
• Este foi o delineamento tal como nós o implementamos:
Shadish, Clark & Steiner (2008) (Comparação intra-estudo)
N = 445 Alunos de graduação em Psicologia
Aleatoriamente alocados para
Experimento aleatorizado N = 235
Aleatoriamente alocados para
Estudo Observacional N = 210
Auto- Selecionados em
Matemática Curso de
N = 119
Vocabulário Curso de
N = 116
Matemática Curso de
N = 79
Vocabulário Curso de
N = 131
ATE=?
Shadish et al.: Tratamentos & Resultados
• Dois tratamentos e dois resultados– Dois tratamentos: curso breve, quer em
Vocabulário (termos de vocabulário avançado) ou Matemática (equações exponencais) Todos os participantes foram tratados juntos, sem conhecimento das diferentes condições.
– Dois resultados: Vocabulário (pós-teste de 30-ítens) e Matemática (pós-teste de 20-ítens)
• Efeito do Tratamento:– ATE: efeito médio do tratamento para a população
geral no estudo observacional
Shadish et al.: Domínios dos Construtos
• Preferência pelo Tópico (6 construtos multi-item): gostar de literatura, gostar de matemática, preferir matemática à literatura, número de cursos de matemática feitos anteriormente, principal área de estudo (com matemática intensiva ou não), escala matemática de ansiedade de 25-ítens
• Predisposição psicológica (6 construtos multi-item): Os 5 grandes fatores da personalidade (50 itens em extroversão, estabilidade emocional, aceitação, abertura para a experiência, autopercepção), Short Beck Depression Inventory (13 itens)
Propensity Scores (PS)
• O escore de propensão reduz toda a informação dos preditores a um só número – Isso pode facilitar o pareamento ou a estratificação
quando há múltiplas variáveis de pareamento disponíveis.
• Em um experimento aleatorizado, o verdadeiro escore de propensão é de 0,50 para cada pessoa
• Em um quase-experimento, o verdadeiro escore de propensão é desconhecido
Redução do Viés : Domínios de Construto - Vocabulário
1
11 1 1 1
11
11
1
11
1 1 1
-20
0
20
40
60
80
100
120
140
Bia
s R
educ
tion
(%)
22 2
2
2
22 2 2
22
2
2
22 2
3 3 3
3 3
3
33
33
33 3 3 3
3
4 4
4
4 4
44
4 44 4
4
4
4
4 4
1234
PS-stratificationPS-ANCOVAPS-weightingANCOVA
1
11 1 1 1
11
11
1
11
1 1 1
22 2
2
2
22 2 2
22
2
2
22 2
3 3 3
3 3
3
33
33
33 3 3 3
3
4 4
4
4 4
44
4 44 4
4
4
4
4 4
psy aca dem pre top dempsy
demaca
dempre
prepsy
demtop
preaca
pretop
dempreaca
dempretop
dempreacatop
dempreacatoppsy
psy aca dem
Redução do Viés: Construtos únicosVocabulário
1
1
11
11
1
1
1 1
11
-40
-20
0
20
40
60
80
100
120
140
Bia
s R
educ
tion
(%)
2
2
22
22
2
2 22 2
2
3
3
33
3
3 3
33 3 3
3
4
4
4
44 4
4
4
4
4
4
4
1234
PS-stratificationPS-ANCOVAPS-weightingANCOVA1
1
11
11
1
1
1 1
11
2
2
22
22
2
2 22 2
2
3
3
33
3
3 3
33 3 3
3
4
4
4
44 4
4
4
4
4
4
4
proxy-pretest topic preference all covariates except
mat
h.pr
e
voca
b.pr
e
num
bmat
h
mar
s
maj
or
like.
mat
h
like.
lit
pref
.mat
h
-voc
ab.p
re-p
ref.m
ath
-voc
ab.p
re
-pre
f.mat
h all
Construtos: Conclusão• Ao estabelecer SI (strong ignorability), a seleção dos construtos
é importante– Precisamos de domínios de construtos que efetivamente
reduzam o viés (aqueles relacionados tanto à seleção do tratamento quanto ao resultado)
– Precisamos daquele construto único correto dentre os domínios, porque somente algumas poucas covariáveis reduzem o viés com sucesso
• A escolha do método analítico é menos importante (considerando sua implementação competente)– Não há diferença sistemática entre os métodos de PS– ANCOVA funcionou igualemente bem (pelo menos naquele
caso)
Confiabilidade das Medidas do Construto Steiner, Cook & Shadish (2011)
• Até que ponto a medição confiável dos construtos é importante (dada a seleção em construtos latentes)?– A inclusão de um conjunto grande de covariáveis no modelo PS
compensa a medição pouco confiável de cada covariável?• Acrescentar erro de medição às covariáveis observadas em estudo
simulado– Presume que o conjunto original de covariáveis foi medido
sem erros e remove 100% do viés de seleção– Erro de medida adicionado sistematicamente de modo que a
confiabilidade de cada covariável foi =.5, .6, .7, .8, .9, 1.0
Vocabulário: Confiabilidade 1.0
1
1
1
11
1
11
1
1
1
-40
-20
0
20
40
60
80
100
120
Bia
s R
educ
tion
(%)
2
2
2
2 22
22
2
2
2
3
3
3
3
3 3
33
3
3
3
4
44
4
4 4
44
4
4
4
1234
PS-stratificat.PS-ANCOVAPS-weightingANCOVA
1
1
1
11
1
2
2
2
2 22
3
3
3
3
3 3
4
44
4
4 4
4
44
4
4 4
44
4
4
4
all top pre dem aca psy vocabpre
prefmath
likelit
likemath
mathpre
1
1
1
11
1
2
2
2
2 22
3
3
3
3
3 3
4
44
4
4 4
44
4
4
4
Vocabulário: Confiabilidade .6
1
1
1
11
1
11
1
1
1
-40
-20
0
20
40
60
80
100
120
Bia
s R
educ
tion
(%)
2
2
2
2 22
22
2
2
2
3
3
3
3
3 3
33
3
3
3
4
44
4
4 4
44
4
4
4
1234
PS-stratificat.PS-ANCOVAPS-weightingANCOVA
1
1
1
11
1
2
2
2
2 22
3
3
3
3
3 3
4
44
4
4 4
4
44
4
4 4
44
4
4
4
all top pre dem aca psy vocabpre
prefmath
likelit
likemath
mathpre
1
1
1
11
1
2
2
2
2 22
3
3
3
3
3 3
4
44
4
4 4
44
4
4
4
1
1
1
1
1 1
2
2
2
22 2
3
3
33
3 3
4
44
4
4 4
4 4
4
4
4
1
1
11
1 1
2
2
2
2
2 2
3
3
3 3
3 3
4
44 4
4 4
4 4
44
4
1
1
1 1
1 1
2
2
22
2 2
3
3
33
3 3
4
44 4
4 4
4 4
44
4
1
1
1 1
1 1
2
2
2 2
2 2
3
3
3
3
3 3
4
44
4
4 4
4 4
44
4
Confiabilidade: Conclusões• O erro de medida atenua o potencial das covariáveis
para reduzir o viés de seleção • A medição de um conjunto grande de covariáveis
interrelacionadas compensa a pouca confiabilidade de cada covariável – mas só faz isso em parte.
• A confiabilidade das covariáveis efetivas é importante.
• O erro de medição em covariáveis inefetivas quase não tem influência na redução do viés.
• A escolha do método analítico é menos importante (não há diferença sistemática entre os métodos)
Conclusões• Os fatores mais importantes para estabelecer a
ignorabilidade são:1. A seleção dos construtos é da maior importância para
estabelecer a ignorabilidade (Bloom et al. 2005, Cook et al. 2008, Glazerman et al. 2003)
2. O próximo fator importante é sua medição confiável 3. O PS deve equilibrar a diferenças observadas no pré-
tratamento para poder eliminar todo viés declarado4. A escolha de um método analítico específico— técnicas de
PS ou ANCOVA— é de menor importância, dada sua implementação competente (como também demonstrado pelas revisões de comparações intra-estudo e meta-análises em epidemiologia)
Implicações para a prátcia• É necessário ter teorias robustas no processo de seleção e modelo
de resultado para descartar o viés oculto e evitar o viés declarado1. Descartar o viés oculto
– Cobrir diferentes domínios de construtos que estão relacionados tanto quanto à seleção do tratamento como ao resultado— os dados administrativos ou demográficos isoladamente em geral não são suficientes (p.ex., Diaz & Handa 2006)
– Medir diversos construtos dentro de cada domínio de construto
– Medir os construtos de modo confiável—particularmente os efetivos
2. Evitar o viés declarado– Equilibrar as diferenças dos grupos pré-tratamento– Escolher um método analítico (apropriado para a estimativa
causal, tamanhos de amostras, forma funcional assumida)
Papel do Pré-teste: Reanálise de Hong e Raudenbush (2005; 2006)
• Hong e Raudenbush usaram as ricas covariáveis do estudo longitudinal da primeira infância (ECLS-K) para prever o efeito da retenção no jardim de infância sobre os resultados acadêmicos dos alunos em Matemática e leitura
• Fornceram um subconjunto de dados usados na análise original, que incluía alunos que frequentaram escolas onde pelo menos alguns dos alunos foram retidos no jardim de infância.– 10.726 alunos de 1.080 escolas– 144 covariávaeis pré-tratamento
Média não ajustada para notas de Matemática dos alunos retidos e promovidos
Fall Year 1 Spring Year 1 Spring Year 20.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
40.00
45.00
50.00
20.43
28.92
44.59
14.85
21.38
32.04
PromotedRetained
Objetivos da Reanálise
• Este estudo testa se:– Fazer duas mensurações no momento do pré-teste
seria superior a fazer só uma– Proxy pré-testes podem substituir as medidas do
pré-teste real– Incluir um conjunto rico e grande de covariáveis
que exclui a necessidade de pré-testes reais e proxy poderia ser tão eficaz para reduzir o viés quanto incluir mensurações de pré-teste.
Abordagem analítica• 144 possíveis covariáveis foram desdobradas em três grupos:
– Medidas pré-teste do resultado– Medidas de Proxy pré-teste (notas dos professores)– Todas as outras covariáveis
• Divididas novamente em análise posterior entre categorias específicas de domínio
• Foram criados propensity scores com cada conjunto de covariáveis e os efeitos estimados sobre a leitura e matemática foram examinados– Redução do Viés comparado a um modelo benchmark – Se as estimativas eram estatisticamente distinguíveis entre
si usando desvios padrão bootstrap
Estimativas do Efeito na MatemáticaMean Standard Error
Não ajustada -11.86 0.17Todas as Covariáveis -5.29 0.85Pre-tests:Um Pré-teste -7.21 0.77Dois Pré-testes -5.76 0.74Primeiros Pré-teste e inclinações da reta -5.89 0.76
Pré-testes Proxy :Um Proxy Pré-teste -9.56 0.77Dois Proxy Pré-testes -5.65 0.73Outras Covariáveis & Combinações:Outras Covariáveis -7.58 0.99
Um Pré-teste e Outras Covariáveis -6.06 1.05
Um Proxy e Outras Covariáveis -5.37 1.01
Estimativa dos efeitos na Matem.Matem.
Todas as covariáveis -5.29(0.88)
Todas as outras covariáveis sem Pré-testes -7.58(0.99)
Dados demográficos das crianças -10.77(0.90)
Habilidades sociais da criança -8.76(0.80)
Composição demográfica da sala de aula -12.56(0.75)
Ambiente de aprendizado na sala de aula -11.88(0.70)
Ambiente doméstico -11.78(0.74)
Estruturas e apoio da escola -12.61(0.76)
Composição demográfica da escola -12.56(0.74)
Dados demográficos do professor -12.71(0.75)
Conclusões• Neste conjunto de dados:
– Dois pré-testes reais foram superiores a um único pré-teste e não foram diferentes do nosso benchmark para a estimativa causal.
– Um único pré-teste é superior a um único pré-teste proxy– Dois pré-testes proxy não são diferentes a dois pré-testes reais
nem ao nosso benchmark para a estimativa causal.– Um conjunto grande e heterogêneo de covariáveis sem um pré-
teste real ou proxy reduz mais o viés do que um conjunto homogêneo de covariáveis, embora o viés remanescente ainda seja maior do que quando se fazem dois pré-testes reais ou proxy ou o modelo de benchmark é usado.
Resumo sobre o Pareamento no delineamento Work horse
• Muita discussão de que o desenho work horse é empiricamente não validado
• É verdade nos quase-experimentos de baixa qualidade • Não é universalmente verdadeiro, por ex. o pareamento
focal local frequentemente reproduz os resultados de experimentos, devido ao suporte comum robusto – ou seja, a superposição de grupo
• Não é verdade se houver um conjunto rico de covariáveis disponível, que avalia bem o processo de atribuição – por ex. Shadish et al., e aqui o pré-teste tem um papel especial.
Conclusão geral
• Identificar “o que funciona” é central na política• A maioria dos métodos vigentes não é boa• Experimentos de atribuição aleatória são
melhores somente da perspectiva da validade interna
• Três tipos de quase-experimentos cuidadosos requerem mais premissas mas com frequência têm reproduzido os resultados de experimentos.
• São delineamentos de escolha quando os experimentos não forem possíveis