como leer y supervisar una evaluación de impacto: métodos de diferencia simple y doublé con...

Como leer y supervisar unaevaluación de Impacto: Métodos de diferencia simple y doublé con apareamiento basado en puntaje de propensión

La estructura del curso1. ¿Por qué preocuparnos por la evaluación del impacto?2. ¿Sobre qué trata una evaluación de impacto?3. ¿Cuál fue el impacto reportado?, ¿Fue este estadísticamente

significativo?4. ¿Cuál fue el método usado por el evaluador para construir los grupos de

tratamiento y comparación?5. ¿Cómo definir si el grupo de comparación usado fue bueno o no?6. ¿Qué tan sensibles son las estimaciones del impacto a los diferentes

métodos usados en el proceso de emparejamiento por Puntaje de Propensión?

7. ¿Tienen sentido los resultados encontrados en la evaluación?

1. ¿Por qué preocuparnos por la evaluación del impacto?

¿Cuáles son las preguntas de una evaluación de impacto?

• ¿Cuál fue el efecto causal de un programa dado (tratamiento) en el resultado(s) de interés?

• ¿Hay un efecto causal de dosificación en programa con diferentes niveles de tratamiento (e.j: mas o menos transferencias de dinero, diferentes periodos del entrenamiento)?

• ¿Hay un efecto causal de multi-tratamiento para programas con diferentes intervenciones?

El método típico antes – después

Tratamiento

Efecto de desarrollo = B -A

Linea finalLinea base

Variable de interés

A

B

A

B

Pero lo que parece, no es

Lo que parece, no es: ej. prevención de crimen

Efecto de desarrollo Impacto

Pero lo que parece, no es: provisión publica y privado de hipotecas y la tasa de mora en pago

Se necesita un contrafactual o grupo de comparación

¿ Impacto?

• ATE: impacto promedio, se interpreta como el cambio promedio en la variable de resultado cuando un individuo escogido al azar pasa aleatoriamente de ser participante a ser no participante. ATE es relevante para evaluar un programa universal.

• ATT: impacto promedio del programa sobre los tratados. Este corresponde a la diferencia entre la media de la variable de resultado en el grupo de los participantes y la media que hubieran obtenido los participantes si el programa no hubiera existido. ATT es relevante para evaluar un programa focalizado.

2. ¿Sobre qué trata una evaluación de impacto usando métodos de diferencia simple y doble con emparejamiento basado en puntaje de propensión?

Diferencia simple (DS) y doble (DD)

Diferencia simple (DS) y doble (DD)

Línea base

Línea final Diferencia

Tratado A B B - A

No tratado C D D - C

Impacto DS = (B – D) DD = (B- A) – (D –C)

Pero no todas las observaciones son usadas

Emparejamiento basado en puntaje de propensión: creación de grupos tratados y de comparación

Emparejamiento sobre el Puntaje de Propensión

NT

NT NT NT NT NT NT NT

NT NT NT NT

NT NT

T T T

T T T

T T T

T T

Fuente: Modified from Bryson (2001)

Valor de

la variable

de

resultado

Puntaje de propensión

Diferencias entre

beneficiarios y

no beneficiarios

Emparejados

Diferencias

observadas entre

beneficiarios y

no beneficiarios

Soporte Común

El método se puede usar solamente si hay soporte común

Soporte Común

Densidad

Puntaje de

Propensión

Soporte Común

Grupo Tratado Grupo de Comparación

Baja probabilidad

de participación

Alta probabilidad

de participación

0 1

PP min PP max

La interpretación de casualidad depende del supuesto de exogeneidad

Exogeneidad

• “Exogeneidad” = “supuesto de independencia condicional” = “no confundido”:

• El impacto, estimado como la diferencia en el promedio de las variables de resultado del grupo de tratamiento y del grupo de comparación esta compuesto por el efecto veredero del programa y el sesgo de selección. Estos dos componentes se pude separar si se asume que el sesgo de selección se debe únicamente a diferencias en características observables. Entonces el sesgo de selección es igual a cero.

3. ¿Cuál fue el impacto reportado?, ¿Fue éste estadísticamente significativo?

Cálculos del Impacto: presentado como cuadro

Variable Muestra Tratados Controles Diferencia Error Estandar Estadístico tPisos de buen material Sin Emparejamiento 1.000 0.904 0.096 0.032 2.980

ATT 1.000 0.928 0.072 0.029 2.530Tasa de participación laboral infantil Sin Emparejamiento 0.052 0.102 -0.050 0.050 -1.000

ATT 0.052 0.193 -0.141 0.075 -1.860Número de personas por dormitorio Sin Emparejamiento 2.295 2.119 0.176 0.127 1.390

ATT 2.295 2.268 0.027 0.180 0.150

Efectos Heterogéneos Efectos Heterogéneos: Estimaciones de Impacto por Género y Quintil : altura-edad

Grupo Toda la Distribución Primer Cuartil Segundo Cuartil

No emparejado Todos Niños Niñas Todos Niños Niñas Todos Niños Niñas

Tratado -1.77 -1.78 -1.74 -3.3 -3.6 -3.68 -2.25 -2.28 -2.22

Comparación -1.66 -1.69 -1.62 -3.37 -3.80 -3.73 -2.26 -2.27 -2.24

Diferencia -0.11 -0.09 -0.13 0.05 0.04 0.05 0.01 -0.01 0.03

(0.02)*** (0.03)*** (0.03)*** (0.02)*** (0.03)* (0.03)* (0.01) (001) (0.03)***

Emparejado Todos Niños Niñas Todos Niños Niñas Todos Niños Niñas

Tratado -1.76 -1.78 -1.74 -3.73 -3.76 -3.68 -2.25 -2.28 -2.22

Comparación -1.86 -1.89 -1.82 -3.78 -3.8 -3.74 -2.27 2.26 -2.26

Diferencias 0.10 0.11 0.08 0.05 0.04 0.07 0.02 -0.02 0.05

(0.02)*** (0.04) (0.04)* (0.02)*** (0.03) (0.03)*** (0.001)** (-0.01 (0.01)***

* P<0.05,** p<0.01, *** p<0.01; Errores resultado del proceso Bootstrap en paréntesis de la Tabla 5 en Kandpal (2009)

Cálculos del Impacto: presentado como gráficas

Tres enfoques de significancia estadística

Pasos Enfoque de Test Estadístico

Enfoque Valor-P Enfoque Intervalo de Confianza

1 Definir Ho and Ha Definir Ho and Ha Definir Ho and Ha

2 Determinar, primero el tamaño del test, es decir, el nivel de significancia; y segundo, encontrar el valor crítico

Determinar el tamaño del test, es decir, el nivel de significancia.

Determinar el tamaño del test, es decir, el nivel de significancia y el valor hipotético.

3 Calcule el test estadístico. Calcule el test estadístico y el valor-p

Construya el intervalo de confianza.

4 Rechace Ho si el valor estimado del test es mayor que el valor crítico

Rechace la Ho si el valor-p es menor que el valor de significancia elegido.

Rechace Ho si el valor hipotético no existe en el interior del intervalo de confianza.

Reglas practicas Ho: promedio de tratado es igual el promedio de grupo de comparación

• “t”: si el valor de “t”> 2 o “t”<-2 se rechaza el hipótesis nula. Hay un impacto.

• Valor de P: si el valor de P < 0.05 se rechaza el hipótesis nula. Hay un impacto. \1

• Intervalo de confianza: si el intervalo de confianza no cruza cero se rechaza el hipótesis nula. Hay un impacto.

\1 por convención * = 0.1; ** = 0.05,*** = 0.01

4. ¿Cuál fue el método usado por el evaluador para construir los grupos de tratamiento y comparación?1. La ecuación de participación2. Algoritmo de emparejamiento

Ecuación de participación

• Objetivo: Estimar el puntaje de propensión para cada sujeto (empresa, hogar, persona, etc)

• Escoger la forma funcional: • 1. Tratamiento binario (estar o no tratado): Logit y/o probit• 2. Tratamientos múltiples (estar tratado por varios tratamientos): Logit

Multinomial o Probit Multinomial• 3. Duración (estar tratado por un periodo de tiempo): modelos de duración• Escoger las variables relevantes: solamente incluir las variables que influyen

simultáneamente la decisión de perticipación y la variable de resultado.• Opciones:• 1. Prueba y error,• 2. Significancia estadística,• 3. Dejar una afuera con validación cruzada

Escoger las variables relevantes:

1.Si d y x2.No x d y3.No d y w4.No d e1 y e2

5.Si-No d w y6. Si-No d y

w

D tratamiento; y variable de interés ; x pre-tratamiento; w post- tratamiento; e cadena de influencia

La ecuación de participación: puntaje de propensión

Balanceo con diferentes algoritmosVecino más Cercano (NN en Inglés)

Fuente: Chen and Zeiser (2008)

Tratados Comparación

0.9

0.8

0.7

Puntaje de Propensión

Pareo por Caliper y Radius.

Grupo de

Tratados

Grupo de

Comparació

n 0.9

0.8

0.7

Puntaje de

Propensión

Otros algoritmos: kernel, radio, estratificado, Mahalanobis, etc.

DilemasEl objetivo de la ecuación de participación es incluir todas las variables relevantes que determinan la participación en el programa, de esta forma, reducir el sesgo. De manera simultánea, el evaluador requiere reducir la varianza. Estos dos objetivos conflictúan dado que reduciendo el sesgo, se incrementa la varianza

El método es más confiables con un mayor número de variables de control en la ecuación, pero esto implica reducir el grado de traslape del soporte común

Dilema (Trade Off) en Términos del Sesgo y la Varianza

Sesgo Varianza

Emparejamiento por Vecino mas Cercano (NN): múltiples vecinos/vecino único

Con Caliper/sin Caliper

(+)/(-)

(-)/(+)

(-)/(+)

(+)/(-)

Emparejamiento NN/Emparejamiento por Radio

(-)/(+) (+)/(-)

KM o método de NN (+)/(-) (-)/(+)

Fuente: Modificado de la tabla 1 en Caliendo M., y S. Kopeinig (2008)

5. ¿Cómo determinar si el grupo de comparación usado fue adecuado?

Enfoques para evaluar el grupo de comparación:

Tabla de balanceo Grafico del sesgo estandarizado de las medias de covariables

individuales Estratificación Prueba de Hotelling Prueba de Kolmogorov-Smirnov de igualdad de distribución Grafico de fracción acumulativa Distribución del puntaje de propensión ante y después del

emparejamiento. Gráficas Q-Q antes y después de emparejamiento

Tabla de balanceo

Variable Muestra Tratados No Tratados %Sesgo |Sesgo| t p>tUrbano Sin emparejar 0.45 0.52 -13.80 -1.19 0.056

emparejado 0.46 0.47 -2.1 85 -0.2 0.839Log Edad Sin emparejar 3.86 3.82 11.70 1.47 0.140

emparejado 3.86 3.85 4.2 64.1 0.43 0.667Log Tamaño del hogar Sin emparejar 1.26 1.18 13.10 1.76 0.079

emparejado 1.24 1.30 -10.20 21.60 -1.08 0.280

Media %Reducción

El sesgo estandarizado de las medias, MSE, de covariables individuales

Regla practica: si la MSE>10%, el emparejamiento está desbalanceado; si la MSE<10% el emparejamiento esta balanceado

Prueba de HotellingHo: el vector de medias es igual entre los dos grupos

Test de HotellingIgualdad de medias entre gruposT-Cuadrado de Hotelling para 2 grupos = 12.400632Test Estadístico F: ((386-27-1)/(386-2)(27)) x 12.400632 = .4281854H0: Los vectores de medias son iguales entre los dos grupos F(26,139) = 0.4282 Prob > F(26,139) = 0.9951

Regla práctica: si P > 0.05 se acepta la hipótesis nula, el emparejamiento ha sido exitoso

Distribución del puntaje de propensión antes y después del emparejamiento

Sin emparejar Emparejados

Regla práctica: si las distribuciones del puntaje de propensión son parecidas (panel derecho), el emparejamiento ha sido exitoso

Fracción Acumulativa

Regla práctica: si las distribuciones del puntaje de propensión son parecidas (panel derecho), el emparejamiento ha sido exitoso

Prueba de Kolmogorov-Smirnov de igualdad de distribución


Regla práctica: si P > 0.05 en el K-S combinado se acepta la hipótesis nula, el emparejamiento ha sido exitoso

Gráficas Q-Q antes y después de emparejamiento


Regla práctica: Si los valores del puntaje de propensión para los dos grupos están cercanos a la línea de 45 grados, el emparejamiento ha sido exitoso

6. ¿Qué tan sensibles son las estimaciones del impacto ante los diferentes métodos usados en el proceso de emparejamiento por puntaje de propensión?

Enfoques para evaluar la sensibilidad de los impactos

• Sensibilidad de resultados del balanceo bajo diferentes algoritmos

• Sensibilidad de los cálculos de impacto ante cambios en el algoritmo de emparejamiento

• Sensibilidad del soporte común después de recorte: límites de Lechner

• Sensibilidad a sesgo escondido• Sensibilidad a la atrición

Algoritmo de Emparejamiento

% sesgo | sesgo| % sesgo | sesgo| % sesgo | sesgo| % sesgo | sesgo| % sesgo | sesgo|urbano -2.1 85.0 1.0 92.5 3.0 77.9 3.9 72.0 -2.9 79.3log edad 4.2 64.1 3.2 72.4 -1.5 86.8 1.1 90.2 5.5 53.2log miembros del hogar -10.2 21.6 -9.6 26.5 13.9 -7.9 -1.9 85.2 4.7 64.3minoría étnica 0.0 100.0 2.0 94.3 1.9 94.4 -4.7 86.3 17.9 48.3Test de Hotelling F(27,385) Prob>F(27,385) F(27,536) Prob>F(27,536) F(27,6308) Prob>F(27,6308) F(27,362) Prob>F(27,362) F(27,6312) Prob>F(27,6312)

0.428 0.995 0.607 0.943 2.426 0.000 0.060 0.843 0.366 0.000Test de K-S D Corregido D Corregido D Corregido D Corregido D Corregido

0.010 1.000 0.017 1.000 0.365 0.000 0.060 0.843 0.366 0.000

%Reducción %Reducción %Reducción %Reducción %ReducciónM1. NN1 sin remplazamiento (1 a 1) M2. NN2 (2 a 1) M3. Mahlanobis M4. Radio M5. Kernel

Sensibilidad de resultados del balanceo bajo diferentes algoritmos

Sensibilidad de los cálculos de impacto ante cambios en el algoritmo de

emparejamiento

Algorítmo de Emparejamiento Impacto (ATT) EEM1. NN1 sin remplazamiento (1 a 1) 0.140 0.026 0.089 0.191M2. NN2 (2 a 1) 0.153 0.020 0.113 0.192M3. Mahalanobis 0.162 0.028 0.107 0.216M4. Radio 0.172 0.009 0.154 0.190M5. Kernel 0.940 0.008 0.179 0.210M6. estratificado 0.169 0.008 0.154 0.184

[Intervalo de Confianza al 95%]

Regla práctica: Si los resultados de ATT no cambian de signo y si son estadísticamente significativos, los resultados no son sensibles a cambios en el algoritmo usado

Soporte común: desechando observaciones extremas Opciones:

• 1. El investigador desecha todas aquellas observaciones para las cuales el puntaje de propensión es menor al mínimo del puntaje de los tratados y mayor al máximo del puntaje de los no tratados

• 2. El investigador desecha todas las observaciones (en los grupos de tratados y no tratados) tal que el soporte común sólo incluye los puntajes de propensión que tienen una densidad positiva

• 3. El investigador desecha las observaciones con puntaje de propensión menor a α, donde α es definida como una distancia desde los puntos extremos de la distribución [0, 1]

Densidad

Tratados No tratados

1 Puntaje de

Propensión

q

q Soporte Común A

Soporte Común C

Soporte Común B

α α

Sensibilidad del soporte común después de recorte: límites de Lechner

Interpretación de la tabla. Para cada programa , la columna I tiene la información sobre el signo y la significancia estadística del efecto estimado (donde ++/-- indica que los resultados son significativos al 0.01, mientras que si es +/- la significancia es la 0.05). Columna II tiene la misma información pero toma en cuenta los límites de Lechner. Si los resultados en las dos columnas difiere para un programa dado entonces el efecto del tratamiento estimado es sensible al problema del soporte común. En el cuadro se resalta con un color gris suave los resultados que tienen un gran efecto cuando se usa el enfoque de los límites de Lechner.

Regla práctica: si la tendencia de la variable de interés difiere entre los dos grupos, hay un sesgo escondido

Sensibilidad a sesgo escondido: tendencias comunes

Sensibilidad a sesgo escondido: limites de Rosembaum

Regla práctica: Mientras el límite inferior y el límite superior tengan el mismo signo, el Gama (influencia de una variable no observada) no tiene efecto en las estimaciones. Si hay una diferencia de signo, en el presente caso Gama=1.55, la variable no observada tiene influencia (la variable no observada necesita aumentar la verosimilitud de selección en el grupo tratado por 51%) y hay un sesgo escondido con Gama=1.55 .

1. G * 2. Mínimopunto Estimado1/

3.Límite inferior del intervalo de

confianza2/

4.Límite superior del intervalo de

confianza 3/

1 0.23305 0.19083 0.27492

1.05 0.25541 0.16824 0.29678

1.1 0.27586 0.14712 0.318

1.45 0.40127 0.02039 0.44467

1.5 0.41698 0.00428 0.4601

1.55 0.43191 -0.0106 0.47529

1.6 0.4464 -0.02539 0.49041

2.1 0.56972 -0.15159 0.61569

2.8 0.69849 -0.28387 0.74582

Parámetros de los Límites de Rosembaum para 4 auditorios grandes vs. Auditors pequeños (model 1)

Estimativos de los límites de Hodges-Lehmann

Notas: * Posibilidades de asignación dados factoresinobservables. 1/Punto estimado del límite inferior(Asumiendo que hay una subestimación del efecto deltratamiento). 2/ Intervalo de confianza del 95% del puntoestimado del límite superior. 3/Intervalo de confianza del95% del Punto estimado del límite inferior

Placebo

• Placebo I, o sea usando un grupo de control : si el impacto no es cero el impacto calculado es dudoso

• Placebo II, o sea usando una variable de interés que no puede ser influida por el tratamiento

Exogeneidad: Prueba de Casualidad de Granger (por cada variable de interés)

Para una interpretación causal de resultados, en una regresión de los valores pasados y futuros de la variable de interés, se espera que los valores del pasado sean estadísticamente iguales a cero. Si en los valores del futuro hay significancia estadística, entonces hubo un impacto.

Sesgo debido a la atrición

• Comparación univariada de medias de grupos salientes y que permanecen

• Regresión logística: factores que contribuyen al atrición.• Regresión de Cox: información de probabilidad de atrición en

el tiempo y los factores que contribuyen al atrición.

Sesgo debido a la atrición: Comparación univariada

Edad (años) Duración de la estadía en hospital (días)Salientes 78.62 6.09

(3.84) (4.12)Permanecen 77.72 6.01

(5.56) (3.45)Estadístico t 1.13 0.15Valor-p >0.5 >0.5

Sesgo debido a la atrición:Regresión Cox

VariableProporción de Posibilidades

Edad 1.04 1 3.57Estadía en ICU 5.51 0.75 2.83Desnutridos 0.57 0.34 4.67Género 1.3 0.77 0.93Duración de la estadía 1.01 0.34 0.12Grupo Comparación 1.13 0.68 0.22

Intervalo de Confianza

Sesgo debido a la atrición:Regresión logística

VariableProporción de Posibilidades

Edad 0.96 0.91 1.01Estadía en ICU 0.08 0.02 1.23Desnutridos 1.84 0.98 3.48Género 0.68 0.34 1.33Duración de la estadía 0.98 0.9 1.06Grupo Comparación 0.84 0.45 1.57

Intervalo de Confianza

Bondad de ajuste de Hosmer y Lemeshow = 4.91. Valor P = 0.77. Todas las proporciones de posibilidades tiene valor P:0.5

7. ¿Tienen sentido los resultados encontrados en la evaluación?

Validación externa: el mismo resultado para varios estudios sobre programas similares

Meta-evaluaciónLos resultados de una Meta-evaluación comunmente se presentan en un “Gráfico de Bosque” donde el eje horizontal mide el efecto del tratamiento, mientras que la línea vertical representa el estudio donde los grupos de tratamiento y comparación tienen la misma media, es decir donde no hay diferencia entre ambos. Para cada estudio individual, la estimación es representada por un cuadrado y a su vez, la línea horizontal representa el intervalo de confianza al 5%. El análisis agrupado es representado por un diamante, cuyo centro es localizado en el punto estimado y el ancho del mismo representa el intervalo de confianza

“Caja Negra”: Cadena de causalidad

como leer y supervisar una evaluación de impacto: métodos de diferencia simple y doublé con...

Documents