přehled statistických metod pro cie

Přehled statistických metodpro CIE

Jan Brůha

IREAS

Problematika z hlediska statistiky

• Proč a kdy jsou potřebné speciální metody?– A kdy nejsou potřeba

• Jaké metody jsou k disposici:– Regresní diskontinuita

– Metoda instrumentálních proměnných

– „propensity score matching“ (a její varianty s DD)

„Selection bias“• Naivní odhad = srovnání podpořených a

nepodpořených jednotek (případně očištění o pozorované vlastnosti)

• Naivní odhad je součtem tří složek– skutečného efektu dopadu intervence na zkoumané

jednotky;

– vychýlení z důvodu, že jednotky které získaly podporu by měly odlišný výsledek než jednotky bez podpory i v případě, že by zásahu vystaveny nebyly;

– vychýlení z důvodu, že jednotky v kontrolní skupině by měly jiný výsledek, i kdyby získaly podporu, než jednotky v základní skupině vystavené zásahu.

Kdy lze ignorovat „selection bias“?

• Přirozený experiment:– přiřazení podpory je náhodné

• Pozorované charakteristiky jsou dostatečné pro zachycení heterogenity mezi jednotkami– Pak lze použít standardní metody regresní analýzy s

dummy proměnnou

• parametrické nebo neparametrické metody

• Otázka výběru proměnných

• Pokud nepozorovaná heterogenita má charakter fixního efektu

– Pak lze použít metod panelových dat (DD / CDD estimátor)

Regresní diskontinuita

• Regresní diskontinuita je použitelná tehdy, pokud lze jednotky srovnat pomocí veličiny k, přičemž existuje hodnota K taková:– Všechny jednotky s k>K podporu obdrží a jednotky

k<K ji neobdrží (ostrá varianta)

– Neostrá (fuzzy) varianta: v K se skokově mění pravděpodobnost obdržení podpory

• Metoda vlastně srovnává jednotky kolem bodu K

– Důvod eliminace selection bias: rozložení firem kolem bodu K je více-méně náhodné

Regresní diskontinuita - 2

• Výhody– Není potřeba předpokladů o funkční závislosti efektu

podpory

– Lze použít v podstatě lokální lineární model (neparametrická metoda)

• Nevýhody– Je obtížné extrapolovat výsledky pro jednotky „daleko“ od

K

– Je nutné kontrolovat pro charakteristiky firem a / nebo doby intervence (nutnost dobrých dat)

– Jednotky pod k<K mohly získat jinou podporu

Regresní diskontinuita - 3

• Citlivostní analýza– Pokud se použijí lokální lineární model, pak jak nastavit

šířku „okna“

– Je nutné ověřit, že skutečně dochází ke skokové změně pravděpodobnosti v K (neostrá varianta)

• Problematika, pokud je více druhů podpor– Pokud je možné podpory ordinálně srovnat, pak na to

existují speciální metody (dose function)

– Pokud jsou různé typy, pak se metoda komplikuje

Metoda instrumentálních proměnných

• Historicky nejstarší metoda vyvinutá k modelování kauzálních vztahů v ekonometrii– Identifikace nabídky a poptávky

• Jde vlastně o nalezení proměnné, která poskytne dodatečnou variabilitu– Proměnná, která je dobrým prediktorem získání

podpory, ale neovlivňuje výsledek podpory

– Osoba evaluátora ?

Metoda instrumentálních proměnných - 2

• Původně lineární model – Dnes existují i neparametrické metody

• Very, very data hungry

• Použitelné, pokud je instrumentální proměnná diskrétní (případ evaluátora)

• Problémy– Najít instrumentální proměnnou

– Statistická vydatnost (pokud je prediktor slabý)

– Nelze testovat, zda je proměnná opravdu instrumentální

• Leda v „metamodelu“

Propensity score matching

• Srovnávají se jednotky s obdobnými charakteristikami– Tyto charakteristiky se transformují do jednoho

čísla (0 až 1)

– Odhaduje se model diskrétní volby (např. logistická regrese, nebo probit), zda daná jednotka podporu obdrží nebo ne

• Lze rozšířit také pro více kategoriálních podpor (vícerozměrný probit)

• Existuje i rozšíření na spojitě-měnící se podporu

Propensity score matching - 2

• Různé způsoby srovnání jednotek– Podle nejbližšího souseda (nearest

available)

– Kernel matching

– Je vhodné odstranit extrémní pozorování

• PSM úplným způsobem neodstraňuje „selection bias“– Jedná se jen o „robustnější způsob“ regresní

analýzy

Propensity score matching – with CDD

• Kombinace PSM a CDD– Abychom odhadli PSM, musíme

pozorovat charakteristiky firem, • Je typicky možné použít CDD místo DD

• CDD může pomoci odstranit vychýlení, kdežto PSM může učinit odhad robustnější– Je také možné relativně jednoduše

pracovat s různými typy podpor

přehled statistických metod pro cie

Documents