introduzione all’econometria · introduzione all’econometria outline 1 capitolo 1 -...
TRANSCRIPT
Introduzione all’Econometria
Introduzione all’Econometria
S. Leorato
Universita di Roma Tor Vergata
Anno 2017-18
Introduzione all’Econometria
Outline
1 Capitolo 1 - Introduzione al corso e Tipi di Dati2 Capitolo 2 e 3 - Richiami di Probabilita e Statistica3 Capitoli 4 e 54 Capitoli 6 e 75 Capitolo 86 Capitolo 97 Capitolo 108 Capitolo 119 Capitolo 12
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Capitolo 1
Introduzione al corso e Tipi di Dati
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Durata e organizzazione
Durata: 6 settimane: dal 19/02 al 28/03.
Organizzazione: 3 lezioni a settimana. Esercitazioni svoltedurante le lezioni.
Lezioni: Lun ore 17-19, aula P11 Mar ore 13-15 aulaP11,Mer ore 9-11 aula P9.
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Ricevimento e recapiti
Ricevimento (durante le settimane di corso):Martedı ore17-18:30
[email protected], Dipartimento diEconomia e Finanza (DEF), Stanza 1B2 4 (ed. B, I piano)
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Programma del corso
Argomenti principali: Richiami di statistica, regressionesemplice e multipla, regressione nonlineare, variabilistrumentali, dati panel
Prerequisiti: Matematica e Statistica
Libro di testo: Stock J.H., Watson M.W. - Introduzioneall’econometria, 3a Edizione
Questi lucidi ed altri materiali aggiuntivi sul sito web delcorso. Per il download e richiesta l’iscrizione alla newsletterdel corso.
Software: Gretl - Gnu Regression, Econometrics andTime-series Library,
http://gretl.sourceforge.net/it.html
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Valutazione e prova d’esame
La prova d’esame e costituita da un progetto (obbligatorio) euna prova scritta.
Progetto: 33,3% (10 punti)
Prova scritta e colloquio: 66,7% (20 punti)
Date appelli pubblicate online: 19 giugno, 3 luglio, 11settembre.
Durante il corso saranno assegnati dei problem set. Laconsegna dei problem set svolti dara diritto a un bonus di 3punti valido soltanto per la sessione estiva.
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Progetto
Il progetto consiste in un lavoro empirico che puo essere su un argomento apiacere o la replica dei risultati di un lavoro pubblicato (purche sia possibilereperire i dati).
Gli studenti formeranno gruppi (max 3 persone) e decideranno l’argomentodel progetto.
Entro venerdı 30 marzo, invio del titolo del progetto per ciascun gruppo.
Consegna del progetto entro il 02/06/2018.
La consegna deve avvenire via email ed esclusivamente in formato pdf.
Il voto conseguito nel progetto vale fino alla fine dell’a.a. (ultimo appelloutile gennaio-febbraio 2019).
Maggiori dettagli ed indicazioni sul progetto seguiranno durante il corso.
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Prova scritta
Esame tradizionale, su tutto il programma, domandeteoriche ed esercizi.
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Obiettivi del corso
Apprendere metodi econometrici piu adatti per risponderea domande economiche di varia natura:
Effetti causali: La dimensione delle classi incide sul livellodi istruzione? (enfasi soprattutto su questo problema)Previsioni: Quale sara il tasso di inflazione del prossimoanno?
Conoscere ed affrontare le difficolta derivanti dall’uso didati non “ideali” per stimare effetti causali: effettiperturbativi (fattori omessi); “la correlazione non implicacausalita”; causalita simultanea.
Valutare l’analisi di regressione, anche quella effettuata daaltri (leggere e comprendere articoli economici di carattereempirico)
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Rispondere a domande economiche. Gli effetti causali
Es.: La dimensione delle classi incide sul livello di istruzione?
Idealmente, vorremmo un esperimento controllatocasualizzato
Esperimento, perche (teoricamente) riproducibile;Controllato, perche i soggetti sono divisi in un gruppo ditrattamento e un gruppo di controllo;Casualizzato, perche il processo di assegnazione di unindividuo al gruppo deve essere casuale.
Cio richiederebbe:
numerose classi che differiscono solo per numero di studenti(stesso insegnante, stesso programma, stesso orario...)I diversi rendimenti a fine anno sono l’effetto causale delladimensioni delle classi.
Nella realta: esperimenti costosi, non etici, impossibili. Siusano dati osservazionali (non sperimentali).
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Rispondere a domande economiche. La previsione
Es.: Quale sara il tasso di inflazione il prossimo anno?
Idealmente, conoscere il modello di determinazionedell’inflazione
La teoria economica aiuta (es. curva di Phillips), ma non esufficiente;L’analisi di regressione multipla quantifica il modelloeconomico, verifica se e stabile nel tempo, produceprevisione e ne valuta l’accuratezza
Introduzione all’Econometria
Capitolo 1 - Introduzione al corso e Tipi di Dati
Tipi di dati. Sezionali, Temporali, Panel
Sezionali (cross-section): n > 1 unita, T = 1 (osservate inun solo periodo).Sfruttando le differenze tra le unita (persone, imprese,regioni, scuole, ecc...) consentono lo studio delle relazionitra variabili e (talvolta) degli effetti causali
Temporali (time series): n = 1 unita, T > 1 periodi.Seguendo nel tempo una unita (persona, impresa, regione,scuola, ecc...), consentono lo studio dell’evoluzione di unfenomeno nel tempo, anche al fine di prevedernel’andamento futuro;
Panel (o dati longitudinali): n > 1 unita, T > 1 periodi.Seguendo nel tempo lo stesso gruppo di entita, consentonolo studio delle relazioni tra variabili e la loro eventualeevoluzione temporale.
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Capitolo 2 e 3
Richiami di Probabilita e Statistica
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
Richiami di Probabilita
1 Variabile casuale
2 Spazio campionario ed eventi
3 Probabilita4 Variabili casuali
Distribuzione di probabilita, Funzione di densita e Funzionedi ripartizioneVariabili discrete: Bernoulli, BinomialeVariabili continue: Normale, Chi-quadrato, F, t-Student
5 Momenti della distribuzione
6 Variabili doppie
7 Covarianza, Correlazione, Indipendenza
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
1. Variabile casuale
Rappresentazione numerica di un risultato casuale
es. numero di figli in una famiglia
es. reddito della famiglia
es. “fumatore o non fumatore”
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
2. Spazio campionario ed eventi
Spazio campionario: insieme di tutti i possibili risultati
Es. numero di figli: 0, 1, 2, 3, 4, . . .
Es. Reddito: sempre compreso nell’intervallo [0,∞)
Es. variabile “Fumatore”: 0 (= non fumatore), 1(=fumatore)
Eventi: sottoinsiemi dello spazio campionario
Es. “la famiglia ha 2 figli”, “la famiglia ha meno di 3 figli”,“la famiglia ha piu di 2 figli” . . .
Es. “Il reddito della famiglia e sotto la soglia di poverta”,“Il reddito medio e superiore ai 40000 E” . . .
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
3. Probabilita
Probabilita: Proporzione di volte in cui si verifica un evento(def. freq.).
Es. La probabilita che una famiglia abbia almeno 2 figli e0.3 (sempre compresa tra 0 e 1)
La probabilita che una famiglia abbia 0 o piu figli e 1(evento certo)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
4. Variabili Casuali
Variabile casuale discreta: lo spazio campionario e discreto(finito o al piu numerabile)
Es. Numero di figli: Y = 0, 1, 2, ...Es. Fumatore: Y = 0, 1
Variabile casuale continua: lo spazio campionario e infinito(R, [0,∞)...).Es. (con una certa approssimazione): Il reddito.
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
4. Variabili Casuali
V.c. Discreta V.c. Continua
ad es. Y ∈ {1, 2, ...,K} ad es. Y ∈ (−∞,∞)
FdR:F (k) = P (Y ≤ k)
= P (Y = 1) + P (Y = 2) + . . . + P (Y = k) F (y) = P (Y ≤ y)
FdM f(k) = P (Y = k) –
FdD – f(y) ≈ P (Y = y)dypiu prec., f(y) = F ′(y)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
4. Variabili Casuali
Variabili casuali discrete:
Bernoulli, Y ∼ Bernoulli(p). F (1) = p F (0) = 1− p;Binomiale, Y ∼ bin(n, p). f(k) =
(nk
)pk(1− p)n−k
Poisson, Y ∼ Poisson(λ)...
Variabili casuali continue:
Gaussiana, o normale, Y ∼ N(µ, σ).f(y) = 1
σ√
2πe−(y−µ)2/2σ2
;
Chi-quadrato, Y ∼ χ2k. Se Y ∼ N(0, 1), Y 2 ∼ χ2
1
t di Student, Y ∼ Tk. SeY ∼ N(0, 1), X ∼ χ2k, allora
Z = Y/√X ∼ Tk
F di Fisher, Y ∼ Fm,k...
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
5. Momenti
I momenti costituiscono un modo per sintetizzare alcunecaratteristiche rilevanti della intera distribuzione diprobabilita attraverso un unico numero
Momenti di una distribuzione piu importanti: media,varianza, deviazione standard, skewness (asimmetria),curtosi...
Momento primo, o Media: µY = EY =∑K
j=1 jf(j),
(oppure µY = EY =∫yf(y)dy). e un parametro di
locazione: localizza il baricentro della distribuzione
Momento secondo: EY 2.
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
5. Momenti
Momento secondo centrato, o Varianza:E(Y − EY )2 = Var(Y ) = σ2
Y . E un parametro che indica ladispersione della variabile Y : e minima (Var(Y ) = 0) seY = EY con certezza ⇒ Non c’e dispersione.
Deviazione standard= radice quadrata della varianza, σY .
Momento terzo centrato, o asimmetria. E(Y − EY )3.
Se = 0 la distribuzione e simmetrica;Se > (<)0: la distribuzione ha la coda destra (sinistra) piulunga;
Momento quarto centrato, o curtosi. Misura la massa (diprob.) nelle code, ossia la prob. di valori estremi.
Se = 3: come la distribuzione normaleSe > 3: code “pesanti” (leptocurtica)Se < 3: code “leggere” (platicurtica)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
5. Momenti
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
6. Variabili casuali doppie
Distribuzione congiunta: P (X = x, Y = y)
Distribuzione marginale, e la distribuzione di una variabilecasuale, ottenibile eliminando la seconda variabile:P (Y ) =
∑x P (X = x, Y = y);
Distribuzione condizionata:P (Y = y | X = x) = P (X=x,Y=y)
P (X=x)
Media condizionata:E(Y | X = x) =
∑y yP (Y = y | X = x). E un termine
nuovo per indicare un concetto familiare, ovvero la mediadi gruppo:
Es. Salario delle lavoratrici vs lavoratori: Y = reddito,X = 1 se lavoratore e donna:∆ = E(Y | X = 1)− E(Y | X = 0)Es: Esiti esami per pazienti che ricevono una curasperimentale (Y = positivi/negativi; X = trattato/nontrattato)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
6. Variabili casuali doppie
Legge delle medie (o aspettative) iterate:
EY = EXE(Y | X) =∑x
E(Y | X = x)f(x)
=∑x
∑y
yP (Y = y | X = x)f(x)
Se E(Y | X) = 0 ⇒ EY = 0.
Varianza condizionata:
Var(Y | X = x) = E(
(Y − E(Y | X = x))2 | X = x)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
7. Covarianza, correlazione, indipendenza
Covarianza
Cov(X,Y ) = σXY = E[(X − µX)(Y − µY )]
=∑x
∑y
(x− µX)(y − µY )P (X = x, Y = y)
misura l’intensita con cui X ed Y co-muovono linearmente
Se > 0 (< 0) ⇒ relazione positiva (negativa)
Unita di misura : unita di X × unita di Y
La covarianza di una variabile casuale con se stessa e la suavarianza: Cov(X,X) = σ2
X
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
7. Covarianza, correlazione, indipendenza
Correlazione
Corr(X,Y ) = ρXY =σXYσXσY
misura alternativa alla covarianza
Senza unita di misura : 0 ≤ ρ2XY ≤ 1
Se ρXY = 0 allora X,Y sono incorrelate
Se > 0 (< 0) ⇒ relazione positiva (negativa)
Se = 1 (= −1) associazione lineare positiva (negativa)perfetta
Se E(Y | X) = 0 allora Cov(X,Y ) = 0 e ρXY = 0, ma ilviceversa non vale.
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
7. Covarianza, correlazione, indipendenza
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
7. Covarianza, correlazione, indipendenza
Es. Punteggio e rapporto studenti/insegnanti
Figura 4.2. Diagramma a nuvola del punteggio nei test e del rapporto
studenti/insegnanti (dati relativi ai distretti scolastici della California)
Dati per i 420 distretti scolastici della California. Ce una debole relazione negativa
tra il rapporto S/I e il punteggio nei test. La correlazione campionaria e pari a
−0.23
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Probabilita
7. Covarianza, correlazione, indipendenza
Indipendenza: Conoscere il valore di X non da ulterioriinformazioni su Y .
P (Y = y,X = x) = P (Y = y)P (X = x)
ovveroP (Y | X) = P (Y )
Se X e Y sono indipendenti allora Cov(X,Y ) = 0 eρXY = 0, ma non il viceversa!!!.
Se X e Y sono indipendenti allora E(Y | X) = E(Y ), manon il viceversa!!!
Se X e Y sono indipendenti e hanno la stessa distribuzionedi probabilita, iid (indipendenti e identicamente distribuiti)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
Richiami di Statistica
8 Campionamento e distribuzioni campionarie
9 Stima puntuale
10 Intervalli di confidenza
11 Verifica di Ipotesi
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
8. Campionamento e distribuzioni campionarie
Campionamento casuale semplice:
Scegliere a caso n individui (distretti, entita) dallapopolazione (ipotetica popolazione infinita)
Ogni individuo ha la stessa probabilita di essere estratto;
Osservare il valore della variabile di interesse Y
⇒ Dataset finale (Y1, Y2, . . . , Yn) = {Yi, i = 1, . . . , n}⇓
Yi provengono dalla stessa popolazione, per cui sonoidenticamente distribuiti
Il valore di Yi non contiene informazioni su Yj (j 6= i), percui sono indipendenti
⇓{Yi, i = 1, . . . , n} sono iid
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
8. Campionamento e distribuzioni campionarie
Media campionaria: un esempio. Sia Y ∼ Bernoulli(0.78).I momenti della distribuzione di ciascun Yi:
EY = p+ (1− p)× 0 = p = 0.78
Var(Y ) = E(Y − E(Y ))2 = p(1− p) = 0.78× 0.22 = 0.17
La distribuzione campionaria della media campionaria Ydipende da n. Ad esempio, se n = 2
P (Y = 0) = P (Y1 = 0, Y2 = 0) = 0.222 = 0.05
P (Y = 1/2) = P (Y1 = 1, Y2 = 0) + P (Y1 = 0, Y2 = 1) =2× 0.22× 0.78 = 0.34
P (Y = 1) = P (Y1 = 1, Y2 = 1) = 0.782 = 0.61
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
9. Stima puntuale
Stimatore: Funzione di un campione generico. Ad esempioY = n−1
∑Yi, o Med(Y1, . . . , Yn)...
Stima: Valore numerico dello stimatore in corrispondenza diuno specifico campione. Y =
∑200i=1 Yi/200 = 22.64 e la
retribuzione media oraria...
In corrispondenza di campioni diversi, lo stimatoreassume valore numerico differente. Poiche i campionisono il frutto di un’estrazione casuale, lo stimatore euna variabile casuale
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
9. Stima puntuale
Proprieta degli stimatori:
Correttezza (non distorsione): Lo stimatore T di θ e nondistorto se E(T ) = θ
Efficienza: Lo stimatore T1 e piu efficiente di T2 seMSE(T1) < MSE(T2), ossia se
E(T1 − θ)2 < E(T2 − θ)2
Se T1 e T2 sono non distorti, equivale a un confronto tra levarianze.
Consistenza: T → θ, ovvero, aumentando la dimensione delcampione, lo stimatore diventa sempre piu preciso
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
9. Stima puntuale
Proprieta di Y :
Y =1
n
n∑i=1
Yi
Correttezza (non distorsione): E(Y ) = µY
Varianza: Var(Y ) = σ2Y /n, inversamente proporzionale a n
(caso iid)
Minimi quadrati: Minimizza la somma degli scarti alquadrato, cioe
minc
∑i
(Yi − c)2 =∑i
(Yi − Y )2
Efficienza: Stimatore piu efficiente di µY tra tutti glistimatori non distorti ottenuti come medie ponderate di Yi
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
9. Stima puntuale
Proprieta asintotiche: proprieta valide “per n grande”
Consistenza: Y e uno stimatore consistente di µY se
{Yi} ∼ iid e 0 < σ2Y <∞⇒ Y → µY
per la legge dei grandi numeri;
Normalita asintotica: la distribuzione della mediacampionaria standardizzata converge (quindi e benapprossimata, se n e grande) ad una normale standard:
se {Yi} ∼ iid e |µY | <∞, 0 < σ2Y <∞⇒
⇓ (per il TLC)
Y − µY√σ2Y /n
→ N(0, 1)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
9. Stima puntuale
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
9. Stima puntuale
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
9. Stima puntuale
Varianza campionaria: e lo stimatore
s2Y =
1
n− 1
n∑i=1
(Yi − Y )2
Correttezza: S2Y e uno stimatore non distorto per σ2
Y (dalcorso di statistica)
Consistenza: se {Yi} ∼ iid e E(Y 4i ) <∞, allora S2
Y econsistente, S2
Y →p σ2Y
SY e la deviazione standard campionaria
SY /√n e la stima dell’errore standard di Y
(SE(Y ) = σ/√n)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
10. Intervalli di confidenza
Intervallo di confidenza per µY : intervallo che, con unaprobabilita prefissata (detto livello di confidenza, 1− α),contiene il parametro incognito µY .Varianza nota:
[Y ± z1−α/2SE(Y )
]=[Y ± z1−α/2σ/
√n]
Varianza non nota:[Y ± tn−1,1−α/2SE(Y )
]=[Y ± tn−1,1−α/2SY /
√n]
ES. n = 200, Y = 22.64$, SY = 18.14, t199,0.975 ≈ 1.96,
IC = [20.13; 25.15]
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
11. Verifica di ipotesi
Obiettivo: decidere se una determinata ipotesi (il valore di unparametro, presenza o meno di effetti causali significativi o dicorrelazione, cambiamento strutturale, validazione di un’ipotesiderivante dalla teoria economica...) e vera o meno sulla basedell’evidenza empirica
Paradigma:H0︷ ︸︸ ︷
Ipotesi nulla VS.
H1︷ ︸︸ ︷Ipotesi alternativa
(vera fino a prova contraria)
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
11. Verifica di ipotesi
Stati del mondo
Decisione H0 H1
Accetto H0 1− α βConfidenza Pr. Errore II tipo
Rifiuto H0 α 1− βPr. Errore di I tipo Potenza del test
Significativita
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
11. Verifica di ipotesi – Varianza non nota
H0 : µY = µ0 Regole di decisione (Z = (Y − µ0)/√s2/n)
H1 Rifiuto se Rifiuto se Rifiuto se
µY 6= µ0
[|Y − µY | > z1−α/2
s√n
]|Z| > z1−α/2 α > 2(1− Φ(Z))
µY > µ0
[Y > µY + z1−α
s√n
]Z > z1−α α > 1− Φ(Z)
µY < µ0
[Y < µY − z1−α s√
n
]Z < −z1−α α > Φ(Z)
Es. H0 : µ = 20, H1 : µ < 20, Z ≈ t = 2.06. p− val = 0.9803Es. H0 : µ = 20, H1 : µ 6= 20, Z ≈ t = 2.06. p− val = 0.0394
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
11. Verifica di ipotesi
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
11. Verifica di ipotesi
Differenza tra due medieLo stimatore e Y1 − Y0 (es. reddito medio degli uomini - redditomedio delle donne), n1 uomini, n0 donne, in un campione din = n0 + n1 unita.
IC:
[(Y1 − Y0)± z1−α
2SE(Y1 − Y0)
]=
(Y1 − Y0)± z1−α2
√s2
1
n1+s2
0
n0
Test:
H0 : µ1 − µ0 = 0 (no discriminazione) vs H0 : µ1 − µ0 6= 0
t =Y1 − Y0√s21n1
+s20n0
Introduzione all’Econometria
Capitolo 2 e 3 - Richiami di Probabilita e Statistica
Richiami di Statistica
11. Verifica di ipotesi
Es. H0 : µ1 − µ0 = 0 → t = 17.94−15.49√7.862
1393+ 6.802
1210
= 8.44
Introduzione all’Econometria
Capitoli 4 e 5
Capitoli 4 e 5
Regressione lineare con un solo regressore
Introduzione all’Econometria
Capitoli 4 e 5
Outline
(1) Il modello di regressione lineare
(2) Lo stimatore dei minimi quadrati ordinari (OLS) e la rettadi regressione
(3) Le assunzioni dei minimi quadrati
(4) La distribuzione campionaria dello stimatore OLS
(5) Proprieta BLUE
(6) Intervalli di confidenza
(7) Verifica di ipotesi
(8) Misure di bonta della regressione
Introduzione all’Econometria
Capitoli 4 e 5
Il modello di regressione lineare
Yi = β0 + β1Xi + ui, i = 1, . . . , n
n osservazioni
Y = variabile dipendente
X = variabile indipendente o regressore
β0 = intercetta
β1 = pendenza (coefficiente angolare)
Yi = β0 + β1Xi e la retta di regressione
ui = errore di regressione (fattori omessi)
I valori di β0 e β1 non sono noti – vanno stimatiChiameremo β0 e β1 i relativi stimatori
Introduzione all’Econometria
Capitoli 4 e 5
Il modello di regressione lineare
Introduzione all’Econometria
Capitoli 4 e 5
Stimatore OLS (Ordinary Least Squares)
In analogia con la media campionaria, che minimizza la sommadei quadrati degli scarti, minimizziamo la somma dei quadratidei residui:
minb0,b1
n∑i=1
(Yi − (b0 + b1Xi))2
β1 =1n
∑ni=1XiYi − XY
1n
∑ni=1X
2i − X2
=SXYS2X
β0 = Y − β1X
Introduzione all’Econometria
Capitoli 4 e 5
Stima puntuale: metodo dei minimi quadrati
Sia
G(β0, β1) =
n∑i=1
(Yi − β0 − β1Xi)2
Per trovare il minimo di G rispetto a β0 e β1 occorrecalcolare le derivate parziali rispetto a β0, β1 e porle ugualia 0 (condizioni del primo ordine)
Si ottiene un sistema lineare di equazioni, chiamateequazioni normali:
∂G(β0, β1)
∂β0= −2
n∑i=1
(Yi − β0 − β1Xi) = 0
∂G(β0, β1)
∂β1= −2
n∑i=1
(Yi − β0 − β1Xi)Xi = 0
Introduzione all’Econometria
Capitoli 4 e 5
Il modello di regressione lineare
Introduzione all’Econometria
Capitoli 4 e 5
Es: Punteggio dei test e dimensione delle classi inCalifornia
TestScore = β0 + β1STR+ ui ⇒ β0 =??, β1 =??
Introduzione all’Econometria
Capitoli 4 e 5
Regressione OLS: output di Gretl
Introduzione all’Econometria
Capitoli 4 e 5
Es: Punteggio dei test e dimensione delle classi inCalifornia
TestScore = 698.9− 2.29× STR
Introduzione all’Econometria
Capitoli 4 e 5
Interpretazione
TestScore = 698.9− 2.29× STR
I distretti con classi maggiori ottengono in media punteggiinferiori. Piu precisamente: 1 studente in piu perinsegnante implica la diminuzione del punteggiomedio di 2.28 punti; 2 studenti in piu per insegnanteimplicano la diminuzione del punteggio medio di2× 2.28 = 4.45 punti;...
Ma e tanto o poco?
Intercetta?
Previsione e residui ⇒ Il distretto Antelope (CA,abbreviato ant) ha STR = 19.33 e TScore = 657.8:
TestScoreant = 698.9− 2.28× 19.33 = 654.8
uant = TesScoreant − TestScoreant = 657.8− 654.8 = 3.0
Introduzione all’Econometria
Capitoli 4 e 5
Un caso particolare: X binaria
Yi = β0 + β1Di + ui, Di = {0, 1}, i = 1, . . . , n
Ad esempio: Di = classi “piccole” (STR < 20), cioe:
Di =
{0 STR ≥ 201 STR < 20
β1 cattura la differenza tra le due medie (gruppo classi“piccole” e gruppo classi “grandi”). Infatti (se E(ui) = 0):
E(Yi | Di = 0) = β0
E(Yi | Di = 1) = β0 + β1
Introduzione all’Econometria
Capitoli 4 e 5
X binaria: output di Gretl
Se STR ≥ 20 (Di = 0) ⇒ punteggio medio= 649.98
Se STR < 20 (Di = 1) ⇒ punteggiomedio= 649.98 + 7.37 = 657.35
Introduzione all’Econometria
Capitoli 4 e 5
X binaria: la differenza tra le medie
Regressione Stimata:
Yi = 649.98(1.32)
+ 7.37(1.82)
Di
Tabulazione delle medie:
Dimensione classe Punteggio medio Dev. St. (SY ) n
Piccola 657.35 19.35 238(STR < 20 ⇔ Di = 1)
Grande 649.98 17.83 182(STR ≥ 20 ⇔ Di = 0)
Differenza tra medie: 657.4− 649.98 = 7.37
Errore standard: SE =
√S2sns
+S2lnl
=√
19.42
238 + 17.92
182 = 1.82
Introduzione all’Econometria
Capitoli 4 e 5
Assunzioni dei minimi quadrati
Assunzione (1)
(Xi, Yi), i = 1, . . . , n sono iid
Sempre vero con campionamento casuale semplice:
Le unita vengono dalla stessa popolazione ⇒ (Xi, Yi) sonoidenticamente distribuite per ogni iLe unita sono scelte a caso ⇒ i valori di (Xi, Yi) per unitadiverse sono indipendenti
I campionamenti non iid si incontrano ad esempio quandosi osserva nel tempo la stessa entita (dati panel o seriestoriche)
Introduzione all’Econometria
Capitoli 4 e 5
Assunzioni dei minimi quadrati
Assunzione (2)
E(ui | Xi) = 0, i = 1, . . . , n
Intuizione: in un ideale esperimento controllato casualizzatoX e assegnato casualmente, quindi tutte le altrecaratteristiche individuali (fattori omessi che entrano in u)sono distribuite indipendentemente da X, quindi u e Xsono indipendenti
In realta, occorre riflettere sempre sulla plausibilita diquesta assunzione
E(ui | Xi) = 0 ⇒ E(Yi | Xi) = β0 + β1Xi
Introduzione all’Econometria
Capitoli 4 e 5
Assunzioni dei minimi quadrati
Assunzione (2)
E(ui | Xi) = 0, i = 1, . . . , n
Introduzione all’Econometria
Capitoli 4 e 5
Assunzioni dei minimi quadrati
Assunzione (3)
0 < E(X4i ) <∞ e 0 < E(Y 4
i ) <∞
Assunzione richiesta per l’approssimazione delle statistichetest
E realistica? Se X e Y sono limitate, allora hanno sempremomenti quarti finiti (es. punteggi nei test, STR, reddito...)
In pratica, assume che gli outlier siano rari
Esaminate i dati! Se avete un outlier, si tratta di unrefuso? Non appartiene al dataset? Perche e un outlier?
Introduzione all’Econometria
Capitoli 4 e 5
Assunzioni dei minimi quadrati
Assunzione (3)
0 < E(X4i ) <∞ e 0 < E(Y 4
i ) <∞
Introduzione all’Econometria
Capitoli 4 e 5
Assunzioni dei minimi quadrati
Assunzione (4)
Var(ui | Xi) = σ2u
La varianza degli errori e costante, gli errori sonoomoschedastici
Introduzione all’Econometria
Capitoli 4 e 5
Assunzioni dei minimi quadrati
Quando l’assunzione 4 e violata.
La varianza degli errori non e costante, gli errori sonoeteroschedastici
Introduzione all’Econometria
Capitoli 4 e 5
Distribuzione campionaria degli stimatori OLS
Abbiamo la stima puntuale dei parametri, β0, β1. Ma, sevogliamo:
Quantificare l’incertezza associata alle stime Var(β0) eVar(β1)
costruire un intervallo di confidenza per β0 o β1
verificare ipotesi (ad es. β1 = 0 vs β1 6= 0)...
dobbiamo determinare la distribuzione campionaria deglistimatori OLSβ0 e β1 sono medie campionarie, quindi possiamo usare ilTLC
per n→∞ (n ≥ 100), β0, β1 ∼ N
Introduzione all’Econometria
Capitoli 4 e 5
Distribuzione campionaria degli stimatori OLS
E(β1) =??
Sostituendo Yi = β1Xi + ui in β1, ottteniamo
β1 =
∑ni=1(Xi − X)Yi∑ni=1(Xi − X)2
= β1 +
∑ni=1(Xi − X)ui∑ni=1(Xi − X)2
Applicando il valore atteso e la legge delle medie iterate, si ha:
E(β1) = β1 + E
(∑ni=1(Xi − X)ui∑ni=1(Xi − X)2
)= β1
perche E(ui | Xi) = 0.
Introduzione all’Econometria
Capitoli 4 e 5
Distribuzione campionaria degli stimatori OLS
E(β0) =??
Da β0 = Y − β1X e Y = β0 + β1X + u, ottteniamo
E(β0) = E(β0 +β1X+ u− β1X) = Eβ0 + E(β1− β1)X+ Eu = β0
dove E(β1 − β1) = 0 dalla dimostrazione precedente eEu = n−1
∑i E(ui) = n−1
∑i E(ui | Xi) = 0
⇒Riassumendo, Eβ0 = β0 e Eβ1 = β1, β0 e β1 sono stimatore nondistorti di β0 e β1
Introduzione all’Econometria
Capitoli 4 e 5
Distribuzione campionaria degli stimatori OLS
Var(β0) =?? Var(β1) =??
In generale (sotto (1) e (2)):
Var(β1) = 1n
E((Xi−µX)ui)2
Var(Xi)2
Var(β0) = 1n
Var(Hiui)
E(H2i )2
, dove Hi = 1− µXE(X2
i )Xi
⇒β0 e β1 sono stimatori consistenti perche non distorti eVar→n 0.
Cosa accade quando vale l’assunzione (4)?
Introduzione all’Econometria
Capitoli 4 e 5
Distribuzione campionaria degli stimatori OLS
Var(β1) inversamente proporzionale a Var(Xi) .... infatti, inquesto esempio il num. di punti neri e grigi e lo stesso. da qualegruppo si ottiene una retta di regressione piu accurata?
La varianza degli errori e costante, gli errori sonoomoschedastici
Introduzione all’Econometria
Capitoli 4 e 5
OLS e BLUE
Teorema (Teorema di Gauss-Markov)
nella classe degli stimatori lineari non distorti, gli stimatoriOLS sono i piu efficienti
Ipotesi
(i) E(ui | X1, . . . , Xn) = 0
(ii) Var(ui | X1, . . . , Xn) = σ2u <∞
(iii) E(uiuj | X1, . . . , Xn) = 0, per ogni i 6= j
Tesi
(a) Linear ⇐⇒ β1 =∑n
i=1 aiYi, β0 = Y −∑n
i=1 aiYiX
dove ai = Xi−X∑i(Xi−X)2 ,
∑i ai = 0 e
∑i aiXi = 1
(b) Unbiased ⇐⇒ gia visto
(c) Best ⇐⇒ Var(β1) e la minima possibile (anche per β0)
Introduzione all’Econometria
Capitoli 4 e 5
Intervalli di confidenza per β0 e β1
Intervallo di valori che contiene con probabilita 1− α il verovalore del parametro/i[
β0 ± z1−α/2SE(β0)]
e[β1 ± z1−α/2SE(β1)
]Es. Se α = 5% ⇒ z1−α/2 = 1.96
β0 = 698.93, SE(β0) = 10.36 =⇒ IC(β0) = [678.63; 719.24]
β1 = −2.28, SE(β1) = 0.52 =⇒ IC(β0) = [−3.30;−1.26]
IC per effetti predetti di ∆x:[β1∆x± z1−α/2SE(β1)∆x
]Es. Riducendo di 4 studenti, il punteggio medio aumenta inmedia nell’intervallo [5.04; 13.2] al livello del 95%
Introduzione all’Econometria
Capitoli 4 e 5
Verifica di ipotesi per β1
H0 : β1 = b1 Regole di decisione, t = β1−b1SE(β1)
H1 Rifiuto se Rifiuto se
β1 > b1 t > z1−α α > 1− Φ(t)
β1 < b1 t < −z1−α α > Φ(t)
β1 6= b1 |t| > z1−α/2 α > 2(1− Φ(t))
Introduzione all’Econometria
Capitoli 4 e 5
Verifica di ipotesi per β0
H0 : β0 = b0 Regole di decisione, t = β0−b0SE(β0)
H1 Rifiuto se Rifiuto se
β0 > b0 t > z1−α α > 1− Φ(t)
β0 < b0 t < −z1−α α > Φ(t)
β0 6= b0 |t| > z1−α/2 α > 2(1− Φ(t))
Introduzione all’Econometria
Capitoli 4 e 5
Verifica di ipotesi per β0 e β1: esempi
TestScorei = β0 + β1STRi + ui
H0 : β1 = 0, H1 : β1 6= 0 ⇒ t =−2.28− 0
0.52= −4.39⇒ p− val ≈ 0.00
TestScorei = β0 + β1Di + ui
H0 : β1 = 0, H1 : β1 6= 0 ⇒ t =7.37− 0
1.82= 4.04⇒ p− val ≈ 0.00
Introduzione all’Econometria
Capitoli 4 e 5
Valori predetti ed errori di regressione
I punti Yi = β0 + β1Xi sulla retta di regressione stimata sichiamano valori predetti (o stimati o interpolati)
La differenza tra i valori osservati Yi e i rispettivi valoripredetti sono gli errori di regressione (o residui), ui
La definizione dello stimatore MQO garantisce che lasomma dei quadrati degli errori di regressione sia minima
Introduzione all’Econometria
Capitoli 4 e 5
Valori predetti ed errori di regressione
La somma degli errori di regressione e pari a zero:∑i ui =
∑i Yi −
∑i Yi = 0
⇔ la media dei valori predetti e la media di Y coincidono:
n−1∑
i Yi = Y
Gli errori di regressione e le Xi sono incorrelati
(ortogonali), ossia∑
iXiui = 0
⇒∑
i Yiui = 0 perche le Yi sono combinazioni lineari
delle Xi
Introduzione all’Econometria
Capitoli 4 e 5
Decomposizione della varianza totale
X
Y
Yi
Yi
Y
Y
Yi − Yi
Yi − YYi − Y
Introduzione all’Econometria
Capitoli 4 e 5
Decomposizione della varianza totale
∑i(Yi − Y )2 =
∑i(Yi − Y )2 +
∑i(Yi − Yi)2
Devianza totale
Somma totale dei quadrati
Devianza della regressione
Somma dei quadrati stimata
Devianza residua
Somma deiquadrati degli errori
Introduzione all’Econometria
Capitoli 4 e 5
Decomposizione della varianza totale
∑i(Yi − Y )2 =
∑i(Yi − Y )2 +
∑i u
2i
Devianza totale
Somma totale dei quadrati
Devianza della regressione
Somma dei quadrati stimata
Devianza residua
Somma deiquadrati degli errori
Introduzione all’Econometria
Capitoli 4 e 5
Decomposizione della varianza totale
Dimostrazione.
TSS =
n∑i=1
(Yi − Y )2 =
n∑i=1
(Yi − Yi + Yi − Y )2
=
n∑i=1
(Yi − Yi)2 +
n∑i=1
(Yi − Y )2 + 2
n∑i=1
(Yi − Yi)(Yi − Y )
=
n∑i=1
(Yi − Yi)2 +
n∑i=1
(Yi − Y )2 = RSS + ESS
Introduzione all’Econometria
Capitoli 4 e 5
Decomposizione della varianza totale
RSS = 0 ⇒ Tutte le osservazioni giacciono sulla retta diregressione, cioe tutti i valori stimati sono uguali ai valoriosservati
RSS = TSS ⇒ Tutti i valori stimati/predetti sono ugualialla media campionaria
Introduzione all’Econometria
Capitoli 4 e 5
Bonta di adattamento: l’R2 di regressione
Sfruttando la decomposizione della varianza totale, si puodefinire una misura della bonta dell’adattamento della retta diregressione ai dati.
R2 = ESSTSS =
∑i(Yi−Y )2∑i(Yi−Y )2 = 1−
∑i u
2i∑
i(Yi−Y )2 = 1− RSSTSS
Si dimostra che il coefficiente di determinazione, o R2 diregressione, e uguale al quadrato del coefficiente dicorrelazione lineare
R2 = ρ2XY =
(σXYσXσY
)2
.
Pertanto, l’R2 puo variare tra 0 e 1
R2 = 1 se RSS = 0, cioe c’e adattamento perfetto ai dati
R2 = 0 se RSS = TSS, ovvero se ρXY = 0, cioe non c’ecorrelazione tra X e Y .
Introduzione all’Econometria
Capitoli 4 e 5
Bonta di adattamento: l’R2 di regressione
Come per la covari-anza (infatti R2 = ρ2):R2 = 0 non significanecessariamente che Y
e X non siano legate daalcuna relazione funzionale
Introduzione all’Econometria
Capitoli 4 e 5
Misure di bonta di adattamento
R2
misura la frazione della varianza di Y spiegata da X
0 ≤ R2 ≤ 1 (privo di scala)
Errore standard della regressione (SER)
misura la dimensione di un tipico residuo di regressione(unita di misura di Y )
Introduzione all’Econometria
Capitoli 4 e 5
Misure di bonta di adattamento: SER
IL SER mostra la dispersione della distribuzione dei residui ui.E (quasi) la deviazione standard campionaria dei residui:
SER =
√√√√ 1
n− 2
n∑i=1
(ui − u)2 =
√√√√ 1
n− 2
n∑i=1
u2i
La stima di β0 e β1 fa perdere 2 gradi di liberta
RMSE =√
1n
∑ni=1 u
2i e la radice dell’errore quadratico
medio (Root Mean Squared Error)
N.B. ¯u = 0 se c’e l’intercetta perche:∑ni=1 ui =
∑i(Yi − Yi) e∑
i
Yi =∑i
(β0 + β1Xi) = n(Y − β1X) + β1
∑i
Xi = nY
Introduzione all’Econometria
Capitoli 4 e 5
Misure di bonta di adattamento: SER
R2 = 0.05 e SER = 18.6
STR spiega soltanto una piccola quota della variazione neipunteggi dei test: altri fattori possono intervenire...
Introduzione all’Econometria
Capitoli 6 e 7
Capitoli 6 e 7
Regressione lineare Multipla
Introduzione all’Econometria
Capitoli 6 e 7
Outline
(1) Distorsione da variabili omesse
(2) Regressione multipla e OLS
(3) Le assunzioni dei minimi quadrati
(4) La distribuzione campionaria dello stimatore OLS
(5) Intervalli di confidenza e test sui singoli βj(6) Test di ipotesi congiunte e regioni di confidenza
(7) Misure di bonta della regressione
(8) Variabili di interesse e di controllo
Introduzione all’Econometria
Capitoli 6 e 7
Distorsione da variabili omesse
L’errore u comprende tutti i fattori che influenzano Y manon sono osservabili, o piu in generale, non sono statiinclusi nella funzione di regressione
Cose succede se il modello non include una variabile o piuvariabili importanti per la determinazione di Y ?
L’omissione di queste variabili rende lo stimatore OLSdistorto (e inconsistente, perche tale distorsione nonsvanisce neanche con campioni di grandi dimensioni!)
Introduzione all’Econometria
Capitoli 6 e 7
Distorsione da variabili omesse
Supponiamo Z sia una variabile omessa.La distorsione da variabile omessa si verifica quando valgonoentrambe le seguenti condizioni:
1 Z e rilevante per Y
2 Z e correlata con il regressore X
Infatti:
Se vale la 1. Z finisce in u
Se vale anche la 2. Corr(Z,X) 6= 0 implica Corr(X,u) 6= 0⇒ violazione dell’assunzione E(ui | Xi) = 0
Introduzione all’Econometria
Capitoli 6 e 7
Distorsione da variabili omesse: esempi
Esempio 1: ore del testInfluisce sul risultato del test? SI – Si Condizione 1.E correlata con la dimensione delle classi?NO – No condizione 2.⇒ Se omettiamo questa informazione non ce distorsione davariabile omessaEsempio 1: area di parcheggio Influisce sul risultato deltest? NOE correlata con la dimensione delle classi? SI (i distretti conarea parcheggio hanno generalmente budget maggiori quindiclassi piu piccole)⇒ Se omettiamo questa informazione non c’e distorsione davariabile omessa
Introduzione all’Econometria
Capitoli 6 e 7
Distorsione da variabili omesse: esempi
Esempio 3: studenti non madrelinguaInfluisce sul risultato del test? SI ⇒ Condizione 1.E correlata con la dimensione delle classi? SI
(i distretti con alto numero di stranieri hanno generalmentebudget inferiori quindi classi maggiori)⇒ Condizione 2.⇒ Se omettiamo questa informazione c’e distorsione davariabile omessa
Introduzione all’Econometria
Capitoli 6 e 7
Distorsione da variabili omesse: formula
Sappiamo che
β1 − β1 =
∑i(Xi − X)ui∑i(Xi − X)2
→ Cov(Xi, ui)
Var(Xi)=σXuσ2X
⇒ Se σXu = 0 ⇒ E(β1 − β1) = 0 ⇒ β1 non distorto
⇒ Se σXu 6= 0 ⇒ E(β1 − β1) 6= 0 ⇒ β1 distorto
Di quanto? Dipende dalla correlazione tra u e X
σXuσXσX
=σuσX
σXuSσuσX
=σuσX
ρXu
Che fare? Includiamo la variabile come regressore: la variabileomessa... non e piu omessa!!!
Introduzione all’Econometria
Capitoli 6 e 7
Il modello di regressione multipla
Modello con 2 regressori
Yi = β0 + β1X1i + β2X2i + ui i = 1, . . . , n
Y =variabile dipendente
X1 e X2 = variabili indipendenti, o regressori, ocovariate
β0 = intercetta
β1 = effetto variazione di X1 su Y , con X2 costante
β2 = effetto variazione di X2 su Y , con X1 costante
Yi = β0 + β1X1i + β2X2i e la retta di regressione
ui = errore di regressione (fattori omessi)
Introduzione all’Econometria
Capitoli 6 e 7
Il modello di regressione multipla: stima
Stima OLS ⇒
minβ0,β1,β2
n∑i=1
(Yi − β0 − β1X1i − β2X2i)2
Si ottengono le stime OLS, β0, β1, β2
Introduzione all’Econometria
Capitoli 6 e 7
Il modello di regressione multipla: esempio
Questo era il modello con un solo regressore: se e come ecambiato il coefficiente per STR?
Introduzione all’Econometria
Capitoli 6 e 7
Il modello di regressione multipla
Estensione a k regressori
Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki + ui i = 1, . . . , n
Y =variabile dipendente
Xj variabili indipendenti, o regressori, o covariate,j = 1, . . . , k
β0 = intercetta
βj = effetto variazione di Xj su Y , con Xl costante, perogni l 6= j
Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki e la retta diregressione
ui = errore di regressione (fattori omessi)
Introduzione all’Econometria
Capitoli 6 e 7
Regressione multipla: esempio
Yi = β0 +β1STRi+β2ElPcti+β3MealPcti+β4CalwPcti+ui i = 1, . . . , n
Y = TestScore =esito test
STR = Student/Teacher Ratio
ElPct = % studenti non madrelingua inglese
MealPct = % studenti con agevolazione mensa
calwpct = % studenti in programmi di assistenza pubblica
Introduzione all’Econometria
Capitoli 6 e 7
Regressione multipla
Teorema di Frish-Waugh ⇒ La stima di β1 si ottiene anchecon una sequenza di regressioni piu brevi:
(1) Si stima una regressione di Y su const,X2, . . . , Xk e sisalvano i residui, Y
(2) Si stima una regressione di X1 su const,X2, . . . , Xk e sisalvano i residui, X1
(3) Si stima la regressione semplice Y = β0 + β1X1 + ui
⇒ Il coefficiente di regressione multipla β1 da l’effetto di X1 suY tenendo costanti le altre variabili
Introduzione all’Econometria
Capitoli 6 e 7
Teorema di Frish-Waugh: modello con 2 regressori
(1) Si stima la regressione Y = δ0 + δ1X2. Otteniamo
δ0 = Y − δ1X2 δ1 =∑i(X2i−X2)(Yi−Y )∑
i(X2i−X2)2
e si salvano i residui, Yi = Yi − Y − δ1(X2i − X2)(2) Si stima la regressione X1 = γ0 + γ1X2. Otteniamo
γ0 = X1 − γ1X2 γ1 =∑i(X2i−X2)(X1i−X1)∑
i(X2i−X2)2
e si salvano i residui, X1i = X1i − X1 − γ1(X2i − X2)(1) Si stima la regressione Yi = β0 + β1X1. Otteniamo
β0 = ¯Y − β1¯X1 = 0
β1 =∑i X1iYi∑i X
22i
Introduzione all’Econometria
Capitoli 6 e 7
Assunzioni dei minimi quadrati
Assunzione (1)
E(ui | Xi) = E(ui | X1i, . . . , Xki) = 0
Assunzione chiave per la non distorsione
Assunzione (2)
(Xi, Yi), i = 1, . . . , n sono iid dalla loro distribuzione congiuntaF (X1, . . . , Xk, Y )
Vale quanto detto per la regressione semplice
Assunzione (3)
0 < E(X4j ) <∞ j = 1, . . . , k, 0 < E(Y 4) <∞
Assunzione che limita le osservazioni anomale
Introduzione all’Econometria
Capitoli 6 e 7
Assunzioni dei minimi quadrati
Assunzione (4)
Non c’e collinearita perfetta
Che vuol dire?Se un regressore e una combinazione lineare di uno o piuregressori inclusi nel modello, allora si dice che c’ecollinearita perfetta ⇒ OLS non puo essere stimato!!!
Perche? Intuizione: Supponiamo X2 = 2X1 (Allora ancheX1 = X2/2). Che cos’e il coefficiente di X2? Dovrebbeessere l’effetto marginale di X2, tendendo costante X1, macio e impossibile!!!Vediamo meglio: La retta di regressione diventa:
Yi = β0+β1X1+β2X2+ui = β0+β1X1+2β2X1+ui = β0+(β1+2β2)X1+ui
β1 e β2 non sono identificabili separatamente!
Introduzione all’Econometria
Capitoli 6 e 7
Collinearita perfetta
Yi = β0 +β1STRi+β2El Pct+β3Meal Pcti+β4Calw Pcti+ui
Esempi
Frazione studenti non madrelingua inglese = El Pct/100
% di studenti DI madrelingua inglese = 100− El Pct
Ma anche:
Dummy classi “troppo” piccole: Di = 1 se STR < 10,quando nel dataset il valore minimo di STR=14
Trappola delle variabili dummy ⇒ dummies per Gcategorie mutualmente esclusive + costante
Introduzione all’Econometria
Capitoli 6 e 7
Collinearita perfetta
Cosa accade?Il software si blocca o (pericoloso!) prende iniziative
Soluzione
Investigare il dataset e specificare meglio il modello
Togliere una delle G categorie: i coefficienti delle restanti siinterpretano rispetto alla categoria omessa;
NB Collinearita imperfetta: due o piu regressori sonoaltamente correlati ⇒ Stime ancora non distorte ma menoprecise
Introduzione all’Econometria
Capitoli 6 e 7
Assunzioni dei minimi quadrati
Assunzione (5)
Var(ui | Xi) = σ2u
L’omoschedasticita degli errori garantisce l’efficienza (nel sensodi Gauss-Markov)
Introduzione all’Econometria
Capitoli 6 e 7
Distribuzione campionaria degli stimatori OLS
Se valgono le assunzioni 1,2,4: E(βj) = βj
Se valgono le assunzioni 1–4: βj →p βj (consistenza)
Se valgono le assunzioni 1–4: βj hanno la struttura di
medie campionarie ⇒ βj → N(βj , σ2βj
)
Se valgono assunzioni 1–4: Var(βj) inversamenteproporzionale a n
Se valgono 1–5 ⇒ Proprieta BLUE. Gli OLS sono glistimatori piu efficienti tra gli stimatori non distorti elineari
Introduzione all’Econometria
Capitoli 6 e 7
Intervalli di confidenza per singoli βj
Intervallo di valori che contiene con probabilita 1− α il verovalore del parametro βj[
βj ± z1−α/2SE(βj)]
Esempi
STR ⇐⇒ β1, β1 = −1.01, SE(β1) = 0.27 →IC(β1) = [−1.54; −0.49]
Meal ⇐⇒ β3, β3 = −0.53, SE(β3) = 0.04 →IC(β3) = [−0.61; −0.45]
IC per effetti predetti di ∆x ⇒[βj∆x± z1−α/2SE(βj)∆x
]:
Riducendo la classe di 4 studenti, il punteggio medioaumenta in media tra [1.94; 6.17] al livello del 95%
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su singoli βj
H0 : βj = bj Regole di decisione, t =βj−bjSE(βj)
H1 Rifiuto se Rifiuto se
βj > bj t > z1−α α > 1− Φ(t)
βj < bj t < −z1−α α > Φ(t)
βj 6= bj |t| > z1−α/2 α > 2(1− Φ(t))
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su singoli βj
H0 : β1 = 0, β1 6= 0⇒ t =−1.014− 0
0.27= −3.77⇒ p−val = 0.0002
H0 : β4 = 0, β4 6= 0⇒ t =−0.05− 0
0.059= −0.82⇒ p−val = 0.415
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Test di ipotesi congiunte
H0 : β1 = 0 e β4 = 0 vs. H1 : β1 6= 0 oppure β4 6= 0
Possiamo verificare coefficiente per coefficiente? NO!Perche? Se A = {β1 = 0}, B = {β4 = 0}, H0 coincide conA ∩B. Prendiamo α = 0.05 (5%), quindi, dalla normale,z1−α/2 = 1.96
β1 e β4 sono indipendenti: P (A∩B) = P (A)P (B), quindi
P (|t1| < 1.96)P (|t4| < 1.96) = 0.95× 0.95
Rifiuto H0 con probabilita1− P (|t1| < 1.96)P (|t4| < 1.96) = 0.0975 > 0.05!!! Laprobabilia di errore di prima specie e sottostimata
β1 e β4 sono dipendenti... ancora peggio!!!
⇒ 2 soluzioni: Metodo di Bonferroni e Statistica F
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Metodo di BonferroniP (A ∪B) ≤ P (A) + P (B). Quindi. ⇒P ({|t1| > c} ∪ {|t4| > c}) ≤ P (|t1| > c) + P (|t4| > c)
⇒ P ((|t1| > c) ∪ (|t4| > c))
= P (Test “coefficiente per coefficiente” rifiuta H0 | H0)
≤ P (|t1| > c) + P (|t4| > c) ≈ 2P (|Z| > c)
Se c = z1−(α/2)/2 = z1−α/4, abbiamo
P (Il test “coefficiente per coefficiente” rifiuta H0 | H0) .2× α
2= α
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Esempio:
H0 : β1 = 0 e β4 = 0 ⇒ c = z1−α/4 = z0.9875 = 2.24
P ({|t1| > c} ∪ {|t4| > c}) = P (max{|t1|, |t4|} > 2.24)= P (max{0.82, 3.77} > 2.24)
⇒ Rifiuto H0
Con q ipotesi simultanee, si rifuta H0 se almeno uno dei tj e invalore assoluto maggiore di z1−α/(2×q).
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Statistica F (classica):Statistica test che verifica l’ipotesi che il modello con le qrestrizioni abbia un migliore adattamento
F =(RRSS − URSS)/q
URSS/(n− kun − 1)
=(R2
U −R2R)/q
(1−R2U )/(n− kun − 1)
∼ Fq,n−k−1
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Statistica F (classica):
F = 9.085 e Fq,n−k−1 = F2,415 ≈ F2,∞ = 4.61 (per α = 1%) ⇒rifiuto H0
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Statistica F (robusta): q = 2Statistica F robusta all’eteroschedasticita:H0 : β1 = 0 e β4 = 0 ⇒ F = 1
2t21+t24−2ρt1,t4 t1t4
1−ρt1,t4∼ F2,∞
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Statistica F (robusta): q = 3Statistica F robusta all’eteroschedasticita. Gia incorporata neipacchetti statistici... molto comodo!H0 : β1 = 0 e β2 = 0 e β4 = 0
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Statistica F (robusta): casi particolariq = 1 (H0 : βj = 0) ⇐⇒ F = t2jq = k (H0 : β1 = β2 = . . . βk = 0) ⇐⇒ gia fornito dall’outputdi Gretl
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Restrizioni singole su coefficienti multipli
Yi = β0 + β1X1i + β2X2i + ui
Vogliamo verificare l’ipotesi:
H0 : β1 = β2 vs. H1 : β1 6= β2
L’ipotesi nulla impone una singola restrizione ma su coefficientimultipli.Diverso da ipotesi congiunte (β1 = β2 = 0) che imponevano2 (in generale q > 1) restrizioni simultaneamente su piucoefficienti
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Restrizioni singole su coefficienti multipliDue metodi per eseguire il test:1. Usare Gretl (o software)Gretl consente di verificare generiche restrizioni (lineari!!!) supiu coefficienti
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
1. Riorganizzare la regresioneSi puo trasformare il modello in uno equivalente, in modo che larestrizione diventi una restrizione su un singolo coefficiente:Regressione originale (RO):
Yi = β0 + β1X1i + β2X2i + ui
Regressione equivalente (RE):
Yi = β0 + γ1X1i + β2Wi + ui
dove γ1 = β1 − β2, W = X2 +X1
Il test H0 : β1 = β2 su RO equivale a H0 : γ1 = 0 su RE
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
1. Riorganizzare la regressione: esempioRO e RE sono equivalenti!!!
Introduzione all’Econometria
Capitoli 6 e 7
Verifica di ipotesi su due o piu βj
Regione di confidenza per coefficienti multipliInsieme dei valori dei coefficienti non rifiutabili al livello disignificativita αPer due coefficienti, le regioni sono ellittiche
Introduzione all’Econometria
Capitoli 6 e 7
Misure di bonta dell’adattamento
Errore standard della regressione (SER)Misura la dispersione della variabile Y attorno alla retta diregressione (unita di misura di Y )
SER =
√1
n− k − 1
∑i
u2i
k = numero di regressori esclusa la costantek + 1 = numero di parametri da stimare (inclusa l’intercetta)
Introduzione all’Econometria
Capitoli 6 e 7
Misure di bonta dell’adattamento
R2
Misura la frazione di varianza di Y spiegata dai regressori
R2 =ESS
TSS= 1− RSS
TSS= 1−
∑i u
2i
TSS
0 ≤ R2 ≤ 1 (no unita di misura)
Nella regressione multipla, aggiungendo un regressoreaumenta sempre. Perche?RSS = minβ0,...,βk
∑i(Yi − β0 − . . . βkXki)
2 decresceaumentando i regressori
...ma non significa che l’adattamento del modello siamigliore!!!
Meglio usare una nuova misura, che tenga conto delnumero di regressori
Introduzione all’Econometria
Capitoli 6 e 7
Misure di bonta dell’adattamento
R2 correttoR2 con una “penalizzazione” per il numero di regressori (o peril numero di gradi di liberta)
R2 = 1− n− 1
n− k − 1
RSS
TSS= 1−
S2u
S2Y
n−1n−k−1 > 1 ⇒ R2 ≥ R2
Regressore in piu, n−1n−k−1 ⇑
n−1n−k−2 > mentre RSS ↓.
R2 puo essere negativo
Introduzione all’Econometria
Capitoli 6 e 7
Misure di bonta dell’adattamento
Esempio
Introduzione all’Econometria
Capitoli 6 e 7
Misure di bonta dell’adattamento
Avvertenze: Un elevato R2 (o R2) significa che i regressorispiegano gran parte della variazione in Y , MA...
L’obiettivo della regressione non e massimizzare R2 matrovare l’effetto causale di X su Y
Un elevato R2 (o R2) non esclude l’omissione di variabilirilevanti
Un elevato R2 (o R2) non significa che non ci siadistorsione nelle stime dei coefficienti βj
Un elevato R2 (o R2) non significa che le variabili inclusesiano necessariamente statisticamente significative (perquesto servono i test!)
Introduzione all’Econometria
Capitoli 6 e 7
Specificazione del modello
Uno degli aspetti piu importanti di un’analisi econometrica e laspecificazione:
Quali variabili sono di interesse per Y ? Quali altre variabilivanno inserite?
Qual’e la forma funzionale che lega le variabili allavariabile dipendente? (lineare? nonlineare?)
Sotto quale forma entrano nel modello i regressori?(lineare? logaritmica? ...)
Introduzione all’Econometria
Capitoli 6 e 7
Specificazione del modello
Uno degli aspetti piu importanti di un’analisi econometrica e laspecificazione:Quali variabili inserire nel modello?
Variabili di interesse: Variabile/i di cui vogliamostimare l’effetto causale (Dimensione della classe)
Variabili di controllo: Variabili che controllano per ifattori omessi, a cui sono correlate. Se incluse nellaregressione rendono gli errori non correlati alle variabili diinteresse (E(ui | Xi) = 0) ⇒ i coefficienti per X sono nondistorti. (es. opportunita di apprendimentoextra-scolastico, competenze degli studenti, coinvolgimentodei genitori...)
Introduzione all’Econometria
Capitoli 6 e 7
Specificazione del modello: un esempio
STR: Variabile di interesse
El Pct: variabile causale e di controllo
Meal Pct: variabile causale e di controllo
Calw Pct: variabile causale e di controllo
Introduzione all’Econometria
Capitoli 6 e 7
Specificazione del modello: i passi
1 Identificare le/le variabile/i di interesse2 Ci sono effetti causali omessi?
SI ⇒ Esistono variabili adeguate che catturino direttamentetali fattori?
SI ⇒ Includerle nel modelloNO ⇒ Includere variabili di controllo correlate con talifattori
⇒ Modello di base o benchmark
3 Pensare a modelli alternativi plausibili con variabiliaggiuntive o con forme funzionali diverse
4 Stimare specificazione di base e alternative: Se e comecambia il coefficiente di interesse? Le variabili di controllosono significative?
Introduzione all’Econometria
Capitoli 6 e 7
Specificazione del modello nell’esempio
1 Identificare le/le variabile/i di interesse ⇒ STR
2 Ci sono effetti causali omessi? Lingua madre, qualitainsegnanti, opportunita di apprendimento extrascolastico,coinvolgimento genitori...Abbiamo:
El Pct = lingua madre ingleseMeal Pct e Calw Pct = misure del benessere del distretto(alternative/complementari)
3 Modelli alternativi plausibili con variabili aggiuntive(Es. Comp stu = nr. computer per studente)...(trasformazioni di uno o piu regressori? Li vediamo piuavanti)
4 Stimare specificazione base e alternative
Introduzione all’Econometria
Capitoli 6 e 7
Presentazione dei risultati
Avendo numerose regressioni da presentare, e utile ricorrereal formato tabulare
Per ciascun modello vogliamo presentare:
coefficienti di regressione stimatierrori standardmisure di adattamento (R2 corretto e non)statistica Fnumero di osservazioni
La finestra “icone” di Gretl consente di farlo facilmente
Introduzione all’Econometria
Capitoli 6 e 7
Presentazione dei risultati
Introduzione all’Econometria
Capitoli 6 e 7
Interpretazione dei coefficienti nella regressionemultipla
Consideriamo per semplicita
Yi = β0 + β1X1i + β2X2i + ui i = 1 . . . , n
Facciamo variare X1 → X1 + ∆X1, tenendo costante X2. Incorrispondenza di questa variazione anche Y subira unavariazione, passando da Y a Y + ∆YRetta di regressione prima della variazione:
Y = β0 + β1X1 + β2X2
Retta di regressione dopo la variazione:
Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2
Differenza:∆Y = β1(X1 + ∆X1)− β1X1
Introduzione all’Econometria
Capitoli 6 e 7
Interpretazione dei coefficienti nella regressionemultipla
Prima: Y = β0 + β1X1 + β2X2
Dopo: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2
Differenza: ∆Y = β1∆X1
⇒β1 = ∆Y
∆X1(∆→ 0) β1 = ∂E(Y |X1,X2)
∂X1
β2 = ∆Y∆X2
(∆→ 0) β2 = ∂E(Y |X1,X2)∂X2
β0 = valore predetto di Y quando X1 = X2 = 0
Introduzione all’Econometria
Capitoli 6 e 7
Interpretazione dei coefficienti nella regressionemultipla
Prima: Y = (Ass.1) = E(Y | X1, X2)Dopo: Y + ∆Y = (Ass.1) = E(Y | X1 + ∆X1, X2)Differenza:∆Y = β1∆X1 = E(Y | X1 + ∆X1, X2)− E(Y | X1, X2)⇒β1 = ∆Y
∆X1(∆→ 0) β1 = ∂E(Y |X1,X2)
∂X1
β2 = ∆Y∆X2
(∆→ 0) β2 = ∂E(Y |X1,X2)∂X2
β0 = valore predetto di Y quando X1 = X2 = 0
Introduzione all’Econometria
Funzioni nonlineari
Capitolo 8
Funzioni di regressione nonlineari
Introduzione all’Econometria
Funzioni nonlineari
Outline
Funzioni di regressione nonlineari
(1) Note generali
(2) Funzioni nonlineari a una variabile
(3) Funzioni nonlineari a due variabili: interazioni
(4) Applicazione al dataset di punteggi dei test
Introduzione all’Econometria
Funzioni nonlineari
Note generali
Non sempre l’approssimazione lineare e la scelta migliore.
Il modello di regressione multipla puo gestire funzioni diregressione nonlineari in una o piu X
Se il modello resta lineare nei coefficienti (cioe i β), il metodo distime e le proprieta degli stimatori restano gli stessi di unmodello di regressione lineare in X
Introduzione all’Econometria
Funzioni nonlineari
Note generali
La relazione tra punteggio dei test e rapportostudenti/insegnanti sembra abbastanza ben catturata da unarelazione lineare.
Introduzione all’Econometria
Funzioni nonlineari
Note generali
La relazione tra punteggio dei test e reddito distrettuale elineare?
Introduzione all’Econometria
Funzioni nonlineari
Regressione non lineare
Se la relazione tra i regressori e Y e nonlineare, l’effettomarginale di X su Y non e in generale costante, madipende anche dal livello di X
In generale una regressione lineare e misspecificata: laforma funzionale e errata
Ne segue che: lo stimatore dell’effetto di X su Y e distorto
E necessario applicare una funzione di regressionenonlineare (in X)
Introduzione all’Econometria
Funzioni nonlineari
Funzioni nonlineari di un’unica variabileindipendente
Due approcci complementari:
Funzione polinomiale in X: la funzione di regressione dellapopolazione e una funzione quadratica, o cubica o ingenerale polinomiale di X
Trasformazioni logaritmiche: Le Y e/o le X sonotrasformate prendendone il logaritmo. Utile in molteapplicazioni.
Introduzione all’Econometria
Funzioni nonlineari
Funzioni Polinomiali in X
Approssimiamo la funzione di regressione con un polinomio.Assumiamo (per semplicita) un solo regressore:
Yi = β0 + β1Xi + β2X2i + . . .+ βrX
ri + ui
E ancora un modello di regressore lineare (lineare nei β!!!)solo che i regressori sono potenze di X.
La stima e le proprieta degli stimatori sono le stesse delmodello di regressione lineare multipla con r regressori.
Unica reale differenza: l’interpretazione dei coefficienti!!!Piu difficile
Introduzione all’Econometria
Funzioni nonlineari
Esempio: la relazione tra punteggio del test e redditodistrettuale
Xi = Incomei = reddito distrettuale medio nel distretto isimo(in migliaia di dollari pro-capite)Approssimazione quadratica:
TestScorei = β0 + β1Incomei + β2(Incomei)2 + ui
Approssimazione cubica:
TestScorei = β0+β1Incomei+β2(Incomei)2+β3(Incomei)
3+ui
Introduzione all’Econometria
Funzioni nonlineari
Esempio: la relazione tra punteggio del test e redditodistrettuale
^testscr = 607.3 + 3.85*avginc - 0.0423*avgincsq
(2.90)(0.268) (0.00478)
n = 420, R-squared = 0.556
(standard errors in parentheses)
Introduzione all’Econometria
Funzioni nonlineari
Quali sono gli “effetti” di X?
Non e possibile calcolare un effetto unico di una variazione diX, l’effetto dipende dal livello di X
TestScore = 607.3 + 3.85 ∗ avginc− 0.0423 ∗ avgincsqLa variazione predetta del punteggio, corrispondente ad unavariazione del reddito pro-capite da 5000$ a 6000$:
∆ TestScore = 607.3+3.85∗6−0.0423∗ (6)2−607.3+3.85∗5−0.0423∗ (5)2 = 3.38
Introduzione all’Econometria
Funzioni nonlineari
Quali sono gli “effetti” di X?
Se cambia il valore di X cambia l’effetto di un aumento di1000$:
Variazione di reddito EffettoDa 5000 a 6000 3.4
Da 25000 a 26000 1.7Da 46000 a 47000 0.0
L“effetto” di un cambiamento del reddito e maggiore per iredditi piu bassi (forse un beneficio marginale decrescente conl’aumento dei budget delle scuole?).Attenzione!!! Non estrapolate mai al di fuori dell’intervallo deidati!!!
Introduzione all’Econometria
Funzioni nonlineari
Esempio: la relazione tra punteggio del test e redditodistrettuale
Approssimazione cubica
Model 2: OLS, using observations 1-420
Dependent variable: testscr
Heteroskedasticity-robust standard errors, variant HC1
coefficient std. error t-ratio p-value
-----------------------------------------------------------
const 600.079 5.10206 117.6 0.0000 ***
avginc 5.01868 0.707350 7.095 5.61e-12 ***
avgincsq -0.0958052 0.0289537 -3.309 0.0010 ***
avgincub 0.000685484 0.000347065 1.975 0.0489 **
Mean dependent var 654.1565 S.D. dependent var 19.05335
Sum squared resid 67169.69 S.E. of regression 12.70691
R-squared 0.558413 Adjusted R-squared 0.555228
F(3, 416) 270.1797 P-value(F) 2.81e-97
Log-likelihood -1661.646 Akaike criterion 3331.292
Schwarz criterion 3347.453 Hannan-Quinn 3337.679
Introduzione all’Econometria
Funzioni nonlineari
Test di nonlinearita
Test di nonlinearia: test F sulle restrizioni β2 = β3 = 0:
Restriction set
1: b[avgincsq] = 0
2: b[avgincub] = 0
Test statistic: Robust F(2, 416) = 37.6908, with p-value = 9.0426e-16
Restricted estimates:
coefficient std. error t-ratio p-value
---------------------------------------------------------
const 625.384 1.53240 408.1 0.0000 ***
avginc 1.87855 0.0905044 20.76 2.75e-66 ***
avgincsq 0.00000 0.00000 NA NA
avgincub 0.00000 0.00000 NA NA
Standard error of the regression = 13.3865
Rifiutata l’ipotesi di linearita
Introduzione all’Econometria
Funzioni nonlineari
Funzioni logaritmiche di Y e/o di X
ln(X) (o log(X)) e il logaritmo naturale di X.Le trasformazioni logaritmiche permettono di modellaretrasformazioni in termini “percentuali”.
Perche? Approssimativamente,
ln(x+ ∆x)− ln(x) = ln
(x+ ∆x
x
)= ln
(1 +
∆x
x
)≈ ∆x
x
Introduzione all’Econometria
Funzioni nonlineari
Specificazioni della regressione logaritmica
Caso Funz. di regressioneI. lineare-log Yi = β0 + β1 ln(Xi) + uiII. log-lineare ln(Yi) = β0 + β1Xi + ui
III. log-log ln(Yi) = β0 + β1 ln(Xi) + uiA ciascuna specificazione corrisponde una diversainterpretazione del parametro β1.
Introduzione all’Econometria
Funzioni nonlineari
Specificazioni della regressione logaritmica
Caso Funz. di regressioneI. lineare-log Yi = β0 + β1 ln(Xi) + uiA una variazione ∆x = 1% (ossia, ∆X/X = 0.01)
corrisponde una variazione ∆Y = 0.01β1
II. log-lineare ln(Yi) = β0 + β1Xi + uiIII. log-log ln(Yi) = β0 + β1 ln(Xi) + ui
Si ha∂y
∂x=β1
x
→ dy = β1 × 0.01100 dx
x
Quindi se x aumenta del 10% (→ dx/x = 0.1), y aumenta di β1 × 0.1.
Introduzione all’Econometria
Funzioni nonlineari
Specificazioni della regressione logaritmica
Caso Funz. di regressioneI. lineare-log Yi = β0 + β1 ln(Xi) + uiII. log-lineare ln(Yi) = β0 + β1Xi + ui
A una variazione di x di una unita, ∆x = 1corrisponde una variazione di Y percentuale, ∆Y = 100 ∗ β1%
III. log-log ln(Yi) = β0 + β1 ln(Xi) + ui
Si ha∂ ln(y)
∂x=∂y/y
∂x= β1
⇒ 100×∂y
y= β1 × 100× dx
Quindi se x aumenta di 2 unita (→ dx = 2), dy/y aumenta di β1 × 2, ovvero y
aumenta in percentuale di (β1 × 2× 100)%
Introduzione all’Econometria
Funzioni nonlineari
Specificazioni della regressione logaritmica
Caso Funz. di regressioneI. lineare-log Yi = β0 + β1 ln(Xi) + uiII. log-lineare ln(Yi) = β0 + β1Xi + ui
III. log-log ln(Yi) = β0 + β1 ln(Xi) + uiA una variazione percentuale ∆x = 1%
corrisponde una variazione percentuale, ∆Y = β1%β1 ha l’interpretazione di un coefficiente di elasticita
Si ha∂ ln(y)
∂x=∂y/y
∂x= β1/x
→ 100×∂y
y= β1 × 100×
∂x
x
Quindi se x aumenta del 5% (100× dx/x = 5), allora y aumenta del 5× β1%,
(100× dy/y = 5β1)
Introduzione all’Econometria
Funzioni nonlineari
Esempio: TestScore su ln(Income)
Usiamo il modello lineare-log
TestScorei = β0 + β1 ln(Incomei) + ui
Il modello e lineare nella variabile ln(Income).
Model 3: OLS, using observations 1-420
Dependent variable: testscr
Heteroskedasticity-robust standard errors, variant HC1
coefficient std. error t-ratio p-value
--------------------------------------------------------
const 557.832 3.83994 145.3 0.0000 ***
loginc 36.4197 1.39694 26.07 1.15e-89 ***
Mean dependent var 654.1565 S.D. dependent var 19.05335
Sum squared resid 66546.86 S.E. of regression 12.61757
R-squared 0.562507 Adjusted R-squared 0.561461
F(1, 418) 679.6967 P-value(F) 1.15e-89
Introduzione all’Econometria
Funzioni nonlineari
Esempio: TestScore su ln(Income)
La specificazione logaritmica e cubica sono quasi identiche. Perscegliere quale delle due adottare si puo usare R2 (logaritmicaha un lieve vantaggio).
Introduzione all’Econometria
Funzioni nonlineari
Interazioni tra regressori
Ridurre la dimensione di una classe potrebbe essere piu utile inalcune circostanze piuttosto che in altre?
Ad esempio: le classi piu piccole hanno un effetto maggiore suTestScore se ci sono molti studenti non madrelingua, cherichiedono maggior attenzione? Cioe: l’effetto di STR suTestScore puo dipendere da el Pct?
Piu in generale, l’effetto di X1 su Y , puo dipendere da X2?
Introduzione all’Econometria
Funzioni nonlineari
Esempio, TestScore, STR e allievi non madrelingua(dummy)
Definiamo HiEl = 1 se El Pct ≥ 10 (0 altrimenti).
Modello di regressione con interazione:
TestScore = β0 + β1STR+ β2HiEl + β3HiEl ∗ STR+ ui
Se Hiel = 1 la retta di regressione diventa:
TestScore = β0 + (β1 + β3)STR+ β2 + ui
Se Hiel = 0 la retta di regressione diventa:
TestScore = β0 + β1STR+ ui
Il coefficiente di STR cambia da β1 a β1 + β3.
Introduzione all’Econometria
Funzioni nonlineari
Esempio, TestScore, STR e allievi non madrelingua(var. continua)
Modello di regressione con interazione:
TestScore = β0 + β1STR+ β2El Pct+ β3El Pct ∗ STR+ ui
Model 4: OLS, using observations 1-420
Dependent variable: testscr
Heteroskedasticity-robust standard errors, variant HC1
coefficient std. error t-ratio p-value
-----------------------------------------------------------
const 686.339 11.7593 58.37 1.82e-202 ***
str -1.11702 0.587514 -1.901 0.0580 *
el_pct -0.672911 0.374123 -1.799 0.0728 *
interact 0.00116175 0.0185357 0.06268 0.9501
Mean dependent var 654.1565 S.D. dependent var 19.05335
Sum squared resid 87244.70 S.E. of regression 14.48181
Introduzione all’Econometria
Funzioni nonlineari
Esempio, TestScore, STR e allievi non madrelingua(var. continua)
L’effetto stimato della riduzione della dimensione della classenon e lineare, perche la dimensione dello stesso dipende dalvalore di El Pct.Effetto di STR su Y = −1.12 + 0.0012El Pct.Verifica di ipotesi:
R-squared 0.426435 Adjusted R-squared 0.422299
F(3, 416) 155.0483 P-value(F) 1.89e-67
L’effetto di interazione non e significativo, non possiamorifiutare l’ipotesi che non ci sia differenza nell’effetto al variaredella percentuale di studenti non madrelingua inglese
Introduzione all’Econometria
Funzioni nonlineari
Applicazione al dataset della california
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Capitolo 9
Valutazione di studi basati sulla regressionemultipla
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Outline
Valutazione di studi basati sulla regressionemultipla
(1) Validita interna ed esterna(2) Minacce alla validita interna
Distorsione da variabili omesseForma funzionale non correttaErrori nelle variabiliDati mancanti e selezione campionariaCausalita simultanea
(3) Minacce alla validita esterna
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna ed esterna
Validita interna: L’inferenza statistica e leconclusioni tratte sugli effetti causali sono valideper la popolazione studiata (la popolazione da cuie estratto il campione)
Validita esterna: L’inferenza statistica e leconclusioni tratte sugli effetti causali possonoessere generalizzate ad altre popolazioni e altricontesti (altri ambiti legali, istituzionali, politici,fisici, sociali, economici...)
EsempioLe evidenze sul rapporto studenti/insegnanti ed esiti dei testsono valide per ogni scuola di ordine e grado della California?E sono valide per altri stati?
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna
Si ha validita interna quando:
Lo stimatore e non distorto e consistente
Errori standard producono IC e test attendibili
Possibili minacce al primo punto:
Distorsione da variabile omessa
Forma funzionale non corretta
Errori nelle variabili
Selezione campionaria
Causalia simultanea
Possibili minacce al secondo punto:
Eteroscheasticita
Autocorrelazione degli errori
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Distorsione da variabile omessa
Si ha distorsione da variabile omessa quando la variabile omessae:
Una determinante di Y
Correlata con almeno una X
Soluzioni
a Se esistono variabili di controllo adeguate ⇒ includerle
b Se non esistono variabili di controllo adeguate ⇒Dati panel: ciascuna unita (individuo) e osservata in piuistanti nel tempo. Se la variabile omessa non cambia tropponel tempo si possono utilizzare osservazioni di date diverse;Variabili strumentali: si usa uno strumento, cioe unavariabile non correlata con l’errore ma correlata con XEsperimento controllato casualizzato
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Forma funzionale non corretta
Errata specificazione della retta di regressione rispetto alla realerelazione tra Y e X.Esempio Modello di regressione lineare quando in realta larelazione e nonlineareSoluzioni
Y continua: usare in X le specifiche nonlineari piuappropriate (logaritmi, interazioni...)
Y discreta: modelli nonlineari specifici per variabilidipendenti discrete (modello logit, probit...)
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Errori nelle variabili
Supponiamo che X sia misurata con qualche erroreEsempi: errori di battitura nei dati amministrativi,underreporting o misreporting (intenzionale e non) nei dati diindagine...Gli errori di misura dipendono dalla natura dei dati:
Dati amministrativi: insegnanti nei distretti residenti neicomuni, nati, residenti.... in genere molto accurati
Dati di sondaggio: specialmente su dati molto sensibili(quanto guadagna?) piu soggetti ad errori
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Errori nelle variabili: Conseguenze sulla regressione
Osserviamo Xi = Xi + ηi (ηi errore di misura), ma il modellosulla popolazione e:
Yi = β0 + β1Xi + ui
Allora, il modello in X diventa:
Yi = β0 + β1Xi − β1ηi + ui = β0 + β1Xi + εi
Se stimiamo β1 usando X come regressore, l’errore del modello(εi) e correlato con il regressore:
E(εiXi) = E((ui − β1(Xi − Xi)) · Xi) 6= 0
⇒ E(ε | X) 6= 0
⇒ Violata assunzione OLS. La stima OLS e distorta einconsistente.La correlazione c’e anche se η e incorrelato con X (cioe sel’errata misurazione non dipende da X)
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Errori nelle variabili: due casi speciali
(A) Errore di misura classico: ηi casuale, a media zero e
Corr(ηi, Xi) = Corr(ηi, ui) = 0
La correlazione c’e anche se η e incorrelato con X: quindiβ1 e comunque distorto e inconsistente.
La distorsione dipende dal segno di β1. Notiamo che (seCov(X, η) = 0 e Cov(η, u) = 0)
Cov(X, Y ) = Cov(X + η, β0 + β1X + u) = β1Var(X)
Var(X) = Var(X) + Var(η) = σ2X + σ2
η.
Quindi
β1 →Cov(X, Y )
Var(X)= β1
σ2X
σ2X + σ2
η
= β1 − β1
σ2η
σ2X + σ2
η
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Errori nelle variabili: due casi speciali
(A) Errore di misura classico: La correlazione c’e anche se ηe incorrelato con X, quindi β1 e comunque distorto einconsistente.
(B) Errore di misura “migliore ipotesi”: Xi e la migliorestima di Xi, cioe Corr(ηi, Xi) = 0 ⇒ β1 consistente, percheE(εiXi) = E((ui − β1(Xi − Xi))Xi) = E((ui − β1ηi)Xi) = 0ma ha varianza maggiore di quella che avrebbe senza erroredi misura.
Caso omoschedastico (piu semplice). X e la migliore stimadi X, quindi X = E(X | informazione disponibile) cheimplica (Legge della varianza totale. ) Var(X) ≥ Var(X) e
Var(β1) =σ2ε
Var(X)≥β2
1σ2η + σ2
u
σ2X
≥ σ2u
σ2X
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Errori nelle variabili: errore in Y
Supponiamo sia Y ad avere errore di misura:
Yi = Yi + ηi.
In tal caso il modello della popolazione che possiamo stimare e:
Yi = β0 + β1Xi + ui + ηi.
Se l’errore e casuale (E(ηi | X) = 0) allora β1 e non distorto.Tuttavia, le stime avranno varianza maggiore di quelle cheotterremmo senza errore di misura.
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Errori nelle variabili: soluzioni
1. Ottenere dati migliori... in genere difficile!!
2. Sviluppare un modello specifico per gli errori di misura.Possibile, ma solo se si conosce bene la natura dell’errore dimisura.
3. Regressione con variabili strumentali
4. Esperimento controllato casualizzato (es: articolo”Counting rotten apples: Student achievement and scoremanipulation in Italian elementary Schools”)
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Dati mancanti e selezione campionaria
Mancano alcuni dati. Le conseguenze cambiano a seconda deicasi:
1. I dati mancano “a caso”
2. I dati mancano in base al valore di una o piu X
3. I dati mancano in base al valore di Y
Casi 1. e 2. ⇒ β1 e non distorto, ma gli errori standard sonomaggiori di quelli che si avrebbero senza dati mancantiCaso 3. ⇒ A causa della selezione campionaria,corr(ui | Xi) 6= 0 e β1 e distorto
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Dati mancanti e selezione campionaria
Esempio 1: Statura degli studentiQual’e l’altezza media degli studenti maschi?I dati vengono raccolti registrando la statura degli studenti cheentrano nello spogliatoio della squadra di basket. Gli individuisono campionati in modo non indipendente dalla statura (la Y )→ distorsione!!!Soluzione: Ottenere un campione davvero casuale degli studenti,per esempio scegliendo a caso tra gli iscritti che risultano daglielenchi amministrativi
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Dati mancanti e selezione campionaria
Esempio 2: Rendimento dello studio (Returns toeducation)Quanto rende (in termini di reddito) un anno in piu di studio?I dati vengono raccolti registrando reddito e anni di istruzionedi un campione di impiegati → individui campionati in modoNON indipendente dalla Y → distorsione!!!Soluzione: Ottenere un campione davvero casuale di individui, aprescindere dal fatto che abbiano trovato impiego o meno(inclusi disoccupati)
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Dati mancanti e selezione campionaria
Esempio 3: Rendimento dei fondi comuniI fondi comuni gestiti attivamente hanno rendimenti migliori diquelli che seguono il mercato?Si osservano i rendimenti medi degli ultimi 10 anni dei fondicomuni esistenti (oggi) → i fondi che osserviamo sono soltantoquelli che sono durati almeno 10 anni → osserviamo soltantofondi con rendimenti (Y ) maggiori → distorsione!Soluzione: ottenere un vero campione casuale dei fondiosservando i fondi esistenti all’inizio del periodo (inclusi quindieventuali fondi estinti)
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Causalita simultanea
OvveroNon soltanto X causa Y , ma anche Y causa XEsempio: Uno STR basso migliora i punteggi medi dei test.Ma se ai distretti con esisti peggiori vengono dati piu soldi →piu docenti → STR si abbassa!Questo implica che Cov(ui, Xi) 6= 0 e quindi β1 e distorto einconsistenteSoluzioni:
Esperimento casualizzato controllato
Stimare modello completo di entrambe le direzioni dicasualita (difficile!) (es. R=C+I)
Usare variabili strumentali
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Simultaneita: esempio
Modello a equazioni simultanee in forma strutturale:
ct = β1 + β2rt + εt, εt ∼ iid(0, σ2)rt = ct + it, E(itεt) = 0
la prima e una funzione comportamentale di consumo, laseconda e un’identita contabile.
Gli investimenti it sono esogeni e indipendenti dal disturbo εt. Iconsumi ct e il reddito rt sono variabili endogene.Riscriviamo le due equazioni in forma ridotta:
ct =β1
1− β2+
1
1− β2it +
1
1− β2εt
rt =β1
1− β2+
β2
1− β2it +
1
1− β2εt
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Simultaneita
Pertanto E(rtεt) = σ2/(1− β2) e lo stimatore MQO dellafunzione uniequazionale di consumo ct = β1 + β2rt + εt, edistorto e non consistente; in particolare:
b2 →p β2 + E(rtεt)
Var(rt)= β2 + σ2
(1−β2)(1−β2)2
Var(it)+σ2
= β2 + (1− β2) σ2
Var(it)+σ2
Soluzione: variabili strumentali (investimenti).
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Eteroschedasticita e autocorrelazione dei residui
EteroschedasticitaCome visto, errori eteroschedastici producono IC e test nonattendibili.Soluzione: Stime robuste all’eteroschedasticita, che vanno beneanche nei (rari) casi di omoschedasticitaAutocorrelazioneErrori autocorrelati producono IC e test non attendibili, percheviolano l’assunzione OLS di osservazioni i.i.d.Esempi: Serie storiche, dati panel, dati stratificatiSoluzione: Stime robuste sia all’eteroschedasticita cheall’autocorrelazione. Nel caso serva, variabili strumentali perevitare Cov(ui, Xi) 6= 0.
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita esterna
Si ha validita esterna quando i risultati ottenuti sonogeneralizzabili ad altre popolazioni e altri contesti.Possibili minacce alla validita esterna:
1 Differenze nelle popolazioniEsempio: gli esperimenti in laboratorio sui topi, i cuirisultati sono solitamente estesi anche agli esseri umani
2 Differenze di contestoEsempio: campagne pubblicitariie contro l’abuso di alcol incontesti con diverse caratteristiche istituzionali, legali,ambientali
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna ed esterna nel nostro esempio
Vogliamo valutare le minacce alla validita interna edesterna nell’analisi empirica dei dati sui punteggi nei testdella California
Validita interna Esaminare l’elenco delle 5 potenzialiminacce e ... riflettere a lungo!
Validita esterna Confrontare i risultati della California edel Massachussetts (altro dataset) ... e riflettere a lungo!!!
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna nel nostro esempio
Distorsione da variabili omesse:
Quali fattori possono mancare?Caratteristiche degli studenti (es. capacita innate)Caratteristiche dei distretti (es. qualita degli insegnanti)Le regressioni cercano di controllare per questi fattori, adesempio usando “frazione di studenti non madrelingua” eusando dati demografici dei distretti (reddito, studenti consussidio mensa)Le variabili di controllo sono efficaci? Il coefficiente di STRnon cambia molto al cambiare della specificazione dellevariabili
Forma funzionale non corretta
Errori nelle variabili
Selezione campionaria
Causalita simultanea
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna nel nostro esempio
Distorsione da variabili omesse → MINACCIA ESCLUSA!
Forma funzionale non corretta
Analizzate diverse forme funzionali: effetti non lineari sonomodesti
Errori nelle variabili
Selezione campionaria
Causalita simultanea
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna nel nostro esempio
Distorsione da variabili omesse → MINACCIA ESCLUSA!
Forma funzionale non corretta → MINACCIA ESCLUSA!
Errori nelle variabili
Dati (a livello di distretto) amministrativi. Errori (sepresenti) marginali
Selezione campionaria
Causalita simultanea
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna nel nostro esempio
Distorsione da variabili omesse → MINACCIA ESCLUSA!
Forma funzionale non corretta → MINACCIA ESCLUSA!
Errori nelle variabili → MINACCIA ESCLUSA!
Selezione campionaria
Non ci sono dati mancanti: il campione copre tutti idistretti scolastici elementari pubblici della California
Causalita simultanea
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna nel nostro esempio
Distorsione da variabili omesse → MINACCIA ESCLUSA!
Forma funzionale non corretta → MINACCIA ESCLUSA!
Errori nelle variabili → MINACCIA ESCLUSA!
Selezione campionaria → MINACCIA ESCLUSA!
Causalita simultanea
La distribuzione di finanziamenti aggiuntivi in base aipunteggi nei test potrebbe provocare causalita simultanea,ma questo non avveniva in California durante icampionamenti → distorsione da causalita simultanea nonappare verosimilmente importante
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita interna nel nostro esempio
Distorsione da variabili omesse → MINACCIA ESCLUSA!
Forma funzionale non corretta → MINACCIA ESCLUSA!
Errori nelle variabili → MINACCIA ESCLUSA!
Selezione campionaria → MINACCIA ESCLUSA!
Causalita simultanea → MINACCIA ESCLUSA!
la validita interna e verificata!
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Validita esterna nel nostro esempio
Obiettivo: valutare le minacce alla validita esternadell’analisi empirica dei dati sui punteggi nei test dellaCalifornia
Metodo: confrontare i risultati con quelli di studi sullostesso argomento → se i risultati sono simili → c’e validitaesterna
Confronteremo con regressione su dati su 220 distretti delMassachusetts riferiti al 1998
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Sintesi risultati California
Il coefficiente di STR si riduce da -2.28 a -0.73 quandovengono inserite le variabili di controllo per lecaratteristiche di studenti e distretti → la stima inizialepresentava distorsione da variabili omesse.
Nella specificazione completa, l’effetto di STR (dimensionidelle classi) e statisticamente significativo al livello 1%
Rilevanza della % di studenti non di madrelingua inglese suTestScore
Qualche evidenza di non-linearita nella relazione traTestScore e STR (cubica)
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Sintesi risultati California
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Sintesi risultati Massachusetts
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Sintesi risultati Massachusetts
Il coefficiente di STR si riduce da -1.72 a -0.64 quandovengono inserite le variabili di controllo per lecaratteristiche di studenti e distretti → la stima inizialepresentava distorsione da variabili omesse.
Nella specificazione completa, l’effetto di STR (dimensionidelle classi) e statisticamente significativo al livello 5%
Nessuna evidenza statistica di rilevanza della % di studentinon di madrelingua inglese su TestScore
Nessuna evidenza di non-linearita nella relazione traTestScore e STR (cubica)
Introduzione all’Econometria
Valutazione di modelli di regressione multipla
Confronto risultati
L’effetto di STR scende in entrambi i casi quando vengonoaggiunte variabili di controllo per studenti e distretti →OK!
L’effetto di STR statisticamente significativo in entrambi icasi → OK!
L’effetto di STR quantitativamente simile per California eMassachusetts → OK!
L’effetto stimato per l’interazione con % di studenti non dimadrelingua e presente (California) o assente(Massachusetts) → OK!
Esiste qualche evidenza di non linearita di STR inCalifornia ma non nel Massachusetts → KO!
la validita esterna e verificata!
Introduzione all’Econometria
Dati panel
Capitolo 10
Regressione con dati panel
Introduzione all’Econometria
Dati panel
Outline
Regressione con dati panel
(1) Dati panel: cosa e perche
(2) Dati panel con 2 periodi temporali
(3) Regressione con effetti fissi
(4) Errori standard per regressione con effetti fissi
(5) Guida in stato di ebbrezza e sicurezza stradale
Introduzione all’Econometria
Dati panel
Dati panel: cosa e perche
Un panel contiene osservazioni su piu unita (individui, stati,imprese) in cui ogni entita e osservata in due o piu istantitemporali diversi.Esempio: Dati su 420 distretti scolastici della California nel1999 e ancora nel 2000, per 840 osservazioni in totale.
I dati panel sono chiamati anche dati longitudinaliPanel bilanciato: non ci sono osservazioni che mancano →tutte le variabili sono osservate per tutte le unita (stati) e tuttii periodi temporali (anni)
Introduzione all’Econometria
Dati panel
Dati panel: cosa e perche
Un doppio pedice distingue unita (individui, stati, regioni,distretti...) e periodi temporali (anni, mesi...)
i = unita = 1, . . . , n t = tempo = 1, . . . , T
Supponiamo di avere 1 variabile dipendente, 1 regressore. I datisono:
(Xit, Yit), i = 1, . . . , n, t = 1, . . . , T
Con k regressori:
(X1it, X2it, . . . , Xkit, Yit), i = 1, . . . , n, t = 1, . . . , T
Introduzione all’Econometria
Dati panel
Perche sono utili?
Con i dati panel possiamo controllare per fattori che:
Variano tra le unita ma non nel tempo
Potrebbero causare distorsione da variabili omesse sefossero omessi
Sono inosservati o non misurati, e percio non possonoessere inclusi in una regressione multipla
Ecco l’idea chiave: Se una variabile omessa non varia neltempo, allora qualsiasi variazione in Y nel tempo nonpuo essere causata dalla variabile omessa
Introduzione all’Econometria
Dati panel
Esempio di dati panel
Unita di osservazione: un anno in uno stato USA.n = 48 stati USAT = 7 anni (1982,83,...,88)Panel bilanciato: numero totale diosservazioni= 7× 48 = 336
Variabili :
Tasso di mortalita stradale (num. morti sulle stradenell’anno t per 10000 residenti dello stato iimposta su una cassa di birraAltre (eta minima guida, leggi sulla guida in stato diebbrezza,...)
Introduzione all’Econometria
Dati panel
Esempio di dati panel
Imposte sugli alcolici piu elevate e maggiore mortalita?
Introduzione all’Econometria
Dati panel
Esempio di dati panel
Perche una relazione positiva tra imposte sulle birre emorti sulle strade? Ci sono fattori omessi?Fattori che influenzano il tasso di mortalita sono:
Qualita (eta) delle automobili
Qualita delle strade
“Cultura” sul bere e guidare
Densita di auto sulle strade
Questi fattori omessi potrebbero causare distorsione davariabili omesse.
Introduzione all’Econometria
Dati panel
Esempio di dati panel
Ad esempio: densita del traffico. Supponiamo:
Tanto traffico → piu morti sulle strade
Gli stati con minore traffico (all’ovest) hanno imposte suglialcolici minori
Allora le due condizioni per la distorsione da variabiliomesse sono soddisfatte: variabile “imposte elevate”correlata con “densita traffico” omessa (→ coefficiente OLSdistorto positivamente - perche la correlazione e positiva)
I dati panel ci consentono di eliminare la distorsione davariabili omesse quando le variabili omesse sono costantinel tempo in un dato stato.
Introduzione all’Econometria
Dati panel
Dati panel con 2 periodi temporali
Definiamo il modello per dati panel:
FatalityRateit = β0 + β1Beertaxit + β2Zi + uit
Zi e un fattore che non cambia nel tempo, almeno neglianni osservati
Ad esempio Zi = densita traffico.
Supponiamo Zi non sia osservato. Allora la sua omissionepuo portare a distorsione da variabile omessa.
l’effetto di Zi puo essere eliminato usando i dati “ripetutinel tempo”
Introduzione all’Econometria
Dati panel
Dati panel con 2 periodi temporali
L’idea chiave:Qualsiasi variazione nel tasso di mortalita dal 1982 al1988 non puo essere causata da Zi, perche Zi (peripotesi) non varia tra il 1982 e il 1988
Consideriamo i tassi di mortalita nel 1988 e nel 1982:
FatalityRatei,1988 = β0 + β1Beertaxi,1988 + β2Zi + ui,1988
FatalityRatei,1982 = β0 + β1Beertaxi,1982 + β2Zi + ui,1982
Supponiamo E(uit | BeerTaxit, Zi) = 0Sottraendo 1988-1982 (ovvero calcolando la variazione) sielimina l’effetto di Zi
Introduzione all’Econometria
Dati panel
Dati panel con 2 periodi temporali
FatRatei,88 − FatRatei,82
= β1Beertaxi,88 − β1Beertaxi,82 + ui,88 − ui,82
Il nuovo termine d’errore, (ui1988 − ui1982), non e correlatocon BeerTaxi1988 o BeerTaxi1982.
Questa equazione “alle differenze” puo essere stimata conOLS, anche se Zi non e osservata.
La variabile omessa Zi non cambia, quindi non puo essereuna determinante della variazione in Y
Questa regressione alle differenze non ha un’intercetta
Introduzione all’Econometria
Dati panel
Esempio di dati panel
L’intercetta e quasi zero...
Introduzione all’Econometria
Dati panel
Regressione con effetti fissi
Se si hanno piu di 2 periodi temporali? Il modello
Yit = β0 + β1Xit + β2Zi + uit, i = 1 . . . , n, t = 1 . . . , T
puo essere riscritto in due modi utili:
modello di regressione con n− 1 regressori binari
modello di regressione con effetti fissi
Introduzione all’Econometria
Dati panel
Modello con effetti fissi
Supponiamo di avere 3 soli stati (n = 3): California, Texas e Massachusetts.
Regressione della California (i = 1):
Y1,t = β0 + β1X1t + β2Z1 + u1t = α1 + β1X1t + u1t
dove α1 = β0 + β2Z1 non cambia nel tempo. L’intercetta e specifica
per la California, la pendenza e la stessa in tutti gli stati (rette
parallele)
Regressione del Texas (i = 2):
Y2,t = β0 + β1X2t + β2Z2 + u2t = α2 + β1X2t + u2t
Regressione del Mass. (i = 3): Y3,t = α3 + β1X3t + u3t
Mettendo insieme le rette dei tre stati
Yi,t = αi + β1Xit + uit
I coefficienti αi sono gli effetti fissi degli stati.
Introduzione all’Econometria
Dati panel
Modello con effetti fissi: forma con regressori binari
Nella forma con regressori binari:
Yit = β0 + γ1DCa,i + γ2DTX,i + β1Xit + uit
dove DCA,i = 1 se lo stato imo e la California, DTX,i = 1 se lostato imo e il Texas.Si lascia fuori uno stato. Perche?
Introduzione all’Econometria
Dati panel
Regressione con effetti fissi: stima
Metodi di stima
1 Regressione OLS con “n-1 regressori binari”
2 Regressione OLS con “unita in deviazioni dalle medie”
3 Specificazione “prima e dopo”, senza un’intercetta (solo perT = 2)
Questi tre metodi producono stime identiche dei coefficientidi regressione e identici errori standard
I metodi 1 e 2 funzionano per un arbitrario numero diperiodi temporali T
Il metodo 1 pero non e praticabile quando n e troppogrande
Introduzione all’Econometria
Dati panel
Regressione OLS con “n-1 regressori binari”
Si includono nel modelli tante variabili binarie quanti sono glistati (o le unita), meno 1.
Si ottiene un modello di regressione lineare con nT osservazionie k+ n regressori (se i regressori inclusi nel modello lineare sonok)
Il modello puo essere stimato tramite OLS.
Problema: se n e molto grande abbiamo un numero moltoelevato di regressori (e quindi di parametro da stimare)!!!
Dati panel “micro” (in cui le unita sono famiglie o individui) spessohanno migliaia di osservazioni (n molto grande, T piccolo)
Dati panel “macro” (in cui le unita sono stati o regioni) spesso hannon dell’ordine di decine o centinaia e T puo essere dell’ordine dicentinaia (dati mensili o trimestrali)
Dati panel finanziari: centinaia di titoli (n) osservati ogni giorno oanche con frequenze maggiori (T molto piu grande di n)
Introduzione all’Econometria
Dati panel
Regressione OLS con “unita in deviazioni dallemedie”
Modello di regressione con effetti fissi
Yit = αi + β1Xit + uit
Calcoliamo le medie delle unita:
Yi = T−1T∑t=1
(αi + β1Xit + uit) = αi + β1Xi + ui
Allora le deviazioni dalle medie:
Yit − Yi = αi − αi + β1(Xit − Xi) + (uit − ui)
o, scrivendo Y , X e u per le deviazioni dalle medie,
Yit = β1Xit + uit
Introduzione all’Econometria
Dati panel
Regressione OLS con “unita in deviazioni dallemedie”
Si costruiscono le unita “in deviazione dalle medie”, Y e X
Si stima l’equazione Yit = β1Xit + uit con la regressioneOLS
Simile all’approccio “prima e dopo”, ma qui le unita sonodeviazioni rispetto alla media e non differenze tra tempo 1e tempo 2
Si puo fare in un unico comando con Gretl
Gli stimatori ottenuti si chiamano anche stimatori within(perche si usano le medie di ciascuna unita)
Introduzione all’Econometria
Dati panel
Esempio: mortalita stradale e imposte sulla birra
Per lavorare con i dati panel, bisogna indicare a Gretl che ildataset e un dataset longitudinale, indicando qualevariabile rappresenta l’unita e quale il tempo.
setobs state year --panel-vars
panel fatality const beertax --robust
Gretl calcola anche un’intercetta, che e una specie di“media delle medie individuali”. E arbitraria, mentre isingoli effetti stimati (αi) non sono riportati nell’output didefault
Introduzione all’Econometria
Dati panel
Esempio: mortalita stradale e imposte sulla birra
Model 7: Fixed-effects, using 336 observations
Included 48 cross-sectional units
Time-series length = 7
Dependent variable: fatality
Robust (HAC) standard errors
coefficient std. error t-ratio p-value
--------------------------------------------------------
const 2.37707 0.148007 16.06 7.47e-42 ***
beertax -0.655874 0.288368 -2.274 0.0237 **
Mean dependent var 2.040444 S.D. dependent var 0.570194
Sum squared resid 10.34537 S.E. of regression 0.189859
R-squared 0.905015 Adjusted R-squared 0.889129
Introduzione all’Econometria
Dati panel
Esempio: mortalita stradale e imposte sulla birra
F(48, 287) 56.96916 P-value(F) 2.0e-120
Log-likelihood 107.9727 Akaike criterion -117.9454
Schwarz criterion 69.09305 Hannan-Quinn -43.38662
rho 0.240535 Durbin-Watson 1.106864
Test for differing group intercepts -
Null hypothesis: The groups have a common intercept
Test statistic: F(47, 287) = 52.1792
with p-value = P(F(47, 287) > 52.1792) = 7.74337e-115
Introduzione all’Econometria
Dati panel
Regressione con effetti temporali
Una variabile omessa potrebbe variare nel tempo ma non tra glistati:
auto piu sicure (air bag, ecc.); modifiche nelle legginazionali
producono intercette che variano nel tempo
Sia St l’effetto combinato di variabili che cambiano neltempo ma non tra gli stati (“auto piu sicure”).
Il modello di regressione risultante e:
Yit = β0 + β1Xit + β3St + uit
Introduzione all’Econometria
Dati panel
Regressione con effetti temporali
Si puo formulare come il modello con effetti fissi individuali, indue modi:
Con “T − 1” regressori binari:Yit = β0 + β1Xit + δ1D1t + . . .+ δT−1DT−1,t
con “effetti fissi” temporali: Yit = λt + β1Xit + uit
La stima nei due casi:
Regressione OLS con “T-1 regressori binari aggiunti” (nonconviene se T e grande)
Regressione OLS “in deviazione dalla media” (temporalestavolta), o stima within
Introduzione all’Econometria
Dati panel
Regressione con effetti fissi e temporali
Yit = β1Xit + αi + λt + uit
T = 2: calcolare la differenza prima e includere unaintercetta e equivalente a (fornisce esattamente la stessaregressione di) includere effetti individuali e temporali.
T > 2 esistono vari modi equivalenti di incorporare effettiindividuali e temporali: (i) deviazione dalle medieindividuali e T − 1 indicatori temporali; (ii) deviazionedalle medie temporali e n− 1 indicatori individuali; (iii)T − 1 indicatori temporali e n− 1 indicatori individuali;(iv) deviazione dalle medie individuali e temporali
Introduzione all’Econometria
Dati panel
Effetti fissi e temporali con Gretl
panel fatality const beertax --time-dummies --robust
Model 4: Fixed-effects, using 336 observations
Included 48 cross-sectional units
Time-series length = 7
Dependent variable: fatality
Robust (HAC) standard errors
coefficient std. error t-ratio p-value
--------------------------------------------------------
const 2.42847 0.197480 12.30 4.25e-28 ***
beertax -0.639980 0.349628 -1.830 0.0682 *
dt_2 -0.0799029 0.0343540 -2.326 0.0207 **
dt_3 -0.0724206 0.0429653 -1.686 0.0930 *
dt_4 -0.123976 0.0450950 -2.749 0.0064 ***
dt_5 -0.0378645 0.0558699 -0.6777 0.4985
dt_6 -0.0509021 0.0622812 -0.8173 0.4145
dt_7 -0.0518038 0.0630585 -0.8215 0.4120
Introduzione all’Econometria
Dati panel
Effetti fissi e temporali con Gretl
Mean dependent var 2.040444 S.D. dependent var 0.570194
Sum squared resid 9.919301 S.E. of regression 0.187883
R-squared 0.908927 Adjusted R-squared 0.891425
F(54, 281) 51.93379 P-value(F) 9.6e-118
Log-likelihood 115.0383 Akaike criterion -120.0765
Schwarz criterion 89.86457 Hannan-Quinn -36.38813
rho 0.260282 Durbin-Watson 1.072582
Test for differing group intercepts -
Null hypothesis: The groups have a common intercept
Test statistic: F(47, 281) = 53.1926
with p-value = P(F(47, 281) > 53.1926) = 2.93879e-114
Wald test for joint significance of time dummies
Asymptotic test statistic: Chi-square(6) = 26.4022
with p-value = 0.000187323
Introduzione all’Econometria
Dati panel
Gli errori standard della regressione con effetti fissi
Sotto le assunzioni dei minimi quadrati nella versione per datipanel, lo stimatore OLS con effetti fissi di β1 ha distribuzionenormale.Tuttavia, e necessario introdurre una nuova formula dell’errorestandard, quella per dati raggruppati, o clustered.
Questa nuova formula e necessaria perche le osservazioni per lastessa unita non sono indipendenti (e la stessa unita, infatti!),anche se le osservazioni di unita diverse sono indipendenti (incaso di campionamento casuale semplice).
Qui consideriamo il caso di effetti fissi individuali. Gli effettitemporali possono semplicemente essere inclusi quali regressoribinari aggiuntivi.
Introduzione all’Econometria
Dati panel
Gli errori standard della regressione con effetti fissi ele assunzioni
Consideriamo per semplicita una singola X:
Yit = β1Xit + αi + uit, i = 1 . . . , n, t = 1, . . . , T
1 E(uit | Xi1, . . . , XiT , αi) = 0
2 (Xi1, . . . , XiT , ui1, . . . , uit), sono iid dalla loro distribuzionecongiunta
3 (Xit, uit) hanno momenti quarti finiti
4 Non vi e collinearita perfetta (molteplicita di X)
Le assunzioni (3) e (4) sono identiche al caso dei minimiquadrati. Le assunzioni (1) e (2) sono diverse.
Introduzione all’Econometria
Dati panel
Assunzione 1: E(uit | Xi1, . . . , XiT , αi) = 0
uit ha media zero, dato l’effetto fisso e l’intera storia delleX per l’unita corrispondente
E un’estensione della precedente assunzione 1 dellaregressione multipla
Cio significa che non vi sono effetti passati omessi(qualsiasi effetto passato di X deve essere inclusoesplicitamente come “regressore”)
Inoltre, non c’e feedback da u su X futuri:
Se uno stato ha un tasso di mortalita molto alto quest’annocio non influisce sull’aumento delle imposte della birraTalvolta questa assenza di feedback e plausibile, talvolta no.
Introduzione all’Econometria
Dati panel
Assunzione 2: (Xi1, . . . , XiT , ui1, . . . , uit), iid
E un’estensione della precedente assunzione 2 dellaregressione multipla con dati sezionali
E soddisfatta se le unita sono prese a caso dallapopolazione mediante campionamento casuale semplice
Non esclude possibile dipendenza nel tempo della stessaunita. Sarebbe irrealistico. Il fatto che uno stato abbiaun’imposta sulla birra elevata l’anno t e correlato con ilfatto che avra un’imposta elevata anche l’anno t+ 1. Similecorrelazione verosimile per il termine di errore.
Introduzione all’Econometria
Dati panel
Assunzione 2: (Xi1, . . . , XiT , ui1, . . . , uit), iid
Una variabile Zt osservata in tempi diversi si diceautocorrelata (correlata con se stessa) o serialmentecorrelata se corr(Zt, Zt+h) 6= 0 per qualche h 6= 0
cov(Zt, Zt+h) e detta la h−ma covarianza di Z
In molte applicazioni con dati panel, uit e plausibilmenteautocorrelata
Introduzione all’Econometria
Dati panel
Indipendenza e autocorrelazione nei dati panel
i = 1 i = 2 i = 3 . . . i = nt = 1 u11 u21 u31 . . . un1
......
...t = T u1T u2T u3T . . . unT
Se le unita sono ottenute con campionamento casualesemplice, allora i “vettori colonna” sono indipendenti traloro
Ma se i fattori omessi che comprendono uit sonoserialmente correlati, allora uit sono serialmente correlati
Introduzione all’Econometria
Dati panel
Sotto le assunzioni dei minimi quadrati per datipanel
Lo stimatore OLS con effetto fisso (within) e non distorto,consistente e asintoticamente normale
I consueti errori standard pero (sia omoschedasticita purasia robusti all’eteroschedasticita) sono in generale sbagliatiperche assumono incorrelazione degli uit
spesso gli errori standard OLS sottostimano lo SE (quindil’incertezza della stima): se gli uit sono correlati nel tempo,si ha meno informazione (meno variazione casuale) diquanta si avrebbe se fossero incorrelati
Il problema si risolve usando degli errori standard clustered
Introduzione all’Econometria
Dati panel
Errori standard per dati raggruppati
Stimano la varianza di β1 quando le variabili sono iid tra leunita ma non tra tempi diversi nella stessa unita
Per capirli, consideriamo la stima della media µY usandodati panel
Yit = µ+ uit i = 1, . . . , n, t = 1, . . . , T
Lo stimatore della media e
Y = (nT )−1n∑i=1
T∑t=1
Yit
Y puo essere scritto come media tra le unita del valormedio individuale:
Y = n−1∑i
Yi
dove Yi e la media campionaria per l’unita i
Introduzione all’Econometria
Dati panel
Errori standard per dati raggruppati
Se le osservazioni sono i.i.d. (tra le entita), anche le medie(Y1, . . . , Yn) sono i.i.d. Quindi per n grande, vale il TLC:
Y =1
n
∑i
Yi → N(µ, σ2Yi/n)
L’errore standard di Y e la radice quadrata di unostimatore di σ2
Yi
Lo stimatore naturale di σ2Yi
e la varianza campionaria di
Yi, s2Yi
Questo fornisce una formula per l’errore standard per datiraggruppati per Y usando dati panel
SEC(Y ) =√s2Yi/n
dove s2Yi
= 1n−1
∑ni=1(Yi − Y )2
Introduzione all’Econometria
Dati panel
Errori standard per dati raggruppati
la procedura di derivazione vista in precedenza e la stessausata nel Capitolo 3 per derivare l’errore standard dellamedia campionaria, con la differenza che qui i “dati” sonole medie di unita i.i.d
C’e una caratteristica importante: nella derivazionedell’errore standard per dati raggruppati non abbiamo maiassunto che le osservazioni siano i.i.d. in una unita. Quindiabbiamo implicitamente consentito la correlazione seriale inuna unita.
E la correlazione seriale, dov’e finita? Determina σ2Yi
, la
varianza di Yi
Introduzione all’Econometria
Dati panel
La correlazione seriale in Yit...
σ2Yi
= Var
(T−1
T∑t=1
Yit
)=
1
T 2Var(Yi1 + Yi2 + . . .+ YiT )
=1
T 2Var(Yi1) + Var(Yi2) + . . .+ Var(YiT )
+2Cov(Yi1Yi2) + 2Cov(Yi1Yi3) + . . .+ 2Cov(YiT−1YiT )
Se Yit e serialmente incorrelata, tutte le autocovarianzesono nulle e abbiamo la consueta derivazione (Cap. 3)
Se invece le autocovarianze non sono nulle, la formulaconsueta (che non le considera) sara sbagliata
Introduzione all’Econometria
Dati panel
La correlazione seriale in Yit...
La “magia” degli errori standard per dati raggruppati e che,operando al livello delle unita e delle loro medie, non occorrepreoccuparsi di stimare le autocovarianze sottostanti, che sonostimate automaticamente dalla formula dell’errore standard.
Per contrasto, la formula “consueta” omette tutti i terminimisti, il che e valido solo se le autocovarianze tra le unita intempi diversi sono tutte zero.Ecco i calcoli:
Introduzione all’Econometria
Dati panel
La correlazione seriale in Yit...
s2Yi
=1
n− 1
∑i
(Yi − Y )2
=1
n− 1
∑i
(1
T
∑t
Yit − Y
)2
=1
n− 1
∑i
(1
T
∑t
Yit − Y
)(1
T
∑t
Yit − Y
)
=1
n− 1
∑i
1
T 2
T∑t=1
T∑s=1
(Yit − Y )(Yis − Y )
=1
T 2
T∑t=1
T∑s=1
[1
n− 1
∑i
(Yit − Y )(Yis − Y )
]
=1
T 2
T∑t=1
T∑s=1
[autocov camp. tra Yt e Ys]
Introduzione all’Econometria
Dati panel
Errore standard clustered
Il concetto di errori standard clustered per dati panel e deltutto analogo al precedente caso della media per dati panel- solo piu complesso per notazione e formule.
Gli errori standard clustered per dati panel sonol’estensione logica di quelli robusti all’eteroschedasticita perdati sezionali.
Nella regressione con dati sezionali, gli errori standardrobusti all’eteroschedasticita sono validi indipendentementedal fatto che vi sia eteroschedasticita.
Nella regressione con dati panel, gli errori standardclustered sono validi indipendentemente dal fatto che vi siaeteroschedasticita e/o correlazione seriale.
Il termine “clustered” deriva dal fatto che si consentecorrelazione in un “cluster” (o gruppo) di osservazioni (inuna entita) ma non tra cluster.
Introduzione all’Econometria
Dati panel
Il comando in Gretl
In Gretl l’opzione --robust, di default, calcola gli erroristandard “clustered” (Arellano).
panel fatality const beertax --robust (Arellano) In
alternativa, e possibile scegliere un altro tipo di errori robusti(Beck-Katz SE – psce “Panel-Corrected Standard Errors”)
set pcse on
panel fatality const beertax --robust
Introduzione all’Econometria
Dati panel
Applicazione: leggi sulla guida in stato di ebbrezza emortalita stradale (par. 10.6)
Alcuni fatti:
Circa 40.000 morti sulle strade ogni anno negli USA
1/3 degli incidenti mortali coinvolge un guidatore ubriaco
25% dei guidatori sulle strade tra l’1 e le 3 del mattino habevuto (stima)
Un guidatore ubriaco ha 13 volte piu probabilita di causareun incidente mortale rispetto a un guidatore sobrio (stima)
Introduzione all’Econometria
Dati panel
Applicazione: leggi sulla guida in stato di ebbrezza emortalita stradale (par. 10.6)
Aspetti di politica pubblica
La guida in stato di ebbrezza causa importanti esternalita(guidatori sobri vengono uccisi, la societa sostiene costimedici, ecc.) – vi e ampia giustificazione per un interventodel governo
Esistono modi efficaci per ridurre la guida in stato diebbrezza? Se sı, quali?
Quali sono gli effetti di leggi specifiche:
pene obbligatorieeta minima legale per bere alcoliciinterventi economici (imposte sugli alcolici)
Introduzione all’Econometria
Dati panel
Applicazione: leggi sulla guida in stato di ebbrezza emortalita stradale (par. 10.6)
ROMNEY CELEBRATES THE PASSAGE OFMELANIE’S BILL (October 28, 2005)Legislation puts Massachusetts in line with federal standards for drunkdrivingIl Governatore Mitt Romney ha firmato oggi la piu severa legge contro laguida in stato di ebbrezza nella storia del Commonwealth.
La nuova legge, cosı chiamata in onore della tredicenne Melanie Powell,fissera pene piu severe per incidenti dovuti a guida in stato di ebbrezza inMassachusetts e chiudera qualsiasi spazio nel sistema legislativo che possaconsentire ai guidatori ubriachi recidivi di tornare al volante.
“Oggi rendiamo onore a coloro che hanno perso la vita in insensati incidenti
dovuti a guida in stato di ebbrezza, e agiamo per salvare le vite che
altrimenti rischieremmo di perdere il prossimo anno”, ha detto Romney.
“Oggi abbiamo la Melanie’s Law perche i cittadini del Commonwealth
hanno fatto in modo che cio accadesse”.
Introduzione all’Econometria
Dati panel
Applicazione: leggi sulla guida in stato di ebbrezza emortalita stradale (par. 10.6)
La nuova misura fornisce al pubblico ministero il potere di presentaredocumenti per provare che un recidivo e gia stato condannato perguida in stato di ebbrezza. Inoltre, la pena minima obbligatoria perqualsiasi persona ritenuta colpevole di omicidio con mezzo motorizzato saraaumentata da 2 anni e mezzo a cinque anni.
I recidivi dovranno installare un dispositivo di blocco su qualsiasiveicolo che possiedano o usino. Questi dispositivi misurano il tassoalcolico e impediscono l’avvio dell’auto se il guidatore supera il limite.Chiunque alteri il dispositivo di blocco rischia una condanna penale.[. . .]
La legge inasprisce le pene per chi guida in stato di ebbrezza con
in auto un bambino minore di 14 anni e per chi guida con un
tasso alcolico di 0,20 o superiore, piu del doppio del limite di legge.
Romney ha ringraziato l’assemblea per aver approvato una legge severa che
combatte la guida in stato di ebbrezza in Massachusetts.
Introduzione all’Econometria
Dati panel
Dati panel per la guida in stato di ebbrezza n = 48stati USA, T = 7 anni
Variabili
Tasso di mortalita stradale (morti per 10.000 residenti),anni 1982–1988
Imposta su una cassa di birra (Beertax)
Eta minima di legge per bere alcolici
Pene minime per la prima violazione:
Pena obbligatoriaServizio sociale obbligatoriosentenza pecuniaria
Miglia per veicolo per guidatore (US DOT)
Dati economici sullo stato (reddito pro capite, ecc.)
Introduzione all’Econometria
Dati panel
Perche i dati panel potrebbero aiutare?
Potenziale distorsione da variabili omesse per variabili chevariano tra stati ma sono costanti nel tempo (usa effettifissi di stato):
cultura del bere e del guidarequalita delle stradeeta delle automobili sulle strade
Potenziale distorsione da variabili omesse per variabili chevariano nel tempo ma sono costanti tra stati (usa effettitemporali):
miglioramenti nella sicurezza delle auto nel tempomutamento atteggiamenti verso la guida in stato diebbrezza a livello nazionale
Introduzione all’Econometria
Dati panel
Analisi empirica: risultati principali
Introduzione all’Econometria
Dati panel
Analisi empirica: risultati principali
Introduzione all’Econometria
Dati panel
Analisi empirica: risultati principali
Il segno del coefficiente dell’imposta sulla birra cambiaquando sono inclusi gli effetti fissi dello stato
Gli effetti temporali sono statisticamente significativi ma laloro inclusione non ha un grande impatto sui coefficientistimati
L’effetto stimato dell’imposta sulla birra cala quando siincludono altre leggi.
L’unica variabile politica che sembra avere un impatto el’imposta sulla birra – non l’eta legale minima per berealcolici, non la pena minima obbligatoria ecc. – tuttavial’imposta sulla birra non e significativa anche al livello del10% usando errori standard clustered nelle specifiche checontrollano per le condizioni economiche dello stato (tassodi disoccupazione, reddito personale)
Introduzione all’Econometria
Dati panel
Analisi empirica: risultati principali
In particolare, l’eta legale minima per bere alcolici ha uncoefficiente piccolo che e stimato con precisione –riducendola non pare si abbia un grande effetto sullamortalita stradale complessiva.
Quali sono le minacce alla validita interna? Cosa si puodire su:
1 Distorsione da variabili omesse2 Errata forma funzionale3 Distorsione da errori nelle variabili4 Distorsione da selezione del campione5 Distorsione da causalita simultanea
Che cosa ne pensate?
Introduzione all’Econometria
Dati panel
Digressione: estensioni del concetto di “n− 1regressori binari”
L’idea di utilizzare molti indicatori binari per eliminare ladistorsione da variabili omesse puo essere estesa a dati nonpanel. La chiave e che la variabile omessa sia costante per ungruppo di osservazioni, il che in effetti significa che ciascungruppo ha la propria intercetta.
Esempio: effetto della dimensione delle classi. Supponiamo chelivelli di finanziamento e di istruzione siano determinati a livellodella contea, e che ogni contea abbia diversi distretti. Se si epreoccupati della distorsione da variabili omesse risultante davariabili non osservate a livello di contea, si possono includeregli effetti di contea (indicatori binari, uno per ciascuna contea,omettendo una sola contea per evitare la collinearita perfetta).
Introduzione all’Econometria
Dati panel
Riepilogo: regressione con dati panel
Vantaggi
Si puo controllare per variabili non osservate che varianotra stati ma non nel tempo e/o che variano nel tempo manon tra stati
Piu osservazioni (su ciascuna unita) ⇒ piu informazioni
Estensione relativamente semplice della stima OLS
Limitazioni
Necessaria la variazione nel tempo di Xi (altrimenti e comeun effetto fisso)
Gli effetti di ritardo temporale posso essere importanti(aggiungere?)
E necessario usare errori standard clustered per coprire ilcaso in cui gli errori siano autocorrelati
Introduzione all’Econometria
Modelli per dati categorici
Capitolo 11
Modelli di regressione per variabile dipendentecategorica
Introduzione all’Econometria
Modelli per dati categorici
Outline
Regressione con dati panel
(1) Modello lineare di probabilita
(2) Regressioni probit e logit
(3) Stime e inferenza nei modelli logit e probit
(4) Applicazione alla discriminazione razzialenella concessione dei mutui
Introduzione all’Econometria
Modelli per dati categorici
Variabili dipendenti binarie: qual’e la differenza?
Finora tutte le variabili dipendenti (Y ) che abbiamoconsiderato erano continue:
punteggio medio a livello del distretto nei teststandardizzati
tasso di mortalita stradale
Che succede se Y e binaria?
Y = decisione di andare all’universita; X =voti del liceo,punteggi SAT, variabili demografiche e economiche;
Y = decisione di fumare; X = imposte sulle sigarette,reddito, variabili demografiche;
Y = accettazione domanda di mutuo; X =razza, reddito,caratteristiche della casa, stato civile...
Introduzione all’Econometria
Modelli per dati categorici
Esempio: negazione del mutuo e razza dati delBoston Fed HMDA
Domande individuali per mutui unifamiliari effettuate nel1990 nell’area della citta di Boston
2380 osservazioni, raccolte ai sensi della legge HomeMortgage Disclosure (HMDA)
Variabili:
Variabile dipendente: Il mutuo e concesso o negato?
Variabili indipendenti:
reddito, ricchezza, stato occupazionalealtro prestito, caratteristiche della proprietaetnia del richiedente
Introduzione all’Econometria
Modelli per dati categorici
Modello lineare di probabilita
Un punto di partenza naturale e il modello di regressionelineare con un singolo regressore:
Yi = β0 + β1Xi + ui
Che cosa significa β1 quando Y e binaria? β1 = ∆Y∆X ?
Che cosa significa β0 + β1X quando Y e binaria?
Che cosa significa il valore predetto (o previsto) Y quandoY e binaria? Per esempio, cosa significa Yi = 0.26?
Introduzione all’Econometria
Modelli per dati categorici
Modello lineare di probabilita
Nel modello lineare di probabilita, il valore predetto di Y einterpretato come la probabilita predetta che Y = 1 e β1 e lavariazione di tale probabilita predetta per una variazioneunitaria in X.Modello lineare di probabilita:
Quando Y e binaria,
E(Y | X) = 1×P (Y = 1 | X)+0×P (Y = 0 | X) = P (Y = 1 | X)
Sotto l’assunzione dei minimi quadrati E(ui | Xi) = 0,quindi
E(Y | X) = E(β0 + β1Xi + ui | Xi) = β0 + β1Xi
⇒ P (Y = 1 | X) = β0 + β1X1
⇒ Il modello di regressione Yi = β0 + β1Xi + ui e chiamatomodello lineare di probabilia perche
Introduzione all’Econometria
Modelli per dati categorici
Modello lineare di probabilita
Il valore predetto e una probabilita:
E(Y | X = x) = P (Y = 1 | X = x) = prob. che Y = 1 datax
Yi = prob. prevista che Yi = 1 data Xi
β1 e la variazione della probabilita che Y = 1 per unavariazione unitaria di X:
β1 =P (Y = 1 | X = x+ ∆x)− P (Y = 1 | X = x)
∆x
Introduzione all’Econometria
Modelli per dati categorici
Esempio: Modello lineare di probabilita
Negazione di mutuo vs rapporto tra rata e reddito (per unsottoinsieme di HMDA di 127 osservazioni)
Introduzione all’Econometria
Modelli per dati categorici
Modello lineare di probabilita
Modello stimato (n = 2380):
deny =−0.080(0.032)
+ 0.604(0.098)
PIratio
Valore previsto se rapporto rata/reddito=0.3?
P (deny | PIratio = 0.3) = −0.080 + 0.604× 0.3 = 0.151
Calcolo degli effetti: aumento il rapporto da 0.3 a 0.4
P (deny | PIratio = 0.4) = −0.080 + 0.604× 0.4 = 0.212
L’effetto sulla probabilita di negazione di un aumento nelrapporto rata/reddito da 0.3 a 0.4 e di un aumento dellaprobabilita pari a 0.0604, vale a dire ca. 6 punti percentuali
Introduzione all’Econometria
Modelli per dati categorici
Modello lineare di probabilita
Ora includiamo la variabile black come regressore:
Modello stimato (n = 2380):
deny =−0.091(0.032)
+ 0.559(0.098)
PIratio+ 0.177(0.025)
black
Probabilita prevista di negazione per richiedenti conPIratio = 0.3
P (deny = 1 | PIratio = 0.3, black = 1) = −0.091+0.559×0.3+0.177×1 = 0.254
Calcolo degli effetti: aumento il rapporto da 0.3 a 0.4
P (deny = 1 | PIratio = 0.3, black = 0) = −0.080+0.559×0.3+0.177×0 = 0.077
Differenza: = 0.177, vale a dire 17.7 punti percentuali
Coefficiente di black significativo al livello 1%
Ancora molto spazio per distorsione da variabili omesse...
Introduzione all’Econometria
Modelli per dati categorici
Modello lineare di probabilita
Modella P (Y = 1 | X) come funzione lineare di X;
Vantaggio: semplice da stimare e interpretare
Vantaggio: stima uguale al caso di regressione linearemultipla;
Svantaggio: la variazione di probabilita prevista per undeterminato cambiamento in X e la stessa per ogni X(costante) ma non ha senso in molte applicazioni!
Svantaggio: la probabilita prevista puo essere negativa omaggiore di 1!!!
Questi svantaggi possono essere superati usando un modellononlineare di probabilita: regressioni logit e probit
Introduzione all’Econometria
Modelli per dati categorici
Regressioni logit e probit
Noi vogliamo
1 P (Y = 1 | X) crescente in X per β1 > 0
2 0 ≤ P (Y = 1 | X) ≤ 1 per ogni X
Per ottenere cio abbiamo bisogno di usare una forma funzionalenon lineare. Il modello probit soddisfa entrambe le condizioni:
Introduzione all’Econometria
Modelli per dati categorici
Regressione probit
Modella la probabilita di Y = 1 (condizionata) utilizzando lafunzione di ripartizione normale Φ(z), valutata nel puntox = β0 + β1x:
P (Y = 1 | X) = Φ(β0 + β1X)
Il valore z = β0 + β1X e chiamato indice z del modello probit.Esempio Supponiamo che β0 = −2, β1 = 3, X = 0.4. Quindi:
P (Y = 1 | X = 0.4) = Φ(−2 + 3× 0.4) = Φ(−0.8) =??
Introduzione all’Econometria
Modelli per dati categorici
Regressione probit
Perche utilizzare la funzione di ripartizione normale?
La forma “a S” fornisce cio che desideriamo:
(i) P (Y = 1 | X) crescente in X se β1 > 1 (come il modello lin.di prob.)
(ii) 0 ≤ P (Y = 1 | X) ≤ 1 per ogni X (a differenza del modellolin. prob.)
Facile da utilizzare. Probabilita si trovano nelle tabelle diripartizione normale, e sono calcolate da molti softwarestatistici (Gretl, R , matlab, Stata...)
Interpretazione relativamente semplice:
β0 + β1X = indice z (o valore z)
β0 + β1X, valore z previstoβ1 = variazione nel valore z per una variazione unitaria di X
Introduzione all’Econometria
Modelli per dati categorici
Esempio: dati HMDA
? probit Deny const pi_ratio --robust
Model 4: Probit, using observations 1-2380
Dependent variable: Deny
QML standard errors
coefficient std. error z slope
--------------------------------------------------------
const -2.19416 0.164941 -13.30
pi_ratio 2.96791 0.465224 6.380 0.567815
Mean dependent var 0.119748 S.D. dependent var 0.324735
slope Cos’e? Poiche la funzione Φ(z) non e lineare, la derivata∂Φ(β0 + β1x)/∂x 6= β1, ma dipende anche dal livello di x.slope e il valore della derivata calcolata in x = X, ossiaslope = φ(β0 + β1X)β1.
Introduzione all’Econometria
Modelli per dati categorici
Regressione probit
P (Y = 1 | PIratio) = Φ(−2.19(0.16)
+ 2.97(0.47)
×PIratio)
Coefficiente positivo: ha senso?
Gli errori standard hanno l’interpretazione consueta
Probabilita previste: P (deny = 1 | PIratio = 0.3) =Φ(−2.19 + 2.97× 0.3) = Φ(−1.3) = 0.097P (deny = 1 | PIratio = 0.4) = Φ(−2.19 + 2.97× 0.4) =Φ(−1.00) = 0.159
Effetto della variazione nel rapporto P/I da 0.3 a 0.4: Laprobabilita di rifiuto passa da 0.097 a 0.159 (aumento di6.2 punti percentuali, in linea con il modello lineare).
Introduzione all’Econometria
Modelli per dati categorici
Regressione probit con regressori multipli
P (Y = 1 | X1, X2) = Φ(β0 + β1X1 + β2X2)
Φ e la funzione di ripartizione normale
z = β0 + β1X1 + β2X2 e il “valore z” o “indice z” delmodello probit
β1 e l’effetto sul valore z di una variazione unitaria di X1,tenendo costante X2
Proviamo ad aggiungere black
Introduzione all’Econometria
Modelli per dati categorici
Esempio: dati HMDA
? probit Deny const pi_ratio Black --robust
Oppure, con l’opzione --p-values:
? probit Deny const pi_ratio Black --robust --p-values
Model 6: Probit, using observations 1-2380
Dependent variable: Deny
QML standard errors
coefficient std. error z p-value
--------------------------------------------------------
const -2.25874 0.158788 -14.22 6.42e-46 ***
pi_ratio 2.74164 0.444081 6.174 6.67e-10 ***
Black 0.708158 0.0831706 8.515 1.67e-17 ***
Introduzione all’Econometria
Modelli per dati categorici
Esempio: dati HMDA
P (Y = 1 | PIratio, black) = Φ(−2.26(0.16)
+2.74(0.44)×PIratio+0.71
(0.08)black)
Il coefficiente di black e statisticamente significativo?
Effetto stimato di black e del rapporto P/I:
P (deny = 1 | 0.3, 1) = Φ(−2.26 + 2.74× 0.3 + 0.71× 1) = 0.233P (deny = 1 | 0.3, 0) = Φ(−2.26 + 2.74× 0.3 + 0.71× 0) = 0.075
Differenza nelle probabilita di rifiuto= 0.158 (15.8 puntipercentuali!!)
Molto. Pero, ancora molto spazio per distorsione davariabili omesse!
Introduzione all’Econometria
Modelli per dati categorici
Regressione logit
Modella la probabilita di Y = 1 (condizionata) utilizzando lafunzione di ripartizione logistica standard, valutata inz = β0 + β1X:
P (Y = 1 | X) = F (β0 + β1X)
dove
F (β0 + β1X) =1
1 + e−(β0+β1X)
I coefficienti della regressione logit sono diversi da quelli dellaregressione probit, perche la funzione di ripartizione usata ediversa.Esempio: β0 = −3, β1 = 2, X = 0.4 ⇒ β0 + β1X = −2.2percio (Y = 1 | X = 0.4) = 1/(1 + e2.2) = 0.0998
Introduzione all’Econometria
Modelli per dati categorici
Perche usare la regressione logit?
Motivo storico: il logit e piu veloce e piu semplice dalpunto di vista computazionale. Oggigiorno questo pero nonha piu molta importanza
Nella pratica: logit e probit sono molto simili e dannorisultati simili (a livello di probabilita predette). Tendonoad essere usati entrambi
Introduzione all’Econometria
Modelli per dati categorici
Esempio dati HMDA
? logit Deny const pi_ratio Black --robust --p-values
Model 7: Logit, using observations 1-2380
Dependent variable: Deny
QML standard errors
coefficient std. error z p-value
--------------------------------------------------------
const -4.12556 0.345752 -11.93 8.05e-33 ***
pi_ratio 5.37036 0.963141 5.576 2.46e-08 ***
Black 1.27278 0.146068 8.714 2.94e-18 ***
Mean dependent var 0.119748 S.D. dependent var 0.324735
McFadden R-squared 0.087595 Adjusted R-squared 0.084155
Introduzione all’Econometria
Modelli per dati categorici
Esempio dati HMDA
Le probabiliita previste con i due modelli logit e probit sonomolto vicine:
Anche se i parametri sono molto diversi, ma questo dipendedalla differenza di Φ da F
Introduzione all’Econometria
Modelli per dati categorici
Stima e inferenza nei modelli logit e probit
Consideriamo il modello probit
Minimi quadrati nonlineari
Stima di massima verosimiglianza (cio che viene fatto nellapratica)
Minimi quadrati nonlineari:
minb0,b1
n∑i=1
(Yi − Φ(b0 + b1Xi))2
Come risolvere questo problema di minimizzazione?
Risolto numericamente (algoritmi di minimizzazione)
Lo stimatore pero non e efficiente. Uno stimatore miglioresi ottiene con la max verosimiglianza
Introduzione all’Econometria
Modelli per dati categorici
Stima di max verosimiglianza nel modello probit
La funzione di verosimiglianza e la distribuzione delcampione Y1, . . . , Yn condizionata ai valori X1, . . . , Xn, trattatacome una funzione dei parametri β0, β1
Lo stimatore di massima verosimiglianza (MLE) e quelvalore (β0, β1) che massimizza la funzione di(log)verosimiglianza
MLE e il valore di (β0, β1) piu plausibile alla luce delleosservazioni campionarie
In grandi campioni, MLE e:
consistentenormalmente distribuitoefficiente (varianza piu piccola)
Introduzione all’Econometria
Modelli per dati categorici
Caso particolare: MLE probit senza alcuna X
Y =
{1 con probabilita p0 con probabilita 1− p (Distribuzione di Bernoulli)
Campione: Y1, . . . , Yn.
P (Y1 = 1) = p, P (Y1 = 0) = 1− p ⇒P (Y1 = y1) = py1(1− p)1−y1
Distrib. congiunta di Y1, Y2:
P (Y1 = y1, Y2 = y2) = P (Y1 = y1)× P (Y2 = y2)
= py1(1− p)1−y1 × py2(1− p)1−y2
= py1+y2(1− p)2−(y1+y2)
Distribuzione di Y1, . . . , Yn:
P (Y1 = y1, Y2 = y2, . . . , Yn = yn)
= py1 (1− p)1−y1 × py2 (1− p)1−y2 × · · · × pyn (1− p)1−yn
= p∑i yi (1− p)n−
∑i yi
Introduzione all’Econometria
Modelli per dati categorici
Caso particolare: MLE probit senza alcuna X
Quindi, la verosimiglianza e la funzione (di p!!!):
f(p;Y1, . . . , Yn) = p∑i yi(1− p)n−
∑i yi
Massimizzare la verosimiglianza e equivalente a massimizzare lalogverosimiglianza:
ln[f(p;Y1, . . . , Yn)] =∑i
yi ln(p) + (n−∑i
yi) ln(1− p)
Condizioni del primo ordine (CPO):
∂ ln[f(p;Y1, . . . , Yn)]
∂p=∑i
yi1
p− (n−
∑i
yi)1
1− p= 0
Risolvendo per p si ottiene pMLE .
Introduzione all’Econometria
Modelli per dati categorici
Caso particolare: MLE probit senza alcuna X
Facile vedere che la CPO implica:∑i
yi1
pMLE= (n−
∑i
yi)1
1− pMLE
Y
1− Y=
pMLE
1− pMLE
Y = pMLE
Questa stima non e una sorpresa vero?
In questo modello, MLE e lo stimatore naturale di p cioe lafrazione di 1.
E asintoticamente normale perche e una media. Quindi tutta l’inferenza(compresi IC e test t) si fa come di consueto
E efficiente. Risultato proprio delle stime MLE che raggiungono il limiteinferiore di Cramer-Rao (per n grande)
Introduzione all’Econometria
Modelli per dati categorici
Verosimiglianza probit con una X
Condizionatamente a X, Y e ancora una Bernoulli, solo che ilparametro p dipende da X:
Y | X =
{1 con probabilita Φ(β0 + β1X)0 con probabilita 1− Φ(β0 + β1X)
Quindi, come prima,
P (Y1 = y1 | X) = Φ(β0 + β1X1)y1(1− Φ(β0 + β1X1))1−y1
e la funzione di verosimiglianza e:
f(β0, β1;Y1, . . . , Yn) =∏i
Φ(β0 + β1Xi)yi(1− Φ(β0 + β1Xi))
1−yi
La logverosimiglianza:
ln[f(β0, β1;Y1, . . . , Yn)] =∑i
yi ln(Φ(β0 +β1Xi))+∑i
(1−yi) ln(1−Φ(β0 +β1Xi))
Introduzione all’Econometria
Modelli per dati categorici
Verosimiglianza probit con una X
Per trovare βMLE0 e βMLE
1 dobbiamo massimizzare lalogverosimiglianza.
Problema: non possiamo risolvere in forma chiusa le 2 equazioniche corrispondono alle condizioni del primo ordine.
MLE viene calcolato mediante metodi numerici. Le stimeottenute hanno le stesse proprieta di pMLE per grandicampioni.
Gli errori standard sono calcolati automaticamente da Gretl (oStata...), il calcolo degli IC viene fatto nel solito modo e cosı lacostruzione di test t
Introduzione all’Econometria
Modelli per dati categorici
Verosimiglianza logit con una X
Unica differenza rispetto al caso probit e la funzione usata perla probabilita condizionata. Quindi:
Verosimiglianza:
f(β0, β1;Y1, . . . , Yn) =∏i
F (β0+β1Xi)yi(1−F (β0+β1Xi))
1−yi
Logverosimiglianza:
ln[f(β0, β1;Y1, . . . , Yn)] =∑i
yi ln(F (β0+β1Xi))+∑i
(1−yi) ln(1−F (β0+β1Xi))
Per la particolare forma della funzione logistica:logF (u)/(1− F (u)) = u e quindi
ln[f(β0, β1;Y1, . . . , Yn)] =∑i
[yi(β0 + β1Xi) + ln(1− F (β0 + β1Xi))]
Introduzione all’Econometria
Modelli per dati categorici
Misure di adattamento logit e probit
R2 e adjR2 non hanno senso qui. Si utilizzano altre misurespeciali.
Frazione correttamente predetta Frazione di Yi per iquali il valore predetto Yi e piu vicino al valore correttocioe al valore realmente osservato, che a quello “sbagliato”.
Pseudo-R2: misura il miglioramento della massimalogverosimiglianza rispetto al caso “senza X”. Si semplificaa R2 nel caso di errori normalmente distribuiti.
Introduzione all’Econometria
Modelli per dati categorici
Frazione correttamente predetta
Si basa sulla capacita predittiva del modello.
Valore predetto Yi = 1 se P (Yi | Xi) > 0.5, altrimenti ilvalore predetto e 0
Tutte le volte che Yi = 1 in corrispondenza diP (Yi | Xi) > 0.5 OPPURE Yi = 0 con P (Yi | Xi) < 0.5, ilvalore di Yi e correttamente predetto
Si contano tutte le unita che sono correttamente predettedal modello e si divide per la numerosita campionaria:questa e la frazione correttamente predetta
Per avere un’idea della bonta del modello, questa vieneconfrontata con la frazione correttamente predetta delmodello base, senza regressori
Introduzione all’Econometria
Modelli per dati categorici
Pseudo-R2
Ce ne sono diversi. Ci limitiamo alla definizione di uno dei piuusati: l’R2 di MacFadden
Si considera la logverosimiglianza massima (calcolata incorrispondenza delle stime) `(β0, β1)
Questa viene confrontata con quella corrispondente almodello base (nessun regressore) `(p)
La logverosimiglianza `(β0, β1) dovrebbe essere maggiore di`(p). Se e uguale, vuol dire che non c’e stato alcunmiglioramento rispetto al modello piu semplice
R2MF = 1− `(β0,β1)
`(p) , sempre compreso tra 0 e 1.
Introduzione all’Econometria
Modelli per dati categorici
Dataset HDMA
Dati sulle caratteristiche individuali, caratteristiche diproprieta e rifiuto/concessione del prestito
Processo di domanda di mutuo: (i) Recarsi alla banca osocieta di finanziamento; (ii) Compilare una domanda (infopersonali+finanziarie); (iii) Incontrare il funzionario deimutui
Quindi il funzionario decide – per legge, a prescinderedall’etnia. Presumibilmente la banca vuole concederemutui redditizi e (se gli incentivi all’interno della banca odell’ufficio responsabile dei prestiti sono giusti) ilfunzionario dei prestiti non vuole originare inadempienze.
Introduzione all’Econometria
Modelli per dati categorici
Dataset HDMA
Il funzionario prestiti utilizza variabili finanziarie chiave:
Rapporto P/I (rata/reddito)Rapporto spesa per la casa sul redditoRapporto mutuo su valoreStoria creditizia personale
La regola decisionale non e lineare
Introduzione all’Econometria
Modelli per dati categorici
Specificazioni della regressione
P (Deny = 1 | black, altre X)
modello lineare di probabilia
probit (o logit)
Problema principale con le regressioni fin qui: distorsionepotenziale delle variabili omesse. Le variabili seguenti (i)entrano nella decisione del funzionario e (ii) sono o potrebberoessere correlate all’etnia:
Ricchezza, tipo di occupazione
storia del credito
ceto familiare
Fortumatamente il dataset HDMA e molto ricco...
Introduzione all’Econometria
Modelli per dati categorici
Risultati
Introduzione all’Econometria
Modelli per dati categorici
Risultati
Introduzione all’Econometria
Modelli per dati categorici
Risultati
Introduzione all’Econometria
Modelli per dati categorici
Risultati
Introduzione all’Econometria
Modelli per dati categorici
Risultati
Introduzione all’Econometria
Modelli per dati categorici
Riepilogo risultati empirici
coefficienti delle variabili finanziarie sono sensati
Black e statisticamente significativa in tutte lespecificazioni
Le interazioni non sono significative, ma black+interazionisi.
Includendo le covariate si riduce bruscamente l’effettodell’etnia sulla probabilita di rifiuto
LPM, probit, logit: stime simili di effetto dell’etnia sullaprobabilita di rifiuto.
Gli effetti stimati sono grandi se considerati “nel mondoreale”
Introduzione all’Econometria
Stima IV
Capitolo 12
Regressione con variabili strumentali
Introduzione all’Econometria
Stima IV
Outline
Regressione con variabili strumentali
(1) Regressione IV: cosa e perche; TSLS
(2) Il modello generale di regressione IV
(3) Verifica della validita degli strumenti
(4) Applicazione: domanda di sigarette
Introduzione all’Econometria
Stima IV
Regressione IV: perche?
Tre importanti minacce alla validita interna sono:
Distorsione da variabili omesse per una variabile correlatacon X ma inosservata (non puo essere inclusa nellaregressione) e per cui vi sono variabili di controlloinadeguate;
Distorsione da causalita simultanea (X causa Y , Y causaX);
Distorsione da errori nelle variabili (X e misurata conerrore)
Tutti e tre i problemi implicano E(u | X) 6= 0
La regressione con variabili strumentali puo eliminarela distorsione quando E(u | X) 6= 0, usando una variabilestrumentale Z
Introduzione all’Econometria
Stima IV
Endogeneita e esogeneita
Una variabile correlata con u si dice variabile endogenaUna variabile incorrelata con u si dice variabile esogena
Per introdurre la regressione IV ci concentriamo sul caso di unasola variabile endogena X e uno strumento Z esogeno.Affinche la regressione IV risolva il problema di distorsionedovuto all’endogeneita di X, e necessario che lo strumento siavalido
Introduzione all’Econometria
Stima IV
Validita di uno strumento
Consideriamo il modello lineare
Yi = β0 + β1Xi + ui
con X endogena.Una variabile strumentale (o strumento) Z e valido se:
Rilevanza: corr(Zi, Xi) 6= 0
Esogenita: corr(Zi, ui) = 0
Supponiamo per ora di avere una variabile Zi che soddisfaquesti 2 requisiti: come possiamo usarla per stimare β1?
Introduzione all’Econometria
Stima IV
Stimatore IV con una X e una Z: minimi quadrati adue stadi (TSLS)
Si deriva la stima IV attraverso due regressioni in due stadisuccessivi:
1 Regressione OLS di X su Z:
Xi = π0 + π1Zi + vi
Si isola la parte di X incorrelata con u, ossiaX = π0 + π1Z, che e incorrelata perche lo e Z
2 Si usa X invece di X nella regressione di interesse:
Yi = β0 + β1Xi + ui
⇒ allora Cov(u, X) = 0, quindi β1 e stimato in manieraconsistente usando la regressione del secondo stadio
Lo stimatore risultante e βTSLS1 , stimatore dei min. quad. in 2stadi ed e consistente per β1.
Introduzione all’Econometria
Stima IV
Stimatore IV con una X e una Z: derivazionealgebrica diretta
Se Yi = β0 + β1Xi + ui, allora:
Cov(Yi, Zi) = Cov(β0 + β1Xi + ui, Zi)
= Cov(β0, Zi) + β1Cov(Xi, Zi) + Cov(ui, Zi)
= β1Cov(Xi, Zi)
che implica
β1 =Cov(Yi, Zi)
Cov(Xi, Zi)
Sostituendo alle covarianze le covarianze campionarie si ottienelo (stesso di prima) stimatore
βTSLS1 =sY ZsXZ
Introduzione all’Econometria
Stima IV
Stimatore IV con una X e una Z: derivazione dalla“forma ridotta”
La “forma ridotta” mette in relazione Y a Z e X a Z in duediverse equazioni di regressione (simultanee):
Xi = π0 + π1Zi + viYi = γ0 + γ1Zi + wi
vi, wi termini di errore. Z e esogena, quindi incorrelata con v ew.
L’intuizione e questa:
π1 e l’effetto di una variazione di Z su X ⇒ ∆X = π1∆Z etale variazione e esogena perche causata da Z
γ1 e l’effetto di una variazione di Z su Y ⇒ ∆Y = γ1∆Z
Se β1 e l’effetto di una variazione esogena di X su Y ⇒∆Y = β1∆X = β1π1∆Z = γ1∆Z ⇒ β1π1 = γ1
⇒ β1 = γ1/π1
Introduzione all’Econometria
Stima IV
Stimatore IV con una X e una Z: derivazione dalla“forma ridotta”
In formule:
Xi = π0 + π1Zi + viYi = γ0 + γ1Zi + wi
⇒ Zi = −π0/π1 + (1/π1)Xi − (1/π1)vi
Sostituiamo nella seconda equazione
Yi = γ0 + γ1Zi + wi
= γ0 + γ1
[−π0/π1 + (1/π1)xi − (1/π1)vi
]+ wi
= γ0 − π0γ1/π1 + (γ1/π1)Xi + (wi − (γ1/π1)vi)
= β0 + β1Xi + ui
dove abbiamo posto β0 = γ0 − π0γ1/π1, β1 = γ1/π1 eui = wi − (γ1/π1)viuna variazione esogena in Xi di π1 unita e associata auna variazione in Yi di γ1 unita, percio l’effetto su Y diuna variazione unitaria esogena in X e β1 = γ1/π1.
Introduzione all’Econometria
Stima IV
Esempio 1: effetto dello studio sui voti
Qual’e l’effetto sui voti di un’ora in piu al giorno di studio?
Y = media voti
X = tempo di studio
Dati: voti e ore di studio di studenti del primo anno di collegeSecondo voi: lo stimatore OLS di β1 (effetto sulla media di votidi un’ora di studio in piu) e non distorto? Perche? O percheno?Fattori omessi. Ad esempio: motivazione dello studente,abilita...
Introduzione all’Econometria
Stima IV
Esempio 1: effetto dello studio sui voti
Stinebrickner, Ralph and Stinebrickner, Todd R. (2008): “TheCausal Effect of Studying on Academic Performance”, The B.E.Journal of Economic Analysis & Policy: Vol. 8: Iss. 1(Frontiers), Article 14.
n = 210 studenti primo anno Berea College (Kentucky) nel2001
Y = media voti primo semestre
X = media ore di studio giornaliere
Compagni di stanza assegnati casualmente
Z = 1 se il compagno di stanza ha un videogioco
Z e uno strumento valido?
E rilevante (correlato con X)?
E esogeno (incorrelato con u)?
Introduzione all’Econometria
Stima IV
Esempio 1: effetto dello studio sui voti
Xi = π0 + π1Zi + vi
Yi = γ0 + γ1Zi + wi
Risultati di Stinebrickner & Stinebrickner: (conregressori aggiuntivi...ci torneremo piu avanti)
π1 = −0.668
γ1 = −0.241
βIV1 =γ1
π1= 0.360
Introduzione all’Econometria
Stima IV
Consistenza dello stimatore TSLS
Ricordiamo cheβTSLS1 =
sY ZsXZ
Fatto N.1: Le covarianze campionarie sono consistenti perle covarianze:
sY Z → Cov(Y,Z) sXZ → Cov(X,Z)
Fatto N.2: La condizione di rilevanza di Z garantisce chesXZ 6→ 0
⇒ βTSLS1 = sY ZsXZ→ Cov(Y,Z)
Cov(X,Z)
Introduzione all’Econometria
Stima IV
Esempio 2: Offerta e domanda di burro
La regressione IV e stata sviluppata in origine per stimarel’elasticita della domanda per beni agricoli, per esempio burro:
ln(Qbutteri
)= β0 + β1 ln
(P butteri
)+ ui
β1 = elasticita del burr o=variazione percentuale inquantita per una variazione dell’1% di prezzo
Dati: Osservazioni su prezzo e quantita di burro perdiversi anni
La regressione OLS di ln(Qbutteri
)su ln
(P butteri
)soffre di
distorsione da causalita simultanea (il prezzo determina laquantita , la quantita determina il prezzo)
Introduzione all’Econometria
Stima IV
Esempio 2: Offerta e domanda di burro
Infatti: prezzo e quantita sonodeterminati dall’interazione didomanda e offerta
Questa interazione tra do-manda e offerta produce daticome questi:
Introduzione all’Econometria
Stima IV
Esempio 2: Offerta e domanda di burro
TSLS stima la curva di domanda isolando gli spostamenti diprezzo e quantita conseguenti a spostamenti dell’offertaZ e una var. che sposta l’offerta ma non la domanda
Introduzione all’Econometria
Stima IV
Esempio 2: Offerta e domanda di burro
ln(Qbutteri
)= β0 + β1 ln
(P butteri
)+ ui
Consideriamo lo strumento: Z = pioggia nelle aree diproduzione lattiera.Z e uno strumento valido?
1 Rilevante? corr(raini, ln(P butteri
)) 6= 0?
Plausibile: la pioggia insufficiente significa meno pascoloquindi meno burro e prezzi piu alti
2 Esogeno? corr(raini, ui) = 0?Plausibile: la pioggia nelle aree di produzione lattiera nondovrebbe influenzare la domanda di burro
Introduzione all’Econometria
Stima IV
Esempio 2: Offerta e domanda di burro
ln(Qbutteri
)= β0 + β1 ln
(P butteri
)+ ui
Zi = raini pioggia nelle aree di produzione lattiera.
1 Regressione di ln(P butteri
)su rain (inclusa costante) ⇒
ln(P butteri
).
2 Regressione di ln(Qbutteri
)su ln
(P butteri
)
Introduzione all’Econometria
Stima IV
Esempio 3: Punteggi nei test e dimensioni delle classi
Le regressioni di TestScore su STR potrebbero averedistorsione da variabile omessa (es. partecipazione deigenitori)
Questa distorsione puo essere eliminata dalla regressioneIV (TSLS)
Un’idea per uno strumento: alcuni distretti, colpiti da unterremoto, raddoppiano le classi. Allora possiamo usareZi = Quakei = 1 se il distretto i e stato colpito da unterremoto.E uno strumento valido?
1 Il terremoto crea una situazione come se i distrettirientrassero in un esperimento con assegnazione casuale.Quindi la variazione di STR conseguente al terremoto eesogena
2 Il primo stadio del TSLS prevede la regressione di STR suQuake, isolando cosı la parte esogena di STR
Introduzione all’Econometria
Stima IV
Inferenza con TSLS
In grando campioni, la distribuzione campionaria dellostimatore TSLS e normale
L’inferenza (IC, verifica di ipotesi) si fa nel modo consueto,ovvero CI = (stimatoreTSLS ± 1, 96SE)
Il concetto alla base della normalita asintotica e che ancheil TSLS puo essere scritto come una somma di v.c. i.i.d., acui possiamo applicare il TLC
Introduzione all’Econometria
Stima IV
Inferenza con TSLS
Si ottieneβTSLS1 ≈ N(β1, σ
2βTSLS1
)
dove
σ2βTSLS1
=1
n
Var(Zu)
[Cov(X,Z)]2
e dove Cov(X,Z) 6= 0 perche lo strumento e rilevante
Tutto questo assume che gli strumenti siano validi –vedremo tra breve che cosa accade se non lo sono.
Nota sugli errori standard: Gli errori standard OLS dallaregressione del secondo stadio non sono corretti perche nontengono conto della stima al primo stadio. ⇒ Si utilizza inveceun singolo comando apposito che calcola lo stimatore TSLS egli errori standard corretti (robusti all’eteroshedasticita)
Introduzione all’Econometria
Stima IV
Esempio 4: domanda di sigarette
ln(Qcigari
)= β0 + β1 ln
(P cigari
)+ ui
Perche lo stimatore OLS e probabilmente distorto?
Dati panel su consumo annuo e prezzi medi (compreseimposte) delle sigarette per stato (48 stati USA), anni1985-1995
Zi = imposta generale sulle vendite al pacchetto nelloStato=SalesTaxi
E uno strumento valido? SI: correlato con i prezzi, ma noncon ui (la domanda di sigarette non dipende direttamenteda SalesTax)
Introduzione all’Econometria
Stima IV
Esempio 4: domanda di sigarette
Per ora usiamo solo i dati del 1995 (n = 48)smpl year=1995 --restrict
Primo stadio:
ln(P cigari
)= 4.63 + 0.031SalesTax
Secondo Stadio:
ln(Qcigari
)= 9.72− 1.08
ln(P cigari
)+ ui
Regressione TSLS con errori standard corretti e HC:
ln(Qcigari
)=9.72
(1.53)− 1.08
(0.32)
ln(P cigari
)+ ui
Introduzione all’Econometria
Stima IV
Esempio 4: domanda di sigarette
Regressione di primo stadio
? ols lravgprs const rtaxso --robust
Model 1: OLS, using observations 1-48
Dependent variable: lravgprs
Heteroskedasticity-robust standard errors, variant HC1
coefficient std. error t-ratio p-value
--------------------------------------------------------
const 4.616546 0.0289177 159.64 0.000 ***
rtaxso 0.0307289 0.0048354 6.35 0.000 ***
R-squared 0.4710
F(1, 46) 40.39 P-value(F) 0.0000
Introduzione all’Econometria
Stima IV
Esempio 4: domanda di sigarette
Regressione di secondo stadio
? ols lpackpc const lravphat --robust
Model 2: OLS, using observations 1-48
Dependent variable: lpackpc
Heteroskedasticity-robust standard errors, variant HC1
coefficient std. error t-ratio p-value
--------------------------------------------------------
const 9.719875 1.597119 6.09 0.002 ***
lravphat -1.083586 0.3336949 -3.25 0.000 ***
R-squared 0.15525
F(1, 46) 10.54 P-value(F) 0.0022
Gli errori standard sono sbagliati perche ignorano la stima delprimo stadio
Introduzione all’Econometria
Stima IV
Esempio 4: domanda di sigarette
In un unico comando
? tsls lpackpc const lravgprs ; const rtaxso --robust
Model 3: TSLS, using observations 1-48
Dependent variable: lpackpc
Instrumented: lravgprs
Instruments: const rtaxso
Heteroskedasticity-robust standard errors, variant HC1
coefficient std. error z p-value
--------------------------------------------------------
const 9.71988 1.52832 6.360 2.02e-10 ***
lravgprs -1.08359 0.318918 -3.398 0.0007 ***
Mean dependent var 4.538837 S.D. dependent var 0.243346
Sum squared resid 1.666792 S.E. of regression 0.190354
R-squared 0.405751 Adjusted R-squared 0.392832
Introduzione all’Econometria
Stima IV
Riepilogo: regressione IV con singola X e Z
Uno strumento valido deve soddisfare:1 Rilevanza: Cov(X,Z) 6= 02 Esogeneita: Cov(Z, u) = 0
TSLS procede eseguendo prima la regressione di X su Zper ottenere X e poi Y su X
Il concetto chiave e che il primo stadio isola la parte dellavariazione in X che e incorrelata con u
Se lo strumento e valido, allora la distribuzione in grandicampioni e normale, percio l’inferenza procede come diconsueto
Introduzione all’Econometria
Stima IV
Il modello generale di regressione IV
Ora estenderemo i concetti visti fino ad ora a
piu regressori endogeni (X1, . . . , Xk)
piu variabili incluse esogene (W1, . . . ,Wr)
Piu variabili strumentali (Z1, . . . , Zm). Piu strumenti(rilevanti) possono produrre una minore varianza del TSLS:l’R2 del primo stadio aumenta, percio si ha maggiorevariazione in X.
Nuovi termini: identificazione e sovraidentificazione.
Introduzione all’Econometria
Stima IV
Identificazione
In generale si dice che un parametro e identificato sediversi valori del parametro producono distribuzioni diversedei dati
Nella regressione IV, il fatto che i coefficienti sianoidentificati dipende dalla relazione tra il numero distrumenti (m) e il numero di regressori endogeni (k)
Intuitivamente: se ci sono meno strumenti che regressoriendogeni, non possiamo stimare β1, . . . , βk. Pensiamo alcaso banale k = 1 e m = 0 (nessuno strumento)!
Introduzione all’Econometria
Stima IV
Identificazione
I coefficienti β1, . . . , βk si dicono
esattamente identificati se m = k
sovraidentificati se m > k.Ci sono piu strumenti di quelli necessari per stimareβ1, . . . , βk. In questo caso si puo verificare se gli strumentisono validi (test delle “restrizioni sovraidentificanti”) –torneremo sul tema in seguito
sottoidentificati se m < kCi sono troppi pochi strumenti per stimare β1, . . . , βk. Inquesto caso occorre procurarsi piu strumenti!
Introduzione all’Econometria
Stima IV
Il modello generale di regressione IV
Yi = β0 + β1X1i + · · ·+ βkXki + βk+1W1i + ·+ βk+rWri + ui
Yi variabile dipendente
X1i, . . . , Xki regressori endogeni
W1i, . . . ,Wri regressori esogeni
β0, . . . , βk+r coefficienti di regressione ignoti
Z1i, . . . , Zmi m variabili strumentali
Introduzione all’Econometria
Stima IV
TSLS con un singolo regressore endogeno
Yi = β0 + β1X1i + β2W1i + ·+ β1+rWri + ui
m ≥ 1 strumenti Z1, . . . , Zm
Primo Stadio: Regressione di Xi su tutti i regressoriesogeni e sugli strumenti (inclusa intercetta), usando OLS⇒ Calcolo dei valori predetti Xi
Secondo Stadio: Regressione di Yi su Xi e su tutti iregressori esogeni W1i, . . . ,Wri
I coefficienti di questa seconda regressione OLS sono glistimatori TSLS ma gli SE sono sbagliati
Per ottenere errori standard corretti, occorre procedere inun singolo passaggio con il software di regressione (Gretl)
Introduzione all’Econometria
Stima IV
Esempio 4: ancora la domanda di sigarette
Assumiamo che il reddito sia esogeno, e di voler anche stimarel’elasticita:
ln(Qcigari
)= β0 + β1ln
(P cigari
)+ β2 ln (Incomei) + ui
Abbiamo 2 strumenti:
Z1i = imposta generale sulle venditeZ2i = imposta specifica sulle sigarette
Variabile endogena: ln(P cigari
)(“una sola X”)
Variabile esogena inclusa: ln(Income) (“una sola W”)
Strumenti (variabili endogene escluse): imposta generalevendite, imposta specifica sulle sigarette (“due Z”)
β1 e sovraidentificata
Introduzione all’Econometria
Stima IV
Esempio 4: ancora la domanda di sigarette
Stime TSLS, Z =imposta vendite (m = 1)
ln(Qcigari
)=9.43
(1.26)− 1.14
(0.37)ln(P cigari
)+ 0.21
(0.31)ln (Incomei)
Stime TSLS, Z =imposta vendite e imposta sigarette (m = 2)
ln(Qcigari
)=9.89
(0.96)− 1.28
(0.25)ln(P cigari
)+ 0.28
(0.25)ln (Incomei)
Errori standard per m = 2. Con due strumenti si hannopiu informazioni, piu “variazione come se casuale” in X
Bassa elasticita al reddito (non e un bene di lusso);elasticita al reddito non significativamente diversa da zero
Elasticita al prezzo sorprendentemente elevata
Introduzione all’Econometria
Stima IV
Validita di uno strumento: assunzioni generali
Yi = β0 + β1X1i + β2W1i + ·+ β1+rWri + ui
Esogeneita: Corr(Z1i, ui) = 0, . . . , Corr(Zmi, ui) = 0
Rilevanza: Caso generale (piu X)Supponiamo che la regressione del secondo stadio possaessere eseguita usando i valori predetti dalla regressione delprimo stadio. Allora non vi e perfetta collinearita in questaregressione del secondo stadio.
Caso speciale di una sola X: l’assunzione generale eequivalente a (a) almeno uno strumento deve entrare nellacontroparte della regressione del primo stadio e (b) i Wnon sono perfettamente collineari.
Introduzione all’Econometria
Stima IV
Assunzioni della regressione IV
Yi = β0 + β1X1i + · · ·+ βkXki + βk+1W1i + ·+ βk+rWri + ui
(1) E(ui |W1i, . . . ,Wri) = 0,ossia: i regressori esogeni sonoesogeni
(2) (Yi, X1i, . . . , Xki,W1i, . . . ,Wri, Z1i, . . . , Zmi) sono iid dallaloro distribuzione congiunta (niente di nuovo)
(3) X,W,Z e Y hanno momenti quarti finiti non nulli (non enuova)
(4) Gli strumenti (Z1i, . . . , Zmi) sono validi
Sotto le assunzioni della regressione IV, il TSLS e lastatistica t hanno distribuzione approx normale
Requisito fondamentale e che gli strumenti siano validi
Introduzione all’Econometria
Stima IV
Esempio 1: effetto dei voti sullo studio
Yi = β0 + β1Xi + ui
Y = media voti primo semestre
X = media ore di studio giornaliere
Z = 1 se il compagno di stanza ha un videogioco (Compagni di stanzaassegnati casualmente)
Perche Z potrebbe essere correlata con u (nonesogena)? Ipotesi: il genere
Le donne hanno in media voti piu alti degli uomini a parita di ore distudio
Gli uomini hanno un maggior probabilita di portare un videogioco
⇒ Corr(Zi, ui) < 0 (maschi hanno piu probabilita di avere un compagnodi stanza (maschio) che porti un videogioco, ma i maschi tendonoanche ad avere voti inferiori, a parita di tempo di studio)
Si tratta di un caso di variabili omesse. La soluzione stanell’includere (controllare per) la variabile omessa (il genere)
Introduzione all’Econometria
Stima IV
Verifica della validita degli strumenti
Ricordiamo che uno strumento e valido se vale
1 Rilevanza: (con una sola X endogena) almeno unostrumento deve essere correlato con la X
2 Esogeneita: tutti gli strumenti devono essere incorrelaticon il termine di errore
Cosa accade se uno di questi due requisiti non e soddisfatto?
Introduzione all’Econometria
Stima IV
Verifica della Rilevanza dello strumento
Consideriamo il caso di un solo regressore endogeno:
Yi = β0 + β1X1i + β2W1i + ·+ β1+rWri + ui
La regressione di primo stadio e:
Xi = π0 + π1Z1i + · · ·+ πmZmi + πm+1W1i + πm+rWri + ui
Gli strumenti sono rilevanti se almeno uno dei coefficientiπ1, . . . , πm e diverso da zeroGli strumenti si dicono deboli se tutti i π1, . . . , πm sono ugualio molto vicini a zeroIl problema degli strumenti deboli e che spiegano solo unapiccola parte della variazione esogena di X, non ci dicono(quasi) niente di piu di quello che gia ci dicono gli altriregressori (controlli) W
Introduzione all’Econometria
Stima IV
Conseguenze di strumenti deboli
Se gli strumenti sono deboli, la distribuzione campionaria delTSLS e della sua statistica t non e normale, neanche per grandicampioni.
Consideriamo ll caso piu semplice:
Yi = β0 + β1Xi + uiXi = π0 + π1Zi + vi
Lo stimatore IV βTSLS1 = sY ZSZX
Se Cov(X,Z) e zero o cmq molto molto piccolo, allora sXZ saramolto piccolo: il denominatore e quasi zero
La distribuzione campionaria non e piu ben approssimata dauna normale
Introduzione all’Econometria
Stima IV
Conseguenze di strumenti deboli
Linea scura = strumenti non rilevantiLinea chiara tratteggiata = strumenti forti
Introduzione all’Econometria
Stima IV
Perche l’approssimazione normale non funziona?
βTSLS1 =sY ZsZX
Se Cov(X,Z) e piccola, piccole variazioni in sZX induconograndi variazioni in βTSLS1
Approssimazione migliore e quella di un rapporto tra v.c.normali correlate
Strumenti deboli ⇒ consueti metodi di inferenza(potenzialmente) molto inaffidabili
Introduzione all’Econometria
Stima IV
“Test” degli strumenti deboli: la statistica F delprimo stadio
La regressione del primo stadio (una sola X persemplicita): regressione di X su Z1, . . . , Zm,W1, . . . ,Wr.
Strumenti totalmente irrilevanti se tutti i coefficienti diZ1, . . . , Zm sono nulli
La statistica F del primo stadio verifica l’ipotesi cheZ1, . . . , Zm non entrino nella regressione di primo stadio(non significativi)
Strumenti deboli (non totalmente irrilevanti) implicano unbasso valore della statistica F di primo stadio
Introduzione all’Econometria
Stima IV
“Test” degli strumenti deboli: la statistica F delprimo stadio
Si calcola la statistica F del primo stadio
Regola empirica: se la statistica F del primo stadioe minore di 10, allora l’insieme di strumenti edebole.
In questo caso, lo stimatore TSLS sara distorto, e leinferenze statistiche possono essere fuorvianti.
Ma, perche quel valore “10”? Non potremmosemplicemente fare un test F per rifiutare l’ipotesi di nonsignificativita? No, non e sufficiente respingerel’ipotesi nulla, perche strumenti deboli non sononecessariamente totalmente irrilevanti
Il valore F = 10 corrisponde a una distorsione di TSLS pari al
10% dell’OLS. Se F < 10 la distorsione relativa e superiore al
10%, quindi (anche) il TSLS ha una distorsione importante
Introduzione all’Econometria
Stima IV
Cosa fare se gli strumenti sono deboli?
Trovare strumenti migliori (... difficile...)
se gli strumenti sono molti, togliere i piu deboli (scartandouno strumento irrilevante aumentera la statistica F diprimo stadio
Se nessuna delle due strade e percorribile, allora necessarioeseguire una analisi IV piu complessa: (i) separare ilproblema della stima di β1 dalla costruzione di IC; (ii)stime alternative a TSLS
Introduzione all’Econometria
Stima IV
Intervalli di confidenza con strumenti deboli
Intervallo di confidenza di Anderson-Rubin
Si basa sulla statistica di A-R per l’ipotesi β1 = β1,0: (i)calcolo Yi − β1,0Xi; (ii) Regressione su W,Z; (iii) test F suicoefficientei di Z1, . . . , Zm
Intervallo di confidenza al 95% e la regione di accettazioneal livello 5% del test A-R
IC del Rapporto di verosimiglianza (LR) condizionatodi Moreira
Si basa sulla statistica del LR condizionato di Moreira.
Tende ad essere piu stretto di quello di A-R specialmentese ci sono molti strumenti
Come l’IC di A-R, necessita di un software che producequesto intervallo
Introduzione all’Econometria
Stima IV
Stima con strumenti deboli
Non ci sono stimatori non distorti se gli strumenti sono deboli oirrilevanti. Tuttavia, alcuni stimatori hanno una distribuzionepiu centrata su β1 del TSLS.
Uno stimatore di questo tipo e lo stimatore di maxverosimiglianza con informazione limitata (LIML)
Puo essere derivato come stimatore di Max Verosim.
E il valore di β1 che minimizza il valore p del test A-R
Con Gretl: opzione apposita del comando tsls: --lilm.Esempio:tsls lpackpc const lravgprs lperinc ; const
rtaxso rtax lperinc --robust --lilm
Introduzione all’Econometria
Stima IV
Verifica dell’assunzione di esogenetia
Esogeneita: tutti gli strumenti Z1, . . . , Zm sono incorrelaticon il termine di errore.
Se gli strumenti sono correlati con il termine d’errore, ilprimo stadio del TSLS non puo isolare una parte di Xincorrelata con u, ovvero anche X e correlata con u e ilTSLS e inconsistente
Se ci sono piu strumenti che regressori endogeni, e possibileverificare –parzialmente– l’esogeneita degli strumenti
Introduzione all’Econometria
Stima IV
Verifica di restrizioni di sovraidentificazione
Caso semplice Yi = β0 + β1Xi + ui
Supponiamo di avere 2 strumenti validi: Z1, Z2
Potremmo calcolare 2 stime TSLS separate ciascuna conesatta identificazione
Intuizione: se entrambi gli strumenti sono validi, le duestime dovrebbero essere simili. Se le stime sono diverse,uno dei 2 strumenti non e valido
Questa e l’idea del test J . Si puo ovviamente fare solo sec’e sovraidentificazione
Introduzione all’Econometria
Stima IV
Il test J di restrizioni di sovraidentificazione
Supponiamo di avere k regressori endogeni e m > k strumenti.Il test J si effettua nel modo seguente:
Stimiamo l’equazione di interesse con TSLS usando tuttigli strumenti ⇒ Calcoliamo i valori predetti Y usando le Xe non le X del secondo stadio
Calcoliamo i residui: ui = Yi − YiRegressione di u rispetto agli strumenti (Z) e ai regressoriesogeni (W )
Statistica F per l’ipotesi di significativita dei coefficientiassociati agli strumenti
J = m× F . Sotto H0 : tutti gli strumenti sono esogeni,J ∼ χ2
m−kValori alti di J ci portano a respingere l’ipotesi che tutti glistrumenti siano esogeni. Almeno alcuni degli strumentisono endogeni. Quale scartare?
Introduzione all’Econometria
Stima IV
Applicazione: domanda di sigarette
Perche misurare l’elasticita della domanda di sigarette?
Teoria della tassazione ottimale. L’aliquota d’impostaottimale e inversamente proporzionale all’elasticita alprezzo: maggiore a l’elasticita, minore la quantitainfluenzata da una data percentuale d’imposta, perciominore e la variazione di consumo
Esternalita del fumo - ruolo dell’intervento pubblico chescoraggia il fumo: (i) effetti del fumo (passivo e non) sullasalute; (ii) esternalita monetarie (Positive): costo minorepensioni e assistenza anziani per lo Stato
Introduzione all’Econometria
Stima IV
Dati panel sul fumo
Dataset
Consumo annuo di sigarette, prezzi medi pagati dalconsumatore finale (tasse incluse), reddito personale epercentuali d’imposta (specifiche per le sigarette e generalisulle vendite nello stato)
48 stati continentali USA, 1985–1995
Strategia di stima
Dobbiamo usare metodi di stima IV per gestire ladistorsione da causalita simultanea che nascedall’interazione di offerta e domanda.
Indicatori binari di stato = variabili W (variabili dicontrollo) che controllano per caratteristiche inosservate alivello di stato che influiscono sulla domanda di sigarette ela percentuale d’imposta, purche tali caratteristiche nonvarino nel tempo.
Introduzione all’Econometria
Stima IV
Modello a effetti fissi della domanda di sigarette
ln(Qcigarit
)= αi + β1 ln
(P cigarit
)+ β2 ln (Incomeit) + uit
n = 48, T = 11 (1985, . . . , 1995)
Cov(
ln(P cigarit
), uit
)verosimilmente diverso da zero a
causa di variazioni domanda-offerta
αi riflette valori omessi inosservati che variano tra stati manon nel tempo
Stima1 Regressione per dati panel per eliminare effetti fissi2 TSLS per gestire distorsione da causalita simultanea
Consideriamo solo T = 1985, 1995 ⇒ osserviamo la rispostaa lungo termine non la dinamica a breve termine
Introduzione all’Econometria
Stima IV
Metodo “prima e dopo”
T = 2, quindi possiamo usare il metodo “prima e dopo” perdati panel. Riscriviamo l’equazione di regressione:
ln(Qcigar
i95
)− ln
(Qcigar
i85
)= β1
(ln(P cigari95
)− ln
(P cigari85
))+β2 (ln (Incomei95)− ln (Incomei85)) + ui95 − ui85
Creiamo le variabili “differenza prima e dopo”
poi stimiamo il modello cosı trasformato mediante TSLS.Otteniamo cosı la stima dell’elasticita della domanda (dilungo periodo)
Metodi di stima equivalenti: (i) stima within; (ii)introduzione di N − 1 dummies di stato (variabili dicontrollo, W ) nella regressione
Introduzione all’Econometria
Stima IV
Come fare con Gretl
1. Creazione delle variabili “differenze prima e dopo”:Ad esempio con i comandi:
diff(l_packpc)
diff(l_income)
diff(l_avgprs)
diff(rtax)
diff(rtaxso)
si generano le variabili
d_l_packpc, d_l_income, d_l_avgprs, d_rtax, d_rtaxso
Introduzione all’Econometria
Stima IV
Come fare con Gretl
2. comando per la regressione TSLS:
tsls d_l_packpc const d_l_avgprs d_l_perinc ; const
d_l_perinc d_rtaxso --robust
Elasticita stimata −0.94! Sorprendentemente elastica.Elasticita del reddito piccola e enon significativa.
3. Verifica della rilevanza dello strumento:Automaticamente con Gretl compare nell’output:
Weak instrument test -
First-stage F-statistic (1, 45) = 46.41
A value < 10 may indicate weak instruments
4. Esogenetia dello strumento: non possiamo verificarla(m = 1)
Introduzione all’Econometria
Stima IV
Come fare con Gretl
5. comando per la regressione TSLS con 2 strumenti:(tasse su sigarette –rtax e imposta generale sulle venditertaxso)
tsls d_l_packpc const d_l_avgprs d_l_perinc ; const
d_l_perinc d_rtaxso d_rtax --robust
Elasticita stimata −1.202, ancora piu elastica
Introduzione all’Econometria
Stima IV
Come fare con Gretl
6. Verifica della rilevanza dello strumento:
Weak instrument test -
First-stage F-statistic (2, 44) = 75.65
A value < 10 may indicate weak instruments
7. Esogenetia dello strumento: Direttamente dall’output diGret
Sargan over-identification test -
Null hypothesis: all instruments are valid
Test statistic: LM = 4.93198
with p-value = P(Chi-square(1) > 4.93198) = 0.02636401
L’ipotesi e rifiutata al 5%... e ora??
Introduzione all’Econometria
Stima IV
Riepilogo risultati in tabella
Introduzione all’Econometria
Stima IV
Commenti sul test J
Il test J rigetta l’ipotesi che tutti gli strumenti siano esogeni,che implica:
rtax endogeno e rtaxso esogeno
rtaxso endogeno e rtax esogeno
entrami rtax e rtaxso endogeni
Come capire quale puo essere endogeno? Non ci sono teststatistici o metodi econometrici per questo... solo ilragionamento.
Nel ns esempio, rtax (imposta sulle sigarette) potrebbe essereendogeno per:
Pressione politica per basse imposte sulle sigarette dovuta a altapercentuale fumatori ⇒ rtax endogena, ma non rtaxso (impostagenerale sulle vendite)
Quindi usiamo il modello (1) che ha come strumento solortaxso.
Introduzione all’Econometria
Stima IV
Valutazione alla validita dello studio
Minacce alla validita interna (esclusa causalita simultanea):
Distorsione da variabili omesse: (parzialmente) eliminata con glieffetti fissi
Errata specificazione funzionale (da verificare eventualmente)
altra causalita simultanea? No, se lo strumento usato e unostrumento valido
Errori nelle variabili? Improbabili in questi dati
Selezione campionaria? Non ci sono stati mancanti
L’ultima minaccia puo derivare dalla validita dello strumento.Quanto e preoccupante nella ns applicazione?
Minacce alla validita esterna:
Si possono generalizzare questi risultati al breve periodo?
Quanto e valida la stima −0.94 calcolata sui dati 85-95 su datiodierni? Poco: oggi si fuma meno (anche perche) e cambiatomolto l’atteggiamento culturale nei confronti del fumo
Introduzione all’Econometria
Stima IV
Trovare strumenti validi
E in generale la parte piu difficile di un’analisi IC.
Metodo 1: “variabili in un’altra equazione” (fattori dispostamento dell’offerta che non hanno effetto sulladomanda)
Metodo 2: cercare una variazione sull’offerta che sia “comese” fosse assegnata casualmente (non influisce direttamentesu Y , ma solo tramite X)