introduzione all’econometria · introduzione all’econometria outline 1 capitolo 1 -...

Introduzione all’Econometria


S. Leorato

Universita di Roma Tor Vergata

Anno 2017-18


Outline

1 Capitolo 1 - Introduzione al corso e Tipi di Dati2 Capitolo 2 e 3 - Richiami di Probabilita e Statistica3 Capitoli 4 e 54 Capitoli 6 e 75 Capitolo 86 Capitolo 97 Capitolo 108 Capitolo 119 Capitolo 12


Capitolo 1 - Introduzione al corso e Tipi di Dati

Capitolo 1

Introduzione al corso e Tipi di Dati



Durata e organizzazione

Durata: 6 settimane: dal 19/02 al 28/03.

Organizzazione: 3 lezioni a settimana. Esercitazioni svoltedurante le lezioni.

Lezioni: Lun ore 17-19, aula P11 Mar ore 13-15 aulaP11,Mer ore 9-11 aula P9.



Ricevimento e recapiti

Ricevimento (durante le settimane di corso):Martedı ore17-18:30

[email protected], Dipartimento diEconomia e Finanza (DEF), Stanza 1B2 4 (ed. B, I piano)



Programma del corso

Argomenti principali: Richiami di statistica, regressionesemplice e multipla, regressione nonlineare, variabilistrumentali, dati panel

Prerequisiti: Matematica e Statistica

Libro di testo: Stock J.H., Watson M.W. - Introduzioneall’econometria, 3a Edizione

Questi lucidi ed altri materiali aggiuntivi sul sito web delcorso. Per il download e richiesta l’iscrizione alla newsletterdel corso.

Software: Gretl - Gnu Regression, Econometrics andTime-series Library,

http://gretl.sourceforge.net/it.html

http://gretl.sourceforge.net/it.html



Valutazione e prova d’esame

La prova d’esame e costituita da un progetto (obbligatorio) euna prova scritta.

Progetto: 33,3% (10 punti)

Prova scritta e colloquio: 66,7% (20 punti)

Date appelli pubblicate online: 19 giugno, 3 luglio, 11settembre.

Durante il corso saranno assegnati dei problem set. Laconsegna dei problem set svolti dara diritto a un bonus di 3punti valido soltanto per la sessione estiva.



Progetto

Il progetto consiste in un lavoro empirico che puo essere su un argomento apiacere o la replica dei risultati di un lavoro pubblicato (purche sia possibilereperire i dati).

Gli studenti formeranno gruppi (max 3 persone) e decideranno l’argomentodel progetto.

Entro venerdı 30 marzo, invio del titolo del progetto per ciascun gruppo.

Consegna del progetto entro il 02/06/2018.

La consegna deve avvenire via email ed esclusivamente in formato pdf.

Il voto conseguito nel progetto vale fino alla fine dell’a.a. (ultimo appelloutile gennaio-febbraio 2019).

Maggiori dettagli ed indicazioni sul progetto seguiranno durante il corso.



Prova scritta

Esame tradizionale, su tutto il programma, domandeteoriche ed esercizi.



Obiettivi del corso

Apprendere metodi econometrici piu adatti per risponderea domande economiche di varia natura:

Effetti causali: La dimensione delle classi incide sul livellodi istruzione? (enfasi soprattutto su questo problema)Previsioni: Quale sara il tasso di inflazione del prossimoanno?

Conoscere ed affrontare le difficolta derivanti dall’uso didati non “ideali” per stimare effetti causali: effettiperturbativi (fattori omessi); “la correlazione non implicacausalita”; causalita simultanea.

Valutare l’analisi di regressione, anche quella effettuata daaltri (leggere e comprendere articoli economici di carattereempirico)



Rispondere a domande economiche. Gli effetti causali

Es.: La dimensione delle classi incide sul livello di istruzione?

Idealmente, vorremmo un esperimento controllatocasualizzato

Esperimento, perche (teoricamente) riproducibile;Controllato, perche i soggetti sono divisi in un gruppo ditrattamento e un gruppo di controllo;Casualizzato, perche il processo di assegnazione di unindividuo al gruppo deve essere casuale.

Cio richiederebbe:

numerose classi che differiscono solo per numero di studenti(stesso insegnante, stesso programma, stesso orario...)I diversi rendimenti a fine anno sono l’effetto causale delladimensioni delle classi.

Nella realta: esperimenti costosi, non etici, impossibili. Siusano dati osservazionali (non sperimentali).



Rispondere a domande economiche. La previsione

Es.: Quale sara il tasso di inflazione il prossimo anno?

Idealmente, conoscere il modello di determinazionedell’inflazione

La teoria economica aiuta (es. curva di Phillips), ma non esufficiente;L’analisi di regressione multipla quantifica il modelloeconomico, verifica se e stabile nel tempo, produceprevisione e ne valuta l’accuratezza



Tipi di dati. Sezionali, Temporali, Panel

Sezionali (cross-section): n > 1 unita, T = 1 (osservate inun solo periodo).Sfruttando le differenze tra le unita (persone, imprese,regioni, scuole, ecc...) consentono lo studio delle relazionitra variabili e (talvolta) degli effetti causali

Temporali (time series): n = 1 unita, T > 1 periodi.Seguendo nel tempo una unita (persona, impresa, regione,scuola, ecc...), consentono lo studio dell’evoluzione di unfenomeno nel tempo, anche al fine di prevedernel’andamento futuro;

Panel (o dati longitudinali): n > 1 unita, T > 1 periodi.Seguendo nel tempo lo stesso gruppo di entita, consentonolo studio delle relazioni tra variabili e la loro eventualeevoluzione temporale.


Capitolo 2 e 3 - Richiami di Probabilita e Statistica

Capitolo 2 e 3

Richiami di Probabilita e Statistica



Richiami di Probabilita


1 Variabile casuale

2 Spazio campionario ed eventi

3 Probabilita4 Variabili casuali

Distribuzione di probabilita, Funzione di densita e Funzionedi ripartizioneVariabili discrete: Bernoulli, BinomialeVariabili continue: Normale, Chi-quadrato, F, t-Student

5 Momenti della distribuzione

6 Variabili doppie

7 Covarianza, Correlazione, Indipendenza




1. Variabile casuale

Rappresentazione numerica di un risultato casuale

es. numero di figli in una famiglia

es. reddito della famiglia

es. “fumatore o non fumatore”




2. Spazio campionario ed eventi

Spazio campionario: insieme di tutti i possibili risultati

Es. numero di figli: 0, 1, 2, 3, 4, . . .

Es. Reddito: sempre compreso nell’intervallo [0,∞)

Es. variabile “Fumatore”: 0 (= non fumatore), 1(=fumatore)

Eventi: sottoinsiemi dello spazio campionario

Es. “la famiglia ha 2 figli”, “la famiglia ha meno di 3 figli”,“la famiglia ha piu di 2 figli” . . .

Es. “Il reddito della famiglia e sotto la soglia di poverta”,“Il reddito medio e superiore ai 40000 E” . . .




3. Probabilita

Probabilita: Proporzione di volte in cui si verifica un evento(def. freq.).

Es. La probabilita che una famiglia abbia almeno 2 figli e0.3 (sempre compresa tra 0 e 1)

La probabilita che una famiglia abbia 0 o piu figli e 1(evento certo)




4. Variabili Casuali

Variabile casuale discreta: lo spazio campionario e discreto(finito o al piu numerabile)

Es. Numero di figli: Y = 0, 1, 2, ...Es. Fumatore: Y = 0, 1

Variabile casuale continua: lo spazio campionario e infinito(R, [0,∞)...).Es. (con una certa approssimazione): Il reddito.





V.c. Discreta V.c. Continua

ad es. Y ∈ {1, 2, ...,K} ad es. Y ∈ (−∞,∞)

FdR:F (k) = P (Y ≤ k)

= P (Y = 1) + P (Y = 2) + . . . + P (Y = k) F (y) = P (Y ≤ y)

FdM f(k) = P (Y = k) –

FdD – f(y) ≈ P (Y = y)dypiu prec., f(y) = F ′(y)





Variabili casuali discrete:

Bernoulli, Y ∼ Bernoulli(p). F (1) = p F (0) = 1− p;Binomiale, Y ∼ bin(n, p). f(k) =

(nk

)pk(1− p)n−k

Poisson, Y ∼ Poisson(λ)...

Variabili casuali continue:

Gaussiana, o normale, Y ∼ N(µ, σ).f(y) = 1

σ√

2πe−(y−µ)2/2σ2

;

Chi-quadrato, Y ∼ χ2k. Se Y ∼ N(0, 1), Y 2 ∼ χ2

1

t di Student, Y ∼ Tk. SeY ∼ N(0, 1), X ∼ χ2k, allora

Z = Y/√X ∼ Tk

F di Fisher, Y ∼ Fm,k...




5. Momenti

I momenti costituiscono un modo per sintetizzare alcunecaratteristiche rilevanti della intera distribuzione diprobabilita attraverso un unico numero

Momenti di una distribuzione piu importanti: media,varianza, deviazione standard, skewness (asimmetria),curtosi...

Momento primo, o Media: µY = EY =∑K

j=1 jf(j),

(oppure µY = EY =∫yf(y)dy). e un parametro di

locazione: localizza il baricentro della distribuzione

Momento secondo: EY 2.




5. Momenti

Momento secondo centrato, o Varianza:E(Y − EY )2 = Var(Y ) = σ2

Y . E un parametro che indica ladispersione della variabile Y : e minima (Var(Y ) = 0) seY = EY con certezza ⇒ Non c’e dispersione.

Deviazione standard= radice quadrata della varianza, σY .

Momento terzo centrato, o asimmetria. E(Y − EY )3.

Se = 0 la distribuzione e simmetrica;Se > (<)0: la distribuzione ha la coda destra (sinistra) piulunga;

Momento quarto centrato, o curtosi. Misura la massa (diprob.) nelle code, ossia la prob. di valori estremi.

Se = 3: come la distribuzione normaleSe > 3: code “pesanti” (leptocurtica)Se < 3: code “leggere” (platicurtica)




5. Momenti




6. Variabili casuali doppie

Distribuzione congiunta: P (X = x, Y = y)

Distribuzione marginale, e la distribuzione di una variabilecasuale, ottenibile eliminando la seconda variabile:P (Y ) =

∑x P (X = x, Y = y);

Distribuzione condizionata:P (Y = y | X = x) = P (X=x,Y=y)

P (X=x)

Media condizionata:E(Y | X = x) =

∑y yP (Y = y | X = x). E un termine

nuovo per indicare un concetto familiare, ovvero la mediadi gruppo:

Es. Salario delle lavoratrici vs lavoratori: Y = reddito,X = 1 se lavoratore e donna:∆ = E(Y | X = 1)− E(Y | X = 0)Es: Esiti esami per pazienti che ricevono una curasperimentale (Y = positivi/negativi; X = trattato/nontrattato)




7. Covarianza, correlazione, indipendenza

Covarianza

Cov(X,Y ) = σXY = E[(X − µX)(Y − µY )]

=∑x

∑y

(x− µX)(y − µY )P (X = x, Y = y)

misura l’intensita con cui X ed Y co-muovono linearmente

Se > 0 (< 0) ⇒ relazione positiva (negativa)

Unita di misura : unita di X × unita di Y

La covarianza di una variabile casuale con se stessa e la suavarianza: Cov(X,X) = σ2

X





Correlazione

Corr(X,Y ) = ρXY =σXYσXσY

misura alternativa alla covarianza

Senza unita di misura : 0 ≤ ρ2XY ≤ 1

Se ρXY = 0 allora X,Y sono incorrelate

Se > 0 (< 0) ⇒ relazione positiva (negativa)

Se = 1 (= −1) associazione lineare positiva (negativa)perfetta

Se E(Y | X) = 0 allora Cov(X,Y ) = 0 e ρXY = 0, ma ilviceversa non vale.





Es. Punteggio e rapporto studenti/insegnanti

Figura 4.2. Diagramma a nuvola del punteggio nei test e del rapporto

studenti/insegnanti (dati relativi ai distretti scolastici della California)

Dati per i 420 distretti scolastici della California. Ce una debole relazione negativa

tra il rapporto S/I e il punteggio nei test. La correlazione campionaria e pari a

−0.23





Indipendenza: Conoscere il valore di X non da ulterioriinformazioni su Y .

P (Y = y,X = x) = P (Y = y)P (X = x)

ovveroP (Y | X) = P (Y )

Se X e Y sono indipendenti allora Cov(X,Y ) = 0 eρXY = 0, ma non il viceversa!!!.

Se X e Y sono indipendenti allora E(Y | X) = E(Y ), manon il viceversa!!!

Se X e Y sono indipendenti e hanno la stessa distribuzionedi probabilita, iid (indipendenti e identicamente distribuiti)



Richiami di Statistica


8 Campionamento e distribuzioni campionarie

9 Stima puntuale

10 Intervalli di confidenza

11 Verifica di Ipotesi




8. Campionamento e distribuzioni campionarie

Campionamento casuale semplice:

Scegliere a caso n individui (distretti, entita) dallapopolazione (ipotetica popolazione infinita)

Ogni individuo ha la stessa probabilita di essere estratto;

Osservare il valore della variabile di interesse Y

⇒ Dataset finale (Y1, Y2, . . . , Yn) = {Yi, i = 1, . . . , n}⇓

Yi provengono dalla stessa popolazione, per cui sonoidenticamente distribuiti

Il valore di Yi non contiene informazioni su Yj (j 6= i), percui sono indipendenti

⇓{Yi, i = 1, . . . , n} sono iid




8. Campionamento e distribuzioni campionarie

Media campionaria: un esempio. Sia Y ∼ Bernoulli(0.78).I momenti della distribuzione di ciascun Yi:

EY = p+ (1− p)× 0 = p = 0.78

Var(Y ) = E(Y − E(Y ))2 = p(1− p) = 0.78× 0.22 = 0.17

La distribuzione campionaria della media campionaria Ydipende da n. Ad esempio, se n = 2

P (Y = 0) = P (Y1 = 0, Y2 = 0) = 0.222 = 0.05

P (Y = 1/2) = P (Y1 = 1, Y2 = 0) + P (Y1 = 0, Y2 = 1) =2× 0.22× 0.78 = 0.34

P (Y = 1) = P (Y1 = 1, Y2 = 1) = 0.782 = 0.61




9. Stima puntuale

Stimatore: Funzione di un campione generico. Ad esempioY = n−1

∑Yi, o Med(Y1, . . . , Yn)...

Stima: Valore numerico dello stimatore in corrispondenza diuno specifico campione. Y =

∑200i=1 Yi/200 = 22.64 e la

retribuzione media oraria...

In corrispondenza di campioni diversi, lo stimatoreassume valore numerico differente. Poiche i campionisono il frutto di un’estrazione casuale, lo stimatore euna variabile casuale




9. Stima puntuale

Proprieta degli stimatori:

Correttezza (non distorsione): Lo stimatore T di θ e nondistorto se E(T ) = θ

Efficienza: Lo stimatore T1 e piu efficiente di T2 seMSE(T1) < MSE(T2), ossia se

E(T1 − θ)2 < E(T2 − θ)2

Se T1 e T2 sono non distorti, equivale a un confronto tra levarianze.

Consistenza: T → θ, ovvero, aumentando la dimensione delcampione, lo stimatore diventa sempre piu preciso




9. Stima puntuale

Proprieta di Y :

Y =1

n

n∑i=1

Yi

Correttezza (non distorsione): E(Y ) = µY

Varianza: Var(Y ) = σ2Y /n, inversamente proporzionale a n

(caso iid)

Minimi quadrati: Minimizza la somma degli scarti alquadrato, cioe

minc

∑i

(Yi − c)2 =∑i

(Yi − Y )2

Efficienza: Stimatore piu efficiente di µY tra tutti glistimatori non distorti ottenuti come medie ponderate di Yi




9. Stima puntuale

Proprieta asintotiche: proprieta valide “per n grande”

Consistenza: Y e uno stimatore consistente di µY se

{Yi} ∼ iid e 0 < σ2Y <∞⇒ Y → µY

per la legge dei grandi numeri;

Normalita asintotica: la distribuzione della mediacampionaria standardizzata converge (quindi e benapprossimata, se n e grande) ad una normale standard:

se {Yi} ∼ iid e |µY | <∞, 0 < σ2Y <∞⇒

⇓ (per il TLC)

Y − µY√σ2Y /n

→ N(0, 1)




9. Stima puntuale




9. Stima puntuale

Varianza campionaria: e lo stimatore

s2Y =

1

n− 1

n∑i=1

(Yi − Y )2

Correttezza: S2Y e uno stimatore non distorto per σ2

Y (dalcorso di statistica)

Consistenza: se {Yi} ∼ iid e E(Y 4i ) <∞, allora S2

Y econsistente, S2

Y →p σ2Y

SY e la deviazione standard campionaria

SY /√n e la stima dell’errore standard di Y

(SE(Y ) = σ/√n)




10. Intervalli di confidenza

Intervallo di confidenza per µY : intervallo che, con unaprobabilita prefissata (detto livello di confidenza, 1− α),contiene il parametro incognito µY .Varianza nota:

[Y ± z1−α/2SE(Y )

]=[Y ± z1−α/2σ/

√n]

Varianza non nota:[Y ± tn−1,1−α/2SE(Y )

]=[Y ± tn−1,1−α/2SY /

√n]

ES. n = 200, Y = 22.64$, SY = 18.14, t199,0.975 ≈ 1.96,

IC = [20.13; 25.15]




11. Verifica di ipotesi

Obiettivo: decidere se una determinata ipotesi (il valore di unparametro, presenza o meno di effetti causali significativi o dicorrelazione, cambiamento strutturale, validazione di un’ipotesiderivante dalla teoria economica...) e vera o meno sulla basedell’evidenza empirica

Paradigma:H0︷︸︸︷

Ipotesi nulla VS.

H1︷︸︸︷Ipotesi alternativa

(vera fino a prova contraria)





Stati del mondo

Decisione H0 H1

Accetto H0 1− α βConfidenza Pr. Errore II tipo

Rifiuto H0 α 1− βPr. Errore di I tipo Potenza del test

Significativita




11. Verifica di ipotesi – Varianza non nota

H0 : µY = µ0 Regole di decisione (Z = (Y − µ0)/√s2/n)

H1 Rifiuto se Rifiuto se Rifiuto se

µY 6= µ0

[|Y − µY | > z1−α/2

s√n

]|Z| > z1−α/2 α > 2(1− Φ(Z))

µY > µ0

[Y > µY + z1−α

s√n

]Z > z1−α α > 1− Φ(Z)

µY < µ0

[Y < µY − z1−α s√

n

]Z < −z1−α α > Φ(Z)

Es. H0 : µ = 20, H1 : µ < 20, Z ≈ t = 2.06. p− val = 0.9803Es. H0 : µ = 20, H1 : µ 6= 20, Z ≈ t = 2.06. p− val = 0.0394





Differenza tra due medieLo stimatore e Y1 − Y0 (es. reddito medio degli uomini - redditomedio delle donne), n1 uomini, n0 donne, in un campione din = n0 + n1 unita.

IC:

[(Y1 − Y0)± z1−α

2SE(Y1 − Y0)

]=

(Y1 − Y0)± z1−α2

√s2

1

n1+s2

0

n0

Test:

H0 : µ1 − µ0 = 0 (no discriminazione) vs H0 : µ1 − µ0 6= 0

t =Y1 − Y0√s21n1

+s20n0





Es. H0 : µ1 − µ0 = 0 → t = 17.94−15.49√7.862

1393+ 6.802

1210

= 8.44


Capitoli 4 e 5

Capitoli 4 e 5

Regressione lineare con un solo regressore


Capitoli 4 e 5

Outline

(1) Il modello di regressione lineare

(2) Lo stimatore dei minimi quadrati ordinari (OLS) e la rettadi regressione

(3) Le assunzioni dei minimi quadrati

(4) La distribuzione campionaria dello stimatore OLS

(5) Proprieta BLUE

(6) Intervalli di confidenza

(7) Verifica di ipotesi

(8) Misure di bonta della regressione


Capitoli 4 e 5

Il modello di regressione lineare

Yi = β0 + β1Xi + ui, i = 1, . . . , n

n osservazioni

Y = variabile dipendente

X = variabile indipendente o regressore

β0 = intercetta

β1 = pendenza (coefficiente angolare)

Yi = β0 + β1Xi e la retta di regressione

ui = errore di regressione (fattori omessi)

I valori di β0 e β1 non sono noti – vanno stimatiChiameremo β0 e β1 i relativi stimatori


Capitoli 4 e 5



Capitoli 4 e 5

Stimatore OLS (Ordinary Least Squares)

In analogia con la media campionaria, che minimizza la sommadei quadrati degli scarti, minimizziamo la somma dei quadratidei residui:

minb0,b1

n∑i=1

(Yi − (b0 + b1Xi))2

β1 =1n

∑ni=1XiYi − XY

1n

∑ni=1X

2i − X2

=SXYS2X

β0 = Y − β1X


Capitoli 4 e 5

Stima puntuale: metodo dei minimi quadrati

Sia

G(β0, β1) =

n∑i=1

(Yi − β0 − β1Xi)2

Per trovare il minimo di G rispetto a β0 e β1 occorrecalcolare le derivate parziali rispetto a β0, β1 e porle ugualia 0 (condizioni del primo ordine)

Si ottiene un sistema lineare di equazioni, chiamateequazioni normali:

∂G(β0, β1)

∂β0= −2

n∑i=1

(Yi − β0 − β1Xi) = 0

∂G(β0, β1)

∂β1= −2

n∑i=1

(Yi − β0 − β1Xi)Xi = 0


Capitoli 4 e 5



Capitoli 4 e 5

Es: Punteggio dei test e dimensione delle classi inCalifornia

TestScore = β0 + β1STR+ ui ⇒ β0 =??, β1 =??


Capitoli 4 e 5

Regressione OLS: output di Gretl


Capitoli 4 e 5

Es: Punteggio dei test e dimensione delle classi inCalifornia

TestScore = 698.9− 2.29× STR


Capitoli 4 e 5

Interpretazione

TestScore = 698.9− 2.29× STR

I distretti con classi maggiori ottengono in media punteggiinferiori. Piu precisamente: 1 studente in piu perinsegnante implica la diminuzione del punteggiomedio di 2.28 punti; 2 studenti in piu per insegnanteimplicano la diminuzione del punteggio medio di2× 2.28 = 4.45 punti;...

Ma e tanto o poco?

Intercetta?

Previsione e residui ⇒ Il distretto Antelope (CA,abbreviato ant) ha STR = 19.33 e TScore = 657.8:

TestScoreant = 698.9− 2.28× 19.33 = 654.8

uant = TesScoreant − TestScoreant = 657.8− 654.8 = 3.0


Capitoli 4 e 5

Un caso particolare: X binaria

Yi = β0 + β1Di + ui, Di = {0, 1}, i = 1, . . . , n

Ad esempio: Di = classi “piccole” (STR < 20), cioe:

Di =

{0 STR ≥ 201 STR < 20

β1 cattura la differenza tra le due medie (gruppo classi“piccole” e gruppo classi “grandi”). Infatti (se E(ui) = 0):

E(Yi | Di = 0) = β0

E(Yi | Di = 1) = β0 + β1


Capitoli 4 e 5

X binaria: output di Gretl

Se STR ≥ 20 (Di = 0) ⇒ punteggio medio= 649.98

Se STR < 20 (Di = 1) ⇒ punteggiomedio= 649.98 + 7.37 = 657.35


Capitoli 4 e 5

X binaria: la differenza tra le medie

Regressione Stimata:

Yi = 649.98(1.32)

+ 7.37(1.82)

Di

Tabulazione delle medie:

Dimensione classe Punteggio medio Dev. St. (SY ) n

Piccola 657.35 19.35 238(STR < 20 ⇔ Di = 1)

Grande 649.98 17.83 182(STR ≥ 20 ⇔ Di = 0)

Differenza tra medie: 657.4− 649.98 = 7.37

Errore standard: SE =

√S2sns

+S2lnl

=√

19.42

238 + 17.92

182 = 1.82


Capitoli 4 e 5

Assunzioni dei minimi quadrati

Assunzione (1)

(Xi, Yi), i = 1, . . . , n sono iid

Sempre vero con campionamento casuale semplice:

Le unita vengono dalla stessa popolazione ⇒ (Xi, Yi) sonoidenticamente distribuite per ogni iLe unita sono scelte a caso ⇒ i valori di (Xi, Yi) per unitadiverse sono indipendenti

I campionamenti non iid si incontrano ad esempio quandosi osserva nel tempo la stessa entita (dati panel o seriestoriche)


Capitoli 4 e 5


Assunzione (2)

E(ui | Xi) = 0, i = 1, . . . , n

Intuizione: in un ideale esperimento controllato casualizzatoX e assegnato casualmente, quindi tutte le altrecaratteristiche individuali (fattori omessi che entrano in u)sono distribuite indipendentemente da X, quindi u e Xsono indipendenti

In realta, occorre riflettere sempre sulla plausibilita diquesta assunzione

E(ui | Xi) = 0 ⇒ E(Yi | Xi) = β0 + β1Xi


Capitoli 4 e 5


Assunzione (2)

E(ui | Xi) = 0, i = 1, . . . , n


Capitoli 4 e 5


Assunzione (3)

0 < E(X4i ) <∞ e 0 < E(Y 4

i ) <∞

Assunzione richiesta per l’approssimazione delle statistichetest

E realistica? Se X e Y sono limitate, allora hanno sempremomenti quarti finiti (es. punteggi nei test, STR, reddito...)

In pratica, assume che gli outlier siano rari

Esaminate i dati! Se avete un outlier, si tratta di unrefuso? Non appartiene al dataset? Perche e un outlier?


Capitoli 4 e 5


Assunzione (3)

0 < E(X4i ) <∞ e 0 < E(Y 4

i ) <∞


Capitoli 4 e 5


Assunzione (4)

Var(ui | Xi) = σ2u

La varianza degli errori e costante, gli errori sonoomoschedastici


Capitoli 4 e 5


Quando l’assunzione 4 e violata.

La varianza degli errori non e costante, gli errori sonoeteroschedastici


Capitoli 4 e 5

Distribuzione campionaria degli stimatori OLS

Abbiamo la stima puntuale dei parametri, β0, β1. Ma, sevogliamo:

Quantificare l’incertezza associata alle stime Var(β0) eVar(β1)

costruire un intervallo di confidenza per β0 o β1

verificare ipotesi (ad es. β1 = 0 vs β1 6= 0)...

dobbiamo determinare la distribuzione campionaria deglistimatori OLSβ0 e β1 sono medie campionarie, quindi possiamo usare ilTLC

per n→∞ (n ≥ 100), β0, β1 ∼ N


Capitoli 4 e 5


E(β1) =??

Sostituendo Yi = β1Xi + ui in β1, ottteniamo

β1 =

∑ni=1(Xi − X)Yi∑ni=1(Xi − X)2

= β1 +

∑ni=1(Xi − X)ui∑ni=1(Xi − X)2

Applicando il valore atteso e la legge delle medie iterate, si ha:

E(β1) = β1 + E

(∑ni=1(Xi − X)ui∑ni=1(Xi − X)2

)= β1

perche E(ui | Xi) = 0.


Capitoli 4 e 5


E(β0) =??

Da β0 = Y − β1X e Y = β0 + β1X + u, ottteniamo

E(β0) = E(β0 +β1X+ u− β1X) = Eβ0 + E(β1− β1)X+ Eu = β0

dove E(β1 − β1) = 0 dalla dimostrazione precedente eEu = n−1

∑i E(ui) = n−1

∑i E(ui | Xi) = 0

⇒Riassumendo, Eβ0 = β0 e Eβ1 = β1, β0 e β1 sono stimatore nondistorti di β0 e β1


Capitoli 4 e 5


Var(β0) =?? Var(β1) =??

In generale (sotto (1) e (2)):

Var(β1) = 1n

E((Xi−µX)ui)2

Var(Xi)2

Var(β0) = 1n

Var(Hiui)

E(H2i )2

, dove Hi = 1− µXE(X2

i )Xi

⇒β0 e β1 sono stimatori consistenti perche non distorti eVar→n 0.

Cosa accade quando vale l’assunzione (4)?


Capitoli 4 e 5


Var(β1) inversamente proporzionale a Var(Xi) .... infatti, inquesto esempio il num. di punti neri e grigi e lo stesso. da qualegruppo si ottiene una retta di regressione piu accurata?

La varianza degli errori e costante, gli errori sonoomoschedastici


Capitoli 4 e 5

OLS e BLUE

Teorema (Teorema di Gauss-Markov)

nella classe degli stimatori lineari non distorti, gli stimatoriOLS sono i piu efficienti

Ipotesi

(i) E(ui | X1, . . . , Xn) = 0

(ii) Var(ui | X1, . . . , Xn) = σ2u <∞

(iii) E(uiuj | X1, . . . , Xn) = 0, per ogni i 6= j

Tesi

(a) Linear ⇐⇒ β1 =∑n

i=1 aiYi, β0 = Y −∑n

i=1 aiYiX

dove ai = Xi−X∑i(Xi−X)2 ,

∑i ai = 0 e

∑i aiXi = 1

(b) Unbiased ⇐⇒ gia visto

(c) Best ⇐⇒ Var(β1) e la minima possibile (anche per β0)


Capitoli 4 e 5

Intervalli di confidenza per β0 e β1

Intervallo di valori che contiene con probabilita 1− α il verovalore del parametro/i[

β0 ± z1−α/2SE(β0)]

e[β1 ± z1−α/2SE(β1)

]Es. Se α = 5% ⇒ z1−α/2 = 1.96

β0 = 698.93, SE(β0) = 10.36 =⇒ IC(β0) = [678.63; 719.24]

β1 = −2.28, SE(β1) = 0.52 =⇒ IC(β0) = [−3.30;−1.26]

IC per effetti predetti di ∆x:[β1∆x± z1−α/2SE(β1)∆x

]Es. Riducendo di 4 studenti, il punteggio medio aumenta inmedia nell’intervallo [5.04; 13.2] al livello del 95%


Capitoli 4 e 5

Verifica di ipotesi per β1

H0 : β1 = b1 Regole di decisione, t = β1−b1SE(β1)

H1 Rifiuto se Rifiuto se

β1 > b1 t > z1−α α > 1− Φ(t)

β1 < b1 t < −z1−α α > Φ(t)

β1 6= b1 |t| > z1−α/2 α > 2(1− Φ(t))


Capitoli 4 e 5

Verifica di ipotesi per β0

H0 : β0 = b0 Regole di decisione, t = β0−b0SE(β0)


β0 > b0 t > z1−α α > 1− Φ(t)

β0 < b0 t < −z1−α α > Φ(t)

β0 6= b0 |t| > z1−α/2 α > 2(1− Φ(t))


Capitoli 4 e 5

Verifica di ipotesi per β0 e β1: esempi

TestScorei = β0 + β1STRi + ui

H0 : β1 = 0, H1 : β1 6= 0 ⇒ t =−2.28− 0

0.52= −4.39⇒ p− val ≈ 0.00

TestScorei = β0 + β1Di + ui

H0 : β1 = 0, H1 : β1 6= 0 ⇒ t =7.37− 0

1.82= 4.04⇒ p− val ≈ 0.00


Capitoli 4 e 5

Valori predetti ed errori di regressione

I punti Yi = β0 + β1Xi sulla retta di regressione stimata sichiamano valori predetti (o stimati o interpolati)

La differenza tra i valori osservati Yi e i rispettivi valoripredetti sono gli errori di regressione (o residui), ui

La definizione dello stimatore MQO garantisce che lasomma dei quadrati degli errori di regressione sia minima


Capitoli 4 e 5

Valori predetti ed errori di regressione

La somma degli errori di regressione e pari a zero:∑i ui =

∑i Yi −

∑i Yi = 0

⇔ la media dei valori predetti e la media di Y coincidono:

n−1∑

i Yi = Y

Gli errori di regressione e le Xi sono incorrelati

(ortogonali), ossia∑

iXiui = 0

⇒∑

i Yiui = 0 perche le Yi sono combinazioni lineari

delle Xi


Capitoli 4 e 5

Decomposizione della varianza totale

X

Y

Yi

Yi

Y

Y

Yi − Yi

Yi − YYi − Y


Capitoli 4 e 5


∑i(Yi − Y )2 =

∑i(Yi − Y )2 +

∑i(Yi − Yi)2

Devianza totale

Somma totale dei quadrati

Devianza della regressione

Somma dei quadrati stimata

Devianza residua

Somma deiquadrati degli errori


Capitoli 4 e 5


∑i(Yi − Y )2 =

∑i(Yi − Y )2 +

∑i u

2i

Devianza totale

Somma totale dei quadrati

Devianza della regressione

Somma dei quadrati stimata

Devianza residua

Somma deiquadrati degli errori


Capitoli 4 e 5


Dimostrazione.

TSS =

n∑i=1

(Yi − Y )2 =

n∑i=1

(Yi − Yi + Yi − Y )2

=

n∑i=1

(Yi − Yi)2 +

n∑i=1

(Yi − Y )2 + 2

n∑i=1

(Yi − Yi)(Yi − Y )

=

n∑i=1

(Yi − Yi)2 +

n∑i=1

(Yi − Y )2 = RSS + ESS


Capitoli 4 e 5


RSS = 0 ⇒ Tutte le osservazioni giacciono sulla retta diregressione, cioe tutti i valori stimati sono uguali ai valoriosservati

RSS = TSS ⇒ Tutti i valori stimati/predetti sono ugualialla media campionaria


Capitoli 4 e 5

Bonta di adattamento: l’R2 di regressione

Sfruttando la decomposizione della varianza totale, si puodefinire una misura della bonta dell’adattamento della retta diregressione ai dati.

R2 = ESSTSS =

∑i(Yi−Y )2∑i(Yi−Y )2 = 1−

∑i u

2i∑

i(Yi−Y )2 = 1− RSSTSS

Si dimostra che il coefficiente di determinazione, o R2 diregressione, e uguale al quadrato del coefficiente dicorrelazione lineare

R2 = ρ2XY =

(σXYσXσY

)2

.

Pertanto, l’R2 puo variare tra 0 e 1

R2 = 1 se RSS = 0, cioe c’e adattamento perfetto ai dati

R2 = 0 se RSS = TSS, ovvero se ρXY = 0, cioe non c’ecorrelazione tra X e Y .


Capitoli 4 e 5

Bonta di adattamento: l’R2 di regressione

Come per la covari-anza (infatti R2 = ρ2):R2 = 0 non significanecessariamente che Y

e X non siano legate daalcuna relazione funzionale


Capitoli 4 e 5

Misure di bonta di adattamento

R2

misura la frazione della varianza di Y spiegata da X

0 ≤ R2 ≤ 1 (privo di scala)

Errore standard della regressione (SER)

misura la dimensione di un tipico residuo di regressione(unita di misura di Y )


Capitoli 4 e 5

Misure di bonta di adattamento: SER

IL SER mostra la dispersione della distribuzione dei residui ui.E (quasi) la deviazione standard campionaria dei residui:

SER =

√√√√ 1

n− 2

n∑i=1

(ui − u)2 =

√√√√ 1

n− 2

n∑i=1

u2i

La stima di β0 e β1 fa perdere 2 gradi di liberta

RMSE =√

1n

∑ni=1 u

2i e la radice dell’errore quadratico

medio (Root Mean Squared Error)

N.B. ¯u = 0 se c’e l’intercetta perche:∑ni=1 ui =

∑i(Yi − Yi) e∑

i

Yi =∑i

(β0 + β1Xi) = n(Y − β1X) + β1

∑i

Xi = nY


Capitoli 4 e 5

Misure di bonta di adattamento: SER

R2 = 0.05 e SER = 18.6

STR spiega soltanto una piccola quota della variazione neipunteggi dei test: altri fattori possono intervenire...


Capitoli 6 e 7

Capitoli 6 e 7

Regressione lineare Multipla


Capitoli 6 e 7

Outline

(1) Distorsione da variabili omesse

(2) Regressione multipla e OLS

(3) Le assunzioni dei minimi quadrati

(4) La distribuzione campionaria dello stimatore OLS

(5) Intervalli di confidenza e test sui singoli βj(6) Test di ipotesi congiunte e regioni di confidenza

(7) Misure di bonta della regressione

(8) Variabili di interesse e di controllo


Capitoli 6 e 7

Distorsione da variabili omesse

L’errore u comprende tutti i fattori che influenzano Y manon sono osservabili, o piu in generale, non sono statiinclusi nella funzione di regressione

Cose succede se il modello non include una variabile o piuvariabili importanti per la determinazione di Y ?

L’omissione di queste variabili rende lo stimatore OLSdistorto (e inconsistente, perche tale distorsione nonsvanisce neanche con campioni di grandi dimensioni!)


Capitoli 6 e 7

Distorsione da variabili omesse

Supponiamo Z sia una variabile omessa.La distorsione da variabile omessa si verifica quando valgonoentrambe le seguenti condizioni:

1 Z e rilevante per Y

2 Z e correlata con il regressore X

Infatti:

Se vale la 1. Z finisce in u

Se vale anche la 2. Corr(Z,X) 6= 0 implica Corr(X,u) 6= 0⇒ violazione dell’assunzione E(ui | Xi) = 0


Capitoli 6 e 7

Distorsione da variabili omesse: esempi

Esempio 1: ore del testInfluisce sul risultato del test? SI – Si Condizione 1.E correlata con la dimensione delle classi?NO – No condizione 2.⇒ Se omettiamo questa informazione non ce distorsione davariabile omessaEsempio 1: area di parcheggio Influisce sul risultato deltest? NOE correlata con la dimensione delle classi? SI (i distretti conarea parcheggio hanno generalmente budget maggiori quindiclassi piu piccole)⇒ Se omettiamo questa informazione non c’e distorsione davariabile omessa


Capitoli 6 e 7

Distorsione da variabili omesse: esempi

Esempio 3: studenti non madrelinguaInfluisce sul risultato del test? SI ⇒ Condizione 1.E correlata con la dimensione delle classi? SI

(i distretti con alto numero di stranieri hanno generalmentebudget inferiori quindi classi maggiori)⇒ Condizione 2.⇒ Se omettiamo questa informazione c’e distorsione davariabile omessa


Capitoli 6 e 7

Distorsione da variabili omesse: formula

Sappiamo che

β1 − β1 =

∑i(Xi − X)ui∑i(Xi − X)2

→ Cov(Xi, ui)

Var(Xi)=σXuσ2X

⇒ Se σXu = 0 ⇒ E(β1 − β1) = 0 ⇒ β1 non distorto

⇒ Se σXu 6= 0 ⇒ E(β1 − β1) 6= 0 ⇒ β1 distorto

Di quanto? Dipende dalla correlazione tra u e X

σXuσXσX

=σuσX

σXuSσuσX

=σuσX

ρXu

Che fare? Includiamo la variabile come regressore: la variabileomessa... non e piu omessa!!!


Capitoli 6 e 7

Il modello di regressione multipla

Modello con 2 regressori

Yi = β0 + β1X1i + β2X2i + ui i = 1, . . . , n

Y =variabile dipendente

X1 e X2 = variabili indipendenti, o regressori, ocovariate

β0 = intercetta

β1 = effetto variazione di X1 su Y , con X2 costante

β2 = effetto variazione di X2 su Y , con X1 costante

Yi = β0 + β1X1i + β2X2i e la retta di regressione



Capitoli 6 e 7

Il modello di regressione multipla: stima

Stima OLS ⇒

minβ0,β1,β2

n∑i=1

(Yi − β0 − β1X1i − β2X2i)2

Si ottengono le stime OLS, β0, β1, β2


Capitoli 6 e 7

Il modello di regressione multipla: esempio

Questo era il modello con un solo regressore: se e come ecambiato il coefficiente per STR?


Capitoli 6 e 7

Il modello di regressione multipla

Estensione a k regressori

Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki + ui i = 1, . . . , n

Y =variabile dipendente

Xj variabili indipendenti, o regressori, o covariate,j = 1, . . . , k

β0 = intercetta

βj = effetto variazione di Xj su Y , con Xl costante, perogni l 6= j

Yi = β0 + β1X1i + β2X2i + · · ·+ βkXki e la retta diregressione



Capitoli 6 e 7

Regressione multipla: esempio

Yi = β0 +β1STRi+β2ElPcti+β3MealPcti+β4CalwPcti+ui i = 1, . . . , n

Y = TestScore =esito test

STR = Student/Teacher Ratio

ElPct = % studenti non madrelingua inglese

MealPct = % studenti con agevolazione mensa

calwpct = % studenti in programmi di assistenza pubblica


Capitoli 6 e 7

Regressione multipla

Teorema di Frish-Waugh ⇒ La stima di β1 si ottiene anchecon una sequenza di regressioni piu brevi:

(1) Si stima una regressione di Y su const,X2, . . . , Xk e sisalvano i residui, Y

(2) Si stima una regressione di X1 su const,X2, . . . , Xk e sisalvano i residui, X1

(3) Si stima la regressione semplice Y = β0 + β1X1 + ui

⇒ Il coefficiente di regressione multipla β1 da l’effetto di X1 suY tenendo costanti le altre variabili


Capitoli 6 e 7

Teorema di Frish-Waugh: modello con 2 regressori

(1) Si stima la regressione Y = δ0 + δ1X2. Otteniamo

δ0 = Y − δ1X2 δ1 =∑i(X2i−X2)(Yi−Y )∑

i(X2i−X2)2

e si salvano i residui, Yi = Yi − Y − δ1(X2i − X2)(2) Si stima la regressione X1 = γ0 + γ1X2. Otteniamo

γ0 = X1 − γ1X2 γ1 =∑i(X2i−X2)(X1i−X1)∑

i(X2i−X2)2

e si salvano i residui, X1i = X1i − X1 − γ1(X2i − X2)(1) Si stima la regressione Yi = β0 + β1X1. Otteniamo

β0 = ¯Y − β1¯X1 = 0

β1 =∑i X1iYi∑i X

22i


Capitoli 6 e 7


Assunzione (1)

E(ui | Xi) = E(ui | X1i, . . . , Xki) = 0

Assunzione chiave per la non distorsione

Assunzione (2)

(Xi, Yi), i = 1, . . . , n sono iid dalla loro distribuzione congiuntaF (X1, . . . , Xk, Y )

Vale quanto detto per la regressione semplice

Assunzione (3)

0 < E(X4j ) <∞ j = 1, . . . , k, 0 < E(Y 4) <∞

Assunzione che limita le osservazioni anomale


Capitoli 6 e 7


Assunzione (4)

Non c’e collinearita perfetta

Che vuol dire?Se un regressore e una combinazione lineare di uno o piuregressori inclusi nel modello, allora si dice che c’ecollinearita perfetta ⇒ OLS non puo essere stimato!!!

Perche? Intuizione: Supponiamo X2 = 2X1 (Allora ancheX1 = X2/2). Che cos’e il coefficiente di X2? Dovrebbeessere l’effetto marginale di X2, tendendo costante X1, macio e impossibile!!!Vediamo meglio: La retta di regressione diventa:

Yi = β0+β1X1+β2X2+ui = β0+β1X1+2β2X1+ui = β0+(β1+2β2)X1+ui

β1 e β2 non sono identificabili separatamente!


Capitoli 6 e 7

Collinearita perfetta

Yi = β0 +β1STRi+β2El Pct+β3Meal Pcti+β4Calw Pcti+ui

Esempi

Frazione studenti non madrelingua inglese = El Pct/100

% di studenti DI madrelingua inglese = 100− El Pct

Ma anche:

Dummy classi “troppo” piccole: Di = 1 se STR < 10,quando nel dataset il valore minimo di STR=14

Trappola delle variabili dummy ⇒ dummies per Gcategorie mutualmente esclusive + costante


Capitoli 6 e 7

Collinearita perfetta

Cosa accade?Il software si blocca o (pericoloso!) prende iniziative

Soluzione

Investigare il dataset e specificare meglio il modello

Togliere una delle G categorie: i coefficienti delle restanti siinterpretano rispetto alla categoria omessa;

NB Collinearita imperfetta: due o piu regressori sonoaltamente correlati ⇒ Stime ancora non distorte ma menoprecise


Capitoli 6 e 7


Assunzione (5)

Var(ui | Xi) = σ2u

L’omoschedasticita degli errori garantisce l’efficienza (nel sensodi Gauss-Markov)


Capitoli 6 e 7


Se valgono le assunzioni 1,2,4: E(βj) = βj

Se valgono le assunzioni 1–4: βj →p βj (consistenza)

Se valgono le assunzioni 1–4: βj hanno la struttura di

medie campionarie ⇒ βj → N(βj , σ2βj

)

Se valgono assunzioni 1–4: Var(βj) inversamenteproporzionale a n

Se valgono 1–5 ⇒ Proprieta BLUE. Gli OLS sono glistimatori piu efficienti tra gli stimatori non distorti elineari


Capitoli 6 e 7

Intervalli di confidenza per singoli βj

Intervallo di valori che contiene con probabilita 1− α il verovalore del parametro βj[

βj ± z1−α/2SE(βj)]

Esempi

STR ⇐⇒ β1, β1 = −1.01, SE(β1) = 0.27 →IC(β1) = [−1.54; −0.49]

Meal ⇐⇒ β3, β3 = −0.53, SE(β3) = 0.04 →IC(β3) = [−0.61; −0.45]

IC per effetti predetti di ∆x ⇒[βj∆x± z1−α/2SE(βj)∆x

]:

Riducendo la classe di 4 studenti, il punteggio medioaumenta in media tra [1.94; 6.17] al livello del 95%


Capitoli 6 e 7

Verifica di ipotesi su singoli βj

H0 : βj = bj Regole di decisione, t =βj−bjSE(βj)


βj > bj t > z1−α α > 1− Φ(t)

βj < bj t < −z1−α α > Φ(t)

βj 6= bj |t| > z1−α/2 α > 2(1− Φ(t))


Capitoli 6 e 7

Verifica di ipotesi su singoli βj

H0 : β1 = 0, β1 6= 0⇒ t =−1.014− 0

0.27= −3.77⇒ p−val = 0.0002

H0 : β4 = 0, β4 6= 0⇒ t =−0.05− 0

0.059= −0.82⇒ p−val = 0.415


Capitoli 6 e 7

Verifica di ipotesi su due o piu βj

Test di ipotesi congiunte

H0 : β1 = 0 e β4 = 0 vs. H1 : β1 6= 0 oppure β4 6= 0

Possiamo verificare coefficiente per coefficiente? NO!Perche? Se A = {β1 = 0}, B = {β4 = 0}, H0 coincide conA ∩B. Prendiamo α = 0.05 (5%), quindi, dalla normale,z1−α/2 = 1.96

β1 e β4 sono indipendenti: P (A∩B) = P (A)P (B), quindi

P (|t1| < 1.96)P (|t4| < 1.96) = 0.95× 0.95

Rifiuto H0 con probabilita1− P (|t1| < 1.96)P (|t4| < 1.96) = 0.0975 > 0.05!!! Laprobabilia di errore di prima specie e sottostimata

β1 e β4 sono dipendenti... ancora peggio!!!

⇒ 2 soluzioni: Metodo di Bonferroni e Statistica F


Capitoli 6 e 7


Metodo di BonferroniP (A ∪B) ≤ P (A) + P (B). Quindi. ⇒P ({|t1| > c} ∪ {|t4| > c}) ≤ P (|t1| > c) + P (|t4| > c)

⇒ P ((|t1| > c) ∪ (|t4| > c))

= P (Test “coefficiente per coefficiente” rifiuta H0 | H0)

≤ P (|t1| > c) + P (|t4| > c) ≈ 2P (|Z| > c)

Se c = z1−(α/2)/2 = z1−α/4, abbiamo

P (Il test “coefficiente per coefficiente” rifiuta H0 | H0) .2× α

2= α


Capitoli 6 e 7


Esempio:

H0 : β1 = 0 e β4 = 0 ⇒ c = z1−α/4 = z0.9875 = 2.24

P ({|t1| > c} ∪ {|t4| > c}) = P (max{|t1|, |t4|} > 2.24)= P (max{0.82, 3.77} > 2.24)

⇒ Rifiuto H0

Con q ipotesi simultanee, si rifuta H0 se almeno uno dei tj e invalore assoluto maggiore di z1−α/(2×q).


Capitoli 6 e 7


Statistica F (classica):Statistica test che verifica l’ipotesi che il modello con le qrestrizioni abbia un migliore adattamento

F =(RRSS − URSS)/q

URSS/(n− kun − 1)

=(R2

U −R2R)/q

(1−R2U )/(n− kun − 1)

∼ Fq,n−k−1


Capitoli 6 e 7


Statistica F (classica):

F = 9.085 e Fq,n−k−1 = F2,415 ≈ F2,∞ = 4.61 (per α = 1%) ⇒rifiuto H0


Capitoli 6 e 7


Statistica F (robusta): q = 2Statistica F robusta all’eteroschedasticita:H0 : β1 = 0 e β4 = 0 ⇒ F = 1

2t21+t24−2ρt1,t4 t1t4

1−ρt1,t4∼ F2,∞


Capitoli 6 e 7


Statistica F (robusta): q = 3Statistica F robusta all’eteroschedasticita. Gia incorporata neipacchetti statistici... molto comodo!H0 : β1 = 0 e β2 = 0 e β4 = 0


Capitoli 6 e 7


Statistica F (robusta): casi particolariq = 1 (H0 : βj = 0) ⇐⇒ F = t2jq = k (H0 : β1 = β2 = . . . βk = 0) ⇐⇒ gia fornito dall’outputdi Gretl


Capitoli 6 e 7


Restrizioni singole su coefficienti multipli

Yi = β0 + β1X1i + β2X2i + ui

Vogliamo verificare l’ipotesi:

H0 : β1 = β2 vs. H1 : β1 6= β2

L’ipotesi nulla impone una singola restrizione ma su coefficientimultipli.Diverso da ipotesi congiunte (β1 = β2 = 0) che imponevano2 (in generale q > 1) restrizioni simultaneamente su piucoefficienti


Capitoli 6 e 7


Restrizioni singole su coefficienti multipliDue metodi per eseguire il test:1. Usare Gretl (o software)Gretl consente di verificare generiche restrizioni (lineari!!!) supiu coefficienti


Capitoli 6 e 7


1. Riorganizzare la regresioneSi puo trasformare il modello in uno equivalente, in modo che larestrizione diventi una restrizione su un singolo coefficiente:Regressione originale (RO):

Yi = β0 + β1X1i + β2X2i + ui

Regressione equivalente (RE):

Yi = β0 + γ1X1i + β2Wi + ui

dove γ1 = β1 − β2, W = X2 +X1

Il test H0 : β1 = β2 su RO equivale a H0 : γ1 = 0 su RE


Capitoli 6 e 7


1. Riorganizzare la regressione: esempioRO e RE sono equivalenti!!!


Capitoli 6 e 7


Regione di confidenza per coefficienti multipliInsieme dei valori dei coefficienti non rifiutabili al livello disignificativita αPer due coefficienti, le regioni sono ellittiche


Capitoli 6 e 7

Misure di bonta dell’adattamento

Errore standard della regressione (SER)Misura la dispersione della variabile Y attorno alla retta diregressione (unita di misura di Y )

SER =

√1

n− k − 1

∑i

u2i

k = numero di regressori esclusa la costantek + 1 = numero di parametri da stimare (inclusa l’intercetta)


Capitoli 6 e 7


R2

Misura la frazione di varianza di Y spiegata dai regressori

R2 =ESS

TSS= 1− RSS

TSS= 1−

∑i u

2i

TSS

0 ≤ R2 ≤ 1 (no unita di misura)

Nella regressione multipla, aggiungendo un regressoreaumenta sempre. Perche?RSS = minβ0,...,βk

∑i(Yi − β0 − . . . βkXki)

2 decresceaumentando i regressori

...ma non significa che l’adattamento del modello siamigliore!!!

Meglio usare una nuova misura, che tenga conto delnumero di regressori


Capitoli 6 e 7


R2 correttoR2 con una “penalizzazione” per il numero di regressori (o peril numero di gradi di liberta)

R2 = 1− n− 1

n− k − 1

RSS

TSS= 1−

S2u

S2Y

n−1n−k−1 > 1 ⇒ R2 ≥ R2

Regressore in piu, n−1n−k−1 ⇑

n−1n−k−2 > mentre RSS ↓.

R2 puo essere negativo


Capitoli 6 e 7


Esempio


Capitoli 6 e 7


Avvertenze: Un elevato R2 (o R2) significa che i regressorispiegano gran parte della variazione in Y , MA...

L’obiettivo della regressione non e massimizzare R2 matrovare l’effetto causale di X su Y

Un elevato R2 (o R2) non esclude l’omissione di variabilirilevanti

Un elevato R2 (o R2) non significa che non ci siadistorsione nelle stime dei coefficienti βj

Un elevato R2 (o R2) non significa che le variabili inclusesiano necessariamente statisticamente significative (perquesto servono i test!)


Capitoli 6 e 7

Specificazione del modello

Uno degli aspetti piu importanti di un’analisi econometrica e laspecificazione:

Quali variabili sono di interesse per Y ? Quali altre variabilivanno inserite?

Qual’e la forma funzionale che lega le variabili allavariabile dipendente? (lineare? nonlineare?)

Sotto quale forma entrano nel modello i regressori?(lineare? logaritmica? ...)


Capitoli 6 e 7

Specificazione del modello

Uno degli aspetti piu importanti di un’analisi econometrica e laspecificazione:Quali variabili inserire nel modello?

Variabili di interesse: Variabile/i di cui vogliamostimare l’effetto causale (Dimensione della classe)

Variabili di controllo: Variabili che controllano per ifattori omessi, a cui sono correlate. Se incluse nellaregressione rendono gli errori non correlati alle variabili diinteresse (E(ui | Xi) = 0) ⇒ i coefficienti per X sono nondistorti. (es. opportunita di apprendimentoextra-scolastico, competenze degli studenti, coinvolgimentodei genitori...)


Capitoli 6 e 7

Specificazione del modello: un esempio

STR: Variabile di interesse

El Pct: variabile causale e di controllo

Meal Pct: variabile causale e di controllo

Calw Pct: variabile causale e di controllo


Capitoli 6 e 7

Specificazione del modello: i passi

1 Identificare le/le variabile/i di interesse2 Ci sono effetti causali omessi?

SI ⇒ Esistono variabili adeguate che catturino direttamentetali fattori?

SI ⇒ Includerle nel modelloNO ⇒ Includere variabili di controllo correlate con talifattori

⇒ Modello di base o benchmark

3 Pensare a modelli alternativi plausibili con variabiliaggiuntive o con forme funzionali diverse

4 Stimare specificazione di base e alternative: Se e comecambia il coefficiente di interesse? Le variabili di controllosono significative?


Capitoli 6 e 7

Specificazione del modello nell’esempio

1 Identificare le/le variabile/i di interesse ⇒ STR

2 Ci sono effetti causali omessi? Lingua madre, qualitainsegnanti, opportunita di apprendimento extrascolastico,coinvolgimento genitori...Abbiamo:

El Pct = lingua madre ingleseMeal Pct e Calw Pct = misure del benessere del distretto(alternative/complementari)

3 Modelli alternativi plausibili con variabili aggiuntive(Es. Comp stu = nr. computer per studente)...(trasformazioni di uno o piu regressori? Li vediamo piuavanti)

4 Stimare specificazione base e alternative


Capitoli 6 e 7

Presentazione dei risultati

Avendo numerose regressioni da presentare, e utile ricorrereal formato tabulare

Per ciascun modello vogliamo presentare:

coefficienti di regressione stimatierrori standardmisure di adattamento (R2 corretto e non)statistica Fnumero di osservazioni

La finestra “icone” di Gretl consente di farlo facilmente


Capitoli 6 e 7

Presentazione dei risultati


Capitoli 6 e 7

Interpretazione dei coefficienti nella regressionemultipla

Consideriamo per semplicita

Yi = β0 + β1X1i + β2X2i + ui i = 1 . . . , n

Facciamo variare X1 → X1 + ∆X1, tenendo costante X2. Incorrispondenza di questa variazione anche Y subira unavariazione, passando da Y a Y + ∆YRetta di regressione prima della variazione:

Y = β0 + β1X1 + β2X2

Retta di regressione dopo la variazione:

Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2

Differenza:∆Y = β1(X1 + ∆X1)− β1X1


Capitoli 6 e 7


Prima: Y = β0 + β1X1 + β2X2

Dopo: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2

Differenza: ∆Y = β1∆X1

⇒β1 = ∆Y

∆X1(∆→ 0) β1 = ∂E(Y |X1,X2)

∂X1

β2 = ∆Y∆X2

(∆→ 0) β2 = ∂E(Y |X1,X2)∂X2

β0 = valore predetto di Y quando X1 = X2 = 0


Funzioni nonlineari

Capitolo 8

Funzioni di regressione nonlineari


Funzioni nonlineari

Outline

Funzioni di regressione nonlineari

(1) Note generali

(2) Funzioni nonlineari a una variabile

(3) Funzioni nonlineari a due variabili: interazioni

(4) Applicazione al dataset di punteggi dei test


Funzioni nonlineari

Note generali

Non sempre l’approssimazione lineare e la scelta migliore.

Il modello di regressione multipla puo gestire funzioni diregressione nonlineari in una o piu X

Se il modello resta lineare nei coefficienti (cioe i β), il metodo distime e le proprieta degli stimatori restano gli stessi di unmodello di regressione lineare in X


Funzioni nonlineari

Note generali

La relazione tra punteggio dei test e rapportostudenti/insegnanti sembra abbastanza ben catturata da unarelazione lineare.


Funzioni nonlineari

Note generali

La relazione tra punteggio dei test e reddito distrettuale elineare?


Funzioni nonlineari

Regressione non lineare

Se la relazione tra i regressori e Y e nonlineare, l’effettomarginale di X su Y non e in generale costante, madipende anche dal livello di X

In generale una regressione lineare e misspecificata: laforma funzionale e errata

Ne segue che: lo stimatore dell’effetto di X su Y e distorto

E necessario applicare una funzione di regressionenonlineare (in X)


Funzioni nonlineari

Funzioni nonlineari di un’unica variabileindipendente

Due approcci complementari:

Funzione polinomiale in X: la funzione di regressione dellapopolazione e una funzione quadratica, o cubica o ingenerale polinomiale di X

Trasformazioni logaritmiche: Le Y e/o le X sonotrasformate prendendone il logaritmo. Utile in molteapplicazioni.


Funzioni nonlineari

Funzioni Polinomiali in X

Approssimiamo la funzione di regressione con un polinomio.Assumiamo (per semplicita) un solo regressore:

Yi = β0 + β1Xi + β2X2i + . . .+ βrX

ri + ui

E ancora un modello di regressore lineare (lineare nei β!!!)solo che i regressori sono potenze di X.

La stima e le proprieta degli stimatori sono le stesse delmodello di regressione lineare multipla con r regressori.

Unica reale differenza: l’interpretazione dei coefficienti!!!Piu difficile


Funzioni nonlineari

Esempio: la relazione tra punteggio del test e redditodistrettuale

Xi = Incomei = reddito distrettuale medio nel distretto isimo(in migliaia di dollari pro-capite)Approssimazione quadratica:

TestScorei = β0 + β1Incomei + β2(Incomei)2 + ui

Approssimazione cubica:

TestScorei = β0+β1Incomei+β2(Incomei)2+β3(Incomei)

3+ui


Funzioni nonlineari


^testscr = 607.3 + 3.85*avginc - 0.0423*avgincsq

(2.90)(0.268) (0.00478)

n = 420, R-squared = 0.556

(standard errors in parentheses)


Funzioni nonlineari

Quali sono gli “effetti” di X?

Non e possibile calcolare un effetto unico di una variazione diX, l’effetto dipende dal livello di X

TestScore = 607.3 + 3.85 ∗ avginc− 0.0423 ∗ avgincsqLa variazione predetta del punteggio, corrispondente ad unavariazione del reddito pro-capite da 5000$ a 6000$:

∆ TestScore = 607.3+3.85∗6−0.0423∗ (6)2−607.3+3.85∗5−0.0423∗ (5)2 = 3.38


Funzioni nonlineari

Quali sono gli “effetti” di X?

Se cambia il valore di X cambia l’effetto di un aumento di1000$:

Variazione di reddito EffettoDa 5000 a 6000 3.4

Da 25000 a 26000 1.7Da 46000 a 47000 0.0

L“effetto” di un cambiamento del reddito e maggiore per iredditi piu bassi (forse un beneficio marginale decrescente conl’aumento dei budget delle scuole?).Attenzione!!! Non estrapolate mai al di fuori dell’intervallo deidati!!!


Funzioni nonlineari


Approssimazione cubica

Model 2: OLS, using observations 1-420

Dependent variable: testscr

Heteroskedasticity-robust standard errors, variant HC1

coefficient std. error t-ratio p-value

-----------------------------------------------------------

const 600.079 5.10206 117.6 0.0000 ***

avginc 5.01868 0.707350 7.095 5.61e-12 ***

avgincsq -0.0958052 0.0289537 -3.309 0.0010 ***

avgincub 0.000685484 0.000347065 1.975 0.0489 **

Mean dependent var 654.1565 S.D. dependent var 19.05335

Sum squared resid 67169.69 S.E. of regression 12.70691

R-squared 0.558413 Adjusted R-squared 0.555228

F(3, 416) 270.1797 P-value(F) 2.81e-97

Log-likelihood -1661.646 Akaike criterion 3331.292

Schwarz criterion 3347.453 Hannan-Quinn 3337.679


Funzioni nonlineari

Test di nonlinearita

Test di nonlinearia: test F sulle restrizioni β2 = β3 = 0:

Restriction set

1: b[avgincsq] = 0

2: b[avgincub] = 0

Test statistic: Robust F(2, 416) = 37.6908, with p-value = 9.0426e-16

Restricted estimates:


---------------------------------------------------------

const 625.384 1.53240 408.1 0.0000 ***

avginc 1.87855 0.0905044 20.76 2.75e-66 ***

avgincsq 0.00000 0.00000 NA NA

avgincub 0.00000 0.00000 NA NA

Standard error of the regression = 13.3865

Rifiutata l’ipotesi di linearita


Funzioni nonlineari

Funzioni logaritmiche di Y e/o di X

ln(X) (o log(X)) e il logaritmo naturale di X.Le trasformazioni logaritmiche permettono di modellaretrasformazioni in termini “percentuali”.

Perche? Approssimativamente,

ln(x+ ∆x)− ln(x) = ln

(x+ ∆x

x

)= ln

(1 +

∆x

x

)≈ ∆x

x


Funzioni nonlineari

Specificazioni della regressione logaritmica

Caso Funz. di regressioneI. lineare-log Yi = β0 + β1 ln(Xi) + uiII. log-lineare ln(Yi) = β0 + β1Xi + ui

III. log-log ln(Yi) = β0 + β1 ln(Xi) + uiA ciascuna specificazione corrisponde una diversainterpretazione del parametro β1.


Funzioni nonlineari


Caso Funz. di regressioneI. lineare-log Yi = β0 + β1 ln(Xi) + uiA una variazione ∆x = 1% (ossia, ∆X/X = 0.01)

corrisponde una variazione ∆Y = 0.01β1

II. log-lineare ln(Yi) = β0 + β1Xi + uiIII. log-log ln(Yi) = β0 + β1 ln(Xi) + ui

Si ha∂y

∂x=β1

x

→ dy = β1 × 0.01100 dx

x

Quindi se x aumenta del 10% (→ dx/x = 0.1), y aumenta di β1 × 0.1.


Funzioni nonlineari



A una variazione di x di una unita, ∆x = 1corrisponde una variazione di Y percentuale, ∆Y = 100 ∗ β1%

III. log-log ln(Yi) = β0 + β1 ln(Xi) + ui

Si ha∂ ln(y)

∂x=∂y/y

∂x= β1

⇒ 100×∂y

y= β1 × 100× dx

Quindi se x aumenta di 2 unita (→ dx = 2), dy/y aumenta di β1 × 2, ovvero y

aumenta in percentuale di (β1 × 2× 100)%


Funzioni nonlineari



III. log-log ln(Yi) = β0 + β1 ln(Xi) + uiA una variazione percentuale ∆x = 1%

corrisponde una variazione percentuale, ∆Y = β1%β1 ha l’interpretazione di un coefficiente di elasticita

Si ha∂ ln(y)

∂x=∂y/y

∂x= β1/x

→ 100×∂y

y= β1 × 100×

∂x

x

Quindi se x aumenta del 5% (100× dx/x = 5), allora y aumenta del 5× β1%,

(100× dy/y = 5β1)


Funzioni nonlineari

Esempio: TestScore su ln(Income)

Usiamo il modello lineare-log

TestScorei = β0 + β1 ln(Incomei) + ui

Il modello e lineare nella variabile ln(Income).





--------------------------------------------------------

const 557.832 3.83994 145.3 0.0000 ***

loginc 36.4197 1.39694 26.07 1.15e-89 ***




F(1, 418) 679.6967 P-value(F) 1.15e-89


Funzioni nonlineari

Esempio: TestScore su ln(Income)

La specificazione logaritmica e cubica sono quasi identiche. Perscegliere quale delle due adottare si puo usare R2 (logaritmicaha un lieve vantaggio).


Funzioni nonlineari

Interazioni tra regressori

Ridurre la dimensione di una classe potrebbe essere piu utile inalcune circostanze piuttosto che in altre?

Ad esempio: le classi piu piccole hanno un effetto maggiore suTestScore se ci sono molti studenti non madrelingua, cherichiedono maggior attenzione? Cioe: l’effetto di STR suTestScore puo dipendere da el Pct?

Piu in generale, l’effetto di X1 su Y , puo dipendere da X2?


Funzioni nonlineari

Esempio, TestScore, STR e allievi non madrelingua(dummy)

Definiamo HiEl = 1 se El Pct ≥ 10 (0 altrimenti).

Modello di regressione con interazione:

TestScore = β0 + β1STR+ β2HiEl + β3HiEl ∗ STR+ ui

Se Hiel = 1 la retta di regressione diventa:

TestScore = β0 + (β1 + β3)STR+ β2 + ui

Se Hiel = 0 la retta di regressione diventa:

TestScore = β0 + β1STR+ ui

Il coefficiente di STR cambia da β1 a β1 + β3.


Funzioni nonlineari

Esempio, TestScore, STR e allievi non madrelingua(var. continua)

Modello di regressione con interazione:

TestScore = β0 + β1STR+ β2El Pct+ β3El Pct ∗ STR+ ui





-----------------------------------------------------------

const 686.339 11.7593 58.37 1.82e-202 ***

str -1.11702 0.587514 -1.901 0.0580 *

el_pct -0.672911 0.374123 -1.799 0.0728 *

interact 0.00116175 0.0185357 0.06268 0.9501




Funzioni nonlineari

Esempio, TestScore, STR e allievi non madrelingua(var. continua)

L’effetto stimato della riduzione della dimensione della classenon e lineare, perche la dimensione dello stesso dipende dalvalore di El Pct.Effetto di STR su Y = −1.12 + 0.0012El Pct.Verifica di ipotesi:


F(3, 416) 155.0483 P-value(F) 1.89e-67

L’effetto di interazione non e significativo, non possiamorifiutare l’ipotesi che non ci sia differenza nell’effetto al variaredella percentuale di studenti non madrelingua inglese


Funzioni nonlineari

Applicazione al dataset della california


Valutazione di modelli di regressione multipla

Capitolo 9

Valutazione di studi basati sulla regressionemultipla



Outline

Valutazione di studi basati sulla regressionemultipla

(1) Validita interna ed esterna(2) Minacce alla validita interna

Distorsione da variabili omesseForma funzionale non correttaErrori nelle variabiliDati mancanti e selezione campionariaCausalita simultanea

(3) Minacce alla validita esterna



Validita interna ed esterna

Validita interna: L’inferenza statistica e leconclusioni tratte sugli effetti causali sono valideper la popolazione studiata (la popolazione da cuie estratto il campione)

Validita esterna: L’inferenza statistica e leconclusioni tratte sugli effetti causali possonoessere generalizzate ad altre popolazioni e altricontesti (altri ambiti legali, istituzionali, politici,fisici, sociali, economici...)

EsempioLe evidenze sul rapporto studenti/insegnanti ed esiti dei testsono valide per ogni scuola di ordine e grado della California?E sono valide per altri stati?



Validita interna

Si ha validita interna quando:

Lo stimatore e non distorto e consistente

Errori standard producono IC e test attendibili

Possibili minacce al primo punto:

Distorsione da variabile omessa

Forma funzionale non corretta

Errori nelle variabili

Selezione campionaria

Causalia simultanea

Possibili minacce al secondo punto:

Eteroscheasticita

Autocorrelazione degli errori



Distorsione da variabile omessa

Si ha distorsione da variabile omessa quando la variabile omessae:

Una determinante di Y

Correlata con almeno una X

Soluzioni

a Se esistono variabili di controllo adeguate ⇒ includerle

b Se non esistono variabili di controllo adeguate ⇒Dati panel: ciascuna unita (individuo) e osservata in piuistanti nel tempo. Se la variabile omessa non cambia tropponel tempo si possono utilizzare osservazioni di date diverse;Variabili strumentali: si usa uno strumento, cioe unavariabile non correlata con l’errore ma correlata con XEsperimento controllato casualizzato




Errata specificazione della retta di regressione rispetto alla realerelazione tra Y e X.Esempio Modello di regressione lineare quando in realta larelazione e nonlineareSoluzioni

Y continua: usare in X le specifiche nonlineari piuappropriate (logaritmi, interazioni...)

Y discreta: modelli nonlineari specifici per variabilidipendenti discrete (modello logit, probit...)




Supponiamo che X sia misurata con qualche erroreEsempi: errori di battitura nei dati amministrativi,underreporting o misreporting (intenzionale e non) nei dati diindagine...Gli errori di misura dipendono dalla natura dei dati:

Dati amministrativi: insegnanti nei distretti residenti neicomuni, nati, residenti.... in genere molto accurati

Dati di sondaggio: specialmente su dati molto sensibili(quanto guadagna?) piu soggetti ad errori



Errori nelle variabili: Conseguenze sulla regressione

Osserviamo Xi = Xi + ηi (ηi errore di misura), ma il modellosulla popolazione e:

Yi = β0 + β1Xi + ui

Allora, il modello in X diventa:

Yi = β0 + β1Xi − β1ηi + ui = β0 + β1Xi + εi

Se stimiamo β1 usando X come regressore, l’errore del modello(εi) e correlato con il regressore:

E(εiXi) = E((ui − β1(Xi − Xi)) · Xi) 6= 0

⇒ E(ε | X) 6= 0

⇒ Violata assunzione OLS. La stima OLS e distorta einconsistente.La correlazione c’e anche se η e incorrelato con X (cioe sel’errata misurazione non dipende da X)



Errori nelle variabili: due casi speciali

(A) Errore di misura classico: ηi casuale, a media zero e

Corr(ηi, Xi) = Corr(ηi, ui) = 0

La correlazione c’e anche se η e incorrelato con X: quindiβ1 e comunque distorto e inconsistente.

La distorsione dipende dal segno di β1. Notiamo che (seCov(X, η) = 0 e Cov(η, u) = 0)

Cov(X, Y ) = Cov(X + η, β0 + β1X + u) = β1Var(X)

Var(X) = Var(X) + Var(η) = σ2X + σ2

η.

Quindi

β1 →Cov(X, Y )

Var(X)= β1

σ2X

σ2X + σ2

η

= β1 − β1

σ2η

σ2X + σ2

η



Errori nelle variabili: due casi speciali

(A) Errore di misura classico: La correlazione c’e anche se ηe incorrelato con X, quindi β1 e comunque distorto einconsistente.

(B) Errore di misura “migliore ipotesi”: Xi e la migliorestima di Xi, cioe Corr(ηi, Xi) = 0 ⇒ β1 consistente, percheE(εiXi) = E((ui − β1(Xi − Xi))Xi) = E((ui − β1ηi)Xi) = 0ma ha varianza maggiore di quella che avrebbe senza erroredi misura.

Caso omoschedastico (piu semplice). X e la migliore stimadi X, quindi X = E(X | informazione disponibile) cheimplica (Legge della varianza totale. ) Var(X) ≥ Var(X) e

Var(β1) =σ2ε

Var(X)≥β2

1σ2η + σ2

u

σ2X

≥ σ2u

σ2X



Errori nelle variabili: errore in Y

Supponiamo sia Y ad avere errore di misura:

Yi = Yi + ηi.

In tal caso il modello della popolazione che possiamo stimare e:

Yi = β0 + β1Xi + ui + ηi.

Se l’errore e casuale (E(ηi | X) = 0) allora β1 e non distorto.Tuttavia, le stime avranno varianza maggiore di quelle cheotterremmo senza errore di misura.



Errori nelle variabili: soluzioni

1. Ottenere dati migliori... in genere difficile!!

2. Sviluppare un modello specifico per gli errori di misura.Possibile, ma solo se si conosce bene la natura dell’errore dimisura.

3. Regressione con variabili strumentali

4. Esperimento controllato casualizzato (es: articolo”Counting rotten apples: Student achievement and scoremanipulation in Italian elementary Schools”)



Dati mancanti e selezione campionaria

Mancano alcuni dati. Le conseguenze cambiano a seconda deicasi:

1. I dati mancano “a caso”

2. I dati mancano in base al valore di una o piu X

3. I dati mancano in base al valore di Y

Casi 1. e 2. ⇒ β1 e non distorto, ma gli errori standard sonomaggiori di quelli che si avrebbero senza dati mancantiCaso 3. ⇒ A causa della selezione campionaria,corr(ui | Xi) 6= 0 e β1 e distorto




Esempio 1: Statura degli studentiQual’e l’altezza media degli studenti maschi?I dati vengono raccolti registrando la statura degli studenti cheentrano nello spogliatoio della squadra di basket. Gli individuisono campionati in modo non indipendente dalla statura (la Y )→ distorsione!!!Soluzione: Ottenere un campione davvero casuale degli studenti,per esempio scegliendo a caso tra gli iscritti che risultano daglielenchi amministrativi




Esempio 2: Rendimento dello studio (Returns toeducation)Quanto rende (in termini di reddito) un anno in piu di studio?I dati vengono raccolti registrando reddito e anni di istruzionedi un campione di impiegati → individui campionati in modoNON indipendente dalla Y → distorsione!!!Soluzione: Ottenere un campione davvero casuale di individui, aprescindere dal fatto che abbiano trovato impiego o meno(inclusi disoccupati)




Esempio 3: Rendimento dei fondi comuniI fondi comuni gestiti attivamente hanno rendimenti migliori diquelli che seguono il mercato?Si osservano i rendimenti medi degli ultimi 10 anni dei fondicomuni esistenti (oggi) → i fondi che osserviamo sono soltantoquelli che sono durati almeno 10 anni → osserviamo soltantofondi con rendimenti (Y ) maggiori → distorsione!Soluzione: ottenere un vero campione casuale dei fondiosservando i fondi esistenti all’inizio del periodo (inclusi quindieventuali fondi estinti)



Causalita simultanea

OvveroNon soltanto X causa Y , ma anche Y causa XEsempio: Uno STR basso migliora i punteggi medi dei test.Ma se ai distretti con esisti peggiori vengono dati piu soldi →piu docenti → STR si abbassa!Questo implica che Cov(ui, Xi) 6= 0 e quindi β1 e distorto einconsistenteSoluzioni:

Esperimento casualizzato controllato

Stimare modello completo di entrambe le direzioni dicasualita (difficile!) (es. R=C+I)

Usare variabili strumentali



Simultaneita: esempio

Modello a equazioni simultanee in forma strutturale:

ct = β1 + β2rt + εt, εt ∼ iid(0, σ2)rt = ct + it, E(itεt) = 0

la prima e una funzione comportamentale di consumo, laseconda e un’identita contabile.

Gli investimenti it sono esogeni e indipendenti dal disturbo εt. Iconsumi ct e il reddito rt sono variabili endogene.Riscriviamo le due equazioni in forma ridotta:

ct =β1

1− β2+

1

1− β2it +

1

1− β2εt

rt =β1

1− β2+

β2

1− β2it +

1

1− β2εt



Simultaneita

Pertanto E(rtεt) = σ2/(1− β2) e lo stimatore MQO dellafunzione uniequazionale di consumo ct = β1 + β2rt + εt, edistorto e non consistente; in particolare:

b2 →p β2 + E(rtεt)

Var(rt)= β2 + σ2

(1−β2)(1−β2)2

Var(it)+σ2

= β2 + (1− β2) σ2

Var(it)+σ2

Soluzione: variabili strumentali (investimenti).



Eteroschedasticita e autocorrelazione dei residui

EteroschedasticitaCome visto, errori eteroschedastici producono IC e test nonattendibili.Soluzione: Stime robuste all’eteroschedasticita, che vanno beneanche nei (rari) casi di omoschedasticitaAutocorrelazioneErrori autocorrelati producono IC e test non attendibili, percheviolano l’assunzione OLS di osservazioni i.i.d.Esempi: Serie storiche, dati panel, dati stratificatiSoluzione: Stime robuste sia all’eteroschedasticita cheall’autocorrelazione. Nel caso serva, variabili strumentali perevitare Cov(ui, Xi) 6= 0.



Validita esterna

Si ha validita esterna quando i risultati ottenuti sonogeneralizzabili ad altre popolazioni e altri contesti.Possibili minacce alla validita esterna:

1 Differenze nelle popolazioniEsempio: gli esperimenti in laboratorio sui topi, i cuirisultati sono solitamente estesi anche agli esseri umani

2 Differenze di contestoEsempio: campagne pubblicitariie contro l’abuso di alcol incontesti con diverse caratteristiche istituzionali, legali,ambientali



Validita interna ed esterna nel nostro esempio

Vogliamo valutare le minacce alla validita interna edesterna nell’analisi empirica dei dati sui punteggi nei testdella California

Validita interna Esaminare l’elenco delle 5 potenzialiminacce e ... riflettere a lungo!

Validita esterna Confrontare i risultati della California edel Massachussetts (altro dataset) ... e riflettere a lungo!!!



Validita interna nel nostro esempio

Distorsione da variabili omesse:

Quali fattori possono mancare?Caratteristiche degli studenti (es. capacita innate)Caratteristiche dei distretti (es. qualita degli insegnanti)Le regressioni cercano di controllare per questi fattori, adesempio usando “frazione di studenti non madrelingua” eusando dati demografici dei distretti (reddito, studenti consussidio mensa)Le variabili di controllo sono efficaci? Il coefficiente di STRnon cambia molto al cambiare della specificazione dellevariabili








Distorsione da variabili omesse → MINACCIA ESCLUSA!


Analizzate diverse forme funzionali: effetti non lineari sonomodesti








Forma funzionale non corretta → MINACCIA ESCLUSA!


Dati (a livello di distretto) amministrativi. Errori (sepresenti) marginali








Errori nelle variabili → MINACCIA ESCLUSA!


Non ci sono dati mancanti: il campione copre tutti idistretti scolastici elementari pubblici della California








Selezione campionaria → MINACCIA ESCLUSA!


La distribuzione di finanziamenti aggiuntivi in base aipunteggi nei test potrebbe provocare causalita simultanea,ma questo non avveniva in California durante icampionamenti → distorsione da causalita simultanea nonappare verosimilmente importante







Selezione campionaria → MINACCIA ESCLUSA!

Causalita simultanea → MINACCIA ESCLUSA!

la validita interna e verificata!



Validita esterna nel nostro esempio

Obiettivo: valutare le minacce alla validita esternadell’analisi empirica dei dati sui punteggi nei test dellaCalifornia

Metodo: confrontare i risultati con quelli di studi sullostesso argomento → se i risultati sono simili → c’e validitaesterna

Confronteremo con regressione su dati su 220 distretti delMassachusetts riferiti al 1998



Sintesi risultati California

Il coefficiente di STR si riduce da -2.28 a -0.73 quandovengono inserite le variabili di controllo per lecaratteristiche di studenti e distretti → la stima inizialepresentava distorsione da variabili omesse.

Nella specificazione completa, l’effetto di STR (dimensionidelle classi) e statisticamente significativo al livello 1%

Rilevanza della % di studenti non di madrelingua inglese suTestScore

Qualche evidenza di non-linearita nella relazione traTestScore e STR (cubica)



Sintesi risultati California



Sintesi risultati Massachusetts



Sintesi risultati Massachusetts

Il coefficiente di STR si riduce da -1.72 a -0.64 quandovengono inserite le variabili di controllo per lecaratteristiche di studenti e distretti → la stima inizialepresentava distorsione da variabili omesse.

Nella specificazione completa, l’effetto di STR (dimensionidelle classi) e statisticamente significativo al livello 5%

Nessuna evidenza statistica di rilevanza della % di studentinon di madrelingua inglese su TestScore

Nessuna evidenza di non-linearita nella relazione traTestScore e STR (cubica)



Confronto risultati

L’effetto di STR scende in entrambi i casi quando vengonoaggiunte variabili di controllo per studenti e distretti →OK!

L’effetto di STR statisticamente significativo in entrambi icasi → OK!

L’effetto di STR quantitativamente simile per California eMassachusetts → OK!

L’effetto stimato per l’interazione con % di studenti non dimadrelingua e presente (California) o assente(Massachusetts) → OK!

Esiste qualche evidenza di non linearita di STR inCalifornia ma non nel Massachusetts → KO!

la validita esterna e verificata!


Dati panel

Capitolo 10

Regressione con dati panel


Dati panel

Outline


(1) Dati panel: cosa e perche

(2) Dati panel con 2 periodi temporali

(3) Regressione con effetti fissi

(4) Errori standard per regressione con effetti fissi

(5) Guida in stato di ebbrezza e sicurezza stradale


Dati panel

Dati panel: cosa e perche

Un panel contiene osservazioni su piu unita (individui, stati,imprese) in cui ogni entita e osservata in due o piu istantitemporali diversi.Esempio: Dati su 420 distretti scolastici della California nel1999 e ancora nel 2000, per 840 osservazioni in totale.

I dati panel sono chiamati anche dati longitudinaliPanel bilanciato: non ci sono osservazioni che mancano →tutte le variabili sono osservate per tutte le unita (stati) e tuttii periodi temporali (anni)


Dati panel

Dati panel: cosa e perche

Un doppio pedice distingue unita (individui, stati, regioni,distretti...) e periodi temporali (anni, mesi...)

i = unita = 1, . . . , n t = tempo = 1, . . . , T

Supponiamo di avere 1 variabile dipendente, 1 regressore. I datisono:

(Xit, Yit), i = 1, . . . , n, t = 1, . . . , T

Con k regressori:

(X1it, X2it, . . . , Xkit, Yit), i = 1, . . . , n, t = 1, . . . , T


Dati panel

Perche sono utili?

Con i dati panel possiamo controllare per fattori che:

Variano tra le unita ma non nel tempo

Potrebbero causare distorsione da variabili omesse sefossero omessi

Sono inosservati o non misurati, e percio non possonoessere inclusi in una regressione multipla

Ecco l’idea chiave: Se una variabile omessa non varia neltempo, allora qualsiasi variazione in Y nel tempo nonpuo essere causata dalla variabile omessa


Dati panel

Esempio di dati panel

Unita di osservazione: un anno in uno stato USA.n = 48 stati USAT = 7 anni (1982,83,...,88)Panel bilanciato: numero totale diosservazioni= 7× 48 = 336

Variabili :

Tasso di mortalita stradale (num. morti sulle stradenell’anno t per 10000 residenti dello stato iimposta su una cassa di birraAltre (eta minima guida, leggi sulla guida in stato diebbrezza,...)


Dati panel


Imposte sugli alcolici piu elevate e maggiore mortalita?


Dati panel


Perche una relazione positiva tra imposte sulle birre emorti sulle strade? Ci sono fattori omessi?Fattori che influenzano il tasso di mortalita sono:

Qualita (eta) delle automobili

Qualita delle strade

“Cultura” sul bere e guidare

Densita di auto sulle strade

Questi fattori omessi potrebbero causare distorsione davariabili omesse.


Dati panel


Ad esempio: densita del traffico. Supponiamo:

Tanto traffico → piu morti sulle strade

Gli stati con minore traffico (all’ovest) hanno imposte suglialcolici minori

Allora le due condizioni per la distorsione da variabiliomesse sono soddisfatte: variabile “imposte elevate”correlata con “densita traffico” omessa (→ coefficiente OLSdistorto positivamente - perche la correlazione e positiva)

I dati panel ci consentono di eliminare la distorsione davariabili omesse quando le variabili omesse sono costantinel tempo in un dato stato.


Dati panel

Dati panel con 2 periodi temporali

Definiamo il modello per dati panel:

FatalityRateit = β0 + β1Beertaxit + β2Zi + uit

Zi e un fattore che non cambia nel tempo, almeno neglianni osservati

Ad esempio Zi = densita traffico.

Supponiamo Zi non sia osservato. Allora la sua omissionepuo portare a distorsione da variabile omessa.

l’effetto di Zi puo essere eliminato usando i dati “ripetutinel tempo”


Dati panel


L’idea chiave:Qualsiasi variazione nel tasso di mortalita dal 1982 al1988 non puo essere causata da Zi, perche Zi (peripotesi) non varia tra il 1982 e il 1988

Consideriamo i tassi di mortalita nel 1988 e nel 1982:

FatalityRatei,1988 = β0 + β1Beertaxi,1988 + β2Zi + ui,1988

FatalityRatei,1982 = β0 + β1Beertaxi,1982 + β2Zi + ui,1982

Supponiamo E(uit | BeerTaxit, Zi) = 0Sottraendo 1988-1982 (ovvero calcolando la variazione) sielimina l’effetto di Zi


Dati panel


FatRatei,88 − FatRatei,82

= β1Beertaxi,88 − β1Beertaxi,82 + ui,88 − ui,82

Il nuovo termine d’errore, (ui1988 − ui1982), non e correlatocon BeerTaxi1988 o BeerTaxi1982.

Questa equazione “alle differenze” puo essere stimata conOLS, anche se Zi non e osservata.

La variabile omessa Zi non cambia, quindi non puo essereuna determinante della variazione in Y

Questa regressione alle differenze non ha un’intercetta


Dati panel


L’intercetta e quasi zero...


Dati panel

Regressione con effetti fissi

Se si hanno piu di 2 periodi temporali? Il modello

Yit = β0 + β1Xit + β2Zi + uit, i = 1 . . . , n, t = 1 . . . , T

puo essere riscritto in due modi utili:

modello di regressione con n− 1 regressori binari

modello di regressione con effetti fissi


Dati panel

Modello con effetti fissi

Supponiamo di avere 3 soli stati (n = 3): California, Texas e Massachusetts.

Regressione della California (i = 1):

Y1,t = β0 + β1X1t + β2Z1 + u1t = α1 + β1X1t + u1t

dove α1 = β0 + β2Z1 non cambia nel tempo. L’intercetta e specifica

per la California, la pendenza e la stessa in tutti gli stati (rette

parallele)

Regressione del Texas (i = 2):

Y2,t = β0 + β1X2t + β2Z2 + u2t = α2 + β1X2t + u2t

Regressione del Mass. (i = 3): Y3,t = α3 + β1X3t + u3t

Mettendo insieme le rette dei tre stati

Yi,t = αi + β1Xit + uit

I coefficienti αi sono gli effetti fissi degli stati.


Dati panel

Modello con effetti fissi: forma con regressori binari

Nella forma con regressori binari:

Yit = β0 + γ1DCa,i + γ2DTX,i + β1Xit + uit

dove DCA,i = 1 se lo stato imo e la California, DTX,i = 1 se lostato imo e il Texas.Si lascia fuori uno stato. Perche?


Dati panel

Regressione con effetti fissi: stima

Metodi di stima

1 Regressione OLS con “n-1 regressori binari”

2 Regressione OLS con “unita in deviazioni dalle medie”

3 Specificazione “prima e dopo”, senza un’intercetta (solo perT = 2)

Questi tre metodi producono stime identiche dei coefficientidi regressione e identici errori standard

I metodi 1 e 2 funzionano per un arbitrario numero diperiodi temporali T

Il metodo 1 pero non e praticabile quando n e troppogrande


Dati panel

Regressione OLS con “n-1 regressori binari”

Si includono nel modelli tante variabili binarie quanti sono glistati (o le unita), meno 1.

Si ottiene un modello di regressione lineare con nT osservazionie k+ n regressori (se i regressori inclusi nel modello lineare sonok)

Il modello puo essere stimato tramite OLS.

Problema: se n e molto grande abbiamo un numero moltoelevato di regressori (e quindi di parametro da stimare)!!!

Dati panel “micro” (in cui le unita sono famiglie o individui) spessohanno migliaia di osservazioni (n molto grande, T piccolo)

Dati panel “macro” (in cui le unita sono stati o regioni) spesso hannon dell’ordine di decine o centinaia e T puo essere dell’ordine dicentinaia (dati mensili o trimestrali)

Dati panel finanziari: centinaia di titoli (n) osservati ogni giorno oanche con frequenze maggiori (T molto piu grande di n)


Dati panel

Regressione OLS con “unita in deviazioni dallemedie”

Modello di regressione con effetti fissi

Yit = αi + β1Xit + uit

Calcoliamo le medie delle unita:

Yi = T−1T∑t=1

(αi + β1Xit + uit) = αi + β1Xi + ui

Allora le deviazioni dalle medie:

Yit − Yi = αi − αi + β1(Xit − Xi) + (uit − ui)

o, scrivendo Y , X e u per le deviazioni dalle medie,

Yit = β1Xit + uit


Dati panel

Regressione OLS con “unita in deviazioni dallemedie”

Si costruiscono le unita “in deviazione dalle medie”, Y e X

Si stima l’equazione Yit = β1Xit + uit con la regressioneOLS

Simile all’approccio “prima e dopo”, ma qui le unita sonodeviazioni rispetto alla media e non differenze tra tempo 1e tempo 2

Si puo fare in un unico comando con Gretl

Gli stimatori ottenuti si chiamano anche stimatori within(perche si usano le medie di ciascuna unita)


Dati panel

Esempio: mortalita stradale e imposte sulla birra

Per lavorare con i dati panel, bisogna indicare a Gretl che ildataset e un dataset longitudinale, indicando qualevariabile rappresenta l’unita e quale il tempo.

setobs state year --panel-vars

panel fatality const beertax --robust

Gretl calcola anche un’intercetta, che e una specie di“media delle medie individuali”. E arbitraria, mentre isingoli effetti stimati (αi) non sono riportati nell’output didefault


Dati panel


Model 7: Fixed-effects, using 336 observations

Included 48 cross-sectional units

Time-series length = 7

Dependent variable: fatality

Robust (HAC) standard errors


--------------------------------------------------------

const 2.37707 0.148007 16.06 7.47e-42 ***

beertax -0.655874 0.288368 -2.274 0.0237 **





Dati panel


F(48, 287) 56.96916 P-value(F) 2.0e-120

Log-likelihood 107.9727 Akaike criterion -117.9454

Schwarz criterion 69.09305 Hannan-Quinn -43.38662

rho 0.240535 Durbin-Watson 1.106864

Test for differing group intercepts -

Null hypothesis: The groups have a common intercept

Test statistic: F(47, 287) = 52.1792

with p-value = P(F(47, 287) > 52.1792) = 7.74337e-115


Dati panel

Regressione con effetti temporali

Una variabile omessa potrebbe variare nel tempo ma non tra glistati:

auto piu sicure (air bag, ecc.); modifiche nelle legginazionali

producono intercette che variano nel tempo

Sia St l’effetto combinato di variabili che cambiano neltempo ma non tra gli stati (“auto piu sicure”).

Il modello di regressione risultante e:

Yit = β0 + β1Xit + β3St + uit


Dati panel

Regressione con effetti temporali

Si puo formulare come il modello con effetti fissi individuali, indue modi:

Con “T − 1” regressori binari:Yit = β0 + β1Xit + δ1D1t + . . .+ δT−1DT−1,t

con “effetti fissi” temporali: Yit = λt + β1Xit + uit

La stima nei due casi:

Regressione OLS con “T-1 regressori binari aggiunti” (nonconviene se T e grande)

Regressione OLS “in deviazione dalla media” (temporalestavolta), o stima within


Dati panel

Regressione con effetti fissi e temporali

Yit = β1Xit + αi + λt + uit

T = 2: calcolare la differenza prima e includere unaintercetta e equivalente a (fornisce esattamente la stessaregressione di) includere effetti individuali e temporali.

T > 2 esistono vari modi equivalenti di incorporare effettiindividuali e temporali: (i) deviazione dalle medieindividuali e T − 1 indicatori temporali; (ii) deviazionedalle medie temporali e n− 1 indicatori individuali; (iii)T − 1 indicatori temporali e n− 1 indicatori individuali;(iv) deviazione dalle medie individuali e temporali


Dati panel

Effetti fissi e temporali con Gretl

panel fatality const beertax --time-dummies --robust

Model 4: Fixed-effects, using 336 observations

Included 48 cross-sectional units

Time-series length = 7

Dependent variable: fatality

Robust (HAC) standard errors


--------------------------------------------------------

const 2.42847 0.197480 12.30 4.25e-28 ***

beertax -0.639980 0.349628 -1.830 0.0682 *

dt_2 -0.0799029 0.0343540 -2.326 0.0207 **

dt_3 -0.0724206 0.0429653 -1.686 0.0930 *

dt_4 -0.123976 0.0450950 -2.749 0.0064 ***

dt_5 -0.0378645 0.0558699 -0.6777 0.4985

dt_6 -0.0509021 0.0622812 -0.8173 0.4145

dt_7 -0.0518038 0.0630585 -0.8215 0.4120


Dati panel

Effetti fissi e temporali con Gretl




F(54, 281) 51.93379 P-value(F) 9.6e-118

Log-likelihood 115.0383 Akaike criterion -120.0765

Schwarz criterion 89.86457 Hannan-Quinn -36.38813

rho 0.260282 Durbin-Watson 1.072582

Test for differing group intercepts -

Null hypothesis: The groups have a common intercept

Test statistic: F(47, 281) = 53.1926

with p-value = P(F(47, 281) > 53.1926) = 2.93879e-114

Wald test for joint significance of time dummies

Asymptotic test statistic: Chi-square(6) = 26.4022

with p-value = 0.000187323


Dati panel

Gli errori standard della regressione con effetti fissi

Sotto le assunzioni dei minimi quadrati nella versione per datipanel, lo stimatore OLS con effetti fissi di β1 ha distribuzionenormale.Tuttavia, e necessario introdurre una nuova formula dell’errorestandard, quella per dati raggruppati, o clustered.

Questa nuova formula e necessaria perche le osservazioni per lastessa unita non sono indipendenti (e la stessa unita, infatti!),anche se le osservazioni di unita diverse sono indipendenti (incaso di campionamento casuale semplice).

Qui consideriamo il caso di effetti fissi individuali. Gli effettitemporali possono semplicemente essere inclusi quali regressoribinari aggiuntivi.


Dati panel

Gli errori standard della regressione con effetti fissi ele assunzioni

Consideriamo per semplicita una singola X:

Yit = β1Xit + αi + uit, i = 1 . . . , n, t = 1, . . . , T

1 E(uit | Xi1, . . . , XiT , αi) = 0

2 (Xi1, . . . , XiT , ui1, . . . , uit), sono iid dalla loro distribuzionecongiunta

3 (Xit, uit) hanno momenti quarti finiti

4 Non vi e collinearita perfetta (molteplicita di X)

Le assunzioni (3) e (4) sono identiche al caso dei minimiquadrati. Le assunzioni (1) e (2) sono diverse.


Dati panel

Assunzione 1: E(uit | Xi1, . . . , XiT , αi) = 0

uit ha media zero, dato l’effetto fisso e l’intera storia delleX per l’unita corrispondente

E un’estensione della precedente assunzione 1 dellaregressione multipla

Cio significa che non vi sono effetti passati omessi(qualsiasi effetto passato di X deve essere inclusoesplicitamente come “regressore”)

Inoltre, non c’e feedback da u su X futuri:

Se uno stato ha un tasso di mortalita molto alto quest’annocio non influisce sull’aumento delle imposte della birraTalvolta questa assenza di feedback e plausibile, talvolta no.


Dati panel

Assunzione 2: (Xi1, . . . , XiT , ui1, . . . , uit), iid

E un’estensione della precedente assunzione 2 dellaregressione multipla con dati sezionali

E soddisfatta se le unita sono prese a caso dallapopolazione mediante campionamento casuale semplice

Non esclude possibile dipendenza nel tempo della stessaunita. Sarebbe irrealistico. Il fatto che uno stato abbiaun’imposta sulla birra elevata l’anno t e correlato con ilfatto che avra un’imposta elevata anche l’anno t+ 1. Similecorrelazione verosimile per il termine di errore.


Dati panel

Assunzione 2: (Xi1, . . . , XiT , ui1, . . . , uit), iid

Una variabile Zt osservata in tempi diversi si diceautocorrelata (correlata con se stessa) o serialmentecorrelata se corr(Zt, Zt+h) 6= 0 per qualche h 6= 0

cov(Zt, Zt+h) e detta la h−ma covarianza di Z

In molte applicazioni con dati panel, uit e plausibilmenteautocorrelata


Dati panel

Indipendenza e autocorrelazione nei dati panel

i = 1 i = 2 i = 3 . . . i = nt = 1 u11 u21 u31 . . . un1

......

...t = T u1T u2T u3T . . . unT

Se le unita sono ottenute con campionamento casualesemplice, allora i “vettori colonna” sono indipendenti traloro

Ma se i fattori omessi che comprendono uit sonoserialmente correlati, allora uit sono serialmente correlati


Dati panel

Sotto le assunzioni dei minimi quadrati per datipanel

Lo stimatore OLS con effetto fisso (within) e non distorto,consistente e asintoticamente normale

I consueti errori standard pero (sia omoschedasticita purasia robusti all’eteroschedasticita) sono in generale sbagliatiperche assumono incorrelazione degli uit

spesso gli errori standard OLS sottostimano lo SE (quindil’incertezza della stima): se gli uit sono correlati nel tempo,si ha meno informazione (meno variazione casuale) diquanta si avrebbe se fossero incorrelati

Il problema si risolve usando degli errori standard clustered


Dati panel

Errori standard per dati raggruppati

Stimano la varianza di β1 quando le variabili sono iid tra leunita ma non tra tempi diversi nella stessa unita

Per capirli, consideriamo la stima della media µY usandodati panel

Yit = µ+ uit i = 1, . . . , n, t = 1, . . . , T

Lo stimatore della media e

Y = (nT )−1n∑i=1

T∑t=1

Yit

Y puo essere scritto come media tra le unita del valormedio individuale:

Y = n−1∑i

Yi

dove Yi e la media campionaria per l’unita i


Dati panel


Se le osservazioni sono i.i.d. (tra le entita), anche le medie(Y1, . . . , Yn) sono i.i.d. Quindi per n grande, vale il TLC:

Y =1

n

∑i

Yi → N(µ, σ2Yi/n)

L’errore standard di Y e la radice quadrata di unostimatore di σ2

Yi

Lo stimatore naturale di σ2Yi

e la varianza campionaria di

Yi, s2Yi

Questo fornisce una formula per l’errore standard per datiraggruppati per Y usando dati panel

SEC(Y ) =√s2Yi/n

dove s2Yi

= 1n−1

∑ni=1(Yi − Y )2


Dati panel


la procedura di derivazione vista in precedenza e la stessausata nel Capitolo 3 per derivare l’errore standard dellamedia campionaria, con la differenza che qui i “dati” sonole medie di unita i.i.d

C’e una caratteristica importante: nella derivazionedell’errore standard per dati raggruppati non abbiamo maiassunto che le osservazioni siano i.i.d. in una unita. Quindiabbiamo implicitamente consentito la correlazione seriale inuna unita.

E la correlazione seriale, dov’e finita? Determina σ2Yi

, la

varianza di Yi


Dati panel

La correlazione seriale in Yit...

σ2Yi

= Var

(T−1

T∑t=1

Yit

)=

1

T 2Var(Yi1 + Yi2 + . . .+ YiT )

=1

T 2Var(Yi1) + Var(Yi2) + . . .+ Var(YiT )

+2Cov(Yi1Yi2) + 2Cov(Yi1Yi3) + . . .+ 2Cov(YiT−1YiT )

Se Yit e serialmente incorrelata, tutte le autocovarianzesono nulle e abbiamo la consueta derivazione (Cap. 3)

Se invece le autocovarianze non sono nulle, la formulaconsueta (che non le considera) sara sbagliata


Dati panel


La “magia” degli errori standard per dati raggruppati e che,operando al livello delle unita e delle loro medie, non occorrepreoccuparsi di stimare le autocovarianze sottostanti, che sonostimate automaticamente dalla formula dell’errore standard.

Per contrasto, la formula “consueta” omette tutti i terminimisti, il che e valido solo se le autocovarianze tra le unita intempi diversi sono tutte zero.Ecco i calcoli:


Dati panel


s2Yi

=1

n− 1

∑i

(Yi − Y )2

=1

n− 1

∑i

(1

T

∑t

Yit − Y

)2

=1

n− 1

∑i

(1

T

∑t

Yit − Y

)(1

T

∑t

Yit − Y

)

=1

n− 1

∑i

1

T 2

T∑t=1

T∑s=1

(Yit − Y )(Yis − Y )

=1

T 2

T∑t=1

T∑s=1

[1

n− 1

∑i

(Yit − Y )(Yis − Y )

]

=1

T 2

T∑t=1

T∑s=1

[autocov camp. tra Yt e Ys]


Dati panel

Errore standard clustered

Il concetto di errori standard clustered per dati panel e deltutto analogo al precedente caso della media per dati panel- solo piu complesso per notazione e formule.

Gli errori standard clustered per dati panel sonol’estensione logica di quelli robusti all’eteroschedasticita perdati sezionali.

Nella regressione con dati sezionali, gli errori standardrobusti all’eteroschedasticita sono validi indipendentementedal fatto che vi sia eteroschedasticita.

Nella regressione con dati panel, gli errori standardclustered sono validi indipendentemente dal fatto che vi siaeteroschedasticita e/o correlazione seriale.

Il termine “clustered” deriva dal fatto che si consentecorrelazione in un “cluster” (o gruppo) di osservazioni (inuna entita) ma non tra cluster.


Dati panel

Il comando in Gretl

In Gretl l’opzione --robust, di default, calcola gli erroristandard “clustered” (Arellano).

panel fatality const beertax --robust (Arellano) In

alternativa, e possibile scegliere un altro tipo di errori robusti(Beck-Katz SE – psce “Panel-Corrected Standard Errors”)

set pcse on

panel fatality const beertax --robust


Dati panel

Applicazione: leggi sulla guida in stato di ebbrezza emortalita stradale (par. 10.6)

Alcuni fatti:

Circa 40.000 morti sulle strade ogni anno negli USA

1/3 degli incidenti mortali coinvolge un guidatore ubriaco

25% dei guidatori sulle strade tra l’1 e le 3 del mattino habevuto (stima)

Un guidatore ubriaco ha 13 volte piu probabilita di causareun incidente mortale rispetto a un guidatore sobrio (stima)


Dati panel


Aspetti di politica pubblica

La guida in stato di ebbrezza causa importanti esternalita(guidatori sobri vengono uccisi, la societa sostiene costimedici, ecc.) – vi e ampia giustificazione per un interventodel governo

Esistono modi efficaci per ridurre la guida in stato diebbrezza? Se sı, quali?

Quali sono gli effetti di leggi specifiche:

pene obbligatorieeta minima legale per bere alcoliciinterventi economici (imposte sugli alcolici)


Dati panel


ROMNEY CELEBRATES THE PASSAGE OFMELANIE’S BILL (October 28, 2005)Legislation puts Massachusetts in line with federal standards for drunkdrivingIl Governatore Mitt Romney ha firmato oggi la piu severa legge contro laguida in stato di ebbrezza nella storia del Commonwealth.

La nuova legge, cosı chiamata in onore della tredicenne Melanie Powell,fissera pene piu severe per incidenti dovuti a guida in stato di ebbrezza inMassachusetts e chiudera qualsiasi spazio nel sistema legislativo che possaconsentire ai guidatori ubriachi recidivi di tornare al volante.

“Oggi rendiamo onore a coloro che hanno perso la vita in insensati incidenti

dovuti a guida in stato di ebbrezza, e agiamo per salvare le vite che

altrimenti rischieremmo di perdere il prossimo anno”, ha detto Romney.

“Oggi abbiamo la Melanie’s Law perche i cittadini del Commonwealth

hanno fatto in modo che cio accadesse”.


Dati panel


La nuova misura fornisce al pubblico ministero il potere di presentaredocumenti per provare che un recidivo e gia stato condannato perguida in stato di ebbrezza. Inoltre, la pena minima obbligatoria perqualsiasi persona ritenuta colpevole di omicidio con mezzo motorizzato saraaumentata da 2 anni e mezzo a cinque anni.

I recidivi dovranno installare un dispositivo di blocco su qualsiasiveicolo che possiedano o usino. Questi dispositivi misurano il tassoalcolico e impediscono l’avvio dell’auto se il guidatore supera il limite.Chiunque alteri il dispositivo di blocco rischia una condanna penale.[. . .]

La legge inasprisce le pene per chi guida in stato di ebbrezza con

in auto un bambino minore di 14 anni e per chi guida con un

tasso alcolico di 0,20 o superiore, piu del doppio del limite di legge.

Romney ha ringraziato l’assemblea per aver approvato una legge severa che

combatte la guida in stato di ebbrezza in Massachusetts.


Dati panel

Dati panel per la guida in stato di ebbrezza n = 48stati USA, T = 7 anni

Variabili

Tasso di mortalita stradale (morti per 10.000 residenti),anni 1982–1988

Imposta su una cassa di birra (Beertax)

Eta minima di legge per bere alcolici

Pene minime per la prima violazione:

Pena obbligatoriaServizio sociale obbligatoriosentenza pecuniaria

Miglia per veicolo per guidatore (US DOT)

Dati economici sullo stato (reddito pro capite, ecc.)


Dati panel

Perche i dati panel potrebbero aiutare?

Potenziale distorsione da variabili omesse per variabili chevariano tra stati ma sono costanti nel tempo (usa effettifissi di stato):

cultura del bere e del guidarequalita delle stradeeta delle automobili sulle strade

Potenziale distorsione da variabili omesse per variabili chevariano nel tempo ma sono costanti tra stati (usa effettitemporali):

miglioramenti nella sicurezza delle auto nel tempomutamento atteggiamenti verso la guida in stato diebbrezza a livello nazionale


Dati panel

Analisi empirica: risultati principali


Dati panel


Il segno del coefficiente dell’imposta sulla birra cambiaquando sono inclusi gli effetti fissi dello stato

Gli effetti temporali sono statisticamente significativi ma laloro inclusione non ha un grande impatto sui coefficientistimati

L’effetto stimato dell’imposta sulla birra cala quando siincludono altre leggi.

L’unica variabile politica che sembra avere un impatto el’imposta sulla birra – non l’eta legale minima per berealcolici, non la pena minima obbligatoria ecc. – tuttavial’imposta sulla birra non e significativa anche al livello del10% usando errori standard clustered nelle specifiche checontrollano per le condizioni economiche dello stato (tassodi disoccupazione, reddito personale)


Dati panel


In particolare, l’eta legale minima per bere alcolici ha uncoefficiente piccolo che e stimato con precisione –riducendola non pare si abbia un grande effetto sullamortalita stradale complessiva.

Quali sono le minacce alla validita interna? Cosa si puodire su:

1 Distorsione da variabili omesse2 Errata forma funzionale3 Distorsione da errori nelle variabili4 Distorsione da selezione del campione5 Distorsione da causalita simultanea

Che cosa ne pensate?


Dati panel

Digressione: estensioni del concetto di “n− 1regressori binari”

L’idea di utilizzare molti indicatori binari per eliminare ladistorsione da variabili omesse puo essere estesa a dati nonpanel. La chiave e che la variabile omessa sia costante per ungruppo di osservazioni, il che in effetti significa che ciascungruppo ha la propria intercetta.

Esempio: effetto della dimensione delle classi. Supponiamo chelivelli di finanziamento e di istruzione siano determinati a livellodella contea, e che ogni contea abbia diversi distretti. Se si epreoccupati della distorsione da variabili omesse risultante davariabili non osservate a livello di contea, si possono includeregli effetti di contea (indicatori binari, uno per ciascuna contea,omettendo una sola contea per evitare la collinearita perfetta).


Dati panel

Riepilogo: regressione con dati panel

Vantaggi

Si puo controllare per variabili non osservate che varianotra stati ma non nel tempo e/o che variano nel tempo manon tra stati

Piu osservazioni (su ciascuna unita) ⇒ piu informazioni

Estensione relativamente semplice della stima OLS

Limitazioni

Necessaria la variazione nel tempo di Xi (altrimenti e comeun effetto fisso)

Gli effetti di ritardo temporale posso essere importanti(aggiungere?)

E necessario usare errori standard clustered per coprire ilcaso in cui gli errori siano autocorrelati


Modelli per dati categorici

Capitolo 11

Modelli di regressione per variabile dipendentecategorica



Outline


(1) Modello lineare di probabilita

(2) Regressioni probit e logit

(3) Stime e inferenza nei modelli logit e probit

(4) Applicazione alla discriminazione razzialenella concessione dei mutui



Variabili dipendenti binarie: qual’e la differenza?

Finora tutte le variabili dipendenti (Y ) che abbiamoconsiderato erano continue:

punteggio medio a livello del distretto nei teststandardizzati

tasso di mortalita stradale

Che succede se Y e binaria?

Y = decisione di andare all’universita; X =voti del liceo,punteggi SAT, variabili demografiche e economiche;

Y = decisione di fumare; X = imposte sulle sigarette,reddito, variabili demografiche;

Y = accettazione domanda di mutuo; X =razza, reddito,caratteristiche della casa, stato civile...



Esempio: negazione del mutuo e razza dati delBoston Fed HMDA

Domande individuali per mutui unifamiliari effettuate nel1990 nell’area della citta di Boston

2380 osservazioni, raccolte ai sensi della legge HomeMortgage Disclosure (HMDA)

Variabili:

Variabile dipendente: Il mutuo e concesso o negato?

Variabili indipendenti:

reddito, ricchezza, stato occupazionalealtro prestito, caratteristiche della proprietaetnia del richiedente



Modello lineare di probabilita

Un punto di partenza naturale e il modello di regressionelineare con un singolo regressore:


Che cosa significa β1 quando Y e binaria? β1 = ∆Y∆X ?

Che cosa significa β0 + β1X quando Y e binaria?

Che cosa significa il valore predetto (o previsto) Y quandoY e binaria? Per esempio, cosa significa Yi = 0.26?




Nel modello lineare di probabilita, il valore predetto di Y einterpretato come la probabilita predetta che Y = 1 e β1 e lavariazione di tale probabilita predetta per una variazioneunitaria in X.Modello lineare di probabilita:

Quando Y e binaria,

E(Y | X) = 1×P (Y = 1 | X)+0×P (Y = 0 | X) = P (Y = 1 | X)

Sotto l’assunzione dei minimi quadrati E(ui | Xi) = 0,quindi

E(Y | X) = E(β0 + β1Xi + ui | Xi) = β0 + β1Xi

⇒ P (Y = 1 | X) = β0 + β1X1

⇒ Il modello di regressione Yi = β0 + β1Xi + ui e chiamatomodello lineare di probabilia perche




Il valore predetto e una probabilita:

E(Y | X = x) = P (Y = 1 | X = x) = prob. che Y = 1 datax

Yi = prob. prevista che Yi = 1 data Xi

β1 e la variazione della probabilita che Y = 1 per unavariazione unitaria di X:

β1 =P (Y = 1 | X = x+ ∆x)− P (Y = 1 | X = x)

∆x



Esempio: Modello lineare di probabilita

Negazione di mutuo vs rapporto tra rata e reddito (per unsottoinsieme di HMDA di 127 osservazioni)




Modello stimato (n = 2380):

deny =−0.080(0.032)

+ 0.604(0.098)

PIratio

Valore previsto se rapporto rata/reddito=0.3?

P (deny | PIratio = 0.3) = −0.080 + 0.604× 0.3 = 0.151

Calcolo degli effetti: aumento il rapporto da 0.3 a 0.4

P (deny | PIratio = 0.4) = −0.080 + 0.604× 0.4 = 0.212

L’effetto sulla probabilita di negazione di un aumento nelrapporto rata/reddito da 0.3 a 0.4 e di un aumento dellaprobabilita pari a 0.0604, vale a dire ca. 6 punti percentuali




Ora includiamo la variabile black come regressore:

Modello stimato (n = 2380):

deny =−0.091(0.032)

+ 0.559(0.098)

PIratio+ 0.177(0.025)

black

Probabilita prevista di negazione per richiedenti conPIratio = 0.3

P (deny = 1 | PIratio = 0.3, black = 1) = −0.091+0.559×0.3+0.177×1 = 0.254

Calcolo degli effetti: aumento il rapporto da 0.3 a 0.4

P (deny = 1 | PIratio = 0.3, black = 0) = −0.080+0.559×0.3+0.177×0 = 0.077

Differenza: = 0.177, vale a dire 17.7 punti percentuali

Coefficiente di black significativo al livello 1%

Ancora molto spazio per distorsione da variabili omesse...




Modella P (Y = 1 | X) come funzione lineare di X;

Vantaggio: semplice da stimare e interpretare

Vantaggio: stima uguale al caso di regressione linearemultipla;

Svantaggio: la variazione di probabilita prevista per undeterminato cambiamento in X e la stessa per ogni X(costante) ma non ha senso in molte applicazioni!

Svantaggio: la probabilita prevista puo essere negativa omaggiore di 1!!!

Questi svantaggi possono essere superati usando un modellononlineare di probabilita: regressioni logit e probit



Regressioni logit e probit

Noi vogliamo

1 P (Y = 1 | X) crescente in X per β1 > 0

2 0 ≤ P (Y = 1 | X) ≤ 1 per ogni X

Per ottenere cio abbiamo bisogno di usare una forma funzionalenon lineare. Il modello probit soddisfa entrambe le condizioni:



Regressione probit

Modella la probabilita di Y = 1 (condizionata) utilizzando lafunzione di ripartizione normale Φ(z), valutata nel puntox = β0 + β1x:

P (Y = 1 | X) = Φ(β0 + β1X)

Il valore z = β0 + β1X e chiamato indice z del modello probit.Esempio Supponiamo che β0 = −2, β1 = 3, X = 0.4. Quindi:

P (Y = 1 | X = 0.4) = Φ(−2 + 3× 0.4) = Φ(−0.8) =??



Regressione probit

Perche utilizzare la funzione di ripartizione normale?

La forma “a S” fornisce cio che desideriamo:

(i) P (Y = 1 | X) crescente in X se β1 > 1 (come il modello lin.di prob.)

(ii) 0 ≤ P (Y = 1 | X) ≤ 1 per ogni X (a differenza del modellolin. prob.)

Facile da utilizzare. Probabilita si trovano nelle tabelle diripartizione normale, e sono calcolate da molti softwarestatistici (Gretl, R , matlab, Stata...)

Interpretazione relativamente semplice:

β0 + β1X = indice z (o valore z)

β0 + β1X, valore z previstoβ1 = variazione nel valore z per una variazione unitaria di X



Esempio: dati HMDA

? probit Deny const pi_ratio --robust

Model 4: Probit, using observations 1-2380

Dependent variable: Deny

QML standard errors

coefficient std. error z slope

--------------------------------------------------------

const -2.19416 0.164941 -13.30

pi_ratio 2.96791 0.465224 6.380 0.567815


slope Cos’e? Poiche la funzione Φ(z) non e lineare, la derivata∂Φ(β0 + β1x)/∂x 6= β1, ma dipende anche dal livello di x.slope e il valore della derivata calcolata in x = X, ossiaslope = φ(β0 + β1X)β1.



Regressione probit

P (Y = 1 | PIratio) = Φ(−2.19(0.16)

+ 2.97(0.47)

×PIratio)

Coefficiente positivo: ha senso?

Gli errori standard hanno l’interpretazione consueta

Probabilita previste: P (deny = 1 | PIratio = 0.3) =Φ(−2.19 + 2.97× 0.3) = Φ(−1.3) = 0.097P (deny = 1 | PIratio = 0.4) = Φ(−2.19 + 2.97× 0.4) =Φ(−1.00) = 0.159

Effetto della variazione nel rapporto P/I da 0.3 a 0.4: Laprobabilita di rifiuto passa da 0.097 a 0.159 (aumento di6.2 punti percentuali, in linea con il modello lineare).



Regressione probit con regressori multipli

P (Y = 1 | X1, X2) = Φ(β0 + β1X1 + β2X2)

Φ e la funzione di ripartizione normale

z = β0 + β1X1 + β2X2 e il “valore z” o “indice z” delmodello probit

β1 e l’effetto sul valore z di una variazione unitaria di X1,tenendo costante X2

Proviamo ad aggiungere black



Esempio: dati HMDA

? probit Deny const pi_ratio Black --robust

Oppure, con l’opzione --p-values:

? probit Deny const pi_ratio Black --robust --p-values

Model 6: Probit, using observations 1-2380


QML standard errors

coefficient std. error z p-value

--------------------------------------------------------

const -2.25874 0.158788 -14.22 6.42e-46 ***

pi_ratio 2.74164 0.444081 6.174 6.67e-10 ***

Black 0.708158 0.0831706 8.515 1.67e-17 ***



Esempio: dati HMDA

P (Y = 1 | PIratio, black) = Φ(−2.26(0.16)

+2.74(0.44)×PIratio+0.71

(0.08)black)

Il coefficiente di black e statisticamente significativo?

Effetto stimato di black e del rapporto P/I:

P (deny = 1 | 0.3, 1) = Φ(−2.26 + 2.74× 0.3 + 0.71× 1) = 0.233P (deny = 1 | 0.3, 0) = Φ(−2.26 + 2.74× 0.3 + 0.71× 0) = 0.075

Differenza nelle probabilita di rifiuto= 0.158 (15.8 puntipercentuali!!)

Molto. Pero, ancora molto spazio per distorsione davariabili omesse!



Regressione logit

Modella la probabilita di Y = 1 (condizionata) utilizzando lafunzione di ripartizione logistica standard, valutata inz = β0 + β1X:

P (Y = 1 | X) = F (β0 + β1X)

dove

F (β0 + β1X) =1

1 + e−(β0+β1X)

I coefficienti della regressione logit sono diversi da quelli dellaregressione probit, perche la funzione di ripartizione usata ediversa.Esempio: β0 = −3, β1 = 2, X = 0.4 ⇒ β0 + β1X = −2.2percio (Y = 1 | X = 0.4) = 1/(1 + e2.2) = 0.0998



Perche usare la regressione logit?

Motivo storico: il logit e piu veloce e piu semplice dalpunto di vista computazionale. Oggigiorno questo pero nonha piu molta importanza

Nella pratica: logit e probit sono molto simili e dannorisultati simili (a livello di probabilita predette). Tendonoad essere usati entrambi



Esempio dati HMDA

? logit Deny const pi_ratio Black --robust --p-values

Model 7: Logit, using observations 1-2380


QML standard errors


--------------------------------------------------------

const -4.12556 0.345752 -11.93 8.05e-33 ***

pi_ratio 5.37036 0.963141 5.576 2.46e-08 ***

Black 1.27278 0.146068 8.714 2.94e-18 ***


McFadden R-squared 0.087595 Adjusted R-squared 0.084155



Esempio dati HMDA

Le probabiliita previste con i due modelli logit e probit sonomolto vicine:

Anche se i parametri sono molto diversi, ma questo dipendedalla differenza di Φ da F



Stima e inferenza nei modelli logit e probit

Consideriamo il modello probit

Minimi quadrati nonlineari

Stima di massima verosimiglianza (cio che viene fatto nellapratica)

Minimi quadrati nonlineari:

minb0,b1

n∑i=1

(Yi − Φ(b0 + b1Xi))2

Come risolvere questo problema di minimizzazione?

Risolto numericamente (algoritmi di minimizzazione)

Lo stimatore pero non e efficiente. Uno stimatore miglioresi ottiene con la max verosimiglianza



Stima di max verosimiglianza nel modello probit

La funzione di verosimiglianza e la distribuzione delcampione Y1, . . . , Yn condizionata ai valori X1, . . . , Xn, trattatacome una funzione dei parametri β0, β1

Lo stimatore di massima verosimiglianza (MLE) e quelvalore (β0, β1) che massimizza la funzione di(log)verosimiglianza

MLE e il valore di (β0, β1) piu plausibile alla luce delleosservazioni campionarie

In grandi campioni, MLE e:

consistentenormalmente distribuitoefficiente (varianza piu piccola)



Caso particolare: MLE probit senza alcuna X

Y =

{1 con probabilita p0 con probabilita 1− p (Distribuzione di Bernoulli)

Campione: Y1, . . . , Yn.

P (Y1 = 1) = p, P (Y1 = 0) = 1− p ⇒P (Y1 = y1) = py1(1− p)1−y1

Distrib. congiunta di Y1, Y2:

P (Y1 = y1, Y2 = y2) = P (Y1 = y1)× P (Y2 = y2)

= py1(1− p)1−y1 × py2(1− p)1−y2

= py1+y2(1− p)2−(y1+y2)

Distribuzione di Y1, . . . , Yn:

P (Y1 = y1, Y2 = y2, . . . , Yn = yn)

= py1 (1− p)1−y1 × py2 (1− p)1−y2 × · · · × pyn (1− p)1−yn

= p∑i yi (1− p)n−

∑i yi




Quindi, la verosimiglianza e la funzione (di p!!!):

f(p;Y1, . . . , Yn) = p∑i yi(1− p)n−

∑i yi

Massimizzare la verosimiglianza e equivalente a massimizzare lalogverosimiglianza:

ln[f(p;Y1, . . . , Yn)] =∑i

yi ln(p) + (n−∑i

yi) ln(1− p)

Condizioni del primo ordine (CPO):

∂ ln[f(p;Y1, . . . , Yn)]

∂p=∑i

yi1

p− (n−

∑i

yi)1

1− p= 0

Risolvendo per p si ottiene pMLE .




Facile vedere che la CPO implica:∑i

yi1

pMLE= (n−

∑i

yi)1

1− pMLE

Y

1− Y=

pMLE

1− pMLE

Y = pMLE

Questa stima non e una sorpresa vero?

In questo modello, MLE e lo stimatore naturale di p cioe lafrazione di 1.

E asintoticamente normale perche e una media. Quindi tutta l’inferenza(compresi IC e test t) si fa come di consueto

E efficiente. Risultato proprio delle stime MLE che raggiungono il limiteinferiore di Cramer-Rao (per n grande)



Verosimiglianza probit con una X

Condizionatamente a X, Y e ancora una Bernoulli, solo che ilparametro p dipende da X:

Y | X =

{1 con probabilita Φ(β0 + β1X)0 con probabilita 1− Φ(β0 + β1X)

Quindi, come prima,

P (Y1 = y1 | X) = Φ(β0 + β1X1)y1(1− Φ(β0 + β1X1))1−y1

e la funzione di verosimiglianza e:

f(β0, β1;Y1, . . . , Yn) =∏i

Φ(β0 + β1Xi)yi(1− Φ(β0 + β1Xi))

1−yi

La logverosimiglianza:

ln[f(β0, β1;Y1, . . . , Yn)] =∑i

yi ln(Φ(β0 +β1Xi))+∑i

(1−yi) ln(1−Φ(β0 +β1Xi))



Verosimiglianza probit con una X

Per trovare βMLE0 e βMLE

1 dobbiamo massimizzare lalogverosimiglianza.

Problema: non possiamo risolvere in forma chiusa le 2 equazioniche corrispondono alle condizioni del primo ordine.

MLE viene calcolato mediante metodi numerici. Le stimeottenute hanno le stesse proprieta di pMLE per grandicampioni.

Gli errori standard sono calcolati automaticamente da Gretl (oStata...), il calcolo degli IC viene fatto nel solito modo e cosı lacostruzione di test t



Verosimiglianza logit con una X

Unica differenza rispetto al caso probit e la funzione usata perla probabilita condizionata. Quindi:

Verosimiglianza:

f(β0, β1;Y1, . . . , Yn) =∏i

F (β0+β1Xi)yi(1−F (β0+β1Xi))

1−yi

Logverosimiglianza:

ln[f(β0, β1;Y1, . . . , Yn)] =∑i

yi ln(F (β0+β1Xi))+∑i

(1−yi) ln(1−F (β0+β1Xi))

Per la particolare forma della funzione logistica:logF (u)/(1− F (u)) = u e quindi

ln[f(β0, β1;Y1, . . . , Yn)] =∑i

[yi(β0 + β1Xi) + ln(1− F (β0 + β1Xi))]



Misure di adattamento logit e probit

R2 e adjR2 non hanno senso qui. Si utilizzano altre misurespeciali.

Frazione correttamente predetta Frazione di Yi per iquali il valore predetto Yi e piu vicino al valore correttocioe al valore realmente osservato, che a quello “sbagliato”.

Pseudo-R2: misura il miglioramento della massimalogverosimiglianza rispetto al caso “senza X”. Si semplificaa R2 nel caso di errori normalmente distribuiti.



Frazione correttamente predetta

Si basa sulla capacita predittiva del modello.

Valore predetto Yi = 1 se P (Yi | Xi) > 0.5, altrimenti ilvalore predetto e 0

Tutte le volte che Yi = 1 in corrispondenza diP (Yi | Xi) > 0.5 OPPURE Yi = 0 con P (Yi | Xi) < 0.5, ilvalore di Yi e correttamente predetto

Si contano tutte le unita che sono correttamente predettedal modello e si divide per la numerosita campionaria:questa e la frazione correttamente predetta

Per avere un’idea della bonta del modello, questa vieneconfrontata con la frazione correttamente predetta delmodello base, senza regressori



Pseudo-R2

Ce ne sono diversi. Ci limitiamo alla definizione di uno dei piuusati: l’R2 di MacFadden

Si considera la logverosimiglianza massima (calcolata incorrispondenza delle stime) `(β0, β1)

Questa viene confrontata con quella corrispondente almodello base (nessun regressore) `(p)

La logverosimiglianza `(β0, β1) dovrebbe essere maggiore di`(p). Se e uguale, vuol dire che non c’e stato alcunmiglioramento rispetto al modello piu semplice

R2MF = 1− `(β0,β1)

`(p) , sempre compreso tra 0 e 1.



Dataset HDMA

Dati sulle caratteristiche individuali, caratteristiche diproprieta e rifiuto/concessione del prestito

Processo di domanda di mutuo: (i) Recarsi alla banca osocieta di finanziamento; (ii) Compilare una domanda (infopersonali+finanziarie); (iii) Incontrare il funzionario deimutui

Quindi il funzionario decide – per legge, a prescinderedall’etnia. Presumibilmente la banca vuole concederemutui redditizi e (se gli incentivi all’interno della banca odell’ufficio responsabile dei prestiti sono giusti) ilfunzionario dei prestiti non vuole originare inadempienze.



Dataset HDMA

Il funzionario prestiti utilizza variabili finanziarie chiave:

Rapporto P/I (rata/reddito)Rapporto spesa per la casa sul redditoRapporto mutuo su valoreStoria creditizia personale

La regola decisionale non e lineare



Specificazioni della regressione

P (Deny = 1 | black, altre X)

modello lineare di probabilia

probit (o logit)

Problema principale con le regressioni fin qui: distorsionepotenziale delle variabili omesse. Le variabili seguenti (i)entrano nella decisione del funzionario e (ii) sono o potrebberoessere correlate all’etnia:

Ricchezza, tipo di occupazione

storia del credito

ceto familiare

Fortumatamente il dataset HDMA e molto ricco...



Risultati



Riepilogo risultati empirici

coefficienti delle variabili finanziarie sono sensati

Black e statisticamente significativa in tutte lespecificazioni

Le interazioni non sono significative, ma black+interazionisi.

Includendo le covariate si riduce bruscamente l’effettodell’etnia sulla probabilita di rifiuto

LPM, probit, logit: stime simili di effetto dell’etnia sullaprobabilita di rifiuto.

Gli effetti stimati sono grandi se considerati “nel mondoreale”


Stima IV

Capitolo 12

Regressione con variabili strumentali


Stima IV

Outline

Regressione con variabili strumentali

(1) Regressione IV: cosa e perche; TSLS

(2) Il modello generale di regressione IV

(3) Verifica della validita degli strumenti

(4) Applicazione: domanda di sigarette


Stima IV

Regressione IV: perche?

Tre importanti minacce alla validita interna sono:

Distorsione da variabili omesse per una variabile correlatacon X ma inosservata (non puo essere inclusa nellaregressione) e per cui vi sono variabili di controlloinadeguate;

Distorsione da causalita simultanea (X causa Y , Y causaX);

Distorsione da errori nelle variabili (X e misurata conerrore)

Tutti e tre i problemi implicano E(u | X) 6= 0

La regressione con variabili strumentali puo eliminarela distorsione quando E(u | X) 6= 0, usando una variabilestrumentale Z


Stima IV

Endogeneita e esogeneita

Una variabile correlata con u si dice variabile endogenaUna variabile incorrelata con u si dice variabile esogena

Per introdurre la regressione IV ci concentriamo sul caso di unasola variabile endogena X e uno strumento Z esogeno.Affinche la regressione IV risolva il problema di distorsionedovuto all’endogeneita di X, e necessario che lo strumento siavalido


Stima IV

Validita di uno strumento

Consideriamo il modello lineare


con X endogena.Una variabile strumentale (o strumento) Z e valido se:

Rilevanza: corr(Zi, Xi) 6= 0

Esogenita: corr(Zi, ui) = 0

Supponiamo per ora di avere una variabile Zi che soddisfaquesti 2 requisiti: come possiamo usarla per stimare β1?


Stima IV

Stimatore IV con una X e una Z: minimi quadrati adue stadi (TSLS)

Si deriva la stima IV attraverso due regressioni in due stadisuccessivi:

1 Regressione OLS di X su Z:

Xi = π0 + π1Zi + vi

Si isola la parte di X incorrelata con u, ossiaX = π0 + π1Z, che e incorrelata perche lo e Z

2 Si usa X invece di X nella regressione di interesse:


⇒ allora Cov(u, X) = 0, quindi β1 e stimato in manieraconsistente usando la regressione del secondo stadio

Lo stimatore risultante e βTSLS1 , stimatore dei min. quad. in 2stadi ed e consistente per β1.


Stima IV

Stimatore IV con una X e una Z: derivazionealgebrica diretta

Se Yi = β0 + β1Xi + ui, allora:

Cov(Yi, Zi) = Cov(β0 + β1Xi + ui, Zi)

= Cov(β0, Zi) + β1Cov(Xi, Zi) + Cov(ui, Zi)

= β1Cov(Xi, Zi)

che implica

β1 =Cov(Yi, Zi)

Cov(Xi, Zi)

Sostituendo alle covarianze le covarianze campionarie si ottienelo (stesso di prima) stimatore

βTSLS1 =sY ZsXZ


Stima IV

Stimatore IV con una X e una Z: derivazione dalla“forma ridotta”

La “forma ridotta” mette in relazione Y a Z e X a Z in duediverse equazioni di regressione (simultanee):

Xi = π0 + π1Zi + viYi = γ0 + γ1Zi + wi

vi, wi termini di errore. Z e esogena, quindi incorrelata con v ew.

L’intuizione e questa:

π1 e l’effetto di una variazione di Z su X ⇒ ∆X = π1∆Z etale variazione e esogena perche causata da Z

γ1 e l’effetto di una variazione di Z su Y ⇒ ∆Y = γ1∆Z

Se β1 e l’effetto di una variazione esogena di X su Y ⇒∆Y = β1∆X = β1π1∆Z = γ1∆Z ⇒ β1π1 = γ1

⇒ β1 = γ1/π1


Stima IV

Stimatore IV con una X e una Z: derivazione dalla“forma ridotta”

In formule:

Xi = π0 + π1Zi + viYi = γ0 + γ1Zi + wi

⇒ Zi = −π0/π1 + (1/π1)Xi − (1/π1)vi

Sostituiamo nella seconda equazione

Yi = γ0 + γ1Zi + wi

= γ0 + γ1

[−π0/π1 + (1/π1)xi − (1/π1)vi

]+ wi

= γ0 − π0γ1/π1 + (γ1/π1)Xi + (wi − (γ1/π1)vi)

= β0 + β1Xi + ui

dove abbiamo posto β0 = γ0 − π0γ1/π1, β1 = γ1/π1 eui = wi − (γ1/π1)viuna variazione esogena in Xi di π1 unita e associata auna variazione in Yi di γ1 unita, percio l’effetto su Y diuna variazione unitaria esogena in X e β1 = γ1/π1.


Stima IV

Esempio 1: effetto dello studio sui voti

Qual’e l’effetto sui voti di un’ora in piu al giorno di studio?

Y = media voti

X = tempo di studio

Dati: voti e ore di studio di studenti del primo anno di collegeSecondo voi: lo stimatore OLS di β1 (effetto sulla media di votidi un’ora di studio in piu) e non distorto? Perche? O percheno?Fattori omessi. Ad esempio: motivazione dello studente,abilita...


Stima IV


Stinebrickner, Ralph and Stinebrickner, Todd R. (2008): “TheCausal Effect of Studying on Academic Performance”, The B.E.Journal of Economic Analysis & Policy: Vol. 8: Iss. 1(Frontiers), Article 14.

n = 210 studenti primo anno Berea College (Kentucky) nel2001

Y = media voti primo semestre

X = media ore di studio giornaliere

Compagni di stanza assegnati casualmente

Z = 1 se il compagno di stanza ha un videogioco

Z e uno strumento valido?

E rilevante (correlato con X)?

E esogeno (incorrelato con u)?


Stima IV


Xi = π0 + π1Zi + vi

Yi = γ0 + γ1Zi + wi

Risultati di Stinebrickner & Stinebrickner: (conregressori aggiuntivi...ci torneremo piu avanti)

π1 = −0.668

γ1 = −0.241

βIV1 =γ1

π1= 0.360


Stima IV

Consistenza dello stimatore TSLS

Ricordiamo cheβTSLS1 =

sY ZsXZ

Fatto N.1: Le covarianze campionarie sono consistenti perle covarianze:

sY Z → Cov(Y,Z) sXZ → Cov(X,Z)

Fatto N.2: La condizione di rilevanza di Z garantisce chesXZ 6→ 0

⇒ βTSLS1 = sY ZsXZ→ Cov(Y,Z)

Cov(X,Z)


Stima IV

Esempio 2: Offerta e domanda di burro

La regressione IV e stata sviluppata in origine per stimarel’elasticita della domanda per beni agricoli, per esempio burro:

ln(Qbutteri

)= β0 + β1 ln

(P butteri

)+ ui

β1 = elasticita del burr o=variazione percentuale inquantita per una variazione dell’1% di prezzo

Dati: Osservazioni su prezzo e quantita di burro perdiversi anni

La regressione OLS di ln(Qbutteri

)su ln

(P butteri

)soffre di

distorsione da causalita simultanea (il prezzo determina laquantita , la quantita determina il prezzo)


Stima IV


Infatti: prezzo e quantita sonodeterminati dall’interazione didomanda e offerta

Questa interazione tra do-manda e offerta produce daticome questi:


Stima IV


TSLS stima la curva di domanda isolando gli spostamenti diprezzo e quantita conseguenti a spostamenti dell’offertaZ e una var. che sposta l’offerta ma non la domanda


Stima IV


ln(Qbutteri

)= β0 + β1 ln

(P butteri

)+ ui

Consideriamo lo strumento: Z = pioggia nelle aree diproduzione lattiera.Z e uno strumento valido?

1 Rilevante? corr(raini, ln(P butteri

)) 6= 0?

Plausibile: la pioggia insufficiente significa meno pascoloquindi meno burro e prezzi piu alti

2 Esogeno? corr(raini, ui) = 0?Plausibile: la pioggia nelle aree di produzione lattiera nondovrebbe influenzare la domanda di burro


Stima IV


ln(Qbutteri

)= β0 + β1 ln

(P butteri

)+ ui

Zi = raini pioggia nelle aree di produzione lattiera.

1 Regressione di ln(P butteri

)su rain (inclusa costante) ⇒

ln(P butteri

).

2 Regressione di ln(Qbutteri

)su ln

(P butteri

)


Stima IV

Esempio 3: Punteggi nei test e dimensioni delle classi

Le regressioni di TestScore su STR potrebbero averedistorsione da variabile omessa (es. partecipazione deigenitori)

Questa distorsione puo essere eliminata dalla regressioneIV (TSLS)

Un’idea per uno strumento: alcuni distretti, colpiti da unterremoto, raddoppiano le classi. Allora possiamo usareZi = Quakei = 1 se il distretto i e stato colpito da unterremoto.E uno strumento valido?

1 Il terremoto crea una situazione come se i distrettirientrassero in un esperimento con assegnazione casuale.Quindi la variazione di STR conseguente al terremoto eesogena

2 Il primo stadio del TSLS prevede la regressione di STR suQuake, isolando cosı la parte esogena di STR


Stima IV

Inferenza con TSLS

In grando campioni, la distribuzione campionaria dellostimatore TSLS e normale

L’inferenza (IC, verifica di ipotesi) si fa nel modo consueto,ovvero CI = (stimatoreTSLS ± 1, 96SE)

Il concetto alla base della normalita asintotica e che ancheil TSLS puo essere scritto come una somma di v.c. i.i.d., acui possiamo applicare il TLC


Stima IV

Inferenza con TSLS

Si ottieneβTSLS1 ≈ N(β1, σ

2βTSLS1

)

dove

σ2βTSLS1

=1

n

Var(Zu)

[Cov(X,Z)]2

e dove Cov(X,Z) 6= 0 perche lo strumento e rilevante

Tutto questo assume che gli strumenti siano validi –vedremo tra breve che cosa accade se non lo sono.

Nota sugli errori standard: Gli errori standard OLS dallaregressione del secondo stadio non sono corretti perche nontengono conto della stima al primo stadio. ⇒ Si utilizza inveceun singolo comando apposito che calcola lo stimatore TSLS egli errori standard corretti (robusti all’eteroshedasticita)


Stima IV

Esempio 4: domanda di sigarette

ln(Qcigari

)= β0 + β1 ln

(P cigari

)+ ui

Perche lo stimatore OLS e probabilmente distorto?

Dati panel su consumo annuo e prezzi medi (compreseimposte) delle sigarette per stato (48 stati USA), anni1985-1995

Zi = imposta generale sulle vendite al pacchetto nelloStato=SalesTaxi

E uno strumento valido? SI: correlato con i prezzi, ma noncon ui (la domanda di sigarette non dipende direttamenteda SalesTax)


Stima IV


Per ora usiamo solo i dati del 1995 (n = 48)smpl year=1995 --restrict

Primo stadio:

ln(P cigari

)= 4.63 + 0.031SalesTax

Secondo Stadio:

ln(Qcigari

)= 9.72− 1.08

ln(P cigari

)+ ui

Regressione TSLS con errori standard corretti e HC:

ln(Qcigari

)=9.72

(1.53)− 1.08

(0.32)

ln(P cigari

)+ ui


Stima IV


Regressione di primo stadio

? ols lravgprs const rtaxso --robust


Dependent variable: lravgprs



--------------------------------------------------------

const 4.616546 0.0289177 159.64 0.000 ***

rtaxso 0.0307289 0.0048354 6.35 0.000 ***

R-squared 0.4710

F(1, 46) 40.39 P-value(F) 0.0000


Stima IV


Regressione di secondo stadio

? ols lpackpc const lravphat --robust


Dependent variable: lpackpc



--------------------------------------------------------

const 9.719875 1.597119 6.09 0.002 ***

lravphat -1.083586 0.3336949 -3.25 0.000 ***

R-squared 0.15525

F(1, 46) 10.54 P-value(F) 0.0022

Gli errori standard sono sbagliati perche ignorano la stima delprimo stadio


Stima IV


In un unico comando

? tsls lpackpc const lravgprs ; const rtaxso --robust

Model 3: TSLS, using observations 1-48

Dependent variable: lpackpc

Instrumented: lravgprs

Instruments: const rtaxso



--------------------------------------------------------

const 9.71988 1.52832 6.360 2.02e-10 ***

lravgprs -1.08359 0.318918 -3.398 0.0007 ***





Stima IV

Riepilogo: regressione IV con singola X e Z

Uno strumento valido deve soddisfare:1 Rilevanza: Cov(X,Z) 6= 02 Esogeneita: Cov(Z, u) = 0

TSLS procede eseguendo prima la regressione di X su Zper ottenere X e poi Y su X

Il concetto chiave e che il primo stadio isola la parte dellavariazione in X che e incorrelata con u

Se lo strumento e valido, allora la distribuzione in grandicampioni e normale, percio l’inferenza procede come diconsueto


Stima IV

Il modello generale di regressione IV

Ora estenderemo i concetti visti fino ad ora a

piu regressori endogeni (X1, . . . , Xk)

piu variabili incluse esogene (W1, . . . ,Wr)

Piu variabili strumentali (Z1, . . . , Zm). Piu strumenti(rilevanti) possono produrre una minore varianza del TSLS:l’R2 del primo stadio aumenta, percio si ha maggiorevariazione in X.

Nuovi termini: identificazione e sovraidentificazione.


Stima IV

Identificazione

In generale si dice che un parametro e identificato sediversi valori del parametro producono distribuzioni diversedei dati

Nella regressione IV, il fatto che i coefficienti sianoidentificati dipende dalla relazione tra il numero distrumenti (m) e il numero di regressori endogeni (k)

Intuitivamente: se ci sono meno strumenti che regressoriendogeni, non possiamo stimare β1, . . . , βk. Pensiamo alcaso banale k = 1 e m = 0 (nessuno strumento)!


Stima IV

Identificazione

I coefficienti β1, . . . , βk si dicono

esattamente identificati se m = k

sovraidentificati se m > k.Ci sono piu strumenti di quelli necessari per stimareβ1, . . . , βk. In questo caso si puo verificare se gli strumentisono validi (test delle “restrizioni sovraidentificanti”) –torneremo sul tema in seguito

sottoidentificati se m < kCi sono troppi pochi strumenti per stimare β1, . . . , βk. Inquesto caso occorre procurarsi piu strumenti!


Stima IV

Il modello generale di regressione IV

Yi = β0 + β1X1i + · · ·+ βkXki + βk+1W1i + ·+ βk+rWri + ui

Yi variabile dipendente

X1i, . . . , Xki regressori endogeni

W1i, . . . ,Wri regressori esogeni

β0, . . . , βk+r coefficienti di regressione ignoti

Z1i, . . . , Zmi m variabili strumentali


Stima IV

TSLS con un singolo regressore endogeno

Yi = β0 + β1X1i + β2W1i + ·+ β1+rWri + ui

m ≥ 1 strumenti Z1, . . . , Zm

Primo Stadio: Regressione di Xi su tutti i regressoriesogeni e sugli strumenti (inclusa intercetta), usando OLS⇒ Calcolo dei valori predetti Xi

Secondo Stadio: Regressione di Yi su Xi e su tutti iregressori esogeni W1i, . . . ,Wri

I coefficienti di questa seconda regressione OLS sono glistimatori TSLS ma gli SE sono sbagliati

Per ottenere errori standard corretti, occorre procedere inun singolo passaggio con il software di regressione (Gretl)


Stima IV

Esempio 4: ancora la domanda di sigarette

Assumiamo che il reddito sia esogeno, e di voler anche stimarel’elasticita:

ln(Qcigari

)= β0 + β1ln

(P cigari

)+ β2 ln (Incomei) + ui

Abbiamo 2 strumenti:

Z1i = imposta generale sulle venditeZ2i = imposta specifica sulle sigarette

Variabile endogena: ln(P cigari

)(“una sola X”)

Variabile esogena inclusa: ln(Income) (“una sola W”)

Strumenti (variabili endogene escluse): imposta generalevendite, imposta specifica sulle sigarette (“due Z”)

β1 e sovraidentificata


Stima IV

Esempio 4: ancora la domanda di sigarette

Stime TSLS, Z =imposta vendite (m = 1)

ln(Qcigari

)=9.43

(1.26)− 1.14

(0.37)ln(P cigari

)+ 0.21

(0.31)ln (Incomei)

Stime TSLS, Z =imposta vendite e imposta sigarette (m = 2)

ln(Qcigari

)=9.89

(0.96)− 1.28

(0.25)ln(P cigari

)+ 0.28

(0.25)ln (Incomei)

Errori standard per m = 2. Con due strumenti si hannopiu informazioni, piu “variazione come se casuale” in X

Bassa elasticita al reddito (non e un bene di lusso);elasticita al reddito non significativamente diversa da zero

Elasticita al prezzo sorprendentemente elevata


Stima IV

Validita di uno strumento: assunzioni generali


Esogeneita: Corr(Z1i, ui) = 0, . . . , Corr(Zmi, ui) = 0

Rilevanza: Caso generale (piu X)Supponiamo che la regressione del secondo stadio possaessere eseguita usando i valori predetti dalla regressione delprimo stadio. Allora non vi e perfetta collinearita in questaregressione del secondo stadio.

Caso speciale di una sola X: l’assunzione generale eequivalente a (a) almeno uno strumento deve entrare nellacontroparte della regressione del primo stadio e (b) i Wnon sono perfettamente collineari.


Stima IV

Assunzioni della regressione IV

Yi = β0 + β1X1i + · · ·+ βkXki + βk+1W1i + ·+ βk+rWri + ui

(1) E(ui |W1i, . . . ,Wri) = 0,ossia: i regressori esogeni sonoesogeni

(2) (Yi, X1i, . . . , Xki,W1i, . . . ,Wri, Z1i, . . . , Zmi) sono iid dallaloro distribuzione congiunta (niente di nuovo)

(3) X,W,Z e Y hanno momenti quarti finiti non nulli (non enuova)

(4) Gli strumenti (Z1i, . . . , Zmi) sono validi

Sotto le assunzioni della regressione IV, il TSLS e lastatistica t hanno distribuzione approx normale

Requisito fondamentale e che gli strumenti siano validi


Stima IV

Esempio 1: effetto dei voti sullo studio


Y = media voti primo semestre

X = media ore di studio giornaliere

Z = 1 se il compagno di stanza ha un videogioco (Compagni di stanzaassegnati casualmente)

Perche Z potrebbe essere correlata con u (nonesogena)? Ipotesi: il genere

Le donne hanno in media voti piu alti degli uomini a parita di ore distudio

Gli uomini hanno un maggior probabilita di portare un videogioco

⇒ Corr(Zi, ui) < 0 (maschi hanno piu probabilita di avere un compagnodi stanza (maschio) che porti un videogioco, ma i maschi tendonoanche ad avere voti inferiori, a parita di tempo di studio)

Si tratta di un caso di variabili omesse. La soluzione stanell’includere (controllare per) la variabile omessa (il genere)


Stima IV

Verifica della validita degli strumenti

Ricordiamo che uno strumento e valido se vale

1 Rilevanza: (con una sola X endogena) almeno unostrumento deve essere correlato con la X

2 Esogeneita: tutti gli strumenti devono essere incorrelaticon il termine di errore

Cosa accade se uno di questi due requisiti non e soddisfatto?


Stima IV

Verifica della Rilevanza dello strumento

Consideriamo il caso di un solo regressore endogeno:


La regressione di primo stadio e:

Xi = π0 + π1Z1i + · · ·+ πmZmi + πm+1W1i + πm+rWri + ui

Gli strumenti sono rilevanti se almeno uno dei coefficientiπ1, . . . , πm e diverso da zeroGli strumenti si dicono deboli se tutti i π1, . . . , πm sono ugualio molto vicini a zeroIl problema degli strumenti deboli e che spiegano solo unapiccola parte della variazione esogena di X, non ci dicono(quasi) niente di piu di quello che gia ci dicono gli altriregressori (controlli) W


Stima IV

Conseguenze di strumenti deboli

Se gli strumenti sono deboli, la distribuzione campionaria delTSLS e della sua statistica t non e normale, neanche per grandicampioni.

Consideriamo ll caso piu semplice:

Yi = β0 + β1Xi + uiXi = π0 + π1Zi + vi

Lo stimatore IV βTSLS1 = sY ZSZX

Se Cov(X,Z) e zero o cmq molto molto piccolo, allora sXZ saramolto piccolo: il denominatore e quasi zero

La distribuzione campionaria non e piu ben approssimata dauna normale


Stima IV

Conseguenze di strumenti deboli

Linea scura = strumenti non rilevantiLinea chiara tratteggiata = strumenti forti


Stima IV

Perche l’approssimazione normale non funziona?

βTSLS1 =sY ZsZX

Se Cov(X,Z) e piccola, piccole variazioni in sZX induconograndi variazioni in βTSLS1

Approssimazione migliore e quella di un rapporto tra v.c.normali correlate

Strumenti deboli ⇒ consueti metodi di inferenza(potenzialmente) molto inaffidabili


Stima IV

“Test” degli strumenti deboli: la statistica F delprimo stadio

La regressione del primo stadio (una sola X persemplicita): regressione di X su Z1, . . . , Zm,W1, . . . ,Wr.

Strumenti totalmente irrilevanti se tutti i coefficienti diZ1, . . . , Zm sono nulli

La statistica F del primo stadio verifica l’ipotesi cheZ1, . . . , Zm non entrino nella regressione di primo stadio(non significativi)

Strumenti deboli (non totalmente irrilevanti) implicano unbasso valore della statistica F di primo stadio


Stima IV

“Test” degli strumenti deboli: la statistica F delprimo stadio

Si calcola la statistica F del primo stadio

Regola empirica: se la statistica F del primo stadioe minore di 10, allora l’insieme di strumenti edebole.

In questo caso, lo stimatore TSLS sara distorto, e leinferenze statistiche possono essere fuorvianti.

Ma, perche quel valore “10”? Non potremmosemplicemente fare un test F per rifiutare l’ipotesi di nonsignificativita? No, non e sufficiente respingerel’ipotesi nulla, perche strumenti deboli non sononecessariamente totalmente irrilevanti

Il valore F = 10 corrisponde a una distorsione di TSLS pari al

10% dell’OLS. Se F < 10 la distorsione relativa e superiore al

10%, quindi (anche) il TSLS ha una distorsione importante


Stima IV

Cosa fare se gli strumenti sono deboli?

Trovare strumenti migliori (... difficile...)

se gli strumenti sono molti, togliere i piu deboli (scartandouno strumento irrilevante aumentera la statistica F diprimo stadio

Se nessuna delle due strade e percorribile, allora necessarioeseguire una analisi IV piu complessa: (i) separare ilproblema della stima di β1 dalla costruzione di IC; (ii)stime alternative a TSLS


Stima IV

Intervalli di confidenza con strumenti deboli

Intervallo di confidenza di Anderson-Rubin

Si basa sulla statistica di A-R per l’ipotesi β1 = β1,0: (i)calcolo Yi − β1,0Xi; (ii) Regressione su W,Z; (iii) test F suicoefficientei di Z1, . . . , Zm

Intervallo di confidenza al 95% e la regione di accettazioneal livello 5% del test A-R

IC del Rapporto di verosimiglianza (LR) condizionatodi Moreira

Si basa sulla statistica del LR condizionato di Moreira.

Tende ad essere piu stretto di quello di A-R specialmentese ci sono molti strumenti

Come l’IC di A-R, necessita di un software che producequesto intervallo


Stima IV

Stima con strumenti deboli

Non ci sono stimatori non distorti se gli strumenti sono deboli oirrilevanti. Tuttavia, alcuni stimatori hanno una distribuzionepiu centrata su β1 del TSLS.

Uno stimatore di questo tipo e lo stimatore di maxverosimiglianza con informazione limitata (LIML)

Puo essere derivato come stimatore di Max Verosim.

E il valore di β1 che minimizza il valore p del test A-R

Con Gretl: opzione apposita del comando tsls: --lilm.Esempio:tsls lpackpc const lravgprs lperinc ; const

rtaxso rtax lperinc --robust --lilm


Stima IV

Verifica dell’assunzione di esogenetia

Esogeneita: tutti gli strumenti Z1, . . . , Zm sono incorrelaticon il termine di errore.

Se gli strumenti sono correlati con il termine d’errore, ilprimo stadio del TSLS non puo isolare una parte di Xincorrelata con u, ovvero anche X e correlata con u e ilTSLS e inconsistente

Se ci sono piu strumenti che regressori endogeni, e possibileverificare –parzialmente– l’esogeneita degli strumenti


Stima IV

Verifica di restrizioni di sovraidentificazione

Caso semplice Yi = β0 + β1Xi + ui

Supponiamo di avere 2 strumenti validi: Z1, Z2

Potremmo calcolare 2 stime TSLS separate ciascuna conesatta identificazione

Intuizione: se entrambi gli strumenti sono validi, le duestime dovrebbero essere simili. Se le stime sono diverse,uno dei 2 strumenti non e valido

Questa e l’idea del test J . Si puo ovviamente fare solo sec’e sovraidentificazione


Stima IV

Il test J di restrizioni di sovraidentificazione

Supponiamo di avere k regressori endogeni e m > k strumenti.Il test J si effettua nel modo seguente:

Stimiamo l’equazione di interesse con TSLS usando tuttigli strumenti ⇒ Calcoliamo i valori predetti Y usando le Xe non le X del secondo stadio

Calcoliamo i residui: ui = Yi − YiRegressione di u rispetto agli strumenti (Z) e ai regressoriesogeni (W )

Statistica F per l’ipotesi di significativita dei coefficientiassociati agli strumenti

J = m× F . Sotto H0 : tutti gli strumenti sono esogeni,J ∼ χ2

m−kValori alti di J ci portano a respingere l’ipotesi che tutti glistrumenti siano esogeni. Almeno alcuni degli strumentisono endogeni. Quale scartare?


Stima IV

Applicazione: domanda di sigarette

Perche misurare l’elasticita della domanda di sigarette?

Teoria della tassazione ottimale. L’aliquota d’impostaottimale e inversamente proporzionale all’elasticita alprezzo: maggiore a l’elasticita, minore la quantitainfluenzata da una data percentuale d’imposta, perciominore e la variazione di consumo

Esternalita del fumo - ruolo dell’intervento pubblico chescoraggia il fumo: (i) effetti del fumo (passivo e non) sullasalute; (ii) esternalita monetarie (Positive): costo minorepensioni e assistenza anziani per lo Stato


Stima IV

Dati panel sul fumo

Dataset

Consumo annuo di sigarette, prezzi medi pagati dalconsumatore finale (tasse incluse), reddito personale epercentuali d’imposta (specifiche per le sigarette e generalisulle vendite nello stato)

48 stati continentali USA, 1985–1995

Strategia di stima

Dobbiamo usare metodi di stima IV per gestire ladistorsione da causalita simultanea che nascedall’interazione di offerta e domanda.

Indicatori binari di stato = variabili W (variabili dicontrollo) che controllano per caratteristiche inosservate alivello di stato che influiscono sulla domanda di sigarette ela percentuale d’imposta, purche tali caratteristiche nonvarino nel tempo.


Stima IV

Modello a effetti fissi della domanda di sigarette

ln(Qcigarit

)= αi + β1 ln

(P cigarit

)+ β2 ln (Incomeit) + uit

n = 48, T = 11 (1985, . . . , 1995)

Cov(

ln(P cigarit

), uit

)verosimilmente diverso da zero a

causa di variazioni domanda-offerta

αi riflette valori omessi inosservati che variano tra stati manon nel tempo

Stima1 Regressione per dati panel per eliminare effetti fissi2 TSLS per gestire distorsione da causalita simultanea

Consideriamo solo T = 1985, 1995 ⇒ osserviamo la rispostaa lungo termine non la dinamica a breve termine


Stima IV

Metodo “prima e dopo”

T = 2, quindi possiamo usare il metodo “prima e dopo” perdati panel. Riscriviamo l’equazione di regressione:

ln(Qcigar

i95

)− ln

(Qcigar

i85

)= β1

(ln(P cigari95

)− ln

(P cigari85

))+β2 (ln (Incomei95)− ln (Incomei85)) + ui95 − ui85

Creiamo le variabili “differenza prima e dopo”

poi stimiamo il modello cosı trasformato mediante TSLS.Otteniamo cosı la stima dell’elasticita della domanda (dilungo periodo)

Metodi di stima equivalenti: (i) stima within; (ii)introduzione di N − 1 dummies di stato (variabili dicontrollo, W ) nella regressione


Stima IV

Come fare con Gretl

1. Creazione delle variabili “differenze prima e dopo”:Ad esempio con i comandi:

diff(l_packpc)

diff(l_income)

diff(l_avgprs)

diff(rtax)

diff(rtaxso)

si generano le variabili

d_l_packpc, d_l_income, d_l_avgprs, d_rtax, d_rtaxso


Stima IV

Come fare con Gretl

2. comando per la regressione TSLS:

tsls d_l_packpc const d_l_avgprs d_l_perinc ; const

d_l_perinc d_rtaxso --robust

Elasticita stimata −0.94! Sorprendentemente elastica.Elasticita del reddito piccola e enon significativa.

3. Verifica della rilevanza dello strumento:Automaticamente con Gretl compare nell’output:

Weak instrument test -

First-stage F-statistic (1, 45) = 46.41

A value < 10 may indicate weak instruments

4. Esogenetia dello strumento: non possiamo verificarla(m = 1)


Stima IV

Come fare con Gretl

5. comando per la regressione TSLS con 2 strumenti:(tasse su sigarette –rtax e imposta generale sulle venditertaxso)

tsls d_l_packpc const d_l_avgprs d_l_perinc ; const

d_l_perinc d_rtaxso d_rtax --robust

Elasticita stimata −1.202, ancora piu elastica


Stima IV

Come fare con Gretl

6. Verifica della rilevanza dello strumento:

Weak instrument test -

First-stage F-statistic (2, 44) = 75.65

A value < 10 may indicate weak instruments

7. Esogenetia dello strumento: Direttamente dall’output diGret

Sargan over-identification test -

Null hypothesis: all instruments are valid

Test statistic: LM = 4.93198

with p-value = P(Chi-square(1) > 4.93198) = 0.02636401

L’ipotesi e rifiutata al 5%... e ora??


Stima IV

Riepilogo risultati in tabella


Stima IV

Commenti sul test J

Il test J rigetta l’ipotesi che tutti gli strumenti siano esogeni,che implica:

rtax endogeno e rtaxso esogeno

rtaxso endogeno e rtax esogeno

entrami rtax e rtaxso endogeni

Come capire quale puo essere endogeno? Non ci sono teststatistici o metodi econometrici per questo... solo ilragionamento.

Nel ns esempio, rtax (imposta sulle sigarette) potrebbe essereendogeno per:

Pressione politica per basse imposte sulle sigarette dovuta a altapercentuale fumatori ⇒ rtax endogena, ma non rtaxso (impostagenerale sulle vendite)

Quindi usiamo il modello (1) che ha come strumento solortaxso.


Stima IV

Valutazione alla validita dello studio

Minacce alla validita interna (esclusa causalita simultanea):

Distorsione da variabili omesse: (parzialmente) eliminata con glieffetti fissi

Errata specificazione funzionale (da verificare eventualmente)

altra causalita simultanea? No, se lo strumento usato e unostrumento valido

Errori nelle variabili? Improbabili in questi dati

Selezione campionaria? Non ci sono stati mancanti

L’ultima minaccia puo derivare dalla validita dello strumento.Quanto e preoccupante nella ns applicazione?

Minacce alla validita esterna:

Si possono generalizzare questi risultati al breve periodo?

Quanto e valida la stima −0.94 calcolata sui dati 85-95 su datiodierni? Poco: oggi si fuma meno (anche perche) e cambiatomolto l’atteggiamento culturale nei confronti del fumo


Stima IV

Trovare strumenti validi

E in generale la parte piu difficile di un’analisi IC.

Metodo 1: “variabili in un’altra equazione” (fattori dispostamento dell’offerta che non hanno effetto sulladomanda)

Metodo 2: cercare una variazione sull’offerta che sia “comese” fosse assegnata casualmente (non influisce direttamentesu Y , ma solo tramite X)

introduzione all’econometria · introduzione all’econometria outline 1 capitolo 1 -...

Documents