il modello di regressione lineare...
TRANSCRIPT
Il modello di regressione linearemultivariata
Eduardo Rossi2
2Universita di Pavia (Italy)
Aprile 2013
Rossi MRLM Econometria - 2013 1 / 39
Outline
1 Notazione
2 il MRLM
3 Il modello partizionato
4 Collinearita
Rossi MRLM Econometria - 2013 2 / 39
Notazione
Il MRLM
Il modello di regressione lineare multipla:
Yi = β0 + β1X1i + . . .+ βkXki + ui i = 1, 2, . . . , n
β0, β1, . . . βk parametri fissi ma ignoti, ui ignoto, Yi regredendo,v.casuale, Xik regressore, covariata casuale.
β = [β0, β1, β2, . . . , βk]′ ((k + 1)× 1) Xi =
1X1i
...Xki
((k + 1)× 1)
yi = [β0, β1, . . . , βk]′
1X1i
...Xki
+ ui i = 1, 2, . . . , n
Yi = β′Xi + ui
Rossi MRLM Econometria - 2013 3 / 39
Notazione
Notazione
Notazione matriciale
Y =
Y1...Yn
(n× 1)
X =
X′1...
X′n
=
1 X11 X21 . . . Xk1
1 X12 X22 . . . Xk2...
......
...1 X1n X2n . . . Xkn
(n× (k + 1))
u =
u1
u2...un
(n× 1)
Rossi MRLM Econometria - 2013 4 / 39
Notazione
X′1β...
X′nβ
= Xβ
Il vettore Y raccoglie tutte le osservazioni della variabile dipendente.La matrice X raccoglie le osservazioni sulle variabili esplicative. Ognicolonna di X contiene tutte le osservazioni per la singola variabileesplicativa.Il MRLM in notazione matriciale:
Y = Xβ + u
Rossi MRLM Econometria - 2013 5 / 39
il MRLM
MRLM - Assunzioni
1. La media condizionale e lineare:
E[Yi|Xi] = X′iβ
2. Campionamento casuale. Per ogni istante (unita) i un nuovovettore (Yi,X
′i) e estratto dalla popolazione in modo indipendente.
Rossi MRLM Econometria - 2013 6 / 39
il MRLM
MRLM - Assunzioni
La conoscenza di xj per ogni j 6= i non puo aiutare nella previsione diYi: (Yi,Xi) sono estratti in modo indipendente, questo significa:
E[Yi|X1, . . . ,Xi, . . . ,Xn] = X′iβ i = 1, . . . , n
eE[Yi|X1, . . . ,Xi, . . . ,Xn, Y1, . . . , Yi−1, Yi+1, . . . , Yn] = X′iβ
Rossi MRLM Econometria - 2013 7 / 39
il MRLM
3. Il rango di X e k + 1.
4. Il termine di disturbo
E[u|X] = 0
E[uu′|X] = σ2uIN
In modo non condizionale, per la legge delle aspettative iterate:
E{E[u|X]} = E[u] = 0
E{E[uu′|X]} = E[uu′] = σ2uIN
Rossi MRLM Econometria - 2013 8 / 39
il MRLM
Il metodo dei minimi quadrati
I caratteri variano simultaneamente tra gli individui. Il metodo deiminimi quadrati ordinari e un modo per scomporre le differenzenella variabile dipendente fra diverse caratteristiche osservate (variabiliesplicative) per le diverse unita nel campione.
Il metodo dei minimi quadrati ordinari (in inglese Ordinary LeastSquares, OLS) e usato per stimare il valore di βi, i = 1, . . . , k. Questisono scelti in modo tale che siano la soluzione al seguente problema:
minβ0,β1,...,βK
n∑i=1
[Yi − (β0 + β1X1i + β2X2i + . . .+ βkXki)]2
Il termine ”minimi quadrati” si riferisce alla minimizzazione dellasomma delle differenze al quadrato:
[Yi − (β0 + β1X1i + . . .+ βkXki)]
gli scarti.Rossi MRLM Econometria - 2013 9 / 39
il MRLM
La somma dei quadrati
La funzione obiettivo
f(β0, β1, . . . , βk) =
n∑i=1
[Yi − (β0 + β1X1i + β2X2i + . . .+ βkXik)]2 (1)
e la sum of squared residuals (somma dei quadrati dei residui). Quandoi residui sono valutati in β1, . . . , βk i residui sono detti fitted residuals(residui fittati, o residui della regressione).
Rossi MRLM Econometria - 2013 10 / 39
il MRLM
Lo stimatore dei minimi quadrati (OLS)
Il metodo dei minimi quadrati risolve il problema
β ≡ arg minβ
(Y −Xβ)′(Y −Xβ)
Definiamo
S(β) ≡ (Y −Xβ)′(Y −Xβ) =∑i
(Yi −X′iβ)2
Rossi MRLM Econometria - 2013 11 / 39
il MRLM
Lo stimatore dei minimi quadrati (OLS)
∂S(β)
∂β=∂∑
i(Yi −X′iβ)2
∂β
=
∑i ∂(Yi −X′iβ)2
∂β
= −2
∑i(Yi −X′iβ)∂(β′Xi)
∂β
ma∂β′
∂βXi = IkXi = Xi
segue che
−2
∑i(Yi − β′Xi)∂(β′Xi)
∂β= −2
∑i
(Yi −X′iβ)Xi
Rossi MRLM Econometria - 2013 12 / 39
il MRLM
Lo stimatore dei minimi quadrati (OLS)
Condizione del primo ordine:∑i
(Yi −X′iβ)Xi = 0∑i
XiYi =∑i
XiX′iβ
β =
[∑i
XiX′i
]−1∑i
XiYi
ovveroβ =
(X′X
)−1X′Y
Gli OLS sono delle somme ponderate delle {Yi}, cioe sono funzionilineari della variabile dipendente. Questa linearita in {Yi} semplifical’analisi statistica degli OLS.
Rossi MRLM Econometria - 2013 13 / 39
il MRLM
Non distorsione
β = (X′X)−1X′Y = β + (X′X)−1X′u
E[β|X] = β + (X′X)−1X′E[u|X] = β + (X′X)−1X′ · 0 = β
Lo stimatore OLS e condizionalmente non distorto, ma anche noncondizionatamente (per la legge delle aspettative iterate):
E{E[β|X]} = E[β] = β
Rossi MRLM Econometria - 2013 14 / 39
il MRLM
inoltre,
E[Xβ |X
]= Xβ
E [ε |X ] = E[Y −Xβ |X
]= E [Y|X]− E
[Xβ |X
]= Xβ −XE[β|X]
= Xβ −Xβ = 0
Rossi MRLM Econometria - 2013 15 / 39
il MRLM
Proprieta stimatore OLS
Varianza dello stimatore OLS:
Var[β|X] = E[(β − β)(β − β)′|X]
= E[(X′X)−1X′uu′X(X′X)−1|X]
= (X′X)−1X′E[uu′|X]X(X′X)−1
= σ2(X′X)−1
La matrice di covarianza misura quanto informatico e il campione per iparametri. La varianza non condizionale
Var[β] = E{V ar[β|X]} = σ2E[(X′X)−1]
Se viene ripetuto l’esperimento casuale con estrazioni casuali di X, ladistribuzione di β e descritta da Var[β].
Rossi MRLM Econometria - 2013 16 / 39
il MRLM
Matrici di proiezione
DataPX = X(X′X)−1X′
Simmetrica:P′X = PX
Idempotente:
PXPX = [X(X′X)−1X′][X(X′X)−1X′]
= X(X′X)−1(X′X)(X′X)−1X′
= X(X′X)−1X′
= PX
conPXX = [X(X′X)−1X′]X = X
Rossi MRLM Econometria - 2013 17 / 39
il MRLM
Valori stimati
Valori stimati:
Y = Xβ
= X(X′X)−1X′Y
= PXY
Rossi MRLM Econometria - 2013 18 / 39
il MRLM
Residui
Residui
u = Y −Xβ
= Y − (X′X)−1X′Y
=[In −X(X′X)−1X′
]Y
= [In −PX ] Y
= MXY
conMX = In −PX
doveMXX = (In −PX)X = X−X = 0
u = MXY = MX(Xβ + u) = MXu
Rossi MRLM Econometria - 2013 19 / 39
il MRLM
Matrici di proiezione
MX e simmetrica ed idempotente (come PX). Inoltre,
PXMX = PX(In −PX) = PX −PX = 0
MX e PX sono ortogonali.
Rossi MRLM Econometria - 2013 20 / 39
il MRLM
I residui
u = MXY
= MX(Xβ + u)
= MXXβ + MXu
= MXu
Sebbene i residui siano stime di variabili non correlate per assunzionerisultano correlati
E[uu′|X] = E[MXuu′M′X |X] = σ2
uMX
la distribuzione e singolare, la matrice di varianza-covarianza esingolare con rango n− k − 1. Questa e la conseguenzadell’ortogonalita con X.
Rossi MRLM Econometria - 2013 21 / 39
Il modello partizionato
Il modello partizionato
AssunzioniX, (n× (k + 1)), e una matrice di rango-colonna pieno, n > k + 1. Ilmodello partizionato e utile per descrivere come gli OLS assegnanovalori agli elementi di β quando tutte le variabili esplicative cambianoda osservazione a osservazione.
Y = Xβ
=[
X1 X2
] [ β1
β2
]= X1β1 + X2β2
X1 (n× k1)X2 (n× k2)β1 (k1 × 1)β2 (k2 × 1)
Rossi MRLM Econometria - 2013 22 / 39
Il modello partizionato
Il modello partizionato
Frisch e Waugh (1933), Lowell (1963).
Y = PXY + (In −PX)Y = PXY + MXY
PXY = X1β1 + X2β2
Y = X1β1 + X2β2 + MXY
MX2 = In −X2(X′2X2)−1X′2
Premoltiplichiamo con X′1MX2 :
X′1MX2Y = X′1MX2X1β1 + X′1MX2X2β2 + X′1MX2MXY
maMX2X2 = 0
MXMX2X1 = 0
perche MX2X1 ∈ Col(X).Rossi MRLM Econometria - 2013 23 / 39
Il modello partizionato
Il modello partizionato
Risolvendo per β1 si ottiene
β1 =(X′1MX2X1
)−1X′1MX2Y
Quindi lo stimatore β1 puo essere trovato con una procedura a duestadi:
1 regressione di X1 su X2, da cui si ottengono i residui MX2X1;
2 regressione di y sui residui della regressione del primo stadio,MX2X1.
β1 cattura la componente di y collineare con X1 che non puo esserespiegata da X2.
Rossi MRLM Econometria - 2013 24 / 39
Il modello partizionato
Il modello partizionato
Con errori omoschedastici:
β1 =(X′1MX2X1
)−1X′1MX2Y
=(X′1MX2X1
)−1X′1MX2 [X1β1 + X2β2 + u]
= β1 +(X′1MX2X1
)−1X′1MX2u
Var[β1|X] = E[(β1 − β1)(β1 − β1)′|X]
= E[(X′1MX2X1
)−1X′1MX2uu′MX2X1
(X′1MX2X1
)−1 |X]
=(X′1MX2X1
)−1X′1MX2E[uu′|X]MX2X1
(X′1MX2X1
)−1
= σ2u
(X′1MX2X1
)−1X′1MX2X1
(X′1MX2X1
)−1
= σ2u
(X′1MX2X1
)−1
Rossi MRLM Econometria - 2013 25 / 39
Il modello partizionato
La distribuzione degli stimatori OLS nella regressionemultipla
Sotto le quattro assunzioni dei minimi quadrati,
La distribuzione campionaria di β1 ha media β1
Var(β1) e inversamente proporzionale a n.
Al di la di media e varianza, la distribuzione esatta (n-finita) di βimolto complessa; ma per n grande...
e consistente: β1p→ β1 (legge dei grandi numeri)
e approssimata da una distribuzione N(0,1) (TLC)
Queste proprieta valgono per β2, . . . , βk
Concettualmente, non vi e nulla di nuovo!
Rossi MRLM Econometria - 2013 26 / 39
Il modello partizionato
Stima della varianza dell’errore
E[u2i |X] = σ2
Per la legge delle aspettative iterate:
E{E[u2i |X]} = E[u2
i ] = σ2
Stimatore non distorto:
s2 =u′u
n− k − 1
Per dimostrare la correttezza usiamo le seguenti proprieta della traccia
a = tr(a) a ∈ Rtr(AB) = tr(BA)
Rossi MRLM Econometria - 2013 27 / 39
Il modello partizionato
Stima della varianza dell’errore
E[s2|X] =E[u′MXu|X]
n− k − 1
=E[tr(u′MXu)|X]
n− k − 1
=E[tr(MXuu′)|X]
n− k − 1=tr[E(MXuu′|X)]
n− k − 1
=tr[MXE(uu′|X)]
n− k − 1
=tr(MXσ
2IN )
N −K=tr(σ2
uMX)
n− k − 1= σ2
u
tr(MX)
n− k − 1= σ2
u
n− k − 1
n− k − 1
= σ2u
Rossi MRLM Econometria - 2013 28 / 39
Il modello partizionato
Stima della varianza dell’errore
Non condizionatamente:
E
[u′u
n− k − 1
]= σ2
u
s2 e corretto solo nel caso di disturbi omoschedastici (E[uu′] = σ2uIn).
Rossi MRLM Econometria - 2013 29 / 39
Il modello partizionato
La distribuzione degli stimatori OLS nella regressionecon due regressori
Yi = β1X1i + β2X2i + ui
Errori omoschedastici:
Var[ui|X1i, X2i] = σ2u
notazione matriciale:
Y = β1X1 + β2X2 + u
β1 =(X′1MX2X1
)−1X′1MX2Y
X2 = In −X2(X′2X2)−1X′2
In grandi campioni, la distribuzione di β1
β1 ∼ N(β1, σ2β1
)
Rossi MRLM Econometria - 2013 30 / 39
Il modello partizionato
La distribuzione degli stimatori OLS nella regressionecon due regressori
Var(β1|X) = σ2u
(X′1MX2X1
)−1
= σ2u
[X′1X1 −X′1X2(X′2X2)−1X′2X1
]−1
= σ2u
1
X′1X1
[1− (X′1X2)2
(X′2X2)(X′1X1)
]= σ2
u
1
X′1X1
[1− (X′1X2)2
(X′2X2)(X′1X1)
]−1
σ2β1
=1
n
σ2u
σ2X1
(1− ρ2X1,X2
)−1
Se X1 e X2 sono fortemente correlati allora 1− ρ2X1,X2
≈ 0 e la
varianza di β1 e piu grande di quella che si avrebbe se ρ2X1,X2
≈ 0.
Rossi MRLM Econometria - 2013 31 / 39
Collinearita
Collinearita perfetta
La collinearita perfetta si ha quando uno dei regressori e una funzionelineare esatta degli altri.
Esempi di collinearita perfetta
Includere STR due volte,
Eseguite la regressione di TestScore su una costante e due variabilidummy, D e B
Di =
{1 se STR ≤ 200 altrimenti
Bi =
{1 se STR > 200 altrimenti
percio Bi = 1−Di e vi e collinearita perfetta.
Ci sarebbe collinearita perfetta se l’intercetta (costante) fosseesclusa da questa regressione?
Questo esempio e un caso di trappola della dummy.
Rossi MRLM Econometria - 2013 32 / 39
Collinearita
Dummy per fenomeni stagionali
Consumo:
Ci = β0 + β1D1i + β2D2i + βD3i + β4Xi + ui
D1i =
{0 i = secondo, terzo e quarto trimestre1 i = primo trimestre
D2i =
{0 i = primo, terzo e quarto trimestre1 i = secondo trimestre
D3i =
{0 i = primo, secondo e quarto trimestre1 i = terzo trimestre
La quarta equazione non ha dummy. E’ l’equazione di riferimento cioela base di partenza rispetto alla quale c’e la correzione di intercetta.
Rossi MRLM Econometria - 2013 33 / 39
Collinearita
Dummy per fenomeni stagionali
n = 8, 8 trimestri
X =
1 Y1 1 0 01 Y2 0 1 01 Y3 0 0 11 Y4 0 0 01 Y5 1 0 01 Y6 0 1 01 Y7 0 0 11 Y8 0 0 0
Le ultime tre colonne rappresentano le 3 dummy.
Rossi MRLM Econometria - 2013 34 / 39
Collinearita
Dummy per fenomeni stagionali
Attenzione: Se inseriamo la quarta dummy
X =
1 Y1 1 0 0 01 Y2 0 1 0 01 Y3 0 0 1 01 Y4 0 0 0 11 Y5 1 0 0 01 Y6 0 1 0 01 Y7 0 0 1 01 Y8 0 0 0 1
la prima colonna
X·1 = X·3 + X·4 + X·5 + X·6
abbiamo una matrice di rango ridotto (collinearita perfetta).
Rossi MRLM Econometria - 2013 35 / 39
Collinearita
Dummy per fenomeni stagionali
Con dati trimestrali si usano 3 dummy, con dati mensili si usano 11dummy.La presenza di outlier la si puo accertare, in prima istanza, attraversol’analisi dei residui. Quando vi sono residui molto grandi e probabileche siamo in presenza di un outlier.
Rossi MRLM Econometria - 2013 36 / 39
Collinearita
Collinearita perfetta
Con G variabili binarie,
Se ogni osservazione rientra in una e una sola categoria.
se c’e un’intercetta nella regressione.
se tutte le variabili binarie G sono incluse come regressori.
allora ci sara collinearita perfetta.Per eliminare la collinearita perfetta dobbiamo escludere una dellevariabili binarie. In questo caso i coefficienti associati con le variabilibinarie incluse devono essere interpretati come deviazione dal livellomedio.
Rossi MRLM Econometria - 2013 37 / 39
Collinearita
Collinearita perfetta
La collinearita perfetta solitamente riflette un errore nelledefinizioni dei regressori, o una stranezza nei dati
Se avete collinearita perfetta, il software statistico ve lo fara sapere– bloccandosi, o mostrando un messaggio di errore, o “scaricando”arbitrariamente una delle variabili
La soluzione alla collinearita perfetta consiste nel modificarel’elenco di regressori.
Rossi MRLM Econometria - 2013 38 / 39
Collinearita
Collinearita imperfetta
La collinearita imperfetta e ben diversa dalla collinearita perfetta,nonostante la somiglianza dei nomi
La collinearita imperfetta si verifica quando due o piuregressori sono altamente correlati.
Perche si usa il termine “collinearita”? Se due regressori sonoaltamente correlati, allora il loro diagramma a nuvola appariramolto simile a una retta – sono “co-lineari” – ma a meno che lacorrelazione sia esattamente = 1, tale collinearita e imperfetta.
Rossi MRLM Econometria - 2013 39 / 39