il modello di regressione lineare...

Il modello di regressione linearemultivariata

Eduardo Rossi2

2Universita di Pavia (Italy)

Aprile 2013

Rossi MRLM Econometria - 2013 1 / 39

Outline

1 Notazione

2 il MRLM

3 Il modello partizionato

4 Collinearita


Notazione

Il MRLM

Il modello di regressione lineare multipla:

Yi = β0 + β1X1i + . . .+ βkXki + ui i = 1, 2, . . . , n

β0, β1, . . . βk parametri fissi ma ignoti, ui ignoto, Yi regredendo,v.casuale, Xik regressore, covariata casuale.

β = [β0, β1, β2, . . . , βk]′ ((k + 1)× 1) Xi =

1X1i

...Xki

((k + 1)× 1)

yi = [β0, β1, . . . , βk]′

1X1i

...Xki

+ ui i = 1, 2, . . . , n

Yi = β′Xi + ui


Notazione

Notazione

Notazione matriciale

Y =

Y1...Yn

(n× 1)

X =

X′1...

X′n

=

1 X11 X21 . . . Xk1

1 X12 X22 . . . Xk2...

......

...1 X1n X2n . . . Xkn

(n× (k + 1))

u =

u1

u2...un

(n× 1)


Notazione

X′1β...

X′nβ

= Xβ

Il vettore Y raccoglie tutte le osservazioni della variabile dipendente.La matrice X raccoglie le osservazioni sulle variabili esplicative. Ognicolonna di X contiene tutte le osservazioni per la singola variabileesplicativa.Il MRLM in notazione matriciale:

Y = Xβ + u


il MRLM

MRLM - Assunzioni

1. La media condizionale e lineare:

E[Yi|Xi] = X′iβ

2. Campionamento casuale. Per ogni istante (unita) i un nuovovettore (Yi,X

′i) e estratto dalla popolazione in modo indipendente.


il MRLM

MRLM - Assunzioni

La conoscenza di xj per ogni j 6= i non puo aiutare nella previsione diYi: (Yi,Xi) sono estratti in modo indipendente, questo significa:

E[Yi|X1, . . . ,Xi, . . . ,Xn] = X′iβ i = 1, . . . , n

eE[Yi|X1, . . . ,Xi, . . . ,Xn, Y1, . . . , Yi−1, Yi+1, . . . , Yn] = X′iβ


il MRLM

3. Il rango di X e k + 1.

4. Il termine di disturbo

E[u|X] = 0

E[uu′|X] = σ2uIN

In modo non condizionale, per la legge delle aspettative iterate:

E{E[u|X]} = E[u] = 0

E{E[uu′|X]} = E[uu′] = σ2uIN


il MRLM

Il metodo dei minimi quadrati

I caratteri variano simultaneamente tra gli individui. Il metodo deiminimi quadrati ordinari e un modo per scomporre le differenzenella variabile dipendente fra diverse caratteristiche osservate (variabiliesplicative) per le diverse unita nel campione.

Il metodo dei minimi quadrati ordinari (in inglese Ordinary LeastSquares, OLS) e usato per stimare il valore di βi, i = 1, . . . , k. Questisono scelti in modo tale che siano la soluzione al seguente problema:

minβ0,β1,...,βK

n∑i=1

[Yi − (β0 + β1X1i + β2X2i + . . .+ βkXki)]2

Il termine ”minimi quadrati” si riferisce alla minimizzazione dellasomma delle differenze al quadrato:

[Yi − (β0 + β1X1i + . . .+ βkXki)]

gli scarti.Rossi MRLM Econometria - 2013 9 / 39

il MRLM

La somma dei quadrati

La funzione obiettivo

f(β0, β1, . . . , βk) =

n∑i=1

[Yi − (β0 + β1X1i + β2X2i + . . .+ βkXik)]2 (1)

e la sum of squared residuals (somma dei quadrati dei residui). Quandoi residui sono valutati in β1, . . . , βk i residui sono detti fitted residuals(residui fittati, o residui della regressione).


il MRLM

Lo stimatore dei minimi quadrati (OLS)

Il metodo dei minimi quadrati risolve il problema

β ≡ arg minβ

(Y −Xβ)′(Y −Xβ)

Definiamo

S(β) ≡ (Y −Xβ)′(Y −Xβ) =∑i

(Yi −X′iβ)2


il MRLM


∂S(β)

∂β=∂∑

i(Yi −X′iβ)2

∂β

=

∑i ∂(Yi −X′iβ)2

∂β

= −2

∑i(Yi −X′iβ)∂(β′Xi)

∂β

ma∂β′

∂βXi = IkXi = Xi

segue che

−2

∑i(Yi − β′Xi)∂(β′Xi)

∂β= −2

∑i

(Yi −X′iβ)Xi


il MRLM


Condizione del primo ordine:∑i

(Yi −X′iβ)Xi = 0∑i

XiYi =∑i

XiX′iβ

β =

[∑i

XiX′i

]−1∑i

XiYi

ovveroβ =

(X′X

)−1X′Y

Gli OLS sono delle somme ponderate delle {Yi}, cioe sono funzionilineari della variabile dipendente. Questa linearita in {Yi} semplifical’analisi statistica degli OLS.


il MRLM

Non distorsione

β = (X′X)−1X′Y = β + (X′X)−1X′u

E[β|X] = β + (X′X)−1X′E[u|X] = β + (X′X)−1X′ · 0 = β

Lo stimatore OLS e condizionalmente non distorto, ma anche noncondizionatamente (per la legge delle aspettative iterate):

E{E[β|X]} = E[β] = β


il MRLM

Proprieta stimatore OLS

Varianza dello stimatore OLS:

Var[β|X] = E[(β − β)(β − β)′|X]

= E[(X′X)−1X′uu′X(X′X)−1|X]

= (X′X)−1X′E[uu′|X]X(X′X)−1

= σ2(X′X)−1

La matrice di covarianza misura quanto informatico e il campione per iparametri. La varianza non condizionale

Var[β] = E{V ar[β|X]} = σ2E[(X′X)−1]

Se viene ripetuto l’esperimento casuale con estrazioni casuali di X, ladistribuzione di β e descritta da Var[β].


il MRLM

Matrici di proiezione

DataPX = X(X′X)−1X′

Simmetrica:P′X = PX

Idempotente:

PXPX = [X(X′X)−1X′][X(X′X)−1X′]

= X(X′X)−1(X′X)(X′X)−1X′

= X(X′X)−1X′

= PX

conPXX = [X(X′X)−1X′]X = X


il MRLM

Valori stimati

Valori stimati:

Y = Xβ

= X(X′X)−1X′Y

= PXY


il MRLM

Residui

Residui

u = Y −Xβ

= Y − (X′X)−1X′Y

=[In −X(X′X)−1X′

]Y

= [In −PX ] Y

= MXY

conMX = In −PX

doveMXX = (In −PX)X = X−X = 0

u = MXY = MX(Xβ + u) = MXu


il MRLM

Matrici di proiezione

MX e simmetrica ed idempotente (come PX). Inoltre,

PXMX = PX(In −PX) = PX −PX = 0

MX e PX sono ortogonali.


il MRLM

I residui

u = MXY

= MX(Xβ + u)

= MXXβ + MXu

= MXu

Sebbene i residui siano stime di variabili non correlate per assunzionerisultano correlati

E[uu′|X] = E[MXuu′M′X |X] = σ2

uMX

la distribuzione e singolare, la matrice di varianza-covarianza esingolare con rango n− k − 1. Questa e la conseguenzadell’ortogonalita con X.


Il modello partizionato


AssunzioniX, (n× (k + 1)), e una matrice di rango-colonna pieno, n > k + 1. Ilmodello partizionato e utile per descrivere come gli OLS assegnanovalori agli elementi di β quando tutte le variabili esplicative cambianoda osservazione a osservazione.

Y = Xβ

=[

X1 X2

] [ β1

β2

]= X1β1 + X2β2

X1 (n× k1)X2 (n× k2)β1 (k1 × 1)β2 (k2 × 1)




Frisch e Waugh (1933), Lowell (1963).

Y = PXY + (In −PX)Y = PXY + MXY

PXY = X1β1 + X2β2

Y = X1β1 + X2β2 + MXY

MX2 = In −X2(X′2X2)−1X′2

Premoltiplichiamo con X′1MX2 :

X′1MX2Y = X′1MX2X1β1 + X′1MX2X2β2 + X′1MX2MXY

maMX2X2 = 0

MXMX2X1 = 0

perche MX2X1 ∈ Col(X).Rossi MRLM Econometria - 2013 23 / 39



Risolvendo per β1 si ottiene

β1 =(X′1MX2X1

)−1X′1MX2Y

Quindi lo stimatore β1 puo essere trovato con una procedura a duestadi:

1 regressione di X1 su X2, da cui si ottengono i residui MX2X1;

2 regressione di y sui residui della regressione del primo stadio,MX2X1.

β1 cattura la componente di y collineare con X1 che non puo esserespiegata da X2.




Con errori omoschedastici:

β1 =(X′1MX2X1

)−1X′1MX2Y

=(X′1MX2X1

)−1X′1MX2 [X1β1 + X2β2 + u]

= β1 +(X′1MX2X1

)−1X′1MX2u

Var[β1|X] = E[(β1 − β1)(β1 − β1)′|X]

= E[(X′1MX2X1

)−1X′1MX2uu′MX2X1

(X′1MX2X1

)−1 |X]

=(X′1MX2X1

)−1X′1MX2E[uu′|X]MX2X1

(X′1MX2X1

)−1

= σ2u

(X′1MX2X1

)−1X′1MX2X1

(X′1MX2X1

)−1

= σ2u

(X′1MX2X1

)−1



La distribuzione degli stimatori OLS nella regressionemultipla

Sotto le quattro assunzioni dei minimi quadrati,

La distribuzione campionaria di β1 ha media β1

Var(β1) e inversamente proporzionale a n.

Al di la di media e varianza, la distribuzione esatta (n-finita) di βimolto complessa; ma per n grande...

e consistente: β1p→ β1 (legge dei grandi numeri)

e approssimata da una distribuzione N(0,1) (TLC)

Queste proprieta valgono per β2, . . . , βk

Concettualmente, non vi e nulla di nuovo!



Stima della varianza dell’errore

E[u2i |X] = σ2

Per la legge delle aspettative iterate:

E{E[u2i |X]} = E[u2

i ] = σ2

Stimatore non distorto:

s2 =u′u

n− k − 1

Per dimostrare la correttezza usiamo le seguenti proprieta della traccia

a = tr(a) a ∈ Rtr(AB) = tr(BA)




Non condizionatamente:

E

[u′u

n− k − 1

]= σ2

u

s2 e corretto solo nel caso di disturbi omoschedastici (E[uu′] = σ2uIn).



La distribuzione degli stimatori OLS nella regressionecon due regressori

Yi = β1X1i + β2X2i + ui

Errori omoschedastici:

Var[ui|X1i, X2i] = σ2u

notazione matriciale:

Y = β1X1 + β2X2 + u

β1 =(X′1MX2X1

)−1X′1MX2Y

X2 = In −X2(X′2X2)−1X′2

In grandi campioni, la distribuzione di β1

β1 ∼ N(β1, σ2β1

)



La distribuzione degli stimatori OLS nella regressionecon due regressori

Var(β1|X) = σ2u

(X′1MX2X1

)−1

= σ2u

[X′1X1 −X′1X2(X′2X2)−1X′2X1

]−1

= σ2u

1

X′1X1

[1− (X′1X2)2

(X′2X2)(X′1X1)

]= σ2

u

1

X′1X1

[1− (X′1X2)2

(X′2X2)(X′1X1)

]−1

σ2β1

=1

n

σ2u

σ2X1

(1− ρ2X1,X2

)−1

Se X1 e X2 sono fortemente correlati allora 1− ρ2X1,X2

≈ 0 e la

varianza di β1 e piu grande di quella che si avrebbe se ρ2X1,X2

≈ 0.


Collinearita

Collinearita perfetta

La collinearita perfetta si ha quando uno dei regressori e una funzionelineare esatta degli altri.

Esempi di collinearita perfetta

Includere STR due volte,

Eseguite la regressione di TestScore su una costante e due variabilidummy, D e B

Di =

{1 se STR ≤ 200 altrimenti

Bi =

{1 se STR > 200 altrimenti

percio Bi = 1−Di e vi e collinearita perfetta.

Ci sarebbe collinearita perfetta se l’intercetta (costante) fosseesclusa da questa regressione?

Questo esempio e un caso di trappola della dummy.


Collinearita

Dummy per fenomeni stagionali

Consumo:

Ci = β0 + β1D1i + β2D2i + βD3i + β4Xi + ui

D1i =

{0 i = secondo, terzo e quarto trimestre1 i = primo trimestre

D2i =

{0 i = primo, terzo e quarto trimestre1 i = secondo trimestre

D3i =

{0 i = primo, secondo e quarto trimestre1 i = terzo trimestre

La quarta equazione non ha dummy. E’ l’equazione di riferimento cioela base di partenza rispetto alla quale c’e la correzione di intercetta.


Collinearita


n = 8, 8 trimestri

X =

1 Y1 1 0 01 Y2 0 1 01 Y3 0 0 11 Y4 0 0 01 Y5 1 0 01 Y6 0 1 01 Y7 0 0 11 Y8 0 0 0

Le ultime tre colonne rappresentano le 3 dummy.


Collinearita


Attenzione: Se inseriamo la quarta dummy

X =

1 Y1 1 0 0 01 Y2 0 1 0 01 Y3 0 0 1 01 Y4 0 0 0 11 Y5 1 0 0 01 Y6 0 1 0 01 Y7 0 0 1 01 Y8 0 0 0 1

la prima colonna

X·1 = X·3 + X·4 + X·5 + X·6

abbiamo una matrice di rango ridotto (collinearita perfetta).


Collinearita


Con dati trimestrali si usano 3 dummy, con dati mensili si usano 11dummy.La presenza di outlier la si puo accertare, in prima istanza, attraversol’analisi dei residui. Quando vi sono residui molto grandi e probabileche siamo in presenza di un outlier.


Collinearita


Con G variabili binarie,

Se ogni osservazione rientra in una e una sola categoria.

se c’e un’intercetta nella regressione.

se tutte le variabili binarie G sono incluse come regressori.

allora ci sara collinearita perfetta.Per eliminare la collinearita perfetta dobbiamo escludere una dellevariabili binarie. In questo caso i coefficienti associati con le variabilibinarie incluse devono essere interpretati come deviazione dal livellomedio.


Collinearita


La collinearita perfetta solitamente riflette un errore nelledefinizioni dei regressori, o una stranezza nei dati

Se avete collinearita perfetta, il software statistico ve lo fara sapere– bloccandosi, o mostrando un messaggio di errore, o “scaricando”arbitrariamente una delle variabili

La soluzione alla collinearita perfetta consiste nel modificarel’elenco di regressori.


Collinearita

Collinearita imperfetta

La collinearita imperfetta e ben diversa dalla collinearita perfetta,nonostante la somiglianza dei nomi

La collinearita imperfetta si verifica quando due o piuregressori sono altamente correlati.

Perche si usa il termine “collinearita”? Se due regressori sonoaltamente correlati, allora il loro diagramma a nuvola appariramolto simile a una retta – sono “co-lineari” – ma a meno che lacorrelazione sia esattamente = 1, tale collinearita e imperfetta.


il modello di regressione lineare...

Documents