universit`a di pavia -...
Post on 15-Feb-2019
215 Views
Preview:
TRANSCRIPT
Universita di Pavia
Econometria
Minimi quadrati ordinari
Interpretazione geometrica
Eduardo Rossi
Universita di Pavia
Introduzione
L’econometria si interessa all’analisi dei dati economici.
I dati economici provengono esclusivamente da fonti non sperimentali.
Non possiamo come economisti ripetere l’esperimento, cioe valutare
le reazioni a due diversi stimoli, per misurarne l’effetto.
Possiamo pero esaminare come variano tra individui eterogeni, cioe
con diversi caratteri (scolarita, eta, razza, area geografica di residenza,
ecc.), i redditi da lavoro individuali. Per lo stesso periodo di tempo o
per un certo numero di periodi.
1
Introduzione
Il modello lineare di regressione multipla e usato per studiare le re-
lazioni tra la variabile dipendente e diverse variabili indipendenti (es-
plicative).
yt = β1x1t + . . . + βKxKt + ǫt (1)
β1, . . . βK fixed but unknown parameters, ǫt ignoto, yt regredendo,
v.casuale, xkt regressore, covariata casuale. In genere, uno dei re-
gressori e fissato uguale ad 1,per esempio il primo: x1t = 1, ∀t; con
β1 intercetta (o costante) dell’equazione.
2
Le osservazioni possono essere:
• serie storiche, tempi successivi (anni, trimestri, mesi, settimane,
ecc.)
• cross-section, unita economiche individuali (individui, famiglie, im-
prese, ecc.) osservate allo stesso istante di tempo.
• Cross-section di unita individuali osservate un certo numero di
periodi di tempo (panel data).
3
Introduzione
Si suppone che le osservazioni siano generate da un esperimento ca-
suale, prima del quale i loro valori sono ignoti. In verita, la nozione di
esperimento e piuttosto vaga e fa riferimento all’atto di raccolta dei
dati.
4
Il metodo dei minimi quadrati
I caratteri variano simultaneamente tra gli individui. Il metodo dei
minimi quadrati ordinari e un modo per scomporre le differenze
nella variabile dipendente fra diverse caratteristiche osservate (variabili
esplicative) per le diverse unita nel campione. Il metodo dei minimi
quadrati orinari (in inglese Ordinary Least Squares, OLS) e usato
per stimare il valore di βk, k = 1, . . . , K. Questi sono scelti in modo
tale che siano la soluzione al seguente problema:
minβ1,...,βK
N∑
t=1
[yt − (β1x1t + β2x2t + . . . + βKxKt)]2
Il termine ”minimi quadrati” si riferisce alla minimizzazione della
somma delle differenze al quadrato. [yt − (β1x1t + . . . + βKxKt)], i
residui.
5
La funzione obiettivo
f(β1, . . . , βK) =N∑
t=1
[yt − (β1x1t + β2x2t + . . . + βKxKt)]2 (2)
e la sum of squared residuals (somma dei quadrati dei residui). Quando
i residui sono valutati in β1, . . . , βK i residui sono detti fitted residuals
(residui fittati, o residui della regressione).
Consideriamo il caso in cui l’unica variabile esplicativa e la costante:
K = 1 e x1t = 1,∀t. OLS trova il valore di β1 che e il piu vicino a yt nel
senso della somma dei qudrati dei residui. OLS e la minimizzazione
di una funzione quadratica in β1 e il risultato e la media:
β1 = argminN∑
t=1
(yt − β1)2 =
∑Nt=1 yt
N
6
Notazione
β = [β1, β2, . . . , βK]′ (K × 1) (3)
xt =
x1t...
xKt
(K × 1)
Notazione matriciale
y =
y1...
yN
(N × 1)
X =
x′1...x′N
=
x11 x12 . . . x1K
x21 x22 . . . x2K... ... ...
xN1 xN2 . . . xNK
(N × K)
7
x′1β...
x′Nβ
= Xβ
Il vettore y raccoglie tutte le osservazioni della variabile dipendente.
La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni
colonna di X contiene tutte le osservazioni per la singola variabile
esplicativa.
8
Lo stimatore dei minimi quadrati (OLS)
Stimatore = E’ una regola per calcolare una stima (un numero) dai
dati campionari.
Il metodo dei minimi quadrati risolve
β ≡ argminβ
(y − Xβ)′(y − Xβ)
Definiamo
S(β) ≡ (y − Xβ)′(y − Xβ)
9
∂S(β)
∂β=
∂(y′y − 2β′X′y + β′X′Xβ
)
∂β
=∂
(−2β′X′y + β′X′Xβ
)
∂β
= −2∂β′
∂βX′y +
∂(β′X′Xβ
)
∂β
= −2X′y + 2X′Xβ
10
∂S(β)
∂β= −2X′y + 2X′Xβ = 0 (4)
Le equazioni normali
X′y − X′Xβ = 0 (5)
Lo stimatore OLS e
β =(X′X
)−1X′y (6)
Poiche la funzione stimata e lineare nei coefficienti, gli OLS ci danno
dei coefficienti stimati che sono somme ponderate delle {yt}. Le stime
OLS sono funzioni lineari della variabile dipendente. Questa linearita
in {yt} semplifica l’analisi statistica degli OLS.
11
L’interpretazione geometrica degli OLS
Lo spazio delle colonne di X, Col(X), e il sottospazio lineare di RN
coperto dalle combinazioni lineari dei vettori colonna di X:
Col(X) ≡ {z ∈ RN |z = Xα, α ∈ R
k}
La procedura di stima OLS trova il vettore in Col(X), µ, che e piu
vicino a y.
µ e detta proiezione di y.
Il metodo OLS risolve:
β ≡ argminβ
(y − Xβ)′(y − Xβ) (7)
12
La somma delle deviazioni al quadrato tra gli elementi di di y e Xβ e
il quadrato della distanza Euclidea fra y e Xβ:
(y − Xβ)′(y − Xβ) =N∑
t=1
(yt − x′tβ)2 =‖ y − Xβ ‖2
13
Procedura in due passi:
1. Trovare il punto in un sottospazio che e il piu vicino ad un punto
che non si trova il quel sottospazio. Il sottospazio e l’insieme
dei possibili vettori reali N dimensionali Xβ che puo essere creato
cambiando β e questo sottospazio e lo spazio delle colonne di X.
µ ≡ arg minµ∈Col(X)
‖ y − µ ‖2
2. Trovare un β che sia soluzione a:
µ = Xβ
14
La soluzione al primo passo e unica mentre ci possono essere molte
soluzione al secondo problema. Sia β una soluzione di (7) e sia µ =
Xβ.
1. Il vettore dei valori fittati µ e l’unica proiezione ortogonale di y su
Col(X).
2. Il vettore dei residui fittati y − µ e ortogonale a Col(X)
3. Se dim[Col(X)] = K, allora (7) ha una soluzione unica:
β = (X′X)−1X′µ′
15
Tre idee base:
1. La regressione OLS significa minimizzare la distanza al quadrato
tra il vettore osservato y e un vettore di regressione Xβ che ap-
partiene a Col(X).
2. Il vettore dei valori fittati µ = Xβ e la proiezione ortogonale su
Col(X). Il vettore dei residui (y− µ) e perpendicolare a µ e ad ogni
altro vettore in Col(X).
3. If the dim[Col(X)] = K allora β e unico.
16
La dipendenza lineare fra le variabile esplicative non ha un ruolo fonda-
mentale su quanto bene una regressione lineare spiega y. La distanza
dipende solo da µ. Caso Speciale: possiamo costruire una soluzione
direttamente. Mostriamo che
µ = Xβ = X(X′X)−1X′y
solo quando le colonne di X sono linearmente indipendenti.
||y − µ||2 = ||y − µ + µ − µ||2
= ||y − µ||2 + ||µ − µ||2 + 2(y − µ)′(µ − µ)
ma
(y − µ)⊥(µ − µ) ⇔ (y − µ)′(µ − µ) = 0
17
Teorema di Pitagora
||y − µ||2 = ||y − µ||2 + ||µ − µ||2
Se c’e un µ ∈ Col(X) tale che
X′(y − µ) = 0
allora per tutti gli altri µ ∈ Col(x)
µ′(y − µ) = 0
(µ − µ)′(y − µ) = 0
||y − µ||2 = ||y − µ||2 + ||µ − µ||2
≥ ||y − µ||2
18
Poiche y − µ e ortogonale a Col(X), µ e vicino a y almeno quanto
un qualunque µ in Col(X). Therefore µ is one solution to the OLS
(minimum distance) problem
µ = arg minµ∈Col(X)
||y − µ||2
La soluzione e unica perche per ogni altra possibile soluzione µ deve
essere che
||y − µ||2 = ||y − µ||2
poiche nessun altro µ e piu vicino a µ.
19
Il teorema di Pitagora implica che
||µ − µ||2 = 0 ⇒ µ = µ
La condizione di ortogonalita caratterizza completamente il vettore
OLS dei valori fittati µ.
Costruiamo µ per il caso
X′(y − Xβ) = 0
e mostriamo che la soluzione unica e
X′(y − Xβ) = 0
X′Xβ − X′y = 0
β = (X′X)−1X′y
dato che X′X e nonsingolare.
20
La soluzione per µ segue
µ = Xβ = X(X′X)−1X′y
β e µ hanno una relazione 1-to-1. Possiamo anche ottenere β da µ:
premoltiplicando per (X′X)−1X′
(X′X)−1X′µ = (X′X)−1X′Xβ = β
21
Teorema Proiezione
Sia y ∈ RN e S ⊆ RN un sottospazio lineare. Allora µ ∈ S e una
soluzione al problema
minµ∈S
||y − µ||2
se e solo se (y − µ)⊥S. Inoltre, µ e la soluzione unica ed esiste.
22
Il teorema identifica il meccanismo di minimizzazione che significa
trovare un µ ∈ Col(X) tale che
y − µ ⊥ Col(X)
Secondo, il teorema chiarisce che Col(X) determina l’ottimale µ.
23
Proiettori ortogonali
Per ogni y, c’e un’unica µ,
µ = argminµ∈S
||y − µ||2
chiamata proiezione di y. La proiezione ortogonale di y e sempre una
trasformazione lineare di y:
µ = Py
P proiettore ortogonale. Nel caso generale che S = Col(X) e X sia di
rango-colonna pieno, la matrice
PX ≡ X(X′X)−1X′
µ = PXy
e la trasformazione lineare di y su Col(X) che produce µ.
24
PX ha due proprieta:
• non modifica i vettori in Col(X)
z ∈ Col(X) ⇒ PXz = z
• trasforma i vettori ortogonali a Col(X) nel vettore zero.
z ⊥ Col(X) ⇒ PXz = 0
25
Prova
∀z ∈ Col(X) esiste un α : z = Xα
PXz = PXXα = X(X′X)−1X′Xα = Xα = z
Se z⊥Col(X) : z′X = 0,∀X ∈ Col(X) cosicche X′z = 0 e
PXz = X(X′X)−1X′z = 0
�
26
Scomposizione ortogonale
∀z ∈ RN , possiamo scomporre z univocamente nel vettore somma
z1 + z2 dove z1 ∈ Col(X) e z2 ∈ Col⊥(X) ≡ {z ∈ RN |X′z = 0}. Dove
Col⊥(X) e il complemento ortogonale.
Complemento ortogonale
Il sottospazio lineare di vettori S⊥ , ortogonale al sottospazio S ⊆ V:
S⊥ = {v ∈ V|u′v = 0,∀u ∈ S}
e chiamato complemento ortogonale di S. E’ equivalente a scrivere
v ∈ S⊥ come v⊥S. Notiamo che se v ∈ S ∩ S⊥ allora v′v = 0 tale che
v deve essere il vettore zero. In altre parole S ∩ S⊥ = {0}
27
Proiezione ortogonale
Sia S ⊆ RN (sottospazio lineare) tale che per ogni z ∈ RN c’e un unico
z1 ∈ S ed un unico z2 ∈ S⊥ tale che z = z1 + z2. Allora la funzione
da RN a S⊥ che associa ogni z con il suo corrispondente z1 e una
proiezione ortogonale.
Quando S = Col(X) allora PXz = z1 e la proiezione ortogonale di z su
Col(X). Solo la componente di z in Col(X) sopravvive alla premolti-
plicazione per PX.
La proiezione ortogonale da RN su un sottospazio S e una trasfor-
mazione lineare. (La proiezione ortogonale di una combinazione lin-
eare di vettori uguaglia la combinazione lineare delle proiezioni ortog-
onali dei singoli vettori).
28
Proiettore ortogonale
Ogni proiezione ortogonale da RN in un sottospazio S puo essere
rappresentata da una matrice P, chiamata Proiettore ortogonale.
Sia S ⊆ RN , ∀z ∈ RN c’e un unico z1 ∈ S ed un unico z2 ∈ S⊥ tale che
z = z1 + z2. Allora una matrice (N × N) P tale che Pz = z1 e un
proiettore ortogonale su S.
Un proiettore ortogonale preserva la componente di un vettore in un
sottospazio S e annulla la componente nel sottospazio complementare
ortogonale S⊥. Se P e un proiettore ortogonale su un sottospazio di
RN , allora P e unica.
29
Proprieta dei Proiettori ortogonali
1. Simmetria
PX = X(X′X)X′ = [X(X′X)X′]′ = P′X
2. Idempotenza
PXPX = [X(X′X)X′][X(X′X)X′] = X(X′X)X′ = PX
3. Semidefinitezza positiva
Per ogni w ∈ RN
w′PXw = w′PXPXw = w′P′XPXw = (PXw)′(PXw) = ||PXw||2 ≥ 0
30
Osserviamo che
z ∈ Col⊥(X) ⇒ (I − PX)z = z
z ∈ Col(X) ⇒ (I − PX)z = 0
cioe MX = (I − PX) e un proiettore ortogonale su Col⊥(X), il com-
plemento ortogonale di Col(X).
31
Multicollinearita esatta
Se esiste un vettore α ∈ RK tale che Xα = 0 allora le colonne di X sono
linearmente indipendenti. Questa situazione e detta multicollinearita
esatta.
Un unico µ esite anche quando X e di rango ridotto. Quando X
e (X′X) sono singolari non possiamo usare PX = X(X′X)−1X′ per
trovare PX.
Quando dim[Col(X)] < K, possiamo trovare PX applicando la formula
ad ogni sottoinsieme linearmente indipendente delle colonne di X cioe
una base per Col(X).
32
top related