1 il modello di regressione multipla per le n osservazioni possiamo scrivere: vettore colonna (n*1)
TRANSCRIPT
1
IL MODELLO DI REGRESSIONE MULTIPLA
Per le N osservazioni possiamo scrivere:
VETTORE
COLONNA
(N*1)
1 2 2 3 3 ...i i i K Ki iY X X X
1 1 2 21 3 31 1 1
2 1 2 22 3 32 2 2
1 2 2 3 3
...
...
.
.
.
...
K K
K K
N N N K KN N
Y X X X
Y X X X
Y X X X
1
2
.
.
.
N
Y
Y
Y
Y
2
21 1
22 2
2
1 ......
......1
. .
. .
. .
1 ......
K
K
N KN
X X
X X
X
X X
MATRICE (N*K)
VETTORE VETTORE
COLONNA COLONNA
(K*1) (N*1)
IL MODELLO IN FORMA MATRICIALE DIVIENE:
1
2
.
.
.
K
1
2
.
.
.
N
Y=Xβ+ε
3
1
2
.
.
.
N
Y
Y
Y
21 1
22 2
2
1 ......
......1
. .
. .
. .
1 ......
K
K
N KN
X X
X X
X X
1
2
.
.
.
K
1
2
.
.
.
N
(N*1) (N*K) (K*1) (N*1)
LA MATRICE HA ELEMENTO GENERICO IN CUI L’INDICE j RAPPRESENTA LA VARIABILE (REGRESSORE) CONSIDERATA (j=1,2, … ,K) MENTRE L’INDICE i DENOTA LA i-ESIMA OSSERVAZIONE (i=1,2,…,N).
OGNI COLONNA DI È UN VETTORE DI N OSSERVAZIONICOSTANTE PER REGRESSORI jINTERCETTA 1 2 ………K OSSERVAZIONI i
1 2
N
X ijX
X
21 1
22 2
2
1 ......
......1
. .
. .
. .
1 ......
K
K
N KN
X X
X X
X
X X
4
ASSUNZIONI PER STIME OLS
1. SPECIFICAZIONE LINEARE DEL MODELLO
2.a SONO NON STOCASTICI.
2.b IL RANGO DI È UGUALE A K<N
3.
4. LA VARIABILE DI ERRORE HA DISTRIBUZIONE NORMALE
LA 2., RANK =K<N, ASSICURA L’ASSENZA DI MULTICOLLINEARITÀ. INFATTI QUANDO RANK < K UNA DELLE COLONNE SAREBBE COMBINAZIONE LINEARE DELLE ALTRE E QUINDI LA MATRICE
RISULTEREBBE SINGOLARE
LA 3. GARANTISCE CHE GLI ERRORI ABBIANO MEDIA NULLA, VARIANZA FINITA E COSTANTE E COVARIANZA NULLA. ESAMINIAMO LA MATRICE DI VARIANZA E COVARIANZA DERIVANTE DA
y X
ijX
X
0E ' 2E I
X
X
X
'E
OMOSCHEDASTICITA’
INCORRELAZIONE
X
5
1
2
'1 2
.* , ,...,
.
.
N
N
E E
21 1 2 1
22 1 2 2
221
......
......
......
N
N
N NN
E E E
E E E
E EE
1 2COV 1 NCOV
2 I
ALLORA TUTTI I VALORI AL DI FUORI DELLA DIAGONALE PRINCIPALE SONO NULLI E QUELLI SULLA DIAGONALE SONO UGUALI A , CIOÈ:
2
2
0
6
2
2 2
2
0......0
0 ......0
.................
0 0......
I
1 0......0
0 1......0
...... ............
0 0.......1
I
STIMA OLS
OBIETTIVO: DETERMINARE IL VETTORE CHE MINIMIZZA LA QUANTITÀ
DOVE:
VETTORE (N*1) DEI RESIDUI
VETTORE (N*1) DEI VALORI TEORICI
VETTORE DELLE STIME OLS
SOSTITUENDO E IN SI HA:
ˆ ˆy y
ˆy X
''
' '' ' ' '
' '' ' '
ˆ ˆˆ ˆ
ˆ ˆ ˆ ˆ
ˆ ˆ ˆ2
y X y X
y y X y y X X X
y y X y X X
A B
'2ˆ ˆ ˆiRSS
7
QUESTO PERCHÈ A E B SONO ENTRAMBI DUE SCALARI UGUALI. INFATTI
A =SCALARE
(1*K)
(K*N) (N*1)
B ANALOGAMENTE
MINIMIZZANDO LA , CIOÈ:
SI HA:
LA MATRICE DETTA MATRICE “CROSS-PRODUCT”, HA CERTAMENTE L’INVERSA per l’ipotesi
che implica RANK =K ovvero
NON SINGOLARE.
1
2
1 21 22 2
21
1 1..............1ˆ ˆ....... ...... .
........................ .
......
k N
K KNK N
y
y
X X X
X XX y
'' 'ˆ ˆ ˆ2 2 0X Y X X
1' 'ˆ X X X Y
1'X X
RANK X K 1'X X 1'X X
8
DIMENSIONI DELLE MATRICI
MATRICE “CROSS-PRODUCT”
=
(K*N)
(N*K)
'
1' '
'
1' '
ˆ *1
* ; *
* ; *
*1 ; *1
*1
K
X K N X N K
X X K K X X K K
Y N X Y K
X X X Y K
21 1
21 22 2 22 2
21
2
1 1.............1 1 ......
...... *1 ......
.................. ........ .
...... ..
..
......1
K
N K
K KNK
N KN
X X
X X X X X
X XX
X X
'X X
9
2
2
2 2 2
2
2
.............
......
.............................................
......
i Ki
i i Ki i
Ki Ki i Ki
N X X
X X X X
X X X X
21 22 2*1 *1 ... *1NX X X 1 21 2 22 2...K K KN NX X X X X X
1 1 2 2 ...K K K K KN KNX X X X X X
VETTORE 'X Y
12
2
21 22 2
21
1 1.............1.
...... * ..
......................... ..
......
i
i i
N
K KNK N
Ki i
YY
X YY
X X X
X XX YX Y
10
PRODOTTO 1' 'X X X Y
11
2 22
2
2 2 2
2
2
ˆ
ˆ.............
........
...............................................
........ ˆ
i
i ii Ki
i i Ki i
Ki Ki i KiKi i K
Y
X YN X X
X X X X
X X X XX Y
11
DALLE RELAZIONI MATRICIALI VISTE SEGUONO DUE RISULTATI UTILI PER SUCCESSIVI SVILUPPI:
1)
PERCHÈ
2)
PERCHÈ:
COME GIÀ VISTO
E PERCHÈ:
IL RISULTATO 1) CI DICE CHE IL PRODOTTO INCROCIATO TRA I REGRESSORI E GLI ERRORI È NULLO. CIÒ È LA TRADUZIONE CAMPIONARIA DELLA ASSUNZIONE , IN ALTRE PAROLE CHE I RESIDUI NON DEVONO DIPENDERE DAI REGRESSORI.
' ' ˆ2 2 0ˆ
ESSX Y X X
1' 'ˆ X X X Y
' ' 0E X
0ˆ'')ˆ('ˆ' XXYXXYXX
YXYY ''ˆ'ˆ'ˆ
ˆ''ˆ''ˆ2'ˆ'ˆ XXYXYY
12
PROPRIETÀ DEGLI STIMATORI OLS
VALORE ATTESO DI
CON
ALLORA:
0
VETTORE DI STIMATORI CORRETTI
1 1' ' ' '
1 1' ' ' '
1' '
ˆ X X X Y X X X X
X X X X X X X
X X X A
1' 'A X X X
ˆ
ˆ
ˆ
E E A AE
E
13
VARIANZA DEGLI STIMATORI
DATO CHE GLI ELEMENTI DI A SONO NON STOCASTICI.
'
2
1 1 1 1
2
1 1
ˆ ˆ ˆ
ˆ ˆ ˆ................. ..........
...................................................................................
ˆ ˆ ˆ...........................
K K
K K K K
V VAR E
E E
E E
1 1
1
' '
' ' ' ' ' '2 2
ˆ ˆ ˆ........ .........
...................... .............................
ˆ ˆ ˆ................
ˆ ˆ ˆ
K
K K
VAR COV
COV VAR
VAR E E A A
E A A AE A A I A AA
'1 1' ' ' ' '
1 1' ' '
1 1 1' ' ' '
AA X X X X X X
X X X X X X
X X X X X X X X
NB LA matrice cross product è simmetrica
14
PERTANTO:
VEDIAMO SE TALE VARIANZA È MINIMA.
RICORDANDO CHE , CONSIDERIAMO LA
MATRICE ARBITRARIA E LO STIMATORE
LINEARE alternativo .
LA MEDIA DI È:
CHE RISULTA UGUALE A SE E SOLO SE
CALCOLIAMO ORA:
QUESTO PERCHÈ
' 1'2ˆ ˆE X X
ˆ AY C b
b
1' 'E b X X X X C X I C X
0C X
' 'VAR b E b b E A C A C
)()(
ˆ)()(
CAXCA
CYCYAYYCAb
IXXXXAX ')'( 1
)()( CACACXAXb
15
PERTANTO:
MA
= 0 =
AFFINCHÈ
PERTANTO:
SI PUÒ DIMOSTRARE CHE LA MATRICE È POSITIVA SEMIDEFINITA. PERTANTO LA FORMA QUADRATICA AD ESSA ASSOCIATA È POSITIVA, ALLORA . QUANDO TALE FORMA QUADRATICA È NULLA, ALLORA TUTTI GLI ELEMENTI DI SONO ZERO E PERTANTO .
QUINDI È BLUE
' '' '
'2
VAR b E A C A C A C E A C
A C A C
' ' ' ' '
1 1 1 1' ' ' ' ' ' ' '
1' '
A C A C AA C A AC CC
X X X X X X C X X X X X X C CC
X X CC
E b
1' ' '2 2ˆVAR b X X CC VAR CC
'CC
C ˆb
ˆVAR b VAR
16
CONSISTENZA IN MEDIA QUADRATICA DEGLI STIMATORI OLS
Gli stimatori dei minimi quadrati sono consistenti in media quadratica.
Per dimostrare questa proprietà è necessaria un’ipotesi ulteriore, cioè
Con matrice finita e non singolare. Si osservi che tale matrice contiene le medie delle variabili esplicative, dei loro quadrati e dei loro
prodotti. E’ quindi ragionevole assumere che il limite di queste quantità, al divergere della numerosità campionaria, sia finito. Per
dimostrare la consistenza in media quadratica è necessario verificare le due condizioni seguenti
XXn
XXn
'1
lim
XX
17
ˆlim En
1...kj ogniper 0ˆlim j
nVar
La prima condizione è verificata: essendo gli stimatori OLS non distorti per n finito, lo sono anche asintoticamente. Per verificare la seconda condizione si considera il limite della matrice di varianza e covarianza di ,
00'
lim
)'(lim
12
12
XXn
n
n
XX
n
XX
Asintoticamente la matrice di varianza e covarianza converge ad una matrice nulla e di conseguenza le varianze degli stimatori tendono a zero.
18
STIMA DI 2
Obiettivo : ricavare una stima della varianza dei termini di errore del modello. Poiché gli errori non sono osservabili pare ragionevole stimare utilizzando la devianza residua RSS. Il punto è determinare il divisore della devianza residua: la soluzione possiamo trovarla imponendo il vincolo che lo stimatore di appartenga alla classe degli stimatori corretti.
2
MYYXXXI
YXXXXYXY
)')'((
')'()ˆ(ˆ1
1
dove ')'( 1 XXXXIM
M è una matrice SIMMETRICA e IDEMPOTENTE
Matrice idempotente
Una matrice simmetrica P è idempotente se PP = P.
19
0')'( 1 XXXXXXMX
MXMMY )(ˆ
Dalla Idempotenza e simmetria di M segue che
MMMMM ''')'(ˆ'ˆ
Calcolando il valore atteso:
scalare è ' poiché
)'()'()ˆ'ˆ(
M
MTrEMEE
)()()'(
)'()ˆ'ˆ(22 MTrIMTrETrM
MTrEE
si definisce traccia di una matrice, e si utilizza il simbolo tr(A), la somma dei valori di tutti gli elementi che stanno nella diagonale principale della matrice A.
tr(AB) = tr(BA)
20
Dalla definizione di M si ha
knITrITr
XXXXTrITr
XXXXTrITrMTr
kn
n
)()(
')'()(
')'()()(1
1
kn
knE
ˆ'ˆ
s
pertanto )()ˆ'ˆ(
2
2
rappresenta lo stimatore corretto della varianza del termine di errore del modello.
La radice quadrata dello stimatore, s, viene detta errore standard della stima.
22
2 )()E(s
kn
kn
21
Una spiegazione intuitiva della
circostanza che lo stimatore non
distorto è ottenuto dividendo la somma
dei quadrati dei residui per n−k,
anziché per n, è costituita dal fatto
che, benché si considerano n residui,
soltanto n−k sono linearmente
indipendenti infatti le equazioni0ˆ'')ˆ('ˆ' XXYXXYXX
impongono k vincoli (si dimostra facilmente esplicitando il sistema che la somma dei residui e la somma dei prodotti dei residui per ciascuna delle variabili esplicative deve essere uguale a zero). Determinato il valore dei primi n−k residui, gli ultimi dovranno essere tali da soddisfare la condizione sopra . Vi sono k vincoli, uno per ogni coefficiente di regressione stimato, e si perdono quindi k gradi di libertà.