la regressione lineare multipla
Post on 03-Jan-2016
78 Views
Preview:
DESCRIPTION
TRANSCRIPT
1
LA REGRESSIONE LINEARE MULTIPLA
22
Osservazioni introduttive• I fenomeni collettivi (economici, demografici, ecc.)
sono strettamente legati da una complessa rete di relazioni. Pertanto risulta spesso insufficiente lo studio della relazione tra due sole variabili.
• In questi casi, una volta individuato il carattere dipendente, sarà opportuno studiare come esso varia in media al variare degli altri caratteri.
Questo studio viene denominato regressione multipla e costituisce una generalizzazione della regressione semplice.
33
ESEMPI DI RICORSO A MODELLI DI REGRESSIONE MULTIPLA
Ad esempio:• Il prezzo di una merce sui vari mercati (o in una
serie di anni o in diverse zone territoriali) è collegato con la produzione, le scorte esistenti, il prezzo di altre merci, la domanda dei consumatori e così via;
• Il consumo per abitante di energia elettrica (in varie regioni) dipende dal reddito per abitante, dalla incidenza degli occupati addetti al terziario sugli occupati in complesso, ecc.;
44
Modelli
I modelli sono una rappresentazione matematica della realtà
“All models are wrong, but some are useful”
George Box
55
Modello empirico o statistico (Empirical Model)
Di solito non si conosce la relazione esatta che esiste fra due variabili
Per questo motivo si adatta un modello empirico
66
Schema logico per la costruzione di un modello statistico
TEORIZZAZIONE SU UN FENOMENO
INDIVIDUAZIONE DELLE VARIABILI ESPLICATIVE
FORMULAZIONE O IDENTIFICAZIONE DEL MODELLO
USO DEI DATI PER LA STIMA DEL MODELLO
VERIFICA DEL MODELLO
USO DEL MODELLO
77
Modello di regressione lineare multipla
Lo studio della regressione multipla consiste nel determinare
una funzione che esprima nel modo migliore il legame
(in media) tra le variabili indipendenti X1, X2, …., Xk e
la variabile dipendente Y.
Per fare questo occorre incominciare con lo stabilire il tipo di
funzione che lega la variabile dipendente a quelle
indipendenti. In analogia con quanto già esposto sulla
regressione semplice, ipotizziamo il tipo più semplice,
quello lineare.
88
Regressione lineare multipla
Idea: Esaminare le relazione lineare fra 1 dipendente (Y) e 2 o più variabili independenti (Xi)
eXXXY kk22110i BBBB
Modello di regressione multipla con k variabili indipendenti:
Y-intercetta Coefficiente di regressione parziale
Errore casuale
99
Modello lineare multiplo
I coefficienti del modello sono stimati sulla base di dati campionari
kk221i10i XbXbXbbY
Stima (o valore previsto di Y Stima dei coefficienti di
regressione parziale
Modello di regressione multipla con k variabili indipendenti :
Stima dell’intercetta
In questo capitolo utilizzeremo sempre Excel per ottenere i parametri del
modello di regressione e altre statistiche (regression summary measures).
1010
PARAMETRI • yi ed x1 , x2 ….xk sono i valori, rispettivamente, della variabile
dipendente e delle k variabili indipendenti, rilevate con riferimento alla i-esima unità statistica;
• B0 è la costante;
• B1, B2,… Bk sono i coefficienti di regressione parziale (indicano di quanto varia in media la Y quando Xj aumenta di un’unità, a parità di valori delle altre variabili esplicative);
• ei è il “residuo non spiegato” relativo all’osservazione i-esima;
• n è il numero di osservazioni.
1111
INTERPRETAZIONE
Nel modello di regressione multipla si assume
che ciascun valore osservato della variabile
dipendente sia esprimibile come funzione
lineare dei corrispondenti valori delle variabili
esplicative, più un termine residuo che
traduce l’incapacità del modello di riprodurre
con esattezza la realtà osservata.
1212
Modello lineare nel caso di tre variabili: piano di regressione
Nel caso particolare di due sole variabili esplicative X1 e X2 si ha il piano di regressione:
eXBXBBY 22110
1313
Modello con due variabili
Y
X1
X2
22110 XbXbbY
Pendenza per la
varia
bile X 1
Pendenza per la variabile X2
Modello lineare nel caso di tre variabili: piano di regressione
1414
Esempio: estensione di un modello da 2 a 3 variabili indipendenti
Con riferimento a 20 famiglie si cerca di spiegare il consumo alimentare (Y) utilizzando come variabile esplicativa il reddito (X1). Il modello stimato è il seguente:
)20,,2,1(184,0412,0ˆ1 ixy ii
Ora estendiamo il modello per considerare anche la dimensione della famiglia (X2), misurata in termini di numero di componenti della famiglia. Il modello diventa:
Ora estendiamo il modello per considerare anche la dimensione della famiglia (X2), misurata in termini di numero di componenti della famiglia. Il modello diventa:
Spesa alimentare = B0 + B1 Reddito + B2 Numero ComponentiSpesa alimentare = B0 + B1 Reddito + B2 Numero Componenti
1515
famiglia Spesa annua per
l'alimentazione (000*Euro) Reddito annuo (000*Euro) Dimensione della famiglia (numero di componenti)
SPESA REDDITO NC
1 5.2 28 3
2 5.1 26 3
3 5.6 32 2
4 4.6 24 1
5 11.3 54 4
6 8.1 59 2
7 7.8 44 3
8 5.8 30 2
9 5.1 40 1
10 18 82 6
11 4.9 42 3
12 11.8 58 4
13 5.2 28 1
14 4.8 20 5
15 7.9 42 3
16 6.4 47 1
17 20 112 6
18 13.7 85 5
19 5.1 31 2
20 2.9 26 2
1616
• Dovremmo aspettarci che i segni di B1 e di B2 siano entrambi positivi, cioè che sia il reddito sia la dimensione della famiglia abbiano effetti positivi sulla spesa alimentare della famiglia. Ciò vale nel caso di singole regressioni lineari semplici;
• Invece B1 misura l'effetto parziale del reddito sulla spesa alimentare, tenendo costante la dimensione della famiglia, e B2 misura l'effetto parziale della dimensione della famiglia sulla spesa, tenendo costante il reddito.
Esempio: estensione di un modello da 2 a 3 variabili indipendenti
1717
In definitiva, sia la teoria economica sia il buonsenso dovrebbero costituire una base per la selezione delle variabili esplicative da inserire nel modello. L’analisi grafica sia del tipo che della struttura di correlazione fra le variabili può essere compiuta con il ricorso alla matrice degli scatterplot, uno strumento grafico che presenta i diagrammi di dispersione per ogni coppia delle variabili nel modello(http://www.wessa.net/rwasp_cloud.wasp#output)
La matrice degli Scatterplot è un importante strumento grafico per l’analisi esplorativa dei dati e per mettere in risalto: 1. Tipo di relazione fra ciascuna coppia di variabili: diretta o inversa 2. Forma del legame: lineare o non lineare 3. Intensità della relazione fra ciascuna coppia di variabili - da perfettamente forte e diretta (r = +1) a perfettamente forte ed inversa (r = -1). Nessun rapporto affatto se r = 0 4. Presenza di valori anamoli (outliers) nell'insieme di dati.
Esempio: estensione di un modello da 2 a 3 variabili indipendenti
1818
La matrice degli scatterplot suggerisce le seguenti conclusioni: 1. La relazione fra spesa alimentare della famiglia e la dimensione è diretta, lineare e relativamente forte con la presenza di un possibile outlier. 2. La relazione fra Spesa alimentare della famiglia e reddito è diretta, lineare e relativamente forte senza la presenza apparente di outliers. 3. La relazione fra la dimensione della famiglia ed il reddito annuo è diretta, lineare e debole con la visibile presenza di un outlier. Così dovremmo prevedere il problema di collinearity nella regressione
14 Il modello di regressione lineare multipla
19
La matrice dei coefficienti di correlazione
SPESA REDDITO NC
SPESA 1
REDDITO 0.95 1
NC 0.79 0.68 1
SPESA REDDITO NC
SPESA 1
REDDITO 0.95 1
NC 0.79 0.68 1
2014 Il modello di regressione
lineare multipla 20
Stima del vettore dei coefficienti (parametri del modello)
n
iie
1min2
CONDIZIONE DEI MINIMI QUADRATI ORDINARI (OLS):
SVOLGENDO LA CONDIZIONE DI MINIMO SI OTTIENE LA SOLUZIONE:
Stime dei coefficienti B con i minimi quadrati
14 Il modello di regressione lineare multipla
2114 Il modello di regressione lineare multipla
21
Stima del vettore dei parametri del modello di Regressione multipla
• Utilizzando Excel per stimare i coefficienti e la misura della bontà dell’adattamento per il modello di regressione
• Excel:– Strumenti / Analisi Dati... / Regressione
14 Il modello di regressione lineare multipla
2214 Il modello di regressione lineare multipla
22
Risultati della regressione multipla
(NC)793,0 (Reddito) 0,148 1,118- SAESP
14 Il modello di regressione lineare multipla
2314 Il modello di regressione lineare multipla
23
L’equazione di regressione multipla
b2 = 0,793: la SPESA
alimentare aumenta, in media, di 793 Euro all’anno all’aumentare di 1 di NC , al netto (fermo restando) degli effetti dovuti alle variazioni del REDDITO
Dove SPESA è in Euro*1000 REDDITO è in Euro*1000 NC è in numero di componenti.
b1 = 0,148: la SPESA alimentare aumenta, in media,
di 148 Euro all’anno all’aumentare di 1000 Euro
del REDDITO, al netto (fermo restando) degli effetti dovuti
alle variazioni di NC
(NC)793,0 (Reddito) 0,148 1,118- SAESP
14 Il modello di regressione lineare multipla
2414 Il modello di regressione lineare multipla
24
Commento e significato dei parametri• 1. a = -1,118 nessun significato interpretabile perché il livello medio della
spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza di una famiglia che pur non avendo reddito e zero componenti presenta una spesa per alimentazione. Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la equazione di regressione stimata per la previsione.
•2. b1 = 0,148 Rappresenta l'effetto parziale del reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito.
• 3. b2 =0,793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo stimato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare aumenta di 793 euro per ogni componente della famiglia in più ( per matrimonio, nascita, adozione, ecc.). Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona.
14 Il modello di regressione lineare multipla
25
Piano di regressione e valori osservati
14 Il modello di regressione lineare multipla
26
Quale variabile ha la maggior influenza sulla
SPESA ? La risposta si ottiene dal confronto dei coefficienti di
regressione parziale b1 e b2. Il confronto però non è possibile in quanto essi hanno unità di misura diversa (unità di misura della var. dipendente/ unità di misura della variabile esplicativa). Per rendere possibile il confronto è necessario fare ricorso a dei coefficienti di regressione parziali che sono numeri puri e ottenuti partendo da una equazione di regressione multipla in termini di variabili standardizzate Z.
La risposta si ottiene dal confronto dei coefficienti di regressione parziale b1 e b2. Il confronto però non è possibile in quanto essi hanno unità di misura diversa (unità di misura della var. dipendente/ unità di misura della variabile esplicativa). Per rendere possibile il confronto è necessario fare ricorso a dei coefficienti di regressione parziali che sono numeri puri e ottenuti partendo da una equazione di regressione multipla in termini di variabili standardizzate Z.
uZBetaZBetaZ y 2211
14 Il modello di regressione lineare multipla
27
Stima modello in termini di Z con GRETL
Coefficienti di regressione Standardizzato. Una variazione unitaria di ZREDDITO determina una variazione di 0,07612 nello
ZSPESA
Coefficienti di regressione Standardizzato. Una variazione unitaria di ZREDDITO determina una variazione di 0,07612 nello
ZSPESA
14 Il modello di regressione lineare multipla
28
Stima modello in termini di Z con GRETL
NCREDDITOSPESA ZZZ 2729,07611,0ˆ
Pertanto il modello in termini di scarti standardizzati delle variabili diventa:Pertanto il modello in termini di scarti standardizzati delle variabili diventa:
In tal caso, i coefficienti di regressione Beta sono puri numeri e quindi confrontabili. Ne deriva che la variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali
In tal caso, i coefficienti di regressione Beta sono puri numeri e quindi confrontabili. Ne deriva che la variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali
14 Il modello di regressione lineare multipla
29
Piano di regressione in termini di scarti standardizzati
14 Il modello di regressione lineare multipla
30
Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta)
Un modo più rapido di ottenere i valori dei coefficienti Beta e di ottenerli in funzione dei coefficienti B. La formula per standardizzare un coefficiente di regressione parziale è:
Un modo più rapido di ottenere i valori dei coefficienti Beta e di ottenerli in funzione dei coefficienti B. La formula per standardizzare un coefficiente di regressione parziale è:
j
Y
x
j bBeta j
Il coefficiente di regressione è moltiplicato per il rapporto delle deviazioni standard della variabile indipendente Xj e della variabile dipendente Y
Il coefficiente di regressione è moltiplicato per il rapporto delle deviazioni standard della variabile indipendente Xj e della variabile dipendente Y
14 Il modello di regressione lineare multipla
31
Significato (interpretazione ) dei coefficienti di regressione parziali standardizzati
Poiché i coefficienti di regressione parziali sono espressi nella stessa metrica (sono numeri puri), si può determinare la loro capacità relativa di spiegare la variabile dipendente.Conseguentemente, la variabile indipendente con il più elevato valore del coefficiente Beta ha il elevato impatto sulla variabile dipendente Y.
Poiché i coefficienti di regressione parziali sono espressi nella stessa metrica (sono numeri puri), si può determinare la loro capacità relativa di spiegare la variabile dipendente.Conseguentemente, la variabile indipendente con il più elevato valore del coefficiente Beta ha il elevato impatto sulla variabile dipendente Y.
14 Il modello di regressione lineare multipla
32
STATISTICHE DESCRITTIVE CON GRETL
14 Il modello di regressione lineare multipla
33
Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta)
7611,06642,4
955,231482,0 REDDITOBeta
2729,06642,4
6051,17931,0 NCBeta
La variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali.
La variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali.
NCREDDITOSPESA ZZZ 2729,07611,0ˆ
14 Il modello di regressione lineare multipla
34
Quale variabile ha la maggior influenza sulla
SPESA ? Si possono utilizzare diversi metodi:
1) Confronto dei coefficienti di regressione parziale standardizzati;2) Confronto dei valore della t di Student: il coefficiente con il più alto t di Student identifica la variabile più importante;3) Scomposizione del coefficiente di determinazione multipla R2
nei contributi delle diverse variabili.
Si possono utilizzare diversi metodi:
1) Confronto dei coefficienti di regressione parziale standardizzati;2) Confronto dei valore della t di Student: il coefficiente con il più alto t di Student identifica la variabile più importante;3) Scomposizione del coefficiente di determinazione multipla R2
nei contributi delle diverse variabili.
2.1.212.1
2
12. yyyyY rrR
935,0215,0720,0787,02729,0946,07611,02
12. YR
Posto uguale a 100 la variabilità della variabile dipendente, la variabile X1 (REDDITO), spiega il 77% e la variabile X2 (NC) il restante 23%.
Posto uguale a 100 la variabilità della variabile dipendente, la variabile X1 (REDDITO), spiega il 77% e la variabile X2 (NC) il restante 23%.
14 Il modello di regressione lineare multipla
3514 Il modello di regressione lineare multipla
35
Impiego della equazione di regressione per fare previsioni
Prevedere la spesa alimentare nel caso in cui il reddito è 90000 € e NC = 5
La SPESA alimentare prevista è di 16167 Euro
16,167
50,793 90 0,1481,118-
0,793(NC) ITO)0,148(REDD 1,118- SAESP
Attenzione che il REDDITO è in €*1000, pertanto €90000 significano che REDDITO = 90
14 Il modello di regressione lineare multipla
3614 Il modello di regressione lineare multipla
36
ANOVA(scomposizione della devianza)
2)ˆ(2)ˆ(2)( iyiyyiyyiyDEV. TOTALE DEV. RESIDUA (ERRORE)DEV. REGRESSIONE
SST = SSR + SSE
TOTDEV
ERRDEV
SST
SSE
SST
SSRR
.
.112
1. Significatività del test F
2. Valore di R2
GIUDIZIO GLOBALE SUL MODELLO
14 Il modello di regressione lineare multipla
3714 Il modello di regressione lineare multipla
37
R2 = indice di determinazione multiplo
120
.
.1
.
.2
R
TOTDEV
ERRDEV
TOTDEV
REGDEVR
Segnala la quota di devianza (varianza) della variabile dipendente Y spiegata dalla relazione lineare con le variabili esplicative. Si può ritenere R2 come misura della bontà dell’adattamento (closeness of fit) del piano di regressione ai punti osservati. Vale a dire, più prossimo a 1 è il valore di R2, più piccolo è la dispersione dei punti intorno al piano di regressione e migliore sarà l’adattamento
14 Il modello di regressione lineare multipla
3814 Il modello di regressione lineare multipla
38
Coefficiente di Determinazione multipla
935,0413,3455
386,3129
SST
SSRR 2
Y x2x1,
Il 93,5% della variabilità del consumo alimentare è spiegata dalla variazione del Reddito e della numerosità famigliare (NC)
14 Il modello di regressione lineare multipla
3914 Il modello di regressione lineare multipla
39
Il coefficiente di correlazione multipla (the multiple correlation coefficient )
2RR
R =0,967 misura l’entità della relazione (the degree of relationship) fra i valori osservati (yi) e i previsti (ýi) della Spesa alimentare delle famiglie. Poichè I valori di ýi sono ottenuti come combinazione lineare del Reddito (X1) e NC (X2), un valore del coefficiente pari a 0,967 indica che la relazione lineare fra Spesa alimentare e le due variabili esplicative è abbastanza forte (is quite strong) e positiva.
Da notare che :
14 Il modello di regressione lineare multipla
4014 Il modello di regressione lineare multipla
40
Confronto fra modello con una variabile e due variabili esplicative
Nel modulo della regressione semplice si era visto che utilizzando una sola variabile esplicativa (il Reddito) la quota di variabilità spiegata della variabile dipendente era pari all’89,4% (R2 = 0,894).Introducendo una seconda variabile indipendente (modello multiplo), la quota di variabilità spiegata aumenta al 93,5%. (R2
y.x1,x2 = 0,935) ma si perde un grado di libertà. L’incremento in quota di variabilità spiegata introducendo NC controbilancia la perdita di gradi di libertà? Per dare una risposta, bisogna confrontare 0,894 con R2 corretto (Adjusted R-Square or R2 with a bar over it) che nel nostro caso è pari a 0,927).
2
1,
2
2,1, XYXXY RR
14 Il modello di regressione lineare multipla
4114 Il modello di regressione lineare multipla
41
R2 Adjusted (modificato o corretto)
• R2 non diminuisce mai quando una nuova variabile X è aggiunta al modello – Ciò può essere uno svantaggio se si desidera
confrontare modelli con un numero di variabili esplicative diverso
• Qual è l'effetto netto dovuto all’introduzione di una nuova variabile ? Infatti, quando si aggiunge una nuova variabile indipendente X nel modello si perde un grado di libertà. Bisogna allora valutare se la nuova variabile X fornisce un contributo esplicativo sufficiente a controbilanciare la perdita di un grado di libertà.
14 Il modello di regressione lineare multipla
4214 Il modello di regressione lineare multipla
42
Mostra la proporzione di variabilità di Y spiegata da tutte le variabili indipendenti X, corretta per il numero di variabili di X utilizzate
(dove n = dimensione campione, k = numero di variabili indipendenti).
– Penalizza l‘impiego eccessivo di variabili indipendenti poco importanti
– Più piccolo di R2
– Utile nel confronto fra modelli
R2 Adjusted (modificato o corretto)
1
1)1(1 22
...2,1 kn
nRR
XkXXYadj
14 Il modello di regressione lineare multipla
4314 Il modello di regressione lineare multipla
43
R2 Adjusted (modificato o corretto)
)1(.
)1(.
12
nTOTDEV
knERRDEV
R
AGGIUNGENDO
UNA VARIABILE
NEL MODELLO
R2 CORRETTO PUO’
ANCHE DIMINUIRE
14 Il modello di regressione lineare multipla
4414 Il modello di regressione lineare multipla
44
R2 Adjusted (modificato o corretto)927,0R 2
adj Il 92,7% della variabilità nella spesa alimentare è spiegato tramite la variazione nel reddito e nella dimensione della famiglia, tenendo conto della dimensione del campione e del numero di variabili indipendenti
4514 Il modello di regressione
lineare multipla 45
Cosa dicono e non dicono R2e R2-corretto?
L’R2e R2-corretto dicono se le variabili esplicative sono idonee a prevedere (o “spiegare”) i valori della variabile dipendente
L’R2 e R2 corretto non dicono se
1.Una variabile inclusa è statisticamente significativa;2. Le variabili esplicative sono la vera causa dei movimenti della variabile dipendente;3.Il modello è ben specificato;4.Il gruppo di variabili esplicative è il più appropriato
14 Il modello di regressione lineare multipla
4614 Il modello di regressione lineare multipla
46
Errore standard della stima
(la notazione standard è Se)
Questa statistica riassuntiva misura l'esattezza o la qualità generale del modello multiplo valutata in termini di media/variabilità standardizzata non spiegata nella variabile dipendente che può essere dovuta a errori che potrebbero provenire da errori di campionamento. Errori che causano valori delle stime b dei parametri che differiscono significativamente dai valori B non noti; Se questi errori sono piccoli, in media, quindi il valore di Se potrebbe avvicinarsi a zero (uguaglia esattamente a zero se i valori teorici ýi del modello sono esattamente uguali ai valori osservati y per tutti i = 1, 2,…, n). Se al contrario, i valori di Se si avvicinano a +∞; il modello non è utilizzabile.. Si noti che SeSe è uno stimatore corretto dello scarto quadratico medio intorno al vero piano di regressione condizionato µy/x
iixy BXBB ,2,110/
14 Il modello di regressione lineare multipla
47
LE IPOTESI (ASSUNZIONI) NEL MODELLO DEI MINIMI QUADRATI
• Assunzioni sulla natura delle variabili esplicative ( regressori) X:
• Assunzione A: I regressori Xi sono non stocastici, in altre parole i valori delle X osservati nel campione non hanno natura stocastica (la variabile X è fissa).
• Assunzione B: I regressori Xi sono stocastici, in altre parole i valori delle X osservati nel campione sono estratti in maniera casuale e indipendente da una data popolazione (ipotesi più realistica)
14 Il modello di regressione lineare multipla
48
LE ASSUNZIONI DEL MODELLO DEI MINIMI QUADRATI
( X non stocastico)
• A1: Gli errori hanno media zero• A2: Gli errori sono omoschedastici
• A3: Gli errori sono indipendenti
• A4: Gli errori si distribuiscono in modo normale
14 Il modello di regressione lineare multipla
49
10
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A
Le ipotesi (Assumptions) per il Modello A
A.1 Gli errori hanno media zero E(ei) = 0 per ogni i
Si assume che il valore medio del termine di errore per tutte le osservazioni dovrebbe essere zero. A volte il termine di errore sarà positivo, a volte negativo, ma non dovrebbe presentare una tendenza sistematica in uno o nell’altro senso. Infatti, il ruolo dell'intercetta è di prendere tutta la tendenza sistematica ma costante in Y non rappresentato dai regressor. Il ruolo dell'intercetta è di prendere in conto ogni tendenza sistematica ma costante in Y non tenuta presente (spiegata) dalle variabili esplicative.
Si assume che il valore medio del termine di errore per tutte le osservazioni dovrebbe essere zero. A volte il termine di errore sarà positivo, a volte negativo, ma non dovrebbe presentare una tendenza sistematica in uno o nell’altro senso. Infatti, il ruolo dell'intercetta è di prendere tutta la tendenza sistematica ma costante in Y non rappresentato dai regressor. Il ruolo dell'intercetta è di prendere in conto ogni tendenza sistematica ma costante in Y non tenuta presente (spiegata) dalle variabili esplicative.
14 Il modello di regressione lineare multipla
50
17
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A
Assumptions for Model A
A.2 Il termine di errore è omoschedastico
ieei 22
Si assume che la varianza del termine di errore per tutte le osservazioni sia omoschedastica, intendendo che il valore di ogni osservazione è ricavato da una distribuzione con varianza costante. Questo è un concetto beforehand, vale a dire stiamo pensando al comportamento potenziale del termine di dispersione prima che il campione realmente sia generato. Una volta che abbiamo generato il campione, il termine di dispersione risulterà essere maggior in alcune osservazioni e più piccolo in altre, ma ci non dovrebbe essere alcun motivo affinchè sia più erratico erratico erratico in alcune osservazioni che in altre.Se il presupposto non è soddisfatto, le stime dei coefficienti di regressione di OLS saranno inefficienti. Per ottenere risultati più certi occorre introdurre una correzione.
Si assume che la varianza del termine di errore per tutte le osservazioni sia omoschedastica, intendendo che il valore di ogni osservazione è ricavato da una distribuzione con varianza costante. Questo è un concetto beforehand, vale a dire stiamo pensando al comportamento potenziale del termine di dispersione prima che il campione realmente sia generato. Una volta che abbiamo generato il campione, il termine di dispersione risulterà essere maggior in alcune osservazioni e più piccolo in altre, ma ci non dovrebbe essere alcun motivo affinchè sia più erratico erratico erratico in alcune osservazioni che in altre.Se il presupposto non è soddisfatto, le stime dei coefficienti di regressione di OLS saranno inefficienti. Per ottenere risultati più certi occorre introdurre una correzione.
14 Il modello di regressione lineare multipla
51
Assumptions for Model A
A.3 Il termine di errore è indipendente
ei è distributo in modo indipendente per ogni ej per j ≠ i
22
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A
Questa ipotesi sta ad indicare che, non dovrebbe esserci associazione sistematica fra i suoi valori in tutte le coppie di osservazioni. Per esempio, se si constata che il termine di errore è grande e positivo in un'osservazione, ciò non dovrebbe significare che debba essere grande e positivo nella successiva osservazione (o grande e negativo, per quella materia, o piccolo e positivo, o piccolo e negativo). L’ipotesi, implica che la covarianza nella popolazione fra ei e ej sia zero. Se questo presupposto non è soddisfatto, OLS darà ancora le stime inefficienti.. Le violazioni di questo presupposto sono comunque rare con i dati cross section.
Questa ipotesi sta ad indicare che, non dovrebbe esserci associazione sistematica fra i suoi valori in tutte le coppie di osservazioni. Per esempio, se si constata che il termine di errore è grande e positivo in un'osservazione, ciò non dovrebbe significare che debba essere grande e positivo nella successiva osservazione (o grande e negativo, per quella materia, o piccolo e positivo, o piccolo e negativo). L’ipotesi, implica che la covarianza nella popolazione fra ei e ej sia zero. Se questo presupposto non è soddisfatto, OLS darà ancora le stime inefficienti.. Le violazioni di questo presupposto sono comunque rare con i dati cross section.
14 Il modello di regressione lineare multipla
52
26
Solitamente si suppone che il termine di dispersione abbia una distribuzione normale. La giustificazione di questa ipotesi è nel teorema del limite centrale TLC). Essenzialmente, se una variabile casuale è il risultato composito degli effetti di tantissime altre variabili casuali, si distribuisce in modo normale anche se le relative componenti non lo sono, a condizione che nessuna di loro sia dominante. Poiché il termine di dispersione è composto di un certo numero di fattori che non compaiono esplicitamente nell'equazione di regressione così, anche se non sappiamo nulla intorno alla distribuzione di questi fattori, solitamente siamo autorizzati a supporre che il termine di dispersione si distribuisca normalmente.
TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A
Assumptions for Model A
A.4 Il termine di errore ha una distribuzione normale
14 Il modello di regressione lineare multipla
5314 Il modello di regressione lineare multipla
53
Modello a due variabili
Y
X1
X2
22110 XbXbbY Yi
Yi
<
x2i
x1i La miglior equazione , Y ,è ottenuta minimizzando la somma dei quadrati degli errori, e2
<
Osservazione campionaria
Residui nella regressione multipla
Residui = ei
= (Yi – Yi)
<
14 Il modello di regressione lineare multipla
5414 Il modello di regressione lineare multipla
54
Assunzioni sugli errori (residui) del Modello di Regressione Lineare Multiplo
Assunzioni:
• Media nulla degli errori• Omoschedasticità: varianza degli errori costante e finita• Incorrelazione tra gli errori• Gli errori si distribuiscono in modo normale (Gaussiano)
Errori (residui) dal modello di regressione:
)ˆ(ii YYe
14 Il modello di regressione lineare multipla
5514 Il modello di regressione lineare multipla
55
Plots dei residui impiegati nella regressione Multipla
• I plots dei residui utilizzati nella regressione multipla sono i seguenti:
– Residui vs. Yi
– Residui vs. X1i
– Residui vs. X2i
– Residui vs. tempo (se abbiamo dati in serie
– storiche)
<
Questi plots sono utilizzati per verificare se vi sono violazioni alle assunzioni sul modello
<
14 Il modello di regressione lineare multipla
5614 Il modello di regressione lineare multipla
56
Residui vs. Yi
14 Il modello di regressione lineare multipla
5714 Il modello di regressione lineare multipla
57
Residui vs. X1i
(Excel)
14 Il modello di regressione lineare multipla
58
Residui vs. X1i
GRETL
14 Il modello di regressione lineare multipla
5914 Il modello di regressione lineare multipla
59
Residui vs. X2i
Excel
14 Il modello di regressione lineare multipla
60
Residui vs. X2i
Gretl
14 Il modello di regressione lineare multipla
61
Multicollinearità
• 1. Elevata Correlazione fra le variabili esplicative X
• 2. Le variabili non forniscono informazioni aggiuntive ed è difficile valutare l’effetto di ciascuna di esse
• 3. Le stime dei coefficienti presentano elevata variabilità (elelevati standard error)
• 4. Esiste sempre – Questione di grado.
14 Il modello di regressione lineare multipla
62
Come si rivela la presenza di multicollinearità?
• 1. Esame della matrice dei coefficienti di correlazione– 1. La Correlazione fra coppie di variabili X è più
elevata di quella con la variabile Y – 2. Esaminare il Variance Inflation Factor (VIF)– Se VIFj > 5 (or 10 secondo il test), la multicollinearità
è presente
• 3. Pochi rimedi– Utilizzare nuovi dati– Eliminare una delle variabili X correlate
14 Il modello di regressione lineare multipla
63
Correlation Matrix Computer Output
rY1 rY2
All 1’sr12
SPESA REDDITO NC
SPESA 1
REDDITO 0.9456 1
NC 0.7871 0.6755 1
Coefficienti di correlazione, usando le osservazioni 1 - 20Valore critico al 5% (per due code) = 0.4438 per n = 20Coefficienti di correlazione, usando le osservazioni 1 - 20Valore critico al 5% (per due code) = 0.4438 per n = 20
14 Il modello di regressione lineare multipla
64
Variance Inflation Factors Computer Output
Fattori di Inflazione della Varianza (VIF)
Valore minimo possibile: 1.0Valori superiori a 10.0 indicano un problema di collinearità
REDDITO 1.839 NC 1.839
VIF(j) = 1/(1 - R(j)^2), dove R(j) è il coefficiente di correlazione multipla tra la variabile j e le altre variabili indipendenti. Nel nostro caso r REDDITO, NC = 1/(1- 0,6755)^2 = 1,839
Proprietà della matrice X'X:
Norma 1 = 56396 Determinante = 5803192 Reciproco del numero di condizione = 5.798468e-005
Fattori di Inflazione della Varianza (VIF)
Valore minimo possibile: 1.0Valori superiori a 10.0 indicano un problema di collinearità
REDDITO 1.839 NC 1.839
VIF(j) = 1/(1 - R(j)^2), dove R(j) è il coefficiente di correlazione multipla tra la variabile j e le altre variabili indipendenti. Nel nostro caso r REDDITO, NC = 1/(1- 0,6755)^2 = 1,839
Proprietà della matrice X'X:
Norma 1 = 56396 Determinante = 5803192 Reciproco del numero di condizione = 5.798468e-005
14 Il modello di regressione lineare multipla
6565
Come i diagrammi di Venn possono aiutarci a capire la multicollinearità
Una var. dip. (Y) e 2 indipendenti (X1 e X2)— presentano 3 correlazioni da esaminare:
• Correlazioni fra ciascuna var. indip. e la var. dip. Y: rY1 and rY2
• Correlazione fra le var. indip.: r12
Il nostro obiettivo: capire le interrelazioni fra le correlazioni.
• Quanta variabilità di Y è spiegata da X1 e X2 insieme
• Quanta variabilità di Y è spiegata da X1 dopo aver tenuto conto di X2
• Quanta variabilità di Y è spiegata da X2 dopo aver tenuto conto di X1
Y
X2X1
Y
X2X1
14 Il modello di regressione lineare multipla
6666
Diagrammi di Venn con variabili indipenedenti non correlate e correlate Variabili esplicative non correlateLe variabili indipendenti non correlate
sono molto rare, sono prevalentemente presenti nei disegni di esperimenti.
In tal caso possiamo calcolare l’ R2 totale (overall R2) sommando i vari singoli R2.
YX2X1
22|
21|
212| YYY RRR
R2 spiegare Y utilizzando
solo X1
21|YR
R2 spiegare Y utilizzando solo
X2:
22|YR
Variabili esplicative correlateLe variabili indipendenti correlate sono molto
comuni, sono presenti in quasi tutti gli studi.In tal caso non possiamo sommare i vari singoli R2 a causa della intersezione dei
contributi.
Y
X2X1
cba
cbaRY 212|
caRY 21| cbRY 2
2|
cba
X1 X2
YCome la correlazione fra le variabili
espilicative influenza il loro effetto congiunto?
• Variabili esplicative altamente correlate: la quota parte spiegata congiuntamente “c” è grande; Le quote parti indipendenti addizionali “a” e “b” sono piccole
• Variabili esplicative scarsamente correlate : la quota parte spiegata congiuntamente “c” à
piccola; Le quote parti indipendenti addizionali “a” e“b” sono grandi
X2X1
cba
Y
14 Il modello di regressione lineare multipla
6767
Misurazione del contributo esplicativo addizionale di una variabile esplicativa addizionale
Supponendo, che X1 sia già nel modello, come possiamo misurare il contributo
addizionale di X2, in aggiunta a quello già spiegato da X1?
Y
X2X1
cba dcba
cbRY
2
2
d dcbaYVarianza )( dbXYsidua varVarianzaRe )|( 1
21)|( X a spiegatadXY VarRes di Propdb
b
2
22
Y
Y
r
semplicenecorrelazioR
1.2
21.|2
Y
Y
r
parziale necorrelazioR
Terminologia e annotazioni
• Correlazione semplice, rY2 and RY2
2 : Proporzione di variabilità di Y spiegata da X2
• Correlazione multipla, RY.122 :
Proporzione di variabilità di Y spiegata da entrambe X1 e X2
• Correlazione parziale, rY2.1 : Y2 identifica la variabile correlata con Y; .1 identifica la variabile(i) tenuta costante (o tenuta ferma, parzializzata)
dcba
cbrY
2
2
Correlaz.Semplice2
db
brY
2
1.2
Correlaz. Parziale2
Come i coefficienti parziali sono legati a quelli semplici?
Confrontando queste 2 equazioni, possiamo notare che b e d sono in entrambi i
denominatori. Pertanto la relazione fra semplice e parziale dipende dalla dimensione
di “a” e “c” rispetto a “b” e “d”
14 Il modello di regressione lineare multipla
6814 Il modello di regressione lineare multipla
68
Test di ipotesi nella regressione lineareTest per la significatività del modello di Regressione
14 Il modello di regressione lineare multipla
6914 Il modello di regressione lineare multipla
69
14 Il modello di regressione lineare multipla
7014 Il modello di regressione lineare multipla
70
Inferenza Statistica: possono essere verificate due diverse tipologie di ipotesi
Fra tutti le variabili esplicative, non c’è ne nessuna da
eliminare, o si potrebbe fare a
meno di qualcuna ?
Controllo se ogni variabile esplicativa nel modello, Xj,
ha un effetto?
Y) di nulla
spieganon eregression (la
0: 21 k 0H
ivo)significat effetto
un ha previsore (
0:
almeno 1
alcuni j 1Hivo)significat effettoun ha
previsore (
0:
non
questoj 0H
ivo)significat effettoun
previsore (
0:
ha
questoj 0H
Completo/Omnibus F test
t-tests individuali
Con una sola variabile esplicativa (cioè nella regressione lineare semplice), questi due tests sono identici. Nella regressione multipla,
questi due tests sono decisamente differenti!
14 Il modello di regressione lineare multipla
7114 Il modello di regressione lineare multipla
71
verifica della significatività globale• F-Test per la Significatività Globale del Modello
• Mostra se c’è un rapporto lineare fra tutte le variabili X considerate insieme e Y
• Utilizza il test statistico F
• Ipotesi:
H0: B1 = B2 = … = Bk = 0 (nessuna relazione lineare)
H1: almeno un Bi ≠ 0 (almeno una variabile
indipendente influenza Y)
14 Il modello di regressione lineare multipla
7214 Il modello di regressione lineare multipla
72
F-Test per la significatività globale
• Test statistico:
• dove F ha (numeratore) = k e (denominatore) = (n –
k - 1) gradi di libertà (degrees of freedom)
1
kn
SSEk
SSR
MQE
MQRF
14 Il modello di regressione lineare multipla
7314 Il modello di regressione lineare multipla
73
F-Test per la significatività globale
Con 2 e 17 gradi di libertà
P-value per il test F
4702,12117,2 MQE
MQRF
14 Il modello di regressione lineare multipla
7414 Il modello di regressione lineare multipla
74
F-Test per la significatività globale
H0: B1 = B2 = 0
H1: B1 e B2 entrambi non
uguali a zero
= .05
df1= 2 df2 = 12
Test Statistico:
Decisione:
Poiche la statistica F test cade nella regionedi rifiuto (p-value < 0,05), rifiuto H0
0
= .05
F 0,05, 2,17 = 3.59Rifiuto H0Non
rifiuto H0
Valore critico:
F 0,05, 2,17 = 3.59
F
4702,12117,2 MQE
MQRF
14 Il modello di regressione lineare multipla
7514 Il modello di regressione lineare multipla
75
F-Test per la significatività globale: Conclusioni
• Ad un livello di significatività del 5%,dalla tavola della distribuzione F si ottiene un valore critico del F-value o F 0.05, 2, 17 = 3.59.
• Pertanto, possiamo rifiutare H0 in favore di H1. Ciò significa che il modello di regressione multipla che è stato proposto non è una mera costruzione teorica, ma effettivamente esiste ed è statisticamente significativo. Infatti,
• C’è evidenza che almeno una variabile indipendente influenza significativamente Y !!!
14 Il modello di regressione lineare multipla
7614 Il modello di regressione lineare multipla
76
T-Test per la significatività dei singoli coefficienti di regressione:
le singole variabili esplicative sono significative?
• Utilizzo il t-tests per ognuno dei singoli coefficienti di regressione parziali (slopes) delle variabili
• Mostra se esiste una relazione lineare significativa fra la variabile Xi and Y
14 Il modello di regressione lineare multipla
7714 Il modello di regressione lineare multipla
77
T-Test per la significatività dei singoli coefficienti di regressione:
H0: Bi = 0 (nessuna relazione lineare)
H1: Bi ≠ 0 (Fra Xi and Y esiste una relazione lineare)
Test Statistic:
(df = n – k -1)
ib
ikn S
bt
01
Ipotesi:
14 Il modello di regressione lineare multipla
7814 Il modello di regressione lineare multipla
78
• 1. a = -1.118 nessun significato interpretabile perché il livello medio della spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza una famiglia che non ha reddito e componente ma presenta spesa per alimentazione. Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la linea di regressione/equazione stimata per la previsione.
•2. b1 = .148 Rappresenta l'effetto parziale di reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito.
• 3. b2 = .793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo valutato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare è aumentata di 793 euro per ogni componente della famiglia in più. supplementare alla famiglia per matrimonio, nascita o adozione. Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona.
14 Il modello di regressione lineare multipla
7914 Il modello di regressione lineare multipla
79
Le singole variabili esplicative sono significative?
t-value per il Reddito è t = 9,0491, con p-value 0,0000
t-value per NC t = 3,2446, con p-value 0,0048
14 Il modello di regressione lineare multipla
8014 Il modello di regressione lineare multipla
80
d.f. = 20-2-1 = 17
= 0,05
t/2 = 2.110
Inferenza riguardo al coefficiente di regressione parziale:Esempio di t Test
H0: Bi = 0
H1: Bi 0
Il valore del test statistico per ogni variabile cade nella zona di rifiuto (p-values < 0,05)
Dall’output di Excel :
Decisione: Rifiuto H0 per ogni variabile
Rifiuto H0Rifiuto H0
/2=0,025
-tα/2
Non rifiuto H0
0 tα/2
/2=0,025
-2.110 2.110
14 Il modello di regressione lineare multipla
8114 Il modello di regressione lineare multipla
81
Inferenza riguardo al coefficiente di regressione parziale: Conclusioni
Riguardo al REDDITO, l’ipotesi nulla è H0: B1 = 0 (cioè, il reddito non influenza la Spesa alimentare), contro l’alternativa H1: B1 non è uguale a zero (cioè, il REDDITO ha effetti causali sulla Spesa alimentare). Per NC (dimensione della famiglia), l’ipotesi nulla è H0: B2 = 0 (cioè, NC non ha effetti causali sulla SPESA), contro l’alternativa che H1: B2 non è uguale a zero (cioè, pure NC ha effetti causali sulla spesa alimentare). Al livello di significatività α =0,05 e d.f. = n -k-1 = 20 -2-1 = 17, il valore critico del test t è = t0.025,17 = ±2.110.
Per il REDDITO il t osservato = 9.049. Così, H0 deve essere inequivocabilmente rifiutata in favore di H1; in questo caso, si può affermare che il REDDITO famigliare influenza significativmente la SPESA alimentare delle famiglie. Per NC , t osservato = 3.245. Così, Ho deve essere rifiutata in favore di H1; in questo caso, si può ritenere che la dimensione della famiglia (NC) ha una influenza significativa sulla Spesa alimentare.
14 Il modello di regressione lineare multipla
8214 Il modello di regressione lineare multipla
82
Test per la verifica della significatività economica/pratica dei coefficienti di
regressione• Una variazione interessante del test t è la verifica dell’importanza
economica del parametro riguardo al senso della causalità di ogni variabile indipendente.
In questo caso, l’ipotesi nulla è espressa come:
H0: Bi ha un valore che è al massimo zero , contro H1: Bi > 0 (cioe; il valore è rigorosamente positivo secondo la sottostante teoria economica). Se il segno del parametro si ritiene che sia negativo in base alla teoria o al buonsenso, l’ ipotesi nulla è espressa come H0: Bi ha un valore che è almeno zero , contro H1: Bi < 0 ( cioe; il valore è rigorosamente negativo secondo la sottostante teoria economica).
14 Il modello di regressione lineare multipla
8314 Il modello di regressione lineare multipla
83
Test per la verifica della significatività economica/pratica dei coefficienti di
regressione
Consideriamo, ad esempio, NC. Ci si aspetta che il segno di B2 sia positivo. H0: B2 ha un valore che è al massimo zero contro H1: B2 > 0. Al livello di significatività α = .05, il valore critico di t = t 0,.05,17 = +1.740. Ma il valore osservato di t = 3.245 , così l’ipotesi nulla di un effetto negativo o nessun effetto della dimesione della famiglia deve essere rifiutata in modo inequivocabile..
Si noti che nel test che tiene conto del significato economico di un parametro il valore alfa non è diviso per due poiché in tal caso il test è a una coda.
14 Il modello di regressione lineare multipla
84
35
Funzione di densità di probabilità di bj
0
Se si utilizza un test a due code con un livello di significatività del 5%, la stima deve essere 2,11 (1.96 nella normale) standard deviations sopra o sotto 0 se si rifiuta H0.
2.5% 2.5%
Ipotesi nulla: H0 : j = 0
Ipotesi alternativa: H1 : j = 0
rifiuto H0rifiuto H0 non rifiuto H0
2,11 sd-2,11 sd
TEST t a due code
14 Il modello di regressione lineare multipla
85
36
Funzione di densità di probabilità di bj
0
Se è giustificato fare ricorso ad un test a una coda, per esempio con H0: 2 > 0, la stima deve essere 1,74 (1.65 nella normale) standard deviations sopra 0. E’ facile constatare che ciò lo rende più facile rifiutare H0 e quindi dimostrare che Y è realmente influenzato dalla X (che lascia supporre che il o modello è specificato correttamente).
rifiuto H0non rifiuto H0
1.74 sd
5%
Ipotesi nulla: H0 : Bj = 0
Ipotesi alternativa: H1 : Bj > 0
TEST t a una coda
14 Il modello di regressione lineare multipla
8686
Test sull’intercetta: Test t
• La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà di adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero
• Il procedimento è del tutto simile a quello visto per il coefficiente angolare
anno accademico 2009/10
14 Il modello di regressione lineare multipla
8714 Il modello di regressione lineare multipla
87
Valori critici della distribuzione t
14 Il modello di regressione lineare multipla
88
Selezione delle variabili in Model
Building
Use Theory Only!Use Theory Only! Use Computer Search!Use Computer Search!
14 Il modello di regressione lineare multipla
89
Model Building
• Obiettivo è quello di sviluppare modelli con il numero minore possibile (Fewest) di variabili esplicative (principio della parsimonia)– Più facili da interpretare – Bassa probabilità di collinearità
• Procedure di Regressione stepwise– Fornisce una valutazione limitata di modelli
alternativi
• Approccio Best-Subset • Utilizza la statistica Cp
– Seleziona il modello con il CP più piccolo
14 Il modello di regressione lineare multipla
90
Model Building Flowchart
Scegliere X1,X2,…Xk
Run Regression to find VIFs
Remove Variable with
Highest VIF
Any VIF>5?
Run Subsets Regression to Obtain
“best” models in terms of Cp
Do Complete Analysis
Add Curvilinear Term and/or Transform Variables as Indicated
Perform Predictions
No
More than One?
Remove this X
Yes
No
Yes
14 Il modello di regressione lineare multipla
9114 Il modello di regressione lineare multipla
91
Sequential Methods
• Stepwise selection procedures• Comporta "Partialling-out" delle
variabili esplicative
• Sulla base del coefficiente di correlazione parziale
223
213
2313123.12
11 rr
rrrr
14 Il modello di regressione lineare multipla
9214 Il modello di regressione lineare multipla
92
All possible subsets
• s2 is residual variance for reduced model and 2 is the residual variance for full model
• All subset regressions compute possible 1, 2, 3, … variable models given some optimality criterion.
Requires use of optimality criterion, e.g., Mallow’s Cp
2
22
ˆ
ˆ
pns
pC p (p = k + 1)
14 Il modello di regressione lineare multipla
9314 Il modello di regressione lineare multipla
93
Mallow’s Cp
• Measures total squared error• Choose model where Cp ~ p
14 Il modello di regressione lineare multipla
94
Modelli con due o più variabili quantitative
14 Il modello di regressione lineare multipla
95
Types of Regression Models
ExplanatoryVariable
1stOrderModel
3rdOrderModel
2 or MoreQuantitative
Variables
2ndOrderModel
1stOrderModel
2ndOrderModel
Inter-ActionModel
1Qualitative
Variable
DummyVariable
Model
1Quantitative
Variable
ExplanatoryVariable
1stOrderModel
3rdOrderModel
2 or MoreQuantitative
Variables
2ndOrderModel
1stOrderModel
2ndOrderModel
Inter-ActionModel
1Qualitative
Variable
DummyVariable
Model
1Quantitative
Variable
14 Il modello di regressione lineare multipla
96
First-Order Model With 2 Independent Variables
• 1. La Relazione fra 1 Variabile Dipendente e 2 Variabili Independenti è una Funzione lineare
• 2. Si ipotizza nessuna interazione fra X1 e X2 (L’ effetto di X1 su E(Y) è lo stesso a prescindere dai valori
X2)
• 3. Il modello:
E Y X Xi i( ) 0 1 1 2 2E Y X Xi i( ) 0 1 1 2 2
14 Il modello di regressione lineare multipla
97
Nessuna Interazione
Effetto (pendenza) di Effetto (pendenza) di XX11 su su EE((YY) non dipende dal valore di ) non dipende dal valore di XX22
E(Y)E(Y)
XX11
44
88
1212
0000 110.50.5 1.51.5
EE((YY) = 1 + 2) = 1 + 2XX11 + 3(2) = 7 + + 3(2) = 7 + 22XX11
EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX22
EE((YY) = 1 + 2) = 1 + 2XX11 + 3(1) = 4 + + 3(1) = 4 + 22XX11
EE((YY) = 1 + 2) = 1 + 2XX11 + 3(0) = 1 + + 3(0) = 1 + 22XX11
EE((YY) = 1 + 2) = 1 + 2XX11 + 3(3) = 10 + + 3(3) = 10 + 22XX11
14 Il modello di regressione lineare multipla
98
First-Order Model Relationships
X2
Y
X1
0Resp on seS urfac e
X2
Y
X1
0Resp on seS urfac e
14 Il modello di regressione lineare multipla
99
Types of Regression Models
ExplanatoryVariable
1stOrderModel
3rdOrderModel
2 or MoreQuantitative
Variables
2ndOrderModel
1stOrderModel
2ndOrderModel
Inter-ActionModel
1Qualitative
Variable
DummyVariable
Model
1Quantitative
Variable
ExplanatoryVariable
1stOrderModel
3rdOrderModel
2 or MoreQuantitative
Variables
2ndOrderModel
1stOrderModel
2ndOrderModel
Inter-ActionModel
1Qualitative
Variable
DummyVariable
Model
1Quantitative
Variable
14 Il modello di regressione lineare multipla
100
Interaction Model With 2 Independent Variables
• 1. Hypothesizes Interaction Between Pairs of X Variables– Response to One X Variable Varies at
Different Levels of Another X Variable
14 Il modello di regressione lineare multipla
101
Modello con due variabili esplicative e interazione
1. Si ipotizza una interazione fra coppie di variabili indipendenti. (L’effetto di una variabile X varia a differenti livelli di un’altra variabile X );
2. Contiene Two-Way Cross Product Terms
3. Può essere combinato con altri modelli (Ad esempio modelli con variabili dummy)
E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2
14 Il modello di regressione lineare multipla
102
Effetto della interazione
• 1. Dato:
• 2. Senza il termine di interazione, l’effetto di X1 su Y è misurato da 1
• 3. Con il termine di interazione l’effetto di X1 su Y è misurato da 1 + 3X2
– L’effetto aumenta all’aumentare di X2i
E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2
14 Il modello di regressione lineare multipla
103
Modello con due variabili esplicative e interazione
E(Y)E(Y)
XX11
44
88
1212
0000 110.50.5 1.51.5
EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22
14 Il modello di regressione lineare multipla
104
Modello con due variabili esplicative e interazione
E(Y)E(Y)
XX11
44
88
1212
0000 110.50.5 1.51.5
EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22
EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + 2) = 1 + 2XX11
14 Il modello di regressione lineare multipla
105
Modello con due variabili esplicative e interazione
E(Y)E(Y)
XX11
44
88
1212
0000 110.50.5 1.51.5
EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22
EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(11) + 4) + 4XX11((11) = 4 + 6) = 4 + 6XX11
EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + 2) = 1 + 2XX11
14 Il modello di regressione lineare multipla
106
Modello con due variabili esplicative e interazione
L’effetto (pendenza) di L’effetto (pendenza) di XX11 su su EE((YY) dipende dai valori ) dipende dai valori
di di XX22
E(Y)E(Y)
XX11
44
88
1212
0000 110.50.5 1.51.5
EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22
EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(11) + 4) + 4XX11((11) = 4 + ) = 4 + 66XX11
EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + ) = 1 + 22XX11
14 Il modello di regressione lineare multipla
107
Types of Regression Models
ExplanatoryVariable
1stOrderModel
3rdOrderModel
2 or MoreQuantitative
Variables
2ndOrderModel
1stOrderModel
2ndOrderModel
Inter-ActionModel
1Qualitative
Variable
DummyVariable
Model
1Quantitative
Variable
ExplanatoryVariable
1stOrderModel
3rdOrderModel
2 or MoreQuantitative
Variables
2ndOrderModel
1stOrderModel
2ndOrderModel
Inter-ActionModel
1Qualitative
Variable
DummyVariable
Model
1Quantitative
Variable
14 Il modello di regressione lineare multipla
108
Second-Order Model With 2 Independent Variables
• 1. La Relazione fra 1 variabile Dipendente e 2 o più variabili Independenti è una funzione Quadratica
• 2. E’ utile come primo modello se si sospetta la presenza di una relazione non lineare
• 3. Il modello è:
• 4. Questi modelli però hanno scarso utilizzo in economia
E Y X X X X
X X
i i i i
i i
( )
0 1 1 2 2 3 1 2
4 12
5 22
E Y X X X X
X X
i i i i
i i
( )
0 1 1 2 2 3 1 2
4 12
5 22
14 Il modello di regressione lineare multipla
109
Second-Order Model Relationships
Y
X2X1
Y
X2X1
Y
X2X1
Y
X2X1
Y
X2X1
Y
X2X1
4 + 5 > 0 4 + 5 < 0
32 > 4 4 5 E Y X X
X X
X X
i i
i i
i i
( )
0 1 1 2 2
3 1 2
4 12
5 22
E Y X X
X X
X X
i i
i i
i i
( )
0 1 1 2 2
3 1 2
4 12
5 22
14 Il modello di regressione lineare multipla
11014 Il modello di regressione lineare multipla
110
Riferimenti bibliografici
• D.M. Levine, T.C. Krehbiel, M.L. Berenson (2002) Statistica, Apogeo.
• Cap. 10 (disponibile online all’indirizzo• www.apogeonline.com/libri/00805/allegati/).
• D. N. Gujarati (2003) Basic conometrics, McGrawHill.
http://www.wessa.net/esteq.wasphttp://www.wessa.net/esteq.wasp
top related