la regressione lineare multipla

LA REGRESSIONE LINEARE MULTIPLA

Osservazioni introduttive• I fenomeni collettivi (economici, demografici, ecc.)

sono strettamente legati da una complessa rete di relazioni. Pertanto risulta spesso insufficiente lo studio della relazione tra due sole variabili.

• In questi casi, una volta individuato il carattere dipendente, sarà opportuno studiare come esso varia in media al variare degli altri caratteri.

Questo studio viene denominato regressione multipla e costituisce una generalizzazione della regressione semplice.

ESEMPI DI RICORSO A MODELLI DI REGRESSIONE MULTIPLA

Ad esempio:• Il prezzo di una merce sui vari mercati (o in una

serie di anni o in diverse zone territoriali) è collegato con la produzione, le scorte esistenti, il prezzo di altre merci, la domanda dei consumatori e così via;

• Il consumo per abitante di energia elettrica (in varie regioni) dipende dal reddito per abitante, dalla incidenza degli occupati addetti al terziario sugli occupati in complesso, ecc.;

Modelli

I modelli sono una rappresentazione matematica della realtà

“All models are wrong, but some are useful”

George Box

Modello empirico o statistico (Empirical Model)

Di solito non si conosce la relazione esatta che esiste fra due variabili

Per questo motivo si adatta un modello empirico

Schema logico per la costruzione di un modello statistico

TEORIZZAZIONE SU UN FENOMENO

INDIVIDUAZIONE DELLE VARIABILI ESPLICATIVE

FORMULAZIONE O IDENTIFICAZIONE DEL MODELLO

USO DEI DATI PER LA STIMA DEL MODELLO

VERIFICA DEL MODELLO

USO DEL MODELLO

Modello di regressione lineare multipla

Lo studio della regressione multipla consiste nel determinare

una funzione che esprima nel modo migliore il legame

(in media) tra le variabili indipendenti X1, X2, …., Xk e

la variabile dipendente Y.

Per fare questo occorre incominciare con lo stabilire il tipo di

funzione che lega la variabile dipendente a quelle

indipendenti. In analogia con quanto già esposto sulla

regressione semplice, ipotizziamo il tipo più semplice,

quello lineare.

Regressione lineare multipla

Idea: Esaminare le relazione lineare fra 1 dipendente (Y) e 2 o più variabili independenti (Xi)

eXXXY kk22110i BBBB

Modello di regressione multipla con k variabili indipendenti:

Y-intercetta Coefficiente di regressione parziale

Errore casuale

Modello lineare multiplo

I coefficienti del modello sono stimati sulla base di dati campionari

kk221i10i XbXbXbbY

Stima (o valore previsto di Y Stima dei coefficienti di

regressione parziale

Modello di regressione multipla con k variabili indipendenti :

Stima dell’intercetta

In questo capitolo utilizzeremo sempre Excel per ottenere i parametri del

modello di regressione e altre statistiche (regression summary measures).

PARAMETRI • yi ed x1 , x2 ….xk sono i valori, rispettivamente, della variabile

dipendente e delle k variabili indipendenti, rilevate con riferimento alla i-esima unità statistica;

• B0 è la costante;

• B1, B2,… Bk sono i coefficienti di regressione parziale (indicano di quanto varia in media la Y quando Xj aumenta di un’unità, a parità di valori delle altre variabili esplicative);

• ei è il “residuo non spiegato” relativo all’osservazione i-esima;

• n è il numero di osservazioni.

INTERPRETAZIONE

Nel modello di regressione multipla si assume

che ciascun valore osservato della variabile

dipendente sia esprimibile come funzione

lineare dei corrispondenti valori delle variabili

esplicative, più un termine residuo che

traduce l’incapacità del modello di riprodurre

con esattezza la realtà osservata.

Modello lineare nel caso di tre variabili: piano di regressione

Nel caso particolare di due sole variabili esplicative X1 e X2 si ha il piano di regressione:

eXBXBBY 22110

Modello con due variabili

22110 XbXbbY

Pendenza per la

bile X 1

Pendenza per la variabile X2

Modello lineare nel caso di tre variabili: piano di regressione

Esempio: estensione di un modello da 2 a 3 variabili indipendenti

Con riferimento a 20 famiglie si cerca di spiegare il consumo alimentare (Y) utilizzando come variabile esplicativa il reddito (X1). Il modello stimato è il seguente:

)20,,2,1(184,0412,0ˆ1 ixy ii

Ora estendiamo il modello per considerare anche la dimensione della famiglia (X2), misurata in termini di numero di componenti della famiglia. Il modello diventa:

Spesa alimentare = B0 + B1 Reddito + B2 Numero ComponentiSpesa alimentare = B0 + B1 Reddito + B2 Numero Componenti

famiglia Spesa annua per

l'alimentazione (000*Euro) Reddito annuo (000*Euro) Dimensione della famiglia (numero di componenti)

SPESA REDDITO NC

1 5.2 28 3

2 5.1 26 3

3 5.6 32 2

4 4.6 24 1

5 11.3 54 4

6 8.1 59 2

7 7.8 44 3

8 5.8 30 2

9 5.1 40 1

10 18 82 6

11 4.9 42 3

12 11.8 58 4

13 5.2 28 1

14 4.8 20 5

15 7.9 42 3

16 6.4 47 1

17 20 112 6

18 13.7 85 5

19 5.1 31 2

20 2.9 26 2

• Dovremmo aspettarci che i segni di B1 e di B2 siano entrambi positivi, cioè che sia il reddito sia la dimensione della famiglia abbiano effetti positivi sulla spesa alimentare della famiglia. Ciò vale nel caso di singole regressioni lineari semplici;

• Invece B1 misura l'effetto parziale del reddito sulla spesa alimentare, tenendo costante la dimensione della famiglia, e B2 misura l'effetto parziale della dimensione della famiglia sulla spesa, tenendo costante il reddito.

In definitiva, sia la teoria economica sia il buonsenso dovrebbero costituire una base per la selezione delle variabili esplicative da inserire nel modello. L’analisi grafica sia del tipo che della struttura di correlazione fra le variabili può essere compiuta con il ricorso alla matrice degli scatterplot, uno strumento grafico che presenta i diagrammi di dispersione per ogni coppia delle variabili nel modello(http://www.wessa.net/rwasp_cloud.wasp#output)

La matrice degli Scatterplot è un importante strumento grafico per l’analisi esplorativa dei dati e per mettere in risalto: 1. Tipo di relazione fra ciascuna coppia di variabili: diretta o inversa 2. Forma del legame: lineare o non lineare 3. Intensità della relazione fra ciascuna coppia di variabili - da perfettamente forte e diretta (r = +1) a perfettamente forte ed inversa (r = -1). Nessun rapporto affatto se r = 0 4. Presenza di valori anamoli (outliers) nell'insieme di dati.

La matrice degli scatterplot suggerisce le seguenti conclusioni: 1. La relazione fra spesa alimentare della famiglia e la dimensione è diretta, lineare e relativamente forte con la presenza di un possibile outlier. 2. La relazione fra Spesa alimentare della famiglia e reddito è diretta, lineare e relativamente forte senza la presenza apparente di outliers. 3. La relazione fra la dimensione della famiglia ed il reddito annuo è diretta, lineare e debole con la visibile presenza di un outlier. Così dovremmo prevedere il problema di collinearity nella regressione

14 Il modello di regressione lineare multipla

La matrice dei coefficienti di correlazione

SPESA REDDITO NC

SPESA 1

REDDITO 0.95 1

NC 0.79 0.68 1

SPESA REDDITO NC

SPESA 1

REDDITO 0.95 1

NC 0.79 0.68 1

2014 Il modello di regressione

lineare multipla 20

Stima del vettore dei coefficienti (parametri del modello)

CONDIZIONE DEI MINIMI QUADRATI ORDINARI (OLS):

SVOLGENDO LA CONDIZIONE DI MINIMO SI OTTIENE LA SOLUZIONE:

Stime dei coefficienti B con i minimi quadrati

Stima del vettore dei parametri del modello di Regressione multipla

• Utilizzando Excel per stimare i coefficienti e la misura della bontà dell’adattamento per il modello di regressione

• Excel:– Strumenti / Analisi Dati... / Regressione

Risultati della regressione multipla

(NC)793,0 (Reddito) 0,148 1,118- SAESP

L’equazione di regressione multipla

b2 = 0,793: la SPESA

alimentare aumenta, in media, di 793 Euro all’anno all’aumentare di 1 di NC , al netto (fermo restando) degli effetti dovuti alle variazioni del REDDITO

Dove SPESA è in Euro*1000 REDDITO è in Euro*1000 NC è in numero di componenti.

b1 = 0,148: la SPESA alimentare aumenta, in media,

di 148 Euro all’anno all’aumentare di 1000 Euro

del REDDITO, al netto (fermo restando) degli effetti dovuti

alle variazioni di NC

(NC)793,0 (Reddito) 0,148 1,118- SAESP

Commento e significato dei parametri• 1. a = -1,118 nessun significato interpretabile perché il livello medio della

spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza di una famiglia che pur non avendo reddito e zero componenti presenta una spesa per alimentazione. Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la equazione di regressione stimata per la previsione.

•2. b1 = 0,148 Rappresenta l'effetto parziale del reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito.

• 3. b2 =0,793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo stimato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare aumenta di 793 euro per ogni componente della famiglia in più ( per matrimonio, nascita, adozione, ecc.). Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona.

Piano di regressione e valori osservati

Quale variabile ha la maggior influenza sulla

SPESA ? La risposta si ottiene dal confronto dei coefficienti di

regressione parziale b1 e b2. Il confronto però non è possibile in quanto essi hanno unità di misura diversa (unità di misura della var. dipendente/ unità di misura della variabile esplicativa). Per rendere possibile il confronto è necessario fare ricorso a dei coefficienti di regressione parziali che sono numeri puri e ottenuti partendo da una equazione di regressione multipla in termini di variabili standardizzate Z.

La risposta si ottiene dal confronto dei coefficienti di regressione parziale b1 e b2. Il confronto però non è possibile in quanto essi hanno unità di misura diversa (unità di misura della var. dipendente/ unità di misura della variabile esplicativa). Per rendere possibile il confronto è necessario fare ricorso a dei coefficienti di regressione parziali che sono numeri puri e ottenuti partendo da una equazione di regressione multipla in termini di variabili standardizzate Z.

uZBetaZBetaZ y 2211

Stima modello in termini di Z con GRETL

Coefficienti di regressione Standardizzato. Una variazione unitaria di ZREDDITO determina una variazione di 0,07612 nello

ZSPESA

Coefficienti di regressione Standardizzato. Una variazione unitaria di ZREDDITO determina una variazione di 0,07612 nello

ZSPESA

Stima modello in termini di Z con GRETL

NCREDDITOSPESA ZZZ 2729,07611,0ˆ

Pertanto il modello in termini di scarti standardizzati delle variabili diventa:Pertanto il modello in termini di scarti standardizzati delle variabili diventa:

In tal caso, i coefficienti di regressione Beta sono puri numeri e quindi confrontabili. Ne deriva che la variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali

Piano di regressione in termini di scarti standardizzati

Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta)

Un modo più rapido di ottenere i valori dei coefficienti Beta e di ottenerli in funzione dei coefficienti B. La formula per standardizzare un coefficiente di regressione parziale è:

j bBeta j

Il coefficiente di regressione è moltiplicato per il rapporto delle deviazioni standard della variabile indipendente Xj e della variabile dipendente Y

Significato (interpretazione ) dei coefficienti di regressione parziali standardizzati

Poiché i coefficienti di regressione parziali sono espressi nella stessa metrica (sono numeri puri), si può determinare la loro capacità relativa di spiegare la variabile dipendente.Conseguentemente, la variabile indipendente con il più elevato valore del coefficiente Beta ha il elevato impatto sulla variabile dipendente Y.

STATISTICHE DESCRITTIVE CON GRETL

Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta)

7611,06642,4

955,231482,0 REDDITOBeta

2729,06642,4

6051,17931,0 NCBeta

La variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali.

NCREDDITOSPESA ZZZ 2729,07611,0ˆ

Quale variabile ha la maggior influenza sulla

SPESA ? Si possono utilizzare diversi metodi:

1) Confronto dei coefficienti di regressione parziale standardizzati;2) Confronto dei valore della t di Student: il coefficiente con il più alto t di Student identifica la variabile più importante;3) Scomposizione del coefficiente di determinazione multipla R2

nei contributi delle diverse variabili.

Si possono utilizzare diversi metodi:

1) Confronto dei coefficienti di regressione parziale standardizzati;2) Confronto dei valore della t di Student: il coefficiente con il più alto t di Student identifica la variabile più importante;3) Scomposizione del coefficiente di determinazione multipla R2

nei contributi delle diverse variabili.

2.1.212.1

12. yyyyY rrR

935,0215,0720,0787,02729,0946,07611,02

12. YR

Posto uguale a 100 la variabilità della variabile dipendente, la variabile X1 (REDDITO), spiega il 77% e la variabile X2 (NC) il restante 23%.

Impiego della equazione di regressione per fare previsioni

Prevedere la spesa alimentare nel caso in cui il reddito è 90000 € e NC = 5

La SPESA alimentare prevista è di 16167 Euro

16,167

50,793 90 0,1481,118-

0,793(NC) ITO)0,148(REDD 1,118- SAESP

Attenzione che il REDDITO è in €*1000, pertanto €90000 significano che REDDITO = 90

ANOVA(scomposizione della devianza)

2)ˆ(2)ˆ(2)( iyiyyiyyiyDEV. TOTALE DEV. RESIDUA (ERRORE)DEV. REGRESSIONE

SST = SSR + SSE

TOTDEV

ERRDEV

1. Significatività del test F

2. Valore di R2

GIUDIZIO GLOBALE SUL MODELLO

R2 = indice di determinazione multiplo

TOTDEV

ERRDEV

TOTDEV

REGDEVR

Segnala la quota di devianza (varianza) della variabile dipendente Y spiegata dalla relazione lineare con le variabili esplicative. Si può ritenere R2 come misura della bontà dell’adattamento (closeness of fit) del piano di regressione ai punti osservati. Vale a dire, più prossimo a 1 è il valore di R2, più piccolo è la dispersione dei punti intorno al piano di regressione e migliore sarà l’adattamento

Coefficiente di Determinazione multipla

935,0413,3455

386,3129

SSRR 2

Y x2x1,

Il 93,5% della variabilità del consumo alimentare è spiegata dalla variazione del Reddito e della numerosità famigliare (NC)

Il coefficiente di correlazione multipla (the multiple correlation coefficient )

R =0,967 misura l’entità della relazione (the degree of relationship) fra i valori osservati (yi) e i previsti (ýi) della Spesa alimentare delle famiglie. Poichè I valori di ýi sono ottenuti come combinazione lineare del Reddito (X1) e NC (X2), un valore del coefficiente pari a 0,967 indica che la relazione lineare fra Spesa alimentare e le due variabili esplicative è abbastanza forte (is quite strong) e positiva.

Da notare che :

Confronto fra modello con una variabile e due variabili esplicative

Nel modulo della regressione semplice si era visto che utilizzando una sola variabile esplicativa (il Reddito) la quota di variabilità spiegata della variabile dipendente era pari all’89,4% (R2 = 0,894).Introducendo una seconda variabile indipendente (modello multiplo), la quota di variabilità spiegata aumenta al 93,5%. (R2

y.x1,x2 = 0,935) ma si perde un grado di libertà. L’incremento in quota di variabilità spiegata introducendo NC controbilancia la perdita di gradi di libertà? Per dare una risposta, bisogna confrontare 0,894 con R2 corretto (Adjusted R-Square or R2 with a bar over it) che nel nostro caso è pari a 0,927).

2,1, XYXXY RR

R2 Adjusted (modificato o corretto)

• R2 non diminuisce mai quando una nuova variabile X è aggiunta al modello – Ciò può essere uno svantaggio se si desidera

confrontare modelli con un numero di variabili esplicative diverso

• Qual è l'effetto netto dovuto all’introduzione di una nuova variabile ? Infatti, quando si aggiunge una nuova variabile indipendente X nel modello si perde un grado di libertà. Bisogna allora valutare se la nuova variabile X fornisce un contributo esplicativo sufficiente a controbilanciare la perdita di un grado di libertà.

Mostra la proporzione di variabilità di Y spiegata da tutte le variabili indipendenti X, corretta per il numero di variabili di X utilizzate

(dove n = dimensione campione, k = numero di variabili indipendenti).

– Penalizza l‘impiego eccessivo di variabili indipendenti poco importanti

– Più piccolo di R2

– Utile nel confronto fra modelli

1)1(1 22

...2,1 kn

XkXXYadj

nTOTDEV

knERRDEV

AGGIUNGENDO

UNA VARIABILE

NEL MODELLO

R2 CORRETTO PUO’

ANCHE DIMINUIRE

R2 Adjusted (modificato o corretto)927,0R 2

adj Il 92,7% della variabilità nella spesa alimentare è spiegato tramite la variazione nel reddito e nella dimensione della famiglia, tenendo conto della dimensione del campione e del numero di variabili indipendenti

4514 Il modello di regressione

lineare multipla 45

Cosa dicono e non dicono R2e R2-corretto?

L’R2e R2-corretto dicono se le variabili esplicative sono idonee a prevedere (o “spiegare”) i valori della variabile dipendente

L’R2 e R2 corretto non dicono se

1.Una variabile inclusa è statisticamente significativa;2. Le variabili esplicative sono la vera causa dei movimenti della variabile dipendente;3.Il modello è ben specificato;4.Il gruppo di variabili esplicative è il più appropriato

Errore standard della stima

(la notazione standard è Se)

Questa statistica riassuntiva misura l'esattezza o la qualità generale del modello multiplo valutata in termini di media/variabilità standardizzata non spiegata nella variabile dipendente che può essere dovuta a errori che potrebbero provenire da errori di campionamento. Errori che causano valori delle stime b dei parametri che differiscono significativamente dai valori B non noti; Se questi errori sono piccoli, in media, quindi il valore di Se potrebbe avvicinarsi a zero (uguaglia esattamente a zero se i valori teorici ýi del modello sono esattamente uguali ai valori osservati y per tutti i = 1, 2,…, n). Se al contrario, i valori di Se si avvicinano a +∞; il modello non è utilizzabile.. Si noti che SeSe è uno stimatore corretto dello scarto quadratico medio intorno al vero piano di regressione condizionato µy/x

iixy BXBB ,2,110/

LE IPOTESI (ASSUNZIONI) NEL MODELLO DEI MINIMI QUADRATI

• Assunzioni sulla natura delle variabili esplicative ( regressori) X:

• Assunzione A: I regressori Xi sono non stocastici, in altre parole i valori delle X osservati nel campione non hanno natura stocastica (la variabile X è fissa).

• Assunzione B: I regressori Xi sono stocastici, in altre parole i valori delle X osservati nel campione sono estratti in maniera casuale e indipendente da una data popolazione (ipotesi più realistica)

LE ASSUNZIONI DEL MODELLO DEI MINIMI QUADRATI

( X non stocastico)

• A1: Gli errori hanno media zero• A2: Gli errori sono omoschedastici

• A3: Gli errori sono indipendenti

• A4: Gli errori si distribuiscono in modo normale

TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A

Le ipotesi (Assumptions) per il Modello A

A.1 Gli errori hanno media zero E(ei) = 0 per ogni i

Si assume che il valore medio del termine di errore per tutte le osservazioni dovrebbe essere zero. A volte il termine di errore sarà positivo, a volte negativo, ma non dovrebbe presentare una tendenza sistematica in uno o nell’altro senso. Infatti, il ruolo dell'intercetta è di prendere tutta la tendenza sistematica ma costante in Y non rappresentato dai regressor. Il ruolo dell'intercetta è di prendere in conto ogni tendenza sistematica ma costante in Y non tenuta presente (spiegata) dalle variabili esplicative.

Assumptions for Model A

A.2 Il termine di errore è omoschedastico

ieei 22

Si assume che la varianza del termine di errore per tutte le osservazioni sia omoschedastica, intendendo che il valore di ogni osservazione è ricavato da una distribuzione con varianza costante. Questo è un concetto beforehand, vale a dire stiamo pensando al comportamento potenziale del termine di dispersione prima che il campione realmente sia generato. Una volta che abbiamo generato il campione, il termine di dispersione risulterà essere maggior in alcune osservazioni e più piccolo in altre, ma ci non dovrebbe essere alcun motivo affinchè sia più erratico erratico erratico in alcune osservazioni che in altre.Se il presupposto non è soddisfatto, le stime dei coefficienti di regressione di OLS saranno inefficienti. Per ottenere risultati più certi occorre introdurre una correzione.

A.3 Il termine di errore è indipendente

ei è distributo in modo indipendente per ogni ej per j ≠ i

Questa ipotesi sta ad indicare che, non dovrebbe esserci associazione sistematica fra i suoi valori in tutte le coppie di osservazioni. Per esempio, se si constata che il termine di errore è grande e positivo in un'osservazione, ciò non dovrebbe significare che debba essere grande e positivo nella successiva osservazione (o grande e negativo, per quella materia, o piccolo e positivo, o piccolo e negativo). L’ipotesi, implica che la covarianza nella popolazione fra ei e ej sia zero. Se questo presupposto non è soddisfatto, OLS darà ancora le stime inefficienti.. Le violazioni di questo presupposto sono comunque rare con i dati cross section.

Solitamente si suppone che il termine di dispersione abbia una distribuzione normale. La giustificazione di questa ipotesi è nel teorema del limite centrale TLC). Essenzialmente, se una variabile casuale è il risultato composito degli effetti di tantissime altre variabili casuali, si distribuisce in modo normale anche se le relative componenti non lo sono, a condizione che nessuna di loro sia dominante. Poiché il termine di dispersione è composto di un certo numero di fattori che non compaiono esplicitamente nell'equazione di regressione così, anche se non sappiamo nulla intorno alla distribuzione di questi fattori, solitamente siamo autorizzati a supporre che il termine di dispersione si distribuisca normalmente.

A.4 Il termine di errore ha una distribuzione normale

Modello a due variabili

22110 XbXbbY Yi

x1i La miglior equazione , Y ,è ottenuta minimizzando la somma dei quadrati degli errori, e2

Osservazione campionaria

Residui nella regressione multipla

Residui = ei

= (Yi – Yi)

Assunzioni sugli errori (residui) del Modello di Regressione Lineare Multiplo

Assunzioni:

• Media nulla degli errori• Omoschedasticità: varianza degli errori costante e finita• Incorrelazione tra gli errori• Gli errori si distribuiscono in modo normale (Gaussiano)

Errori (residui) dal modello di regressione:

)ˆ(ii YYe

Plots dei residui impiegati nella regressione Multipla

• I plots dei residui utilizzati nella regressione multipla sono i seguenti:

– Residui vs. Yi

– Residui vs. X1i

– Residui vs. X2i

– Residui vs. tempo (se abbiamo dati in serie

– storiche)

Questi plots sono utilizzati per verificare se vi sono violazioni alle assunzioni sul modello

Residui vs. Yi

Residui vs. X1i

(Excel)

Residui vs. X1i

Residui vs. X2i

Multicollinearità

• 1. Elevata Correlazione fra le variabili esplicative X

• 2. Le variabili non forniscono informazioni aggiuntive ed è difficile valutare l’effetto di ciascuna di esse

• 3. Le stime dei coefficienti presentano elevata variabilità (elelevati standard error)

• 4. Esiste sempre – Questione di grado.

Come si rivela la presenza di multicollinearità?

• 1. Esame della matrice dei coefficienti di correlazione– 1. La Correlazione fra coppie di variabili X è più

elevata di quella con la variabile Y – 2. Esaminare il Variance Inflation Factor (VIF)– Se VIFj > 5 (or 10 secondo il test), la multicollinearità

è presente

• 3. Pochi rimedi– Utilizzare nuovi dati– Eliminare una delle variabili X correlate

Correlation Matrix Computer Output

rY1 rY2

All 1’sr12

SPESA REDDITO NC

SPESA 1

REDDITO 0.9456 1

NC 0.7871 0.6755 1

Coefficienti di correlazione, usando le osservazioni 1 - 20Valore critico al 5% (per due code) = 0.4438 per n = 20Coefficienti di correlazione, usando le osservazioni 1 - 20Valore critico al 5% (per due code) = 0.4438 per n = 20

Variance Inflation Factors Computer Output

Fattori di Inflazione della Varianza (VIF)

Valore minimo possibile: 1.0Valori superiori a 10.0 indicano un problema di collinearità

REDDITO 1.839 NC 1.839

VIF(j) = 1/(1 - R(j)^2), dove R(j) è il coefficiente di correlazione multipla tra la variabile j e le altre variabili indipendenti. Nel nostro caso r REDDITO, NC = 1/(1- 0,6755)^2 = 1,839

Proprietà della matrice X'X:

Norma 1 = 56396 Determinante = 5803192 Reciproco del numero di condizione = 5.798468e-005

Fattori di Inflazione della Varianza (VIF)

Valore minimo possibile: 1.0Valori superiori a 10.0 indicano un problema di collinearità

REDDITO 1.839 NC 1.839

VIF(j) = 1/(1 - R(j)^2), dove R(j) è il coefficiente di correlazione multipla tra la variabile j e le altre variabili indipendenti. Nel nostro caso r REDDITO, NC = 1/(1- 0,6755)^2 = 1,839

Proprietà della matrice X'X:

Norma 1 = 56396 Determinante = 5803192 Reciproco del numero di condizione = 5.798468e-005

Come i diagrammi di Venn possono aiutarci a capire la multicollinearità

Una var. dip. (Y) e 2 indipendenti (X1 e X2)— presentano 3 correlazioni da esaminare:

• Correlazioni fra ciascuna var. indip. e la var. dip. Y: rY1 and rY2

• Correlazione fra le var. indip.: r12

Il nostro obiettivo: capire le interrelazioni fra le correlazioni.

• Quanta variabilità di Y è spiegata da X1 e X2 insieme

• Quanta variabilità di Y è spiegata da X1 dopo aver tenuto conto di X2

• Quanta variabilità di Y è spiegata da X2 dopo aver tenuto conto di X1

Diagrammi di Venn con variabili indipenedenti non correlate e correlate Variabili esplicative non correlateLe variabili indipendenti non correlate

sono molto rare, sono prevalentemente presenti nei disegni di esperimenti.

In tal caso possiamo calcolare l’ R2 totale (overall R2) sommando i vari singoli R2.

212| YYY RRR

R2 spiegare Y utilizzando

solo X1

R2 spiegare Y utilizzando solo

Variabili esplicative correlateLe variabili indipendenti correlate sono molto

comuni, sono presenti in quasi tutti gli studi.In tal caso non possiamo sommare i vari singoli R2 a causa della intersezione dei

contributi.

cbaRY 212|

caRY 21| cbRY 2

YCome la correlazione fra le variabili

espilicative influenza il loro effetto congiunto?

• Variabili esplicative altamente correlate: la quota parte spiegata congiuntamente “c” è grande; Le quote parti indipendenti addizionali “a” e “b” sono piccole

• Variabili esplicative scarsamente correlate : la quota parte spiegata congiuntamente “c” à

piccola; Le quote parti indipendenti addizionali “a” e“b” sono grandi

Misurazione del contributo esplicativo addizionale di una variabile esplicativa addizionale

Supponendo, che X1 sia già nel modello, come possiamo misurare il contributo

addizionale di X2, in aggiunta a quello già spiegato da X1?

cba dcba

d dcbaYVarianza )( dbXYsidua varVarianzaRe )|( 1

21)|( X a spiegatadXY VarRes di Propdb

semplicenecorrelazioR

parziale necorrelazioR

Terminologia e annotazioni

• Correlazione semplice, rY2 and RY2

2 : Proporzione di variabilità di Y spiegata da X2

• Correlazione multipla, RY.122 :

Proporzione di variabilità di Y spiegata da entrambe X1 e X2

• Correlazione parziale, rY2.1 : Y2 identifica la variabile correlata con Y; .1 identifica la variabile(i) tenuta costante (o tenuta ferma, parzializzata)

Correlaz.Semplice2

Correlaz. Parziale2

Come i coefficienti parziali sono legati a quelli semplici?

Confrontando queste 2 equazioni, possiamo notare che b e d sono in entrambi i

denominatori. Pertanto la relazione fra semplice e parziale dipende dalla dimensione

di “a” e “c” rispetto a “b” e “d”

Test di ipotesi nella regressione lineareTest per la significatività del modello di Regressione

Inferenza Statistica: possono essere verificate due diverse tipologie di ipotesi

Fra tutti le variabili esplicative, non c’è ne nessuna da

eliminare, o si potrebbe fare a

meno di qualcuna ?

Controllo se ogni variabile esplicativa nel modello, Xj,

ha un effetto?

Y) di nulla

spieganon eregression (la

0: 21 k 0H

ivo)significat effetto

un ha previsore (

almeno 1

alcuni j 1Hivo)significat effettoun ha

previsore (

questoj 0H

ivo)significat effettoun

previsore (

questoj 0H

Completo/Omnibus F test

t-tests individuali

Con una sola variabile esplicativa (cioè nella regressione lineare semplice), questi due tests sono identici. Nella regressione multipla,

questi due tests sono decisamente differenti!

verifica della significatività globale• F-Test per la Significatività Globale del Modello

• Mostra se c’è un rapporto lineare fra tutte le variabili X considerate insieme e Y

• Utilizza il test statistico F

• Ipotesi:

H0: B1 = B2 = … = Bk = 0 (nessuna relazione lineare)

H1: almeno un Bi ≠ 0 (almeno una variabile

indipendente influenza Y)

F-Test per la significatività globale

• Test statistico:

• dove F ha (numeratore) = k e (denominatore) = (n –

k - 1) gradi di libertà (degrees of freedom)

Con 2 e 17 gradi di libertà

P-value per il test F

4702,12117,2 MQE

H0: B1 = B2 = 0

H1: B1 e B2 entrambi non

uguali a zero

df1= 2 df2 = 12

Test Statistico:

Decisione:

Poiche la statistica F test cade nella regionedi rifiuto (p-value < 0,05), rifiuto H0

F 0,05, 2,17 = 3.59Rifiuto H0Non

rifiuto H0

Valore critico:

F 0,05, 2,17 = 3.59

4702,12117,2 MQE

F-Test per la significatività globale: Conclusioni

• Ad un livello di significatività del 5%,dalla tavola della distribuzione F si ottiene un valore critico del F-value o F 0.05, 2, 17 = 3.59.

• Pertanto, possiamo rifiutare H0 in favore di H1. Ciò significa che il modello di regressione multipla che è stato proposto non è una mera costruzione teorica, ma effettivamente esiste ed è statisticamente significativo. Infatti,

• C’è evidenza che almeno una variabile indipendente influenza significativamente Y !!!

T-Test per la significatività dei singoli coefficienti di regressione:

le singole variabili esplicative sono significative?

• Utilizzo il t-tests per ognuno dei singoli coefficienti di regressione parziali (slopes) delle variabili

• Mostra se esiste una relazione lineare significativa fra la variabile Xi and Y

T-Test per la significatività dei singoli coefficienti di regressione:

H0: Bi = 0 (nessuna relazione lineare)

H1: Bi ≠ 0 (Fra Xi and Y esiste una relazione lineare)

Test Statistic:

(df = n – k -1)

Ipotesi:

• 1. a = -1.118 nessun significato interpretabile perché il livello medio della spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza una famiglia che non ha reddito e componente ma presenta spesa per alimentazione. Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la linea di regressione/equazione stimata per la previsione.

•2. b1 = .148 Rappresenta l'effetto parziale di reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito.

• 3. b2 = .793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo valutato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare è aumentata di 793 euro per ogni componente della famiglia in più. supplementare alla famiglia per matrimonio, nascita o adozione. Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona.

Le singole variabili esplicative sono significative?

t-value per il Reddito è t = 9,0491, con p-value 0,0000

t-value per NC t = 3,2446, con p-value 0,0048

d.f. = 20-2-1 = 17

= 0,05

t/2 = 2.110

Inferenza riguardo al coefficiente di regressione parziale:Esempio di t Test

H0: Bi = 0

H1: Bi 0

Il valore del test statistico per ogni variabile cade nella zona di rifiuto (p-values < 0,05)

Dall’output di Excel :

Decisione: Rifiuto H0 per ogni variabile

Rifiuto H0Rifiuto H0

/2=0,025

-tα/2

Non rifiuto H0

0 tα/2

/2=0,025

-2.110 2.110

Inferenza riguardo al coefficiente di regressione parziale: Conclusioni

Riguardo al REDDITO, l’ipotesi nulla è H0: B1 = 0 (cioè, il reddito non influenza la Spesa alimentare), contro l’alternativa H1: B1 non è uguale a zero (cioè, il REDDITO ha effetti causali sulla Spesa alimentare). Per NC (dimensione della famiglia), l’ipotesi nulla è H0: B2 = 0 (cioè, NC non ha effetti causali sulla SPESA), contro l’alternativa che H1: B2 non è uguale a zero (cioè, pure NC ha effetti causali sulla spesa alimentare). Al livello di significatività α =0,05 e d.f. = n -k-1 = 20 -2-1 = 17, il valore critico del test t è = t0.025,17 = ±2.110.

Per il REDDITO il t osservato = 9.049. Così, H0 deve essere inequivocabilmente rifiutata in favore di H1; in questo caso, si può affermare che il REDDITO famigliare influenza significativmente la SPESA alimentare delle famiglie. Per NC , t osservato = 3.245. Così, Ho deve essere rifiutata in favore di H1; in questo caso, si può ritenere che la dimensione della famiglia (NC) ha una influenza significativa sulla Spesa alimentare.

Test per la verifica della significatività economica/pratica dei coefficienti di

regressione• Una variazione interessante del test t è la verifica dell’importanza

economica del parametro riguardo al senso della causalità di ogni variabile indipendente.

In questo caso, l’ipotesi nulla è espressa come:

H0: Bi ha un valore che è al massimo zero , contro H1: Bi > 0 (cioe; il valore è rigorosamente positivo secondo la sottostante teoria economica). Se il segno del parametro si ritiene che sia negativo in base alla teoria o al buonsenso, l’ ipotesi nulla è espressa come H0: Bi ha un valore che è almeno zero , contro H1: Bi < 0 ( cioe; il valore è rigorosamente negativo secondo la sottostante teoria economica).

Test per la verifica della significatività economica/pratica dei coefficienti di

regressione

Consideriamo, ad esempio, NC. Ci si aspetta che il segno di B2 sia positivo. H0: B2 ha un valore che è al massimo zero contro H1: B2 > 0. Al livello di significatività α = .05, il valore critico di t = t 0,.05,17 = +1.740. Ma il valore osservato di t = 3.245 , così l’ipotesi nulla di un effetto negativo o nessun effetto della dimesione della famiglia deve essere rifiutata in modo inequivocabile..

Si noti che nel test che tiene conto del significato economico di un parametro il valore alfa non è diviso per due poiché in tal caso il test è a una coda.

Funzione di densità di probabilità di bj

Se si utilizza un test a due code con un livello di significatività del 5%, la stima deve essere 2,11 (1.96 nella normale) standard deviations sopra o sotto 0 se si rifiuta H0.

2.5% 2.5%

Ipotesi nulla: H0 : j = 0

Ipotesi alternativa: H1 : j = 0

rifiuto H0rifiuto H0 non rifiuto H0

2,11 sd-2,11 sd

TEST t a due code

Funzione di densità di probabilità di bj

Se è giustificato fare ricorso ad un test a una coda, per esempio con H0: 2 > 0, la stima deve essere 1,74 (1.65 nella normale) standard deviations sopra 0. E’ facile constatare che ciò lo rende più facile rifiutare H0 e quindi dimostrare che Y è realmente influenzato dalla X (che lascia supporre che il o modello è specificato correttamente).

rifiuto H0non rifiuto H0

1.74 sd

Ipotesi nulla: H0 : Bj = 0

Ipotesi alternativa: H1 : Bj > 0

TEST t a una coda

Test sull’intercetta: Test t

• La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà di adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero

• Il procedimento è del tutto simile a quello visto per il coefficiente angolare

anno accademico 2009/10

Valori critici della distribuzione t

Selezione delle variabili in Model

Building

Use Theory Only!Use Theory Only! Use Computer Search!Use Computer Search!

Model Building

• Obiettivo è quello di sviluppare modelli con il numero minore possibile (Fewest) di variabili esplicative (principio della parsimonia)– Più facili da interpretare – Bassa probabilità di collinearità

• Procedure di Regressione stepwise– Fornisce una valutazione limitata di modelli

alternativi

• Approccio Best-Subset • Utilizza la statistica Cp

– Seleziona il modello con il CP più piccolo

Model Building Flowchart

Scegliere X1,X2,…Xk

Run Regression to find VIFs

Remove Variable with

Highest VIF

Any VIF>5?

Run Subsets Regression to Obtain

“best” models in terms of Cp

Do Complete Analysis

Add Curvilinear Term and/or Transform Variables as Indicated

Perform Predictions

More than One?

Remove this X

Sequential Methods

• Stepwise selection procedures• Comporta "Partialling-out" delle

variabili esplicative

• Sulla base del coefficiente di correlazione parziale

2313123.12

All possible subsets

• s2 is residual variance for reduced model and 2 is the residual variance for full model

• All subset regressions compute possible 1, 2, 3, … variable models given some optimality criterion.

Requires use of optimality criterion, e.g., Mallow’s Cp

pC p (p = k + 1)

Mallow’s Cp

• Measures total squared error• Choose model where Cp ~ p

Modelli con due o più variabili quantitative

Types of Regression Models

ExplanatoryVariable

1stOrderModel

3rdOrderModel

2 or MoreQuantitative

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

1Quantitative

Variable

ExplanatoryVariable

1stOrderModel

3rdOrderModel

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

1Quantitative

Variable

First-Order Model With 2 Independent Variables

• 1. La Relazione fra 1 Variabile Dipendente e 2 Variabili Independenti è una Funzione lineare

• 2. Si ipotizza nessuna interazione fra X1 e X2 (L’ effetto di X1 su E(Y) è lo stesso a prescindere dai valori

• 3. Il modello:

E Y X Xi i( ) 0 1 1 2 2E Y X Xi i( ) 0 1 1 2 2

Nessuna Interazione

Effetto (pendenza) di Effetto (pendenza) di XX11 su su EE((YY) non dipende dal valore di ) non dipende dal valore di XX22

E(Y)E(Y)

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3(2) = 7 + + 3(2) = 7 + 22XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX22

EE((YY) = 1 + 2) = 1 + 2XX11 + 3(1) = 4 + + 3(1) = 4 + 22XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3(0) = 1 + + 3(0) = 1 + 22XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3(3) = 10 + + 3(3) = 10 + 22XX11

First-Order Model Relationships

0Resp on seS urfac e

ExplanatoryVariable

1stOrderModel

3rdOrderModel

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

1Quantitative

Variable

ExplanatoryVariable

1stOrderModel

3rdOrderModel

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

1Quantitative

Variable

Interaction Model With 2 Independent Variables

• 1. Hypothesizes Interaction Between Pairs of X Variables– Response to One X Variable Varies at

Different Levels of Another X Variable

Modello con due variabili esplicative e interazione

1. Si ipotizza una interazione fra coppie di variabili indipendenti. (L’effetto di una variabile X varia a differenti livelli di un’altra variabile X );

2. Contiene Two-Way Cross Product Terms

3. Può essere combinato con altri modelli (Ad esempio modelli con variabili dummy)

E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2

Effetto della interazione

• 1. Dato:

• 2. Senza il termine di interazione, l’effetto di X1 su Y è misurato da 1

• 3. Con il termine di interazione l’effetto di X1 su Y è misurato da 1 + 3X2

– L’effetto aumenta all’aumentare di X2i

E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2

E(Y)E(Y)

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22

E(Y)E(Y)

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + 2) = 1 + 2XX11

E(Y)E(Y)

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(11) + 4) + 4XX11((11) = 4 + 6) = 4 + 6XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + 2) = 1 + 2XX11

L’effetto (pendenza) di L’effetto (pendenza) di XX11 su su EE((YY) dipende dai valori ) dipende dai valori

di di XX22

E(Y)E(Y)

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(11) + 4) + 4XX11((11) = 4 + ) = 4 + 66XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + ) = 1 + 22XX11

ExplanatoryVariable

1stOrderModel

3rdOrderModel

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

1Quantitative

Variable

ExplanatoryVariable

1stOrderModel

3rdOrderModel

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

1Quantitative

Variable

Second-Order Model With 2 Independent Variables

• 1. La Relazione fra 1 variabile Dipendente e 2 o più variabili Independenti è una funzione Quadratica

• 2. E’ utile come primo modello se si sospetta la presenza di una relazione non lineare

• 3. Il modello è:

• 4. Questi modelli però hanno scarso utilizzo in economia

E Y X X X X

i i i i

0 1 1 2 2 3 1 2

E Y X X X X

i i i i

0 1 1 2 2 3 1 2

Second-Order Model Relationships

4 + 5 > 0 4 + 5 < 0

32 > 4 4 5 E Y X X

0 1 1 2 2

E Y X X

0 1 1 2 2

Riferimenti bibliografici

• D.M. Levine, T.C. Krehbiel, M.L. Berenson (2002) Statistica, Apogeo.

• Cap. 10 (disponibile online all’indirizzo• www.apogeonline.com/libri/00805/allegati/).

• D. N. Gujarati (2003) Basic conometrics, McGrawHill.

http://www.wessa.net/esteq.wasphttp://www.wessa.net/esteq.wasp

la regressione lineare multipla

Documents

ottimizzazione multi obiettivo e vincolata applicata ad un...

il modello di regressione lineare...

statistica per le decisioni di marketing andrea cerioli...

13 regressione non lineare

funzione di regressione -...

regressione lineare multipla - unitrento · 2020. 11....

statistica per le decisioni di marketing andrea cerioli...

la regressione lineare...1 la regressione lineare prof....

1 modello di regressione lineare multipla 1.modello e...

corso di analisi statistica per le imprese esercitazione:...

qm "regressione multipla"

il modello di regressione lineare multipla con regressori...

analisi della regressione multipla

regressione lineare con regressori multipli ·...

regressione lineare

la regressione lineare multipla

1 corso di laurea magistrale in psicologia clinica, dello...

la regressione lineare - associazione etabetagamma · la...

la regressione lineare - lvproject.com regressione...

metodi quantitativi per economia, finanza e management...