slide set #6 modello di regression lineare · dipendenza lineare: distribuzione congiunta ......

22
Slide Set #6 Modello di Regression Lineare Pietro Coretto [email protected] Universit` a degli Studi di Salerno Corso di Statistica (0212700010) CDL in Economia e Management Curriculum in Management e Informatica a.a. 2018/2019 Versione: 19 novembre 2018 (h16:46) P. Coretto // Statistica Modello di Regression Lineare 1 / 43 Stipendi dei parlamentari in zona EU, anno 2005 20 30 40 50 60 70 0 20 40 60 80 100 120 140 PIL procapite [×10 3 $PPP] Salario annuo [×10 3 EUR] IT AT NL DE IE GB BE DK GR LU FR FI SE SI CY PT ES SK CZ EE MT LT LV HU PL P. Coretto // Statistica Modello di Regression Lineare 2 / 43 Notes Notes

Upload: hoangminh

Post on 17-Feb-2019

212 views

Category:

Documents


0 download

TRANSCRIPT

Slide Set #6Modello di Regression Lineare

Pietro [email protected]

Universita degli Studi di Salerno

Corso di Statistica (0212700010)CDL in Economia e Management

Curriculum in Management e Informaticaa.a. 2018/2019

Versione: 19 novembre 2018 (h16:46)

P. Coretto // Statistica Modello di Regression Lineare 1 / 43

Stipendi dei parlamentari in zona EU, anno 2005

20 30 40 50 60 70

020

4060

80100

120

140

PIL procapite [×103 $PPP]

Salario

annuo[×

103EUR]

IT

AT

NL

DE

IEGB

BEDKGR LUFRFISE

SICYPT

ES

SK CZEEMTLTLV

HUPL

P. Coretto // Statistica Modello di Regression Lineare 2 / 43

Notes

Notes

Paesi “anomali”

20 30 40 50 60 70

020

4060

80100

120

140

PIL procapite [×103 $PPP]

Salario

annuo[×

103EUR]

IT

AT

NL

DE

IEGB

BEDKGR LUFRFISE

SICYPT

ES

SK CZEEMTLTLV

HUPL

P. Coretto // Statistica Modello di Regression Lineare 3 / 43

Paesi non “anomali”

15 20 25 30 35

2040

6080

100

PIL procapite [×103 $PPP]

Salario

annuo[×

103EUR]

AT

NLIEGB

BEDKGR

FRFI

SE

SI CY

PT

ES

SK CZEE

MTLTLVHUPL

P. Coretto // Statistica Modello di Regression Lineare 4 / 43

Notes

Notes

Dipendenza lineare: distribuzione congiunta

Sintetizzando quanto visto in precedenza:

due variabili casuali X e Y sono linearmente dipendenti (correlate) sela distribuzione congiunta del vettore (X ,Y ) e tale cheCov[X ,Y ] 6= 0 (e quindi Cor[X ,Y ] 6= 0)

Se (X ,Y ) sono correlate, la loro distribuzione congiunta produrrauno scatter con la maggioranza dei punti contenuti in una regioneellissoidale centrata sul vettore delle medie (x , y)

L’area dell’ellisse cattura l’ammontare di variabilita complessiva

L’intensita del legame lineare e tanto piu forte (ovveroCor[X ,Y ] ≈ ±1), quanto piu lo scatter e compresso lungo l’assemaggiore dell’ellisse.

P. Coretto // Statistica Modello di Regression Lineare 5 / 43

5 10 15 20

50100

150

200

250

X

Y

P. Coretto // Statistica Modello di Regression Lineare 6 / 43

Notes

Notes

X

Y

x = 10.23

y=

173.

49

P. Coretto // Statistica Modello di Regression Lineare 7 / 43

Cor[X, Y ] = 0 Cor[X, Y ] = -0.5 Cor[X, Y ] = 0.5

Cor[X, Y ] = 0.25 Cor[X, Y ] = -0.95 Cor[X, Y ] = 0.95

P. Coretto // Statistica Modello di Regression Lineare 8 / 43

Notes

Notes

Dipendenza lineare: distribuzione marginale

Che tipo di meccanismo puo produrre una distribuzione congiunta comequesta?

X

Y

x = 10.23y

=17

3.49

Poiche X e Y sono dipendenti, allora la distribuzione di Y |X e diversadalla marginale di Y .

La dipendenza va ricercata nelle marginali. Proviamo a guardare alladistribuzione della Y condizionando su X = 5, 10, 15

P. Coretto // Statistica Modello di Regression Lineare 9 / 43

X

Y

x = 5

y|x

=13

5.1

P. Coretto // Statistica Modello di Regression Lineare 10 / 43

Notes

Notes

X

Y

x = 10

y|x

=17

1.8

P. Coretto // Statistica Modello di Regression Lineare 11 / 43

X

Y

x = 15

y|x

=20

8.6

P. Coretto // Statistica Modello di Regression Lineare 12 / 43

Notes

Notes

La media condizionata di Y cresce proporzionalmente al crescere delvalore di X rispetto alla quale condiziono

Fissato X = x , i corrispondenti valori di osservati di Y sono distribuitiintorno alla media condizionata con una certa dispersione omogenea

Cor[X ,Y ] 6= 0 nella distribuzione congiunta implica che laE[Y |X ] = x e una funzione lineare di x . Ovvero

E[Y |X = x ] = β0 + β1x

P. Coretto // Statistica Modello di Regression Lineare 13 / 43

X

Y

x = 5

y|x

=13

5.1

P. Coretto // Statistica Modello di Regression Lineare 14 / 43

Notes

Notes

X

Y

x = 10

y|x

=17

1.8

P. Coretto // Statistica Modello di Regression Lineare 15 / 43

X

Y

x = 15

y|x

=20

8.6

P. Coretto // Statistica Modello di Regression Lineare 16 / 43

Notes

Notes

Modello di regressione lineare

Consideriamo il campione {(X1,Y1), (X2,Y2), . . . , (Xn ,Yn)} estratto dauna popolazione (X ,Y ) ∼ f . Il modello di regressione lineare rappresentala popolazione in termini di media condizionata:

E[Y |X = x ] = β0 + β1x

Tuttavia E[Y |X = x ] non e direttamente osservabile. Noi osserviamo{(x1, y1), (x2, y2), . . . , (xn , yn)}. Le coppie osservate (xi , yi) sono fruttodel seguente meccanismo

yi = media condizionata± fluttuazione casuale

Yi = E[Y |X = xi ] + εi = β0 + β1xi + εi

Dove εi e una variabile casuale indipendente da X

P. Coretto // Statistica Modello di Regression Lineare 17 / 43

Fonte: testo di riferimento (Newbold, Carlson e Thorne)

P. Coretto // Statistica Modello di Regression Lineare 18 / 43

Notes

Notes

Terminologia

Y : variabile indipendente, risposta, variabile endogena

X : variabile dipendente, covariata, variabile esplicativa, variabileesogena, previsore

E[Y |X = x ] = β0 + β1x : funzione di regressione lineare, retta diregressione

β0 : intercetta, costante

β1 : coefficiente angolare. Si noti che β1 = 0 fa venire meno ladipendenza lineare. Inoltre β1 misura la variazione in media della Yrispetto ad una variazione unitaria della X

εi = termine di errore, rumore, variazione esogena

P. Coretto // Statistica Modello di Regression Lineare 19 / 43

Definizione: modello di regressione lineare classico

Si consideri il campione casuale {(X1,Y1), (X2,Y2), . . . , (Xn ,Yn)}(A1) Yi = β0 + β1Xi + εi

(A2) {x1, x2, . . . , xn} e la realizzazione di una variabile casuale Xindipendente dal termine di errore {ε1, ε2, . . . , εn}.

(A3) Per ogni i = 1, 2, . . . ,n

E[εi ] = 0Var[εi ] = σ2 (omoschedasticita)

(A4) Gli errori sono linearmente indipendenti:Cor[εi , εj ] = E[εi , εj ] = 0 per ogni i 6= j

Sotto le ipotesi classiche vogliamo la migliore stima possibile dei parametriincogniti: β0, β1 e σ2.

P. Coretto // Statistica Modello di Regression Lineare 20 / 43

Notes

Notes

Stima di β0 e β1

Il modello ha l’obiettivo di spiegare gran parte delle variazioni osservatenella Y attraverso il “modello” (β0 + β1X ).

Le variazioni del termine di errore contribuiscono in modo residuale quindidevono essere complessivamente “piccole”. La grandezza complessiva dellevariazioni del termine di errore puo essere misurata da

∑ni=1 ε

2i

Criterio dei minimi quadrati ordinari (OLS):

Q(β0;β1) =

n∑i=1

ε2i =n∑

i=1

(Yi − β0 − β1Xi)2

Il metodo di stima OLS sceglie la coppia di stimatori (β0, β1) cheminimizza Q(β0;β1). Si noti che Q e convessa e quindi ha un unicominimo.

P. Coretto // Statistica Modello di Regression Lineare 21 / 43

Stime campionarie OLS

Valori osservati (stime) di β1 e β0

b1 =

∑ni=1(xi − x )(yi − y)∑n

i=1(xi − x )2=

sXY

s2X=

mXY − x y

m2,X − x 2

b0 =y − b1x

Stima della retta di regressione, stima del valore atteso condizionato:

yi = b0 + b1xi

Residuo, o stima dell’errore (inosservabile):

ei = yi − yi

P. Coretto // Statistica Modello di Regression Lineare 22 / 43

Notes

Notes

Fonte: testo di riferimento (Newbold, Carlson e Thorne)

P. Coretto // Statistica Modello di Regression Lineare 23 / 43

Esercizio 12.19/a–f (Newbold, Carlson e Thorne)

4.5 5.0 5.5 6.0 6.5

360

380

400

420

440

Prezzo [×100$]

Numerodipezzi

venduti

P. Coretto // Statistica Modello di Regression Lineare 24 / 43

Notes

Notes

xi =prezzo yi =vendite x 2i y2i xi yi yi = 644.51− 42.58xi e2i = (y−yi)2

5.5 420 30.25 176400 2310 410.32 93.706 380 36 144400 2280 389.03 81.54

6.5 350 42.25 122500 2275 367.74 314.716 400 36 160000 2400 389.03 120.345 440 25 193600 2200 431.61 70.39

6.5 380 42.25 144400 2470 367.74 150.314.5 450 20.25 202500 2025 452.90 8.415 420 25 176400 2100 431.61 134.79∑n

i=1 45 3240 257 1320200 18060 3239.98 974.19

P. Coretto // Statistica Modello di Regression Lineare 25 / 43

4.5 5.0 5.5 6.0 6.5

360

380

400

420

440

Prezzo [×100$]

Numerodipezzi

venduti

P. Coretto // Statistica Modello di Regression Lineare 26 / 43

Notes

Notes

4.5 5.0 5.5 6.0 6.5

-15

-10

-50

510

Prezzo [×100$]

e i(residui)

P. Coretto // Statistica Modello di Regression Lineare 27 / 43

Proprieta della stima OLS

(P.6.1) La retta stimata passa sempre per il punto medio dicoordinate (y , x ).

(P.6.2) La somma dei residui stimati e sempre nulla

n∑i=1

ei =

n∑i=1

(yi − yi) = 0.

(P.6.3) la media delle yi coincide con la media di yi :

1

n

n∑i=1

yi =1

n

n∑i=1

yi ,

P. Coretto // Statistica Modello di Regression Lineare 28 / 43

Notes

Notes

Sotto le ipotesi classiche A1 – A4 :

(P.6.4) Gli stimatori OLS sono funzioni lineari delle variabilicampionarie {Y1,Y2, . . . ,Yn}

(P.6.5) Gli stimatori OLS sono non distorti:

E[β0] = β0, e E[β1] = β1

(P.6.6) L’efficienza di stima e determinata dalla varianza

Var[β1] =σ2

(n − 1)S 2X

, Var[β0] = m2Xσ2

(n − 1)S 2X

(P.6.7) Il teorema di Gauss-Markov stabilisce che (β0, β1) sonoBLUE (Best Linear Unbiased Estimator): nella classe deglistimatori lineari non distorti sono i piu efficienti.

(P.6.8) Gli stimatori OLS sono consistenti

P. Coretto // Statistica Modello di Regression Lineare 29 / 43

Stima di σ2

In linea di principio σ2 non e interessante. Ma i momenti di (β0, β1)dipendono da σ2. La stima campionaria non distorta per σ2 e

s2e =1

n − 2

n∑i=1

e2i

Da cui posso stimare la varianza di (β0, β1) con

s2b1 =s2e

(n − 1)s2X=

s2en(m2,X − x 2

)s2b0 = m2X

s2e(n − 1)s2X

= m2Xs2e

n(m2,X − x 2

)

P. Coretto // Statistica Modello di Regression Lineare 30 / 43

Notes

Notes

Esercizio: 12.19/i

P. Coretto // Statistica Modello di Regression Lineare 31 / 43

Proprieta distributive con errori normali

Consideriamo la seguente ipotesi:

(A5) Gli errori sono normalmente distribuiti: εi ∼ Normale(0;σ2)per i = 1, 2, . . . ,n.

Sotto le ipotesi classiche A1 – A4 + A5 valgono le seguenti proprieta:

(P.6.9) β0 ∼ Normale(β0,Var[β0]

)e β1 ∼ Normale

(β1,Var[β1]

)(P.6.10) Inoltre studentizzando gli stimatori

β0 − β0s2b0

∼ tn−2,β1 − β1

s2b1∼ tn−2

P. Coretto // Statistica Modello di Regression Lineare 32 / 43

Notes

Notes

Decomposizione della devianza totale osservata

SST:=∑n

i=1(yi − y)2 = devianza totale osservata

SSR:=∑n

i=1(yi − y)2 = devianza di regressione

SSE:=∑n

i=1(yi − yi)2 = devianza residua

Si dimostra che

SST = SSR + SSE

Queste quantita possono essere anche calcolate come:

SST = n(m2Y − y2)

SSR = b21n(m2X − x 2)

SSE =

n∑i=1

e2i

P. Coretto // Statistica Modello di Regression Lineare 33 / 43

Coefficiente di determinazione R2

R2 :=SSR

SST= 1− SSE

SST

R2 ∈ [0, 1], si dimostra che R2 = r2XY

R2 =porzione di variabilita osservata nella Y spiegata dal modello diregressione

Tuttavia, R2 grande non coincide necessariamente con una buonaperformance del modello

R2 = 1 e patologico

P. Coretto // Statistica Modello di Regression Lineare 34 / 43

Notes

Notes

Esercizio: 12.19/g–h

P. Coretto // Statistica Modello di Regression Lineare 35 / 43

Formulazione e verifica del modello

La formulazione del modello si basa spesso su:

ipotesi teorica. Es: la teoria keynesiana del consumo aggregatostabilisce che C = a + bR, cove C = consumo aggregato, R=redditodisponibile corrente

esperienza basata sull’osservazione. Es: sulla base dell’esperienzasappiamo che la formazione del personale produce una crescita degliutili.

Perche stimiamo il modello formulato?

analisi strutturale: vogliamo conoscere il meccanismo che lega Y edX . Il modello E[Y |X = x ] = β0 + β1x specifica un meccanismoattraverso il quale la X “spiega” le variazioni in media della Y .Attenzione: le relazioni lineari sono invertibili!

previsione: la stima del modello ci permette di prevedere la Y dato X

=⇒ il modello stimato deve essere verificato!P. Coretto // Statistica Modello di Regression Lineare 36 / 43

Notes

Notes

Test su β1

Assumo: le ipotesi classiche A1 – A4 + A5{H0 : β1 = 0 (viene meno il meccanismo lineare)

H1 : β1 6= 0

Funzione test

T =β1√

Var[β1]

H0∼ tn−2

Valore osservato della funzione test

t =b1sb1

H0∼ tn−2

Coda tn−2,α2

: Pr{T ≥ tn−2,α

2

}= α

2

P. Coretto // Statistica Modello di Regression Lineare 37 / 43

Regione critica:{

campioni: T < −tn−2,α2

oppure T > tn−2,α2

}Regola di decisione: rifiuto H0 se t < −tn−2,α

2oppure t > tn−2,α

2

Distribuzione della funzione test sotto H0

−tn−2, α2

tn−2, α2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Modello di Regression Lineare 38 / 43

Notes

Notes

Test su β0

Assumo: le ipotesi classiche A1 – A4 + A5{H0 : β0 = 0

H1 : β0 6= 0

Funzione test

T =β0√

Var[β0]

H0∼ tn−2

Valore osservato della funzione test

t =b0sb0

H0∼ tn−2

Coda tn−2,α2

: Pr{T ≥ tn−2,α

2

}= α

2

P. Coretto // Statistica Modello di Regression Lineare 39 / 43

Regione critica:{

campioni: T < −tn−2,α2

oppure T > tn−2,α2

}Regola di decisione: rifiuto H0 se t < −tn−2,α

2oppure t > tn−2,α

2

Distribuzione della funzione test sotto H0

−tn−2, α2

tn−2, α2

Rifiuto H0 Rifiuto H0Non rifiuto H0

Regione critica in termini del valore osservato della funzione test

P. Coretto // Statistica Modello di Regression Lineare 40 / 43

Notes

Notes

Esercizio: 12.19/j

P. Coretto // Statistica Modello di Regression Lineare 41 / 43

Intervalli di confidenza

Assumo: le ipotesi classiche A1 – A4 + A5

Intervallo di al livello (1− α) per β1:

b1 ± tn−2,α2sb1

Intervallo di al livello (1− α) per β0:

b0 ± tn−2,α2sb0

Test delle ipotesi ed intervalli di confidenza sono stati derivati sotto leipotesi classiche + normalita. Violazioni di una o piu ipotesi necessitano distrumenti di inferenza diversi da questi.

P. Coretto // Statistica Modello di Regression Lineare 42 / 43

Notes

Notes

Rimozione delle ipotesi classiche

Esistono strumenti diagnostici per verificare A1 – A5 .

Violazioni piu comuni:

eteroschedasticita: spesso la dispersione dell’errore dipende dal livellodi X , in altri casi vi sono sottogruppi di osservazioni (es: effetti di“gender”)

errori correlati: spesso gli errori esibiscono dipendenza lineare (es: datida campioni non esattamente CCS)

errori non Gaussiani: in questi casi molte delle proprieta degli OLSsono ancora valide, ma l’inferenza va trattata in modo appropriatosoprattutto in piccoli campioni.

P. Coretto // Statistica Modello di Regression Lineare 43 / 43

Notes

Notes