cap. 5 modello statistico lineare - unifi. 5... · cap. 5 - modello statistico lineare 277...
TRANSCRIPT
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 – Modello statistico lineare
275
CAP. 5 – MODELLO STATISTICO LINEARE
Introduzione
Si supponga che la manifestazione di uno specifico fenomeno, ad esempio la domanda
di un certo bene di consumo da parte delle famiglie, sia indicata con y e che sia
possibile osservare n manifestazioni del fenomeno stesso ni21 y,....,y,....,y,y . Si
ipotizzi, inoltre, che altri fattori, ad esempio reddito disponibile, prezzo del bene, prezzo
di beni sostitutivi, ecc., influiscano sulle determinazioni iy . Se con mj21 x,....,x,....,x,x
si indicano tali fattori, è ipotizzabile tra la variabile y e le variabili xj una relazione
del tipo
mj21 x,....,x,....,x,xfy
che, per ciascuna unità statistica di osservazione (ad es. la famiglia), diventa
miji2i1ii x,....,x....,x,xfy per i = 1,2……,n.
Si supponga ora che le m variabili xj possano essere distinte in tre gruppi: le prime
k variabili k21 x,....,x,x rappresentano fenomeni osservabili e sono molto influenti sul
fenomeno y , le successive h variabili 1 2( , ,...., )k k k hx x x , sempre molto influenti su
y, non sono osservabili, mentre le residue variabili m2hk1hk x,....,x,x sono poco
influenti su y.
Per quanto sopra detto e introducendo l’ipotesi di additività degli effetti, si può
riscrivere la relazione precedente nel modo seguente
vx,....,x,x,x,....,x,xfy hk2k1kk21
dove v riassume in un’unica variabile l’effetto combinato dei fattori poco influenti.
Essendo, comunque, non osservabili le variabili )x,....,x,x( hkkk 21 si è costretti ad
introdurre un’ulteriore approssimazione e, sempre nell’ipotesi di additività degli effetti,
la relazione iniziale diventa
vwx,....,x,xfy k21
dove la variabile w rappresenta l’effetto di fattori influenti ma non osservabili.
Ovviamente, l’approssimazione ora introdotta potrebbe risultare non del tutto
accettabile e compromettere, quindi, la capacità rappresentativa del modello.
Se si introduce un’ulteriore approssimazione: la linearità (dove la linearità va intesa
nel senso sotto precisato) degli effetti dei fattori influenti ed osservabili si ha
vwzx....xy kk110
dove z rappresenta l’effetto non lineare su y delle variabili k21 x,....,x,x .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
276
La relazione (modello analitico rappresentativo del legame tra il carattere y,
variabile dipendente o variabile endogena, ed i fattori k21 x, . . . . ,x,x , variabili
indipendenti o variabili esplicative o variabili esogene) può essere riscritta nella forma
ux....xy kk110
dove vwzu rappresenta la cosiddetta componente accidentale e
kk xxy ....110
* rappresenta la componente sistematica del modello.
Si sottolinea che la linearità è riferita ai coefficienti k10 ,....,, e non alle
variabili k21 x,....,x,x , cioè, la generica variabile ix può rappresentare, sia la
manifestazione osservata x di un fenomeno che si ritiene influente su y , sia qualunque
trasformazione nota di tale manifestazione ad esempio x2, x
3, 1/x, log x, o anche
l’effetto combinato di più variabili (interazione) 1 2 3 5 1 2, , kx x x x x x x , ecc, .
Il modello statistico lineare sopra definito assume diverse caratterizzazioni in
relazione alla natura delle variabili inserite nel modello stesso. Se tutte le variabili, sia la
variabile dipendente y che le variabili esplicative xi (i = 1, 2, …., k), sono
quantitative, espresse cioè con scala di intervallo o di rapporto, il modello viene detto di
regressione lineare. Nel caso in cui la variabile dipendente ha natura quantitativa
mentre le variabili esplicative hanno natura qualitativa, sono cioè variabili categoriche
(mutabili statistiche), si parla di modello di analisi della varianza (ANOVA quale
acronimo di ANalysis Of VAriance). Quando alcune variabili esplicative hanno natura
qualitativa ed altre natura quantitativa e la variabile dipendente è quantitativa, il
modello viene detto di analisi della covarianza (ANCOVA quale acronimo di ANalysis
of COVAriance). Nel caso in cui, è la variabile dipendente ad avere natura qualitativa
mentre le variabili indipendenti sono quantitative si parla di modelli Logit, Probit e
Tobit in relazione alla trasformazione cui viene assoggettata la variabile dipendente yi
che per la sua natura politomica viene usualmente espressa dal simbolo ij che indica la
probabilità che ha l’i-esima osservazione (i = 1, …, n) di ricadere nella j-esima
categoria (j = 1, …, m) della variabile risposta, cioè, ( )ij iP Y j per (j = 1, …, m)1.
Dei modelli richiamati, in questa sede si procederà alla descrizione sufficientemente
dettagliata del solo modello di regressione lineare (semplice e multipla) e del modello
di analisi della varianza (sia nella formulazione classica, collegato al piano o disegno
degli esperimenti, sia nella sua espressione in termini di modello di regressione)
segnalando, però, che se nel modello di regressione multipla si ipotizza per la
1 Nelle situazioni di ricerca nelle quali i dati raccolti sono riferiti a variabili categoriche, e che usualmente vengono
rappresentati in tabelle di contingenza (tabelle che riportano le frequenze delle osservazioni che ricadono nelle varie
combinazioni delle categorie relative alle diverse variabili), se una delle variabili viene trattata come variabile
dipendente (variabile risposta), il riferimento sono sempre i modelli logit, probit o tobit, se invece tutte le variabili
vengono trattate alla stessa stregua (in modo simmetrico) i modelli di riferimento vengono detti Log-lineari. Di
particolare interesse, soprattutto per le loro implicazioni operative, sono i modelli proposti in letteratura per trattare i
dati categorici di tipo ordinale. Il testo classico di riferimento è McCullagh e Nelder (1972, 1989 2nd ed.), per una
buona introduzione all’argomento si può utilmente consultare Dobson (2001).
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
277
componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli
elencati possono essere trattati in maniera unitaria rappresentando particolari
specificazioni di un’unica categoria che è quella dei modelli statistici lineari
generalizzati (Nelder e Wedderburn, 1972).
5.1 - Modello di regressione lineare semplice
Se si dispone di n osservazioni per ciascuna osservazione varrà la relazione:
ikikiiii
*
ii uxβxβxββuyy 22110 per n1,2,....,i
Per k = 1 , e ponendo xx1 , si ottiene l’espressione del modello di regressione
lineare semplice (una sola variabile esplicativa)
uyuxββy * 10
dove 0 1
*y β β x , che per le n osservazioni disponibili, diventa
iii
*
ii uxββuyy 10 per i 1,2,...., .n
Si ricorda che ix può rappresentare, sia la manifestazione diretta (osservazione) del
fenomeno rappresentato con il simbolo algebrico x, sia una qualunque trasformazione
nota di tale manifestazione o combinazione nota delle variabili esplicative.
Se si dispone di n coppie di osservazioni ii x,y sulle due variabili di interesse e si
procede alla loro rappresentazione nel piano cartesiano, Fig. 5.1 e Fig. 5.2, che
evidenziano, rispettivamente, il caso di una sola osservazione iy (i = 1,2,….,n) in
corrispondenza di ciascuna modalità ix (cfr. Fig. 1), e il caso di più osservazioni ijy
( in1,2,....,js;1,2,.....,i ) in corrispondenza di ciascuna modalità ix (cfr. Fig. 5.2).
y
x
Fig, 5.1 – Distribuzione ipotetica di coppie di osservazioni (una sola osservazione y in
corrispondenza di ciascuna modalità osservata della x ).
y
. .
.
. .
.
. . .
.
. .
. .
.
. .
. . .
…
.
. .
...
. .
.. .. . .
.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
278
. .
. . . . * .
. . * . * . .
. . . . .
. . . .
. * * * . . . . . . ………. ……………….. x
x3 xi xs-1 xs x2 x1
y
x
Spezzata di regressione
Costruita sulle medie delle distribuzioni
condizionate
Fig. 5.2 - Distribuzione ipotetica di coppie di osservazioni (più osservazioni di y in
corrispondenza di ciascuna modalità osservata della x ).
In entrambe le situazioni prospettate è ipotizzabile una relazione di tipo lineare tra le
due variabili; infatti, si può osservare come le due rette sovrapposte alle nuvole di punti
(cfr. Figg: 5.3 e 5.4) rappresentino in modo abbastanza soddisfacente l’andamento dei
punti stessi.
i10
*
i xy per i = 1,2,…..,n.
Fig, 5.3 – Distribuzione ipotetica di coppie di osservazioni e retta interpolante (una sola
osservazione y in corrispondenza di ciascuna modalità osservata della x ).
y
x
. .
.
.
.
. . .
.
. .
. . .
. . .
x
y
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
279
. .
. . . . * .
. . * . * . .
. . . . .
. . . .
. * * * . . . . . . ………. ……………….. x
x3 xi xs-1 xs x2 x1
y
x
Spezzata di regressione
Costruita sulle medie delle distribuzioni
condizionate
Retta di regressione
Fig. 5.4 - Distribuzione ipotetica di coppie di osservazioni e retta interpolante (più
osservazioni di y in corrispondenza di ciascuna modalità osservata della x ).
Di rette sovrapponibili ai punti ne esistono un numero infinito, si tratta, allora, di
individuare quella ritenuta migliore sulla scorta di un prefissato criterio di ottimalità, Il
problema dal punto di vista statistico è, dunque, quello di procedere alla stima ottimale
dei due parametri incogniti (coefficienti che definiscono la retta) 0β (intercetta) e 1β
(coefficiente di regressione) o, più in generale, utilizzare le n coppie di informazioni
campionarie ii x,y per “fare” inferenza sul modello lineare che si ritiene possa
rappresentare in maniera soddisfacente il legame che sussiste tra le due variabili di
interesse e che in una sorta di popolazione teorica (super-popolazione) dovrebbe,
prescindendo dalla componente accidentale, risultare di tipo deterministico.
Se la relazione fosse perfetta in corrispondenza di ciascun valore ix si dovrebbe
osservare un unico valore iy uguale ad *
iy , in realtà, come già sottolineato, una tale
eventualità si riscontra molto raramente nella pratica operativa: la componente
sistematica del modello spiega soltanto una parte della variabile dipendente; ad
esempio, se si pensa che la domanda di un certo bene dipenda dal reddito disponibile è
abbastanza ovvio ipotizzare che non tutti i soggetti in possesso di uno stesso ammontare
di reddito domandino la stessa quantità del bene, la relazione tra reddito (variabile x) e
quantità del bene domandato (variabile y ) è, pertanto del tipo* i i iy y u e non
*
ii yy .
Nel modello introdotto le quantità note sono dunque iy ed ix mentre le quantità
non note sono 0β , 1β e, quindi,
*
iy e iu . Si tratterà allora di utilizzare le
informazioni campionarie disponibili per procedere ad una stima (puntuale o di
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
280
intervallo) delle entità incognite e, eventualmente, alla verifica di ipotesi statistiche sulle
entità stesse. Le stime 0 e 1 di
0β e 1β consentono di ottenere i valori stimati sia di
*
iy ( *
0 1 iiy x ) che di iu (
*
i i iu y y ).
5.1.1 Ipotesi di specificazione (caso A)
Sul modello di regressione lineare semplice vengono usualmente introdotte delle ipotesi
che specificano le condizioni di base che si ritiene, quantomeno in via di prima
approssimazione, siano soddisfatte e che per la loro natura caratterizzano in modo
particolare il modello stesso che viene detto modello classico di regressione lineare
semplice.
Le ipotesi di specificazione riguardano la variabile (esplicativa o indipendente) ix
e, soprattutto la componente accidentale iu :
1. le ix (i = 1,2,….,n) sono quantità costanti in ripetuti campioni, sono, cioè, o
variabili matematiche o determinazioni di variabili casuali, in quest’ultimo caso
l’analisi viene effettuata condizionatamente ai valori n21 x,....,x,x ;
2. le variabili casuali ui hanno valore atteso (media) nullo
0u E i per i = 1,2,….,n ;
3. le variabili casuali iu hanno varianza costante (omoschedasticità)
iu Var 2 2 iE u per i = 1,2,….,n;
4. le variabili casuali iu sono incorrelate (incorrelazione)
0u,u Eu,u Cov jiji per i j = 1,2,….,n.
Le conseguenze sulle variabili yi (anche esse variabili casuali in quanto
trasformazioni lineari di variabili casuali)2 delle ipotesi introdotte sono:
a. *
iiiii yxββ/x yE yE 10 per i = 1,2,… ,n;
b. 2
iii /xy Vary arV σ per i = 1,2,…,n;
c. 0y,y ovC ji per i j = 1,2,…,n.
Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima
puntuale dei due coefficienti incogniti 0 e 1 .
Se con 0β e con 1β si indicano le due stime ottenute, ne risulta di conseguenza che
la stima di *
iy è, come già sottolineato, data da
i10
*
i xββy per i = 1,2,…,n
2 Si noti che per semplicità di notazione è stato utilizzato il carattere minuscolo iy
per indicare sia le
variabili casuali che le loro determinazioni, dal contesto risulta chiara la natura assunta dal carattere. La
stessa soluzione è stata adottata anche per altri caratteri.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
281
mentre la stima di ui e data da *
iii yyu che viene detto residuo di regressione o
errore di regressione. Inoltre, a ragione dell’ipotesi 0iuE , si ha
iii yxββy ˆˆˆˆ10
* .
5.1.2 Stima dei minimi quadrati
Si è già avuto modo di accennare in precedenza al metodo di stima dei minimi quadrati
sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli
statistici lineari, il modello classico di regressione lineare costituisce la specificazione
più semplice di tale classe di modelli.
Se si pone
n
i
ii
n
i
*
ii xββ y y y , β βQ 1
2
10
1
2
10
il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori 0β e 1β che
minimizzano la somma dei quadrati degli scarti sopra definita. Per individuare tale
minimo basterà determinare il punto di stazionarietà (che è sicuramente un punto di
minimo avendo a che fare con una funzione quadratica il cui punto di massimo è
infinito) della funzione 10 β,β Q che si ottiene risolvendo il sistema:
0
0
10
β
, β βQ
0
1
10
β
, β βQ
che diventa
0 2
1 1
10
1
2
10
00
10
n
i
n
i
ii
n
i
ii xββny xββy ββ
, β βQ
02
1
2
1
11
0
1
2
10
11
10
n
i
i
n
i
i
n
i
ii
n
i
ii xβxβxy xββy ββ
, β βQ
cioè
n
i
i
n
i
i xβn βy1
10
1
n
1i
2
i1
n
1i
i0i
n
1i
i xβx βxy
Risolvendo il sistema delle due equazioni nelle due incognite 0 e 1 si ottiene
xβyβ 10
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
282
y/x
x
xy
n
i
i
n
i
ii
bσ
σ
xDev
y,xCodev
xx
yxx
β
2
1
2
11
ˆ
dove
n
i
iyn
y1
1 e
n
i
ixn
x1
1.
E’ possibile a questo punto riproporre le Figg. 5.3 e 5.4 dove le rette interpolanti non
sono più rette generiche ma quelle (cfr. Figg. 5.5 e 5.6) che derivano dall’applicazione
del metodo dei minimi quadrati (rette dei minimi quadrati).
Nella Fig. 5.6 è stata inserita anche l’ipotesi di normalità dei valori assunti dalla
variabile y in corrispondenza di ciascun valore assunto dalla variabile x ; ma su
quest’ultimo aspetto si avrà modo di tornare successivamente.
Fig, 5.5 – Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (una
sola osservazione y in corrispondenza di ciascuna modalità osservata della x ).
Fig. 5.6 - Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (più
osservazioni di y in corrispondenza di ciascuna modalità osservata della x ).
y
x
. .
.
.
.
. . .
.
. .
. . .
. . .
x
y
iii xyy 10ˆˆˆ*ˆ
y
x x1 x2 xi xk
.
.
. . .
.
.
.
. . . . .
.
.
. . .
.
.
.
. . .
.
. iii xyy 10ˆˆˆ*ˆ
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
283
Le varianze degli stimatori sono:
2
n
1i
2
i
22
β0 σ
xx
x
n
1 σ β Var
0
2
n
1i
2
i
2
β1 σ
xx
1 σ β Var
1
*
2
* 2 2
ˆ 2
1
1ˆ ˆ i
i
i ny
j
j
x xVar y
nx x
infatti, valendo le relazioni di uguaglianza:
1
0 121
1
21 1
1
2
1
1ˆ ˆ
1
1dove
n
j jnj
j nj
i
i
n nj
j j jn
j ji
i
j
j n
i
i
x x y
β y β x y xn
x x
x x xy a y
nx x
x x xa
nx x
1
12 21 1
1 1
2
1
ˆ
dove
n
j j n nj j
j j jn n
j ji i
i i
j
j n
i
i
x x yx x
β y b y
x x x x
x xb
x x
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
284
21 1
1
2
1
1ˆ
1dove
n n* i
i j j j jn
j jr
r
i
j jn
r
r
x xy x x y c y
nx x
x xc x x
nx x
e ricordando che la varianza di una combinazione lineare di variabili casuali
indipendenti è pari alla combinazione delle varianze delle singole variabili casuali con
coefficienti elevati al quadrato si ha:
a σ y Vara ya arVn
1i
2
i
2n
1i
i
2
i
n
1i
ii
da cui:
σ
x x
x
n σ
x x
x x x
n
σ
xx
xxx
n y a ya Var β Var
n
i
i
n
j
n
jn
i
i
j
n
jn
i
i
jn
j
jj
n
j
jj
2
1
2
22
1 1
1
22
22
2
2
2
1
1
21
2
1
0
11
1varˆ
2
2 2 2
12 21 1 1
1 1
1ˆ varn n n
j
j j j j n nj j j
i i
i i
x xVar β Var b y b y σ σ
x x x x
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
285
2
* 2 2
21 1 1
1
2
22 21 1
1 1
1ˆ var
1 1 2
n n ni
i j j j j jnj j j
r
r
n ni i
j jn nj j
r r
r r
x xVar y Var c y c y x x σ
nx x
x x x x x x x x
n nx x x x
2
1
2 21 1
1 1
ma
1 10
n
j
n ni i
j jn nj j
r r
r r
σ
x x x x x x x x
n nx x x x
2
2 22
22 21 12
1 11
2
* 2
2
1
ed anche
quindi
1ˆ
n ni i i
j jn nn
j jr r
rr r
r
i
i n
r
r
x x x x x x x x x x
x x x xx x
x xVar y σ
nx x
Seguendo la stessa procedura, risulta facile anche la derivazione della covarianza tra
le due variabili casuali stima 0β e 1β
2 2
0 12 2 21
1 1 1
1ˆ ˆn
j j
n n n
ji i i
i i i
x x x x x xCov β , β σ σ
nx x x x x x
Per quanto sopra detto si ottiene
xxβyxβxβyxββy i1i11i10
*
i
Se si procede al calcolo della varianza dello stimatore *ˆiy basandosi su questa
espressione si ha:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
286
2
1
2
2
2
1
2
2
1
2
22
1
2
2
101
2
010
2
ˆ
1
211
ˆˆ2ˆˆˆˆˆ
σ
xx
xx
n
σ
xx
x x σ
xx
x σ
x x
x
n
β,βCov xβVar xβVar xββVar σyVar
n
j
j
i
n
i
i
in
i
i
in
i
i
iiiy
*
i *i
che coincide con l’espressione già ottenuta.
Si sottolinea che le stime dei minimi quadrati godono delle proprietà specificate dal
teorema che segue.
Teorema 1 (Gauss-Markov): Le stime dei minimi quadrati di 10 e sono di minima
varianza nell’ambito delle stime lineari e corrette (BLUE dall’inglese Best
Linear Unbiased Estimator).
Dimostrazione
Si procederà alla dimostrazione per 1 , considerazioni analoghe possono essere svolte
nei confronti di 0 .
Lo stimatore 1 è lineare e corretto; infatti:
j
n
j
jj
n
jn
i
i
j
n
i
i
n
j
jj
yby
xx
xx
xx
yxx
β
11
1
2
1
2
1
1ˆ (linearità)
inoltre
11
1
2
1
10
1
1
2
1
1
21
1
21
ˆ
n
i
i
j
n
j
j
j
n
jn
i
i
j
j
n
jn
i
i
j
j
n
jn
i
i
j
xx
xxx
x
xx
xx
yE
xx
xxy
xx
xxEβE
(correttezza)
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
287
Si consideri ora un generico stimatore lineare e corretto di 1 , ad esempio
j
n
j
j y
1
1 ˆ
, dove, per il vincolo di correttezza deve risultare
1 0 1 1
1 1 1
ˆ
n n n
j j j j j j
j j j
E E y E y x
cioè
1 1
0 e 1.n n
j j j
j j
x
Tenendo conto di quanto sopra scritto, si dimostra che 11
ˆˆ VarVar .
22 2 2 2
121 1 1
1
22 2
1 1 1
22 2 2 2 2
1 1 1 1
ˆdove
2
2
n n nj
j j j j j j j nj j j
i
i
n n n
j j j j j j
j j j
n n n n
j j j j j j
j j j j
x xVar Var y b b b
x x
b b b b
b b b b
2
22
2 2 21 1 1 1
1 1 1
22
2 2 21 1 1
1 1 1
ˆ 2
ˆ 2
n n n nj j j j
j j 1 n n nj j j j
i i i
i i i
n n nj j j
j j 1 n n nj j j
i i i
i i i
x x x xb Var
x x x x x x
x x 1b Var
x x x x x x
per il vincolo della correttezza
1 1
0 e = n n
j j j
j j
x 1
quindi
2
2
1 1 1
1
ˆ ˆ ˆn
j j
j
Var b Var Var
dove, il segno di uguaglianza vale solo quando jj b .
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
288
Come si può osservare le varianze degli stimatori 0β , 1β e *
iy dipendono dalla
varianza 2 (parametro di disturbo), usualmente incognita, della componente
accidentale. Una stima corretta di tale parametro è data da
22
1
2
1
2
2
n
u
n
yy
ˆ
n
i
i
n
i
*
ii
dove, come già sottolineato, *
iii yyu rappresentano i residui di regressione (cfr.
Fig. 5.7), mentre la stima della varianza della componente accidentale viene usualmente
detta varianza residua e misura la parte (stimata) della variabilità della iy (variabile
dipendente) non spiegata dalla variabile esplicativa ix (variabile indipendente).
Da quanto detto risultano le seguenti stime delle varianze degli stimatori
0
1
22 2
ˆ02
1
2 2
ˆ12
1
1ˆˆ ˆ ˆ
1ˆˆ ˆ ˆ
n
i
i
nβ
i
i
xVar
nx x
Var β σ σ
x x
2
1
2
2
2
ˆˆ
1ˆˆˆ
* σ
xx
xx
n yar V
n
j
j
i
y
*
ii
ˆ
2u
Fig. 5.7 - Distribuzione ipotetica di coppie di osservazioni, retta dei minimi quadrati e residui
di regressione
y
x x1 x2 xi xn
.
.
.
.
. . .
. .
.
.
. . .
. . . iii xyy 10
ˆˆˆ*ˆ
ˆ1u
iu
ku
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
289
5.1.3 Ipotesi di specificazione (caso B: normalità della componente accidentale)
Se alle quattro ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore
ipotesi di normalità della distribuzione della componente accidentale
ui 2 0,N per i = 1,2,...,n
ne deriva, come conseguenza diretta, la normalità della distribuzione delle yi
i. yi 2
i10 σ ,xββ N
inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica
l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti, da cui:
ii. 0
0
2
ˆ0 βN β , σ
iii. 1 1
2
ˆ1 βN β , σ
iv. *
iy 2
y
*
i *i
σ ,y N
v.
2
2
σ
σ2n =
22
1 1
2 2
ˆn n
i i i
i i
u y y
2
2n
Le conseguenze espresse ai punti i., ii., iii. e iv. sono di immediata verifica, infatti:
i) le variabili ii10i uxββ y sono distribuite normalmente in quanto
trasformazioni di variabili casuali normali;
ii) le variabili 0 1
ˆ ˆ, e *ˆiy sono distribuite normalmente in quanto espresse da
combinazioni lineari di variabili casuali normali indipendenti.
Meno immediata è la conseguenza espressa al punto v. I gradi di libertà derivano dal
fatto che rispetto agli n gradi di libertà originari (le n osservazioni campionarie), due
gradi di libertà si perdono nella operazione di stima; infatti, vengono imposti due vincoli
per ottenere le stime di 0 e 1 . Pertanto, mentre le yi costituiscono n variabili
casuali indipendenti , le n variabili casuali *ˆ ˆ i iy y , devono soddisfare i due vincoli
introdotti per ottenere le stime 0 e 1 . Inoltre, nell’universo dei campioni, le due
variabili casuali stima 0 e
1 hanno distribuzione indipendente dalla variabile casuale
2
n
1i
2
i
σ
u
W che ha, come già sottolineato, una distribuzione di tipo
2χ con n – 2
gradi di libertà.
L’ipotesi di normalità già introdotta nella Fig. 5.6, trova una più esplicita
rappresentazione nella Fig. 5.8.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
290
Fig. 5.8 – Ipotesi di distribuzione normale della componente accidentale nel modello di
regressione lineare semplice
5.1.4 Stima di massima verosimiglianza
L’introduzione dell’ipotesi di normalità consente il calcolo della verosimiglianza del
campione e di procedere, pertanto, all’uso del metodo della massima verosimiglianza
per ottenere la stima dei parametri incogniti 0 1, e 2 .
La verosimiglianza del campione è data da
22
0 120 121
2 2 2
0 1 1 2 1 2 0 1 0 1
112 222
21
12
2
n
i ii ii
n n
n y β β x y β β x n / σσ
i
L β , β , σ / y , y ,...., y ; x ,x ,....,x L β , β ,σ / , L β , β , σ
e π eπσ
y x
dove
1 2 1 2 e ' .n ny ,y ,...., y x ,x ,....,x y' x
Le stime di massima verosimiglianza dei parametri incogniti si ottengono facilmente
derivando ed uguagliando a zero le derivate del logaritmo della verosimiglianza.
Risulta facile verificare che le stime di massima verosimiglianza 0 e
1
coincidono con le stime dei minimi quadrati 0 e
1 , mentre la stima di massima
x
1 x
2 xi
f ( u )
x
y
0 1ˆ ˆˆ ˆ* i i iy y x
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
291
verosimiglianza della varianza 2 è data da n
u~
n
i
i 1
2
2 ; ovviamente, ii uu~ e
** ˆ~ˆ~iiii yyyy .
Si segnala che per derivare le stime di massima verosimiglianza 0 e
1 si può
anche evitare il ricorso alla derivazione della verosimiglianza (o della log-
verosimiglianza); infatti, al riguardo basta osservare che il massimo della
verosimiglianza rispetto a 10 e ββ si ottiene quando è minima la quantità riportata ad
esponente dell’espressione
2
21
1
n
i 0 1 i
i
y x2
e
, cioè il minimo di
2
1
n
i 0 1 i
i
y x
che è l’espressione di base del metodo dei minimi quadrati.
Relativamente alle stime di massima verosimiglianza ottenute si deve sottolineare
che gli stimatori 0 e
1 pur coincidendo numericamente con gli stimatori 0 e
1 da
questi si diversificano in quanto (Teorema di Rao) sono di minima varianza nell’ambito
degli stimatori corretti (BUE dall’inglese Best Unbiased Estimator), inoltre, la stima 2~ della varianza 2 non è corretta, cioè, 22 ~E .
5.1.5 Stima di intervallo
Per quanto sopra richiamato, si può procedere facilmente alla derivazione delle stime di
intervallo per i parametri incogniti 2
10 e , e per le quantità *
iy e iy . Infatti,
facendo riferimento alla situazione più usuale, che è quella della non conoscenza del
valore assunto dal parametro di disturbo 2 (varianza della componente accidentale),
per prefissato si ottengono gli intervalli sotto riportati
0 0
ˆ ˆ0 / 2 0 0 / 2ˆ ˆˆ ˆ 1-P t t
1 1ˆ ˆ1 / 2 1 1 / 2
ˆ ˆˆ ˆ 1-P t t
2 2
2
2 2
/ 2 1 / 2
ˆ ˆ2 2 1
n nP
Si segnala che l’ultimo intervallo è stato derivato distribuendo simmetricamente il
valore di nelle due code della distribuzione e che l’intervallo per 0 si ottiene
attraverso i passaggi sotto riportati (ragionamento analogo vale per l’intervallo relativo
a 1 ).
Poiché
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
292
0β σ,β N 2
β00
si avrà
0βZ =
0β
00
σ
ββ 0,1N
che non è elemento pivotale essendo incognita la varianza 2
β 0σ dove è presente la
varianza della componente accidentale; infatti
2
n
1i
2
i
22
βσ
xx
x
n
1σ
0
ma, se si tiene presente che
2
2ˆ2nW
σ
σ 2
2n-χ
e che 0β
Z e W sono variabili casuali indipendenti, si ha
00
0
β
00
β
00
βσ
ββ
2)(n
W/
σ
ββT
2nt
che rappresenta la variabile casuale t di Student con (n-2) gradi di libertà (elemento
pivotale) che consente la derivazione dell’intervallo sopra riportato applicando il
procedimento di derivazione degli intervalli di confidenza illustrato nel Cap. 3.
L’intervallo di stima relativo alle variabili iy assume particolare rilevanza; infatti,
un tale intervallo può interessare sia valori corrispondenti a valori osservati di x, cioè
n21 x,....,x,x , sia valori non osservati di tale variabile. Ad esempio, si potrebbe aver
interesse a determinare un intervallo di stima per *
py e/o per py che corrispondono ad
un valore non osservato px ma assumibile dalla variabile x. Quando si procede alla
stima per intervallo di py , l’intervallo stesso assume la particolare connotazione di
intervallo di previsione e la quantità ppp u xββy ˆ ˆˆ10 viene detto errore di
previsione.
Ipotizzando la non conoscenza della varianza 2σ della componente accidentale,
l’intervallo per un generico valore *
iy , corrispondenti a valori osservati della variabile
esplicativa ix , può essere determinato facendo riferimento alla variabile casuale t di
Student (elemento pivotale)
n
j
j
i
*
i
*
i
y
*
i
*
i
y
xx
xx
nˆ
yy
ˆ
yyT
*i
*i
1
2
21
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
293
ed anche per *
py e py corrispondenti a valori non osservati di x
n
j
j
p
*
p
*
p
y
*
p
*
p
y
xx
xx
nσ
yy
σ
yyT
*p
*p
1
2
2ˆ 1
ˆ
ˆ
ˆ
ˆ
Gli intervalli, per un prefissato livello di confidenza 1- e per valori osservati e non
osservati di x, sono:
α-1 σtyyσty P *i
*i y2α/
*
i
*
iy2α/
*
i
cioè
ασσ αα
1
xx
xx
n
1ˆtyy
xx
xx
n
1ˆtyPn
1j
2
j
2
i/2
*
i
*
in
1j
2
j
2
i/2
*
i
e
-α σtyyσty P *p
*p yα/
*
p
*
pyα/
*
p 1ˆˆˆˆˆ2ˆ2
cioè
α
xx
xx
nσtyy
xx
xx
nσtyP
n
j
j
p
α/
*
p
*
pn
j
j
p
α/
*
p
11
ˆˆ1
ˆˆ
1
2
2
2
1
2
2
2
Capita spesso, e ciò avviene soprattutto quando si vogliono effettuare previsioni, di
essere interessati alla determinazione di intervalli di stima non per il valore teorico *y
(cioè il valore che dovrebbe assumere la variabile dipendente in assenza di effetti
accidentali e che è uguale, per le ipotesi di specificazione introdotte, al valore medio
*
0 1 h h h hy E y E x u ma per il valore effettivo 0 1 h h hy x u (valore
osservato od osservabile che include, quindi, anche l’effetto della componente
accidentale).
Per perseguire un tale obiettivo si deve osservare che, come già sottolineato, le stime
puntuali di un generico valore *
hy e hy , corrispondente ad una determinazione hx (h
= i = p o qualunque altro indice), coincidono, cioè xββyy h10h
*
h , le loro
varianze sono però diverse; infatti, se si considera l’errore di previsione hhh yy u
si ha:
0 x ββux ββ E u E h10hh10h
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
294
22
0 1 0 1
2
0 0 1 1
2
0 1 0 1
2
2
2
2
1
ˆ ˆˆ ˆ
ˆ ˆ- -
ˆ ˆ ˆ ˆ,
11
h h h h h
h h
h h h
h
n
j
j
Var u E u E x u x
E x u
Var Var x Cov x Var u
x x
nx x
pertanto l’intervallo di stima per hy è dato da
α-1 σtyyσty Phh y2α/hhy2α/h
cioè
α1
xx
xx
n
11σtyy
xx
xx
n
11σty P
n
1j
2
j
2
h2α/hhn
1j
2
j
2
h2α/h
L’intervallo per hy risulta più ampio di quello relativo ad *
hy ; infatti: alla
variabilità dovuta alla stima di 0 e 1 si aggiunge la variabilità indotta dalla
componente accidentale hu ; inoltre, l’ampiezza degli intervalli così determinati
dipendono fortemente dallo scarto xxh e risultano tanto più ampi quanto più il
valore di ferimento della x si allontana dal suo valore medio x . L’evidenziazione
grafica di tale situazione è riportata nella Fig. 5.9.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
295
Fig. 5.9 – Intervalli di confidenza per i valori medi *
hy e per i valori individuali hy .
5.1.6 Test delle ipotesi
Per quanto detto nelle pagine precedenti e nel Cap. 4, è ora possibile risolvere
facilmente qualunque problema di test delle ipotesi riguardo alle entità incognite
presenti nel modello di regressione lineare semplice. Infatti, sotto la condizione di
normalità della distribuzione della componente accidentale, basterà fare riferimento alle
variabili casuali (variabili casuali test) i
"i10
yyββT,T,T,T e W sopra definite.
Se, ad esempio, si volesse risolvere il problema di test delle ipotesi
0β:H
0β:H
11
10
la regione di rifiuto dell’ipotesi nulla (nessun effetto della variabile esplicativa x sulla
variabile dipendente y) risulterebbe definita dai semi-intervalli ( , t/2) e ( t/2 ,
+).
Se il problema di test fosse
0β:H 10
1β:H1 0
cioè, di effetto nullo contro effetto negativo (e questo potrebbe essere un caso di
interesse quando, ad esempio, x rappresenta il prezzo di un certo bene ed y la
domanda del bene stesso: al crescere del prezzo la domanda del bene dovrebbe
diminuire). La regione critica del test (rifiuto dell’ipotesi nulla) è costituita dal semi-
intervallo ( , t ).
h10h xββy
Intervallo di confidenza per yh
Intervallo di confidenza per *
hy
x
y
x
y
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
296
Le procedure di test sopra richiamate derivano dall’applicazione del test del rapporto
di verosimiglianza che, come già sottolineato, fornisce (quando esiste, e i casi
considerati rientrano in questa categoria) il test uniformemente più potente, nel caso di
ipotesi alternativa unidirezionale, il test uniformemente più potente nella classe dei test
non distorti, nel caso di ipotesi alternativa bidirezionale.
5.1.7 Trasformazioni di modelli non lineari
È stato precisato che la linearità del modello di regressione semplice è riferita ai
coefficienti e non alla variabile; infatti, ad esempio, il modello 3
10 xββy è
perfettamente equivalente al modello xy 10 sopra considerato. L’equivalenza
è del tutto ovvia, infatti, se si pone 3xz , si ottiene il modello di regressione lineare
semplice zββy 10 .
Le considerazioni svolte valgono quindi per tutti i modelli lineari nei parametri
incogniti che li caratterizzano. E’, tuttavia, possibile in molti casi di interesse applicare
le stesse procedure a modelli non lineari nei parametri, è ciò accade tutte le volte in cui
risulta possibile ricondursi alla situazione di linearità operando opportune
trasformazioni del modello non lineare. Ovviamente, quando si operano delle
trasformazioni sia le ipotesi di specificazioni sia le conclusioni cui si perviene vanno
riferite al modello trasformato e non al modello originario. Alcuni esempi significativi
sono quelli sotto riportati.
i) 1
0 0 1log log loguy x e y x u ,
la trasformata logaritmica fornisce il modello doppio logaritmico
ii) 0 1
0 1logx uy e e y x u
1
0 0 1log logx uy e e y x u
1
0 0 1log logy ue x e y x u
le cui trasformate logaritmiche forniscono i modelli semilogaritmici.
5.2 - Coefficiente di correlazione lineare
Il coefficiente di correlazione lineare yx xy è stato introdotto come indice
relativo di concordanza (rapporto tra l’indice assoluto di concordanza covarianza
xyyx ed il valore massimo che | yx | può assumere e che è dato dal prodotto tra
gli scostamenti quadratici medi xy ), cioè
,yx
y x
Codev y x
Dev y Dev x
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
297
Tale coefficiente è anche uguale alla media geometrica dei due coefficienti di
regressione
yx
y/x 2
x
σ ,b
σ
Codev y x
Dev x e
yx
x/y 2
y
σ ,b
σ
Codev y x
Dev y . Infatti, in
riferimento al modello ii10i uxββy la stima dei minimi quadrati (e della
massima verosimiglianza) di 1β è pari a
1 /2
ˆ xy
y x
x
σCodev y,xβ b
Dev x σ , se si ipotizza
un modello lineare del tipo ii10i vyx e si introducono le usuali ipotesi di
specificazione, la stima dei minimi quadrati (e della massima verosimiglianza) di 1 è
pari a
1 /2
,ˆ yx
x y
y
Codev y xb
Dev y
dal che risulta quanto affermato:
1 1 / /
,ˆ ˆ .yx
y x x y
y x
Codev y xb b
Dev y Dev x
Una terza, forse la più interessante, interpretazione del coefficiente di correlazione
lineare di Bravais-Pearson deriva dalle osservazioni che seguono.
Dato il modello
ii10i uxββy per i = 1,2,….,n
che soddisfa alle ipotesi di specificazione introdotte, la devianza totale della variabile
osservata y è data da
22 * *
1 1
2 2* *
1 1
ˆ ˆ ( ) ( )
ˆ ˆ
n n
i i i i
i i
n n
i i i
i i
Dev T Dev y y y y y y y
y y y y Dev r Dev R
dove 2
*
1
ˆ n
i i
i
Dev r y y
viene detta devianza residua e misura la parte della
devianza totale della variabile y che non risulta spiegata dalla supposta relazione con la
variabile x ; Dev R =
n
1i
2*
i yy viene detta devianza di regressione e misura
quanta parte della devianza di y è spiegata dalla relazione lineare con la variabile x .
Il rapporto tra devianza di regressione e devianza totale
2
Dev R Dev rR 1
Dev T Dev T
usualmente detto indice di determinazione, assume valori compresi nell’intervallo (0 ,
1): assume valore 0 quando tutti i valori *
ii yy che si trovano sulla retta di
regressione sono uguali tra loro e, quindi, uguali a y (media della variabile y ), assume
valore 1 quando tutti gli scarti ii yy sono uguali a zero, cioè, quando tutti i punti
osservati si trovano sulla retta di regressione (adattamento totale del modello).
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
298
Tenendo presente che
2 22
0 1 1 1
1 1 1
2 222 2
1 4 21
ˆ ˆ ˆ ˆˆ
ˆ
n n n
i i i
i i i
nyx yx
i x
i x x
Dev R y y β β x y y β x β x y
σ σβ x x n σ n
σ σ
si avrà
2 2 2
2 2
2 2 2
yx x yx
y x y
n σ / σ σDev RR ρ
Dev T n σ σ σ
cioè: l’indice di determinazione è uguale al quadrato del coefficiente di correlazione
lineare, il che consente d’interpretare tale quadrato come misura della proporzione della
variabilità totale della variabile y che risulta spiegata dalla supposta relazione lineare
con la variabile x .
Se in corrispondenza di ciascuna modalità xi (i = 1,2,….... ,s) della variabile x , si
disponesse di più osservazioni yij (j = 1,2,….,ni), si potrebbe procedere alla seguente
scomposizione della devianza totale della variabile y
22* *
1 1 1 1
2 2 2* *
1 1 1 1 1 1
2 22* *
1 1 1 1 1 1
ˆ ˆ ( ) ( )
ˆ ˆ
ˆ ˆ
i i
i i i
i i i
n ns s
ij ij i i i i
i j i j
n n ns s s
ij i i i i
i j i j i j
n n ns s s
ij i i i i
i j i j i j
Dev T Dev y y y y y y y y y
y y y y y y
y y y y y y
dove:
in
j
ij
i
i yn
y1
1 e le tre diverse devianze ottenute dalla scomposizione (si ricorda
che i doppi prodotti sono tutti nulli) sono di facile interpretazione: in un caso come
primo elemento di riferimento si considerano i valori che si trovano sulla retta di
regressione (cfr. Fig. 5.10), nel secondo caso il primo elemento di riferimento sono i
valori (medie di gruppo) che si trovano sulla spezzata di regressione.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
299
Fig. 5.10 – Scomposizione della devianza totale della variabile y
Se si vuole sottoporre a test l’ipotesi di un effetto “significativo” della variabile x
sulla variabile y , si può procedere come sopra indicato, cioè formulando l’ipotesi:
0 1
1 1
: 0
: 0
H
H
od anche facendo ricorso ad un test di bontà di adattamento del modello.
Si è già osservato che
2
2
σ
σ2nW
2
2nχ
se si considera ora la variabile
2
*
1
2 2
ˆ
n
i
i
y yDev R
V
che ha legge di distribuzione 2 con un grado di libertà ed è indipendente dalla
variabile W ; che ha legge di distribuzione 2 con (n-2) gradi di libertà, la variabile
(rapporto tra due variabili 2 indipendenti divise per i rispettivi gradi di libertà)
2*
2
1
2 2
ˆˆ2
: / 2/ 2
n
i
i
y ynV
F nW n
ha, sotto l’ipotesi 0β:H 10 (quando l’ipotesi è vera) legge di distribuzione del tipo
F di Fisher-Snedecor con 1 e (n-2) gradi di libertà.
y
x
.
.
x
y
ix10ˆˆ
. yy ji
iiji yyu ˆˆ
yyi ˆ ii yy ˆ
yyi
iy
iy
jiy
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
300
Da rilevare che sotto l’ipotesi 0β:H 10 contro l’ipotesi 0β:H 11 vale
l’uguaglianza 21
2
2 n,n FT , il che porta a concludere che nel caso di regressione lineare
semplice la procedura per sottoporre a test l’ipotesi di adattamento del modello e
l’ipotesi (bidirezionale) sul coefficiente angolare della retta di regressione sono del tutto
equivalenti. In proposito vale la pena, infine, segnalare che tale procedura equivale
anche a quella relativa al test diretto sul coefficiente di correlazione ; infatti, sotto
l’ipotesi 0ρ:H0 contro l’ipotesi alternativa 0ρ:H1 , la variabile casuale test di
riferimento è
1
1
1ˆ ˆ1
2ˆ
ˆˆ 2 ˆ : 1 / 2 .ˆ ˆ1
n Dev x Dev RT n T
Dev y Dev T
5.3 - Modello di regressione lineare multipla
Se si dispone di n k-uple 2( , ,....., )i i iky x x di osservazioni e per ciascuna osservazione si
ipotizza la relazione:
iikkiii uxβxβxββy 33221 per n1,2,....,i
dove si è posto 1 1 per 1,2,..., ,ix i n si ottiene l’espressione del modello di
regressione lineare multipla (k-1 variabili esplicative).
Utilizzando la notazione matriciale le n relazioni possono essere rappresentate in
forma compatta *
, ,1 ,1,1,1 ,1
n k n nkn n
y X u y u
dove: *
, ,1,1
n k kn
y X
12 13 1 11
22 23 2 22
,,1 2 3
1
1
.... ................................
.... ................................ ;
1
.... .....
....
j k
j k
n kn i i i ij ik
n
x x x xy
x x x xy
y x x x x
y
y X
1 1
2 2
,1,1
2 3
.... ....
.... .... ; ;
...................................
........................................
1
nk j i
kn n nj nk
u
u
u
ux x x x
u
n
5.3.1 Ipotesi di specificazione (caso A)
Come nel caso del modello di regressione lineare semplice vengono introdotte delle
ipotesi che specificano le condizioni di base che si ritiene, quantomeno in via di prima
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
301
approssimazione, siano soddisfatte e che per la loro natura caratterizzano in modo
particolare il modello stesso che viene detto modello classico di regressione lineare
multipla.
Le ipotesi di specificazione riguardano le variabile esplicative (indipendenti,
esogene) ijx e, soprattutto, la componente accidentale iu :
1. la matrice delle variabili esplicative n,kX è di rango massimo
,
n kr X k n ed è
costituita da quantità costanti in ripetuti campioni, si tratta, cioè, o di variabili
matematiche o di determinazioni di variabili casuali, in quest’ultimo caso
l’analisi viene effettuata condizionatamente ai valori osservati;
3. il vettore casuale 1,n
u ha valore atteso (media) nullo
n,1 n,1
E u 0
4. la matrice di dispersione (matrice di varianze e covarianze) del vettore casuale 1,n
u
' 2
,1 ,1 1,,
u nn n nn n
Var E u Σ u u I
dove In rappresenta la matrice identità, questa ipotesi specifica che le variabili casuali
iu sono incorrelate ed omoschedastiche
Le conseguenze sul vettore casuale n,1u delle ipotesi introdotte sono (da ora in poi si
omette per semplicità la dimensione delle matrici):
a. */ E y E y X X β y
b. 2 / yVar y Var y X I .
Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima
puntuale del vettore dei coefficienti di regressione incogniti .
5.3.2 Stima dei minimi quadrati
Si è già avuto modo di accennare in precedenza al metodo di stima dei minimi quadrati
sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli
statistici lineari, il modello classico di regressione lineare costituisce la specificazione
più semplice di tale classe di modelli.
Se si pone
* 2
1
n
i i
i
Q y y
-β y - Xβ ' y - Xβ = y'y - β'X'y - y'Xβ + β'X'Xβ =
= y'y - 2y'Xβ + β'X'Xβ
il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori del vettore dei
k parametri β che minimizza la somma dei quadrati degli scarti (forma quadratica)
sopra definita. Per individuare tale minimo basterà determinare il punto di stazionarietà
(che è sicuramente un punto di minimo avendo a che fare con una funzione quadratica il
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
302
cui punto di massimo è infinito) della funzione Q β che si ottiene risolvendo il
sistema:
2
2 2
ˆ
Q
- +
=-1
β y'y β'X'y β'X'Xβ0
β β
X'y X'Xβ 0
X'Xβ X'y β X'X X'y
Dalle stime dei minimi quadrati β si derivano le stime di y e *y
ˆ ˆ-1*
y = y = X X'X X'y = P y
dove
-1
P = X X'X X'
e i residui di regressione sono definiti dalla relazione
ˆˆ ˆ
-1
-1
u = y - y = y - Xβ = y - X X'X X'y =
= I - X X'X X' y = M y = M u
dove
-1M = I - X X'X X' .
Le matrici idempotenti e simmetriche P ed M sopra definite vengono dette matrici
fondamentali dei minimi quadrati.
Si verificano facilmente le relazioni
'2 2
P = P ; M = M ; P X = X ; M X = 0 ; P y M y = 0 ; P + M = I
quindi
ˆ ˆy = Xβ + u = P y + M y
mentre la somma dei quadrati dei residui è data da
ˆ ˆ ˆ ˆ' ' '
y - y y - y = u u = y M y
Se con ' 1, 1, ........,1ni si indica il vettore unitario, la media delle n osservazioni
relative alla variabile y è definita da
1
n '
y i y
mentre il vettore degli scarti è dato da ys = y - y e la somma dei quadrati degli scarti da
2 22
1 1
22
1 1 1
ˆ ˆ ˆ
ˆ ˆ ˆ ˆ( ) - 2 (
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ2
i i i i
i i i i i i
s y - y y - y + y - y
y - y y - y y - y ) y - y
2
=
-
n n2 ''
y y y y
i i
n n n
i i i
2'' ' ' '
y y y
s = s s = y - i y y - i y
u u + y - i y y - i y y i u = u u + s s = u + s
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
303
dove ˆ'i u = 0 , in quanto nella matrice X è presente il termine costante, e ˆˆ
ys = y - y .
Le formule sopra riportate ripropongono, relativamente al modello di regressione
lineare multipla, quanto già visto trattando della regressione semplice in merito alla
scissione della devianza totale della variabile y, infatti:
2 2 2
1 1
2 2
ˆ ˆ ˆ
1 1
ˆ ˆ
ˆ ˆ ˆˆ ˆ
i i i i
i i i
Dev (T)= Dev (y) y - y y - y + y - y
y - y y - y Dev Dev
n n
y
i i
n n 22' '
y y y
i i
s
u u + s s = u + s r R
dove, come già sottolineato, 2
1
ˆ n
i i
i
Dev r y y
è la devianza residua che misura
la parte della devianza totale della variabile y che non risulta spiegata dalla supposta
relazione con le variabili kxxx , . . . . . . , , 32 mentre Dev R =
n
i
i yy1
2ˆ è la devianza di
regressione che misura quanta parte della devianza di y è spiegata dalla relazione,
lineare nei parametri k ......, , , 21 , con le variabili kxxx ,......, , 32 .
Il coefficiente di determinazione, che misura la percentuale di devianza totale della
variabile y spiegata dalla regressione, è definito da
22
ˆ2 1
22
1
ˆˆ
1 1
uDev R Dev r
= 1-Dev T Dev T
s
n2
iy
i
n 2
y yi
i
suR
s s
ovviamente, 10 2 R .
Teorema di Gauss-Markov – Gli stimatori dei minimi quadrati dei coefficienti di
regressione
ˆ-1
' 'β = X X X y
sono i migliori stimatori nell’ambito degli stimatori lineari e corretti, sono, cioè,
BLU(E).
La linearità è del tutto evidente, la dimostrazione della correttezza è immediata,
infatti, ricordando che e E-1
' 'X X X X = I, I β = β u = 0 , si ha
ˆE E E E
-1 -1 -1 -1' ' ' ' ' ' ' '
β = X X X y = X X X X β + u = X X X X β + X X X u = β
Per dimostrare l’efficienza per un vettore di stimatori si deve procedere alla
definizione della matrice dell’errore quadratico medio.
Per ˆ-1
' 'β = X X X y si ha
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
304
ˆˆ ˆ ˆ ˆEQM Var E
E
E
E
σ
'
β
'' -1 ' ' -1 '
'' -1 ' ' -1 '
' -1 ' ' ' -1 ' -1 ' ' ' -1
' -1 ' 2 ' -1 2 ' -1
β = β = = β - β β - β =
= (X X) X y - β (X X) X y - β =
= (X X) X Xβ + u - β (X X) X Xβ + u - β =
= (X X) X uu X(X X) = (X X) X E uu X(X X) =
= (X X) X σ I X(X X) = (X X)
.
Un vettore di stimatori β si dice efficiente almeno quanto un diverso stimatore ˆβ se
la matrice
ˆ ˆEQM EQM
A β β
è semidefinita positiva (si ricorda che una matrice A si dice semidefinita positiva se
0x'Ax per tutti gli x in Rn).
Si consideri ora un qualunque altro stimatore lineare e corretto di β
ˆ '
β = C y
dove è una matrice di coefficienti che, a ragione del vincolo di correttezza, deve
ˆsoddisfare la relazione cioè .
(n,k)
E E E
C
' ' 'β = C y = C X β + u = β C X = I
Tenendo presente che
ˆ ˆˆ ˆ ˆ ˆ ˆ ˆ
-1 -1' ' ' ' ' '
β = β + β - β = β + C y - X X X y = β + C - X X X y
si ha
ˆ
'
ˆ ˆ ˆ ˆˆ ˆ ˆ ˆ EQM Var σ E
σ σ
'
2 '
β
-1 -12 ' -1 2 ' ' ' ' ' '
β = β = C C = β - β β - β =
= (X X) + C - X X X C - X X X
cioè
'ˆ ˆEQM EQM σ
-1 -12 ' ' ' ' ' 'β = + C - X X X C - X X X
dove la matrice
'-1 -1
' ' ' ' ' '
-1 -1 -1 -1' ' ' ' ' ' ' '
-1' '
C - X X X C - X X X =
= C C - C X X X - X X X C + X X X X X X =
= C C - X X
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
305
è semidefinita positiva, pertanto anche
ˆ ˆEQM - EQM σ
-12 ' '
A β = C C - X X
è una matrice semidefita positiva.
In particolare, per ogni coefficiente di regressione l’errore quadratico medio (che
coincide con la varianza) di un qualunque stimatore lineare e corretto ˆβ di β è
sempre maggiore o uguale all’errore quadratico medio dello stimatore dei minimi
quadrati β ; infatti: ˆ ˆˆ iii
dove 0i per i =1, 2, …..,k, e l’uguaglianza si
realizza solo quando -1
' ' 'C = X X X .
Oltre ai coefficienti di regressione i è usualmente incognita anche la varianza
della componente accidentale 2 . Per derivare uno stimatore corretto della varianza si
osservi che3
ˆ ˆ
e
E E tr E tr σ σ n - k
tr tr tr tr n - k
' ' ' 2 2
-1 -1
u u = u Mu = Muu = M I =
M = M = I - X X'X X' = I - X X'X X' =
pertanto, una stima corretta di 2 è data da
2ˆ ˆ ˆn
2 2 2
i
i=1
1u E σ = σ
n - k n - k
'u u
dove (n-k) rappresentano i gradi di libertà associati alla somma dei residui ˆn
2
i
i=1
u che
derivano dalle n osservazioni originarie iy (che per ipotesi sono incorrelate) e dai k
vincoli cui devono soddisfare che risultano dalle k equazioni normali che consentono
di ottenere le stime dei coefficienti di regressione.
3 Si ricorda che la traccia di una matrice quadrata di ordine n è definita da n
ii
i=1
tr a A = ; inoltre valgono le
seguenti relazioni:
la traccia di uno scalare è lo scalare stesso;
;tr tr tr A B A B
tr tr trA× B×C C × A× B = .....= C × B× A per prodotti conformabili.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
306
Sostituendo a 2 la sua stima 2 nell’espressione 2
' -1
(X X) , si ottiene la
stima della matrice di varianze e covarianze (matrice di dispersione) del vettore degli
stimatori β
2
ˆˆ ˆ
' -1(X X)Σ .
5.3.3 Ipotesi di specificazione (caso B: normalità della componente accidentale)
Se alle tre ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore
ipotesi di normalità del vettore casuale
2 ,N u 0 I
ne deriva, come conseguenza diretta, la normalità della distribuzione del vettore y
2 ,N y Xβ I
inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica
l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti.
5.3.4 Stima di massima verosimiglianza
La funzione di verosimiglianza del vettore casuale y è espressa dalla relazione
/2 22 2
21 1
/22
2
1, 2 exp
2
12 exp
2
n nn
i i i
i i
n
L f y y
'
x
y - Xβ y - Xβ
'
il cui logaritmo è:
2 2
2
1 , - - .
n nlog L log 2 log y X y X
2 2 2
'
Le stime di massima verosimiglianza del vettore β e di 2
sono date da:
2 2
1
ˆ ˆ 1ˆ e u
n n n
' '
n-1
' '
i
i
u u u uβ = X X X y .
Come si può rilevare, le stime di massima verisimiglianza dei coefficienti di
regressione coincidono con le stime dei minimi quadrati, mentre la stima della varianza
è diversa e non è corretta.
Si dimostra (teorema di Rao) che gli stimatori di massima verosimiglianza β sono
BU(E), sono, cioè, i migliori stimatori (i più efficienti) nell’ambito degli stimatori
corretti.
Da quanto sopra riportato derivano le seguenti proprietà:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
307
ˆ ,N
β β β
*
* *
ˆˆ ( )y y N
yXβ,
ˆˆ ( )N
yy y Xβ,
22
2 2 2 2
ˆ ˆ ˆn - kn
' 'u u u u
= 2
1
2
n
i
iu
2
n k
dove ˆσ *
-12 '
y= X X , ˆ
σ
-12 '
y= I + X X ; inoltre, β
e
2
2 2
ˆ ˆ ˆn - k
'u u
sono
incorrelate, infatti:
2 2
ˆˆ
.
E E
-1 -1' ' ' '
-1 -1' '
u β - β I - X X X X uu X X X
X X X X X X 0
e quindi, a ragione dell’ipotesi di normalità, indipendenti.
5.3.5 Stima di intervallo e test delle ipotesi
È ora possibile procedere alla stima di intervallo e alla verifica di ipotesi statistiche sia
riguardo ai coefficienti di regressione che alla varianza della componente accidentale;
inoltre, si può procedere alla stima per intervallo delle variabili y* e y.
Se si pone e -1 -1
' 'V = X X W = I - X X , risulta facile verificare le relazioni
che seguono
2 , j j jjN v
* * 2 ,j j jjy N y v
* 2 ,j j jjy N y w
dove e rappresentano i valori che occupano la - posizione, rispettivamente,
nelle matrici e , che ripropone la stessa situazione già
jj jjv w j esima
-1 -1' '
V = X X W = I - X X
esaminata quando si è trattato del modello di regressione lineare semplice, l’unica
differenza riguarda la variabile casuale 2
n-kχ che risulta ora caratterizzata da (n – k) gradi
di libertà, essendo k
i parametri 1 2 , ,....., k
stimati rispetto ai 2 parametri
0 1, considerati in precedenza.
In particolare si ha:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
308
2
0,1j j
jj
Nv
2
2
2 2
/ˆ/
ˆ /
j j jj
j j jj n k
vs v t
s
Una conveniente generalizzazione di quanto sopra richiamato è rappresentata dalla
possibilità di sottoporre a verifica statistica ipotesi su specifiche combinazioni linerari
dei coefficienti di regressione:
0 :H R β = r
dove R è una matrice di dimensione (q,k) di rango q ≤ k , r un vettore di dimensione q,
con R e r noti.
Da quanto sopra riportato deriva che
ˆ N σ-1
2 ' 'R β R β, R X X R
e, sotto l’ipotesi nulla 0 :H R β = r , si ha
2
2
1 ˆ ˆq
χ-1' -1
' 'R β - r R X X R R β - r
pertanto, per risolvere il problema di test d’ipotesi
0 :H R β = r
1 :H R β r
basta far riferimento alla variabile casuale test (usualmente detta statistica di Wald)
1
2
2 2
,2
1 ˆ ˆ /
ˆ / /
ˆ ˆ
ˆq n k
q
Fn k s n k
Fs q
' -1' '
-1' -1' '
R β - r R X X R R β - r
R β - r R X X R R β - r
che, come indicato, si distribuisce come una v.c. F di Fisher-Snedecor con q e (n – k)
gradi di libertà.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
309
Se nell’ultima espressione si pone q = 1, r = 0 e R è un vettore di dimensione (1,k)
con valore pari ad 1 nel j-esimo elemento e 0 per tutti gli altri elementi, ricordando che
2
1,n k n kF t
si ottengono gli stessi risultati già considerati relativamente ai singoli coefficienti di
regressione.
Un’ipotesi statistica di particolare interesse è
0 2 3: 0kH
contro l’ipotesi alternativa che almeno un coefficiente sia diverso da 0. Questa ipotesi si
specifica ponendo q = k – 1 e:
1 1 11
0 1 0 0 0 0
0 0 1 0 0 0
................. = ; ...
................. ...
0 0 0 0 1 0
k k kk ,kR 0 I r
Il test così specificato diventa
1,2
ˆ ˆ
ˆk n kF F
s q
-1' -1' '
R β - r R X X R R β - r
inoltre:
22 2
ˆ
1,2 22
/ 1 / 1
/ 1 1ˆ /
y
k n k
k Dev R k R n kF F
Dev r n k R kn k
s
u
L’ultima relazione scritta sta ad indicare sia il fatto che l’ipotesi
0 2 3: 0kH
può essere espressa sia in termini di analisi della varianza (cfr. Tab. 5.1), sia la relazione
tra il valore numerico assunto dall’indice di determinazione 2R e la significatività del
test: tanto più prossimo ad 1 è il valore assunto da 2R tanto più significativa risulterà
la v.c. test.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
310
Fonte di
variabilità
Somma dei quadrati
(Devianze)
Gradi
di
libertà
Devianze
medie F
Regressione 2 2
ˆ ˆˆ
1
ˆn
y i
i
y y
'
y ys s s
k-1 2
ˆ / 1y k s
2
ˆ
2
/ 1
ˆ /
y kF
n k
s
u Residua
2 2
ˆ ˆ
1
ˆ ˆn
i i
i
y y
'
y yu u u
n-k 2
ˆ / n ku
Totale 2 2
1
n
y i
i
y y
'
y ys s s n-1
Tab. 5.1 – Analisi della varianza per il modello di regressione
Relativamente all’indice di determinazione 2R si deve osservare che il valore
numerico assunto dell’indice stesso dipende strettamente dal numero di variabili
esplicative incluse nel modello, al limite, se il numero di tali variabili è pari ad (n – 1), 2 1R ; infatti, in questo caso il sistema di equazioni normali è costituito da tante
equazioni quante sono le incognite (k = n) e l’iperpiano di regressione si adatterà
perfettamente a tutti i punti osservati (la varianza residua è uguale a 0). Per tale ragione,
quando si procede alla stima di un modello di regressione multipla per misurare la bontà
di adattamento del modello ai dati osservati si fa usualmente riferimento al cosiddetto 2R corretto (per tener conto dei gradi di libertà) definito da:
2 2 .n
R 1 1 Rn k
Al crescere del numero di variabili esplicative inserite nel modello, per motivi
puramente numerici, cresce anche il valore assunto dall’indice 2R mentre il valore
assunto dall’indice 2R può anche diminuire, cresce solo se il coefficiente di regressione
della nuova variabile inserita risulta statisticamente significativo.
Sono stati esaminati i due casi estremi di ipotesi:
sul singolo coefficiente di regressione 0 : 0 per 2,3,.....,jH j k ;
su tutti i coefficienti di regressione associati alle variabili esplicative
0 2 3: 0kH ;
ovviamente, si possono sottoporre a test ipotesi su gruppi di coefficienti o su
combinazioni lineari di coefficienti specificando in modo adeguato la matrice R ed il
vettore r. Ad esempio se si vuol sottoporre a test l’ipotesi 0 2 3 4: 0H , si
dovrà porre:
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
311
33
0 1 0 0 0 0
0 0 1 0 0 ; 0 .
0 0 0 1 0 0
,kR r
Esempio 5.1
In un articolo del 19744 sono state stimate, utilizzando i dati annuali della contabilità nazionale
registrati in Italia nell’intervallo temporale 1952-1973, sia per il totale Italia sia per le quattro
grandi ripartizioni territoriali, tre diverse generalizzazioni della funzione aggregata del
consumo 1 2 C Y u proposta da Keynes nel 1936:
1 2 3 1
1 2 3
1 *
1 2 1 3 1 3
C Y C u Brown
C C Yu Duesenberry
Y Y Y
C Y C Y u Houtakker - Taylor
dove C rappresenta il consumo annuale corrente, C-1 il consumo relativo al periodo (anno)
precedente a quello che si considera, Y il reddito corrente, Y* il massimo reddito raggiunto in
passato e Y l’incremento di reddito realizzatosi nell’unità di tempo (anno) considerata.
Il modello di Brown ha evidenziato il più elevato grado di rappresentatività, la sua superiorità
rispetto agli altri due modelli è emersa in modo evidente sia quando si è fatto riferimento ai
criteri statistici convenzionali (capacità di adattamento, significatività dei coefficienti e
capacità prevsionale) sia quando si è fatto riferimento alla plausibilità economica dei risultati
conseguiti.
Le conclusioni cui si è pervenuti nel 1974 potavano, e dovevano, costituire soltanto il primo
passo verso una più approfondita conoscenza del fenomeno consumo privato in Italia. Infatti, la
validità dei risultati ottenuti è condizionata al completo soddisfacimento delle ipotesi di
specificazione poste a base del modello. Il mancato soddisfacimento delle ipotesi comporta
conseguenze negative più o meno rilevanti sulla bontà delle stime a seconda dell’ipotesi non
soddisfatta e del grado di allontanamento dall’ipotesi stessa.
Nel 19795 in un secondo contributo sul tema, le ipotesi di specificazione poste a base del
modello di Brown sono state sottoposte a verifica empirica procedendo, successivamente,
all’applicazione delle tecniche statistiche di stima proposte in letteratura che al momento
risultavano più appropriate per la risoluzione dei problemi connessi al mancato
soddisfacimento delle ipotesi di specificazione.
Scopo del secondo lavoro non è stato, quindi, quello dell’individuazione del modello
“migliore” ma, più semplicemente, quello della scelta della metodologia più adeguata per la
stima di un modello rivelatosi, a seguito di altre analisi, sufficientemente rappresentativo della
situazione in esame.
L’analisi condotta non è stata limitata alla sola verifica empirica delle ipotesi di specificazione
e alla conseguente individuazione delle metodologie di stima più adeguate ma si è proceduto
anche ad un’analisi delle proprietà strutturali del modello di Brown, analisi tesa
all’individuazione del processo di formazione e trasformazione della componente aleatoria del
4 Chiandotto (1974). 5 Chiandotto (1979).
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
312
modello stesso che è sostanzialmente la componente rispetto alla quale gran parte delle ipotesi
di specificazione vengono formulate. Analisi questa necessaria per due ragioni fondamentali, la
prima, indubbiamente la più rilevante, è quella che investe il complesso problema
dell’applicabilità dei metodi dell’inferenza statistica nella ricerca economica, la seconda
riguarda l’inadeguatezza (come verificato a posteriori) di molte procedure di test proposte in
letteratura per la verifica empirica delle ipotesi di specificazione poste a base del modello di
regressione.
La conclusione più rilevante cui si è pervenuti nel secondo lavoro è stata, per un verso, la
conferma della validità del modello di Brown per la rappresentazione del fenomeno consumo,
per altro verso, la robustezza del metodo di stima dei minimi quadrati ordinari che ha fornito,
anche in presenza di ipotesi di specificazione non completamente soddisfatte, risultati migliori
dal punto di vista interpretativo rispetto a quelli forniti da metodi alternativi di stima che
tenevano conto del mancato soddisfacimento delle ipotesi stesse.
Nelle righe che seguono viene ripreso il tema utilizzando dati aggiornati e, a titolo
esclusivamente esemplificativo, illustrata una procedura statistica ritenute adeguata per la
specificazione di una funzione del consumo che risulti adeguata per la rappresentazione della
base dati utilizzata; la procedura di stima utilizzata è quella di minimi quadrati. I dati presi in
considerazione sono riportati nella Tab. 5.1.
Si tratta di n = 68 coppie di osservazioni trimestrali sulle variabili reddito lordo disponibile e
spesa delle famiglie per consumi finali in Italia nel periodo 1999-2015.
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015
Q1 195.271 197.503 216.772 222.632 230.215 238.360 243.974 252.651 264.484 272.353 268.104 263.550 270.415 267.572 262.640 265.625 265.730
Q2 195.729 204.561 216.704 226.799 230.342 239.952 243.556 253.181 267.784 277.450 263.072 262.807 271.186 263.792 267.320 265.010 267.642
Q3 200.556 208.644 216.102 224.479 234.667 242.868 245.587 257.491 264.627 271.110 264.188 264.197 271.485 263.059 267.395 267.412 271.102
Q4 199.671 214.317 216.428 225.887 234.820 245.297 259.375 265.287 269.216 265.102 264.940 268.630 272.890 261.729 264.610 266.626 269.603
Q1 171.560 181.295 190.992 195.156 202.842 209.225 215.318 225.093 233.645 239.978 234.644 239.507 248.320 246.975 242.934 244.563 245.463
Q2 174.374 185.122 192.342 196.405 204.415 211.396 218.404 226.885 235.932 242.198 235.551 241.028 250.529 247.334 242.236 245.064 247.171
Q3 177.435 187.713 192.258 198.364 205.999 212.862 221.277 229.897 236.989 242.193 236.335 243.796 250.317 245.742 243.242 245.130 248.208
Q4 180.182 190.345 192.881 200.870 207.170 215.129 222.797 231.352 238.351 239.879 238.520 245.822 249.212 245.016 243.625 245.489 249.125
Reddito
lordo
disponibile
Spesa delle
famiglie per
consumi
finali
Tab. 5.1 - Reddito lordo disponibile e spesa delle famiglie per consumi finali in Italia 1999/2015 - Dati destagionalizzati
Anni
Trim
estre
Osservando la Fig.5.1 si desume facilmente la ragionevolezza dell’ipotesi della presenza di una relazione
lineare (modello di Keynes) tra consumo e reddito; infatti, la stima dei minimi quadrati del modello
fornisce dei risultati che confortano ampiamente tale ipotesi (cfr. Tab. 5.2).
Il primo modello c he si considera è quello originalmente proposto da Keynes 1 2 i i iC Y u
(i = 1,2,…,n) presupponendo soddisfatte tutte le ipotesi di specificazione classiche poste a base del
modello di regressione6, i risultati della stima dei minimi quadrati ordinari sono riportati nella Tab. 5.2,
mentre nella Tab. 5.3 sono riportati i valori relativi all’analisi della varianza. Si ricorda che in questo
caso specifico (regressione semplice) il valore della F di Fisher riportato nella Tab.5.3 è uguale al
quadrato del valore della t di Student riportato nella Tab. 5.2.
6 In realtà le ipotesi non risultano completamente soddisfatte ma, per il carattere esemplificativo dell’analisi svolta e
per la robustezza dei metodi impiegati, si è preferito utilizzare il metodo dei minimi quadrati ordinari. Per un
approfondimento sul tema si può fare riferimento a Chiandotto (1979).
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
313
190.000 200.000 210.000 220.000 230.000 240.000 250.000 260.000 270.000 280.000 290.000
Reddito lordo disponibile
160.000
170.000
180.000
190.000
200.000
210.000
220.000
230.000
240.000
250.000
260.000
Sp
es
a d
ell
e f
am
igli
e p
er
co
ns
um
i fi
na
li
180.000 200.000 220.000 240.000 260.000 280.000 300.000
Reddito lordo disponibile
160.000
170.000
180.000
190.000
200.000
210.000
220.000
230.000
240.000
250.000
260.000
Sp
es
a d
ell
e f
am
igli
e p
er
co
ns
um
i fi
na
li
Coefficienti Stima dei minimi
quadrati
Varianza degli
stimatori t di Student p value
0 (intercetta) 0 0
ˆ = -18.437 0
2
ˆˆ 34.380.104,54
-3,1444 0,00249
1 (reddito) 1 1
ˆ 1 1
2
ˆˆ 0,000529
41,4996 0,00000
Tab. 5.2 – Riepilogo dei risultati derivanti dalla stima del modello di Keynes (n = 68)
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
314
Fonte di
variabilità
Somma dei quadrati
(Devianze)
Gradi
di
libertà
Devianze medie F
Regressione 2
ˆ 36.599.724.745,40y s
1 36.599.724.745,40 1.722,22F
Residua
21.402.599.9ˆ 37,37u
66 21.251.514,20
Totale 2
38.002.324.682,76y s
67 R2 = 0,9631
Tab. 5.3 – Analisi della varianza relativa alla stima del modello di Keynes (n = 68)
Osservando i dati riportati nelle Tabb. 5.2 e 5.3 il ricercatore potrebbe ritenersi più che
soddisfatto dei risultati conseguiti: il semplice modello proposto da Keynes ha ricevuto ampia
conferma dalla verifica empirica effettuata. In realtà, come sopra sottolineato, il modello di
Brown, altrettanto semplice, ha evidenziato (cfr. Chiandotto 1974 e 1979) capacità
rappresentativa del fenomeno consumo più soddisfacenti sia per le argomentazioni teoriche su
cui è basato sia in termini di adattamento empirico alla realtà analizzata.
Nelle Tabb. 5.4 e 5.5 sono riportati i risultai della stima del modello di Brown inserendo la
variabile relativa al consumo con un ritardo temporale di un periodo (t=1).
Coefficienti Stima dei minimi
quadrati
Varianza degli
stimatori
t di
Student p value
1 (intercetta)
1 1ˆ = 4.471,16
1
2
ˆˆ 3.663.330,57
2,34 0,02263
2 (reddito) 2 2
ˆ 0,097 2
2
ˆˆ 0,001024
2,98 0,00412
3 (consumo ritardato
1 periodo)
2 2ˆ 0,877
3
2
ˆˆ 0,001024
27,64 0,00000
Tab. 5.4 – Riepilogo dei risultati derivanti dalla stima del modello di Brown (n = 67, t = 1)
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
315
Fonte di
variabilità
Somma dei quadrati
(Devianze)
Gradi
di
libertà
Devianze medie F
Regressione 2
ˆ 35.125.700.000y s
2 36.599.724.745,40 10.368,53F
Residua
2108.407ˆ .100u
64 21.251.514,20
Totale 2
35.234.110.000y s
66 R2 = 0,9969
Tab. 5.5 – Analisi della varianza relativa alla stima del modello di Brown (n = 67, t = 1)
Osservando i dati riportati nelle Tabb. 5.4 e 5.5 si perviene alla conclusione che dalla verifica
empirica effettuata il modello di Brown continua ad evidenziare, pure se applicato a dati
trimestrali e riferito ad una arco temporale diverso, la sua elevatissima capacità di
rappresentazione della relazione tra il consumo (spesa) e il reddito delle famiglie italiane.
Inoltre, l’inserimento della variabile consumo ritardato in aggiunta al reddito migliora
ulteriormente la già elevatissima capacità rappresentativa della funzione del consumo proposta
da Keynes.
Riguardo ai risultati ottenuti si richiama l’attenzione sulla relativa perdita di significatività
della variabile reddito. Pur trattandosi di una perdita del tutto marginale, infatti il p-value
associato a tale variabile passa da 0,00000 a 0,00412, si potrebbe, comunque, ragionevolmente
presumere che tale perdita possa dipendere dall’elevatissima collinearità tra il reddito
registrato nel trimestre ed il consumo registrato nel trimestre immediatamente precedente.
Potrebbe risultare ragionevole, allora, mettere in relazione il consumo osservato in un
trimestre non più con quello registrato nel trimestre precedente ma con il consumo registrato
nel corrispondente trimestre dell’anno precedente ipotizzando, quindi, un ritardo temporale
pari a 4. I risultati della stima del modello di Brown in questa nuova versione sono riportati
nelle Tabb. 5.6 e 5.7.
Coefficienti Stima dei minimi
quadrati
Varianza degli
stimatori
t di
Student p value
1 (intercetta)
1 1ˆ = 5.174,09
1
2
ˆˆ 22.047.098,52
1,10 0,2748
2 (reddito) 2 2
ˆ 0,408 2
2
ˆˆ 0,002799
7,71 0,0000
3 (consumo ritardato
1 periodo)
2 2ˆ 0,535
3
2
ˆˆ 0,002165
11,49 0,0000
Tab. 5.6 – Riepilogo dei risultati derivanti dalla stima del modello di Brown (n = 64, t = 4)
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
316
Fonte di
variabilità
Somma dei quadrati
(Devianze)
Gradi
di
libertà
Devianze medie F
Regressione 2
ˆ 27.775.812.622,46y s
2 36.599.724.745,40
1.950,61F
Residua 2
434.306.2ˆ 52,65u
61 21.251.514,20
Totale 2
28.210.118.875,11y s
63 447.779.664,68 R2 = 0,9846
Tab. 5.7 – Analisi della varianza relativa alla stima del modello di Brown (n = 64, t = 4)
5.4 - Modello di analisi della varianza (ANOVA)
Il termine analisi della varianza è già stato introdotto nei paragrafi precedenti per
indicare la scomposizione della variabilità presente nella variabile risposta nel modello
di regressione distinguendo la variabilità da attribuire a fattori influenti (variabilità
spiegata) dalla variabilità da attribuire a fattori accidentali (variabilità non spiegata).
Nel modello di regressione multipla si è avuto modo di procedere ad una ulteriore
scomposizione della variabilità spiegata in funzione della diversa natura dei fattori
considerati.
Storicamente però l’analisi della varianza viene introdotta facendo riferimento a
procedure di test di ipotesi dove le variabili esplicative sono di natura categorica, in
particolare si fa riferimento a situazioni sperimentali dove i fattori esplicativi sono
espressi in scala nominale (Fisher, 1925). La trattazione estesa dell’argomento rientra
nel contesto di quella parte della statistica usualmente denotata con il termine piano o
disegno degli esperimenti. Al riguardo si deve sottolineare che sarebbe più appropriato
parlare di analisi della devianza e non di analisi della varianza in quanto la
scomposizione degli effetti viene operata sulla somma del quadrato degli scarti tra
valori osservati e la loro media, cioè sulla devianza, a prescindere dal numero delle
osservazioni che entrano in gioco solo al momento della verifica delle ipotesi come
gradi di libertà associati alle diverse componenti della scomposizione della cosidetta
devianza totale.
In queste note si farà riferimento ai soli disegni fattoriali completi limitando la
trattazione alle situazioni in cui i fattori sperimentali sono al massimo 3 (one-way, two-
way e three-way ANOVA).
L’esperimento fattoriale completo è caratterizzato dalla presenza di più osservazioni
sperimentali in corrispondenza di ciascuna modalità, nel caso in cui si sta trattando di un
solo fattore sperimentale, se i fattori sperimentali sono 2 o più di 2 si deve poter
disporre di più osservazioni in corrispondenza di ogni possibile combinazione delle
modalità dei fattori sperimentali considerati.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
317
5.4.1 Analisi a un criterio di classificazione
Si consideri la situazione sperimentale cha prevede l’impiego di un solo fattore
sperimentale A caratterizzato da h modalità distinte Ai (i = 1, …, h) e di poter disporre
di ni risposte sperimentali in corrispondenza dell’i-esima modalità Ai; si ipotizzi, cioè,
una situazione sperimentale nella quale sono previsti h trattamenti ciascuno dei quali è
replicato ni (i = 1, 2,…., h) volte. Il modello base per procedere ad un’analisi della
varianza è
i i i i iY = μ+α +u = +u per i = 1,2,.....,h
dove i i= μ+α la componente sistematica del modello e ui la componente accidentale,
inoltre
2
1
0 , 0, ( ) 0 .h
i i i i j
i
E u Var u e E u u per i j
Da quanto scritto deriva i i iE Y .
Se si dispone, come ipotizzato, di ni risposte in corrispondenza della modalità Ai il
modello per le
1
h
i
i
n n
osservazioni disponibili assume la forma
= 1,2,....., ; 1,2,...,ir i ir i ir iY u u per i h r n
dove 1
0h
i
i
, ( ) 0 e ( ) 0 .ir jr ir isE u u per i j E u u per r s
In sostanza la situazione prospettata si riferisce ad h gruppi distinti di soggetti i
quali, all’interno di ciascun gruppo, possono differire tra loro solo per l’effetto di fattori
di carattere accidentale mentre i soggetti appartenenti a gruppi diversi possono differire,
sia per effetto di fattori di carattere accidentale sia per effetto di fattori strutturali, le
differenze strutturali sono evidenziate dalla diversità delle medie μi = μ+αi.
A questo punto risulta facile l’interpretazione dei coefficienti αi che rappresentano
lo scarto (in più o in meno) rispetto all’intera popolazione da attribuire all’appartenenza
allo specifico gruppo i-esimo.
Se si dispone di un campione di n osservazioni distribuite, come ipotizzato, negli h
gruppi si può procedere alla risoluzione degli usuali problemi di inferenza: stima delle
h medie incognite μi = μ+αi e/o verifica di ipotesi statistiche sulle medie stesse.
L’ipotesi classica è quella di uguaglianza tra le h medie
0 1 2: hH
contro l’ipotesi alternativa che sia presente una qualche differenza tra le stesse medie.
Un modo perfettamente equivalente di definizione dell’ipotesi nulla è
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
318
0 1 2: 0 hH
contro l’ipotesi alternativa che un qualche αi sia diverso da zero.
Per quanto detto in precedenza risulta facile derivare le stime dei minimi quadrati
delle medie μi e di μ.
A partire dalle osservazioni yir si ottiene
.. .
1 1
.. . .. .. . .
1 1 1 1 1 1 1
1ˆ ; 1,2,...,
1 1 1 1ˆ ;
i i
i i
n n
ii ir i ir i
r ri i
n nh h h h h
i ir i ir i i
i i r i i r i
yy y y y per i h
n n
y y y y y y y y nn n n n
Se si considera la variabilità totale presente nelle osservazioni e si procede ad una
sua misura attraverso il calcolo della devianza totale (Dev (T) = somma dei quadrati
degli scarti dalla media) si ha
2 2
.. . . ..
1 1 1 1
2 2
. . .. . . ..
1 1 1 1 1 1
h2 2
. . ..
1 1 i=1
( ) ( )
( ) ( ) ( )( )
( ) ( )
i i
i i i
i
n nh h
ir ir i i
i r i r
n n nh h h
ir i i ir i i
i r i r i r
nh
ir i i i
i r
Dev T y y y y y y
y y y y y y y y
y y y y n Dev r Dev A
h
2 2
. . ..
1 1 i=1
dove ( ) e ( ) .inh
ir i i i
i r
Dev r y y Dev A y y n
Dev (r) misura la variabilità da attribuire all’effetto di fattori di carattere accidentale
(devianza residua) mentre Dev (A) misura la variabilità da attribuire all’effetto sia di
fattori di carattere accidentale sia all’eventuale effetto del fattore sperimentale A
(devianza sperimentale). Si tratta dell’usuale scomposizione della devianza in devianza
entro i gruppi e devianza tra i gruppi.
Se sono soddisfatte le ipotesi di specificazione poste a base del modello e si inserisce
l’ulteriore e ragionevole (per il teorema del limite centrale) ipotesi di normalità della
distribuzione della componente accidentale uir , si possono derivare senza eccessiva
difficoltà le distribuzioni campionarie delle v.c. W1 = Dev (r)/ σ2 e W2= Dev (A)/ σ
2 e
dimostrare la loro indipendenza
2 2
1
2 2
2 1
/
/
n h
h
W Dev r
W Dev A
dove i gradi di libertà associati alla v.c. W1 sono pari al numero degli scarti indipendenti
presenti nell’espressione
2.
1 1
( )inh
iir
i r
Dev r Y Y
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
319
che sono uguali al numero delle osservazioni indipendenti yir meno il numero di
vincoli cui gli scarti devono soddisfare, poiché all’interno di ciascuno degli h gruppi la
somma degli scarti dalla media è pari a 0, h sono i vincoli a fronte di n osservazioni
indipendenti il che comporta un numero di gradi di libertà pari a (n-h); mentre i gradi di
libertà associati alla v.c. W2 sono pari al numero degli scarti indipendenti presenti
nell’espressione
2 2. .. . ..
1 1 1
( ) ( ) inh h
i i i
i r i
Dev A Y Y Y Y n
che sono uguali al numero delle osservazioni indipendenti meno il numero di vincoli cui
gli scarti devono soddisfare, poiché h sono le variabili indipendenti e la somma degli
scarti dalla media soddisfa un solo vincolo ( somma nulla), i gradi di libertà sono pari a
(h-1).
Se si procede alla definizione del rapporto tra le due v.c. indipendenti W1 e W2 divise
per i rispettivi gradi di libertà
2. ..
2 11,
21.
1 1
( ) / / /
/ /( ) /
i
h
i i
ih n hnh
iir
i i
Y Y n h 1W h 1 Dev A h 1
W FW n h Dev r n h
Y Y n h
la v.c. risultante W, quando l’ipotesi nulla è vera, si distribuisce come una F di Fisher-
Snedecor con (h-1) e (n-h) gradi di libertà.
Se il valore empirico w assunto dalla v.c. W è superiore al valore riportato nelle
tavole della distribuzione F con (h-1) e (n-h) gradi di libertà, al prefissato livello di
significatività α , l’ipotesi nulla di uguaglianza delle h medie μi viene rifiutata.
Si riporta di seguito l’usuale rappresentazione tabellare dell’analisi della varianza ad
un criterio di classificazione (un solo fattore sperimentale).
Fonte di
variazione Devianza
Gradi di
libertà
Devianza
media F
A 2. ..
1
( ) h
i i
i
Dev A Y Y n
h-1 DevM(A)=
Dev(A)/(h-1)
W=DevM(A)/
DevM (r)
r 2.
1 1
( )inh
iir
i r
Dev r Y Y
n-h DevM (r) =
Dev (r)/(n-h)
T 2..
1 1
( ) h h
ir
i i
Dev T Y Y
n-1 DevM (T)=
Tab. 5.2 - Tavola per l’analisi della varianza ad un criterio di classificazione
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
320
Lo svolgimento dell’analisi della varianza nei termini sopra descritti consente di pervenire ad
una conclusione inferenziale riguardo al possibile effetto complessivo del fattore considerato ma
non consente l’individuazione della modalità che hanno inciso sui risultati nel caso di rifiuto
dell’ipotesi nulla; non si individuano, cioè, gli scarti αi diversi da 0. Per poter perseguire un tale
obiettivo si deve procedere all’effettuazione di una diversa analisi, usualmente denominata
analisi delle medie, che si svolge attraverso l’introduzione del concetto di contrasto definito
come combinazione lineare tra le risposte di un esperimento i cui coefficienti sommano a zero.
Se h è il numero delle modalità che caratterizzano uno specifico fattore sperimentale risulta
possibile procedere alla verifica statistica (test d’ipotesi) sul possibile effetto di specifiche
modalità del fattore sperimentale definendo h – 1 contrasti (confronti) ortogonali).
Se in un esperimento ad un criterio di classificazione (un solo fattore sperimentale) le
modalità diverse del fattore sperimentale sono pari ad h, è possibile sottoporre a test h-1 ipotesi
indipendenti definendo h-1 contrasti (confronti) ortogonali del tipo
1
1
per 1, 2,..., 1
per 1, 2,..., 1
h
i is s
s
h
j js s
s
C a i h
C a j h
dove
1 1 1
= 0; = 0 e 0 h h h
is js is js
s s s
a a a a
.
Nel caso di un fattore caratterizzato da tre modalità due possibili confronti ortogonali
sono 3
1 1 3 1
1
3
2 2 3 3 1
1
=
2
s s
s
s s
s
C a
C a
.
5.4.2 Analisi a due criteri di classificazione
Si consideri la situazione sperimentale che prevede l’impiego di due fattori sperimentali,
il primo fattore A è caratterizzato da h modalità distinte Ai (i = 1, …, h), il secondo
fattore B è caratterizzato da k modalità distinte Bj (j = 1, …, k); in questa situazione il
numero dei trattamenti diversi è pari a h × k . Si supponga di poter disporre di nij
risposte sperimentali in corrispondenza della combinazione tra l’i-esima modalità Ai del
fattore A la j-esima modalità Bj del fattore; pertanto, il numero delle risposte disponibili
in questa situazione sperimentale è
1 1
h k
ij
i j
n n
.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
321
Per poter svolgere un’analisi della varianza completa quando si considerano più
fattori sperimentali è necessario effettuare uno stesso numero di replicazioni per ciascun
trattamento (esperimenti bilanciati o ortogonali). Quando tale condizione non è
soddisfatta si procede all’applicazione di una diversa procedura, usualmente detta
analisi della varianza per classificazioni concatenate che, comunque, non verrà trattata
in questa sede.
Nel caso di esperimenti bilanciati si ha nij = m per i = 1.2,….., h e j = 1,2,…,k, le
risposte disponibili sono pari a
n h k m
Il modello base per procedere ad un’analisi della varianza è
1,2,...,ij i j ij ij ijijY = μ+α + + +u = +u per i = 1,2,.....,h; j k
dove ij i j ij= μ+α + + rappresenta la parte sistematica del modello e uij la parte
accidentale, inoltre,
* *
1 1 1 1
2 * *
0 , 0, 0, 0
0, ( ) 0 , , .
h k h k
i j ij iji j i j
ij ij ij i jE u Var u e E u u per i j i j
Da quanto scritto deriva ij ij i j ijE Y .
Se si dispone, come ipotizzato, di m risposte in corrispondenza di ciascun
trattamento il modello per le n = h×k×m osservazioni disponibili assume la forma
1,2,..., ; 1,2,...,ijr i j ijr ij ijrijY = μ+α + + +u = +u per i = 1,2,.....,h; j k r m
dove
* * *
2 * * *0, ( ) 0 per , , , , .ijr ijr ijr i j rE u Var u e E u u i j r i j r
Le medie relative ai sottogruppi risultano dalle uguaglianze
.. . . . ; ; i i j j ij i j ij= μ+α = μ+ = μ+α .
Le risposte ai trattamenti possono essere rappresentate in una forma tabellare come
quella di seguito riportata dove (cfr. Tab. 3):
. .. . . . . ...
1 1 1 1 1 1 1 1 1 1
; ; ; m k k m h h m h m m
ij ijr i ij ijr j ij ijr ijr
r j j r i i r i r r
Y Y Y Y Y Y Y Y Y Y
valori questi che consentono la derivazione immediata delle medie, infatti,
. . .. .. .
1 1 1 1
. . . . . ... ...
1 1 1 1 1 1
1 1 1 1 1 ; = ;
1 1 1 1 1 ;
m k k m
ij ij ijr i i ij ijr
r j j r
h h m h m m
j j ij ijr ijr
i i r i r r
Y Y Y Y Y Y Ym m k m k m k m
Y Y Y Y Y Y Yh m h m h m h k m h k m
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
322
A1 ….
Ai ….
Ah
B1 ….
Bk ….
B1 ….
Bj ….
Bk ….
B1 ….
Bk
Y111 ….
Y1k1 ….
Yi11 ….
Yij1 ….
Y111 ….
Yh11 ….
Yhk1
Y112 ….
Y1k2 ….
Yi12 ….
Yij2 ….
Y112 ….
Yh12 ….
Yhk2
….
…. ….
…. ….
…. ….
…. ….
…. ….
…. ….
Y11r ….
Y1kr ….
Yi1r ….
Yijr ….
Y11r ….
Yh1r ….
Yhkr
….
…. ….
…. ….
…. ….
…. ….
…. ….
…. ….
Y11m ….
Y1km ….
Yi1m ….
Yijm ….
Y11m ….
Yh1m ….
Yhkm
Y11. ….
Y1k. ….
Yi1. ….
Yij. ….
Yik. ….
Yh1. ….
Yhk.
Y1.. ….
Yi.. ….
Yh..
Y…
Y.1. , Y.2. ,….,Y.k.
Tab. 5.3- Dati di base per l’analisi della varianza a due criteri di classificazione
Disponendo delle risposte dell'esperimento si può procedere alla stima eijrn h k m y
alla verifica di ipotesi sulle entità incognite presenti nel modello.
Le stime dei minimi quadrati delle medie sono
.
. .
1
..i.. .. ..
1 1
. .
.j. . . . .
1 1
1ˆ = ; 1, 2,..., e 1, 2,...,
1 1ˆ ; 1, 2,...,
1 1ˆ = ; 1, 2,...,
ˆ
mij
ij ijr ij
r
k mi
i ijr i
j r
h mj
j ijr j
i r
yy y per i h j k
m m
yy y y per i h
k m k m k m
yy y y per j k
h m h m h m
... ... ...
1 1 1
1 1= .
h k m
ijr
i j r
y y yh k m h k m
Le ipotesi che interessa verificare sono l’eventuale effetto sui risultati sperimentali
del:
fattore A - H0: α1 = α2=……..= αh = 0
fattore B - H0: β1 = β 2=……..= β k = 0
interazione tra i due fattori (AB) - H0: (α β)11= (α β)12=……..
= (α β)hk = 0
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
323
obiettivo questo che è facilmente perseguibile procedendo ad una adeguata
scomposizione della variabilità presente nei dati, variabilità che come visto in
precedenza viene misurata attraverso il computo e della devianza totale.
2 2
... . . .. .. . . . . ... ... ...
1 1 1 1 1 1
2 2 2
. .. ... . . ...
1 1 1 1 1 1 1 1 1 1
( ) ( )
( ) ( ) ( ) (
h k m h k m
ijr ijr ij ij i i j j
i J r i J r
h k m h k m h k m m
ijr ij i j ij
i J r i J r i J r r
Dev T y y y y y y y y y y y y
y y y y y y y
2
. .. . . ...
1 1
2 2 2 2
. .. ... . . ... . .. . . ...
1 1 1 1 1 1 1
)
( ) ( ) ( ) ( )
h k
i j
i J
h k m h k h k
ijr ij i j ij i j
i J r i j i J
y y y
y y y y k m y y h m y y y y m
Dev r Dev A Dev B Dev AB
2 2 2
. .. ... . . ...
1 1 1 1 1
2
. .. . . ...
1 1
dove ( ) , ( ) , ( ) e
( ) .
h k m h k
ijr ij i j
i J r i j
h k
ij i j
i J
Dev r y y Dev A y y k m Dev B y y h m
Dev AB y y y y m
Nello sviluppo del quadrato tutti i doppi prodotti sono pari a zero, pertanto, la
devianza totale risulta scomposta in quattro componenti:
Dev(r) - che misura l’incidenza sulle risposte dei soli fattori di carattere
accidentale.
Dev(A) - che misura l’incidenza sulle risposte dell’eventuale effetto del fattore
A e dei fattori di carattere accidentale.
Dev(B) - che misura l’incidenza sulle risposte dell’eventuale effetto del fattore
B e dei fattori di carattere accidentale.
Dev(A B) - che misura l’incidenza sulle risposte dell’eventuale effetto
dell’interazione tra i due fattori A e B e dei fattori di carattere accidentale.
Senza eccessiva difficoltà si derivano le seguenti distribuzioni campionarie
2 2
1 / n h kW Dev r
2 2
2 1/ hW Dev A
2 2
3 1/ kW Dev B
2 2
4 ( 1) ( 1) / h kW Dev A B
Si dimostra, inoltre, che le v.c. W2, W3 e W4 hanno distribuzione indipendente da W1,
mentre hanno distribuzione del tipo F le v.c.
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
324
2
1 ,( )
1
/ 1 / 1
/( ) /( )A h n h k
W h Dev A hW F
W n h k Dev r n h k
3
1 ,( )
1
/ 1 / 1
/( ) /( )B k n h k
W k Dev B kW F
W n h k Dev r n h k
4
1 1 ,( )
1
/ 1 1 / 1 ( 1)
/( ) /( )A B h k n h k
W h k Dev A B h kW F
W n h k Dev r n h k
Si riporta di seguito la rappresentazione tabellare dell’analisi della varianza a due
criteri di classificazione.
Fonte di
variazione Devianza
Gradi di
libertà
Devianza
media F
A 2
. ..
1
( )
h
i
i
Dev A Y Y k m
h-1 DevM(A)=
Dev(A)/(h-1)
WA=DevM(A)/
DevM (r)
B 2
. . ..
1
( ) k
j
j
Dev B Y Y h m
k-1 DevM(B)=
Dev(B)/(k-1)
WB=DevM(B)/
DevM (r)
(A B) 2
. .. . .
1 1
( ) h k
ij i j
i j
Dev A B Y Y Y Y m
(h-1) x (k-1)
DevM(AB)=
Dev(AB)/
(h-1)(k-1)
WAB=DevM(A
B)/ DevM (r)
r 2
.
1 1 1
( )h k m
ijijr
i j r
Dev r Y Y
n-h x k DevM (r) =
Dev (r)/(n-h k)
T 2
...
1 1 1
( )
h h m
ijr
i i r
Dev T Y Y
n-1 DevM (T)=
Dev (r)/(n-1)
Tab. 5.4 - Tavola per l’analisi della varianza a due criteri di classificazione
Se il valore empirico wA assunto dalla v.c. WA è superiore al valore riportato nelle
tavole della distribuzione F con (h-1) e (n-h . k) gradi di libertà, al prefissato livello di
significatività α , l’ipotesi nulla di uguaglianza delle h medie μi.. viene rifiutata: il
fattore A ha effetto sui risultati sperimentali; se il valore empirico wB assunto dalla v.c.
WB è superiore al valore riportato nelle tavole della distribuzione F con (k-1) e (n-h . k)
gradi di libertà, al prefissato livello di significatività α , l’ipotesi nulla di uguaglianza
delle k medie μ.j. viene rifiutata: il fattore B ha effetto sui risultati sperimentali; se il
valore empirico wAB assunto dalla v.c. WAB è superiore al valore riportato nelle tavole
della distribuzione F con (h-1).(k-1) e (n-h . k) gradi di libertà, al prefissato livello di
significatività α , l’ipotesi nulla di uguaglianza delle h . k medie μij. viene rifiutata:
l’interazione tra i due fattori A e B ha effetto sui risultati sperimentali.
L’estensione a situazioni sperimentali che prevedono l’impiego, in modo bilanciato,
di tre o più criteri di classificazione non presenta difficoltà. Si riporta, a titolo
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
325
esemplificativo, il modello di analisi della varianza per tre fattori (analisi della varianza
a tre criteri di classificazione) A , B e C aventi, rispettivamente, h , k e g modalità e
ciascun trattamento è replicato m volte; in totale, il numero dei trattamenti è pari a h . k .
g, mentre il numero delle risposte è n = h × k × g × m.
per 1,2,..., ; 1, 2,..., ; 1,2,...,
ijsr i j s ijsr ijs ijsrij is js ijsY = μ+α + + + + + +u = +u
i = 1,2,.....,h; j k s g r m
Nella tabella che segue (Tab. 5.5) è riportata la scomposizione della devianza totale
nelle devianze che interessano con i relativi gradi di libertà.
Il numero dei trattamenti è pari a h × k × g e ciascun trattamento viene replicato m
volte.
Fonte di
variazione Devianza Gradi di libertà
A 2
. ..
1
( )
h
i
i
Dev A Y Y k g m
(h-1)
B 2
. . ..
1
( ) k
j
j
Dev B Y Y h g m
(k-1)
C 2
..
1
..( )
g
s
sDev C Y Y h k m
(g-1)
(A B) 2
. .. . .
1 1
( ) h k
ij i j
i j
Dev A B Y Y Y Y g m
(h-1) (k-1)
(A C) 2
. .. .,
1 1
... ( )
gh
i s i s
i s
Dev A C Y Y Y Y k m
(h-1) (g-1)
(B C) 2
. . .
1 1
.. ( )
gk
js j
j s
sDev B C Y Y Y Y h m
(k-1) (g-1)
(A B C)
1 1 1
2
. .. . . . . ... . .. .. . ....
gh k
i j s
ijs ij i s js i j s
Dev A B C
Y Y Y Y Y Y Y Y
(h-1) (k-1) (g-1)
R 1 1 1 1
2
. gh k m
i j s r
ijsr ijsDev r Y Y
(m-1) h k g
T 1 1 1 1
2
.... gh k m
i j s r
ijsrDev T Y Y
h k g m – 1 = n -
1
Tab. 5.5 - Tavola per l’analisi della varianza a tre criteri di classificazione
Quando il numero dei trattamenti è elevato e le possibilità di replicazione, per motivi
finanziari o di altra natura, sono limitate si procede spesso all’effettuazione di una sola
replicazione (m = 1) per ciascun trattamento. Per poter effettuare un’analisi della
varianza in tali situazioni è necessario avere informazioni a priori riguardo al possibile
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
326
effetto dell’interazione sui risultati sperimentali; se si ritiene che una qualche
interazione (usualmente quelle di ordine più elevato) non ha effetto, la variabile,
opportunamente trasformata, riferita a tale interazione (che per ipotesi risente dei soli
effetti di natura accidentale) verrà assunta come riferimento per i confronti.
5.5 - Analisi della varianza e modello di regressione
A conclusione del paragrafo 5.4.1 è stato sottolineato che mediante il ricorso ai contrasti
ortogonali è possibile verificare statisticamente la presenza o meno dell’effetto di
singole modalità del fattore sperimentale per il quale è stata preliminarmente accertata
l’influenza sui risultati sperimentali senza procedere ad un adeguato sviluppo del tema.
La ragione dell’omissione è giustificata dalla possibilità di conseguire un tale
obiettivo, in modo decisamente più soddisfacente, ricorrendo ad un diverso strumento
metodologico: il modello di regressione. A tal fine basterà procedere ad una adeguata
specificazione del modello di regressione multipla introdotto nel paragrafo 5.3
n,k n,1k,1n,1
y X u
dove
12 13 1 11
22 23 2 22
,,1 2 3
1
1
.... ................................
.... ................................ ;
1
.... .....
....
j k
j k
n kn i i i ij ik
n
x x x xy
x x x xy
y x x x x
y
y X
1 1
2 2
,1,1
2 3
.... ....
.... .... ; ;
...................................
........................................
1
nk j i
kn n nj nk
u
u
u
ux x x x
u
n
Se si riprende in considerazione il modello ANOVA ad un criterio di classificazione
sopra definito
= 1,2,....., ; 1,2,...,ir i ir i ir iY u u per i h r n
e si procede alla sua rappresentazione in forma matriciale si ha
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
327
1
2
11
12
1
21
22
2
, 1,1
1
2
1
2
1 1 0 0 0 0
1 1 0 0 0 0
::::::::::::::::::::::::::
__
::::
__
:::: ;
::::
__
::::
__
::::
h
h
n
n
n hn
h
h
hn
h
h
hn
y
y
y
y
y
y
y
y
y
y
y
y
y X
:::::::
1 1 0 0 0 0
_____________
1 0 1 0 0 0
1 0 1 0 0 0
:::::::::::::::::::::::::::::
1 0 1 0 0 0
_____________
::::::::::::::::::::::::::::
::::::::::::::::::::::::::::
_____________
1 0
0 0 1 0
1 0 0 0 1 0
:::::::::::::::::::::::::::::
1 0 0 0 1 0
_____________
1 0 0 0 0 1
1 0 0 0 0 1
:::::::::::::::::::::::::::::
1 0 0 0 0 1
1
2
11
12
1
21
22
21
,11,1
1
2
1
2
::::
__
::::
__....
::::.... ; ;
::::
__....
....
::::
__
::::
h
h
n
n
nh i
h
hh
hn
h
h
hn
u
u
u
u
u
u
u
u
u
u
u
u
u
La matrice, 1n hX in forma più compatta assume la forma
, 1 , 1
::::::::::::::::::::::::::::::::::::::::::::::
1 1 1 1 1
2 2 2 2 2
h-1 h-1 h-1 h-1 h-1
h h h h h
n n n n n
n n n n n
n h n h
n n n n n
n n n n n
1 1 0 0 0
1 0 1 0 0
1 0 0 1 0
1 0 0 0 1
A X
dove si è utilizzato il simbolo A, al posto di X, per evidenziare la particolare natura
della matrice, con in0 e
in1 sono stati indicati i vettori di dimensione in (i = 1, 2, .., h)
composti, rispettivamente di 0 e 1. Ogni singola osservazione è espressa dalla relazione
0 1 1 2 2
1
1,2,..., ( )h
r h h r i
i
Y A A A u per r n n
e la rappresentazione matriciale del modello è
n,h+1 n,1h+1,1n,1
y A u
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
328
Occorre sottolineare che la matrice , 1n hA è di rango h, infatti, la prima colonna delle
matrice stessa è pari alla somma delle successive h colonne, pertanto la matrice
1, 1 1, , 1h h h n n h
'B A A non è invertibile.
Un modo per risolvere il problema è quello di ricorrere all’inversa generalizzata
(inversa di Penrose) oppure di procedere ad una opportuna riparametrizzazione del
modello.
Riparametrizzazione 1 - Si procede all’eliminazione della prima colonna della matrice
, 1n hA (cell-means model). La matrice cosi ottenuta
1
2
, ,1
1
:::::::::::::::::::::::::::::::::::::::
per ::::::::
1 1 1 1
2 2 2 2
h-1 h-1 h-1 h-1
h h h h
n n n n
n n n n
n h h
n n n n h
hn n n n
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
*A
è di rango pieno pari ad h n , pertanto la matrice
, , ,h h h n n h* *' *
B A A
è invertibile.
In forma compatta il modello diventa
, ,1,1,1
* n h nhn
y A u
e ogni singola osservazione assume la forma
1 2 2 2 3 3
1
1,2,..., ( ).h
r h h r i
i
Y A A A A u per r n n
La stima dei minimi quadrati dei coefficienti è
ˆ -1
* *' * *'β = A A A y .
Riparametrizzazione 2 - Si procede all’eliminazione dell’ultima colonna della matrice
, 1n hA (cell-reference model) ponendo αh = 0, in questo modo l’ultima categoria diventa
il riferimento delle altre categorie e l’eventuale effetto dell’ultima modalità viene
conglobato nella media μ. Si sottolinea che il riferimento all’ultima colonna ha valore
puramente esemplificativo; infatti,la scelta, può riguardare una qualunque delle h
colonne in relazione al problema in esame tenendo presente che l’eliminazione della
colonna comporta l’impossibilità di sottoporre a test l’effetto della corrispondente
modalità del fattore in esame. La matrice che deriva dell’eliminazione dell’h-esima
assume la forma
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
329
1
2, 1 ,1
::::::::::::::::::::::::::::::::::::::::
per
:
1 1 1 1
2 2 2 2
h-1 h-1 h-1 h-1
h h h h
n n n nh
n n n n h
hn h h
n n n n
n n n n
1 1 0 0
1 0 1 0
1 0 0 1
1 0 0 0
**A
1
::::::::
h h
ed è di rango massimo; pertanto, la matrice
, , ,h h h n n h** **' **
B A A
ammette inversa.
In forma compatta il modello diventa **
n,h n,1h,1n,1
y A u
e ogni singola osservazione assume la forma
0 1 1 2 2 1 1
1
1,2,..., ( )h
r h h r i
i
Y A A A u per r n n
La stima dei minimi quadrati dei coefficienti è
ˆ -1
** **' ** **'β = A A A y .
Riparametrizzazione 3 - Una terza possibile riparametrizzazione si ottiene tenendo
conto del vincolo sui coefficienti 1
1 1
0h h
i h i
i i
(deviation from the mean
model). Se si pone 1
1 h
i
ih
il vincolo viene inserito nel modello considerando la
matrice
,
:::::::::::::::::::::::::::::::::::::::::::::::
pe
1 1 1 1 1
2 2 2 2 2
h-1 h-1 h-1 h-1 h-1
h h h h h
n n n n n
n n n n n
n h
n n n n n
n n n n n
1 1 0 0 0
1 0 1 0 0
1 0 0 1 0
1 1 1 1 1
***A
1
2,1
1
r
:::::::::
h
h
Si tratta di una riparametrizzazione analoga alla precedente dove, però, la categoria
di riferimento non è più l’h-esima ma una categoria media virtuale.
La matrice ***
,n hA è di rango massimo; pertanto, la matrice
, , ,h h h n n h
*** ***' ***B A A
ammette inversa.
In forma compatta il modello diventa ***
n,h n,1h,1n,1
y A u
che consente la derivazione delle stime dei minimi quadrati
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
330
ˆ -1
*** ***' *** ***'β = A A A y .
La relazione tra le media di gruppo per i = 1, 2, ..., h i i
e i coefficienti
stimati utilizzando l’ultima parametrizzazione (che tiene conto del vincolo cui devono
soddisfare i coefficienti i ) è espressa dall’uguaglianza
1 1
2 2 1
2
1 1
1
1 1 0 0
0
1 1 0 1
1
1 0 1
::::: :::::::: :::::::::::::::::::::
::::
1 1 1 h h
hh h
1
1
; = h
h i
i
Seguendo lo stesso procedimento si può esprimere il modello di analisi della
varianza in termini di modello di regressione quando i fattori sperimentali sono 2 o più
di 2; l’estensione a casi più generali presenta solo difficoltà formali.
5.6 - Analisi della covarianza (ANCOVA)
L’introduzione dell’ipotesi di normalità ed incorrelazione delle componenti accidentali
consente di ottenere sia stime per intervallo dei coefficienti ed intervalli di previsione,
sia di sottoporre a test ipotesi sul valore dei coefficienti stessi (se uguali o diversi da
zero) o su loro combinazioni linari (contrasti e contrasti ortogonali).
Nel paragrafo 5.3.5 è stata illustrata la formulazione di ipotesi statistiche su
combinazioni lineari dei parametri che caratterizzano il modello di regressione nella
forma generale
0
1
:
:
H
H
R β = r
R β r
dove R è una matrice di dimensione (q,h) e di rango q ≤ h , r un vettore di dimensione q,
con R e r noti. Tale formulazione consente, non solo di sottoporre a test l’ipotesi di
nessun effetto totale del fattore o dei fattori e delle relative interazioni, ma di verificare
anche ipotesi sull’effetto di singole modalità o di combinazioni di modalità attraverso
l’impiego della v.c. test F
,2
ˆ ˆ
.ˆ
q n kF Fs q
-1' -1' '
R β - r R X X R R β - r
Basterà, infatti, sostituire alla matrice X la matrice A+ relativa al caso in esame e
procedere al computo dei gradi di libertà corrispondenti.
Nessun problema sostanziale si deve affrontare quando alcune delle variabili
esplicative hanno natura categoriche e altre quantitativa. Il modello corrispondente, che
viene detto di analisi della covarianza, nel caso in cui si considerano k-1 variabili
B. Chiandotto Versione 2017
INFERENZA STATISTICA
Cap. 5 - Modello statistico lineare
331
esplicative quantitative (che in questo contesto vengono usualmente dette covariate), un
solo fattore sperimentale caratterizzato da h modalità e si ipotizza assenza di
interazione tra variabili quantitative e la variabile categorica assume la forma
L’estensione a casi più generali presenta difficoltà formali di entità non trascurabile.
.n,k n,h n,1n,1 k,1 h,1
Xy X A u
332