cominciamo a “scavare” dentro un modello che (dovremmo) conoscere bene il modello di...
DESCRIPTION
Cominciamo a “scavare” dentro un modello che (dovremmo) conoscere bene Il modello di regressione. n individui su cui è misurata una variabile Y ad esempio l’acquisto di pane e vogliamo una misura sintetica, (“piccola” misura “ modulus ” MODELLO), - PowerPoint PPT PresentationTRANSCRIPT
Cominciamo a “scavare” dentro un modello
che (dovremmo) conoscere bene
Il modello di regressione
n individui su cui è misurata una variabile Y ad esempio l’acquisto di pane e vogliamo una misura sintetica, (“piccola” misura “modulus” MODELLO), che descrive il fenomeno “acquisto di pane
Numerose possibilità di descrivere il collettivo, ad esempio la media Ma che modello è???? La misura individuale è data da:
iiy Come costruiamo il modello?
1. immaginiamo che “IN ASSENZA DI VARIABILITA’” tutti acquisterebbero, ad esempio, lo stessa quantità di pane…che ovviamente non conosciamo.
2. Però poi osserviamo quantità diverse negli individui e giustifichiamo questa diversità immaginando (ipotizzando) un MODELLO per la parte variabile
3. POI sulla base di questa ipotesi (MODELLO) attribuiamo un valore alla quantità di pane che tutti acquisterebbero.
Quali ipotesi?
Le sapete, però definiamole in un altro modo rispetto all’usuale:
1. Tutti “hanno bisogno” di una certa fissa quantità di pane
2. Ma… al momento di comprare (o anche prima) ognuno si discosta da quella fissa quantità secondo una qualche “legge”
3. Cioè la tendenza comune si “manifesta” in modo variabile, se vogliamo quantificare la tendenza comune NON OSSERVABILE dobbiamo immaginare qualcosa sulla sua manifestazione, cioè sulla sua variabilità
4. Se il MODELLO che immaginiamo per la variabilità è vero, allora abbiamo un modo per arrivare alla quantità comune incognita
Potremmo anche immaginarci la cosa in questo modo con riferimento alla vecchia TOMBOLA o alle estrazioni del LOTTO:
1. Ognuno “sa” quanto pane deve acquistare,
però data questa quantità
2. quando deve comprare si porta dietro un sacchettino di numeri
3. Il sacchettino contiene numeri positivi e negativi
4. Al momento dell’acquisto ognuno estrae un numero dal sacchetto e somma algebricamente il numero estratto alla quantità fissa
5. Compra la quantità data dal risultato della somma/sottrazione
ALLORA IL MODELLO DELLA VARIABILITA’ E’ L’INSIEME DI IPOTESI SULLA COMPOSIZIONE DEL SACCHETTO
POICHE’ SI PARLA DI ESTRAZIONE SARANNO IPOTESI SULLA DISTRIBUZIONE STOCASTICA CHE ORIGINA DAL SACCHETTO
Usualmente nel nostro linguaggio parliamo di “RESIDUI” come la differenza tra la quantità comune fissa e l’acquisto effettivo e ipotizziamo che:
1. Il parametro di popolazione sia “fisso” e comune”2. I residui abbiano media 0 3. Siano omoschedastici 4. Siano incorrelati
Vediamo cosa significa questo nei termini del “sacchetto”
D’ora in poi chiamerò “tombolino” ciascun numero contenuto nel sacchetto
Comincio dal 2: I residui hanno media 0
implica che la somma dei tombolini sia pari a 0 qualunque sia il numero degli stessi
Quindi questi sacchetti vanno bene:
Ma anche questo che, forse, ci piace meno…..
Questo NO!
- 1 - 2 -3 +3 +2 +1 0 0
- 15 +5 +4 +3 +3 0 0
- 15 +5 +20 -1 +3 0 0
- 4 -8 -12 +12 +8 +4 0 0
1. I residui hanno media 0
Che vuol dire??? Ricordate l’esempio della legge dei grandi numeri)
• Vuol dire che se ti osservo “tante” volte quando acquisti il pane la media dei tuoi acquisti è il tuo “fabbisogno” di pane
Oppure SE è vera la ipotesi 1 (parametro fisso e comune):
• Se osservo tanti “come te” (stessa popolazione) che acquistano il pane la media degli acquisti di tutti è il fabbisogno di pane comune a quella popolazione
ABBIAMO GIA’ UN MODO PER CALCOLARE !
TUTTO FATTO? TUTTO RISOLTO? ….. MICA TANTO
Facciamo un esempio: 3 soggetti (A;B;C) tutti con lo stesso sacchetto con i seguenti “tombolini”
Se osserviamo un atto di acquisto, le combinazioni possibili sono e la somma delle deviazioni sarà:
Cioè la somma = 0che consente il calcolocorretto della mediaè la più frequente7 volte su 27 occasioni
- 1 +1 0
A 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1B 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1C 0 0 0 1 1 1 -1 -1 -1 0 0 0 1 1 1 -1 -1 -1 0 0 0 1 1 1 -1 -1 -1
TOT 0 1 -1 1 2 0 -1 0 -2 1 2 0 2 3 1 0 1 -1 -1 0 -2 0 1 -1 -2 -1 -3
-3 -2 -1 0 1 2 30
1
2
3
4
5
6
7
8
Somma
Num
ero
di c
asi
Ma se immaginiamo un signor C più “stravagante” …
Cioè A=B= e C=
le combinazioni possibili diventano:
Ora la somma = 0Non è più la sola più probabileAbbiamo la stessa prob.di calcolare la media “vera”O una media sbagliata di + o – 3 punti
- 1 +1 0 - 5 +5 0
A 0 0 0 0 0 0 0 0 0 5 5 5 5 5 5 5 5 5 -5 -5 -5 -5 -5B 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1C 0 0 0 1 1 1 -1 -1 -1 0 0 0 1 1 1 -1 -1 -1 0 0 0 1 1
TOT 0 1 -1 1 2 0 -1 0 -2 5 6 4 6 7 5 4 5 3 -5 -4 -6 -4 -3
-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 70
1
2
3
4
Somma
Num
ero
di c
asi
Quindi il modello funziona se la “composizione del sacchetto, oltre ad avere media = 0
E’ anche “simile” cioè ha la stessa varianza o come si dice con una bella parola è OMOSCHEDASTICA
Cioè se è vera la terza ipotesi
E l’INCORRELAZIONE??
Nella nostra metafora significa che i tre signori estraggono indipendentemente, cioè non si fanno influenzare
Se ad esempio il Sig. B “copia” da A, cioè B non estrae, ma usa il tombolino di A succede quanto segue:
a b c somma0 0 0 00 0 1 10 0 -1 -11 1 0 21 1 1 31 1 -1 1-1 -1 0 -2-1 -1 1 -1-1 -1 -1 -3
-3 -2 -1 0 1 2 30
1
2
3
somma
num
ero
di c
asiQui è ancora peggio:
I valori più probabili sono
“sbagliati”
In sintesi OLS è un modello piuttosto particolare, spesso non abbiamo alternative ad accettare quelle ipotesi, tuttavia dobbiamo essere coscienti della loro particolarità.
Se consideriamo la prima “il parametro è fisso e comune” spesso ce la caviamo sostenendo che se così NON è allora la popolazione è eterogenea, cioè non è un collettivo, ci sono degli “infiltrati”
Peraltro, tutti o i test che verificano/falsificano questa ipotesi si basano proprio sulla assunzione che vorremmo verificare. (ci torneremo)
In pratica cerchiamo di attenuare questo problema scegliendo un algoritmo di stima che garantisce che i RESIDUI OSSERVATI (uno per ogni unità, non quelli di CIASCUNA UNITA’) abbiano somma 0
Per quanto riguarda l’ipotesi di omoschedasticità e incorrelazione la diagnosi è difficilissima, ma una volta riconosciuto il tipo di malattia, la terapia è facile
Ci occuperemo della terapia tra poco, ma la cosa da tenere a mente è che ci sono (molte) situazioni in cui sappiamo già da prima che la malattia c’è, cioè che il modo in cui le unità si comportano o si “fanno” osservare implica una diversa variabilità individuale e/o una correlazione tra le osservazioni
In questi casi la malattia non si può ignorare
MA RIPASSIAMO UN MOMENTO GLI OLS
Per trovare un “buon valore” dobbiamo porre delle condizioni ad esempio:
n individui su cui è misurata una variabile YNumerose possibilità di descrivere il collettivo, ad esempio la MEDIA Ma che modello è???? La misura individuale è data da:
iiy
ny
ny
a
nySderivando
ynyyySMin
cioè
ySMin
ii
i
iiii
ii
22
ˆ
022)(
2)2()(
)(
2222
22
a è una stima che proprietà ha?:
22
222
1
111)(
01
nnn
nn
nnnny
naV
nn
En
EnyEaE
yn
nynyyay
ii
iii
iii
iii
iii
Il residuo è la “parte” stocastica della stime e quindi del modello.
Ma c’è un altro modo di vedere la stima: la misura individuale è data da una parte costante + parte stocastica. Se ricordiamo OLS, avremmo una esplicativa costante + residui
ixconxy iiii ,1
XY
Per il collettivo (con X,Y, vettori/matrici):
111'111
3
2
1
XX
yyy
Y
331')'(
111'
31)'(3111
111
111'
')'(ˆ
3
13
1
1
3
13
2
1
1
1
ii
ii
ii
yyYXXXa
yyyy
YX
XXXX
YXXXa
Cerchiamo una stima a per : sappiamo che in forma matriciale la soluzione che abbiamo trovato prima diventa:
Ma si tratta di un caso particolare di una soluzione GENERALE posto lo stesso vincolo di minimizzazione Min(’ ), nel caso di eteroschedasticità si ottiene (torneremo sulla dimostrazione)
con = matrice di Var/Covar degli
YXXXa ''ˆ 1
YXXXa 111 ')'(ˆ
È esattamente la rappresentazione dei nostri “tombolini” Rappresenta (misura) tutta la nostra incertezza (variabilità e covariabilità)sulle misurazioni singole
Ha dimensione nxn
Sulla diagonale principale ha l’incertezza sulla misura del singolo individuo(ad esempio l’imprecisione del metro con cui abbiamo misurato Tizio)
Fuori dalla diagonale ha la misura della correlazione tra gli errori delle misuretra diversi individui(Ad esempio abbiamo misurato Tizio e Caio con lo stesso metro “sbagliato”)
Di solito (ad esempio OLS) non si “vede”….perchè????
Ricordiamo che la soluzione OLS è YXXXb ''ˆ 1
Perché OLS, è un caso particolare:
Se è diagonale (tutti e soli valori uguali sulla diagonale), allora diventa uno scalare e si può “semplificare”:
E’ una “regola” dell’algebra matriciale, ma vediamola con un esempio:
3 individui su cui abbiamo misurato una variabile Y, con un errore S², senza lacuna relazione tra gli errori per individui diversi:
2
2
2
1
2
2
2
3
2
1
100
010
001
000000
111'111
s
s
s
ss
sXX
yyy
Y
33')'(
111'
3)'(3'111'
')'(ˆ
3
12
3
12
111
2
3
1
3
2
1
2221
211
21
2221
111
ii
ii
ii
y
s
ysYXXXa
s
y
yyy
sssYX
sXXs
XXsss
X
YXXXa
OPLA’! Media aritmetica! , cioè la “raccolta” degli S², è svanito!
Va sempre tutto così liscio????? Mica tanto…
Immaginiamo che le 3 misure derivino da 3 campioni casuali semplici, come sappiamo l’errore è direttamente proporzionale alla variabilità (per ora supponiamo uguale per tutti) delle singole misure e inversamente proporzionale alla numerosità del campione:(naturalmente se i tre campioni hanno numerosità uguale, siamo nel caso di prima), ma se così non è……….
23
22
21
1
3
22
21
2
3
2
1
00
00
00
00
00
00
111'111
sn
sn
sn
ns
ns
ns
XXyyy
Y
3
1
3
12
3
13
1
2111
2
3
1
3
2
1
23
22
211
3
1
211
2
3
1123
22
211
111
')'(
'
)'(''
')'(ˆ
ii
iii
iii
ii
iii
ii
ii
n
yn
s
yn
n
sYXXXa
s
yn
yyy
sn
sn
snYX
n
sXXs
nXX
sn
sn
snX
YXXXa
OPPPSS! Media “PONDERATA”! , non scompare del tutto
Adesso abbiamo imparato il trucco: Cosa succede se gli errori sono diversi?
23
22
21
1
23
22
21
100
010
001
000000
s
s
s
ss
s
ii
i ijji
s
sy
sssssyssyssy
sssssssssa
sssssyssyssy
sy
sy
syYX
sssssssssXX
sssssssssXX
sssX
2
2
23
22
21
22
213
23
212
23
221
22
21
23
21
23
22
23
22
21
23
22
21
22
213
23
212
23
221
23
322
221
11
22
21
23
21
23
22
23
22
2111
23
22
21
22
21
23
21
23
221
23
22
21
1
'
)'(
'111'
UHMMM! Una Media “PONDERATA” Strana ! , non scompare proprio per niente!!!!!
E se c’è correlazione? Dipende… a volte niente
3
3
1
23
22
21
iiy
asrrrsrrrs
34)2)(1(
10101
321
ryyyra
rrr
r
A volte molto (notate la semplificazione S=1)
Ogni y viene moltiplicato per il numero di correlazioni 0, 4 è il numero totale di r 0, 3 è il numero di individui…….
UHMM le cose si complicano.......
XY
E del collettivo:
n individui su cui sono misurateY (nx1) = 1 variabile dipendente X (nxk)=K esplicative
Il modello che descrive il comportamento dell’individuo:
k
piippi xy
1
Cerchiamo una stima b per
Distinguiamo il modello “vero” dalla stima:
""
""
stimaeXbY
veroXY
Per stimare dobbiamo fissare un criterio:
YXXXb
XXXYSderivando
XXXYYYXYXYSMincioè
xySMin ippii
''ˆ
0'2'2)(
'''2'')(
)(
1
22
Questo implica una ipotesi sul rango della X che deve essere = k
Cioè le esplicative non possono essere tra loro dipendenti
Consideriamo un modello semplice: i=1,…,5 n=5 individui
iii xy
5
4
3
2
1
5
4
3
2
1
11111
yyyyy
Y
xxxxx
X
YXXX
xxx
xxXX
yxy
YXxxx
XX
i
ii
ii
ii
i
ii
i
''
5251'
'5
'
1
2
21
2
Alcune implicazioni:
!!0
0''')'('')(''
0'')(''ˆ
ˆ)(ˆ
''
''ˆ
1
1
1
inizialeipotesie
YXYXYXXXXXYXYPIXeX
anchemaPYYPYYYPIPYeY
ortogonalieY
MYYPIPYYYYe
alloraXXXXP
conPYYXXXXXY
i
Ma la prima colonna di X è una colonna di 1, moltiplicata per e diventa la somma dei residui, quindi:
B è una stima che proprietà ha?:
121
11
1
1
111
'''
''''')/(
0)(
)(''/
''
'')(''''
XXXXE
XXXEXXXbbEXbV
ipotesiperEessendo
EXXXXbE
alloraXXXb
XXXXXXXYXXXb
Questo implica X non stocastiche e omoschedasticità
Riassumendo: ipotesi per OLS
1. Modello lineare
2. X e Y sono frutto di osservazioni indipendenti
3. X è di rango pieno
4. I residui hanno media = 0
5. I residui sono omoschedastici
6. X e non-stocastica
7. (non indispensabile) i residui hanno distribuzione normale
331'
3
111
111'
111
2
22
1
2
3
2
1
321
3
2
1
3
2
1
i
ii
ii
ii
i
xxx
xxXX
xxx
xxx
xxxXX
yyy
Yxxx
X
Un esempio:
Attenzione al denominatore
331'
3933
93333
21
2222
222222
i
ii
x
xixi
iiii
xxx
XX
xxxx
ma
xxxxxx
yxyxyxxxy
yxyxyxxyx
yxy
xxx
YXXXB
yxy
yyy
xxxYX
ii
iii
x
iiii
iiiii
x
ii
i
i
ii
x
ii
i
9333
31
331
331''
111'
2
2
21
3
2
1
321
x
xy
xyii
iix
b
quindi
yxyx
ma
yxyxb
2
2
393
9331
Consideriamo la seconda riga:
Sistemiamo la prima riga della matrice
21
22
2
2
1
)33
)3()3(
bxyxyb
yxxyxy
yxxxy
yxxxyb
x
xy
x
xyx
x
xyx
x
iii
un modello molto(!) semplice (2 osservazioni)
mediay
b
yyy
YX
XX
OLSY
i
i
2
11'
212
11
11'
2
1
11
1
YXXXb 11* ')'(
OLS Caso particolare di un algoritmo più generale (vedremo in seguito)
Matrice Varianza/covarianza degli
ESEMPIO DI CALCOLO