monimuuttujamenetelmät: yleinen lineaarinen malli
TRANSCRIPT
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 1/67
Monimuuttujamenetelmät: Yleinen lineaarinen malli Ilkka Mellin
1. Yleisen lineaarisen mallin määritteleminen 1.1. Yleinen lineaarinen malli ja mallin oletukset 1.2. Yleisen lineaarisen mallin matriisiesitys 2. Yleisen lineaarisen mallin parametrien estimointi 2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista 3. Testaus ja ennustaminen yleisessä lineaarisessa mallissa 3.1. Regressiokertoimia koskevat testit 3.2. Ennustaminen yleisellä lineaarisella mallilla 4. Edistyneempää lineaarista regressioanalyysia 4.1. PNS-estimaattorin hyvyys 4.2. Yleistetty pienimmän neliösumman menetelmä 4.3. Lineaariset rajoitukset 4.4. Stokastiset selittäjät
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 2/67
Monimuuttujamenetelmät:
Yleinen lineaarinen malli
1. Yleisen lineaarisen mallin määritteleminen
1.1. Yleinen lineaarinen malli ja mallin oletukset YLEINEN LINEAARINEN MALLI SELITTÄVÄT MUUTTUJAT JA NIIDEN ARVOJA KOSKEVAT OLETUKSET JÄÄNNÖSTERMI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄ MUUTTUJA JA SEN ARVOJEN STOKASTISET OMINAISUUDET YLEISEN LINEAARISEN MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOTASO REGRESSIOKERTOIMET JA NIITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOKERTOIMIEN TULKINTA YLEISEN LINEAARISEN MALLIN PARAMETRIT YLEISEN LINEAARISTA MALLIN STANDARDIOLETUKSET
1.2. Yleisen lineaarisen mallin matriisiesitys MATRIISIESITYS YLEISELLE LINEAARISEN MALLILLE SELITTÄJIEN HAVAITTUJEN ARVOJEN MATRIISI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIEN VEKTORI JA SITÄ KOSKEVAT OLETUKSET JÄÄNNÖSTERMIÄ KOSKEVIEN OLETUKSIEN TULKINTA SELITETTÄVÄN MUUTTUJAN HAVAITTUJEN ARVOJEN VEKTORI JA SEN STOKASTISET OMINAISUUDET YLEISEN LINEAARISEN MALLIN SYSTEMAATTINEN OSA JA SATUNNAINEN OSA REGRESSIOTASO REGRESSIOKERTOIMIEN VEKTORI JA SITÄ KOSKEVAT OLETUKSET VAKIOPARAMETRISUUSOLETUS REGRESSIOKERTOIMIEN TULKINTA YLEISEN LINEAARISEN REGRESSIOMALLIN PARAMETRIT YLEISEN LINEAARISEN MALLIN STANDARDIOLETUKSET MATRIISIMUODOSSA
2. Yleisen lineaarisen mallin parametrien estimointi
2.1. Parametrien estimointi OLETUKSET REGRESSIOKERTOIMIEN PNS-ESTIMAATTORIT REGRESSIOKERTOIMIEN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORIT ESTIMOITU REGRESSIOTASO REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN STOKASTISET OMINAISUUDET SOVITTEET SOVITTEIDEN OMINAISUUDET RESIDUAALIT, RESIDUAALIEN OMINAISUUDET SOVITTEIDEN JA RESIDUAALIEN OMINAISUUDET JÄÄNNÖSVARIANSSIN HARHATON ESTIMAATTORI
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 3/67
JÄÄNNÖSVARIANSSIN SUURIMMAN USKOTTAVUUDEN ESTIMAATTORI REGRESSIOKERTOIMIEN PNS-ESTIMAATTOREIDEN VARIANSSIEN ESTIMOINTI REGRESSIOKERTOIMIEN LUOTTAMUSVÄLIT VARIANSSIANALYYSIHAJOTELMA VARIANSSIANALYYSIHAJOTELMAN TULKINTA SELITYSASTE SELITYSASTEEN OMINAISUUDET
2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista OLETUKSET REGRESSIOKERTOIMIEN ESTIMOINTI KOVARIANSSEISTA REGRESSIOKERTOIMIEN ESTIMOINTI KORRELAATIOISTA
3. Testaus ja ennustaminen yleisessä lineaarisessa mallissa
3.1. Regressiokertoimia koskevat testit OLETUKSET REGRESSIOKERTOIMIA KOSKEVAT TESTIT REGRESSION OLEMASSAOLON TESTAAMINEN YKSITTÄISTEN REGRESSIOKERTOIMIEN TESTAAMINEN TESTIT JA MALLIN VALINTA ASKELLUS ALASPÄIN
3.2. Ennustaminen yleisellä lineaarisella mallilla OLETUKSET ENNUSTAMISONGELMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTAMINEN SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ODOTETTAVISSA OLEVAN ARVON LUOTTAMUSVÄLI SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTAMINEN ENNUSTEVIRHE SELITETTÄVÄN MUUTTUJAN ARVON ENNUSTEEN JAKAUMA SELITETTÄVÄN MUUTTUJAN ARVON LUOTTAMUSVÄLI
4. Edistyneempää lineaarista regressioanalyysia
4.1. PNS-estimaattorin hyvyys OLETUKSET PNS-ESTIMAATTORIN HYVYYS GAUSSIN JA MARKOVIN LAUSE
4.2. Yleistetty pienimmän neliösumman menetelmä OLETUKSET YLEISTETTY PIENIMMÄN NELIÖSUMMAN ESTIMAATTORI YLEISTETYN PNS-ESTIMAATTORIN OMINAISUUDET YLEISTETYN PNS-ESTIMAATTORIN HYVYYS
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 4/67
4.3. Lineaariset rajoitukset OLETUKSET RAJOITETTU PIENIMMÄN NELIÖSUMMAN ESTIMAATTORI RAJOITETUN PNS-ESTIMAATTORIN OMINAISUUDET RAJOITETUN PNS-ESTIMAATTORIN PAREMMUUS RAJOITUKSIEN TESTAAMINEN
4.4. Stokastiset selittäjät OLETUKSET KIINTEÄT JA SATUNNAISET SELITTÄJÄT EHDOLLISTAMINEN
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 5/67
1. Yleisen lineaarisen mallin määritteleminen
1.1. Yleinen lineaarinen malli ja mallin oletukset
Yleinen lineaarinen malli Usean selittäjän lineaarisessa regressiomallissa eli yleisessä lineaarisessa mallissa
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
on seuraavat osat:
yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t
xti = selittävän muuttujan xi , i = 1, 2, … , k, kiinteä (ei-satunnainen) ja havaittu arvo havainnossa t
β0 = vakioselittäjän regressiokerroin, kiinteä (ei-satunnainen) ja tuntematon vakio
βi = selittäjän xi , i = 1, 2, … , k, regressiokerroin, kiinteä (ei-satunnainen) ja tuntematon vakio
εt = jäännöstermin ε satunnainen ja ei-havaittu arvo havainnossa t
Malli (1) kuvaa selitettävän muuttujan y havaittujen arvojen yt lineaarista tilastollista riippuvuutta selittävien muuttujien eli selittäjien x1, x2, … , xk havaituista arvoista xt1, xt2, … , xtk . Mallin (1) tavoitteena on selittää muuttujan y havaittujen arvojen vaihtelu muuttujien x1, x2, … , xk havaittujen arvojen vaihtelun avulla.
Huomautus 1:
Mallin (1) lineaarisuudella tarkoitetaan sitä, että malli on lineaarinen regressio- kertoimien β0, β1, β2, … , βk suhteen, mutta on syytä huomata, että malli on lineaarinen myös selittäjien x1, x2, … , xk arvojen suhteen.
Huomautus 2:
Selitettävä muuttuja y oletetaan mitta-asteikollisilta ominaisuuksiltaan jatkuvaksi.
Huomautus 3:
Vakio β0 on vakioselittäjän (selittäjän, jonka jokainen havaintoarvo = 1) regressio- kerroin. Vakioselittäjä ei ole samassa mielessä aito selittäjä kuin muuttujat x1, x2, … , xk .
Huomautus 4:
Kaikki yleisen lineaarisen mallin (1) estimointia koskevat tulokset eivät päde tässä esitettävässä muodossa, jos mallissa ei ole vakioselittäjää.
Selittävät muuttujat ja niiden arvoja koskevat oletukset Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
selittävien muuttujien xi havaitut arvot xti oletetaan kiinteiksi eli ei-satunnaisiksi. Tiukasti ottaen tämä ehto voi toteutua vain sellaisissa tilanteissa, joissa selittäjien arvot valitaan.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 6/67
Tietyin ehdoin selittävien muuttujien satunnaisuudella ei kuitenkaan ole vaikutusta tässä luvussa esitettäviin tuloksiin; ks. kappaletta 4.4.
Selittäjien xi havaituista arvoista xti tehdään tavallisesti lisäksi oletus, joka takaa sen, että regressiokertoimilla β0, β1, β2, … , βk on yksikäsitteiset pienimmän neliösumman estimaattorit.
Muodostetaan jokaisen selittäjän xi havaituista arvoista xti , t = 1, 2, … , n, n-vektori
x·i = (x1i, x2i, … , xni) , i = 1, 2, … , k
ja olkoon
1 = (1, 1, … , 1)
ykkösten muodostama n-vektori.
Oletus, joka takaa sen, että regressiokertoimilla β0, β1, β2, … , βk on yksikäsitteiset pienimmän neliösumman estimaattorit on se, että vektorit
x·1, x·2, … , x·p ja 1
ovat lineaarisesti riippumattomia. Jos oletus vektoreiden x·1, x·2, … , x·p ja 1 lineaarisesta riippumattomuudesta ei päde, ainakin yksi vektoreista x·1, x·2, … , x·p ja 1 voidaan lausua muiden lineaarikombinaationa, jolloin vastaava selittäjä on redundantti ja se voidaan poistaa mallista.
Huomautus:
Oletus vektoreiden x·1, x·2, … , x·p ja 1 lineaarisesta riippumattomuudesta merkitsee sitä, että havaintoja on oltava vähintään yhtä paljon kuin selittäjiä eli että n ≥ k+1.
Jäännöstermit ja niitä koskevat oletukset Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
jäännöstermit εt ovat ei-havaittuja satunnaismuuttujia. Jäännöstermeistä εt oletetaan, että
(2) E(εt) = 0 , t = 1, 2, … , n
(3) D2(εt) = σ 2 , t = 1, 2, … , n
(4) Cov(εs, εt) = 0 , jos s ≠ t
Jos lisäksi oletetaan, että jäännöstermit εt noudattavat normaalijakaumaa, niin oletuksista (2) ja (3) seuraa, että
(5) εt ∼ N(0, σ 2) , t = 1, 2, … , n
Jäännöstermejä koskevien oletuksien tulkinta Oletuksen (2) mukaan kaikilla jäännöstermeillä εt on sama odotusarvo:
E(εt) = 0, t = 1, 2, … , n
Jäännöstermit εt vaihtelevat satunnaisesti havainnosta toiseen, mutta nollan ympärillä.
Oletuksen (3) mukaan kaikilla jäännöstermeillä εt on sama varianssi:
D2(εt) = σ 2, t = 1, 2, … , n
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 7/67
Tätä oletusta kutsutaan homoskedastisuusoletukseksi. Jos jäännöstermien εt varianssi vaihtelee havainnosta toiseen, jäännöstermit ovat heteroskedastisia. Jäännöstermien yhteistä varianssia σ 2 kutsutaan mallin jäännösvarianssiksi.
Oletuksen (4) mukaan jäännöstermit ovat korreloimattomia.
Selitettävä muuttuja ja sen arvojen stokastiset ominaisuudet Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
selitettävän muuttujan y havaitut arvot yt ovat satunnaisia. Jäännöstermeistä εt edellä tehdyistä oletuksista (2)-(4) ja siitä, että selittäjien x1, x2, … , xk havaitut arvot xt1, xt2, … , xtk on oletettu ei-satunnaisiksi seuraa, että selitettävän muuttujan y havaituilla arvoilla yt on seuraavat stokastiset ominaisuudet:
(2)´ E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
(3)´ D2(yt) = σ 2 , t = 1, 2, … , n
(4)´ Cov(ys, yt) = 0 , jos s ≠ t
Jos jäännöstermit εt noudattavat normaalijakaumaa, niin myös selitettävän muuttujan y havaitut arvot yt noudattavat normaalijakaumaa:
(5)´ yt ∼ N(E(yt), σ 2) , t = 1, 2, … , n
Perustelu: (2)´ Koska selittäjien x1, x2, … , xk havaitut arvot xt1, xt2, … , xtk ja regressiokertoimet β0, β1, β2, … , βk on oletettu ei-satunnaisiksi ja
E(εt) = 0 , t = 1, 2, … , n
niin
0 1 1 2 2
0 1 1 2 2
0 1 1 2 2
E( ) E( )E( )
, 1, 2, ,
t t t k tk t
t t k tk t
t t k tk
y x x xx x xx x x t n
β β β β εβ β β β εβ β β β
= + + + + +
= + + + + += + + + + = …
(3)´ Kohdasta (2)´ ja siitä, että
D2(εt) = σ 2 , t = 1, 2, … , n
seuraa, että
2 2 2Var( ) E[( E( )) ] E[ ] Var( ) , 1, 2, ,t t t t ty y y t nε ε σ= − = = = = …
(4)´ Kohdasta (2)´ ja siitä, että
Cov(εs, εt) = 0 , jos s ≠ t
seuraa, että
Cov( , ) E[( E( ))( E( ))] E[ ] Cov( , ) 0s t s s t t s t s ty y y y y y ε ε ε ε= − − = = =
jos s ≠ t.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 8/67
(5)´ Väite seuraa kohdista (2)´-(4)´ sekä siitä, että satunnaismuuttuja yt noudattaa normaalijakaumaa, koska yt on normaalijakaumaa noudattavan satunnais- muuttujan εt lineaarimuunnos.
■
Yleisen lineaarisen mallin systemaattinen osa ja satunnainen osa Jäännöstermeistä εt tehdyistä oletuksista ja siitä, että selittäjät x1, x2, … , xk on oletettu ei-satunnaisiksi seuraa, että yleinen lineaarinen malli
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
voidaan kirjoittaa muotoon
yt = E(yt) + εt , t = 1, 2, … , n
jossa odotusarvo
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
on vakio, joka riippuu selittäjien x1, x2, … , xk saamista arvoista havainnossa t ja jäännöstermi
εt , t = 1, 2, … , n
on satunnaismuuttuja, joka ei riipu selittäjien x1, x2, … , xk saamista arvoista havainnossa t.
Siten yleisen lineaarisen mallin (1) selitettävän muuttujan y saamat arvot yt on esitetty mallissa kahden osatekijän summana, jossa osatekijää
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
kutsutaan mallin systemaattiseksi (tai selittäjien arvoista riippuvaksi) osaksi ja osatekijää
εt , t = 1, 2, … , n
kutsutaan mallin satunnaiseksi (tai selittäjien arvoista riippumattomaksi) osaksi.
Systemaattinen osa E(yt) on lineaarinen sekä regressiokertoimien β0, β1, β2, … , βk että selittäjien x1, x2, … , xk arvojen suhteen.
Regressiotaso Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
systemaattinen osa
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
määrittelee tason
y = β0 + β1x1 + β2xt2 + ⋅⋅⋅ + βkxk
avaruudessa 1k+ . Mallin systemaattisen osan määräämää tasoa kutsutaan regressiotasoksi. Jäännösvarianssi σ 2 mittaa selitettävän muuttujan arvojen vaihtelua regressiotason ympärillä.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 9/67
Regressiokertoimet ja niitä koskevat oletukset Yleisen lineaarisen mallin
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
regressiokertoimet β0, β1, β2, … , βk ovat ei-satunnaisia tuntemattomia vakioita.
Vakioparametrisuusoletus Kun yleinen lineaarinen malli esitetään muodossa
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
oletetaan implisiittisesti, että regressiokertoimet β0, β1, β2, … , βk ovat samat kaikille havainnoille t. Tätä oletusta kutsutaan vakioparametrisuusoletukseksi.
Regressiokertoimien tulkinta Oletetaan, että jokaisella selittävällä muuttujalla xi on vakioarvo ix , i = 1, 2, … , k. Tällöin yleisen lineaarisen mallin
yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
selitettävän muuttujan y saaman arvon systemaattisella osalla
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
on vakioarvo
0 1 1 2 2E( ) k ky y x x xβ β β β= = + + + +
Oletetaan, että selitettävän muuttujan xi arvo ix kasvaa yhdellä yksiköllä:
1i ix x→ +
ja kaikkien muiden selittäjien arvot pysyvät ennallaan. Tällöin selitettävän muuttujan y saaman arvon systemaattinen osa y = E(y) muuttuu regressiokertoimen βi verran:
iy y β→ +
Siten regressiokerroin βi kertoo paljonko sitä vastaavan selittäjän xi arvossa tapahtuva yksikön kokoinen lisäys muuttaa selitettävän muuttujan y saaman arvon systemaattista osaa.
Yleisen lineaarisen mallin parametrit Yleisen lineaarisen mallin (1) parametreja ovat regressiokertoimet
β0, β1, β2, … , βk
ja jäännösvarianssi σ 2.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 10/67
Yleisen lineaarisen mallin standardioletukset Usean selittäjän lineaarisessa regressiomallissa eli yleisessä lineaarisessa mallissa
(1) yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
on seuraavat osat:
yt = selitettävän muuttujan y satunnainen ja havaittu arvo havainnossa t
xti = selittäjän xi , i = 1, 2, … , k, ei-satunnainen ja havaittu arvo havainnossa t
β0 = vakioselittäjän ei-satunnainen ja tuntematon regressiokerroin
βi = selittäjän xi , i = 1, 2, … , k, ei-satunnainen ja tuntematon regressiokerroin
εt = satunnainen ja ei-havaittu jäännöstermi havainnossa t
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Selittäjien xi arvot xti ovat ei-satunnaisia, t = 1, 2, … , n , i = 1, 2, … , k.
(ii) n-vektorit
x·i = (x1i, x2i, … , xni) , i = 1, 2, … , k
ja n-vektori
1 = (1, 1, … , 1)
ovat lineaarisesti riippumattomia.
(iii) E(εt) = 0 , t = 1, 2, … , n
(iv) D2(εt) = σ 2 , t = 1, 2, … , n
(v) Cov(εs, εt) = 0 , jos s ≠ t
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermejä εt koskeva normaalisuusoletus:
(vi) εt ∼ N(0, σ 2) , t = 1, 2, … , n
1.2. Yleisen lineaarisen mallin matriisiesitys
Matriisiesitys yleiselle lineaariselle mallille Yleisen lineaarisen mallin
yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n , n ≥ k+1
matriisiesitys saadaan seuraavalla tavalla:
(i) Muodostetaan selitettävän muuttujan y havaituista arvoista
y1, y2, … , yn
n-vektori
y = (y1, y2, … , yn)
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 11/67
(ii) Muodostetaan selittävien muuttujien x1, x2, … , xk havaituista arvoista
x11, x21, … , xn1 ; x12, x22, … , xn2 ; … ; x1k, x2k, … , xnk
n×(k + 1)-matriisi
11 12 1
21 22 2
1 2
11
1
k
k
n n nk
x x xx x x
x x x
=
X
(iii) Muodostetaan regressiokertoimista β0, β1, β2, … , βk (k+1)-vektori
β = (β0, β1, β2, … , βk)
(iv) Muodostetaan jäännöstermeistä ε1, ε2, … , εn n-vektori
ε = (ε1, ε2, … , εn)
Tällöin yleinen lineaarinen malli voidaan esittää matriisein seuraavassa muodossa:
(1) y = Xβ + ε
Mallissa (1) vektorit y ja ε ovat satunnaisvektoreita, kun taas matriisi X ja vektori β ovat ei-satunnaisia, vektori y ja matriisi X ovat havaittuja, kun taas vektorit ε ja β ovat ei-havaittuja tai tuntemattomia.
Ositetaan selittäjien x1, x2, … , xk havaituista arvoista muodostettu n×(k+1)-matriisi X seuraavalla tavalla:
X = [1 X1]
missä
1 = (1, 1, … , 1)
on ykkösten muodostama n-vektori ja
11 12 1
21 22 21
1 2
k
k
n n nk
x x xx x x
x x x
=
X
on selittäjien x1, x2, … , xk havaittujen arvojen
xti , t = 1, 2, … , n , i = 1, 2, … , k
muodostama n×k-matriisi.
Olkoon
zt = (1, xt·) , t = 1, 2, … , n
matriisin X t. rivin alkioiden 1, xt1, xt2, … , xtk muodostama (k+1)-vektori, missä
xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n
on selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t. Vektori xt· on n×k-matriisin X1 t. rivivektori.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 12/67
Olkoon
x·i = (x1i, x2i, … , xni) , i = 1, 2, … , k
matriisin X1 i. sarakkeen alkioiden x1i, x2i, … , xni muodostama n-vektori. Vektori x·i muodostuu selittäjän xi havaituista arvoista.
Matriisi X voidaan esittää sarakevektoreidensa 1, x·1, x·2, … , x·k avulla seuraavalla tavalla ositettuna:
X = [1 x·1 x·2 … x·k]
Ositetaan regressiokertoimien vektori β vastaavalla tavalla kuin vektori zt :
β = (β0, β1)
missä β0 on vakioselittäjän regressiokerroin ja β1 = (β1, β2, … , βk) aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk muodostama k-vektori.
Tällöin yleinen lineaarinen malli (1) voidaan esittää muodoissa
y = Xβ + ε = β01 + X1β1 + ε
ja
0 1 , 1,2, ,t t t t ty t nε β ε′ ′= + = + + =β z β x i …
Huomautus 1:
Malli (1) on lineaarinen regressiokertoimien vektorin β suhteen.
Huomautus 2:
Koska matriisin X ensimmäisenä sarakkeena on ykkösten muodostama n-vektori
1 = (1, 1, … , 1)
mallissa (1) on vakioselittäjä. Vakioselittäjää vastaa regressiokerroin β0. Vakioselittäjä ei ole samassa mielessä aito selittäjä kuin muuttujat
x1, x2, … , xk
Huomautus 3:
Kaikki yleisen lineaarisen mallin (1) estimointia koskevat tulokset eivät päde tässä esitettävässä muodossa, jos mallissa ei ole selittäjänä vakiota.
Selittäjien havaittujen arvojen matriisi ja sitä koskevat oletukset Yleisen lineaarisen mallin
(1) y = Xβ + ε
selittäjien havaittujen arvojen matriisi X oletetaan kiinteäksi eli ei-satunnaiseksi.
Matriisista X tehdään tavallisesti oletus, jonka takaa sen, että regressiokertoimien vektorilla β on yksikäsitteinen pienimmän neliösumman estimaattori. Matriisista X tehtävä oletus on se, että matriisin X sarakevektoreiden pitää olla lineaarisesti riippumattomia eli matriisin X pitää olla täysiasteinen:
r(X) = k+1
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 13/67
Huomautus:
Oletus matriisin X sarakevektoreiden lineaarisesta riippumattomuudesta merkitsee sitä, että havaintoja pitää olla vähintään yhtä paljon kuin selittäjiä eli että n ≥ k+1.
Jäännöstermien vektori ja sitä koskevat oletukset Yleisen lineaarisen mallin
(1) y = Xβ + ε
jäännöstermi ε on ei-havaittu satunnaismuuttuja, jota koskevat oletukset voidaan esittää muodossa
(2) E(ε) = 0
(3)-(4) Cov(ε) = σ 2I
Jos lisäksi oletetaan, että jäännöstermi ε noudattaa multinormaalijakaumaa, niin oletuksista (2) ja (3)-(4) seuraa, että
(5) ε ∼ Nn(0, σ 2I)
Jäännöstermejä koskevien oletuksien tulkinta Oletuksen (2) mukaan kaikilla jäännöstermeillä εt on sama odotusarvo:
E(εt) = 0 , t = 1, 2, … , n
Siten jäännöstermit εt vaihtelevat satunnaisesti havainnosta toiseen, mutta nollan ympärillä.
Oletuksen (3)-(4) mukaan jäännöstermit εt ovat korreloimattomia ja lisäksi kaikilla jäännöstermeillä on sama varianssi:
D2(εt) = σ 2 , t =1, 2, … , n
Oletusta D2(εt) = σ 2 , t =1, 2, … , n, kutsutaan homoskedastisuusoletukseksi. Jos jäännös-termien εt varianssi vaihtelee havainnosta toiseen, jäännöstermit ovat heteroskedastisia. Jäännöstermien yhteistä varianssia σ 2 kutsutaan mallin jäännösvarianssiksi.
Selitettävän muuttujan havaittujen arvojen vektori ja sen stokastiset ominaisuudet Yleisen lineaarisen mallin
(1) y = Xβ + ε
selitettävän muuttujan y havaittujen arvojen vektori y on satunnainen. Jäännöstermistä ε tehdyistä oletuksista (2) ja (3) ja siitä, että matriisi X on oletettu ei-satunnaiseksi seuraa, että selitettävän muuttujan y havaittujen arvojen vektorilla y on seuraavat stokastiset ominaisuudet:
(2)´ E(y) = Xβ
(3)´-(4)´ Cov(y) = σ 2I
Jos jäännöstermi ε noudattaa multinormaalijakaumaa, niin myös selitettävän muuttujan y havaittujen arvojen vektori y noudattaa multinormaalijakaumaa:
(5)´ y ∼ Nn(Xβ, σ 2I)
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 14/67
Perustelu:
(2)´ Koska X ja β ovat ei-satunnaisia ja
E(ε) = 0
niin E( ) E( ) E( )= + = + =y Xβ ε Xβ ε Xβ
(3)´-(4)´
Kovarianssimatriisin määritelmästä, kohdasta (2)´ ja siitä, että
Cov(ε) = σ 2I
seuraa, että
2Cov( ) E[( E( ))( E( )) ] E[ ] Cov( ) σ′ ′= − − = = =y y y y y εε ε I
(5)´ Väite seuraa kohdista (2)´ ja (3)´-(4)´ sekä siitä, että satunnaismuuttuja y noudattaa multinormaalijakaumaa, koska y on multinormaalijakaumaa noudattavan satunnaismuuttujan ε lineaarimuunnos.
■
Yleisen lineaarisen mallin systemaattinen osa ja satunnainen osa Jäännöstermistä ε tehdyistä oletuksista ja siitä, että matriisi X on oletettu ei-satunnaiseksi seuraa, että yleinen lineaarinen malli
(1) y = Xβ + ε
voidaan kirjoittaa muotoon
y = E(y) + ε
jossa odotusarvo
E(y) = Xβ
on vakio, joka riippuu selittäjien x1, x2, … , xk saamien arvojen matriisista X ja jäännöstermi
ε
on satunnaismuuttuja, joka ei riipu selittäjien saamista arvoista.
Siten yleisen lineaarisen mallin (1) selitettävän muuttujan arvojen vektori y on esitetty kahden osatekijän summana, jossa osatekijää
E(y) = Xβ
kutsutaan mallin systemaattiseksi (tai selittäjien arvoista riippuvaksi) osaksi ja osatekijää
ε
kutsutaan mallin satunnaiseksi (tai selittäjien arvoista riippumattomaksi) osaksi. Systemaattinen osa E(y) on lineaarinen regressiokertoimien vektorin β suhteen.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 15/67
Regressiotaso Yleisen lineaarisen mallin
(1) y = Xβ + ε
systemaattinen osa
E(y) = Xβ
määrittelee tason
(2) 0 1y β′ ′= = +β z β x
(k+1)-ulotteisessa avaruudessa 1k+ . Yhtälössä (2)
β = (β0, β1, β2, … , βk) = (β0, β1)
on regressiokertoimien muodostama (k+1)-vektori, missä β0 on vakioselittäjän regressio-kerroin ja β1 = (β1, β2, … , βk) aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk muodostama k-vektori ja
z = (1, x)
on (k+)-vektori, missä k-vektori x = (x1, x2, … , xk) k∈ . Tasoa (2) kutsutaan regressio-tasoksi. Jäännösvarianssi σ 2 mittaa selitettävän muuttujan arvojen vaihtelua regressiotason (2) ympärillä.
Regressiokertoimien vektori ja sitä koskevat oletukset Yleisen lineaarisen mallin
(1) y = Xβ + ε
regressiokertoimien vektori β on tuntemattomien ei-satunnaisten vakioiden muodostama (k+1)-vektori.
Vakioparametrisuusoletus Kun yleinen lineaarinen malli esitetään muodossa
yt = β´zt + εt , t = 1, 2, … , n
oletetaan implisiittisesti, että regressiokertoimien vektori β on sama kaikille havainnoille t. Tätä oletusta kutsutaan vakioparametrisuusoletukseksi.
Regressiokertoimien tulkinta Oletetaan, että jokaisella selittävällä muuttujalla xi on vakioarvo ix , i = 1, 2, … , k.
Tällöin yleisen lineaarisen mallin
yt = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk + εt , t = 1, 2, … , n
selitettävän muuttujan y saaman arvon systemaattisella osalla
E(yt) = β0 + β1xt1 + β2xt2 + ⋅⋅⋅ + βkxtk , t = 1, 2, … , n
on vakioarvo
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 16/67
0 1 1 2 2E( ) k ky y x x xβ β β β= = + + + +
Oletetaan, että selitettävän muuttujan xi arvo ix kasvaa yhdellä yksiköllä:
1 , 1, 2, ,i ix x i k→ + = …
ja kaikkien muiden selittäjien arvot pysyvät ennallaan. Tällöin selitettävän muuttujan y saaman arvon systemaattinen osa y = E(y) muuttuu regressiokertoimen βi verran:
, 1, 2, ,iy y i kβ→ + = …
Siten regressiokerroin βi kertoo paljonko sitä vastaavan selittäjän xi arvossa tapahtuva yksikön kokoinen lisäys muuttaa selitettävän muuttujan y saaman arvon systemaattista osaa.
Yleisen lineaarisen mallin parametrit Yleisen lineaarisen mallin (1) parametreja ovat regressiokertoimien vektori β ja jäännös-varianssi σ 2.
Yleisen lineaarisen mallin standardioletukset matriisimuodossa Matriisimuotoisessa usean selittäjän lineaarisessa regressiomallissa eli yleisessä lineaarisessa mallissa
(1) y = Xβ + ε
on seuraavat osat:
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Matriisi X on ei-satunnainen.
(ii) r(X) = k+1
(iii) E(ε) = 0
(iv)-(v) Cov(ε) = σ 2I
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:
(vi) ε ∼ Nn(0, σ 2I)
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 17/67
2. Yleisen lineaarisen mallin parametrien estimointi
2.1. Parametrien estimointi
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Matriisi X on ei-satunnainen.
(ii) r(X) = k+1
(iii) E(ε) = 0
(iv)-(v) Cov(ε) = σ 2I
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:
(vi) ε ∼ Nn(0, σ 2I)
Regressiokertoimien PNS-estimaattorit Yleisen lineaarisen mallin
(1) y = Xβ + ε
regressiokertoimien vektori β estimoidaan tavallisesti pienimmän neliösumman menetelmällä eli PNS-menetelmällä.
Pienimmän neliösumman menetelmässä neliösumma
2
1
( ) ( )n
ii
ε=
′ ′= = − −∑ε ε y Xβ y Xβ
minimoidaan regressiokertoimien vektorin β suhteen. Minimi löydetään derivoimalla neliömuoto ε´ε vektorin β suhteen ja merkitsemällä derivaatta nollaksi.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 18/67
Derivointi johtaa normaaliyhtälöön
X´Xβ = X´y
Tällä yhtälöllä on yksikäsitteinen ratkaisu vektorin β suhteen, jos matriisista X tehty oletus
r(X) = k+1
pätee. Ratkaisuksi saadaan regressiokertoimien vektorin β pienimmän neliö-summan (PNS-) estimaattori b = (X´X)–1X´y
Perustelu: Derivoidaan neliösumma
2
1( ) ( ) 2
n
iiε
=
′ ′ ′ ′ ′ ′= = − − = − +∑ε ε y Xβ y Xβ y y β Xy β X Xβ
vektorin β suhteen ja merkitään derivaatta nollaksi:
(2) 2 2 0∂ ′ ′= − + =∂
ε ε Xy X Xββ
Jos r(X) = k+1, niin r(X´X) = k+1 ja matriisi X´X on siten epäsingulaarinen. Tällöin yhtälöstä saatavalla normaaliyhtälöllä
X´Xβ = X´y
on ratkaisu
1( )−′ ′= =β b X X X y
Saatu ratkaisu antaa neliömuodon ε´ε minimin, koska
2
2∂ ′ ′=′∂ ∂ε ε X X
β β
ja matriisi X´X on positiivisesti definiitti eli
X´X > 0
■
Olkoon
zt = (1, xt·) , t = 1, 2, … , n
matriisin X t. rivin alkioiden muodostama (k+1)-vektori, missä
xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n
on aitojen selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t ja olkoon yt on selitettävän muuttujan y havaittu arvo havainnossa t.
Regressiokertoimien vektorin β pienimmän neliösumman estimaattori b voidaan esittää näitä merkintöjä käyttäen muodossa
1
1 1
n n
t t t tt t
y−
= =
′= ∑ ∑b z z zi i i
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 19/67
Regressiokertoimien suurimman uskottavuuden estimaattorit Oletetaan, että yleisen lineaarisen mallin
(1) y = Xβ + ε
standardioletuksien (i)-(v) lisäksi jäännöstermiä ε koskeva normaalisuusoletus (vi) pätee. Tällöin regressiokertoimien vektorin β suurimman uskottavuuden estimaattori yhtyy vektorin β PNS-estimaattoriin
b = (X´X)–1X´y
Perustelu:
Koska olemme olettaneet, että
ε ∼ Nn(0, σ 2I)
niin
y ∼ Nn(Xβ, σ 2I)
Siten otoksen y uskottavuusfunktio on muotoa
2 / 22
1( , ) (2 ) exp ( ) ( )2
n nL σ π σσ
− − ′= − − −
β y Xβ y Xβ
ja vastaava logaritminen uskottavuusfunktio on muotoa
2 2 22
1( , ) log ( , ) log(2 ) log( ) ( ) ( )2 2 2n nl Lσ σ π σ
σ′= = − − − − −β β y Xβ y Xβ
Logaritmisen uskottavuusfunktion 2( , )l σβ lausekkeesta nähdään välittömästi, että funktion 2( , )l σβ maksimointi parametrin β suhteen on yhtäpitävää neliösumman
2
1( ) ( )
n
iiε
=
′ ′= = − −∑ε ε y Xβ y Xβ
minimoinnin kanssa.
■
Estimoitu regressiotaso Olkoon
b = (b0, b1, b2, … , bk) = (b0, b1)
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β = (β0, β1, β2, … , βk) PNS-estimaattoreiden muodostama (k+1)-vektori, missä b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja
b1 = (b1, b2, … , bk)
on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 20/67
Määritellään (k+1)-vektori
z = (1, x)
missä k-vektori x = (x1, x2, … , xk) k∈ .
Yhtälö
(2) 0 1 0 1 1 2 2 k ky b b b x b x b x′ ′= = + = + + + +b z b x
määrittelee tason (k + 1)-ulotteisessa avaruudessa 1k+ . Tasoa (2) kutsutaan estimoiduksi regressiotasoksi.
Olkoon
1
1 n
tt
y yn =
= ∑
selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo. Määritellään (k+1)-vektori
(1, )=z x
missä k-vektori
1 2( , , , )kx x x=x …
Vektorin x i. alkio
1
1 , 1,2, ,n
i tit
x x i kn =
= =∑ …
on selittäjän xi havaittujen arvojen xti aritmeettinen keskiarvo. Estimoitu regressiotaso (2) kulkee aina havaintoaineiston painopisteen ( , )yx kautta eli
0 1 0 1 1 2 2 k ky b b b x b x b x′ ′= = + = + + + +b z b x
Regressiokertoimien PNS-estimaattoreiden stokastiset ominaisuudet Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattorin b keskeiset stokastiset ominaisuudet on esitetty seuraavassa esitettävissä kahdessa lauseessa.
Lause 2.1.1.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin
(i) E(b) = β
(ii) Cov(b) = σ 2(X´X)–1
ja siten erityisesti
(iii) 2 1( 1)( 1)Var( ) [( ) ] , 0,1, 2, ,i i ib i kσ −+ += =X´X …
Perustelu:
Todetaan ensin, että regressiokertoimien vektorin β PNS-estimaattorin b lauseke voidaan kirjoittaa seuraavaan muotoon:
1 1 1( ) ( ) ( ) ( )− − −′ ′ ′ ′ ′ ′= = + = +b X X X y X X X Xβ ε β X X X ε
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 21/67
(i) Koska regressiokertoimien vektori β ja matriisi X ovat ei-satunnaisia ja lisäksi E( ) =ε 0 , niin
1E( ) E( ) ( ) E( )−′ ′= + =b β X X X ε β
(ii) Kohdan (i) todistuksesta seuraa, että
1E( ) E( ) ( )−′ ′− = − =b b b β X X X ε
Koska matriisi X on ei-satunnainen ja lisäksi 2Cov( ) σ=ε I , niin
1 1
1 1
1 1
1 2 1
2 1 1
2 1
Cov( ) E[( E( ))( E( )) ]E[( ) ( ) ]( ) E( ) ( )( ) Cov( ) ( )( ) ( ) ( )
( ) ( )( )
σ
σ
σ
− −
− −
− −
− −
− −
−
′= − −
′ ′ ′ ′=
′ ′ ′ ′=
′ ′ ′=
′ ′ ′=
′ ′ ′=
′=
b b b b bX X X εε X X X
X X X εε X X XX X X ε X X XX X X I X X X
X X X X X XX X
(iii) Kohta (iii) on suora seuraus kohdasta (ii).
■
Huomautus:
Lauseen 2.1.1. kohdan (i) mukaan PNS-estimaattori b on regressiokertoimien vektorin β harhaton estimaattori.
Lause 2.1.2.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin
b ∼ Nk+1(β, σ 2(X´X)–1)
ja erityisesti
2 1( 1)( 1)N( , [( ) ] ) , 0,1, 2, ,i i i ib i kβ σ −+ + =X´X∼ …
Perustelu:
Lause 2.1.2. seuraa suoraan lauseesta 2.1.1., koska pienimmän neliösumman estimaattori
b = (X´X)–1X´y
on multinormaalisen satunnaismuuttujan y lineaarimuunnoksena multinormaalinen.
■
Sovitteet Olkoon
b = (X´X)–1X´y
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 22/67
Määritellään estimoidun mallin sovitteiden muodostama n-vektori yhtälöllä:
ˆ =y Xb
Sovite y voidaan kirjoittaa seuraaviin muotoihin:
1ˆ ( )−′ ′= = =y Xb X X X X y Py
missä n×n-matriisi
P = X(X´X)–1X´
on symmetrinen ja idempotentti eli projektio. Matriisin P aste on
r(P) = tr(P) = k+1
Perustelu:
Matriisi P on symmetrinen, koska
P´ = [X(X´X)–1X´]´ = X(X´X)–1X´ = P
Matriisi P on idempotentti, koska
P2 = [X(X´X)–1X´][X(X´X)–1X´] = X(X´X)–1X´ = P
Koska matriisin P on projektio, niin sen aste on
r(P) = tr(P) = tr[X(X´X)–1X´] = tr[(X´X)–1X´X] = tr[Ik+1] = k+1
■
Koska
PX = X(X´X)–1XX = X
niin matriisi P projisoi avaruuden n vektorit matriisin X sarakkeiden virittämään vektori-aliavaruuteen (tasoon). Sovite y on vektorin y projektio tähän vektorialiavaruuteen.
Olkoon
zt = (1, xt·) , t = 1, 2, … , n
matriisin X t. rivin alkioiden muodostama (k+1)-vektori, missä
xt· = (xt1, xt2, … , xtk) , t = 1, 2, … , n
on aitojen selittäjien x1, x2, … , xk havaittujen arvojen xt1, xt2, … , xtk muodostama k-vektori havainnossa t ja olkoon
b = (b0, b1, b2, … , bk) = (b0, b1)
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β = (β0, β1, β2, … , βk) PNS-estimaattoreiden muodostama (k+1)-vektori, missä b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja
b1 = (b1, b2, … , bk)
on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.
Sovitteiden muodostaman n-vektorin
1 2ˆ ˆ ˆ ˆ( , , , )ny y y=y …
t. alkio on
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 23/67
0 1 0 1 1 2 2ˆ , 1, 2, ,t t t t t k tky b b b x b x b x t n′ ′= = + = + + + + =b z b x i …
Sovitteiden ominaisuudet Lause 2.1.3.
Jos yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät, niin
(i) E( y ) = Xβ
(ii) Cov( y ) = σ 2P
Perustelu:
(i) Koska PNS-estimaattori b on harhaton parametrille β, niin
ˆE( ) E( ) E( )= = =y Xb X b Xβ
(ii) Kohdasta (i) seuraa, että
2 1
2 1
2
ˆ ˆ ˆ ˆ ˆCov( ) E[( E( ))( E( )) ]E[( )( ) ]
E[( )( ) ]Cov( )[ ( ) ]
( )σ
σ
σ
−
−
′= − −′= − −
′ ′= − −′=
′ ′=
′ ′=
=
y y y y yXb Xβ Xb Xβ
X b β b β XX b XX X X X
X X X XP
■
Huomautus:
Lauseen 2.1.3. kohdan (i) mukaan sovite y estimoi harhattomasti yleisen lineaarisen mallin (1) systemaattista osaa E(y) = Xβ.
Lause 2.1.4.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin
y ∼ Nn(Xβ, σ 2P)
Perustelu:
Lause 2.1.4. seuraa suoraan lauseesta 2.1.3., koska sovite
1ˆ ( )−′ ′= = =y Xb X X X X y Py
on multinormaalisen satunnaismuuttujan y lineaarimuunnoksena multinormaalinen.
■
Huomautus:
Lauseen 2.1.4. multinormaalijakauma on singulaarinen.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 24/67
Residuaalit Olkoon
b = (X´X)–1X´y
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori ja olkoon
ˆ =y Xb
estimoidun mallin sovite.
Määritellään estimoidun mallin residuaalien muodostama n-vektori yhtälöllä
ˆ= −e y y
Residuaali e voidaan kirjoittaa seuraaviin muotoihin:
1
1
ˆ
( )( ( ) )( )
−
−
= −= −
′ ′= −
′ ′= −= −==
e y yy Xby X X X X yI X X X X yI P y
MyMε
missä n×n-matriisit
P = X(X´X)–1X´
M = I − P
ovat symmetrisiä ja idempotentteja eli projektioita. Matriisien P ja M asteet ovat
r(P) = tr(P) = k+1
r(M) = tr(M) = n−k−1
Lisäksi
PX = X
MX = 0
PM = MP = 0
Perustelu:
Matriisin P ominaisuudet on todistettu edellä.
Matriisi M on symmetrinen, koska matriisi P on symmetrinen:
M´ = (I – P)´ = I – P´ = I – P
Matriisi M on idempotentti, koska matriisi P on idempotentti:
M2 = (I – P)2 = I – 2P + P2 = I – 2P + P = I – P = M
Koska matriisi M on projektio, niin sen aste on
r(M) = tr(M) = tr( I – P) = tr(In) – tr(P) = n–(k+1) = n−k−1
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 25/67
Koska PX = X , niin
MX = (I – P)X = X – PX = X – X = 0
Lisäksi
PM = P(I – P) = P – P2 = P – P = 0
ja
MP = (I – P)P = P – P2 = P – P = 0
■
Koska P projisoi avaruuden n vektorit matriisin X sarakkeiden virittämään vektori-aliavaruuteen ja lisäksi
PM = MP = 0
ja
MX = 0
niin matriisi M projisoi avaruuden n vektorit matriisin X sarakkeiden virittämää vektori-aliavaruutta vastaan kohtisuorassa olevaan vektorialiavaruuteen. Residuaali e on vektorin y projektio tähän vektorialiavaruuteen.
Residuaalien muodostaman n-vektorin
e = (e1, e2, … , en)
t. alkio on
ˆ , 1, 2, ,t t te y y t n= − = …
missä
0 1 1 2 2ˆ , 1,2, ,t t t t k tky b b x b x b x t n′= = + + + + =b z …
on estimoidun mallin sovite havainnossa t.
Residuaalien ominaisuudet Lause 2.1.5.
Jos yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät, niin
(i) E(e) = 0
(ii) Cov(e) = σ 2M
Perustelu:
(i) Koska =e Mε , niin
E( ) E( )= =e M ε 0
(ii) Kohdasta (i) ja siitä, että =e Mε , jossa matriisi M on symmetrinen ja idempotentti eli projektio niin
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 26/67
2
2 2
2
Cov( ) E[( E( ))( E( )) ]E( )E( )
E( )Cov( )( )σ
σ
σ
′= − −′=′ ′=′=
=
=
=
=
e e e e eeeMεε M
M εε MM ε MM I M
MM
■
Huomautus 1: Lauseen 2.1.5. kohdan (i) mukaan residuaali e estimoi harhattomasti yleisen lineaarisen mallin (1) satunnaista osaa ε.
Huomautus 2:
Lauseen 2.1.5. kohdan (ii) mukaan residuaalit et ovat korreloituneita, vaikka jäännös- termit εt on oletettu korreloimattomiksi. Korrelaatio on kuitenkin lievää, jos havaintojen lukumäärä n on huomattavasti mallin selittäjien lukumäärää (k+1) suurempi.
Lause 2.1.6. Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin
e ∼ Nn(0, σ 2M)
Perustelu: Lause 2.1.6. seuraa suoraan lauseesta 2.1.5., koska residuaali
1ˆ ( ( ) ) ( )−′ ′= − = − = − = − =e y y y Xb I X X X X y I P y My
on multinormaalisen satunnaismuuttujan y lineaarimuunnoksena multinormaalinen.
■
Huomautus:
Lauseen 2.1.6. multinormaalijakauma on singulaarinen.
Sovitteiden ja residuaalien ominaisuudet Olkoon
b = (X´X)–1X´y
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori ja olkoon
ˆ =y Xb
estimoidun mallin sovite ja ˆ= −e y y
vastaava residuaali.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 27/67
Lause 2.1.7.
(i) ˆ′ ′=1 y 1 y
(ii) ′ =e X 0
(iii) ˆ 0′ =e y
(iv) ˆ ˆ′ ′ ′= +y y y y e e
Perustelu: (i) Edellä esitetyn mukaan sovitteiden ja vastaavien residuaalien muodostamat vektorit y ja e voidaan esittää projektiomatriisien P ja M avulla muodoissa
ˆ =y Py
=e My
Koska lisäksi PM = 0 , niin ˆ 0′ ′ ′= = =y´e y P My y PMy
(ii) Edellä esitetyn mukaan matriisi M on projektio matriisin X sarakeavaruuden ortogonaaliseen komplementtiin. Siten residuaalien muodostama vektori =e My
on matriisin X sarakeavaruuden ortogonaalisessa komplementissa, joten vektori e on kohtisuorassa matriisin X sarakeavaruutta eli matriisin X sarakkeiden virittämää tasoa vastaan: ′ =X e 0
Sama tulos saadaan myös suoraan laskemalla:
1( ) ( )−′ ′ ′ ′ ′ ′ ′ ′ ′ ′= − = − = − = − =X e X y Xb X y X Xb X y X X X X X y X y X y 0
Koska mallissa on mukana vakio, matriisin X 1. sarakkeena on vektori
1 = (1, … , 1)
Siten edellä esitetystä seuraa, että 0′ =1 e
(iii) Suoraan sovitteiden ja residuaalien muodostamien vektorien määritelmistä nähdään, että
ˆ= +y y e
Siten ˆ ˆ ˆ0′ ′ ′ ′ ′= + = + =1 y 1 y 1 e 1 y 1 y
koska (ii)-kohdan mukaan 0′ =1 e .
(iv) Suoraan sovitteiden ja residuaalien muodostamien vektorien määritelmistä nähdään, että
ˆ= +y y e
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 28/67
Siten
ˆ ˆ 2ˆ ˆ ˆ′ ′ ′ ′ ′ ′= + + = +y y y y e e y e y y e e
koska kohdan (i) mukaan ˆ ′y e = 0.
■
Huomautus 1:
Lauseen 2.1.7. kohdan (ii) mukaan residuaalien vektori e on kohtisuorassa matriisin X sarakkeiden virittämää vektorialiavaruutta (tasoa) vastaan.
Huomautus 2: Koska oletuksien mukaan mallissa (1) on selittäjänä vakio (eli matriisissa X on ykkösten muodostama sarake), Lauseen 2.1.7. kohdasta (ii) seuraa, että residuaalien summa = 0: 0′ =1 e
Huomautus 3:
Lauseen 2.1.7. kohdan (iii) mukaan sovite y ja residuaali e ovat ortogonaalisia.
Huomautus 4:
Koska ˆ= +y y e
niin vektorit , ˆ ja y y e muodostavat suorakulmaisen kolmion, jonka kateetteina ovat vektorit ˆ ja y e ja hypotenuusana on vektori y.
Huomautus 5: Lauseen 2.1.7. kohta (iv) on Pythagoraan lause: Suorakulmaisessa kolmiossa hypotenuusalle piirretyn neliön pinta-ala on kateeteille piirrettyjen neliöiden pinta- alojen summa.
Jäännösvarianssin harhaton estimaattori Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät.
Määritellään residuaalien e vaihtelua kuvaava jäännösneliösumma kaavalla:
2
1
n
tt
SSE e=
′= =∑e e
Huomaa, että
SSE = 0
jos ja vain jos
et = 0, t = 1, 2, … , n
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 29/67
Jäännösneliösumma SSE voidaan kirjoittaa seuraaviin muotoihin:
1
( ˆ ) ( ˆ )( ) ( )
( ( ) )( )
SSE
−
′=′= − −′= − −
′ ′ ′= −
′ ′ ′= −′= −′=′=
e ey y y yy Xb y Xb
y y b X Xby I X X X X yy I P yy Myε Mε
missä n×n-matriisit
P = X´(X´X)−1X
M = I − P
ovat symmetrisiä ja idempotentteja eli projektioita.
Lause 2.1.8.
Tunnusluku
2 11
s SSEn k
=− −
on yleisen lineaarisen mallin (1) jäännösvarianssin σ 2 harhaton estimaattori eli
E(s2) = σ 2
Perustelu:
Todetaan ensin, että
2 2
1
( 1)n
tt
n k s e=
′− − = =∑ e e
jossa residuaalien muodostama n-vektorilla e on esitysmuodot
ˆ= − = − = =e y y y Xb My Mε
missä n×n-matriisi
1( )−′ ′= − = −M I P I X X X X
on symmetrinen ja idempotenti eli projektio:
2
′ =
=
M MM M
Koska
2Cov( ) σ=ε I
saamme suoraan laskemalla:
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 30/67
2
2
E( ) E( )E( )E(trace( ))trace( E( ))trace( Cov( ))trace( ( ))
trace( )σ
σ
′ ′ ′=′=
′=′=
=
=
=
e e ε M Mεε Mε
MεεM εεM εM I
M
Väite tulee todistetuksi toteamalla, että
1
1
1
1
trace( ) trace( ( ) )
trace( ) trace( ( ) )
trace(( ) )trace( )
1
n
n
k
nnn k
−
−
−
+
′ ′= −
′ ′= −
′ ′= −= −= − −
M I X X X X
I X X X X
X X X XI
■
Estimaattoria s2 kutsutaan residuaalivarianssiksi.
Huomautus:
Estimaattorin s2 kaava antaa todellakin residuaalien varianssin, koska mallissa on selittäjänä vakio. Tämä johtuu siitä, että tällöin
1
0n
tt
e ne=
′ = = =∑1 e
josta seuraa, että
2 2 2 2
1 1
( 1) ( ) ( 1)n n
e t it t
n k s e e e n k s= =
− − = − = = − −∑ ∑
Jäännösvarianssin suurimman uskottavuuden estimaattori Oletetaan, että yleisen lineaarisen mallin
y = Xβ + ε
standardioletuksien (i)-(v) lisäksi jäännöstermiä ε koskeva normaalisuusoletus (vi) pätee. Tällöin jäännösvarianssin σ 2 suurimman uskottavuuden estimaattori on
2 1ˆ SSEn
σ =
Perustelu:
Olemme todenneet edellä, että otoksen
y ∼ Nn(Xβ, σ 2I)
uskottavuusfunktio on muotoa
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 31/67
2 / 22
1( , ) (2 ) exp ( ) ( )2
n nL σ π σσ
− − ′= − − −
β y Xβ y Xβ
ja sitä vastaava logaritminen uskottavuusfunktio on muotoa
2 2 22
1( , ) log ( , ) log(2 ) log( ) ( ) ( )2 2 2n nl Lσ σ π σ
σ′= = − − − − −β β y Xβ y Xβ
Lisäksi parametrin β suurimman uskottavuuden estimaattori yhtyy sen pienimmän neliösumman estimaattoriin
1( )−′ ′=b X X X y
Siten
2 22
22
1( , ) log(2 ) log( ) ( ) ( )2 2 2
1log(2 ) log( )2 2 2
n nl
n n SSE
σ π σσ
π σσ
′= − − − − −
= − − −
b y Xb y Xb
jossa ( ) ( )SSE ′ ′= − − =y Xb y Xb e e
on estimoidun mallin jäännösneliösumma.
Derivoidaan funktio 2( , )l σb parametrin σ 2 suhteen ja merkitään derivaatta nollaksi:
22 2 4
1 1( , ) 02 2nl SSEσ
σ σ σ∂
= ⋅ − =∂
b
Saadulla normaaliyhtälöllä on ratkaisu
2 2 1ˆ SSEn
σ σ= =
Voidaan osoittaa, että saatu ratkaisu tuottaa funktion 2( , )l σb maksimin (ks. lukua Multinormaalijakauma).
■
Regressiokertoimien PNS-estimaattoreiden varianssien estimointi Edellä on todettu, että yleisen lineaarisen mallin
y = Xβ + ε
regressiokertoimien vektorin β PNS-estimaattorilla
b = (X´X)–1X´y
on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet:
b ∼ Nk+1(β, σ 2(X´X)–1)
ja erityisesti
2 1( 1)( 1)N( , [( ) ] ) , 0,1, 2, ,i i i ib i kβ σ −+ + =X´X∼ …
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 32/67
Siten
E( ) , 0,1, 2, ,i ib i kβ= = …
2 2 1( 1)( 1)Var( ) D ( ) [( ) ] , 0,1, 2, ,i i i ib b i kσ −+ += = =X´X …
ja
E( ) N(0,1) , 0,1, 2, ,D( )
i ii
i
b bz i kb
−= =∼ …
Tämä regressiokertoimen βi PNS-estimaattorin bi otosjakaumaa koskeva tulos on epä-operationaalinen, koska jäännösvarianssi σ 2 on normaalisti tuntematon.
Korvataan σ 2 yo. kaavoissa harhattomalla estimaattorillaan
2 11
s SSEn k
=− −
ja merkitään
2 2 1( 1)( 1)D ( ) [( ) ] , 0,1,2, ,i i ib s i k−+ += =X´X …
Voidaan osoittaa, että 2D ( )ib on regressiokertoimen bi varianssin harhaton estimaattori ja lisäksi
E( ) ( 1) , 0,1, 2, ,D( )
i ii
i
b bt t n k i kb
−= − − =∼ …
Perustelu:
Se, että 2D ( )ib on regressiokertoimen bi varianssin 2D ( )ib harhaton estimaattori seuraa välittömästi siitä, että
2 2E( )s σ=
ja siitä, että X on ei-satunnainen.
Yo. jakaumatulos seuraa t-jakauman määritelmästä seuraavalla tavalla:
Edellä esitetyn mukaan
E( ) N(0,1) , 0,1, 2, ,D( )
i i
i
b b i kb
−=∼ …
jossa
2 2 1( 1)( 1)D ( ) [( ) ] , 0,1,2, ,i i ib i kσ −+ += =X´X …
Lisäksi voidaan osoittaa, että s2 on riippumaton estimaattoreista b0, b1, b2, … , bk ja
2
22 2
( 1) ( 1)n k s SSE n kχσ σ
− −= − −∼
ks. kappale 3.1.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 33/67
Suoraan t-jakauman määritelmästä seuraa, että
2
2 1( 1)( 1)
2
2
2 1( 1)( 1)
E( )D( )1
1E( )
[( ) ]
E( )[( ) ]
E( ) ( 1) , 0,1, 2, ,D( )
i i
ii
i i
i i
i i
i i
i i
i
b bbt
SSEn k
b b
s
b bs
b b t n k i kb
σ
σ
σ
−+ +
−+ +
−
=⋅
− −−
=
−=
−= − − =
X´X
X´X
∼ …
■
Regressiokertoimien luottamusvälit ja yksittäisiä kertoimia koskevat testit voidaan konstruoida yo. jakaumatuloksen avulla samaan tapaan kuin normaalijakauman odotusarvolle konstruoidaan normaalisen otoksen tapauksessa luottamusväli ja ns. yhden otoksen t-testi.
Regressiokertoimien luottamusvälit Lause 2.1.9.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin regressiokertoimen βi , i = 0, 1, 2, … , k luottamusväli luottamustasolla (1−α) saadaan kaavasta
/ 2 , 0,1,2, ,ii bb t s i kα± = …
jossa bi on regressiokertoimen βi PNS-estimaattori, −tα/2 ja +tα/2 ovat luottamustasoon (1−α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden lukumäärä on (n−k−1) ja
2 2 1( 1)( 1)[( ) ] , 0,1, 2, ,
ib i is s i k−+ += =X´X …
missä s2 on jäännösvarianssin σ 2 harhaton estimaattori.
Varianssianalyysihajotelma Mitta-asteikoltaan jatkuvien muuttujan arvojen vaihtelua mitataan tavallisesti niiden varianssilla. Yleisen lineaarisen mallin (1) selitettävän muuttujan y arvojen varianssi on
2 1ˆ y SSTn
σ =
jossa
2
1
( )n
tt
SST y y=
= −∑
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 34/67
on selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma.
Selitettävän muuttujan y havaittujen arvojen yt aritmeettinen keskiarvo
1
1 n
tt
y yn =
= ∑
voidaan esittää matriisein muodossa
1yn
′= 1 y
missä 1 = (1, 1, … , 1) on ykkösten muodostama n-vektori ja y on selitettävän muuttujan y havaittujen arvojen yt muodostama n-vektori.
Määritellään n×n-matriisi = −C I J
missä
1 1( )n
−′ ′ ′= =J 1 1 1 1 11
On helppo nähdä, että matriisit C ja J ovat symmetrisiä ja idempotentteja eli projektioita, jolloin
r(J) = tr(J) = 1
r(C) = tr(C) = n−1
Kokonaisneliösumma SST voidaan em. määritelmiä hyväksikäyttäen esittää matriisein muodoissa ( ) ( ) ( )SST y y′ ′ ′= − − = − =y 1 y 1 y I J y y Cy
Olkoon ˆ= −e y y
estimoidun mallin residuaali, jossa
ˆ =y Xb
on estimoidun mallin sovite ja olkoon
SSE ′ ′= =e e y My
residuaalien vaihtelua kuvaava jäännösneliösumma, missä n×n-matriisi
M = I − X´(X´X)−1X
on symmetrinen ja idempotentti eli projektio.
Voidaan osoittaa, että jäännösneliösumma SSE on korkeintaan yhtä suuri kuin kokonais-neliösumma SST:
SSE ≤ SST
Erotusta
SSM = SST – SSE
kutsutaan regressio- tai mallineliösummaksi, koska voidaan osoittaa, että
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 35/67
2 2
1 1
( ˆ ˆ ) ( ˆ )n n
t tt t
SSM y y y y= =
= − = −∑ ∑
Mallineliösumma SSM voidaan esittää matriisein muodoissa ˆ ˆ( ) ( ) ( )SSM y y′ ′= − − = −y 1 y 1 y P J y
missä n×n-matriisit
1
1
( )1( )n
−
−
′ ′=
′ ′ ′= =
P X X X X
J 1 1 1 1 11
ovat symmetrisiä ja idempotentteja eli projektioita.
Identiteettiä
SST = SSM + SSE
kutsutaan mallin (1) selitettävän muuttujan y arvojen vaihtelua kuvaavan kokonaisneliö-summan SST varianssianalyysihajotelmaksi.
Perustelu:
Todistetaan varianssianalyysihajotelma matriisilaskentaa käyttäen.
Todetaan ensin, että kokonaisneliösumma SST voidaan kirjoittaa muotoon
2 2 2 2
1 1( )
n n
t it t
SST y y y ny ny= =
′= − = − = −∑ ∑ y y
jossa
1 2( , , , )ny y y=y …
on selitettävän muuttujan y havaittujen arvojen yt muodostama n-vektori.
Aikaisemmin esitettyjen tulosten mukaan residuaalien et muodostama n-vektori
1 2( , , , )ne e e=e …
voidaan esittää muodossa
( )= = −e My I P y
missä matriisit
1( )−′ ′=P X X X X
ja
= −M I P ovat symmetrisiä ja idempotentteja.
Siten jäännösneliösumma SSE voidaan kirjoittaa muotoon
2
1
n
tt
SSE e=
′ ′ ′ ′= = = = −∑ e e y My y y y Py
Tarkastellaan nyt mallineliösummaa SSM.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 36/67
Jos voimme osoittaa, että
2SSM ny′= −y Py
niin varianssianalyysihajotelma on todistettu.
Aikaisemmin esitettyjen tulosten mukaan selitettävän muuttujan havaituilla arvoilla ja sovitteilla on sama summa:
1 1
ˆ ˆn n
i it t
y y= =
′ ′= = =∑ ∑1 y 1 y
joten
1 1
1 1 ˆ ˆn n
i ii i
y y y yn n= =
= = =∑ ∑
Siten mallineliösumma SSM voidaan kirjoittaa muotoon
2 2 2 2
1 1 1
( ˆ ) ( ˆ ˆ ) ˆ ˆ ˆ ˆn n n
t t tt t t
SSM y y y y y ny ny= = =
′= − = − = − = −∑ ∑ ∑ y y
jossa
1 2ˆ ˆ ˆ ˆ( , , , )ny y y=y …
on sovitteiden ˆty muodostama n-vektori.
Aikaisemmin esitettyjen tulosten mukaan
ˆ =y Py
jossa matriisi P on symmetrinen ja idempotentti. Siten ˆ ˆ′ ′=y y y Py
ja
2 2ˆ ˆSSM ny ny′ ′= − = −y y y Py
kuten halusimme.
■
Varianssianalyysihajotelma voidaan esittää matriisein myös muodoissa
(i) ˆ ˆ( ) ( ) ( ) ( )y y y y′ ′ ′− − = − − +y 1 y 1 y 1 y 1 e e
(ii) ( ) ( )′ ′ ′− = − +y I J y y P J y y My
Huomautus 1:
n×n-matriisit
1 1( )n
−′ ′ ′= =J 1 1 1 1 11
1n
′− = −I J I 11
1( )−′ ′=P X X X X
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 37/67
1( )−′ ′= − = −M I P I X X X X
1 1( )n
−′ ′ ′− = − − = −P J I J M X X X X 11
ovat symmetrisiä ja idempotentteja eli projektioita.
Projektiomatriisien ominaisuuksien perusteella
( ) tr( ) 1
( ) tr( ) 1
( ) tr( ) 1
( ) tr( ) 1
( ) tr( )
r
r n
r k
r n k
r k
= =
− = − = −
= = +
= = − −
− = − =
J J
I J I J
P P
M M
P J P J
Lisäksi ( ) ( )− = − =I J J J I J 0
= =PM MP 0
Huomautus 2:
Vaikka mallissa (1) ei olisi selittäjänä vakiota, pätee hajotelma
ˆ ˆ′ ′ ′= +y y y y e e
jossa
1ˆ ˆ ( )−′ ′ ′ ′ ′ ′ ′= = =y y b X Xb y X X X X y y Py
ja SSE′ ′= =e e y My
n×n-matriisit
M = I − P
P = X(X´X)−1X´
ovat symmetrisiä ja idempotentteja eli projektioita.
Varianssianalyysihajotelman tulkinta Selitettävän muuttujan y arvojen vaihtelua kuvaava kokonaisneliösumma
( ) ( ) ( )SST y y′ ′= − − = −y 1 y 1 y I J y
on hajotettu lineaarisen regressiomallin (1) avulla kahden osatekijän summaksi
SST = SSM + SSE
jossa mallineliösumma
ˆ ˆ( ) ( ) ( )SSM y y′ ′= − − = −y 1 y 1 y P J y
kuvaa mallin (1) selittämää osaa selitettävän muuttujan y arvojen kokonaisvaihtelusta ja jäännösneliösumma
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 38/67
SSE ′ ′= =e e y My
kuvaa sitä osaa kokonaisvaihtelusta, jota malli (1) ei ole pystynyt selittämään.
Malli (1) selittää selitettävän muuttujan y arvojen vaihtelun sitä paremmin mitä suurempi on mallineliösumman SSM osuus kokonaisneliösummasta tai, mikä on sama asia, mitä pienempi on jäännösneliösumman SSE osuus kokonaisneliösummasta.
Selitysaste Varianssianalyysihajotelma
SST = SSM + SSE
motivoi tunnusluvun
2 1SSM SSERSST SST
= = −
käytön lineaarisen regressiomallin (1) hyvyyden tai selitysvoiman mittaamisessa. Tunnus-lukua R2 kutsutaan estimoidun mallin selitysasteeksi.
Selitysasteen ominaisuudet Seuraavan lauseen kohdat (i)-(iii) ovat välittömiä seurauksia varianssianalyysihajotelmasta sekä residuaalien, varianssianalyysihajotelman osien ja selitysasteen määritelmistä. Kohdan (iv) todistaminen on suoraviivaista, mutta melko työlästä ja ei kovin mielenkiintoista ja jätetään siksi väliin.
Lause 2.1.10.
(i) 0 ≤ R2 ≤ 1
(ii) Jos kaikki residuaalit häviävät eli
e = 0
niin
SSE = e´e = 0
ja
R2 = 1
Tällöin malli sopii havaintoihin täydellisesti.
(iii) Jos
b1 = b2 = ⋅⋅⋅ = bk = 0
niin residuaalien vektori on muotoa
y= −e y 1
jolloin
SSE = SST
ja
R2 = 0
Tällöin malli ei ollenkaan selitä selitettävän muuttujan y arvojen vaihtelua.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 39/67
(iv) 2 2[Cor( , ˆ)]R y y=
jossa
1
2 2
1 1
( )( ˆ )Cor( , ˆ)
( ) ( ˆ )
n
t tt
n n
t tt t
y y y yy y
y y y y
=
= =
− −=
− −
∑
∑ ∑
selitettävän muuttujan y havaittujen arvojen yt ja niitä vastaavien sovitteiden ˆty välinen otoskorrelaatiokerroin.
Koska Lauseen 2.1.10. kohdan (i) mukaan 0 ≤ R2 ≤ 1, selitysaste ilmoitetaan tavallisesti prosentteina:
100×R2 %
Huomautus:
1 1 ˆ ˆy yn n
′ ′= = =1 y 1 y
2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät.
Regressiokertoimien estimointi kovariansseista Keskistetään selitettävän muuttujan y havaituista arvoista
y1, y2, … , yn
muodostettu n-vektori y = (y1, y2, … , yn) ja selittäjien x1, x2, … , xk havaituista arvoista
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 40/67
x11, x21, … , xn1 ; x12, x22, … , xn2 ; … ; x1k, x2k, … , xnk
muodostettu n×k-matriisi
11 12 1
21 22 21
1 2
k
k
n n nk
x x xx x x
x x x
=
X
Keskistämisellä tarkoitetaan sitä, että muuttujien havaituista arvoista vähennetään ko. muuttujan havaintoarvojen aritmeettinen keskiarvo. Keskistettyjen havaintoarvojen aritmeettinen keskiarvo on aina nolla.
Olkoot matriisit y ja X1 keskistettyinä y= −y y 1
ja
1 1 ′= −X X 1x
jossa
1
1 n
tt
y yn =
= ∑
on selitettävän muuttujan y havaittujen arvojen aritmeettinen keskiarvo,
1 = (1, 1, … , 1)
on ykkösten muodostama n-vektori ja
1 2( , , , )kx x x=x …
on k-vektori, jonka i. alkio
1
1 , 1,2, ,n
i tit
x x i kn =
= =∑ …
on selittäjän xi havaittujen arvojen aritmeettinen keskiarvo.
Muodostetaan keskistetyistä havainnoista lineaarinen regressiomalli
(2) 1 1= +y X β ε
Tällöin
11 1 1 1( )−′ ′=b X X X y
on regressiokertoimien vektorin 1β PNS-estimaattori.
Huomautus:
Mallissa (2) ei ole vakioselittäjää.
Olkoon k×k-matriisi
1 1( ) ( )xx ′ ′ ′= − −M X 1x X 1x
selittäjien havaittujen arvojen muodostama momenttimatriisi ja k×1-matriisi
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 41/67
1( ) ( )xy y′ ′= − −M X 1x y 1
selitettävän muuttujan ja selittäjien havaittujen arvojen muodostama momenttimatriisi. Tällöin
11
11
xx xx
xy xy
n
n
=−
=−
S M
S M
ovat vastaavat otoskovarianssimatriisit.
Matriisin Mxx i. rivin ja j. sarakkeen alkio on muotoa
1
[ ] ( )( ) , , 1, 2, ,n
xx ij ti i tj jt
x x x x i j k=
= − − =∑M …
Matriisin (vektorin) Mxy i. rivin alkio on muotoa
1
[ ] ( )( ) , 1,2, ,n
xy i ti i tt
x x y y i k=
= − − =∑M …
Matriisin Sxx i. rivin ja j. sarakkeen alkiona on muuttujien xi ja xj havaittujen arvojen otoskovarianssi ja matriisin (vektorin) Sxy i. rivin alkiona on muuttujien xi ja y havaittujen arvojen otoskovarianssi.
Koska
1 1xx ′=M X X
ja
1xy ′=M X y
niin
1 1 11 1 1 1( ) xx xy xx xy
− − −′ ′= = =b X X X y M M S S
ja sanomme, että estimaattori 1b on estimoitu kovariansseista.
Olkoon b regressiokertoimien vektorin β PNS-estimaattori mallista (1). Seuraava lause ilmaisee estimaattoreiden b ja 1b suhteen:
Lause 2.2.1.
Ositetaan mallin (1) regressiokertoimien vektorin β PNS-estimaattori b seuraavalla tavalla:
0 1( , )b=b b
jossa b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja b1 on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori.
Tällöin
1 1=b b
ja
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 42/67
0 1 1 1 2 2 k kb y y b x b x b x′= − = − − − −b x
missä
1 1 2( , , , )kb b b=b …
Huomautus:
Lause 2.2.1. on lineaarisen riippuvuuden siirtoinvarianttiuden ilmaisu.
Regressiokertoimien estimointi korrelaatioista Standardoidaan selitettävän muuttujan y havaituista arvoista
y1, y2, … , yn
muodostettu n-vektori y = (y1, y2, … , yn) ja selittäjien x1, x2, … , xk havaituista arvoista
x11, x21, … , xn1 ; x12, x22, … , xn2 ; … ; x1k, x2k, … , xnk
muodostettu n×k-matriisi
11 12 1
21 22 21
1 2
k
k
n n nk
x x xx x x
x x x
=
X
Standardoinnilla tarkoitetaan sitä, että muuttujien havaituista arvoista vähennetään ko. havaintoarvojen aritmeettinen keskiarvo ja saadut erotukset jaetaan ko. havaintoarvojen keskihajonnalla. Standardoitujen havaintoarvojen aritmeettinen keskiarvo on aina nolla ja otoshajonta on yksi.
Olkoot matriisit y ja X1 standardoituina
1 ( )y
ys
= −y y 1
ja
1/ 21 1( ) −′= − SX X 1x D
jossa
1
1 n
tt
y yn =
= ∑
on selitettävän muuttujan y havaittujen arvojen aritmeettinen keskiarvo,
2 2
1
1 ( )1
n
y tt
s y yn =
= −− ∑
on selitettävän muuttujan y havaittujen arvojen keskihajonta,
1 = (1, 1, … , 1)
on ykkösten muodostama n-vektori,
1 2( , , , )kx x x=x …
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 43/67
on k-vektori, jonka i. alkio
1
1 , 1,2, ,n
i tit
x x i kn =
= =∑ …
on selittäjän xi havaittujen arvojen aritmeettinen keskiarvo k ja
1 2
2 2 2diag( ) diag( , , , )kxx x x xs s s= =SD S …
on diagonaalimatriisi, jossa
2 2
1
1 ( ) [ ] , 1,2, ,1i
n
x ti i xx iit
s x x i kn =
= − = =− ∑ S …
on selittäjän xi havaittujen arvojen otosvarianssi.
Huomaa, että
1 2
1/ 2 diag( , , , )kx x xs s s=SD …
jolloin
1 2
1/ 2 1 1 1diag , , ,kx x xs s s
−
=
SD …
Muodostetaan standardoiduista havainnoista lineaarinen regressiomalli
(3) 1 1= +y X β ε
Tällöin
11 1 1 1( )−′ ′=b X X X y
on regressiokertoimien vektorin 1β PNS-estimaattori.
Huomautus:
Mallissa (3) ei ole vakioselittäjää.
Olkoon k×k-matriisi
1/ 2 1/ 2xx xx
− −= S SR D S D
selittäjien havaittujen arvojen otoskorrelaatiomatriisi ja k×1-matriisi
1/ 21xy xy
ys−= SR D S
selitettävän muuttujan ja selittäjien havaittujen arvojen muodostama otoskorrelaatiomatriisi, jossa
1 11 ( ) ( )
1xx n′ ′ ′= − −
−S X 1x X 1x
on selittäjien on havaintoarvojen muodostama otoskovarianssimatriisi,
11 ( ) ( )
1xy yn
′ ′= − −−
S X 1x y 1
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 44/67
on selitettävän muuttujan ja selittäjien havaintoarvojen muodostama otoskovarianssimatriisi.
Matriisin Rxx i. rivin ja j. sarakkeen alkiona on muuttujien xi ja xj havaittujen arvojen otoskorrelaatio ja matriisin (vektorin) Rxy i. rivin alkiona on muuttujien xi ja y havaittujen arvojen otoskorrelaatio.
Koska
1 1xx ′=R X X
ja
1xy ′=R X y
niin
1 11 1 1 1( ) xx xy
− −′ ′= =b X X X y R R
ja sanomme, että estimaattori 1b on estimoitu korrelaatioista. Estimaattorin 1b alkioita kutsutaan usein mallin (1) beta-kertoimien estimaattoreiksi.
Olkoon b regressiokertoimien vektorin β PNS-estimaattori mallista (1). Seuraava lause ilmaisee estimaattoreiden b ja 1b suhteen:
Lause 2.2.2.
Ositetaan mallin (1) PNS-estimaattori b seuraavalla tavalla:
0 1( , )b=b b
jossa b0 on vakioselittäjän regressiokertoimen β0 PNS-estimaattori ja b1 on aitojen selittäjien x1, x2, … , xk regressiokertoimien β1, β2, … , βk PNS-estimaattoreiden muodostama k-vektori. Tällöin
1/ 21 1ys −= Sb D b
ja
0 1 1 1 2 2 k kb y y b x b x b x′= − = − − − −b x
missä
1 1 2( , , , )kb b b=b …
Huomautus:
1/ 21 1
1
ys= Sb D b
missä estimaattori 1b on estimoitu kovariansseista (ks. Lause 2.2.1.).
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 45/67
3. Testaus ja ennustaminen yleisessä lineaarisessa mallissa
3.1. Regressiokertoimia koskevat testit
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Matriisi X on ei-satunnainen
(ii) r(X) = k+1
(iii) E(ε) = 0
(iv)-(v) Cov(ε) = σ 2I
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:
(vi) ε ∼ Nn(0, σ 2I)
Regressiokertoimia koskevat testit Lineaarisen regressiomallin (1) parametrien estimoimisen jälkeen on tapana testata seuraavia mallin regressiokertoimia koskevia hypoteeseja:
(i) H0 : β1 = β2 = ⋅⋅⋅ = βk = 0
(ii) H0i : βi = 0 , i = 0, 1, 2, … , k
Jos nollahypoteesi H0 pätee, selitettävä muuttuja y ei riipu lineaarisesti yhdestäkään aidosta selittäjästä x1, x2, … , xk .
Jos nollahypoteesi H00 pätee, mallissa (1) ei tarvita vakioselittäjää. Jos nollahypoteesi H0i , i = 0, 1, 2, … , k, pätee, selitettävä muuttuja y ei riipu lineaarisesti regressiokerrointa βi vastaavasta selittäjästä xi .
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 46/67
Regression olemassaolon testaaminen Olkoon nollahypoteesina
H0 : β1 = β2 = ⋅⋅⋅ = βk = 0
Jos nollahypoteesi H0 pätee, selitettävä muuttuja y ei riipu lineaarisesti yhdestäkään aidosta selittäjästä x1, x2, … , xk . Testi nollahypoteesille H0 on yleistesti selitettävän muuttujan y ja selittäjien x1, x2, … , xk välisen regression olemassaololle. Jos nollahypoteesi H0 ei päde, ainakin yksi regressiokertoimista β1, β2, … , βk poikkeaa nollasta.
Nollahypoteesia H0 voidaan testata testisuureella
2
2
1
1
11
n k SSMFk SSE
n k SST SSEk SSE
n k Rk R
− −= ⋅
− − −= ⋅
− −= ⋅
−
jossa
SST = selitettävän muuttujan vaihtelua kuvaava kokonaisneliösumma
SSM = estimoidun mallin mallineliösumma
SSE = estimoidun mallin jäännösneliösumma
ja
2 1SSM SSERSST SST
= = −
on estimoidun mallin selitysaste.
Lause 3.1.1.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin testisuure F on jakautunut F-jakauman mukaan vapausastein k ja (n–k–1), jos nollahypoteesi H0 pätee:
0H
( , 1)F F k n k− −∼
Suuret testisuureen F arvot viittaavat siihen, että nollahypoteesi H0 ei päde.
Perustelu:
Testisuuretta F koskeva jakaumatulos nähdään oikeaksi seuraavalla tavalla:
(i) Oletetaan, että lineaarinen regressiomalli
(1) y = Xβ + ε
toteuttaa standardioletuksien (i)-(v) lisäksi normaalisuusoletuksen (vi), jolloin
2N ( , )n σy Xβ I∼
(ii) Kokonaisneliösumma SST voidaan esittää muodossa
SST = y´(I – J)y
jossa n×n-matriisit
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 47/67
1n
′=J 11
ja
1n
′− = −I J I 11
ovat symmetrisiä ja idempotentteja eli projektioita, jolloin matriisien J ja I – J asteet ovat
r(J) = tr(J) = 1
ja
r(I – J) = tr(I – J) = n–1
(iii) Mallineliösumma SSM voidaan esittää muodossa
SSM = y´(P – J)y
jossa n×n-matriisit
1( )−′ ′=P X X X X
ja
1 1( )n
−′ ′ ′− = −P J X X X X 11
ovat symmetrisiä ja idempotentteja eli projektioita. Matriisin P aste on
r(P) = tr(P) = k–1
Koska matriisin J aste on
r(J) = tr(J) = 1
niin matriisin P – J aste on
r(P – J) = tr(P – J) = k
(iv) Jäännösneliösumma SSE voidaan esittää muodossa
SSE = y´My = ε´Mε
jossa n×n-matriisi
1( )−′ ′= − = −M I P I X X X X
on symmetrinen ja idempotentti eli projektio, jolloin
r(M) = tr(M) = n–k–1
(v) Matriisit P – J ja M ovat ortogonaalisia:
(P – J)M = M(P – J) = 0
Tämä voidaan perustella seuraavalla tavalla: Koska
M = I – P
niin
(P – J)M = –J + JP
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 48/67
Siten väite on todistettu, jos voidaan osoittaa, että
JP = PJ = J
mikä nähdään oikeaksi seuraavalla tavalla: Olkoon n∈a mielivaltainen n-vektori ja olkoon
t = Ja
Tällöin
t ∈ M(X)
missä M(X) on matriisin X = [1 X1] sarakeavaruus. Koska P = X(X´X)–1X´ on projektio matriisin X sarakeavaruuteen M(X), niin
PJa = Pt = t = Ja
Koska a on mielivaltainen n-vektori, niin
PJa = Ja
kaikille n∈a . Siten välttämättä
PJ = J
(vi) Multinormaalijakauman neliömuotojen jakaumia koskevista tuloksista (esim. Cochranin lauseesta) seuraa, että nollahypoteesin H0 pätiessä
2 ( )SSM kχ∼
ja
2 ( 1)SSE n kχ − −∼
Lisäksi SSM ja SSE ovat riippumattomia.
(vii) F-jakauman määritelmästä seuraa, että nollahypoteesin H0 pätiessä
1 ( , 1)n k SSMF F k n kk SSE
− −= ⋅ − −∼
■
Yksittäisten regressiokertoimien testaaminen Olkoon nollahypoteesina
H0i : βi = 0 , i = 0, 1, 2, … , k
Jos nollahypoteesi H00 pätee, mallissa ei tarvita vakioselittäjää. Jos nollahypoteesi H0i , i = 1, 2, … , k pätee, selitettävä muuttuja y ei riipu lineaarisesti regressiokerrointa βi vastaavasta selittäjästä xi .
Nollahypoteesia H0i voidaan testata testisuureella
, 0,1, 2, ,i
ii
b
bt i ks
= = …
jossa bi on regressiokertoimen βi PNS-estimaattori ja
2 2 1( 1)( 1)[( ) ] , 0,1, 2, ,
ib i is s i k−+ += =X´X …
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 49/67
on estimaattorin bi varianssin estimaattori.
Oletetaan, että lineaarisen regressiomallin (1) oletukset (i)-(vi) pätevät. Tällöin testisuure ti on jakautunut t-jakauman mukaan vapausastein (n–k–1), jos nollahypoteesi H0i pätee:
0H
( 1) , 0,1, 2, ,i
it t n k i k− − =∼ …
Itseisarvoltaan suuret testisuureen ti arvot viittaavat siihen, että nollahypoteesi ei päde.
Jos nollahypoteesi H0i : βi = 0 hylätään, sanotaan, että kerroin βi ja sitä vastaava selittäjä xi ovat tilastollisesti merkitseviä.
Huomautus:
Jos jäännöstermiä ε koskeva normaalisuusoletus (vi) ei päde, yllä esitettyjen F- ja t- testisuureiden jakaumat eivät ole yllä esitettyä tavanomaista tyyppiä. F- ja t-jakaumien käyttöä F- ja t-testisuureiden jakaumina voidaan tällaisissa tilanteissa kuitenkin usein perustella asymptoottisella eli suurten otosten teorialla.
Testit ja mallin valinta Regressiomalleja sovelletaan usein sellaisissa tilanteissa, joissa selittäviksi muuttujiksi on tarjolla useita ehdokkaita ja mallinrakennuksen yksi osatehtävistä on valita selittäjä-ehdokkaiden joukosta parhaat tai sopivimmat.
Yksittäisiin regressiokertoimiin kohdistuvilla testeillä voidaan pyrkiä etsimään sellainen malli, jossa kaikki selittäjät ovat tilastollisia merkitseviä. On syytä huomata, että testien suoritusjärjestys saattaa vaikuttaa lopputulokseen eli siihen, mikä malli tulee valituksi. Siksi testien järjestämiseen on tarjolla useita erilaisia strategioita.
Huomautus:
Mallin valintaa ei saa koskaan tehdä pelkästään tilastollisin kriteerein. Mallia pitää aina arvioida myös asialoogisin kriteerein, jolloin kiinnitetään huomiota esimerkiksi estimoitujen regressiokertoimien merkkeihin ja suuruuteen.
Askellus alaspäin Ehkä yleisimmin sovellettu mallinvalintastrategia on askellus alaspäin:
(1) Estimoidaan malli, johon otetaan selittäjiksi kaikki selittäjäehdokkaat.
(2) Jos kaikki selittäjäehdokkaat ovat tilastollisesti merkitseviä, niin siirrytään suoraan vaiheeseen (6).
(3) Poistetaan mallista se selittäjä, jota vastaavan regressiokertoimen t-testisuureen itseisarvo on pienin.
(4) Estimoidaan malli uudelleen.
(5) Jos kaikki selittäjät ovat tilastollisesti merkitseviä, niin siirrytään vaiheeseen (6), muuten palataan vaiheeseen (3).
(6) Malli on valmis.
Huomautus:
Vaihe (4) on välttämätön, elleivät selittäjät ole ortogonaalisia.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 50/67
3.2. Ennustaminen yleisellä lineaarisella mallilla
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuus-oletus (vi) pätee.
Ennustamistehtävä Miten yleisen lineaarisen mallin (1) selitettävän muuttujan y käyttäytymistä voidaan ennustaa? Tällä ennustamistehtävällä tarkoitetaan kahta toisilleen läheistä sukua olevaa tehtävää:
(i) Mikä on paras arvio eli ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, jos selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ?
(ii) Mikä on paras arvio eli ennuste selitettävän muuttujan y arvolle, jos selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ?
Selitettävän muuttujan odotettavissa olevan arvon ennustaminen Mikä on paras arvio eli ennuste yleisen lineaarisen mallin (1) selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ja mitkä ovat ennusteen stokastiset ominaisuudet?
Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjät x1, x2, … , xk saavat arvot
1 2, , , kx x x… . Merkitään
(1, )=z x
missä
1 2( , , , )kx x x=x …
on k-vektori. Tällöin
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 51/67
y ε′= +β z
ja
E( | )y ′=z β z
on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… . Käytetään odotusarvon E( | )y z ennusteena lauseketta
(2) ˆ |y ′=z b z
missä b on regressiokertoimien vektorin β PNS-estimaattori.
Huomautus:
Ehdollinen odotusarvo E( | )y z on vakio, kun taas ennuste ˆ |y z on satunnaismuuttuja.
Selitettävän muuttujan odotettavissa olevan arvon ennusteen jakauma Lause 3.2.1.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin
(i) ˆE( | )y ′=z β z
(ii) 2 1ˆVar( | ) [ ( ) ]y σ −′ ′=z z X X z
Huomautus 1:
Lauseen 3.2.1. kohdan (i) mukaan
ˆ |y ′=z b z
on harhaton ennuste selitettävän muuttujan y odotettavissa olevalle arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… eli
ˆE( | ) E( | )y y′= =z β z z
Huomautus 2:
Voidaan osoittaa, että ˆ |y ′=z b z
on paras selitettävän muuttujan y odotettavissa olevan arvon E( | )y z lineaaristen ja harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keski- neliövirheen.
Lause 3.2.2.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi myös normaalisuusoletus (vi) pätee. Tällöin
ˆ ˆ ˆ| N(E( | ) ,Var( | ))y y yz z z∼
missä
ˆE( | )y ′=z β z
ja
2 1ˆVar( | ) [ ( ) ]y σ −′ ′=z z X X z
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 52/67
Selitettävän muuttujan odotettavissa olevan arvon luottamusväli Lause 3.2.3.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät ja olkoon E( | )y z selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… .
Tällöin odotusarvon E( | )y z luottamusväli luottamustasolla (1 − α) on
1 1 2/ 2 [ ( ) ]t sα
−′ ′ ′±b z z X X z
jossa s2 on jäännösvarianssin σ 2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamus- tasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden luku- määrä on (n−k−1).
Selitettävän muuttujan arvon ennustaminen Mikä on paras arvio eli ennuste yleisen lineaarisen mallin (1) selitettävän muuttujan y arvolle, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… ja mitkä ovat ennusteen stokastiset ominaisuudet?
Oletetaan, että selitettävä muuttuja y saa arvon y , kun selittäjät x1, x2, … , xk saavat arvot
1 2, , , kx x x… . Merkitään
(1, )=z x
missä
1 2( , , , )kx x x=x …
on k-vektori. Tällöin
y ε′= +β z
ja
E( | )y ′=z β z
on selitettävän muuttujan y saaman arvon y odotusarvo, kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… . Käytetään selitettävän muuttujan y arvon y ennusteena lauseketta
(2) ˆ |y ′=z b z
missä b on regressiokertoimien vektorin β PNS-estimaattori.
Huomautus:
Sekä selitettävän muuttujan y arvo y että ennuste ˆ |y z ovat satunnaismuuttujia.
Ennustevirhe Selitettävän muuttujan y todellisen arvon y ja sen ennusteen ˆ |y z erotusta
ˆ | ( )e y y ε′= − = − +z β b z
kutsutaan ennustevirheeksi.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 53/67
Selitettävän muuttujan arvon ennusteen jakauma Lause 3.2.4.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin
(i) ˆE( | ) 0y y− =z
(ii) 2 1ˆVar( | ) [1 ( ) ]y y σ −′ ′− = +z z X X z
Huomautus 1:
Lauseen 3.2.4. kohdan (i) mukaan
ˆ |y ′=z b z
on harhaton ennuste selitettävän muuttujan y arvon y ehdolliselle odotusarvolle E( | )y z , kun selittäjät x1, x2, … , xk saavat arvot 1 2, , , kx x x… siinä mielessä että
ˆE( | ) 0y y− =z
Sen sijaan ˆ |y z ei ole harhaton ennuste selitettävän muuttujan y arvolle y , koska yleensä
ˆE( | )y y′= ≠z β z
Huomautus 2:
Voidaan osoittaa, että
ˆ |y ′=z b z
on paras selitettävän muuttujan y odotettavissa olevan arvon E( | )y z lineaaristen ja harhattomien ennusteiden joukossa siinä mielessä, että se minimoi ennusteen keski- neliövirheen.
Lause 3.2.5.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi myös normaalisuusoletus (vi) pätee. Tällöin ˆ ˆ| N(0,Var( | ))y y y y− −z z∼
missä
2 1ˆVar( | ) [1 ( ) ]y y σ −′ ′− = +z z X X z
Selitettävän muuttujan arvon luottamusväli Lause 3.2.6.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin selitettävän muuttujan y arvon y luottamusväli luottamustasolla (1 − α) on
1 1 2/ 2 [1 ( ) ]t sα
−′ ′ ′± +b z z X X z
jossa s2 on jäännösvarianssin σ 2 harhaton estimaattori ja −tα/2 ja +tα/2 ovat luottamus- tasoon (1 − α) liittyvät luottamuskertoimet t-jakaumasta, jonka vapausasteiden luku- määrä on (n−k−1).
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 54/67
Huomautus:
Lauseista 3.2.3. ja 3.2.6 nähdään, että selitettävän muuttujan y odotettavissa olevan arvon E( | )y z luottamusväli on kapeampi kuin selitettävän muuttujan y arvon y luottamusväli.
Tämä on ymmärrettävää, koska muuttujan keskimääräisen arvon ennustaminen on helpompaa kuin sen yksittäisen arvon ennustaminen.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 55/67
4. Edistyneempää lineaarista regressioanalyysia
4.1. PNS-estimaattorin hyvyys
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Seuraavia oletuksia kutsutaan yleisen lineaarisen mallin (1) standardioletuksiksi:
(i) Matriisi X on ei-satunnainen
(ii) r(X) = k+1
(iii) E(ε) = 0
(iv)-(v) Cov(ε) = σ 2I
Usein oletuksiin (i)-(v) liitetään vielä jäännöstermiä εt koskeva normaalisuusoletus:
(vi) ε ∼ Nn(0, σ 2I)
PNS-estimaattorin hyvyys Olkoon
b = (X´X)−1X´y
yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori.
Kuinka hyvä PNS-estimaattori b on estimaattorina? Gaussin ja Markovin lauseen mukaan PNS-estimaattoria b parempaa estimaattoria ei voida löytää regressiokertoimien vektorin β lineaaristen ja harhattomien estimaattoreiden joukosta.
Gaussin ja Markovin lause Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β PNS-estimaattori b on vektorin β paras lineaarinen ja harhaton estimaattori seuraavan lauseen tarkoittamassa mielessä:
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 56/67
Lause 4.1.1. Gaussin ja Markovin lause
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät ja olkoon b regressiokertoimien vektorin β PNS-estimaattori ja b* mikä tahansa toinen lineaarinen ja harhaton estimaattori. Tällöin matriisi
Cov(b*) − Cov(b)
on ei-negatiivisesti definiitti.
Perustelu:
Olkoon
=* *b A y
mielivaltainen regressiokertoimien vektorin β lineaarinen ja harhaton estimaattori, jossa *A on ei-satunnainen (k+1)×n-matriisi.
Määritellään (k+1)×n-matriisi A kaavalla
1( )∗ −′ ′= −A A X X X y
Siten estimaattorin ∗b lauseke voidaan kirjoittaa muotoon
1
1
1
[ ( ) ][ ( ) ]( )( ) [ ( ) ]
∗ ∗
−
−
−
=
′ ′= +
′ ′= + +
′ ′= + + +
b A yA X X X yA X X X Xβ εAX I β A X X X ε
jolloin
1E( ) ( ) [ ( ) ]E( )∗ −′ ′= + + + = +b AX I β A X X X ε AXβ β
Siten estimaattori ∗b voi olla harhaton parametrille β vain, jos
=AX 0
jolloin siis
E( )∗ =b β
ja
1E( ) [ ( ) ]∗ ∗ ∗ −′ ′− = − = +b b b β A X X X ε
Siten
1 1
1 1
1 1
2 1 1
2 1
Cov( ) E[( E( ))( E( )) ]E[( )( ) ]E{[ ( ) ] [ ( ) ][ ( ) ]E( )[ ( ) ][ ( ) ]Cov( )[ ( ) ]
[ ( ) ][ ( ) ][ ( ) ( )
σ
σ
∗ ∗ ∗ ∗ ∗
∗ ∗
− −
− −
− −
− −
−
′= − −
′= − −
′ ′ ′ ′ ′ ′= + +
′ ′ ′ ′ ′= + +
′ ′ ′ ′= + +
′ ′ ′ ′= + +
′ ′ ′= + +
b b b b bb β b βA X X X εε A X X X
A X X X εε A X X XA X X X ε A X X X
A X X X A X X XAA AX X X X X 1 1( ) ]− −′ ′ ′+X A X X
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 57/67
Koska =AX 0
tämä lauseke sievenee muotoon
2 1Cov( ) [ ( ) ]σ∗ −′ ′= +b AA X X
Koska muotoa ′AA oleva matriisi on aina positiivisesti semidefiniitti matriisi eli 0′ ≥AA
niin olemme todistaneet, että
2 1 2 1Cov( ) [ ( ) ] ( ) Cov( )σ σ− −′ ′ ′= + ≥ =*b AA X X X X b
Siten olemme todistaneet Gaussin ja Markovin lauseen, koska ∗b oli mielivaltainen regressiokertoimien vektorin β lineaarinen ja harhaton estimaattori.
■
Huomautus 1:
Lauseessa 4.1.1. esitetty PNS-estimaattorin b ns. Gauss-Markov-ominaisuus ilmaistaan usein myös seuraavassa muodossa: PNS-estimaattori b on tehokkain lineaaristen ja harhattomien estimaattoreiden joukossa.
Huomautus 2:
Lauseesta 4.1.1. seuraa, että regressiokertoimien PNS-estimaattoreiden varianssit ovat pienimmät mahdolliset lineaaristen ja harhattomien estimaattoreiden joukossa.
Huomautus 3:
Epälineaaristen ja/tai harhaisten estimaattoreiden joukosta voidaan löytää PNS- estimaattoria parempia estimaattoreita.
4.2. Yleistetty pienimmän neliösumman menetelmä
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 58/67
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(iii) pätevät. Sen sijaan jäännöstermiä ε koskevat oletukset (iv)-(v) korvataan oletuksilla:
(iv)´-(v)´ Cov(ε) = σ 2V
jossa V on positiivisesti definiitti n×n-matriisi.
Usein oletuksiin (i)-(iii) ja (iv)´-(v)´ liitetään vielä jäännöstermiä ε koskeva normaalisuus-oletus:
(vi)´ ε ∼ Nn(0, σ 2V)
Yleistetty pienimmän neliösumman estimaattori Koska matriisi
Cov(ε) = σ 2V
on oletettu positiivisesti definiitiksi, matriisilla V on Cholesky-hajotelma
V = UU´
missä n×n-matriisi U on epäsingulaarinen yläkolmiomatriisi. Kerrotaan regressioyhtälö
(1) y = Xβ + ε
vasemmalta matriisilla U−1, jolloin saadaan regressioyhtälö
(2) U−1y = U−1Xβ + U−1ε
Regressioyhtälö (2) voidaan kirjoittaa muotoon
(3) z = Tβ + δ
jossa
z = U−1y
T = U−1X
δ = U−1ε
Regressioyhtälön (3) jäännöstermi δ on korreloimaton:
Cov(δ) = U−1Cov(ε)(U−1)´ = σ2 U−1V(U´)−1 = σ2 U−1UU´(U´)−1 = σ 2I
joten standardioletukset (i)-(v) pätevät regressiomallille (3).
Soveltamalla pienimmän neliösumman menetelmää regressioyhtälöön (3) vektorin β pienimmän neliösumman estimaattoriksi saadaan mallista (3)
bGLS = (T´T)−1T´z
= (X´(U´)−1U−1X)−1 X´(U´)−1U−1y
= (X´(UU´)−1X)−1 X´(UU´)−1y
= (X´V−1X)−1 X´V−1y
Estimaattoria bGLS kutsutaan mallin (1) regressiokertoimien vektorin β yleistetyksi pienimmän neliösumman (PNS-) estimaattoriksi.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 59/67
Yleistetyn PNS-estimaattorin ominaisuudet Yleisen lineaarisen mallin (1) regressiokertoimien vektorin β yleistetyn PNS-estimaattorin bGLS keskeiset stokastiset ominaisuudet on esitetty seuraavassa lauseessa:
Lause 4.2.1.
Oletetaan, että yleisen lineaarisen mallin (1) oletukset (i)-(iii) ja (iv)´-(v)´ pätevät. Tällöin
(i) E(bGLS) = β
(ii) Cov(bGLS) = σ 2(X´V−1X)–1
(iii) Erityisesti
2 1 11, 1Var( ) [( ) ] , 0,1, 2, ,G
i i ib i kσ − −+ +′= =X V X …
missä
0 1 2( , , , , )G G G GGLS kb b b b=b …
Perustelu:
(i) Suoraan laskemalla saadaan:
E(bGLS) = E[(X´V−1X)−1X´V−1y]
= (X´V−1X)−1X´V−1E(y)
= (X´V−1X)−1X´V−1Xβ
= β
(ii) Yleistetyn PNS-estimaattorin bGLS kaavaa johdettaessa malli
y = Xβ + ε
muunnettiin malliksi
z = Tβ + δ
jossa
z = U−1y
T = U−1X
δ = U−1ε
ja U on epäsingulaarinen yläkolmiomatriisi joka toteuttaa ehdon
V = UU´
Siten
Cov(bGLS) = σ2(TT)−1 = σ2(X´V−1X)−1
(iii) Kohta (iii) on suora seuraus kohdasta (ii).
■
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 60/67
Huomautus:
Lauseen 4.2.1. kohdan (i) mukaan yleistetty PNS-estimaattori bGLS on regressio- kertoimien vektorin β harhaton estimaattori.
Lause 4.2.2.
Oletetaan, että yleisen lineaarisen mallin (1) oletuksien (i)-(iii) ja (iv)´-(v)´ lisäksi normaalisuusoletus (vi)´ pätee. Tällöin
bGLS ∼ Nk+1(β, σ2(X´V−1X)–1)
Erityisesti
2 1 11, 1N , [( ) ] , 0,1, 2, ,G
i i i ib i kβ σ − −+ +′ =X V X∼ …
missä
0 1 2( , , , , )G G G GGLS kb b b b=b …
Perustelu:
Lause 4.2.2. seuraa suoraan lauseesta 4.2.1., koska yleistetty PNS-estimaattori
bGLS = (X´V−1X)−1 X´V−1y
on multinormaalisen satunnaismuuttujan y lineaarimuunnoksena multinormaalinen.
■
Yleistetyn PNS-estimaattorin hyvyys Koska malli (3) toteuttaa ns. standardioletukset (i)-(v), kerroinvektorin β yleistetty PNS-estimaattori
bGLS = (T´T)−1T´z = (X´V−1X)−1 X´V−1y
on Gaussin ja Markovin lauseen (ks. kappale 3.2.) mukaan paras lineaaristen ja harhattomien estimaattoreiden joukossa.
Jos siis yleisen lineaarisen mallin (1) standardioletukset (i)-(iii) ja oletukset (iv)´-(v)´ pätevät, yleistetty PNS-estimaattori bGLS on myös parempi kuin tavallinen PNS-estimaattori
b = (X´X)−1X´y
mikä merkitsee sitä, että matriisi
Cov(b) − Cov(bGLS) = σ 2(X´X)−1 − σ 2(X´V−1X)−1
on ei-negatiivisesti defiiniitti kaikille positiivisesti definiiteille n×n-matriiseille V.
Yleistetty PNS-estimaattori nähdään parhaaksi lineaaristen ja harhattomien estimaattoreiden joukossa myös seuraavalla tavalla:
Olkoon
b* = Hy
jokin kerroinvektorin β lineaarinen ja harhaton estimaattori. Tällöin
E(b*) = HE(y) = HXβ = β
josta seuraa, että
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 61/67
HX = I
Määritellään matriisi C yhtälöllä
H = (X´V−1X)−1X´V−1 + C
Koska välttämättä CX = 0,
Cov(b*) = Cov(Hy) = Cov(bGLS) + CV−1C´
Koska matriisi
Cov(b*) − Cov(bGLS) = CV−1C´
on ei-negatiivisesti defiiniitti, niin yleistetty PNS-estimaattori bGLS on parempi kuin mikä tahansa muu lineaarinen ja harhaton estimaattori b*.
4.3. Lineaariset rajoitukset
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = ei-satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät, mutta oletetaan lisäksi, että regressiokertoimia sitoo lineaarinen rajoitus eli side-ehto
(2) Rβ = r
jossa R täysiasteinen m×(k+1)-matriisi, m ≤ k+1.
Huomautus:
Lineaarisen mallin (1) regressiokertoimien vektori β voi periaatteessa varioida täysin vapaasti avaruudessa 1k+ . Jos lineaarinen rajoitus (2) pätee, vektori β varioi siinä m- ulotteisessa vektorialiavaruudessa, jonka lineaarinen rajoitus (2) määrittelee. Tämä aliavaruus on m-ulotteinen taso avaruudessa 1k+ .
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 62/67
Rajoitettu pienimmän neliösumman estimaattori Minimoidaan neliösumma
ε´ε = (y − Xβ)´(y − Xβ)
vektorin β suhteen, kun lineaarinen rajoitus
Rβ = r
pätee. Käytetään minimointiin funktioiden sidottujen ääriarvojen etsimiseen tarkoitettua Lagrangen kertojien menetelmää. Minimoitava funktio on muotoa
f(β) = (y − Xβ)´(y − Xβ) + λ´(Rβ − r)
jossa λ on Lagrangen kertoimien muodostama m-vektori. Minimi löydetään derivoimalla funktio f(β) muuttujan β ja kerroinvektorin λ suhteen ja merkitsemällä derivaatat nollaksi. Derivointi johtaa normaaliyhtälöihin
(i) ( ) 2 2f∂ ′ ′ ′= − + + =∂β X y X Xβ R λ 0β
(ii) ( )f∂= − =
∂β Rβ r 0λ
Kertomalla yhtälö (i) vasemmalta matriisilla R(X´X)−1 saadaan yhtälö
−2R(X´X)−1X´y + 2Rβ + R(X´X)−1R´λ = 0
Koska matriisi R(X´X)−1R´ on täysiasteinen m×m-matriisi, vektori λ voidaan ratkaista tästä yhtälöstä. Ottamalla samalla huomioon yhtälö (ii), saadaan
λ = 2(R(X´X)−1R´)−1(Rb − Rβ) = 2(R(X´X)−1R´)−1(Rb − r)
missä
b = (X´X)−1X´y
on tavanomainen PNS-estimaattori regressiokertoimien vektorille β. Sijoittamalla vektorin λ lauseke yhtälöön (i), saadaan yhtälö
1 12 2 2 ( ( ) ) ( )− −′ ′ ′ ′ ′− + + − =X y X Xβ R R X X R Rb r 0
Ratkaisemalla β tästä yhtälöstä saadaan regressiokertoimien vektorin β estimaattoriksi:
bR = b − (X´X)−1R´(R(X´X)−1R´)−1(Rb − r)
Estimaattoria bR kutsutaan mallin (1) regressiokertoimien vektorin β rajoitetuksi tai sidotuksi pienimmän neliösumman (PNS-) estimaattoriksi.
Rajoitetun PNS-estimaattorin ominaisuudet Lineaarisen regressiomallin (1) regressiokertoimien vektorin β rajoitetun PNS-estimaattorin bR keskeiset stokastiset ominaisuudet on esitetty seuraavassa lauseessa:
Lause 4.3.1.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(v) pätevät. Tällöin
(i) E(bR) = β
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 63/67
(ii) Cov(bR) = σ 2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1]
jos lineaarinen rajoitus Rβ = r pätee.
Perustelu:
(i) Suoraan laskemalla saadaan:
E(bR) = E[b − (X´X)−1R´(R(X´X)−1R´)–1(Rb − r)]
= E(b) − (X´X)−1R´(R(X´X)−1R´)–1(RE(b) − r)
= β − (X´X)−1R´(R(X´X)−1R´)–1(Rβ − r)
= β
(ii) Oletetaan, että rajoitukset Rβ = r pätevät. Merkitsemällä
C = (X´X)−1R´
voidaan rajoitetun PNS-estimaattorin bR lauseke kirjoittaa muotoon
bR = b − C(C´X´XC)–1(Rb − r)
Koska
b = β + (X´X)−1X´ε
saadaan yhtälö
bR − β = [(X´X)−1 − C(C´X´XC)–1C´]X´ε
Koska oletimme, että Rβ = r, jolloin bR on harhaton parametrivektorille β, niin
Cov(bR) = E{[(bR − E(bR)][(bR − β)]´}
= E[(bR − β)(bR − β)´]
= [(X´X)−1 − C(C´X´XC)–1C´]X´E(εε´)X
×[(X´X)−1 − C(C´X´XC)–1C´]
= σ2[(X´X)−1 − C(C´X´XC)–1C´]X´X
×[(X´X)−1 − C(C´X´XC)–1C´]
= σ2[(X´X)−1 − C(C´X´XC)–1C´]
= σ2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)–1 R(X´X)−1]
■
Huomautus:
Lauseen 4.3.1. kohdan (i) mukaan rajoitettu PNS-estimaattori bR on lineaarisen rajoituksen Rβ = r pätiessä regressiokertoimien vektorin β harhaton estimaattori.
Lause 4.3.2.
Oletetaan, että yleisen lineaarisen mallin (1) standardioletuksien (i)-(v) lisäksi normaalisuusoletus (vi) pätee. Tällöin
bR ∼ Nk+1(β,σ 2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1])
jos lineaarinen rajoitus Rβ = r pätee.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 64/67
Perustelu:
Lause 4.3.2. seuraa suoraan lauseesta 4.3.1., koska rajoitettu PNS-estimaattori
bR = b − (X´X)−1R´(R(X´X)−1R´)−1(Rb − r)
on multinormaalisen satunnaismuuttujan y lineaarimuunnoksena multinormaalinen.
■
Rajoitetun PNS-estimaattorin hyvyys Olkoon
bR = b − (X´X)−1R´(R(X´X)−1R´)−1(Rb − r)
lineaarisen regressiomallin (1) regressiokertoimien vektorin β rajoitettu PNS-estimaattori, missä
b = (X´X)−1X´y
on vektorin β tavallinen PNS-estimaattori. Koska
b = β + (X´X)−1X´ε
saadaan yhtälö
bR − β = [(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1]X´ε
jos lineaarinen rajoitus
Rβ = r
pätee. Tällöin
Cov(bR) = E[(bR − β)(bR − β)´]
= σ 2[(X´X)−1 − (X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1]
Tästä nähdään välittömästi, että rajoitettu PNS-estimaattori bR on lineaarisen rajoituksen Rβ = r pätiessä parempi kuin tavallinen PNS-estimaattori b, koska
Cov(b) = σ 2(X´X)−1
ja matriisi
Cov(b) − Cov(bR) = σ 2(X´X)−1R´(R(X´X)−1R´)−1R(X´X)−1
on ei-negatiivisesti definiitti.
Rajoitusten testaaminen Asetetaan lineaarisen mallin (1) regressiokertoimien vektorille β nollahypoteesi
H0 : Rβ = r
jossa R täysiasteinen m×(k+1)-matriisi, m ≤ k+1. Nollahypoteesia H0 kutsutaan usein yleiseksi lineaariseksi hypoteesiksi.
Muodostetaan testisuure
1 1
2
1 ( ) ( ( ) ) ( )RSSE SSEn kFm SSE ms
− −′ ′ ′−− − − −= ⋅ =
r Rb R X X R r Rb
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 65/67
jossa
SSE = (y − Xb)´(y − Xb)
SSER = (y − XbR)´(y − XbR)
(n – k – 1)s2 = SSE
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (i)-(vi) pätevät. Tällöin testisuure F on jakautunut F-jakauman mukaan vapausastein m ja (n–k–1), jos nollahypoteesi H0 pätee:
0H
( , 1)F F m n k− −∼
Suuret testisuureen F arvot viittaavat siihen, että nollahypoteesi H0 ei päde.
Huomautus:
Yleiselle lineaariselle hypoteesille esitetty F-testi sisältää erikoistapauksinaan kappaleessa 3.1. esitetyt testit regression olemassaololle ja yksittäisille regressio- kertoimille.
4.4. Lineaarinen regressiomalli ja stokastiset selittäjät
Oletukset Olkoon
(1) y = Xβ + ε
usean selittäjän lineaarinen regressiomalli eli yleinen lineaarinen malli, jossa
y = satunnainen ja havaittu selitettävän muuttujan y arvojen yt muodostama n-vektori, t = 1, 2, … , n
X = satunnainen ja havaittu selittäjien x1, x2, … , xk arvojen xti muodostama n×(k+1)-matriisi, missä 1. sarakkeena on n-vektori 1 = (1, 1, … , 1), t = 1, 2, … , n, i = 1, 2, … , k, n ≥ k+1
β = (β0, β1, β2, … , βk) = regressiokertoimien muodostama ei- satunnainen ja tuntematon (k+1)-vektori, missä β0 on vakioselittäjän regressiokerroin ja β1, β2, … , βk ovat aitojen selittäjien x1, x2, … , xk regressiokertoimet
ε = satunnainen ja ei-havaittu jäännöstermien εt muodostama n-vektori, t = 1, 2, … , n
Oletetaan, että yleisen lineaarisen mallin (1) standardioletukset (ii)-(v) pätevät. Sen sijaan oletus (i) on korvataan nyt oletuksella
(i)´ Matriisi X on satunnainen
Huomautus:
Oletus (i)´ merkitsee sitä, että selittäjät x1, x2, … , xk oletetaan satunnaismuuttujiksi.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 66/67
Kiinteät ja satunnaiset selittäjät Lineaarista regressiomallia (1) koskevissa standardioletuksissa selittäjien havaittujen arvojen muodostama matriisi X on oletettu kiinteäksi eli ei-satunnaiseksi. Tiukasti ottaen tämä oletus voi päteä vain sellaisissa tilanteissa, joissa selittäjien arvot päästään valitsemaan. Selittäjien arvot päästään valitsemaan puhtaissa koeasetelmissa, mutta muulloin oletus on vaikeasti perusteltavissa.
Tarkastellaan seuraavassa tilannetta, jossa selittäjät ovat stokastisia muuttujia eli satunnais-muuttujia. Miten tämä vaikuttaa kappaleissa 2. ja 3. esitettyihin lineaarisen regressiomallin estimointia koskeviin tuloksiin? Täydellisen vastauksen antaminen tähän kysymykseen on monimutkainen tehtävä eikä siihen tässä edes pyritä.
Jos sekä selitettävä muuttuja y että selittäjät x1, x2, … , xk ovat satunnaismuuttujia, täydellisen kuvauksen niiden käyttäytymisestä antaa niiden yhteisjakauma. Muuttujan y riippuvuutta muuttujista x1, x2, … , xk voidaan tutkia yhteisjakauman muodostamassa kehikossa tarkastelemalla muuttujan y regressiofunktiota eli ehdollista odotusarvoa muuttujien x1, x2, … , xk suhteen.
Koska regressiofunktiot ovat yleensä epälineaarisia, joudutaan tällaisissa tilanteissa tavallisesti soveltamaan epälineaarista regressioanalyysia; epälineaarisen regressio-analyysin käsittely sivuutetaan tässä esityksessä.
Ehdollistaminen Voidaan osoittaa, että kaikki kappaleissa 2. ja 3. esitetyt lineaarisen regressiomallin estimointia ja testausta koskevat tulokset pätevät, jos seuraavat oletukset pätevät:
(i)´ E(ε | X) = 0
(ii)´ Cov(ε | X) = σ 2I
Näistä oletuksista seuraa:
(i)´´ E(y | X) = Xβ
(ii)´´ Cov(y | X) = σ 2I
Ehdon (i)´´ mukaan selitettävän muuttujan arvojen ehdollinen odotusarvo eli regressio-funktio on lineaarinen, kun ehdollistus tapahtuu selittävien muuttujien havaittujen arvojen suhteen.
Huomautus 1:
Koska moniulotteisten satunnaismuuttujien ehdolliset odotusarvot ovat yleisessä tapauksessa ehtomuuttujien epälineaarisia funktioita, oletus regressiofunktion lineaarisuudesta on stokastisten selittäjien tapauksessa hyvin voimakas oletus.
Huomautus 2:
Jos selitettävän muuttujan y ja selittäjien x1, x2, … , xk yhteisjakauma on multi- normaalinen, niin satunnaismuuttujan y ehdollinen jakauma satunnaismuuttujien x1, x2, … , xk suhteen on normaalinen.
Lisäksi tällöin satunnaismuuttujan y ehdollinen odotusarvo satunnaismuuttujien x1, x2, … , xk suhteen on lineaarinen ja satunnaismuuttujan y ehdollinen varianssi satunnais- muuttujien x1, x2, … , xk suhteen on vakio.
Monimuuttujamenetelmät Yleinen lineaarinen malli
TKK © Ilkka Mellin (2007) 67/67
Tällöin oletukset (i)´ ja (ii)´ pätevät ja voimme soveltaa kappaleissa 2. ja 3. esitettyä yleisen lineaarisen mallin tavanomaista estimointi- ja testiteoria. Tämä merkitsee sitä, että stokastisten selittäjien tapauksessa multinormaalijakauman regressiofunktiot ja lineaariset regressiomallit kytkeytyvät toisiinsa.
Lisätietoja multinormaalijakaumasta, sen ehdollisista jakaumista ja ehdollisista odotus- arvoista sekä ehdollisten odotusarvojen estimoinnista: ks. lukua Multinormaali- jakauma.
Huomautus 3:
Aikasarjojen analyysissa ja ekonometriassa joudutaan usein soveltamaan sellaisia regressiomalleja, joissa selittäjät ovat stokastisia ja oletukset (i)´ ja (ii)´ eivät päde.
Tällaisissa tilanteissa PNS-menetelmä ei välttämättä tuota harhattomia eikä edes tarkentuvia estimaattoreita regressiokertoimille. Jos näin on, niin PNS-menetelmä ei ole kelvollinen estimointimenetelmä.
Sen sijaan suurimman uskottavuuden menetelmä tuottaa tavallisesti myös niissä tilanteissa, joissa PNS-menetelmää ei saa soveltaa kelvolliset estimaattorit regressio- kertoimille.