tilastomatematiikka - math.tut.fimath.tut.fi/~ruohonen/tm.pdf · luku 1 perusotosjakaumat ja datan...
TRANSCRIPT
TILASTOMATEMATIIKKA
Keijo Ruohonen
2011
Sisältö
1 I PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET1 1.1Satunnaisotanta1 1.2Tärkeitä otossuureita2 1.3Datan esitykset ja graafiset metodit6 1.4Otosjakaumat6 1.4.1 Otoskeskiarvon jakauma9 1.4.2 Otosvarianssin jakauma10 1.4.3 t-jakauma12 1.4.4 F-jakauma
14 II YHDEN JA KAHDEN OTOKSEN ESTIMOINTI14 2.1Piste-estimointi ja väliestimointi16 2.2Yksi otos: Odotusarvon väliestimointi19 2.3Ennustevälit20 2.4Toleranssivälit21 2.5Kaksi otosta: Odotusarvojen erotuksen estimointi24 2.6Parittaiset havainnot24 2.7Suhdeluvun estimointi26 2.8Yksi otos: Varianssin estimointi27 2.9Kaksi otosta: Varianssien suhteen estimointi
29 III HYPOTEESIEN TESTAUS29 3.1Tilastolliset hypoteesit29 3.2Hypoteesien testaus31 3.3Kaksipuoliset ja toispuoliset testit32 3.4Testisuureet34 3.5P-arvot35 3.6Odotusarvojen testaus37 3.7Varianssien testaus39 3.8Odotusarvojen vertailu graafisesti
40 IV χ2-TESTIT
40 4.1Jakauman sopivuustesti41 4.2Riippumattomuustesti. Kontingenssitaulut43 4.3Homogeenisuustesti
46 V SUURIMMAN USKOTTAVUUDEN ESTIMOINTI46 5.1Suurimman uskottavuuden estimointi47 5.2Esimerkkejä
i
ii
50 VI MONEN MUUTTUJAN LINEAARINEN REGRESSIO50 6.1Regressiomalli51 6.2Parametrien estimointi. Matriisiesitys54 6.3Parametriestimaattorien ominaisuuksia57 6.4Regression tilastollinen käsittely59 6.5Sovitetun mallin tutkiminen61 6.6Kategoriset regressorit63 6.7Residuaalin tutkiminen64 6.8Logistinen regressio
68 VII PARAMETRITTOMAT MENETELMÄT68 7.1Merkkitesti70 7.2Merkityn järjestyksen testi72 7.3Mann–Whitney-testi74 7.4Kruskal–Wallis-testi76 7.5Järjestyskorrelaatiokerroin
79 VIII STOKASTINEN SIMULOINTI79 8.1Satunnaislukujen generointi80 8.1.2 Diskreettien jakaumien generointi81 8.1.3 Jatkuvien jakaumien generointi käänteiskertymämenetelmällä82 8.1.4 Jatkuvien jakaumien generointi hyväksy–hylkää-menetelmällä83 8.2Uudelleenotanta84 8.3Monte Carlo -integrointi
86 Liite: TOLERANSSIVÄLITAULUKKO
Esipuhe
Tämä moniste on alunperin tarkoitettu TTY:n peruskurssin ”MAT-33310 Tilastomatematiikka”luentotiivistelmäksi. Sopivin osin se on nyt käytössä peruskurssin ”MAT-33311 Tilastomate-matiikka 1” luentotiivistelmänä. Moniste on kirjoitettu jotakuinkin vastaamaan kirjan WALPO-LE, R.E. & MYERS, R.H. & MYERS, S.L. & YE, K.: Probability & Statistics for Engineers& Scientists. Pearson Prentice Hall (2007) Lukujen 8, 9, 10, 12 ja 16 sisältöä. Kirja (jatkossalyhyesti WMMY) on maailmanlaajuisesti yksi suosituimpia tilastomatematiikan alkeiskirjoja.Lisäksi on käsitelty stokastista simulointia. WMMYn vastinpykälät on merkitty oikeaan margi-naaliin. Tämä moniste on kuitenkin huomattavasti tiiviimpi kuin WMMY, eikä näin varsinaises-ti korvaa sitä tai esimerkiksi sovellu yhtä hyvin itseopiskeluun. Monin paikoin asian käsittelymyöskin poikkeaa kirjan WMMY vastaavasta, esitystä on osintäydennetty ja korjattu ja eräätnykykäsityksen mukaan liian epätarkat menetelmät on korvattu toisilla.
Monisteessa esitettävät esimerkit ovat pääosin kirjasta WMMY. Näiden esimerkkien nume-rot WMMYssä on merkitty oikeaan marginaaliin. Ne on kuitenkin kaikki ajettu uudelleen käyt-täen MATLAB-ohjelmaa tai tilasto-ohjelmaa JMP tai nettilaskimia. Esimerkkejä ei myöskäänole käsitelty yhtä perusteellisesti kuin kirjassa ja monetniistä on lisäksi käsitelty eri tavoin.
Kurssin ”MAT-33311 Tilastomatematiikka 1” ehdoton esitieto on kurssi ”MAT-20501 To-dennäköisyyslaskenta”, tai vastaavasti kirjan WMMY Luvut1–8. Nämä kurssit käsittävät vain
iii
tilastomatematiikan alkeet. Tarjolla onkin myös moneen suuntaan huomattavasti pidemmällemeneviä syventäviä kursseja. Mainittakoon esimerkiksi alan matemaattista puolta perusteelli-semmin käsittelevä ”MAT-51800 Matemaattinen tilastotiede”, Bayes-tyyppistä tilastomatema-tiikkaa käsittelevä ”MAT-51706 Bayesian methods”, monimuuttujamenetelmiä (joihin kuuluumm. regressio) käsittelevä kurssi ”MAT-41280 Tilastolliset monimuuttujamenetelmät” sekä ni-menomaan teknisillä aloilla käytettäviä menetelmiä käsittelevä kurssi ”MAT-34000 Tilastoma-tematiikka 2”.
Keijo Ruohonen
Luku 1
PERUSOTOSJAKAUMATJA DATAN KUVAUKSET
Tama luku on paljolti kertausta kurssilta Todennakoisyyslaskenta. Uu-tena asiana tulevat otoksen graafiset eli deskriptiiviset esitykset.
1.1 Satunnaisotanta [8.1]
Populaatio on kaikkien mahdollisesti otokseen tulevien arvojen kokoel-ma. Arvo, numeerinen tai luokitteluarvo, voi esiintya populaatiossa mon-ta kertaa. Otos on tiettyjen populaatiosta valittujen arvojen kokoelma. ”sample”
Naiden lukumaara on otoskoko, jota merkitaan usein n:lla. Jos ko. arvotvalitaan satunnaisesti, kyseessa on satunnaisotos. ”random sample”
Otos voidaan ajatella ensinnakin jonona satunnaismuuttujia: X1, X2,. . . , Xn (”ensimmainen otosalkio”, ”toinen otosalkio”, . . . ). Nailla satun-naismuuttujilla on sama jakauma (”satunnaisuus”) ja ne ovat riippumat- IID: ”independent,
identically distributed”.tomat. Konkreettinen otannan tuloksena saatu realisoitunut otos puo-lestaan on jono arvoja (numeerisia tai luokitteluarvoja): x1, x2, . . . , xn.Huomaa merkinta: satunnaismuuttujia merkitaan isoin kirjaimin, arvojapienin.
Tassa tarkoitettu otanta on tarkemmin ottaen ns. otanta palauttaen, Otantaa palauttamatta eitassa sen kummemmin
kasitella, ks. esimerkiksimoniste RUOHONEN, K.:
Tilastollinen kokeidensuunnittelu ja otanta.
ts. jos populaatio on aarellinen (tai numeroituvasti aareton), ajatellaanotettu alkio palautetuksi ennen seuraavan otokseen tulevan alkion otta-mista.
1.2 Tarkeita otossuureita [8.2]
Otossuure eli statistika on jokin otoksesta laskettu yksittainen arvo: ”statistic”
f(X1, . . . , Xn) (satunnaismuuttuja) tai f(x1, . . . , xn) (realisoitunut ar-vo). Tuttu otossuure on otoskeskiarvo ”sample mean”
X =1
n
n∑i=1
Xi tai x =1
n
n∑i=1
xi,
edellinen on satunnaismuuttuja, jalkimmainen realisoitunut otoskeskiar-vo.
1
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 2
Toinen tuttu otossuure on otosvarianssi ”sample variance”
S2 =1
n− 1
n∑i=1
(Xi −X)2 tai s2 =1
n− 1
n∑i=1
(xi − x)2,
jalleen edellinen on satunnaismuuttuja ja jalkimmainen realisoitunut nu-meerinen arvo. Otosvarianssi voidaan myos kirjoittaa muotoon
Avataan vain nelio(Xi −X)2.S2 =
1
n− 1
n∑i=1
X2i −
n
n− 1X
2
(vastaavasti s2). Ottamalla neliojuuret saadaan otoshajonnat S ja s. Mui- ”sample standarddeviation”, ”sample
maximum”, ”sampleminimum”
ta tarkeita otossuureita ovat otosmaksimi ja -minimi.
Xmax = max(X1, . . . , Xn) tai xmax = max(x1, . . . , xn),
Xmin = min(X1, . . . , Xn) tai xmin = min(x1, . . . , xn)
seka naiden erotus, otosvaihteluvali. ”sample range”
R = Xmax −Xmin tai r = xmax − xmin.
1.3 Datan esitykset ja graafiset metodit [8.3]
Tutun pylvasdiagrammin eli histogrammin lisaksi on useita muitakin hy-vin tavallisia tapoja havainnollistaa dataa.
Esimerkki. Tassa esimerkissa otos muodostuu n = 40 satunnaisesti va- [8.3]
litun savukkeen mitatusta nikotiinipitoisuudesta:Desimaalierottimena kay-
tetaan pistetta, ettei sesekaannu jonoerottimena
kaytettavaan pilkkuun.
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.241.58 2.03 1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.511.64 0.72 1.69 1.85 1.82 1.79 2.46 1.88 2.08 1.671.37 1.93 1.40 1.64 2.09 1.75 1.63 2.37 1.75 1.69
JMP-ohjelma tulostaa seuraavan (vahan siistityn) graafisen esityksen:
Nicotinedata: Distribution Page 1 of 1
.5 1 1.5 2 2.5
100.0%
99.5%
97.5%
90.0%
75.0%
50.0%
25.0%
10.0%
2.5%
0.5%
0.0%
maximum
quartile
median
quartile
minimum
2.5500
2.5500
2.5478
2.3070
2.0150
1.7700
1.6325
1.2530
0.7232
0.7200
0.7200
Quantiles
Mean
Std Dev
Std Err Mean
upper 95% Mean
lower 95% Mean
N
1.77425
0.3904559
0.0617365
1.8991239
1.6493761
40
Moments
Content
Distributions
Vasemmalla ylhaalla oleva ns. laatikko–viikset-kuvio antaa tiivistetyn ”box and whiskers”
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 3
kuvan datan jakaumasta. Laatikko-osa on alakvartiilin q(0.25) ja yla-kvartiilin q(0.75) valinen osa otosarvoista (ks. alla). Laatikon sisalla onmyos pystyviivalla merkitty otosmediaani (ks. alla). Viikset taas osoitta-vat otosmaksimin ja -minimin. Viiksiin voidaan merkita muitakin kvan-tiileja (ks. alla). (Laatikon sisalla on myos luottamusvalin antava ns.keskiarvoruutu, johon palataan myohemmin Pykalassa 3.8.)
Usein otoksesta poistetaan yksi tai useampia ns. vieraita eli ulkolaisia, ”outlier”
otosarvoja, jotka poikkeavat niin paljon tavallisesta, etta niiden katsotaansyntyneen virheen seurauksena. Vieraiksi havaintoja voidaan luokitellaerilaisin kriteerein. Vieraat on kuvaan merkitty pisteilla (tassa on kaksivierasta).
Pylvasdiagrammin sijasta jotkut haluavat kayttavaa ns. runko–lehti- ”stem and leaf diagram”
diagrammia. Jos kaytetaan d desimaalin esitysta, valitaan d − 1 ensim-maista desimaalia ns. rungoksi ja viimeiset desimaalit ovat ns. lehtia.Data esitetaan tyypillisesti muodossa
1.2∣∣∣0227779,
joka tassa tapauksessa tarkoittaa sita, etta runko-osa on 1.2, otoksessa onyksi arvo 1.20, kaksi arvoa 1.22, kolme arvoa 1.27 ja yksi arvo 1.29 (eikasiis esimerkiksi yhtaan arvoa 1.21). Lehtiosaa voidaan tilasyista jakaamonellekin riville.
Esimerkki. (Jatkoa) JMP tulostaa seuraavan runko–lehti-diagrammin [8.3]
(jalleen vahan siistittyna oletustulostukseen verrattuna):
Nicotinedata: Distribution Page 1 of 1
.5 1 1.5 2 2.5
100.0%
99.5%
97.5%
90.0%
75.0%
50.0%
25.0%
10.0%
2.5%
0.5%
0.0%
maximum
quartile
median
quartile
minimum
2.5500
2.5500
2.5478
2.3070
2.0150
1.7700
1.6325
1.2530
0.7232
0.7200
0.7200
Quantiles
Stem Leaf
2 6
2 45
2 233
2 00111
1 88888999999
1 6666777777
1 4455
1 2
1 1
0 9
0 7
Count
1
2
3
5
11
10
4
1
1
1
1
0|7 represents 0.7
Stem and Leaf
Content
Distributions
Tassa arvot on ensin pyoristetty kaksidesimaalisiksi.
Otoskvantiili q(f) on kirjan WMMY maarittelyn mukaan sellainen ”sample quantile”
lukuarvo, etta otosarvoista 100f % on ≤ q(f). Erityisesti sovitaan, ettaq(0) = xmin ja q(1) = xmax. Minimin ja maksimin lisaksi muita taval-lisia otoskvantiileja ovat otosmediaani q(0.5) seka alakvartiili q(0.25) jaylakvartiili q(0.75). Edelleen usein esiintyvat kvintiilit
q(0.2) , q(0.4) , q(0.6) , q(0.8)
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 4
seka desiilit
q(0.1) , q(0.2) , q(0.3) , q(0.4) , q(0.5) , q(0.6) , q(0.7) , q(0.8) , q(0.9)
ja sentiilitq(0.01) , q(0.02) , q(0.03) , . . . , q(0.99).
Erotus q(0.75)− q(0.25) on ns. kvartiilivali. ”interquartile range”
Ehkapa parempi maarittely otoskvantiilille q(f) on seuraava: q(f) onsellainen luku, etta enintaan 100f % otosarvoista on < q(f) ja enintaan(1−f)100 % otosarvoista on > q(f). Nainkin maariteltyna otoskvantiiliteivat aina ole yksikasitteisia. On useita tapoja maaritella otoskvantiilitniin, etta niista tulee yksikasitteisia (ks. harjoitukset). Ohjelmistot tu-lostavat yleensa jonkin kokoelman otoskvantiileja jonkin tallaisen maa-rittelytavan mukaisesti. Ks. edellinen esimerkki.
Yo. otoskvantiilit ovat realisoituneita arvoja. Tietysti voidaan maari-tella myos vastaavat satunnaismuuttujat Q(f), esimerkiksi otosmediaaniQ(0.5). Naiden jakaumat ovat hyvin mutkikkaita.
Ns. kvantiilikuva saadaan jarjestamalla ensin otosarvot x1, x2, . . . , xn ”quantile plot”
kasvavaan jarjestykseen:
x(1), x(2), . . . , x(n)
(missa siis x(i) on i:nneksi pienin otosarvo). Sen jalkeen pyritaan saa-maan otosarvoa x(i) mahdollisimman hyvin vastaava luku f . Tallaiseksivalitaan usein
fi =i− 3/8
n+ 1/4.
Lopuksi piirretaan pisteet (fi, x(i)) (i = 1, . . . , n) pistekuviona tai por-rasviivana. Tulos on kvantiilikuva. Jos piirretaankin pisteet (x(i), fi) por-rasviivana saadaan ns. otoskertyma eli empiirinen kertyma. ”empirical cumulative dis-
tribution function”
Esimerkki. (Jatkoa) JMP piirtaa nimenomaan otoskertyman (kuva oi- [8.3]
kealla):Nicotinedata: Distribution Page 1 of 1
.01
.05
.10
.25
.50
.75
.90
.95
.99
-3
-2
-1
0
1
2
3
Norm
al Q
uanti
le P
lot
.5 1 1.5 2 2.5
100.0%
99.5%
97.5%
90.0%
75.0%
50.0%
25.0%
10.0%
2.5%
0.5%
0.0%
maximum
quartile
median
quartile
minimum
2.5500
2.5500
2.5478
2.3070
2.0150
1.7700
1.6325
1.2530
0.7232
0.7200
0.7200
Quantiles
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Cum
Pro
b
.5 1 1.5 2 2.5
Content
CDF Plot
Content
Distributions
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 5
Populaatioarvoilla on oma jakaumansa, joka voi olla tarkasti hyvinvaikea selville saatava. Usein on kuitenkin hyvia syita olettaa, etta ko.jakauma olisi jotakuinkin normaalijakauma, ts. etta jakauman kertyma-funktio olisi melko tarkasti jonkin normaalijakauman N(µ, σ2) kertyma-funktio. Jos asiasta on kuitenkin epailyksia, voi ensimmaisena temppuna Usein myos viimeisena!
yrittaa katsoa tilannetta graafisesti. Tama voidaan tehda vertailemallaotoskvantiileja normaalijakauman vastaaviin.
Jos jakauman kertymafunktio on F , niin sen kvantiili q(f) on sellai- Huomaa, etta jakaumankvantiili ja otoskvantiiliovat eri asioita, vaikka
niita tassa merkitaankinsamalla tavalla.
nen luku, etta F(q(f)
)= f . Jos merkitaan normaalijakauman N(µ, σ2)
kvantiileja qµ,σ(f):lla, niin
qµ,σ(f) = µ+ σΦ−1(f),
missa Φ on standardinormaalijakauman N(0, 1) kertymafunktio.
Varsin hyvan approksi-maation antaa muuten
Φ−1(f) ∼= 4.91f0.14
− 4.91(1− f)0.14.Piirtamalla pisteet(x(i), q0,1(fi)
)(i = 1, . . . , n) pistekuviona tai por-
rasviivana saadaan ns. normaalikvantiilikuva. Mikali populaatiojakauma ”normal quantile plot”
todella on N(µ, σ2), niin kuvion pitaisi olla jotakuinkin suora, silla ide-aalisesti silloin
q0,1(fi) = Φ−1(fi) =qµ,σ(fi)− µ
σ∼=x(i) − µ
σ.
Kuvaajan paissa saa olla joidenkin havaintojen osalta vahan isompiakinheittoja, mutta ainakin keskivaiheilla sen pitaisi olla melko suora. Elleinain ole, voidaan ainakin alustavasti paatella, ettei populaatiojakaumaole normaali. Edellisessa esimerkissa vasemmalla oleva kuva on normaa-likvantiilikuva. Populaatiojakaumaa voitaneen taman kuvan perusteellapitaa normaalina, vaikkakin tiettya poikkeamaa on havaittavissa.
Esimerkki. Tassa esimerkissa on mitattu n = 28 kertaa tiettyjen or- [8.5]
ganismien lukumaaria. JMP tulostaa alla olevan normaalikvantiilikuvan, Akselit ovat toisinpain!
josta nahdaan, ettei populaatiojakaumaa voida mitenkaan pitaa normaa-lina. Tama nakyy tietysti selvasti myos pylvasdiagrammissa.
Organisms: Distribution Page 1 of 1
0
5000
10000
15000
20000
25000
30000 .01 .05.10 .25 .50 .75 .90.95 .99
-3 -2 -1 0 1 2 3
Normal Quantile Plot
Number_of_organismsDistributions
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 6
Muitakin tapoja tutkia normaalisuutta graafisesti on, esimerkiksi ns.normaalitodennakoisyyskuva. ”normal probability plot”
1.4 Otosjakaumat [8.4]
Otossuureen (satunnaismuuttujan) jakauma on ns. otosjakauma. Joiden- ”sample distribution”
kin otossuureiden jakaumat ovat hyvin hankalia, vaikka populaatioja-kauma olisikin ”mukava” (esimerkiksi normaali). Tallaisia ovat erityisestiotoskvantiilit satunnaismuuttujiksi ajateltuina.
1.4.1 Otoskeskiarvon otosjakauma [8.5]
Jos populaatiojakauman odotusarvo on µ ja varianssi σ2, niin otoskes-kiarvon odotusarvo on
E(X) = µ
ja varianssi
var(X) =σ2
n
(n on otoskoko). Otoskeskiarvon hajonta eli sen ns. keskivirhe on σ/√n ”standard error”
ja se pienenee otoskoon kasvaessa.Jos populaatiojakauma on normaalijakauma N(µ, σ2), niin otoskes-
kiarvon jakauma on myos normaalijakauma, nimittain N(µ, σ2/n). X:njakauma on kuitenkin ainakin likimain normaali myos muuten, jos vainn on kyllin iso (ja populaatiojakaumalla on olemassa odotusarvo ja aa- Kaikilla jakaumilla ei ole
odotusarvoa. Joillakin taason vain odotusarvo, mutta
ei aarellista varianssia.
rellinen varianssi). Taman takaa klassinen approksimaatiotulos:
Keskeinen raja-arvolause (otoskeskiarvoille). Jos populaatiojakau-”Central Limit Theorem”
man odotusarvo on µ ja (aarellinen) varianssi σ2, niin standardoidunsatunnaismuuttujan
Lauseesta on myos versioi-ta, joissa otosalkioille ei
oleteta samaa jakaumaa,vain riippumattomuus.
Talloin, jos otosalkioidenX1, . . . , Xn odotusarvot
ovat µ1, . . . , µn ja hajon-nat σ1, . . . , σn, niin vali-
taan
µ = 1n (µ1 + · · ·+ µn) ,
σ2 = 1n (σ2
1 + · · ·+ σ2n).
Silloin lause pitaa paik-kansa, kunhan asetetaan
viela jokin (heikohko) lisa-oletus. Kuuluisa tallainenon ns. Lindebergin ehto.
Jarl Lindeberg (1876–1932) muuten oli suoma-
lainen matemaatikko!
Z =X − µσ/√n
kertymafunktio on likimain standardinormaalijakauman kertymafunktioΦ, sita tarkemmin mita suurempi n on.
Yleensa katsotaan, etta otoskoko n = 30 jo riittaa tekemaan X:n jakau-man hyvin tarkasti normaaliksi. Jos populaatiojakauma on jo lahtiessa”hyvaa muotoa” (yksihuippuinen, likimain symmetrinen jne.), niin pie-nempikin arvo riittaa (esimerkiksi n = 5).
Esimerkki. Lahtien vahvasti epasymmetrisesta jakaumasta saadaan eriotoskoille alla olevan kuvan mukaisia summan X1 + · · ·+Xn tiheysfunk-tioita (laskettu Maple-ohjelmistolla). Jos taas lahdetaan symmetrisesta,mutta vahvasti kaksihuippuisesta jakaumasta, saadaan vastaavasti toi-sen kuvasarjan mukaiset summan X1 + · · ·+Xn tiheysfunktiot. Otoskokon = 7 riittaa siis jo tekemaan ensimmaisen kuvasarjan X:n jakaumastamelko tarkasti normaalin, mutta vasta otoskoko n = 20 riittaa toisellekuvasarjalle.
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 7
1. kuvasarja:
n = 3
n = 10n = 7
n = 2
n = 5
xx
xx
xx
.5
.4
.3
.2
.1
0. 10.8.6.4.2.0.
.6
.5
.4
.3
.2.10. 7.6.5.4.3.2.1.0.
.7
.6
.5
.4
.3
.2.10. 5.4.3.2.1.0.
.8
.6
.4
.2
0. 3.02.52.01.51.0.50.
1.0.8.6.4.20. 2.01.51.0.50.
1.81.61.41.21.0
.8
.6
.4
.20. 1.0.8.6.4.20.
n = 1
2. kuvasarja:
n = 5n = 3
n = 20
.20
.15
.10
.5e–1
0. 20.15.10.5.0.
.35
.30
.25
.20
.15
.10.5e–1
0. 10.8.6.4.2.0.
.5
.4
.3
.2.10. 5.4.3.2.1.0.
.8
.6
.4
.2
0. 3.02.52.01.51.0.50.
1.61.41.21.0
.8
.6
.4
.20. 2.01.51.0.50.
3.02.52.01.51.0
.5
1.0.8.6.4.20.
xx
xx
xx
n = 10
n = 1 n = 2
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 8
Esimerkki. Koneenosan halkaisijan pitaisi olla µ = 5.0 mm (odotusar- [8.7]
vo). Aikaisemman tiedon perusteella halkaisijan populaatiohajonta onσ = 0.1 mm. Asiaa tutkitaan n = 100 osan otoksella, jonka otoskes-kiarvo on x = 5.027 mm. Lasketaan todennakoisyys
P(|X − µ| ≥ 0.027 mm) = 2P( X − 5.0
0.1/√
100≥ 2.7
)= 0.0069
(saadaan standardinormaalijakaumasta Keskeisen raja-arvolauseen no-jalla). Tama on aika pieni, mika herattaa epailyksia: Sangen luultavastitodellinen µ on isompi. MATLAB-ohjelmistolla laskut menevat seuraa-vasti:
>> mu=5.0;
sigma=0.1;
n=100;
x_viiva=5.027;
>> 2*(1-normcdf(x_viiva,mu,sigma/sqrt(n)))
ans =
0.0069
Kahden riippumattoman otoksen otoskeskiarvojen X1 ja X2 erotuk-selle saadaan vastaavasti odotusarvo ja varianssi Jos satunnaismuuttujat X
ja Y ovat riippumattomat,niin
var(X ± Y )= var(X) + var(Y ).
E(X1 −X2) = µ1 − µ2 ja var(X1 −X2) =σ21
n1
+σ22
n2
,
missa µ1, µ2 seka σ21, σ
22 ovat vastaavat populaatiojakaumien odotusar-
vot ja varianssit ja n1, n2 ovat otoskoot. Jos otoskoot ovat kyllin isot,standardoidulla satunnaismuuttujalla
Z =X1 −X2 − (µ1 − µ2)√
σ21/n1 + σ2
2/n2
on Keskeisen raja-arvolauseen mukaisesti (kertymamielessa) likimain nor- Kahden riippumattomannormaalijakautuneen sa-
tunnaismuuttujan summaja erotus ovat myos nor-
maalijakautuneita.
maalijakauma N(µ1−µ2, σ21/n1 +σ2
2/n2). (Ja tarkastikin, jos populaatio-jakaumat ovat normaaleja.)
Esimerkki. Kahden maalin A ja B kuivumisaikoja verrattiin n = 18 [8.8]
naytteen avulla. Molempien maalien kuivumisaikojen populaatiohajon-nan tiedetaan olevan σA = σB = 1.0 h. Otoskeskiarvojen erotukseksisaatiin xA − xB = 1.0 h. Voisiko tallainen tulos tulla, vaikka populaatio-odotusarvot ovat samat (eli µA = µB)? Lasketaan
P(XA −XB ≥ 1.0 h) = P( XA −XB − 0√
1.02/18 + 1.02/18≥ 3.0
)= 0.0013.
Todennakoisyys on niin pieni, etta tulos ei varmaankaan ole tullut sat-tumalta, vaan todella µA > µB. Jos olisikin saatu xA − xB = 15 min,saataisiin vastaavasti
P(XA −XB ≥ 0.25 h) = 0.2266.
Tama tulos taas on hyvinkin voinut tulla sattumalta. MATLAB-ohjelmistollatallaiset laskut menevat seuraavasti:
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 9
>> mu=0; % Maaleilla samat odotusarvot
sigma_A=1.0;
sigma_B=1.0;
n_A=18;
n_B=18;
erotus=1.0; % Maalin A otoskeskiarvo - maalin B otoskeskiarvo
> 1-normcdf(erotus,mu,sqrt(sigma_A/n_A+sigma_B/n_B))
ans =
0.0013
>> erotus=0.25;
>> 1-normcdf(erotus,mu,sqrt(sigma_A/n_A+sigma_B/n_B))
ans =
0.2266
1.4.2 Otosvarianssin jakauma [8.6]
Otosvarianssin jakauma on hankala, ellei voida olettaa, etta populaatioja- Asiaan liittyvat todistuk-set ovat jo varsin hankalia
ja ne sivuutetaan tassa. Neloytyvat mm. monisteestaRUOHONEN, K. & POHJA-
VIRTA, A.: Laaja tilastoma-tematiikka.
kauma on normaali. Tehdaankin tama oletus, jolloin ko. jakauma saadaanns. χ2-jakauman avulla.
Jos satunnaismuuttujat U1, . . . , Uv ovat standardinormaalisti jakau-tuneet ja riippumattomat, niin satunnaismuuttujalla
V = U21 + · · ·+ U2
v
on χ2-jakauma. Tassa v on jakauman parametri, ns. vapausasteiden lu- ”(k)hii-toiseen-jakauma”
kumaara. Jakauman tiheysfunktio on
g(x) =
1
2v2 Γ(v
2)x
v−22 e−
x2 , kun x > 0
0, kun x ≤ 0,
missa Γ on gammafunktio Γ(y) =∫∞0ty−1e−t dt. Hankalahkosta muodos- Gammafunktio on kerto-
man n! jatkuva yleistys.Helposti nakee nimittain,
etta Γ(1) = 1 ja (osit-taisintegroinnilla) etta
Γ(y + 1) = yΓ(y).
Siispa Γ(n) = (n− 1)!,kun n on positiivinenkokonaisluku. Hanka-lampi on todeta, etta
Γ( 12 ) =
√π.
taan huolimatta χ2-jakauman todennakoisyydet ovat numeerisesti hyvinlaskettavissa. Alla muutamia χ2-jakaumien tiheysfunktioita (vapausastei-den lukumaaraa on merkitty tassa n:lla, laskettu MATLAB-ohjelmistolla):
0 1 2 3 4 5 6 7 8 9 100
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
n = 1
n = 5
n = 10
n = 15
n = 20
χ2(n)-jakaumien tiheysfunktioita
x
Helposti nakee, etta E(V ) = v ja voidaan nayttaa, etta var(V ) = 2v.
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 10
Keskeisen raja-arvolauseen seurauksena suurille v:n arvoille (noin v ≥ 30) Tasta johtuu, etta χ2-ja-kauma yleensa taulukoi-
daan vain enintaan va-pausasteille 30–40.
χ2-jakauma on nain likimain normaalijakauma N(v, 2v).Ilmeisesti, jos X1, . . . , Xn on otos N(µ, σ2)-jakautuneesta populaatios-
ta, niin satunnaismuuttujat (Xi−µ)/σ ovat standardinormaaleja ja riip-pumattomia ja summalla
n∑i=1
(Xi − µ)2
σ2
on χ2-jakauma n vapausasteella. Mutta ko. summahan ei ole otosvarians-si! Toisaalta samantapaisella otosvarianssista saatavalla satunnaismuut-tujalla Tama on hankala nayttaa!
(n− 1)S2
σ2=
n∑i=1
(Xi −X)2
σ2
on myos χ2-jakauma, mutta n− 1 vapausasteella. Tarkeaa on huomata,etta mitaan Keskeisen raja-arvolauseen tapaista approksimaatiota ei oletassa kaytettavissa, vaan populaatiojakauman on oltava normaali.
Esimerkki. Kestoiat on merkitty ylos n = 5 akulle. Arvellaan, etta ko. [8.10]
akkumallille kestoian (populaatio)hajonta olisi σ = 1.0 v. Otokseen saa-tiin kestoiat 1.9 v, 2.4 v, 3.0 v, 3.5 v ja 4.2 v. Laskien saadaan otosva-rianssiksi s2 = 0.815 v 2. Edelleen saadaan
P(S2 ≥ 0.815 v 2) = P((n− 1)S2
σ2≥ 3.260
)= 0.5153
(kayttaen χ2-jakaumaa n − 1 = 4 vapausasteella). Saatu arvo s2 on siishyvin ”tavallinen” (likella mediaania). Mitaan syyta epailla oletettua po-pulaatiohajontaa 1.0 v ei tassa ole. Laskut MATLABilla:
>> mu=3;
sigma=1;
n=5;
otos=[1.9 2.4 3.0 3.5 4.2];
>> s=std(otos)
s =
0.9028
>> 1-chi2cdf((n-1)*s^2/sigma^2,n-1)
ans =
0.5153
1.4.3 t-jakauma [8.7]
Edella kasiteltaessa otoskeskiarvoa piti tietaa populaatiohajonta σ. Jos Jalleen asiaan liittyvattodistukset ovat hankalat
ja loytyvat mm. monis-teesta RUOHONEN, K. &
POHJAVIRTA, A.: Laajatilastomatematiikka.
sita ei tiedeta, voidaan edelleen edeta, mutta normaalijakauman tilal-le tulee ns. t-jakauma (eli Studentin jakauma). Lisaksi Keskeinen raja-arvolause ei ole tassakaan kaytossa, vaan populaatiojakauman pitaa sil-loin olla normaali.
Jos satunnaismuuttujat U ja V ovat riippumattomat, U :lla on stan-dardinormaalijakauma ja V :lla on χ2-jakauma v vapausasteella, niin sa-tunnaismuuttujalla
T =U√V/v
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 11
on t-jakauma v vapausasteella. Jakauman tiheysfunktio on Jakauman otti kayttoonkemisti William Gosset
(1876–1937), nimimerkki”Student”.g(x) =
Γ(v+12
)√πv Γ(v
2)
(1 +
1
vx2)− v+1
2
.
Alla on muutamia esimerkkeja t-jakaumien tiheysfunktioista (vapausas-tein n, laskut MATLABilla):
-4 -3 -2 -1 0 1 2 3 40
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
n = 1
n = 5
n = 10
n = 30
t(n)-jakaumien tiheysfunktioita
t
t-jakauma on yksihuippuinen ja symmetrinen arvon 0 suhteen, jamuistuttaa nain vahan standardinormaalijakaumaa. Suurille v:n arvoillese onkin varsin tarkasti standardinormaalijakauma, mutta tama ei seuraaKeskeisesta raja-arvolauseesta. Vaan mista?
Jos populaatiojakauma on normaali, niin otoskeskiarvo X ja otosva-rianssi S2 ovat riippumattomat satunnaismuuttujat. Tasta seuraa, etta Tama riippumattomuus
on vaikeasti osoitettavaja jonkin verran yllattava
juttu!
myos naista laskien saatavat satunnaismuuttujat
U =X − µσ/√n
ja V =(n− 1)S2
σ2
ovat riippumattomat. Edellisella on standardinormaalijakauma ja jalkim-maisella χ2-jakauma n− 1 vapausasteella. Siispa satunnaismuuttujalla
T =U√
V/(n− 1)=X − µS/√n
on t-jakauma n− 1 vapausasteella.
Esimerkki. Eraan kemiallisen prosessin tuottoa mitataan grammoissa [8.14]
raaka-ainemillilitraa kohti. Mainitun tuoton pitaisi olla µ = 500 g/ml(oletettu populaatio-odotusarvo). Asiaa tutkittiin n = 25 alkion otoksella,jolloin saatiin otoskeskiarvo x = 518 g/ml ja otoshajonta s = 40 g/ml.Lasketaan
P(X − µS/√n≥ 518− 500
40/√
25
)= P(T ≥ 2.25) = 0.0169
(kayttaen t-jakaumaa n − 1 = 24 vapausasteella). Tama todennakoisyyson pieni, joten tulos ei luultavastikaan syntynyt sattumalta ja tuotto tai-taakin olla parempi kuin luultiin. Laskut MATLABilla:
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 12
>> mu=500;
n=25;
x_viiva=518;
s=40;
>> 1-tcdf((x_viiva-mu)/(s/sqrt(n)),n-1)
ans =
0.0169
Vaikka t-jakauma onkin johdettu silla oletuksella, etta populaatioja-kauma on normaali, se on siina mielessa robusti, etta satunnaismuuttu-ja T ylla on likimain t-jakautunut kunhan vain populaatiojakauma onnormaalinkaltainen (yksihuippuinen, likimain symmetrinen). Tama joh-tuu siita, etta tallaisille populaatiojakaumille otoshajonta S on isohkoil-le otoskoille n jo niin tarkasti = σ, etta Keskeinen raja-arvolause tuleejossain mielessa kayttoon. Nain t-jakauma on hyvin kayttokelpoinen mo-nissa tilanteissa.
1.4.4 F-jakauma [8.8]
Kahden eri otoksen hajontojen vertailu onnistuu niiden otosvarianssienavulla kayttaen ns. F-jakaumaa eli Fisherin jakaumaa eli Snedecorin ja-
Ronald Fisher (1880–1962), tilastomatematii-
kan uranuurtajia
George Snedecor (1881–1974)
kaumaa.Jos satunnaismuuttujat V1 ja V2 ovat riippumattomat ja niilla on
χ2-jakaumat v1 ja v2 vapausasteella, vastaavasti, niin satunnaismuuttu-jalla
F =V1/v1V2/v2
on F-jakauma vapausastein v1 ja v2. Talloin satunnaismuuttujalla 1/Fon myos F-jakauma, nimittain vapausastein v2 ja v1. F-jakauman tiheys-funktio on varsin mutkikas:
g(x) =
(v1v2
)v12 Γ(v1+v2
2)
Γ(v12
)Γ(v22
)x
v1−22
(1 +
v1v2x)− v1+v2
2, kun x > 0
0, kun x ≤ 0.
Muutamia esimerkkeja F-jakaumien tiheysfunktioista (vapausastein n1 jan2, laskut MATLABilla):
0 0.5 1 1.5 2 2.5 3 3.5 4 4.50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
n1 = 5, n
2 = 5
n1 = 5, n
2 = 20
n1 = 20, n
2 = 5
n1 = 20, n
2 = 20
F(n1,n
2)-jakaumien tiheysfunktioita
v
LUKU 1. PERUSOTOSJAKAUMAT JA DATAN KUVAUKSET 13
Jos S21 ja S2
2 ovat kahden riippumattoman otoksen otosvarianssit, vas-taavat populaatiot ovat normaalijakautuneet hajonnoin σ1 ja σ2 ja otos-koot ovat n1 seka n2, niin satunnaismuuttujat
V1 =(n1 − 1)S2
1
σ21
ja V2 =(n2 − 1)S2
2
σ22
ovat riippumattomat ja χ2-jakautuneet vapausastein n1 − 1 seka n2 − 1.Niinpa satunnaismuuttujalla
F =V1/(n1 − 1)
V2/(n2 − 1)=S21/σ
21
S22/σ
22
on silloin F-jakauma vapausastein n1 − 1 ja n2 − 1.F-jakaumaa voidaan kayttaa populaatiovarianssien vertailuun otosten
avulla, ks. Pykalat 2.9 ja 3.7. Se tosin ei ole siihen tarkoitukseen kovin-kaan vahva tyokalu. Parempiakin on ja ohjelmistot kayttavatkin yleensa Mm. Bartlettin testi tai
Levenen testi.niita.
Esimerkki. Otetaan tapaus, jossa on saatu realisoituneet otosvarianssits21 = 0.20 seka s22 = 0.14 ja otoskoot ovat n1 = 25 ja n2 = 30. Lisak-si arvellaan, etta vastaavat populaatiohajonnat ovat samat eli σ1 = σ2.Lasketaan
P(S2
1/σ21
S22/σ
22
≥ s21/σ21
s22/σ22
)= P(F ≥ 1.429) = 0.1787
(kayttaen F-jakaumaa vapausastein n1−1 = 24 ja n2−1 = 29). Hantato-dennakoisyys on siis melko iso, liikutaan jakauman ”tavallisella” alueel-la eika mitaan kummempaa syyta epailla populaatiohajontojen samuuttaole. Laskut MATLABilla:
>> n_1=25;
n_2=30;
s_1_toiseen=0.20;
s_2_toiseen=0.14;
>> 1-fcdf(s_1_toiseen/s_2_toiseen,n_1-1,n_2-1)
ans =
0.1787
Varsinaisesti F-jakauma tulee kayttoon ns. varianssianalyysissa, josta ANOVA, ”analysis ofvariance”lisaa myohemmin.
Luku 2
YHDEN JA KAHDENOTOKSEN ESTIMOINTI
Estimointi eli populaatiojakaumaan liittyvan numeerisen arvon eli para- ”classical statistical inferen-ce”metrin arviointi on hypoteesin testauksen ohella ns. klassisen tilastollisen
Toinen tilastomenetelmienperuslaji on ns. Bayesin
menetelmat, joita ei tassakasitella.
paattelyn perusmenetelma.
2.1 Piste-estimointi ja valiestimointi [9.3]
Piste-estimoinnin tarkoituksena on saada arvioiduksi jokin populaatioon ”point estimation”
liittyva numeerinen arvo, ns. parametri, θ kayttaen otosta. Tallainen pa-rametri on esimerkiksi populaatio-odotusarvo µ, jota voidaan estimoidaotoskeskiarvolla x. Otoksesta laskettu realisoitunut θ:a arvioiva numee-rinen arvo on nimeltaan estimaatti, merkitaan θ. Estimaatti lasketaanotokseen tulleista arvoista jollain kaavalla tai numeerisella algoritmilla.
Toisaalta, jos otosta ajatellaankin satunnaismuuttujajonona X1, . . . ,Xn, on siita estimointikaavalla tai -algoritmilla laskettu arvokin satun-naismuuttuja. Sita merkitaan Θ:lla. Tata satunnaismuuttujaa kutsutaan Muista merkinta: satun-
naismuuttujia merkitaanisoilla kirjaimilla, reali-
soituneita arvoja pienilla.
estimaattoriksi.Yhdelle ja samalle parametrille voi olla erilaisia estimaattoreita. Esi-
merkiksi populaatio-odotusarvoa voitaisiin myos estimoida otosmediaa-nilla. Tuloksen eli saatujen estimaattien hyvyys riippuu sitten siita mitensymmetrinen populaatiojakauma on odotusarvonsa suhteen. Vastaavastiotoskeskiarvo on myos populaatiomediaanin eras estimaattori—parempisellainen on tietysti otosmediaani.
Populaatiokeskiarvon µ, -varianssin σ2 ja -mediaanin m estimoinnissayo. kasitteet ovat seuraavat:
Parametri θ Estimaatti θ Estimaattori Θ
µ µ = x X
σ2 σ2 = s2 S2
m m = q(0.5) Q(0.5)
Piste-estimaattori on satunnaismuuttuja. Jos siina ei ole systemaat-tista virhetta, ts. sen odotusarvo E(Θ) on oikea parametrin arvo θ, sa-notaan estimaattoria harhattomaksi. Jos taas E(Θ) 6= θ, sanotaan esti- ”unbiased”
14
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 15
maattoria E(Θ) harhaiseksi. (Tama kaikki olettaen tietysti, etta E(Θ) on ”biased”
olemassa!)Jos populaatio-odotusarvo on µ, niin estimaattori X (otoskeskiarvo
satunnaismuuttujana) on harhaton estimaattori, silla E(X) = µ. Myosotosvarianssi S2 on populaatiovarianssin σ2 harhaton estimaattori. En-sinnakin S2 voidaan kirjoittaa muotoon
Lavennetaan mukaan µ
Xi −X = (Xi − µ)
− (X − µ)ja avataan nelio.
S2 =1
n− 1
n∑i=1
(Xi −X)2 =1
n− 1
n∑i=1
(Xi − µ)2 − n
n− 1(X − µ)2.
Siispa
E(S2) =1
n− 1
n∑i=1
E((Xi − µ)2
)− n
n− 1E((X − µ)2
)=
n
n− 1σ2 − n
n− 1
σ2
n= σ2.
Mita pienempi harhattoman piste-estimaattorin Θ varianssi
var(Θ) = E((Θ− θ)2
)on, sita todennakoisempaa on, etta se osuu lahelle odotusarvoaan. Sa-notaankin, etta estimaattori on sita tehokkaampi mita pienempi sen va- ”efficient”
rianssi on. Harhainenkin estimaattori voi olla hyva siina mielessa, ettasen keskineliovirhe E
((Θ− θ)2
)on pieni. ”mean square(d) error”
Valiestimoinnin tarkoituksena on otoksesta laskien tuottaa vali, jolla ”interval estimation”
oikea parametrin θ arvo on, ainakin tietylla suurella todennakoisyydella.Kyseessa voi olla kaksipuolinen tai toispuolinen vali. Kaksipuolisessa va-lissa estimoidaan molemmat valin paatepisteet θL (vasen eli alempi) ja θU(oikea eli ylempi), yksipuolisessa vain toinen (se toinen on silloin muutenselva, esimerkiksi ±∞ tai 0). Katsotaan ensin kaksipuolisia valeja.
Tassakin estimaatit θL ja θU ovat realisoituneesta otoksesta laskiensaatavia lukuja. Estimaattorit ΘL ja ΘU puolestaan ovat satunnaismuut- Siis valin paatepisteet ΘL
ja ΘU ovat satunnais-muuttujia, ei parametri θ!tujia. Perusidea on saattaa tavalla tai toisella tilanne sellaiseksi, etta
P(ΘL < θ < ΘU) = 1− α,
missa α on annettu luku (usein 0.10, 0.05 tai 0.01). Realisoitunutta valia(θL, θU) sanotaan silloin 100(1 − α) % luottamusvaliksi. Luku 1 − α on ”confidence interval”
valin luottamusaste ja paatepisteet ovat alempi ja ylempi luottamusraja. ”degree of confidence”,”lower confidence limit”,”upper confidence limit”Mita suurempaa luottamusastetta vaaditaan, sita leveammaksi luot-
tamusvali tulee ja hyvin lahella 100 % oleva luottamusaste johtaa yleensavaleihin, jotka ovat liian leveita ollakseen kovin mielenkiintoisia. Lisaksiesitetty ehto P(ΘL < θ < ΘU) = 1−α ei kerro miten vali oikein valitaan.Usein vaaditaankin, etta vali on symmetrinen, ts.
P(θ ≤ ΘL) = P(θ ≥ ΘU) =α
2.
(Toinen aika luonnollinen vaatimus voisi olla, etta vali on lyhin mahdol-linen, mutta se johtaa monesti hankaliin laskuihin.)
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 16
2.2 Yksi otos: Odotusarvon valiestimointi [9.4]
Populaatio-odotusarvon µ piste-estimoinnissa luonnollinen harhaton es-timaattori on otoskeskiarvo X, jonka varianssi on σ2/n. Tassa σ2 on po-pulaatiovarianssi, joka oletetaan ensin tunnetuksi. Suurilla otoskoilla ntallainen estimointi on varsin tarkkaa.
Odotusarvon valiestimointi lahtee siita, etta satunnaismuuttujalla
Z =X − µσ/√n
on vahankaan suuremmille otoskoille Keskeisen raja-arvolauseen nojal-la melko tarkasti standardinormaalijakauma N(0, 1). Valitaan nyt jakau-man kvantiili zα/2 siten, etta P(Z ≥ zα/2) = 1 − Φ(zα/2) = α/2, jolloin Φ on standardinormaali-
jakauman kertymafunktio.(symmetria) myos P(Z ≤ −zα/2) = Φ(−zα/2) = α/2. Silloin
P(−zα/2 < Z < zα/2) = 1− α.
Toisaalta kaksoisepayhtalo
−zα/2 <X − µσ/√n< zα/2
on ekvivalentti kaksoisepayhtalon
X − zα/2σ√n< µ < X + zα/2
σ√n
kanssa. Nain ollen, jos realisoitunut otoskeskiarvo on x, valitaan100(1− α) % luottamusrajoiksi
µL = x− zα/2σ√n
ja µU = x+ zα/2σ√n.
Alla on esitetty simuloimalla (MATLAB) saadut 100 kpl 90 %, Generoidaan 100 kertaa nstandardinormaalia satun-naislukua ja kaytetaan nii-
ta otoksina. Piirretaan valitpaallekkaisina janoina.
95 % seka 99 % odotusarvon luottamusvaleja standardinormaalijakau-malle. Lahdetaan 90 % luottamusvaleista:
−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10
10
20
30
40
50
60
70
80
90
100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (90%)
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 17
Huomaa miten noin kymmenesosa valeista ei sisalla oikeaa odotusarvoaµ = 0. Iso osa valeista on jopa erillisia. Siirryttaessa korkeampaan luot-tamusasteeseen valit pitenevat, mutta peittavat samalla todennakoisem-min oikean odotusarvon:
−1 −0.5 0 0.5 1 1.50
10
20
30
40
50
60
70
80
90
100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (95%)
−1.5 −1 −0.5 0 0.5 1 1.50
10
20
30
40
50
60
70
80
90
100100 kpl N(0,1)−jakauman odotusarvon luottamusvälejä (99%)
Esimerkki. Tassa kyse on naytteiden sinkkipitoisuudesta n = 36 mit- [9.2]
tauspisteessa. Saatujen mittausten otoskeskiarvo on x = 2.6 g/ml. Popu-laatiohajonnaksi tiedetaan σ = 0.3 g/ml. Jos α = 0.05, jolloin z0.025 =1.960, laskien saadaan µL = 2.50 g/ml seka µU = 2.70 g/ml. Jos taasα = 0.01, jolloin z0.005 = 2.575, saadaan µL = 2.47 g/ml seka µU = 2.73g/ml eli vali on pidempi.
Jos luottamusvali maaraytyy symmetrisesta jakaumasta, kuten onasian laita odotusarvolle, rajat ovat muotoa θ ± b, missa θ on piste-estimaatti. Lukua b kutsutaan talloin estimointivirheeksi. Odotusarvolleilmeisesti b = zα/2σ/
√n. Jos siis halutaan estimointivirheen olevan enin-
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 18
taan annettu luku b0, pitaa valita otoskoko n siten, etta
zα/2σ√n≤ b0 eli n ≥
(zα/2σb0
)2.
Nain ollen, jos yo. esimerkissa haluttaisiin estimointivirheen olevan enin-taan b0 = 0.05 g/ml, pitaisi otoskoon olla ainakin n = 139.
Edella luottamusvalit ovat olleet kaksipuolisia. Jos halutaan odotusar-volle µ pelkka alapuolinen luottamusraja, valitaan standardinormaalija-kauman kvantiili zα, jolle P(Z ≥ zα) = 1 − Φ(zα) = α, jolloin myosP(Z ≤ −zα) = Φ(−zα) = α. Nyt epayhtalo
X − µσ/√n< zα
on ekvivalentti epayhtalon
µ > X − zασ√n
kanssa ja saadaan haluttu 100(1− α) % luottamusalaraja
µL = x− zασ√n.
Vastaavasti saadaan 100(1− α) % luottamusylaraja µU = x+ zασ/√n.
Esimerkki. n = 25 koehenkilolta mitataan tietty reagointiaika. Aiem- [9.4]
mat testit osoittavat, etta reaktioaikojen hajonta on σ = 2.0 s ja sitavoidaan pitaa tunnettuna. Saatu naytteiden otoskeskiarvo on x = 6.2 s.Nyt z0.05 = 1.645 ja 95 % luottamusylaraja reaktioaikojen odotusarvolleon µU = 6.86 s.
Edella piti tietaa populaatiovarianssi σ2. Jos sita ei tiedeta, voidaanedelleen edeta, mutta standardinormaalijakauman tilalle tulee silloint-jakauma. (Eika Keskeinen raja-arvolause ole kaytossa, vaan populaa-tiojakauman pitaa olla normaali.) Nyt lahdetaan satunnaismuuttujasta
T =X − µS/√n,
jolla on t-jakauma n−1 vapausasteella. Etsitaan jakauman kvantiili tα/2,jolle on P(T ≥ tα/2) = α/2. Silloin t-jakauman symmetrisyyden vuoksi onmyos P(T ≤ −tα/2) = α/2 ja P(−tα/2 < T < tα/2) = 1− α, aivan kutenstandardinormaalijakaumallekin. Edeten aivan kuten edellakin saadaanpopulaatio-odotusarvon µ 100(1− α) % luottamusrajoiksi
µL = x− tα/2s√n
ja µU = x+ tα/2s√n.
Estimaatin x estimointivirhe on tassa ilmeisesti b = tα/2s/√n. Mutta se ei ole etukateen
tunnettu.Vastaavat toispuoliset luottamusrajat ovat
µL = x− tαs√n
ja µU = x+ tαs√n,
missa kvantiili tα on valittu siten, etta P(T ≥ tα) = α.
Esimerkki. Seitseman rikkihappoa sisaltavan samanlaisen astian rikki- [9.5]
happomaarat mitattiin. Maarien keskiarvo on x = 10.0 l ja hajonta s =0.283 l. Nyt t0.025 = 2.447 ja saadaan 95 % luottamusvali (9.74 l, 10.26 l).
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 19
2.3 Ennustevalit [9.6]
Usein valiestimoinnin jalkeen halutaan vastaava vali, ns. ennustevali, seu- ”prediction interval”
raavalle mittaukselle x0. Luonnollisesti ajatellaan vastaavan satunnais-muuttujan X0 olevan riippumattoman kaytetyista otoksessa olleista sa-tunnaismuuttujista X1, . . . , Xn ja niiden kanssa samoin jakautunut.
Olettaen populaatiojakauman olevan normaalijakauman N(µ, σ2) tie-detaan erotuksella X0 −X olevan myos normaalijakauman ja Kahden riippumattoman
normaalijakautuneen sa-tunnaismuuttujan summaja erotus ovat myos nor-
maalijakautuneita.E(X0 −X) = E(X0)− E(X) = µ− µ = 0
seka Jos satunnaismuuttujat Xja Y ovat riippumattomat,
niinvar(X ± Y )
= var(X) + var(Y ).var(X0 −X) = var(X0) + var(X) = σ2 +
σ2
n=(
1 +1
n
)σ2.
Siispa satunnaismuuttujalla
Z =X0 −X
σ√
1 + 1/n
on standardinormaalijakauma. Tassa siis taas oletetaan populaatiova-rianssi σ2 tunnetuksi.
Menetellen aivan kuten edella, korvaten vain σ/√n lausekkeella
σ√
1 + 1/n, saadaan x0:lle 100(1− α) % ennustevali
x− zα/2σ√
1 +1
n< x0 < x+ zα/2σ
√1 +
1
n,
jolla se todennakoisyydella 1 − α on. Vm. todennakoisyys on tulkittavasiten, etta se on tapahtuman
X − zα/2σ√
1 +1
n< X0 < X + zα/2σ
√1 +
1
n,
todennakoisyys. Ennustevali ottaa nain mukaan seka odotusarvon esti-moinnissa olevan etta satunnaismuuttujassa X0 olevan ”epavarmuuden”.
Jalleen, jos populaatiohajontaa σ ei tunneta, pitaa vain kayttaa otos-hajontaa s sen sijasta ja standardinormaalijakauman sijasta t-jakaumaavapausastein n− 1. Satunnaismuuttuja X0 −X on nimittain myos riip- Jalleen hankalasti todis-
tettava fakta.pumaton otosvarianssista S2, joten
T =Z√
(n− 1)S2
σ2(n− 1)
=X0 −X
S√
1 + 1/n
on t-jakautunut vapausastein n − 1. Arvolle x0 saatu 100(1 − α) % en-nustevali on silloin
x− tα/2s√
1 +1
n< x0 < x+ tα/2s
√1 +
1
n.
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 20
Esimerkki. n = 30 vaharasvaista lihaa sisaltavan pakkauksen lihapi- [9.7]
toisuus (muu kuin rasva) tarkastettiin. Jakauma oletettiin normaalik-si. Otoskeskiarvo on x = 96.2 % ja -hajonta s = 0.8 %. t-kvantiiliat0.005 = 2.756 (vapausastein 29) kayttaen saadaan seuraavan paketin li- Ala sekoita pitoisuus- ja
todennakoisyysprosentteja!hapitoisuudelle 99 % ennustevali (93.96 %, 98.44 %).
Eras ennustevalien kayttotapa on vieraiden otosarvojen etsiminen. Ks. Pykalan 1.3 esimerkki.
Havainto katsotaan vieraaksi, jos se ei osu siihen ennustevaliin, joka otok-sesta saadaan, kun ko. havainto on siita ensin poistettu.
Vastaavalla tavalla voitaisiin myos laatia toispuolisia ennustevaleja.
2.4 Toleranssivalit [9.7]
Eras estimoitava valityyppi on ns. toleranssivali, joka esiintyy mm. pro-sessien tilastollisen kayttaytymisen maarittelyssa.
Jos populaatiojakauma on tunnettu normaalijakauma N(µ, σ2), sen100(1 − α) % toleranssivali on sellainen vali (µ − kσ, µ + kσ), jolla ja-kaumasta on 100(1 − α) %. Vali annetaan antamalla vastaava k:n arvoja esitetaan yleensa muodossa µ± kσ. Nain ollen esimerkiksi 95 % tole-ranssivali on µ± 1.96σ. Tama siis edellyttaa, etta µ ja σ tiedetaan.
Mutta yleensa populaation µ ja σ ovat tuntemattomat. Toleranssivaliannetaan silloin ottamalla kayttoon otoksesta saadut vastaavat otossuu-reet x ja s ja se on
Joskus x± k s√n
.x± ks.Nama ovat kuitenkin satunnaismuuttujien X ± kS realisoituneet arvotja nain saatu toleranssivali onkin oikea vain tietylla todennakoisyydella1− γ, joka riippuu valitusta k:n arvosta (ja otoskoosta n). k valitaankinsiten, etta vali X ± kS sisaltaa todennakoisyydella 1− γ (merkitsevyys)jakaumasta ainakin 100(1− α) %.
Toleranssivalien paatepisteiden jakauma on jonkin verran hankala.1
1Ihan vain niille, joita asia ehka syvallisemmin kiinnostaa! Vahan miettien voitodeta, etta ylapuolisen toleranssivalin konstruoinnissa pitaa etsia sellainen luku k,etta
P(X + kS − µ
σ≥ zα
)= 1− γ.
Jos merkitaan, kuten edella,
Z =X − µσ/√n
ja V =(n− 1)S2
σ2,
niin Z on standardinormaalijakautunut ja V on χ2-jakautunut vapausasteinn − 1 ja ne ovat riippumattomat. Tehtava voidaan nain pukea muotoon, jossa eiesiinny populaatioparametreja: Kun on annettu α, γ ja n, etsittava sellainen luku k,etta
P( Z√
n+
k√V√
n− 1≥ zα
)= 1− γ.
Riippumattomuudesta johtuen Z:n ja V :n yhteisjakauman tiheysfunktio on φ(z)g(v),missa g on χ2-jakauman (n − 1 vapausasteella) ja φ on standardinormaalijakaumantiheysfunktio. Sita kayttaen vasemman puolen todennakoisyys saadaan integraali-lausekkeena ja k:lle saadaan yhtalo. Ei liene ihme, etta tama on vaikeaa ja johtaanumeeriseen ratkaisuun! Kaksipuolisen toleranssivalin tapauksessa tilanne on vielakinhankalampi.
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 21
Siihen liittyvia kvantiileja (k:n valinta) loytyy taulukoituina kirjoissa Nama saattavat kuitenkinolla approksimatiivisia ei-
vatka kovin tarkkoja.(mm. WMMYssa). Nettilaskimiakin naille valeille loytyy. Tarkkoja k:narvoja on taulukoituna Liitteessa.
Esimerkki. n = 9 tyostettya metalliosaa mitataan ja saadaan otos- [9.8]
suureet x = 1.0056 cm ja s = 0.0246 cm. Silloin todennakoisyydella0.99 mitatun suureen populaatioarvoista vahintaan 95 % on toleranssi-valilla 1.0056 ± k0.0246 cm, missa k = 4.5810 (ks. Liite), eli siis va-lilla (0.8929 cm, 1.1183 cm). Vastaava 99 % luottamusvali olisi muuten(0.9781 cm, 1.0331 cm) ja se on lyhyempi.
Myos toispuoliset toleranssivalit ovat mahdollisia.
2.5 Kaksi otosta: Odotusarvojen erotuksenestimointi [9.8]
Kahden populaation odotusarvot ja varianssit ovat µ1 ja µ2 seka σ21 ja σ2
2,vastaavasti. Kummastakin otetaan otos, otoskokoina n1 ja n2. Keskeisen Otokset ovat luonnollisesti
tassakin riippumattomat.raja-arvolauseen mukaisesti saadut otoskeskiarvot X1 ja X2 (satunnais-muuttujina) ovat likimain normaalijakautuneet. Nain ollen myos niidenerotus X1−X2 on (likimain) normaalijakautunut, odotusarvona µ1−µ2
ja varianssina σ21/n1 + σ2
2/n2. Edelleen satunnaismuuttujalla
Z =(X1 −X2)− (µ1 − µ2)√
σ21/n1 + σ2
2/n2
on silloin (likimain) standardinormaalijakauma.Kayttaen standardinormaalijakauman kvantiilia zα/2 kuten edella ja
huomaten, etta kaksoisepayhtalot
−zα/2 <(X1 −X2)− (µ1 − µ2)√
σ21/n1 + σ2
2/n2
< zα/2
ja
(X1 −X2)− zα/2
√σ21
n1
+σ22
n2
< µ1 − µ2 < (X1 −X2) + zα/2
√σ21
n1
+σ22
n2
ovat ekvivalentit, saadaan erotukselle µ1 − µ2 nain 100(1− α) % luotta-musrajat
(x1 − x2)± zα/2
√σ21
n1
+σ22
n2
,
missa x1 ja x2 ovat realisoituneet otoskeskiarvot. Tassa jalleen oletettiin,etta populaatiovarianssit σ2
1 ja σ22 tunnetaan.
Esimerkki. Kahden moottorityypin A ja B polttoaineen kulutusta verrat- [9.9]
tiin ajamalla niilla varustetuilla autoilla, nA = 50 kertaa moottorilla Aja nB = 75 kertaa moottorilla B. Saadut otoskeskiarvot ovat xA = 15.30km/l ja xB = 17.85 km/l. Populaatiohajonnat tiedetaan: σA = 2.55 Kirjan WMMY esimerkin
mittayksikko mile/gal ontassa muutettu.km/l ja σB = 3.40 km/l. Kayttaen standardinormaalijakauman kvantiilia
z0.02 = 2.054 saadaan erotukselle µB − µA laskien 96 % luottamusrajat1.455 km/l ja 3.645 km/l.
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 22
Mikali populaatiovariansseja σ21 ja σ2
2 ei tunneta, tilanne muuttuumutkikkaammaksi. Luonnollisesti talloin pyritaan kayttamaan otoksistasaatuja otosvariansseja s21 ja s22.
Eras χ2-jakauman mukavia ominaisuuksia on se, etta jos V1 ja V2 Tama on hankalahko todis-tettava. Asia on kuitenkinmelko ilmeinen, jos V1 jaV2 voidaan esittaa riippu-mattomien standardinor-
maalien satunnaismuuttu-jien nelioiden summana.
ovat riippumattomat χ2-jakautuneet satunnaismuuttujat vapausastein v1ja v2, niin niiden summa V1 + V2 on myos χ2-jakautunut, vapausasteinv1+v2. Ajatellen otosvariansseja satunnaismuuttujina S2
1 ja S22 tiedetaan,
etta satunnaismuuttujilla
V1 =(n1 − 1)S2
1
σ21
ja V2 =(n2 − 1)S2
2
σ22
on χ2-jakaumat vapausastein n1 − 1 ja n2 − 1, ja ne ovat myos riippu-mattomat. Siispa satunnaismuuttujalla
V = V1 + V2 =(n1 − 1)S2
1
σ21
+(n2 − 1)S2
2
σ22
on χ2-jakauma vapausastein n1 + n2 − 2.Katsotaan ensin tapausta, missa tiedetaan, etta σ2
1 ja σ22 ovat samat
(= σ2), vaikkakaan ei tiedeta mika σ2 on. Silloin
V =1
σ2
((n1 − 1)S2
1 + (n2 − 1)S22
)ja se siis on χ2-jakautunut vapausastein n1 +n2− 2. Merkitaan lyhyydenvuoksi
S2p =
(n1 − 1)S21 + (n2 − 1)S2
2
n1 + n2 − 2,
ns. yhteisotosvarianssi. Vastaavasti saadaan s2p realisoituneista otosva- ”pooled sample variance”
riansseista s21 ja s22.Koska satunnaismuuttujat Z (ks. edella) ja V ovat riippumattomat, Tamakin on vaikeasti to-
distettava asia.on satunnaismuuttujalla
Huomaa miten populaa-tiohajontoja σ1 ja σ2 ei
saada haviamaan T :nlausekkeesta, elleivat ne
ole samat tai ainakinsuhdetta σ1/σ2 tiedeta.
T =Z√
V/(n1 + n2 − 2)=
(X1 −X2)− (µ1 − µ2)
Sp
√1/n1 + 1/n2
t-jakauma vapausastein n1 + n2 − 2.Kayttaen t-jakauman kvantiilia tα/2 (vapausastein n1 + n2 − 2) ja
todeten kaksoisepayhtalot
−tα/2 <(X1 −X2)− (µ1 − µ2)
Sp
√1/n1 + 1/n2
< tα/2
seka
(X1−X2)− tα/2Sp
√1
n1
+1
n2
< µ1−µ2 < (X1−X2)+ tα/2Sp
√1
n1
+1
n2
ekvivalenteiksi saadaan erotukselle µ1 − µ2 nyt 100(1− α) % luottamus-rajat
(x1 − x2)± tα/2sp√
1
n1
+1
n2
,
missa x1 ja x2 ovat realisoituneet otoskeskiarvot.
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 23
Esimerkki. Kahdesta paikasta mitattiin eraiden elioiden ns. moninai- [9.10]
suusindeksi kuukausittain, paikasta 1 vuoden ajan (n1 = 12) ja paikasta2 kymmenen kuukauden ajan (n2 = 10). Saadut otossuureet olivat
x1 = 3.11 , s1 = 0.771 , x2 = 2.04 ja s2 = 0.448.
Naista laskien saadaan yhteisvarianssiksi s2p = 0.417, joten sp = 0.646.Tarvittava t-kvantiili (vapausastein 20) on t0.05 = 1.725, jota kayttaensaadaan erotukselle µ1− µ2 lasketuksi 90 % luottamusvali (0.593, 1.547).
Jos populaatiovariansseja ei tunneta eika sitakaan, etta ne ovat samat, Tama vaikeus tunnetaanns. Behrens–Fisher-prob-leemana. Sita ei ole varsi-
naisesti ratkaistu.
tilanne muuttuu vaikeaksi. Usein kuitenkin todetaan, etta jos populaa-tiovarianssit eivat kovin paljon poikkea toisistaan, ylla olevaa menette-lya voidaan kayttaa. (Varianssien samuus on myos testattavissa vaikkapaF-jakaumaa kayttaen, ks. Pykala 3.7.) Samoin usein todetaan, etta vaikka Tama on jo kuitenkin aika
epavarmalla pohjalla.populaatiovarianssit ovat erilaisetkin, menettelya voi kayttaa, jos otos-koot ovat samat (tai melkein samat).
Paljon kaytetty menettely tassa tapauksessa, missa ei voida olettaapopulaatiovariansseja edes likimain samoiksi, on seuraava ns. Welch– Bernard Welch (1911–
1989), Franklin Satter-thwaiteSatterthwaite-approksimaatio: Satunnaismuuttujalla
W =(X1 −X2)− (µ1 − µ2)√
S21/n1 + S2
2/n2
on likimain t-jakauma vapausastein
v =(a1 + a2)
2
a21/(n1 − 1) + a22/(n2 − 1),
missa a1 = s21/n1 ja a2 = s22/n2. Tama v ei yleensa ole kokonaisluku, mut- Taulukoita kaytettaessa pi-taa kyllakin pyoristaa v la-
himpaan kokonaislukuuntai interpoloida.
ta se ei haittaa, t-jakauma kun on maaritelty silloinkin, kun sen vapausas-teluku ei ole kokonaisluku. Tata tietoa kayttaen saadaan erotukselleµ1 − µ2 approksimatiiviset 100(1− α) % luottamusrajat
(x1 − x2)± tα/2
√s21n1
+s22n2
,
missa jalleen x1 ja x2 ovat realisoituneet otoskeskiarvot.Taman approksimaation tarkkuudesta ollaan eri mielta. Jotkut suo-
sittelevat sen kayttoa aina, kun on vahankaan epavarmuutta populaa-tiovarianssien samuudesta, toiset taas varoittavat approksimaation epa-tarkkuudesta, jos populaatiovarianssit ovat kovin erilaiset.
Esimerkki. Joesta mitattiin kahdella mittausasemalla veden ortofosfo- [9.11]
rimaaria, asemalla 1 tama tehtiin n1 = 15 kertaa ja asemalla 2 n2 = 12kertaa. Populaatiovariansseista ei ole tietoa. Saadut otossuureet olivat(yksikkona mg/l)
x1 = 3.84 , s1 = 3.07 , x2 = 1.49 ja s2 = 0.80.
Kayttaen (approksimatiivista) t-kvantiilia t0.025 = 2.117 vapausastein v = Vapausasteluvun pyorista-minen arvoon 16 antaa tas-
sa itse asiassa kaytetyllatarkkuudella saman valin.
16.3 saadaan erotukselle µ1−µ2 (approksimatiivinen) 95 % luottamusvali(0.60 mg/l, 4.10 mg/l).
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 24
2.6 Parittaiset havainnot [9.9]
Usein tutkittavat kaksi populaatiota liittyvat alkio alkiolta toisiinsa. Ky-seessa voisi olla vaikkapa yksi ja sama koehenkilo kahdessa eri tilantees-sa, jokin tuote ennen ja jalkeen tietyn kasittelyn, jokin tuote nyt ja sit-ten vuoden paasta jne. Merkitaan 1. populaation odotusarvoa µ1:lla ja2. populaation odotusarvoa µ2:lla. Otetaan satunnaisotos kummastakinpopulaatiosta, mutta ottaen mukaan mainitut vastinalkiot:
X1,1, . . . , X1,n ja X2,1, . . . , X2,n.
Lasketaan vastinalkioiden erotukset
D1 = X1,1 −X2,1 , . . . , Dn = X1,n −X2,n.
Vastaavalla tavalla saadaan realisoituneet erotukset
d1 = x1,1 − x2,1 , . . . , dn = x1,n − x2,n.
Varsinaiseksi otokseksi ajatellaankin nyt nama erotukset, joko satunnais-muuttujina tai realisoituneina. Nain saadaan otoskeskiarvot D ja d sekaotosvarianssit S2 ja s2.
Ilmeisesti E(D) = µ1 − µ2. Vastinalkiot X1,i ja X2,i eivat toisaaltailmeisestikaan nyt ole yleisesti riippumattomat (tai korreloimattomat),joten D:n varianssista ei oikeastaan voi olla paljoakaan tietoa. Tilastol- Tama ei sano mitaan varsi-
naisista populaatiojakau-mista, niiden ei tarvitse ol-
la lahellakaan normaalia.
lisen analyysin tekemiseksi oletetaan, etta populaatioarvojen erotuksienjakauma on (kyllin tarkasti) normaali.
Aivan kuten edella Pykalassa 2.2, todetaan, etta satunnaismuuttujal-la
T =D − (µ1 − µ2)
S/√n
on t-jakauma vapausastein n−1. Nain saadaan realisoituneista otoksistapopulaatioiden odotusarvojen erotukselle µ1 − µ2 100(1 − α) % luotta-musrajat
d± tα/2s√n.
Esimerkki. n = 20 Vietnam-veteraanilta, jotka olivat sodassa altistu- [9.12]
neet Agent Orange -kasvimyrkylle, mitattiin TCDD-tasot (dioksiini) ve-riplasmasta (populaatio 1) seka rasvakudoksesta (populaatio 2). Arvojenerotuksien otoskeskiarvoksi saatiin d = −0.87 ja otoshajonnaksi s = 2.98.Vapausastein 19 kaytettava t-kvantiili on t0.025 = 2.093 ja nain saadaanerotukselle µ1 − µ2 95 % luottamusvali (−2.265, 0.525).
2.7 Suhdeluvun estimointi [9.10]
Suhdeluvun estimoinnissa otokseen tulleista alkioista saadaan selville ai-noastaan se ovatko ne tiettya tyyppia (”suotuisa”) vai ei (”epasuotuisa”).Suotuisien alkioiden lukumaaraa merkitaan X:lla (satunnaismuuttuja-na) tai x:lla (realisoitunut lukumaara). Jos otoskoko on n ja suotuisan
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 25
tapauksen todennakoisyys populaatiossa on p (suhdeluku), on X:n ja-kauma binomijakauma Bin(n, p) ja
P(X = x) =
(n
x
)px(1− p)n−x.
Jakaumasta tiedetaan, etta
E(X) = np ja var(X) = np(1− p).
Koska p(1 − p) ≤ 1/4, on tassa siis aina var(X) ≤ n/4. Suhdeluvun p Funktion x(1− x) maksi-miarvo on 1/4.luonnollinen piste-estimaattori ja -estimaatti ovat
P =X
nja p =
x
n.
P on harhaton, ts. E(P ) = p, ja
var(P ) =1
n2var(X) =
p(1− p)n
≤ 1
4n.
Jalleen estimaattorin varianssi pienee n:n kasvaessa. Myos huomataan,etta jos halutaan, etta P :n hajonta on enintaan b, niin ainakin riittaa
valita sellainen n, etta n ≥ 1
4b2.
Jos realisoitunut suotuisien alkioiden lukumaara on x, niin p:n valies-timoinnissa kaksipuolisen 100(1−α) % luottamusvalin alaraja pL saadaanasettamalla ehto Miettimalla miten vasem-
man puolen todennakoi-syys muuttuu p:n vahetes-
sa naet, etta kyseessa onnimenomaan alaraja.
P(X ≥ x) =α
2.
pL:lle saadaan nain yhtalo
n∑i=x
(n
i
)piL(1− pL)n−i =
α
2.
Vastaavasti luottamusylaraja pU kaksipuoliselle valille saadaan asetta-malla ehto
P(X ≤ x) =α
2eli se saadaan ratkaisemalla yhtalosta Tata tarkkaa valiestimaat-
tia kutsutaan Clopper–Pearson-estimaatiksi.x∑
i=0
(n
i
)piU(1− pU)n−i =
α
2.
Nama kaksi yhtaloa ovat hankalia ratkaista numeerisesti, varsinkin jos Apuna kaytetaan useinerasta erikoisfunktiota,
ns. betafunktiota.n on iso. MATLABissa ratkaisu on implementoituna, samoin nettilaski-miakin loytyy.
Toispuoliset luottamusvalit saadaan samaan tapaan, korvataan vainα:lla oikealla puolella oleva α/2.
Jos ei haluta tarkkaa valiestimaattia, voidaan soveltaa erinaisia app-roksimatiivisia menettelyja. Keskeisen raja-arvolauseen seurauksena sa-tunnaismuuttujalla X on likimain normaalijakauma N
(np, np(1 − p)
).
Nain ollen satunnaismuuttujalla
Z =P − p√p(1− p)/n
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 26
on likimain standardinormaalijakauma. Kun on saatu realisoitunut p:nestimaatti p = x/n, approksimatiiviset 100(1−α) % luottamusrajat saa- Tata valiestimaattia taas
kutsutaan Wilsonin esti-maatiksi.daan silloin ratkaisemalla toisen asteen yhtalo:
p− p√p(1− p)/n
= ±zα/2 eli (p− p)2 =z2α/2np(1− p).
Myos voidaan kayttaa estimaattia p nimittajassakin, silla myos sa-tunnaismuuttuja
Z ′ =P − p√
P (1− P )/n
on likimain normaalijakautunut. Taman tiedon avulla voidaan laskea ap-proksimatiiviset luottamusvalit hyvin samaan tapaan kuin edella tehtiinnormaalijakautuneelle populaatiolle. (Kirja WMMY tekee nain.) Tulos Ns. Waldin estimaatti.
ei kuitenkaan aina ole kovinkaan tarkka ja nykyaan pyritaankin kaytta-maan tarkkoja menetelmia.
Binomijakauman approksimatiivisia valiestimaatteja on paljon mui-takin, eri tavoin kayttaytyvia. Eo. tarkka estimaatti on niista konserva-tiivisin, mutta samalla varmin.
Esimerkki. Valittiin satunnaisesti n = 500 taloutta, joilta kysyttiin [9.13]
ovatko ne tilanneet tietyn TV-kanavan. x = 340 taloutta oli nain teh- Tassa n on suuri ja oikeap on ”keskella”, joten nor-
maalijakauma-approksi-maatio toimii myos hyvin.
nyt. Silloin p = 340/500 = 0.680 ja 95 % luottamusvaliksi suhdeluvulle psaadaan vali (0.637, 0.721).
2.8 Yksi otos: Varianssin estimointi [9.12]
Populaatiovarianssin σ2 luonnollinen piste-estimaattori on otosvarians-si S2, vastaava piste-estimaatti on realisoitunut otosvarianssi s2. Kutentodettiin, S2 on harhaton eli E(S2) = σ2, populaatiojakaumasta riippu-matta (kunhan silla on varianssi!).
Valiestimointia varten pitaa taas olettaa, etta populaatiojakauma onnormaali (riittavan tarkasti). Kaytettava χ2-jakauma on nimittain varsinherkka epanormaalisuudelle. Satunnaismuuttujalla
V =(n− 1)S2
σ2
on silloin χ2-jakauma n−1 vapausasteella. Valitaan nyt ko. χ2-jakauman Koska χ2-jakauma ei olesymmetrinen, nama kvan-
tiilit eivat liity toisiinsa.kvantiilit h1,α/2 ja h2,α/2 siten, etta
P(V ≤ h1,α/2) = P(V ≥ h2,α/2) =α
2.
SilloinP(h1,α/2 < V < h2,α/2) = 1− α.
Kaksoisepayhtalot
h1,α/2 <(n− 1)S2
σ2< h2,α/2
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 27
ja(n− 1)S2
h2,α/2< σ2 <
(n− 1)S2
h1,α/2
ovat ekvivalentit. Siispa realisoituneesta otosvarianssista s2 saadaan σ2:lleluottamusrajat
(n− 1)s2
h2,α/2ja
(n− 1)s2
h1,α/2.
Toispuoliset luottamusrajat saadaan vastaavasti kayttaen vain toistaχ2-jakauman kvantiileista, luottamusylarajalle kvantiilia h1,α ja luotta-musalarajalle kvantiilia h2,α.
Esimerkki. n = 10 nurmikonsiemenpaketin painot mitattiin. Painojen [9.17]
oletetaan olevan normaalijakautuneita. Saatu painojen otosvarianssi ons2 = 28.62 g 2. Kayttaen χ2-jakauman kvantiileja h1,0.025 = 2.700 se-ka h2,0.025 = 19.023 (9 vapausasteella) saadaan populaatiovarianssille σ2
lasketuksi 95 % luottamusvali (13.54 g 2, 95.40 g 2).
Populaatiohajonnalle σ saadaan luottamusrajat ottamalla neliojuuret Nama rajat ovat tarkat,toisin kuin kirja WMMY
vaittaa.varianssin σ2 luottamusrajoista.
2.9 Kaksi otosta: Varianssien suhteen esti-mointi [9.13]
Jos kahdesta eri populaatiosta, joiden varianssit ovat σ21 ja σ2
2, otetaan Tietysti riippumattomatotokset!otokset (otoskoot n1 ja n2, otosvarianssit S2
1 ja S22), niin varianssien suh-
teen σ21/σ
22 ilmeinen piste-estimaattori on otosvarianssien suhde S2
1/S22 . Tama ei yleensa ole harha-
ton. Esimerkiksi normaali-jakautuneiden populaatioi-den tapauksessa vastaavaharhaton estimaattori on
n2 − 3
n2 − 1
S21
S22
(olettaen, etta n2 > 3).
Vastaava piste-estimaatti on realisoituneiden otosvarianssien s21 ja s22 suh-de s21/s
22.
Valiestimointia varten pitaa taas olettaa, etta populaatiot ovat nor-maalijakautuneita. F-jakaumakaan kun ei ole tassa suhteessa kovin ro-busti ja populaatioiden epanormaalisuus johtaa herkasti epatarkkoihintuloksiin. Satunnaismuuttuja
F =S21/σ
21
S22/σ
22
=σ22
σ21
S21
S22
on silloin F-jakautunut vapausastein n1 − 1 ja n2 − 1. Valitaan valiesti-mointia varten sellaiset ko. F-jakauman kvantiilit f1,α/2 ja f2,α/2, etta
P(F ≤ f1,α/2) = P(F ≥ f2,α/2) =α
2.
SilloinP(f1,α/2 < F < f2,α/2) = 1− α.
Kuten χ2-jakauma, F-jakaumakin on epasymmetrinen, joten kvan-tiilit f1,α/2 ja f2,α/2 eivat suoranaisesti liity toisiinsa. Tiettya tekemis-ta keskenaan niilla kuitenkin on. Muistetaan, etta satunnaismuuttujaF ′ = 1/F on F-jakautunut vapausastein n2 − 1 ja n1 − 1. Jos viime- Tata kaytetaan hyvaksi
taulukoissa: Taulukot ovatusein joko pelkastaan lop-puhantakvantiileille f2,α/2
tai sitten vapausasteistaensimmainen on pienempi.
mainitulle F-jakaumalle saadaan kvantiilit f ′1,α/2 seka f ′2,α/2, niin silloin
LUKU 2. YHDEN JA KAHDEN OTOKSEN ESTIMOINTI 28
f ′1,α/2 = 1/f2,α/2 ja f ′2,α/2 = 1/f1,α/2. Erikoisesti, jos otoskoot ovat samat,
ts. n1 = n2, niin F :n ja F ′:n jakaumat ovat samat ja f1,α/2 = 1/f2,α/2.Koska kaksoisepayhtalot
f1,α/2 <σ22
σ21
S21
S22
< f2,α/2
jaS21
S22
1
f2,α/2<σ21
σ22
<S21
S22
1
f1,α/2
ovat ekvivalentit, saadaan realisoituneista otosvariansseista s21 ja s22 nainpopulaatiovarianssien suhteelle σ2
1/σ22 lasketuksi 100(1−α) % luottamus-
rajats21s22
1
f2,α/2ja
s21s22
1
f1,α/2.
Toispuoliset luottamusrajat saadaan vastaavasti kayttaen vain tois-ta F-jakauman kvantiileista, luottamusylarajalle kvantiilia f1,α ja luot-tamusalarajalle kvantiilia f2,α. Edelleen populaatiohajontojen suhteelle Nama rajat ovat tarkat,
vaikka kirja WMMY toisinvaittaa.σ1/σ2 saadaan luottamusrajat ottamalla neliojuuret varianssien suhteen
σ21/σ
22 luottamusrajoista.
Esimerkki. Palataan Pykalan 2.5 esimerkin veden ortofosforimaarien [9.18]
mittauksiin. Otoskoot olivat n1 = 15 seka n2 = 12, ja saadut otoshajon-nat s1 = 3.07 mg/l seka s2 = 0.80 mg/l. Kayttaen F-jakauman kvantii-leja f1,0.01 = 0.2588 ja f2,0.01 = 4.2932 (vapausastein 14 ja 11) saadaannain suhteelle σ2
1/σ22 laskien 98 % luottamusvali (3.430, 56.903). Koskapa
luku 1 ei ole talla valilla, tuntuu hyvinkin oikealta olettaa—kuten mai-nitussa esimerkissa tehtiinkin—etteivat populaatiovarianssit ole samat.Ottamalla neliojuuret saadaan vastaavasti σ1/σ2:lle 98 % luottamusvali(1.852, 7.543).
Luku 3
HYPOTEESIEN TESTAUS
3.1 Tilastolliset hypoteesit [10.1]
Tilastollisella hypoteesilla tarkoitetaan jotain populaatiojakauman (tai-jakaumien) ominaisuutta, joka silla (niilla) joko on tai sitten ei ole. Tal-lainen ominaisuus koskee usein populaatiojakaumien parametreja, jakau-miin liittyvia todennakoisyyksia tms. Hypoteesin testauksella pyritaanselvittamaan otosta (tai otoksia) kayttaen onko populaatiojakaumalla(tai -jakaumilla) kyseista ominaisuutta vai ei. Koska testaus perustuu sa-tunnaisotoksiin, tulos (”kylla” tai ”ei”) ei ole varma, vaan on tulkittavis-sa satunnaismuuttujaksi. Virheellisen tuloksen todennakoisyyden pitaisitietysti olla pieni ja kvantisoitavissa.
Perinteisesti asetetaan ns. nollahypoteesi, jota merkitaan H0:lla, ja ”null hypothesis””alternative hypothesis”vaihtoehtoinen hypoteesi, jota merkitaan H1:lla. Testi tehdaan silla ole-
tuksella, etta nollahypoteesi pitaa paikkansa. Testin tulos voi sitten kyllaosoittaa, etta tama oletus on todennakoisesti vaara, ts. realisoitunut tuloson H0:n voimassaollessa hyvin epatodennakoinen. Hypoteesin testauksentulos on jompikumpi seuraavista:
• On loytynyt riittavan vahva syy hylata nollahypoteesi H0. Jatke-taan olettaen vaihtoehtoinen hypoteesi H1 oikeaksi. Tama voi joh-taa tilanteen jatkotutkimukseen.
• Otos ja kaytetty testausmenetelma ei antanut riittavan vahvaa syy-ta hylata H0:a. Tama voi johtua siita, etta H0 on oikea, mutta myossiita, etta kaytetty testausmenetelma ei ole kovin vahva. Jatketaanpitaen H0:a oikeana.
Satunnaisotannasta johtuen kumpikin tulos voi olla vaara, ideaalisestikuitenkin vain pienella todennakoisyydella.
3.2 Hypoteesien testaus [10.2]
Hypoteesia testataan laskemalla tata varten otoksesta jokin sopiva otos-suure. Jos tama osuu arvoon, joka olettaen nollahypoteesi H0 oikeaksiei ole todennakoinen, on loytynyt syy hylata H0. Hypoteesin testauksentulos voi olla virheellinen kahdella eri tavalla:
29
LUKU 3. HYPOTEESIEN TESTAUS 30
Tyypin I virhe: Hylataan H0, vaikka se on oikea (”vaara halytys”).
Tyypin II virhe: Ei hylata H0:a, vaikka se on vaara.
Populaatiojakauman (tai -jakaumien) todellisten ominaisuuksien seka nai-den virhetyyppien osalta testauksen tulokset jakautuvat neljaan tapauk-seen:
H0 on oikea H0 on vaara
H0:a ei hylata Oikea paatos Tyypin II virheH0 hylataan Tyypin I virhe Oikea paatos
Tyypin I virheen todennakoisyytta kutsutaan testin riski(taso)ksi (eli ”risk”, ”level of signifi-cance”, ”size of the test”merkitsevyydeksi). Sita merkitaan usein symbolilla α. Annettu suurin sal-
littu riskitaso α on usein hypoteesin testauksen eras lahtokohta.Tyypin II virheen todennakoisyytta ei useinkaan voida laskea, silla H0
voi olla vaara hyvin monella tavalla. Usein kuitenkin lasketaan jonkinlai-nen (yla)arvio sille olettaen jokin tyypillinen vaikutuksiltaan suhteellisen”pieni” tapa, jolla H0 rikkoutuu. Tata todennakoisyytta merkitaan taval-lisesti symbolilla β. Lukua 1− β kutsutaan testin voimakkuudeksi. Mita ”power”
voimakkaampi testi on, sita herkempi se on, ts. sita pienemmat poikkea-mat H0:sta se havaitsee.
Esimerkki. Ajatellaan vaikkapa normaalijakautunutta populaatiota, jon-ka odotusarvon oletetaan olevan µ0 (hypoteesi H0). Populaatiovarianssinσ2 ajatellaan olevan varmasti tunnettu. Jos otoskeskiarvoksi x realisoi-tuu arvo, joka on N(µ0, σ
2/n)-jakauman hantaalueella kyllin levean va-lin (µ0 − z, µ0 + z) ulkopuolella, loytyy syy hylata H0. Silloin α saadaanlaskemalla N(µ0, σ
2/n)-jakaumalle ko. hantien yhteinen todennakoisyys.Otoskokoa n kasvattamalla saadaan todennakoisyys α pienenemaan mi- X:n jakauma kapenee ja
hannat ohenevat.ten tahansa pieneksi.Todennakoisyyden β arvoa ei voida laskea, silla jos populaatio-odo-
tusarvo ei ole µ0, se voi olla periaatteessa mita vaan. Mita isompi poik-keama todellisesta arvosta talloin on, sita pienempi todellinen β on. Joskuitenkin ajatellaan d:n suuruisen poikkeaman oikeasta odotusarvosta ole-van jo hyvinkin riittava syy hylata H0, jolloin tietysti pitaa olla |d| > z,voitaisiin β:a arvioida laskemalla N(µ0 + d, σ2/n)-jakaumalle arvojenµ0 ± z valisen jakauman osan todennakoisyys. Tamakin todennakoisyyspienenee otoskoon n kasvaessa, silla X:n jakauma kapenee sellaisen odo-tusarvon ymparille, joka ei ole valilla (µ0− z, µ0 + z), ja ko. valin toden-nakoisyys pienenee.
Otoskokoa kasvattamalla saadaan yleensakin seka α etta (arvioitu)β pienenemaan miten tahansa pieniksi. Testin herkkyytta ei kuitenkaanole aina syyta kasvattaa talla tavoin. Jos esimerkiksi populaatiosuureidentyypillinen esitystarkkuus on vaatimaton, niin herkkyytta (otoskokoa) eiole syyta kasvattaa niin isoksi, etta se havaitsee ko. tarkkuutta huomat-tavasti pienemmatkin erot. Silloinhan testi hylkaa nollahypoteesin hyvinusein ja muuttuu kayttokelvottomaksi!
LUKU 3. HYPOTEESIEN TESTAUS 31
3.3 Kaksipuoliset ja toispuoliset testit [10.3]
Usein hypoteesi koskee jotain populaation parametria θ. Koska paramet-ri on lukuarvoinen, sita koskevia perushypoteeseja on kolmea tyyppia:kaksi toispuolista ja kaksipuolinen testaus. Samoin, jos hypoteesi kos-kee kahden populaation vastinparametrien vertailua. Tamantyyppistenhypoteesien testaus riskitasolla α palautuu θ:n 100(1− α) % luottamus-valien konstruointiin. Ideana on yrittaa saada sellainen luottamusvali,joka on kokonaan alueella, milla H0 pitaisi hylata. Jollei tama onnistu, eiH0:n hylkaamiseksi loydy syyta ainakaan kaytetylla riskitasolla, ts. riskivaaran paatoksen teolle on liian suuri.
Toispuoliset hypoteesiparit ovat
H0 : θ = θ0 vs. H1 : θ > θ0
sekaH0 : θ = θ0 vs. H1 : θ < θ0,
missa vertailuarvo θ0 on annettu.Pari H0 : θ = θ0 vs. H1 : θ > θ0 testataan merkitsevyystasolla (ris-
kitasolla) α laskemalla aikaisemmin esitetyilla tavoilla realisoituneestaotoksesta alapuolinen 100(1−α) % luottamusraja θL parametrille θ. Nol-lahypoteesi H0 hylataan, mikali vertailuarvo θ0 ei ole saadulla luottamus-valilla, ts. mikali θ0 ≤ θL.
Vastaavasti pari H0 : θ = θ0 vs. H1 : θ < θ0 testataan merkitsevyys-tasolla (riskitasolla) α laskemalla realisoituneesta otoksesta ylapuolinen100(1 − α) % luottamusraja θU parametrille θ. Nollahypoteesi H0 hyla-taan, mikali vertailuarvo θ0 ei ole saadulla luottamusvalilla, ts. mikaliθ0 ≥ θU.
Toispuolisissa testeissa eivat kaikki parametriarvot ole mukana. Edel-la esimerkiksi hypoteesiparia H0 : θ = θ0 vs. H1 : θ > θ0 testattaessaajateltiin, etta oikea parametrin θ arvo ei voi olla pienempi kuin θ0. En-tas jos se kuitenkin on? Silloin tietyssa mielessa tyypin II virhetta ei voitapahtua: H0 tosin on vaara, mutta eipa H1:kaan ole oikea. Toisaalta Testaamisen kannalta
katsoen siis tilanne vainparanee!luottamusalaraja θL pienenee ja tyypin I virheen todennakoisyys α pie-
nenee. Vastaavasti kay, jos hypoteesiparia H0 : θ = θ0 vs. H1 : θ < θ0testattaessa todellinen parametrin θ arvo onkin suurempi kuin θ0.
Esimerkki. n = 100 kuolleen henkilon elinikien keskiarvo oli x = 71.8 [10.3]
v. Populaatiohajonnaksi oletetaan aikaisempien tutkimusten perusteellaσ = 8.9 v. Voisiko taman perusteella paatella, etta vaeston keskimaarai-nen elinika µ on suurempi kuin 70 v? Elinian oletetaan olevan normaa-lijakautunut. Testattava hypoteesipari on
H0 : µ = 70 v vs. H1 : µ > 70 v.
Riskitasoksi otetaan α = 0.05, jolloin zα = 1.645. Lasketaan µ:lle ala-puolinen 95 % luottamusraja
µL = x− zασ√n
= 70.34 v.
Todellinen keskimaarainen elinika on nain ollen ainakin 95 % todenna-koisyydella suurempi kuin 70.34 v ja H0 pitaa hylata.
LUKU 3. HYPOTEESIEN TESTAUS 32
Kaksipuolisen testin hypoteesipari on
H0 : θ = θ0 vs. H1 : θ 6= θ0.
Taman testaamiseksi merkitsevyystasolla α lasketaan ensin parametrilleθ kaksipuolinen 100(1−α) luottamusvali (θL, θU). Nyt H0 hylataan, mikalivertailuarvo θ0 ei ole talla valilla.
Esimerkki. Kalastustarvikkeiden valmistaja on kehitellyt uuden synteet- [10.4]
tisen siiman, jonka lujuuden se vaittaa olevan 8.0 kg hajonnan ollessaσ = 0.5 kg. Hajonnan oletetaan olevan tarkka. Asian testaamiseksi otet-tiin n = 50 siiman satunnaisotos, jolloin keskilujuuden todettiin olevanx = 7.8 kg. Riskitasoksi otettiin α = 0.01. Kyseessa on kaksipuolinenhypoteesiparin H0 : µ = 8.0 vs. H1 : µ 6= 8.0 testaus. Nyt 100(1 − α)= 99 % luottamusvali populaatio-odotusarvolle µ on (7.62 kg, 7.98 kg) ei-ka arvo 8.0 kg ole talla valilla. Siispa H0 hylataan riskitasolla 0.01.
3.4 Testisuureet [10.4]
Mikali hypoteesi koskee populaatiojakauman parametria θ, hypoteesintestaus on siis suoritettavissa θ:n luottamusvalin avulla. Toisaalta tes-taus ei varsinaisesti tarvitse luottamusvalia sellaisenaan, tehtavahan onvain tarkistaa onko nollahypoteesin antama arvo θ = θ0 luottamusva-lilla vai ei ja tama voidaan yleensa tehda konstruoimatta eksplisiittistaluottamusvalia ns. testisuureen avulla. Hypoteeseille, jotka eivat koskeparametreja, tama onkin ainoa tapa testata niita.
Edella luottamusvalit konstruoitiin kayttamalla satunnaismuuttujaa,jonka (approksimatiivinen) jakauma ei riipu tutkittavasta parametris-ta: Z (standardinormaalijakauma), T (t-jakauma), V (χ2-jakauma), X(binomijakauma) ja F (F-jakauma). Luottamusvali saatiin etsimalla so-piva(t) jakauman kvantiili(t) ja muuntamalla sita (niita) koskeva (kak-sois)epayhtalo parametria koskevaksi. Nain ollen, jos luottamusvalia kay-tetaan hypoteesin testaamiseen, se voidaan tehda myos suoraan kayt-taen ”alkuperaista” satunnaismuuttujaa koskevaa epayhtaloa. Testisuureon silloin juuri se lauseke, joka liittaa satunnaismuuttujan otossatun-naismuuttujiin, esitettyna realisoituneille arvoille. Se alue, johon osuvatestisuureen arvo johtaa nollahypoteesin hylkaamiseen, on ns. kriittinenalue. ”critical region”
Esimerkki. Palataan edella olleeseen keski-ikia koskevaan esimerkkiin. [10.3]
Luottamusvali konstruoitiin kayttamalla standardinormaalijakautunuttasatunnaismuuttujaa
Z =X − µσ/√n.
Nollahypoteesin mukainen arvo µ = µ0 on kaytetylla luottamusvalillatarkalleen silloin, kun
µ0 > x− zασ√n,
LUKU 3. HYPOTEESIEN TESTAUS 33
eli silloin kun Z:n H0:n mukainen realisoitunut arvo
z =x− µ0
σ/√n
on pienempi kuin kvantiili zα. Nain ollen H0 hylataan, mikali z ≥ zα.Tassa z on testisuure ja kriittinen alue on vali [zα,∞). Esimerkissa rea-lisoitunut Z:n arvo on z = 2.022 ja se on suurempi kuin z0.05 = 1.645.
Esimerkki. Synteettisia siimoja koskevassa esimerkissa edella puoles- [10.4]
taan realisoitunut Z:n arvo on z = −2.83 ja se on pienempi kuin −z0.005 =−2.575. Kriittinen alue muodostuu tassa valeista (−∞,−2.575] ja[2.575,∞).
Kaikki edellisen luvun luottamusvaleihin perustuvat hypoteesin tes-taukset voidaan talla tavoin palauttaa sopivan testisuureen kayttoon,kriittinen alue muodostuu yhdesta tai kahdesta sopivien kvantiilien ra-joittamasta hantavalista. ”tail area”
Tietyissa tapauksissa testisuureiden kaytto on ainakin jossain maarinhelpompaa kuin varsinaisten luottamusvalien. Nain on vaikkapa suhde-lukuja koskevien hypoteesien testaamisessa binomijakauman avulla. Josesimerkiksi haluttaisiin testata hypoteesipari H0 : p = p0 vs. H1 : p > p0riskitasolla α, tama voitaisiin tehda etsimalla p:lle alapuolinen luotta-musvali ratkaisemalla luottamusalaraja pL yhtalosta
n∑i=x
(n
i
)piL(1− pL)n−i = α.
Kuten aikaisemmin todettiin, tama voi olla numeerisesti vaativaa. Testi-suureeksi voidaan kuitenkin tassa valita itse x ja tarkistaa onko hanta-todennakoisyys
P(X ≥ x) =n∑i=x
(n
i
)pi0(1− p0)n−i ≤ α
(jolloin H0 hylataan) vai ei. Testaaminen voi olla jonkin verran hanka- Jos n on suuri, binomiker-roin voi olla hyvin suuri jap0:n potenssit taas puoles-
taan hyvin pienia.
laa, mutta kumminkin helpompaa kuin luottamusalarajan pL laskeminen.Kriittinen alue muodostuu arvoista x1, . . . , n, missa
n∑i=x1
(n
i
)pi0(1− p0)n−i ≤ α ja
n∑i=x1−1
(n
i
)pi0(1− p0)n−i > α.
Esimerkki. Otetaan esimerkkina tapaus, jossa tietyn rokotteen tiedetaantehoavan vain 25 % tapauksista kahden vuoden jalkeen. Toisen, kalliim-man rokotteen arvellaan olevan ko. tilanteessa tehokkaamman. Asian tes-taamiseksi valittiin n = 100 koehenkiloa, rokotettiin heidat kalliimmalla Todellisuudessa laaketie-
teellisissa kokeissa vaadi-taan paljon suuremmat
otoskoot.
rokotteella ja seurattiin heita kahden vuoden ajan. Testattava hypoteesi-pari on H0 : p = p0 = 0.25 vs. H1 : p > 0.25. Riskitason halutaan olevanenintaan α = 0.01. Kokeillen (vaikka nettilaskimilla) tai laskien MAT-LABilla havaitaan, etta nyt x1 = 36. Jos siis kalliimpi rokote tehoaakahden vuoden jalkeen viela vahintaan 36 tapauksessa, H0 voidaan hylataja todeta kalliimpi rokote paremmaksi kuin halvempi. MATLABilla laskutovat seuraavat:
LUKU 3. HYPOTEESIEN TESTAUS 34
>> p_0=0.25;
n=100;
alfa=0.01;
>> binoinv(1-alfa,n,p_0)+1
ans =
36
Vastaavalla tavalla voidaan testata hypoteesipari H0 : p = p0 vs.H1 : p < p0. Kriittinen alue muodostuu arvoista 0, . . . , x1, missa
x1∑i=0
(n
i
)pi0(1− p0)n−i ≤ α ja
x1+1∑i=0
(n
i
)pi0(1− p0)n−i > α.
Kaksipuolisessa testissa puolestaan hypoteesipari on H0 : p = p0 vs.H1 : p 6= p0 ja kriittinen alue muodostuu arvoista 0, . . . , x1 seka x2, . . . , n,missa
x1∑i=0
(n
i
)pi0(1− p0)n−i ≤
α
2ja
x1+1∑i=0
(n
i
)pi0(1− p0)n−i >
α
2
ja
n∑i=x2
(n
i
)pi0(1− p0)n−i ≤
α
2ja
n∑i=x2−1
(n
i
)pi0(1− p0)n−i >
α
2.
3.5 P-arvot [10.4]
Monet tilastoanalyysin tekijat ilmoittavat mielellaan testauksen tulok-sen ns. P-arvoa kayttaen. Hypoteesin testin P-arvo on pienin riski, jolla P: ”probability”
H0 voidaan kaytettyyn otokseen perustuen hylata. Kaytannossa toispuo-lisessa testauksessa P-arvo saadaan, kun lasketaan realisoitunutta testi-suuretta vastaava hantatodennakoisyys (olettaen H0 oikeaksi).
Esimerkki. Jos yo. rokote-esimerkissa realisoituu tartunnan saaneidenhenkiloiden lukumaaraksi 62, saadaan P-arvoksi hantatodennakoisyys
P =100∑i=38
(100
i
)0.25i(1− 0.25)100−i = 0.0027.
MATLABilla laskien tama saadaan seuraavasti:
>> p_0=0.25;
n=100;
x=38;
>> 1-binocdf(x-1,n,p_0)
ans =
0.0027
Kaksipuolisessa testauksessa P-arvo saadaan, kun realisoitunutta tes-tisuuretta vastaavista hantatodennakoisyyksista (kaksi kappaletta) vali-taan pienempi ja kerrotaan tulos kahdella. Esimerkiksi suhdelukuja kos- Yleensa on aivan selvaa
kumpi on se pienempi luku.kevassa kaksipuolisessa testissa P-arvo on pienempi luvuista
LUKU 3. HYPOTEESIEN TESTAUS 35
x∑i=0
(n
i
)pi0(1− p0)n−i ja
n∑i=x
(n
i
)pi0(1− p0)n−i
kahdella kerrottuna.
Esimerkki. Synteettisia siimoja koskevassa esimerkissa edella realisoitui [10.4]
testisuureen arvo z = −2.83. Tata vastaava (selvasti) pienempi hantato-dennakoisyys on 0.0023 (vasen hanta). P-arvo on siis P = 0.0046.
P-arvo on satunnaismuuttuja (jos ajatellaan otosta satunnaismuut-tujina) ja vaihtelee testia eri otoksilla toistettaessa. Ideaalisesti P-arvoakaytettaessakin etukateen valitaan haluttu pienin riskitaso α ja H0 hy-lataan, mikali (realisoitunut) P-arvo on ≤ α. Monesti ei kuitenkaan etu-kateen kiinniteta mitaan riskitasoa α, vaan lasketaan vain realisoitunutP-arvo ja jatetaan johtopaatokset sen varaan. Koska ainakin silloin tal-loin realisoitunut P-arvo on varsin pieni, voi naissa tapauksissa syntyavallan vaara kasitys testin riskitasosta. Tasta (ja muista) syista eivatkaikki tilastomatemaatikot suosi P-arvojen kayttoa.
3.6 Odotusarvojen testaus [10.5–8]
Edella olikin jo esilla populaatio-odotusarvon µ testaaminen, kun tiede-taan sen varianssi σ2. Keskeisen raja-arvolauseen nojalla testisuure voi-daan muodostaa (approksimatiiviseen) standardinormaalijakaumaan pe-rustuen ja se on
z =x− µ0
σ/√n.
Eri testaustilanteet ovat nyt seuraavat, kun nollahypoteesi on H0 : µ = µ0
ja haluttu riskitaso on α:
H1 Kriittinen alue P-arvo
µ > µ0 z ≥ zα 1− Φ(z)µ < µ0 z ≤ −zα Φ(z)µ 6= µ0 |z| ≥ zα/2 2 min
(Φ(z), 1− Φ(z)
)Tassa Φ on standardinormaalijakauman kertymafunktio.
Siirrytaan tilanteeseen, jossa populaatiojakauma on normaali (ainakinapproksimatiivisesti) ja populaatiovarianssia σ2 ei tunneta. Odotusarvonµ testaaminen sujuu silloin t-jakaumaa kayttaen, vapausasteita on n− 1ja realisoituneista otossuureista saadaan testisuure
t =x− µ0
s/√n.
Kuten edella, eri testaustilanteet ovat seuraavat nollahypoteesille H0 :µ = µ0 ja riskitasolle α:
H1 Kriittinen alue P-arvo
µ > µ0 t ≥ tα 1− F (t)µ < µ0 t ≤ −tα F (t)µ 6= µ0 |t| ≥ tα/2 2 min
(F (t), 1− F (t)
)
LUKU 3. HYPOTEESIEN TESTAUS 36
Tassa F on t-jakauman kertymafunktio n− 1 vapausasteella.Naita testeja kaytetaan usein silloinkin, kun populaatiojakauman nor- t-jakauma on nimittain
tassa suhteessa aika ro-busti.maalisuudesta ei ole tarkkaa tietoa, kunhan se vain on yksihuippuinen ja
likimain symmetrinen. Tulos ei tietystikaan silloin ole aina kovin tarkka.
Esimerkki. n = 12 taloudessa on mitattu polynimurin vuotuinen sah- [10.5]
konkulutus. Keskikulutukseksi saatiin x = 42.0 kWh ja otoshajonnak-si s = 11.9 kWh. Jakauman oletetaan olevan kyllin normaali. Voisikotaman perusteella vaittaa, etta odotettu vuosikulutus on pienempi kuinµ0 = 46 kWh? Testattava hypoteesipari on H0 : µ = µ0 = 46 kWh vs.H1 : µ < 46 kWh ja riski saa olla enintaan α = 0.05. Realisoitunuttestisuureen arvo on nyt t = −1.16 ja toisaalta −t0.05 = −1.796 (11 va-pausasteella). Nain ollen H0:a ei hylata, keskimaaraista vuosikulutusta eiotoksen perusteella voida pitaa pienempana kuin 46 kWh. P-arvokin onP = 0.135.
Vertailtaessa kahden eri populaation odotusarvoja µ1 ja µ2, kun nii-den varianssit σ2
1 ja σ22 tunnetaan, paadytaan jalleen Keskeisen raja-
arvolauseen nojalla (approksimatiiviseen) standardinormaalijakaumaanja testisuureeseen
z =x1 − x2 − d0√σ21/n1 + σ2
2/n2
,
missa x1 ja x2 ovat realisoituneet otoskeskiarvot, n1 ja n2 ovat otoskootja d0 on nollahypoteesin mukainen populaatio-odotusarvojen erotus.
Nollahypoteesille H0 : µ1 − µ2 = d0 ja riskitasolle α testit ovat seu-raavat:
H1 Kriittinen alue P-arvo
µ1 − µ2 > d0 z ≥ zα 1− Φ(z)µ1 − µ2 < d0 z ≤ −zα Φ(z)µ1 − µ2 6= d0 |z| ≥ zα/2 2 min
(Φ(z), 1− Φ(z)
)Mikali populaatio-odotusarvoja µ1 ja µ2 vertailtaessa ei tiedeta po-
pulaatiovariansseja, mutta tiedetaan niiden olevan samat, voidaan ede-ta olettaen populaatioiden olevan normaalijakautuneita (ainakin melkotarkasti) ja testisuureeksi saadaan kayttaen t-jakaumaa (vapausasteinn1 + n2 − 2)
t =x1 − x2 − d0
sp√
1/n1 + 1/n2
,
missa
s2p =(n1 − 1)s21 + (n2 − 1)s22
n1 + n2 − 2
(yhteisotosvarianssi) ja s21, s22 ovat realisoituneet otosvarianssit. Silloin
nollahypoteesille H0 : µ1 − µ2 = d0 ja riskitasolle α testit ovat seuraavat:
H1 Kriittinen alue P-arvo
µ1 − µ2 > d0 t ≥ tα 1− F (t)µ1 − µ2 < d0 t ≤ −tα F (t)µ1 − µ2 6= d0 |t| ≥ tα/2 2 min
(F (t), 1− F (t)
)
LUKU 3. HYPOTEESIEN TESTAUS 37
Tassa jalleen F on t-jakauman kertymafunktio, nyt vapausastein n1 +n2 − 2.
Esimerkki. Kahden eri pintamateriaalin kulumista testattiin. Materiaa- [10.6]
lin 1 keskikulumaksi n1 = 12 testissa saatiin x1 = 85 (sopivissa yksikois-sa) otoshajonnan ollessa s1 = 4. Materiaalin 2 keskikulumaksi n2 = 10testissa saatiin x2 = 81 ja otoshajonnaksi s2 = 5. Jakaumat oletetaan kyl-lin normaaleiksi samoin varianssein. Voitaisiinko riskitasolla α = 0.05paatella, etta materiaalin 1 kuluma on enemman kuin d0 = 2 yksikkoasuurempi kuin materiaalin 2?
Testattava hypoteesipari on siis H0 : µ1 − µ2 = d0 = 2 vs. H1 : µ1 −µ2 > 2. Realisoituneista otossuureista laskien saadaan yhteishajonnaksisp = 4.48 ja otossuureeksi t = 1.04. P-arvoksi saadaan naista laskienP = 0.155 (t-jakauma vapausastein 20). Tama on selvasti suurempi kuinsuurin sallittu riski α = 0.05, joten naiden otosten perusteella H0:a ei voihylata, eika materiaalin 1 keskimaaraisen kuluman voida vaittaa olevanenemman kuin 2 yksikkoa suuremman kuin materiaalin 2.
Mikali populaatiovarianssien ei voida olettaa olevan samoja, meneetestaus samaan tapaan, mutta kayttaen Welch–Satterthwaite-approksi-maatiota. Testisuure on silloin
t =x1 − x2 − d0√s21/n1 + s22/n2
,
ja kaytetaan (approksimatiivista) t-jakaumaa vapausastein
v =(a1 + a2)
2
a21/(n1 − 1) + a22/(n2 − 1),
missa a1 = s21/n1 ja a2 = s22/n2. Kuten vastaavalle luottamusvalillekin, Behrens–Fisher-probleemajalleen!taman testin kayttokelpoisuudesta ja -arvosta ollaan monta mielta.
Parittain rinnastettavien havaintojen tapauksessa testisuure on Ks. Pykala 2.6.
t =d− d0s/√n.
Testaus on taysin sama kuin edella yhden otoksen tapauksessa t-jakaumaakayttaen (vapausastein n− 1).
3.7 Varianssien testaus [10.13]
Normaalijakautuneelle populaatiolle voidaan testata sen varianssia σ2.Nollahypoteesi on silloin H0 : σ2 = σ2
0, testisuure on
v =(n− 1)s2
σ20
ja χ2-jakaumaa (n − 1 vapausasteella) kayttaen riskitasolle α saadaantestit
LUKU 3. HYPOTEESIEN TESTAUS 38
H1 Kriittinen alue P-arvo
σ2 > σ20 v ≥ h2,α 1− F (v)
σ2 < σ20 v ≤ h1,α F (v)
σ2 6= σ20 v ≤ h1,α/2 tai v ≥ h2,α/2 2 min
(F (v), 1− F (v)
)missa F on χ2-jakauman kertymafunktio n−1 vapausasteella. Tama tes- Toisin kuin t-jakauma,
χ2-jakauma ei ole robustipoikkeamille normaalisuu-
desta.
ti on varsin herkka poikkeamille populaatiojakauman normaalisuudesta.Jos populaatiojakauma ei ole kovin tarkasti normaali, usein H0 tulee tur-haan hylatyksi.
Esimerkki. Akkujen valmistaja ilmoittaa tietyn akkutyypin kestoian ha- [10.13]
jonnan olevan σ0 = 0.9 v. Kestoian jakaumaksi oletetaan normaalijakau-ma. n = 10 akkua seurattiin ja todettiin otoshajonnan olevan s = 1.2 v.Voitaisiinko tasta paatella, etta hajonta on suurempi kuin tuo ilmoitet-tu 0.9 v? Riskitasoksi otetaan α = 0.05. Testattava hypoteesipari on siisH0 : σ2 = σ2
0 = 0.92 = 0.81 vs. H1 : σ2 > 0.81. Testisuureelle realisoituuarvo v = 16.0. Tata vastaava P-arvo saadaan χ2-jakauman oikeanpuo-leisen hannan todennakoisyytena (9 vapausasteella) ja se on P = 0.067. P-arvo on kuitenkin lahella
α:a, joten tiettyja epailyk-sia asiasta jaa.H0:a ei siis hylata.
Kahden normaalijakautuneen populaation varianssien σ21 ja σ2
2 suh-detta σ2
1/σ22 voidaan samaan tapaan testata kayttaen F-jakaumaa. Nol-
lahypoteesi on muotoa H0 : σ21 = kσ2
2, missa k on annettu (suhde)luku. Usein k = 1, jolloin testa-taan populaatiovarianssien
samuutta.Testisuure on
f =1
k
s21s22.
Kayttaen F-jakaumaa vapausastein n1 − 1 ja n2 − 1 saadaan riskitasollaα testit
H1 Kriittinen alue P-arvo
σ21 > kσ2
2 f ≥ f2,α 1−G(f)σ21 < kσ2
2 f ≤ f1,α G(f)σ21 6= kσ2
2 f ≤ f1,α/2 tai f ≥ f2,α/2 2 min(G(f), 1−G(f)
)missa G on F-jakauman kertymafunktio vapausastein n1 − 1 ja n2 − 1.χ2-jakauman tavoin F-jakauma ei ole lainkaan robusti poikkeamille nor-maalisuudesta, joten populaatiojakaumien normaalisuudesta on oltavaselvyys. On myoskin olemassa robustimpeja varianssien vertailutesteja,tilasto-ohjelmistot kayttavatkin enimmakseen naita.
Esimerkki. Palataan edella olleen esimerkin pintamateriaalien kulumi- [10.6, 10.14]
seen. Otoshajonnoiksi saatiin tuolloin s1 = 4 ja s2 = 5. Otoskoot olivatn1 = n2 = 10. Voitaisiinko varianssit olettaa samoiksi, kuten tehtiin?Testattava hypoteesipari on nain ollen H0 : σ2
1 = σ22 vs. H1 : σ2
1 6= σ22 (ja
siis k = 1). Riskitasoksi otetaan vaatimattomat α = 0.10. Nyt f1,0.05 =0.3146 ja f2,0.05 = 3.1789 (vapausastein 9 ja 9) ja kriittinen alue muodos-tuu arvoista, jotka eivat ole naiden valissa. Realisoitunut testisuure saaarvon f = 0.64 ja se ei ole kriittisella alueella. Nayttoa varianssien eri-laisuudesta ei tullut ja H0 jaa voimaan. (P-arvoksi saadaan P = 0.517.)
LUKU 3. HYPOTEESIEN TESTAUS 39
3.8 Odotusarvojen vertailu graafisesti [10.10]
Silmays populaatioista saadun otosdatan graafiseen esitykseen kertoousein tilanteen melko tarkasti, ainakin odotusarvojen osalta. Graafises-sa esityksessa tavallinen elementti on ns. keskiarvoruutu ♦. Sen keskella ”means diamond”
on otoskeskiarvo ja ruudun karjet antavat 95 % luottamusvalin (olettaenpopulaatiojakauma ainakin likimain normaaliksi).
Eraanlaisena nyrkkisaantona mainitaan usein, etta jos jommankum-man otoksen kvartiilivalilaatikko ei sisalla toisen otoksen mediaania, niin Ks. Pykala 1.3.
populaatio-odotusarvot eivat ole samat.
Esimerkki. Tarkastellaan 50 USA:n osavaltion rikostilastoja tietylta ajal- Kyseessa ei varsinaisestiole otos muutoin kuin
ajallisesti.ta ryostojen (”robbery”) ja pahoinpitelyjen (”assault”) osalta, yksikkonatapaukset 100000 asukasta kohti. JMP-ohjelmisto antaa seuraavan graa-fisen tulostuksen:
Esiintyvat kaksi vierastahavaintoa ovat New York
ja Nevada (Las Vegas).
Hakamaiset (punaiset) va-lit ovat otoksen ns. lyhim-mat puolikkaat eli tiheim-
mat puolikkaat.
Crime.jmp: Distribution Page 1 of 1
0
100
200
300
400
500
100.0%
99.5%
97.5%
90.0%
75.0%
50.0%
25.0%
10.0%
2.5%
0.5%
0.0%
maximum
quartile
median
quartile
minimum
472.60
472.60
431.49
256.84
160.03
106.05
63.85
38.75
14.57
13.30
13.30
Quantiles
Mean
Std Dev
Std Err Mean
upper 95% Mean
lower 95% Mean
N
124.092
88.348567
12.494374
149.20038
98.983615
50
Moments
robbery
0
100
200
300
400
500
100.0%
99.5%
97.5%
90.0%
75.0%
50.0%
25.0%
10.0%
2.5%
0.5%
0.0%
maximum
quartile
median
quartile
minimum
485.30
485.30
475.35
353.84
284.73
197.60
143.43
86.20
49.27
43.80
43.80
Quantiles
Mean
Std Dev
Std Err Mean
upper 95% Mean
lower 95% Mean
N
211.3
100.25305
14.177922
239.7916
182.8084
50
Moments
assault
Distributions
Ym. kriteerilla mitattuna naiden kahden rikostyypin esiintyminen ei oleodotusarvojen osalta samankaltaista. Lisaksi ryostojen jakauma ei naytaaivan normaalilta.
Luku 4
χ2-TESTIT
Puhuttaessa ”χ2-testeista” ei yleensa tarkoiteta edella ollutta varianssintestia, vaan joukkoa ns. Pearsonin approksimaatioon ja kontingenssitau-luihin perustuvia testeja.
Karl (Carl) Pearson (1857–1936), tilastomatematiikan
”isa”
4.1 Jakauman sopivuustesti [10.14]
Populaatiojakauma oletetaan usein tunnetuksi, esimerkiksi normaalija-kaumaksi, jonka parametrit tunnetaan. Mutta onko se sita mita olete-taan? Tamakin on eras hypoteesi ja sita voidaan testata tilastollisesti.
Aloitetaan aarellisesta diskreetista jakaumasta. Mahdollisia populaa-tiotapauksia on aarellinen maara, sanotaan tapaukset T1, . . . , Tk. Naidenesiintymisen (piste)todennakoisyydet
P(T1) = p1 , . . . , P(Tk) = pk
siis oletetaan tunnetuiksi ja tama on testin nollahypoteesi H0. Vastahy-poteesi H1 on se, etta ainakin yhdelle i:lle P(Ti) 6= pi. Itse asiassa ainakin kahdel-
le, silla p1 + · · ·+ pk = 1.Testia varten otetaan n alkion otos, josta katsotaan realisoituneet ta-pauksien T1, . . . , Tk (absoluuttiset) esiintymisfrekvenssit f1, . . . , fk. Na-ma voidaan myos tulkita satunnaismuuttujiksi F1, . . . , Fk ja E(Fi) = npi. Vrt. binomijakauman odo-
tusarvo, niputetaan vainyhteen muut tapaukset
kuin Ti.
Testi perustuu siihen, etta satunnaismuuttujalla
H =k∑i=1
(Fi − npi)2
npi
on likimain χ2-jakauma k− 1:lla vapausasteella. Kyseessa on ns. Pearso- Vaikeasti todistettavatulos!nin approksimaatio. Lisaoletuksena mainitaan kuitenkin usein, etta mi-
kaan luvuista np1, . . . , npk ei saisi olla alle 5. Jotkut tosin sanovat, etta1.5:kin riittaa.Testisuure on nain ollen
h =k∑i=1
(fi − npi)2
npi
ja silla testattaessa kaytetaan vain χ2-jakauman loppuhantaa. Realisoitu-neiden frekvenssien f1, . . . , fk poikkeaminen oletetuista ilmenee nimittainh:n kasvamisena. Testisuureen laskemiseen loytyy nettilaskimiakin.
40
LUKU 4. χ2-TESTIT 41
Esimerkki. Otetaan tapaus, jossa tutkitaan noppaa heittamalla sita n =120 kertaa. Kunkin silmaluvun oletettu todennakoisyys on tietysti 1/6,mutta onko nain? Nollahypoteesi on H0 : p1 = · · · = p6 = 1/6 ja np1 =· · · = np6 = 20. Havaitut silmalukujen frekvenssit ovat seuraavat:
Silmaluku i 1 2 3 4 5 6Frekvenssi fi 20 22 17 18 19 24
Naista saadaan laskien h = 1.70. Toisaalta esimerkiksi h0.05 = 11.070(vapausastein 5) on paljon suurempi eika mitaan syyta hylata H0 siisloydy.
Jatkuvan populaatiojakauman testaus sujuu samaan tapaan. Silloin Toinen jatkuville jakaumillepaljon kaytetty testi on ns.Kolmogorov–Smirnov-testi,jota tassa ei kasitella. (Ks.
moniste RUOHONEN, K.:Luotettavuus, kaytetta-
vyys, huollettavuus.)
arvoalue jaetaan aarelliseen maaraan osa-alueita (tapaukset T1, . . . , Tk).Naiden oletetun populaatiojakauman mukaiset todennakoisyydet p1, . . . ,pk tunnetaan (H0:n voimassaollessa) ja testaus menee Pearsonin approk-simaatiota kayttaen kuten edella.
Esimerkki. Otetaan tapaus, jossa populaatiojakaumaksi arvellaan nor-maalijakauma, odotusarvona µ = 3.5 ja hajontana σ = 0.7. Testaustavarten arvoalue jaettiin neljaan osavaliin, joiden todennakoisyydet saa-daan N(3.5, 0.72)-jakaumasta. Otoskoko on n = 40. Saatiin seuraavattulokset:
i 1 2 3 4Vali Ti (−∞, 2.95] (2.95, 3.45] (3.45, 3.95] (3.95,∞)pi 0.2160 0.2555 0.2683 0.2602npi 8.6 10.2 10.7 10.4fi 7 15 10 8
Naista laskien saadaan testisuureelle arvo h = 3.156. Koska h0.05 = 7.815(vapausastein 3), nollahypoteesia ei siis hylata riskitasolla α = 0.05.
Edella oletettu populaatiojakauma pitaa tuntea, jotta saadaan sii-hen liittyvia todennakoisyyksia lasketuksi. On myos testeja, jotka testaa-vat onko jakauma normaali ilman, etta tarvitsee tuntea sen odotusarvoatai varianssia. Tallainen on mm. Lillieforsin testi (seka kirjassa WMMY Tunnetaan myos Kolmogo-
rov–Smirnov–Lilliefors-tes-tina tai KSL-testina.mainittu Gearyn testi). Myos voidaan suorittaa eo. esimerkin kaltainen
χ2-testi kayttaen otoksesta estimoitua odotusarvoa x ja hajontaa s. Va- Hubert Lillieforspausasteiden maara on talloin kuitenkin k − 3, ja tarkkuuskin karsii.
4.2 Riippumattomuustesti. Kontingenssi-taulut [10.15]
Pearsonin approksimaatio sopii moniin muihinkin tilanteisiin. Eras sellai-nen on kahden eri populaation tilastollisen riippumattomuuden testaus.Jotta tulos olisi mielenkiintoinen, populaatioiden pitaa tietenkin olla kui-tenkin jotenkin tekemisissa keskenaan. Otanta kohdistuukin molempiinpopulaatioihin yhtaikaa.
LUKU 4. χ2-TESTIT 42
Katsotaan tassakin ensin populaatioita, joiden jakaumat ovat aarel-lisia diskreetteja jakaumia. Populaation 1 tapaukset ovat T1, . . . , Tk janiiden (piste)todennakoisyydet
Nama esitetaan usein vek-torimuodossa:
p =
p1...pk
ja q =
q1...ql
.
P(T1) = p1, . . . ,P(Tk) = pk.
Populaation 2 tapaukset ovat S1, . . . , Sl ja niiden (piste)todennakoisyydet
P(S1) = q1, . . . ,P(Sl) = ql.
Lisaksi tarvitaan yhteis(piste)todennakoisyydet
Tama taas esitetaan useinmatriisimuodossa:
P =
p1,1 · · · p1,l......
pk,1 · · · pk,l
.
P(Ti ∩ Sj) = pi,j (i = 1, . . . , k ja j = 1, . . . , l).
Mitaan naista todennakoisyyksista ei kuitenkaan oleteta tunnetuiksi,testaus tehdaan puhtaasti otoksista saatujen lukumaarien kautta. Ote-taan kayttoon seuraavanlaiset merkinnat. Tapauksien T1, . . . , Tk esiinty-misfrekvenssit satunnaismuuttujina ovat F1, . . . , Fk ja otoksessa realisoi-tuneina lukuina f1, . . . , fk. Tapauksien S1, . . . , Sl frekvenssit satunnais-muuttujina ovat G1, . . . , Gl ja otoksesta realisoituneina lukuina g1, . . . , gl.Yhteistapauksen Ti∩Sj esiintymisfrekvenssi on satunnaismuuttujana Fi,jja otoksessa realisoituneena lukuna fi,j.
Nama esitetaan ns. kontingenssitauluna seuraavassa muodossa, missa ”contingency table”
n on otoskoko:
S1 S2 · · · Sl ΣT1 f1,1 f1,2 · · · f1,l f1T2 f2,1 f2,2 · · · f2,l f2...
......
. . ....
...Tk fk,1 fk,2 · · · fk,l fkΣ g1 g2 · · · gl n
Vastaavanlainen taulu voitaisiin tehda myos satunnaismuuttujiksi ajatel-luille frekvensseille.
Populaatiojakaumat ovat riippumattomat tarkalleen silloin, kun Tama on riippumattomuu-den maaritelma, matriisi-
muodossa P = pqT.P(Ti ∩ Sj) = P(Ti)P(Sj) eli pi,j = piqj (i = 1, . . . , k ja j = 1, . . . , l).
Tama riippumattomuus on nyt nollahypoteesi H0. Vaihtoehtoinen hypo-teesi sanoo, etta ainakin yhdelle indeksiparille i, j on pi,j 6= piqj. Nainollen H0:n voimassaollessa pitaisi frekvenssien toteuttaa odotusarvoisestivastaavat yhtalot (vrt. binomijakauma):
E(Fi,j) = npi,j = npiqj =1
nE(Fi)E(Gj).
Muodostetaankin nyt testisuure kuten edella sopivuustestauksessa pitaenfrekvenssia fi,j toteutuneena ja oikean puolen antamaa arvoa figj/n ole-tettuna eli H0:n mukaisena:
Tallekin saataisiin matriisi-muotoinen lauseke.
h =k∑i=1
l∑j=1
(fi,j − figj/n)2
figj/n.
LUKU 4. χ2-TESTIT 43
Myos taman testisuureen laskemiseen lahtien annetusta kontingenssitau-lusta on nettilaskimia.
Pearsonin approksimaation mukaan vastaavalla satunnaismuuttujalla
H =k∑i=1
l∑j=1
(Fi,j − FiGj/n)2
FiGj/n.
on likimain χ2-jakauma, mutta nyt (k − 1)(l − 1) vapausasteella. Mitahuonommin yhtalot fi,j ∼= figj/n pitavat paikkansa sita isomman arvon hsaa. Kriittinen alue on siis jalleen ko. χ2-jakauman oikeanpuolinen hanta.
Esimerkki. Katsotaan esimerkkina tilannetta, jossa n = 309 alkion otosmuodostuu viallisista tuotteista. Tuotetta valmistuu kolmelta eri linjaltaL1, L2 ja L3 ja vikoja on neljaa eri lajia V1, V2, V3 ja V4. Nollahypoteesion tassa se, etta linja ja vikalaji ovat riippumattomat, ts. etta vikojenjakautuminen eri lajeihin ja eri linjoille ovat toisistaan riippumattomat.Saatu kontingenssitaulu on
V1 V2 V3 V4 ΣL1 15(22.51) 21(20.99) 45(38.94) 13(11.56) 94L2 26(22.90) 31(21.44) 34(39.77) 5(11.81) 96L3 33(28.50) 17(26.57) 49(49.29) 20(14.63) 119Σ 74 69 128 38 309
Suluissa olevat luvut ovat luvut figj/n. Testisuureen laskettu realisoitunutarvo on h = 19.18. Tama vastaa χ2-jakaumasta (6 vapausasteella) saatuaP-arvoa P = 0.0039. Riskitasolla α = 0.01 voidaan siis H0 hylata japaatella, etta linjalla on vaikutusta vian lajiin.
Myos tassa mainitaan usein, etta kaikkien lukujen figj/n pitaisi ollaarvoltaan vahintaan 5. Edellisessa esimerkissa nain selvastikin on.
Myos jatkuvien populaatiojakaumien riippumattomuutta voidaan tes-tata talla tavoin. Silloin jaetaan arvoalueet aarelliseen maaraan valeja,kuten sopivuustestissakin tehtiin, jolloin testaaminen palautuu edelliseen.
4.3 Homogeenisuustesti [10.16]
Riippumattomuustestissa otos muodostuu satunnaisesti kummankin po-pulaation suhteen. Vastaava testi saadaan myos silloin, kun otokseen tu-levien alkioiden lukumaarat kiinnitetaan etukateen toisen populaationosalta.
Jos kiinnitetaan edella lukumaarat populaation 2 suhteen, niin sovi-taan etukateen frekvenssit g1, . . . , gl, jolloin otoskoko on n = g1 + · · ·+gl.Nollahypoteesi on kuitenkin aivan samanlainen kuin edella. Sen tulkin-ta vain muuttuu: Tassa H0 sanoo, etta populaation 1 alkioiden jakau-ma on samanlainen eri alkiotyypeille S1, . . . , Sl, ts. etta populaatioja-kauma on homogeeninen alkiotyyppien S1, . . . , Sl osalta. Huomaa, ettatassa S1, . . . , Sl eivat ole tapauksia eika niilla ole todennakoisyyksia. Neovat yksinkertaisesti tyyppeja, joihin populaation 1 alkiot voidaan ja-kaa, ja etukateen siis paatetaan kuinka paljon mitakin tyyppia otetaanotokseen.
LUKU 4. χ2-TESTIT 44
Nyt fi,j ja Fi,j merkitsevat tyyppia Sj olevien populaatioalkioidenfrekvenssia otoksessa. Jos H0 pitaa paikkansa, niin todennakoisyys, ettaTi tapahtuu tyyppia Sj oleville alkioille on sama kuin koko populaatiolleeli pi. Odotusarvoisesti siis Vrt. jalleen binomi-
jakauma.
E(Fi,j) = gjpi =1
nE(Fi)gj (i = 1, . . . , k ja j = 1, . . . , l).
Testisuureet H ja h seka niihin liittyva approksimatiivinen χ2-jakaumavapausasteineen ovat nain ollen aivan samat kuin edella riippumatto-muustestissa.
Esimerkki. Esimerkkina katsotaan tilannetta, jossa USA:ssa tutkittiineraan lakiehdotuksen suosiota. Asiaa kysyttiin n = 500 ihmiselta, joistag1 = 200 valittiin demokraateista, g2 = 150 republikaaneista ja loputg3 = 150 olivat riippumattomia. Otokseen osuneilta kysyttiin ovatko helakiehdotuksen puolesta, sita vastaan vai eiko heilla ole asiaan kantaa.Haluttiin selvittaa ovatko eri tavoin lakiehdotukseen suhtautuvat samoinjakautuneet puoluekannan suhteen (tama on H0).
Saatiin kontingenssitaulu
Demokraatti Republikaani Riippumaton ΣPuolesta 82(85.6) 70(64.2) 62(64.2) 214Vastaan 93(88.8) 62(66.6) 67(66.6) 222Ei kantaa 25(25.6) 18(19.2) 21(19.2) 64
Σ 200 150 150 500
Tasta saadaan laskien testisuure h = 1.53. Kayttaen χ2-jakaumaa(4 vapausasteella) saadaan edelleen P-arvo P = 0.8213. Nollahypotee-sia H0 ei missaan nimessa voi taman datan perusteella hylata.
Jos homogeenisuustestissa k = 2, saadaan erikoistapaus, missa on ky-seessa l binomijakauman Bin(n1, p1), . . . , Bin(nl, pl) parametrien p1, . . . ,pl samuustestaus. Silloin g1 = n1, . . . , gl = nl ja nollahypoteesi on
Yhteista parametriarvoa pei tassa kuitenkaan oleteta
tunnetuksi.
H0 : p1 = · · · = pl (= p).
Vaihtoehtoinen hypoteesi H1 sanoo, etta ainakin kaksi parametreista onerisuuria.
Asian tutkimiseksi tehdaan testit ja havaitaan realisoituneet suotui-sien tapausten esiintymien lukumaarat x1, . . . , xl. Kontingenssitaulu ontassa tapauksessa muotoa
Bin(n1, p1) Bin(n2, p2) · · · Bin(nl, pl) ΣSuotuisia x1 x2 · · · xl x
Ei-suotuisia n1 − x1 n2 − x2 · · · nl − xl n− xΣ n1 n2 · · · nl n
missa x = x1 + · · ·+ xl ja n = n1 + · · ·+ nl. Testaus sujuu aivan samal-la tavalla kuin edella kayttaen approksimatiivista χ2-jakaumaa (nyt siis
LUKU 4. χ2-TESTIT 45
(2 − 1)(l − 1) = l − 1 vapausasteella). Testisuure on kirjoitettavissa erimuodoissa:
h =l∑
i=1
(xi − xni/n)2
xni/n+
l∑i=1
(ni − xi − (n− x)ni/n
)2(n− x)ni/n
=l∑
i=1
(xi − xni/n)2( 1
xni/n+
1
(n− x)ni/n
)=
l∑i=1
(xi − xni/n)2
x(n− x)ni/n2=
l∑i=1
(xi − nix/n)2
ni(x/n)(1− x/n).
Vm. muoto on kasin laskien ehkapa mukavin, ja siita muuten nakee syynmiksi tassa paadytaan nimenomaan χ2-jakaumaan: Jos nollahypoteesi H0 Vrt. normaalijakautuneen
populaation otosvarianssinjakauma.on tosi, realisoitunut x/n on likimain p ja satunnaismuuttuja
Xi − nip√nip(1− p)
on binomijakauman normaaliapproksimaation kautta likimain standardi-normaali.
Esimerkki. Otetaan esimerkkina vaaleja edeltava tilanne, jossa kolmeeri tutkimusta antoi eraalle puolueelle kannattajien luvut x1 = 442, x2 =313 ja x3 = 341 otoskokojen ollessa vastaavasti n1 = 2002, n2 = 1532 jan3 = 1616. Voisivatko nama antaa puolueelle saman kannatusprosentin(H0)? Laskien saadaan realisoituneeksi testisuureeksi h = 1.451 ja vas-taavaksi P-arvoksi P = 0.4841 (χ2-jakauma 2 vapausasteella). Tamanperusteella ei siis ole syyta epailla eri tutkimusten antavan eri kannatus-lukemia ko. puolueelle.
Luku 5
SUURIMMANUSKOTTAVUUDENESTIMOINTI
5.1 Suurimman uskottavuuden estimointi [9.14]
Monet edella olleet estimaattorit ovat saatavissa eraalla yleisella menetel-malla. Jos estimoitavana ovat populaatiojakauman parametrit θ1, . . . , θmja jakauman tiheysfunktio on f(x; θ1, . . . , θm), niin pyritaan saamaan pa- Parametrit on lisatty ti-
heysfunktioon vain jottariippuvuus niista olisi esilla.rametrien estimaattoreille Θ1, . . . , Θm lausekkeet satunnaismuuttujiksi
tulkittujen otosalkioidenX1, . . . , Xn avulla esitettyina, tai ainakin menet-tely, jolla estimaatit θ1, . . . , θm saadaan lasketuksi realisoituneista otos-alkioista x1, . . . , xn.
Koska otosalkiot X1, . . . , Xn otetaan satunnaisotannassa riippumat-tomasti, niilla on kaikilla sama tiheysfunktio ja niiden yhteisjakaumantiheysfunktio on tulo
g(x1, . . . , xn; θ1, . . . , θm) = f(x1; θ1, . . . , θm) · · · f(xn; θ1, . . . , θm).
Suurimman uskottavuuden estimoinnissa eli ML-estimoinnissa estimaat- ”maximum likelihoodestimation”, MLEtorit Θ1, . . . , Θm maaraytyvat siten, etta
g(X1, . . . , Xn; θ1, . . . , θm) = f(X1; θ1, . . . , θm) · · · f(Xn; θ1, . . . , θm)
saa suurimman arvonsa, kun
θ1 = Θ1 , . . . , θm = Θm.
Vastaavasti estimaatit θ1, . . . , θm saadaan, kun maksimoidaan
g(x1, . . . , xn; θ1, . . . , θm) = f(x1; θ1, . . . , θm) · · · f(xn; θ1, . . . , θm).
Ideana on siis estimoida parametrit siten, etta havaittujen arvojen ti-heys/todennakoisyys on suurin.
Suurimman uskottavuuden estimoinnin yhteydessa merkitaan usein
L(θ1, . . . , θm;X1, . . . , Xn) = f(X1; θ1, . . . , θm) · · · f(Xn; θ1, . . . , θm)
46
LUKU 5. SUURIMMAN USKOTTAVUUDEN ESTIMOINTI 47
ja vastaavasti
L(θ1, . . . , θm;x1, . . . , xn) = f(x1; θ1, . . . , θm) · · · f(xn; θ1, . . . , θm)
ja puhutaan uskottavuusfunktiosta tai uskottavuudesta. Tulomuodosta joh- ”likelihood (function)”
tuen usein on helpompi maksimoida uskottavuuden logaritmi
l(θ1, . . . , θm;X1, . . . , Xn) = lnL(θ1, . . . , θm;X1, . . . , Xn)
= ln(f(X1; θ1, . . . , θm) · · · f(Xn; θ1, . . . , θm)
)= ln f(X1; θ1, . . . , θm) + · · ·+ ln f(Xn; θ1, . . . , θm),
ns. loguskottavuus(funktio), ja vastaavasti ”loglikelihood (function)”
l(θ1, . . . , θm;x1, . . . , xn) = ln f(x1; θ1, . . . , θm) + · · ·+ ln f(xn; θ1, . . . , θm).
Nailla merkinnoilla estimoinnin tulos on siis lyhyesti merkittavissamuodossa
(θ1, . . . , θm) = argmaxθ1,...,θm
L(θ1, . . . , θm;x1, . . . , xn)
tai(θ1, . . . , θm) = argmax
θ1,...,θm
l(θ1, . . . , θm;x1, . . . , xn).
5.2 Esimerkkeja [9.14]
Esimerkki. Estimoitavana on Poissonin jakauman parametri λ. Jakau- [9.19]
man tiheysfunktio on
f(x;λ) =λx
x!e−λ.
Uskottavuus (satunnaismuuttujaotokselle) on siis
L(λ;X1, . . . , Xn) =λX1
X1!e−λ · · · λ
Xn
Xn!e−λ =
λX1+···+Xn
X1! · · ·Xn!e−nλ
ja vastaava loguskottavuus on
l(λ;X1, . . . , Xn) = − ln(X1! · · ·Xn!) + (X1 + · · ·+Xn) lnλ− nλ.
Maksimin etsimiseksi asetetaan derivaatta λ:n suhteen nollaksi Tapaus X1 = · · · = Xn= 0 on kasiteltava erik-
seen. Silloin Λ = 0.∂l
∂λ=
1
λ(X1 + · · ·+Xn)− n = 0
ja ratkaistaan suurimman uskottavuuden estimaattori:
Λ =1
n(X1 + · · ·+Xn) = X.
Toista derivaattaa kayttaen voi viela tarkistaa, etta kyseessa on maksimi.Vastaavasti luonnollisesti saadaan suurimman uskottavuuden estimaatik-si otoskeskiarvo Tama on tietysti luonte-
vaa, silla jakauman odotus-arvohan on λ.λ = x.
LUKU 5. SUURIMMAN USKOTTAVUUDEN ESTIMOINTI 48
Esimerkki. Populaatiojakauma on normaalijakauma N(µ, σ2), jonka pa- [9.20]
rametreiksi otetaan θ1 = µ ja θ2 = σ2. Tiheysfunktio on siis
f(x;µ, σ2) =1√2π σ
e−1
2σ2(x−µ)2 .
Uskottavuus (talla kertaa realisoituneelle otokselle) on
L(µ, σ2;x1, . . . , xn) =1√2π σ
e−1
2σ2(x1−µ)2 · · · 1√
2π σe−
12σ2
(xn−µ)2
=1
(2π)n/2(σ2)n/2e−
12σ2
((x1−µ)2+···+(xn−µ)2)
ja vastaava loguskottavuus on
l(µ, σ2;x1, . . . , xn) = −n2
ln 2π− n2
lnσ2− 1
2σ2
((x1−µ)2+· · ·+(xn−µ)2
).
Maksimoimiseksi asetetaan osittaisderivaatat µ:n ja σ2:n suhteen nollik- Muuttuja tassa on siis σ2,ei σ.si:
∂l
∂µ=
1
σ2
((x1 − µ) + · · ·+ (xn − µ)
)=
1
σ2(x1 + · · ·+ xn − nµ) = 0
∂l
∂σ2= − n
2σ2+
1
2(σ2)2((x1 − µ)2 + · · ·+ (xn − µ)2
)= 0.
Ylemmasta yhtalosta saadaan ratkaisemalla µ:n suurimman uskottavuu-den tuttu estimaatti
µ =1
n(x1 + · · ·+ xn) = x.
Sijoittamalla tama alempaan yhtaloon saadaan ratkaisemalla σ2:n suu-rimman uskottavuuden estimaatiksi
σ2 =1
n
n∑i=1
(xi − x)2.
Tutkimalla toisen kertaluvun osittaisderivaatat voidaan lisaksi varmistaa,etta kyseessa on maksimipiste.
Yllattaen tulos σ2:n osalta ei siis nyt olekaan aikaisemmin kaytettyotosvarianssi s2. Koska
S2 =1
n− 1
n∑i=1
(Xi −X)2
on harhaton σ2:n estimaattori, σ2:n suurimman uskottavuuden estimaat-tori normaalijakaumalle N(µ, σ2)
1
n
n∑i=1
(Xi −X)2
on nain ollen hieman harhainen. Tama osoittaa, etta har-hattomuus ei suinkaan olejoka tavalla edullinen esti-
maattorin ominaisuus.
LUKU 5. SUURIMMAN USKOTTAVUUDEN ESTIMOINTI 49
Esimerkki. Otetaan viela esimerkiksi tapaus, jossa populaatiojakaumaon tasajakauma valille [a, b], jonka paatepisteita ei tiedeta. Jos realisoi-tuneet otosarvot ovat x1, . . . , xn, niin luontevilta estimaateilta tuntuisi-vat min(x1, . . . , xn) paatepisteelle a seka max(x1, . . . , xn) paatepisteelleb. Mutta ovatko nama suurimman uskottavuuden estimaatit?
Jakauman tiheysfunktio on nyt
f(x; a, b) =
1
b− a, kun a ≤ x ≤ b
0 muuten.
Ilmeisestikin uskottavuuden
L(a, b;x1, . . . , xn) = f(x1; a, b) · · · f(xn; a, b)
maksimoimiseksi pitaa valita sellaiset paatepiste-estimaatit a ja b, ettakaikki otosalkiot ovat valilla [a, b], muutenhan uskottavuus olisi = 0 eikase ole suurin mahdollinen. Talla ehdolla uskottavuusfunktio on
L(a, b;x1, . . . , xn) =1
(b− a)n
ja se saa suurimman arvonsa, kun b − a on pienin mahdollinen. Esti- Valilla on valia! Jos kysees-sa olisi tasajakauma avoi-melle valille (a, b), suurim-
man uskottavuuden esti-maatteja ei olisi olemassa
lainkaan.
maatit {a = min(x1, . . . , xn)
b = max(x1, . . . , xn)
ovat siis todella myos suurimman uskottavuuden estimaatit.
Luku 6
MONEN MUUTTUJANLINEAARINENREGRESSIO
6.1 Regressiomalli [12.1]
Lineaarisessa (monen muuttujan) regressiossa ajatellaan ilmion olevanmallinnettavissa matemaattisesti muodossa
y = β0 + β1x1 + · · ·+ βkxk + ε.
Mallin eri osat ovat seuraavat:
1. x1, . . . , xk ovat mallin syotteet. Niita kutsutaan eri tilanteissa jaeri sovellusaloilla eri nimin, tavallisia ovat mm. nimet riippumatto-mat muuttujat tai selittavat muuttujat tai regressorit tai faktorit tai Jatkossa regressori.
eksogeeniset muuttujat.
2. y on mallin tuloste. Sitakin kutsutaan eri nimin, esimerkiksi riip-puva muuttuja tai selitettava muuttuja tai vaste tai endogeeninen Jatkossa vaste.
muuttuja.
3. β0, β1, . . . , βk ovat mallin ns. parametrit eli kertoimet. Ne ovat kiin-teita lukuja, jotka mallia rakennettaessa estimoidaan saadusta oto-saineistosta. Parametri β0 on ns. vakiotermi. ”intercept”
4. ε on satunnaismuuttuja, jonka odotusarvo on = 0 ja jolla on va-rianssi σ2, ns. hairiotermi tai virhetermi. Vaste y on nain ollen myossatunnaismuuttuja ja sen odotusarvo on β0 + β1x1 + · · · + βkxk javarianssi σ2.
Malli toimii niin, etta siihen syotetaan regressorien arvot ja ulos tuleevasteen arvo, johon vaikuttaa myos kulloinkin realisoitunut virheterminarvo.
Mallin lineaarisuus tarkoittaa sita, etta se on lineaarinen nimenomaanparametrien suhteen. Regressorit voivat hyvinkin riippua toisistaan. Ta- Vastaavasti voitaisiin myos
ajatella ja kayttaa epaline-aarisia regressiomalleja.vallinen malli on esimerkiksi ns. polynomiaalinen malli
y = β0 + β1x+ β2x2 + · · ·+ βkx
k + ε,
50
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 51
missa regressorit ovat yhden ja saman muuttujan x potensseja. Huomaa,etta tamakin on lineaarinen malli, silla se on lineaarinen parametriensuhteen.
6.2 Parametrien estimointi. Matriisiesitys [12.2–3]
Mallin sovittamiseksi sen parametrit estimoidaan otosdataa kayttaen.Talloin annetaan regressoreille arvoyhdelmat (n kpl)
Indeksointi on tassa jo va-littu ajatellen datan matrii-
siesitysta.
x1 x2 · · · xkx1,1 x1,2 · · · x1,kx2,1 x2,2 · · · x2,k
......
...xn,1 xn,2 · · · xn,k
suoritetaan koe kayttaen kutakin niista vuorotellen syotteena ja talle-tetaan saadut vasteen arvot y1, y2, . . . , yn. Viime mainitut voidaan tul-kita joko realisoituneiksi arvoiksi tai satunnaismuuttujiksi. Kaytettyjenregressorien arvoyhdelmien ei tarvitse olla erilaiset, samaa arvoyhdelmaa Tama on jopa eduksi, silla
se parantaa varianssin σ2
estimaattia.voidaan kayttaa monta kertaa.Kuten yo. taulukosta voi aavistaa matriisiesitys on tassa yhteydessa
hyvin kateva. Merkitaankin nyt
Huomaa erityisesti matrii-sissa X oleva ykkossarake!X =
1 x1,1 x1,2 · · · x1,k1 x2,1 x2,2 · · · x2,k...
......
. . ....
1 xn,1 xn,2 · · · xn,k
, y =
y1y2...yn
ja ε =
ε1ε2...εn
ja parametreille viela
β =
β0β1...βk
.
Nailla merkinnoilla koko koesarjan tulokset voidaan mallia ajatellen kir-joittaa yksinkertaisesti muodossa
Ns. datamalli.
y = Xβ + ε
Tassa ε1, . . . , εn ovat joko realisoituneita satunnaismuuttujan ε arvoja tai Naille eri tulkinnoille ei nytsekaannuksien valttamisek-
si kayteta eri merkintaa,toisin kuin edellisissa lu-
vuissa. Satunnaismuuttuja-tulkinnassakin kaytetaan
siis pienia kirjaimia. Tilan-ne selviaa asiayhteydesta.
sitten riippumattomia satunnaismuuttujia, joilla on kaikilla sama jakau-ma kuin ε:lla. Huomaa, etta jos ε1, . . . , εn ajatellaan satunnaismuuttu-jiksi, niin samoin on ajateltava y1, . . . , yn ja etta silloin yi riippuu vainεi:sta.
Huomaa edelleen, etta jos y1, . . . , yn ajatellaan satunnaismuuttujiksieli y ajatellaan satunnaisvektoriksi, niin y:n odotusarvo(vektori) on Xβ. On kokonainen tilastoma-
tematiikan alue, joka liit-tyy nimenomaan X:n mah-
dollisimman hyvaan valin-taan, ns. kokeiden suun-
nittelu. Ks. moniste RUO-HONEN, K.: Tilastollinenkokeiden suunnittelu ja
otanta.
Matriisi X sen sijaan on annettu lukumatriisi, sita kutsutaan usein data-matriisiksi. Useinkaan matriisin X valintaan ei voi juuri vaikuttaa, vaikkasilla on merkittava vaikutus parametrien estimoinnin onnistumiseen.
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 52
Parametrien β0, β1, . . . , βk (eli siis vektorin β) estimoinnin idea onsovittaa realisoitunut vastevektori y mahdollisimman hyvin odotusar-voonsa eli Xβ:an. Tama voidaan tehda monellakin tavalla, joista taval-lisin on pienimman neliosumman menetelma. Silloin valitaan parametrit ”least sum of squares”
β0, β1, . . . , βk eli vektori β siten, etta
N(β0, β1, . . . , βk) = ‖y −Xβ‖2 =n∑i=1
(yi − β0 − β1xi,1 − · · · − βkxi,k)2
saa pienimman arvonsa. Nain saadaan parametriestimaatit
β0 = b0 , β1 = b1 , . . . , βk = bk,
vektorimuodossa β = b, missa
b =
b0b1...bk
.
Estimaatit b0, b1, . . . , bk saadaan asettamalla N(β0, β1, . . . , βk):n osit-taisderivaatat parametrien β0, β1, . . . , βk suhteen yhtasuureksi kuin 0 jaratkaisten ne saaduista yhtaloista. Nama yhtalot ovat ns. normaaliyhta-lot. Mainitut osittaisderivaatat ovat
∂N
∂β0= −2
n∑i=1
1 · (yi − β0 − β1xi,1 − · · · − βkxi,k),
∂N
∂β1= −2
n∑i=1
xi,1(yi − β0 − β1xi,1 − · · · − βkxi,k),...
∂N
∂βk= −2
n∑i=1
xi,k(yi − β0 − β1xi,1 − · · · − βkxi,k).
Asetettaessa nama yhtasuuriksi kuin 0 voidaan −2 jakaa pois, jolloinb:lle saadaan matriisimuodossa yhtalo
XT(y −Xb) = 0 eli (XTX)b = XTy.
Jos XTX on ei-singulaarinen (kaantyva) matriisi, kuten jatkossa olete- Mikali XTX on singulaari-nen tai melkein singulaari-
nen (ns. multikollineaari-suus), ohjelmistot varoitta-
vat tasta.
taan, saadaan b ratkaistuksi:
b = (XTX)−1XTy.
Estimointi vaatii siis runsaasti numeerisia laskuja. Nettilaskimiakinon tata varten olemassa tavallisimmille tehtavatyypeille, mutta isot teh-tavat on laskettava tilasto-ohjelmistoilla.
Esimerkki. Sovitetaan dataan regressiomalli [12.4]
Huomaa regressorien riip-puminen toisistaan, ja vas-taava indeksointi paramet-
reille!
y = β0 + β1x1 + β2x2 + β1,1x21 + β2,2x
22 + β1,2x1x2 + ε.
Tulomuotoisia termeja, kuten tassa x1x2, kutsutaan yhdysvaikutuster-meiksi. Tassa x1 on sterilointiaika (min) ja x2 -lampotila (◦C). Vaste yon steriloinnin jalkeinen (orgaanisten) epapuhtauksien maara. Koetulok-set ovat seuraavat:
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 53
x2x1 75 ◦C 100 ◦C 125 ◦C
15 min 14.05 10.55 7.5515 min 14.93 9.48 6.5920 min 16.56 13.63 9.2320 min 15.85 11.75 8.7825 min 22.41 18.55 15.9325 min 21.66 17.98 16.44
Naista saadaan laskien datamatriisi X (muista, etta siihen pitaa laskeakaikkia viitta regressoria vastaavat sarakkeet). Tulos on 18 × 6-matriisi,josta malliksi muutama rivi ja vastaavat vasteet:
X =
1 15 75 152 752 15 · 751 15 100 152 1002 15 · 1001 15 125 152 1252 15 · 125...
......
......
...1 20 75 202 752 20 · 75...
......
......
...
, y =
14.0510.557.55...
16.56...
.
JMP-ohjelmistossa data syotetaan dataeditorilla tai luetaan tiedostosta.Lisatyt sarakkeet ovat helposti laskettavissa editorissa (tai muodostetta-vissa estimoinnin yhteydessa):
Data
Rows
Aika Lämpötila Vaste
Aika*Aika
Lämpötila*Lämpötila
Aika*Lämpötila
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
15
15
15
15
15
15
20
20
20
20
20
20
25
25
25
25
25
25
75
100
125
75
100
125
75
100
125
75
100
125
75
100
125
75
100
125
14.05
10.55
7.55
14.93
9.48
6.59
16.56
13.63
9.23
15.85
11.75
8.78
22.41
18.55
15.93
21.66
17.98
16.44
225
225
225
225
225
225
400
400
400
400
400
400
625
625
625
625
625
625
5625
10000
15625
5625
10000
15625
5625
10000
15625
5625
10000
15625
5625
10000
15625
5625
10000
15625
1125
1500
1875
1125
1500
1875
1500
2000
2500
1500
2000
2500
1875
2500
3125
1875
2500
3125
1
XTX on nain ollen 6× 6-matriisi. Numeeriset laskut jaavat luonnol-lisesti tassakin tietokoneille ja tilasto-ohjelmistoille. Saadut parametries-timaatit ovat
b0 = 56.4411 , b1 = −2.7530 , b2 = −0.3619 , b1,1 = 0.0817 ,
b2,2 = 0.0008 , b1,2 = 0.0031.
JMP-ohjelmiston (vahan karsittu) tulostus on seuraava:
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 54
Tassa on mukana paljonmuutakin, johon palataan
myohemmin.
Data: Fit Least Squares Page 1 of 1
RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)
0.9864080.9807450.64780913.99556
18
Summary of Fit
ModelErrorC. Total
Source 5
12 17
DF 365.47657
5.03587 370.51244
Sum of Squares 73.0953 0.4197
Mean Square174.1791
F Ratio
<.0001Prob > F
Analysis of Variance
Lack Of FitPure ErrorTotal Error
Source 3 9
12
DF 0.9211722 4.1147000 5.0358722
Sum of Squares0.3070570.457189
Mean Square 0.6716F Ratio
0.5906Prob > F
0.9889Max RSq
Lack Of Fit
InterceptAikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila
Term56.441111
-2.753-0.3619330.08173330.0008133
0.00314
Estimate7.9940160.5509550.1101910.0129560.0005180.001832
Std Error 7.06 -5.00 -3.28 6.31 1.57 1.71
t Ratio<.00010.00030.0065<.00010.14250.1123
Prob>|t|Parameter Estimates
AikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila
Source 1 1 1 1 1
Nparm 1 1 1 1 1
DF 10.477893 4.527502
16.700844 1.033611 1.232450
Sum of Squares 24.9678 10.7886 39.7965 2.4630 2.9368
F Ratio 0.0003 0.0065 <.0001 0.1425 0.1123
Prob > FEffect Tests
Response Vaste
Tuloksesta voisi paatella, ettei mallissa oleva regressori x22 liene tar-peellinen eika yhdysvaikutustakaan regressorien x1 ja x2 valilla juuri ole,mutta tallaiset paatelmat pitaa tehda tilastollisin perustein!
6.3 Parametriestimaattorien ominaisuuksia [12.4]
Satunnaismuuttujatulkinnassa saadut parametrit bi tulkitaan satunnais-muuttujiksi (estimaattoreiksi), jotka riippuvat satunnaismuuttujista εivektoraaliyhtalon
b = (XTX)−1XTy = (XTX)−1XT(Xβ + ε) = β + (XTX)−1XTε
kautta.Koska E(ε1) = · · · = E(εn) = 0, ylla olevasta yhtalosta nakee mel-
ko suoraan, etta E(bi) = βi, ts. etta parametriestimaattorit ovat har-hattomia. Edelleen jonkinmoisella matriisilaskulla voidaan todeta, etta(k + 1)× (k + 1)-matriisi C = (cij), missa
C = (XTX)−1
ja indeksit i ja j kulkevat arvot 0, 1, . . . , k, sisaltaa tiedot parametriesti-maattorien variansseista ja niiden valisista kovariansseista muodossa Asian todistus on mm. mo-
nisteessa RUOHONEN, K. &POHJAVIRTA, A.: Laaja ti-
lastomatematiikka.var(bi) = ciiσ2 ja cov(bi, bj) = cijσ
2.
Tarkea estimaattori/estimaatti on estimoitu vaste
yi = b0 + b1xi,1 + · · ·+ bkxi,k
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 55
ja siita saatu residuaaliei = yi − yi.
Residuaali esittaa sita osaa vasteesta, jota ei voitu selittaa estimoidullamallilla. Vektorimuodossa saadaan vastaavasti estimoitu vastevektori
y = Xb = X(XTX)−1XTy
ja siita residuaalivektori
Tassa In on n× n-identi-teettimatriisi.
e = y − y = y −X(XTX)−1XTy =(In −X(XTX)−1XT
)y.
Edella esiintyvilla matriiseilla on muuten omia melko vakiintuneitanimiaan ja merkintojaan:
H:lla kertominen projisoivastevektorin datamatriisin
sarakeavaruuteen, P:llakertominen taas sen orto-gonaaliseen komplement-
tiin.
H = X(XTX)−1XT (ns. hattumatriisi) ja
P = In −X(XTX)−1XT = In −H (ns. projektiomatriisi).
Pienella laskulla voi todeta, etta HT = H seka PT = P ja etta H2 = Hseka P2 = P. H ja P ovat ts. symmetrisia idempotentteja matriiseja.Lisaksi PH on nollamatriisi. Nailla merkinnoilla siis
y = Hy ja e = Py.
Suure
‖e‖2 =n∑i=1
e2i =n∑i=1
(yi − yi)2
on ns. residuaalineliosumma eli virheneliosumma, merkitaan usein SSE. ”sum of squares of errors”
Sen avulla saadaan virhevarianssille σ2 harhaton estimaattori. Lasketaantata varten SSE ensin ”auki”. Ensinnakin
e = Py =(In −X(XTX)−1XT
)(Xβ + ε) = Pε.
Edelleen
SSE = eTe = (Pε)TPε = εTPTPε = εTPε = εTε− εTHε.
Jos merkitaan H = (hij), saadaan edelleen
SSE =n∑i=1
ε2i −n∑i=1
n∑j=1
εihijεj.
SSE:n odotusarvoa varten (harhattomuus) muistetaan, etta E(εi) = 0ja var(εi) = E(ε2i ) = σ2. Edelleen, koska εi ja εj ovat riippumattomat kuni 6= j, niin silloin ne ovat myos korreloimattomat, ts.
cov(εiεj) = E(εiεj) = 0.
Siispa
E(SSE) =n∑i=1
E(ε2i )−n∑i=1
n∑j=1
hijE(εiεj) = nσ2 − σ2
n∑i=1
hii.
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 56
Oikealla puolella esiintyva summa on hattumatriisin lavistajaalkioidensumma eli sen jalki trace(H). Jaljen mukaviin ominaisuuksiin kuului, ettase on vaihdannainen, ts. etta trace(AB) = trace(BA). Tata kayttaenvoidaan laskea ko. summa
Valitaan A = X jaB = (XTX)−1XT.
n∑i=1
hii = trace(H) = trace(X(XTX)−1XT
)= trace
((XTX)−1XTX
)= trace(Ik+1) = k + 1
ja sita kauttaE(SSE) = (n− k − 1)σ2.
Nain ollen
E( SSE
n− k − 1
)= σ2
ja saadaan lopulta haluttu harhaton estimaatti/estimaattori
σ2 =SSE
n− k − 1.
Usein merkitaan
MSE =SSE
n− k − 1
ja puhutaan keskineliovirheesta. MSE on jotakuinkin aina ohjelmatulos- ”mean square of error”
tuksessa saatavilla, samoin estimoitu hajonta√
MSE = RMSE. Eo. esi- ”root mean square of error”
merkissa saadaan MSE = 0.4197 ja RMSE = 0.6478.Ohjelmien tulostukseen kuuluu yleensa myos kaksi muuta neliosum-
maa
SST =n∑i=1
(yi − y)2 , missa y =1
n
n∑i=1
yi,
ns. kokonaisneliosumma, ja ”total sum of squares”
SSR =n∑i=1
(yi − y)2,
ns. regression neliosumma. Nailla neliosummilla on muuten yhteys, joka ”sum of squares of re-gression”selviaa matriisilaskulla (sivuutetaan tassa):
SST = SSE + SSR.
Vastaavat keskineliot ovat
MST =SST
n− 1(ns. kokonaiskeskinelio) ja
MSR =SSR
k(ns. regression keskinelio).
Naista ainakin MSR on yleensa myos ohjelmatulostuksessa.
”total mean square”, vas-teen otosvarianssi
”mean square of regression”
Itse asiassa ohjelmatulostuksessa on kokonainen ns. varianssianalyy-sitaulu eli ANOVA-taulu: ”ANalysis Of VAriance
table”
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 57
Variaation lahde Vapausasteet Neliosummat Keskineliot F
Regressio
Residuaali
Kokonaisvariaatio
k
n− k − 1
n− 1
SSR
SSE
SST
MSR
σ2 = MSE
(MST)
F =MSR
MSE
Huomaa summa:
n− 1 =k + (n− k − 1).
Esiintyva suure F on testisuure, jolla tietyin normaalisuusoletuksin voi-daan testata regression merkitsevyytta kayttaen F-jakaumaa (vapausas-tein k ja n− k− 1), kuten tullaan nakemaan. Taulussa on lisaksi yleensamyos ko. testin realisoitunut P-arvo. Edella olevan esimerkin ANOVA-taulu on
Data: Fit Least Squares Page 1 of 1
RSquare
RSquare Adj
Root Mean Square Error
Mean of Response
Observations (or Sum Wgts)
0.986408
0.980745
0.647809
13.99556
18
Summary of Fit
Model
Error
C. Total
Source
5
12
17
DF
365.47657
5.03587
370.51244
Sum of Squares
73.0953
0.4197
Mean Square
174.1791
F Ratio
<.0001
Prob > F
Analysis of Variance
Lack Of Fit
Pure Error
Total Error
Source
3
9
12
DF
0.9211722
4.1147000
5.0358722
Sum of Squares
0.307057
0.457189
Mean Square
0.6716
F Ratio
0.5906
Prob > F
0.9889
Max RSq
Lack Of Fit
Intercept
Aika
Lämpötila
Aika*Aika
Lämpötila*Lämpötila
Aika*Lämpötila
Term
56.441111
-2.753
-0.361933
0.0817333
0.0008133
0.00314
Estimate
7.994016
0.550955
0.110191
0.012956
0.000518
0.001832
Std Error
7.06
-5.00
-3.28
6.31
1.57
1.71
t Ratio
<.0001
0.0003
0.0065
<.0001
0.1425
0.1123
Prob>|t|
Parameter Estimates
Aika
Lämpötila
Aika*Aika
Lämpötila*Lämpötila
Aika*Lämpötila
Source
1
1
1
1
1
Nparm
1
1
1
1
1
DF
10.477893
4.527502
16.700844
1.033611
1.232450
Sum of Squares
24.9678
10.7886
39.7965
2.4630
2.9368
F Ratio
0.0003
0.0065
<.0001
0.1425
0.1123
Prob > F
Effect Tests
Response Vaste
ja siita loytyy mm. mainittu estimaatti σ2 = MSE = 0.4197.
6.4 Regression tilastollinen kasittely [12.5]
Regressiomalli katsotaan merkityksettomaksi, jos parametrit β1, . . . , βk Huomaa, etta β0 ei olemukana.ovat kaikki nollia. Silloinhan valituilla regressoreilla ei ole mitaan vaiku-
tusta vasteeseen. Vastaavasti yksittainen regressori xi on merkitykseton,jos parametri βi on nolla. Merkitsevyytta testattaessa luonnollisesti pitaaolla esilla jokin jakauma(tyyppi), jotta todennakoisyyksia voidaan laskea.Sita varten tassa oletetaankin, etta satunnaismuuttujilla εi on kaikillaN(0, σ2)-jakauma. Useimmissa tilanteissa tama on luonteva oletus.
Koko mallin merkitsevyytta testattaessa nollahypoteesi on
H0 : β1 = · · · = βk = 0.
Vaihtoehtoinen hypoteesi puolestaan sanoo, etta ainakin yksi paramet-reista β1, . . . , βk on 6= 0. Voidaan nayttaa, etta jos H0 on tosi, niin eo. Tassa esiintyvat jakauma-
tulokset ovat hankalia to-distaa. Todistukset loyty-
vat jalleen mm. monistees-ta RUOHONEN, K. & POH-JAVIRTA, A.: Laaja tilasto-
matematiikka.
ANOVA-taulussa oleva suure (satunnaismuuttuja)
F =MSR
MSE
on F-jakautunut vapausastein k ja n− k − 1. Kriittinen alue on oikean-puoleinen hanta, silla mallin merkityksettomyys pienentaa SSR:aa ja kas-vattaa SSE:ta.
Jos H0:a ei hylata, malli ei ole kovinkaan kayttokelpoinen, vaikka pa-rametrit olisikin saatu estimoiduiksi. Edella olevassa esimerkissa saadaanF :lle arvo 174.1791 (vapausastein 5 ja 12) ja vastaava P-arvo on jotakuin-kin nolla. Malli on siis erittain merkitseva.
Yksittaisten parametrien testaamiseen on kaytossa t-jakaumaa kayt-tava testi, joka on hyvin samankaltainen kuin aikaisemmin olleet t-testit.
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 58
Voidaan nimittain nayttaa, etta mikali βi = β0,i, missa β0,i on tunnettu,niin satunnaismuuttujalla
Muista edelta RMSE=√
MSE seka matriisiC = (cij) = (XTX)−1.
Ti =bi − β0,i
RMSE√cii
on t-jakauma vapausastein n−k−1. Asetetaan nollahypoteesi H0 : βi = 0(eli valitaan β0,i = 0) ja sille vaihtoehtoinen hypoteesi H1 : βi 6= 0. Tes- Mika tahansa nollahypo-
teesi H0 : βi = β0,i voitai-siin tietysti testata nain.
Myos voidaan laskea βi:lle100(1− α) % luottamusra-rajat bi ± tα/2RMSE
√cii.
taus sujuu tavalliseen tapaan t-jakaumaa kayttaen realisoituneen testi-suureen ti avulla, yleensa kaksipuolisena. Tilasto-ohjelmistot tulostavattavallisesti automaattisesti kaikki nama testit P-arvoineen. Edella olevas-sa esimerkissa testitulokset ovat parametriestimointiosiossa:
Tassa ovat myos paramet-riestimaattorien estimoidut
hajonnat RMSE√cii (sa-
rakkeessa ”Std Error”).
Data: Fit Least Squares Page 1 of 1
RSquare
RSquare Adj
Root Mean Square Error
Mean of Response
Observations (or Sum Wgts)
0.986408
0.980745
0.647809
13.99556
18
Summary of Fit
Model
Error
C. Total
Source
5
12
17
DF
365.47657
5.03587
370.51244
Sum of Squares
73.0953
0.4197
Mean Square
174.1791
F Ratio
<.0001
Prob > F
Analysis of Variance
Lack Of Fit
Pure Error
Total Error
Source
3
9
12
DF
0.9211722
4.1147000
5.0358722
Sum of Squares
0.307057
0.457189
Mean Square
0.6716
F Ratio
0.5906
Prob > F
0.9889
Max RSq
Lack Of Fit
Intercept
Aika
Lämpötila
Aika*Aika
Lämpötila*Lämpötila
Aika*Lämpötila
Term
56.441111
-2.753
-0.361933
0.0817333
0.0008133
0.00314
Estimate
7.994016
0.550955
0.110191
0.012956
0.000518
0.001832
Std Error
7.06
-5.00
-3.28
6.31
1.57
1.71
t Ratio
<.0001
0.0003
0.0065
<.0001
0.1425
0.1123
Prob>|t|
Parameter Estimates
Aika
Lämpötila
Aika*Aika
Lämpötila*Lämpötila
Aika*Lämpötila
Source
1
1
1
1
1
Nparm
1
1
1
1
1
DF
10.477893
4.527502
16.700844
1.033611
1.232450
Sum of Squares
24.9678
10.7886
39.7965
2.4630
2.9368
F Ratio
0.0003
0.0065
<.0001
0.1425
0.1123
Prob > F
Effect Tests
Response Vaste
Esimerkiksi voidaan testata hypoteesi H0 : β2 = 0, jolloin testisuureeksirealisoituu t2 = −3.28. Vastaava P-arvo saadaan t-jakaumasta (vapausas-tein 12) ja se on P = 0.0065. Nain ollen H0 hylataan ja paatellaan, ettaregressori x2 (lampotila) on mallissa tarpeen. Regressorit x22 ja x1x2 eivatvastaavasti testattaessa osoittaudu tarpeellisiksi. Muut sen sijaan kylla(mukaanlukien vakiotermi).
On huomattava, etta nama testit eri parametreille eivat ole riippu-mattomia, silla parametriestimaatit eivat (yleensa) ole riippumattomia.Nain ollen monien regressorien poisjattaminen testien tuloksena voi jos-kus johtaa odottamattomaan tulokseen.
Saatua mallia estimoituine parametreineen ja virhevariansseineen voi-daan kayttaa vasteen laskemiseen uusilla regressoriarvoyhdelmilla, joillaei ole kokeita suoritettu. Talloin voidaan joko ottaa mukaan simuloidenvirhetermi tai sitten jattaa se pois. Jalkimmainen vaihtoehto on paikal-laan mm. silloin, kun virhe muodostuu vain mittausvirheesta, jota ei it-se mallinnetussa ilmiossa ole. Otetaan tarkasteltavaksi kiinnostava uusiregressorien arvoyhdelma
Huomaa vakiotermia var-ten lisatty 1.
x1 = x0,1 , . . . , xk = x0,k eli x0 =
1x0,1
...x0,k
,
Katsotaan ensin tapaus, missa virhetermi jatetaan pois. Silloin oikeavaste on
y0 = β0 +k∑i=1
βix0,i = xT0β
(luku), kun taas estimoitu vaste on
y0 = b0 +k∑i=1
bix0,i = xT0b.
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 59
Koska ilmeisestikin (satunnaismuuttujatulkinnassa)
E(y0) = E(b0) +k∑i=1
E(bi)x0,i = β0 +k∑i=1
βix0,i = y0,
saatu vaste-estimaattori on harhaton. Matriisilaskennalla voidaan vielatodeta, etta
var(y0) = σ2xT0 (XTX)−1x0.
Lisaksi voidaan nayttaa, etta satunnaismuuttujalla
T0 =y0 − y0
RMSE√xT0 (XTX)−1x0
on t-jakauma vapausastein n−k−1. Nain saadaan aikaisemmasta tuttuuntapaan y0:lle 100(1− α) % luottamusrajat
y0 ± tα/2RMSE√xT0 (XTX)−1x0.
Vastaavasti, jos virhetermi otetaan mukaan, niin oikea vaste on sa- Vrt. ennustevali Pykalassa2.3.tunnaismuuttuja
Kaytetaan tassa isoa kir-jainta selvyyden vuoksi.
Y0 = β0 +k∑i=1
βix0,i + ε0 = xT0β + ε0,
missa ε0 on N(0, σ2)-jakautunut b:sta riippumaton satunnaismuuttuja.Ilmeisesti E(Y0) = xT
0β ja var(Y0) = σ2, ja edelleen
Kuten edella, y0 = xT0b.E(y0 − Y0) = E(y0)− E(Y0) = 0
seka (riippumattomuudesta johtuen)
var(y0 − Y0) = var(y0) + var(Y0) = σ2xT0 (XTX)−1x0 + σ2.
Satunnaismuuttujalla
T0 =y0 − Y0
RMSE√
1 + xT0 (XTX)−1x0
on nyt t-jakauma vapausastein n − k − 1 ja Y0:n realisoituneelle arvolley0 saadaan sita kayttaen 100(1− α) % ennustevali
y0−tα/2RMSE√
1 + xT0 (XTX)−1x0 < y0 < y0+tα/2RMSE
√1 + xT
0 (XTX)−1x0.
6.5 Sovitetun mallin tutkiminen [12.6]
Jos edella esitetty F-testi toteaa mallin merkityksettomaksi, ts. asetettuanollahypoteesia H0 : β1 = · · · = βk = 0 ei voida hylata, ei mallilla liene Sehan on silloin muotoa
”vaste = vakio + kohina”.paljonkaan kayttoa. Toisaalta, vaikka F-testi toteaisikin mallin merkitse-vaksi, se ei siltikaan aina ole kovin hyva, eri syista:
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 60
• Malliin ei ehka saatukaan kyllin hyvaa kokoelmaa regressoreita.Tata testataan ns. epasopivuustestilla. Nollahypoteesi H0 on, etta ”lack-of-fit test”
malli on sopiva, ts. etta siina on riittavasti regressoreita eika ti-lannetta voi silta osin juuri parantaa. Mikali tama nollahypoteesihylataan, on syyta tutkia voisiko malliin loytya lisaa regressorei-ta. Epasopivuustestaus on tehdaan yleensa vain, jos on tehty usei- Se voidaan kylla tehda
muutoinkin.ta kokeita samoilla regressoriyhdelmilla. Monet ohjelmistot teke-vat talloin testin automaattisesti. Epasopivuustesti perustuu sekin Ks. moniste RUOHONEN,
K.: Tilastollinen kokeidensuunnittelu ja otanta.F-jakaumaan ja ohjelmistot tulostavat testisuureen ja testin reali-
soituneen P-arvon.
Edella olevassa esimerkissa toistokokeita on tehty ja JMP tekeeepasopivuustestin:
Data: Fit Least Squares Page 1 of 1
RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)
0.9864080.9807450.64780913.99556
18
Summary of Fit
ModelErrorC. Total
Source 5
12 17
DF 365.47657
5.03587 370.51244
Sum of Squares 73.0953 0.4197
Mean Square174.1791
F Ratio
<.0001Prob > F
Analysis of Variance
Lack Of FitPure ErrorTotal Error
Source 3 9
12
DF 0.9211722 4.1147000 5.0358722
Sum of Squares0.3070570.457189
Mean Square 0.6716F Ratio
0.5906Prob > F
0.9889Max RSq
Lack Of Fit
InterceptAikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila
Term56.441111
-2.753-0.3619330.08173330.0008133
0.00314
Estimate7.9940160.5509550.1101910.0129560.0005180.001832
Std Error 7.06 -5.00 -3.28 6.31 1.57 1.71
t Ratio<.00010.00030.0065<.00010.14250.1123
Prob>|t|Parameter Estimates
AikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila
Source 1 1 1 1 1
Nparm 1 1 1 1 1
DF 10.477893 4.527502
16.700844 1.033611 1.232450
Sum of Squares 24.9678 10.7886 39.7965 2.4630 2.9368
F Ratio 0.0003 0.0065 <.0001 0.1425 0.1123
Prob > FEffect Tests
Response Vaste
Testissa saatiin P-arvo 0.5906, joka on niin suuri, ettei H0:a hylata,ja nain voidaan katsoa mallin sisaltavan riittavan monta regresso-ria.
• Malliin ei toisaalta ole syyta ottaa liian monta regressoria. Ylisovi-tettu malli nimittain selittaa jo osan virheestakin, mika ei tieten- Aaritapauksessa jopa ko-
konaan!kaan voi olla tarkoitus.
• Paljon kaytetty tapa mitata paljonko malli selittaa tutkittavastailmiosta on laskea ns. selitysaste eli (moni)determinaatiokerroin ”coefficient of (multiple)
determination”
R2 =SSR
SST= 1− SSE
SST.
Selitysasteen nelojuurta R kutsutaan usein monikorrelaatiokertoi- ”multiple correlation coef-ficient”meksi.
Nimitys johtuu siita, ettaR on havaittujen vasteideny1, . . . , yn ja ennustettujenvasteiden y1, . . . , yn (Pear-
sonin) otoskorrelaatioker-roin. Ks. Pykala 7.5.
Lahella ykkosta oleva R2:n arvo kertoo, etta malli pystyy selitta-maan merkittavan osan vasteen vaihtelusta. Tama on erityisen tar-keaa, jos vaste on tavalla tai toisella energiaan tai tehoon liittyva.
Toisaalta, mikali malli on merkityksellinen, pienikin selitysaste(vaikkapa noin luokkaa 0.1 – 0.2) saattaa olla kayttokelpoinen, josesimerkiksi on kyseessa halpa tapa poistaa kalliiksi tulevaa haittate-kijaa osittain. Tallainen tilanne voi tulla vastaan erityisesti, mikalikokeita tehdaan hyvin paljon. Jos vain malli silloin vahankaan selit-taa vastetta, F-testi toteaa mallin merkitsevaksi, vaikka selitysastejaisi pieneksikin.
Toisaalta, jos kokeita on vahan, selitysaste voi olla suhteellisen iso-kin, vaikka F-testi toteaa mallin merkityksettomaksi. F-testi ei ni-mittain ole kovin vahva, jos kokeita on vain vahan ja/tai ne eivatole hyvin suunniteltuja.
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 61
• Monet kayttavat R2:n sijasta mieluummin ns. muunnettua selitys- ”adjusted coefficient of de-termination”astetta
Valinta naiden kahden seli-tysasteen valilla on jossain
maarin makuasia, ohjelmis-tot tulostavatkin yleensa
ne molemmat.
R2adj = 1− MSE
MST= 1− n− 1
n− k − 1
SSE
SST,
jolla pyritaan ottamaan mukaan paremmin vapausasteiden vaiku-tus.
• Edella olevassa esimerkissa saatiin selitysaste R2 = 0.9864, joka onerittain hyva:
Data: Fit Least Squares Page 1 of 1
RSquareRSquare AdjRoot Mean Square ErrorMean of ResponseObservations (or Sum Wgts)
0.9864080.9807450.64780913.99556
18
Summary of Fit
ModelErrorC. Total
Source 5
12 17
DF 365.47657
5.03587 370.51244
Sum of Squares 73.0953 0.4197
Mean Square174.1791
F Ratio
<.0001Prob > F
Analysis of Variance
Lack Of FitPure ErrorTotal Error
Source 3 9
12
DF 0.9211722 4.1147000 5.0358722
Sum of Squares0.3070570.457189
Mean Square 0.6716F Ratio
0.5906Prob > F
0.9889Max RSq
Lack Of Fit
InterceptAikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila
Term56.441111
-2.753-0.3619330.08173330.0008133
0.00314
Estimate7.9940160.5509550.1101910.0129560.0005180.001832
Std Error 7.06 -5.00 -3.28 6.31 1.57 1.71
t Ratio<.00010.00030.0065<.00010.14250.1123
Prob>|t|Parameter Estimates
AikaLämpötilaAika*AikaLämpötila*LämpötilaAika*Lämpötila
Source 1 1 1 1 1
Nparm 1 1 1 1 1
DF 10.477893 4.527502
16.700844 1.033611 1.232450
Sum of Squares 24.9678 10.7886 39.7965 2.4630 2.9368
F Ratio 0.0003 0.0065 <.0001 0.1425 0.1123
Prob > FEffect Tests
Response Vaste
Nain hyvalla selitysasteella ylisovituksen vaara saattaisi jo olla la-hella ja ehka olisi syyta poistaa joitain regressoreita tai lisata ko-keiden maaraa.
6.6 Kategoriset regressorit [12.8]
Edella on ajateltu regressorien olevan jatkuvia tai ainakin niiden arvojentulevan numeeriselta asteikolta. Kategoriset eli nominaaliset regressorit Eli indikaattorit.
ovat luokittelumuuttujia. Niiden ”arvot” eli tasot ovat luokkia (esimer-kiksi nimia, vareja tms.), joilla ei ole mitaan numeerista sisaltoa.
Kategorisia regressoreja z1, . . . , zl voidaan ottaa mukaan regressiomal-liin ”tavallisten” jatkuvien regressorien x1, . . . , xk lisaksi tai sijasta seu- Itse asiassa jatkuvia regres-
soreita ei tarvitse olla mu-kana lainkaan.raavalla tavalla. Jos regressorin zi tasot ovat Ai,1, . . . ,Ai,mi (siis mi kpl),
niin otetaan kayttoon mi − 1 ”tavallista” regressoria zi,1, . . . , zi,mi−1. Da-tamatriisissa zi:n tasot ja uusien regressorien saamat arvot liittyvat toi-siinsa seuraavalla tavalla:
zi zi,1 zi,2 · · · zi,mi−1Ai,1 1 0 · · · 0Ai,2 0 1 · · · 0...
......
...Ai,mi−1 0 0 · · · 1Ai,mi 0 0 · · · 0
Uusien regressorien zi,1, . . . , zi,mi−1 arvot ovat siis aina joko = 0 tai = 1. Ne ovat ns. dikotomia-muuttujia.Koko regressiomalli on nain
Huomaa uusien paramet-rien indeksointi!
y = β0 + β1x1 + · · ·+ βkxk +l∑
i=1
(βi,1zi,1 + · · ·+ βi,mi−1zi,mi−1) + ε
ja se sovitetaan tavalliseen tapaan. Kokeita suoritettaessa kirjataan tie-tysti kulloinkin kaytetyt kategoristen regressorien tasot ja koodataan neesitetylla tavalla datamatriisiin.
Edella esitetty koodaustapa on vain yksi monista mahdollisista. Esi-merkiksi JMP-ohjelmisto kayttaa eri koodausta:
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 62
zi zi,1 zi,2 · · · zi,mi−1Ai,1 1 0 · · · 0Ai,2 0 1 · · · 0...
......
...Ai,mi−1 0 0 · · · 1Ai,mi −1 −1 · · · −1
Tama nakyy mm. estimoiduista parametreista.
Esimerkki. Tassa vaste y on puhdistuksen jalkeinen kiinteiden hiuk- [12.9]
kasten maara. Mallissa on mukana yksi jatkuva regressori x1, liuoksenhappamuus (pH-arvo), seka yksi kolmitasoinen kategorinen regressori z1,kaytetty polymeeri (P1, P2 tai P3). Malli on Tassa kaytetty koodaus on
z1 z1,1 z1,2P1 1 0P2 0 1P3 0 0
y = β0 + β1x1 + β1,1z1,1 + β1,2z1,2 + ε.
Kokeita tehtiin n = 18, kuusi kullekin z1:n tasolle. Estimointi antaasilloin parametreille arvot
b0 = −161.8973 , b1 = 54.2940 , b1,1 = 89.9981 , b1,2 = 27.1657,
joista voidaan muuten paatella, etta polymeerilla P1 on suurin vaikutus Koodauksesta johtuen po-lymeerin P3 taso on vertai-
lutaso.ja polymeerilla P2 toiseksi suurin. Saatu virhevarianssin estimaatti onMSE = 362.7652. F-testi (vapausastein 3 ja 14) antaa P-arvon, joka onmelkein nolla, malli on siis erittain merkityksellinen. Selitysaste on R2 =0.9404, siis oikein hyva. Parametriestimaattien t-testien (vapausastein14) P-arvot ovat pienet ja kaikki regressorit ovat mallissa tarpeen:
0.0007 , ∼= 0 , ∼= 0 , 0.0271.
JMP-ohjelmistoon data syotetaan muodossaData
Rows pH Polymeeri Vaste123456789101112131415161718
6.56.97.88.48.89.26.76.97.57.98.79.26.57
7.27.68.79.2
P1P1P1P1P1P1P2P2P2P2P2P2P3P3P3P3P3P3
292329352378392410198227277297364375167225247268288342
1
JMP:n koodaus on erilainen, kuten todettiin. Toisaalta sita ei tarvitse
JMP:n kayttama koodauson tassa
z1 z1,1 z1,2P1 1 0P2 0 1P3 −1 −1
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 63
tehda, ohjelmisto tekee koodauksen itse automaattisesti saatuaan tiedonmuuttujatyypeista. Saatu (vahan karsittu) tulostus on
Data: Fit Least Squares Page 1 of 1
RSquare
RSquare Adj
Root Mean Square Error
Mean of Response
Observations (or Sum Wgts)
0.940433
0.927669
19.0464
301.5556
18
Summary of Fit
Model
Error
C. Total
Source
3
14
17
DF
80181.731
5078.713
85260.444
Sum of Squares
26727.2
362.8
Mean Square
73.6764
F Ratio
<.0001
Prob > F
Analysis of Variance
Intercept
pH
Polymeeri[P1]
Polymeeri[P2]
Term
-122.8427
54.294026
50.943475
-11.88889
Estimate
37.44157
4.755411
6.372994
6.348799
Std Error
-3.28
11.42
7.99
-1.87
t Ratio
0.0055
<.0001
<.0001
0.0822
Prob>|t|
Parameter Estimates
Whole Model
Nominal factors expanded to all levels
Intercept
pH
Polymeeri[P1]
Polymeeri[P2]
Polymeeri[P3]
Term
-122.8427
54.294026
50.943475
-11.88889
-39.05459
Estimate
37.44157
4.755411
6.372994
6.348799
6.372994
Std Error
-3.28
11.42
7.99
-1.87
-6.13
t Ratio
0.0055
<.0001
<.0001
0.0822
<.0001
Prob>|t|
Expanded Estimates
Response Vaste
Toistoja ei ole, joten epa-sopivuustestausta ei tu-
lostu.
Parametriestimaatit ovat nyt
b0 = −122.8427 , b1 = 54.2940 , b1,1 = 50.9435 , b1,2 = −11.8889.
Vertailu eri polymeerien valilla onnistuu talloinkin. F-testiin tai selitys-asteeseen tai MSE-arvoon tama ei vaikuta. Sen sijaan t-testit muuttuvat,niiden P-arvot ovat nyt
0.0055 , ∼= 0 , ∼= 0 , 0.0822.
Kategorisista regressoreista saatujen uusien regressorien valilla voimallissa olla tulomuotoisia yhdysvaikutustermeja, myos ”vanhojen”regres-sorien kanssa, tai muitakin laskettuja uusia regressoreita.
6.7 Residuaalin tutkiminen [12.10]
Residuaalien avulla voidaan monin tavoin tutkia jalkikateen mallin hy-vyytta tai sita olivatko mallin muodostamisen oletukset voimassa. Sel-vasti poikkeavat tai epaonnistuneet koetilanteet nakyvat usein itseisar-voiltaan suurina residuaaleina, vieraina havaintoina. Vrt. Pykalan 1.3 esimerkki.
Yksinkertaisin tapa on piirtaa realisoituneet residuaalit esimerkiksiennustetun vasteen funktiona, ts. pisteet (yi, ei) (i = 1, . . . , n). Jos saa-tu pistekuvio on jotenkin ”vino” tai ”kayra’, niin vasteessa on selvastiselittamatonta osaa ja regressoreita tarvitaan lisaa:
Jos taas kuvio on jotenkin ”kuroutunut” tai ”pullistunut” tai ”nuolimai-
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 64
nen”, niin oletus virhetermin jakauman samuudesta varianssin osalta ei Ns. heteroskedastisuus.
pida paikkansa ja mallinnuksessa tarvitaan isompi muutos:
Myos voidaan piirtaa realisoituneet residuaalit koejarjestyksen funktiona,ts. pisteet (i, ei) (i = 1, . . . , n), ja tutkia kuviota samaan tapaan kuin ylla.
Pykalan 6.2 esimerkissa residuaali vs. ennustettu vaste on varsin ta-vanomainen (ylempi kuva), samoin residuaali vs. koejarjestys (alempikuva):
Tassa yksi residuaaleistaon poikkeuksellisen iso,
ehkapa kyseessa on vieras?
Data: Fit Least Squares Page 1 of 1
-1.0
-0.5
0.0
0.5
1.0
1.5
Vaste
Resid
ual
5 10 15 20
Vaste Predicted
Residual by Predicted Plot
-1.0
-0.5
0.0
0.5
1.0
1.5
Resid
ual
0 5 10 15 20
Row Number
Residual by Row Plot
Response Vaste
Tassa kylla on oudonna-koista saannonmukai-
suutta.
6.8 Logistinen regressio [12.12]
Edella vaste y on aina ollut jatkuva. Logistinen regressio sallii monitasoi-sen kategorisen vasteen. Malli ei silloin ennusta vastetta annetuille regres-
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 65
soriarvoille, vaan antaa ko. eri vaihtoehtojen todennakoisyydet. Aloite-taan tapauksella, jossa vasteella on kaksi tasoa eli kyseessa on binaarinenvaste. Merkitaan mainittua kahta eri vasteen tasoa A:lla ja B:lla ja p:llaA:n todennakoisyytta (joka siis riippuu regressorien arvoista).
Nimensa mukaisesti logistinen regressio kayttaa ns. logistista jakau-maa, jonka kertymafunktio on
F (z) =1
1 + e−z.
Idea on se, etta estimoidaan lausekkeen
Ns. logitti.β0 + β1x1 + · · ·+ βkxk
parametrit β0, β1, . . . , βk siten, etta logistisesta jakaumasta saatu toden-nakoisyys
F (β0 + β1x1 + · · ·+ βkxk) =1
1 + e−β0−β1x1−···−βkxk
on vasteen y tason A todennakoisyys p kaytetylle regressoriyhdelmalle.Eri regressoriyhdelmille (datamatriisi X) suoritetaan kokeet (n kpl)
ja tallennetaan saadut vasteet y1, . . . , yn (tasot A ja B). Realisoituneidentasojen yhteistodennakoisyys on silloin kokeiden riippumattomuudestajohtuen tulo
L(β0, . . . , βk) = L1(β0, . . . , βk) · · ·Ln(β0, . . . , βk),
missa
Li(β0, . . . , βk) =
pi =
1
1 + e−β0−β1xi,1−···−βkxi,k, jos yi = A
1− pi =e−β0−β1xi,1−···−βkxi,k
1 + e−β0−β1xi,1−···−βkxi,k, jos yi = B
(i = 1, . . . , n).
Kuten merkinnastakin jo huomaa, tarkoitus on kayttaa suurimman Ks. Luku 5.
uskottavuuden estimointia ja L(β0, . . . , βk) tulkitaan uskottavuusfunk-tioksi. Parametrien arvojen estimaatit b0, b1, . . . , bk valitaan siis siten, et- Muitakin estimointimene-
telmia kuin suurimman us-kottavuuden estimointi on
kaytossa ja tulokset ovatsilloin joskus hieman erilai-
set.
ta L(β0, . . . , βk) tai vastaava loguskottavuusfunktio
l(β0, . . . , βk) = lnL(β0, . . . , βk)
saa suurimman arvonsa, kun β0 = b0, β1 = b1, . . . , βk = bk. Merkitsemallaosittaisderivaatat yhtasuureksi kuin nolla tasta saadaan yhtaloryhma,jonka ratkaisu vaatii yleensa paljon numeerista laskua. Koemaaratkinovat yleensa suuria. Ohjelmistot ovat siis tarpeen, yksinkertaisimmilletapauksille loytyy nettilaskimiakin.
Estimoinnin tuloksena saadaan todennakoisyys p0, etta A tapahtuu,kun regressoreilla on arvot x1 = x0,1, . . . , xk = x0,k:
p0 =1
1 + e−b0−b1x0,1−···−bkx0,k.
Kokeista saatu data annetaan usein seuraavassa muodossa. Jos eri-laisia testattuja regressoriarvoyhdelmia (eli erilaisia X:n riveja) on l kpl,niin annetaan yhdelmille tehtyjen kokeiden lukumaarat n1, . . . , nl sekaniissa realisoituneiden vastearvojen A lukumaarat v1, . . . , vl (tai sittenmolempien vastearvojen realisoituneet lukumaarat).
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 66
Esimerkki. Tassa tutkitaan eraan myrkyn pitoisuuden x1 vaikutusta [12.15]
hyonteisiin. Kokeessa kirjataan siina olleiden hyonteisten kokonaisluku-maara ja kuolleiden hyonteisten lukumaara kullekin testatulle pitoisuu-delle. Tulokset ovat seuraavat:
Myrkyn Hyonteisten KuolleidenKoe pitoisuus kokonais- hyonteisten
x1 lukumaara lukumaara1 0.10 47 82 0.15 53 143 0.20 55 244 0.30 52 325 0.50 46 386 0.70 54 507 0.95 52 50
Ohjelmistot (mm. JMP) ottavat yleensa datan sisaansa tassakin muo- Oikeastaan tasta tulisi da-tamatriisi, jossa on perati
n = 359 rivia.dossa, tietyt muuttujat vain on merkittava frekvenssimuuttujiksi. JMP-tulostus on
Tasta nakyy yhtaloryhmannumeerisen ratkaisun kulku
Newtonin menetelmalla.
Data: Fit Nominal Logistic Page 1 of 1
1 2 3 4 5 6
Iter-248.8398378-180.2962958-172.2325127-171.3239135-171.3046844-171.3046733
LogLikelihoodInitialNewtonNewtonNewtonNewtonNewton
Step 37005558600.454345220.14444273 0.02156960.00052041
3.082e-7
Delta-Criterion .
0.380150570.046816450.005303090.00011224
6.493e-8
Obj-CriterionIteration History
Freq: Lkm
DifferenceFullReduced
Model 70.06115
171.30467 241.36582
-LogLikelihood 1
DF140.1223
ChiSquare <.0001
Prob>ChiSq
RSquare (U)Observations (or Sum Wgts)
0.2903 359
Converged by Gradient
Whole Model Test
Lack Of FitSaturatedFitted
Source 5 6 1
DF 2.94976
168.35491 171.30467
-LogLikelihood5.899523
ChiSquare
0.3161Prob>ChiSq
Lack Of Fit
InterceptMyrkky
Term1.73610651-6.2953873
Estimate0.24204240.7422285
Std Error 51.45 71.94
ChiSquare<.0001<.0001
Prob>ChiSq
For log odds of E/K
Parameter Estimates
MyrkkySource
1Nparm
1DF
71.9398698Wald ChiSquare
0.0000Prob>ChiSq
Effect Wald Tests
Nominal Logistic Fit for Kuollut
Estimoidut parametrit ovat
JMP:n mallissa onkin p =1
1 + eβ0+β1x1+···+βkxk.
b0 = −1.7361 ja b1 = 6.2954
(JMP antaa nama vastakkaismerkkisina). Hyonteisen kuolemistodenna-koisyys p0 annetulle pitoisuudelle x1 = x0,1 saadaan siis (estimoituna)
LUKU 6. MONEN MUUTTUJAN LINEAARINEN REGRESSIO 67
kaavasta
p0 =1
1 + e1.7361−6.2954x0,1.
Estimoidun mallin merkitsevyytta voidaan testata eraalla approksi-matiivisella χ2-testilla, ns. uskottavuussuhdetestilla. Estimoitujen para- ”likelihood-ratio test”
metrien merkitsevyytta taas testataan usein ns. Waldin χ2-testilla. Eo. Abraham Wald(1902–1950)esimerkissa estimoidun mallin merkitsevyystesti antaa χ2-testisuureen
arvoksi perati 140.1223 (1 vapausasteella), jota vastaava P-arvo on erit-tain tarkasti = 0. Malli on siis erittain merkitseva. Parametrien testaus P ∼= 10−32
Waldin χ2-testilla osoittaa viela lisaksi, etta molemmat ovat erittain mer-kitsevia.
Usein kiinnostava on vastetason A ns. vetosuhde eli ”odds (ratio)”, vrt. vedon-lyonti
Vetosuhteen logaritmi onem. logitti.
p
1− p,
ennustettuna eb0+b1x0,1+···+bkx0,k .Useampitasoinen vaste kasitellaan vastaavasti. Jos vasteen tasot ovat Ns. multinomilogistinen
regressio.A1, . . . ,Am, niin todennakoisyydet saadaan parametreista seuraavasti:
P(y = A1) =1
1 +∑m
j=2 e−β(j)
0 −β(j)1 x1−···−β(j)
k xkja
P(y = Ah) =e−β
(h)0 −β
(h)1 x1−···−β(h)
k xk
1 +∑m
j=2 e−β(j)
0 −β(j)1 x1−···−β(j)
k xk(h = 2, . . . ,m).
Estimoitavia parametreja β(j)i on yhteensa (m− 1)(k+ 1) kpl. Estimoin-
ti tehdaan tavallisesti tassakin suurimman uskottavuuden menetelmallamuodostaen uskottavuusfunktio naiden todennakoisyyksien tulona.
Talla idealla on monia variantteja. Logistisen jakauman tilalla voi-daan kayttaa muitakin jakaumia, esimerkiksi standardinormaalijakau- Ns. probit-malli.
maa. Edelleen logistisessa mallissa voi olla mukana kategorisia regres-soreita sopivasti koodattuina, yhdysvaikutustermeja jne.
Luku 7
PARAMETRITTOMATMENETELMAT
Parametrittomia ovat testit, jotka eivat oleta populaatiojakaumilta tiet-tya muotoa ja kohdistuvat lahinna jakaumaa koskeviin todennakoisyyk-siin. Koska t-testien vaatima (approksimatiivinen) normaalisuus ei aina Tallaisia menetelmia olivat
jo Luvussa 4 kasitellytχ2-testit.ole voimassa tai todennettavissa, suositellaan niiden tilalle usein vastaa-
via parametrittomia testeja. On kuitenkin huomattava, etta nama testitmittaavat hieman eri asiaa.
7.1 Merkkitesti [16.1]
Merkkitestilla testataan jatkuvan populaatiojakauman kvantiileja q(f). ”sign test”
Ks. Pykala 1.3.Muista, etta jos X on vastaava satunnaismuuttuja, niin q(f) on sellainenluku, etta P
(X ≤ q(f)
)= f , ts. populaatiokertyma kvantiilipisteessa
q(f) on f . Nollahypoteesi on talloin muotoa
H0 : q(f0) = q0,
missa f0 ja q0 ovat annettuja lukuja. Vaihtoehtoinen hypoteesi on silloinjokin seuraavista kolmesta:
H1 : q(f0) < q0 , H1 : q(f0) > q0 tai H1 : q(f0) 6= q0.
Merkitaan f :lla sellaista lukua, etta todella q(f) = q0. Nollahypoteesi voi-daan silloin esittaa muodossa H0 : f = f0 ja yo. vaihtoehtoiset hypoteesitvastaavasti muodossa
H1 : f0 < f , H1 : f0 > f tai H1 : f0 6= f.
Hypoteesin testaamiseksi otetaan satunnaisotos x1, . . . , xn. Muodos-tetaan vastaava merkkijono s1, . . . , sn, missa
si = sign(xi) =
+, jos xi > q0
0 , jos xi = q0
−, jos xi < q0.
Koska otosdata on usein tavalla tai toisella pyoristettya, jatetaan otok-sesta pois ne alkiot xi, joille si = 0, ja jatketaan lopuilla. Sen jalkeen si
68
LUKU 7. PARAMETRITTOMAT MENETELMAT 69
on aina joko + tai −. Merkitaan otoskokoa taman jalkeenkin n:lla. Sa- Teoreettisestikin todenna-koisyys sille, etta tarkasti
Xi = q0, on nolla.tunnaismuuttujiksi ajateltuna otos on X1, . . . , Xn ja merkit S1, . . . , Sn.Miinusmerkkien lukumaara Y noudattaa silloin H0:n voimassaollessa bi-nomijakaumaa Bin(n, f0) ja hypoteesin testaus voidaan suorittaa aivan Nettilaskimiakin loytyy,
mutta lahinna vain me-diaanin testamiseen.samalla tavalla kuin Pykalassa 3.4.
Esimerkki. Eraan akkukayttoisen pensasleikkurin akun lataamisaikaa [16.1]
tutkittiin. Otokseen saatiin 11 aikaa (tunneissa):
1.5 , 2.2 , 0.9 , 1.3 , 2.0 , 1.6 , 1.8 , 1.5 , 2.0 , 1.2 , 1.7.
Latautumisajan jakaumasta ei ole tietoa, paitsi etta se on jatkuva. Halu-taan testata voitaisiinko latautumisajan mediaaniksi esittaa q0 = 1.8 h.Testattava hypoteesipari on siis H0 : q(0.5) = 1.8 h vs. H1 : q(0.5) 6= 1.8h, toisin sanoen H0 : f = 0.5 vs. H1 : f 6= 0.5, missa q(f) = 1.8 h (jaf0 = 0.5).
Koska yksi realisoituneista otosalkioista on juuri tuo 1.8 h, jatetaanse pois ja jatketaan lopuilla n = 10 alkiolla. Merkkijono s1, . . . , s10 onnyt
− , + , − , − , + , − , − , + , − , −.
Realisoitunut miinusmerkkien lukumaara on siis y = 7. Binomijakauma-testin P -arvo on pienempi luvuista
7∑i=0
(10
i
)0.5i(1− 0.5)10−i ja
10∑i=7
(10
i
)0.5i(1− 0.5)10−i
(se on jalkimmainen) kahdella kerrottuna eli P = 0.3438. Nollahypoteesiaei siis tassa hylata. MATLABilla laskut ovat seuraavat:
>> X=[1.5,2.2,0.9,1.3,2.0,1.6,1.8,1.5,2.0,1.2,1.7];
>> P=signtest(X,1.8)
P =
0.3438
Esimerkki. 16 autoa ja ajajaa testasivat kahta eri rengastyyppia R ja [16.2]
B. Testeissa mitattiin autojen polttoaineen kulutus yksikoissa km/l ja tu-lokset olivat seuraavat:
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16R 4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9B 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8si + − + + − + 0 + + 0 + + + + − +
Mukana on kulutuksien erotuksista laskettu merkkijono. Kahdessa ko-keessa kulutukset olivat samat ja nama jatettiin pois, jolloin jaljelle jain = 14 koetta ja realisoituneiden miinusmerkkien lukumaara on y = 3.Populaatio muodostuu siis tassa kulutuksien erotuksista. Nollahypoteesion H0 : q(0.5) = 0, ts. etta mediaanikulutusero on = 0, ja vaihtoehtoinen
LUKU 7. PARAMETRITTOMAT MENETELMAT 70
hypoteesi H1 : q(0.5) > 0. Toisin sanoen testataan binomitestilla hypo-teesiparia H0 : f = 0.5 vs. H1 : f < 0.5, missa q(f) = 0 (ja f0 = 0.5).Testin P-arvoksi saadaan nyt binomijakauman hantatodennakoisyys
3∑i=0
(14
i
)0.5i(1− 0.5)14−i = 0.0287.
Riskitasolla α = 0.05 nollahypoteesi pitaa siis hylata ja paatella, ettakulutuksien eron mediaanin mielessa rengastyyppi R on parempi. MAT-LABilla laskut ovat seuraavat:
>> D=[4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9;
4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8];
>> P=signtest(D(1,:),D(2,:))
P =
0.0574
>> P/2
ans =
0.0287
7.2 Merkityn jarjestyksen testi [16.2]
Jos voidaan rajoittua tietyn tyyppisiin jakaumiin ja tiettyihin kvantiilei-hin, saadaan vahvempia testeja. Eras tallainen on (Wilcoxonin) merkityn ”signed-rank test”
Frank Wilcoxon (1892–1965), parametrittoman
tilastomatematiikan uran-uurtaja
jarjestyksen testi. Siina oletetaan populaatiojakaumasta, jatkuvuuden li-saksi, etta se on symmetrinen. Lisaksi voidaan testata vain mediaania.
Merkitaan jatkossa lyhyyden vuoksi populaatiojakauman mediaaniaµ:lla. Ym. symmetrisyys tarkoittaa silloin sita, etta populaatiotiheysfunk-tio f toteuttaa ehdon f(µ+x) = f(µ−x). Nollahypoteesi on H0 : µ = µ0,missa µ0 on annettu luku. Jos saatu otos on x1, . . . , xn, menetellaan seu-raavasti:
1. Vahennetaan otosalkioista µ0, jolloin saadaan luvut
di = xi − µ0 (i = 1, . . . , n).
Mikali jokin di = 0, jatetaan otosalkio xi pois otoksesta.
2. Jarjestetaan luvut d1, . . . , dn itseisarvojarjestykseen ja annetaankullekin luvulle di vastaava jarjestysnumero ri. Jos listassa d1, . . . ,dn on itseisarvoltaan samoja lukuja, jolloin niiden jarjestysnumerotovat perakkaiset, annetaan niille kaikille jarjestysnumeroksi alkupe-raisten perakkaisten jarjestysnumerojen keskiarvo. Jos esimerkiksitarkalleen neljalla luvuista d0, . . . , dn on tietty sama itseisarvo janiiden alkuperaiset jarjestysnumerot ovat 6, 7, 8 ja 9, annetaan niil-le kaikille jarjestysnumeroksi (6 + 7 + 8 + 9)/4 = 7.5.
3. Lasketaan yhteen kaikkien sellaisten lukujen di jarjestysnumerot,jotka ovat positiivisia. Nain saadaan luku w+. Vastaavasti lasketaanyhteen kaikkien sellaisten lukujen di jarjestysnumerot, jotka ovatnegatiivisia, ja saadaan luku w−.
LUKU 7. PARAMETRITTOMAT MENETELMAT 71
4. Merkitaan w = min(w+, w−).
Satunnaismuuttuja-ajattelussa saataisiin vastaavasti W+, W− ja W .Testauksessa eri vaihtoehdot ovat seuraavat:
• Jos tosiasiassa µ < µ0, pyrkii w+ olemaan pieni ja w− iso. Tamatilanne johtaa silloin H0:n hylkaamiseen vaihtoehtoisen hypoteesinH1 : µ < µ0 hyvaksi.
• Vastaavasti, jos tosiasiassa µ > µ0, pyrkii w+ olemaan suuri ja w−pieni ja H0 hylataan vaihtoehtoisen hypoteesin H1 : µ > µ0 hyvaksi.
• Edelleen, jos jompikumpi luvuista w+ ja w− on pieni, jolloin w onpieni, se on merkki siita, etta µ 6= µ0 ja H0 pitaisi hylata vaihtoeh-toisen hypoteesin H1 : µ 6= µ0 hyvaksi.
Tarkat kriittiset arvot eri riskitodennakoisyyksille (H0:n voimassaollessa) Nettilaskimia loytyy talle-kin testille. Huomattakoon,etta eri ohjelmistot ilmoit-tavat jarjestyssumman hie-
man eri tavalla.
ovat tyolaita laskea ja ne katsotaan vielakin usein taulukoista. Suurillen:n arvoille W+:n (ja W−:n) jakauma lahestyy kyllakin talloin normaali-jakaumaa, ts.
W+ ≈ N(n(n+ 1)
4,n(n+ 1)(2n+ 1)
24
).
Symmetriasyista lienee muuten melko ilmeista, etta E(W+) = n(n+1)/4,silla kaikkien jarjestyslukujen summa on aritmeettisen sarjan summana1 + 2 + · · ·+ n = n(n+ 1)/2. Varianssi on vaikeampi paatella.
Esimerkki. Palataan eo. latautumisaikaesimerkin testiin, mutta tehdaan [16.3]
se nyt merkityn jarjestyksen testilla. Saadut luvut di ja niiden jarjestys- Nyt pitaa siis olettaa, ettajakauma on symmetrinen.numerot ri ovat
i 1 2 3 4 5 6 7 8 9 10xi 1.5 2.2 0.9 1.3 2.0 1.6 1.5 2.0 1.2 1.7di −0.3 0.4 −0.9 −0.5 0.2 −0.2 −0.3 0.2 −0.6 −0.1ri 5.5 7 10 8 3 3 5.5 3 9 1
Naista saadaan laskien yhteen realisoituneet luvut w+ = 13 seka w− = 42ja w = 13. Vastaava P-arvo on P = 0.1562 (MATLAB) eika nollahypo- MATLAB-kasky
P=signrank(X,1.8)teesia nain hylata tassakaan testissa. JMP:n tulostus on seuraava:Data_16_1: Distribution Page 1 of 1
Hypothesized Value
Actual Estimate
df
Std Dev
1.8
1.60909
10
0.38589
Test Statistic
Prob > |t|
Prob > t
Prob < t
-1.6408
0.1319
0.9341
0.0659
t Test
-14.500
0.156
0.922
0.078
Signed-Rank
Test Mean=value
Aika
Distributions
t-testitulos on tassa sa-mantapainen kuin merkityn
jarjestyksen testilla.
LUKU 7. PARAMETRITTOMAT MENETELMAT 72
Esimerkki. Tiettyja testituloksia verrataan. Halutaan saada tietaa, onko [16.4]
testitulos parempi, jos koehenkilo voi etukateen harjoitella samantapaisil-la tehtavilla. Asian tutkimiseksi valittiin n = 10 koehenkiloparia, joistayhdelle annettiin ennen testia muutama samanlainen tehtava ja toiselleei. Saatiin seuraavat tulokset (testipisteet):
i 1 2 3 4 5 6 7 8 9 10Harjoittelua 531 621 663 579 451 660 591 719 543 575
Ei harjoittelua 509 540 688 502 424 683 568 748 530 524
Asetetun nollahypoteesin H0 mukaisesti testitulosten erotuksien mediaani Huomaa, etta tassa ei tes-tata testipisteiden mediaa-
neja! Yleisesti erotuksenmediaani ei ole sama kuin
mediaanien erotus.
on µ0 = 50. Vaihtoehtoinen hypoteesi H1 taas vaittaa, etta ko. mediaanion < 50. Kyseessa on siis toispuolinen testi. Testia varten lasketaantaulukko
i 1 2 3 4 5 6 7 8 9 10di 22 81 −25 77 27 −23 23 −29 13 51
di − µ0 −28 31 −75 27 −23 −73 −27 −79 −37 1ri 5 6 9 3.5 2 8 3.5 10 7 1
josta nahdaan, etta w+ = 10.5. Vastaava P-arvo on P = 0.0449 (MAT- MATLAB-kaskyP=signrank(D(1,:)-50,
D(2,:))/2LAB). Nain ollen H0 voidaan hylata riskitasolla α = 0.05 ja paatella,etta harjoittelu etukateen ei paranna testitulosta (vahintaan) 50 pisteellaerotuksen mediaanimielessa. JMP:n tulostus on seuraava:
Data: Matched Pairs Page 1 of 1
Harjoittelua-50
Ei_harjoittelua
Mean Difference
Std Error
Upper95%
Lower95%
N
Correlation
543.3
571.6
-28.3
12.5999
0.20288
-56.803
10
0.93713
t-Ratio
DF
Prob > |t|
Prob > t
Prob < t
-2.24606
9
0.0513
0.9743
0.0257
Difference: Harjoittelua-50-Ei_harjoittelua
Test Statistic
Prob > |z|
Prob > z
Prob < z
-17.000
0.090
0.955
0.045
Harjoittelua-50-Ei_harjoittelua
Wilcoxon Sign-Rank
Matched Pairs
t-testitulos poikkeaa tassajonkin verran merkityn jar-
jestyksen testista.
7.3 Mann–Whitney-testi [16.3]
Mann–Whitney-testi vertaa kahden jatkuvan populaatiojakauman medi- Henry Mann (1905–2000)Ransom Whitney (1915–
2001)aaneja. Testia kutsutaan myos U-testiksi tai (Wilcoxonin) jarjestyssum-matestiksi tai vain Wilcoxonin testiksi. Merkitaan kyseisia populaatio-
”rank-sum test”mediaaneja µ1:lla ja µ2:lla. Nollahypoteesi on silloin H0 : µ1 = µ2. Oi-Nain ollen testi ei miten-kaan lopullisesti ratkaiseBehrens–Fisher-problee-maa, vaikka nain usein
mainitaankin.
keastaan nollahypoteesi on, etta populaatiojakaumat ovat samat—jolloinniilla on tietysti sama mediaanikin—silla talla oletuksella lasketaan kriit-tiset rajat jne.
LUKU 7. PARAMETRITTOMAT MENETELMAT 73
Mann–Whitney-testi reagoi herkasti nimenomaan populaatiomediaa-nien eroon, mutta paljon heikommin moniin muihin populaatiojakaumieneroihin. Tasta syysta se ei myoskaan oikein kay populaatiojakaumien sa-muustestiksi, vaikka nain usein todetaankin. Monet katsovatkin, etta testion tulkittava puhtaasti lokaatiotestiksi, jolloin hypoteesien H0 ja H1 mu-kaiset jakaumat ovat samanmuotoiset, vain eri paikassa.
Testin suorittamiseksi otetaan populaatioista otokset
x1,1, . . . , x1,n1 ja x2,1, . . . , x2,n2 .
Sovitaan, etta otoskoista n1 on pienempi. Menetellaan nyt seuraavasti: Jos ne ovat erisuuret—ta-ma vain laskujen helpotta-
miseksi.1. Yhdistetaan otokset yhteisotokseksi
x1,1, . . . , x1,n1 , x2,1, . . . , x2,n2 .
2. Jarjestetaan yhteisotosalkiot suuruusjarjestykseen ja annetaan niil-le vastaavat jarjestysluvut
r1,1, . . . , r1,n1 , r2,1, . . . , r2,n2 .
Jos yhteisotoksessa on samoja lukuja, jolloin niiden jarjestysnu-merot ovat perakkaiset, annetaan niille kaikille jarjestysnumeroksialkuperaisten perakkaisten jarjestysnumerojen keskiarvo. Jos esi-merkiksi tarkalleen kolmella yhteisotoksen alkioista on tietty samaarvo ja niiden alkuperaiset jarjestysnumerot ovat 6, 7 ja 8, annetaanniille kaikille silloin jarjestysnumeroksi (6 + 7 + 8)/3 = 7.
3. Lasketaan yhteen ensimmaisen otoksen n1 jarjestyslukua. Nain saa-daan luku w1 = r1,1 + · · ·+ r1,n1 .
4. Vastaavasti laskien yhteen toisen otoksen n2 jarjestyslukua saadaanluku w2 = r2,1 + · · · + r2,n2 . Huomaa, etta aritmeettisen sarjansummana
w1 + w2 =(n1 + n2)(n1 + n2 + 1)
2,
mista w2 saadaan helposti lasketuksi, kun w1 on saatu.
5. Merkitaan viela w = min(w1, w2).
Satunnaismuuttujamielessa saataisiin vastaavasti satunnaismuuttujatW1,W2 seka W . Usein naiden tilalla kaytetaan lukuja
u1 = w1 −n1(n1 + 1)
2, u2 = w2 −
n2(n2 + 1)
2ja u = min(u1, u2),
seka vastaavia satunnaismuuttujia U1, U2 ja U . Tasta tulee nimi ”U-testi”.
Testattaessa voivat esiintya seuraavat tilanteet:
• Jos tosiasiassa µ1 < µ2, pyrkii w1 olemaan pieni ja w2 iso. Tamatilanne johtaa silloin H0:n hylkaamiseen vaihtoehtoisen hypoteesinH1 : µ1 < µ2 hyvaksi.
LUKU 7. PARAMETRITTOMAT MENETELMAT 74
• Vastaavasti, jos tosiasiassa µ1 > µ2, pyrkii w1 olemaan suuri jaw2 pieni ja H0 hylataan vaihtoehtoisen hypoteesin H1 : µ1 > µ2
hyvaksi.
• Edelleen, jos jompikumpi luvuista w1 ja w2 on pieni, jolloin w onpieni, se on merkki siita, etta µ1 6= µ2 ja H0 pitaisi hylata vaihtoeh-toisen hypoteesin H1 : µ1 6= µ2 hyvaksi.
Vastaavalla tavalla testissa voitaisiin kayttaa lukuja u1, u2 ja u.Tarkat kriittiset arvot eri riskitodennakoisyyksille (H0:n voimassaol-
lessa) ovat tyolaita laskea ja ne katsotaan vielakin usein taulukoista. Suu-rille n1:n ja n2:n arvoille W1:n (ja W2:n) jakauma lahestyy kyllakin talloinnormaalijakaumaa, ts.
W1 ≈ N(n1(n1 + n2 + 1)
2,n1n2(n1 + n2 + 1)
12
).
Nettilaskimia loytyy tallekin testille.
Esimerkki. Kahden eri savukemerkin A ja B nikotiinipitoisuuksia mi- [16.5]
tattiin (yksikkona mg). Testattava hypoteesipari on H0 : µA = µB vs.H1 : µA 6= µB. Saatiin seuraavat tulokset, mukana myos yhteisotoksenjarjestysluvut:
i 1 2 3 4 5 6 7 8 9 10xA,i 2.1 4.0 6.3 5.4 4.8 3.7 6.1 3.3 – –rA,i 4 10.5 18 14.5 13 9 16 8 – –xB,i 4.1 0.6 3.1 2.5 4.0 6.2 1.6 2.2 1.9 5.4rB,i 12 1 7 6 10.5 17 2 5 3 14.5
Otoskoot olivat siis nA = 8 ja nB = 10. Laskien saadaan wA = 93 jawB = 78 seka w = 78. (Vastaavasti saataisiin uA = 57 ja uB = 23 sekau = 23.) Tasta saadaan P-arvoksi P = 0.1392 (MATLAB) eika H0:a ole MATLAB-kasky
P=ranksum(X_A,X_B)syyta hylata. JMP:n tulostus on seuraava:Data: Oneway Page 1 of 1
A
B
Level
8
10
Count
93
78
Score Sum
11.6250
7.8000
Score Mean
1.468
-1.468
(Mean-Mean0)/Std0
93
S
1.46758
Z
0.1422
Prob>|Z|
2-Sample Test, Normal Approximation
2.2863
ChiSquare
1
DF
0.1305
Prob>ChiSq
1-way Test, ChiSquare Approximation
Wilcoxon / Kruskal-Wallis Tests (Rank Sums)
Oneway Analysis of Nikotiini By Merkki
Nama ovat siis approksi-maatioita.
7.4 Kruskal–Wallis-testi [16.4]
Kruskal–Wallis-testi on Mann–Whitney-testin yleistys tilanteeseen, jos- William Kruskal (1919–2005), Allen Wallis
(1912–1998)sa vertailtavia populaatioita voi olla enemmankin kuin kaksi. Merkitaan
LUKU 7. PARAMETRITTOMAT MENETELMAT 75
populaatioiden (k kpl) jakaumien mediaaneja samaan tapaan kuin edel-la: µ1, . . . , µk. Kuten Mann–Whitney-testi, Kruskal–Wallis-testi vertaileepopulaatiojakaumia niiden mediaanien kautta, vaikkakin oletus kriitti-sia arvoja laskiessa on, etta populaatiojakaumat ovat samat. Oleellisestinollahypoteesi on
H0 : µ1 = · · · = µk.
Testin suorittamiseksi otetaan kustakin populaatiosta otos, namaotokset yhdistetaan yhteisotokseksi ja sen alkiot jarjestetaan suuruusjar-jestykseen aivan kuten Mann–Whitney-testissakin. Erityisesti toistuvatarvot kasitellaan samalla tavalla. Kustakin populaatiosta otetun otoksenalkioiden jarjestysluvut lasketaan yhteen, jolloin saadaan jarjestyssum-mat w1, . . . , wk ja vastaavat satunnaismuuttujat W1, . . . ,Wk. Merkitaanviela j:nnen populaation otoskokoa nj:lla ja n = n1 + · · ·+ nk.
Testin tarkan kriittisen rajan laskeminen on hyvin tyolasta, ainakinvahankaan suuremmille k:n arvoille. Testi tehdaankin yleensa silla tie-dolla, etta (H0:n voimassaollessa) satunnaismuuttujalla
H =12
n(n+ 1)
k∑j=1
W 2j
nj− 3(n+ 1)
on approksimatiivisesti χ2-jakauma k − 1 vapausasteella. Tata approk-simaatiota voidaan kayttaa myos Mann–Whitney-testille (jossa k = 2). Nain teki JMP edellisessa
esimerkissa.Testin (approksimatiivinen) P-arvo saadaankin realisoitunutta H:n arvoa
h =12
n(n+ 1)
k∑j=1
w2j
nj− 3(n+ 1)
vastaavana χ2-jakauman loppuhantatodennakoisyytena (siis k − 1 va-pausasteella). Jalleen nettilaskimiakin talle testille on, ainakin pienem-mille k:n arvoille.
Esimerkki. Kolmen eri ohjustyypin A, B ja C polttoaineen palamisno- [16.6]
peutta tutkittiin. Tulokset (sopivasti koodattuina) ovat alla, mukana ovatmyos jarjestysluvut.
i 1 2 3 4 5 6 7 8 wxA,i 24.0 16.7 22.8 19.8 18.9 – – –rA,i 19 1 17 14.5 9.5 – – – 61xB,i 23.2 19.8 18.1 17.6 20.2 17.8 – –rB,i 18 14.5 6 4 16 5 – – 63.5xC,i 18.4 19.1 17.3 17.3 19.7 18.9 18.8 19.3rC,i 7 11 2.5 2.5 13 9.5 8 12 65.5
Tasta laskettu testisuure on h = 1.6586 ja vastaava χ2-jakaumasta(2 vapausasteella) saatu P-arvo on P = 0.4364 eika H0:a hylata. Oh-justyypit ovat siis polttoaineen palonopeuden puolesta samanlaiset medi-aaneilla mitaten. JMP:n tulostus on seuraava:
LUKU 7. PARAMETRITTOMAT MENETELMAT 76Data: Oneway Page 1 of 1
A
B
C
Level
5
6
8
Count
61
63.5
65.5
Score Sum
12.2000
10.5833
8.1875
Score Mean
0.973
0.263
-1.158
(Mean-Mean0)/Std0
1.6630
ChiSquare
2
DF
0.4354
Prob>ChiSq
1-way Test, ChiSquare Approximation
Wilcoxon / Kruskal-Wallis Tests (Rank Sums)
Oneway Analysis of Palonopeus By Tyyppi
MATLABilla laskut ovat seuraavat:
Huomaa pieni ero edelli-seen verrattuna! JMP las-
keekin ns. korjatun testi-suureen. Siita on etua, mi-
kali toistuvia arvoja on pal-jon.
Samoin tekee MATLAB!
>> X=[24.0 16.7 22.8 19.8 18.9];
>> Y=[ 23.2 19.8 18.1 17.6 20.2 17.8];
>> Z=[18.4 19.1 17.3 17.3 19.7 18.9 18.8 19.3];
>> ryhma=[ones(1,length(X)) 2*ones(1,length(Y)) 3*ones(1,length(Z))];
>> P=kruskalwallis([X Y Z],ryhma)
P =
0.4354
7.5 Jarjestyskorrelaatiokerroin [16.5]
Jos kaksi populaatiota liittyy alkio alkiolta toisiinsa, kuvataan naidensuhdetta usein otoksista saatavalla suureella, ns. (Pearsonin) otoskorre-laatiokertoimella r. Taman laskemista varten otetaan n alkion satunnais-otos kummastakin populaatiosta vastinalkioittain:
x1,1, . . . , x1,n ja x2,1, . . . , x2,n.
r:n laskemiseksi lasketaan ensin otoskovarianssi
q =1
n− 1
n∑i=1
(x1,i − x1)(x2,i − x2),
joka on populaatiojakaumien kovarianssin (harhaton) estimaatti. Tassax1 on ensimmaisen otoksen otoskeskiarvo ja x2 toisen. Tasta saadaanedelleen mainittu otoskorrelaatiokerroin
r =q
s1s2,
missa s21 on ensimmaisen otoksen otosvarianssi ja s22 toisen. Tata kay- Lisaoletuksena on tietysti,etta s1, s2 6= 0.tetaan populaatiojakaumien (lineaarisen) riippuvuuden tutkimiseen sa-
maan tapaan kuin varsinaista korrelaatiokerrointa corr(X, Y ). Myos r:n Ks. kurssi Todennakoisyys-laskenta.arvot ovat valilla [−1, 1].
Populaatioiden jarjestyskorrelaatiokerroin on samantapainen paramet-riton suure. Jarjestetaan sita varten kummankin otoksen alkiot erikseensuuruusjarjestykseen ja annetaan niille jarjestysluvut kuten edella:
r1,1, . . . , r1,n ja r2,1, . . . , r2,n.
Erityisesti mahdolliset toistuvat arvot kasitellaan kuten edella. Kummal-lekin otokselle sen jarjestyslukujen keskiarvo on Vrt. aritmeettinen sarja.
LUKU 7. PARAMETRITTOMAT MENETELMAT 77
r =1
n(1 + 2 + · · ·+ n) =
n+ 1
2.
Edelleen saadaan kummankin otoksen jarjestyslukujen nelioiden summa,olettaen, ettei samoja arvoja esiinny:
n∑i=1
r21,i =n∑i=1
r22,i = 12 + 22 + · · ·+ n2 =1
6n(n+ 1)(2n+ 1).
Spearmanin jarjestyskorrelaatiokerroin on silloin yksinkertaisesti jarjes- Lisaoletuksena on, ettakummankaan otoksenjarjestysluvut eivat ole
kaikki samoja.
Charles Spearman (1863–1945)
tysluvuista saatava otoskorrelaatiokerroin, ts.
rS =
n∑i=1
(r1,i − r)(r2,i − r)√n∑i=1
(r1,i − r)2√
n∑i=1
(r2,i − r)2.
Tama on helpompi laskea, jos (kuten nyt oletetaan) samoja arvoja eiesiinny otoksissa. Samaan tapaan kuin tehtiin otosvariansseille nahdaan,etta
n∑i=1
(r1,i − r)(r2,i − r) =n∑i=1
r1,ir2,i − n r 2 =n∑i=1
r1,ir2,i −1
4n(n+ 1)2
ja
n∑i=1
(r1,i − r)2 =n∑i=1
r21,i −1
4n(n+ 1)2 = (12 + 22 + · · ·+ n2)− 1
4n(n+ 1)2
=1
6n(n+ 1)(2n+ 1)− 1
4n(n+ 1)2 =
1
12n(n2 − 1),
samoin toiselle otokselle. Naita kayttaen saadaan pienella laskulla jarjes-tyskorrelaatiokertoimelle yksinkertaisempi kaava
rS =12
n(n2 − 1)
n∑i=1
r1,ir2,i − 3n+ 1
n− 1.
Jarjestyslukujen erotuksien di = r1,i − r2,i nelioiden summa voidaan toi-saalta yhdistaa kaavassa esiintyvaan summaan
∑ni=1 r1,ir2,i:∑
i=1
d2i =n∑i=1
(r21,i − 2r1,ir2,i + r22,i) = −2n∑i=1
r1,ir2,i +1
3n(n+ 1)(2n+ 1).
Nain saadaan viela vahan laskien rS lausutuksi ko. erotuksien avulla vie-lakin yksinkertaisemmin:
rS = 1− 6
n(n2 − 1)
n∑i=1
d2i .
Tama ”helppo” kaava patee siis tarkasti ottaen vain, kun otosarvot eivat Outoa kylla, sita nakojaankuitenkin kaytetaan ylei-
sesti silloinkin, kun netoistuvat. Tulos ei silloin
valttamatta ole oikeintarkka.
toistu.
LUKU 7. PARAMETRITTOMAT MENETELMAT 78
Toisin kuin Pearsonin korrelaatiokerroin Spearmanin korrelaatioker-roin pystyy mittaamaan jossain maarin myos epalineaarista korrelaatiotapopulaatiojakaumien valilla. Sita voidaan myos kayttaa ordinaaliarvoi-sille populaatiojakaumille (diskreetti kategorinen jakauma, jonka tasotvoidaan asettaa jarjestykseen).
Esimerkki. Edella olevassa esimerkissa rengastyyppien R ja B jarjes-tysotoskorrelaatiokerroin rS = 0.9638 on korkea kuten pitaakin, silla au-tot ja kuljettajat olivat koepareittain samat. Myoskin (Pearsonin) otos-korrelaatiokerroin r = 0.9743 on korkea. Nama lasketaan MATLABillaseuraavasti:
>> D=[4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9;
4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8];
>> corr(D(1,:)’,D(2,:)’,’type’,’Spearman’)
ans =
0.9638
>> corr(D(1,:)’,D(2,:)’,’type’,’Pearson’)
ans =
0.9743
Toinen paljon kaytetty jarjestyskorrelaatiokerroin on ns. Kendallinkorrelaatiokerroin.
Luku 8
STOKASTINENSIMULOINTI
Kirjassa WMMY ei kasitella satunnaislukujen generointia ja stokastistasimulointia. Seuraavassa on lyhyt katsaus perusmenetelmiin.
8.1 Satunnaislukujen generointi
Stokastinen simulointi kattaa sellaiset menettelyt, joissa vaiheessa tai toi-sessa kaytetaan generoituja satunnaislukuja. Nama satunnaisluvut voivattulla eri jakaumista, mutta yleensa ne ovat riippumattomia. Satunnaislu-kujen generointi—erityisesti nopea ja tarkka generointi—on hankala nu-meerisen analyysin alue. Esiteltavat menettelyt ovat yksinkertaisia, mut-ta eivat valttamatta riittavan nopeita tai tarkkoja vaativiin sovelluksiin.Jotakuinkin kaikissa tilasto-ohjelmistoissa, mm. MATLABissa, on satun-naislukugeneraattoreita tavallisimmille jakaumille. Nettigeneraattoreita-kin loytyy, mutta ne eivat aina sovellu ”oikeaan” simulointiin.
8.1.1 Tasajakaumien generointi
Valille [0, 1) tasan jakautuneita (riippumattomia) satunnaislukuja gene- Asiaa kasitellaan mm. mo-nisteissa RUOHONEN, K:Matemaattinen kryptolo-
gia tai RUOHONEN, K:Symbolinen analyysi.
roidaan lukuteoreettisin menetelmin. Jatkossa oletetaan, etta tallaisia sa-tunnaislukuja on saatavilla. On huomattava, etta nama satunnaisluku-generaattorit ovat taysin deterministisia ohjelmia, joissa ei ole mitaansatunnaista. Generoidut lukujonot kuitenkin kayttaytyvat kyllin hyvin ”pseudo-random numbers”
kuten ”oikeat” satunnaisluvut.Avoimelle valille (0, 1) tasan jakautuneita satunnaislukuja saadaan
hylkaamalla generoituneet 0-arvot. Suljetulle valille [0, 1] tasan jakau-tuneita satunnaislukuja taas saadaan vaikkapa hylkaamalla arvot, jotkaovat > 0.5 ja kertomalla tulos kahdella. Ja viela, jos U on tasan jakau-tunut valille [0, 1), niin 1 − U on tasan jakautunut valille (0, 1]. Valintyypilla ei siis ole valia.
Helposti saadaan muillekin kuin valille [0, 1) tasan jakautuneita sa-tunnaislukuja. Jos nimittain U on tasan jakautunut valille [0, 1), niin(b− a)U + a on tasan jakautunut valille [a, b). Muun tyyppiset valit ka-sitellaan vastaavasti.
79
LUKU 8. STOKASTINEN SIMULOINTI 80
8.1.2 Diskreettien jakaumien generointi
Aarelliset jakaumat ovat helposti generoitavissa. Jos aarellisen jakaumanmahdolliset tapaukset ovat T1, . . . , Tm ja niiden todennakoisyydet ovatvastaavasti p1, . . . , pm (missa p1, . . . , pm > 0 ja p1 + · · · + pm = 1), niinseuraava menettely generoi jakauman mukaisen tapauksen:
1. Generoidaan valille [0, 1) tasan jakautunut satunnaisluku u.
2. Etsitaan sellainen indeksi i, etta p0 + · · ·+ pi ≤ u < p0 + · · ·+ pi+1,missa sovitaan etta p0 = 0.
3. Tulostetaan Ti+1.
Tama menetelma sopii erityisesti diskreetin tasajakauman generointiin.Silloin p1 = · · · = pn = 1/n. Talla tavoin voidaan esimerkiksi ottaasatunnaisotos aarellisesta populaatiosta numeroimalla sen alkiot.
Binomijakauma Bin(p, n) on periaatteessa generoitavissa aarellisenajakaumana eo. menettelylla, mutta se on yleensa liian raskas. Helpom-malla paasee, kun generoi n kpl sellaisen aarellisen jakauman tapausta, Bernoullin jakauma
jossa mahdolliset tapaukset ovat T1 ja T2 ja P(T1) = p. Realisoitunutbinomijakautunut satunnaisluku x on silloin realisoitunut tapausten T1lukumaara.
Poissonin jakauma on vaikeampi generoida. Parametrilla λ Poisson-jakautuneen satunnaismuuttujan X mahdolliset arvot x ovat kokonaislu-vut 0, 1, 2, . . . ja
P(X = x) =λx
x!e−λ.
Eras tapa generoida X:n arvoja x on kayttaa apuna eksponenttijakaumaa(jonka generointiin palataan myohemmin). Jos satunnaismuuttujalla Yon eksponenttijakauma parametrilla λ, niin sen tiheysfunktio on λe−λy
(kun y ≥ 0 ja = 0 muualla). Helpolla laskulla todetaan, etta
P(Y ≤ 1) = 1− e−λ = 1− P(X = 0) = P(X ≥ 1).
Vaikeampi on todeta (sivuutetaan) yleisempi tulos, etta jos Y1, . . . , Ykovat riippumattomia eksponenttijakautuneita satunnaismuuttujia (kukinniista parametrilla λ) seka Wk = Y1 + · · ·+ Yk, niin
P(Wk ≤ 1) = 1−k−1∑i=0
λi
i!e−λ = 1− P(X ≤ k − 1) = P(X ≥ k).
Nain ollen
P(X = k−1) = P(X ≥ k−1)−P(X ≥ k) = P(Wk−1 ≤ 1)−P(Wk ≤ 1).
Tasta kaikesta voidaan paatella, etta seuraava menettely tuottaa para-metrilla λ Poisson-jakautuneen satunnaisluvun x:
1. Generoidaan toistuvasti riippumattomia parametrilla λ eksponent-tijakautuneita satunnaislukuja niin kauan kun niiden summa on≤ 1.
2. Kun summa ensimmaisen kerran ylittaa 1:n, katsotaan generoitujeneksponenttijakautuneiden satunnaislukujen lukumaara k.
3. Tulostetaan x = k − 1.
LUKU 8. STOKASTINEN SIMULOINTI 81
8.1.3 Jatkuvien jakaumien generointi kaanteisker-tymamenetelmalla
Jos jatkuvan satunnaismuuttujan X kertymafunktiolla F on kaanteis-funktio F−1 (sellaisessa joukossa, jossa sen tiheysfunktio on 6= 0), niinX:n arvoja x voidaan generoida lahtien tasajakaumasta. Pulmana voivain olla mainitun kaanteisfunktion arvojen laskeminen kyllin nopeasti.Tama ns. kaanteiskertymamenetelma on seuraava: ”inverse transform method”
1. Generoidaan valille [0, 1) tasan jakautunut satunnaisluku u (vas-taava satunnaismuuttuja on U).
2. Lasketaan x = F−1(u) (ts. u = F (x) ja satunnaismuuttujille U =F (X)).
3. Tulostetaan x.
Menettely perustuu seuraavaan havaintoon: Koska kertymafunktiona Fon ei-vaheneva ja U :n kertymafunktio valilla [0, 1) on G(u) = u, niin
P(X ≤ x) = P(F (X) ≤ F (x)
)= P
(U ≤ F (x)
)= G
(F (x)
)= F (x).
Myoskin suuresta otoksesta saatua empiirista kertymafunktiota voidaankayttaa, otosarvojen valisia arvoja lineaarisesti interpoloiden. Kayttaen ns. ogiivia.
Katsotaan esimerkkina eksponenttijakauman tapaus, joka jo edellatarvittiin Poissonin jakaumaa generoitaessa. Jos X:lla on eksponenttija-kauma parametrilla λ, niin sen kertymafunktio on F (x) = 1− e−λx (kunx ≥ 0). Kaanteisfunktio F−1 on helposti loydettavissa: Jos y = 1− e−λx,niin
x = F−1(y) = −1
λln(1− y).
Jokaista generoitua valille [0, 1) tasan jakautunutta satunnaislukua ukohti saadaan siis parametrilla λ eksponenttijakautunut satunnaisluku
x = −1
λln(1− u).
Normaalijakauman N(µ, σ2) generoimiseksi riittaa generoida standar-dinormaalijakauma. Jos nimittain satunnaismuuttujalla Z on standardi-normaalijakauma, niin satunnaismuuttujalla X = σZ+µ on N(µ, σ2)-ja-kauma. Standardinormaalijakauman kertymafunktion
Φ(x) =1√2π
x∫−∞
e−12t2dt
kaanteisfunktio Φ−1 (kvantiilifunktio) ei ole esitettavissa ”tuttujen” funk-tioiden avulla eika aivan helposti laskettavissa numeerisestikaan. Jonkin-laisen approksimaation antaa Pykalassa 1.3 mainittu tulos
Φ−1(y) = q0,1(y) ∼= 4.91(y0.14 − (1− y)0.14
).
LUKU 8. STOKASTINEN SIMULOINTI 82
Huomattavasti parempi approksimaatio on esimerkiksi
Φ−1(y) ∼=
{w − v, kun 0 < y ≤ 0.5
v − w, kun 0.5 ≤ y < 1,
missa
w =2.515517 + 0.802853v + 0.010328v2
1 + 1.432788v + 0.189269v2 + 0.001308v3
ja
v =√−2 ln
(min(y, 1− y)
).
Normaalijakaumasta saatavia jakaumia voidaan generoida aivan sillatavoin kuin ne normaalijakaumasta saadaan. Jos generoitavana on χ2-ja-kauma n vapausasteella, niin generoidaan n riippumatonta standardinor-maalia satunnaislukua z1, . . . , zn ja lasketaan
v = z21 + · · ·+ z2n.
Jos taas generoitavana on t-jakauma n vapausasteella, generoidaan n+ 1riippumatonta standardinormaalia satunnaislukua z1, . . . , zn+1 ja laske-taan
t =zn+1
√n√
z21 + · · ·+ z2n.
Ja jos generoitavana on F-jakauma vapausastein n1 ja n2, generoidaann1 + n2 riippumatonta standardinormaalia satunnaislukua z1, . . . , zn1+n2
ja lasketaan
f =z21 + · · ·+ z2n1
z2n1+1 + · · ·+ z2n1+n2
n2
n1
.
8.1.4 Jatkuvien jakaumien generointi hyvaksy–hyl-kaa-menetelmalla
Hyvaksy–hylkaa-menetelmaa soveltuu sellaisen satunnaisluvun x gene- ”accept–reject method”
rointiin, jota vastaavan jakauman tiheysfunktio f on 6= 0 vain tietyllaaarellisella valilla [a, b] (ei valttamatta koko valilla) ja on talla valillarajoitettu luvulla c. Menettely on seuraava:
1. Generoidaan satunnaisluku u, joka on tasan jakautunut valille [a, b],ja siita riippumatta valille (0, c] tasan jakautunut satunnaisluku v.
2. Toistetaan tarvittaessa kohtaa 1. kunnes v ≤ f(u). (Muista, etta foli siis rajoitettu luvulla c, ts. f(u) ≤ c.)
3. Tulostetaan x = u.
Metodi toimii seuraavasta syysta:
• Generoidut satunnaislukuparit (u, v) ovat tasan jakautuneet suora-kulmioon a ≤ u ≤ b, 0 < v ≤ c.
• Kohtaan 3. selviavat vain ne parit, joille v ≤ f(x), ja ne ovat sillointasan jakautuneet alueeseen A : a ≤ u ≤ b, 0 < v ≤ f(u).
LUKU 8. STOKASTINEN SIMULOINTI 83
• Alueen A ala on ilmeisestikin
b∫a
f(u) du = 1,
joten vm. tasajakauman tiheysfunktio alueessa A on = 1 (ja = 0sen ulkopuolella). (Muista, etta tiheysfunktio f oli = 0 valin [a, b]ulkopuolella.)
• Satunnaisluvun u jakauma on silloin marginaalijakauma, jonka ti-heysfunktio saadaan integroimalla pois muuttuja v, ts. Ks. kurssi Todennakoisyys-
laskenta.
f(u)∫0
1 dv = f(u).
• Nain ollen tulostetulla satunnaisluvulla x on oikea jakauma.
Hyvaksy–hylkaa-menetelmaa voidaan kylla kayttaa silloinkin, kun ja-kauman tiheytta ei voida rajata aarelliselle valille. Silloin pitaa valita vainvali [a, b], jonka ulkopuolelle jaa riittavan pieni osa todennakoisyysmas-saa.
Menetelmasta on myos muita variantteja. Yo. perusversion pulma esi-merkiksi on usein se, etta X:n tiheysfunktiolla f on yksi tai useampia ka-peita ja korkeita huippuja. Silloin hylkaamisia kohdassa 2. tulee paljon jamenetelma on hidas. Tata voidaan korjata seuraavalla idealla. Etsitaansellainen satunnaismuuttuja U , jonka tiheysfunktio g on = 0 valin [a, b]ulkopuolella, jonka arvoja osataan generoida nopeasti ja jolle
f(x) ≤Mg(x)
jollekin vakiolle M . Tavoite on se, etta g ”mukailee” paremmin f :n muo- Perusversiossa ylla U :lla ontasajakauma valille [a, b] ja
M = c(b− a).toa kuin vaakasuora viiva, jolloin hylkaamisia tulee vahemman. Itse me-nettely on taman jalkeen muuten sama kuin edella paitsi etta kohta 1.korvautuu kohdalla
1’. Generoidaan satunnaisluku u, joka on jakautunut valille [a, b] ti- Tassa aarellisen valin [a, b]tilalla voisi olla aaretonkinvali, esimerkiksi (−∞,∞).heyden g mukaisesti, ja siita riippumatta valille
(0,Mg(u)
]tasan
jakautunut satunnaisluku v.
Menetelman perustelukin on melkein sama, generoidut satunnaislukupa-rit (u, v) ovat tasan jakautuneet alueeseen a ≤ u ≤ b, 0 < v ≤ Mg(u) Ko. alueessa tiheysfunktio
on 1/M .jne., mutta vaatii ehdollisen jakauman kasitteen.
8.2 Uudelleenotanta
Uudelleenotanta on kokonainen menetelmajoukko, jonka tarkoituksena on ”resampling”
simulointiotannalla tutkia populaation sellaisia tilastollisia ominaisuuk-sia, joihin on vaikeaa muuten paasta kasiksi.
LUKU 8. STOKASTINEN SIMULOINTI 84
Perusperiaate on seuraava: Otetaan ensin kattava suuri otos tutkitta-vasta populaatiosta. Tama tehdaan huolellisesti ja riittavalla rahoituk-sella. Sen jalkeen otetaan hyvin suuri maara pienempia otoksia tasta pe-rusotoksesta ikaankuin pitaen sita populaationa. Koska koko perusotoson talletettu tietokoneelle, tama voidaan tehda hyvin nopeasti. Siita huo-limatta uudelleenotanta on usein erittain laskentaintensiivista. Nain voi-daan esimerkiksi saada hyvin suuri maara naytteita jostakin tiettya otos-kokoa vastaavasta otossuureesta (otoskvantiili, otosmediaani, estimoitu Monissa tapauksissa tallai-
sen otossuureen oikea ja-kauma olisi jotakuinkin
mahdoton johtaa analyyt-tisin menetelmin.
suhdeluku, otoskorrelaatiokerroin tms.). Naytteita kayttaen voidaan itseasiassa saada varsin hyva approksimaatio ko. otossuureen koko jakau-malle alkuperaisessa populaatiossa melko tarkkoina empiirisina tiheys-ja kertymafunktiona. Vaatimattomampana tavoitteena voisi olla esimer-kiksi vain luottamusvali otossuureelle.
8.3 Monte Carlo -integrointi
Nykyaan stokastista simulointia kutsutaan usein Monte Carlo -simuloin-niksi, vaikka varsinainen Monte Carlo -menetelma onkin numeerinen in-tegrointimenetelma. Ajatellaan tilannetta, jossa kolmen muuttujan funk-tio f(x, y, z) pitaisi integroida mahdollisesti mutkikkaan rajoitetun R3:nkappaleen K yli, ts. pitaisi laskea numeerisesti integraali∫
K
f(x, y, z) dx dy dz
kohtuullisella tarkkuudella. Kolmisuuntainen numeerinen integrointi esi-merkiksi Simpsonin menetelmalla olisi kovin hidas.
Monte Carlo -menetelma talle tehtavalle olisi seuraavanlainen. Tal-loin oletetaan, etta on olemassa nopea tapa tarkistaa onko annettu piste(x, y, z) kappaleessa K vai ei ja etta kappale K voidaan rajata sopivastijonkin suorakulmion P : a1 ≤ x ≤ a2, b1 ≤ y ≤ b2, c1 ≤ z ≤ c2 sisaan.Merkitaan K:n tilavuutta V :lla.
1. Menetelmassa kerataan otosta, jota merkitaan O:lla. Aluksi se ontyhja.
2. Generoidaan satunnaispiste r = (x, y, z) suorakulmiosta P . Tamatehdaan yksinkertaisesti generoimalla kolme riippumatonta tasa-jakautunutta satunnaislukua x, y ja z valeilta [a1, a2], [b1, b2] ja[c1, c2], vastaavasti.
3. Testataan onko piste r kappaleessa K vai ei (tamanhan piti ollatehtavissa nopeasti). Ellei nain ole, palataan kohtaan 2.
4. Jos piste r on kappaleessa K, lasketaan f(r) ja lisataan se otokseenO.
5. Lasketaan kasilla olevan otoksen O otoskeskiarvo x. Jos se ei olehalutulla tarkkuudella muuttunut muutamaan kierrokseen, lopete-taan ja tulostetaan V x. Muuten palataan kohtaan 2. ja jatketaan.
LUKU 8. STOKASTINEN SIMULOINTI 85
Menettely toimii, silla usean kierroksen jalkeen otoskeskiarvo x app-roksimoi kohtalaisen hyvin satunnaismuuttujan f(X, Y, Z) odotusarvoa,kun kolmikko (X, Y, Z) on tasan jakautunut kappaleeseen K. Vastaavatiheysfunktio on silloin = 1/V kappaleessa K (ja = 0 sen ulkopuolella).Mainittu odotusarvo on toisaalta
E(f(X, Y, Z)
)=
∫K
f(x, y, z)1
Vdx dy dz,
jotenka kertomalla V :lla siita saadaan haluttu integraali.
Esimerkki. Lasketaan esimerkkina funktion f(x, y, z) = ex3+y3+2z3 in-
tegraali yli R3:n yksikkopallon x2 + y2 + z2 ≤ 1. Oikea arvo on 4.8418(Maple), MATLAB antaa miljoonalla toistolla Monte Carlo -approksi-maation 4.8429.
Itse asiassa edella mainittu tilavuus V :kin saadaan Monte Carlo-menetelmalla. Tama menettely on seuraava:
1. Menetelmassa yllapidetaan kahta laskuria n ja l. Aluksi n = l = 0.
2. Generoidaan satunnaispiste r suorakulmiosta P ja lisataan laskurinn arvoa yhdella.
3. Testataan onko piste r kappaleessa K vai ei.
4. Jos piste r on kappaleessa K, lisataan laskurin l arvoa yhdella.
5. Lasketaan esimerkkina p = l/n. Jos se ei ole halutulla tarkkuudel-la muuttunut muutamaan kierrokseen, lopetetaan ja tulostetaan Huomaa, etta esiintyva
(a2 − a1)(b2 − b1)(c2 − c1)
on suorakulmion P tila-vuus.
p · (a2− a1)(b2− b1)(c2− c1). Muuten palataan kohtaan 2. ja jatke-taan.
Tasta perusmenetelmasta on monenlaisia variaatioita, se sopii kor-keampiinkin dimensioihin jne. Yleisesti Monte Carlo -integrointi vaatiimelko paljon toistoja kohtuulliseen tarkkuuteen paasemiseksi, sita enem-man mita korkeampi dimensio.
Liite
TOLERANSSIVALITAULUKKO
Taulukot on laskettu Maple-ohjelmistolla. Taulukko antaa kertoimen k arvon. Ensin kak-
sipuoliselle toleranssivalille:
k: γ = 0.1 γ = 0.05 γ = 0.01
n α = 0.1 α = 0.05 α = 0.01 α = 0.1 α = 0.05 α = 0.01 α = 0.1 α = 0.05 α = 0.01
5 3.4993 4.1424 5.3868 4.2906 5.0767 6.5977 6.6563 7.8711 10.222
6 3.1407 3.7225 4.8498 3.7325 4.4223 5.7581 5.3833 6.3656 8.2910
7 2.9129 3.4558 4.5087 3.3895 4.0196 5.2409 4.6570 5.5198 7.1907
8 2.7542 3.2699 4.2707 3.1560 3.7454 4.8892 4.1883 4.9694 6.4812
9 2.6367 3.1322 4.0945 2.9864 3.5459 4.6328 3.8596 4.5810 5.9803
10 2.5459 3.0257 3.9579 2.8563 3.3935 4.4370 3.6162 4.2952 5.6106
11 2.4734 2.9407 3.8488 2.7536 3.2727 4.2818 3.4286 4.0725 5.3243
12 2.4139 2.8706 3.7591 2.6701 3.1748 4.1555 3.2793 3.8954 5.0956
13 2.3643 2.8122 3.6841 2.6011 3.0932 4.0505 3.1557 3.7509 4.9091
14 2.3219 2.7624 3.6200 2.5424 3.0241 3.9616 3.0537 3.6310 4.7532
15 2.2855 2.7196 3.5648 2.4923 2.9648 3.8852 2.9669 3.5285 4.6212
16 2.2536 2.6822 3.5166 2.4485 2.9135 3.8189 2.8926 3.4406 4.5078
17 2.2257 2.6491 3.4740 2.4102 2.8685 3.7605 2.8277 3.3637 4.4084
18 2.2007 2.6197 3.4361 2.3762 2.8283 3.7088 2.7711 3.2966 4.3213
19 2.1784 2.5934 3.4022 2.3460 2.7925 3.6627 2.7202 3.2361 4.2433
20 2.1583 2.5697 3.3715 2.3188 2.7603 3.6210 2.6758 3.1838 4.1747
21 2.1401 2.5482 3.3437 2.2941 2.7312 3.5832 2.6346 3.1360 4.1125
22 2.1234 2.5285 3.3183 2.2718 2.7047 3.5490 2.5979 3.0924 4.0562
23 2.1083 2.5105 3.2951 2.2513 2.6805 3.5176 2.5641 3.0528 4.0044
24 2.0943 2.4940 3.2735 2.2325 2.6582 3.4888 2.5342 3.0169 3.9580
25 2.0813 2.4786 3.2538 2.2151 2.6378 3.4622 2.5060 2.9836 3.9147
26 2.0693 2.4644 3.2354 2.1990 2.6187 3.4375 2.4797 2.9533 3.8751
27 2.0581 2.4512 3.2182 2.1842 2.6012 3.4145 2.4560 2.9247 3.8385
28 2.0477 2.4389 3.2023 2.1703 2.5846 3.3933 2.4340 2.8983 3.8048
29 2.0380 2.4274 3.1873 2.1573 2.5693 3.3733 2.4133 2.8737 3.7721
30 2.0289 2.4166 3.1732 2.1450 2.5548 3.3546 2.3940 2.8509 3.7426
31 2.0203 2.4065 3.1601 2.1337 2.5414 3.3369 2.3758 2.8299 3.7148
32 2.0122 2.3969 3.1477 2.1230 2.5285 3.3205 2.3590 2.8095 3.6885
33 2.0045 2.3878 3.1360 2.1128 2.5167 3.3048 2.3430 2.7900 3.6638
34 1.9973 2.3793 3.1248 2.1033 2.5053 3.2901 2.3279 2.7727 3.6405
35 1.9905 2.3712 3.1143 2.0942 2.4945 3.2761 2.3139 2.7557 3.6185
36 1.9840 2.3635 3.1043 2.0857 2.4844 3.2628 2.3003 2.7396 3.5976
37 1.9779 2.3561 3.0948 2.0775 2.4748 3.2503 2.2875 2.7246 3.5782
38 1.9720 2.3492 3.0857 2.0697 2.4655 3.2382 2.2753 2.7105 3.5593
39 1.9664 2.3425 3.0771 2.0623 2.4568 3.2268 2.2638 2.6966 3.5414
40 1.9611 2.3362 3.0688 2.0552 2.4484 3.2158 2.2527 2.6839 3.5244
41 1.9560 2.3301 3.0609 2.0485 2.4404 3.2055 2.2424 2.6711 3.5085
42 1.9511 2.3244 3.0533 2.0421 2.4327 3.1955 2.2324 2.6593 3.4927
43 1.9464 2.3188 3.0461 2.0359 2.4254 3.1860 2.2228 2.6481 3.4780
44 1.9419 2.3134 3.0391 2.0300 2.4183 3.1768 2.2137 2.6371 3.4638
45 1.9376 2.3083 3.0324 2.0243 2.4117 3.1679 2.2049 2.6268 3.4502
46 1.9334 2.3034 3.0260 2.0188 2.4051 3.1595 2.1964 2.6167 3.4370
47 1.9294 2.2987 3.0199 2.0136 2.3989 3.1515 2.1884 2.6071 3.4245
48 1.9256 2.2941 3.0139 2.0086 2.3929 3.1435 2.1806 2.5979 3.4125
49 1.9218 2.2897 3.0081 2.0037 2.3871 3.1360 2.1734 2.5890 3.4008
50 1.9183 2.2855 3.0026 1.9990 2.3816 3.1287 2.1660 2.5805 3.3899
55 1.9022 2.2663 2.9776 1.9779 2.3564 3.0960 2.1338 2.5421 3.3395
60 1.8885 2.2500 2.9563 1.9599 2.3351 3.0680 2.1063 2.5094 3.2968
65 1.8766 2.2359 2.9378 1.9444 2.3166 3.0439 2.0827 2.4813 3.2604
70 1.8662 2.2235 2.9217 1.9308 2.3005 3.0228 2.0623 2.4571 3.2282
75 1.8570 2.2126 2.9074 1.9188 2.2862 3.0041 2.0442 2.4355 3.2002
80 1.8488 2.2029 2.8947 1.9082 2.2735 2.9875 2.0282 2.4165 3.1753
85 1.8415 2.1941 2.8832 1.8986 2.2621 2.9726 2.0139 2.3994 3.1529
90 1.8348 2.1862 2.8728 1.8899 2.2519 2.9591 2.0008 2.3839 3.1327
95 1.8287 2.1790 2.8634 1.8820 2.2425 2.9468 1.9891 2.3700 3.1143
100 1.8232 2.1723 2.8548 1.8748 2.2338 2.9356 1.9784 2.3571 3.0977
86
Liite: TOLERANSSIVALITAULUKKO 87
Ja sitten toispuoliselle toleranssivalille:
k: γ = 0.1 γ = 0.05 γ = 0.01
n α = 0.1 α = 0.05 α = 0.01 α = 0.1 α = 0.05 α = 0.01 α = 0.1 α = 0.05 α = 0.01
5 2.7423 3.3998 4.6660 3.4066 4.2027 5.7411 5.3617 6.5783 8.9390
6 2.4937 3.0919 4.2425 3.0063 3.7077 5.0620 4.4111 5.4055 7.3346
7 2.3327 2.8938 3.9720 2.7554 3.3994 4.6417 3.8591 4.7279 6.4120
8 2.2186 2.7543 3.7826 2.5819 3.1873 4.3539 3.4972 4.2852 5.8118
9 2.1329 2.6499 3.6414 2.4538 3.0312 4.1430 3.2404 3.9723 5.3889
10 2.0656 2.5684 3.5316 2.3546 2.9110 3.9811 3.0479 3.7383 5.0737
11 2.0113 2.5026 3.4434 2.2753 2.8150 3.8523 2.8977 3.5562 4.8290
12 1.9662 2.4483 3.3707 2.2101 2.7364 3.7471 2.7767 3.4099 4.6330
13 1.9281 2.4024 3.3095 2.1554 2.6705 3.6592 2.6770 3.2896 4.4720
14 1.8954 2.3631 3.2572 2.1088 2.6144 3.5845 2.5931 3.1886 4.3372
15 1.8669 2.3289 3.2118 2.0684 2.5660 3.5201 2.5215 3.1024 4.2224
16 1.8418 2.2990 3.1720 2.0330 2.5237 3.4640 2.4594 3.0279 4.1233
17 1.8195 2.2724 3.1369 2.0017 2.4862 3.4144 2.4051 2.9627 4.0367
18 1.7995 2.2486 3.1054 1.9738 2.4530 3.3703 2.3570 2.9051 3.9604
19 1.7815 2.2272 3.0771 1.9487 2.4231 3.3308 2.3142 2.8539 3.8924
20 1.7652 2.2078 3.0515 1.9260 2.3960 3.2951 2.2757 2.8079 3.8316
21 1.7503 2.1901 3.0282 1.9053 2.3714 3.2628 2.2408 2.7663 3.7766
22 1.7366 2.1739 3.0069 1.8864 2.3490 3.2332 2.2091 2.7285 3.7268
23 1.7240 2.1589 2.9873 1.8690 2.3283 3.2061 2.1801 2.6940 3.6812
24 1.7124 2.1451 2.9691 1.8530 2.3093 3.1811 2.1535 2.6623 3.6395
25 1.7015 2.1323 2.9524 1.8381 2.2917 3.1579 2.1290 2.6331 3.6011
26 1.6914 2.1204 2.9367 1.8242 2.2753 3.1365 2.1063 2.6062 3.5656
27 1.6820 2.1092 2.9221 1.8114 2.2600 3.1165 2.0852 2.5811 3.5326
28 1.6732 2.0988 2.9085 1.7993 2.2458 3.0978 2.0655 2.5577 3.5019
29 1.6649 2.0890 2.8958 1.7880 2.2324 3.0804 2.0471 2.5359 3.4733
30 1.6571 2.0798 2.8837 1.7773 2.2198 3.0639 2.0298 2.5155 3.4465
31 1.6497 2.0711 2.8724 1.7673 2.2080 3.0484 2.0136 2.4963 3.4214
32 1.6427 2.0629 2.8617 1.7578 2.1968 3.0338 1.9984 2.4782 3.3977
33 1.6361 2.0551 2.8515 1.7489 2.1862 3.0200 1.9840 2.4612 3.3754
34 1.6299 2.0478 2.8419 1.7403 2.1762 3.0070 1.9703 2.4451 3.3543
35 1.6239 2.0407 2.8328 1.7323 2.1667 2.9946 1.9574 2.4298 3.3343
36 1.6182 2.0341 2.8241 1.7246 2.1577 2.9828 1.9452 2.4154 3.3155
37 1.6128 2.0277 2.8158 1.7173 2.1491 2.9716 1.9335 2.4016 3.2975
38 1.6076 2.0216 2.8080 1.7102 2.1408 2.9609 1.9224 2.3885 3.2804
39 1.6026 2.0158 2.8004 1.7036 2.1330 2.9507 1.9118 2.3760 3.2641
40 1.5979 2.0103 2.7932 1.6972 2.1255 2.9409 1.9017 2.3641 3.2486
41 1.5934 2.0050 2.7863 1.6911 2.1183 2.9316 1.8921 2.3528 3.2337
42 1.5890 1.9998 2.7796 1.6852 2.1114 2.9226 1.8828 2.3418 3.2195
43 1.5848 1.9949 2.7733 1.6795 2.1048 2.9141 1.8739 2.3314 3.2059
44 1.5808 1.9902 2.7672 1.6742 2.0985 2.9059 1.8654 2.3214 3.1929
45 1.5769 1.9857 2.7613 1.6689 2.0924 2.8979 1.8573 2.3118 3.1804
46 1.5732 1.9813 2.7556 1.6639 2.0865 2.8903 1.8495 2.3025 3.1684
47 1.5695 1.9771 2.7502 1.6591 2.0808 2.8830 1.8419 2.2937 3.1568
48 1.5661 1.9730 2.7449 1.6544 2.0753 2.8759 1.8346 2.2851 3.1457
49 1.5627 1.9691 2.7398 1.6499 2.0701 2.8690 1.8275 2.2768 3.1349
50 1.5595 1.9653 2.7349 1.6455 2.0650 2.8625 1.8208 2.2689 3.1246
55 1.5447 1.9481 2.7126 1.6258 2.0419 2.8326 1.7902 2.2330 3.0780
60 1.5320 1.9333 2.6935 1.6089 2.0222 2.8070 1.7641 2.2024 3.0382
65 1.5210 1.9204 2.6769 1.5942 2.0050 2.7849 1.7414 2.1759 3.0039
70 1.5112 1.9090 2.6623 1.5812 1.9898 2.7654 1.7216 2.1526 2.9739
75 1.5025 1.8990 2.6493 1.5697 1.9765 2.7481 1.7040 2.1321 2.9474
80 1.4947 1.8899 2.6377 1.5594 1.9644 2.7326 1.6883 2.1137 2.9237
85 1.4877 1.8817 2.6272 1.5501 1.9536 2.7187 1.6742 2.0973 2.9024
90 1.4813 1.8743 2.6176 1.5416 1.9438 2.7061 1.6613 2.0824 2.8832
95 1.4754 1.8675 2.6089 1.5338 1.9348 2.6945 1.6497 2.0688 2.8657
100 1.4701 1.8612 2.6009 1.5268 1.9265 2.6839 1.6390 2.0563 2.8496