tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/tilasto/tilasto_lectures.pdf · erik...

59

Upload: ngodieu

Post on 06-Aug-2019

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

TilastomatematiikkaKeijo RuotsalainenUniversity of Oulu, Fa ulty of Te hnologyDivision of Mathemati sJanuary 8, 2008

Page 2: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

2

Page 3: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 1Todennäköisyyden käsite1.1 Satunnaiskoe ja otosavaruusTodennäköisyyslaskennan tarkoituksena on kehittää matemaattisia menetel-miä kuvaamaan eksaktisti kokeita, joiden lopputulos on satunnainen. Täl-laisissa "satunnaiskokeissa" kiinnostaa mahdolliset suotuisat "tapahtumat"ja näiden "todennäköisyydet". Siten aluksi meidän on kehitettävä näidenkäsitteiden tarkka matemaattinen malli.Tarkastellaan ongelmaa, jossa heitetään säännöllistä noppaa. Nopan-heiton lopputulos on joku luvuista {1, 2, 3, 4, 5, 6}. Nopan heiton lopputu-loksia voidaan kutsua "alkeistapahtumiksi". Näiden alkeistapahtumien muo-dostamaa joukkoa kutsutaan "otosavaruudeksi" S = {1, 2, 3, 4, 5, 6}.Mutta alkeistapahtumien lisäksi voidaan tarkastella monimutkaisempiatapahtumia. Esimerkiksi nopanheiton lopputulos voi olla "pariton luku","parillinen luku" tai "eri suuri kuin 1". Nämä suotuisat tapahtumat voidaanidenti�oida joukkojen {1, 3, 5}, {2, 4, 6} tai {2, 3, 4, 5, 6} kanssa. Monimutkai-semmat tapahtumat ovat siten otosavaruuden S osajoukkoja. Tässä erikois-tapauksessa kaikki mahdolliset suotuisat tapahtumat voidaan identi�oidaotosavaruuden S osajoukkojen joukon kanssa. Merkitään tätä S:n osajoukko-jen joukkoa symbolilla E . Lisäksi hyväksytään, että tyhjä joukko ∅ on myössuotuisat tapahtuma, mitä se nyt tässä yhteydessä tarkoittaneekaan.Yleisesti tarkastelemme satunnaiskoetta, joka oletetaan voitavan toistaasamanlaisissa olosuhteissa mielivaltaisen monta kertaa. Satunnaiskokeella onaina oltava selvästi havainnoitavissa oleva lopputulos, joka sisältyy kiinteäänjoukkoon mahdollisia tapahtumia. Alkeistapahtumien joukkoa kutsutaanotosavaruudeksi S, jonka osajoukoista muodostuu tapahtumasysteemiE . Otosavaruus voi olla äärellinen kuten edellisessä nopanheitto-esimerkissä.3

Page 4: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

4 CHAPTER 1. TODENNÄKÖISYYDEN KÄSITEMutta otosavaruus voi olla myös numeroituvasti ääretön. Esimerkiksi suorit-tamalla satunnnaiskoe, jossa heitetään (symmetristä) kolikkoa niin kauankunnes tulee ensimmäinen "kruunu", otosavaruus S = N. Edelleen useissafysiikan ongelmissa satunnaiskokeen otosavaruus voi olla ylinumeroituvastiääretön joukko (esim. S = Rn).Esim. 1. Tarkastellaan seuraavia satunnaiskokeita. Määrää kussakin tapauk-sessa otosavaruus.(a) Heitetään kolikkoaa kaksi kertaa.(b) Heitetään noppaa kaksi kertaa.(a) Heitetään noppaa kunnes saadaan ensimmäinen 'kruunu'.Ratk.(a) Otosavaruus on S = {HH, HT, TH, TT}, missä H =′ sattui kruunu′ja T =′ sattui klaava.(b) Otosavaruus S = {(i, j)| 1 ≤ i, j ≤ 6}.( ) Nopanheiton mahdollisuudet ovat {H, TH, TTH, TTTH, . . .}. Jotenotosavaruus voidaan samaistaa ei-negatiivisten kokonaislukujen joukon

S = N kanssa.1.2 Joukko-oppiaJoukkoja merkitään isoilla kirjaimillaA, B, C, . . . , S ja niiden alkiota pienilläkirjaimilla.Jatkossa oletetaan, että joukot sisältyvät kiinteään otosavaruuteen S.Joukon A komplementtia otosavaruudessa S merkitään A = S \ A. Se koos-tuu niistä S:n alkioista, jotka eivät kuulu joukkoon A.Joukkojen A ja B yhdiste A ∪ B on niiden S:n alkioiden joukko, jotkakuuluvat ainakin toiseen joukoista A ja B.Joukkojen A ja B leikkausjoukko A∩B on niiden alkioiden joukko sisäl-tyvät kumpaankin joukoista A ja B.Olkoon S satunnaiskokeen otosavaruus ja E = {∅, A| A ⊂ S} satun-naiskokeen tapahtumasysteemi. Ei-tyhjän joukon S tapahtumasysteemi onBoolen algebra:1. ∅, S ∈ E ;

Page 5: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

1.3. KLASSINEN TODENNÄKÖISYYS 52. A ∈ E ⇒ A ∈ E ;3. A, B ∈ E ⇒ A ∪ B ∈ E4. A, B ∈ E ⇒ A ∩ B ∈ E .De Morganin kaavat Seuraavat säännöt ovat varsin hyödyllisiäA ∪ B = A ∩ B

A ∩ B = A ∪ B

σ-algebra Todennäköisyyslaskennassa joudutaan usein laskemaan to-dennäköisyyksiä joukoille, jotka ovat esimerkiksi reaalilukujen joukon osa-joukkoja. Tällaiset joukot ovat usein hyvin komplisoituja, ja niiden kon-struoiminen yksinkertaisten välien äärellisinä yhdisteinä ja leikkauksina mah-dotonta.Lukemalla mukaan myös äärettömät yhdisteet ja leikkaukset saadaan laa-jempi joukkosysteemi l. σ-algebra. Joukkosysteemi E on σ-algebra, jos se onBoolen algebra ja lisäksi täyttää ehdon:Ak ∈ E , k ∈ N ⇒ ∪∞

k=0Ak ∈ E .Oletetaan jatkossa satunnaiskokeen tapahtumasysteemi on σ-algebra. Ää-rellisen otosavaruuden tapahtumasysteemi on aina automaattisesti σ-algebra,sillä osajoukkojen joukkokin on äärellinen.1.3 Klassinen todennäköisyysKlassisessa todennäköisyydessä otosavaruus yleensä on äärellinen. Joten sat-unnaiskokeen alkeistapahtumat voidaan numeroida S = {e1, . . . , eN}. Lisäksioletetaan, että jokainen alkeistapahtuma on yhtä todennäköinen: p(ei) = 1N.Tällä valinnalla varman tapahtuman l. S:n todennäköisyys p(S) = 1.Jos B on satunnaiskokeen jokin tapahtuma, niin sen todennäköisyys on

p(B) =m

N,missä m = #(B) on joukon B alkioiden lukumäärä.Klassisen todennäköisyyden määräämisessä joudutaan varsin usein laske-maan erilaisten kombinaatioiden lukumääriä.

Page 6: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

6 CHAPTER 1. TODENNÄKÖISYYDEN KÄSITEPermutaatio Permutaatio on äärellisen joukon W = {w1, w2, . . . , wn} jokujärjestys. Niiden lukumäärä on "n-kertoma" l.n! = 1 · 2 · 3 · · · · n.Järjestetty kertaotos Järjestetyssä kertaotoksessa kokoa k poimitaan jou-kosta W = {w1, w2, w3, . . . , wn} k kappaletta alkioita tietyssä järjestyksessä.Tällöin esimerkiksi otokset w3w2w1 ja w1w2w3 tulkitaan eri otoksiksi. Jär-jestettyjen kertaotosten lukumäärä on

n!

k!= n · (n − 1) · · · · · (n − k + 1).Järjestämätön kertaotos Järjestämättömässä kertaotoksessa kokoa k jou-kosta W poimittujen alkioiden keskinäisellä järjestyksellä ei ole väliä. Niidenlukumäärä on binomikerroin

(n

k

)

=n!

k!(n − k)!.Geometrinen todennäköisyysSatunnaiskokeessa heitetään tikkaa maalitauluun, joka koostuu yhdeksästäsisäkkäisestä renkaasta ja keskellä olevasta ympyrästä. Tarkastellaan tapaus-ta, jossa tikanheitto on täysin satunnainen tapahtuma, joka on riippumatonkokeen suorittajan kädentaidoista, ilmavirtauksista jne..Tapahtumat, joista olemme kiinnostuneita ovat seuraavanlaiset: Osuma-kohta on joku renkaista maalitaulussa S. Tällöin tapahtumasysteemin suo-tuisat tapahtumat A ovat maalitaulun (mitallisia) osajoukkoja. On luon-nollista olettaa, että tällaisen tapahtuman todennäköisyys on verrannolli-nen joukon A pinta-alaan. Normittamalla varman tapahtuman (A='tikkaosuu maalitauluun'=S) todennäköisyydeksi P (S) = 1, saadaan osumato-dennäköisyydeksi joukkoon A

P (A) =m(A)

m(S),missä m(A) on joukon pinta-ala.Todennäköisyyttä, joka on verrannollinen tarkasteltavan tapahtuman geo-metriseen pituuteen, pinta-alaan, tai tilavuuteen, kutsutaan geometriseksitodennäköisydeksi. Sekin noudattaa tasaista todennäköisyysmallia.

Page 7: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

1.4. TODENNÄKÖISYYSLASKENNAN AKSIOMAT 71.4 Todennäköisyyslaskennan aksiomatOletetaan, että S on satunnaiskokeeseen liittyvä otosavaruus ja E tapahtu-masysteemi.Määr. 1. Todennäköisyys P on joukkofunktio tapahtumasysteemiltä reaali-lukujen joukkoon toteuttaen seuraavat ominaisuudet: Kaikille tapahtumasys-teemin alkioille A, B(i) 0 ≤ P (A) ≤ 1,(ii) P (S) = 1,(iii) P (A ∪ B) = P (A) + P (B), kun A ∩ B = ∅.Kolmikkoa {S, E , P} kutsutaan todennäköisyysavaruudeksi.Suoraan todennäköisyyden määritelmästä seuraa:Lause 1. Todennäköisyysmitalle eli -funktiolle on voimassa:(i) P (A) = 1 − P (A);(ii) P (∅) = 0;(iii) Jos tapahtumat {Ai, A2, . . . , An} ovat toisensa poissulkevia, ts.Ai ∩ Aj = ∅, kun i 6= j,niin

P (A1 ∪ A2 ∪ · · · ∪ An = P (A1) + P (A2) + P (A3) + · · ·+ P (An);(iv) Aina kun A ⊂ B, niin P (A) ≤ P (B);(v) P (A ∩ B) = P (A) − P (A ∩ B).Tod.:(i) Joukkojen A ja A leikkaus on tyhjä joukko, ja niiden yhdiste on kokootosavaruus. Tällöin suoraan aksioman (ii) nojallaP (S) = P (A ∪ A) = P (A) + P (A) = 1,josta saadaan väittämä: P (A) = 1 − P (A).

Page 8: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

8 CHAPTER 1. TODENNÄKÖISYYDEN KÄSITE(ii) Koska S:n komplementti S = ∅, niin edellisen kohdan nojalla 1 =P (S) = 1 − P (∅). Tämän nojalla P (∅) = 0.(iii) Tämä väittämä saadaan induktiolla aksiomasta (ii).(iv) Joukko B = A∪ (B ∩A, missä A∩ (B ∩A) = ∅. Näin ollen aksiomien(i) ja (ii) nojalla

P (B) = P (A) + P (B ∩ A) ≥ P (A).(v) Joukko voidaan kirjoittaa erillisten joukkojen yhdisteenäA = (A ∩ B) ∪ (A ∩ B),jonka todennäköisyys on

P (A) = P (A ∩ B) + P (A ∩ B) ⇒ P (A ∩ B) = P (A) − P (A ∩ B).

Page 9: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 2Ehdollinen todennäköisyys2.1 Ehdollinen todennäköisyysOlkoon jatkossa S satunnaiskokeen otosavaruus, E sen tapahtumasysteemija P todennäköisyys.Määr. 2. Olkoon A ja B kaksi tapahtumaa, missä P (B) > 0. TapahtumanA ehdollinen todennäköisyys ehdolla B on

P (A|B) =P (A ∩ B)

P (B).Ehdollinen todennäköisyys on todennäköisyys, jonka otosavaruus on Btapahtumasysteeminä EB = {A ∩ B| A ∈ E}. Ehdolliselle todenäköisyydelleon siis voimassa1. 0 ≤ P (A|B) ≤ 1;2. P (B|B) = 1;3. P (A1 ∪ A2|B) = P (A1|B) + P (A2|B), kun A1 ∩ A2 ∩ B = ∅.Huom! Tapahtumien A, A2 leikkausjoukko voi olla epätyhjä; mutta silti

A1 ∩ A2 ∩ B = ∅.Ehdollisen todennäköisyyden määritelmästä saadaan todennäköisyyslasken-nan kertosääntö:P (A ∩ B) = P (B)P (A|B), kun P (B) > 0

P (A ∩ B) = P (A)P (B|A), kun P (A) > 0Täydellisellä induktiolla voidaan todistaa:9

Page 10: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

10 CHAPTER 2. EHDOLLINEN TODENNÄKÖISYYSLause 2. Olkoot A1, A2, . . . , An ∈ E siten, että P (A1 ∩ · · ·∩An) > 0 Tällöinon voimassaP (A1∩A2∩· · ·∩An) = P (A1)P (A2|A1)P (A3|A1∩A2) · · ·P (An|A1∩· · ·∩An).2.2 KokonaistodennäköisyysOlkoon tapahtumat A1, A2, . . . , An otosavaruuden S ositus, ts.

Ai ∩ Aj = ∅, i 6= jjaA1 ∪ A2 ∪ A3 ∪ · · · ∪ An = S.Oletetaan, että tapahtumat ovat mahdollisia: P (Ai) > 0, i = 1, . . . , n. Mieli-valtaiselle tapahtumalle B, jolle P (B) > 0,

(A1 ∩ B) ∪ (A2 ∩ B) ∪ · · · ∪ (An ∩ B) = B.Koska tapahtumat Ai ∩ B ovat pistevieraita, niinP (B) = P (A1 ∩ B) + · · ·+ P (An ∩ B).Toisaalta kertolaskusäännön nojalla kaikille i = 1, 2, . . . , n:

P (Ai ∩ B) = P (B|Ai)P (Ai).Sijoittamalla tapahtuman B todennäköisyyden lausekkeeseen saadaan ns.kokonaistodennäköisyyden kaavaP (B) =

n∑

i=1

P (B|Ai)P (Ai).2.3 Bayes'n kaavaTapahtumille A ja B on voimassa kertolaskusäännön nojallaP (A|B) =

P (B|A)P (A)

P (B),kunhan P (A), P (B) > 0.

Page 11: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

2.4. RIIPPUMATTOMUUS 11Olkoon sitten, että {A1, A2, . . . , An} otosavaruuden ositus. Kokonaisto-denäköisyyskaavan nojallaP (B) =

n∑

i=1

P (B|Ai)P (Ai), P (Ai) > 0.Kertolaskusäännön ja kokonaistodenäköisyyden perusteella saadaanLause 3 (Bayes'n kaava).P (Aj|B) =

P (B|Aj)P (Aj)∑n

k=1 P (Ak)P (B|Ak).2.4 RiippumattomuusMäär. 3. Tapahtumat A ja B ovat riippumattomia, jos

P (A ∩ B) = P (A)P (B).Siis tapahtumat ovat riippumattomia, jos B:n esiintyminen ei vaikutatapahtuman A todennäköisyyteen: P (A|B) = P (A).Yleisesti on asetetaan seuraava määritelmä:Määr. 4. Olkoon (S, E , P ) todennäköisyysavaruus ja A1, A2, . . . , An tapah-tumia. Sanotaan, että ne ovat keskinäisesti riippumattomia, jos kaikilleindeksijoukoille {i1, i2, . . . , ik} ⊂ {1, 2, 3, . . . , n}

P (Ai1 ∩ · · · ∩ Aik) = P (Ai1) · · ·P (Aik).Tapahtumat {A1, A2, . . . , An} ovat pareittain riippumattomia, jos kai-kille i 6= j

P (Ai ∩ Aj) = P (Ai)P (Aj).Huom! Keskinäisesti riippumattomat ovat pareittain riippumattomia; muttaei päinvastoin.Lause 4. Tapahtumat A ja B ovat riippumattomia, jos ja vain jos A ja Bovat riippumattomia.Statistinen riippumattomuus on todennäköisyysfunktion ominaisuus, eikäsillä ole mitään tekemistä joukko-opillisen poissulkeavuuden kanssa.

Page 12: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

12 CHAPTER 2. EHDOLLINEN TODENNÄKÖISYYSRiippumattomien tapahtumien yhdiste Olkoon tapahtumatA1, A2, . . . , Anriippumattomia. Tällöin tapahtuman "ainakin yksi tapahtumista Ai sattuu"todennäköisyys on

P (A1 ∪ A2 ∪ · · · ∪ An) = 1 −[

1 − P (A1)][

1 − P (A2)]

· · ·[

1 − P (An)]

.Riippumattomien kokeiden yhdistäminen Olkoon E1, E2, . . . , En ri-ippumattomia satunnaiskokeita siinä mielessä, että yksittäisen kokeen tulosei vaikuta muihin. Olkoon satunnaiskokeiden otosavaruudet S1, S2, . . . , Sn,sekä P1, P2, . . . , Pn satunnaiskokeiden todennäköisyydet.Yhdistetyn kokeen otosavaruudeksi määritelläänS = S1 × S2 × · · · × Sn (× on karteesinen tulo).Sen osajoukot ovat muotoa A1 × A2 × · · · × An, jotka tulkitaan tapahtu-maksi "A1 sattuu kokeessa E1 ja A2 sattuu kokeessa E2 ja . . . ja An tapahtuukokeessa En".Yhdistetyn tapahtuman todennäköisyydeksi määritellään

P (A1 × A2 × · · · × An) = P1(A1)P2(A2) . . . Pn(An).Satunnaiskokeiden riippumattomuuden päättelyssä käytetään ensisijais-esti yleistä tietoa ja tervettä maalaisjärkeä; vasta toissijaisesti laskennallisiamenetelmiä.

Page 13: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 3Satunnaismuuttuja jadiskreettijakauma3.1 SatunnaismuuttujaMelkein kaikissa todennäköisyyden luonnon- tai teknistieteellisissä sovellu-tuksissa satunnaiskokeen lopputulos on numeerinen lukuarvo. Virtapiireissämitataan jännitteitä ja virranvoimakkuuksia, törmäyskokeissa lasketaan esi-intyvien hiukkasten lukumääriä, ja sähkömagneettisissa sovellutuksissa arvioi-daan kentän intensiteettiä. Satunnaiskokeeseen liitettävää lukua kutsutaansatunnaismuuttujaksi.Satunnaiskokeen tulokseen voidaan liittää numeroarvo, tai lukuvektori(satunnaisvektori). Tällä kurssilla tarkastellaan vain tilanteita, joissa sat-unnaiskokeeseen liitetään yksi ainoa lukuarvo. Täsmällisesti ottaen satun-naismuuttuja on kuvaus X : S → R todennäköisyysavaruudesta {S; E , P}reaalilukujen joukkoon. Satunnaismuuttujan arvojoukkoa merkitään symbo-lilla SX , joka voidaan tulkita satunnaiskokeen otosavaruudeksi.Satunnaismuuttujan valinta ei ole yksikäsitteinen; mutta toiset valinnatovat yksinkertaisempia kuin toiset. Esimerkiksi nopanheitossa silmälukuon luonnollinen valinta alkeistapahtumaa kuvaavaksi satunnaismuuttujaksi;mutta yhtä hyvin voitaisiin valita satunnaismuuttujaksi

X(′silmäluku on i′) = 100 + i, i = 1, 2, 3, 4, 5, 6.Edelleen jokainen funktio X : S → R ei ole satunnaismuuttuja. Vain nekuvaukset ovat satunnaismuuttujia, joille tapahtuma {X ≤ x} on tapahtu-masysteemin E joukko:{X ≤ x} = {e ∈ S| X(e) ≤ x} ∈ E .13

Page 14: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

14CHAPTER 3. SATUNNAISMUUTTUJA JA DISKREETTIJAKAUMASatunnaismuuttujan arvoa x sanotaan sen realisaatioksi.Satunnaismuuttujan otosavaruudessa SX todennäköisyys PX määritel-lään alkuperäisen todennäköisyyden avulla. Näin ollen jokaiselle joukolle{X ≤ x} voidaan yksikäsitteisesti määritellä todennäköisyys

PX({X ≤ x}) = P ({e ∈ S| X(e) ≤ x}).Tämä todennäköisyys on x:n funktio, ja sitä kutsutaan kertymäfunktioksi :FX(x) = PX(X ≤ x).Jos ei ole sekaannuksen vaaraa, niin usein jätetään kertymäfunktion ja sat-unnaismuuttujan todennäköisyydestä alaindeksi X merkitsemättä.Kertymäfunktion ominaisuuksia:1. F (x1) ≤ F (x2), kun x1 ≤ x2;2. F (x) ≥ 0;3. F (−∞) = 0, F (∞) = 14. P (x1 < X ≤ x2) = F (x2) − F (x1).Tapahtuma {X ≤ −∞} on tietysti tyhjä joukko, ja {X < ∞} täytyy sisältääkaikki satunnaiskokeen tapahtumat.3.2 Diskreetti satunnaismuuttujaDiskreettijakaumaSatunnaismuuttuja X on diskreetti, jos sen arvojoukko SX on äärellinen tainumeroituvasti ääretön: SX = {xk; k = 1, 2, 3, . . .}.Satunnaismuuttujaan X liittyvä jakauma on pistejoukko

(xk, P (X = xk)), k = 1, 2, 3, . . . .Funktiotaf(x) =

{

P (X = xk), x = xk

0, x 6= xk, ∀kkutsutaan pistetodennäköisyysfunktioksi.Diskreetin satunnaismuuttujan kertymäfunktio on porrasfunktioF (x) =

xk≤x

P (X = xk).

Page 15: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

3.2. DISKREETTI SATUNNAISMUUTTUJA 15BinomijakaumaToistetaan satunnaiskoetta n kertaa riippumattomasti. Nämä n koetta muo-dostavat yhdistetyn kokeen En. Tarkastellaan yksittäisen satunnaiskokeentapahtumaa B, jonka todennäköisyys P (B) = p ja sen komplementtitapah-tumaa B, P (B) = 1 − p.Yhdistetyn kokeen tapahtumaan Ak ={'B sattuu täsmälleen k kertaa'}määrittelee satunnaismuuttujan X, jonka arvojoukko SX = {0, . . . , n}. Täl-laisten tapahtumien lukumäärä vastaa järjestämättömien kertaotosten lukumäärääl. binomikerrointa (n

k

)

.Yksittäisen tällaisen kertaotoksen todennäköisyys on pk(1−p)n−k. Näin ollentapahtuman Ak todennäköisyys, l. binomi-jakautuneen satunnaismuuttujanpistetodennäköisyysfunktio onP (X = k) =

(n

k

)

pk(1 − p)n−k.Satunnaismuuttuja noudattaa binomijakaumaa merkitään X ∼ Bin(p).Geometrinen jakaumaToistetaan riippumattomasti satunnaiskoetta. Tarkkaillaan tapahtuman Bsattumista jokaisella toistolla. Esitetään kysymys: "Millä todennäköisyy-dellä B tapahtuu ensimmäisen kerran k:nnella toistolla?" Yhdistetyn tapah-tumanA = B × · · · × B

︸ ︷︷ ︸

k−1 kertaa ×B.todennäköisyys on P (A) = (1 − p)kp.Liittämällä edelliseen tapahtumaan satunnaismuuttuja X, joka ilmoit-taa monennella kerralla B sattuu ensimmäisen kerran saadaan geometrisestijakautunut satunnaismuuttuja X ∼ Geo(p), jonka pistetodennäköisyys onP (X = k) = p(1 − p)k−1.Poisson-jakaumaJos toistokokeessa toistojen lukumäärä on hyvin suuri ja mielenkiintoisentapahtuman todennäköisyys on pieni, niin

P (Ak) =

(n

k

)

pk(1 − p)n−k =n!

k!(n − k)!pk(1 − p)n−k ≈ P ′

k =ake−a

k!,

Page 16: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

16CHAPTER 3. SATUNNAISMUUTTUJA JA DISKREETTIJAKAUMAmissä a = np ja 0 ≤ k < ∞.Eksponenttifunktion potenssisarjanea =

∞∑

k=0

ak

k!nojalla luvut P ′k muodostavat todella pistetodennäköisyyden satunnaismuut-tujalle X : S → N

P (X = k) =ake−a

k!,sillä ∞∑

k=0

P (X = k) = e−a

∞∑

k=0

ak

k!= e−aea = 1.Luku a on keskimääräinen onnistumisten lukumäärä (kts. viikon 5 luennot).Poisson-jakautunutta satunnaismuuttujaa merkitään X ∼ Poi(a).Hurraa, Einstein! Kun valonsäde kohdistetaan valosähköisesti herkkäänmateriaaliin, se irroittaa pinnasta elektroneja. Vetämällä ne positiivisellajännitteellä varattuun anodiin ulkoisen virtapiirin virran voimakkuus kasvaa.Virran voimakkuudesta voidaan päätellä irronneiden elektronien lukumäärä.Irronneiden elektronien lukumäärää ei voida ennustaa tarkalleen; vaanlukumäärä on satunnaismuuttuja. Keskimääräinen emittoituneiden elek-tronien lukumäärä a on suoraan verrannollinen pintaan kohdistuvan säteilynkokonaisenergiaan W aikavälillä [0, T ]. Jos valontaajuus on ν, niin tämäkeskimääräinen arvo on

a =ηW

hν, (HURRAA, EINSTEIN!),missä h on Plan k'n vakio, η on ns. materiaalin kvanttitehokkuus. Taval-lisesti oppikirjoissa luku η tulkitaan todennäköisyydeksi tapahtumalle, ettäyksittäinen fotoni irroittaa elektronin (joka on mitattavissa), ja W

hνon pintaanosuvien fotonien lukumäärä.Elektronin irtoamistodennäköisyys p pinnasta ja joutuminen anodiin onkuitenkin hyvin pieni. Määritellään suotuisaksi tapahtumaksi tapahtuma,jossa elektroni emittoituu pinnasta. Todennäköisyys, että k elektronia rek-isteröidään mittalaitteessa noudattaa binomijakaumaa; mutta koska materi-aalin pinnassa (kohdassa, mihin fotonit osuvat) olevien elektronien lukumäärä

n >> 1 ja p << 1, niin voidaan approksimoida, että satunnaismuuttuja X(emittoituneiden elektronien lukumäärä) noudattaa Poissonin jakaumaa.Huomaa, että tässä leikitään taas tapahtumien riippumattomuuksilla.Nimittäin oletetaan, että elektronin emittoituminen on riippumaton siitä,

Page 17: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

3.2. DISKREETTI SATUNNAISMUUTTUJA 17kuinka muut elektronit käyttäytyvät. Ja, lisäksi oletetaan, että valo ei oleliian intensiivistä kasvattaakseen potentiaalisesti emittoituvien elektronienlukumäärää n.Hypergeometrinen jakaumaTarkastellaan N kappaletta numeroita, esimerkiksi joukkoa {1, 2, . . . , N}.Numeroista on merkitty kokeenjärjestäjän toimesta m kappaletta. Kokeen-suorittaja valitsee numeroiden joukosta umpimähkäisesti n numeroa. Millätodennäköisyydellä kokeensuorittaja valitsi täsmälleen k kappaletta ennakoltamerkittyä numeroa?Satunnaiskoe määrittelee satunnaismuuttujan X, joka noudattaa hyper-geometrista jakaumaa:P (X = k) =

(mk

)(N−mn−k

)

(Nn

) .Esim. 2. Millä todennäköisyydellä lotossa saadaan täsmälleen 4 oikein?

Page 18: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

18CHAPTER 3. SATUNNAISMUUTTUJA JA DISKREETTIJAKAUMA

Page 19: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 4Jatkuva satunnaismuuttuja jajakauma4.1 TiheysfunktioSatunnaismuuttuja X on jatkuva, jos sen kertymäfunktio on jatkuva kaikillax:n arvoilla. Jatkossa oletetaan lisäksi, että kertymäfunktio on paloittainderivoituva. Toisin sanoen sillä on derivaatta olemassa lukuunottamattaäärellistä määrää derivaatan hyppäysepäjatkuvuuksia. Tällöin on olemassatiheysfunktio fX(t) siten, että

FX(x) =

∫ x

−∞fX(t)dt.Jos ei ole suurta erehtymisen riskiä, niin usein merkitään f(x) = fX(x).Jatkuvalle jakaumalle F (a + h) − F (a − h) → 0, kun h → 0. Näin ollen

P (X = a) = 0. Diskreetille jakaumalle tämä ei välttämättä päde.Tiheysfunktion ominaisuuksia:1. ∫ ∞−∞ fX(x)dx = 1;2. P (a < X ≤ b) =

∫ b

afX(x)dx = FX(b) − FX(a);3. fX(x) = dFX(x)

dx.Koska P (x = b) = 0, niin jatkuvalle jakaumalle seuraavat todennäköisyydetovat yhtä suuria:

P (a < X < b) = P (a ≤ X < b) = P (a ≤ X ≤ b) = P (a < X ≤ b).19

Page 20: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

20 CHAPTER 4. JATKUVA SATUNNAISMUUTTUJA JA JAKAUMA4.2 Jatkuvia todennäköisyysjakaumiaEksponenttijakaumaSatunnaismuuttuja X noudattaa eksponenttijakaumaa, X ∼ exp(a), jos sentiheysfunktio onfX(x) =

{

0, x < 0,

ae−ax, x ≥ 0.Sen kertymäfunktio on silloin

FX(x) =

∫ x

−∞fX(x)dx =

{

0, x < 0

1 − e−ax, x ≥ 0.Eksponenttijakauman parametri a > 0. Sen käänteisluku 1

ailmoittaa satun-naismuuttujan keskimääräisen arvon.Tyypillisesti eksponenttijakaumalla mallinnetaan odotusaikaa, jollekin tapah-tumalle; esimerkiksi diodin elinajalle.TasajakaumaTasajakauman, X ∼ Tas(a, b), tiheysfunktio

fX(x) =

0, x < a1

b−a, a ≤ x ≤ b

0, x > b

.Tasaisesti jakautuneen satunnaismuuttujan kertymäfunktio on silloinFX(x) =

0, x < ax−ab−a

, a ≤ x ≤ b

1, x > b

.NormaalijakaumaNormaalijakauma (Gaussin jakauma) on tärkein todennäköisyyslaskennansovellutuksissa esiintyvä jakauma. Se on 2-parametrinen jakauma: X ∼N(µ, σ2). Sen tiheysfunktio on ns. Gaussin kellokäyrä:

fX(x) =1√

2πσ2e−

(x−µ)2

2σ2 .

Page 21: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

4.2. JATKUVIA TODENNÄKÖISYYSJAKAUMIA 21Parametri µ on satunnaismuuttujan X keskimääräinen arvo; σ2 sen varianssi(viikon 5 luennoilla käsitellään tunnusluvut tarkemmin).Normaalijakauman kertymäfunktion arvojaFX(x) =

1√2πσ2

∫ x

−∞e−

(z−µ)2

2σ2 dzei voida laskea suljetussa muodossa. Mielivaltaisen normaalijakautuneensatunnaismuuttujan kertymäfunktion arvot lasketaan (0, 1)-jakautuneen l.standardisoidun normaalijakauman kertymäfunktiosta Φ(x), jonka arvot ovatlaskettu taulukoihin (joissakin laskimissa on myös suoraan standardisoidunjakauman kertymäfunktion arvot), sopivalla muuttujan vaihdoksella.Standardisoidun normaalijakaumanN(0, 1) tiheysfunktio ja kertymäfunk-tio ovatfX(x) =

1√2π

e−x2

2

Φ(x) =1√2π

∫ x

−∞e−

t2

2 dt.Kertymäfunktio Φ(x) luetaan siis taulukosta. Sillä on seuraava tärkeä sym-metriaominaisuus:Φ(−x) = 1 − Φ(x).Edelleen todennäköisyys, että standardisoitu normaalijakautunut satun-naismuuttuja Z saa arvoja väliltä [a, b] on

P (a < Z < b) = Φ(b) − Φ(a).Lause 5. Jos Z ∼ N(0, 1), niin satunnaismuuttuja X = σZ +µ ∼ N(µ, σ2).Tätä lausetta hyväksi käyttämällä voidaan mielivaltaiseen normaalijakau-maan liittyvät todennäköisyyspäätelmät palauttaa N(0, 1)-jakautuneen sat-unnaismuuttujan todennäköisyyksiin.Esimerkiksi olkoon X ∼ N(µ, σ2). Silloin satunnaismuuttujaZ =

X − µ

σ∼ N(0, 1).Tällöin todennäköisyys sille, että X ≤ a on

P (X ≤ a) = P (Z ≤ a − µ

σ) = Φ(

a − µ

σ).

Page 22: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

22 CHAPTER 4. JATKUVA SATUNNAISMUUTTUJA JA JAKAUMAVikaantumisjakaumistaLaitteiston ehdollinen vikaantumistodennäköisyys voidaan määritellä ns. ha-sardifunktion β(t) avulla. Se määritellään siten, että ehdollinen todennäköi-syys laitteiston vikaantumiselle aikavälillä [t, t + dt], kun se on ollut ehjäennen ajanhetkeä t onP (t < X ≤ t + dt|X ≥ t) = β(t)dt.Tässä satunnaismuuttuja X ilmoittaa ajan, milloin laitteisto menee rikki.Olkoon satunnaismuuttujan X tiheysfunktio f(t) ja kertymäfunktio F (t).Tällöin ehdollinen todennäköisyys

P (t < X ≤ t + dt|X ≥ t) = F (t + dt|X ≥ t) − F (t|X ≥ t)

=F (t + dt) − F (t)

1 − F (t)

=f(t)dt

1 − F (t).Näin ollen hasardifunktio voidaan lausua tiheysfunktion ja kertymäfunktionavulla

β(t) =f(t)

1 − F (t).Koska tiheysfunktio on kertymäfunktion derivaatta, niin

β(t) =F ′(t)

1 − F (t)= − d

dtln[1 − F (t)].Integroimalla puolittain voidaan kertymäfunktio ratkaista hasardifunktionavulla:

F (t) =

{

0, t < 0

1 − e−R t0 β(s)ds, t ≥ 0.Tiheysfunktio on silloin

f(t) =

{

0, t < 0

β(t)e−R t

0β(s)ds, t ≥ 0.Weibull'n jakauma Weibullin jakauman hasardifunktio on

β(t) = αβtβ−1, t > 0, α, β > 0.

Page 23: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

4.2. JATKUVIA TODENNÄKÖISYYSJAKAUMIA 23Weibullin jakauman tiheys- ja kertymäfunktio ovatF (t) = 1 − e−αtβ , t > 0

f(t) = αβtβ−1e−αtβ , t > 0.Weibullin jakauma on tyypillinen odotusajan jakauma, jonka avulla mallinnetaanjonkun suotuisan tapahtuman ajankohtaa (jos nyt jonkun laitteiston vikaan-tuminen on koskaan suotuisa).

Page 24: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

24 CHAPTER 4. JATKUVA SATUNNAISMUUTTUJA JA JAKAUMA

Page 25: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 5Jakauman tunnusluvuista5.1 OdotusarvoDiskreetin jakauman odotusarvoDiskreetin jakauman odotusarvo on

E(X) =∑

k∈I

xkP (X = xk),jos oikealla puolella oleva summa on suppeneva. Odotusarvo ilmoittaa jakau-man keskikohdan eli sen arvon, jonka satunnaismuuttuja keskimääräisestisaavuttaa.Esim. 3. Geometrisen jakauman odotusarvo E(X) = 1p, missä jakaumanparametri on 0 < p < 1.Esim. 4. Satunnaismuuttujalla X, jonka pistetodennäköisyysfunktio on

P (X = k) =6

π2k2,ei ole odotusarvoa.Ratk.:

E(X) =

∞∑

k=1

k · 6

π2k2=

6

π2

∞∑

k=1

1

k.Oikealla puolella oleva sarja hajaantuu, ja siten satunnaismuuttujalla ei oleodotusarvoa.Esim. 5. Binomijakauman Bin(n, p) odotusarvo on E(X) = np.Esim. 6. Poissonin jakauman Poi(a) jakauman odotusarvo on E(X) = a.25

Page 26: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

26 CHAPTER 5. JAKAUMAN TUNNUSLUVUISTAJatkuvan jakauman odotusarvoOlkoon satunnaismuuttujan X tiheysfunktio fX(x) ja kertymäfunktio FX(x).Tällöin satunnaismuuttujan odotusarvo onE(X) =

∫ ∞

−∞xfX(x)dx,mikäli integraali on olemassa.Kuten diskreetin satunnaismuuttujan tapauksessa on varsin helppo määritelläjatkuva satunnaismuuttuja, jolla ei ole odotusarvoa. Esimerkiksi Cau hy-jakautuneella satunnaismuuttujalla ei ole odotusarvoa. Cau hy-jakaumantiheysfunktio on

f(x) =2

π

1

1 + x2u(x).Nyt jokaiselle positiiviselle vakiolle a > 0 integraali

2

π

∫ a

0

x

1 + x2dx =

2

π

/a

0

1

2log(1 + x2) =

1

2πlog(1 + a2).Näin ollen integraali

∫ ∞

0

2

π(1 + x2)dx = lim

a→∞

1

2πlog(1 + a2) = ∞ja siten odotusarvoa ei ole olemassa.Tärkeiden jakaumien odotusarvoja:

X ∼Tas(a, b), E(X) =a + b

2

X ∼Exp(λ), E(X) =1

λX ∼N(µ, σ2), E(X) = µOdotusarvon ominaisuuksiaTarkastellaan aluksi tapausta, jossa X on diskreetti satunnaismuuttuja ja

h(x) reaaliarvoinen di�erentioituva funktio. Silloin Y = h(X) on satunnais-muuttuja arvojoukkona SY = {yj = h(xj)| xj ∈ SX}, jonka pistetoden-näköisyysfunktioP (Y = yj) =

xi| yj=h(xi)

P (X = xi).

Page 27: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

5.2. VARIANSSI 27Lause 6. Olkoon X diskreetti satunnaismuuttuja ja funktio h(x) siten, että∑

xi

|h(xi)|P (X = xi) < ∞.Tällöin satunnaismuuttujalla Y = h(X) on odotusarvo, jaE(Y ) = E(h(X)) =

xi

h(xi)P (X = xi).Vastaavasti, jatkuvalle satunnaismuuttujalleX, jolla on olemassa tiheysfunk-tio fX(x), ja funktiolle h(x) on voimassa:Lause 7. Olkoon h(x) siten, että∫ ∞

−∞|h(x)|fX(x)dx < ∞.Tällöin satunnaismuuttujan Y = h(X) odotusarvo

E(Y ) =

∫ ∞

−∞h(x)fX(x)dx.Edelleen satunnaismuuttujan odotusarvo on lineaarinen, ts. on voimassa:Lause 8. Olkoon X ja Y reaalisia satunnaismuuttujia, ja a, b ∈ R. Tällöin

E(aX + bY ) = aE(X) + bE(Y ).Huom! Vakion odotusarvo on vakio: E(a) = a.5.2 VarianssiSatunnaismuuttuja on neliöintegroituva, jos sillä on odotusarvo ja integraaliE(X2) =

∫ ∞

−∞x2fX(x)dx < ∞on äärellinen. Diskreetin satunnaismuuttujan tapauksessa integraali kor-vataan summalla, ts.

E(X2) =∑

xi

x2i P (X = xi) < ∞.Tällöin määritellään jakauman varianssiksi suureVar(X) = E([X − E(X)]2) = E(X2) − [E(X)]2.Lukua

σ(X) =√Var(X)kutsutaan jakauman keskihajonnaksi. Varianssi (tai keskihajonta) ilmoittaa,kuinka paljon satunnaismuuttuja poikkeaa odotusarvosta keskimäärin.

Page 28: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

28 CHAPTER 5. JAKAUMAN TUNNUSLUVUISTAVarianssin ominaisuuksia: Olkoon a, b reaalilukuja ja X satunnaismuut-tuja. Silloin1. Var(aX + b) = a2Var(X), sillä vakion varianssi on nolla;2. Var(X) = 0 ⇒ P (X = E(X)) = 1.Esim. 7. Standardisoidun normaalijakauman N(0, 1) odotusarvo E(X) = 0ja varianssi σ2 = 1.Ratk.: Yhdistetyn funktion derivoimissäännön nojallaE(X) =

1√2π

∫ ∞

−∞xe−

x2

2 dx =1√2π

lima→∞

/a

−a− e−

x2

2 = 0.Osittaisintegroimalla saadaan varianssiksiVar(X) =1√2π

∫ ∞

−∞x2e−

x2

2 dx

=1√2π

/∞

−∞(−x)e−

x2

2 dx

︸ ︷︷ ︸

=0

+1√2π

∫ ∞

−∞e−

x2

2 dx = P (−∞ < X < ∞) = 1,sillä jäljelle jäävä integraali on normaalijakauman tiheysfunktion integraaliyli koko reaalilukujen joukon.Esim. 8. Olkoon X ∼ N(0, 1), µ ∈ R ja σ > 0. Tällöin satunnaismuuttu-jan Y = σX + µ varianssi on Var(X) = σ2.Ratk.: Var(Y ) = E([Y − E(Y )]2) = E(σX) = σ2E(X) = σ2.Jakaumien variansseja1. Binomijakauma X ∼ Bin(n, p) : Var(X) = np(1 − p);2. Geometrinen jakauma X ∼ Geo(p) : Var(X) = 1−pp2 ;3. Poissonin jakauma X ∼ Poi(a) : Var(X) = a;4. Tasajakauma X ∼ Tas(a, b) : Var(X) = (a−b)2

12;5. Normaalijakauma X ∼ N(µ, σ) : Var(X) = σ2;6. Eksponenttijakauma X ∼ Exp(λ) : Var(X) = 1λ2 .

Page 29: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

5.3. EHDOLLISEN JAKAUMAN ODOTUSARVO 295.3 Ehdollisen jakauman odotusarvoOlkoon X satunnaismuuttuja ja A satunnaismuuttujaan liittyvä tapahtuma,esimerkiksi A = {a < X ≤ b}. Ehdollinen kertymäfunktio määritelläänlausekkeellaFX(x|A) =

P ({X ≤ x} ∩ A)

P (A).Oletetaan, että kertymäfunktio on riittävän säännöllinen, jolloin sillä onintegroituva tiheysfunktio fX(x).Tapahtuman A todennäköisyys on

P (A) = FX(b) − FX(a).Tapahtuma{X ≤ x} ∩ {a < X ≤ b} =

∅, kun x ≤ a

a < X ≤ x, kun a < x ≤ b

a < X ≤ b, kun b < x.Siten ehdollisen kertymäfunktion lauseke onFX(x|A) =

0, kun x ≤ aFX(x)−FX(a)FX(b)−FX(a)

, kun a < x ≤ b

1, kun b < x.Derivoimalla muuttujan x suhteen saadaan ehdollinen tiheysfunktioFX(x|A) =

0, kun x ≤ afX(x)

FX(b)−FX(a), kun a < x ≤ b

0, kun b < x.Ehdollinen odotusarvo määritellään asettamallaE(X|A) =

∫ ∞

−∞xfX(x|A)dx,ja ehdollinen varianssi onVar(X|A) = E(X2|A) − [E(X|A)]2.Esim. 9. Olkoon X ∼ N(0, 1). Määrää ehdollinen tiheysfunktio

fX(x|X > 0),ehdollinen odotusarvo E(X|X > 0) ja ehdollinen varianssi Var(X|X > 0).

Page 30: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

30 CHAPTER 5. JAKAUMAN TUNNUSLUVUISTARatk. Ehdollinen tiheysfunktio onfX(x|X > 0) =

2

πe−

x2

2 .Ehdollinen odotusarvo ja varianssi ovatE(X|X > 0) =

2

πVar(X|X > 0) = 1 − 2

π.

Page 31: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 6Yhteisjakauma6.1 Satunnaismuuttujien yhteisjakaumaOletetaan, että {S, E , P} todennäköisyysavaruus, ja X jaa Y satunnaismuut-tujia. Satunnaismuuttujien yhteisjakauma määritellään jokaiselle R

2:n koor-dinaattiakselien suuntaisille suorakaiteille I ⊂ R2 asettamalla

PXY (I) = P ({e ∈ S| (X(e), Y (e)) ∈ I}).Jos satunnaismuuttujat ovat diskreettejä, niin yhteisjakauman määrit-telee kaksiulotteinen pistetodennäköisyys funktioP (X = xi, Y = yj) = pij, (i, j) ∈ N

2,Vaikka edellä pistetodennäköisyysfunktio on määritelty äärettömälle määrällepisteitä tasossa, niin tosiasiassa usein satunnaismuuttujat saavat vain äärel-lisen monta eri arvoa. Tällöin pistetodennäköisyyttä kuvaa todennäköisyys-matriisiP =

p11 p12 · · · p1m

p21 p22 · · · p2m... ... . . . ...pn1 pn2 · · · pnm

.Ilmeisesti matriisin P alkioiden summa ∑

ij pij = 1.Mikäli molemmat satunnaismuuttujat ovat jatkuvia, satunnaismuuttujienyhteisjakaumaa kuvaa kertymäfunktioFXY (x, y) = P (X ≤ x, Y ≤ y).Jatkossa tarkastellaan lähinnä jatkuvia satunnaismuuttujapareja (X, Y ).Kertymäfunktiolle on voimassa seuraavat helposti todistettavat ominaisu-udet: 31

Page 32: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

32 CHAPTER 6. YHTEISJAKAUMA1. 0 ≤ FXY (x, y) ≤ 1;2. Kun x1 ≤ x2 ja y1 ≤ y2, niinFXY (x1, y1) ≤ FXY (x2, y1) ≤ FXY (x2, y2)

FXY (x1, y1) ≤ FXY (x1, y2) ≤ FXY (x2, y2).3. Kun x ja y lähestyvät samanaikaisesti ±∞, niinlim

x → ∞y → ∞

FXY (x, y) = 1

limx → −∞y → −∞

FXY (x, y) = 0.4. Satunnaismuuttujien reunajakaumien kertymäfunktiot ovatlim

x→∞FXY (x, y) = FY (y)

limy→∞

FXY (x, y) = FX(x).Satunnaismuuttujat ovat riippumattomia, jos ja vain josFXY (x, y) = FX(x)FY (y).Lause 9. Olkoon X ja Y riippumattomia satunnaismuuttujia ja funktiot

h(x), g(y) sellaisia funktioita, että g(Y ) ja h(X) ovat reaalisia satunnais-muuttujia. Silloin satunnaismuuttujat h(X) ja g(Y ) ovat myös riippumatto-mia.Tiheysfunktiomalli Oletetaan, että kertymäfunktio FXY (x, y) kaksi ker-taa paloittain derivoituva molempien muuttujiensa suhteen. Tällöin yhteis-jakaumaa kuvaa täydellisesti tiheysfunktiofXY (x, y) =

∂2FXY (x, y)

∂x∂y.Kääntäen; jos fXY (u, v) on satunnaismuuttujaparin yhteisjakauman tiheysfunk-tio, niin kertymäfunktio

FXY (x, y) =

∫ x

−∞

∫ y

−∞fXY (u, v)dudv.

Page 33: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

6.2. YHTEISJAKAUMAN TUNNUSLUVUT 33Reunajakauman kertymäfunktio onFX(x) =

∫ x

−∞

(∫ ∞

−∞fXY (u, v)dv

)

du

FY (y) =

∫ y

−∞

(∫ ∞

−∞fXY (u, v)du

)

dv.Derivoimalla kertymäfunktiot muuttujien x ja y suhteen saadaan reunatihey-det:fX(x) =

d

dxFX(x) =

∫ ∞

−∞fXY (x, v)dv

fY (y) =d

dyFY (y) =

∫ ∞

−∞fXY (u, y)du.6.2 Yhteisjakauman tunnusluvutOletetaan, että h : R

2 → R on sellainen fun ktio, että h(X, Y ) on satunnais-muuttuja. Mikäli integraali∫∫

R2

|h(x, y)|fXY (x, y)dxdy < ∞,satunnaismuuttujan h(X, Y ) odotusarvo onE(h(X, Y )) =

∫∫

R2

h(x, y)fXY (x, y)dxdy.Esim. 10. Satunnaismuuttujan h(X, Y ) = X odotusarvo yhteisjakaumansuhteen onE(X) =

∫∫

R2

xfXY (x, y)dxdy =

∫ ∞

−∞xfX(x)dx = µX .Esim. 11. Satunnaismuuttujan h(X, Y ) = (X − µX)2 odotusarvo yhteis-jakauman suhteen on

E((X − µX)2) =

∫∫

R2

(x − µX)2fXY (x, y)dxdy

=

∫ ∞

−∞(x − µX)2fX(x)dx = Var(X).Lause 10. Olkoon X ja Y riippumattomia satunnaismuuttujia ja a, b ∈ R.Tällöin satunnaismuuttujan aX + bY varianssi onaX+bY = a2Var(X) + b2Var(Y ).

Page 34: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

34 CHAPTER 6. YHTEISJAKAUMASatunnaismuuttujien X ja Y kovarianssi onCov[X, Y ] = E((X − µX)(Y − µY )) = E(XY ) − E(X)E(Y ).Lause 11. Jos X ja Y ovat riippumattomia, niinCov[X, Y ] = 0.Käänteinen väittämä ei päde.Satunnaismuuttujien välinen korrelaatiokerroin ρ määritellään asetta-mallaρ =

Cov[X, Y ]

σXσY

,missä σX ja σY ovat satunnaismuuttujien keskihajonnat. Korrelaatiokerroinmittaa satunnaismuuttujien lineaarisen riippuvuuden astetta.Lause 12. Korrelaatiokertoimelle on voimassa:1. |ρ| ≤ 1.2. Jos on olemassa vakiot a ∈ R, b ∈ R \ {0} siten, ettäY = a + bX,niin |ρ| = 1.

Page 35: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 7Keskeinen raja-arvolause7.1 Chebyshevin epäyhtälöTarkastellaan satunnaismuuttujaa X, jonka odotusarvo µ = E(X) ja vari-anssi σ2 = Var(X) ovat äärellisiä. Tällöin on voimassaLause 13 (Chebyshevin epäyhtälö). Kaikille positiivisille ǫ:

P (|X − µ| ≥ ǫ) ≤ σ2

ǫ2.Tod.: Oletetaan, että satunnaismuuttuja X on jatkuva, ja että f(x) onsen tiheysfunktio. Tällöin

P ({X < µ − ǫ} ∪ {X < µ − ǫ}) =

∫ µ−ǫ

−∞f(x)dx +

∫ ∞

µ+ǫ

f(x)dx.Toisaalta varianssin määritelmän nojallaσ2 =

∫ ∞

−∞(x − µ)2f(x)dx ≥

∫ µ−ǫ

−∞(x − µ)2f(x)dx +

∫ ∞

µ+ǫ

(x − µ)2f(x)dx

≥ ǫ2{∫ µ−ǫ

−∞f(x)dx +

∫ ∞

µ+ǫ

f(x)dx}

= ǫ2P (|X − µ| ≥ ǫ).Chebyshevin epäyhtälöllä voidaan aina arvioida, kuinka paljon satunnais-muuttuja poikkeaa odotusarvosta. Arvio on tosi karkea, ja se riippuu vari-anssin suuruudesta. Usein Chebyshevin epäyhtälö kirjoitetaan muodossaP (|X − µ| ≥ kσ) ≤ 1

k2.35

Page 36: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

36 CHAPTER 7. KESKEINEN RAJA-ARVOLAUSE7.2 Heikko suurten lukujen lakiOlkoon {Xi}i∈N jono riippumattomia samaa jakaumaa noudattavia satun-naismuuttujia siten, että E(X2) < ∞.Lause 14. MerkitäänSn =

n∑

i=1

Xi

µ = E(Xi), ∀i ∈ N.Silloin jokaiselle ǫ > 0

P (|Sn

n− µ| ≥ ǫ) → 0, kun n → ∞.Tod.:

P (|Sn

n− µ| ≥ ǫ) = P (|

n∑

i=1

Xi − µ

n| ≥ ǫ)

≤︸︷︷︸

Cheb.ey.

E([∑n

i=1Xi−µ

n]2)

ǫ2=

1

n

σ2

ǫ2→ 0,kun n → ∞.Tulkinta:

• Satunnaismuuttujan 1nSn todennäköisyysmassa keskittynyt välille |x−

µ| ≤ ǫ, kun n on riittävän suuri.• Satunnaismuuttujat Xi voidaan tulkita saman satunnaiskokeen tois-toiksi. Tällöin 1

nSn on otoskeskiarvo. Näin ollen otoskeskiarvo lähestyysatunnaismuuttujan odotusarvoa. Joten: Otoskeskiarvolla voidaan ap-proksimoida odotusarvoa, kun havaintoaineisto satunnaismuuttujastaon riittävän suuri.7.3 Keskeinen raja-arvolauseSuppea versio Olkoon {Xi}i jono riippumattomia samaa jakaumaa nou-dattavia satunnaismuuttujia, joiden varianssi on äärellinen. Merkitään kutenedellä µ = E(X), σ2 = V ar(X) ja Sn =

∑ni=1 Xi. Silloin

limn→∞

P (Sn

n− µσ√n

≤ x) = Φ(x) =

∫ x

−∞

1√2π

e−u2

2 du,

Page 37: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

7.4. BINOMIJAKAUMAN APPROKSIMAATIO 37ts. riittävän suurilla n:n arvoilla otoskeskiarvo noudattaa (0,1)-normaali-jakaumaa:1

n

n∑

i=1

Xi ∼ N(µ,σ2

n).Laaja versio Olkoon satunnaismuuttujat Xi riippumattomia, µi = E(Xi),

σ2i = Var(Xi) ja E(X3

i ) < ∞. Tällöin suurilla n:n arvoilla aritmeettinenkeskiarvo noudattaa likimain normaalijakaumaa1

n

n∑

i=1

Xi ∼ N( 1

n(µ1 + · · ·+ µn); (

1

n

σ21 + · · ·+ σ2

n)2)

.Keskeisessä raja-arvolauseessa joskus n = 3 on riittävä otoksen koko;mutta joillekin satunnaismuuttujille n = 100000 ei riitä. Pääsääntöisesti(ainakin tällä kurssilla) approksimaatio on pätevä, kun n ≥ 30.7.4 Binomijakauman approksimaatioKun toistokokeessa toistojen lukumäärä n on suuri, niin summaX = X1 + X2 + X3 + · · ·+ Xnilmoittaa suotuisan tapahtuman esiintymismäärän. Tässä satunnaismuuttu-jat Xi ∈ {0, 1} ovat samalla tavalla jakautuneita ja riippumattomia:

P (Xi = 1) = P (”suotuisa tapahtuma sattuu”) = p,

P (Xi = 0) = 1 − p.Siis satunnaismuuttujat Xi noudattavat binomijakaumaa Bin(1, p), jonkavarianssi σ2 = p(1 − p).Tällöin keskeisen raja-arvolauseen nojalla satunnaismuuttuja X noudat-taa normaalijakaumaa:X ∼ N(np, np(1 − p)),kun n on kyllin suuri. (Tällä kurssilla käytetään kriteerinä: n ≥ 9

p(1−p).) Näinollen suurille n:n arvoille binomijakaumaa Bin(n, p) voidaan approksimoidanormaalijakaumalla N(np, np(1 − p)).7.5 Taitopelit ja suurten lukujen lakiTämä luku on hieman ylikurssia. Kirjoitan tämän osan kurssin päätyttyä.

Page 38: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

38 CHAPTER 7. KESKEINEN RAJA-ARVOLAUSE

Page 39: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 8Tilastollinen aineisto8.1 JohdantoKokeellisessa tutkimuksessa tutkittavien suureiden välisiä riippuvuuksia ku-vaa matemaattinen malli, jonka parametrit pyritään arvioimaan (estimoimaan)koejärjestelyllä kerätyn havaintoaineiston peerusteella. Mittauksiin sisäl-tyy aina virheitä, jotka varsin usein oletetaan satunnaisiksi. Tällöin to-dennäköisyyslaskentaan nojautuvat tilastolliset menetelmät ovat hyödyllisiäapuvälineitä tuntemattomien suureiden arvioimisessaTilastollisen aineiston keruusssa tutkittava ilmiö on oltava numeerinen,tai jollain tavalla väännettävä vaikka väkisin numeeriseen muotoon. Tutkittvaominaisuus on voitava yksikäsitteisesti määrätä jokaisesta yksilöstä. Aina onmuistettava, että tilastolliset menetelmät ovat havainnoivia (toteavia), eivätmäärääviä.Tilastollinen aineisto kerätään perusjoukosta l. populaatiosta sat-unnaisotoksella, jossa populaation jokaisella yksilöllä on sama mahdollisuustulla valituksi otokseen. Tällä kurssilla emme puutu, kehittyneempiin otok-sen valintamenetelmiin. Olkoon X tutkittava satunnaismuuttuja, jonka to-dennäköisyysjakauma on täysin tai osittain tunnettu. Tällöin satunnaiso-tos on reaalilukujoukko {x1, x2, . . . , xn}. Satunnaisotoksen avulla pyritäänarvioimaan satunnaismuuttujan X tunnuslukuja.Tärkeimpiä tunnuslukuja ovatVaihteluväli: R = [ min

1≤i≤n, max

1≤i≤nxi].Aritmeettinen keskiarvo x = 1n

n∑

i=1

xi.39

Page 40: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

40 CHAPTER 8. TILASTOLLINEN AINEISTOOtoskeskihajonta s =

1n−1

n∑

i=1

(xi − x)2.Mediaani Md on se luku, jonka alapuolella on puolet havainnoista:#{xi ≤ Md}

n= 0.5.P-prosenttipiste Mp on se luku, jonka alapuolella on p prosenttiahavainnoista. Tavallisesti käytetään prosenttilukuja 25 %, 50 % ja 75 %.Otosmoodi Havaintoaineisto voidaan jakaa k:hon eri luokkaanE1, E2, . . . , Ek(tavallisesti k =

√n). Luokassa Ei olevien alkioiden lukumäärä on silloin ni.Otosmoodi on se luokka, jossa on eniten havaintoja.8.2 Tunnuslukujen estimoinnistaOtoksesta {x1, x2, . . . , xn} lasketut otostunnusluvut ovat satunnaismuuttu-jan X jakauman tunnuslukujen estimaatteja.Jonkin parametrin estimaattori θ∗ = g(X1, X2, . . . , Xn) on satunnais-muuttuja, ja θ = g(x1, x2, . . . , xn) on sen realisaatio l. parametrin estimaatti.Estimaatti on todellinen, estimaattori on malli.Estimaattori on harhaton, jos E(θ∗) = θ, missä theta on estimoitavaparametri.Esimerkiksi otoskeskiarvo on harhaton estimaattori satunnaismuuttujan

X odotusarvolle µ = E(X). Tämänn todistamista varten olkoon satun-naismuuttujat Xi riippumattomia ja samalla tavalla jakautuneita, kuin X.TällöinE(

1

n

n∑

i=1

Xi) =1

nE(X) = E(X) = µ.Sanotaan, että estimaattori on tarkentuva, jos kaikille ǫ > 0

limn→∞

P (|θ∗n − θ| > ǫ) = 0.Välittömästi nähdään suurten lukujen lain nojalla, että otoskeskiarvo onmyös tarkentuva estimaattori.Voidaan myös varsin helposti osoittaa, että otoskeskihajonta s on sekäharhaton että tarkentuva satunnaismuuttujan X keskihajonnan σ estimaat-tori.

Page 41: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

8.3. NORMAALIJAKAUMASTA JOHDETTUJA JAKAUMIA 418.3 Normaalijakaumasta johdettuja jakaumiaχ2-jakauma OlkoonZi:t (0,1)-normaalijakautuneita ja riippumattomia sat-unnaismuuttujia: Zi ∼ N(0, 1). Tällöin satunnaismuuttuja

χ2ν = Z2

1 + Z22 + · · · + Z2

νon χ2-jakautunut vapausasteilla ν. Jakauman tiheysfunktio onfν(x) =

1

Γ(ν2)2

ν2

xν2−1e−

x2ja sen odotusarvo E(χ2

ν) = ν ja varianssi σ2ν = 2ν.Studentin l. t-jakauma Olkoon satunnaismuuttujat Zi kuten edellä. Sil-loin satunnaismuuttuja

tν =Z

ν∑

i=1

Z2inoudattaa Studentin jakaumaa, jonka tiheysfunktio on

ftν (x) =1√πν

Γ(ν+12

)

Γ(ν2)

(1 +x2

ν)−

ν+12 .Jatkon tarkastelujen kannalta seuraavat lauseet ovat varsin oleellisia:Lause 15. Satunnaismuuttujien aritmeettinen keskiarvo

X =1

n

n∑

i=1

Xija satunnaismuuttuja(n − 1)S2 =

n∑

i=1

(Xi − X)2ovat riippumattomat.Lause 16. Olkoon X satunnaismuuttuja odotusarvona µ = E(X), vari-anssina σ2 ja sen varianssin estimaattorina S2 = 1n−1

∑ni=1(Xi−X)2. Tällöin1. (n−1)S2

σ2 ∼ χ2n−1.2. x−µ

s√

n

∼ tn−1.

Page 42: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

42 CHAPTER 8. TILASTOLLINEN AINEISTO8.4 LuottamusväliEstimoitavan suureen θ luottamusväli riskillä α (so. varmuudella 1 − α) onväli [θ1, θ2], joka toteuttaa ehdonP (θ1 ≤ θ ≤ θ2) ≥ 1 − α,ts. todennäköisyys sille, että estimoitu parametri on luottamusvälillä on

1−α. Välin päätepisteet riippuvat otoksesta ja muista tunnetuista suureista.Tavallisesti riskitasona on α = 0.05.Esim. 12. Olkoon {x1, x2, . . . , xn} satunnaisotos normaalijakautuneesta sa-tunnaismuuttujasta X ∼ N(µ, σ2). Määrää odotusarvon µ luottamusväliriskitasolla α, kun varianssia ei tunneta.Ratk.: Lauseen 2 nojallax − µ

s√n

∼ tn−1.Luetaan t-jakauman taulukosta luvut t1 ja t2 siten ,ettäP (t1 ≤

x − µs√n

≤ t2) = P (t1s√n≤ x − µ ≤ t2

s√n

)

= P (x − t2s√n≤ µ ≤ x − t1

s√n

)

≥ 1 − α.Tällöin odotusarvon luottamusväli on[x − t2

s√n

, x − t1s√n

].Luvut t1 ja t2 valitaan tavallisesti seuraavasti:• Yksisuuntainen luottamusväli: t2 = ∞ ja t1 äärellinen (µ jonkun rajanalapuolella); t1 = −∞ ja t2 äärellinen (µ on jonkun rajan yläpuolella).• Kaksisuuntainen luottamusväli: Valitaan t1 = −t2, t2 > 0. Silloin onluottamusväli on otoskeskiarvon suhteen symmetrinen väli:

x − t2s√n≤ µ ≤ x + t2

s√n

.Luottamusväli pienenee, kun otoksen kokoa kasvatetaan.

Page 43: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

8.4. LUOTTAMUSVÄLI 43Binomijakauman parametrin luottamusväli Edellä tarkasteltiin nor-maalijakauman odotusarvon luottamusväliä. Tarkastellaan seuraavaksi bi-nomijakauman parametrin luottamusväliä riskitasolla α, missä parametri p =E(X) on suotuisan tapahtuman esiintymistodennäköisyys ja X ∼ Bin(n, p).Kun toistojen lukumäärä n on suuri, niin X noudattaa likimain normaali-jakaumaa N(np, np(1 − p)), kunhan n > n

p(1−p).Olkoon suotuisan tapahtuman lukumäärä n:ssä toistossa m. Tällöintapahtuman frekvenssi on m

n≈ p.Valitaan luvut t1, t2 standardisoidun normaalijakaumanN(0, 1) taulukostasiten, että

P (t1 ≤m − np

np(1 − p)≤ t2) ≥ 1 − α ⇒

P (m − t2√

np(1 − p) ≤ np ≤ m − t1√

np(1 − p)) ≥ 1 − α ⇒

P (m

n− t2

n

np(1 − p) ≤ p ≤ m

n− t1

n

np(1 − p)) ≥ 1 − α.Korvataan neliöjuurilausekkeen sisällä satunnaismuuttujan tapahtumistoden-näköisyys sen approksimaatiolla mn. Näin saadaan binomijakauman parametrille

p luottamusväli[m

n− t2

n

m(1 − m

n),

m

n− t1

n

m(1 − m

n)].Tavallisesti valitaan t1 = −t2 ja t2 > 0.

Page 44: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

44 CHAPTER 8. TILASTOLLINEN AINEISTO

Page 45: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 9Hypoteesin testauksesta9.1 YleistäKokeellinen tutkimus pyrkii varmentamaan tehtyä teoreettista olettamustajonkun fysikaalisen systeemin käyttäytymisestä (parametrin arvojen suuru-udesta tai minkälaista jakaumaa jokin suure noudattaa). Positivistinen ti-eteenteon lähtökohta perustuu käsitykseen, jossa tutkittavasta asiasta tehdäänhypoteesi (≈ olettamus), joka hyväksytään tai hylätään kokeellisen aineistonperusteella.Esimerkiksi viime vuosina on paljon keskusteltu siitä, onko ilmasto läm-penemässä. Edellä kuvatun menettelyn mukaan tehdään olettamus, ettäilmasto lämpenee. Kokeellisen aineiston avulla pyritään vahvistumaan olet-tamuksen oikeallisuudesta, tai on oltava valmis myös hyväksymään oletta-muksen vastahypoteesi, että ilmasto ei ole lämpenemässä.Hypoteesin testauksessa tehdään siis tutkittavasta asiasta nk. nollahy-poteesiH0, jonka todenmukaisuutta tutkimuksessa pyritään varmentamaan.Nollahypoteesille on oltava vastahypoteesi H0, joka on hyväksyttävä, josnollahypoteesi ei ole voimassa. Ajattelutavan lähtökohtana on siis hyvin yk-sioikoinen näkemys maailmasta - olettamus on joko tosi tai epätosi.Koska usein koejärjestelyyn sisältyy satunnaisia ilmiöitä, niin valittu hy-poteesi voidaan hyväksyä vain jollakin todennäköisyydellä. Tätä tarkoite-taan silloin kun sanotaa, että "nollahypoteesi on totta riskitasolla α". Missäα ilmoittaa sen todennäköisyyden, ettei valittu nollahypoteesi olisikaan tottakerätyn havaintoaineiston perusteella.Aluksi tutkimme tapahtumia, jossa hypoteesi tehdään jonkun parametrinsuuruudesta. Olkoon tämä parametri θ, joka liittyy satunnaismuuttujaan X.Nollahypoteesiksi valitaan

H0 : θ ∈ Ψ0,45

Page 46: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

46 CHAPTER 9. HYPOTEESIN TESTAUKSESTAmissäΨ0 on joku joukko parametrin θ arvojoukossa. Vastahypoteesi on silloinH1 : θ ∈ Ψ1 = Ψ0,missä Ψ1 nollahypoteesin arvojoukon komplementti parametriavaruudessa.Kokeellisen havaintoaineiston (l. satunnaisotoksen) {x1, . . . , xn} avullalasketaan testimuuttuja Z arvo z(x1, . . . , xn; Ψ0). Huomaa, että testimuut-tuja riippuu myös valitusta nollahypoteesista. Testimuuttuja valitaan siten,että se noudattaa jotain tunnettua todennäköisyysjakaumaa PZ . Toden-näköisyysjakaumasta haetaan kynnysarvo (tai kynnysarvot - kaksisuuntai-sessa testissä) r0 siten, että

PZ(Z ≤ r0) ≥ 1 − α, (tai P (|Z| ≤ r0) ≥ 1 − α).Jos laskettu testimuuttujan arvo x(x1, . . . , xn; Ψ0) kuuluu hyväksymisaluee-seen, jonka määrittää laskettu kynnysarvo r0, niin silloin voidaan sanoa, ettähavaintoaineisto vahvistaa hypoteesia H0. Muussa tapauksessa nollahypo-teesi hylätään, ja pohditaan, voisiko vastahypoteesi olla totta (tai "peukaloi-daan havaintoaineistoa, jotta se vahvistaisi nollahypoteesin oikeaksi").9.2 Z-testiZ-testi perustuu olettamukseen, että testimuuttuja Z noudattaa standardis-oitua normaalijakaumaa. Silloin kynnysarvo r0 luetaan N(0, 1)-jakaumantaulukosta riskitasolla α riippuen suoritetaanko kaksi- vai yksisuuntainentesti.Perusesimerkki tällaisesta testauksesta on normaalijakautuneen satun-naismuuttujan X odotusarvon µ testaus, missä keskihajonta σ on tunnettu.Tarkastellaan aluksi vain yksisuuntaista testiä, missä hypoteesit ovatH0 : µ ≤ µ0

H1 : µ > µ0Kerätään satunnaismuuttujasta X havaintoaineisto {x1, . . . , xn}. Lauseen8.2 nojalla testimuuttujaksi voidaan valitaZ =

X − µ0σ√n

∼ N(0, 1),mikäli µ0 olisi oikea odotusarvo. Testimuuttujan lausekkeessa X on satun-naismuuttujien Xi, i = 1, . . . , n, aritmeettinen keskiarvo, missä Xi:t ovatriippumattomia ja X:n kanssa identtisesti jakautuneita satunnaismuuttujia.

Page 47: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

9.2. Z-TESTI 47Normaalijakauman taulukosta luetaan kynnysarvo r0 siten, ettäP (Z ≤ r0) = Φ(r0) = 1 − α,missä α on valittu riskitaso (tavallisesti α = 0.05).Nollahypoteesi hyväksytään, jos havaintoaineiston perusteella laskettutestisuure

z =x − µ0

σ/√

n≤ r0.Muussa tapauksessa nollahypoteesi hylätään ja valitaan vastahypoteesi.Esim. 13. Pohdi, miten kynnysarvo pitää valita, jos nollahypoteesi on

H0 : µ ≥ µ0riskitasolla α.Kaksisuuntaisessa testauksessa valitaan kynnysarvo siten, että testimuut-tujan todennäköisyys olla kynnysarvojen välissä on 1 − α. Tavallisesti kyn-nysarvoiksi valitaan r1 = −r0, r0 > 0. Tällöin siis valitaan r0 siten, ettäP (|Z| ≤ r0) = 1 − α.Testisuure z = x−µ0

σ/√

non hyväksymisalueessa, jos

|x − µ0

σ/√

n| ≤ r0.Z-testiä voidaan soveltaa myös silloin kun testimuuttuja nooudattaa nor-maalijakaumaa vain likimääräisesti. Tällainen tilanne tulee vastaan, kuntestataan toistokokees suotuisaan tapahtuman esiintymistodennäköisyyttä p.Binomijakautunut satunnaismuuttuja Olkoon X ∼ Bin(n, p). Jakau-man parametrin estimaattori

p∗ =1

nX ∼ N(p,

p(1 − p)

n) (asymptoottisesti).Parametrin estimaatti lasketaan havaintoaineistosta: p = m

n, missä m onsuotuisan tapahtuman esiintymismäärä n:ssä toistossa.Hypoteesit ovat tällöin

H0 : p ≤ p0

H1 : p > p0.

Page 48: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

48 CHAPTER 9. HYPOTEESIN TESTAUKSESTATestisuure on nytz =

p − p0√

p0(1−p0)n

∼ N(0, 1).Haetaan normaalijakauman taulukosta kynnysarvo r0 siten, ettäΦ(r0) = 1 − α.Hyväksymisalue nollahypoteesille on tällöin {z ≤ r0}.9.3 T-testiEdellistä testiä voidaan käyttää silloin, kun satunnaismuuttujan hajonta ontunnettu. Yleensä näin ei ole laita. Silloin hajonnalle on laskettava estimaattihavaintoaineistosta.Oletetaan, että satunnaismuuttujaX noudattaa normaalijakaumaa, jonkamolemmat parametrit µ ja σ2 ovat tuntemattomia, ts. X ∼ N(µ, σ2). Ne onestimoitava havaintoaineistosta {x1, . . . , xn}. Parametrien estimaatit ovat

• Otoskeskiarvo: x = 1n

n∑

i=1

.• Otoskeskihajonta: s = 1

n−1

n∑

i=1

[xi − x]2.Tehdyt hypoteesit ovat tällöinH0 : µ ≤ µ0

H1 : µ > µ0Tällöin testimuuttuja Z noudattaa t-jakaumaa vapausasteilla n − 1:z =

x − µ0s√n

∼ tn−1.Hyväksymisalueen kynnysarvo luetaan t-jakauman taulukosta riskitasollaα:

P (tn−1 ≤ r0) = 1 − α.Nollahypoteesi hyväksytään, jos testisuure z ≤ r0.Huomaa, että jos nollahypoteesissa epäyhtälö toisinpäin, niin kynnysarvo(r0 < 0) pitää valita siten, ettäP (tn−1 ≥ r0) = 1 − α.Silloin hyväksymisalue on kynnysarvon oikealla puolella oleva reaalisuoranosa.

Page 49: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

9.4. HAJONNAN TESTI 499.4 Hajonnan testiTässä testissä oletetaan, että satunnaismuuttuja X ∼ N(µ, σ2), jonka keski-hajontaan testataan. Suoritetaan satunnaisotos {x1, x2, . . . , xn} X:stä. Täl-löin testimuuttuja noudattaa χ2-jakaumaa:(n − 1)s2

σ2∼ χ2

n−1.Tutkittavat hypoteesit ovat tyypillisesti muotoaH0 : σ ≤ σ0

H1 : σ > σ0.

χ2-jakauman taulukosta luetaan kynnysarvo r0 riskitasolla α:P (χ2

n−1 ≤ r0) = 1 − α.Esimerkiksi jos riskitasoksi valitaan 5 %:a ja otoskoko n = 10, niin testimuut-tuja noudattaa χ29-jakaumaa 9:llä vapausasteella. Tällöin valitaan kynnysta-soksi r0 siten, että

P (χ29 ≤ r0) = 0.95 ⇒ r0 = 16.919.Nyt jos testimuuttujan arvo9s2

σ20

=

10∑

i=1

(xi − x)2

σ20

≤ r0,niin testisuure on hyväksymisalueessa, ja nollahypoteesi hyväksytään. Muussatapauksessa se hyätään.9.5 Odotusarvojen erotuksen testiKahden odotusarvon erotuksen testissä vertaillaan kahden normaalijakau-tuneen satunnaismuuttujan odotusarvoja. Esimerkiksi vanhalla menetelmällävalmistetun tuotteen joku ominaisuusX noudattaa normaalijakaumaaN(µ1, σ21).Käyttöön otetaan uusi valmistusmenetelmä, jonka johdosta sama ominaisuus

Y (merkinnällinen välttämättömyys käyttää samalle ominaisuudelle eri sat-unnaismuuttujaa) noudattaa normaalijakaumaa N(µ2, σ2). Nyt halutaan

Page 50: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

50 CHAPTER 9. HYPOTEESIN TESTAUKSESTAtutkia, onko ko. valmistusmenetelmillä eroa tutkitun ominaisuuden kannalta.Tehdään hypoteesitH0 :µ1 = µ2

H1 :µ1 6= µ2Satunnasimuuttujasta X poimitaan satunnaisotos {x1, x2, . . . , xn} ja satun-naismuuttujasta Y satunnaisotos {y1, y2, . . . , ym}. Satunnaisotosten otostun-nusluvut ovatx =

1

n

n∑

i=1

xi, s21 =

1

n − 1

n∑

i=1

[xi − x]2

y =1

n

m∑

i=1

yi, s22 =

1

m − 1

m∑

i=1

[yi − y]2.Odotusarvojen erotuksen estimaattori onX − Y ∼ N(µ1 − µ2,

σ21

n+

σ22

m).Täälöin testimuuttuja on

z =x − y − ∆µ0√

σ21

n+

σ22

m

∼ N(0, 1),jos keskihajonnat tunnetaan, ja missä ∆µ0 = µ1,0 − µ2.0 = 0 on oletettujenodotusarvojen erotus.Nyt kyseessä on kaksisuuntainen testi. Haetaan kynnysarvo r0 siten, ettäΦ(r0) − Φ(−r0) = 2Φ(r0) − 1 = 1 − α ⇒ Φ(r0) = 1 − α

2,missä α on valittu riskitaso.Käytännössä satunnaismuuttujien keskihajonnat ovat tuntemattomia, jane on ensin estimoitava havaintoaineistosta. Silloin testimuuttujana käytetäänsuuretta

z =x − y − ∆µ0

√1n

+ 1m

√(n−1)s2

1+(m−1)s22

n+m−2

∼ tn+m−2,l. se noudattaa Studentin jakaumaa n + m − 2:lla vapausasteella.

Page 51: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

9.6. χ2 − TESTIT 519.6 χ2-testitYhteensopivuustesti Tässä testissä tutkitaan, noudattaako havainto-aineisto oletettua jakaumaa vai ei. Oletetaan, että satunnaismuuttujasta Xtehdään n toisistaan riippumatonta havaintoa {x1, x2, . . . , xn}, jotka jaetaanluokkiin Ei, i = 1, 2, . . . , k. Luokkaan Ei sijoittuu ni havaintoa (n1 + n2 +· · ·+ nk = n).Tehdään olettamus, että kyseinen satunnaismuuttujan todennäköisyys-funktio on P (·). Tällöin todennäköisyys sille, että satunnaismuuttuja onluokassa Ei on pi = P (X ∈ Ei). Siten luokassa Ei tulisi olla npi alkiota. Josoletettu jakauma ja havainnot vastaavat toisiaan tulisi olla ni ≈ npi kaikillai = 1, 2, . . . , k. Havaintoaineiston ja mallin välisen hyvyyden mittariksi vali-taan testimuuttuja

k∑

i=1

(ni − npi)2

npi.Nyt voidaan osoittaa, että testimuuttuja noudattaa likimainχ2

k−1-jakaumaa,jos seuraavat ehdot ovat voimassa:• havaintoaineiston koko on kyllin suuri: n ≥ 50;• Jokainen luvuista npi ≥ 2;• Korkeintaan 20 % luvuista npi ≤ 5.Muussa tapauksessa yhdistä luokkia.Asetettavat hypoteesit ovat

H0 : Havaintoaineisto noudattaa oletusjakaumaa;H1 : havaintoaineisto ei noudata oletusjakaumaa.Valitaan taas riskitaso α, ja luetaan χ2

k−1-jakauman taulukosta kynnysarvor0 siten, että

P (χ2k−1 ≤ r0) = 1 − α.Nollahypoteesi kelpuutetaan, jos

k∑

i=1

(ni − npi)2

npi≤ r0.Usein satunnaismuuttujan oletusjakauma sisältää tuntemattomia paramet-reja, jotka on ensin estimoitava havaintoaineistosta. Jos estimoitavien para-metrien lukumäärä on l, niin silloin testimuuttuja

k∑

i=1

(ni − npi)2

npi∼ χ2

k−l−1

Page 52: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

52 CHAPTER 9. HYPOTEESIN TESTAUKSESTAmissä pi = P (X ∈ Ei) on estimoitu luokkatodennäköisyys.Riippumattomuustesti Olkoon {x1, x2, . . . , xn} riippumattomia havain-toja satunnaismuuttujasta X. Aineisto luokitellaan kahdella eri tavalla lu-okkiin• A-tapa: luokat A1, A2, . . . , Ak;• B-tapa: luokat B1, B2, . . . , Bl.Havainnoista muodostetaan lukumäärätaulukko l. kontingenssitaulukko:

A\B B1 B2 B3 · · · Bl rivisummatA1 n11 n12 n13 · · · n1k

∑lj=1 n1j = m1

A2 n21 n22 n23 · · · n2k

∑lj=1 n2j = m2

A3 n31 n32 n33 · · · n3k

∑lj=1 n3j = m3... ... ... ... · · · ... ...

Ak nk1 nk2 nk3 · · · nkk

∑lj=1 nkj = mksarakesummat n1 n2 n3 · · · nl

i,j nij = nMerkitäänP (”Havainto luokasta Ai”) = pi

P (”Havainto luokasta Bj”) = qj

P (”Havainto luokasta Ai ∩ Bj”) = tijJos luokittelut ovat riippumattomat, niin tulisi olla tij = piqj . Muussatapauksessa on voimassa tij 6= piqj . Koska havaintoaineisto on äärellinen,niin riippumattomuus ei välttämättä identtisesti tosi. Se voitaisiin veri�oidavain äärettömällä havaintoaineistolla. Siksi on hyväksyttävä jonkinasteinenepävarmuus päätöksenteossa. Olkoon riskitaso α. Testimuuttujaksi voidaanvalitak∑

i=1

l∑

j=1

(nij − npiqj)2

npiqj∼ χ2

(k−1)(l−1),missä pi = mi

nl. luokan Ai havaintojen suhteellinen osuus, ja qj =

nj

nl.luokan Bj havaintojen suhteellinen osuus. Testimuuttujan käyttö sallittua,jos

Page 53: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

9.6. χ2 − TESTIT 53

• n ≥ 50,• npiqj ≥ 2,• korkeintaan 20 % luvuista npiqj on pienempiä kuin 5.Hypoteesin testaus suoritetaan kuten aikaisemmin. Tehdään hypoteesit

H0 : Luokittelut riippumattomatH1 : Luokittelut riippuvat.Luetaan χ2-jakauman taulukosta kynnysarvo r0 siten, että

P (χ2(k−1)(l−1) ≤ r0) = 1 − α.Jos testimuuttujan arvo

k∑

i=1

l∑

j=1

(nij − npiqj)2

npiqj≤ r0,niin luokittelut ovat riippumattomia.

Page 54: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

54 CHAPTER 9. HYPOTEESIN TESTAUKSESTA

Page 55: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

Chapter 10Maximum Likelihood-estimointiOlkoon f(x; θ) parametrista θ ∈ R riippuva todennäköisyystiheys, missä x ={x1, x2, . . . , xn} on havaintoaineisto satunnaismuuttujasta X, jonka oletetaannoudattavan todennäköisyysjakaumaa f(x; θ) jollain reaalisen parametrin θarvolla.Maximum likelihood-estimoinnissa parametrin θ likiarvoksi l. esti-maatiksi valitaan parametrin arvo θ, joka maksimoi todennäköisyystiheydenf(x; θ). Siitä nimitys suurimman uskottavuuden-menetelmä.Koska funktiot ln[f(x; θ)] ja f(x; θ) saavat maksiminsa samassa pisteessä(logaritmi funktio on aidosti kasvava), niin useimmiten lasketaan log-likelihood-funktion ln[f(x; θ)] maksimi parametrin θ suhteen.Esim. 14. Kohina peittää signaalin tasavirtakomponentin. Kohinaisestasignaalista on otettu näytteitä (riippumattomasti):

xi = θ + wi, i = 1, . . . , nmissä kohinan oletetaan olevan riippumatonta eri näytteissä, ja jakautunutstandardisoidun normaalijakauman mukaisesti l. wi ∼ N(0, 1).Määrää näytteiden perusteella tasavirtakomponentin suuruus suurimmanuskottavuuden menetelmällä.Ratk. Ilmeisesti jokainen satunnaismuuttuja Xi ∼ N(θ, 1). Koska neovat riippumattomia, niin niiden yhteisjakauman tiheysfunktiofX(x1, x2, . . . , xn; θ) =

n∏

i=1

fXi(xi; θ) = [

1√2π

]ne−12

Pni=1(xi−θ)2 .Log-likelihood-funktio on

ln(f(x; θ)) = −n

2ln(2π) − 1

2

n∑

i=1

(xi − θ)2.55

Page 56: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

56 CHAPTER 10. MAXIMUM LIKELIHOOD-ESTIMOINTILikelihood-funktionmaksimi löytyy derivaatan nollakohdasta (alaspäin aukeavaparaabeli):d ln(f(x; θ))

dθ=

n∑

i=1

(xi − θ) = 0.Näin ollen tasavirtakomponentin maximum likelihood-estimaatti on otoskeskiarvoθ =

1

n

n∑

i=1

xi = x.Esim. 15. Tarkastellaan samaa tilannetta kuin edellisessä esimerkissä; muttaolettaen, ettei kohinan varianssia tunneta, ts. (riippumattomat) näytteet sig-naalista noudattavat normaalijakaumaaxi = θ1 + wi ∼ N(θ1, θ2), i = 1, . . . , n,jonka molemmat parametrit ovat tuntemattomia.Ratk. Tällöin satunnaismuuttujan Xi tiheysfunktio on

fXi(xi) =

1√2πθ2

e− (xi−θ1)2

2θ2ja satunnaismuuttujien Xi yhteisjakauman tiheysfunktio onfX(x; θ1, θ2) = (

1

2πθ2

)n2 e

− 12θ2

Pni=1(xi−θ1)2 .Log-likelihood-funktio

ln(fX(x; θ1, θ2)) = −n

2ln(2πθ2) −

1

2θ2

n∑

i=1

(xi − θ1)2.on kahden muuttujan funktio, jolla on yksikäsitteinen maksimikohta, sillä senHessin matriisi on negatiivisesti de�niitti ("alaspäin aukeava paraboloidi").Maksimikohta löytyy gradientin nollakohdasta

∇θ ln f(x; θ1, θ2) = 0.Toisin sanoen on ratkaistava yhtälöpari∂ ln f(x; θ1, θ2)

∂θ1=

1

θ2

n∑

i=1

(xi − θ1) = 0 (10.1)∂ ln f(x; θ1, θ2)

∂θ2

= − n

2

1

θ2

+1

2θ22

n∑

i=1

(xi − θ2)2 = 0 (10.2)

Page 57: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

57Yhtälöstä (1) voidaan ratkaista estimaatti odotusarvolle θ1:θ1 =

1

n

n∑

i=1

xi = x.Sijoitetaan se yhtälöön (2), joten varianssin estimaatti ratkaistaan yhtälöstä1

θ2

n∑

i=1

(xi − x)2 − n = 0,jonka ratkaisu onθ2 =

1

n

n∑

i=1

(xi − x)2.Maximum likelihood-estimoinnilla saatiin odotusarvolle harhaton estimaatti.Hajonnan estimaatti ei ole harhaton, mutta se on tarkentuva (kts. 8. luen-toviikon materiaali).Yleisesti voidaan osoittaa, että jos parametreista θ = [θ1, θ2, . . . , θk] riip-puva tiheysfunktio fX(x; θ) on riittävän "säännöllinen", niin maximum-likelihood estimaattori on tarkentuva ja asymptoottisesti optimaa-linen. Jos on olemassa tehokas estimaattori, niin maximum-likelihood-mene-telmällä ko. estimaattori on löydettävissä.Esim. 16. Olkoon X Poisson-jakautunut satunnaismuuttuja (X ∼ Poi(a))ja x1, x2, . . . , xn riippumattomia havaintoja X:stä. Määrää maximum-likeli-hood menetelmällä estimointikaava parametrille a.Ratk. Poisson-jakauman pistetodennäköisyysfunktio onP (X = xi) =

axi

xi!e−a, xi = 0, 1, 2, . . . .Koska havainnot ovat riippumattomia, niin havaintojen yhteisjakauman pe-rusteella likelihood-funktio (l. uskottavuusfunktio) on

L(x; a) =a

nP

i=1xi

x1!x2! · · ·xn!e−na.Uskottavuusfunktion logaritmi ln(L(x; a)) saavuttaa maksiminsa samassapisteessä a kuin uskottavuusfunktio, joten maksimoidaan

ln(L(x; a)) =[ n∑

i=1

xi

]

ln(a) − na − ln(x1!x2! · · ·xn!).

Page 58: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

58 CHAPTER 10. MAXIMUM LIKELIHOOD-ESTIMOINTIMaksimi löytyy derivaatan nollakohdasta:d ln(L(x; a))

da=

1

a

(n∑

i=1

xi

)− n = 0

⇒ a =1

n

n∑

i=1

xi.

Maximum likelihood-estimoinnissa siis tarkastellaan tuntematonta para-metrivektoria θ = [θ1, θ2, . . . , θk]T , joka pyritään määräämään havaintoai-neiston x = [x1, x2, . . . , xn]T avulla. Havainnot oletetaan olevan riippumatto-mia ja noudattavat samaa todennäköisyysjakaumaa f(xi; θ). Parametrivek-torin θ uskottavuus on verrannollinen todennäköisyystiheyteen:

L(θ) = f(x; θ).Koska havainnot ovat riippumattomia, niin uskottavuusfunktio on yksiulot-teisten jakaumien tuloL(θ) =

n∏

i=1

f(xi; θ).Käytännössä, kuten edellisistä esimerkeistä havaitsimme, uskottavuusfunk-tio on eksponentiaalista muotoa. Silloin on järkevää tarkastella uskottavuus-funktion logaritmial(θ) = ln(L(θ)).Funktiothan saavuttavat maksimikohtansa samassa pisteessä.Matematiikan peruskurssi II:n nojalla maksimikohdassa θ gradientti häviääl. osittaisderivaatat

∂l(θ)

∂θj= 0, j = 1, 2, . . . , k.Kuten MPK II:n kurssilla todettiin ei gradientin nollakohta välttämättäole maksimikohta, sillä gradientti häviää myös minimikohdassa tai satu-lapisteessä. Gradientin nollakohdassa uskottavuusfunktio (tai sen logaritmi)voidaan kehittää Taylorin sarjana

l(θ) = l(θ) + ∇θl(θ)T (θ − θ) +1

2

k∑

i,j=1

∂2l(θ)

∂θi∂θj

(θi − θi)(θj − θj) + · · ·

= l(θ) +1

2

k∑

i,j

∂2l(θ)

∂θi∂θj

(θi − θi)(θj − θj) + · · · .

Page 59: Tilastomatematiikk - s-mat-pcs.oulu.fis-mat-pcs.oulu.fi/~keba/Tilasto/tilasto_lectures.pdf · erik ois-tapauksessa k aikki mahdolliset suotuisat tapah tumat v oidaan iden ti oida

59Gradientin nollakohdan laatu riippuu siis neliömuodon1

2

k∑

i,j=1

∂2l(θ)

∂θi∂θj(θi − θi)(θj − θj)ominaisuuksista.Uskottavuusfunktion toiset derivaatat muodostavat ns. Fisherin infor-maatiomatriisin

J(θ) =[∂2l(θ)

∂θi∂θj

]

i,jVektorianalyysin perusteella uskottavuusfunktio saavuttaa maksiminsa gra-dientin nollakohdassa, jos Fisherin informaatiomatriisi on negatiivisesti de�-niitti, ts. kaikki sen ominaisarvot ovat negatiivisia.Nyt voidaan osoittaa, että maximum likelihood-estimaattori on• Tarkentuva, ts. lim

n→∞P (|θ(n) − θ| > ǫ) = 0, missä θ(n) on n:äänhavaintoon perustuva parametrin θ estimaatti.

• asymptoottisesti normaalijakautunut odotusarvona θ ja kovarianssi-matriisina (varianssina) 1nJ

−1, missä J on Fisherin informaatiomatriisi.• asymptoottisesti tehokas, ts. jos θ(n) on mikä tahansa tarkentuva,asymptoottisesti normaalijakautunut estimaattori parametrivektorille

θ kovarianssimatriisina Σ, niin J − Σ on positiivisesti semide�niitti.Näin ollen ML-estimaatti on myös asymptoottisesti optimaalinen.• Invariantti kuvausten suhteen. Olkoon g(·) vektorimuuttujan vektori-arvoinen funktio. Tällöin jos θ on parametrivektorin θ ML-estimaatti,niin g(θ) on parametrin g(θ) ML-estimaatti.HYVÄÄ KESÄÄ!!!!!