hipotézisvizsgálatok hypothesis testing - szie aotk · meghatározó számhalmaz, ha a...
TRANSCRIPT
Hipotézisvizsgálatok (hypothesis testing)
A statisztikának egyik célja lehet a populáció tulajdonságainak, ismeretlen paramétereinek a becslése.
A másik tipikus cél: valamely elmélet, hipotézis empirikus bizonyítása vagy cáfolata.
Nullhipotézisnek (null hypothesis) (H0) nevezzük azt a hipotézist,
� amelyet pillanatnyilag nincs okunk megkérdőjelezni, amely a tudomány jelenlegi álláspontja szerint elfogadható,
� amelyet, ha a kísérlet/felmérés semmi újat nem hoz, továbbra is fenntartunk,
� amely helyett nekünk már jobb elméletünk van, és a kísérletet éppen ennek a bizonyítására (egyben a régi megcáfolására) szánjuk.
Ellenhipotézisnek (alternative hypothesis) (H1) nevezzük azt a hipotézist, amelynek bizonyítását a kísérlettől várjuk (az “új elmélet”).
Megszoktuk, hogy általában valamely különbség, hatás, korreláció meglétét, azaz nem-nulla voltát szeretnénk bizonyítani, tehát azt a hipotézist szoktuk H0-nak választani, hogy az illető dolog (különbség, stb.) egyenlő nullával.
Teszt-statisztika (test statistic), próbastatisztika, próbafüggvény: az a mintából számított mennyiség, amelynek értéke alapján a döntést hozzuk. A teszt-statisztika – mivel a mintából számítjuk – véletlen változó. Olyan mennyiségnek kell lennie, amelynek eloszlása lehetőleg minél jobban eltér a H0 és a H1 fennállása esetén, például kisebb értékekre számíthatunk H0, nagyobbakra H1 esetén.
Elutasítási vagy kritikus tartomány (rejection region): a döntési szabályt meghatározó számhalmaz, ha a teszt-statisztika értéke ide esik, a nullhipotézist elvetjük, ha nem, megtartjuk. A kritikus tartomány kiegészítő halmazát elfogadási tartománynak is nevezik. E két tartományt elválasztó érték(ek) az úgynevezett kritikus érték(ek) (critical value).
Elsőfajú hiba valószínűsége (Type I error rate), α , annak a valószínűsége, hogy H0-t elvetjük, pedig igaz.
Az elsőfajú hiba, hogy a teszt-statisztika értéke a kritikus tartományba esik, bár a H0 igaz.
α a teszt-statisztika null-eloszlásától* (null distribution) és a kritikus tartomány megválasztásától függ. Szokásosan a kritikus tartományt úgy választjuk, hogy α = 5% (vagy 1%, esetleg 0.1%) legyen.
Példa:
Ha arra vagyunk kíváncsiak, hogy egy pénzérme szabályos-e, akkor
H0: az érme szabályos, azaz P(fej)=P(írás)=0.5
H1: az érme nem szabályos
Minta: 6 dobás eredménye (csak a példa egyszerűsége kedvéért ilyen kicsi)
* a teszt-statisztika eloszlása H0 fennállása esetén
Teszt-statisztika: a fejek száma a 6-ból
Null-eloszlás: (a fejek számának eloszlása H0 fennállása, azaz az érme szabályossága esetén): binomiális eloszlás n = 6 és p = 0.5 paraméterrel, azaz
érték 0 1 2 3 4 5 6 valószínűség 0.0156 0.0938 0.2344 0.3125 0.2344 0.0938 0.0156
Döntési szabály: 0 vagy 6 fej esetén elvetjük H0-t.
Az első fajú hiba valószínűsége: 0.0156+0.0156=0.0312
Mivel a tesztek nevüket általában a null-eloszlás után kapják, ezt binomiális tesztnek nevezik.
Másodfajú hiba (Type II error) : ha a H0-t megtartjuk, pedig H1 igaz. Valószínűségét ββββ-val jelöljük, (1-ββββ) a teszt ereje power .
Egy- és kétoldali ellenhipotézis
A céljainktól függően a legtöbb tesztben két fajta ellenhipotézissel dolgozhatunk. Az első esetben az elfogadási tartomány mindkét oldalán van elutasítási tartomány. Az eredmény értékelésekor a feltételezett értéktől való mindkét irányú eltérés érdekes. Ez a kétoldali ellenhipotézis.
H0: p=p0 H1: p≠p0
Időnként az egyik irányú eltérés érdektelen a kísérlet szempontjából, például ha egy új eljárást vizsgálunk a vércukorszint csökkentésére, akkor érdektelen az, hogy az érték nő vagy változatlan marad, csak a csökkenést van értelme kimutatni. Ez az egyoldali ellenhipotézis.
H0: p≤p0 H1: p>p0, vagy
H0: p≥p0 H1: p<p0
Figyeljük meg, hogy a nullhipotézisben mindig van egyenlőség.
Az, hogy számunkra a nullhipotézis elutasítása vagy megtartása a kedvező, mindig a kísérleti elrendezéstől függ.
Normális eloszlású változó várható értékére vonatkozó próbák egy minta esetén
z-próba vagy u-próba (u-test)
„Tartható-e az az álláspont, hogy a vizsgált változó populációátlaga egy feltételezett
0µ érték?”
Feltétel: normális eloszlású változó, valamint (ismert σ szórás, vagy 30-nál nagyobb elemszám).
Próba-statisztika:
n
xuz
σµ0−
== , ahol ( )1,0~ NZ
Nullhipotézis: 00 : µµ =H
Ellenhipotézis: 01 : µµ ≠H
Kritikus tartomány: { }kritzzK >:
Nullhipotézis: 00 : µµ ≤H
Ellenhipotézis: 01 : µµ >H
Kritikus tartomány: { }kritzzK >:
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61zkrit
a
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 610 zkrit
a/2 a/2
-zkrit
egymintás t-próba (one sample t-test)
Feltétel: normális eloszlású változó (robosztus, elég ha szimmetrikus és unimodális)
Próba-statisztika:
n
s
xt 0µ−= ,
mely Student féle t eloszlású változó, n-1 szabadsági fokkal
Minden más megegyezik a z-próbával. Az egyetlen különbség, hogy a szórás ismert, vagy a mintából kell becsülni. A t-próba értelemszerűen kevésbé hatékony, hiszen eggyel több becsült paramétert használ.
Ha a mintaelemszám elég nagy (>30), akkor használható a z-próba is.
A z-próbát csak a kézzel, táblázatból történő munka esetén preferáljuk. A számítógépes programokkal nyugodtan használhatjuk a t-próbát.
Normális eloszlású változó várható értékére vonatkozó próbák két minta esetén
z-próba vagy u-próba
„Tartható-e az az álláspont, hogy a vizsgált változók átlaga megegyezik a két populációban?”
Feltétel: független, normális eloszlású változók, valamint (ismert szórások, vagy 30-nál nagyobb elemszámok).
Próba-statisztika:
2
22
1
21
21
nn
xxuz
σσ+
−== , ahol ( )1,0~ NZ
Nullhipotézis: 210 : µµ =H
Minden más ugyanúgy megy, mint az egymintás esetben.
Kétmintás t-próba (two sample t-test)
Feltétel: független, normális eloszlású változók ismeretlen, de vélhetően azonos szórással.
Próba-statisztika:
21
21
11
nns
xxt
+⋅
−= , ahol
( ) ( )2
11
21
2
22
2
11
−+−+−
=nn
snsns
Szanadsági fokok száma: 221 −+ nn
Nullhipotézis: 210 : µµ =H
Ha a két szórás nem egyezik meg, akkor vagy megpróbáljuk transzformálni a mintákat, vagy közelítő próbát alkalmazunk. (Welch-próba)
Welch-próba (Welch-test)
Feltétel: független, normális eloszlású változók.
Próba-statisztika:
2
22
1
21
21
n
s
n
s
xxt
+
−=
Szabadsági fokok száma: ( )( )
( ) ( )( )
−−+−
−−=
22
21
21
111
11
cncn
nnnW , ahol
2
22
1
21
2
22
2
n
s
n
s
n
s
c
+
=
Nagy mintákra (mindkét elemszám nagyobb, mint 30) a szórások jól becsülhetőek és a z-eloszlás kritikus értékei elég közel vannak a t-eloszlás kritikus értékeihez, ezért a z-próba használható a mintából becsült szórások esetén is.
A t-próbát és a Welch-próbát kis mintákra használjuk attól függően, hogy a szórásokat azonosnak gondoljuk-e. Ha nem tudjuk, használhatjuk az F-próbát a szórások tesztelésére. A statisztikusok egy része ezt nem fogadja el, szerintük a két szórás sosem tekinthető azonosnak.
A Welch-próba is csak közelítő eredményt ad, de használata széles körben elfogadott.
A fenti módszerekkel nem csak az átlagok egyenlősége tesztelhető, hanem a köztük levő eltérés is.
A számítógépes programok általában csak a t-próbát ismerik, a Welch-próbát is abba építik be.
Várható értékre vonatkozó próba két összefüggő minta esetén
Páros t-próba (paired t-test)
Ha a két minta összefügg (például ugyanazon egyedeken végeztük a mérést a kezelés előtt és a kezelés után, vagy ikerpárokon mérünk, …), akkor a kétmintás t-próbánál jóval erősebb a páros t-próba (paired t-test).
Technikailag egy mintát képzünk, kiszámolva mindenütt a két változó értékének különbségét, és arra egymintás t-próbát alkalmazunk.
Megjegyzések:
A páros t-próba azért erősebb, mert információt hordoz, hogy melyik mérés melyikkel áll párban. A kapott különbségek szórása jóval kisebb lehet, mint a kétmintás próbában előálló szórás.
Ha kezelés előtti és utáni eredményeink vannak, akkor a különbséget célszerű úgy képezni, hogy a későbbi mérés eredményéből vonjuk ki a korábbiét, ez esetben ugyanis a pozitív eredmény jelenti a növekedést.
Feltétel: a mérések ugyanazon az egyedeken, vagy más módon párosítható mintákon történtek (a minták nem függetlenek), valamint a két változó különbsége normális eloszlású (a változók nem kell, hogy azok legyenek).
Nullhipotézis: 00 µµ =dH :
Próba-statisztika:
n
s
dt
d
0µ−=
Varianciaanalízis (ANOVA)
Kettőnél több minta esetén annak a nullhipotézisnek a tesztelésére szolgál, hogy valamennyi részpopulációban, amelyekből a minták származnak, ugyanaz a várható érték. Az ellenhipotézis, hogy van olyan (egy vagy több) részpopuláció, melyben a várható érték eltér.
A próba feltétele a változók normalitása és a szórásuk azonossága, valamint az adatok függetlensége.
Számtalan módon előfordulhat az, hogy a nullhipotézis nem teljesül!
Populációban egy tulajdonság arányára vonatkozó próba
z-próba
„Tartható-e az az álláspont, hogy a vizsgált tulajdonság előfordulási valószínűsége a populációban a feltételezett 0p érték?”
Feltétel: mivel a próba a binomiális eloszlás közelítésén alapul, hagyományosan akkor tekintik elfogadhatónak, ha 55 −≤≤ npnˆ , ahol p̂ a mintabeli relatív gyakoriság.
Nullhipotézis: 00 ppH =:
Próba-statisztika: ( )n
pp
ppz
00
0
1−−
=ˆ
Ha a feltételek nem teljesülnek, akkor egzakt binomiális próbát kell csinálni. (Lásd konfidencia-intervallum meghatározás…)
Két valószínűség összehasonlítása
„Származhat-e a két független minta adott tulajdonságra vonatkozóan azonos előfordulási valószínűségű populációból?”
Nullhipotézis: 210 ppH =:
Próbastatisztika: ( )
21
21
111
ˆˆ
nnpp
ppz
pp+−
−= , ahol
21
21
nn
ffp p +
+=
Két valószínűség összehasonlítása homogenitás vizsgálatként, 2χ -próbával is történhet.
Egy változó varianciájára vonatkozó próba
2χ -próba
„Tartható-e az az álláspont, hogy a vizsgált változó populációbeli varianciája egy
feltételezett 20σ érték?”
Feltétel: a vizsgált változó normális eloszlású.
Nullhipotézis: 20
20 σσ =:H vagy 2
02
0 σσ ≥:H vagy …
Próba-statisztika: ( )
2
22 1
σχ sn −
=
Szabadsági fok: n-1
Kritikus tartomány:
20
21 σσ ≠:H esetén
≥≤ −+
22222
21
21 vagy pp χχχχχ :
20
21 σσ <:H esetén
≤ +
222
21 pχχχ :
Két változó varianciájának összehasonlítása
F-próba (F-test)
„Tartható-e az az álláspont, hogy a vizsgált változók varianciája megegyezik a két populációban?”
Feltétel: normális eloszlású(!) független változók, 22
21 ss ≥ (sorszámozás kérdése…)
Nullhipotézis: 22
210 σσ =:H vagy 2
2210 σσ ≥:H (harmadik nem lehet 2
221 ss ≥ miatt)
Próba-statisztika: 22
21
s
sF =
Szabadsági fok: n1-1 a számlálóban, n2-1 a nevezőben
Kritikus tartomány: {2
1 pFFF −≥: } illetve { pFFF −≥ 1: }
A normalitás nagy mintaelemszám esetén is kell.
Nemparaméteres próbák
Ha az eddig megismert paraméteres próbák nem alkalmazhatóak, mert nem teljesülnek a feltételeik, akkor nemparaméteres próbákat kell alkalmazni. Ezek általában sokkal egyszerűbbek, mint a paraméteres próbák, sokkal megengedőbbek (feltételek), viszont jóval kisebb az erejük.
A paraméteres és a nemparaméteres próbák összehasonlítása
Nemparaméteres próbák Paraméteres próbák
Nagyjából függetlenek a változó eloszlásától. DE: azért nem minden eloszlásra, csak egy tágabb körre. Feltételeket ellenőrizni kell.
Feltételezik, hogy ismert a változó eloszlása: (leggyakrabban) normális, exponenciális, binomiális, stb.
Mediánok összehasonlítása. Átlagok és varianciák összehasonlítása. Gyakoriságok elemzésére alkalmas. A gyakoriságokat általában transzformálni
kell előtte.
Származtatott adatok elemzésére is jó, pl. arányok.
Származtatott adatokat először transzformálni kell.
Előjelpróba (sign test)
“Tartható-e az az álláspont, hogy a vizsgált változó mediánja egy feltételezett med0 érték?”
Feltétel: a vizsgált változó eloszlása folytonos. 6 30< <n
Nullhipotézis: 00 medmedH =:
Próba-statisztika: a medhipot-nál nagyobb mintaelemek száma.
<>
=0
0
ha0
ha1
medx
medx
i
ii
,
,δ , ∑
==
n
iiB
1δ
Vigyázat! n-be azokat nem számoljuk bele, ahol 0medxi = !
Kritikus tartomány: a null-eloszlás binomiális, n=mintaelemszám, p=0.5. A kritikus tartomány 1H -től függően egy- vagy kétoldali.
Megjegyzések:
� A próbát azért hívják előjelpróbának, mert eredetileg a medián(X) = 0 hipotézis tesztelésére találták ki, és ekkor a próbához a mintabeli értékeknek csupán az előjelét használjuk.
� Két párosított minta esetén a különbségekre alkalmazható.
� Feltételként az eloszlás folytonossága helyett elegendő annyi is, hogy P(med0) = 0.
� Nagy mintára a binomiális eloszlást a szokásos módon közelíthetjük Poissonnal vagy normálissal.
� Ugyanígy megy medián helyett tetszőleges kvantilisre.
Wilcoxon-féle előjeles rang-próba (Wilcoxon signed rank test)
“Tartható-e az az álláspont, hogy a vizsgált változó mediánja egy feltételezett med0 érték?”
Feltétel: a vizsgált változó eloszlása folytonos és szimmetrikus
Szimmetrikus eloszlás esetén a medián és az átlag egybeesik, ezért mindegy, melyikkel fogalmazzuk meg a hipotéziseket. Csak hagyomány-tiszteletből írjuk fel mediánnal.
Nullhipotézis: 0H : med = med0
Próba-statisztika: a megfigyelt értékek med0-tól való eltéréseit abszolút értékük nagysága szerint sorba rendezzük, és rangszámokat rendelünk hozzájuk. A statisztika a pozitív eltérésekhez tartozó rangok összege.
Párosított minták esetén a különbségre alkalmazható.
Példa:
10 elemű minta: 1.4 3.3 5.0 5.0 6.2 7.5 10.1 10.5 13.0 18.1 med0 = 9
Eltérések: -7.6 -5.7 -4.0 -4.0 -2.8 -1.5 1.1 1.5 4.0 9.1 Rangszámok: 9 8 6* 6* 4 2.5§ 1 2.5§ 6* 10
* § Egyenlő abszolút eltérést adó értékek (ties) esetén mindegyikük az összesen rájuk jutó rangok átlagát kapja (kapcsolt rangok, tied ranks).
A pozitív eltérések rangösszege: T+ = 19.5
Kritikus tartomány: { }kritTTK ≤+: . A null-eloszlást kis mintaelemszámokra kiszámolták, a kritikus értékeket táblázatba foglalták. (Csak akkor érvényes, ha nincsenek kapcsolt rangok!)
Nagyobb mintákra a null-eloszlás a ( )
4
1+=
nnµ , 24
121 ))(( ++=
nnnσ paraméterű
normálissal közelíthető, a kritikus értékek ebből számolhatók.
Mann-Whitney-féle U-teszt (vagy: Wilcoxon-féle rangösszeg-teszt)
“Tartható-e az az álláspont, hogy a vizsgált X és Y változókra igaz a P(X<Y)=P(X>Y) egyenlőség (azaz ha mindkét változót megfigyeljük, azonos esély van arra, hogy az egyik, illetve a másik lesz nagyobb)?”
Feltétel: a változók eloszlása folytonos, sűrűségfüggvényeik azonos alakúak (eltolással egymásba átvihetők, varianciák megegyeznek); a két változóra két független mintánk van.
Nullhipotézis: 0H : a változók eloszlása megegyezik, azaz az eltolás 0.
Ellenhipotézis: 1H : az eltolás ≠ 0 (ez kétoldali ellenhipotézis, de megfogalmazható egyoldali is)
/
Kolmogorov-Smirnov próba
“Tartható-e az az álláspont, hogy a vizsgált X és Y változók eloszlása azonos?”
A kétmintás t-próba megfelelője nem egyező varianciák esetére.
Feltételek: Ordinális vagy folytonos változók, független minták, azonos alakú eloszlások.
Nullhipotézis: )()(:0 YFXFH ≡
Ellenhipotézis: )(: XFH1 ≡ F(Y)
Próbastatisztika: A két eloszlásfüggvény közötti maximális differencia.
Nagyon kevéssé hatékony teszt.
Medián (Mood) próba
“Tartható-e az az álláspont, hogy a két minta ugyanakkora mediánú populációból származik?”
Nullhipotézis: 210 medmedH =:
Számítás menete: Kiszámítjuk az összes adat közös mediánját. Készítünk belőle egy 2×2-es kontingencia táblázatot, és abból kiszámítjuk az alábbi 2χ értéket:
1. minta 2. minta > Közös medián 11f 12f
≤ Közös medián 21f 22f Próba-statisztika:
( )( )( )( )2221121122122111
2
221222112 2
ffffffff
nffff
++++
−−
=χ
Kritikus tartomány:
1H : med1 ≠ med2 esetén { χ 2 : χ 2 ≤ χ 2 1 – α / 2 vagy χ 2 ≥ χ 2
α / 2 },
1H : med1< med2 esetén { χ 2 : χ 2 ≤ χ 2 1 – α },
1H : med1> med2 esetén { χ 2 : χ 2 ≥ χ 2α },
ahol α az elsőfajú hiba megengedett szintje, χ 2α , χ 2
α / 2 és χ 2 1 – α / 2 pedig az n-1
szabadsági fokú χ 2-eloszlás megfelelő kritikus értékei.
Megjegyzés:
Sokkal gyengébb teszt, mint a kétmintás t-próba, illetve a M-W teszt, ha azok is alkalmazhatók.
Ha néhány gyakoriság nagyon kicsi, akkor a Fischer-féle egzakt teszt alkalmazandó.
Példa:
X-re 8 elemű minta: 1, 3, 7, 8, 9, 15, 16, 17
Y-re 10 elemű minta: 5, 6, 8, 10, 12, 15, 18, 21, 23, 25
Összevont minta: 1, 3, 5, 6, 7, 8, 8, 9, 10, 12, 15, 15, 16, 17, 18, 21, 23, 25
Közös medián = 11
1. minta 2. minta > Közös medián 11f =3 12f =6
≤ Közös medián 21f =5 22f =4
( )( )( )( )
( )( )( )( ) 84132045099118
918
456356532
18564318
2
2050
2
2
2221121122122111
2
221222112
,, , =<=⋅⋅⋅
⋅=
++++
−⋅−⋅⋅
=
++++
−−
=
χ
χffffffff
nffffn
0H⇒ -t nem vetjük el
Kruskal-Wallis-féle H teszt (Kruskal-Wallis H-test)
Több mint két minta esetén használjuk, hasonlóan az ANOVA-hoz.
Feltétel: a változók eloszlása folytonos, sűrűségfüggvényeik azonos alakúak (eltolással egymásba átvihetők); k változóra k független mintánk van.
Nullhipotézis: 0H : mind a k változó eloszlása megegyezik
Ellenhipotézis: 1H : nem mind azonos eloszlásúak
Próba-statisztika: bonyolult… (lásd lejjebb)
Kritikus tartomány: a null-eloszlás aszimptotikusan χ2 (k–1 szabadsági fokkal), ebből kaphatjuk a kritikus értékeket
Példa:
Egy biológus 4 mezőn (A, B, C, D) 5-5 véletlenszerűen kiválasztott kvadrátban számolja az orchideákat. Van-e különbség bármelyik két mező között az orchideák számát tekintve?
megf/mező A B C D 1 27 (12) 48 (16) 11 (6) 44 (15) 2 14 (7) 18 (9,5) 0 (1) 72 (19) 3 8 (4,5) 32 (13) 3 (2) 81 (20) 4 18 (9,5) 51 (17) 15 (8) 55 (18) 5 7 (3) 22 (11) 8 (4,5) 39 (14)
A Kruskal-Wallis próba menete:
Készítsük el a fenti táblázatot. Oszloponként vannak a minták, zárójelben a megfigyelések rangja (összes mintaelemre együtt kiszámítva).
Számítsuk ki mintánként a darabszámokat (ni) és adjuk össze: N.
Számítsuk ki mintánként a rangösszeget: Ri. Emeljük négyzetre: 2iR .
Osszuk el a mintaelemszámmal és adjuk össze: ∑i
i
n
R2
.
A próbastatisztika ( 2χ eloszlású): ( ) ( )131
122
+−
+⋅
= ∑ N
NNn
RK
i
i
Hasonlítsuk össze K-t a megfelelő χkrit2 értékkel. A szabadsági fok: a minták száma-1
(4-1=3).χkrit2 7 81= . . K krit> χ 2 ⇒ elutasítjuk a H0-t.
Ezek szerint az orchideák számát tekintve a mezők nem tekinthetők egyformáknak. Csak azt tudjuk, hogy valamelyik kettő között biztos van különbség. Biztos, hogy a
legnagyobb és a legkisebb átlagos rangszámú
i
i
n
R különbözik, jelen példában a C és
D mezők.
Megjegyzések:
Két minta esetén ugyanaz mint a Mann-Whitney próba.
Szignifikancia esetén nem tudjuk megmondani, hogy ténylegesen melyikek különböznek (legkisebb-legnagyobb biztos).
Ha a kmedmedmedH === ...: 210 hipotézis szeretnénk tesztelni, a medián próba kiterjeszthető több minta esetére.
Nem független minták esetén a Friedman teszt használható.
Gyakoriságok elemzése
Leszámolásos mintákra alkalmazható próbák.
Klasszikus módszer: χ 2 próba. Alkalmazzák homogenitás, véletlenszerűség, függetlenség és illeszkedésvizsgálatra.
Alapelv: megfigyelt gyakoriságokat összehasonlítása nullhipotézis alapján várt gyakoriságokkal. Ha az eltérés egy bizonyos kritikus értéknél nagyobb, akkor elutasítjuk a nullhipotézist.
Lényeg: hogyan számítsuk ki a várt gyakoriságokat?
Illeszkedés vizsgálat (goodness-of-fit, GOF)
„Tartható-e az az álláspont, hogy a vizsgált változó populációbeli eloszlása (eloszlásfüggvénye) egy feltételezett Fhipot eloszlás (eloszlásfüggvény)?”
2χ -próba
Feltételek: a próbához a változó értékkészletét osztályokba kell sorolni és minden osztályra meghatározni az ei ún. várt gyakoriságot (a gyakoriság illeszkedés esetén várható értékét): a mintaelemszámot meg kell szorozni annak az i. osztálynak a feltételezett eloszlás szerinti valószínűségével. Akkora mintával kell dolgozni, vagy az osztályokat úgy megválasztani, hogy az ei-k ne legyenek 3-nál kisebbek, és 5-nél kisebbek is legfeljebb az osztályok 20%-ában.
0100 FFHFFH ≠≡ ::
0.1
0.2
0.3
0.4
P
25 10 15 20
2
46
10
χ
Próba-statisztika: ( )χ 2
2
1
=−
=∑ f e
e
i i
ii
k
, ahol fi a megfigyelt gyakoriság, ei a várt
gyakoriság, k pedig az osztályok száma.
Kritikus tartomány: { }K krit: χ χ2 2> . A kritikus értéket a szignifikancia szintnek
megfelelően kell kikeresni.
Tiszta illeszkedésvizsgálat: A feltételezett eloszlás típusa és paraméterei is ismertek. Szabadsági fok: k -1.
Becsléses illeszkedésvizsgálat: Csak az eloszlás típusa ismert, a paramétereit becsüljük. Szabadsági fok: k-1-(becsült paraméterek száma).
� Normalitást is ezzel a próbával vizsgálhatunk.
� df = 1 esetén szokták az ún. Yates korrekciót alkalmazni: ( )
,5.0
1
22 ∑
=
−−=
k
i i
ii
e
efχ
de erről a statisztikusok véleménye különbözik, azt a módszert kell használni, amely a tudományterületen, vagy az adott folyóiratban szokásos.
Példa:
Kockadobás. Az az elképzelésünk (modellünk), hogy a kocka szabályos, azaz minden szám egyforma (1/6) valószínűséggel fordulhat elő. A modell teszteléséhez dobáljuk a kockát, számoljuk az egyes előfordulások gyakoriságát, majd elvégezzük a χ 2 -próbát.
Formálisan felírva a hipotéziseket:
H0: A kocka szabályos
H1: Nem szabályos
( )χ 22
1
=−
=∑ f e
e
i i
ii
k
, ahol fi a megfigyelt gyakoriság,
ei a várt gyakoriság, k pedig az osztályok száma.
Behelyettesítve a képletbe:
( ) ( ) ( )..... 214
10
142
10
104
10
106
10
108 2222 ==
−++
−+
−=χ > 07112 .=kritχ
⇒ elutasítjuk a nullhipotézist!
érték megfigyelt (fi) várt (ei) gyakoriság
1 8 10 2 6 10 3 16 10 4 17 10 5 9 10 6 4 10
Kolmogorov-Szmirnov próba
Az eloszlásfüggvények legnagyobb abszolút eltérését veszi csak figyelembe.
Példa:
Házi rövidszőrű macskák étkezési preferenciáinak tesztelése. Ugyanaz a táp 5 féle nedvességtartalommal. 35 éhes macskát letettek egyenként az 5 táptól ugyanolyan távolságra. Melyiket választják?
H0: A macskáknak nincs nedvesség preferenciája
H1: Legalább egyfélét preferálnak
Próba-statisztika: dmax=7
Táblázatból: dkrit(0.05, 5, 35)=7
K:{dmax ≥ dkrit} ⇒ H0-t elutasítjuk.
Nedves → száraz táp 1 2 3 4 5
fi 8 13 6 6 2
ei 7 7 7 7 7
kum fi 8 21 27 33 35
kum ei 7 14 21 28 35
di 1 7 6 5 0
Függetlenségvizsgálat – khi-négyzet próba
„Tartható-e az az álláspont, hogy a két vizsgált változó független egymástól?”
A próbához mindkét változó értékkészletét osztályokba kell sorolni (nem feltétlenül ugyanannyi osztályba!) és minden osztály-kombinációra (cellára) meghatározni az ún. várt gyakoriságot (eij) az alábbi képlettel:
∑ ∑
∑∑
= =
===I
i
J
jij
J
jij
I
iij
ij
f
ff
e
1 1
11))((
,
ahol I és J az egyik, illetve másik változó szerinti osztályok száma, fij pedig az i,j-edik cella mintabeli gyakorisága.
Feltételek: Akkora mintára van szükség, hogy az eij várt gyakoriságok ne legyenek 3-nál kisebbek, és 5-nél kisebbek is legfeljebb a cellák 20 %-ában.
1 2 3 ... J-ik osztály
1
2
...
I-ik
oszt. ez a (2, 3)-ik
Nullhipotézis: H0: a két vizsgált változó független egymástól
Ellenhipotézis: H1: nem függetlenek
Próba-statisztika: ( )
,∑ ∑= =
−=
I
i
J
j ij
ijij
e
ef
1 1
22χ ahol fij a megfigyelt, eij a várt gyakoriság az
i,j-edik cellában, I és J pedig az egyik, illetve a másik változó szerinti osztályok száma.
Elutasítási tartomány: {χ 2:χ 2≥χ 2α}, ahol 2
αχ az (I–1)(J–1) szabadsági fokú
χ2-eloszlás megfelelő kritikus értéke.
Ha nem független két változó, akkor hogyan tudjuk mérni a kapcsolat
erősségét?
� kontingencia táblázatok (nominális változók esetén) pl. asszociációs mértékekkel,
� ordinális skálák esetén pl. rangkorrelációval,
� intervallum skála esetén pl. a korrelációs együtthatóval.
Homogenitásvizsgálat
„Tartható-e az az álláspont, hogy a vizsgált változó eloszlása (eloszlásfüggvénye) azonos a két populációban?”
Függetlenségvizsgálat
A vizsgálatot visszavezethetjük függetlenségvizsgálatra egy új változó segítségével, amelynek értéke minden mintaelemre annak a populációnak a sorszáma, amelyből a mintaelem származik (1 vagy 2). Az, hogy a vizsgált változó ugyanolyan eloszlást követ a két populációban, ekvivalens azzal, hogy a vizsgált változó független ettől a sorszám-változótól.
A sorszám-változónak természetesen két osztálya van, a vizsgált változó értékeit pedig a függetlenségvizsgálat feltételeinek megfelelően kell osztályokba sorolni.
1 2 3 ... J-ik osztály
1
2
osztály (populáció)
Feltételek: lásd a függetlenségvizsgálatnál.
Nullhipotézis: H0: F1=F2, ahol F1 és F2 az ismeretlen eloszlásfüggvények.
Ellenhipotézis: H1: F1≠F2
Próba-statisztika: lásd a függetlenségvizsgálatnál.
Elutasítási tartomány: lásd a függetlenségvizsgálatnál.
Ezzel a módszerrel kettőnél több populációra is végezhető homogenitásvizsgálat.
Ha nem lett volna érthető: mindkét mintát osztályokba soroljuk, azonos határokkal. A táblázat első sorába az első mintából, a második sorába a második mintából írjuk be a megfigyelt gyakoriságokat. Így az első sor az első mintára, a második a második mintára vonatkozik. Ha a két sorban az eloszlás azonos, az ugyanazt jelenti, mintha a két minta független lenne.
Fisher egzakt teszt 2x2-es kontingencia táblázatokra
Ha túl kicsik a gyakoriságaink, akkor a 2χ próba nem ad helyes eredményt (csak közelítés, nagy mintákra működik jól.)
A Fisher egzakt teszt azt számítja ki, hogy az adott marginális eloszlások mellett mekkora az adott, illetve annál extrémebb táblázatok valószínűsége, ha feltételezzük a változók függetlenségét. Ha ez a valószínűség kicsi (<5%), akkor nem fogadjuk el a nullhipotézist.
Példa:
Van 40 betegünk, akik részben pszichotikusok, részben neurotikusok, illetve részben éreznek öngyilkossági hajlamot, részben nem.
Öngyilkossági hajlam
pszichotikus neurotikus Összes
Igen 2 6 8 Nem 18 14 32 Összes 20 20 40
Egy adott táblázat valószínűségét a hipergeometrikus eloszlás adja meg:
Az adott marginálisok mellett a táblázat valószínűsége:
Mit jelent az, hogy extrémebb?
Kiválasztjuk azt az átlót, amelyben a gyakoriságok összege nagyobb, és azt még tovább növeljük (az adott irányú összefüggés irányába megyünk tovább.)
Itt úgy tűnik, mintha a neurotikusok kicsit hajlamosabbak lennének az öngyilkosságra, mint a pszichotikusok. Megnézzük, hogy mi a helyzet, ha még jobban eltoljuk ebbe az irányba a táblázatot:
Öngyilkossági hajlam
pszichotikus neurotikus Összes
Igen 1 7 8 Nem 19 13 32 Összes 20 20 40 Öngyilkossági hajlam
pszichotikus neurotikus Összes
Igen 0 8 8 Nem 20 12 32 Összes 20 20 40