hipotézisvizsgálat (1. rész) kontingencia táblák
DESCRIPTION
Hipotézisvizsgálat (1. rész) Kontingencia táblák. Honlap: hhtp://xenia.sote.hu/hu/biometr/. Kérdések. A tüdőrákos betegek hány százaléka dohányos? Mennyivel hatásosabb A gyógyszer, mint B gyógyszer? Mennyi a vérplazma T 3 szint referencia értéke Budapesten? - PowerPoint PPT PresentationTRANSCRIPT
Hipotézisvizsgálat (1. rész) Kontingencia táblák
Honlap: hhtp://xenia.sote.hu/hu/biometr/
Kérdések
• A tüdőrákos betegek hány százaléka dohányos?• Mennyivel hatásosabb A gyógyszer, mint B
gyógyszer?
• Mennyi a vérplazma T3 szint referencia értéke Budapesten?
• Azonos-e fiuk és lányok matematikai teljesítménye?• Kevesebb-e a mellékhatása a „coxib” tipusú
gyógyszereknek, mint a klasszikus NSAID vegyületeknek, krónikus izületi betegségekben?
• Hatásos-e az influenza elleni védőoltás?
A biometriai kérdések két nagy csoportja:
• Becslések– A populáció (sokaság) tulajdonságai iránt érdeklődünk
– Mintavétel után a mintából megbecsüljük a populáció tulajdonságait (eloszlás, elhelyezkedés, szórás)
– Meghatározzuk becslésünk megbízhatóságát.
• Hipotézis vizsgálatok– Mintát hasonlítunk egy elméleti értékhez
– Mintákat hasonlítunk egymáshoz
– Hipotéziseket állítunk fel (H0, H1, azaz 2 vagy több hipotézis)
– Meghatározzuk, mekkora kockázattal vállalunk hibás döntést
– Döntünk, hogy melyik hipotézist támasztják alá az adatok.
Becslések
• Átlag, medián, etc (elhelyezkedés, )• Szórás, átlag hibája, terjedelem, etc (szóródás, )• Konfidencia intervallum
– Példa: az átlag és annak 95% konfidencia intervalluma • a. eset: ha ismert a populáció szórása ()• b. eset: a szórást is becsüljük
),(
),(
0.95 0.95
0.95 0.95
tsxtsx
zsxzsx
xx
xx
Az összehasonlítás tipusai
• Kontroll (placebo) és kezelés• “Konvencionális” és új kezelés• Ekvivalencia
(x anyag - y anyag összehasonlítása)
• Dózis-hatás összefüggés– Receptor kötés (kötési paraméterek)
– enzimaktivitás (enzim paraméterek)
• Kölcsönhatások vizsgálata
Hipotézis vizsgálat (statisztikai)• Módszer arra, hogy meghatározzuk, hogy adatok mennyiben
konzisztensek egy adott, vizsgált statisztikai hipotézissel– Szakmai vita tárgya a statisztikát kutatók körében, hogyan érdemes
vizsgálni a véletlen szerepét, hatását– Több iskola van:
• klasszikus hipotézis vizsgálatok• Bayesianus vizsgálatok, feltételes valószínűségeken alapulnak.
• Hasonló az egyszerű orvosi diagnózis felállításához– Beteg– Előzetes adatok (anamnézis, stb)– néhány lehetséges betegség– Vizsgálatok– Diagnózis (legtöbbször: egy valószínű betegség)– Kezelés
A módszer választáshoz útmutatás
• Függ:– A kutatási kérdéstől
– Kísérleti elrendezéstől
– A mérés skálájától (nominális, rang, intervallum)
– Az elemszámtól
• Van-e különbség? – 1 csoport
– 2 csoport
– 3, vagy több csoport
• Van-e összefüggés?• Hány független változó van?
Kiinduló feltételezések
• A változó mérhető– nominális skálán– ordinális skálán– numerikus skálákon
• A null hipotézis vonatkozhat– az eloszlások azonosságára– a mediánok azonosságára– a szóródás azonosságára
• A minták száma– Lehet 1, 2, >2
Thomas, PRM, Tefft M, D'Angio GJ, Norkool OP, Farewell VT: Relapse patternsin irradiated Second National Wilms' Tumor Study (NWTS-2) patients. Proc AmSoc Clin Oncol 24: 69 (1983)
Operative site Field size too small
Field sizeOK
Total
Relapse 2 2 4
No relapse 21 234 255
Total 23 236 259
Mi a populáció?
Mi a populációban a relapszus előfordulása?
Egy klinikai példaD.E. Matthews and V.T: Farewell: Using and understanding medical statistics. Karger 1996
Relapszus ráta: 4/259=0,015 1,5%de ajól sugarazottakban: 2/236=0,009 0,9%nem jól sugarazottakban: 2/23 =0,087 8,7%
A lehetséges táblák, ha a pirossal irott széli összegek rögzítettek
0. tábla
1. tábla
2. tábla
3. tábla
4. tábla
3 1 4
20 235 255
23 236 259
4 0 4
19 236 255
23 236 259
1 3 4
22 233 255
23 236 259
2 2 4
21 234 255
23 236 259
0 4 4
23 232 255
23 236 259
Az egyes táblák előfordulásának valószínűsége, ha a relapszusokra igaz, hogy
r1=r2=rp
Tábla # 0 1 2 3 4 ÖsszesP 0,6875 0,2715 0,0386 0,0023 0,0001 1,000
H0: r1 = r2 , elfogadjuk, ha a megfigyelt különbségek csak a véletlennek tulajdoníthatók
H1: r1<>r2 , elfogadjuk, ha a megfigyelt különbségek nagy valószínűséggel
a valós populációs relapszus arányokat mutatják
A 2. számú tábla a megfigyelt adatok táblája:
Mi annak a valószínűsége, hogy 2, 3, vagy 4 relapszus forduljon elő a túl kicsi területen besugárzott 23
beteg között?
Összeadjuk a 2, 3, és 4. Táblák valószínűségét: 0,0386+0,0023+0,0001 0,04
Fisher tesztben az egyes táblák valószínűsége, ha a feltételek teljesülnek és a jelölések a
standard kontingencia táblának megfelelnek • Feltételek:
– A null hipotézis teljesül
– bármelyik kimenetel egyformán valószínű
• Számitás a binomiális együttható (koefficiens) felhasználásával– levezetés nélkül, ahol R1, C1, t, N a tábla adatai
– az 1. sor (row, R1) és az 1. cella (C1) jelöléssel, t a cellába éppen belekerült szám, N az összes adat.
– pt valószínűség, hogy az első cellába éppen t kerül.
11
11 /C
N
tC
RN
t
Rpt
A hipotézis vizsgálat kimenetele
Döntés H0 igaz H1 igaz
H0-t elvetjük,és akkorH1-et elfogadjuk
Elsőfajú hiba( )
Helyes döntés
Nem vetjük el H0-t,(azaz elfogadjuk H0-t)és akkornem fogadjuk el H1-et
Helyesdöntés
Másodfajú hiba( )
A döntési küszöbök értékei
• Elsőfajú hiba (, alfa), második fajú hiba (, béta)
• A meghatározása nehezebb – oka, hogy sok (esetleg végtelen sok) alternatív
hipotézis létezhet
– Ha az alternatív hipotézis igaz, akkor annak a null hipotézistől való “távolságától” függ a teszt ereje, és a
• a módszer ereje (“power”) gyakran ismeretlen, illetve meghatározásához viszonylag sok ismeretre van szükségünk
Kontingencia táblák
• Fisher tesztje a 2x2-es táblára (pontos)• Közelítő teszt (Khi négyzet, 2 teszt)
Khi négyzet próba kontingencia táblák vizsgálatára
• Feltételezések:– a siker valószínűsége nem változik egyénenként
– a megfigyelések az egész populációra nézve függetlenek, azaz ha egy esemény bekövetkezik, az nem befolyásolja a következő eseményeket
• Célja: – megállapítani, hogy a megfigyelt adatok mennyire
konzisztensek a H0 hipotézissel,
– hogy H0: p1=p2, azaz a „siker” valószínűsége azonos a két csoportban
• Módszere: – kiszámítjuk a várt (expected) tábla értékeit, és
összehasonlítjuk a megfigyelt tábla értékeivel.
Standard kontingencia tábla
Csoport Siker Balsiker Összes
1. csoport T R1-T R1
2. csoport C1-T C2-R1+T R2
Összes C1 C2 N
Ahol R1>=R2 és C1 <= C2
Standard kontingencia tábla, a null hipotézis esetén várható értékek
Csoport Siker Balsiker Összes
1. csoport R1xC1/N R1xC2/N R1
2. csoport R2xC1/N R2xC2/N R2
Összes C1 C2 N
Ahol R1>=R2 és C1 <= C2
Csoport Siker Balsiker Összes
1. csoport e11 e12 R1
2. csoport e21 e22 R2
Összes C1 C2 N
Csoport Siker Balsiker Összes
1. csoport o11 o12 R1
2. csoport o21 o22 R2
Összes C1 C2 N
Csoport Siker Balsiker Összes
1. csoport e11 - o11 e12 - o12 R1
2. csoport e21 - o21 e22 - o22 R2
Összes C1 C2 N
2
1
2
1
2
2
11
21111
)(
)(...
)(
i j ji
ijij
j
ijij
e
eoT
ei
eo
e
eoT
A T statisztika eloszlása megközelítőleg 2
Hipotézis vizsgálatra szolgáló módszerek választása(nem paraméteres eset, bevezető kurzus)
A minta természete
Hipotézis tárgya
Kategorizált adatok
Rendezhető adatok
Numerikus skálájú adatok
Egy random minta
Medián binomiális teszt Wilcoxon előjeles
Eloszlás Khi négyzet KolmogorovPárosított minta (pár, vagy többes)
medián - Előjel próba Wilcoxon előjeles
Randomizált blokk
medián
Két független random minta
medián Khi négyzet Mann-Whitney
medián (eloszlás)
-
Több független random minta
medián -
eloszlás -