lászló zoltán: biostatisztika egyetemi jegyzet

169
Bevezet˝ o statisztika biológusoknak László Zoltán 2009 Babe¸ s-Bolyai Tudományegyetem Biológia-Geológia Kar

Upload: nitro1000

Post on 26-Nov-2015

270 views

Category:

Documents


3 download

DESCRIPTION

Alapszintű statisztika

TRANSCRIPT

Page 1: László Zoltán: Biostatisztika Egyetemi Jegyzet

Bevezeto statisztika biológusoknak

László Zoltán

2009

Babes-Bolyai Tudományegyetem

Biológia-Geológia Kar

Page 2: László Zoltán: Biostatisztika Egyetemi Jegyzet
Page 3: László Zoltán: Biostatisztika Egyetemi Jegyzet

Bevezetés, átlag, szórás

A statisztika szó különbözo értelmezésekben használatos. A legtágabb értelemben módszerek és eljá-rások körét értjük alatta, amelyek segítségével adatokat elemzünk és mutatunk be, valamit az adatokalapján bizonyos döntéseket hozunk. Általában ez az amirol a statisztika eloadások szólnak.

Egy másik értelmezés szerint a statisztika egy mennyiség, érték (mint például az átlag), amelyet a min-tából számolunk ki. Ilyen statisztikákat használunk paraméterek becslésére.

Egyes esetekben a statisztika kifejezés kiszámolt mennyiségekre használatos, függetlenül attól, hogyazok mintákból származnak-e vagy sem. Például egy sportolónak az adatait, mint a szerzett pontokszáma, megnyert mérközések (futamok) száma, gyorsasága stb. szokták statisztikának nevezni. Más-különben az állami statisztikák vonatkozhatnak bármilyen, bizonyos állami intézet által kiszámolt inde-xekre, értékekre is.

Annak ellenére, hogy a "statisztika" kifejezés, a több féle szövegkörnyezetben való elofordulása miatt,idonként zavarbaejto, a környezet figyelmes vizsgálatával jelentése viszonylag egyszeruen tisztázható.

Minket tulajdonképpen az elso, tágabb értelmezése és a második érdekel, és csupán ezekre fogjuk figyel-münket összpontosítani. A többi értelmezése a mi szempontból nem releváns, így hasonló helyzetekben,ha lehet kerüljük a kifejezés használatát.

Miért is szükséges statisztikát tanulni? Elsosorban, hogy megértsük a szakirodalmat és, hogy kritikusantudjuk kezelni az elénk tárt eredményeket. Majd szükségünk lesz rá a vizsgálatok (kísérletek, megfigye-lések) megtervezéséhez és elvégzéséhez, valamint kiértékeléséhez és az eredmények értékelheto formábaöntéséhez. Mindezekre remélhetoleg szükség lesz a szakdolgozat témáját képezo vizsgálat végrehajtá-sához, majd a diplomamunka megírásához.

A biometria (másképpen: biostatisztika) az élovilággal kapcsolatos, a véletlen által befolyásolt jelensé-geket elemzo statisztikai módszerekkel foglalkozik.

A leíró statisztika az adatok surítésével foglalkozik, az egész sokaság adatait összegezi. Az induktívstatisztika egy minta adataiból a populáció tulajdonságaira való következtetésekkel foglalkozik.

Például: egy gyári minta hibás darabjainak arányából következtethetünk a teljes, mondjuk alkatrész-mennyiség selejt valószínuségére; vagy az adatainkból megfigyelt tapasztalati eloszlás függvénybol kö-vetkeztethetünk egy elméleti eloszlás függvényre; vagy a mintánk átlagából következtethetünk a vizsgáltpopuláció várható értékére (vagyis a populációs átlagra).

Kétféle probléma típussal fogunk találkozni: paraméteres problémák, ebben az esetben a valószínuségiváltozó eloszlásának típusa ismert, a paramétereire következtetünk; nemparaméteres problémák, itt azeloszlás típusát nem ismerjük.

A statisztika segít az adatok ábrázolásában, leírásában, kísérletek tervezésében, hipotézisek, változókközötti összefüggések tesztelésében, stb. De csak bizonyos megbízhatósággal. A statisztika nem tudsemmit sem bizonyítani, csak azt tudja megmondani, hogy mekkora a valószínusége annak, hogy azeredményünk a véletlen / nem a véletlen következménye.

Page 4: László Zoltán: Biostatisztika Egyetemi Jegyzet

4 Statisztika - 2008/2009

Alapfogalmak:

A statisztikai populáció ~ alapsokaság – a vizsgálandó egyedeknek vagy objektumoknak az a teljes köre,amelyre a vizsgálat irányul, azaz amelyre következtetéseinket vonatkoztatni szeretnénk.

A minta – a vizsgálandó egyedeknek vagy objektumoknak az a köre, amelyeket ténylegesen megvizsgá-lunk, azaz amelyeknek adatain következtetéseink alapulnak.

A megfigyelési egység – a populáció, illetve a minta egy eleme, egy egyed vagy objektum, amelynekadatait feljegyezzük (lehet egy élohely, egy vérminta vagy egy állat, egyedek csoportja, pl. egy család,stb.).

A változó – adat, jellemzo, tulajdonság, amelyet a mintabeli egyedeken megfigyelünk, megmérünk, fel-jegyzünk (testtömeg, életkor, idotartam stb.).

A mintavételi egység – egyedek megszámlálása esetén az az egység, amelyben számláljuk az egyedeket(gyakoriságokat).

Az adatokat az adatmátrix tartalmazza; szokásos elrendezésében minden sor egy mintavételi egységnekés minden oszlop egy változónak felel meg.

A megfigyelési egység és a mintavételi egység közötti különbség:

Megfigyelés Mintavételi egységtojások száma fészeklegyek száma egy csapdában csapdafelfedezett táplálékfoltok száma egy meghatározott idointervallumparazitoidok száma egy lepkehernyótolltetvek száma a gazdaállat egy tolla

kandicsrákok száma adott térfogatú víztér

Például (változó):

– megfigyelés: 20 cm;– változó: hajtás hossza;– megfigyelési egység: egy kvadrátból származó kétsziku lágyszárú egyed;– minta: a kvadrátban található azonos fajba tartozó egyedek;– statisztikai populáció: a területrol az összes, ugyanabba a fajba tartozó egyed.

Például (megfigyelési egység):

– megfigyelés: 4;– változó: termések száma;– mintavételi egység: egy cserje;– minta: a vizsgált cserjék (mintavételi egységek);– statisztikai populáció: az összes vizsgálható cserje a tanulmányozott területen.

Ha a megfigyeléseink gyakoriságok, akkor a statisztikai populációnak semmi köze azokhoz az egyedek-hez, amelyeket megszámolunk.

Page 5: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 5

Például:

– megfigyelés: 15;– változó: szitakötok száma;– mintavételi egység: egy kvadrát a megfigyelési területrol;– minta: a vizsgált kvadrátok száma;– statisztikai populáció: a tanulmányozott terület vizsgálható kvadrátai.

Mintavételezéskor arra kell figyelni, hogy a minta reprezentálja a populációt. De a minta gyakran torzí-tott, amit számításba kell venni az eredmények interpretálásánál.

Mintavételi módszerek

1. egyszeru, véletlen (random) mintavétel – az alapsokaság minden egyede egyforma eséllyel kerüla mintába, a minta egyedeit egymástól függetlenül választjuk, például véletlenszám generálás,számtáblázatok segítségével;

2. rétegezett mintavétel – az alapsokaság valamilyen meghatározott szempont szerint részhalmazokrabontható, az egyes rétegekben külön-külön véletlen mintavételezés, a rétegek arányosan szerepel-nek a mintában;

3. szabályos, szisztematikus mintavétel – ha lehetetlen a véletlen mintavétel kivitelezése, csak az elsoegyedet választjuk véletlenszeruen, a többit a meghatározott mintavételi intervallumok kihagyásá-val.

Adatfeldolgozás

Mérési skálák:

1. nominális skála – csak kategóriák, se rendezés, se aritmetika (például: hajszín);

2. ordinális skála – rendezés van, aritmetika nincs (például: „jó – közepes – rossz”);

3. intervallum skála – a különbség értelmes, az arány nem (például: °C vagy °F);

4. arány vagy abszolút skála – az arány is értelmes, van abszolút 0 (például: testtömeg).

Konverzió intervallum skáláról ordinálisra

Idonként az intervallum skálán mért adatok nem alkalmasak bizonyos módszerekkel való feldolgozásra,ilyenkor át kell alakítani (konverzió). Például: túl kevés adat, ismeretlen eloszlás stb. Az adatokat sorbarendezzük és rangszámot (rank) adunk nekik.

Például:

tömeg 12,0 13,4 15,3 16,7 17,5 20,9 21,3 23,4 26,2 26,9rang 1 2 3 4 5 6 7 8 9 10

Ha azonos megfigyelések fordulnak elo, akkor átlagos rangszámot (kapcsolt rangszám) rendelünk hoz-zájuk, amelyet úgy kapunk, hogy a sorban következo, az azonos megfigyelésekhez tartozó rangoknakvesszük az átlagát.

Page 6: László Zoltán: Biostatisztika Egyetemi Jegyzet

6 Statisztika - 2008/2009

Például:

tömeg 12,0 13,4 15,3 16,7 16,7 20,9 21,3 23,4 26,2 26,9rang 1 2 3 4.5 4.5 6 7 8 9 10

Az adatok ábrázolása

A mért, illetve a megfigyelt numerikus adatainkat áttekinthetoen gyakorisági táblázattal ábrázolhatjuk.Az osztályokat, illetve az osztályintervallumokat folytonos adatok esetén úgy alakítjuk, hogy kb. 10-20osztályunk legyen maximálisan és lehetoleg minden osztályba legalább 6 érték essen (>5). Lehetoségszerint az osztályhatárok inkább "egész számok" legyenek. Az osztályokba az alsó határ konvencionáli-san beletartozik, a felso nem.

Hisztogram

A vízszintes tengelyen az osztályintervallumok vannak feltüntetve, fölötte olyan téglalapokat ábrázol,melyek területe megegyezik a megfelelo relatív, vagy százalékos gyakorisággal (1. Ábra). Így a hisztog-ram teljes területe 1, vagy 100% lesz. Diszkrét változó esetén a változó értékei az intervallumok közepénhelyezkednek el. Ha a minta elemszámát növeljük a hisztogram közelíti a valószínuségi változó elméletisuruségfüggvényét (2. Ábra).

Egy rózsagubacs-minta gubacs átméroinek és a gubacsok cserjéken megfigyelt számának a vizsgálata:

Osztály Gyakoriság Osztály GyakoriságÁtméro (mm) Darab relatív % Gubacssz. Cserjesz. relatív %− 15 5 0,12 11,63 3 5 0,04 4,1015 - 5 0,12 11,63 5 9 0,07 7,3820 - 10 0,23 23,26 6 12 0,10 9,8425 - 7 0,16 16,28 8 22 0,18 18,0330 - 9 0,21 20,93 10 35 0,29 28,6935 - 3 0,07 6,98 13 19 0,16 15,5740 - 2 0,05 4,65 15 10 0,08 8,2045 - 0 0,00 0,00 17 7 0,06 5,7450 - 1 0,02 2,33 20 3 0,02 2,4655 - 1 0,02 2,33

összesen 43 1 100 összesen 122 1 100

Középértékek

Adatok gyakorisági eloszlásának grafikus ábrázolása helyett összesíto mennyiségeket, alapstatisztikákathasználunk. Az eloszlás közepére vonatkoznak: az átlag, a medián és a módusz.

Az átlag ( x )

Ha a minta elemei: x1, x2, . . . , xn; akkor x = x1+x2+···+xnn =

n∑i=1

xi

n . Az átlag az az érték, amely a "legköze-

lebb" van a minta elemeihez. Gyakorisági táblázat esetén: x =N∑

j=1

f j·x jn , (ahol n =

N∑j=1

f j) az osztályokat

x j-vel, az egyes osztályokban levo adatok számát f j-vel, és az osztályok számát n-nel jelöljük.

Például: egy éjszaka alatt 7 talajcsapdába esett hangyák száma egy lombhullató erdoben:

Page 7: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 7

−15 20 30 40 50

Gya

koris

ágok

3 5 6 8 13 17

1. ábra. Gubacs átmérok (mm) és a megfigyelt gubacsszámot mutató cserjék számának hisztogramjai

Frek

venc

ia

300 500 700

02

46

812

0 5 10 15 20 25 30

020

4060

80

2. ábra. E nagy elemszámú minták hisztogramjai közelítik egyes elméleti eloszlások suruségfüggvényeit;(a) tengerimalacok tömege (g)(N=500), (b) parazitoidok egyedszáma (N=250)

25, 4, 12, 9, 15, 8, 202;

a talajcsapdákba esett hangyák átlagos számát a következo módon számoljuk ki:

x =

7∑i=1

xi

7 = 2757 = 39, 3.

Észrevehetjük, hogy ez az érték nem jellemzi jól a mintát (6 érték kisebb nála).

A medián (xmed)

Ilyen esetekben jobb a medián . A medián kiszámításához sorbarendezzük az adatokat, x1 ≤ x2 ≤ · · · ≤

xn, és a következoképpen járunk el:

{xmed = xk+1, ha n = 2k + 1xmed = xk+xk+1

2 , ha n = 2k

Page 8: László Zoltán: Biostatisztika Egyetemi Jegyzet

8 Statisztika - 2008/2009

A példában a medián: 12. A medián rezisztens az extrém értékekre. A medián ordinális statisztika,hiszen csak a megfigyelések rangja számít.

Például: egy ökológiai vizsgálatban mérték az 1 dm3 iszapban található árvaszúnyoglárvák számát.

Tíz mintában az alábbi lárvaszámot kapták:

25, 238, 45, 94, 16, 23, 30, 16, 22, 123

Az értékeket az elso lépésben sorbarendezzük:

16, 16, 22, 23, 25, 30, 45, 94, 123, 238

Majd kiszámoljuk a mediánt:

xmed = x5+x5+12 = 25+30

2 = 27, 5 lárva/dm3

Ha a szélsoséges értéket kizárjuk, x = 238, akkor mennyit változik a medián?

xmed = x4+1 = 25 lárva/dm3

Tehát 9,09% a különbség. De mi történik, ha az átlagot számoljuk újra a kiugró adat elhagyásával?

A teljes adatsorra az átlag: x = (16 + · · ·+ 238) = 63210 = 63, 2 lárva/dm3. Elhagyva az x = 238

adatot, az átlag: x = (16 + · · · + 123) = 3949 = 43, 77 lárva/dm3. Tehát az átlag értéke 30.74%-al

változott meg. Abban az esetben, ha kiugró (szélsoséges) értékeink vannak szerencsésebb a mediánt,mint az átlagot használni.

A módusz

A módusz a leggyakrabban eloforduló érték. Nominális skálán mért adatokra csak ez a középértékalkalmazható.

A középértékek a hisztogramból becsülhetok, bár a becslés nagyon függ az osztályokba sorolástól:

– a módusz az az érték, amely fölött a legmagasabb téglalap van;– a mediántól balra és jobbra a hisztogram területének fele helyezkedik el;– az a pont az átlagérték, amelynél a hisztogram súlypontja van;– szimmetrikus és egy csúcsú hisztogram esetén a három középérték egybeesik (a szimmetria tengelyre).

Ferde eloszlás esetén az átlag mindig az eloszlás "farka" felé csúszik el (3. Ábra). Biológiai elosz-lásokban szinte mindig jobbra (pozitívan) ferde az eloszlás, így az átlag nagyobb mint a medián és amódusz.

Page 9: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 9

0 5 10

0.00

0.05

0.10

0.15

Jobbra ferde

rű s

ég

0 5 10

0.00

0.05

0.10

0.15

Szimmetrikus

−4 0 2 4 6 8 10

0.00

0.05

0.10

0.15

Balra ferde

3. ábra. Szimmetrikus, balra és jobbra ferde eloszlások.

A szóródás méroszámai

Középértékek általában nem jellemzik jól az eloszlást, még akkor sem, ha az szimmetrikus és csak egycsúcsa van (4. ábra).

−10 0 10 20 30 40 50

0.00

0.10

0.20

rű s

ég

−10 0 10 20 30 40 50

0.00

0.10

0.20

4. ábra. Ugyanakkora elemszámú és átlagú adatsorok eltéro szórásokkal; (a) N = 200, µ = 20,σ = 1,(b)N = 200, µ = 20,σ = 10.

Az adatok hogyan helyezkednek el az átlagérték körül (5. ábra)? A minta terjedelme (R) a minta leg-nagyobb és legkisebb értéke közötti különbség (R = xmax − xmin). Az interkvartilis terjedelem (IQR):harmadik (Q3) és elso kvartilis (Q1) különbsége (középso 50% terjedelme): IQR = Q3 − Q1. A kiugróértékek a minta olyan értékei, amelyek a többihez képest túl kicsik, vagy túl nagyok.

Tapasztalati szórás és a szórásnégyzet vagy más néven variancia

A szórás (σ) a variancia (σ2) négyzetgyöke: σ =

√n∑

i=1(xi−x)2

n . A szórás azt mutatja meg, hogy azadataink átlagosan milyen távol helyezkednek el a számtani középtol. Gyakorlatban az ún. korrigálttapasztalati szórást (Standard Deviation: SD) használjuk.

s =

√n∑

i=1(xi−x)2

n−1

Page 10: László Zoltán: Biostatisztika Egyetemi Jegyzet

10 Statisztika - 2008/2009

5010

015

020

0 a

68

1012

14

b

5. ábra. Grafikusan boxplot-tal ábrázolhatók: terjedelem (szaggatott egyenes), medián, alsó és felsokvartilis (doboz), kiugró értékek; (a) szúnyoglárvák száma,(b) alomszám.

A nevezoben n − 1 áll, ahol n a minta elemszáma. Az n − 1 a szabadsági fok (degrees of freedom, df ),ami a tényleges információ tartalommal kapcsolatos. A szabadsági fok értéke attól függ, hogy egy, azadathalmazból számított mennyiséghez még hány értéket választhatunk meg szabadon úgy, hogy a márbecsült értékek nem változnak. Az átlag esetén a szabadsági fok n. Például a szórás esetén már egybecsült paramétert, az átlagot fel kell használnunk.

A szórásnak ugyanaz a mértékegysége, mint az eredeti adatainknak. Ha az adataink gyakorisági táblá-zatba vannak rendezve, akkor a szórás:

s =

√N∑

j=1f j·(xi−x)2

n−1 ; n =N∑

j=1f j

Bizonyos esetekben a szórás kiszámítása egyszerubb, ha bevezetjük az eltérés négyzetösszeget: SS (sumof squares of deviations).

S Q =n∑

i=1(xi − x)2 =

n∑i=1

x2i −

(n∑

i=1xi

)2

n

Ekkor a szórás:s =√

S Qn−1 Ha a mintából készített hisztogram elég jól közelíti a normális görbét, akkor a

normális eloszlás táblázatából kiolvasható, hogy az (x − s, x + s) intervallumban van adataink kb. 68%-a, az (x − 2s, x + 2s) intervallumban van kb. 95%-a, az (x − 3s, x + 3s) intervallumba pedig kb. 99%-aesik (6. ábra).

Standard hiba (standard error, SE) teljes neve "a mintaátlag standard hibája", azaz szórása:

S E(x) = S D(x)√

n, ahol n a minta elemszáma.

Page 11: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 11

Mibol adódhat a szórás? Elsosorban a biológiai változatosságból, másodsorban a mérési hibából, amilehet (a) metodikai vagy (b) véletlen hiba.

A variációs koefficienst különbözo átlagú minták szórásának összehasonlítása esetén használjuk:

CV% = sx · 100%,

ahol a CV a variációs koefficiens, az x a minta átlaga, az s a minta szórása.

5 10 15 20

X X+1sdX−1sd X−2sdX−2sd X−3sdX−3sd

68%

95%

99%

6. ábra. Egy normál eloszlású adatsor értékeinek százalékos hovatartozása (N = 120; X = 11, 9; s =1, 8)

Például: madárcsibék testtömeg növekedését figyelték. a) tojások, b) 4 napos csibék, c) 10 napos csibékátlagát és szórását jegyezték fel. Változott-e a méret variabilitása a csibék korával?

• tojások x = 3g, s = 0, 54g CV% = 0,543 · 100% = 18%

• 4 napos x = 4, 5g, s = 1, 3g CV% = 1,34,5 · 100% = 28, 9%

• 10 napos x = 10, 4g, s = 4, 1g CV% = 4,110,4 · 100% = 39, 4%

Lapultság: az eloszlás lapultságára, csúcsosságára vonatkozó statisztika. Normális eloszlás esetén ér-téke 0, laposabb eloszlás esetén negatív, csúcsosabb eloszlás esetén pozitív.

Ferdeség: Az eloszlás ferdeségére vonatkozó statisztika. Szimmetrikus esetben 0, negatív esetben azeloszlás balra ferde, pozitív esetben jobbra ferde.

Adatok transzformálása

Sok statisztikai módszer feltételezi a normalitást. Gyakorisági adatok esetén nagyon gyakran ferde az el-oszlás (binomiális, Poisson, negatív binomiális). Ha nagyon ferde az eloszlás, az adatokat a paraméteresmódszerek alkalmazhatósága érdekében normalizálni lehet. Paraméteres statisztikai módszerek, ame-lyek két vagy több átlagot hasonlítanak össze, általában feltételezik, hogy a variancia a mintákban közelugyanakkora. Poisson, binomiális és negatív binomiális eloszlás esetén a variancia függ az átlagértéktol.

Page 12: László Zoltán: Biostatisztika Egyetemi Jegyzet

12 Statisztika - 2008/2009

A transzformációs technikák stabilizálják a varianciát, azaz megszüntetik az átlagtól való függést. Atranszformáció: xi → f (xi).

0e+

004e

−10

8e−

10

jobbra ferde (a)

rű s

ég

0.0

0.4

0.8

log transzformáció (b)

0.00

000.

0010

köbgyök transzformáció (c)

0.00

0.10

0.20

balra ferde (d)

rű s

ég

0.00

00.

010

0.02

0

hatvány transzformáció (e)

0.00

000.

0010

0.00

20

exponenciális transzformáció (f)

7. ábra. Különbözo irányú ferdeséget mutató eloszlások esetén alkalmazható transzformációk eredmé-nye.

Jobbra ferde (7. ábra (a)) eloszlás esetén a logaritmus- (7. ábra (b)) vagy a gyök-transzformáció (7. ábra(c)) segít. Például gyakorisági adatok esetén, ha s2 > x.

A négyzetgyök transzformációt használhatunk Poisson eloszlás vagy s2 ≈ x esetén használatos (x →√

x). Nem tökéletelesen normális az új eloszlás, de normalizált, azaz a paraméteres módszerek használ-hatóak.

Mi történik, ha vannak 0 gyakoriságok? Ilyenkor logx helyett log(x + 1)-et használunk.

Balra ferde (7. ábra (d)) eloszlás esetén a hatvány- (7. ábra (e)) vagy exponenciális-transzformációt (7.ábra (f)) használhatunk. Az arcsin transzformáció: megfigyelések, arányok; az eloszlás mindkét "farka"le van vágva, hiszen minden érték 0 és 1 közé esik (x→ arcsin

√x).

Az adatok transzformálása segíthet, ha a vizsgálni kívánt változó nem normális eloszlású. A sikerre nincsgarancia, van olyan eset is, amikor az eloszlást semmilyen transzformáció sem képes normálissá tenni.Transzformációra szükség lehet más miatt is, például ha az értékek szóródása az értékek nagyságától függ(szóráskiegyenlítés), vagy ha két változó között a kapcsolat nem lineáris (linearizálás). Elofordulhat, azis, hogy az eredeti adatok biológiailag jól interpretálhatók, a transzformált adatoknak viszont már nemtudunk biológiai jelentést tulajdonítani. Ilyenkor inkább ne alkalmazzunk transzformációt.

Page 13: László Zoltán: Biostatisztika Egyetemi Jegyzet

Becslések és konfidencia inrevallumok

A mintánkból kiszámított különbözo értékek a populáció tulajdonságainak becslésére használhatók. Va-jon mennyire megbízhatóak ezek a becslések?

A pontbecslés esetén a populáció paramétereit a mintából kiszámítható egyetlen értékkel becsüljük. Azintervallumbecslés esetén, pedig egy olyan intervallumot adunk meg, amelyrol tudjuk, hogy az általunkeloírt valószínuséggel tartalmazza a populáció becsülni kívánt paraméterét.

A populációátlag becslése a mintaátlaggal

A búbos vöcsök (Podiceps cristatus) csüdhossza 65 mm hosszú. Nyilvánvalóan, ha lemérünk valamennyiállatot, akkor eltérések lesznek az adatok között, ezek azonban nagyon sokféle hatás következtében jön-nek létre, így feltételezhetjük, hogy normális eloszlást mutatnak 65 mm átlaggal és 2 mm szórással. Havalaki lemér egy, ebbe a fajba sorolható példányt, akkor annak 50% a valószínusége, hogy a hossz na-gyobb lesz ennél az értéknél és 50%, hogy kisebb. Az is ismert, hogy 95% a valószínusége annak,hogy a csüd hossza 62 mm és 68 mm között lesz. Ezek a számítások a feltételezett valószínuségi el-oszláson alapulnak. Valójában senki nem tudja, hogy milyen eloszlást követnek a csüdhosszak, addig,amíg minden egyes egyedet meg nem fogunk, és meg nem mérünk. Ehelyett statisztikai megfontolásokatalkalmazhatunk.

Tegyük fel, hogy veszünk egy 10 elemu véletlen mintát a madarakból, és lemérjük oket.

A következo mérési eredményeket kaptuk:csüdhossz (mm) 62,03 63,25 63,65 64,11 64,89 64,91 64,99 65,17 66,91 67,92

Nyilvánvalóan a minta átlagát használjuk a populációátlag becslésére:

x = 62,03+63,25+···+66,91+67,9210 = 64.78

Vegyünk egy másik mintát:csüdhossz (mm) 66,91 64,06 64,09 66,40 64,11 67,01 66,23 65,93 64,72 66,15

Ekkor az átlag:

x = 66,91+64,06+···+64,72+66,1510 = 65.56

Az átlagok mintáról mintára változnak. A mintavételi eljárásból következik, hogy maga a mintaátlag isegy valószínuségi változó. Így meg kell mondanunk, hogy a mintaátlagnak milyen az eloszlása.

Egy vöcsök csüdhossza normális eloszlású valószínuségi változó, µ = 65 mm-es átlaggal, és σ = 2 mm-es szórással. Ezek szerint a 10 mintaelem mind egy-egy ugyanilyen eloszlású valószínuségi változó. Aminta átlaga ezek szerint 10 valószínuségi változó összege osztva tízzel.

Page 14: László Zoltán: Biostatisztika Egyetemi Jegyzet

14 Statisztika - 2008/2009

A mintaátlag eloszlása

Egy statisztika (statisztikai függvény) a megfigyelések függvénye, minden egyes mintához egy számotrendel. A minták, pedig a véletlentol függenek, így bármely statisztika is egy valószínuségi változó. Ígyviselkedése az eloszlása segítségével írható le.

Legyenek x1, x2, . . . , xn a mért vagy megfigyelt konkrét értékek, átlaguk, pedig X. A megfelelo valószí-nuségi változót jelölje X (a mintanagyság mindig ugyanaz: n). A populáció átlagát jelölje µ, szórását σ.Az X várható értékét jelölje µX , szórását, pedig σX . Az átlag szórását standard hibának (SE) is nevezik.

Az alábbi szabályok érvényesek:

– µX = µ, σX = σ/√

n;– amennyiben a populáció eloszlása normális, akkor X eloszlása is normális bármely n mintanagyságesetén;– ha n elég nagy (n > 30), akkor X eloszlása jól közelítheto az N(µ,σ2/n) normális eloszlással, még haa populáció eloszlása esetleg nem is normális.

A mintaátlag szórásának képletébol láthatjuk, hogy minél nagyobb a minta, azaz minél nagyobb az n,a minta átlagának szórása annál kisebb (8. ábra). Ez értheto is, hiszen ekkor egyre több egyedrol vanadatunk a populációból.

−0.

10.

00.

10.

20.

30.

4

rű s

ég

N=10

N=5

N=1

XX+1sd X−1sdX−2sd X−2sd

8. ábra. Minél nagyobb a minta (N), annál kisebb az átlag szórása.

A mintaátlag szórása vagy hibája (S E)

Példa: véletlenszeruen mintákat választunk egy olyan egér populációból, melyek kifejlett testtömegének(X) átlaga µ = 30 g, szórása, pedig σ = 3, 3 g, és normális eloszlású (X ≈ N(30; 3, 3)). A mintaátlagoknem egyenlok, és nem is egyeznek meg a populáció átlaggal.

A mintaátlag is egy valószínuségi változó X: X ≈ N(30; 3, 3/√

15) = N(30; 0, 85) a mintaátlagszórása, vagy standard hibája (9. ábra).

Page 15: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 15

N=5

Frek

venc

ia

22 24 26 28 30

0.0

1.0

2.0

N=10

24 26 28 30 32 34 36 38

01

23

4

N=20

Frek

venc

ia

24 26 28 30 32 34 36 38

01

23

45

N=100

20 25 30 35 40

05

1015

209. ábra. Egy 15 elemu minta esetén: X ≈ N(30; 3, 3/

√15) = N(30; 0, 85) Ha n no akkor a standard

hiba csökken.

A szórás becslése

Ha egy vizsgált populáció szórása nem ismert, akkor azt a minta korrigált tapasztalati szórásával becsül-jük:

s =

√n∑

i=1(xi−x)2

n−1

A populáció szórása és a minta szórása nagy minták esetén lényegében egyenlo.

Konfidencia intervallumok

Az elozoekben tárgyalt becslések során mindig fellép a paraméter elméleti értékétol való véletlen elté-rés. Sokszor meg tudunk azonban adni egy olyan intervallumot, amely az ismeretlen paramétert eloreadott nagy valószínuséggel tartalmazza. Mindig egy a mintából számolt pontbecsléssel kezdjük, majdebbol egy intervallumot formálunk: becslés±tolerancia. Itt a tolerancia (hibahatár): a becslés standardhibája szorozva a kritikus értékkel. Intervallumbecslés, konfidencia-intervallum esetén a válasz egy ér-téktartomány, amelybe az ismeretlen mennyiség 95% (esetleg 90% vagy 99%) valószínuséggel beleesik(megbízhatósági szint) (10. ábra).

A konfidencia-intervallum konstrukciója nagyon egyszeru azokban az esetekben, amikor a szokásospontbecslés–legalábbis közelítoleg– normális eloszlást követ, mert ekkor a normális eloszlásra érvényesképlettel számolhatunk. A kritikus érték egy eloszlástáblázatból jön, és úgy választjuk meg, hogy fel-használásával egy adott megbízhatóságot garantálhassunk. A megbízhatósági szint azon minták relatív

Page 16: László Zoltán: Biostatisztika Egyetemi Jegyzet

16 Statisztika - 2008/2009

0% 95% 5%

0.5% 95% 4.5%

2.5% 95% 2.5%

10. ábra. Általában szimmetrikus konfidencia-intervallumot keresünk, de nem mindig.

gyakorisága, amelyekre az intervallum tartalmazza a paraméter valódi értékét.

Konfidencia-intervallum a populációátlagra ismert szórás esetén

Példa: Térjünk vissza a búbos vöcskös példára. Feltételeztük, hogy a csüd hossza normális eloszlású,µ = 65 mm és σ = 2 mm paraméterekkel. Ha veszünk egy 10 elemu véletlen mintát, akkor az eddigiekalapján tudjuk azt, hogy a 10 vöcsök csüdhosszának átlaga normális eloszlású 65 mm, várható értékkelés σ/

√10 = 2/

√10 = 0, 63 mm szórással. Azt mondhatjuk, hogy annak a valószínusége, hogy a

10 búbos vöcsök csüdhosszának átlaga a 65 ± 2 · 0, 63 intervallumba essen, kb. 95%. (Az intervallumpontosabban 65 ± 1, 99 · 0, 63)

Ezek a számítások azt mutatják, hogy összesen 5% az esélye annak, hogy a minta átlaga ezen az inter-vallumon kívülre esik. Ha a mintaátlagot használjuk a populációátlag becslésére, akkor összesen 5%az esély arra, hogy a ketto közötti különbség 1,26-nál nagyobb legyen. Ha nagyobb mintát használunk,akkor még biztosabbak lehetünk abban, hogy a becslésünk elég közel esik a populációátlaghoz (a szóráscsökken). Ha 25 elemu mintát használunk, akkor 5% annak az esélye, hogy 0,8 mm-rel eltérjünk a po-pulációátlagtól (2 · 2/25 = 0, 8). Annak ellenére, hogy nem ismerjük a populáció átlagát, abban 95%-osvalószínuséggel bízhatunk, hogy a becslésünk— tíz elemu minta esetén—nem tér el 1, 26 mm– nél job-ban a valóságtól. Így, ha csak a mintaátlag áll rendelkezésünkre (65 mm), akkor azt mondhatjuk, hogy(a 10 elemu mintát alapul véve) a populációátlag 95% valószínuséggel a (64, 78; 65, 56) intervallumbaesik.

Ezt az intervallumot hívjuk 95%-os konfidencia-intervallumnak (confidence interval). Ilyenkor nemegyetlen értékkel becsüljük a populációátlagot (pontbecslés), hanem egy intervallummal (intervallum-becslés). Természetesen nem kötelezo 95%-os valószínuséggel (megbízhatósági vagy konfidencia szint-tel) dolgozni.

Más megbízhatósági szintekhez ki kell keresnünk a normális eloszlás táblázatból a kritikus értéket, ésazzal kell megszorozni az átlag szórását. Általánosan felírva: ha n elemu mintánk van, a populációszórását ismerjük, és a megbízhatósági szint p%, akkor az ehhez tartozó, a populációátlagra vonatkozókonfidencia-intervallum: (

x − zp ·σ√

n, x + zp ·

σ√n

)

Page 17: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 17

A zp kritikus érték olyan, hogy (−zp, zp) intervallumban a standard normális eloszlás görbéje alattiterület éppen p%.

A leggyakoribb két megbízhatósági szinthez tartozó kritikus érték:

Megbízhatóság (p%) Kritikus érték (zp)95% 1.9699% 2.58

Más valószínuségi eloszlás esetén a konfidencia-intervallumot más eloszlás táblázatból határozzuk meg.

A 95%-os megbízhatósági szint azt jelenti, hogy a mintavételt 100-szor megismételve, és ezek alapjána konfidencia-intervallumokat kiszámítva, ezek közül várhatóan 95 tartalmazza az ismeretlen populációátlagot.

●●

11. ábra. Az ismert populáció átlagot 95%-os megbízhatósági szint mellett, csupán 5% nem mutatja,másképpen 100 adatból 95 az ismert populáció átlagot képviseli.

A minta elemszámának becslése

A konfidencia-intervallum meghatározásának módja segítséget nyújt abban, hogy a mintavétel elott megtudjuk mondani, hogy bizonyos pontosság eléréséhez hány elemu mintát kell választanunk.

A konfidencia-intervallum képletébol kitunik, hogy a megengedett hiba (tolerancia): zp ·σ√

n.

Ebbol kifejezve a szükséges n elemszámot: n = z2p·σ

2

h2 , ahol zp a standard normális eloszlás p%-hoztartozó kritikus értéke. Ez a képlet természetesen csak abban az esetben használható, ha ismerjük apopuláció σ szórását.

Konfidencia-intervallum a populációátlagra ismeretlen szórás esetén

Amennyiben a populáció szórása nem ismert, annak becslését tudjuk csak használni az átlagra vonatkozókonfidencia-intervallum meghatározásánál. Ez azt is jelenti, hogy az átlagérték becslésének megbízha-tósága csökkenni fog. Ezért az intervallumot egy kicsit szélesebbre kell megválasztanunk.

Tudjuk, hogy ha standardizáljuk a mintaátlagot, azaz kivonjuk belole a várható értéket, és osztjuk astandard hibával, akkor egy standard normális eloszlású valószínuségi változót kapunk:

Page 18: László Zoltán: Biostatisztika Egyetemi Jegyzet

18 Statisztika - 2008/2009

z = x·µσ/√

n

Ha a becsült s szórásértékkel osztunk a standardizálásnál, akkor egy t -eloszlású (Student) valószínuségiváltozót kapunk:

t = x·µs/√

n

A t-eloszlás szimmetrikus és függ a minta elemszámától. Minden n értékhez egy-egy görbe tartozik,tehát egy görbecsaládról van szó. Ez természetes is, hiszen minél nagyobb a minta elemszáma, annálpontosabban tudjuk becsülni a populációátlagot.

A t-eloszlás közvetlen módon a szabadsági foktól függ, amely a minta elemszáma mínusz a becsültparaméterek száma. A konfidencia-intervallum megadása esetén az átlag szórását kell becsülni, amihezegy már becsült paramétert (az átlagot) használtunk fel, így a szabadsági fok: d. f . = n − 1.

Nagy elemszámú (n > 20) minta esetén a t-eloszlás már jól közelíti a standard normális eloszlást, ígynagy minták esetén az elozoekben már megismert konfidencia-intervallumokat használhatjuk, még ha aszórás ismeretlen is.

Kis minták (n ≤ 20) esetén a konstrukció elve pontosan ugyanaz, mint korábban. A különbség mindösszeaz, hogy a megfelelo t-eloszlást kell használnunk a normális helyett a kritikus érték meghatározására.

Ha n elemu mintánk van, és a populáció szórását nem ismerjük, és a megbízhatósági szint p%, akkor azehhez tartozó, a populációátlagra vonatkozó konfidencia-intervallum:

(x − tp ·

s√n, x + tp ·

s√n

)ahol a tp kritikus érték olyan, hogy a (−tp, tp) intervallumban az n− 1 szabadsági fokú t-eloszlás görbéjealatti terület éppen p%.

Például, a búbos vöcskös példában használt mintanagyság n = 10 volt, a megbízhatósági szint pedig95%. A megfelelo kritikus érték: 2.26 (a 9 szabadsági fokú t-eloszlás táblázatából).

A Lincoln index becslése

A Lincoln index egy populáció elemszámának becslése, amely egy elozetes mintán alapul.

Példa. Egy kisebb víztér partján begyujtöttek n = 200 szitakötot, és a jobboldali mellso és hátsó szárnya-ikon számkombinációval jelölték meg oket. Jelölés után szabadon eresztettek minden egyedet. Bizonyosido után, ugyanazon a helyen egy második mintát is begyujtöttek (tulajdonképpen visszafogást végez-tek), amelyben N = 450 szitaköto volt. A másodjára befogott (visszafogott) mintában r = 15 olyanegyed volt, amelyet az elso befogás alkalmával megjelöltek.

A Lincoln index tulajdonképpen egy pontbecslés, ha nem adunk meg egy hibahatárt (konfidencia inter-vallumot):

IL = N×nr = 450×200

5 = 6000,

Page 19: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 19

azaz 6000-re teheto a szitaköto populáció létszáma a víztér vizsgált szakaszán.

Ha intervallumbecslést végzünk, akkor ki kell számítanunk az átlag szórását is, tulajdonképpen azt a kéthatárt, amelyek között ingadozhat a populáció mérete:

S E =√

n2×N(N−r)r3

A szitakötos példában ez a következo értéket adja:

S E =√

2002×450(450−15)153 = 1523.

A konfidencia intervallum a Lincoln indexre:

(N×n

r − zp% · S E; N×nr + zp% · S E

).

A példában:

(6000 − 1, 96 × 1523; 6000 + 1, 96 × 1523) = (3015; 8985).

A Shannon diverzitási index becslése

A Shannon index:

H′ = −s∑

i=1pi ln pi =

n log n−s∑

i=1fi log fi

n ,

ahol pi az i-edik faj aránya a mintában, fi az I-edik faj gyakorisága, s pedig a fajok száma.

Megjegyzés:

1. Bármilyen alapú logaritmus használható,

2. Torzított becslés (alulbecsül), de aszimptotikusan jó.

Általában, a statisztikában egy tulajdonságra akkor mondjuk, hogy "aszimptotikus", ha nagyon nagy(n→ ∞) minták esetén igaz.

• H′max = log s, ahol s a kategóriák száma.

• J′ = H′H′max

, ami a homogenitás, vagy relatív diverzitás mértéke.

• 1 − J′ a heterogenitás, vagy dominancia mértéke.

Megjegyzés: J szintén torzított (túlbecsül) becslés (s mindig alul van becsülve).

Page 20: László Zoltán: Biostatisztika Egyetemi Jegyzet

20 Statisztika - 2008/2009

Példa. Lepkéket gyujtöttek be egy lepkecsapdával. A 6 faj egyedszámai: 55, 30, 15, 1, 5, 3. Ebbenaz esetben a Shannon index:

• H′ =(

55118 × ln 55

118

)+ · · ·+

(3

118 × ln 3118

)= 1.403,

• H′max = ln 6 = 1.79,

• J′ = 1.4031.79 = 0.78,

• 1 − J′ = 1 − 0.78 = 0.22

J′ akkor 1, ha homogén a minta, azaz egyforma értékek vannak benne. Ekkor H′ = H′max.

Megjegyzés:

1. Nincs egyszeru módszer az S E becslésére. Úgy lehet tekinteni, mint egy ordinális skálán mértérték. Nemparaméteres módszerekkel hasonlíthatók össze az egyes helyek diverzitási indexei.

2. Ha az adataink nem véletlen mintavételezésbol származnak, akkor nem jó ez az index, helyettelehet például a Brillouin-féle információ-elméleti diverzitási mértéket használni.

Page 21: László Zoltán: Biostatisztika Egyetemi Jegyzet

Valószínuségi változók, elméleti eloszlások

Két típusú valószínuségi változót különítünk el: folytonosat és diszkrétet. Annak függvényében, hogymilyen változókkal dolgozunk, más-más teszteket használunk összehasonlításukra, elemzésükre.

Folytonos valószínuségi változók

E változók értékkészlete a számegyenes egy folytonos (véges vagy végtelen) intervalluma. Valamennyilehetséges érték 0 valószínuségu, és csak az értéktartományokhoz tartozhatnak pozitív valószínuségek. A0 jelentése: "szinte" lehetetlen; 0.5 jelentése: azonos eséllyel igen vagy nem; 1 jelentése: "szinte" biztos.Ha a megfigyelésnek végtelen sok lehetséges kimenetele van, akkor egy 0 valószínuségu esemény isbekövetkezhet.

Például. Válasszuk ki egy szakasz egy pontját! Minden pont egyforma valószínuséggel jön szóba.Így a valószínuség nem lehet nagyobb 0-nál, mert végtelen sok 0-nál nagyobb szám összege végtelenlenne. Végül valamelyiket mégis kiválasztjuk, vagyis bekövetkezik egy 0 valószínuségu esemény. Haa megfigyelésnek végesen sok lehetséges kimenetele van, akkor a 0 valószínuségu esemény valóbanlehetetlennek, az 1 valószínuségu biztosnak tekintheto.

Például. Mindazon változók, amelyeknek az értékei elvileg tetszoleges pontossággal mérheto tizedestörtek (vagyis valós számok), mint a súly, nyomás, homérséklet stb.

A folytonos eloszlás nem írható le az értékek és valószínuségek felsorolásával, mint a diszkrét esetben,mivel az értékek halmaza megszámlálhatatlanul végtelen.

Az ilyen eloszlásokat a suruségfüggvénnyel vagy az eloszlásfüggvénnyel szokták megadni.

Mind az eloszlás-, mind a suruségfüggvénynek az a szerepe, hogy bármely tartományhoz megadja annaka valószínuségét, hogy a változó értéke abba a tartományba esik. Eloszlásfüggvénye bármely eloszlásnakvan (még a diszkrét eloszlásoknak is), suruségfüggvénye nem. De azért a gyakorlatban használatosfolytonos eloszlásoknak — amelyekkel találkozni fogunk — van suruségfüggvénye.

A suruségfüggvény (12. ábra a) egy olyan függvény, amelynek a függvénygörbe alatti területe bármelytartományon egyenlo a változónak ahhoz a tartományhoz tartozó valószínuségével.

A valószínuség tulajdonságaiból következik, hogy egy suruség-függvény:1. sehol sem lehet negatív;2. a teljes tartományon a területe 1.

Az eloszlásfüggvénynél (12. ábra b) a valószínuséget a két függvényérték különbsége szolgáltatja. Azeloszlásfüggvény tulajdonságai (a valószínuség tulajdonságaiból következnek):

Az eloszlásfüggvény tulajdonságai (a valószínuség tulajdonságaiból következnek):1. item monoton növo;2. határértéke −∞ –ben 0,∞ –ben 1.

Page 22: László Zoltán: Biostatisztika Egyetemi Jegyzet

22 Statisztika - 2008/2009

R-kód:

> x <- rnorm(200, 25, 2.5)> plot(density(x))> plot(ecdf(x))

0 10 20 30 40

0.00

0.02

0.04

0.06

rű s

ég

a

15 20 25 30 35

0.0

0.4

0.8

Val

ószí

nű s

ég

●●● ●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●

●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●

●●●●●● ●● ●● ●

b

12. ábra. Egy intervallumon folytonos egyenletes eloszlású változó suruségfüggvénye (a); egy interval-lumon folytonos egyenletes eloszlású változó eloszlásfüggvénye (b)

A jellemzo értékek (helyzeti, szóródási mutatók) folytonos változókra

Módusz

A módusz az az x érték, amelyre a változó suruségfüggvényének lokális maximuma van. Folytonosváltozókra sem mindig egyértelmu, az eloszlás itt is lehet unimodális (13. ábra a) vagy bimodális (13.ábra b) vagy multimodális.

−10 0 10 20

0.00

0.05

0.10

0.15

módusz = 5

a

0 5 10 15

0.00

0.05

0.10

0.15

módusz = 5módusz = 10 b

13. ábra. Egy unimodális (a) és egy bimodális (b) eloszlás móduszai

Medián és kvantilisek

A medián az az x érték, amelyre P(X < x) = P(X > x) = 1/2, a p-kvantilis pedig olyan x érték,amelyre P(X < x) = p, P(X > x) = 1 − p (14. ábra).

Page 23: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 23

Kvantilis és kvartilis közötti különbség

"Kvantálni" annyit jelent, mint részekre osztani. A medián kiterjesztéseként szokás értelmezni ezeket,a decilis tíz, a centilis száz — egyenlo — részre osztja fel mintánkat (mint ahogy a medián kétrészre).

A statisztikai gyakorlatban a kvantilisek közül egyet szokás használni, ezek az ún. kvartilisek — jelük:K — , amelyek négy részre osztják a mintát.

A K1 kvartilis a minta egynegyedét választja el a többi háromnegyedtol; a K2 kvartilis a kétnegyedétazaz: felét a másiktól; a harmadik kvartilis (K3) a háromnegyedét - gyakorlatilag az ennél nagyobbadatok teszik ki a minta egynegyedét. Mivel csak egy hang/betu különbség van a két elnevezés között,érdemes vigyázni, össze ne keverjük oket.

−10 0 10 20

0.00

0.05

0.10

0.15

1/21/2 a

−5 0 5 10 15 20

0.00

0.05

0.10

0.15

p1−p b

14. ábra. A medián (a) és a kvantilisek (b) valószínuségei

Várható érték, szórásnégyzet

A folytonos esetben az összegzésnek, és így az átlagolásnak is az integrálás a megfeleloje. Ezért a várhatóértéket és a szórásnégyzetet is integrálként definiáljuk. Legyen f az X változó suruségfüggvénye.

µx = M(X) =∞∫−∞

x f (x) dx és σ2x = M((X − µx)2)

Folytonos eloszlások

Ilyenek a normális eloszlás, exponenciális eloszlás, Student-féle t-eloszlás, stb.

A normális eloszlás

A legfontosabb, a gyakorlatban leggyakrabban használt folytonos eloszlás a normális- vagy Gauss-eloszlás. Ez egy eloszlás-család, amelnek tagjai két paraméterrel jellemezhetok.

Suruségfüggvénye: f (x) = 1√2πσ·e−

(x−µ)2

2σ2 , ahol µ és σ (vagy σ2) az eloszlás paraméterei.

Page 24: László Zoltán: Biostatisztika Egyetemi Jegyzet

24 Statisztika - 2008/2009

A suruségfüggvény görbéje az úgynevezett haranggörbe vagy Gauss-görbe. Szimmetrikus (a közepe aµ= várható érték = módusz = medián); e−x2

nagyságrendben közeledik 0-hoz mindkét oldalon; a 0-hozközeledés sebessége a σ–tól is függ (azaz a szórástól).

−10 0 10 20 30 40 50

0.00

0.05

0.10

0.15 a

−10 0 10 20 30

0.00

0.05

0.10

0.15

Den

sity

b

15. ábra. Különbözo µ és σ paraméter-értékekhez tartozó haranggörbék; (a) µ = 15 és σ = {2.5, 5, 10},(b) µ = {5, 10, 15} és σ = 2.5

A család µ = 0, σ = 1 paraméteru tagja a standard normális eloszlás. Eloszlástáblázatot csak ehhezkészítettek, a többi mind egyszeruen visszavezetheto a standard normálisra standardizálás segítségével.

Ugyanis: ha X normális eloszlású valószínuségi változó µ, σ paraméterekkel, Y = aX + b is az aµ+ bés |a|σ paraméterekkel; ha X normális eloszlású valószínuségi változó µ, σ paraméterekkel, akkor az = u = X−µ

σ standard normális eloszlású. Visszatranszformálás: X = σz + µ.

Miért fontos a normális eloszlás?

Központi határeloszlás tétel: ha H = X1 + X2 + . . . , ahol X1 + X2 + . . . végtelen sok valószínuségiváltozó, amelyek egymástól függetlenek és egy véges intervallum az értékkészletük, akkor H normáliseloszlású.

Példa:

1. Az emberek magassága nagyon sok genetikai és környezeti változó összege, így normális elosz-lású.

2. Sok kockát dobunk egyszerre, a dobások összege normális eloszlású, mert sok diszkrét egyenleteseloszlású összegeként áll elo.

Normális eloszlású változók összege és számtani közepe

1. Normális eloszlású változók összege is normális eloszlású, és mind a várható értékek, mind avarianciák összeadódnak, pl. két változó esetén: µX+Y = µX + µY és σ2

X+Y = σ2X + σ2

Y .

2. Normális eloszlású változók számtani közepe is normális eloszlású, várható értéke és varianciája

pedig µX =∑µXin és σ2

X=

∑σ2

Xin2 .

Page 25: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 25

3. Ha a változók eloszlása azonos (azaz közös a µ és a σ), akkor µX = nµn = µ és σ2

X= nσ2

n2 = σ2

n ,ahonnan σX = σ√

n.

Exponenciális eloszlás

Folytonos eloszlás (-család, egy paraméterrel, amit λ-val jelölünk), legtöbbször idotartamok modellezé-sére használják: két esemény / meghibásodás / stb. között eltelt ido, ha az eseményeket az öregedés nembefolyásolja.

Például: új autó, számítógép, villanykörte, meghibásodása ha nem kapcsolgatják, stb. (amikor a meghi-básodások nem öregedéssel, kopással, elhasználódással kapcsolatosak).

0 500 1000 2000

0.00

000.

0010

0.00

20

Meghibásodásig eltelt idő (h)

rű s

ég

lambda=0.002

0 500 1000 2000

0.00

00.

002

0.00

4

Meghibásodásig eltelt idő (h)

lambda=0.004

16. ábra. Exponenciális suruségfüggvények két λ értékre

0 500 1000 2000

0.0

0.4

0.8

Meghibásodásig eltelt idő (h)

Val

ószí

nű s

ég

lambda=0.002

0 500 1000 2000

0.0

0.4

0.8

Meghibásodásig eltelt idő (h)

lambda=0.004

17. ábra. Exponenciális eloszlásfüggvények két λ értékre

Eloszlásfüggvénye: F(x) = P(X < x) = 1 − e−λx, ha x > 0, egyébként 0.

Suruségfüggvénye: f (x) = F′(x) = λe−λx, ha x > 0, egyébként 0.

Page 26: László Zoltán: Biostatisztika Egyetemi Jegyzet

26 Statisztika - 2008/2009

Példa: Egy CT berendezés moködési ideje a meghibásodásig exponenciális eloszlású. A folyamatotleíró valószínoségi változó várható értéke legyen 500 óra. Határozzuk meg a exponenciális eloszlású va-lószínoségi változó suruség- és eloszlásfüggvényét. A fentiek alapján a λ paraméter értéke kiszámítható:

λ = 1µ = 1

500 = 0.002

A folyamatot leíró valószínoségi változó várható értéke legyen 250 óra, akkor a λ paraméter értéke:

λ = 1µ = 1

250 = 0.004

A λ paraméter segítségével a CT-berendezés meghibásodásának suruségfüggvénye és eloszlásfüggvényekiszámítható. A számított értékek ábrázolását a 16. és 17. ábrák mutatják be.

Várható értéke és szórása (integrálással kijön): E(X) = 1/λ, var(X) = 1/λ2.

Az exponenciális eloszlás biológiai alkalmazása leginkább a baktériumok túlélési rátáinak modellezésé-ben gyakori (hasonlatosan a rádióaktív lebomlásokhoz) és tulajdonképpen a gamma eloszlás egy speciá-lis esete, amikor az alak paraméter, az α = 1.

(Hogyan számolhatjuk ki egy adatsor α és β paramétreit? Kiszámítjuk az adatsor átlagát és varianciáját(nem normál eloszlások esetében), tudjuk, hogy a µ = α× β és σ2 = α× β2, ezekbol, pedig kiszámítjukaz α-t és a β-t)

Az exponenciális eloszlás leírására azonban gyakrabban a ráta paramétert, a λ-t használják (λ = 1/β).

Diszkrét eloszlások

A nevezetes diszkrét eloszlásokat gyakorisági adatok (count data) mutatnak. Ide tartoznak a diszkrétegyenletes, binomiális, Poisson, negatív binomiális és hipergeometrikus eloszlások.

A gyakorisági adatok jellemzoi:

• a következo kérdések esetén kapunk gyakorisági adatokat:"n-bol hány?" vagy "n-bol hányszor?";

• felveheto lehetséges értékek: 0, 1, 2, . . . n {x ∈ �};

• a valószínuségek az eloszlástól függenek.

Például. Ha madarak fészkaljainak tojásszámát vizsgáljuk, akkor minden egyes fészekaljban ketto, há-rom, öt, stb. tojást fogunk találni, persze fajtól függoen, de 2.5 vagy 3.754 tojást egyik fészek sem fogtartalmazni. Egy lehetséges adatsor a következo módon nézhet ki:

Tojások száma 3 4 3 5 3 4 6 3 2 3

Például. Kvadrátonként összeszámoljuk a fás szárú növényeket, akkor is diszkrét adatsort kapunk, min-den egyes kvadrátban természetes számok halmazába tartozó értéku fás szárú növényt találunk, gyakor-latilag nem lesz fél, vagy háromnegyed fa egy kvadrátban sem.

Page 27: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 27

Például. Meghatározott idointervallumok alatt figyeljük valamely jelenség elofordulását. Tegyük felegy szitaköto hím egy meghatározott part menti növény hajtására való leszállását számoljuk egy óraalatt. Ismét nem lesznek 2.134 vagy 5.023 leszállást tartalmazó megfigyelések, tehát ez is egy diszkrétértékeket tartalmazó adatsor lesz. Elméletileg a következo adatokat gyujthetjük:

Kiülések száma 2 6 3 3 5 10 6 1 6 4

Diszkrét egyenletes eloszlás

Véges számú értéket vehet fel, és mindet ugyanakkora valószínuséggel: X : x1, x2, . . . xn és P(X = xi) =1/n, i = 1, 2, . . . n. Például a kockadobás értékei.

Binomiális eloszlás (visszatevéses mintavétel)

Ez események számának egy olyan diszkrét eloszlása, amikor minden egyes eseménynek két lehetségeskimenetele van, és a kimenetlek valószínuségei konstansak.

Például. Ha annak a valószínusége, hogy egy születendo egyed nostény egyenlo 0.5-tel (ezt általábanp-vel jelölik), akkor annak a valószínusége, hogy az egyed neme hím legyen 1 minusz 0.5 (ami ebbenaz esetben szintén 0.5 és általában q-val jelölik) és más lehetoség nincs. Ez annyit jelent, hogy mindenegyes egyednek 50% esélye van arra, hogy hím vagy nostény legyen.

Ha ezt kiterjesztjük olyan családokra ahol egynél több gyerek van, elkezdhetünk valószínuségeket ren-delni a fiúk (F), illetve a lányok (L) arányaihoz.

Egy olyan család esetében, ahol két gyerek van az események lehetséges kimenetelei a következok lehet-nek: LL, LF, FL, FF (itt érdemes megfigyelni, hogy kétféle módon kaphatunk egy fiút és egy lányt). Mi-vel, már ismerjük a különálló események bekövetkezésének valószínuségeit (p = 0.5, q = 0.5) ki tudjukszámolni, hogy annak valószínusége, hogy a négy esemény közül egyik bekövetkezzen 0.5× 0.5 = 0.25.Másképpen megfogalmazva: 25% esély van arra, hogy mindkét gyerek fiú legyen, 25% arra, hogy mind-ketto lány legyen, illetve 25% és 25% arra hogy FL és LF legyen. Tehát 50% esély van arra hogy egyfiú és lány legyen a családban.

Ha ezt megpróbáljuk kiszámolni három gyerekes családokra, akkor 8 lehetséges kimenetele lesz az ese-ményeknek (mindenik 0.125 valószínuséggel):

Nostény Hím Valószínuség Sorozatok3 0 0.125 (1/8) LLL2 1 0.375 (3/8) FLL, LFL, LLF1 2 0.375 (3/8) LFF, FLF, FFL0 3 0.125 (1/8) FFF

Egyedülálló események csoportokra való kiterjesztésének sok alkalmazását ismerjük a biológiában. Hamaradunk a hím—nostény példánál, megvizsgálhatunk egy felmérést amelynek alanyai énekes rigók(Turdus philomelos) fiókái voltak, ahol 5 tojásból álló fészekaljakat (N = 480) vizsgáltak, és a nemekarányainak lehetséges kimenetelei, illetve a megfigyelt valószínuségek a következo módon alakultak:

Page 28: László Zoltán: Biostatisztika Egyetemi Jegyzet

28 Statisztika - 2008/2009

Tojó Hím Valószínuség Várható események száma Megfigyelt események száma5 0 0.03125 15 214 1 0.15625 75 763 2 0.31250 150 1382 3 0.31250 150 1421 4 0.15625 75 800 5 0.03125 15 23

A megfigyelt gyakoriságokat egy binomiális eloszlást feltételezo várható gyakoriságokkal szemben χ2-teszttel elemezhetjük. Ebben a példában annak ellenére, hogy azokban az esetekben, amikor egyik nem-bol 3 egyedünk, a másikból ketto volt, kisebbek voltak a megfigyelt gyakoriságok, mint a várhatóak, akülönbség nem szignifikáns, így elfogadjuk azt az elofeltevést (null hipotézis), amely szerint a nemekaránya az énekes rigók esetében binomiális eloszlást mutat P = 0.5-ös valószínuséggel (tulajdonképpen50% annak az esélye hogy nostény, vagy hím utód szülessen).

A binomiális eloszlás azonos körülmények között, egymástól függetlenül n-szer megismételt megfigye-lésre jellemzo. Ha egy olyan (véges vagy végtelen) populációból (énekes rigó fiókák), amelyben egybizonyos tulajdonsággal rendelkezo egyedek aránya p (a hímeké 0.5), visszatevéssel egy n (n=5) elemumintát veszünk, a mintában lévo, a tulajdonsággal rendelkezo elemek száma olyan valószínuségi változó,amelynek lehetséges értékei szintén a 0 és n közötti számok, a k érték (k = 0, 1, 2, ..., n) valószínuségepedig:

P(X = k) =(

nk

)pk(1 − p)n−k

Az eloszlás paraméterei az n (minta elemeinek száma) és a p (a vizsgált tulajdonság valószínusége). (Aztszámoljuk, hogy egy — minden egyes megfigyeléskor p valószínuségu — esemény az n-bol hányszorkövetkezik be (ez lesz a k, a rigós esetben ez lehet k = 0, 1, 2, 3, 4, 5).)

Urna modell: tegyük fel hogy egy urnában két különbözo színu (pl. fekete és piros) és adott számú golyóvan (N). Az urnából bizonyos számú gólyót (n) több egymást követo alkalommal kivehetünk visszate-véssel, illetve visszatevés nélkül. Ha elobbi esetrol van szó visszatevéses mintavételrol, ha az utóbbirólvisszatevés nélküli mintavételezésrol beszélünk (nyilvánvaló, hogy a két esetben a kiemelt golyók színaránya (hány piros és hány darab fekete) a két esetben eltéro, így annak a valószínuségei p is, hogy va-lamely típusból valamennyi k legyen a mintában). Ha a piros színu golyók száma K, akkor a feketékéN − K lesz az urnában.

Visszatevéses mintavétel — urna modell, a húzott golyót a következo húzás elott visszatesszük — ek-kor nyilvánvaló, hogy csak a p = K/N arány számít, mivel a golyók aránya nem fog változni.

A binomiális eloszlást használják — közelíto megoldásként — a visszatevés nélküli mintavétel eseténis, ha a minta kicsi a populációhoz képest, hagyományosan, ha n ≤ 0.05 × N.

A modell érvényességéhez mindig meg kell gondolni a következoket:

1. a megfigyelések függetlennek tekinthetok?;

2. a p valószínuség minden megfigyelésre azonos?

Page 29: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 29

Példa. Egy urnában 10 golyó van, közülük 3 piros és 7 kék. Legyen R az az esemény, hogy véletlen-szeruen húzva egy golyót, az éppen piros. Ha visszatevéssel húzunk, akkor minden egyes alkalommalP(R) = 0.3. Ha mondjuk n = 20-szor húzunk, és X jelöli a sikeres próbálkozások (kihúzott pirosgolyók) számát, akkor mekkora annak a valószínusége, hogy 5 alkalommal piros golyót húzzunk?

P(X = 5) =(

205

)0.35(1 − 0.3)20−5 = 0.1788 1

Vegyük ismét az énekes rigós példát, a kutatók 480 fészket vizsgáltak meg, és ezek olyan fészkek voltak,amelyek 5 tojást tartalmaztak (vagy 5 még élo fióka volt a fészekben). A feltételezett ivararány 1/2volt. Ha az összes fészekben található tojást képzeletben beletesszük egy óriási fészekbe (urna) akkorrendelkezünk egy N = 480 × 5 = 2400 "golyót" tartalmazó urnával. A feltételezett ivararány miatttudjuk, hogy a hím fiókák/tojások száma (K = 1200) a hipotetikus urnában. Egy alkalommal n = 5tojást veszünk ki a mintából és a kérdésünk az, hogy mekkora annak a valószínusége, hogy egy mintábólk = 2 darab tojás hím nemu legyen?

P(X = k = 2) =(

52

)0.52(1 − 0.5)5−2 = 0.3125

R-kód:

> PXk2 = ((factorial(5))/(factorial(2) * factorial(3))) * (0.5^2) * (0.5^3)> PXk2

[1] 0.3125

Ha egymástól függetlenül megismétlünk egy kísérletet, amelyben egy bennünket érdeklo X esemény be-következésének valószínusége p, és megszámoljuk, hogy az n megfigyelés során X hányszor következettbe, akkor egy binomiális eloszlású valószínuségi változóhoz jutunk.

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

Sikeres próbálkozások száma (k)

Val

ószí

nű s

égek

18. ábra. Binomiális eloszlás: n = 5, p = 0.5, k = 2

1(

nk

)= n!

k!·(n−k)!

Page 30: László Zoltán: Biostatisztika Egyetemi Jegyzet

30 Statisztika - 2008/2009

Poisson eloszlás

Szerencsére a betegségek nagy része aránylag ritka, legalábbis abban az értelemben, hogy egy populációegyedeinek csupán egy kis százaléka beteg vagy fertozött. A 30 − 44 éves kor közötti férfiak körében aszívinfarktus okozta éves halálozási ráta például 1 a 2000-hez nagyságrandu. Így annak a valószínusége,hogy egy férfi az elobbiekben említett korban szívinfarktus áldozata legyen p = 0.0005.

Nagyon gyakran fordulnak elo hasonló jelenségeket leíró biológiai adatsorok. Az, persze természetes azelobbi példában, hogy ismét egy binomiális helyzettel állunk szemben, mivel kétféle kimenetele lehetaz eseménynek: egy véletlenszeruen választott férfi vagy elhalálozik a szívinfarktus következtében vagynem. Azonban érezhetjük, hogy néhány jellegében ez a jelenség a binomiális helyzettol eltéro.

Elsosorban a hipotetikus populációnk elemszáma n nagyon nagy, általában ezres nagyságrandu. Másod-sorban a valószínuség p nagyon kis értékeket vehet fel (az elobbi példában p = 0.0005).

Azonban belátható az is, hogy már kis mintaelemszám esetén is (pl. n = 6) elofordulhat, hogy a való-színuségek nem mutatnak szimmetrikus binomiális eloszlást (pl. p=0.2) (19. ábra).

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

Sikeres próbálkozások száma (k)

Val

ószí

nű s

égek

19. ábra. Asszimetrikus, jobbra ferde binomiális eloszlás: n = 5, p = 0.25, k = 2

Nagyon nagy mintaelemszám (n) esetén, és sok lehetséges kimenetellel, amelyek jó része valószerutlen(például az, hogy 1000 40 éves férfi közül 500 szívinfarktusban elhalálozik —ez majdnem hihetetlen) abinomiális eloszlás, mint elemzési módszer teljesen alkalmatlan és majdnem értelmetlen.

Szerencsére ebben az esetben (amikor a mintaelemszám nagy és a valószínuségek kicsik) az eloszlá-sok mintázata egy jellegzetes formát ölt, amelyet egyszeru leírni. És ezt az eloszlás típust Poisson-eloszlásnak nevezik.

A Poisson eloszlás a binomiális eloszlás egy jellegzetes esete, amikor ennek az n paramétere igen nagy,és p paramétere igen kicsi.

Tehát, ha egy nagyon ritka esemény bekövetkezéseit számoljuk egy kísérlet nagyon nagyszámú ismétlésesorán, akkor ennek a változónak az eloszlása jól közelítheto a Poisson-eloszlással.

Számoljuk, hogy egy adott ido alatt, egy adott területen, térfogatrészben, egy adott anyagmennyiségbenhányszor figyelhetünk meg egy eseményt (hány diák jön be a kapun egy nap alatt, hány fás növény van alégifelvételen, hány szem borsót találunk egy adag rizibiziben, stb.).

A binomiális eloszlás esetében az átlag egyenlo a minta elemszámának és a valószínuségnek a szorzatá-val (µ = n × p) és a variancia egyenlo a mintaelemszám, az vizsgált esemény valószínusége és a másikkimenetel valószínuségének szorzatával (σ2 = n × p × q). Ha a p nagyon kis értéku, akkor a q gyakor-latilag egyenlo 1-el (q = 1 − p ' 1), így a Poisson eloszlás esetében a variancia egyenlo az átlaggal(µ = σ2 = n × p × 1 = n × p).

Page 31: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 31

Ez a tény, hogy az átlag egyenlo a varianciával (µ = σ2) egyedül a Poisson eloszlás jellemzoje.

Így az eloszlás paramétere az elofordulások átlagos száma. Az n · p érték, amelyet gyakran λ-val jelölnek,a Poisson-eloszlás paramétere.

Feltételezzük, hogy: az elofordulások átlagos száma arányos az idotartam, terület, stb. nagyságával (félnap alatt átlagosan fele annyi diák, öt adag rizibiziben átlagosan ötször annyi szem borsó, stb.).

A nem átfedo idotartamokban, területrészeken, stb. megfigyelt gyakoriságok függetlenek egymástól (pl.a délelott és délután érkezo diákok száma).

A Poisson-eloszlás lehetséges értékei a nem negatív egészek, a k értékhez (k = 0, 1, 2, 3, . . . ) tartozóvalószínuség:

P(X = k) = (np)k

k! ·e−np = (λ)k

k! ·e−λ

Alkalmazások: baktérium ill. vérsejt számlálás, esocseppek eloszlása, nyomdai hibák egy könyvben,kórházban születések, ill. halálozások napi száma, stb.

Példa. A repülési idoszak vége fele a mocsári szitakötonél (Libellula fulva) a párzások átlagos számaegy 5 × 5 m2-es kvadrátban 1.5 óránként. Jelölje X a párzások számát egy adott órában. Mennyi annaka valószínusége, hogy egy adott órában 4 párzást figyelhessünk meg? Nyilván X eloszlása Poisson,paramétere λ = 1.5 (20. ábra).

P(X = 4) = (1.5)4

4! ·e−1.5 = 0.056

0 2 4 6 8 10

0.00

0.10

0.20

0.30

Sikeres próbálkozások száma (k)

Val

ószí

nű s

égek

20. ábra. Poisson eloszlása a párzások valószínuségeinek: n = 10, p = 0.15, k = 4 (λ = n × p = 1.5)

Negatív binomiális eloszlás

Sok élolény esetében az egyedek aggregációja idoben vagy térben teljesen közönséges. A negatív bi-nomiális eloszlás aggregált vagy tömörült adatok leírására alkalmas (pl. amikor az események sikereskimenetelei sokkal tömörebbek és ritkábbak, mint egy ugyanolyan átlagú Poisson eloszlás esetében).

Számoljuk, hogy (azonos körülmények között egymástól függetlenül) hányszor kell ismételni egy meg-figyelést addig, amíg egy — mindegyik ismétléskor p valószínuségu — esemény k-szor bekövetkezik.A véletlen szám nem a szükséges ismétlések száma, hanem a szükséges ismétlések száma mínusz k,hogy a lehetséges értékek itt is 0, 1, 2, . . . legyenek.

Az eloszlás paraméterei p és k.

Page 32: László Zoltán: Biostatisztika Egyetemi Jegyzet

32 Statisztika - 2008/2009

Bár a negatív binomiális eloszlásnak ez a szokásos származtatása, ebbol egyáltalán nem látszik, hogymiért alkalmas gyakorisági adatok modellezésére. Egy másik származtatás szerint (amit precízen elégkörülményes megfogalmazni) a negatív binomiális eloszlás eloáll, amint különbözo paraméteru Poissoneloszlások keverednek.

Hipergeometrikus eloszlás (visszatevés nélküli mintavétel)

Ez egy másik olyan eloszlás típus, amely biológiai alkalmazhatósága nem ritka. Olyan események le-írására alkalmas amikor egy vizsgált populációból eltávolítunk bizonyos egyedeket és nem juttatjuk oketvissza. Ezért igen hasznos kis, zárt populációk esetében amikor az egyedeket jelölés-visszafogás mód-szerével vizsgáljuk.

N egyedbol álló populációból, amelyben egy bizonyos tulajdonsággal K egyed rendelkezik, egy n kü-lönbözo elembol álló mintát veszünk. A mintában lévo, az adott tulajdonsággal rendelkezo elemekszáma valószínuségi változó, amelynek lehetséges értékei a 0 és n közötti számok, a k értékhez (k =0, 1, 2, ..., n) tartozó valószínuség, pedig:

P(X = k) =

Kk

N − K

n − k

Nn

Példa. Tekintsünk egy csomag francia kártyát. Ez N = 52 lapból áll, amelyek közül K = 16 olyan van,amely nem számot, hanem valamilyen figurát tartalmaz. Egy embernek N = 10 lapot osztunk. Mennyiannak a valószínusége (P(X = k) =?), hogy ezek között pontosan k = 4 figura lesz?

P(X = 4) =

164

52 − 16

10 − 4

5210

=

164

36

6

5210

= 0.224

Hipergeometrikus és binomiális eloszlások esetén a variancia kisebb, mint az átlag, Poisson eloszlásesetén a variancia közel azonos az átlaggal, a negatív binomiális esetén a variancia nagyobb, mint azátlag (ezt nevezik angolul overdispersion-nek).

Page 33: László Zoltán: Biostatisztika Egyetemi Jegyzet

Hipotézisvizsgálatok

Az adataink segítségével egy hipotézis (elképzelés) helyességérol szeretnénk meggyozodni. De külön-bözo minták esetén erre vonatkozóan különbözo eredményeket kaphatunk. A hipotézisvizsgálatok soránazt számítjuk ki, hogy ha feltételezésünk igaz, akkor mekkora a valószínusége annak, hogy olyan min-tánk legyen, mint amilyent kaptunk.

Ha nagy a valószínusége, akkor elfogadjuk a hipotézisünket, ha kicsi akkor pedig elutasítjuk. Statisz-tikai hipotézisvizsgálatról akkor beszélünk, amikor egy, a populáció valamely jellemzojére vonatkozóhipotézisrol véletlen mintán mért adatok alapján, pontosabban egy, a mintából számított mennyiség -(próba-)statisztika - értéke alapján döntünk.

Példa:

Egy laboratóriumban egy búzafajta termésmennyiségének növekedését szeretnék meghatározni külön-bözo oldatok alkalmazásának segítségével. A kontroll esetében az eddig termesztett mintákban azt je-gyezték fel, hogy az érett búzaszemek átlagos tömege (µ =) 21.5 gramm volt, (σ =) 2.5 grammosszórással. Mivel a kontroll csoportokon több ideje (évek) mérik a búzaszemek tömegeit, és azt tapasz-talták, hogy minden esetben az átlag 21.5 grammos és a szórás 2.5 grammos, feltételezni lehet, hogy abúzaszemek tömegei normális eloszlást mutatnak µ = 21.5 gramm átlaggal és σ = 2.5 gramm szórás-sal. Az egyik oldat tesztelésére kiválasztottak egy véletlen mintát (N = 10). Ezeket a növényeket azoldattal táplálják (öntözik) és majd lemérik az érett búzaszemek tömegeit. Ha a búzaszemek átlagos tö-megei számottevoen nagyobbak lesznek, mint a kontroll esetében mért 21.5 gramm, akkor ezt az oldatottovábbi vizsgálatoknak vetik alá, mivel pozitív hatással van a terméshozamra. Azonban ha a búzasze-mek tömegei nem lesznek számottevoen nagyobbak a 21.5 grammnál, akkor az oldatot hatástalannaknyilvánítják.

A legfontosabb kérdés az, hogy hol húzzuk meg azt a határt, amely fölött hatásosnak tekintjük az oldatot?Elofordulhat, hogy olyan növényeket választottak ki, amelyek mindenképpen elérték volna a magasabbterméshozamot - így az oldatról alaptalanul állítanánk, hogy hatásos.

Az is elofordulhat, hogy olyan növényeket vontak be a kísérletbe, amelyek átlagos búzaszem tömegemegszokott, természetes (kontroll) körülmények között csak 18.5 gramm lett volna, az oldattal viszont21.5 grammosak lettek - így hatástalannak nyilvánítanák az oldatot, pedig az nagyon is megfelelt volnaa kívánt célnak. Felmerül a kérdés, hogy a mintavételezési hibát figyelembe véve a 10 növény átlagosszemtömegeinek legalább mekkorának kell lennie ahhoz, hogy az oldatot hatásosnak lehessen nyilvání-tani. A 22 gramm nyilván nem meggyozo, de mi van abban az esetben, ha az átlag már 22.5 gramm vagyéppen 23 gramm? Eloször nézzük meg, hogy mekkora a valószínusége annak, hogy egy valójábannem jó oldatot jónak nyilvánítsunk.

Page 34: László Zoltán: Biostatisztika Egyetemi Jegyzet

34 Statisztika - 2008/2009

Ha az oldat hatástalan, akkor a 10 elemu mintát egy olyan populációból választották, amelyik normáliseloszlású, µ = 21.5 gramm várható értékkel és σ = 2.5 gramm szórással.

Azt is tudjuk, hogy az X minta átlag szintén normális eloszlású, µX = 21.5 és σX = 2.5√10

= 0.8paraméterekkel.

A mintaátlag eloszlását a következo ábrán láthatjuk:

16 18 20 22 24 26 28

0.00

0.05

0.10

0.15

Tömegek (g)

rű s

ég

21. ábra. A búzaszemek tömegeinek (gramm) eloszlása

Ha az átlag csak 22 gramm, akkor az nem meggyozo, hiszen annak a valószínusége, hogy 10 olyannövényt választottak, amelyek átlagsúlya 22 gramm felett van 26.6%.

Ezt a valószínuséget a normális eloszlás táblázatának segítségével számolhatjuk ki a változók standardi-zálása után. (

Z = X−µσ/√

n

): P(X > 22) = P

(Z > 22−21.5

2.5/√

10

)= P(Z > 0.625) = 26.6%

Szükségünk van egy olyan kritikus értékre, amelynél ha nagyobb a búzaszemek átlagos súlya, akkormár igen kicsi a valószínusége annak, hogy egy ilyen eloszlású populációból pontosan így válasszuk anövényeket.

A kritikus értéket úgy szokták meghatározni, hogy 5% legyen a valószínusége annak, hogy akkora, vagyannál nagyobb legyen az átlag, mint az általunk meghatározott kritikus érték.

Számítsuk ki, hogy mekkora az 5%-os valószínuséghez tartozó kritikus érték:

0.05 = P(Z > 1.65) = P(

X−µσ/√

n> 1.65

)=

P(X > µ+ 1.65 · (σ/√

n)) =

P(X > 21.5 + 1.65 · 0.8) =

P(X > 22.85)

Tehát 5% a valószínusége annak, hogy a Z (az X standardizáltja) meghaladja az 1.65-ot, azaz X megha-ladja a 22.85 grammot.

Page 35: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 35

Feltételezzük, hogy a populációnk olyan növényekbol áll, amelyek súlya µ = 21.5 gramm átlagú ésσ = 2.5 gramm szórású normális eloszlású valószínuségi változó.

Kiválasztunk közülük tízet, és megnézzük, hogy mekkora az átlagsúlyuk.

Ha ez az átlagsúly meghaladja a 22.85 grammot, akkor meg lehetünk gyozodve arról, hogy hatásos voltaz oldat.

(Ha hatástalan lenne, akkor csupán 5% lenne az esélye annak, hogy a kiválasztott mintánk átlaga 22.85gramm felett legyen.)

Most megnézzük az ellenkezo esetet, azt hogy mekkora annak a valószínusége, hogy egy hatásosoldatot hatástalannak minosítünk.

A mintavételi hiba most is fennáll, hiszen lehet, hogy pont tíz olyan növényt választottunk, amelyek akontroll állapotban átlagosan csak 19.5 grammosak lettek volna, de az oldattal elérték a 21.5 grammossúlyt.

mu122.8

22. ábra. Azt látjuk a szürkével satírozott területen, hogy mekkora annak a valószínusege, hogy ekkora(20.6%) hibát kapjunk. A mu1(µ1) jelöli az új oldattal kezelt növények búzaszemeinek átlagos tömegét

Ha az oldat éppen 2 grammal növeli a tömeget, akkor a mintánkat egy olyan populációból vesszük, amelynormális eloszlású, átlaga 23.5 gramm és szórása 2.5 gramm.

Annak a valószínusége, hogy a mintaátlag ebben az esetben kevesebb legyen, mint 22.85 gramm azalábbi:

P(X > 22.85) = P(Z < 22.85−23.5

2.5/√

10

)= P(Z < −0.82) = 20.6%

Ha a táp még jobban növelné a búzaszemek tömegét, akkor ez a valószínuség még kisebbnek adódna.

A mintavételi hiba létezésébol következik, hogy két fajta téves statisztikai következtetést vonhatunk le:

1. egyrészt azt mondhatjuk egy hatástalan tápról, hogy hatásos;

2. másrészt egy hatásosról azt állíthatjuk, hogy hatástalan.

Page 36: László Zoltán: Biostatisztika Egyetemi Jegyzet

36 Statisztika - 2008/2009

Ha 22.85 grammnál húzzuk meg a határt, akkor 5% a valószínusége az elso esetnek, és 20.6% a máso-diknak.

Tehát nem azt próbáltuk bizonyítani, hogy az oldat hatásos. Nem a hipotézisünkrol látjuk be, hogy azhelyes-e vagy sem, hanem csak azt mondjuk, hogy az adatok cáfolják a hipotézist, vagyis hogy ha azelméletünk igaz, akkor ezek az adatok nagyon valószínutlenek.

Az a hipotézis, amelyet az adatok "elfogadnak", konzisztens az adatokkal abban az értelemben, hogy azelmélet és az adatok közti különbség magyarázható a mintavételi hibával.

A null-és az alternatív hipotézis

A statisztikai hipotézisvizsgálatok esetén mindig két hipotézis közül kell választanunk. Az egyik azúgynevezett nullhipotézis (jele: H0), a másik, pedig az alternatív hipotézis (jele: H1).

Az elozo példában a nullhipotézis: az oldat nem hatásos, az alternatív hipotézis: az oldat növeli abúzaszemek tömegét.

Formálisan: H0 : µ = 21.5, H1 : µ > 21.5. Az ilyen típusú H1 esetén egyoldali alternatív hipotézisrolbeszélünk.

Az adatokat arra használjuk, hogy eldöntsük: elfogadjuk-e H0-t vagy sem. A döntési szabályunk az volt,hogy H0 − t:

1. elfogadjuk, ha a mintaátlag standardizáltja (Z) kisebb, mint az 5%-hoz tartozó kritikus érték (azaz1.65);

2. elutasítjuk, ha Z meghaladja ezt az értéket.

A hipotézis elfogadásáról vagy elvetésérol egy ismert eloszlású ún. próbastatisztika segítségével dön-tünk.

Az elso-és másodfajú hiba

Mivel a minta a véletlentol függ, ezért soha nem lehetünk biztosak abban, hogy a hipotézis igaz vagysem.

A döntés során kétféle hibát követhetünk el:

1. elsofajú hibát követünk el, ha elvetjük a nullhipotézist, holott az igaz. Ennek valószínuségét jelöljeα;

2. másodfajú hibát követünk el, ha elfogadjuk a nullhipotézist, holott az nem igaz. Ennek valószínu-sége pedig legyen β.

Az α és β értéke attól függ, hogy hol húztuk meg azt a kritikus határt, amely alatt elfogadhatjuk a H0-t,illetve amely felett elutasítjuk.

Ha növeljük a kritikus értéket, akkor az esetek többségében növeljük az α-t, és egyúttal csökkentjük aβ-t.

Ha csökkentjük a kritikus értéket, akkor α csökken, de β no. Az α-t általában 5%-nak szokás megadni.A β pedig függvénye az α-nak, H1-nek, és az n-nek.

Page 37: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 37

Ha az adataink alapján elutasítjuk H0-t, akkor eredményünket statisztikusan szignifikánsnak, vagy egy-szeruen szignifikánsnak mondjuk.

Ha α < 5%, például 1 vagy 0.1%, akkor a kritikus határ kitolódik, és ezzel az elsofajú hiba valószínuségelecsökken.

kritikus érték (22.85)

mu2 (23.5)mu1 (21.5)

alfabeta

23. ábra. Az elso- (α) és másodfajú (β) hiba szemléltetése a búzaszemes példa adataira

Annak a valószínusége, hogy H0 igaz, de mi elutasítjuk: α, annak a valószínusége, hogy H0-t elfogadjuk,pedig hamis: β.

Ha α-t csökkentjük, akkor β no, és fordítva. Az α-t mi határozzuk meg, a β pedig az α-tól függ.

Természetesen a β értékét nem tudjuk pontosan megmondani, hiszen ez függ attól, hogy mennyi tényle-gesen az oldattal kezelt növények magvainak átlagsúlya.

Kétoldali alternatív hipotézis

Eddig csak olyan eseteket vizsgáltunk, amikor az alternatív hipotézis a nullhipotézis "egyik oldalán" van.

Nagyon gyakran elofordul azonban az, hogy csak arra vagyunk kíváncsiak, hogy a kísérletnek volt-eegyáltalán hatása, mindegy hogy az pozitív vagy negatív irányú.

Formálisan: H0 : µ = µ0, H1 : µ , µ0, ami a példánkban a következo lenne: H0 : µ = 21.5,H1 : µ , 21.5.

A nullhipotézis az, hogy az oldatnak nincs hatása, az alternatív pedig az, hogy igenis okoz változást abúzaszemek tömegében az oldat.

Hogyan dönthetünk ekkor az oldat hatásosságáról? Ha a búzaszemek tömege sokkal nagyobb, vagysokkal kisebb, mint 21.5 gramm, akkor meg lehetünk gyozodve arról, hogy valamilyen változást okozottaz oldat.

A kétoldali alternatív hipotézisek kétoldali vizsgálatokra vezetnek.

A kritikus értéket megint az elsofajú hiba határozza meg. A növények véletlenszeru kiválasztása aztokozhatja, hogy a mintába 10 átlag feletti, vagy átlag alatti növény kerül.

Az elso esetben az átlag feletti búzaszemek tömege lehet akkora, hogy azt hisszük, hogy pozitív hatásavolt az oldatnak (pedig a kontroll esetében körülbelül ugyanennyi lett volna tömegük).

Page 38: László Zoltán: Biostatisztika Egyetemi Jegyzet

38 Statisztika - 2008/2009

Az utóbbi esetben, pedig az átlag alatti búzaszemeknek lehetett olyan alacsony az átlagsúlya, hogy azthisszük, hogy az oldat rossz hatással volt a növényekre.

A kritikus tömegeket úgy szeretnénk megválasztani, hogy az elegendoen távol legyen a 21.5 grammtól,és így az elsofajú hiba kicsi legyen.

Az általános gyakorlat az, hogy 2.5% esélyt adunk annak, hogy helytelenül döntsünk a pozitív effektus-ról, és 2.5%-ot annak, hogy helytelenül döntsünk a negatív effektusról. Ez összesen 5%.

2.5% 2.5%

−z krit. z krit.

19.9 23.1

21.5

24. ábra. A hibavalószínuségek kétoldali alternatív hipotézis (H1) esetén

Mi történik akkor, ha az adatok nem normális eloszlásúak? Már láttuk korábban, hogy nagy minta eseténaz átlagérték ekkor is normális eloszlású lesz.

Ilyen esetben tehát használhatjuk az elobbiekben leírtakat.

Mi van akkor, ha nem ismerjük a szórást? Nyilván becslést kell adnunk rá. Ha nagy mintából becsülünk,akkor feltételezhetjük, hogy a becslés elegendoen pontos, és alkalmazhatjuk az eddig leírtakat.

Ha a populáció eloszlása normális, akkor kis minta esetén a t-eloszlás használatával korrigálhatjuk amódszert. Ennek az lesz a hatása, hogy a kritikus értékek távolabb fognak esni a H0-ban feltételezett µ0átlagértéktol.

Például, ha a búzaszem tömegek esetén nem ismerjük a szórást, csak becsültük a 10 elemu mintából, ésaz 2.5-nek adódott, akkor egyoldali próba esetén a kritikus érték:

0.05 = P(

X−µσ/√

n> tkrit

)=

P(X > µ0 + 1.83 · (s/√

n)) =

P(X > 21.5 + 1.83 · 0.8) =

P(X > 22.96)

A tkrit értéket a t-táblázat alapján határozzuk meg. A szabadsági fok n − 1 = 9, a valószínuség 0.05. Ígytkrit = 1.83.

Page 39: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 39

Kétoldali hipotézis esetén:

0.025 = P(

X−µσ/√

n> tkrit

)=

P(X > µ0 + 2.26 · (s/√

n)) =

P(X > 21.5 + 2.26 · 0.8) =

P(X > 23.3)

Ebben az esetben a szabadsági fok szintén n − 1 = 9, és a valószínuség 0.025, tkrit = 2.26.

A hipotézisvizsgálat elnevezés helyett nagyon gyakran a statisztikai próba kifejezést szokták használni.

Eddig mindig csak egy mintát vizsgáltunk, ezért ilyenkor az egymintás próba kifejezés használatos.

Mivel ismert szórás esetén a normális eloszlás táblázatát használjuk a kritikus érték meghatározására,ezért ilyenkor egymintás z-próbáról (vagy u-próbáról) beszélünk.

Becsült szórás esetén az egymintás t-próba használata a megfelelo. Azokat az intervallumokat, ame-lyekbe ha beleesik a minta átlaga, elutasítjuk a nullhipotézist, kritikus tartományoknak nevezzük.

Példa:

Egy viselkedési modell alapján tudjuk, hogy egy muslica átlagosan 30 másodpercig párzik. Egy labora-tóriumban levo muslica populációból megmérjük N = 17 hím párzási idejét.

Azt kaptuk, hogy a mérések átlaga X = 32.86 mp, míg szórása s = 9.82 mp. Azt vizsgáljuk, hogy vajona megfigyelt 32.86 mp-s párzási idoátlag származhat-e olyan populációból, ahol a valódi (parametrikus)átlag µ = 30 mp.

Erre vonatkozóan felállítjuk statisztikai hipotézispárunkat: H0 : X = µ; H1 : X , µ.

Ennek tesztelésére egymintás t-próbát használunk. A ts = X−µS X

t-eloszlást követ H0 : X = µ igaz voltaesetén (S X = S E az átlag szórása).

A t-eloszlást táblázatokban találhatjuk meg (csakúgy mint a többi nevezetes eloszlást). A táblázat egyadott valószínuséghez tartozó t kritikus értéket ad meg, vagyis kikereshetjük belole, hogy milyen való-színuséggel kaphatunk a táblázatbeli értéknél nagyobb értéket.

Mivel végtelen sok t-eloszlás létezik, amelyek a szabadsági fokban különböznek, ezért a táblázat számosszabadsági fokhoz megadja az értékeket.

Számoljuk ki a t értékét a muslicák adatait használva:

S E = 9.82√17

= 2.382

ts = 32.86 − 30.002.382 = 1.201

Ebben az esetben a keresett t-eloszlás szabadsági foka d f = n − 1 = 17 − 1 = 16.

Page 40: László Zoltán: Biostatisztika Egyetemi Jegyzet

40 Statisztika - 2008/2009

Ha kikeressük a táblázatból a d f = 16-hoz a kritikus értékeket:

df/p 0.90 0.70 0.50 0.30 0.20 0.10 0.05 0.02 . . .. . .16 0.128 0.392 0.690 1.071 1.337 1.746 2.120 . . .. . .

A számított értékünk ts = 1.201 nagyobb, mint a p = 0.30-hoz tartozó t = 1.071 kritikus érték, dekisebb, mint a p = 0.20-hoz tartozó t = 1.337 érték.

Ez azt jelenti, hogy 20% és 30% közé esik annak valószínusége, hogy H0 igaz volta esetén ilyen értéketkapjunk, más szavakkal az esetek ekkora százalékában követnénk el az elsofajú hibát, ha H0-t elvetnénk.

Mivel az elsofajú hiba 20-30%-os elkövetési gyakorisága igen jelentos, ezért a H0-át nem vetjük el.Vagyis megállapítjuk, hogy a laboratórium muslicáinak párzási ideje nem különbözik lényegesen azelmélet alapján várt értéktol.

Nem azonosságot állítottunk, hanem a szignifikáns eltérés hiányát.

Egy másik laboratóriumban szintén lemérték 17 hím muslica párzási idejét és a következoket kapták:X = 26.45 mp, s = 6.65 mp, n = 17.

S E = 6.65√17

= 1.613

ts = 26.45 − 30.001.613 = −2.201

A táblázatból, ha kikeressük a d f = 16-hoz tartozó értékeket, nem találunk köztük negatív elojelueket.Mivel a t-eloszlás a 0-ra nézve szimmetrikus, ezért a táblázatban, csak pozitív értékeket adnak meg.

Így ha a negatív elojelet elhagyjuk, kikereshetjük a valószínuséget. Ez ebben az esetben 0.05 > p > 0.01lesz, vagyis 5 és 1% közé eso valószínuséggel kaphatunk H0 igaz volta esetén ilyen eredményt.

A H0 téves elvetésével elkövetheto hiba kicsi, így H0-t nyugodtan elvethetjük és helyette a H1 : X , 30alternatív hipotézist fogadjuk el.

Megállapíthatjuk, hogy a második labor muslicáinak párzási ideje szignifikánsak különbözik az elméle-tileg várhatótól (p < 0.05 szinten).

A biológusi gyakorlatban a p < 0.05, p < 0.01 és p < 0.001 szignifikancia értékeket használjuk, vagyisekkora (5, 1 és 0.1%-os) elsofajú hibát engedünk meg magunknak.

Standard normál eloszlás táblázat (z-táblázat) használata

Vagyis az adatok hány százalékát találjuk egy x érték és a szélso érték között?

Az elso megfogalmazandó kérdés: hány szóráslépésnyire (S D-re) van az illeto x adat az átlagtól?

A kiszámítása egyszeru: az illeto értéket kivonjuk az átlagból, majd törjük a kapott különbséget a szó-rással. A továbbiakban ezt a kapott értéket kell használnunk a normál-eloszlás táblázattal való összeve-téskor.

A táblázatnak az elso oszlopában találjuk az egész értékeket és az azokat követo tizedeseket, a táblázatelso sorában a századokat. A mi értékünket ennek megfeleloen bontjuk két részre, vagyis pl. a 3.42S D-nyi érték két komponense a 3.4 és a 0.02.

Page 41: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 41

E két érték metszéspontjánál találjuk azt a valószínuségi értéket (p), amit 100-al beszorozva megkapjuka saját valós x kiindulási értékünk és az adathalmaz legkisebb szélso értéke között található adatok egészadattömegre levetített arányát (%-át).

Page 42: László Zoltán: Biostatisztika Egyetemi Jegyzet

42 Statisztika - 2008/2009

Page 43: László Zoltán: Biostatisztika Egyetemi Jegyzet

Egy vagy két populációátlagravonatkozó hipotézisvizsgálatok

A populációátlagokat, helyesebben a mintaátlagokat, amelyekbol megbecsüljük a populáció átlagát vár-ható értéknek is szokták nevezni. Így a populációátlagokra vonatkozó hipotézisvizsgálatokat nevezhetjükvárható értékekre vonatkozó hipotézisvizsgálatoknak is. A következokben a normál eloszlású adatsorok(minták) várható értékeinek összehasonlítására használatos módszereket ismertetjük. Tehát a felsorolttesztek (próbák, statisztikai próbák) csakis abban az esetben végezhetoek el, ha már megbizonyosod-tunk az adataink normál eloszlástól való nem szignifikáns eltérésérol. A normál eloszlástól való eltéréstesztelését a késobbiekben tárgyaljuk.

Ha egy mintával rendelkezünk, és ennek a mintának a várható értékét szeretnénk összehasonlítani egypéldául irodalomban fellelheto átlaggal, akkor egymintás próbát végzünk. Annak függvényében, hogyismerjük vagy sem az elméleti (hipotetikus vagy irodalomban fellelheto) átlaghoz tartozó szórást egy-mintás z- vagy t-tesztet használunk. Ha két mintával rendelkezünk, akkor kétmintás teszteket haszná-lunk. Az elso feltétel, amelyet ellenoriznünk kell a két minta függoségi viszonyára vonatkozik. Ha akét mintánk egymástól független kétmintás t-tesztet vagy Welch-tesztet használunk. Ha a két mintafüggetlensége nem teljesül, akkor páros t-tesztet használunk.

Miután megbizonyosodtunk a két minta függetlenségérol az alapján döntünk a kétmintás t-teszt és aWelch-teszt között, hogy megviszgáljuk a mintáink varianciáinak (szórásainak; σ (szórás) =

√σ2

(σ2 = variancia)) homogenitását. Ha a két minta szórásai (varianciái) homogének (var1 = var2),akkor kétmintás t-tesztet használunk. Ha a két minta varianciái nem homogének (var1 , var2), akkorWelch-tesztet használunk.

Egymintás próbák

Akkor használunk egymintás próbákat, ha a kérdésfelvetésünk a következoképpen hangzik: igaz-e azaz elképzelés (hipotézis), hogy a vizsgált változó populációs átlaga (várható értéke) (megegyezik) egyfeltételezett µ0 érték(kel)?. Formálisan: H0 : µ = µ0. A feltételezett µ vagy várható érték vagy átlagszármazhat irodalomból, elozo vizsgálatokból, vagy esetenként megbízható személyes közlésekbol.

Az egymintás z-próba vagy u-próba

Ennek a próbának az esetén a fontos, hogy a megmintázott populáció normális eloszlású legyen és, hogya σ-t is ismerjük. Egyszerübben: a mintánk eloszlása a normál eloszlástól nem szabad szignifikánsaneltérjen. Ha nem teljesül a normális eloszlási feltétel a mintánk elemszáma nagyobb kell legyen 30-nál(tetszoleges eloszlású populáció és n > 30. A z-próbát gyakran nevezik u-próbának is. A z-próba neveabból származik, hogy az elore meghatározott konfidencia szinthez (pl. 95%) tartozó kritikus értéket a zeloszlás táblázatból keressük ki (standardizált normál eloszlás táblázat).

Page 44: László Zoltán: Biostatisztika Egyetemi Jegyzet

44 Statisztika - 2008/2009

Ahhoz, hogy az alternatív hipotézist (H1, ellenhipotézis) elfogadhassuk a kiszámolt z értéknek nagyobb-nak kell lenni a z táblázatban található (megfelelo konfidencia szinthez tartozó) kritikus értéknél.

Ha a kiszámított z értékünk nagyobb a kritikus értéknél, akkor ez azt jelenti, hogy a nullhipotézis (H0)igaz volta esetén annak a valószínusége, hogy elkövessük az elsofajú hibát (α) kisebb 5%-nál.

A próba-statisztika: z = (u =) x−µ0σ/√

n, ahol x a mintaátlag, σ a populáció szórása, n a minta elemszáma,

z(u) a normál eloszlású valószínuségi változó, µ0 a hipotetikus átlag.

A kétoldali ellenhipotézis H1 : x , µ0, vagyis a minta átlaga nem egyenlo az elméleti átlaggal, mostmindegy, hogy melyik irányba tér el az utóbbitól. Ebben az esetben a kritikus tartomány K : {|z| ≥ zkrit}

(25. ábra (a)).

Az egyik egyoldali ellenhipotézis H1 : x > µ0, vagyis a minta átlaga nagyobb a hipotetikus átlagnál.Nyilván egyoldali ellenhipotézis esetében már nem mindegy, hogy milyen irányba tér el a minta átlagaaz elméleti átlagtól. Ebben az esetben a kritikus tartomány K : {z > zkrit} (25. ábra (b)).

A másik egyoldali ellenhipotézis H1 : x < µ0, vagyis a minta átlaga kisebb a hipotetikus átlagnál. Ebbenaz esetben a kritikus tartomány K : {z < zkrit} (25. ábra (c)).

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

p/2 p/2

−z krit. z krit.

a

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

p

z krit.

b

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

p

−z krit.

c

25. ábra. A kritikus tartományok egymintás z-teszt esetén, kétoldali ellenhipotézisnél (a), és egyoldaliellenhipotéziseknél (b, c).

Példa

Egy közleményben az alábbi adatokat találtuk: a zöld levelibéka (Hyla arborea) nostények 150–300 petéttartalmazó petecsomóikat napsütötte tószegélyek sekély vizébe, árkokba rakják le, ahol azok a fenékresüllyednek. Az apró, mindössze (µ0)1 cm-es fiatal békák 3–4 hónappal késobb hagyják el a vizet. Afiatal egyedek hosszának szórása (σ0) 1.5 mm. Hogy a vizteret elhagyó fiatal békák méretére vonatkozóértéket leteszteljük, a megfelelo idoszakban egy tó vizébol kimászó fiatal egyedekbol egy 9 elemu mintátveszünk. A kilenc egyedet lemérve a következo értéket kaptuk: az egyedek hosszának átlaga (x) 11.3mm. Alternatív hipotézisünk kétoldali, hiszen számunkra mindegy, hogy a mintánkban levo egyedeknagyobbak, vagy kisebbek, mint a közleményben található átlag, csak az eltérés megléte a fontos.

A teszt statisztika kiszámítása:

z = x−µ0σ0/√

n= 11.3−10

1.5/3 = 2.6

Page 45: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 45

A z eloszlás táblázatból ki tudjuk könnyedén keresni pl. a 95%-os konfidencia szinthez tartozó kritikusértéket. Megnézzük a táblázatban, hogy melyik az a valószínuségi érték, amely éppen meghaladja a0.95 − t. Ez az érték a 0.9505 lesz, és az ennek megfelelo z érték a 1.65. Tehát, ha ennél nagyobb zértéket kapunk, a null hipotézis elvetése esetén a tévedés minimális lesz.

A következo lépésben kiszámítjuk, hogy a p = 0.05 szignifikancia szinthez tartozó kritikus érték eseté-ben mekkora lenne az a hossz, amelynél, ha meghaladja ezt a mintánk átlaga, elvethetjük a null hipotézist:

0.05 = P(z > 1.65) = P(

x−µ0σ0/√

n> 1.65

)=

P(x > µ0 + 1.65 · (σ0/√

n)) =P(x > 10 + 1.65 · 0.5) =

P(x > 10.82)

Ha a 10.82-t meghaladja az x értékünk, akkor a nullhipotézis elvetése esetén a tévedésünk valószínuségekisebb 5%-nál.

A z értékekhez tartozó valószínüségeket tartalmazó táblázatban, pedig megnézhetjük, hogy mekkora avalószínuségge annak, hogy ha a z = 2.6 a két minta szignifikánsan különbözzön. Kikeressük a 2.6és 0.00 sor, illetve oszlop keresztezodésénél található értéket, amely 0.9953, tehát nemcsak p = 0.05szinten tér el egymástó a két várható érték, hanem p = 0.01 szinten is.

Tehát az alernatív hipotézis fogadjuk el, amely szerint a mintánk átlaga szignifikánsan nagyobb, mint azirodalmi adat (26. ábra).

Elméleti Tapasztalati

Átla

g+S

E8

910

1112

26. ábra. A vízteret elhagyó fiatal zöld levelibéka egyedek méretei közötti különbség egy irodalmi adat(Elméleti) és egy minta (Tapasztalati) alapján.

Az egymintás t-próba

A mintánk ebben az esetben is normál eloszlású kell legyen, feltétele csupán abban tér el az egymintász-próbáétól, hogy nem kell ismernünk a populáció szórását vagy varianciáját, amelyet a mintánkbólbecsülünk.

A t-próba neve abból származik, hogy az elore meghatározott konfidencia szinthez (pl. 95%) tartozókritikus értéket a t eloszlás táblázatból keressük ki (Student-féle t eloszlás táblázat).

Ahhoz, hogy az alternatív hipotézist (H1, ellenhipotézis) elfogadhassuk a kiszámolt t értéknek nagyobb-nak kell lenni a t táblázatban található kritikus értéknél amely a megfelelo szabadsági fokhoz is tartozik.

A próba-statisztika: t = x−µ0s/√

n, ahol x a mintaátlag, s a minta szórása, n a minta elemszáma, t Student-

féle t eloszlású valószínuségi változó, µ0 a hipotetikus átlag és a szabadsági fok egyenlo a minta elem-száma minusz 1 (d. f . = n − 1).

Page 46: László Zoltán: Biostatisztika Egyetemi Jegyzet

46 Statisztika - 2008/2009

A kétoldali ellenhipotézis H1 : x , µ0, vagyis a minta átlaga nem egyenlo az elméleti átlaggal. Ebben azesetben a kritikus tartomány K : {|t| ≥ tkrit}.

Az egyik egyoldali ellenhipotézis H1 : x > µ0, vagyis a minta átlaga nagyobb a hipotetikus átlagnál. Akritikus tartomány K : {t > tkrit}.

A másik egyoldali ellenhipotézis H1 : x < µ0, vagyis a minta átlaga kisebb a hipotetikus átlagnál. Ebbenaz esetben a kritikus tartomány K : {t < tkrit}.

Megjegyzések:

(1) Látható, hogy az z-és t-próba csak abban különbözik, hogy a szórást a mintából becsüljük-e, és hogya kritikus értékeket a normális, vagy a t-eloszlásból kapjuk-e.

(2) Nagy mintára (n ≥ 50) a szórás már elég pontosan becsülheto és a t-eloszlás kritikus értékei semtérnek el lényegesen a normális eloszlásétól, ezért ekkor mintából becsült szórások esetén sem számíthibának a z-próba használata.

Példa

Egy enzim aktivitása (adott ido alatti fehérje egység (gramm) által átalakított szubsztrátum mennyiség)tizenkét sárgasággal fertotött májszövet mintában a következo értékeket mutatta:

4.15 4.48 4.22 3.94 4.52 3.70 4.77 4.03 4.10 4.86 3.56 3.33

Egészséges májszövet mintákban azt találták, hogy ez a mennyiség 3.83. Van-e szignifikáns eltérés azegészséges szövetek enzimaktivitásához képest a beteg szövetekben? Mivel az elméleti szórást (σ0) nemismerjük, csak az elméleti átlagot (µ0), így az összehasonlítást egymintás t-testtel végezhetjük el. Elobbkiszámítjuk a teszt statisztikát, de ehhez szükségünk van a mintáink aktivitásainak átlagára, a szórásukraés a szabadsági fokra:

x = 49.6612 = 4.13

d. f . = n − 1 = 12 − 1 = 11

s =

12∑i=1

(xi−x)2

d. f . = 0.46

t = x−µ0s/√

n= 4.13−3.83

0.46/√

12= 2.26

Ezek után kikeressük a t eloszlás táblázatból a 95%-os konfidencia szinthez és 11-es szabadsági fokhoztartozó kritikus értéket, kétoldali alternatív hipotézis esetére. Ha a t értékünk ennél nagyobb elvetjük aH0-t és megtartjuk a H1-et. A kritikus érték 2.201, a t statisztika értékünk ennél nagyobb, de nem sokkal.Ez az érték (2.26) elegendo ahhoz, hogy elvessük a H0-t. Ebben az esetben azt mondjuk, hogy az eltérésmarginálisan szignifikáns.

Ha arra lennénk kíváncsiak, hogy a mintáink aktivitás adatai szignifikánsan magasabbak-e az egészsé-ges szövetek aktivitás átlagánál, akkor a kritikus értéket az egyoldali ellenhipotézisre keressük ki. Itt akritikus érték 1.796, amelynél már a t értékünk jóval nagyobb.

Tehát, ha a kérdésünk az, hogy szignifikánsan nagyobbak-e az enzim aktivitások a beteg szövetekben,akkor a válaszunk ismételten pozitív, de a megbízhatóság nagyobb. A 27. ábra a két átlag közöttieltéréseket mutatja be

Page 47: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 47

Egészséges Fertő zött

Átla

g+S

E3.

03.

54.

04.

55.

0

27. ábra. Az enzimaktivitások eltérései az egészséges és a sárgasággal fertozött májszövet mintákban.

A Student-féle t eloszlások csupán a szabadsági fokokban különböznek egymástól. A következo ábraolyan t eloszlásokat szemléltet, amelyek csupán a szabadsági fokokban térnek el egymástól, és ezért amegfelelo konfidencia szinthez tartozó kritikus értékek közöttük eltérnek (28. ábra).

−10 −5 0 5 10

28. ábra. Különbözo szabadsági fokokkal rendelkezo t eloszlások (folytonos: d. f . = 2), szaggatott:d. f . = 15, pontozott: d. f . = 500.

Két független minta átlagának összehasonlítása

Akkor használunk kétmintás próbákat, ha a kérdésfelvetésünk a következoképpen hangzik: igaz-e az ahipotézis, hogy a vizsgált változó(k) átlaga (várható értéke) megegyezik a két populációban?

A nullhipotézis: H0 : µ1 = µ2. A kétoldali ellenhipotézis: H1 : µ1 , µ2. Az egyoldali ellenhipotézisek:H1 : µ1 > µ2 vagy H1 : µ1 < µ2.

A kétmintás z-próba vagy u-próba

A mintáknak, nem feltétlenül azonos, ismert szórású normális eloszlású populációkból kell származniuk.Csak abban az esetben fogadhatjuk el a tetszoleges eloszlású populációkból származó mintákat, ha azelemszámok nagyobbak mint 30 (n1 > 30 és n2 > 30). A másik nagyon fontos feltétel a két mintafüggetlenségére vonatkozik.

A próba-statisztika: z = (u =) x1−x2√σ2

1n1

+σ2

2n2

, ahol x1 az elso minta átlaga, x2 a második minta átlaga, σ21 az

elso minta varianciája, σ22 a második minta varianciája, valamint n1 és n2 a két minta elemszámai.

Page 48: László Zoltán: Biostatisztika Egyetemi Jegyzet

48 Statisztika - 2008/2009

A kritikus tartományok ugyanazok, mint az egymintás z(u)-próba esetén.

A próba-statisztika kiszámításának logikája a következo: a teszt-statisztika értéke egyenlo a megfigyeltátlagok közötti különbség és az elvárt különbség közötti eltérés és a két minta standard hibáinak arányá-val:

z = (x1−x2)−(µ1−µ2)√σ2

1n1

+σ2

2n2

,

ahol a (µ1 − µ2) eltérés 0-val egyenlo, hiszen a null-hipotézisünk a két minta azonosságát feltételezi, ígya közöttük levo eltérés nullával egyenlo. A gyakorlatban igen ritkán használható ez a próba, mivel csakritkán ismerjük a vizsgált változók szórását, ezeket általában a mintákból becsüljük.

Példa

Férfi donorok esetében egy bizonyos nyomelem vérben található mennyiségének szórása (σ1) 14.1 ppm(parts per million—milliomod rész), míg a noknél ez az érték (σ2) 9.5 ppm. Random módon választottakki (n1) 75 férfi és (n2) 50 no donort, amelyek esetében a koncentrációk átlagai (x1) 28, illetve (x2) 33 ppmvoltak. Igaz-e az a feltételezés, hogy a férfiak és nok esetében ennek a nyomelemnek a koncentrációjanem tér el?

z = (x1−x2)−(µ1−µ2)√σ2

1n1

+σ2

2n2

= (28−33)−0√14.12

75 + 9.5250

= −2.37

A kiszámított z érték azért negatív, mert a kisebb (férfi) átlagból vontuk ki a nagyobb átlagot (no). Mivela feltételezett eltérés a két populáció között 0, a számításban az értékek sorrendje tetszoleges, az iselofordulhatott volna, hogy az x1 a nok mintájának átlaga legyen és az x2 a férfiaké, és ebben az esetbena z érték nem −2.37, hanem 2.37 lett volna. Egy magas z érték a standard notmál eloszlás bármely (plusszvagy minusz) végzodése fele a H0 elvetéséhez fog vezetni.

Az a terület, amely a standard normál eloszlás görbéje alatt található a z = −2.37 értékig megfelel a0.0089 · 100 valószínuségnek. Mivel a teszt kétoldali ennek az értéknek a kétszeresét vesszük, tehátannak a valószínusége, hogy a két átlag egyenlo legyen 1.78. Ha a tesztet 95%-os konfidencia szintmellett végezzük, akkor (100 − 1.78 = 98.22) az eltérés szignifikánsnak adódik (29. ábra). Azonban,ha 99%-os konfidencia szintet választunk a null hipotézist nem vethetjük el (mivel p = 0.0178, de aszignifikancia szint: p = 0.01, ennél ahhoz, hogy elvethessük a null hipotézist a szignifikancia értékünkkisebb kell legyen).

Férfi Nő

Átla

g+S

E (

ppm

)0

1020

3040

50

29. ábra. A megfigyelt nyomelem koncentrációjának (ppm) eltérése a férfiak (n1 = 75) és nok (n2 = 50)esetében.

Page 49: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 49

A kétmintás t-próba

A minták most is normális eloszlású populációkból származnak, de nagy minták esetén (n1, n2 > 30)közelíto érvénnyel használható nem normális eloszlású változók esetén is. A szórások ismeretlenek, defeltehetoen azonosak (σ1 = σ2), ami annyit jelent, hogy a két változó szórásait a mintákból bscüljükmeg (a varianciák (szórások) homogenitásának tesztelésére F-próbát használunk. Egy szintúgy fontosfeltétel a minták függetlensége.

A próba-statisztika: t = x1−x2

s√

1n1

+ 1n2

, s2 = (n1−1)s21+(n2−1)s2

2n1+n2−2 , ahol x1, x2 a mintaátlagok, s1, s2 a szórások,

n1, n2 az elemszámok. A szabadsági fok: n1 + n2 − 2. A kritikus tartományok ugyanazok, mint a z(u)-próbánál.

A gyakorlatban két normál eloszlású minta összehasonlítására leginkább ezt a próbát használjuk (persze,ha a varianciáik homogének).

Példa

A naphal (Lepomis gibbosus) eredeti elofordulási területe Észak-Amerika keleti része, Kanadától egé-szen Floridáig, de már nagyon sok helyre betelepítették. Faunaterületünkön alacsonyabb tengerszintfeletti magasságokon a tiszta, álló vagy lassú folyású vizek növényzettel benott, iszapos vagy homokosmedru szakaszain fordul elo. A kifejlett hal testhossza 17-18 centiméter. Tápláléka igen változatos,planktonrákokon kívül nagy mennyiségu szúnyoglárvát és más halak ikráját és lárváját is elfogyasztja.

Két eltéro táplálékellátottságú víztérbol gyujtöttek naphalakat. Az egyedek testhosszait a következosorokban láthatjuk:

területA 18.36 16.33 18.19 16.94 15.69 16.61 17.89 15.99 19.57 15.66 13.87területB 19.04 17.24 19.12 19.99 15.56 19.25 18.96 18.48

Eltérnek-e a különbözo táplálékellátottságú vízterekbol gyujtött naphalak testhosszai?

s2 = (n1−1)s21+(n2−1)s2

2n1+n2−2 = (11−1)·2.53+(8−1)·1.98

11+8−2 = 2.30

t = x1−x2

s√

1n1

+ 1n2

= 16.83−18.45√

2.30·√

111 + 1

8

= −2.30

A terület B terület

Átla

g+S

E (

cm)

1012

1416

1820

30. ábra. A két eltéro táplálékellátottságú víztérbol származó naphalak testhosszainak (n1 = 11, n2 = 8)eltérése.

Page 50: László Zoltán: Biostatisztika Egyetemi Jegyzet

50 Statisztika - 2008/2009

A kérdésbol láthatjuk, hogy az alternatív hipotézisünk kétoldali (H1 : x1 , x2). Így a Student-félet eloszlás táblázatból kikeressük a 95%-os konfidencia szinthez és a d. f . = 17-hez tartozó kritikusértéket. Ez 2.110, ennél az általunk kapott t érték nagyobb (mindegy hogy a teszt statisztika értékünknegatív vagy pozitív, a t eloszlás szimmetrikussága miatt a t-nek az abszolút értékét vesszük). Tehát, p =0.05-ös szignifikancia szinten elvetjük a null-hipotézist és elfogadjuk az alternatívat—a halak testhosszakülönbözik a két eltéro táplálékellátottságú víztérben (t = −2.30, n1 = 11, n2 = 8, d f = 17, p<0.05)(30. ábra).

Mi van, ha a varianciák nem egyeznek meg?

Elképzelheto, hogy található olyan transzformáció, amely végrehajtása után a varianciák megegyeznek,ha nem, akkor közelíto próbát lehet használni. Ezt még nevezik kétmintás t-teszt különbözo varianciákesetére-nek. De leggyakrabban a Welch-próba néven találkozhatunk vele.

A Welch-teszt

Akkor használjuk, ha a megmintázott populációkban a mért változónak az eloszlása normális, a mintáinkfüggetlenek és a két minta varianciája nem homogén.

A próba-statisztika: tWelch = x1−x2√s2

1/n1+s22/n2

, a szabadsági fok, pedig d fW = (n1−1)(n2−1)(n1−1)c2+(n2−1)(1−c2) . Az

d fW-t a legközelebbi egész értékre kell kerekíteni, a képletében szereplo c2 pedig a c2 = s22/n2

s21/n1+s2

2/n2

alapján számítható.

Megjegyzések:

1. Nagy mintákra (n1, n2 > 30) a szórások már elég pontosan becsülhetok és a t-eloszlás kritikusértékei sem térnek el lényegesen a normális eloszlásétól, ezért ekkor mintából becsült szórásokesetén is elfogadható közelítést ad a z-próba.

2. A másik két próbát (kétmintás t-teszt, Welch-teszt) kis mintákra használjuk, attól függoen, hogy akét szórást azonosnak vagy különbözonek gondoljuk. A szórások egyenloségét F-próbával tesz-teljük, és annak eredménye szerint választjuk meg a próbát.

3. A Welch-próba is csak közelíto érvényu eredményt ad, de alkalmazása általánosan elfogadott.

4. A fenti módszerekkel nemcsak az átlagok egyenlosége, hanem a H0 : µ1 − µ2 = dhipot hipotézis istesztelheto.

5. A számítógépes programok általában csak a t-próbát tudják.

PéldaNéhány kukorica fajta magas lizin tartalommal rendelkezik (a lizin a 20 esszenciális aminosav egyike).Egy 20 napos kísérletes kakasokat (hím csibék) tartalmazó csoportot (mintát) magas lizin tartalmú ku-koricával tápláltak. A kontroll csoportot, amely ugyanannyi egyedbol állt normális lizin tartalmú kuko-ricával táplálták. A testtömegük változását 21 napon keresztül mérték és az alábbi adatokat kapták:

kontroll 361 434 406 427 430 447 403 318 420 339kontroll 401 393 467 477 410 375 426 407 392 326> lizin 356 377 394 422 410 376 409 412 386 412> lizin 418 424 381 421 381 406 368 395 388 447

Page 51: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 51

A vizsgált kérdés az, hogy van-e eltérés a magas lizin tartalmú, illetve a közönséges kukoricával táplált20 napos hím csibék testtömegei között?

Mivel a varianciája a két mintának szignifikánsan eltér (F = 5.05, d fnom = 19, d fdenom = 19, p = 0.001)a két mintát Welch-teszttel hasonlíthatjuk össze. A két minta normál eloszlása és függetlensége teljesül.

Elobb kiszámítjuk a c2 értékét:

s21 = 2581.17s2

2 = 511.19

c2 = s22/n2

s21/n1+s2

2/n2= 511.19/20

(2581.17/20)+(511.19/20) = 0.16

Ezután a szabadsági fokot:

d fW = (n1−1)(n2−1)(n1−1)c2+(n2−1)(1−c2) = (20−1)·(20−1)

(20−1)·0.162+(20−1)(1−0.162) = 19

Majd a teszt-statisztika értéket:

tWelch = x1−x2√s2

1/n1+s22/n2

= 366.3−399.15√2581.17/20+511.19/20

= −2.64

Ha 95%-os konfifencia szintet használunk, akkor a kritikus értéknél (d. f . = 19, p = 0.05) a teszt-statisztika értékünk nagyobb (tkrit = 2.093), így a null hipotézist elvetjük.

Tehát a 20 napos idointevallumban a magas lizin tartalmú kukoricával táplált hím csibék testtömegemegváltozott a szokásos táppal etetett csibékkel szemben (t = −2.64, d f = 17, p < 0.05) (31. ábra).

kontroll kezelt

Átla

g+S

E (

gram

m)

200

250

300

350

400

450

500

31. ábra. A különbözo lizintartalommal rendelkezo kukoricával táplált 20 napos kakasok testtömegeinekkülönbsége (n1 = n2 = 20).

Két várható érték, párosított minták

Ilyenkor általában a két minta vagy azonos egyedek kétszeri megfigyelésébol (például kezelés elott éskezelés után), vagy egymással összetartozó egyedek (párok) megfigyelésébol származik.

A párositott minták érzékenyebbek a független mintáknál, kisebb eltérések kimutatására jobban alkal-mazhatóak, de a gyakorlatban nehezebb sok esetben olyan páros mintákon végezni a megfigyeléseket,amelyek esetében minden eltérés ki van zárva a megváltoztatott tulajdonságon kívül.

Page 52: László Zoltán: Biostatisztika Egyetemi Jegyzet

52 Statisztika - 2008/2009

A páros t-próba

Ilyenkor a mérések ugyanazokon az egyedeken, vagy párosított mintákon történtek. Nem szükséges az,hogy mindkét változó normális eloszlású legyen, elegendo, ha a d különbség normális eloszlást követ.Nagy minták esetén (n ≥ 30) közelíto érvénnyel használható akkor is, ha a különbség nem normáliseloszlású.

A nullhipotézis: H0 : µd = 0. A próba-statisztika: t = dsd/√

n, ahol d a különbségek átlaga, sd a

különbségek becsült szórása, n a mintaelemszám (mindkét minta elemszáma ugyanannyi, n1 = n2). Aszabadsági fok a mintaelemszám minusz 1.

A kritikus tartomány ugyanaz, mint az egymintás t-próbánál. Egyoldali esetben arra kell figyelni, hogyamikor a d-t számoltuk, melyik értéket vontuk ki a másikból.

Megjegyzések:

1. Nagy minták esetén (n > 50) a t-eloszlás kritikus értékei helyett itt is használhatjuk a normáliseloszlás kritikus értékeit ekkor páros z-próbáról beszélünk).

2. Itt is tesztelheto a H0 : µ1 − µ2 = dhipot hipotézis is.

Példa

Füge fajok termésfürtjeiben gyakran fügedarazsak találhatóak. Egy vizsgálatban azt nézték, hogy a han-gya fajok (Crematogaster sp.) jelenléte egyes fürtökön képes-e megváltoztatni a fügedarazsak jelenlétét.A viszgálathoz ugyanazokon a gazdanövényeken figyelték a fügefürtöket, tehát a minták nem voltakegymástól függetlenek.

Az alábbi sorokban a fügedarazsak százalékos jelenléte van feltüntetve fürtönként, összesen 8 gazdanö-vényen vizsgálták a förtöket:

van Crematogaster sp. 19.79 16.65 16.42 14.83 19.41 9.65 18.72 18.94nincs Crematogaster sp. 26.37 21.98 23.56 20.95 25.54 23.57 25.32 19.10d 6.58 5.33 7.14 6.12 6.13 13.92 6.60 0.16

Az utolsó sor a két minta különbségét tartalmazza (nincsCrematogaster sp. − vanCrematogaster sp.).Ezek után kiszámoljuk a különbségek átlagát (d = 6.49) és a különbségek standard hibáját (sd/

√n =

1.31).

t = 6.491.31 = 4.95

Ez a t érték jóval nagyobb mint a d. f . = 7 és a p = 0.05 értékekhez tartozó kritikus érték (tkrit = 2.36),így a H0-t elvetjük és kijelentheto, hogy a vizsgált mintákban a hangya jelenlétében eltért a fügedarazsakszázalékos jelenléte a fügefürtökben a hangyák hiányában tapasztalható mennyiségektol (t = 4.95, d f =7, p < 0.05).

Page 53: László Zoltán: Biostatisztika Egyetemi Jegyzet

Varianciára (szórásnégyzetre) vonatkozó próbák

Több teszt esetében az egyik fontos feltétel a varianciák homogenitásának teljesülése. Ez annyit jelent,hogy az összehasonlítandó minták varianciáinak nem szabad szignifikánsan eltérni. A paraméteres tesz-tek esetében, ha egy mintánk van akkor χ2-tesztet alkalmazunk, ha két mintánk van akkor F-tesztet, hakettonél több, akkor Bartlett-tesztet. Ha nem teljesül a minták normális eloszlására vonatkozó feltétel,akkor két minta esetén, úgyszintén, mint kettonél több minta esetén is Levene-tesztet alkalmazhatunk.Egy másik nem-paraméteres teszt ketto vagy több variancia összehasonlítására a Fligner-Killeen teszt.

Egy variancia vizsgálata khi-négyzet (χ2) próbával

A következo módon hangzó kérdések esetén alkalmazhatjuk: igaz-e az a hipotézis, hogy a vizsgált vál-tozó populációbeli varianciája egy feltételezett σ2

0érték?

Mivel több teszt neve is tartalmazza a khi-négyzet elnevezést, mindenképpen ajánlatos ehhez hozzá-fuzni, hogy mit is tesztelünk. Így a varianciára vonatkozó χ2 teszt teljes neve: khi-négyzet próba egyvariancia vizsgálatára. A teszt elvégezhetoségének feltétele a vizsgált változó normális eloszlása. Ateszt-statisztika érték chi-négyzet eloszlást követ, n − 1 szabadsági fokkal.

A teszt statisztikát a következo módon számíthatjuk ki:

χ2 = (n−1)s2

σ20

,

ahol n a mintaelemszám, s2 a minta varianciája és a σ20 az elméleti variancia.

A nullhipotézis: H0 : s2 = σ20. Az alternatív hipotézisek pedig: kétoldali—H1 : s2 , σ2

0; egyoldaliak—H1 : s2 < σ2

0 és H1 : s2 > σ20; ahol s2 az ismeretlen populációs variancia, és σ2

0 az elméleti variancia(lásd az elobbiekben).

A kritikus tartomány: H1 : s2 , σ20 esetén χ2 : χ2 ≤ χ2

1−α/2 vagy χ2 : χ2 ≥ χ2α/2, H1 : s2 < σ2

0 eseténχ2 : χ2 ≤ χ2

1−α, H1 : s2 > σ20 esetén χ2 : χ2 ≥ χ2

α, ahol α az elsofajú hiba megengedett szintje, χ2α, χ2

α/2,χ2

1−α/2, pedig az n − 1 szabadsági fokú χ2-eloszlás megfelelo kritikus értékei.

Példa

Egy σ20 = 4.55 (σ0 = 2.13) varianciájú populációból veszünk egy 30 elemu mintát. A minta varian-

ciája s2 = 6.7 (s = 2.59). Teszteljük azt a hipotézist, hogy a minta egy 4.55-nél nagyobb varianciájúpopulációból származik.

Page 54: László Zoltán: Biostatisztika Egyetemi Jegyzet

54 Statisztika - 2008/2009

A hipotézisek: H0 : s2 = 4.55; H1 : s2 > 4.55. A d. f . = n − 1 = 30 − 1 = 29. A khi-négyzet kritikusértéke p vagy α = 0.05-re és d. f . = 29-re: χ2

krit = 42.56.

χ2 = (n−1)s2

σ20

= (30−1)·6.74.55 = 42.7

Így a nullhipotézist elvethetjük. A 30 elemu minta egy s2 = 4.55-nél magasabb varianciájú populációbólszármazik.

Két variancia összehasonlítása F-próbával

Akkor használunk két variancia összehasonlítására vonatkozó próbákat, ha a kérdésfelvetésünk a kö-vetkezoképpen hangzik: igaz-e az a hipotézis, hogy a vizsgált változó(k) varianciája (szórásnégyzete)megegyezik a két populációban?

A vizsgált változók normális eloszlásúak kell legyenek, valamint a két minta független kell legyen. Amintákat úgy sorszámozzuk, hogy a korrigált tapasztalati varianciákra s2

1 ≥ s22 teljesüljön.

A nullhipotézis: H0 : s21 = s2

2, ahol s21 és s2

2 az ismeretlen populációs varianciák. Az ellenhipotézis:H1 : s2

1 , s22 (kétoldali ellenhipotézis), vagy H1 : s2

1 < s22 vagy H0 : s2

1 > s22 (egyoldali ellenhipotézisek).

A próba-statisztika:

F = s21

s22,

ahol s21 és s2

2 a korrigált tapasztalati varianciák.

A kritikus tartomány kétoldali alternatív hipotézis esetén H1 : s21 , s2

2 esetén{F : F ≥ Fα/2

}. Egyik

egyoldali alternatív hipotézis esetén H1 : s21 < s2

2 {�} mivel s21 ≥ s2

2, a másik esetben H1 : s21 > s2

2{F : F ≥ Fα}, ahol Fα/2, Fα az (n1−1) és (n2−1) szabadsági fokú F-eloszlás megfelelo kritikus értékei.Az n1 a számlálóbeli, az n2 a nevezobeli minta mintaelemszámát jelöli.

Példa

Egy vizsgálat során meg szeretnének gyozodni arról, hogy egy oldatban jelen levo szennyezodésekmennyisége a reakció idejétol függ. Az elso minta értékei egy normális idotartamú folyamatból származ-nak, míg a második minta értékei egy rövidített reakcióidotartamú folyamatból, ahol a szennyezodésekmennyiségének csökkentésére törekedtek. Az adatok a következok:

kontroll oldat 4.54 4.8 4.82 3.68 3.88 6.13 3.35 3.21 4.68 4.52 4.73 5.05kezelt oldat 4.73 7.25 5.53 2.96 6.18 4.11 3.83 5.33 4.98 5.58 6.58 4.8

Elso lépésben kiszámítjuk a két minta varianciáit:

s21 =

n∑i=1

(xi−x)2

n−1 = 7.2511 = 0.65

s22 =

n∑i=1

(xi−x)2

n−1 = 15.8211 = 1.43

Page 55: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 55

Mindkét adatsor esetében a szabadsági fok 11 (d. f . = 12− 1 = 11). Az F érték: F = s21

s22

= 0.651.43 = 0.45.

Az F-táblázatban a d. f .1 = 11 és d. f .2 = 11 szabadsági fokokhoz és a 95%-os konfidencia szintheztartozó kritikus érték Fkrit = 2.82, így nem vethetjük el a nullhipotézist, az alternatív hipotézis elfo-gadásához az F > Fkrit kellett volna legyen. Tehát az oldatokban a szennyezodés variabilitása nemkülönbözik szignifikánsan.

Kontroll Kezelt

24

68

Sze

nnyz

ő dé

s ko

nc.

●●●

●●

●●

●●●●

●●

32. ábra. A kontroll és kezelt oldatokban megfigyelt szennyezodések koncentrációi, ezek átlagai és aszórásaik.

Példa

Egy táplálék-preferencia vizsgálat során viaszrétegek vastagságainak szórásait hasonlították össze. Aviszrétegek képzésében két eltéro alfaj vett részt. A következo adatokat kapták:

1. alfaj 1.23 1.26 1.23 1.24 1.21 1.22 1.24 1.27 1.25 1.251. alfaj 1.23 1.25 1.24 1.23 1.27 1.23 1.22 1.25 1.24 1.262. alfaj 1.22 1.26 1.27 1.28 1.26 1.27 1.24 1.25 1.27 1.242. alfaj 1.26 1.28 1.28 1.27 1.26 1.25 1.29 1.32 1.26 1.19

Elso lépésben kiszámítjuk a két minta varianciáit:

s21 =

n∑i=1

(xi−x)2

n−1 = 0.0051819 = 0.00027

s22 =

n∑i=1

(xi−x)2

n−1 = 0.0135819 = 0.00071

Mindkét adatsor esetében a szabadsági fok 19 (d. f . = 20 − 1 = 19). Az F érték: F = s21

s22

= 0.000270.00071 =

0.38.

Az F-táblázatban a d. f .1 = 19 és d. f .2 = 19 szabadsági fokokhoz és a 95%-os konfidencia szintheztartozó kritikus érték Fkrit = 2.17, így nem vethetjük el a nullhipotézist, az alternatív hipotézis elfo-gadásához az F > Fkrit kellett volna legyen. De ha az F táblázatot kívánjuk használni vigyáznunkkell arra, hogy az s2

1 > s22 teljesüljön. Tehát a teszt-statisztika értéke: F = 0.00071

0.00027 = 2.62! Így anullhipotézist elvetjük, tehát a viaszrétegek varianciái szignifikánsan különböznek.

Page 56: László Zoltán: Biostatisztika Egyetemi Jegyzet

56 Statisztika - 2008/2009

alfaj no. 1 alfaj no. 2

1.15

1.20

1.25

1.30

1.35

Via

szré

teg

vast

agsá

g (m

m)

●●

●●

33. ábra. A két alfaj által létrehozott viaszrétegek vastagságai, ezek átlagai és a szórásaik.

Kettonél több variancia összehasonlítása

Ha kettonél több, normális eloszlást követo valószínuségi változónk van, szórásaik összehasonlítására aBartlett-próbát alkalmazhatjuk.

A Bartlett-próba

Azt teszteljük, hogy a k mintánk varianciái megegyeznek-e. Egyes statisztikai tesztek (pl. kétmintást-teszt, variancia analízis (ANOVA)) feltételezik a varianciák homogenitását.

A minták eloszlásának normál eloszlástól való eltérésére érzékeny. Ha nem teljesül a normalitási felté-tel a varianciák összehasonlítására a Levene-tesztet használhatjuk, amely kevésbé érzékeny a kérdésesfeltételre.

A nullhipotézisünk a k minta varianciáinak egyenloségét feltételezi, míg az alternatív hipotézis szerintlegalább két minta varianciája eltéro.

Ha a k minta elemszáma ni és a minták varianciái σ2i , akkor a teszt-statisztika:

T =(N−k) ln s2

p−k∑

i=1(Ni−1) ln s2

i

1+ 13(k−1)

(k∑

i=1

(1

(Ni−1)

)− 1

(N−k)

) ,

ahol s2i az i-edik csoport varianciája, N a teljes mintaelemszám, Ni az i-edik csoport elemszáma, k a

csoportok száma, s2p a közös variancia. A közös varianciát a következo képlet segítségével számíthajuk

ki:

s2p =

k∑i=1

(Ni − 1)s2i /(N − k).

Page 57: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 57

Abban az esetben döntünk a H0 elvetésérol ha a T > χ2(α,k−1) teljesül, ahol a χ2

(α,k−1) a χ2 eloszlás kritikusértéke α szignifikancia szint és k − 1 szabadsági fok esetében.

Példa

A vízben található nyomelemek mennyisége hozzájárul a víz ízének meghatározásához. Különbözomélységekben található felszín alatti vizeket vizsgáltak (4 terület)és mérték a cink (mg/L) koncentráció-ját. A következo adatokat találták:

ter.1 ter.2 ter.3 ter.41 0.43 0.415 0.643 0.3542 0.266 0.238 0.369 0.2033 0.567 0.39 0.605 0.3324 0.531 0.41 0.636 0.355 0.707 0.605 0.938 0.5166 0.716 0.609 0.944 0.519

A vizsgált kérdés szempontjából fontos feltétel a zink koncentrációk varianciáinak egyenlosége. Ennekaz elemzéséhez a következo számításokat végezzük el:

s2p =

4∑i=1

(6 − 1)s2i /(24 − 4) = 0.028

T = (24−4) ln 0.028−(−83.51)

1+ 13(4−1)

(4∑

i=1

(1

5−1)

)− 1

(20)

) = 2.281.08 = 2.11

Mivel a 0.05-ös valószínuséghez tartozó kritikus érték 7.81 és a kapott teszt-statisztika érték ennél jóvalkisebb (2.11) a H0-t megtartjuk 95%-os szignifikancia szinten. Tehát a cink mennyisége a különbözomélységben található vizek között nem mutatott eltéro varianciákat, a szórások ugyanakkorák voltak.

1. terület 2. terület 3. terület 4. terület

0.0

0.2

0.4

0.6

0.8

1.0

Zn

konc

. (m

g/L)

●●

●●

●●

●●●

●●

●●

●●

●●

34. ábra. A különbözo mélységekben található vizek Zn koncentrációi.

Page 58: László Zoltán: Biostatisztika Egyetemi Jegyzet

58 Statisztika - 2008/2009

A Levene-teszt

A Levene-teszt a Bartlett-teszt nem-paraméteres alternatívája. Az elobbi kevésbé érzékeny a mintáknormál eloszlástól való eltérésére mint a Bartlett-teszt. Ha megbizonyosodtunk arról, hogy adatainknormál eloszlásúak, akkor a Bartlett-teszt megbízhatóbb.

A Levene-teszt nullhipotézise: H0 : σ1 = σ2 = · · · = σk. Az alternatív hipotézis, akárcsak a Bartlettteszt esetében: H1 : σi , σ j, ahol az i, j legalább egy pár minta. Tehát ha legalább két minta varianciájaszignifikánsan különbözik, akkor elfogadjuk a nullhipotézist.

A Levene-tesztet két minta varianciái homogenitásának tesztelésére is alkalmazhatjuk. Tulajdonképpenmondhatjuk azt is, hogy az F-teszt és a Bartlett-teszt nem-paraméteres megfeleloje.

Ha adott egy Y változó, amelynek az elemszáma N és amelyet k alcsoportra oszthatunk, ahol Ni az i-edikalcsoport elemszáma a Levene-teszt teszt-statisztikája a következo:

W =(N − k)(k − 1)

k∑i=1

Ni(Zi − Z)2

k∑i=1

Ni∑j=1

(Zi j − Zi)2

,

ahol a Zi az Zi j csoportok átlaga és Z a teljes Zi j átlaga és Zi j-t a következo módokon lehet meghatározni:

1. Zi j = |Yi j − Yi|, ahol Yi az i-edik alcsoport átlaga.

2. Zi j = |Yi j − Yi|, ahol Yi az i-edik alcsoport mediánja.

3. Zi j = |Yi j − Y ′i |, ahol Y ′i az i-edik alcsoport 10%-os trimmelt átlaga.

A Zi j meghatározásának három módja határozza meg a Levene-teszt robusztosságát és erejét. Robusz-tosságon azt értjük, hogy a teszt nem fedez fel egyenlotlen varianciákat akkor, ha a minták nem normáleloszlásúak és a változók tulajdonképpen egyenloek. A teszt erején azt értjük, hogy helyesen felfedeziaz egyenlotlen varianciákat olyankor amikor ezek ténylegesen egyenlotlenek.

A trimmelt átlagot úgy számítjuk ki, hogy a változó adatainak egy bizonyos százalékát elhagyjuk (azalacsony és nagy értékek) és utána számítjuk ki a megmaradt elemek átlagát. Például az 50%-os trim-melt átlagot úgy számítjuk ki, hogy az adatok alsó és felso 25%-át elhagyjuk és a megmaradt értékeketátlagoljuk. A medián a 100%-osan trimmelt átlag, míg a számtani középarányos a 0%-osan trimmeltátlag. Nyilvánvalóan kevésbé érzékeny a trimmelt átlag a kiugró értékekre, mint a számtani középará-nyos. Ugyanígy kevésbé érzékeny a mintavételi hibákra is, és alkalmazása így az erosen ferde eloszlásokesetén elég hatásos. Viszont normál eloszlású adatsorokra kevésbé hatékony mint az átlag.

Eredetileg Levene a próbát átlagok használatával írta le, majd késobb egy másik munkában bebizonyí-tották, hogy a medián és a trimmelt átlag bevezetésével a teszt sokkal hatékonyabbá válik egyes adatel-oszlások esetén (pl. az erosen ferde Cauchy-eloszlás). Az átlag használata akkor javallott, ha az adatokeloszlásai nem térnek el jelentosen a normál eloszlástól. Amúgy az optimális választás az adatok elosz-lásától függ. Ha nem-normál eloszlású adataink vannak, akkor inkább a medián használata a javallott,mert ez megfelelo robusztosságot kölcsönöz a tesztnek, úgy hogy a próba ereje nem csökken.

A Levene-teszt a varianciák egyenloségére vonatkozó hipotézist elveti, ha a W > Fα,k−1,N−k, ahol azFα,k−1,N−k az F-eloszlás α szignifikancia szintu és k − 1, N − k szabadsági fokú kritikus értéke.

Page 59: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 59

Példa

Epifita növények által felfogott biomassza tömegét viszgálták három faj esetében. A következo adatokatgyujtötték be:

sp.1 sp.2 sp.31 40,5 60,75 50,6252 41,4 62,1 51,753 40,3 60,45 50,3754 42,5 63,75 53,1255 43,1 64,65 53,8756 47,2 70,8 597 48,3 72,45 60,3758 60,1 80,4 70,3

30 40 50 60 70

0.00

0.02

0.04

0.06

Sp. 1

50 60 70 80 90

0.00

0.02

0.04

Sp. 2

40 50 60 70 80

0.00

0.02

0.04

Sp. 3

35. ábra. Az epifita növényfajok által felfogott biomassza mennyiségek (mm) eloszlásai.

Láthatjuk, hogy a biomasszák eloszlásai jobbra ferde eloszlások. Ha megviszgáljuk a normál eloszlástólvaló eltérését a három minta adatainak azokat szignifikánsnak találjuk. Ezért a varianciák összehasonlí-tását nem tudjuk Bartlett-teszttel elvégezni, így Levene-próbát használunk.

W =(24 − 3)(3 − 1)

16311.4770461.66

= (10.5) · (0.23) = 2.41,

Az F-eloszlás táblázatban a p = 0.05, d. f .1 = 3− 1 = 2 és d. f .2 = 8− 1 = 7 szignifikancia szinthez ésszabadsági fokokhoz tartozó teszt-statisztika érték Fktit = 4.74. Mivel az általunk kapott érték W = 2.41ennél nem nagyobb a H0-t nem vethetjük el. A három minta varianciái nem térnek el szignifikánsan.

Sp. 1 Sp. 2 Sp. 3

4050

6070

80

36. ábra. Az epifita növényfajok által felfogott biomassza mennyiségek (mm) dobozdiagrammjai.

Page 60: László Zoltán: Biostatisztika Egyetemi Jegyzet

Valószínuségre vagy populációbeli arányravonatkozó próbák

Egy valószínuség vizsgálata – közelítés z-teszttel

Akkor használunk valószínuség vizsgálatára vonatkozó próbát, ha a kérdésfelvetésünk a következokép-pen hangzik: igaz-e az a hipotézis, hogy a vizsgált tulajdonság elofordulási valószínusége (populációbeliaránya) egy feltételezett p0 érték?

Mivel a próba a binomiális eloszlás normálissal való közelítésén alapul, hagyományosan akkor tekintikelfogadhatónak, ha 5 ≤ n · p ≤ n − 5, ahol n a mintaelemszám és p a mintából számolt tapasztalativalószínuség (a relatív gyakoriság).

A nullhipotézis: H0 : p = p0, ahol p az ismeretlen valószínuség (populációs arány), p0 pedig a hipoteti-kus érték. Az ellenhipotézis: H1 : p , p0 (kétoldali ellenhipotézis), vagy H1 : p < p0 vagy H1 : p > p0(egyoldali ellenhipotézisek).

A próba-statisztika:

u =p − p0√

p0(1 − p0)n

,

ahol p a tapasztalati valószínuség (a mintabeli relatív gyakoriság) és n a mintaelemszám. A kritikustartományok, mint az egymintás z-próbánál.

Megjegyzés: ha a fenti 5 ≤ n · p ≤ n − 5 feltétel nem teljesül, akkor az egzakt binomiális próbát kellalkalmazni.

Egy valószínuség vizsgálata – egzakt binomiális próba

Akkor alkalmazható, ha egy populációból véletlen mintát veszünk. A statisztika értéket a mintában ta-pasztalt vizsgált tulajdonság elofordulási gyakorisága adja. Ha a vizsgált populáció végtelen a próbaegzakt, ha véges akkor megközelíto érvényu. A közelítés annál jobb, minél nagyobb a minta a populáci-óhoz képest. A nulleloszlás az n és p0 paraméteru binomiális eloszlás.

Két független valószínuség összehasonlítása – közelítés z-teszttel

Akkor használunk ilyen próbát a kérdésfelvetésünk a következo: származhat-e a két független mintaadott tulajdonságra vonatkozóan azonos elofordulási valószínuségu populációból?

Page 61: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 61

A nullhipotézis a két valószínuség egyenloségét mondja ki (H0 : p1 = p2).

A próba-statisztika:

u =p1 − p2√

pp(1 − pp)√

1n1

+1n2

,

ahol pp = ( f1 + f2)/(n1 + n2), és n1, n2 az elemszámok, f1, f2 a mintában a vizsgált tulajdonsággalrendelkezo elemek száma, valamint p1 = f1/n1, p2 = f2/n2.

A kritikus tartományok ugyanúgy meghatározandók, mint a z-próba esetén. Két valószínuség összeha-sonlítása homogenitás vizsgálatként, khi-négyzet próbával is történhet.

Páros valószínuségek összehasonlítása – a McNemar-próba

Két populáció párosított valószínuségeit vagy arányait McNemar-próbával hasonlíthatjuk össze. A null-hipotézis H0 : p1 = p2, az alternatív hipotézisek H1 : p1 , p2 – kétoldali; H1 : p1 < p2 ésH1 : p1 > p2 – egyoldaliak.

A McNemar-próba egy nem-paraméteres módszer, amely során eldöntjük, hogy a sorok és oszlopokfrekvencia összegei egyenloek-e. Páros minták adatait tartalmazó 2 × 2 contingencia táblázatokra alkal-mazható.

A következo példában egy vizsgálatban azt akarják eldönteni, hogy egy gyógyszernek van-e hatása egybizonyos betegségre. A vizsgált személyek száma az alábbi táblázatban van feltüntetve, ahol az osz-lopokban a +/− a betegség diagnózisát jelenti a kezelés elott, valamint a sorokban a kezelés után.Ugyanazok kell legyenek a vizsgálati alanyok a kezelés elott és a kezelés után.

+ − összes+ 101 59 160− 121 33 154összes 222 92 314

Ha általánosítjuk a táblázatot a következo módon néz ki:

+ − összes+ a b a+b− c d c+dösszes a+c b+d n

A marginális homogenitás akkor következik be, ha a sorok összegei egyenloek az oszlopok összegeivel.

a + b = a + cc + d = b + d

Page 62: László Zoltán: Biostatisztika Egyetemi Jegyzet

62 Statisztika - 2008/2009

A két egyenlet ekvivalens, így ha leegyszerusítjük a kontingencia táblázat nullhipotéziséhez a köbetkezoegyenloség lesz fontos:

b = cc = b

A teszt-statisztika:

χ2 =(b − c)2

b + c.

Ez χ2 eloszlást mutat. Ha a χ2 értékünk nagyobb a p = 0.05 szignifikancia szint kritikus értékénél anullhipotézist elvetjük.

Ha a b és/vagy c kis értékeket vesz fel (b + c < 20) akkor a teszt-statisztika nem közelítí a χ2 eloszlástés ebben az esetben az elojel-teszt használata ajánlott. A szabadsági fok értéke 1 (d. f . = 1).

A fenti példában:

χ2 =(59 − 121)2

59 + 121= 21.35.

A p = 0.05 és d. f . = 1 értékekre a kritikus érték 3.84. A kapott teszt-statisztiánk ennél nagyobb ígyp = 0.05 szignifikancia szinten elvetjük a nullhipotézist.

Paraméteres vagy nemparaméteres (eloszlásmentes) próbák?

A paraméteres próbák használatának feltételei sokkal szigorúbbak, mint a nemparamétereseké.

Megjegyzések:

1. A nemparaméteres próbák általában egyszerubb formulákat alkalmaznak, és megengedobbek,mint a paraméteresek.

2. Általában a nemparaméteres próbák ereje kisebb, mint a paramétereseké.

3. Ha kétségünk van afelol, hogy a mintánk teljesíti-e a paraméteres próbák feltételeit, akkor a nem-paraméteres alternatívát kell alkalmazni.

A nemparaméteres és paraméteres próbák összehasonlítása:

Nem paraméteres próbák Paraméteres próbákNagyjából függetlenek Feltételezik, hogy ismerta változó eloszlásától a változó eloszlása (leggyakrabban) normális,DE: azért nem minden exponenciális, binomiális, stb.eloszlásra, csak egytágabb körre.A feltételeket ellenorizni kell.Mediánok összehasonlítása. Átlagok és varianciák

összehasonlítása.Gyakoriságok elemzésére A gyakoriságokat általábanis alkalmas. transzformálni kell elotte.Származtatott adatok Származtatott adatokatelemzésére is jó, pl. arányok. eloször transzformálni kell.

Page 63: László Zoltán: Biostatisztika Egyetemi Jegyzet

Nem-paraméteres tesztek egy vagy több mintavizsgálatára/összehasonlítására

Mediánokra vonatkozó próbák

Elojelpróba (Sign-test)

A következo kérdésfelvetés esetén használjuk: igaz-e az a hipotézis, hogy a vizsgált változó mediánjaegyenlo egy hipotetikus mediánnal (med = medhipot)? A feltételek szerint a minta egymástól független,random mérésekbol kell álljon, és a változót legalább ordinális (rangsorolható) skálán kell mérjük. Anullhipotézis: H0: med − medhipot = 0. A próba statisztika pedig a medhipot-tól eltéro mintaelemekszámai közül a kisebbik érték (N−) (Précsényi (szerk.), 2000; Whitley és Ball, 2002). Figyeljünk arra,hogy R-ben a nagyobbik értéket (N+) kell beírnunk (binom.test(x,. . . )).

δi =

1, ha xi −medhipot > 00, ha xi −medhipot < 0

, N+ =n∑

i=1δi

γi =

0, ha xi −medhipot > 01, ha xi −medhipot < 0

, N− =n∑

i=1γi

Az n-be most azokat nem számoljuk bele, ahol xi −medhipot > 0. A kritikus tartomány kiszámításánála null-eloszlás a binomiális eloszlás, ahol n = mintaelemszám, p = 0.5. A kritikus tartomány H1 -tolfüggoen lehet egy- vagy kétoldali. Minta: + és − elojelek sorozata. Azt vizsgáljuk, hogy ezek egyenlovalószínuséggel következnek-e be. Két párosítható minta összehasonlítására is alkalmazható. Csupánannyiban tér el, hogy a különbségekre kell az egymintás verziót elvégezni: H0: medd = 0.

Példa (Reiczigel és mtsai., 2007 - 228 old. alapján)

Ellentmondanak-e az adatok (21 elso ellésu kanca) annak a hipotézisnek, hogy az elléstol az elso ovulá-cióig eltelt ido mediánja 12 nap? A két hipotézis: H0: med = 12; H1: med , 12. Az adatok:

8 10 10 11 11 11 12 12 12 12 14 14 14 15 16 19 24 24 30 35 85− − − − − − 0 0 0 0 + + + + + + + + + + +

A teszt-statisztika a 12-nél kisebb értékek száma: N− = 6. A 12-vel egyenlo értékeket kihagyjuk, mivelcsak az érdekel, hogy hány érték nagyobb, illetve hány érték kisebb a mediánnál. Így n = 21 − 4 = 17és p = 0.5 (két kimenetele van a kísérletnek, amelyek valószínusége 50%).

Page 64: László Zoltán: Biostatisztika Egyetemi Jegyzet

64 Statisztika - 2008/2009

Az n = 17-re és p = 0.5-re a binomiális táblázatot használjuk. k = 6 mivel összesen 6 érték volt kisebb12-nél, és ez kisebb, mint amennyi nagyobb volt 12-nél. Mivel a binomiális táblázat nem kumulatív,szükséges összeadnunk az általunk talált k értéknél kisebb valószínuségeket (Précsényi (szerk.), 2000).Így a szignifikancia értékünk: 0.0944 + 0.0472 + 0.0182 + 0.0052 + 0.0010 + 0.0001 = 0.1661, és eztbe kell szoroznunk 2-vel mert az alternatív hipotézisünk kétoldali. Tehát p = 0.01661 × 2 = 0.3322.

A megoldás R-ben, itt nem a kisebbik összeget, hanem a nagyobbikat kell megadnunk:

> binom.test(11, n = 17, p = 0.5)

Exact binomial test

data: 11 and 17number of successes = 11, number of trials = 17, p-value = 0.3323alternative hypothesis: true probability of success is not equal to 0.595 percent confidence interval:0.3832837 0.8579025sample estimates:probability of success

0.6470588

A p-érték arra utal, hogy a H0-át nem kell elvetnünk. Tehát az adatok nem mondanak ellent a 12 naposmediánnal.

A próbát azért hívják elojelpróbának, mert eredetileg a medián(X) = 0 hipotézis tesztelésére találták ki,és ekkor a próbához a mintabeli értékeknek csupán az elojelét használjuk. Két párosított minta eseténis alkalmazható a különbségekre. Nagy mintára a binomiális eloszlást a szokásos módon közelíthetjükPoissonnal vagy normálissal. Ugyanígy muködik a teszt medián helyett tetszoleges kvantilisre is.

Wilcoxon-féle elojeles rang-próba (Wilcoxon signed rank test)

A következo kérdésfelvetés esetén használjuk: igaz-e az a feltételezés, hogy a vizsgált változó mediánjaegy feltételezett medhipot érték? A vizsgált változó eloszlása folytonos és szimmetrikus (szimmetrikus el-oszlás esetén a medián és az átlag egybeesik, ezért mindegy, melyikkel fogalmazzuk meg a hipotéziseket;csak hagyomány-tiszteletbol írjuk fel mediánnal) kell legyen. A nullhipotézis: H0 : medX = medhipot. Akétoldali ellenhipotézis: H1: medX , medhipot, és az egyoldali ellenhipotézis H1: medX < medhipot vagyH1: medX > medhipot.

A próba-statisztikát úgy számoljuk ki, hogy a megfigyelt értékek medhipot-tól való eltéréseit abszolútértékük nagysága szerint sorba rendezzük, és rangszámokat rendelünk hozzájuk. A statisztika a pozitívés negatív eltérésekhez tartozó rangok összegei (T +, T−) közül a kisebb. A kritikus tartomány: K :{T + ≤ Tkrit}.

A null-eloszlás kritikus értékeit a Wilcoxon-táblázatból nézzük ki, amely csak akkor érvényes, ha nin-

csenek kapcsolt rangok. Nagyobb mintákra a null-eloszlás a µ = n(n + 1)/4 és σ =√

n(n+1)(2n+1)24

paraméteru normális eloszlással közelítheto, a kritikus értékek ebbol számolhatók.

Példa (Précsényi (szerk.), 2000 - 75 old.)

Egy emlosökkel foglalkozó vizsgálatban nostény majmok tömegét mérték. Az egyik területen az alábbitömegeket kapták: 6.1, 7.3, 4.2, 5.4, 2.9, 8.4, 4.2, 6.4, 7.0, 3.9 kg. Egy másik területen a nostényektömegének mediánja irodalmi adatok alapján 7.0 kg. Különbözik-e a két területen a nostény majmoktömege?

Page 65: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 65

Minta 6.1 7.3 4.2 5.4 2.9 8.4 4.2 6.4 7.0 3.9medhipot = 7.0Eltérések: -0.9 0.3 -2.8 -1.6 -4.1 1.4 -2.8 -0.6 0.0 -3.1Rangszámok: 3 1 6.5* 5 9 4 6.5* 2 8Rangok elojele: - + - - - + - - -

Egyenlo eltérést adó értékek (ties) esetén mindegyikük az összesen rájuk jutó rangok átlagát kapja (ezeketnevezzük kapcsolt rangoknak, tied ranks, a táblázatban a *-al jelöltek kapcsolt rangok).

A rangok elojelét az eltérések elojele mutatja. A pozitív eltérések rangösszege: T+ = 5. A negatíveltérések rangösszege: T− = 40. A Wilcoxon táblázat alapján az 5 vagy annál kisebb rang elofordu-lásának valószínusége n = 9 és k = 5-nél P(x ≤ 5) = 0.0195. A teszt kétoldalú, így a nullhipotézishelytállóságának esélye 2 × 0.0195 = 0.039. Az alternatív hipotézist fogadjuk el, mert a nullhipotézishelytállóságának esélye kicsi. Tehát az 5 vagy annál kisebb rang elofordulásának valószínusége (ami aH0 helytállóságának az esélye) kisebb 5%-nál.

A megoldás R-ben:

> majom <- c(6.1, 7.3, 4.2, 5.4, 2.9, 8.4, 4.2, 6.4, 7, 3.9)> wilcox.test(majom, mu = 7, alternative = "two.sided")

Wilcoxon signed rank test with continuity correction

data: majomV = 5, p-value = 0.04383alternative hypothesis: true location is not equal to 7

A hibaüzeneteket (Warning messages)a kapcsolt rangok okozzák. Ennek javítására egzakt teszt elvégzésejavasolt (library(exactRankTests), wilcox.exact()).

> majom <- c(6.1, 7.3, 4.2, 5.4, 2.9, 8.4, 4.2, 6.4, 7, 3.9)> library(exactRankTests)> wilcox.exact(majom, mu = 7, alternative = "two.sided")

Exact Wilcoxon signed rank test

data: majomV = 5, p-value = 0.03906alternative hypothesis: true mu is not equal to 7

Eredetileg ezt a próbát is a medián(X) = 0 hipotézis tesztelésére találták ki. Az esetleges 0 eltéréseketnem számoljuk sem a pozitívokhoz, sem a negatívokhoz, hanem elhagyjuk, ezzel a mintaelemszámotis csökkentve. Attól függoen, hogy milyen táblázatunk van a kritikus értékekrol, esetleg nem a pozitív,hanem a negatív eltérések rangösszegével, vagy a ketto közül a kisebbikkel kell számolunk. Ha a kapcsoltrangok gyakoriak, a normális közelítést is korrigálni kell.

A Wilcoxon próba párosítható mintákra (Wilcoxon páros elojelteszt)

Egymintás próba a különbségekre: H0: medd = 0.

Page 66: László Zoltán: Biostatisztika Egyetemi Jegyzet

66 Statisztika - 2008/2009

Példa 2

Egy ornitológus délvidéki nádas mocsárban vizsgálja a vándorló nádi poszáták azon szokását, hogy fel-hizlalják magukat az indulás elott. A madarak augusztusban érkeznek, és szeptember végéig maradnak.A szeptemberben mért madarak nehezebbnek tunnek, mint az augusztusiak. Ha sikerül ugyanazokat amadarakat mérni augusztusban is, mint szeptemberben, akkor egy érzékenyebb vizsgálatot tudunk vé-gezni.

Augusztus Szeptember d d rangja10.30 12.20 1.90 811.40 12.10 0.70 410.90 13.10 2.20 1012.00 11.90 -0.10 -110.00 12.00 2.00 911.90 12.90 1.00 612.20 11.40 -0.80 -512.30 12.10 -0.20 -211.70 13.50 1.80 712.00 12.30 0.30 3

Ha a H0 igaz, akkor két dolgot várunk: a súlynövekedések száma megegyezik a súlycsökkenések számá-val és a súly változások nagyságrendje ugyanakkora pozitív és negatív irányban.

A Wilcoxon próba menete:

1. Kiszámítjuk a két idopontban mért értékek különbségét (d).2. Kiszámítjuk a rangszámokat d abszolút értéke alapján, és a rangszámokat ellátjuk d elojelével.3. Kiszámítjuk a + és − rangok összegét külön-külön.4. A negatív rangok összege: T− = 1 + 5 + 2 = 8.5. A pozitív rangok összege: T+ = 8 + 4 + 10 + 9 + 6 + 7 + 3 = 47.6. A kisebbik szám adja a T statisztika értékét. Itt T = 8.7. N a minta elemszáma minusz a d = 0 értékek száma. Itt N = 10 esetén a kritikus Tkrit érték 8, ígyP = 0.0244, mivel az ellenhipotézis egyoldalú, nem szorozzuk be a P értéket 2-vel. Végül elutasítjuk anullhipotézist, azaz a különbség szignifikáns.

Megoldás R-ben:

> Augusztus <- c(10.3, 11.4, 10.9, 12, 10, 11.9, 12.2, 12.3, 11.7, 12)> Szeptember <- c(12.2, 12.1, 13.1, 11.9, 12, 12.9, 11.4, 12.1, 13.5, 12.3)> wilcox.test(Augusztus, Szeptember, paired = T, alternative = "less", correct = F)

Wilcoxon signed rank test

data: Augusztus and SzeptemberV = 8, p-value = 0.02441alternative hypothesis: true location shift is less than 0

2http://www.univet.hu/users/zslang/Copy%20(3)%20of%20Zool-II-2005-stat-hip.doc

Page 67: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 67

Mann-Whitney-féle U-teszt (vagy: Wilcoxon-féle rangösszeg-teszt)

A következo kérdésfelvetés esetén használjuk: tartható-e az az álláspont, hogy a vizsgált X és Y válto-zókra igaz a P(X < Y) = P(X > Y) egyenloség (azaz ha mindkét változót megfigyeljük, azonos esélyvan arra, hogy az egyik, illetve a másik lesz nagyobb)? A változók suruségfüggvényei azonos alakúak(eltolással egymásba átvihetok: varianciák megegyeznek) kell legyenek, és a két változóra két függet-len mintánk kell legyen. A nullhipotézis: H0: a változók eloszlása megegyezik, azaz az eltolás 0. Azellenhipotézis: H1: az eltolás , 0 (ez kétoldali ellenhipotézis, de meg fogalmazható egyoldali is).

Próba-statisztika számolásásnál mindkét minta elemeibol értékpárokat képezünk (ha a mintaelemszámokn és m az összes értékpárok (xi, y j) száma a két mintából n × m). A statisztika azon párok száma,amelyekre xi > y j (egyenloség esetén a párt 1/2-del számoljuk). A null-eloszlást kis mintaelemszámokra(N = 20) kiszámolták, a Wilcoxon vagy Mann-Whitney U teszt táblázatban találjuk meg a kritikusértékeket, amely csupán akkor érvényes ha nincsenek kapcsolt rangjaink. Nagyobb mintákra (n, m ≥ 8)

a null-eloszlás a µ = n ×m/2 és a σ =√

nm(n+m+1)12 paraméteru normális elostlással közelítheto.

Példa 3

Igaz-e, hogy az X mediánja nagyobb az Y mediánjánál? X-re 10 elemu a minta: 5, 6, 8, 10, 12, 15, 18,21, 23, 25. Y-ra 8 elemu a minta: 1, 3, 7, 8, 9, 15, 16, 17.

1. módszer:

1. lépés: kiszámoljuk, hogy az összes elembol, hány olyan pár van, amelyben az elso érték a nagyobb (eztúgy is megtehetjük, hogy összeszámoljuk, hogy az elso minta elemei hány második mintabeli elemnélnagyobbak): n ×m = 8 × 10 = 80; U = 2 + 2 + 3.5 + 5 + 5 + 5.5 + 8 + 8 + 8 + 8 = 55.2. lépés: a null-eloszlás: normális µ = n ×m/2 = 80/2 = 40, σ =

√(80 × 19)/12) = 11.25

3. lépés: z = (U − µ)/σ = (55 − 40)/11.25 = 1.33.4. lépés: a standard normális eloszlás táblázatból leolvassuk az 1.33-hoz tartozó valószínuségi értéket:0.9082 (p = 0.091).5. lépés: 90.82% valószínuségi érték mellett a H0 megtartható.

2. módszer

1. lépés: a mintákat összevonjuk és így rendelünk rangokat hozzájuk:

X-re 10 elemu minta 5 6 8 10 12 15 18 21 23 25Rangok 3 4 6.5 9 10 11.5 15 16 17 18Y-re 8 elemu minta 1 3 7 8 9 15 16 17Rangok 1 2 5 6.5 8 11.5 13 14

2. lépés: kiszámoljuk a próbastatisztikát: T = S − n1(n1 + 1)/2, ahol S a kisebbik minta rangszámai-nak összege, n1 a kisebbik minta elemszáma, T = 61 − 8(8 + 1)/2 = 25.3. lépés: n1 = 10, n2 = 8, wα/2 = 18 (α = 0.05).

3http://www.univet.hu/users/zslang/Copy%20(3)%20of%20Zool-II-2005-stat-hip.doc

Page 68: László Zoltán: Biostatisztika Egyetemi Jegyzet

68 Statisztika - 2008/2009

4. lépés: a nullhipotézist elutasítjuk, ha a T érték kisebb, mint a Mann-Whitney táblázatban feltüntetettwα/2 kritikus érték.5. lépés: a nullhipotézist megtartjuk.

Megoldás R-ben:

> X <- c(5, 6, 8, 10, 12, 15, 18, 21, 23, 25)> Y <- c(1, 3, 7, 8, 9, 15, 16, 17)> wilcox.test(X, Y, alternative = "greater", correct = F)

Wilcoxon rank sum test

data: X and YW = 55, p-value = 0.09108alternative hypothesis: true location shift is greater than 0

A H0-t megtartjuk. Kapcsolt rangok esetén a kritikus értékek számításakor korrekciót szoktak alkal-mazni.

Medián (Mood) próba

Akkor használjuk, ha a két nem-normál eloszlású adatsor suruségfüggvényei nem hasonlóak. A vizsgáltkérdés: tartható-e az az álláspont, hogy a két minta ugyanakkora mediánú populációból származik? Anullhipotézis: H0: med1 = med2. Elobb kiszámítjuk az összes adat közös mediánját. Készítünk beloleegy 2 × 2 -es kontingencia táblázatot, és abból kiszámítjuk a χ2 értéket:

1. minta 2. minta> közös mediánnál f11 f12≤ közös mediánnál f21 f22

A próba statisztika:

χ2 =n(| f11 f22 − f12 f22| −

n2

)2

( f11 + f21)( f12 + f22)( f11 + f12)( f21 + f22)

A kritikus tartományok:

H1: med1 , med2 esetén {χ2: χ2 ≤ χ21−α/2 vagy χ2 ≥ χ2

α/2},H1: med1 < med2 esetén {χ2: χ2 ≤ χ2

1−α},H1: med1 > med2 esetén {χ2: χ2 ≥ χ2

α},ahol α az elsofajú hiba megengedett szintje, χ2

α, χ2α/2 és χ2

1−α/2 pedig az n−1 szabadsági fokú χ2-eloszlásmegfelelo kritikus értékei.

Sokkal gyengébb teszt, mint kétmintás t-próba, illetve a Mann-Whitney U-teszt, ha azok is alkalmazha-tók. Ha néhány gyakoriság nagyon kicsi, akkor a Fischer-féle egzakt teszt alkalmazandó.

Page 69: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 69

Példa 4

X-re a 8 elemu minta: 1, 3, 7, 8, 9, 15, 16, 17. Y-ra a 10 elemu minta: 5, 6, 8, 10, 12, 15, 18, 21, 23, 25.Az összevont minta: 1, 3, 5, 6, 7, 8, 8, 9, 10, 12, 15, 15, 16, 17, 18, 21, 23, 25. A közös medián = 11.

1. minta 2. minta> közös mediánnál f11 = 3 f12 = 6≤ közös mediánnál f21 = 5 f22 = 4

χ2 =n(| f11 f22 − f12 f22| −

n2

)2

( f11 + f21)( f12 + f22)( f11 + f12)( f21 + f22)=

18(|3 × 4 − 6 × 5| −

182

)2

3 + 5)(6 + 5)(3 + 6)(5 + 4)=

18 × 92

8 × 11 × 9 × 9=

1888

= 0.2045

Mivel a χ2 táblázatban a megfelelo kritikus érték (95%, d f = 1) χ20.05 = 3.841 a H0-t megtartjuk.

Megoldás R-ben (a Mood-medián teszt letöltheto a http://biostatkonyv.hu/downloads címrol):

> X <- c(1, 3, 7, 8, 9, 15, 16, 17)> Y <- c(5, 6, 8, 10, 12, 15, 18, 21, 23, 25)> mood.median.test(X, Y)

p-érték0.6371863

Kruskal-Wallis-féle H teszt (Kruskal-Wallis H-test)

Több mint két minta összehasonlítására használjuk. Ha több (k) mintát akarunk összehasonlítani, akkor

kétmintás próbákkal összesen(

k2

)vizsgálatot kellene végeznünk (pl. k = 4 esetén 6 összehasonlí-

tás). Azonban helyette elvégezheto egyetlen próba is. A változók suruségfüggvényei azonos alakúak(eltolással egymásba átvihetok) kell legyenek, illetve k változóra k független mintára van szükség.

A nullhipotézis: H0: mind a k változó mediánja megegyezik. Az ellenhipotézis: H1: a változók közüllegalább ketto mediánja szignifikánsan eltér.

A χ2 eloszlású próbastatisztika:

K =[∑

(R2/n) ×12

N(N + 1)

]− 3(N + 1),

ahol R2 a mintánkénti rangösszegek négyzete, n a(z) (al)mintaelemszám, N az összmintaelemszám.

Példa3

Egy biológus 4 mezon (A, B, C, D) 5-5 véletlenszeruen kiválasztott kvadrátban számolja az orchideákat.Van-e különbség bármelyik két mezo között az orchideák számát tekintve?

4http://www.univet.hu/users/zslang/Copy%20(3)%20of%20Zool-II-2005-stat-hip.doc

Page 70: László Zoltán: Biostatisztika Egyetemi Jegyzet

70 Statisztika - 2008/2009

megfigyelés/mezo A B C D1 27 (12) 48 (16) 11 (6) 44 (15)2 14 (7) 18 (9,5) 0 (1) 72 (19)3 8 (4,5) 32 (13) 3 (2) 81 (20)4 18 (9,5) 51 (17) 15 (8) 55 (18)5 7 (3) 22 (11) 8 (4,5) 39 (14)n 5 5 5 5R 36 66,5 21,5 86R2 1296 4422,25 462,25 7396R2/n 259,2 884,45 92,45 1479,2R/n 7,2 13,3 4,3 17,2

A Kruskal-Wallis próba menete:

1. lépés: Készítsük el a fenti táblázatot. Oszloponként vannak a minták, zárójelben a megfigyelésekrangja (összes mintaelemre együtt kiszámítva).2. lépés: Írjuk be a mintaelemszámokat (n) és adjuk össze: N.3. lépés: Számítsuk ki mintánként a rangösszeget: R. Emeljük négyzetre: R2.4. lépés: Osszuk el a mintaelemszámmal és adjuk össze:

∑R2/n.

A próbastatisztika:

K =[∑

(R2/n) ×12

N(N + 1)

]− 3(N + 1) =

[2715.3 ×

1220 × 21

]− 3 × 21 = 14.58

Hasonlítsuk össze K-t a megfelelo χ2krit értékkel. A szabadsági fok: a minták száma-1 (d f = 4− 1 = 3).

χ2krit = 7.81. K > χ2

krit így elutasítjuk a H0-t.

Ezek szerint az orchideák számát tekintve a mezok nem tekinthetok egyformáknak. Csak azt tudjuk,hogy valamelyik ketto között biztos van különbség. Biztos, hogy a legnagyobb és a legkisebb átlagosrangszámú (R/n) különbözik. Itt a C és D mezok.

Megjegyzések:

(1). Két minta esetén ugyanaz mint a Mann-Whitney próba,(2). szignifikancia esetén nem tudjuk megmondani, hogy ténylegesen melyikek különböznek (legkisebb-legnagyobb biztos),(3). Ha a hipotézis szeretnénk tesztelni, a medián próba kiterjesztheto több minta esetére,(4). nem független minták esetén a Friedman-teszt használható.

Konfidencia-intervallum a mediánra

Eloször a minta elemeit nagyság szerint sorba rendezzük (jelölje a rendezett minta elemeit: x∗1, x∗2, . . . x∗n).Kiválasztjuk a rendezett mintából az i-ik és j-ik elemet (x∗i és x∗j).

Page 71: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 71

Az (x∗i , x∗j) intervallumhoz tartozó megbízhatósági szintet az n = mintaelemszám, p = 0.5 paraméteru bi-nomiális eloszlás táblázatából kaphatjuk a következo valószínuségek összegzésével: P(X = i) + P(X =i + 1) + · · ·+ P(X = j − 1). Jó stratégia a leheto legszélesebb intervallumot, (x∗1, x∗n)-t egyre szukítvehaladni addig, amíg az intervallum a kívánt megbízhatósági szintet (pl. 95%-ot) el nem éri. Mivel amegbízhatósági szint egy-egy pont elhagyásával nem folytonosan változik, nem mindig lehet pontosan90%-os vagy 95%-os intervallumot készíteni.

Példa

Elléstol az elso ovulációig eltelt ido (nap) elso ellésu kancákban (n = 20).

8 10 10 10 11 11 12 12 13 1414 15 16 17 24 30 35 85 103 111

A minta mediánja med = (x∗10 + x∗11)/2 = 14. Ha a sorba rendezett minta 7. és 14. elemeit vesszükkonfidencia intervallumnak, akkor a binomiális táblázatból (n = 20, p = 0.5) összeadva a valószínusé-geket azt kapjuk, hogy:

CImed = 0.0739 + 0.1201 + 0.1602 + 0.1762 + 0.1602 + 0.1201 + 0.0739 + 0.0370 = 0.9216 ,

mivel nem értük el a 95%-ot most vesszük a 6. és 15. elemeket a konfidencia intervallum határának:

CImed = 0.0370 + 0.0739 + 0.1201 + 0.1602 + 0.1762 + 0.1602 + 0.1201 + 0.0739 + 0.0370 +0.0148 = 0.9734 ,

mivel elértük és meg is haladtuk a 95%-ot, azt mondhatjuk, hogy a minta mediánjának konfidenciaintervalluma CImed = {11, 24}, vagy a sorba rendezett minta 6. és 15. eleme.

Két diverzitási index közötti különbség tesztelése 4

4eloadáson elhangzott, a jegyzetben nem található meg

Page 72: László Zoltán: Biostatisztika Egyetemi Jegyzet

72 Statisztika - 2008/2009

Page 73: László Zoltán: Biostatisztika Egyetemi Jegyzet

Gyakorisági adatokat tartalmazó mintákravonatkozó tesztek és normalitás vizsgálat

Illeszkedés-vizsgálat (goodness-of-fit)

Illeszkedés-vizsgálat khi-négyzet-próbával

A következo kérdésfelvetés esetén használjuk: igaz-e az az állítás, hogy a vizsgált változó populációbelieloszlása egy feltételezett eloszlás? A próbához a változó értékkészletét osztályokba kell sorolni és min-den osztályra meg kell határozni a megfigyelt gyakoriságokat. Akkora mintával kell dolgozni, vagy azosztályokat úgy megválasztani, hogy a megfigyelt gyakoriságok ne legyenek 3-nál kisebbek, és 5-nél ki-sebbek is legfeljebb az osztályok 20%-ában lehetnek. Ezek után meg kell határozni a várt gyakoriságokatminden egyes osztályra.

Példa

Tegyük fel, hogy egy dobokocka szabályos, ami annyit jelent, hogy minden szám egyforma (1/6) való-színuséggel fordulhat elo. A modell teszteléséhez dobáljuk a kockát, számoljuk az egyes elofordulásokgyakoriságát, majd elvégezzük a χ2-próbát. Formálisan felírva a hipotéziseket: H0: a kocka szabályos,H1: nem szabályos. Tegyük fel, hogy 60-szor dobtunk a kockával, és a következo eredményeket kaptuk:

3 4 5 4 3 1 6 6 3 4 6 4 4 5 3 2 1 1 2 36 3 4 5 1 3 2 2 5 1 5 4 3 6 3 3 4 3 4 42 1 3 3 4 3 4 1 5 5 1 5 4 4 5 3 4 4 3 2

A következo lépésben elkészítünk egy gyakorisági táblázatot, amelyben feltüntetjük a gyakorisági osz-tályokat, a megfigyelt gyakoriságokat és a várt gyakoriságokat:

Gyakoriságok

Érték Megfigyelt ( fi) Várt (ei)1 8 102 6 103 16 104 17 105 9 10

6(=k) 4 10

A várt gyakoriságok minden egyes gyakorisági osztályra 10-10. Láthatjuk, hogy túl sok a 3-as és a 4-esés túl kevés a 6-os a megfigyelt gyakoriságok alapján.

Page 74: László Zoltán: Biostatisztika Egyetemi Jegyzet

74 Statisztika - 2008/2009

A teszt statisztika kiszámításánál az összes eltérést figyelembe kell vennünk:

χ2 =k∑

i=1

( fi − ei)2

ei,

ahol fi- a megfigyelt gyakoriság, ei a várt gyakoriság, k pedig az osztályok száma. Behelyettesítve aképletbe:

χ2 =k∑

i=1

( fi − ei)2

ei=

(8 − 10)2

10+

(6 − 10)2

10+ · · ·+

(4 − 10)2

10=

14210

= 14.2

Ha a megfigyelt gyakoriságok messze vannak a várttól, akkor ez az összeg nagy lesz, ha azonban közelvannak, akkor kicsi. A χ eloszlásból meghatározható, hogy hol a határ: χ2

krit = 11.07 (α = 0.05),a szabadsági fok pedig d f = k − 1. Mivel a teszt statisztika nagyobb a kritikus értéknél elutasítjuk anullhipotézist.

Megoldás R-ben:

> megfigy <- c(8, 6, 16, 17, 9, 4)> valosz <- rep(1/6, 6)> chisq.test(x = megfigy, p = valosz)

Chi-squared test for given probabilities

data: megfigyX-squared = 14.2, df = 5, p-value = 0.01439

Illeszkedés-vizsgálat Kolmogorov-Smirnov-teszttel

A következo kérdésfelvetés esetén használjuk: igaz-e az állítás, hogy a vizsgált változó populációbelieloszlásfüggvénye egy feltételezett eloszlásfüggvény? A változó folytonos kell legyen, illetve a mintan darab független megfigyelésbol kell származzon. Legelterjedtebb felhasználása a változók normáleloszláshoz való illeszkedésének tesztelése.

Próbastatisztika: D = max|F0(x) − S (x)|, ahol F0(x) a kumulatív elméleti eloszlás, S (x) a minta ku-mulatív relatív gyakorisága. A nullhipotézist elvetjük, ha D > a Kolmogorov-Smirnov táblázat kritikusértékénél.

Példa

N = 6 Pachygraphus crassipes testtömegeit lemérjük. Illeszkedik-e a rákok tömege az x = 12.09 gátlagú és s = 4.79 g szórású normáleloszláshoz? Elobb készítünk egy táblázatot, amelyben feltüntetjüka teszt statosztika kiszámításához szükséges értékeket:

i Tömeg (g) (xi − x)/s F0(xi) S (xi) D+i D−i

1 4.19 -1.65 0.049 0.167 0.118 0.0492 9.52 -0.54 0.294 0.333 0.039 0.1273 11.30 -0.17 0.432 0.500 0.068 0.0994 14.90 0.59 0.722 0.667 0.055 0.2225 15.39 0.69 0.754 0.833 0.079 0.0876 17.25 1.08 0.859 1.000 0.141 0.026

Page 75: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 75

A táblázatban F0(xi) az (xi − x)/s értéknek megfelelo valószínuség a standard eloszlás táblázatból, azS (xi) = i/n (pl. 1/6, 2/6, . . . ). A D+

i = |F0(xi) − S (xi)|, valamint D−i = |F0(xi) − S (xi−1)|. Alegnagyobb eltérés (Dmax) 0.222, a kritikus érték 0.519 (n = 6, p = 0.05), így a H0-t megtartjuk.

Megoldás R-ben:

> x <- c(4.19, 9.52, 11.3, 14.9, 15.39, 17.25)> mean(x)

[1] 12.09167

> sd(x)

[1] 4.796888

> ks.test(x, "pnorm", m = 12.09, sd = 4.79, alternative = "two.sided", exact = TRUE)

One-sample Kolmogorov-Smirnov test

data: xD = 0.2213, p-value = 0.8744alternative hypothesis: two-sided

> ks.test(x, "pnorm", m = 12.09, sd = 4.79, alternative = "less", exact = TRUE)

One-sample Kolmogorov-Smirnov test

data: xD^- = 0.2213, p-value = 0.4885alternative hypothesis: the CDF of x lies below the null hypothesis

> ks.test(x, "pnorm", m = 12.09, sd = 4.79, alternative = "greater", exact = TRUE)

One-sample Kolmogorov-Smirnov test

data: xD^+ = 0.1407, p-value = 0.7283alternative hypothesis: the CDF of x lies above the null hypothesis

Az elso teszt esetében kétoldali vizsgálatot végeztünk, a teszt statisztika a legnagyobb eltérés, a má-sodik esetben egyoldali vizsgálatot végeztünk, így elobb a legnagyobb D−i értéket kapjuk meg, majd alegnagyobb D+

i értéket, amelyeket leellenorizhetünk a táblázatban is.

Illeszkedés-vizsgálat G-próbával

A következo kérdésfelvetés esetén használjuk: igaz-e az az állítás, hogy a vizsgált változó populációbelieloszlása egy feltételezett eloszlás? A próbához a változó értékkészletét osztályokba kell soroljuk ésminden osztályra meg kell határozzuk a megfigyelt és várt gyakoriságokat. A próbastatisztika: G =

2k∑

i=1fi ln ( fi/ei), ahol fi a megfigyelt, ei várt gyakoriságok.

Page 76: László Zoltán: Biostatisztika Egyetemi Jegyzet

76 Statisztika - 2008/2009

A nullhipotézist elutasítjuk ha a teszt statisztika nagyobb a G eloszlás kritikus értékénél. Mivel a G és aχ2 eloszlások nagyon hasonlóak a χ2 táblázat kritikus értékeit vesszük figyelembe. R-ben az alaptelepí-tésnél csupán χ2 tesztet tudunk elvégezni. A gyakori felhasználása miatt tárgyaljuk.

Példa

Egy Drosophila keresztezési kísérletben az utódok 3 : 1 arányú fenotípusát várjuk. Az utódok között 80vad és 10 mutáns volt. A megfigyelt gyakoriság eltér-e a várttól?

fi pi ei fi ln( fi/ei)Vad 80 0.75 67.5 13.63Mutáns 10 0.25 22.5 -8.13Összesen 90 1.00 90.0 5.49

A G teszt statisztika: G = 2× 5.49 = 10.98, a kritikus érték χ2(d f = 1, p = 0.05) = 3.84, ezért a H0-telvetjük.

Megoldás R-ben:

> chisq.test(c(80, 10), p = c(0.75, 0.25))

Chi-squared test for given probabilities

data: c(80, 10)X-squared = 9.2593, df = 1, p-value = 0.002343

Példa

H0: a hajszín és a szemszín gyakoriságai a mintában megfelelnek egy elvárt gyakoriságnak. Ez igaz?

fi ei ln( fi/ei) fi ln( fi/ei)Világos haj és kék szem 38 22.35 0.53 20.16Világos haj és barna szem 11 26.65 -0.88 -9.73Sötét haj és kék szem 14 29.65 -0.75 -10.50Sötét haj és barna szem 51 35.35 0.36 18.69

A G teszt statisztika: G = 2 × 18.62 = 37.24, a kritikus érték χ2(d f = 3, p = 0.05) = 7.81, ezért aH0-t elvetjük.

Megoldás R-ben:

> x1 <- c(38, 11, 14, 51)> e1 <- c(22.35, 26.65, 29.65, 35.35)> p1 <- e1/114> chisq.test(x = x1, p = p1)

Chi-squared test for given probabilities

data: x1X-squared = 35.3378, df = 3, p-value = 1.034e-07

Page 77: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 77

Illeszkedés-vizsgálat grafikonnal: a QQ-ábra

A következo kérdésfelvetés esetén használjuk: igaz-e az az állítás, hogy a vizsgált változó populációbelieloszlásfüggvénye egy feltételezett eloszlásfüggvény? Kis mintákra (n < 50) az illeszkedésvizsgála-tot érdemes grafikus módszerekkel is megítélni. Ha n elemu minta valóban a hipotetikus eloszlásbólszármazik, akkor a rendezett minta i-edik értéke a hipotetikus eloszlás i/n kvantilise közelében lesz.

A QQ-ábra n elemu minta esetén n pontot tartalmaz, ahol az i-edik pont koordinátája az x tengelyen ahipotetikus eloszlás i/n kvantilise (qi), az y tengelyen, pedig a tapasztalati eloszlás i/n kvantilise (yi,ami a rendezett minta i-edik értéke).

Ha a minta a hipotetikus eloszlásfüggvényhez jól illeszkedik, akkor a pontok az y = x egyenes közelébenhelyezkednek el. A pontok egyenestol való eltérése csupán a véletlen ingadozásokat kell tükrözze, nemszabad benne szabályosság legyen, csakis akkor beszélhatünk jó illeszkedésrol.

Megoldás R-ben:

> x <- c(4.19, 9.52, 11.3, 14.9, 15.39, 17.25)> qqnorm(x)> qqline(x)

●●

−1.0 −0.5 0.0 0.5 1.0

46

810

1214

16

Normal Q−Q Plot

Elméleti kvantilisek

Tapa

szta

lati

kvan

tilis

ek

37. ábra. QQ-ábra a 6 rák testtömegeire.

Shapiro-Wilk teszt

A következo kérdésfelvetés esetén használjuk: igaz-e az az állítás, hogy a vizsgált változó populációbelieloszlásfüggvénye normális eloszlásnak megfelelo? A vizsgált változó folytonos kell legyen, illetve amegfigyeléseknek függetleneknek kell lenniük. Elonye, hogy kis mintaelemszám esetén is megbízható.

A teszt elvégzése R-ben:

> x <- c(4.19, 9.52, 11.3, 14.9, 15.39, 17.25)> shapiro.test(x)

Shapiro-Wilk normality test

data: xW = 0.9334, p-value = 0.6064

A mintánk eloszlása nem tér el szignifikánsan a normál eloszlástól, a H0-t megtartjuk.

Page 78: László Zoltán: Biostatisztika Egyetemi Jegyzet

78 Statisztika - 2008/2009

Függetlenség-vizsgálat

Függetlenség-vizsgálat χ2-négyzet-próbával

A következo kérdésfelvetés esetén használjuk: igaz-e az az elképzelés, hogy a két vizsgált változó füg-getlen egymástól? A próbához mindkét változó értékkészletét osztályokba kell sorolni (nem feltétlenülugyanannyi osztályba) és minden osztály-kombinációra (cellára) meg kell határozni az ún. várt gyakori-ságot (ei j) az alábbi képlettel:

ei j =si × o j

n,

ahol si az i-edik sor összege, o j a j-edik oszlop összege, n a minta elemszáma.

1 2 3 . . . J-ik osztály12 f23

3. . .

I-ik osztály fi j

ahol I és J az egyik, illetve másik változó szerinti osztályok száma, fi j pedig az i, j-edik cella mintabeligyakorisága, a satírozott cella pedig a (2, 3)-ik cella.

Akkora mintára van szükség, hogy az ei j várt gyakoriságok ne legyenek 3-nál kisebbek, és 5-nél kisebbekis legfeljebb a cellák 20%-ában lehetnek. A nullhipotézis, H0: a két vizsgált változó független egymástól;az ellenhipotézis, H1: a két vizsgált változó nem független.

A próba statisztika:

χ2 =I∑

i=1

J∑i=1

( fi j − ei j)2

ei j,

ahol fi j a megfigyelt, ei j a várt gyakoriság az i, j-edik cellában, I és J pedig az egyik, illetve a másikváltozó szerinti osztályok száma.

Az elutasítási tartomány: {χ2 : χ2 ≥ χ2α}, ahol χ2

α az (I − 1)(J − 1) szabadsági fokú khi-négyzet eloszlásmegfelelo kritikus értéke.

Példa

Vizsgáljuk egy állatállomány állapotát két betegség (A és B) szempontjából. A két betegség nem zárjaki egymást, egyes egyedeken mindketto tünetei megjelennek. 300 egyedet választunk a populációból ésa tünetek erossége alapján szétbontjuk a mintát:

A/B gyenge közepes eros összesgyenge 34 18 24 76közepes 24 40 49 113eros 42 30 39 111összes 100 88 112 300

Page 79: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 79

A várható osztálygyakoriságok (pl. (76 × 100)/300):

A/B gyenge közepes eros összesgyenge 25,33 22,3 28,37 76közepes 37,66 33,14 42,16 113eros 37 32,56 41,42 111összes 100 88 112 300

A számolásokat R-ben végezzük el. Két vektort készítünk: A=megfigyelt gyakoriságok, B=várt gyako-riságok.

> A = c(34, 18, 24, 24, 40, 49, 42, 30, 39)> B = c(25.33, 22.3, 28.37, 37.66, 33.14, 42.16, 37, 32.56, 41.42)> chi = sum((A - B)^2/B)> chi

[1] 12.97269

A χ2 = 12.97, a szabadsági fok: d f = 4 ((3 − 1) ∗ (3 − 1)). A kritikus érték: χ2krit = 9.488, tehát a

kétféle betegség nem független egymástól.

R-ben a χ2-es függetlenségvizsgálatot a következo módon végezhetjük el:

> bet <- matrix(c(34, 18, 24, 24, 40, 49, 42, 30, 39), nrow = 3, ncol = 3, byrow = TRUE,+ dimnames = list(c("er", "ko", "gy"), c("er", "ko", "gy")))> bet

er ko gyer 34 18 24ko 24 40 49gy 42 30 39

> chisq.test(bet)

Pearson's Chi-squared test

data: betX-squared = 12.9625, df = 4, p-value = 0.01146

Elso lépésben készítünk egy mátrixot, majd a χ2-es függvényben csupán ezt a mátrixot adjuk meg. Mostis láthatjuk, hogy a két betegség tünetei nem függetlenek egymástól.

Fisher-féle egzakt-teszt

Ha az egyes cellákban a várt gyakoriságok kicsik a próbastatisztika eloszlása eltérhet a khi-négyzeteloszlástól. Az elutasítási tartomány: ha b ≤ egy megadott értéknél, kapunk egy egzakt szignifikanciát,ha b > egy megadott értéknél megtartjuk a H0-t, kétoldalú esetben a megadott szignifikanciát be kellszorozni 2-vel.

H0: p1 = p2; H1: p1 , p2, ahol p1, p2 egy tulajdonság gyakoriságai a két mintában.

Page 80: László Zoltán: Biostatisztika Egyetemi Jegyzet

80 Statisztika - 2008/2009

Hogyan készítünk gyakorisági táblázatot?

VáltozóMinta Tul. 1 Tul. 2 Össz.1 a A-a A2 b B-b BÖssz. a+b A+B-a-b A+B

A Fisher-egzakt próba valószínuség táblázatból kikeressük az A, B és a-nak megfelelo kritikus értéketp = 0.05 szinten, megnézzük a b-t.

Példa

Egy viselkedésbiológiai kísérletben vizsgálták, hogy a széki lilék (Charadrius alexandrinus) az elsocsalád felbomlása után ismét párba állnak-e? A vizsgálatban megjelölt 11 hím közül 6 kapott új nostényt,míg 9 nostény közül 7 kapott új párt. Különbözo gyakorisággal kaptak-e új párt a hímek és a nostények?

Új párNincs Van Össz.

Hím 5 6 11Nostény 2 7 9Össz. 7 13 20

A = 11, B = 9, a = 5: a megadott érték 0, erre a szignifikancia 0.03, b > 0, így a H0-t megtartjuk. AH1 amúgy is kétoldalú, még ha b ≤ 0, akkor is p = 0.06.

A Fisher-egzakt próba valószínuségi szintjeit tartalmazó táblázat részlete:

a 0.05 0.025 0.01 0.005A=11 B=9 11 5 0.026 4 0.008 4 0.008 3 0.002

10 4 0.038 3 0.012 2 0.003 2 0.003

9 3 0.040 2 0.012 1 0.003 1 0.003

8 2 0.035 1 0.009 1 0.009 0 0.001

7 1 0.025 1 0.025 0 0.004 0 0.004

6 0 0.012 0 0.012

5 0 0.030

Fisher-féle egzakt teszt elvégzése R-ben:

> lile <- matrix(c(5, 6, 2, 7), nrow = 2, ncol = 2, byrow = TRUE, dimnames = list(c("Hím",+ "Tojó"), c("Új pár nincs", "Új pár van")))> fisher.test(lile, alternative = "two.sided")

Fisher's Exact Test for Count Data

data: lilep-value = 0.3742alternative hypothesis: true odds ratio is not equal to 195 percent confidence interval:0.3016882 39.4353051

sample estimates:odds ratio2.763135

Page 81: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 81

Függetlenség-vizsgálat G-teszttel

A megfigyelt gyakoriságok természetes logaritmusa alapján teszteli az adattáblázat függetlenségét. Fel-tétel, hogy a várható gyakoriságok ≥ 5! H0: p1 = p2; H1: p1 , p2, ahol p1, p2 egy tulajdonsággyakoriságai a két mintában.

A próbastatisztika:

G = 2 ×(

I∑i=1

J∑j=1

fi j ln fi j −I∑

i=1fi. ln fi. −

J∑j=1

f. j ln f. j − n ln n),

ahol fi j i-edik sorba és j-edik oszlopba tartozó megfigyelt gyakoriság, fi. az i-edik sor összege, f. j aj-edik oszlop összege, n az összgyakoriság.

A szabadsági fok d f = (I − 1) × (J − 1), ahol I a sorok száma, J az oszlopok száma. Döntésünket a χ2

táblázat alapján hozzuk (a G eloszlás közel azonos a χ2-tel).

Példa

A Cicindela nemzetségbe tartozó homokfutrinkák színének gyakoriságát vizsgálták különbözo évsza-kokban. Van-e elegendo alapunk, hogy elvessük a szín és évszak közti függetlenségre vonatkozó H0-t,ha az alábbi egyedszámokat találták?

SzínPiros Más Összes

Koratavasz 29 11 40Késotavasz 273 191 464Koranyár 8 31 39Késonyár 64 64 128Összes 374 297 671

Kiszámítjuk R-ben a G teszt statisztikát:

> G = 2 * (((29 * log(29)) + (273 * log(273)) + (8 * log(8)) + (64 * log(64)) ++ (11 * log(11)) + (191 * log(191)) + (31 * log(31)) + (64 * log(64))) - ((40 *+ log(40)) + (464 * log(464)) + (39 * log(39)) + (128 * log(128))) - ((374 *+ log(374)) + (297 * log(297))) + (671 * log(671)))> G

[1] 28.59642

Mivel G = 28.59, d f = 3, és χ23;0.05 = 7.81 a H0-t elutasítjuk 0.05-ös szinten.

Ha nem független két változó, akkor hogyan tudjuk mérni a kapcsolat erosségét?

(1). Kontingencia táblázatokkal (nominális változók esetén) pl. asszociációs mértékekkel.(2). Ordinális skálák esetén pl. rangkorrelációval.(3). Intervallum skála esetén pl. a korrelációs együtthatóval.

Page 82: László Zoltán: Biostatisztika Egyetemi Jegyzet

82 Statisztika - 2008/2009

Homogenitásvizsgálat

A következo kérdésfelvetés esetén használjuk: tartható-e az az álláspont, hogy a vizsgált változó elosz-lása (eloszlásfüggvénye) azonos a két populációban?

A vizsgálatot visszavezethetjük függetlenségvizsgálatra egy új változó segítségével, amelynek értékeminden mintaelemre annak a populációnak a sorszáma, amelybol a mintaelem származik (1 vagy 2).

Az, hogy a vizsgált változó ugyanolyan eloszlást követ a két populációban, ekvivalens azzal, hogy avizsgált változó független ettol a sorszám-változótól.

A sorszám-változónak természetesen két osztálya van, a vizsgált változó értékeit, pedig a függetlenség-vizsgálat feltételeinek megfeleloen kell osztályokba sorolni.

A feltételek azonosak a függetlenségvizsgálatnál tárgyaltakkal. A nullhipotézis, H0: F1 = F2, ahol F1és F2 az ismeretlen eloszlásfüggvények. Az ellenhipotézis, H1: F1 , F2. A próba statisztika azonosa függetlenségvizsgálatnál tárgyaltakkal. Ugyan ez érvényes az elutasítási tartományokra is. Ezekkel amódszerekkel kettonél több populációra is végezheto homogenitásvizsgálat.

Page 83: László Zoltán: Biostatisztika Egyetemi Jegyzet

Korreláció- és regresszió-analízis

Két változó közötti összefüggés, ok-okozati viszony vizsgálatára korreláció-, illetve regresszió-analízistszoktak végezni. A vizsgált változók közül az egyiket magyarázó (független) változónak (a függvényértelmezési tartománya), a másikat függo változónak (a függvény értékkészlete) nevezzük.

A két változó közötti kapcsolat lehet a). függetlenség, amikor nincs kapcsolat a két változó között (37.ábra a.); b). lineáris kapcsolat, amikor a magyarázó változó növekedésével lineárisan növekszik a függováltozó – pozitív lineáris kapcsolat (37. ábra b.); c). illetve amikor a magyarázó változó növekedésévellineárisan csökken a függo változó – negatív lineáris kapcsolat (37. ábra c.); és lehet d). amikor a kétváltozó között nem lineáris az összefüggés (37. ábra d.)(ez szintén lehet pozitív vagy negatív).

●●

● ●

●●●

●●

●●

●●

● ●●

6 8 10 12 14

68

1012

14

x

y

a

●●

●●

●●

●● ●

●●

●●

●●

●●●● ●

6 8 10 12 14

1012

1416

1820

x

y

b

● ●

●●●

●● ●

●●●

●●

●●●

● ●

6 8 10 12 14

02

46

810

x

y

c ●●

●●

●●

●●

●● ●

●●

●●

●●

● ●●

● ●

●●

●●

●●

●●

● ●●

●●

●●

●●●

●●

●●

●●

●●

● ●

●●●

●●

0 1 2 3 4 5

050

100

150

200

x

y

d

38. ábra. Az x és y véletlen változók között: nincs kapcsolat (a), pozitív kapcsolat (b), negatív kapcsolat(c), nem lineáris kapcsolat (d).

Persze az is elofordulhat, hogy x és y között van kapcsolat, de nem monoton, ha például x növekedésekis x-ekre y növekedésével, nagyobb x-ekre pedig y csökkenésével jár együtt (38. ábra).

Page 84: László Zoltán: Biostatisztika Egyetemi Jegyzet

84 Statisztika - 2008/2009

●●

● ●●●

0 5 10 15 200

24

68

1012

x

y

●●

●●

●●

●●

●●

39. ábra. Nem monoton kapcsolat az x és y véletlen változók között.

Korreláció-analízis

A korrelációs kapcsolat erosségét (intervallum skála esetén) számszeruen a Pearson-féle korrelációsegyütthatóval szokták mérni, amit R(X, Y)-nal jelölünk, és minek az értékei −1 < R(X, Y) > 1 interval-lumban mozoghatnak. A 0 körüli együttható érték a kapcsolat hiányára utal, míg a a −1-hez vagy 1-hezközeli érték eros negatív, illetve pozitív korrelációs kapcsolatot jelez.

Ha a változók függetlenek, akkor R(X, Y) = 0, de abból, hogy R(X, Y) = 0, nem következik a változókfüggetlensége. |R(X, Y)| = 1 pontosan akkor áll fenn, amikor a változók között lineáris a kapcsolat, azazY = a + bX, ekkor R(X, Y) elojele megegyezik a elojelével.

Hogyan lehet a korreláltságot a minták alapján vizsgálni?

A Pearson-féle korrelációs koefficiens

Ha (x1, y1), (x2, y2), (xn, yn) mintaelemek, akkor:

rxy =

n∑i=1

(xi − x) · (yi − y)√n∑

i=1(xi − x)2 ·

√n∑

i=1(yi − y)2

,

ahol x, y a mintaátlagok.

Mivel a becslésünk lehet hibával terhelt, elofordulhat az is, hogy ha a változók között nincs korreláció, aminták alapján számított érték akkor sem lesz 0. Ezért hipotézisvizsgálattal döntjük el, hogy a becslésünkmegbízhatósága mekkora. A nullhipotézis H0 : R(X, Y) = 0, míg az alternatív hipotézis H1 : R(X, Y) ,0.

A korrelációs koefficiens teszt-statisztikája:

ts = r ·

√n − 21 − r2 ,

Page 85: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 85

ahol, n a mintaelemszám, r a korrelációs koefficiens, ts t-eloszlást követ, (d f =)n− 2 szabadsági fokkal.Ha a teszt-statisztika értéke kisebb a megfelelo kritiskus értéknél a nullhipotézist megtartjuk, ha ennélnagyobb elvetjük és elfogadjuk a H1-et.

Példa

A vizsgált kérdés, hogy van-e összefüggés a testmagasság és a pulzus között. A következo adatsorkórházi beutaltak magasság értékeit (cm) és pulzusát (/perc) tartalmazzák:

Páciens 1 2 3 4 5 6 7 8 9 10 11 12Magasság 160 162 185 173 170 163 157 170 166 148 160 185Pulzus 68 84 80 92 80 80 80 90 72 82 84 80Páciens 13 14 15 16 17 18 19 20 21 22 23 24Magasság 165 185 177 182 172 168 182 170 182 155 168 175Pulzus 84 80 80 100 90 90 76 84 80 80 80 84

A Pearson-féle korrelációs koefficiens:

rmp =

24∑i=1

(xi − x) · (yi − y)√24∑

i=1(xi − x)2 ·

√24∑

i=1(yi − y)2

=264

49.33 · 31.65= 0.169.

A korrelációs koefficiensre vonatkozó teszt-statisztika:

ts = r ·

√n − 21 − r2 = 0.169 ·

√24 − 2

1 − 0.1692 = 0.169 ·

√24 − 2

1 − 0.028= 0.804.

Mivel a kritikus érték (t0.05[22] = 2.074) jóval kisebb a kiszámított teszt-statisztika értékünk, megtartjuka null hipotézist. Tehát a két változó közötti összefüggés gyenge pozitív és nem szignifikáns (p > 0.05).

Példa

Van-e összefüggés a a vizsgált halak (dévérkeszeg - Abramis brama) testtömege (gramm) és testhossza(cm) között?

Egyed 1 2 3 4 5 6 7 8 9 10Tömeg 242 290 340 363 430 450 500 390 450 500Hossz 23.2 24 23.9 26.3 26.5 26.8 26.8 27.6 27.6 28.5Egyed 11 12 13 14 15 16 17 18 19 20Tömeg 475 500 500 570 600 600 700 700 610 650Hossz 28.4 28.7 29.1 29.5 29.4 29.4 30.4 30.4 30.9 31

A Pearson-féle korrelációs koefficiens:

Page 86: László Zoltán: Biostatisztika Egyetemi Jegyzet

86 Statisztika - 2008/2009

rth =

20∑i=1

(xi − x) · (yi − y)√20∑

i=1(xi − x)2 ·

√20∑

i=1(yi − y)2

=5289.1

562.2971 · 10.0634= 0.9346979.

A korrelációs koefficiensre vonatkozó teszt-statisztika:

ts = r ·

√n − 21 − r2 = 0.93 ·

√20 − 2

1 − 0.932 = 0.93 ·

√20 − 2

1 − 0.86= 10.78897.

Mivel a kritikus értéknél (t0.05[18] = 2.100) jóval nagyobb a kiszámított teszt-statisztika értékünk, elvet-jük a null hipotézist. Tehát a két változó közötti összefüggés eros pozitív (rth = 0.93) és szignifikáns(p < 0.05).

A rangkorrelációs együttható

Ha adatainkat nem intervallum skálán mérjük, hanem ordinálison akkor a Spearman- féle rangkorrelációsegyütthatót vagy a Kendall-féle τ-t használhatjuk.

A Spearman-féle rangkorrelációs együttható esetén számít, hogy az egyik minta elemeinek nagyságamilyen viszonyban áll a másik minta elemeinek nagyságával, a Kendall-féle τ esetében minden elemegyenlo súllyal szerepel.

A Spearman-féle rangkorrelációs együttható, ha nincsenek kapcsolt rangok:

rs(= ρ) = 1 −6 ·

n∑i=1

d2i

n3 − n,

ahol n a mintaelemek száma, d a rangok közti különbségek és ez utóbbi esetében a következo módonjárunk el:

n∑i=1

d2i =

n∑i=1

[R(xi) − R(yi)]2,

vagyis rangokat rendelünk az egyik változó (R(xi)) és a másik változó (R(yi)) értékeihez (ha egyenloértéku adatok fordulnak elo, ezek kapcsolt rangokat kapnak), majd kiszámítjuk a rangok közötti eltéréseknégyzeteinek összegét.

A Spearman-féle rangkorrelációs együttható értéke −1 és 1 közé esik. Ha ez közelíti a nullát, a kapcsolathiányáról, ha a −1-et eros negatív korrelációról, és ha az 1-et eros pozitív korrelációról beszélünk.

A Spearman-féle rangkorrelációs együttható, ha vannak kapcsolt rangok:

rs(= ρ) =n · (

∑xi · yi) − (

∑xi)(

∑yi)√

n · (∑

x2i ) − (

∑xi)2 ·

√n · (

∑y2

i ) − (∑

yi)2,

ahol xi és yi a megfelelo változók (x, y) rangjai.

Page 87: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 87

Példa

Van-e szignifikáns összefüggés a megfigyelt foltokban a fás növények száma és a levélbogár fajok számaközött?

Kvadrátok 1 2 3 4 5 6 7 8 9 10 11 12Fák száma 10 3 5 13 2 6 14 5 7 8 10 8Bogár fajok száma 20 5 5 15 4 5 20 4 5 9 25 7

Elso lépésben hozzárendeljük a két változó értékeihez a rangokat (figyeljünk arra, hogy a táblázatbanaz adatok növekvo sorrendbe vannak, de a rangok közötti különbségek kiszámításánál az adatok eredetisorrendjének megfeleloen írjuk be a rangokat - következo táblázat):

Fák száma 2 3 5 5 6 7 8 8 10 10 13 14Rangok 1 2 3.5 3.5 5 6 7.5 7.5 9.5 9.5 11 12Bogár fajok száma 4 4 5 5 5 5 7 9 15 20 20 25Rangok 1.5 1.5 4.5 4.5 4.5 4.5 7 8 9 10.5 10.5 12

Majd kiszámítjuk a rangok közötti különbségeket:

Kvadrátok 1 2 3 4 5 6 7 8 9 10 11 12Rangok 9.5 2 3.5 11 1 5 12 3.5 6 7.5 9.5 7.5Rangok 10.5 4.5 4.5 9 1.5 4.5 10.5 1.5 4.5 8 12 7d -1.0 -2.5 -1.0 2.0 -0.5 0.5 1.5 2.0 1.5 -0.5 -2.5 0.5

Látjuk, hogy vannak kapcsolt rangjaink, így a korrelációs koefficienst a második képlettel számítjuk ki:

rs(= ρ) =(12 · 632.25) − 608441.20680 · 40.54627

= 0.8995787.

Ha a másik képlettel számolunk, akkor az eredmény:

rs(= ρ) = 1 −6 · 28

123 − 12= 0.9020979.

Láthatjuk, hogy az eltérés a két érték között nem nagy. Mindenképpen látjuk, hogy a rangkorrelációskoeffíciens egy igen eros pozitív kapcsolatot mutat a kvadrátonkénti fás szárú növények száma és a találtlevélbogár fajok száma között.

A Spearman-féle ρ szignifikancia szintjét vagy permutációs tesztekkel vagy eloszlástáblázatból lehetmegállapítani (1. Függelék). A kritikus érték táblázat használata: megkeressük a mintaelem pároknakmegfelelo sort a táblázatban, az altenatív hipotézis és konfidencia szint alapján megnézzük, hogy azáltalunk kapott ρ érték ennél nagyobb-e, vagy kisebb. Ha az értékünk a kritikus értéknél nagyobb anullhipotézist elvetjük, ha kisebb megtartjuk. Ha a mintaelemszémunknak megfelelo sort nem találjuk akövetkezo kisebb értéknél nézzük meg a kritikus értékeket.

A példánk esetében a ρ = 0.899, a mintaelemszámunk N = 12. Megnézzük, hogy az N = 12-néla kritikus érték a kétoldali alternatív hipotézisre (p = 0.02) (nullhipotézis: a korrelációs koefficiensértéke 0; alternatív hipotézis: ez 0-tól eltér) ρkrit = 0.712. Ennél az értékünk nagyobb, tehát 95%-oskonfidencia szinten eros pozitív szignifikáns korrelációt kaptunk.

Page 88: László Zoltán: Biostatisztika Egyetemi Jegyzet

88 Statisztika - 2008/2009

Alternatíva a Spearman-féle ρ kritikus érték táblázatra N > 30 esetén az N − 2 szabadsági fokú Student-féle t-eloszlás táblázat. A teszt-statisztikát a következo képlettel számíthatjuk ki:

t =ρ√

(1 − ρ2)/(n − 2)

Ha a megfelelo tkrit értéknél az általunk kapott t nagyobb a megfelelo szabadsági fokon és szignifikanciaszinten a nullhipotézist elvetjük, ha kisebb megtartjuk.

Regresszió-analízis

A regresszió számítást akkor használjuk, amikor függvényszeru kapcsolatot keresünk egy vagy többmagyarázó változó (vagy független változó) és egy függo változó között. Szokásosan a magyarázóváltozókat X-ekkel, a függo változót, pedig Y-nal jelöljük. Feltételezzük, hogy az X-ek és az Y közöttiösszefüggés kifejezheto függvény formájában, azaz:

X → Y vagy Y = f (X)

X1, X2, . . . , Xr → Y vagy Y = f (X1, X2, . . . , Xr)

Például a testsúlyt magyarázza a kor (testsúly= f (kor)) vagy több változó magyarázza együttesen(testsúly= f (kor, születési súly, . . . )).

Hogy regresszió számítást végezhessünk, mind a magyarázó, mind a függo változót ugyanazokon a meg-figyelési egységeken (egyedeken) kell ismernünk, tehát másképpen megfogalmazva párositott mintákkalkell rendelkeznünk. A kiinduló adatok egy magyarázó változó esetén:

(x1, y1), (x2, y2), . . . (xn, yn)

értékpárok, több magyarázó változó esetén pedig:

(x11, x12, x13, . . . y1), (x21, x22, x23, . . . y2), . . . (xn1, xn2, xn3, . . . yn)

vektorok. Ez az úgynevezett „adatmátrix”. Egy magyarázó változó esetén, illetve több magyarázó vál-tozó esetén ez a következo módokon nézhet ki:

1. elem x1 y1 x11, x12, x13 y12. elem x2 y2 x21, x22, x23 y23. elem x3 y3 x31, x32, x33 y3. . .

n. elem xn yn xn1, xn2, xn3 yn

A regresszió számítás szokásos kérdésfeltevései: (a). van-e bizonyos változók között összefüggés? (pél-dául: függ-e a pulzusszám a magasságtól?); (b). milyen függvénnyel (lineáris, exponenciális, stb.) írhatóle az összefüggés? (például: alkalmas-e ennek az összefüggésnek a leírására a lineáris függvény?); (c).mi a függo változó várható értéke a magyarázó változó egy bizonyos értékéhez? (például: mekkorapulzust várhatunk, egy 180 cm magas személy esetében?); (d). mi a magyarázó változó feltételezhetoértéke a függo változó egy bizonyos értékéhez? (például: mekkora magasság-küszöb feletti egyéneketválogassunk ki, ha az a cél, hogy a 90/perc-et ne haladja meg a pulzusuk?)

Page 89: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 89

Ha mind a magyarázó, mind a függo változó intervallum skálán mérheto, a cél lehet oksági kapcsolatmegállapítása X és Y között, gyakran azonban csak következtetni szeretnénk az egyik változó értékébola másikra, a közöttük tapasztalt összefüggés alapján.

Melyik változó legyen a magyarázó és melyik a függo változó?

Ez mindig attól függjön, hogy milyen irányú oksági kapcsolatot, illetve milyen véletlen hatásokat tétele-zünk fel a változók között, és NE attól, hogy melyik változót szeretnénk a másik alapján elore jelezni.Elofordulhat, hogy az ismeretlen X-et szeretnénk meghatározni a megfigyelt Y-ból, bár a regressziósmodell Y = f (X) + ε, ez az úgynevezett inverz regresszió.

Véletlenség a magyarázó és a függo változóban

Általában úgy gondoljuk, hogy Y két független, additív komponesre bontható: az egyik az X-ektol függ,a másik pedig egy, az X-ektol független véletlen faktor (ε), azaz Y = f (X) + ε. Fel szokás tenni, hogya véletlen komponens várható értéke 0 és hogy eloszlása szimmetrikus, a statisztikai tesztek kedvéért,pedig még azt is, hogy normális eloszlású.

A magyarázó változóban háromféle véletlenséget szoktak megkülönböztetni: (a). X egyáltalán nemvéletlen változó, a kísérlet vezetoje állítja be: I-es modell; (b). bár a „természet” állítja be az X értékét,de az pontosan ismert: I-es modell; (c). a mért X nem azonos az Y-t befolyásoló változóval (mérésipontatlanság miatt, vagy mert X elvont, nem mérheto): II-es modell - ezt az esetet nem tárgyaljuk.

Melyik módszert használjuk? Korreláció- vagy regresszió számítást?

A legfontosabb különbségek a két módszer között: (a). a korrelációszámítás szimmetrikus kapcsolatottételez fel az X és Y között, míg a regresszió számítás egy bizonyos irányú (X → Y) kapcsolatot; (b).míg a korrelációszámításban mindkét változó valószínuségi változó, a regresszió számításban X nemfeltétlenül az (nem feltétlenül függ a véletlentol).

A korrelációszámításnak nincs értelme akkor, ha az X értékeit a kísérletezo állítja be (pl. egy gyógyszerdózisát). Gyakran mindkét módszer alkalmazható, ha megfeleloen átfogalmazzuk a kérdéseket. Mindiggondoljuk meg azonban, melyik fogalmazás tükrözi jobban, hogy valójában mi is érdekel!

NE használjunk regresszió számítást: (a). ha két mérési módszer közötti egyezést vizsgálunk és nemazt, hogy hogyan fejezheto ki egyik mérési eredmény a másikkal. (DE végezhetünk regresszió (nemkorreláció!) számítást, ha az egyik mérési módszert pontosnak tekintjük, és arra vagyunk kíváncsiak,hogyan lehet a másikat korrigálni.); (b). ha nem tudjuk eldönteni, melyik változót tekintsük magyarázóés melyiket függo változónak (ez nem csupán technikai kérdés, hanem a véleményünket tükrözi arról,hogy mi mitol függ, illetve, hogy mit tételezünk fel a véletlen faktorokról); (c). ha tudjuk, hogy amagyarázó változó a függo változóval azonos nagyságrendu véletlen hibával terhelt, vagy általánosabbanfogalmazva, ha tudjuk, hogy az Y nem a mért X-tol függ, hanem egy ismeretlen „valódi értéktol”.

Lineáris regresszió egy magyarázó változóval

Feltételek: (a). a függo változó bármely xi értékre nézve normális eloszlású és a szórások ezekre az érté-kekre nézve homogének (nem térnek el szignifikánsan); (b). X nem véletlen változó, vagyis a kísérletezokontrollja alatt áll (rögzített).

Page 90: László Zoltán: Biostatisztika Egyetemi Jegyzet

90 Statisztika - 2008/2009

Sokszor nem tartják be az utóbbi feltételt, aminek az egyik oka, hogy bizonyos esetekre jobb módszernem igen van (például testméretek közötti regresszió, ahol egyik testméret sincs elore „beállítva”).

Az általános modell egy magyarázó változóval: Y = f (X) + ε. Ha a függvény lineáris: Y = β0 + β1X +ε. Az együtthatók becslését az adatokból végezzük a közönséges legkisebb négyzetek módszerével („LSmódszer”) (a becsléseket b0(= a), b1(= b) jelöli). A közönséges legkisebb négyzetek módszere azt je-lenti, hogy egy olyan függvényt keresünk, amelyre a pontoknak a függvény grafikonjától való függolegesirányú távolságainak (

∑(yi − f (xi))2) négyzetösszege minimális. A pontoknak az illesztett egyenestol

való függoleges távolságát reziduumnak, vagy maradéknak is nevezik (40. ábra).

●●

●●

●●

● ●

●●

●●

24 26 28 30

200

300

400

500

600

700

800

Testhossz (cm)

Test

töm

eg (

gram

m)

b

a

rezid.

40. ábra. A becsült (illesztett) egyenes (folytonos) b meredekséggel és a Y tengely metszésponttal,valamint a reziduálisok egy dévérkeszeg minta tesstömegei és testhosszai kapcsolatára.

A regressziós koefficienset vagy az illesztett egyenes meredekségét a következo módon számíthatjuk ki:

b =

∑xiyi −

∑xi ·

∑yi

n∑x2

i −(∑

xi)2

n

=sxy

sx,

ahol, sxy a két változó eltérésnégyzet-összege és sx a magyarázó változó eltérésnégyzet-összege. Az Ytengellyel való metszéspontot (a), pedig a következo módon: a = Y − b · X. A reziduálisokat pedig:ei = yi − a − bxi.

Az Y és az X kapcsolatára vonatkozó szignifikancia-vizsgálat

(a). A meredekségre vonatkozó vizsgálat nullhipotézise: H0 : β1 = 0, ami azt jelenti, hogy az Yfüggetlen az X-tol. Az alternatív hipotézis: H1 : β , 0. A próbastatisztika pedig:

t =b

S E(b), ahol S E(b) =

S E(e)√n∑

i=1(xi − x)2

és S E(e) =

√√√√√ n∑i=1

(yi − yi)2

(n − 2),

ahol yi abecsült és a mért pontok közötti távolság. A hibatagnak függetlennek kell lenni és normáliseloszlású konstans szórással kell rendelkezni. A null eloszlás Student-féle t-eloszlás n − 2 szabadságifokkal.

Page 91: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 91

(b). Az Y-nak az X-tol való függésére vonatkozó vizsgálat: az F-próba ekvivalens az elozovel csak többmagyarázó változó esetén különbözik attól. Lényege, hogy az Y teljes szórását (eltérés-négyzetösszeg)felbontjuk 2 részre:

Y teljes = Y X-tol való függésébol + Y egyéb hatásokszórása eredo szórása miatti szórása∑(Yi − Y)2 =

∑( f (Xi) − Y)2 +

∑(Yi − f (Xi))2

Teljes SSQ = Regressziós SSQ + Hiba (=reziduális) SSQS S T = S S R + S S H

A nullhipotézis: H0 : β1 = 0, az ellenhipotézis: H1 : β1 , 0. A véletlen faktor szintén független és nor-mális eloszlású kell legyen. A nulleloszlás az F-eloszlás (1, n− 2) szabadsági fokkal. A próbastatisztika:

F =S S R

S S H/(n − 2)

A determinációs együttható (koefficiens): R2

Az illeszkedés jóságát a determinációs együtthatóval, R2-tel jellemezzük. A determinációs együttható(R2) arra ad választ, hogy a magyarázó változó az függo változó varianciáját hány%-ban (milyen há-nyadban) magyarázza. Másképpen, az R2 megmutatja, hogy a lineáris regresszió segítségével a teljesszórásnégyzet hányadrészét sikerült megmagyarázni.

R2 =S S R

S S T= 1 −

S S H

S S T

Regressziós diagnosztika

(a). A modell jóságának vizsgálata: ha a modell megfelelo a reziduálisok az illesztett egyenes körülvéletlenszeruen helyezkednek el. Például nem megfelelo a modell, ha a reziduálisok patkó alakzatbanhelyezkednek el. Ilyenkor érdemes egy jobb modellt keresni.

(b). Ha a hiba szórása nem állandó (például az X növekedésével a reziduumok növekednek), akkor areziduumok nagyságrendje függ az X nagyságától. Ilyenkor érdemes transzformációkkal próbálkozni.

(c). A hibatag normalitásának teljesülnie kell, amit például egyszeruen kvantilis-kvantilis (QQ) ábrávalellenorizhetünk. Ha ez nem teljesül a szignifikancia-vizsgálat nem megbízható.

(d). A hibáknak egymástól függetleneknek kell lenniük, ami úgy teljesül, ha a megfigyeléseink függetle-nek. Teljes egészében ritkán teljesítheto, a véletlen mintavétel bíztosíthatja leginkább a függetlenséget.Ha csoportosuló adatokkal rendelkezünk a regresszióanalízist nem használhatjuk, valamint ismételt mé-rések esetén is ezzel állunk szembe.

Konfidencia-intervallumok a paraméterekre

A βi-kre: bi ± tkrit · S E(bi), ahol tkrit az (n − 2) szabadsági fokú t-eloszlás kritikus értéke. Ahhoz, hogymegkapjuk a konfidenciasávot a regressziós egyenesre (az egyes Y értékekre) ugyanazok a feltételekszükségesek, mint a hipotézisvizsgálathoz. Ez a sáv a pontokat az elore megszabott megbízhatósággaltartalmazza.

Az ábrán a szaggatott vonalak jelölik a regressziós egyenesre vonatkozó, a pontozott vonalak pedig azegyes pontokra vonatkozó 95%-os konfidencia-sávot. Az X tartomány szélei felé haladva a becslésekegyre bizonytalanabbak, a legkisebb a bizonytalanság az X értékek átlagánál figyelheto meg.

Page 92: László Zoltán: Biostatisztika Egyetemi Jegyzet

92 Statisztika - 2008/2009

●●

● ●

●●

●●

24 26 28 3030

040

050

060

070

0

hosszúság (cm)

test

töm

eg (

kg)

41. ábra. A becsült (illesztett) egyenes konfidencia- (szaggatott) és perdikciós intervallumai (pontozott)egy dévérkeszeg minta tesstömegei és testhosszai kapcsolatára.

Példa

Van-e összefüggés a a vizsgált halak (dévérkeszeg - Abramis brama) testtömege (gramm) és testhossza(cm) között? Az elobbiekben használt adatsort alkalmazzuk.

b =

∑xiyi −

∑xi ·

∑yi

20∑x2

i −

∑xi

20

=5289.1101.272

= 52.22668

a = Y − b · X = 493 − 52.22668 · 27.92 = −965.1688

Ybecs = −965.16 + 52.22 · X

S S R =∑

(Ybecs − Y)2 = 276232.1

S S T =∑

(yi − Y)2 = 316178

R2 =S S R

S S T=

276232.1316178

= 0.8736601

R =√

0.8736601 = 0.9346979

A vizsgált dévérkeszegek testhossza egy egészen jó becslést ad a testtömegükre (R2 = 0.87) és a kettoközötti korreláció is eros (R = 0.93). Most megvizsgáljuk mennyire szignifikáns az összefüggés:

S E(e) =

√√√√√√ 20∑i=1

(yi − yi)2

(20 − 2)=√

39945.8818 = 47.10855

S E(b) =S E(e)√

20∑i=1

(xi − x)2

=47.10855√

101.272=

47.1085510.0634

= 4.681176

t =b

S E(b)=

52.226684.681176

= 11.15674

Page 93: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 93

Mivel a kapott t-érték (t = 11.15) a kritikus t-értéknél nagyobb (tkrit = 2.101, d f = 18, p = 0.05)elvetjük a meredekség hiányára vonatkotatott nullhipotézist. Ezek után leelenorizzük a szignifikanciát amásik módszerrel is:

S S H =∑

(yi − Ybecs)2 = 39945.88

F =S S R

S S H/(n − 2)=

276232.139945.88/18

= 124.4729

Mivel az F-értékünk nagyobb az Fkrit = 4.41 értéknél elvetjük a nullhipotézist.

Többszörös regresszió

A többszörös regresszióanalízist akkor használjuk, ha a függo változó variációját, több független változófüggvényeként vizsgáljuk. Ilyenkor indokolt a függo (Y) változót a magyarázó (független) (X1, X2, . . . , Xr)változókkal összefüggésbe hozni. A teljesen általános modellben feltételezzük, hogy a függo (Y) változókifejezheto, mint az X-ek valamely függvénye plusz egy véletlen faktor (hiba): Y = f (X1, X2, . . . ) + ε.Többszörös lineáris regresszióról akkor beszélünk, ha a függvény lineáris: Y = β0 + β1X1 + β2X2 +· · ·+ βrXr + ε. Az analízis céljai a következok lehetnek: (a). egy olyan lineáris egyenletet szeretnénk el-készíteni, amely jobban jósolja az Y-nt, mintha a magyarázó változók hatásait külön-külön vizsgálnánk;(b). azt szeretnénk megtudni, hogy a vizsgált magyarázó változók közül melyiknek van a legnagyobbmagyarázó ereje.

A paraméterek becslését itt is a legkisebb négyzetek módszerével szokás végezni. A becsült paraméte-reket a b0(= a), b1, . . . , bn, valamint az e jelöli, ami a reziduum, vagy a hibatag (ε) becslése. A becsültregressziós gyenlet alakja: Y = b0 + b1X1 + b2X2 + · · ·+ bnXr + e. A lineáris függvény grafikonja egyr dimenziós sík, ahol a megfigyelt y értékek a sík körül helyezkednek el.

Egy többszörös regressziós grafikon több (két magyarázó változó esetén rajzolható, háromnál több di-menziót nem tudunk megrajzolni) magyarázó változó esetén szemlélteti a függo változót, ahol a reg-ressziós felület egy kétdimenziós sík (becsült) egy háromdimenziós térben. A pontok a megfigyelt ada-tok. A vonalak a megfigyelt adatok és a számított értékek közötti eltérések (reziduumok) (42. ábra).Általában egy grafikonról a következo összefüggések olvashatóak le: (1). ha az egyik magyarázó vál-tozó no (csökken), akkor a a függo változó is no (csökken) (ha b1 pozitív); (2). ha a másik magyarázóváltozó no (csökken), akkor a függo változó is no (csökken) (ha b2 pozitív); (3). nincsenek összefüggéseka magyarázó változók és a függo változó között.

A többszörös regresszió együtthatói a független változók hatását mutatják, úgy, hogy a többi változót isfigyelembe veszik. Az egyes magyarázó változóktól való függés erosségét csak akkor tesztelhetjük, ha amagyarázó változókat azonos skálán mértük (pl. kg).

A konfidencia intervallumokat a regressziós együtthatókra a szokásos módon adhatjuk meg: bi ± tkrit ·

S E(bi), ahol tkrit az (n − r − 1) szabadsági fokú t eloszlás megfelelo kritikus értéke.

A hipotézisvizsgálatok lényegében itt is ugyanazok, mint egy magyarázó változó esetén. A t-próbákkalminden együtthatót külön-külön tesztelünk, F-próbával, pedig a modell egészét vizsgáljuk.

Az együtthatók tesztelése

A t-próbák a függo változó egy-egy magyarázó változótól való függésére vonatkoznak. A nullhipotézis:

Page 94: László Zoltán: Biostatisztika Egyetemi Jegyzet

94 Statisztika - 2008/2009

H0 : βi = 0, ahol i = 1, 2, . . . , r. Az ellenhipotézis: H1 : βi , 0, ahol i = 1, 2, . . . , r. A feltételek a vélet-len hibák függetlenségére, normális eloszlásukra (0 várható értékkel és konstans szórással) vonatkoznak.A normalitási feltétel elég nagy minta esetén nem szükséges. A teszt-statisztika: t = bi/S E(bi), aholS E(bi)-t az adatokból becsüljük. A nulleloszlás a Student-féle t-eloszlás n − r − 1 szabadsági fokkal.

A modell egészének vizsgálata

A modell egészének vizsgálatára az F-próba szolgál. Ezzel az Y összes X-ektol való függésének atesztelését végezzük, és amely az Y szórásának (eltérés-négyzetösszegének) felbontásán alapul: S S T =S S R + S S H . A nullhipotézis: H0: minden βi = 0, ahol i = 1, 2, . . . , r. Az ellenhipotézis: H1: vanolyan i, amelyre βi , 0. A feltételek a véletlen hibák függetlenségére, normális eloszlásukra (0 várhatóértékkel és konstans szórással) vonatkoznak. A teszt-statisztika: F = (S S R/r)/(S S H/(n − r − 1)). Anulleloszlás F-eloszlás (r, n − r − 1) szabadsági fokokkal.

Példa

A vizsgálandó összefüggés a környezet homérséklete, a munkavégzés ideje és az elfogyasztott víz mennyi-sége. Kérdésünk, hogy az elfogysztott víz mennyiségét milyen modellel tudjuk leírni a két mért magya-rázó változó segítségével? Az adatokat a következo táblázat tartalmazza:

Homérséklet 23,89 28,33 29,44 29,44 33,33 36,11 37,22Víz (ml) 453,59 566,99 708,74 765,44 907,18 1360,78 1360,78Ido (óra) 1,85 1,25 1,50 1,75 1,15 1,75 1,60

A többszörös regressziós egyenlet alakja a következo: Víz = a + b1Homérséklet + b2Ido. Az együttha-tókat a következo egyenletrendszer megoldásával kaphatjuk meg:

S S 2H · b1 + S S HI · b2 = S S HV

S S HI · b1 + S S 2I · b2 = S S IV

ahol S S 2H , S S 2

I a homérséklet és víz magyarázó változók eltérésnégyzetösszege (S S 2i =

∑(Xi − Xi)2);

az S S HI a homérséklet és víz magyarázó változók közötti eltérésszorzatösszeg (S S i j =∑

(Xi − Xi)(X j − X j)); és az S S HV , S S IV a homérséklet és víz mennyisége és az ido és a víz mennyisége közöttieltérésszorzatösszeg.

S S 2H =

∑(Hi − H)2 =

∑(Hi − 31.10)2 = 132.69

S S 2I =

∑(Ii − I)2 =

∑(Ii − 1.55)2 = 0.425

S S HI =∑

(Hi − H)(I j − I) =∑

(Hi − 31.10)(I j − 1.55) = −1.16

S S HV =∑

(Hi − H)(V j − V) =∑

(Hi − 31.10)(V j − 874.78) = 9827.92

S S IV =∑

(Ii − I)(V j − V) =∑

(Ii − 1.55)(V j − 874.78) = 60.95

Az egyenletrendszerünk a következo:

132.69 · b1 − 1.16 · b2 = 9827.92

Page 95: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 95

−1.16 · b1 + 0.425 · b2 = 60.95

Ezt megoldva kapjuk meg a b1, b2 értékeit. Így a b1 = 77.18 és b2 = 354.98. Majd kiszámítjuk az ytengellyel való metszéspontot:

a = V − b1 · H − b2 · I = 874.78 − 77.18 · 31.10 − 354.98 · 1.55 = −2076.42

A kiszámított együtthatók alapján felírhatjuk az egyenletünket: V = −2076.42 + 77.18H + 354.98I.Ebbol az egyenletbol láthatjuk, hogy mind a homérséklet és mind a munkavégzés idotartamának növe-kedésével növekedett az elfogyasztott víz mennyisége.

A következo lépésben kiszámítjuk, hogy az egyes független (homérséklet, munka végzésének ideje) vál-tozók milyen mértékben hatnak a függo (elfogyasztott víz mennyisége) változóra. Ezt a standardizáltparciális regressziós koefficiensek segítségével tesszük. Ezeknek kiszámításához a megfelelo magya-rázó változó szórását (S Xi) és a függo változó szórásának (S Y ) arányát szorozzuk a perciális regresszióskoefficienssel:

b′

i = biS Xi

S Y

Ha az új együtthatókat (standardizált parciális regressziós koefficiens) összehasonlítjuk, láthatjuk melymagyarázó változó járul hozzá a függo erosebb magyarázásához.

b′

1 = 77.184.70

361.73= 1.00

b′

2 = 354.980.26

361.73= 0.26

Tehát a homérsékletnek nagyobb magyarázó ereje van, mint az elvégzett munka idejének. Ezek utánmegvizsgáljuk, hogy a kapott egyenlet a függo változó varianciájának mekkora részét magyarázza. Ezta többszörös determinációs koefficiens segítségével vizsgáljuk meg. Ennek kiszámítását a következomódon végezhetjük el:

R2Y1,2,...,k

= r1 · b′

1 + r2 · b′

2 + · · ·+ rk · b′

k, ahol 0 ≥ R2Y1,2,...,k

≤ 1

Elobb kiszámítjuk a korrelációs koefficienseket:

r1 =

7∑i=1

(Hi − H) · (Vi − V)√7∑

i=1(Hi − H)2 ·

√7∑

i=1(Vi − V)2

= 0.96, r2 =

7∑i=1

(Ii − I) · (Vi − V)√7∑

i=1(Ii − I)2 ·

√7∑

i=1(Vi − V)2

= 0.10

Majd a többszörös determinációs koefficienst:

R2V1,2

= 0.96 · 1 + 0.10 · 0.26 = 0.9893782

Mivel a kapott érték közel áll egyhez a kapott egyenlet nagyon jól magyarázza a víz mennyiségénekvarianciáját.

Page 96: László Zoltán: Biostatisztika Egyetemi Jegyzet

96 Statisztika - 2008/2009

Ezek után elvégezzük az egyenlet szignifikanciájának vizsgálatát, amelyhez ki kell számítanunk a meg-magyarázott eltérésnégyzetösszeget (S S R) és a nem magyarázott eltérésnégyzetösszeget (S S H):

S S R = R2V1,2·∑

(Yi − V)2, ahol d f = k

S S H = (1 − R2V1,2

) ·∑

(Vi − Y)2, ahol d f = n − k − 1

22 24 26 28 30 32 34 36 38 400

600

800

1000

1200

1400

1.0

1.2

1.4

1.6

1.8

2.0

Hő mérséklet (C)

Elv

égze

tt m

unka

(ór

a)

Víz

(m

l)

42. ábra. A becsült (illesztett) sík az elfogysztott víz mennyiségének, a végzett munkának és a homér-séklet kapcsolatára; a pontok és a sík közötti (alig látható) egyenesek a reziduálisak.

A vizsgált adatokra az S S R = 775253.5, valamint az S S H = 4939.763. A teszt-statisztika értéket (F) akövetkezo módon számítjuk ki:

F =

S S R

kS S H

n − k − 1

.

A mi esetünkben ennek értéke F = 313.88, ami eros szignifikanciára utal, mivel az Fkrit = 10.64d f1 = 2-re és d f2 = 4-re. Végkövetkeztetésként elmondhatjuk, hogy az illesztett modell szignifikánsanés nagy megbízhatósággal magyarázza az elfogysztott víz mennyiségét, és a modellbol a homérsékletnagyobb magyarázó erovel renselkezik, mint a végzett munka ideje.

A változók transzformálása

A transzformációk olyankor segíthetnek, amikor a megfigyelt adatokra a lineáris regresszió közvetlenülnem alkalmazható. Néha elméleti megfontolásokból következik, hogy a változók közötti kapcsolat nemlineáris (például: testhossz Vs. térfogat (gömb/ellipszoid térfogata - hatványfüggvény); gyógyszer dó-zis Vs. hatás görbéje (logisztikus görbe vagy hasonló „S-alakú” görbe)). Máskor a megfigyelt adatokugyan egyértelmuen arra utalnak, hogy az X és az Y között van összefüggés, de ha a pontokra egyenestillesztünk, az illeszkedés nagyon rossz.

Az elso esetben az elméleti megfontolások arra vonatkozóan is útmutatást adnak, hogy milyen függ-vénytípust válasszunk, a másodikban, pedig az adatok grafikus ábrázolása segíthet (a). a kétváltozósszórásdiagramok

Page 97: László Zoltán: Biostatisztika Egyetemi Jegyzet

Statisztika - 2008/2009 97

a modell-választáshoz nyújtanak segítséget; (b). a hisztogram, boxplot, stb. az adatok eloszlásánakvizsgálatában. Azokban az esetekben, amikor az X és Y közötti összefüggés nem lineáris, lineáris össze-függés állhat fenn valamely X′ és Y ′ transzformált változók között. Ha elméleti megfontolásokból nemkövetkezik, hogy milyen transzformációval érdemes próbálkozni, akkor szórásdiagramok segítségévelválaszthatjuk ki a legmegfelelobbet.

Mivel a legtöbb számítógépes programban egy gombnyomással kérheto, a logaritmus-transzformációtpróbáljuk ki rutinszeruen. A logaritmus csak pozitív számokra van értelmezve. Ha 0 vagy negatívX és/vagy Y értékek is elofordulnak, szokás egy alkalmas állandót hozzáadni az értékekhez, mielott alogaritmus vesszük, például log(x + 1)-et venni log(x) helyett. Mindig gondoljuk végig, hogy egy ilyentranszformáció interpretálható-e, meg tudjuk-e magyarázni, mi az értelme. A transzformációk érinthetikmind a regressziós függvényt, mind a véletlenséget a modellben (utóbbit akkor, ha a függo változóttranszformáljuk).

Gyakorisági adatokra az arcussinus transzformációt szokták alkalmazni. A transzformációk statiszti-kai modell hiányában is hasznosak lehetnek, például segíthetnek az adatok jobb megismerésében ésábrázolásában, szebb grafikonok készítésében, stb. A transzformációkat nemcsak az összefüggés lineari-zálására, hanem szórás-kiegyenlítésre és az eloszlások szimmetrizálására is szokták használni (perszeelofordulhat, hogy az a transzformáció, amely linearizálja az összefüggést, elrontja a szórások egyenlo-ségét, stb.). A transzformáció megválasztásánál fontos szempont az interpretálhatóság. A transzformációútján történo linearizálás nem az egyetlen lehetoség a nemlineáris összefüggések kezelésére. Léteznekeljárások lineárissá nem transzformálható modellek illesztésére is.

Lineárisra visszavezetheto regressziók

(a). Ha a kapcsolat lineárissá válik a magyarázó változó (X) log transzformálásával, akkor a keresettfüggvény logaritmus-függvény additív hibával. A logaritmus transzformált adatokra a lineáris regresszióegyenlete: y = a + b · ln(x).

●●

● ●

● ●●

●●

2 4 6 8 10

200

400

600

Fák kora (év)

Mag

assá

g (c

m)

●●

● ●

● ●●

●●

0.0 0.2 0.4 0.6 0.8 1.0

200

400

600

log Fák kora (év)

Mag

assá

g (c

m)

43. ábra. Logaritmus transzformáció elott (nem lineáris) és után (lineáris) a vizsgált fák korának ésmagasságának adatai.

(b). Ha a kapcsolat lineárissá válik a függo változó (Y) log transzformálásával, akkor a keresett függvényexponenciális-függvény multiplikatív hibával. A logaritmus transzformált adatokra a lineáris regresszióegyenlete: y = a · eb·x (ln y = a + b · x).

Page 98: László Zoltán: Biostatisztika Egyetemi Jegyzet

98 Statisztika - 2008/2009

● ●

● ●

● ●

● ●

●●

●●

0 10 20 30 40 50

4050

6070

80

Idő (perc)

Kih

ű lé

s (C

)

● ●

● ●

● ●

● ●

0 10 20 30 40 50

1.6

1.7

1.8

1.9

Idő (perc)

log

Kih

ű lé

s (C

)

44. ábra. Logaritmus transzformáció elott (nem lineáris) és után (lineáris) egy oldat kihulése az idofüggvényében.

(c). Ha a kapcsolat lineárissá válik mindkét változó (X és Y) log transzformálásával, akkor a keresettfüggvény hatvány-függvény multiplikatív hibával. A logaritmus transzformált adatokra a lineáris reg-resszió egyenlete: y = a · xb (ln y = a + ln b · x).

●●

● ●

● ●

20 40 60 80

150

250

350

450

Átmérő (mm)

Hos

sz (

mm

)

●●

● ●

● ●

3.0 3.5 4.0

5.2

5.6

6.0

log Átmérő (mm)

log

Hos

sz (

mm

)

45. ábra. Logaritmus transzformáció elott (nem lineáris) és után (lineáris) egy csont-hossz adatsor vala-mint a csontok átméroje a csont középso keresztmetszetén.

Nem-lineáris regressziók

Ha a transzformáció nem lehetséges nem-lineáris regresszióval kell dolgozni. A regresszió analízisbenakkor beszélünk nem-lineáris regressziószámításról, ha a függo és független változók közötti kapcsolatotnem írható le a korábban megismert lineáris függvénnyel. Ilyen esetben a pontokra egy görbe illeszkedika legjobban. Azt az eljárást, amellyel a ponthalmazra legjobban illeszkedo görbe egyenletét keressükgörbeillesztésnek nevezzük.

Másképpen megfogalmazva: a nem-lineáris regresszió lényege egy egyenlet illesztése az adatokhoz ésannak a vizsgálata, hogy az adatok illeszkednek-e az egyenlet által meghatározott görbéhez (a lineárisregesszió ugyanez az eljárás, csak egyenessel dolgozunk).

Page 99: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

99

Kísérletek és felmérések

A kísérlet olyan vizsgálat, amelyben a kísérletező aktív beavatkozást (“kezelés”) végez a kísérleti alanyokon, és ennek hatását vizsgálja. A felmérés olyan vizsgálat, amelyben a “kezeléseket a természet allokálja”, azaz az egyedek kezelés szerinti besorolását nem a kísérletező, hanem az élet végzi. Így a kezelések random allokálásáról, amelyre olyan sok gondot fordítanak a kísérletekben, itt szó sem lehet. A “kezelések” különféle jótékony vagy káros (többnyire az utóbbi) tényezők lehetnek. Tipikus eset, amikor két csoporttal dolgozunk, egy a vizsgált hatásnak kitett, és egy kontroll csoporttal. Elfogadott nézet, hogy oksági kapcsolat kimutatására csak kontrollált randomizált kísérlet alkalmas. A kontrollált randomizált kísérletben a kezelt és a kontroll csoport között az alkalmazott kezelést kivéve semmilyen különbség nincs. A célváltozóban megmutatkozó különbség csakis a kezelésnek tulajdonítható (vagy esetleg a véletlennek). Kísérlettervezési alapfogalmak

Tényező, faktor vagy „független változó”, „ható tényező”, „magyarázó változó” (kezelés, gyógyszer, takarmány stb.)az aminek hatását a kísérletben vizsgálni vagy összehasonlítani kívánjuk. Megfigyelési egység az az egység a kísérletben, amelyre egy bizonyos kezelést vagy kezeléskombinációt alkalmazunk (egy állat, egy alom, egy sejtkultúra, egy petri-csésze táptalaj, stb.). Célváltozó, kimeneti változó vagy „függő változó”olyan megfigyelhető vagy mérhető változó, amely alkalmas a tényezők hatásának mérésére (a megfigyelési egység állapotának, kezelésre adott válaszának jellemzésére). A célváltozó lehet bináris (0/1, pl. túlélés, gyógyulás, stb.) vagy számszerű (baktériumtelepek száma, átmérője, vérnyomás, közérzet-pontszám, stb.). Egy kísérletben több célváltozó is lehet, ekkor ki kell jelölni egy elsődlegest. Ismétlés – ugyanazt a kezelést (kezeléskombinációt) általában több megfigyelési egységen szokták alkalmazni. Ennek az az értelme, hogy: (1) csökkentsék annak az esélyét, hogy a kísérlet egyes megfigyelési egységek kiesése (elhullás, sikertelen mérés, stb.) miatt értékelhetetlenné válik, (2) kiderüljön, mekkora a kezelésre adott válasz szóródása populációban, (3) az eredmények a populációra általánosíthatók legyenek, (4) növekedjék a vizsgálat pontossága. Párhuzamos elrendezésről beszélünk, ha a kísérletben két csoport (kezelt-kontroll), esetleg több csoport összehasonlításából kívánunk következtetéseket levonni a kezelés(ek) hatására nézve. A csoportok a populációból vett véletlen minták, lehetnek függetlenek, vagy párosítottak, de minden megfigyelési egység csak egy csoportba van besorolva (ismételt mérések és crossover elrendezés). Kontroll a nem kezelt csoport, amihez a kezelteket hasonlítjuk, vagy a standard kezelést kapott csoport, amihez az új, kiértékelendő kezelést kapottakat hasonlítjuk. Célpopuláció az a populáció, amelyre a vizsgálat eredményeit alkalmazni kívánjuk. Vizsgált populáció az a populáció, amelyből az elemzés alapjául szolgáló véletlen mintát vettük. Ha e két populáció nem azonos, akkor a kapott eredmény érvényessége megkérdőjelezhető.

Fontos követelmények a kísérletekkel szemben: (1) világos és specifikus kérdéseket tegyenek fel, (2) adjanak minél pontosabb választ a feltett kérdésekre, (3) reprodukálhatók legyenek. A reprodukálhatóság és az általánosíthatóság gyakran egymásnak ellentmondó követelmények. Például egy kísérletet végezhetünk egy bizonyos beltenyésztett egértörzzsel vagy genotipikusan heterogén mintával. Homogén mintát választva a reprodukálhatóság javul, de az általánosíthatóság romlik, heterogén mintával pedig fordítva.

Page 100: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

100

A vizsgálat belső validitásán azt értjük, hogy a kapott eredmény valóban érvényes a vizsgált mintára (az elemzés nem tartalmaz torzítást). A külső validitás pedig azt jelenti, hogy érvényes a kívánt célpopulációra (azaz általánosítható). Ehhez a belső validitáson túlmenően még arra is szükség van, hogy a mintavétel se okozzon torzítást. Például a vizsgálat belső validitását veszélyezteti, ha kiértékeléskor egy olyan statisztikai módszert alkalmazunk, amelynek feltétele az, hogy a vizsgált változó normális eloszlású legyen, olyankor ha nem normális eloszlású változókkal rendelkezünk. A vizsgálat külsõ validitása kérdéses, ha az eredményeket a háziorvosi praxisra vonatkozóan kívánjuk felhasználni, a vizsgálatot viszont egy egyetemi klinika beteganyagán végezzük, ahol jellemzően súlyosabb vagy komplikált esetek fordulnak elő. Zavarásnak vagy elfedésnek azt nevezzük, amikor két változó között fennálló összefüggést egy harmadik változó hatása kiolt vagy elfed, vagy két független változó között egy harmadik változó hatása látszólagos összefüggést teremt. Egy angol kutatásban például összefüggést találtak a felekezeti hovatartozás és a trombózisos esetek gyakorisága között. Alaposabb vizsgálódás fényt derített rá, hogy a látszólagos összefüggés a fogamzásgátlással kapcsolatos attitűdök közötti különbséggel, valamint az orális fogamzásgátlók trombózist előidéző hatásával magyarázható. Jegyezzük meg, hogy egy változó akkor biztosan nem zavarhatja az X és Y változók közötti kapcsolat kimutatását, ha X és Y közül legalább az egyiktől független. Mintavételezési módszerek

Véletlen mintavétel: véletlen besorolás a különböző kezelési csoportokba. Mire jó a véletlen mintavétel és a randomizáció? (1) a torzítás elkerülésére, (2) arra, hogy a következtetések megbízhatósága valószínűségszámítási eszközökkel becsülhető legyen, (3) arra NEM, hogy a minta reprezentatív legyen. Egyszerű véletlen mintavételezés esetén teljes randomizációt végzünk. Rétegzett mintavételezés esetén, blokkon belüli randomizációt végzünk. Szisztematikus mintavételezés esetén szabályos besorolást végzünk. Kísérlettervezés

A szisztematikus hibák kiküszöbölésére alkalmazott módszerek: kontroll, randomizáció, vakság. A véletlen hibák csökkentésére alkalmazott módszer az ismétlés. A potenciális zavaró tényezők hatásának kontrollálására a randomizáció mellett más lehetőségek is vannak. Ilyen kérdésekkel foglalkozik a kísérlettervezés, és azon belül a kísérleti elrendezések elmélete. Varianciaelemzés (analysis of variance, ANOVA)

Van-e hatása a kezelésnek (X) – a kontrollhoz hasonlítva – a célváltozóra (Y), pontosabban annak átlagértékére? Vannak-e különbségek az egyes kezelések, kezelés-kombinációk (felmérés esetén csoportok) között? Egytényezős, egyutas (one-way, one-factor) varianciaelemzés: k független minta (k kezelés vagy k csoport), a célváltozó minden csoportban normális eloszlású, a szórások azonosak, az átlagok vagy különböznek, vagy nem (épp ezt akarjuk eldönteni). Nullhipotézis: nincs különbség az átlagok között, a kezelések/csoportok a célváltozó átlagára nézve

mind azonosak: H0: µ1 = µ2 = ... = µk .

Page 101: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

101

Ellenhipotézis: nem minden átlag egyenlő, a kezelések/csoportok között különbség van, H1: nem

minden µi egyenlő egymással. Ha k = 2, akkor a varianciaelemzés ekvivalens a kétmintás t-próbával. Feltételek ellenőrzése: (1). normalitásvizsgálat (Kolmogorov-Smirnov-próba, Shapiro-Wilk-teszt, QQ ábra), (2). szórások egyenlősége (Bartlett-próba, Levene-próba)

Variancia-tábla (szórásfelbontás)

Példa: Hasonlítsuk össze a következő három mintát:

1. minta 2. minta 3. minta összes

8 9 3 10 11 5 12 13 7 14 15 9 16 17 11

x 12= x 13= x 7= x 10.67= 2s 10= 2s 10= 2s 10= 2s 16=

Az 1. minta és 2. minta átlaga hasonló. Mindhárom szórásnégyzet megegyezik, így a varianciák átlaga 10. Az összes megfigyelés varianciája nagyobb: 16. A különbség az átlagok közötti különbségnek tudható be. Alapötlet: a variabilitásnak két forrása van: (1) a mintán belüli átlag körüli szóródás, (2) a minták között változatosság, amely a populációk (amelyekből a minták származnak) várható értékeinek különbözőségéből fakad. Másképp: a célváltozó variabilitását (amelyet az átlagától való eltérés-négyzetösszeggel mérünk) komponensekre bontjuk az alábbi módon:

Teljes variabilitás

= Kezelések közötti különbségnek tulajdonítható variabilitás

+ Véletlen variabilitás

csoportok közötti csoporton belüli between groups within groups , Ha a kezelések közötti különbségeknek tulajdonítható variabilitás szignifikánsan nagyobb, mint az ugyanazon kezelést kapottak közötti véletlen (nem a kezeléssel kapcsolatos – de lehet más, zavaró hatásnak tulajdonítható!) variabilitás, akkor a nullhipotézist elvetjük. A tesztelés a varianciák hányadosát véve, F-próbával történik.

Page 102: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

102

Szokásos jelölések: SS, SSQ négyzetösszeg (sum of squares) MS, MSQ variancia (mean squares) A négyzetösszeg-felbontás szokásos formája, ahogyan a számítógépes programok közlik (ANOVA táblázat)

A variancia eredete

Szab. fok§ df

Eltérés- négyzet- összeg SS

Átlagos négyzetes eltérés MS

Teszt- statisztika F

p-érték† p

Kezelések közötti

k-1 SSB MSB = SSB /(k-1) F = MSB /MSW p

Kezelésen belüli

k(n-1) SSW MSW = SSW /k(n-1)

Teljes nk-1 SST MST = SST /(k-1)‡

§feltéve, hogy k csoport van és mindegyikben n megfigyelés †a (k-1), k(n-1) szabadsági fokú F-eloszlásból számítva ‡MST nem más, mint a célváltozó becsült varianciája

Ha a varianciaelemzés szignifikáns különbségeket mutat ki a kezelések között, azaz a H0: µ1 = µ2 = ... =

µk nullhipotézist elvetjük, akkor kíváncsiak lehetünk arra, hogy nevezetesen mely kezelések között van különbség. A nullhipotézis elvetéséből nem következik, hogy mind különböznek egymástól!). Erre szolgál a csoportok páronkénti összehasonlítása: multiple comparisons , post-hoc tests. Például: seregélyek testtömege 4 különböző pihenőhelyről

minta/pihenőhely 1 2 3 4

1 78 78 79 77 2 88 78 73 69 3 87 83 79 75 4 88 81 75 70 5 83 78 77 74 6 82 81 78 83 7 81 81 80 80 8 80 82 78 75 9 80 76 83 76 10 89 76 84 75

ANOVA táblázat:

ser<-read.csv2(''ser_1ut_ANOVA.csv',header=TRUE)

mod1<-aov(tomeg~hely,data=ser)

anova(mod1)

Analysis of Variance Table

Response: tomeg

Df Sum Sq Mean Sq F value Pr(>F)

hely 3 341.90 113.97 9.0053 0.0001390 ***

Residuals 36 455.60 12.66

--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Page 103: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

103

Az első sor mutatja (itt: hely) a kezelések közötti SS-eket. A második mutatja (Residuals) a kezelésen belüli SS-eket. A teljes SS-eket az R nem mutatja. Hogyan lehet eldönteni, hogy melyik minták különböznek egymástól? 1. Kiszámítjuk a mintaátlagok konfidencia intervallumait. Amelyek nem fednek át, azokat tekintjük különbözőknek. 2. Ki lehet számítani az ún. szignifikáns differenciát (LSD), és azokat a mintákat tekintjük különbözőknek, amelyek középértékeinek különbsége nagyobb – sok esetben mutat akár indokolatlanul is szignifikáns eltérést. 3. A Tukey teszt: akkor használható, ha minden csoportban ugyanannyi ismétlés van, itt is azokat a mintákat tekintjük különbözőknek, amelyek középértékeinek különbsége nagyobb, mint egy T érték,

azaz ( )i jY Y T− > . A T kiszámítása: BMST q

n= ⋅ , ahol q-t a Tukey táblázatból kell kikeresni.

Eszerint az 1. és a 3. pihenőhely, valamint az 1. és a 4. pihenőhelyen különbözik a seregélyek testtömege. Szokásos módszerek páronkénti összehasonlításra: (a). a legkisebb szignifikáns differenciák módszere

least significant differences (LSD) : korrigálatlan elsőfajú hiba (αααα = 0.05 összehasonlításonként, tehát ha sok összehasonlítást végzünk, akkor összességében nagyobb!); (b). Tukey-teszt : korrigált elsőfajú

hiba (αααα = 0.05 az összesre együtt). Ha a kezelések nem mind egyenértékűek, hanem van közöttük egy (általában a kontroll), amelyhez az összes többit hasonlítani akarjuk, akkor a Dunnett-tesztet kell használnunk. Ez is korrigált elsőfajú

hibával dolgozik (αααα = 0.05 az összes összehasonlításra együtt).

46. ábra. A seregélyek testtömegei a négy pihenőhelyen.

TukeyHSD(mod1)

Tukey multiple comparisons of means

95% family-wise confidence level

Fit: aov(formula = tomeg ~ hely, data = ser)

$hely

diff lwr upr p adj

harmadik-elso -5.0 -9.284781 -0.71521938 0.0168364

masodik-elso -4.2 -8.484781 0.08478062 0.0564459

negyedik-elso -8.2 -12.484781 -3.91521938 0.0000537

masodik-harmadik 0.8 -3.484781 5.08478062 0.9578779 negyedik-harmadik -3.2 -7.484781 1.08478062 0.2027531

Page 104: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

104

Többtényezős (többszempontos) varianciaelemzés: több tényező, az egyszerűség kedvéért most legyen csak kettő (kétutas ANOVA):

1. tényező: k1 kezelés (k1 csoport), 2. tényező: k2 kezelés (k2 csoport).

A kezeléskombinációk száma k1 × k2 . Tegyük fel, hogy r ismétléssel dolgozunk, azaz minden

kezeléskombinációt r megfigyelési egységen alkalmazunk (ez összesen k1 × k2 × r megfigyelési egység). Feltétel itt is, hogy a célváltozó minden kezeléskombináció esetén normális eloszlású legyen, a szórások pedig azonosak legyenek. Itt többféle nullhipotézist tesztelhetünk (ugyanúgy, mint az egytényezős esetben, a négyzetösszeg felbontása után F-próbával): (1) H0

(1): az 1. tényező szerinti k1 kezelési csoport a célváltozó átlagára nézve mind azonos, az átlagok

között nincs különbség: H0(1): µ1

(1) = µ2(1) = ... = µk1

(1) (2) H0

(2): a 2. tényező szerinti k2 kezelési csoport a célváltozó átlagára nézve mind azonos, az átlagok

között nincs különbség: H0(2): µ1

(2) = µ2(2) = ... = µk2

(2)

(3). H0(1×2): az 1. és a 2. tényező hatása additív, együttes hatásuk a külön-külön vett hatások egyszerű

összege, nincs közöttük kölcsönhatás, interakció

H0(1×2) elvetése azt jelenti, hogy a két hatás nem additív, van közöttük interakció. Az interakció azt is

jelenti, akkor az 1. tényező szerinti kezelések hatása a 2. tényező szerinti kezelési csoportokban nem azonos.

Példa: seregélyek testtömege hogyan függ a madarak nemétől és a mérés időpontjától?

B változó, nem

Hím Nő

A változó, évszak Ősz x1=57g x2=53g

Tavasz x3=55g x4=51g

47. ábra. (a) közel párhuzamos az átlagos testtömegeket összekötő vonal: az évszakváltás ugyanannyi testtömeg változást jelent mindkét nem számára,de nincs kölcsönhatás a két változó között; (b) és (c) a vonalak nem párhuzamosak: az évszakváltás hatása nem azonos az egyes nemek számára, mindkét

eset interakciót jelez

Page 105: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

105

Több minta esetén:

48. ábra. Az (a) esetben nincs interakció (közel párhuzamos vonalak), a (b) esetben van.

Példa: Tételezzük fel, hogy az egytényezős esetben vizsgált seregélyek testtömegét novemberben mértük. Januárban újból begyűjtünk 10-10 madarat mind a 4 pihenőhelyről, és megmérjük a testtömegüket. Az adatok: 80 seregély testtömege (g) 4 pihenőhelyen és két időpontban.

hely1 hely2 hely3 hely4 hely1 hely2 hely3 hely4 november 78 78 79 77 január 85 84 91 90 november 82 78 78 68 január 88 88 88 87 november 88 85 73 75 január 86 91 90 85 november 87 81 80 70 január 95 96 92 81 november 88 78 79 74 január 100 86 87 84 november 83 81 78 84 január 87 87 96 86 november 81 81 75 80 január 98 93 84 82 november 80 82 83 75 január 86 87 83 80 november 80 76 77 76 január 89 94 86 90 november 89 74 84 75 január 94 96 85 77

Mind a pihenőhely, mind az időpont szempontjából szignifikáns a differencia, de a két hatás kölcsönhatása nem szignifikáns.

ser2<-read.csv2('ser_2u_ANOVA.csv',header=TRUE)

mod2<-aov(tomeg~honap*hely,data=ser3)

anova(mod2)

Analysis of Variance Table

Response: tomeg

Df Sum Sq Mean Sq F value Pr(>F)

honap 1 1656.20 1656.20 93.6000 1.172e-14 ***

hely 3 574.40 191.47 10.8207 5.960e-06 ***

honap:hely 3 34.20 11.40 0.6443 0.5891

Residuals 72 1274.00 17.69

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Page 106: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

106

A Tukey próba ugyanúgy számolandó, mint az egytényezős esetben:

49. ábra. A novemberi és januári testtömegek pihenőhelyenként

Többváltozós variancia analízis (MANOVA)

Időnként ugyanabban a kísérletben egyszerre két vagy több függő változót is mérnek. Minden függő változót, természetesen lehet külön-külön is elemezni, és általában ez is a tipikus eljárásmód. De vannak olyan esetek, amikor a függő változókat egy csoportban szeretnénk elemezni. Ilyenkor használják a MANOVA-t. R-ben a manova függvénnyel, de csoportosítani kell az együtt vizsgálandó függő változókat. Példa: seregélyek testtömege, hematokrit értékei és szárnyfesztávolsága, a novemberi és januári mérésekre, valamint az első és második pihenőhelyeken. Magyarázza-e az időszak és a pihenőhely a három mért célváltozó varianciáját?

TukeyHSD(mod2,which='hely')

Tukey multiple comparisons of means

95% family-wise confidence level

Fit: aov(formula = tomeg ~ honap * hely, data = ser3)

$hely

diff lwr upr p adj

hely2-hely1 -2.4 -5.89852 1.0985199 0.2798015

hely3-hely1 -3.8 -7.29852 -0.3014801 0.0279922

hely4-hely1 -7.4 -10.89852 -3.9014801 0.0000025

hely3-hely2 -1.4 -4.89852 2.0985199 0.7192372

hely4-hely2 -5.0 -8.49852 -1.5014801 0.0019153

hely4-hely3 -3.6 -7.09852 -0.1014801 0.0413250

Page 107: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

107

Variancia-kovariancia-elemzés (ANCOVA) Ha a tényezők mellett folytonos magyarázó változókat (ún. kovariánsok) is figyelembe veszünk, amelyek hatását a célváltozóra lineáris regresszióval fejezzük ki (pl. túlélési idő hogyan függ a műtét típusától, a beteg nemétől és életkorától). Ha azt gyanítjuk, hogy a kovariánstól való függés nem lineáris, akkor jobb, ha értékeit csoportosítjuk (lehetőleg szakmailag interpretálható módon!), majd ANOVA-t alkalmazunk. Az eljárást akkor is használhatjuk, ha a feladat az egyes csoportokbeli regressziós egyenesek

meredekségének összehasonlítása. A meredekségek különbözőségét az jelzi, ha a csoport × kovariáns interakció szignifikáns. Néha olyan tényezők hatása is érdekel, amelyeknek nem tudjuk, vagy nem akarjuk az összes lehetséges szintjét figyelembe venni. Ilyenek például a mérés időpontja (napszak, évszak), az élőhely földrajzi elhelyezkedése, többcentrumos vizsgálatban a vizsgálatot végző intézmény, a mérést végző személy, stb. Ekkor nem az a fontos, hogy az éppen figyelembe vett szintek (időpontok, földrajzi helyek, intézmények, személyek) között van-e és mekkora a különbség, hanem hogy ezek a különbségek összességében mennyivel járulnak hozzá a vizsgált változó varianciájához (hogy ezt a többlet-varianciát el tudjuk különíteni a véletlen hibától). Az ilyen tényezőt véletlen tényezőnek (random factor), az ilyen tényezőt tartalmazó modellt véletlen modellnek (random effect model) nevezzük, szemben az eddig megismert fix tényezővel (fix factor) és fix modellel (fixed effect model). A vegyes modellben mixed model mindkét fajta tényező szerepel.

ser3<-read.csv2('ser_MANOVA.csv',header=TRUE)

Y<-cbind(ser3$tomeg,ser3$hematokrit,ser3$szarnyFT)

mod3<-manova(Y~honap*hely,data=ser3)

summary(mod3,test="Wilks")

Df Wilks approx F num Df den Df Pr(>F)

honap 1 0.3073 25.5519 3 34 7.766e-09 ***

hely 1 0.5333 9.9189 3 34 7.639e-05 ***

honap:hely 1 0.8858 1.4607 3 34 0.2426

Residuals 36

--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Page 108: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

108

Kísérleti elrendezések

Véletlen blokkos elrendezés

Ha az a gyanúnk, hogy egy tényező nemkívánatos hatást gyakorol a célváltozó értékére, akkor ezt úgy kontrollálhatjuk, hogy teljes randomizálás helyett e tényező szerint rétegzünk és minden rétegben mindegyik kezelésből ugyanannyit allokálunk – csupán az egyes rétegeken belül randomizálunk. Így az egyes kezelésekhez tartozó átlagértékeket a tényező azonos mértékben befolyásolja. Ezt az elrendezést véletlen blokkos elrendezésnek nevezik (a rétegek a blokkok). Tegyük fel, hogy egy kísérletben 3 kezelést hasonlítunk össze és úgy számoltuk, hogy a szükséges mintaelemszám kezelésenként legalább 5 (azaz összesen 15) egyed. Technikai okok miatt az összes mérést egy nap alatt kell elvégezni. Az irodalomból tudjuk, hogy a célváltozó értéke napszak szerint változik, de az eljárás időigényes, így a mérések reggeltől estig fognak tartani. Ekkor érdemes blokkos elrendezést választani 5 blokkal (pl. reggeli, délelőtti, déli, délutáni, esti blokk), blokkonként 3 méréssel (minden kezelésbõl 1), a kezeléseket a blokkokon belül randomizálva. Teljes véletlen elrendezés (teljes randomizálás), ha nincs tudomásunk inhomogeneitásról

K1 K2 K1 K2 K1 K3 K1 K2 K2 K3 K1 K3 K3 K3 K2

reggel → este Véletlen blokkos elrendezés (blokkon belüli randomizálás), ha tudomásunk van inhomogeneitásról

K1 K2 K3 K2 K3 K1 K1 K3 K2 K3 K2 K1 K2 K1 K3

reggel → este Ha a kísérletet varianciaelemzéssel értékeljük ki, akkor blokkos elrendezés esetén a teljes négyzetösszeget az alábbi módon bontjuk fel (jelölje a kezelések számát a, a blokkokét b, és az egyszerűség kedvéért minden blokkban minden kezelésből egy ismétlés legyen): Négyzetösszeg Szabadsági fok Teljes ab-1 Kezelés hatása a-1 Blokkhatás b-1 Reziduális (a-1)(b-1) Az elrendezés garantálja, hogy a kezelés hatása és a blokk-hatás szétválasztható. Az pedig, hogy a szórásfelbontásban a blokk-hatásnak tulajdonítható szórás el van különítve a véletlen hibától, erősebb tesztet eredményez. A kiértékeléshez használt statisztikai programot általában úgy kell paraméterezni, mintha 2 tényezős elrendezést használtunk volna (az adatokat is ennek megfelelően kell bevinni, lásd lent), de a kezelés hatása és a blokkhatás közötti interakciót kizárjuk és a blokkhatás szignifikanciáját nem vizsgáljuk.

Page 109: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

109

kezelés sorszáma blokk sorszáma mért érték

1 1 25.4

2 1 20.1

3 1 19.6

2 2 21.3

3 2 18.5

1 2 22.7

1 3 21.8

... ... ...

Példa: 4 különböző színű (barna, sárga, fehér és zöld) vízcsapda hatásosságát vizsgálták légyfogás szempontjából. Egy erdőben elhelyezték a csapdákat egy rács mentén. A területnek számottevő lejtése volt. A blokkokat úgy képezték, hogy a terep meredeksége a blokkokon belül ugyanannyi legyen. 5 blokkot képeztek és a blokkokon belül véletlenszerűen, helyezték el a csapdákat. A csapdákba esett legyek száma képezi a megfigyeléseket. Gyakoriságok lévén transzformálni kellett az adatokat, hogy a varianciát stabilizálják. Minden kezelésnél (csapdánál) a mintaelemek varianciája nagyobb az átlagnál, így logaritmus transzformációt alkalmaztak.

Szignifikáns a differencia a különböző színű csapdák között, de a blokkhatás elhanyagolható. Latin négyzet elrendezés Ha nem egy, hanem 2 környezeti gradienst kell figyelembe vennünk, akkor a latin négyzet

elrendezést alkalmazhatjuk: ugyanannyi sora és oszlopa van a rácsnak, és minden kezelés egyetlen egyszer szerepel minden oszlopban és minden sorban. Mondjuk, ha az előző példában a napszak szerinti változás mellett a mért értékek függnek az egyed testsúlyától is, akkor testsúly szerint is blokkokat kell képeznünk. Mivel 3 kezelést kell összehasonlítani, mindkét szempont szerint 3 blokkot kell képeznünk, azaz összesen 9 egyeddel dolgozhatunk (ha ez a megkívánt pontossághoz kevés, akkor bonyolultabb elrendezést kell alkalmaznunk).

legy<-read.csv2('legyek.csv',header=TRUE)

loglegy<-log(legy[,3],base=10)

mod4<-aov(loglegy~szin+blokk,data=legy)

mod4<-aov(loglegy~szin+szin:blokk,data=legy)

anova(mod4)

Analysis of Variance Table

Response: loglegy

Df Sum Sq Mean Sq F value Pr(>F)

szin 3 0.76543 0.25514 6.5298 0.007233 **

szin:blokk 4 0.05114 0.01279 0.3272 0.854400

Residuals 12 0.46889 0.03907

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Page 110: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

110

Tehát a 9 egyedet 3 testsúly szerinti csoportba osztjuk (S1, S2, S3), majd a napszak szerinti blokkokba (reggel, délelőtt, délután) minden testsúly szerinti csoportból kisorsolunk egyet-egyet. Ezzel az egyedeket belesorsoltuk egy 3x3-as táblázat celláiba. Végül a cellákhoz kisorsoljuk a kezeléseket is (K1, K2, K3) úgy, hogy minden sorban és minden oszlopban minden kezelésből pontosan 1 legyen, például az alábbi táblázat szerint, vagy a sorok és oszlopok további véletlenszerű cserélgetésével.

súly napszak

S1 S2 S3

reggel K1 K3 K2

délelőtt K2 K1 K3

délután K3 K2 K1

Látható, hogy a latin négyzet elrendezés akkor kivitelezhető könnyen, ha a zavaró változók folytonosak, mert ekkor könnyen hozhatunk létre belőlük épp a kezelések számával megegyező számú kategóriát. Latin négyzet elrendezés esetén a varianciaelemzésben a teljes négyzetösszeget az alábbi módon bontjuk fel (a a kezelések száma, de ugyanennyi a sorok és az oszlopok száma is): Négyzetösszeg Szabadsági fok Teljes a2-1 Kezelés hatása a-1 Sor hatás a-1 Oszlop hatás a-1 Reziduális (a-2)(a-1) A kiértékeléshez használt statisztikai programot itt általában úgy kell paraméterezni, mintha 3 tényezős elrendezést használtunk volna, és az adatokat is ennek megfelelően kell bevinni (lásd lent). Itt is kizárjuk az interakciókat, és itt sem vizsgáljuk a sor-, illetve oszlophatás szignifikanciáját.

napszak blokk súly blokk kezelés sorsz. mért érték

1 1 1 25.0

1 2 3 20.1

1 3 2 19.6

2 1 2 21.3

2 2 1 22.5

2 3 3 22.7

3 1 3 21.8

3 2 2 18.9

3 3 1 21.8

Hierarchikus elrendezések (nested designs)

Többtényezős kísérletekben elképzelhető, hogy az egyes vizsgált tényezők szempontjából nem ugyanazok a megfigyelési egységek. Például újszülött malacok fejlődését vizsgálva - a nem és a születési súly az egyedi szinten hat, - az anya viselkedése, a szoptatás pedig az alom szintjén.

Page 111: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

111

Az ilyen kísérletet hierarchikus elrendezésűnek nevezzük, ide tartozik az osztott parcellás (split-plot,

split-unit) elrendezés. A kiértékelés olyan eljárással történik, amely figyelembe veszi, hogy a felső szinten ható kezelés (itt az anyai viselkedés) az alsó szintű megfigyelési egységeken (subplot, sub-

unit) (itt a malacok) nem randomizálható.

Több mérés ugyanazokon az egyedeken (repeated measures)

Az eddigi kísérletekben minden megfigyelési egységen egyetlen mérést végeztünk. Többféle ok miatt (de leggyakrabban az egyedek közötti jelentős különbségek miatt) szükség lehet arra, hogy minden egyes egyeden több mérést végezzünk. Az ilyen kísérleteket ismételt méréses kísérletnek (repeated measures experiment) nevezzük.

Page 112: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

112

Általánosított lineáris modellek (Generalized Linear Models)1:

Az általános lineáris modell (ismétlés)

Y = XB+U, ahol: Y a kimeneti értékeket (függő) tartalmazó mátrix, X a megfigyelt

magyarázó változók értékeit tartalmazó mátrix (design-mátrix vagy modell mátrix), B a

lineáris függvény együtthatóit, azaz a becsülendő paramétereket tartalmazza, U a véletlen

hiba, komponensei normál eloszlásúak és egymástól függetlenek.

A kővetkező számítási módszereket foglalja magába: ANOVA, MANOVA, ANCOVA,

MANCOVA, lineáris regresszió, többszörös lineáris regresszió, t-teszt, F-teszt. A hipotézis

tesztek lehetnek egyváltozósak vagy többváltozósak (egy kimeneti változó vagy több, ez

utóbbi esetben a kimeneti változók együtt tesztelendők).

Egyutas ANOVA három csoporttal és csoportonként két megfigyeléssel2. A modell mátrix

első oszlopa a konstanshoz tartozik (β0), a csoportokhoz való tartozást a bináris változók

adják meg.

1 Harnos Andrea, Rejczigel Jenő, Solymosi Norbert 2005-ös Lineáris modellek jegyzete alapján a SZIE ÁOTK-n.

2 Harnos et al. 2005 Lineáris modellek

Page 113: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

113

Többszörös lineáris regresszió két magyarázó változóval3. A modell mátrix első oszlopa a

konstanshoz tartozik (β0), elhagyásával 0-án átmenő regressziót kapnánk.

A modell-mátrix felépítése

Ha van konstans, akkor kap egy csupa 1-esből álló oszlopot. Minden faktor kap annyi

oszlopot, ahány szintje (=kezelés, csoport) van. (Ezek mind 0/1-ekből állnak: azoknál a

megfigyeléseknél van 1-es, amelyek épp azt a kezelést kapták, a többieknél 0 található.) A

kovariánsok egy-egy oszlopot kapnak, amely minden megfigyeléshez a kovariáns mért

értékét tartalmazza. A végén az oszlopok száma adja meg a modell paramétereinek számát.

Ha a modell túl sok paramétert tartalmaz (túlparaméterezett) az azért baj mert a paraméterek

becslése nem egyértelmű. Például az előbbi ANOVA-s példában a három csoportra és egy

magyarázó (csoportosító) változóra 4 paramétert (oszlopot kapunk). A megoldás: a faktor

első szintjéhez (vagy utolsóhoz) nem kell oszlopot rendelni (R-ben az első szint nem kap

oszlopot, az option() függvénnyel megváltoztatható). Ezt úgy is fel lehet fogni, hogy ezzel a

módszerrel az első szintet kinevezzük referencia-szintnek. Ekkor a konstans az első

szinthez tartozó átlag lesz, a többi paraméter, pedig azt mutatja, hogy a többi átlag

mennyivel különbözik ettől a referencia szinttől. Egy interakciókhoz úgy rendelünk

oszlopokat, hogy a benne szereplő faktorokhoz tartozó oszlopokat skalárisan

összeszorozzuk (mindegyiket mindegyikkel).

Például ha interakciók paraméterezésénél F1-hez 2, F2-höz 3 oszlop tartozik, akkor F1:F2-höz

6 oszlopot kapunk. Faktor és kovariáns közötti interakcióhoz ezzel összhangban annyi

oszlop (paraméter) tartozik, ahány a faktorhoz. A paraméterek a kovariánsnak a faktor

szintjeihez tartozó regressziós együtthatói, tehát az interakció bevétele itt is azt jelenti,

hogy feltételezzük, a kovariánsnak csoportonként más és más a hatása.

A modell-mátrix átparaméterezése:

1) Kihagyhatjuk a konstanst (ilyenkor R-ben a modellbe belekerül az első faktor utolsó

szintje) – Y ~ −1 + F1 + F2 + F3 + F1 : F2.

2) Kihagyhatjuk úgy az egyik faktort, hogy azért még bennmarad interakció formájában –

Y ~ F1 + F1 : F2.

3) Független kontrasztok használatával.

3 Harnos et al. 2005 Lineáris modellek

Page 114: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

114

A modell-mátrix felépítése – kontrasztok

A kontrasztok alkalmazása az alapesetnél finomabb elemzésekre ad lehetőséget. A

kontraszt 2 vagy több szint átlagainak lineáris kombinációja, amelyek összege 0. Egy

egyszerű kontraszt két átlag különbsége. Olyan összefüggések tárhatók így fel, amelyek sem

az egyszerű ANOVA-ból, sem az azt követő páronkénti összehasonlításokból nem fedhetők

fel. Például, hogy egytényezős 4 csoportos ANOVA-ban, az 1. és 2. csoportok átlaga (együtt)

megegyezik-e a 3. és 4. csoportok átlagával (együtt).

Az előbbiekben említett példa köntrasztja:

C1 = µ1 + µ2 − µ3 − µ4 (együtthatók: c(1,1,-1,-1))

Például nézzük valamilyen kezelés utáni vizsgálat eredményeit a kezelés után 1, 2 ill. 3

órával. Feladatunk a csoportok (várható értékek) hasonló lineáris növekedésének vagy

csökkenésének kimutatása. A feltevés így fogalmazható meg: µ1 – µ2 = µ2 – µ3; µ1 – 2µ2 +

µ3 = 0.

(R-ben: estimable(model_name,c(1,-2,1)))

A négyzetösszeg-típusok

I típus (szekvenciális, az egyes hatásokat egymás után veszi). Ez az a típus, amit a bevezető

statisztika előadáson – azonos cellánkénti esetszámokra – végig szoktak számolni. Ekkor a

teljes (a nagy átlagtól vett) négyzetösszeg szépen felbomlik az egyes faktoroknak, ill.

interakcióknak tulajdonítható részekre, és a részek összege kiadja az egészet. Ritkán

használjuk.

II típus (az azonos vagy alacsonyabb fokú hatásokat szimultán veszi). Nagyon ritkán

használják.

III típus (marginális, minden hatást szimultán vesz). Minden faktornál kontrollálja az összes

többi faktor hatását. Általában ezt használjuk (kivéve az I-nél említett néhány esetet). Nem

működik helyesen, ha vannak üres cellák.

IV típus (amikor a design-ban üres cellák is vannak („incomplete” design)). Nem igazán

sikeres, van helyette V és VI típus is.

Page 115: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

115

Az R-ben az: 1) „aov” függvény I típusú négyzetösszegekkel dolgozik; 2) az „lm” pedig III

típusúakkal (azaz nem a klasszikus négyzetösszeg-felbontással, hanem regresszióval

számol).

Incomplete (Block) Design

Tegyük fel, hogy össze akarunk hasonlítani t kezelést. N=bt vizsgálati objektumot b számú

homogén és t méretű blokkba csoportosítunk. Minden egységen (blokkon) belül random

módon osztjuk ki a t kezeléseket. A kezelések közötti eltérések felfedésének képessége függ a

blokkon belüli varinciától. A blokkon belüli variancia általában növekszik a blokk méretével.

Ha nagyobb számban (t) akarunk kezeléseket végezni, nem mindig kivitelezhető, hogy a

blokkok mérete (k) megegyezzen a kezeléstípusok számával. Ha a blokk-méret (k) kisebb

mind a kezelések száma (k < t) akkor az összes kezelés nem jelenhet meg minden blokkban.

Ezt "Incomplete Block Design"-nek nevezik.

Modellválasztás

Melyik modellt válasszuk? A legtöbb magyarázó változót tartalmazó modellt nem a

legmegfelelőbb választani, mivel növekvő becslési bizonytalansággal jár, növekszik a

kollinearitás esélye stb. Néhány egyszerű szabály: 1) a mintaelemszám legyen legalább a

változók számának ötszöröse (5 változóra min. 25 eset), 2) a mintaelemszám legyen legalább

10-zel nagyobb a változók számánál (5 változóra min. 15 eset). Tehát a legbővebb modellből

kiindulva, egyes változókat kihagyva keressük a „legjobb” modellt.

1) A legnagyobb R2: a magyarázó változók magyarázó erejétől függetlenül mindig a

legbővebb modellt szolgáltatja.

2) A legnagyobb adjusztált R2: általában már nem a legbővebb modellhez tartozik.

3) A legszűkebb, de a legbővebbtől nem szignifikánsan különböző modell: ha néhány

változót elhagyunk, akkor a reziduális négyzetösszeg megnövekszik, az elhagyott változók

együttesének szignifikanciáját egy F-próbával lehet vizsgálni.

4) Mallow féle-C: minél kisebb a C, annál jobb; egy m-változós modell elfogadható, ha C <

m + 1.

Az alábbi kritériumok általánosabb modellekben (pl. általánosított lineáris modell) is

használhatók. Az R az AIC-t használja a lépésenkénti regresszióhoz.

Page 116: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

116

5) Akaike-kritérium (AIC): minél kisebb az AIC, annál jobb.

6) Bayes-kritérium (BIC): minél kisebb az BIC, annál jobb.

A Bayes-kritérium jobban büntet, ezáltal az egyszerűbb – kevesebb paraméteres – modelleket

preferálja.

Ha a potenciális magyarázó változók száma megengedi, érdemes az összes modell

kiértékelését választani. Ha ez nem megy, akkor a szokásos módszerek: 1) egyenkénti

beléptetés (forward selection), 2) egyenkénti kihagyás (backward selection), 3) váltakozó

beléptetés-kihagyás (stepwise selection), 4) ezek különféle variációi (szoftver-függők).

Az általánosított lineáris modell (GLM)

Nem összetévesztendő az általános lineáris modellel! Az általános lineáris modell: Y =

XB+U, ami felírható a következő alakban is: yi ~ N(µi, σ2), µi = xi β,

– azaz a függő változó minden megfigyelésre normális eloszlást követ;

– eloszlásának egyik paramétere (µ) a magyarázó változók lineáris függvénye;

– az yi-k egymástól függetlenek.

Az általánosított lineáris modell: yi ~ G(Θi), h(Θi) = xi β,

– ahol a függő változó minden megfigyelésre egy bizonyos G eloszlást követ, amely nem

feltétlenül normális (lehet binomiális, Poisson, gamma, stb. - az "exponenciális

eloszláscsalád"-ból való),

– a G eloszlás egyik paraméterének, Θ-nak egy h(Θ) függvénye a magyarázó változók lineáris

függvénye (a konkrét h(·) függvények később).

– az yi-k egymástól függetlenek.

yi ~ G(Θi), h(Θi) = xi β,

A [h(·)] függvény, az úgynevezett „link függvény”.

A [h(·)] invertálható, általában monoton.

Az xi β pedig a „lineáris prediktor”.

Az általános lineáris modelltől való eltérések:

1) a lineáris prediktor, xi β nem a függő változó átlagát adja,

2) a véletlen komponens nem feltétlenül normális.

A GLM link függvényei és eloszlásai

1) normális eloszlás, link függvény: identitás.

Page 117: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

117

2) binominális eloszlás, link függvény: logit.

3) binominális eloszlás, link függvény: probit.

4) Poisson eloszlás, link függvény: logaritmus.

5) gamma eloszlás, link függvény: reciprok.

A GLM tulajdonságai:1) a véletlen komponens az exponenciális eloszláscsaládból való:

binomiális, Poisson, gamma, stb. (nem föltétlenül normális!)

2) a lineáris prediktor a függő változó várható értékének egy monoton függvényét határozza

meg (nem az átlagot!).

3) a függő változó varianciája az átlagának egy függvénye, pl. binomiálisra V=p(1-p) (nem

konstans!).

4) az ML becslés és a LS becslés különböző (nem egyforma!)

5) a részmodell tesztelésére aszimptotikus tesztek alkalmazhatók (az LR (Likelihood Ratio)

teszt khi-négyzet vagy F) (nem F!)

A logisztikus regresszió (logit modell)4

Ha a kimeneti változó két lehetséges értéket vehet fel (0 vagy 1; túlélés vagy elhalálozás;

siker vagy kudarc stb.). Ilyenkor azt feltételezzük, hogy a magyarázó változó(k) a kimenetel

valószínűségét határozzák meg, ezért a függő változó az esemény bekövetkezésének

valószínűsége lesz. A logisztikus regresszió alapja, hogy a valószínűség helyett inkább egy, a

valószínűséggel egyenértékű mérőszám alkalmazandó, mely értékei nem a [0,1] intervallumra

korlátozódnak. Tehát, a modell binomiális eloszlású függő változó esetében használatos. A

logit transzformáció megfelelteti a [0,1] intervallumot a [-∞,∞]-el.

logit(Y) = ln(Y / 1-Y)

Valósz. 0 0.001 0.01 0.1 0.25 0.5 0.75

logit -∞ -6.907 -4.595 -2.197 -1.099 0 1.099

4 Reiczigel Jenő, 2008.01.18. ftp://www.univet.hu/biostat/kisterv/eloadas/2%20F%F3li%E1k-Reiczigel-2%20%28log%20regr%29.pdf

Page 118: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

118

x. ábra. A logit modell függvénye: x tengely a valószínűség, y tengely a logit.

A regressziós egyenlet: logit(y) = β0 + β1 X1 + β1 X2 + … + ε

Figyelem: a magyarázó változó lehet folytonos vagy dichotóm; ha 0 és 1 értékeket vehet fel,

akkor a 0 a referencia, az 1 pedig a vizsgált csoport. Ha a magyarázó változó diszkrét és

kettőnél több osztálya van, akkor az osztályok száma – 1 (k-1) magyarázó változót készítünk.

Az első esetben a becsült együttható megmutatja, hogy miként befolyásolja, ha befolyásolja a

magyarázó változó a kimenetit változót (β > 0: növeli; β < 0: csökkenti; β = 0: nem

befolyásolja). A második esetben a becsült együtthatók a kimenetek bekövetkezésének

esélyéről tájékoztat az első kimenetel esethez viszonyítva. A regressziós együtthatóból

kiszámítható az esélyhányados (odds ratio vagy OR): OR = eβ.

Az esélyhányados jelentése: 1) ha az X magyarázó változó folytonos, akkor azt mutatja meg,

hogy az X-nek egy egységgel való növekedése hányszorosára növeli az Y bekövetkezésének

átlagos esélyét („odds”-át). 2) ha az X változó két lehetséges értéket vehet fel, akkor azt

mutatja, hogy az Y bekövetkezésének esélye hányszorosa a referenciacsoport esélyének. 3) ha

az X változó több mint két kategóriás: a kérdéses csoportban az Y bekövetkezésének esélye

hányszorosa a referenciacsoport esélyének.

Példa: szívbetegségek okozta elhalálozás esélye5

A modell kimeneti változója a szívbetegség általi elhalálozás kockázata, a magyarázó

változók: kor, nem és a vér koleszterol szintje. Az adatsorból kapott becslések: β0 = -5.0; β1 =

2.0; β2 = -1.0; β3 = 1.2; x1 = kor, 50 év felett; x2 = nem (férfi = 0, nő = 1); x3 = koleszterol

szint (mmol/L 5.0 felett).

5 http://en.wikipedia.org/wiki/Logistic_regression

Page 119: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

119

A modell felírható: Y = 1 / (1 + e-z), ahol z = -5.0 + 2.0 x1 – 1.0 x2 + 1.2 x3.

Az elhalálozás valószínűsége 2 egységgel növekszik minden évben 50 éves kor fölött, 1

egységgel növekszik ha az illető személy nő, 1.2 egységgel növekszik, ha a koleszterol szint 5

mmol/L fölött van.

Példa: szívbetegségek okozta elhalálozás esélye R-ben. Adattábla:

szemely infarktus2 kez.ideg retteg

1 1 1 70

2 1 1 80

3 1 1 50

4 1 0 60

5 1 0 40

6 1 0 65

7 1 0 75

8 1 0 80

9 1 0 70

10 1 0 60

11 0 1 65

12 0 1 50

13 0 1 45

14 0 1 35

15 0 1 40

16 0 1 50

17 0 0 55

18 0 0 45

19 0 0 50

20 0 0 60

> L=read.csv2('logit.csv',header=TRUE)

> mod1=glm(infarktus2~kez.ideg+retteg,

+ family=binomial('logit'),data=L)

> summary(mod1)

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -6.36347 3.21362 -1.980 0.0477 *

kez.ideg -1.02411 1.17101 -0.875 0.3818

retteg 0.11904 0.05497 2.165 0.0304 *

A modell: Y = -6.36 – 1.02 x1 + 0.11 x2, csak a második hatás szignifikáns (…).

Page 120: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

120

A Poisson regresszió

A kimeneti változó gyakorisági adatokat tartalmaz („count data”). Abból indul ki, hogy a

várható érték logaritmusa modellezhatő a becsülendő paraméterek lineáris kapcsolatával

(link függvény: logaritmus). Ha kontingencia táblázatokra alkalmazzák log-lineáris

modellnek nevezik.b Egy fontos feltétel: a kimeneti változó átlagának és varianciájának

aránya 1. A Poisson modell egy általánosított lineáris modell Poisson hibaeloszlással és

logaritmikus link függvénnyel. A modell: log(µi) = xi β vagy µi = exp(xi β), ahol µi a várható

érték, xi a magyarázó változó, β a becsült paraméter. A becsléseket tartalmazó modell: log(Y)

= β0 + β1 X1 + β2 X2 + … +βn Xn, ez felítható Y = exp(β0) × exp(β1 X1) × exp(β2 X2) ×

… × exp(βn Xn) alakban is.

Példa: császármetszéses születések és a korház típusa6. Úgy tartják, hogy a császármetszéses

szülések száma magasabb a magán, mint az állami korházakban. Egy adatsoron elemezték,

amelyben a kimeneti változó a császármetszések száma, magyarázó változók a korház típusa

és az éves születések száma a megfigyelt helyen. Kérdés: magyarázza-e a császármetszéses

szülések számát a korház típusa (magán vs. állami)?

Adattábla: 0 = magán; 1 = állami

Szuletes KorhazTip Csaszarm 236 0 8 739 1 16 970 1 15 2371 1 23 309 1 5 679 1 13 26 0 4

1272 1 19 3246 1 33 1904 1 19 357 1 10 1080 1 16 1027 1 22 28 0 2

2507 1 22 138 0 2 502 1 18 1501 1 21 2750 1 24

192 1 9 6 http://www.oxfordjournals.org/our_journals/tropej/online/ma_chap13.pdf

Page 121: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

121

> C=read.csv2('csasz.csv',header=TRUE)

> mod1=glm(Csaszarm~Szuletes+KorhazTip,

+ family=poisson('log'), data=C)

> summary(mod1)

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 1.351e+00 2.501e-01 5.402 6.58e-08 ***

Szuletes 3.261e-04 6.032e-05 5.406 6.45e-08 ***

KorhazTip 1.045e+00 2.729e-01 3.830 0.000128 ***

A születések éves száma és a korház típusa is szignifigánsan hozzájárul a császármetszéses

születések magyarázatához. A modell: log(Császárm) = 1.351 + 0.00033 Szuletes + 1.045

KorházTip. A modellt alkalmazva a császármetszéses születések száma az állami

korházakban magasabb mint a magánkorházkban.

> ize=function(x1,x2)

+ { exp(1.351)*exp(0.00033*x1)*exp(1.045*x2) }

> mean(ize(C$Szuletes,1))

[1] 16.61567

> mean(ize(C$Szuletes,0))

[1] 5.843595

A Poisson regresszió

Példa: császármetszéses születések és a korház típusa

Page 122: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

122

A negatív binomiális regresszió

Ha a kimeneti változó eloszlása negatív binomiális akkor kell alkalmazni.

R-ben a függvény a MASS csomagban található:

> glm.nb(formula, data, ..., link = log)

A gamma regresszió

Ha a kimeneti változó eloszlása gamma akkor kell alkalmazni.

R-ben a függvény:

> glm(formula, data, family = Gamma(link = "inverse"))

Page 123: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

123

Többváltozós módszerek

Többváltozós probléma: ha egy objektum n változóval jellemezhető (pl. egy terület n faja), akkor ez úgy is felfogható, mintha az adott objektumot egy n dimenziós térben ábrázolnánk. Ez az értelmezés elvileg lehetővé tenné több objektum szimultán összehasonlítását egy n dimenziós térben. Valójában ez kivitelezhetetlen.

50. ábra

A megoldást az ordinációk jelentik, amelyek az n valós dimenzióknak a csökkentésére törekszenek oly módon, hogy az ábrázolandó objektumhalmaz strukturális tulajdonságai (pl. hasonlósági viszonyaik) a lehető legkevésbé torzuljanak. A dimenzióredukció révén az első néhány tengelyre tömörül az objektumhalmazban rejlő információ tekintélyes hányada, s ily módon lehetővé válhat az objektumok immár 2-3 dimenzióban való ábrázolása viszonylag kismértékű torzulással. Ordinációnak nevezünk minden olyan eljárást, amelyben a dimenzionalitás csökkentése az eredeti struktúrát többé-kevésbé jól tükröző mesterséges változók bevezetésével történik (mesterséges változók: faktor, komponens, kanonikus tengely, stb.) Vektorváltozót (X) képez több egyszerre vizsgált változó. Példa. Verebek a viharban:

> bumpus<-read.csv2('bumpus.csv',header=TRUE)

> bumpus<-bumpus[,4:12]

>

> bumpus

Length Wingspan Weight HeadLength Humerus Femur Tibiotarsus

1 165 240 26.5 31.0 18.7 17.9 27.8

2 160 245 26.1 32.0 18.7 18.0 28.2

3 161 249 25.6 32.3 18.9 18.2 28.7

4 162 246 25.9 32.3 18.7 18.0 28.8

5 163 250 25.5 32.5 19.1 18.6 30.4

15 161 243 25.6 32.5 18.0 18.0 28.5

16 161 244 25.0 31.3 17.8 17.4 27.5

17 162 248 24.6 31.0 18.1 18.0 27.6

18 164 244 25.0 31.2 17.9 17.5 27.3

19 158 247 26.0 32.0 18.5 18.0 29.1

20 162 253 28.3 31.8 19.1 18.2 29.3

Page 124: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

124

Gyakran nem az eredeti, hanem a standardizált adatokból indulunk ki. Ez azt jelenti, hogy az adatokat nulla átlagúra és egységnyi szórásúra alakítjuk. A standardizálás úgy történik, hogy a változó minden egyes értékeiből levonjuk az értékek átlagát, majd a különbségeket osztjuk az értékek

szórásával, ennek képlete: ij j

ij

j

x - xz =

s, ahol xij a j-edik változó i-edik eleme, jx a j-edik változó

átlaga és sj a j-edik változó szórása. Majd kiszámítjuk a kovariancia mátrixot és a korrelációs mátrixot. A korrelációs mátrixot a kovariancia mátrix standardizálásával lehet kiszámítani. Van egy jellemzője egy objektumnak (I), amit mérni szeretnénk. Ezt két változó segítségével tesszük:

1

2

XI =

X.

A két változó kovarianciáját 1 2cov(X ,X ) -vel jelöljük. A kovarianciát a várható értékkel határozzuk

meg:

∑N

1 1 2 2i=1

1 2

(X - μ )(X - μ )

cov(X ,X ) =N - 1

,

ahol X1 és X2 a két változó, míg a μ1 és a μ2 az X1 és az X2 a változók átlaga, N pedig a mintaelemszám.

Definíció szerint a kovariancia szimmetrikus, vagyis: 1 2 2 1cov(X ,X ) = cov(X ,X ) . A kovariancia másik

tulajdonsága, hogy egy változó önmagával vett kovarianciája egyenlő a változó varianciájával, vagyis:

1 1 1cov(X ,X ) = var(X ) . Ha mindezt egy kissé általánosabban szeretnénk felírni több változóra, akkor

azt a következőképpen tehetjük meg: ha van egy X jelenség, amelyet X1, X2, … Xp változókkal mérünk, akkor

1

2

p

X

XI(X) =

...

X

Ekkor két tetszőleges változó (Xi és Xj) kovarianciáját a következőképpen írhatjuk fel:

∑N

i i j ji=1

i j

(X - μ )(X - μ )

cov(X ,X ) =N - 1

A kovarianciát röviden cij-vel jelöljük, a kovariancia mátrix:

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

=

211 12 1p1 1 2 1 n

221 22 2p2 1 2 2 n

2p1 p2 ppn 1 n 2 n

c c cσ X cov X ,X cov X ,X

c c ccov X ,X σ X cov X ,XC(X) =

c c ccov X ,X cov X ,X σ X

LL

LL

L L O LL L O L

LL

.

Ha adottak az Xi és Xj komponensek, akkor a köztük lévő korrelációt cor(Xi,Xj), röviden rij-vel jelöljük. A

korrelációs értékek kiszámítása: i j

i j

i j

cov(X ,X )cor(X ,X ) =

σ σ, ahol a σi és σj az Xi és Xj változók standard

szórásai.

Page 125: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

125

A korreláció kiszámításának képletéből következik, hogy értéke -1 és 1 közé esik. A korreláció örökli a kovariancia szimmetrikus tulajdonságát, vagyis cor(Xi, Xj)=cor(Xj, Xi). Ezen kívül cor(Xi, Xi)=1, vagyis egy változó tökéletesen együtt változik saját magával, azonos irányban. Ha pedig két változó teljesen független egymástól, akkor korrelációs értékük nulla. A -1-es korrelációs érték is tökéletes együttváltozásra utal, ekkor a változás iránya ellentétes: az egyik változó értékeinek csökkenése a másik változó értékeinek a növekedését vonja maga után. Ahogyan a kovarianciánál láthattuk, a korrelációs értékeket is megjeleníthetjük egy mátrix segítségével. A korrelációs mátrix:

( )

( )( )

( )

1 2

2 1

n 1

1 R X ,X …

R X ,X 1 …R X =

R X ,X 1

L L O

Sajátérték, sajátvektor

Egy λλλλ skalárt az A négyzetes mátrix sajátértékének nevezzük, ha létezik olyan v nem nulla vektor,

amelyre Av = λλλλv. Egy v nem nulla vektort az A négyzetes mátrix sajátvektorának nevezzük, ha létezik

olyan λλλλ skalár, amelyre Av = λλλλv. Mátrix egyenlet formában: Av = λλλλv, vagy (A – λλλλI)v = 0. Ahol I az n×n-

es egységmátrix, 0 pedig az n dimenziós csupa nulla vektor. λλλλ a mátrix sajátértéke, v pedig a sajátvektora. A sajátértékek összege az A mátrix nyoma, vagy spúrja. Példa

Tekintsünk egy 2×2-es mátrixot:

7 -1A=

6 2. Ennek sajátvektora

1

3, sajátértéke: 4.

7 -1 1 7 × 1 + (-1) × 3 4 1= = = 4

6 2 3 6 × 1 + 2 × 3 12 3, ahol

1

1v =

3.

De

7 -1 1 7 × 1+ (-1) × 2 5 1= = = 5

6 2 2 6 × 1+ 2 × 2 10 2, ahol

2

1v =

2.

Tehát az A mátrix egyik sajátértéke 1λ = 4 , a másik 2λ = 5 , míg az egyik sajátvektora

1

1v =

3, a

másik

2

1v =

2.

A sajátértékek és sajátvektorok kiszámítása

A det(A – λI) polinomot, illetve a det(A – λI) = 0 egyenletet az A mátrix karakterisztikus

polinomjának, illetve karakterisztikus egyenletének nevezik. Ez utóbbi megoldásával kapjuk meg a

sajátértékeket. A sajátértékeket visszahelyettesítve a (A – λI)v = 0 egyenletbe kiszámíthatjuk a sajátvektorokat. Példa

5 -2A =

6 -2. Számítsuk ki az A sajátértékeit és sajátvektorait.

Page 126: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

126

5 -2 1 0P(λ) = det - λ = 0

6 -2 0 1.

=

5 -2 λ 0 5 - λ -2-

6 -2 0 λ 6 -2 - λ;

5 - λ -2det = 0

6 -2 - λ

2

21 2

(5 - λ) × (-2 - λ) - (-2 × 6) = 0

-10 - 5λ + 2λ + λ + 12 = 0

λ - 3λ + 2 = 0 λ = 2,λ = 1, ahol

1

2

1

2

1 2

1 2

1 2

1 2

x5 -2 1 0- 1 = 0

x6 -2 0 1

x4 -2= 0

x6 -3

4x - 2x = 0

6x - 3x = 0

4x = 2x

x = (1/2)x

a λ1=1 sajátértékhez tartozó egyik sajátvektor:

1

1/2v =

1

1

2

1

2

1 2

1 2

1 2

1 2

x5 -2 1 0- 2 = 0

x6 -2 0 1

x3 -2= 0

x6 -4

3x - 2x = 0

6x - 4x = 0

3x = 2x

x = (2/3)x

a λ2=2 sajátértékhez tartozó egyik sajátvektor:

2

2/3v =

1

Többváltozós távolságok

Többváltozós távolságok az egyedi megfigyelések, minták, illetve populációk közötti távolságok. Egyedi megfigyelések közti távolságok:

Legegyszerűbb eset: n egyeden p változót mérünk: 1 2 pX , X ,..., X ,

Az i-edik egyed mért értékei: i1 i2 ipx , x , ..., x ,

A j-edik egyed mért értékei: j1 j2 jpx , x , ..., x .

Page 127: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

127

Ha p=2, akkor a két pont távolságát a Pitagorasz tétel alapján számíthatjuk:

( ) ( )2 2

ij i1 j1 i2 j2d x x x x= − + − . Több változó esetére is működik: ( )p

2

ij ik jkk 1

d x x=

= −∑ . Ez az

Euklideszi távolság.

Ha egy változó sokkal variabilisebb a többinél, akkor az dominálja a távolságot, ezért ilyenkor standardizálást végzünk. Távolságok populációk és minták között

A Mahalanobis távolság a kovariancia mátrixot használja: ( ) ( )p p

2 rsij ri rj si sj

r 1 s 1

D v= =

= µ − µ µ − µ∑∑ , ahol

rsv a kovariancia mátrix inverzének az r-edik sorában és s-edik oszlopában álló eleme; i, j populációk, minták; μ populációs átlag. Használható egy egyednek a populáció középpontjától mért távolságának

mérésére is: ( ) ( )p p

2 rsij r r s s

r 1 s 1

D x v x= =

= − µ − µ∑∑ , ahol az egyeden mért értékek: 1 2 px , x , ..., x és a

megfelelő populációs átlagok: 1 2 p, , ...,µ µ µ .

A D2 úgy tekinthető, mint az x megfigyelés többváltozós reziduálisa, azaz, hogy milyen messze van x az összes változó eloszlásának középpontjától. Figyelembe veszi a változók közti korrelációt is. Ha a

populáció többváltozós normális eloszlást követ, akkor D2, χ2 eloszlású p szabadsági fokkal. Ha D2 értéke szignifikánsan nagy, akkor a megfigyelésünk vagy hibás, vagy egy szélsőséges megfigyelés. A populáció átlagokat és a kovariancia mátrixot a mintából becsülhetjük.

Példa. Hermon Bumpus – verebek a viharban: 1989. február 1.-én Rhode Island-en egy nagy vihar után 136 haldokló verebet vittek be a Brown Egyetem biológiai laboratóriumába. Ezek után a madaraknak kb. a fele elpusztult, és Hermon Bumpus ezt egy jó alkalomnak találta a természetes szelekció hatásának vizsgálatára. A madarak 5 testmérete sorrendben: teljes hossz, szárny fesztávolság, csőr és fejhossz, felkar hossz, szegycsont hossza. Milyen kérdéseket lehet feltenni?

(1). Milyen kapcsolatban vannak egymással a mért változók? (2). Túlélők, nem túlélők átlagai, szórásai különböznek-e? (variancia-analízis, F-próba, Levene-próba) (3). Ha a túlélők és nem túlélők különböznek a mért változók eloszlásai szempontjából, akkor lehetséges-e konstruálni egy olyan függvényét ezeknek a változóknak, amely szétválasztja a két csoportot. Ha ez nagy a túlélőkre és kicsi a nem túlélőkre, akkor ez lehetne a darwini fitnesszre egy index. Mire használhatjuk a többváltozós módszereket?

Felfedezés: hány mintát és hány változót mérjünk; használható változók keresése. Vizualizáció: komplex adathalmazok ábrázolása. Egyszerűsítés: dimenziószám csökkentése, komplexitás minimalizálása. Mintázat keresés: szignifikáns változók illetve változó csoportok beazonosításaminták közötti kapcsolatok felderítése. Függőség: mi befolyásolja a mintát; a függőség mérése a változók között (korreláció, regresszió). Klasszifikáció: minta szomszédjainak megtalálása, minták hozzárendelése populációkhoz. Csoportosítás és asszociáció: minták csoportosítása, hierarchiák felépítése. Diszkrimináció: populációk közötti változatosság beazonosítása. Kiugró értékek: abnormális minták és változók beazonosítása.

Page 128: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

128

Adatredukció (1). Főkomponens analízis (PCA)

A legelterjedtebb és egyike a legismertebb ordinációs módszereknek. Előbb Pearson (1901) dolgozta ki a módszert, majd Hotelling (1933, 1936) tökéletesítette. A létrehozott új tengelyek a főkomponensek. A főkomponens analízisben először a legnagyobb variancia-hányadot lefedő főkomponenst keressük ki, ezt követően a megmaradó varianciát legjobban magyarázó másodikat, s így tovább. A keletkező főkomponensek száma nem föltétlenül kevesebb, mint az eredeti változók száma, de fontosságuk alapján rangsorolhatók, és a rangsor végén levők, csekély információhányaduk miatt elhanyagolhatók. Az átrendezhetőség hátterében a változók közötti pozitív vagy negatív lineáris korrelációk állnak. Ez a komponensekre már nem igaz, közöttük a korreláció 0. Következésképpen, ha az eredeti változók eleve korrelálatlanok, akkor a főkomponens analízis nem eredményez lényeges változást.

Célunk az, hogy ha van p változónk: 1 2 pX , X ,..., X keressük meg ezeknek olyan 1 2 pZ , Z ,..., Z

kombinációit (főkomponenseket), amelyek nem korreláltak. A korrelálatlanság azt jelenti, hogy az új változók az adatok különböző “dimenzióit” mérik. Azt reméljük, hogy a legtöbb főkomponens szórása olyan kicsi, hogy elhanyagolható, így az adatokban meglévő változatosság néhány főkomponenssel jól leírható. Ha az eredeti változók egyáltalán nem korreláltak, az analízis semmit nem javít. A legjobb eredményt nagyon korrelált változók esetén kapjuk. Az adatok:

Egyed 1X 2X ....

px

1 11x 12x ...

1px

2 21x 22x ...

2px

M

n n1x n2x

npx

A főkomponensek:

i i1 1 i2 2 ip pZ a X a X ... a X= + + + / a – sajátvektorok együtthatói;

2 2 2i1 i2 ipa a ... a 1+ + + = és ( ) ( ) ( )1 2 pZ Z ... Zσ ≥ σ ≥ ≥ σ ; σ – kovariancia mátrix sajátérték.

A főkomponensek varianciái az adatok kovariancia mátrixának sajátértékei ( iλ ), az együtthatói pedig

a megfelelő sajátértékhez tartozó sajátvektor együtthatói.

Ha a kovarianciamátrix:

11 12 1p

21 22 2p

p1 p2 pp

c c c

c c cC

c c c

=

L

L

M M O M

L

, akkor ( ) ( ) ( )

1 2 p 11 22 pp

2 2 21 2 p

... c c ... c

X X ... X .

λ + λ + + λ = + + + =

σ + σ + + σ

Célszerű az adatokat standardizálni az analízis előtt. Ekkor a kovariancia mátrix megegyezik korrelációs mátrixszal. Az első tengelyek (komponensek) csökkenő sorrendben tartalmazzák a ponthalmazra vonatkozó információ (pl. variancia) legnagyobb hányadát.

Page 129: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

129

Egy tengely által összesített információ-mennyiséget általában a tengely sajátértékének (eigenvalue) nevezzük.

51. ábra. A szaggatott egyenesek az új tengelyeket – a főkomponenseket ábrázolják. a). az első

főkomponens (PC1) a variancia nagyobb részét magyarázza, mint a második; b). mindkét főkomponens a variancia ugyanakkora hányadát magyarázza.

Objektumok és változók együttes ordinációja: „biplot”. Az objektumok változók alapján, illetve a változók objektumok alapján való ábrázolása: kettős szórásdiagram (biplot). A változókat képviselő pontokra nyilak mutatnak. A két különböző skálát egyeztetni kell. A nyilak hossza és iránya informatív. PCA-típusok

(1) Standardizált: ha a változókat eltérő skálán mérjük, akkor szinte kötelező, azonos alapra hozza őket – átlag, szórás, variancia használata, pl. elosztjuk a nyers adatokat a hozzájuk tartozó szórással. (2) Centrált: minden értékből kivonjuk az adott változó átlagértékét (3) Nem-centrált PCA: a vátlozók K kereszt-szorzat mátrixából indul ki – diverzitás-elemzésekre is alkalmas A főkomponens analízis lépései:

1. Első lépésként standardizáljuk az X1,X2,...,Xp változókat úgy, hogy átlaguk nulla, varianciájuk egységnyi legyen. Ez az általános, de bizonyos esetekben elhagyható. 2. Számítsuk ki a C kovariancia mátrixot. Ha az 1. lépést elvégeztük, akkor ez egy korrelációs mátrix. 3. Keressük meg λ1,λ2,..., λp sajátértékeket, és a hozzájuk tartozó a1,a2,...,ap sajátvektorokat. Az i-edik főkomponens együtthatóját ai adja meg, míg λi a varianciája. 4. Hagyjuk figyelmen kívül azokat a főkomponenseket, amelyek az adatoknak csak csekély arányú varianciáját magyarázzák. Például, ha kezdetben 20 változónk van, akkor előfordulhat, hogy az első három főkomponens a teljes variancia 90%-át magyarázza. Ezáltal a többi 17 főkomponenstől eltekinthetünk.

Page 130: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

130

52. ábra. Példa: verebek a viharban. Az első két főkomponens mentén a felső pár szórásdiagramon különböző színnel és jelöléssel a hím és a nőstény egyedek vannak feltüntetve. A középső és az alsó szórásdiagram-pár esetén más jellegek alapján történtek a csoportosítások. Láthatjuk, hogy az első

két főkomponens mentén a veréb egyedek nem különülnek el egy csoportosítás esetén sem.

Page 131: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

131

1. Standardizálás:

attr(,"scaled:center"): átlagok. attr(,"scaled:scale"): szórások 2. Kovariancia mátrix:

2a. Korrelációs mátrix:

> cor1<-cor(bumpus)

> cor1

Length Wingspan Weight HeadLength Humerus Femur

Length 1.00 0.69 0.59 0.47 0.50 0.46

Wingspan 0.69 1.00 0.57 0.50 0.68 0.58

Weight 0.59 0.57 1.00 0.52 0.52 0.45

HeadLength 0.47 0.50 0.52 1.00 0.62 0.62

Humerus 0.50 0.68 0.52 0.62 1.00 0.82

Femur 0.46 0.58 0.45 0.62 0.82 1.00

Tibiotarsus 0.42 0.53 0.45 0.59 0.74 0.81

SkullWidth 0.44 0.44 0.48 0.54 0.51 0.53

Sternum 0.51 0.58 0.51 0.49 0.54 0.46

> cov1<-cov(bumpus)

> cov1

Length Wingspan Weight HeadLength Humerus Femur

Length 14.15 14.25 3.25 1.25 1.10 1.06

Wingspan 14.25 30.48 4.63 1.94 2.20 1.96

Weight 3.25 4.63 2.18 0.54 0.45 0.40

HeadLength 1.25 1.94 0.54 0.49 0.26 0.27

Humerus 1.10 2.20 0.45 0.26 0.35 0.29

Femur 1.06 1.96 0.40 0.27 0.29 0.37

Tibiotarsus 1.64 3.02 0.69 0.42 0.45 0.51

SkullWidth 0.63 0.92 0.27 0.14 0.12 0.12

Sternum 1.92 3.23 0.76 0.35 0.32 0.28

> scale1<-scale(bumpus)

> scale1

Length Wingspan Weight HeadLength Humerus Femur

[1,] 1.47 -0.940 0.661 -0.818 0.185 -0.345

[2,] 0.14 -0.035 0.390 0.606 0.185 -0.182

[3,] 0.41 0.690 0.051 1.033 0.525 0.146

[4,] 0.67 0.146 0.254 1.033 0.185 -0.182

[5,] 0.94 0.871 -0.017 1.318 0.866 0.800

...

[131,] -0.92 -1.484 -1.440 -0.960 -1.006 -0.836

[132,] -0.39 -0.216 0.254 -0.248 -0.155 -0.345

[133,] -1.72 -1.303 -0.898 -1.529 -0.666 -0.182

[134,] -1.19 -1.665 -0.898 -1.814 -0.155 -0.345

[135,] 0.94 0.146 1.271 1.318 0.015 -0.018

[136,] -0.12 -1.665 -1.034 -0.106 -1.006 -0.018

attr(,"scaled:center")

Length Wingspan Weight HeadLength Humerus Femur

159 245 26 32 19 18

attr(,"scaled:scale")

Length Wingspan Weight HeadLength Humerus Femur 3.76 5.52 1.48 0.70 0.59 0.61

Page 132: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

132

3. Sajátértékek, sajátvektorok:

4. melyek azok a főkomponensek, amelyek a varianciákat legnagyobb százalékban magyarázzák?

53. ábra

A $rotation: a főkomponensek sajátvektorainak vizsgálata, azt mutatja, hogy a főkomponensekben az eredeti változók mekkora mértékben járulnak hozzá az egyes főkomponensekhez

> comp1<-prcomp(bumpus,scale.=T)

> comp1$rotation

PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8

Length -0.31 0.457 0.083 -0.458 0.134 -0.408 0.484 -0.209

Wingspan -0.35 0.262 0.344 -0.220 0.253 -0.036 -0.634 0.378

Weight -0.31 0.366 -0.230 -0.147 -0.650 0.503 -0.055 -0.074

HeadLength -0.34 -0.122 -0.295 0.306 -0.395 -0.697 -0.220 0.043

Humerus -0.38 -0.255 0.227 0.046 0.069 0.149 -0.270 -0.558

Femur -0.36 -0.414 0.144 -0.038 0.077 0.068 0.169 -0.316

Tibiotarsus -0.34 -0.453 0.166 -0.164 -0.164 0.113 0.361 0.613

SkullWidth -0.30 -0.054 -0.772 -0.051 0.518 0.176 -0.028 0.087 Sternum -0.30 0.359 0.198 0.771 0.184 0.149 0.282 0.106

> comp1<-prcomp(bumpus,scale.=T)

> plot(comp1,main='PCA - Bumpus',ylim=c(0,10)) > box()

> eigen1<-eigen(cov1)

> eigen1

$values

[1] 40.759 5.950 1.530 0.902 0.596 0.238 0.124 0.083 0.057

$vectors

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]

[1,] -0.490 0.851 0.18 0.051 0.015 0.0147 -0.004 -0.013 -0.0067

[2,] -0.842 -0.512 0.15 -0.060 0.043 -0.0119 0.022 0.011 0.0117

[3,] -0.148 0.103 -0.77 -0.561 0.241 0.0730 -0.013 -0.039 0.0297

[4,] -0.060 0.022 -0.25 0.213 -0.096 -0.8873 0.268 -0.134 0.0181

[5,] -0.063 -0.026 -0.18 0.240 -0.032 -0.0219 -0.582 -0.348 -0.6673

[6,] -0.058 -0.011 -0.20 0.345 0.017 -0.0045 -0.567 -0.076 0.7153

[7,] -0.090 -0.017 -0.39 0.674 0.212 0.3707 0.431 0.091 -0.0907

[8,] -0.029 0.016 -0.11 0.062 -0.006 -0.1771 -0.275 0.919 -0.1817 [9,] -0.097 0.011 -0.25 -0.017 -0.940 0.1940 0.079 0.029 0.0220

Page 133: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

133

A százalékos hozzájárulások:

Az első 2 főkomponens a variancia 70%-át magyarázza. Az első három főkomponens korrelációja az összes változóval:

Következtetés: az első főkomponens erős korrelációt mutat a testméret változókkal, a második főkomponens nem mutat erős korrelációt egyik változóval sem, a harmadik főkomponens is gyenge korrelációkat mutat a változókkal. Tehát a 2 csoport (túlélő, elpusztult) nem választható szét a testméretadatok alapján.

-0.2 -0.1 0.0 0.1 0.2

-0.2

-0.1

0.0

0.1

0.2

PC1

PC

2

1

2

3

4

5

6

7

8

9

1011

12

13

14

15

16

1718

19

20

21

22

2324

25

26

27

28

29

30

31

32

3334

35

36

37

38

39

4041

42

43

44

45

46

47

48

49

5051 52

53

54

55

56

5758

59

60

61

62

6364

65

66

67

68

69

70

71 72

73

74

75

76

77 78

79

80

81

82 83

84

8586

8788

89

90

91

92

93

94

9596

9798

99

100101

102

103

104

105106107

108

109

110

111

112

113

114

115

116 117118 119

120

121

122

123

124

125

126

127

128

129

130131

132

133134

135

136

-10 -5 0 5 10

-10

-50

51

0

Length

Wingspan

Weight

HeadLength

Humerus

FemurTibiotarsus

SkullWidth

Sternum

54. ábra. A biplot a verebes adatokra

(2). Faktoranalízis

A faktoranalízis alapfeladata, hogy néhány változó „együttjárásának” megfigyeléséből következtetni tudjunk bizonyos, a „háttérben” meghúzódó olyan lényeges összefüggésekre, amiket nem tudunk közvetlenül meghatározni, és amelyek magyarázzák az „együttjárásokat”. Ez egy rendkívül hatékonynak bizonyult módszer, amit a pszichológus-matematikus Spearman fejlesztett ki és aminek matematikai alapját a Pearson főkomponens-analízise adta.

> summary(comp1)

Importance of components:

PC1 PC2 PC3 PC4 PC5 PC6 PC7

Standard deviation 2.310 0.984 0.8112 0.7313 0.6730 0.6322 0.5383

Proportion of Variance 0.593 0.107 0.0731 0.0594 0.0503 0.0444 0.0322

Cumulative Proportion 0.593 0.700 0.7736 0.8330 0.8833 0.9277 0.9599

> cor(comp1$x[,1], bumpus)

Length Wingspan Weight HeadLength Humerus Femur Tibiotarsus

[1,] -0.727 -0.806 -0.727 -0.774 -0.869 -0.84 -0.79

> cor(comp1$x[,2], bumpus)

Length Wingspan Weight HeadLength Humerus Femur Tibiotarsus

[1,] 0.449 0.258 0.36 -0.120 -0.251 -0.407 -0.446

> cor(comp1$x[,3], bumpus)

Length Wingspan Weight HeadLength Humerus Femur Tibiotarsus

[1,] 0.0676 0.279 -0.187 -0.239 0.184 0.116 0.134

Page 134: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

134

A faktoranalízist sokan egyfajta művészetnek tartják. Nem annyira objektív, mint a legtöbb statisztikai eljárás. Emiatt sok statisztikus meglehetősen szkeptikus a faktoranalízissel kapcsolatban. Másrészt, a faktoranalízis széles körben elterjedt adatelemzési módszer. Ennek oka, hogy igen hasznosnak bizonyult a többváltozós adatok szerkezetének feltárásában. Számítás menete:

(1). Korrelációs mátrix kiszámítása. (2). Faktorsúlyok becslése (faktor extrakció). Pl főkomponens analízisből megtartjuk az 1-nél nagyobb sajátértékű főkomponenseket (főkomponens faktoranalízis). (3). Faktor rotációt végzünk azért, hogy a faktorok interpretálhatóbbak legyenek. A súlyok minden faktor esetén vagy nagyok vagy nagyon kicsik legyenek. (4). Faktor értékek kiszámítása a mintaegyedekre. További analízisek. (3). Kanonikus korreláció elemzés (CCA) Két változócsoport közötti kapcsolat: pl. az objektumokat jellemző fajok és az objektumokat jellemző környezeti viszonyok. Dupla főkomponens-elemzésként is felfogható. Itt nem komponenseket, hanem kanonikus változókat elemzünk, a változócsoportok kapcsolatát, pedig kanonikus korrelációk fejezik ki. Ha a megfigyelések függetlenek egymástól és a normalitás feltétele is teljesül, akkor statisztikailag is ellenőrizhető, hogy a kanonikus korreláció eltér-e a 0-tól chi2-eloszlással. (4). Korreszpondencia elemzés (CA vagy COA)

Az előző módszerek esetében az objektumok és a változók ordinációi külön-külön állítódnak elő, majd ezután, különböző „trükkök” révén vetítettük egymásra őket. A korreszpondencia elemzéssel a változók és az objektumok optimális egymásra illesztése egyidejűleg és közvetlen módon alakítható ki. Az eredmény a „joint plot”, ahol a változók és az objektumok közelsége informatív számunkra. Fejlesztése: kanonikus korreszpondencia elemzés (CCOA) – lásd kanonikus korreláció elemzés csak korreszpondencia változatban (5). Diszkriminancia analízis (DA)

A cél egy olyan függvény létrehozása, amely alapján az egyedek két vagy több csoportba sorolhatók (a függvény értéke lényegesen változik csoportról csoportra), hogy később a függvényt új egyedek besorolására lehessen használni (pl. verebek a viharban: a testméretek alapján besorolhatók-e a verebek a túlélők ill. nem túlélők közé). A diszkriminálás Mahalanobis távolságokkal történik. Eddig egy nagy objektumhalmazban az elemzés nyomán a posteriori csoportokat kerestünk, próbáltunk csoportosulási tendenciákat felfedezni és magyarázni a hátterükben álló csoportosító tényezőket. A DA-ben a priori csoportok megállapítása után megnézzük, hogy az objektumok valóban elkülönülnek-e (46. ábra). Szignifikancia próbával is rendelkezik amennyiben normáleloszlású az adathalmazunk és a varianciák homogének

Page 135: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

135

55. ábra

A feladat, hogy találjunk lineárisan korrelálatlan új tengelyeket oly módon, hogy ezek a lehető legjobban megmagyarázzák a csoportok közötti különbségeket és ne a csoporton belüli varianciát maximalizálják (47. ábra). Vagyis nem a teljes varianciát, hanem a csoportok közötti varianciát maximalizálja. A tengelyek: diszkrimináns súlyok vagy kanonikus változók.

56. ábra

Technikák: non-spherizing – csoporton belüli variancia túlhangsúlyozása spherizing – csoporton belüli variancia nem hangsúlyozódik túl Bartlett-féle teszt: a csoportok közötti elkülönülés a különböző tengelyek mentén – chi2-teszt, kérdés: n számú tengely esetén, hány x tengely eltávolítása (figyelembe nem vétele) esetén marad meg a csoportok szignifikáns elválása. Az első (legtöbb információt hordozó) tengely eltávolításával kezdjük, majd visszafele haladunk.

Wilks-féle lambda (λ) – determináns hányados: min: 0 – a csoport centroidok maximális elválás max: 1 – a csoport centroidok statisztikailag megkülönböztethetetlenek

Page 136: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

136

Structure coefficients vagy loadings (súlyok): a kanonikus változók (tengelyek) és az eredeti változók közötti korrelációk – a csoportok elválásával legjobban korreláló változók kiválasztására jó. F-értékek (varianciahányadosok – lásd ANOVA): a csoportok közötti és a csoporton belüli variancia hányadosa változónként tesztelhető. Kommunalitás: változónként – minél közelebb van 1-hez, annál jobbak a csoportkülönbségek magyarázásában. Számítás menete: 1. Előzetesen besoroljuk az egyedeket m csoportba. 2. Kiszámítjuk az egyedek Mahalanobis távolságát a csoportcentrumoktól, és abba soroljuk be, amelyhez a legközelebb van.

A lineáris diszkriminancia függvény: 1 1 2 2 p pZ a X a X ... a X= + + +

Ha Z értéke jelentősen változik csoportról csoportra, akkor a csoportok jól szeparálhatók. Több függvény is konstruálható. A függvény úgy vetíti le a csoportokat egy alacsonyabb dimenziós térbe, hogy azok eloszlásai a legkisebb mértékben fedjék át egymást. Példa. verebek a viharban:

> da1<-lda(bumpus[2:9], Age, data=bumpus)

> da1

Call:

lda(bumpus[2:9], Age, data = bumpus)

Prior probabilities of groups:

1 2 3

0.3602941 0.2058824 0.4338235

Group means:

Length Wingspan Weight HeadLength Humerus Femur

1 157.9796 241.3265 25.02857 31.45918 18.46939 18.08163

2 160.3929 247.2857 25.82500 31.64286 18.70357 18.18571 3 160.2542 247.4068 25.79492 31.63729 18.63898 18.10000

> bumpus2<-read.csv2('bumpus_sparrow_data_coded.csv',header=TRUE)

> bumpus1<-bumpus2[,4:12]

> Age<-bumpus2$Age

> bumpus<-cbind(Age,bumpus1)

> bumpus

Age Length Wingspan Weight HeadLength Humerus Femur

1 3 165 240 26.5 31.0 18.7 17.9

2 3 160 245 26.1 32.0 18.7 18.0

3 3 161 249 25.6 32.3 18.9 18.2

4 3 162 246 25.9 32.3 18.7 18.0

5 3 163 250 25.5 32.5 19.1 18.6

...

130 1 157 235 25.5 31.5 18.1 17.9

131 1 156 237 23.4 30.9 18.0 17.6

132 1 158 244 25.9 31.4 18.5 17.9

133 1 153 238 24.2 30.5 18.2 18.0

134 1 155 236 24.2 30.3 18.5 17.9

Page 137: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

137

Az alábbi cellában a lineáris diszkriminancia függvények együtthatóit láthatjuk.

57. ábra. A két kanonikus változón nem különülnek el a verebek korosztályok szerint.

Példa. Három Iris faj elkülönülése sziromméretek alapján.

> data(iris3)

> Iris <- data.frame(rbind(iris3[,,1], iris3[,,2], iris3[,,3]),

+ Sp = rep(c("s","c","v"), rep(50,3)))

> Iris

Sepal.L. Sepal.W. Petal.L. Petal.W. Sp

1 5.1 3.5 1.4 0.2 s

2 4.9 3.0 1.4 0.2 s

3 4.7 3.2 1.3 0.2 s

4 4.6 3.1 1.5 0.2 s

5 5.0 3.6 1.4 0.2 s

...

51 7.0 3.2 4.7 1.4 c

52 6.4 3.2 4.5 1.5 c

53 6.9 3.1 4.9 1.5 c

54 5.5 2.3 4.0 1.3 c

55 6.5 2.8 4.6 1.5 c

Coefficients of linear discriminants:

LD1 LD2

Length -0.04867835 -0.0848965651

Wingspan 0.30300988 -0.0006176173

Weight 0.09537081 0.0048470397

HeadLength 0.18123675 0.9653669517

Humerus -0.11104602 -0.4631298103

Femur -0.30241403 0.1448816273

Tibiotarsus -0.79095039 -0.8969544008

SkullWidth -0.35296888 -0.2966010539

Proportion of trace:

LD1 LD2 0.9915 0.0085

Page 138: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

138

58. ábra. Az első kanonikus változón jól elkülönülnek az Iris fajok, míg a másodikon nem.

> da2<-lda(Iris[,1:4], Iris$Sp, data=Iris)

> da2

Call:

lda(Iris[, 1:4], Iris$Sp, data = Iris)

Prior probabilities of groups:

c s v

0.3333333 0.3333333 0.3333333

Group means:

Sepal.L. Sepal.W. Petal.L. Petal.W.

c 5.936 2.770 4.260 1.326

s 5.006 3.428 1.462 0.246

v 6.588 2.974 5.552 2.026

Coefficients of linear discriminants:

LD1 LD2

Sepal.L. -0.8293776 0.02410215

Sepal.W. -1.5344731 2.16452123

Petal.L. 2.2012117 -0.93192121

Petal.W. 2.8104603 2.83918785

Proportion of trace:

LD1 LD2

0.9912 0.0088

...

101 6.3 3.3 6.0 2.5 v

102 5.8 2.7 5.1 1.9 v

103 7.1 3.0 5.9 2.1 v

104 6.3 2.9 5.6 1.8 v 105 6.5 3.0 5.8 2.2 v

Page 139: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

139

Klaszteranalízis

Van egy n egyedből álló mintánk, amelynek minden egyedén p számú változó értékét mérjük. Egy csoportosítási sémát keresünk, amely a „hasonló” objektumokat egy csoportba sorolja. A csoportok száma (általában) nem ismert. Az algoritmusok két típusát különböztetjük meg: (1). Hierarhikus technikák – dendogramot produkálnak. Lépések: (1.1). Egyedek egymástól való távolságának kiszámítása. (1.2). Csoportokat létrehozása vagy összevonással, vagy felosztással. Az összevonás esetén először minden objektumot külön csoportba sorolunk és azután a legközelebbieket fokozatosan egyesítjük. A felosztó módszerek esetén, először egy csoportba soroljuk az összes objektumot, majd először ketté osztjuk, majd a ketté osztottakat is tovább osztjuk egészen addíg, amíg minden egyed külön csoportot alkot. (2). Másik típusa esetén az egyedek be is kerülhetnek egy csoportba és ki is kerülhetnek onnan (k-

means clustering). Előre meg kell határozni, hogy hány csoportunk legyen. Összevonási technikák (linkage methods): (A). Egyszerű lánc módszer (nearest neighbor): két osztály távolságát az egymáshoz legközelebb eső, de nem egy osztályba tartozó elemeik távolságaként határozzuk meg. Ha a csoportok közt nincs éles elválás, akkor nem működik jól, viszont ha élesen elhatárolódnak, akkor nagyon effektív. (B). Teljes lánc módszer (furthest neighbor): két csoport távolságát legtávolabbi elemeik távolsága adja meg. Jól működik nem elhatárolódó, de erős kohéziójú csoportok esetén. (C). Csoportátlag módszer (between-groups linkage): az előző két módszer közötti átmenet. A két csoport távolsága elemeik páronkénti távolságainak átlaga osztva a két csoport elemszámával. Jól működik akkor is, ha azt várjuk, hogy a csoportok elemszáma nagyon különböző lesz. (D). Egyszerű átlag módszer (within-groups linkage): ugyanaz, mint az előző, de nem veszi figyelembe az csoportok elemszámát. (E). Centoid módszer (centroid clustering): két csoport távolságát a súlypontjaik távolsága adja meg. (F). Medián módszer (median clustering): ugyanaz, mint az előző, de figyelembe veszi a csoportok elemszámát is. Ha várhatóan nagyok az elemszámokban a különbségek, akkor az előzőhöz képest ezt célszerű használni. (G). Ward módszer (Ward’s method): a csoportokon belüli varianciát minimalizálja. Nagyon effektív, de kis elemszámú csoportok létrehozására hajlamos módszer. Az objektumok közötti távolságok mérésének néhány módszere (a képletekben az xik az egyik, az xjk a másik objektumot jelöli, melyek között a d távolságot számítjuk ki): (A) Az euklideszi távolság: az egyik legismertebb és legelterjedtebb távolságmérő eljárás.

Alapelve a Pitagorasz-tételen alapul: p

2ij ik jk

k 1

d (x y )=

= +∑ .

Page 140: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

140

(B). Az abszolút eltérés: más néven Manhattan vagy „city block” (háztömb) távolságnak is nevezik. Hasonlít az euklideszi távolságra, ám a négyzet, illetve a négyzetgyök helyett itt a távolságok abszolút

értékét vesszük: p

ij ik jkk 1

d x y=

= +∑ .

(C). A Pearson-távolság: ez a távolságmérő módszer is az euklideszi távolságból indul ki, ám az egyes

objektumok közötti távolságokat standardizáljuk is: p

2 2ij ik jk k

k 1

d (x y ) / s=

= +∑ .

(D). A négyzetes euklideszi távolság: ahogy a neve is mutatja, ez is az euklideszi távolságon alapul,

annak a négyzete: ij

p2 2

ik jkk 1

d (x y )=

= +∑ .

(E). A négyzetes Pearson-távolság: a Pearson-távolság négyzete: ij

p2 2 2

ik jk kk 1

d (x y ) / s=

= +∑ .

Az egyes objektumok közötti távolságokat rendszerint egy távolságmátrixban reprezentáljuk. A hasonlóság és a távolság egymással ellentétes fogalmak. Példa: Egy enyhén (T), közepesen (K) és erősen (E) zavart erdős területen futóbogarakat csapdáztak. Elkülönül-e a három terület a futóbogarak egyedszámai alapján?

A távolság mátrix Euklideszi távolságokkal:

> dtcarab<-dist(t.carab, method = "euclidean")

> dtcarab

T1 T2 T3 T4 K1 K2 K3 K4 E1 E2 E3 E4

T1 0.00000

T2 36.76955 0.00000

T3 64.73021 52.95281 0.00000

T4 79.37254 84.77028 54.24021 0.00000

K1 225.96902 227.71913 225.03333 227.35435 0.00000

K2 153.01961 154.93547 186.72172 205.51642 161.26066 0.00000

K3 226.97357 229.97174 275.47232 301.68692 298.59839 146.82643 0.00000

K4 168.58529 156.18899 179.85828 209.93570 190.47047 95.38344 183.70629 0.00000

E1 141.50618 150.87081 111.50785 68.07349 250.53942 259.77875 361.65315 263.59628 0.00000

E2 141.75331 150.99007 113.22544 69.48381 250.94222 259.19298 360.88087 262.90112 19.44222 0.00000

E3 138.28594 148.01013 111.06305 65.76473 249.55761 256.25378 357.68701 261.12449 17.46425 18.57418 0.00000

E4 141.60862 150.92051 113.62658 69.33253 251.21107 259.31448 361.04293 264.03030 20.22375 16.76305 16.00000 0.00000

> carab<-read.csv2('carabidae.csv',header=T,row.names=1)

> carab

T1 T2 T3 T4 K1 K2 K3 K4 E1 E2 E3 E4

Abax car. 0 0 0 0 0 0 0 0 3 3 10 9

A. parallelep. 1 1 0 0 34 5 1 1 0 0 0 0

A. parallelus 23 23 47 24 40 14 15 43 35 30 27 27

A. schuep. 1 1 2 0 7 0 1 0 0 0 0 0

...

Pterostichus hung. 1 2 4 2 218 116 56 102 0 0 0 0

P. niger 5 11 2 8 0 1 1 7 0 0 0 0

P. oblon. 125 115 71 50 99 203 331 164 0 1 4 1 Trechus quadr. 0 1 0 0 0 0 0 0 1 0 1 1

Page 141: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

141

A távolság mátrix Bray-Curtis távolságokkal:

Hierarhikus klaszterezés, az összevonás csoportátlag módszerrel:

59. ábra. A három erdőtípus jól elkülönűl a csapdázott futóbogár fajok egyedszámai alapján. Az

erősen zavart erdős területek távolabb állnak a kevésbé és közepesen zavart erdős területektől, mint ezek egymástól.

> clust.dtcarab<-hclust(dtcarab, method = "average", members=NULL)

> clust.dtcarab

Call:

hclust(d = dtcarab, method = "average", members = NULL)

Cluster method : average

Distance : bray Number of objects: 12

> dtcarab<-vegdist(t.carab, method="bray")

> dtcarab

T1 T2 T3 T4 K1 K2 K3 K4 E1 E2 E3

T2 0.1562500

T3 0.2796935 0.1963636

T4 0.3013699 0.3133047 0.2961165

K1 0.5122549 0.4763033 0.4987342 0.5694051

K2 0.4211151 0.3777268 0.4932681 0.6098226 0.3357336

K3 0.4674033 0.4319400 0.5472127 0.6528302 0.5140665 0.2316667

K4 0.4598870 0.4107338 0.4924331 0.6232258 0.4015611 0.2237288 0.2882448

E1 0.8263473 0.8618785 0.7662338 0.7678571 0.8737542 0.9427663 0.9392185 0.8718331

E2 0.8342857 0.8571429 0.7901235 0.7583333 0.8867314 0.9410853 0.9377652 0.8660844 0.3823529

E3 0.8140845 0.8381201 0.7933131 0.7387755 0.8908507 0.9353846 0.9325843 0.8786127 0.4326241 0.3503185

E4 0.8543417 0.8701299 0.8308157 0.7975709 0.9008000 0.9447853 0.9467787 0.8818444 0.4545455 0.3584906 0.3292683

Page 142: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

142

Példa: Különböző emlős fajok fogainak alakja alapján próbálunk csoportokat létrehozni. A csoportokat alkotó fajok és az emlősök rendszertana megegyezik-e?

Távolság mátrix:

> dfogak<-dist(fogak, method = "euclidean")

> dfogak

... Puma Medvefoka Oroszlanfoka Szurkefoka Elefantfoka Renszarvas Vapiti Oz

Medvefoka 2.449490

Oroszlanfoka 2.449490 0.000000

Szurkefoka 2.000000 2.000000 2.000000

Elefantfoka 3.162278 1.414214 1.414214 2.449490

Renszarvas 4.472136 4.898979 4.898979 4.000000 4.898979

Vapiti 4.472136 4.898979 4.898979 4.000000 4.898979 0.000000

Oz 4.582576 5.000000 5.000000 4.123106 5.000000 1.000000 1.000000

Javorszarvas 4.582576 5.000000 5.000000 4.123106 5.000000 1.000000 1.000000 0.000000

> fogak<-read.csv2('fogak.csv',header=T,row.names=1)

> fogak

v1 v2 v3 v4 v5 v6 v7 v8

Barna hosszufulu denever 2 3 1 1 3 3 3 3

Vakondok 3 2 1 0 3 3 3 3

Szurke hosszufulu denever 2 3 1 1 2 3 3 3

Torpe denever 2 3 1 1 2 2 3 3

Csonkafulu denever 2 3 1 1 1 2 3 3

Voros denever 1 3 1 1 2 2 3 3

Pika 2 1 0 0 2 2 3 3

Nyul 2 1 0 0 3 2 3 3

Hod 1 1 0 0 2 1 3 3

Amerikai mormota 1 1 0 0 2 1 3 3

Szurkemokus 1 1 0 0 1 1 3 3

Hazieger 1 1 0 0 0 0 3 3

Tarajos sul 1 1 0 0 1 1 3 3

Farkas 3 3 1 1 4 4 2 3

Medve 3 3 1 1 4 4 2 3

Mosomedve 3 3 1 1 4 4 3 2

Nyest 3 3 1 1 4 4 1 2

Menyet 3 3 1 1 3 3 1 2

Rozsomak 3 3 1 1 4 4 1 2

Borz 3 3 1 1 3 3 1 2

Vidra 3 3 1 1 4 3 1 2

Tengeri vidra 3 2 1 1 3 3 1 2

Jaguar 3 3 1 1 3 2 1 1

Puma 3 3 1 1 3 2 1 1

Medvefoka 3 2 1 1 4 4 1 1

Oroszlanfoka 3 2 1 1 4 4 1 1

Szurkefoka 3 2 1 1 3 3 2 2

Elefantfoka 2 1 1 1 4 4 1 1

Renszarvas 0 4 1 0 3 3 3 3

Vapiti 0 4 1 0 3 3 3 3

Oz 0 4 0 0 3 3 3 3

Javorszarvas 0 4 0 0 3 3 3 3

Page 143: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

143

60. ábra

K-középpontú klaszteranalízis

A K-középpontú klaszteranalízissel is a vizsgált elemek klaszterbe történő besorolását végezhetjük el. A módszer főbb lépései a következők: 1. Megadjuk a kezdeti klaszterek számát 2. Az elemeket besoroljuk a hozzájuk legközelebb eső klaszterbe 3. Meghatározzuk a klasztercentroidokat 4. Az elemeket átsoroljuk úgy, hogy az elemek és a centroidok közötti távolságok csökkenjenek. 5. A 3-4. lépést addig ismételjük, amíg a klaszterek állandósulnak. Nézzük meg a K-középpontú klaszteranalízist egy példán keresztül. A táblázat 10 parazitoid darázs morfometriai adatait tartalmazza.

> clust.dfogak<-hclust(dfogak, method = "average", members=NULL)

> clust.dfogak

Call:

hclust(d = dfogak, method = "average", members = NULL)

Cluster method : average

Distance : euclidean

Number of objects: 32

> plot(clust.dfogak,hang=-1,ylab='Távolság',lwd=2,xlab="Fajok")

Page 144: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

144

A táblázatban szerepel a darazsak sorszáma, 3 morfológiai jellemzőjük (EszH – első szárny-hossz; hlszH – hátulsó lábszár-hossz; csbH – csáp-bunkó hossz) és egy intuitívan felállított csoportosítás (sp). Klaszteranalízissel megvizsgálhatjuk, hogy van-e valamilyen tipikus együttjárása a különböző egyedeknek és morfológiai jellegzetességeiknek. Első lépésként a klaszterek kezdeti számát kell meghatároznunk. A csoportok akkor jók statisztikai szempontból, ha a csoporton belüli variancia minimális, míg a csoportok közötti variancia maximális. Ezek hányadosát ábrázolhatjuk a lehetséges klaszterek számának a függvényében, és ahol éles törést látunk a görbén, az ahhoz tartozó klaszterszámot érdemes elfogadnunk. Az R parancssor:

61. ábra. Láthatjuk, hogy a kettes értéknél van éles törés a görbén, ez alapján a kétklaszteres

megoldással érdemes dolgoznunk.

> darazs<-read.csv2('darazs.csv',header=T,row.names=1)

> darazs

sp EszH hlszH csbH

1 A1 1.20 0.70 0.20

2 A1 1.15 0.65 0.19

3 A1 1.40 0.84 0.15

4 A1 1.22 0.70 0.15

5 A2 2.30 1.40 0.25

6 A2 1.78 1.30 0.24

7 A2 1.50 1.40 0.27

8 A2 2.10 1.60 0.30

9 A3 1.01 0.40 0.10

10 A3 0.90 0.37 0.09

n<-length(darazs$EszH)

wss.1<-(n-1)*sum(apply(darazs[,2:4],2,var))

wss<-numeric(0)

for(i in 2:6){W<-sum(kmeans(darazs[,2:4],i)$withinss)

wss<-c(wss,W)}

wss<-c(wss.1,wss)

plot(1:6,wss,type="l",xlab="Csoportok száma", ylab="Csoporton belüli négyzetösszegek",lwd=2)

Page 145: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

145

Futtassuk le a k-középpontú klaszteranalízist úgy, hogy két klasztert kérünk. A „kmeans” a k-középpontú klaszterelemzés parancsa, a „darazs” paraméter az elemzéshez használt adatokat adja meg, míg a 2-es érték a kívánt klaszterek számát jelöli.

Az első sor („K-means clustering with 2 clusters of sizes 4, 6”) arról ad információt, hogy kétklaszteres megoldásunk van, melyek mérete 4, illetve 6 elemszám. Hogy az egyes elemek melyik klaszterbe esnek, arról a „Clustering vector” ad információt. Az első sor az egyes elemeket, a második pedig a csoporttagságot mutatja. Ez alapján az első klasztert az ötös, hatos, hetes, és a nyolcas elem alkotja. A többi elem a második klaszterbe került. A „Cluster means” az egyes klaszterek átlagos tagjának, centroidjának a jellemzőit mutatják. Az első klaszter átlagos tagja 1.92 mm szárnyhossz, 1.42 hátusó lábszárhossz és 0.265 csápbunkó hossz adatokkal rendelkezik. A második klaszter átlagos tagja 1.15 mm szárnyhossz, 0.61 hátusó lábszárhossz és 0.147 csápbunkó hossz adatokkal rendelkezik. A „Within cluster sum of squares by cluster” értékei a klaszteren belüli eltérések négyzetösszegét mutatja. Végül érdemes a klasztertagságokat („Clustering vector”) az adatbázishoz is hozzáadni. Ezt követően az új, csoporttagságot jelző változó további elemzések kiindulópontja lehet (például diszkriminancia-analízis).

csoporttagsag<-kközép$cluster

cbind(darazs[,2:4],csoporttagsag)

EszH hlszH csbH csoporttagsag

1 1.20 0.70 0.20 2

2 1.15 0.65 0.19 2

3 1.40 0.84 0.15 2

4 1.22 0.70 0.15 2

5 2.30 1.40 0.25 1

6 1.78 1.30 0.24 1

7 1.50 1.40 0.27 1

8 2.10 1.60 0.30 1

9 1.01 0.40 0.10 2

10 0.90 0.37 0.09 2

kközép<-kmeans(darazs[,2:4],2)

print(kközép, digits=3)

K-means clustering with 2 clusters of sizes 4, 6

Cluster means:

EszH hlszH csbH

1 1.92 1.42 0.265

2 1.15 0.61 0.147

Clustering vector:

1 2 3 4 5 6 7 8 9 10

2 2 2 2 1 1 1 1 2 2

Within cluster sum of squares by cluster:

[1] 0.422 0.334

Available components:

[1] "cluster" "centers" "withinss" "size"

Page 146: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

146

Fajdiverzitás mérésére használatos statisztikák

A biodiverzitás (biológiai diverzitás) fogalma az élet komplexitását ragadja meg. Az élővilág sokfélesége számos módon megnyilvánul és rengeteg elemmel rendelkezik. Ezek az elemek három csoportra oszthatóak: genetikai diverzitás, egyedi sokféleség és ökológiai,

közösségi szintű és tájléptékű sokféleség. A genetikai diverzitás esetén a nukleotidok, a gének és a kromoszómák diszkrétek, könnyen felismerhető és összehasonlítható egységek. Amikor feljebb lépünk az egyedek és populációk szintjére a dolgok nem adódnak ilyen közvetlenül és tisztán, ami olyan bonyodalmak megjelenését eredményezi, mint a klonális szervezetek vagy a populációk térbeli elhatárolása. A közösségek esetén a közösséget alkotó fajok diverzitása összetett, komplex kérdés. A diverzitás változása érzékenyen és komplexen mutatja az ökológiai folyamatokat. A közösségi szintű diverzitás mérésének módszerei: – legegyszerűbb a fajok számának használata. – fejlettebb eszközöket jelentenek a diverzitási mutatók. – majd a klasszikus diverzitási statisztikák, amelyek a közösségek abundancia-dominancia struktúráját is figyelembe veszik. – a diverzitás skálafüggő jellemzésére szolgáló módszerek. A legegyszerűbb diverzitási mutató: a fajszám (S) A fajszám függ az egyedszámtól (N) is, mert ha például egy egységnyi területen egy fajunk nagy egyedszámmal fordul elő, más fajokat esetleg kiszoríthat, ezért kézenfekvőbb az S/N használata. Azokat a statisztikákat, amelyek a fajszámot és az egyedszámot, valamint a fajszámot és a terület nagyságát használják diverzitási mutatóknak nevezzük. Ha egy vagy több faj nagy egyedszámban fordul elő a mintában, esetenként igen kicsi értékek adódhatnak. Ezért praktikusabb logN-el vagy √N-el osztani a fajszámot. Gyakran adódik olyan helyzet, hogy a fajokat előfordulási gyakoriság (p) szerint rendezzük.

A relatív gyakoriság: ii

np

N= , ahol ni az i-edik faj egyedszáma, N az összes egyedek száma.

Példa: az alábbi egyedszámokkal fordulnak elő növényfajok egy 1 m2-es kvadrátban: 8, 244, 1, 2, 3, 4, 23, 2, 6, 3, 2. A relatív gyakorisági értékek: p1 = 8 / 298 = 0.026, p2 = 244 / 298 = 0.818, stb.

Természetesen n

ii 1

p 1=

=∑ .

Page 147: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

147

Diverzitási függvények

Azok a diverzitás függvények, amelyek a közösségek abundancia-dominancia struktúráján alapulnak. Két leggyakrabban használt: Shannon és kvadratikus (Simpson) diverzitás.

(1). Shannon-diverzitás: S

i ii 1

HS p logp=

= −∑ , ahol pi a minta i-edik fajának relatív gyakorisága, S a

közösség fajszáma. A számolás során 2, e és 10-es alapú logaritmus egyaránt használatos.

(2). Kvadratikus- vagy Simpson-diverzitás: S

2i

i 1

HQ 1 p=

= −∑ , ahol pi az i faj relatív gyakorisága.

Úgy is értelmezhető, mint annak a valószínűsége, hogy két random módon választott egyed külön fajhoz tartozik.

(3). Brillouin-diverzitás: 1 2 S

1 N!HB log

N n ! n ! ... n !=

⋅ ⋅ ⋅, ahol

S

ii 1

N n=

=∑ az összes egyedek száma, ni az

i-edik faj egyedszáma. Ezt a diverzitási függvényt kisebb minták, vagy véges, összes egyedében leszámlált közösség esetében szokták használni.

(4). McIntosh-diverzitás:

S2i

i 1

N n

DMN N

=

=−

∑, viszonylag ritkán használják.

(5). Berger-Parker-diverzitás: [ ] [ ]1 1

1 NDBP

p n= = , ahol p[1] a közösség leggyakoribb fajának relatív

gyakorisága, n[1] a közösség leggyakoribb fajának egyedszáma. Az eredmény nem függ a ritka fajok által előidézett mintavételi hibáktól, de nem tükrözi megfelelően a közösség abundancia struktúráját.

(6). A DPTS-diverzitás: S

1 1i 1

DPTS (1 p ) log(1 p )=

= − − −∑ , nagyon hasonlít a Shannon függvényre, de

erőteljesen hangsúlyozza a domináns fajok szerepét, tehát ez nem a ritka fajokra (mint a HS), hanem a gyakori fajokra érzékeny. (7). Az RTS-diverzitás azt adja meg, hogy a közösség első j faja milyen mértékben dominálja a

közösséget: [ ] [ ] [ ]j 1 j SRTS( j) p p ... p⋅

= + + + .

Page 148: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

148

Példa: 1. közösség: 33 29 28 5 5 2. közösség: 42 30 10 8 5 5 Számoljuk ki a Shannon-, Simpson-diverzitásokat!

Diverzitási rendezések Egy közösség diverzitásához milyen mértékben járulnak hozzá a különböző dominanciájú csoportok? Diverzitási rendezések a közösségek diverzitásának skálafüggő összevetését teszik lehetővé. Ez esetben a skálázás elsősorban a közösség abundancia-dominancia struktúrájára vonatkozik. Azaz egy skálaparaméternek a változtatásával vizsgálhatjuk, hogy a közösség összdiverzitásának kialakításához mekkora a hozzájárulása a ritka, a viszonylag gyakori vagy mondjuk a tömeges fajoknak. A végeredmény egy diverzitási profil, nem index. Egy közösséget diverzebbnek nevezünk a másiknál, ha diverzitási profilja a másik közösség diverzitási profilja fölött fut a skálaparaméter teljes tartományán. Amennyiben a közösségek diverzitásprofiljai metszik egymást, akkor a közösségek nem rangsorolhatók diverzitásuk szempontjából. Példa: döntsük el az alábbi abundancia vektorok alapján, hogy diverzitásuk alapján rendezhetők-e: nA=(5, 12, 27, 4, 7, 10, 2); nB=(10, 19, 3, 11, 25, 8).

α = 0: fajszám: A – S = 7, logS = 0.84; B: S = 6, logS = 0.77.

α → ∞: 1 / p[1]: A – 1 / p[1] = 2.48, log(1 / p[1]) = 0.39, B – 1 / p[1] = 3.04, log(1 / p[1]) = 0.48,

> e.koz<-c(33,29,28,5,5)

> m.koz<-c(42,30,10,8,5,5)

> library(vegan)

> diversity(t(e.koz),index="shannon", base=10)

[1] 0.5996937

> diversity(t(m.koz),index="shannon", base=10)

[1] 0.6329547

> diversity(t(e.koz),index="simpson", base=10)

[1] 0.7236

> diversity(t(m.koz),index="simpson", base=10) [1] 0.7122

Page 149: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

149

A közösségek nem rendezhetők diverzitásuk szerint sorba, mert a két közösség profilja metszi egymást. A Rényi-féle diverzitási rendezés a legelsőként publikált egyparaméteres diverzitási függvénycsalád

Rényi-féle általánosított entrópia: ( )

ii 1

log p

HR α1 α

=

=

∑, ahol α ≥ 0, α ≠ 0, és α a skálaparméter, ha

α = 0, akkor logS, ha α → 1, akkor Shannon, ha α = 2, akkor Simpson. Kis skálaparaméter értékeknél a ritka fajoknak van hatása. Nagy skálaparaméter értékeknél a gyakori fajok hatása érvényesül. Példa: rajzoljuk fel két közösség Rényi-féle diverzitási profilját; nA=(33, 29, 28, 5, 5); nB=(42, 30, 10, 8, 5, 5).

A1<-c(33,29,28,5,5)

B1<-c(42,30,10,8,5,5)

alpha<-c(0,0.5,1,2,3)

HRA0<-log(length(A1))

HRA0.5<-(log(sum((A1/sum(A1))^0.5)))/(1-0.5)

HRA1<-diversity(t(A1),index="shannon", base=2.71)

HRA2<-(log(sum((A1/sum(A1))^2)))/(1-2)

HRA3<-(log(sum((A1/sum(A1))^3)))/(1-3)

HRA_all<-c(HRA0,HRA0.5,HRA1,HRA2,HRA3)

HRB0<-log(length(B1))

HRB0.5<-(log(sum((B1/sum(B1))^0.5)))/(1-0.5)

HRB1<-diversity(t(B1),index="shannon", base=2.71)

HRB2<-(log(sum((B1/sum(B1))^2)))/(1-2)

HRB3<-(log(sum((B1/sum(B1))^3)))/(1-3)

HRB_all<-c(HRB0,HRB0.5,HRB1,HRB2,HRB3)

plot(alpha,HRA_all,type='p',pch=16,cex=2,xlim=c(0,3),

ylim=c(1.1,1.9),ylab='Rényi diverzitás',

xlab='skálaparaméter',cex.lab=1.5)

lines(alpha,HRA_all)

points(alpha,HRB_all,pch=17,cex=2)

lines(alpha,HRB_all)

Page 150: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

150

Diszperziós modellek

Arra keresik a választ, hogy az élő organizmusok hogyan szóródnak a természetben, hogyan viszonyulnak egymáshoz és a környezetükhöz. 3 féle diszperzió típus van: (1). szabályos (2). véletlenszerű (random) (3). csoportos Gyakran teljesen nyilvánvaló hogy az egyedek milyen diszperziós típusba tartoznak. Például egyes madarak fészkei nagyon szabályosan helyezkedhetnek el: szula, csér. Vagy a gerinctelen állatok (rovarok, puhatestűek) petéiket egy helyre teszik le, így nagyon csoportos az elhelyezkedésük. Gyakran nem nyilvánvaló a diszperzió típusa, főleg nem véletlenszerű elhelyezkedés esetén. A statisztika módszerei: (1). segítenek objektív véleményt alkotni a diszperziós modellről. (2). elegendően nagy számú mintavételi egység esetén meghatározható a valószínűségi eloszlás típusa és paraméterei is. A diszperiós index (ID)

A diszperziós modellt az adatok varianciája határozza meg: ha a gyakorisági adatok varianciája (1).

kicsi ⇒ szabályos, (2). közepes ⇒ véletlenszerű, (3). nagy ⇒ csoportos elhelyezkedést gyaníthatunk. Véletlenszerű elhelyezkedés esetén Poisson eloszlásról besz élünk (μ = σ2). Becslése a mintából:

≈ 2x s ⇒ ≈2s /x 1 . A diszperziós index: 2s /x ; (1). szabályos elhelyezkedés esetén: 2s /x < 1 , (2).

véletlenszerű elhelyezkedés esetén: ≈2s /x 1 , (3). csoportos elhelyezkedés esetén: 2s /x > 1 .

Page 151: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

151

Objektív mód a különböző elhelyezkedések megítélésére: kritikus értékek az 2s /x hányadosra.

( )2

2 sχ = n - 1

x, 95%-os biztonsággal eldönthető (df = n - 1).

1. példa

Egy olajfinomító közelében, egy az olajszennyeződést figyelő program keretében évente vizsgálják a

tengeri tapadókagylók sűrűségét. A mintavételi egységek 20×20 cm-es kvadrátok. A minta 20 egységből áll. A kérdés, hogy a kagylók szabályosan helyezkednek-e el? A megfigyelések:

11 6 8 9 9 10 7 8 7 7

9 8 10 7 8 8 9 11 9 8

Megoldás R-ben: >K=c(11, 6, 8, 9, 9, 10, 7, 8, 7, 7, 9, 8, 10, 7, 8, 8, 9, 11, 9, 8) >var(K)/mean(K) [1] 0.2176892 > >chisq=(var(K)/mean(K))*(length(K)-1) > > chisq [1] 4.136095 Ha a χ2 érték nem tér el szignifikánsan a megfelelő szabadsági fokú és valószínűségű χ2 eloszlású kritikus értéktől szabályos elhelyezkedésről beszélhetünk. A táblázatbeli χ2=30.14, mivel az általunk kapott érték kisebb a kritikus értéknél szabályos elhelyezkedésről van szó. 2. példa

Milyen mintázatot mutat annak a gyakorisága, hogy egy virágra a méhek 1 perces idő intervallumokban hányszor szállnak rá? Az adatok:

4 6 3 3 9 4 6 2 5 2

Megoldás R-ben: > M=c(4, 6, 3, 3, 9, 4, 6, 2, 5, 2) > var(M)/mean(M) [1] 1.070707 Mivel a variancia és az átlag aránya 1-hez közeli véletlenszerűnek tekinthető. > chisq=(var(M)/mean(M))*(length(M)-1) > chisq [1] 9.636364

Page 152: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

152

Ha a χ2 érték nem tér el szignifikánsan a megfelelő szabadsági fokú és valószínűségű χ2 eloszlású kritikus értéktől véletlenszerű elhelyezkedésről beszélhetünk. A táblázatbeli χ2=16.91, mivel az általunk kapott érték kisebb a kritikus értéknél véletlenszerű elhelyezkedésről van szó. 3. példa.

Egy biológus az orchideák szóródását figyeli egy természetvédelmi területen lévő mezőn. 5

véletlenszerűen elhelyezkedő 1×1 m-es kvadrátban számlálja a virágokat. Milyen térbeli szóródást mutatnak a virágok? Az adatok:

3 5 4 10 17

Megoldás R-ben: > V=c(3, 5, 4, 10, 17) > var(V)/mean(V) [1] 4.320513 Mivel a variancia és az átlag aránya 1-nél nagyobb csoportosnak tekinthető. > chisq=(var(V)/mean(V))*(length(V)-1) > chisq [1] 17.28205 Ha a χ2 érték nem tér el szignifikánsan a megfelelő szabadsági fokú és valószínűségű χ2 eloszlású kritikus értéktől csoportos elhelyezkedésről beszélhetünk. A táblázatbeli χ2=19.67, mivel az általunk kapott érték kisebb a kritikus értéknél csoportos elhelyezkedésről van szó. A diszperziós modell kiválasztása 30-nál nagyobb elemszámok esetén

Ha a diszperziós index:

(1). szabályos elhelyezkedésre utal ⇒ binomiális modellt,

(2). véletlenszerű elhelyezkedésre utal ⇒ Poisson modellt,

(3). csoportos elhelyezkedésre utal ⇒ negatív binomiális modellt választunk. Utána ábrázoljuk a megfigyelt és a modellből számolt gyakoriságokat (hisztogram). Ellenőrizzük illeszkedésvizsgálattal a modell jóságát. 4. példa.

Művészméhek lárváinak egyedszámait figyelték jukkák virágzatainak száraiban. A következő adatsort kapták:

Lárvák 0 1 2 3 4 5 6 7 8 9 10

Szárak 114 25 15 10 6 5 2 1 1 0 1

Page 153: László Zoltán: Biostatisztika Egyetemi Jegyzet

STATISZTIKA jegyzet (2010-2011, 2. félév)

153

Mivel a minta elemszámunk 30-nál sokkal nagyobb (Nszárak=180) kiszámoljuk a várt gyakoriságokat különböző (az előbbiekben felsorolt) modellek segítségével és megvizsgáljuk, hogy melyikhez

(Poisson…) illeszkednek a legjobban a megfigyelt gyakoriságok. A Poisson modell: x -μP(x) = (μ e )/x! .

Miután kiszámoltuk a Poisson valószínűségeket, kiszámítjuk a várt gyakoriságokat, amellyel összehasonlítjuk a megfigyelt gyakoriságokat. A Poisson modellben μ az átlag, az x a csoportok száma (most egyedcsoportok száma). Így a valószínűségek a következők lesznek: > x=c(0,1,2,3,4,5,6,7,8,9,10) > Fx=c(114,25,15,10,6,5,2,1,1,0,1) >mMeh=sum(x*Fx)/sum(Fx) [1] 0.95 Tehát az átlag μ=0.95. A valószínűségek: > P0=((0.95^0)*(exp(-0.95)))/factorial(0) > P1=((0.95^1)*(exp(-0.95)))/factorial(1) > P2=((0.95^2)*(exp(-0.95)))/factorial(2) > P3=((0.95^3)*(exp(-0.95)))/factorial(3) Mivel a 3-nál több egyed gyakoriságai nagyon alacsonyak, a fennmaradó csoportok kumulatív valószínűsége igen kicsi, így belőlük egy csoportot hozunk létre. Ez lesz a P4ossz csoport, amelynek a valószínűsége a következő: > P4ossz=1-0.984 A talált egyedek 98.4 százaléka az első 4 csoportban tömörül. A várt gyakoriságok: > N=180 > P=c(P0,P1,P2,P3,P4ossz) > Ex=N*P > Ex [1] 69.81547 66.32470 31.50423 9.97634 2.88000 A következő lépésben kiszámoljuk a várt és a megfigyelt gyakoriságok közötti eltérést: > Fxalt=c(114,25,15,10,16) > > chi=sum(((Fxalt-Ex)^2)/(Ex)) > chi [1] 122.1264 Ezek után megnézzük, hogy a χ2 táblázatbeli kritikus érték eltér-e a kapott értéktől, ha ennél nagyobb, akkor a Poisson eloszlás és a méhlárvák eloszlása szignifikánsan eltér. A χ2 táblázatban a df = 10-hez 18.30 a kritikus érték, tehát az eloszlásunk nem Poisson vagy véletlenszerű térbeli eloszlás. Ha a vizsgálatot tovább folytatjuk azt az eredményt kapjuk, hogy eloszlásunk csoportos vagy negatív binomiális.

Page 154: László Zoltán: Biostatisztika Egyetemi Jegyzet

1. Függelék: A standard normál eloszlás táblázat (z-táblázat) valószínuségei

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007-3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170-1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641

Page 155: László Zoltán: Biostatisztika Egyetemi Jegyzet

1. Függelék (folytatás): A standard normál eloszlás táblázat (z-táblázat) valószínuségei

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.83891.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.99903.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.99933.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.99953.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.99973.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998

Page 156: László Zoltán: Biostatisztika Egyetemi Jegyzet

2. Függelék: A Student-féle t eloszlás kritikus értékei:

K.sz. 0% 50% 60% 70% 80% 90% 95% 98% 99% 99.8% 99.9%egyold. 0.50 0.25 0.20 0.15 0.10 0.05 0.025 0.01 0.005 0.001 0.0005kétold. 1.00 0.50 0.40 0.30 0.20 0.10 0.05 0.02 0.01 0.002 0.001df1 0.000 1.000 1.376 1.963 3.078 6.314 12.71 31.82 63.66 318.31 636.622 0.000 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 22.327 31.5993 0.000 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 10.215 12.9244 0.000 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 7.173 8.6105 0.000 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 5.893 6.8696 0.000 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.208 5.9597 0.000 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.785 5.4088 0.000 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 4.501 5.0419 0.000 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.297 4.78110 0.000 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.144 4.58711 0.000 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.025 4.43712 0.000 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.930 4.31813 0.000 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.852 4.22114 0.000 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.787 4.14015 0.000 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.733 4.07316 0.000 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.686 4.01517 0.000 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.646 3.96518 0.000 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.610 3.92219 0.000 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.579 3.88320 0.000 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.552 3.85021 0.000 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.527 3.81922 0.000 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.505 3.79223 0.000 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.485 3.76824 0.000 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.467 3.74525 0.000 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.450 3.72526 0.000 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.435 3.70727 0.000 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.421 3.69028 0.000 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.408 3.67429 0.000 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.396 3.65930 0.000 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.385 3.64640 0.000 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.307 3.55160 0.000 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 3.232 3.46080 0.000 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 3.195 3.416100 0.000 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626 3.174 3.3901000 0.000 0.675 0.842 1.037 1.282 1.646 1.962 2.330 2.581 3.098 3.300z 0.000 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 3.090 3.291

Page 157: László Zoltán: Biostatisztika Egyetemi Jegyzet

3. Függelék: Az χ2 eloszlás kritikus értékei:

df/valósz. .995 .990 .975 .950 .900 .750 .5001 0.00004 0.00016 0.00098 0.00393 0.01579 0.10153 0.454942 0.01003 0.02010 0.05064 0.10259 0.21072 0.57536 1.386293 0.07172 0.11483 0.21580 0.35185 0.58437 1.21253 2.365974 0.20699 0.29711 0.48442 0.71072 1.06362 1.92256 3.356695 0.41174 0.55430 0.83121 1.14548 1.61031 2.67460 4.351466 0.67573 0.87209 1.23734 1.63538 2.20413 3.45460 5.348127 0.98926 1.23904 1.68987 2.16735 2.83311 4.25485 6.345818 1.34441 1.64650 2.17973 2.73264 3.48954 5.07064 7.344129 1.73493 2.08790 2.70039 3.32511 4.16816 5.89883 8.3428310 2.15586 2.55821 3.24697 3.94030 4.86518 6.73720 9.3418211 2.60322 3.05348 3.81575 4.57481 5.57778 7.58414 10.3410012 3.07382 3.57057 4.40379 5.22603 6.30380 8.43842 11.3403213 3.56503 4.10692 5.00875 5.89186 7.04150 9.29907 12.3397614 4.07467 4.66043 5.62873 6.57063 7.78953 10.16531 13.3392715 4.60092 5.22935 6.26214 7.26094 8.54676 11.03654 14.3388616 5.14221 5.81221 6.90766 7.96165 9.31224 11.91222 15.3385017 5.69722 6.40776 7.56419 8.67176 10.08519 12.79193 16.3381818 6.26480 7.01491 8.23075 9.39046 10.86494 13.67529 17.3379019 6.84397 7.63273 8.90652 10.11701 11.65091 14.56200 18.3376520 7.43384 8.26040 9.59078 10.85081 12.44261 15.45177 19.3374321 8.03365 8.89720 10.28290 11.59131 13.23960 16.34438 20.3372322 8.64272 9.54249 10.98232 12.33801 14.04149 17.23962 21.3370423 9.26042 10.19572 11.68855 13.09051 14.84796 18.13730 22.3368824 9.88623 10.85636 12.40115 13.84843 15.65868 19.03725 23.3367325 10.51965 11.52398 13.11972 14.61141 16.47341 19.93934 24.3365926 11.16024 12.19815 13.84390 15.37916 17.29188 20.84343 25.3364627 11.80759 12.87850 14.57338 16.15140 18.11390 21.74940 26.3363428 12.46134 13.56471 15.30786 16.92788 18.93924 22.65716 27.3362329 13.12115 14.25645 16.04707 17.70837 19.76774 23.56659 28.3361330 13.78672 14.95346 16.79077 18.49266 20.59923 24.47761 29.33603

Page 158: László Zoltán: Biostatisztika Egyetemi Jegyzet

3. Függelék (folytatás): Az χ2 eloszlás kritikus értékei:

df/valósz. .250 .100 .050 .025 .010 .0051 1.32330 2.70554 3.84146 5.02389 6.63490 7.879442 2.77259 4.60517 5.99146 7.37776 9.21034 10.596633 4.10834 6.25139 7.81473 9.34840 11.34487 12.838164 5.38527 7.77944 9.48773 11.14329 13.27670 14.860265 6.62568 9.23636 11.07050 12.83250 15.08627 16.749606 7.84080 10.64464 12.59159 14.44938 16.81189 18.547587 9.03715 12.01704 14.06714 16.01276 18.47531 20.277748 10.21885 13.36157 15.50731 17.53455 20.09024 21.954959 11.38875 14.68366 16.91898 19.02277 21.66599 23.5893510 12.54886 15.98718 18.30704 20.48318 23.20925 25.1881811 13.70069 17.27501 19.67514 21.92005 24.72497 26.7568512 14.84540 18.54935 21.02607 23.33666 26.21697 28.2995213 15.98391 19.81193 22.36203 24.73560 27.68825 29.8194714 17.11693 21.06414 23.68479 26.11895 29.14124 31.3193515 18.24509 22.30713 24.99579 27.48839 30.57791 32.8013216 19.36886 23.54183 26.29623 28.84535 31.99993 34.2671917 20.48868 24.76904 27.58711 30.19101 33.40866 35.7184718 21.60489 25.98942 28.86930 31.52638 34.80531 37.1564519 22.71781 27.20357 30.14353 32.85233 36.19087 38.5822620 23.82769 28.41198 31.41043 34.16961 37.56623 39.9968521 24.93478 29.61509 32.67057 35.47888 38.93217 41.4010622 26.03927 30.81328 33.92444 36.78071 40.28936 42.7956523 27.14134 32.00690 35.17246 38.07563 41.63840 44.1812824 28.24115 33.19624 36.41503 39.36408 42.97982 45.5585125 29.33885 34.38159 37.65248 40.64647 44.31410 46.9278926 30.43457 35.56317 38.88514 41.92317 45.64168 48.2898827 31.52841 36.74122 40.11327 43.19451 46.96294 49.6449228 32.62049 37.91592 41.33714 44.46079 48.27824 50.9933829 33.71091 39.08747 42.55697 45.72229 49.58788 52.3356230 34.79974 40.25602 43.77297 46.97924 50.89218 53.67196

Page 159: László Zoltán: Biostatisztika Egyetemi Jegyzet

4. Függelék: Az F eloszlás kritikus értékei (p = 0.05):

df2/df1 1 2 3 4 5 6 7 8 9 103 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.794 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6 5.965 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.746 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.1 4.067 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.648 5.32 4.46 4.07 3.84 3.69 3.58 3.5 3.44 3.39 3.359 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.1410 4.96 4.1 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.9811 4.84 3.98 3.59 3.36 3.2 3.09 3.01 2.95 2.9 2.8512 4.75 3.89 3.49 3.26 3.11 3 2.91 2.85 2.8 2.7513 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.6714 4.6 3.74 3.34 3.11 2.96 2.85 2.76 2.7 2.65 2.615 4.54 3.68 3.29 3.06 2.9 2.79 2.71 2.64 2.59 2.5416 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.4917 4.45 3.59 3.2 2.96 2.81 2.7 2.61 2.55 2.49 2.4518 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.4119 4.38 3.52 3.13 2.9 2.74 2.63 2.54 2.48 2.42 2.3820 4.35 3.49 3.1 2.87 2.71 2.6 2.51 2.45 2.39 2.3522 4.3 3.44 3.05 2.82 2.66 2.55 2.46 2.4 2.34 2.324 4.26 3.4 3.01 2.78 2.62 2.51 2.42 2.36 2.3 2.2526 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.2228 4.2 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.1930 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.1635 4.12 3.27 2.87 2.64 2.49 2.37 2.29 2.22 2.16 2.1140 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.0845 4.06 3.2 2.81 2.58 2.42 2.31 2.22 2.15 2.1 2.0550 4.03 3.18 2.79 2.56 2.4 2.29 2.2 2.13 2.07 2.0360 4 3.15 2.76 2.53 2.37 2.25 2.17 2.1 2.04 1.9970 3.98 3.13 2.74 2.5 2.35 2.23 2.14 2.07 2.02 1.9780 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 2 1.95100 3.94 3.09 2.7 2.46 2.31 2.19 2.1 2.03 1.97 1.93200 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88500 3.86 3.01 2.62 2.39 2.23 2.12 2.03 1.96 1.9 1.851000 3.85 3 2.61 2.38 2.22 2.11 2.02 1.95 1.89 1.84>1000 1.04 3 2.61 2.37 2.21 2.1 2.01 1.94 1.88 1.83

Page 160: László Zoltán: Biostatisztika Egyetemi Jegyzet

4. Függelék(folytatás): Az F eloszlás kritikus értékei (p = 0.05):

df2/df1 11 12 13 14 15 16 17 18 19 203 8.76 8.74 8.73 8.71 8.7 8.69 8.68 8.67 8.67 8.664 5.94 5.91 5.89 5.87 5.86 5.84 5.83 5.82 5.81 5.85 4.7 4.68 4.66 4.64 4.62 4.6 4.59 4.58 4.57 4.566 4.03 4 3.98 3.96 3.94 3.92 3.91 3.9 3.88 3.877 3.6 3.57 3.55 3.53 3.51 3.49 3.48 3.47 3.46 3.448 3.31 3.28 3.26 3.24 3.22 3.2 3.19 3.17 3.16 3.159 3.1 3.07 3.05 3.03 3.01 2.99 2.97 2.96 2.95 2.9410 2.94 2.91 2.89 2.86 2.85 2.83 2.81 2.8 2.79 2.7711 2.82 2.79 2.76 2.74 2.72 2.7 2.69 2.67 2.66 2.6512 2.72 2.69 2.66 2.64 2.62 2.6 2.58 2.57 2.56 2.5413 2.63 2.6 2.58 2.55 2.53 2.51 2.5 2.48 2.47 2.4614 2.57 2.53 2.51 2.48 2.46 2.44 2.43 2.41 2.4 2.3915 2.51 2.48 2.45 2.42 2.4 2.38 2.37 2.35 2.34 2.3316 2.46 2.42 2.4 2.37 2.35 2.33 2.32 2.3 2.29 2.2817 2.41 2.38 2.35 2.33 2.31 2.29 2.27 2.26 2.24 2.2318 2.37 2.34 2.31 2.29 2.27 2.25 2.23 2.22 2.2 2.1919 2.34 2.31 2.28 2.26 2.23 2.21 2.2 2.18 2.17 2.1620 2.31 2.28 2.25 2.23 2.2 2.18 2.17 2.15 2.14 2.1222 2.26 2.23 2.2 2.17 2.15 2.13 2.11 2.1 2.08 2.0724 2.22 2.18 2.15 2.13 2.11 2.09 2.07 2.05 2.04 2.0326 2.18 2.15 2.12 2.09 2.07 2.05 2.03 2.02 2 1.9928 2.15 2.12 2.09 2.06 2.04 2.02 2 1.99 1.97 1.9630 2.13 2.09 2.06 2.04 2.01 1.99 1.98 1.96 1.95 1.9335 2.08 2.04 2.01 1.99 1.96 1.94 1.92 1.91 1.89 1.8840 2.04 2 1.97 1.95 1.92 1.9 1.89 1.87 1.85 1.8445 2.01 1.97 1.94 1.92 1.89 1.87 1.86 1.84 1.82 1.8150 1.99 1.95 1.92 1.89 1.87 1.85 1.83 1.81 1.8 1.7860 1.95 1.92 1.89 1.86 1.84 1.82 1.8 1.78 1.76 1.7570 1.93 1.89 1.86 1.84 1.81 1.79 1.77 1.75 1.74 1.7280 1.91 1.88 1.84 1.82 1.79 1.77 1.75 1.73 1.72 1.7100 1.89 1.85 1.82 1.79 1.77 1.75 1.73 1.71 1.69 1.68200 1.84 1.8 1.77 1.74 1.72 1.69 1.67 1.66 1.64 1.62500 1.81 1.77 1.74 1.71 1.69 1.66 1.64 1.62 1.61 1.591000 1.8 1.76 1.73 1.7 1.68 1.65 1.63 1.61 1.6 1.58>1000 1.79 1.75 1.72 1.69 1.67 1.64 1.62 1.61 1.59 1.57

Page 161: László Zoltán: Biostatisztika Egyetemi Jegyzet

4. Függelék(folytatás): Az F eloszlás kritikus értékei (p = 0.05):

df2/df1 22 24 26 28 30 35 40 45 50 603 8.65 8.64 8.63 8.62 8.62 8.6 8.59 8.59 8.58 8.574 5.79 5.77 5.76 5.75 5.75 5.73 5.72 5.71 5.7 5.695 4.54 4.53 4.52 4.5 4.5 4.48 4.46 4.45 4.44 4.436 3.86 3.84 3.83 3.82 3.81 3.79 3.77 3.76 3.75 3.747 3.43 3.41 3.4 3.39 3.38 3.36 3.34 3.33 3.32 3.38 3.13 3.12 3.1 3.09 3.08 3.06 3.04 3.03 3.02 3.019 2.92 2.9 2.89 2.87 2.86 2.84 2.83 2.81 2.8 2.7910 2.75 2.74 2.72 2.71 2.7 2.68 2.66 2.65 2.64 2.6211 2.63 2.61 2.59 2.58 2.57 2.55 2.53 2.52 2.51 2.4912 2.52 2.51 2.49 2.48 2.47 2.44 2.43 2.41 2.4 2.3813 2.44 2.42 2.41 2.39 2.38 2.36 2.34 2.33 2.31 2.314 2.37 2.35 2.33 2.32 2.31 2.28 2.27 2.25 2.24 2.2215 2.31 2.29 2.27 2.26 2.25 2.22 2.2 2.19 2.18 2.1616 2.25 2.24 2.22 2.21 2.19 2.17 2.15 2.14 2.12 2.1117 2.21 2.19 2.17 2.16 2.15 2.12 2.1 2.09 2.08 2.0618 2.17 2.15 2.13 2.12 2.11 2.08 2.06 2.05 2.04 2.0219 2.13 2.11 2.1 2.08 2.07 2.05 2.03 2.01 2 1.9820 2.1 2.08 2.07 2.05 2.04 2.01 1.99 1.98 1.97 1.9522 2.05 2.03 2.01 2 1.98 1.96 1.94 1.92 1.91 1.8924 2 1.98 1.97 1.95 1.94 1.91 1.89 1.88 1.86 1.8426 1.97 1.95 1.93 1.91 1.9 1.87 1.85 1.84 1.82 1.828 1.93 1.91 1.9 1.88 1.87 1.84 1.82 1.8 1.79 1.7730 1.91 1.89 1.87 1.85 1.84 1.81 1.79 1.77 1.76 1.7435 1.85 1.83 1.82 1.8 1.79 1.76 1.74 1.72 1.7 1.6840 1.81 1.79 1.77 1.76 1.74 1.72 1.69 1.67 1.66 1.6445 1.78 1.76 1.74 1.73 1.71 1.68 1.66 1.64 1.63 1.650 1.76 1.74 1.72 1.7 1.69 1.66 1.63 1.61 1.6 1.5860 1.72 1.7 1.68 1.66 1.65 1.62 1.59 1.57 1.56 1.5370 1.7 1.67 1.65 1.64 1.62 1.59 1.57 1.55 1.53 1.580 1.68 1.65 1.63 1.62 1.6 1.57 1.54 1.52 1.51 1.48100 1.65 1.63 1.61 1.59 1.57 1.54 1.52 1.49 1.48 1.45200 1.6 1.57 1.55 1.53 1.52 1.48 1.46 1.43 1.41 1.39500 1.56 1.54 1.52 1.5 1.48 1.45 1.42 1.4 1.38 1.351000 1.55 1.53 1.51 1.49 1.47 1.43 1.41 1.38 1.36 1.33>1000 1.54 1.52 1.5 1.48 1.46 1.42 1.4 1.37 1.35 1.32

Page 162: László Zoltán: Biostatisztika Egyetemi Jegyzet

4. Függelék(folytatás): Az F eloszlás kritikus értékei (p = 0.05):

df2/df1 70 80 100 200 500 1000 >10003 8.57 8.56 8.55 8.54 8.53 8.53 8.544 5.68 5.67 5.66 5.65 5.64 5.63 5.635 4.42 4.42 4.41 4.39 4.37 4.37 4.366 3.73 3.72 3.71 3.69 3.68 3.67 3.677 3.29 3.29 3.27 3.25 3.24 3.23 3.238 2.99 2.99 2.97 2.95 2.94 2.93 2.939 2.78 2.77 2.76 2.73 2.72 2.71 2.7110 2.61 2.6 2.59 2.56 2.55 2.54 2.5411 2.48 2.47 2.46 2.43 2.42 2.41 2.4112 2.37 2.36 2.35 2.32 2.31 2.3 2.313 2.28 2.27 2.26 2.23 2.22 2.21 2.2114 2.21 2.2 2.19 2.16 2.14 2.14 2.1315 2.15 2.14 2.12 2.1 2.08 2.07 2.0716 2.09 2.08 2.07 2.04 2.02 2.02 2.0117 2.05 2.03 2.02 1.99 1.97 1.97 1.9618 2 1.99 1.98 1.95 1.93 1.92 1.9219 1.97 1.96 1.94 1.91 1.89 1.88 1.8820 1.93 1.92 1.91 1.88 1.86 1.85 1.8422 1.88 1.86 1.85 1.82 1.8 1.79 1.7824 1.83 1.82 1.8 1.77 1.75 1.74 1.7326 1.79 1.78 1.76 1.73 1.71 1.7 1.6928 1.75 1.74 1.73 1.69 1.67 1.66 1.6630 1.72 1.71 1.7 1.66 1.64 1.63 1.6235 1.66 1.65 1.63 1.6 1.57 1.57 1.5640 1.62 1.61 1.59 1.55 1.53 1.52 1.5145 1.59 1.57 1.55 1.51 1.49 1.48 1.4750 1.56 1.54 1.52 1.48 1.46 1.45 1.4460 1.52 1.5 1.48 1.44 1.41 1.4 1.3970 1.49 1.47 1.45 1.4 1.37 1.36 1.3580 1.46 1.45 1.43 1.38 1.35 1.34 1.33100 1.43 1.41 1.39 1.34 1.31 1.3 1.28200 1.36 1.35 1.32 1.26 1.22 1.21 1.19500 1.32 1.3 1.28 1.21 1.16 1.14 1.121000 1.31 1.29 1.26 1.19 1.13 1.11 1.08>1000 1.3 1.28 1.25 1.17 1.11 1.08 1.03

Page 163: László Zoltán: Biostatisztika Egyetemi Jegyzet

5. Függelék: A binomiális eloszlás valószínuségei:

px 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

n=10 .9900 .9500 .9000 .8500 .8000 .7500 .7000 .6500 .6000 .5500 .50001 .0100 .0500 .1000 .1500 .2000 .2500 .3000 .3500 .4000 .4500 .5000n=20 .9801 .9025 .8100 .7225 .6400 .5625 .4900 .4225 .3600 .3025 .25001 .0198 .0950 .1800 .2550 .3200 .3750 .4200 .4550 .4800 .4950 .50002 .0001 .0025 .0100 .0225 .0400 .0625 .0900 .1225 .1600 .2025 .2500n=30 .9703 .8574 .7290 .6141 .5120 .4219 .3430 .2746 .2160 .1664 .12501 .0294 .1354 .2430 .3251 .3840 .4219 .4410 .4436 .4320 .4084 .37502 .0003 .0071 .0270 .0574 .0960 .1406 .1890 .2389 .2880 .3341 .37503 .0001 .0010 .0034 .0080 .0156 .0270 .0429 .0640 .0911 .1250n=40 .9606 .8145 .6561 .5220 .4096 .3164 .2401 .1785 .1296 .0915 .06251 .0388 .1715 .2916 .3685 .4096 .4219 .4116 .3845 .3456 .2995 .25002 .0006 .0135 .0486 .0975 .1536 .2109 .2646 .3105 .3456 .3675 .37503 .0005 .0036 .0115 .0256 .0469 .0756 .1115 .1536 .2005 .25004 .0001 .0005 .0016 .0039 .0081 .0150 .0256 .0410 .0625n=50 .9510 .7738 .5905 .4437 .3277 .2373 .1681 .1160 .0778 .0503 .03131 .0480 .2036 .3281 .3915 .4096 .3955 .3602 .3124 .2592 .2059 .15632 .0010 .0214 .0729 .1382 .2048 .2637 .3087 .3364 .3456 .3369 .31253 .0011 .0081 .0244 .0512 .0879 .1323 .1811 .2304 .2757 .31254 .0005 .0022 .0064 .0146 .0284 .0488 .0768 .1128 .15635 .0001 .0003 .0010 .0024 .0053 .0102 .0185 .0313n=60 .9415 .7351 .5314 .3771 .2621 .1780 .1176 .0754 .0467 .0277 .01561 .0571 .2321 .3543 .3993 .3932 .3560 .3025 .2437 .1866 .1359 .09382 .0014 .0305 .0984 .1762 .2458 .2966 .3241 .3280 .3110 .2780 .23443 .0021 .0146 .0415 .0819 .1318 .1852 .2355 .2765 .3032 .31254 .0001 .0012 .0055 .0154 .0330 .0595 .0951 .1382 .1861 .23445 .0001 .0004 .0015 .0044 .0102 .0205 .0369 .0609 .09386 .0001 .0002 .0007 .0018 .0041 .0083 .0156n=70 .9321 .6983 .4783 .3206 .2097 .1335 .0824 .0490 .0280 .0152 .00781 .0659 .2573 .3720 .3960 .3670 .3115 .2471 .1848 .1306 .0872 .05472 .0020 .0406 .1240 .2097 .2753 .3115 .3177 .2985 .2613 .2140 .16413 .0036 .0230 .0617 .1147 .1730 .2269 .2679 .2903 .2918 .27344 .0002 .0026 .0109 .0287 .0577 .0972 .1442 .1935 .2388 .27345 .0002 .0012 .0043 .0115 .0250 .0466 .0774 .1172 .16416 .0001 .0004 .0013 .0036 .0084 .0172 .0320 .05477 .0001 .0002 .0006 .0016 .0037 .0078n=80 .9227 .6634 .4305 .2725 .1678 .1001 .0576 .0319 .0168 .0084 .00391 .0746 .2793 .3826 .3847 .3355 .2670 .1977 .1373 .0896 .0548 .03132 .0026 .0515 .1488 .2376 .2936 .3115 .2965 .2587 .2090 .1569 .10943 .0001 .0054 .0331 .0839 .1468 .2076 .2541 .2786 .2787 .2568 .21884 .0004 .0046 .0185 .0459 .0865 .1361 .1875 .2322 .2627 .27345 .0004 .0026 .0092 .0231 .0467 .0808 .1239 .1719 .21886 .0002 .0011 .0038 .0100 .0217 .0413 .0703 .10947 .0001 .0004 .0012 .0033 .0079 .0164 .03138 .0001 .0002 .0007 .0017 .0039

Page 164: László Zoltán: Biostatisztika Egyetemi Jegyzet

5. Függelék: A binomiális eloszlás valószínuségei (folytatás):

px 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

n=90 0.9135 0.6302 0.3874 0.2316 0.1342 0.0751 0.0404 0.0207 0.0101 0.0046 0.00201 0.0830 0.2985 0.3874 0.3679 0.3020 0.2253 0.1556 0.1004 0.0605 0.0339 0.01762 0.0034 0.0629 0.1722 0.2597 0.3020 0.3003 0.2668 0.2162 0.1612 0.1110 0.07033 0.0001 0.0077 0.0446 0.1069 0.1762 0.2336 0.2668 0.2716 0.2508 0.2119 0.16414 0.0006 0.0074 0.0283 0.0661 0.1168 0.1715 0.2194 0.2508 0.2600 0.24615 0.0008 0.0050 0.0165 0.0389 0.0735 0.1181 0.1672 0.2128 0.24616 0.0001 0.0006 0.0028 0.0087 0.0210 0.0424 0.0743 0.1160 0.16417 0.0003 0.0012 0.0039 0.0098 0.0212 0.0407 0.07038 0.0001 0.0004 0.0013 0.0035 0.0083 0.01769 0.0001 0.0003 0.0008 0.0020n=100 0.9044 0.5987 0.3487 0.1969 0.1074 0.0563 0.0282 0.0135 0.0060 0.0025 0.00101 0.0914 0.3151 0.3874 0.3474 0.2684 0.1877 0.1211 0.0725 0.0403 0.0207 0.00982 0.0042 0.0746 0.1937 0.2759 0.3020 0.2816 0.2335 0.1757 0.1209 0.0763 0.04393 0.0001 0.0105 0.0574 0.1298 0.2013 0.2503 0.2668 0.2522 0.2150 0.1665 0.11724 0.0010 0.0112 0.0401 0.0881 0.1460 0.2001 0.2377 0.2508 0.2384 0.20515 0.0001 0.0015 0.0085 0.0264 0.0584 0.1029 0.1536 0.2007 0.2340 0.24616 0.0001 0.0012 0.0055 0.0162 0.0368 0.0689 0.1115 0.1596 0.20517 0.0001 0.0008 0.0031 0.0090 0.0212 0.0425 0.0746 0.11728 0.0001 0.0004 0.0014 0.0043 0.0106 0.0229 0.04399 0.0001 0.0005 0.0016 0.0042 0.009810 0.0001 0.0003 0.0010n=110 0.8953 0.5688 0.3138 0.1673 0.0859 0.0422 0.0198 0.0088 0.0036 0.0014 0.00051 0.0995 0.3293 0.3835 0.3248 0.2362 0.1549 0.0932 0.0518 0.0266 0.0125 0.00542 0.0050 0.0867 0.2131 0.2866 0.2953 0.2581 0.1998 0.1395 0.0887 0.0513 0.02693 0.0002 0.0137 0.0710 0.1517 0.2215 0.2581 0.2568 0.2254 0.1774 0.1259 0.08064 0.0014 0.0158 0.0536 0.1107 0.1721 0.2201 0.2428 0.2365 0.2060 0.16115 0.0001 0.0025 0.0132 0.0388 0.0803 0.1321 0.1830 0.2207 0.2360 0.22566 0.0003 0.0023 0.0097 0.0268 0.0566 0.0985 0.1471 0.1931 0.22567 0.0003 0.0017 0.0064 0.0173 0.0379 0.0701 0.1128 0.16118 0.0002 0.0011 0.0037 0.0102 0.0234 0.0462 0.08069 0.0001 0.0005 0.0018 0.0052 0.0126 0.026910 0.0002 0.0007 0.0021 0.005411 0.0002 0.0005n=120 0.8864 0.5404 0.2824 0.1422 0.0687 0.0317 0.0138 0.0057 0.0022 0.0008 0.00021 0.1074 0.3413 0.3766 0.3012 0.2062 0.1267 0.0712 0.0368 0.0174 0.0075 0.00292 0.0060 0.0988 0.2301 0.2924 0.2835 0.2323 0.1678 0.1088 0.0639 0.0339 0.01613 0.0002 0.0173 0.0852 0.1720 0.2362 0.2581 0.2397 0.1954 0.1419 0.0923 0.05374 0.0021 0.0213 0.0683 0.1329 0.1936 0.2311 0.2367 0.2128 0.1700 0.12085 0.0002 0.0038 0.0193 0.0532 0.1032 0.1585 0.2039 0.2270 0.2225 0.19346 0.0005 0.0040 0.0155 0.0401 0.0792 0.1281 0.1766 0.2124 0.22567 0.0006 0.0033 0.0115 0.0291 0.0591 0.1009 0.1489 0.19348 0.0001 0.0005 0.0024 0.0078 0.0199 0.0420 0.0762 0.12089 0.0001 0.0004 0.0015 0.0048 0.0125 0.0277 0.053710 0.0002 0.0008 0.0025 0.0068 0.016111 0.0001 0.0003 0.0010 0.002912 0.0001 0.0002n=130 0.8775 0.5133 0.2542 0.1209 0.0550 0.0238 0.0097 0.0037 0.0013 0.0004 0.00011 0.1152 0.3512 0.3672 0.2774 0.1787 0.1029 0.0540 0.0259 0.0113 0.0045 0.00162 0.0070 0.1109 0.2448 0.2937 0.2680 0.2059 0.1388 0.0836 0.0453 0.0220 0.00953 0.0003 0.0214 0.0997 0.1900 0.2457 0.2517 0.2181 0.1651 0.1107 0.0660 0.03494 0.0028 0.0277 0.0838 0.1535 0.2097 0.2337 0.2222 0.1845 0.1350 0.08735 0.0003 0.0055 0.0266 0.0691 0.1258 0.1803 0.2154 0.2214 0.1989 0.15716 0.0008 0.0063 0.0230 0.0559 0.1030 0.1546 0.1968 0.2169 0.20957 0.0001 0.0011 0.0058 0.0186 0.0442 0.0833 0.1312 0.1775 0.20958 0.0001 0.0011 0.0047 0.0142 0.0336 0.0656 0.1089 0.15719 0.0001 0.0009 0.0034 0.0101 0.0243 0.0495 0.087310 0.0001 0.0006 0.0022 0.0065 0.0162 0.034911 0.0001 0.0003 0.0012 0.0036 0.009512 0.0001 0.0005 0.001613 0.0001

Page 165: László Zoltán: Biostatisztika Egyetemi Jegyzet

5. Függelék: A binomiális eloszlás valószínuségei (folytatás):

px 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

n=140 0.8687 0.4877 0.2288 0.1028 0.0440 0.0178 0.0068 0.0024 0.0008 0.0002 0.00011 0.1229 0.3593 0.3559 0.2539 0.1539 0.0832 0.0407 0.0181 0.0073 0.0027 0.00092 0.0081 0.1229 0.2570 0.2912 0.2501 0.1802 0.1134 0.0634 0.0317 0.0141 0.00563 0.0003 0.0259 0.1142 0.2056 0.2501 0.2402 0.1943 0.1366 0.0845 0.0462 0.02224 0.0037 0.0349 0.0998 0.1720 0.2202 0.2290 0.2022 0.1549 0.1040 0.06115 0.0004 0.0078 0.0352 0.0860 0.1468 0.1963 0.2178 0.2066 0.1701 0.12226 0.0013 0.0093 0.0322 0.0734 0.1262 0.1759 0.2066 0.2088 0.18337 0.0002 0.0019 0.0092 0.0280 0.0618 0.1082 0.1574 0.1952 0.20958 0.0003 0.0020 0.0082 0.0232 0.0510 0.0918 0.1398 0.18339 0.0003 0.0018 0.0066 0.0183 0.0408 0.0762 0.122210 0.0003 0.0014 0.0049 0.0136 0.0312 0.061111 0.0002 0.0010 0.0033 0.0093 0.022212 0.0001 0.0005 0.0019 0.005613 0.0001 0.0002 0.000914 0.0001n=150 0.8601 0.4633 0.2059 0.0874 0.0352 0.0134 0.0047 0.0016 0.0005 0.00011 0.1303 0.3658 0.3432 0.2312 0.1319 0.0668 0.0305 0.0126 0.0047 0.0016 0.00052 0.0092 0.1348 0.2669 0.2856 0.2309 0.1559 0.0916 0.0476 0.0219 0.0090 0.00323 0.0004 0.0307 0.1285 0.2184 0.2501 0.2252 0.1700 0.1110 0.0634 0.0318 0.01394 0.0049 0.0428 0.1156 0.1876 0.2252 0.2186 0.1792 0.1268 0.0780 0.04175 0.0006 0.0105 0.0449 0.1032 0.1651 0.2061 0.2123 0.1859 0.1404 0.09166 0.0019 0.0132 0.0430 0.0917 0.1472 0.1906 0.2066 0.1914 0.15277 0.0003 0.0030 0.0138 0.0393 0.0811 0.1319 0.1771 0.2013 0.19648 0.0005 0.0035 0.0131 0.0348 0.0710 0.1181 0.1647 0.19649 0.0001 0.0007 0.0034 0.0116 0.0298 0.0612 0.1048 0.152710 0.0001 0.0007 0.0030 0.0096 0.0245 0.0515 0.091611 0.0001 0.0006 0.0024 0.0074 0.0191 0.041712 0.0001 0.0004 0.0016 0.0052 0.013913 0.0001 0.0003 0.0010 0.003214 0.0001 0.000515n=160 0.8515 0.4401 0.1853 0.0743 0.0281 0.0100 0.0033 0.0010 0.0003 0.00011 0.1376 0.3706 0.3294 0.2097 0.1126 0.0535 0.0228 0.0087 0.0030 0.0009 0.00022 0.0104 0.1463 0.2745 0.2775 0.2111 0.1336 0.0732 0.0353 0.0150 0.0056 0.00183 0.0005 0.0359 0.1423 0.2285 0.2463 0.2079 0.1465 0.0888 0.0468 0.0215 0.00854 0.0061 0.0514 0.1311 0.2001 0.2252 0.2040 0.1553 0.1014 0.0572 0.02785 0.0008 0.0137 0.0555 0.1201 0.1802 0.2099 0.2008 0.1623 0.1123 0.06676 0.0001 0.0028 0.0180 0.0550 0.1101 0.1649 0.1982 0.1983 0.1684 0.12227 0.0004 0.0045 0.0197 0.0524 0.1010 0.1524 0.1889 0.1969 0.17468 0.0001 0.0009 0.0055 0.0197 0.0487 0.0923 0.1417 0.1812 0.19649 0.0001 0.0012 0.0058 0.0185 0.0442 0.0840 0.1318 0.174610 0.0002 0.0014 0.0056 0.0167 0.0392 0.0755 0.122211 0.0002 0.0013 0.0049 0.0142 0.0337 0.066712 0.0002 0.0011 0.0040 0.0115 0.027813 0.0000 0.0002 0.0008 0.0029 0.008514 0.0001 0.0005 0.001815 0.0001 0.000216n=170 0.8429 0.4181 0.1668 0.0631 0.0225 0.0075 0.0023 0.0007 0.00021 0.1447 0.3741 0.3150 0.1893 0.0957 0.0426 0.0169 0.0060 0.0019 0.0005 0.00012 0.0117 0.1575 0.2800 0.2673 0.1914 0.1136 0.0581 0.0260 0.0102 0.0035 0.00103 0.0006 0.0415 0.1556 0.2359 0.2393 0.1893 0.1245 0.0701 0.0341 0.0144 0.00524 0.0076 0.0605 0.1457 0.2093 0.2209 0.1868 0.1320 0.0796 0.0411 0.01825 0.0010 0.0175 0.0668 0.1361 0.1914 0.2081 0.1849 0.1379 0.0875 0.04726 0.0001 0.0039 0.0236 0.0680 0.1276 0.1784 0.1991 0.1839 0.1432 0.09447 0.0007 0.0065 0.0267 0.0668 0.1201 0.1685 0.1927 0.1841 0.14848 0.0001 0.0014 0.0084 0.0279 0.0644 0.1134 0.1606 0.1883 0.18559 0.0003 0.0021 0.0093 0.0276 0.0611 0.1070 0.1540 0.185510 0.0004 0.0025 0.0095 0.0263 0.0571 0.1008 0.148411 0.0001 0.0005 0.0026 0.0090 0.0242 0.0525 0.094412 0.0001 0.0006 0.0024 0.0081 0.0215 0.047213 0.0001 0.0005 0.0021 0.0068 0.018214 0.0001 0.0004 0.0016 0.005215 0.0001 0.0003 0.001016 0.000117

Page 166: László Zoltán: Biostatisztika Egyetemi Jegyzet

5. Függelék: A binomiális eloszlás valószínuségei (folytatás):

px 0.01 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50

n=180 0.8345 0.3972 0.1501 0.0536 0.0180 0.0056 0.0016 0.0004 0.00011 0.1517 0.3763 0.3002 0.1704 0.0811 0.0338 0.0126 0.0042 0.0012 0.0003 0.00012 0.0130 0.1683 0.2835 0.2556 0.1723 0.0958 0.0458 0.0190 0.0069 0.0022 0.00063 0.0007 0.0473 0.1680 0.2406 0.2297 0.1704 0.1046 0.0547 0.0246 0.0095 0.00314 0.0093 0.0700 0.1592 0.2153 0.2130 0.1681 0.1104 0.0614 0.0291 0.01175 0.0014 0.0218 0.0787 0.1507 0.1988 0.2017 0.1664 0.1146 0.0666 0.03276 0.0002 0.0052 0.0301 0.0816 0.1436 0.1873 0.1941 0.1655 0.1181 0.07087 0.0010 0.0091 0.0350 0.0820 0.1376 0.1792 0.1892 0.1657 0.12148 0.0002 0.0022 0.0120 0.0376 0.0811 0.1327 0.1734 0.1864 0.16699 0.0004 0.0033 0.0139 0.0386 0.0794 0.1284 0.1694 0.185510 0.0001 0.0008 0.0042 0.0149 0.0385 0.0771 0.1248 0.166911 0.0001 0.0010 0.0046 0.0151 0.0374 0.0742 0.121412 0.0002 0.0012 0.0047 0.0145 0.0354 0.070813 0.0002 0.0012 0.0045 0.0134 0.032714 0.0002 0.0011 0.0039 0.011715 0.0002 0.0009 0.003116 0.0001 0.000617 0.000118n=190 0.8262 0.3774 0.1351 0.0456 0.0144 0.0042 0.0011 0.0003 0.00011 0.1586 0.3774 0.2852 0.1529 0.0685 0.0268 0.0093 0.0029 0.0008 0.00022 0.0144 0.1787 0.2852 0.2428 0.1540 0.0803 0.0358 0.0138 0.0046 0.0013 0.00033 0.0008 0.0533 0.1796 0.2428 0.2182 0.1517 0.0869 0.0422 0.0175 0.0062 0.00184 0.0112 0.0798 0.1714 0.2182 0.2023 0.1491 0.0909 0.0467 0.0203 0.00745 0.0018 0.0266 0.0907 0.1636 0.2023 0.1916 0.1468 0.0933 0.0497 0.02226 0.0002 0.0069 0.0374 0.0955 0.1574 0.1916 0.1844 0.1451 0.0949 0.05187 0.0014 0.0122 0.0443 0.0974 0.1525 0.1844 0.1797 0.1443 0.09618 0.0002 0.0032 0.0166 0.0487 0.0981 0.1489 0.1797 0.1771 0.14429 0.0007 0.0051 0.0198 0.0514 0.0980 0.1464 0.1771 0.176210 0.0001 0.0013 0.0066 0.0220 0.0528 0.0976 0.1449 0.176211 0.0003 0.0018 0.0077 0.0233 0.0532 0.0970 0.144212 0.0004 0.0022 0.0083 0.0237 0.0529 0.096113 0.0001 0.0005 0.0024 0.0085 0.0233 0.051814 0.0001 0.0006 0.0024 0.0082 0.022215 0.0001 0.0005 0.0022 0.007416 0.0001 0.0005 0.001817 0.0001 0.00031819n=200 0.8179 0.3585 0.1216 0.0388 0.0115 0.0032 0.0008 0.00021 0.1652 0.3774 0.2702 0.1368 0.0576 0.0211 0.0068 0.0020 0.0005 0.00012 0.0159 0.1887 0.2852 0.2293 0.1369 0.0669 0.0278 0.0100 0.0031 0.0008 0.00023 0.0010 0.0596 0.1901 0.2428 0.2054 0.1339 0.0716 0.0323 0.0123 0.0040 0.00114 0.0133 0.0898 0.1821 0.2182 0.1897 0.1304 0.0738 0.0350 0.0139 0.00465 0.0022 0.0319 0.1028 0.1746 0.2023 0.1789 0.1272 0.0746 0.0365 0.01486 0.0003 0.0089 0.0454 0.1091 0.1686 0.1916 0.1712 0.1244 0.0746 0.03707 0.0020 0.0160 0.0545 0.1124 0.1643 0.1844 0.1659 0.1221 0.07398 0.0004 0.0046 0.0222 0.0609 0.1144 0.1614 0.1797 0.1623 0.12019 0.0001 0.0011 0.0074 0.0271 0.0654 0.1158 0.1597 0.1771 0.160210 0.0002 0.0020 0.0099 0.0308 0.0686 0.1171 0.1593 0.176211 0.0005 0.0030 0.0120 0.0336 0.0710 0.1185 0.160212 0.0001 0.0008 0.0039 0.0136 0.0355 0.0727 0.120113 0.0002 0.0010 0.0045 0.0146 0.0366 0.073914 0.0002 0.0012 0.0049 0.0150 0.037015 0.0003 0.0013 0.0049 0.014816 0.0003 0.0013 0.004617 0.0002 0.001118 0.00021920

Page 167: László Zoltán: Biostatisztika Egyetemi Jegyzet

6. Függelék: A Wilcoxon elojeles rang-próba valószínuségei:

nT 2 3 4 5 6 7 8 9 10 11 121 0.5000 0.2500 0.1250 0.0625 0.0313 0.0157 0.0079 0.0040 0.0020 0.0010 0.00052 0.3750 0.1875 0.0938 0.0469 0.0235 0.0118 0.0059 0.0030 0.0015 0.00083 0.6250 0.3125 0.1563 0.0782 0.0391 0.0196 0.0098 0.0049 0.0025 0.00134 0.4375 0.2188 0.1094 0.0547 0.0274 0.0137 0.0069 0.0035 0.00185 0.5625 0.3125 0.1563 0.0782 0.0391 0.0196 0.0098 0.0049 0.00256 0.4063 0.2188 0.1094 0.0547 0.0274 0.0137 0.0069 0.00357 0.50000 0.2813 0.1485 0.0743 0.0372 0.0186 0.0093 0.00478 0.3438 0.1875 0.0977 0.0489 0.0245 0.0123 0.00629 0.4219 0.2344 0.125 0.0645 0.0323 0.0162 0.008110 0.5000 0.2891 0.1563 0.0821 0.0420 0.0210 0.010511 0.3438 0.1915 0.1016 0.0528 0.0269 0.013512 0.4063 0.2305 0.125 0.0655 0.0337 0.017113 0.4688 0.2735 0.1504 0.0801 0.0416 0.021314 0.5313 0.3204 0.1797 0.0967 0.0508 0.026215 0.3711 0.2129 0.1163 0.0616 0.032016 0.4219 0.2481 0.1377 0.0738 0.038617 0.4727 0.2852 0.1612 0.0875 0.046218 0.5274 0.3262 0.1875 0.1031 0.055019 0.3672 0.2159 0.1202 0.064720 0.4102 0.2461 0.1392 0.075721 0.4551 0.2784 0.1602 0.088222 0.5000 0.3125 0.1827 0.101923 0.3477 0.2066 0.116724 0.3848 0.2325 0.133125 0.4229 0.2598 0.150726 0.4610 0.2886 0.169727 0.5000 0.3189 0.190228 0.3501 0.212029 0.3824 0.234930 0.4156 0.259331 0.4493 0.284732 0.4830 0.311133 0.5171 0.338734 0.366735 0.395636 0.425137 0.454938 0.484939 0.5152

Page 168: László Zoltán: Biostatisztika Egyetemi Jegyzet

7. Függelék: A Wilcoxon rang-összeg teszt valószínuségei:

Kétoldali (α = 0.05) (egyoldali (α = 0.025))

n2n1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 201 - - - - - - - - - - - - - - - - - - - -2 - - - - - - - 0 0 0 0 1 1 1 1 1 2 2 2 23 - - - - 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 84 - - - 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 135 - - 0 1 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 206 - - 1 2 3 5 6 8 10 11 13 14 16 17 19 21 22 24 25 277 - - 1 3 5 6 8 10 12 14 16 18 20 22 24 26 28 30 32 348 - 0 2 4 6 8 10 13 15 17 19 22 24 26 29 31 34 36 38 419 - 0 2 4 7 10 12 15 17 21 23 26 28 31 34 37 39 42 45 4810 - 0 3 5 8 11 14 17 20 23 26 29 33 36 39 42 45 48 52 5511 - 0 3 6 9 13 16 19 23 26 30 33 37 40 44 47 51 55 58 6212 - 1 4 7 11 14 18 22 26 29 33 37 41 45 49 53 57 61 65 6913 - 1 4 8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 7614 - 1 5 9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 78 8315 - 1 5 10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 9016 - 1 6 11 15 21 26 31 37 42 47 53 59 64 70 75 81 86 92 9817 - 2 6 11 17 22 28 34 39 45 51 57 63 67 75 81 87 93 99 10518 - 2 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 106 11219 - 2 7 13 19 25 32 38 45 52 58 65 72 78 85 92 99 106 113 11920 - 2 8 14 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127

Kétoldali (α = 0.01) (egyoldali (α = 0.005))

n2n1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20n1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 201 - - - - - - - - - - - - - - - - - - - -2 - - - - - - - - - - - - - - - - - - 0 03 - - - - - - - - 0 0 0 1 1 1 2 2 2 2 3 34 - - - - - 0 0 1 1 2 2 3 3 4 5 5 6 6 7 85 - - - - 0 1 1 2 3 4 5 6 7 7 8 9 10 11 12 136 - - - 0 1 2 3 4 5 6 7 9 10 11 12 13 15 16 17 187 - - - 0 1 3 4 6 7 9 10 12 13 15 16 18 19 21 22 248 - - - 1 2 4 6 7 9 11 13 15 17 18 20 22 24 26 28 309 - - 0 1 3 5 7 9 11 13 16 18 20 22 24 27 29 31 33 3610 - - 0 2 4 6 9 11 13 16 18 21 24 26 29 31 34 37 39 4211 - - 0 2 5 7 10 13 16 18 21 24 27 30 33 36 39 42 45 4612 - - 1 3 6 9 12 15 18 21 24 27 31 34 37 41 44 47 51 5413 - - 1 3 7 10 13 17 20 24 27 31 34 38 42 45 49 53 56 6014 - - 1 4 7 11 15 18 22 26 30 34 38 42 46 50 54 58 63 6715 - - 2 5 8 12 16 20 24 29 33 37 42 46 51 55 60 64 69 7316 - - 2 5 9 13 18 22 27 31 36 41 45 50 55 60 65 70 74 7917 - - 2 6 10 15 19 24 29 34 39 44 49 54 60 65 70 75 81 8618 - - 2 6 11 16 21 26 31 37 42 47 53 58 64 70 75 81 87 9219 - 0 3 7 12 17 22 28 33 39 45 51 56 63 69 74 81 87 93 9920 - 0 3 8 13 18 24 30 36 42 46 54 60 67 73 79 86 92 99 105

Page 169: László Zoltán: Biostatisztika Egyetemi Jegyzet

8. Függelék: A Spearman-féle ρ kritikus értékei (p = 0.05, p = 0.02, p = 0.01):

N 0.05 0.02 0.015 1.000 1.0006 0.886 0.943 1.0007 0.786 0.893 0.9298 0.738 0.833 0.8819 0.683 0.783 0.83310 0.648 0.746 0.79412 0.591 0.712 0.77714 0.544 0.645 0.71516 0.506 0.601 0.66518 0.475 0.564 0.62520 0.45 0.534 0.59122 0.428 0.508 0.56224 0.409 0.485 0.53726 0.392 0.465 0.51528 0.377 0.448 0.49630 0.364 0.432 0.478