analÝza rozptylu

Post on 10-Jan-2016

50 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

ANALÝZA ROZPTYLU. Analýza rozptylu. V praxi často je potrebné porovnávať väčší počet nezávislých náhodných výberov z hľadiska úrovne, t. zn. zaujíma nás hypotéza: pre aspoň jeno i (i = 1, 2,…m) - PowerPoint PPT Presentation

TRANSCRIPT

ANALÝZA ROZPTYLU

prof.Ing. Zlata Sojková,CSc. 1

Analýza rozptylu• V praxi často je potrebné porovnávať väčší počet

nezávislých náhodných výberov z hľadiska úrovne, t. zn. zaujíma nás hypotéza:

pre aspoň jeno i (i = 1, 2,…m)pre m > 2, kde i , i =1, 2, …m sú stredné hodnoty z

normálne rozdelených základných súborov s rovnakým rozptylom 2 , t.j. N(, 2)

• K overeniu tejto hypotézy sa používa dôležitá štatistická metóda, nazývaná Analýza rozptylu,

skrátene ANOVA (resp. AR)prof.Ing. Zlata Sojková,CSc. 2

:H

... ... :H

i 1

mi3210

prof.Ing. Zlata Sojková,CSc. 3

• V praxi sa AR používa vtedy, ak skúmame vplyv jedného resp. viacerých faktorov (ošetrení) na skúmaný štatistický znak

• Faktory budeme označovať A, B,…a v AR ich budeme zohľadňovať len ako kvalitatívne znaky s rôznymi obmenami - úrovňami faktora

• výsledný štatistický znak bude kvantitatívny a označíme ho Y

• najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov

• Všimneme si najjednoduchší prípad AR s jedným faktorom, ktorú nazývame jednofaktorová AR

prof.Ing. Zlata Sojková,CSc. 4

• Úrovňou faktora budeme označovať: – určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri

hnojení, rôzne príjmové skupiny domácností, – určitý druh kvalitatívneho faktora, napr.

rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni,

• AR je zovšeobecnením Studentovho t-testu pre nezávislé výbery

• AR zároveň skúma vplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi

Schéma jednofaktorového experimentu

“vyvážený pokus”

prof.Ing. Zlata Sojková,CSc. 5

A 1 2… j… n Yi . yi .

1 y11 y12 y1j y1n Y1. y1.

2 y21 y22 y2j y2n Y2. y2.

… ……….. i yi1 yi2 yij yin Yi. yi.

… ……….. m ym1 ym2 ymj ymn Ym. ym.

Y.. y..

opakovania

Úrovnefaktora

riadkový

súčet riadkovýpriemer

celkovýpriemer

Celkový súčet

prof.Ing. Zlata Sojková,CSc. 6

n

1jiji y .Y

n

1jij

m

1i

y ..Y

.Y n

1 y

n

1 .y i

n

1jiji

m.nN ,yN

1 ..y

n

1jij

m

1i

riadkový súčet: celkový súčet:

riadkový priemer:

celkový priemer:

prof.Ing. Zlata Sojková,CSc. 7

Model pre výslednú napozorovanú hodnotu:

ijiij e α μ y Kde - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty,

i - efekt i-tej úrovne faktora A

eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov

kde i = 1, 2,…, m j = 1,2,…, n

prof.Ing. Zlata Sojková,CSc. 8

ijiij e α μ y

Nulovú hypotézu potom môžme formulovať aj nasledovne:

Ho : 1 = 2 =… i = m = 0

t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze

H1: i 0 pre aspoň jedno i (i = 1,2…m)efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

ijiij e μy alebo

prof.Ing. Zlata Sojková,CSc. 9

Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky:

.y - y e est ..y - .y est

.y est ..y est

iijijii

ii

ijiij e α μ y

ijiij e α μy čo môžme prepísať:

.)y(y ..)y - .y( ..)y - y( iijiij

Porovnanie dvoch experimentov s tromi úrovňami faktora

prof.Ing. Zlata Sojková,CSc. 10

..y3y

..y

1 2 3

1y 2y

31 2

1y

2y

3y

Princíp Analýzy rozptylu

prof.Ing. Zlata Sojková,CSc. 11

Podstata analýzy rozptylu spočíva v rozklade celkovej variability výsledného skúmaného znaku

2.i

m

1i

n

1jij

2..

m

1i.i

2..

m

1i

n

1jij )yy()yy(n )yy(

Celková variabilita

Variabilita medzi úrovňamifaktora,

spôsobená pôsobením faktora A,

“variabilita medzitriedami, riadkami”

Variabilita náhodná,

reziduálna,“vo vnútri

tried

Sc S1Sr

prof.Ing. Zlata Sojková,CSc. 12

prof.Ing. Zlata Sojková,CSc. 13

2..

m

1i

n

1jij )yy(

2..

m

1i.i )yy(n

2.i

m

1i

n

1jij )yy(

Variabilitamedzi triedami

Reziduálnavariabilta

Celková variabilita

ANOVAVariabilita

1Súčet štvorcov

odchýlok

2Stupne

voľnosti

m-1

m.n - m

N-1=m .n-1

3Priemerný

štvorec(1/2)

S1

Sr

Sc

s12

sr2

4F-kritérium

2r

21

s

sF

prof.Ing. Zlata Sojková,CSc. 14

mN

).y(y

1m

..)y.y(n

s

sF

2i

m

1i

n

1jij

2m

1ii

2r

21

Testovacie kritérium možno pre jednofoktorovú AR - vyvážený pokus zapísať podrobne vzťahom:

Hodnotu F testovacieho kritéria porovonáme s príslušnou tabuľkovou hodnotou F-rozdelenia:F , pre stupne voľnosti (m-1) a (m.n - m)

• Ak F vyp F. ((m-1,(N-m)) Ho zamietame,

v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerna úroveň ukazovateľa sa štatisticky významne líši od ostatných. Resp. aspoň

jeden efekt i je štatisticky významne

odlišný od nuly.

prof.Ing. Zlata Sojková,CSc. 15

Rozhodnutie o výsledku testu:

kritický obor,obor zatnutia H0

FObor nezamietnutia Ho

AkF vyp F

Ho nezamietame

Ak nulovú hypotézu zamietame:

• Zistili sme len, že je preukazný vplyv faktora na skúmaný znak,

• ďalej je potrebné skúmať medzi ktorými úrovňami faktora je a medzi ktorými nie je preukazný rozdiel - k tomúto účelu sa používajú testy kontrastov

• Medzi testy kontrastov patria: Duncanov test, Scheffeho test, Tuckey test a iné…..

prof.Ing. Zlata Sojková,CSc. 16

Podmienky použitia AR:

• Výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší

vplyv na výsledky AR• štatistická nezávislosť náhodných chýb eij

• zhodné reziduálne rozptyly 1

2 = 22 = …. = 2 , t.j. D(eij) = 2

pre všetky i = 1,2…., m, j=1,2, …n tento predpoklad je závažnejší a možno ho overovať

Cochranovým, resp. Bartlettovým testom

prof.Ing. Zlata Sojková,CSc. 17

Schéma jednofaktorového experimentu

“nevyvážený pokus”

prof.Ing. Zlata Sojková,CSc. 18

A 1 2… j … ni Yi . yi .

1 y11 y12 y1j ... n1 Y1. y1.

2 y21 y22 y2j ... n2 Y2. y2.

… ……….. i yi1 yi2 yij ... ni Yi. yi.

… ……….. m ym1 ym2 ymj ... nm Ym. ym.

Y.. y..

Rôzny počet opakovaní

Úrovnefaktora

riadkový súčet

riadkovýpriemer

celkovýpriemer

Kde

m

1iin N

prof.Ing. Zlata Sojková,CSc. 19

2..

m

1i

in

1jij )yy(

2..

m

1i.ii )yy(n

2.i

m

1i

in

1jij )yy(

Variabilitamedzi triedami

Reziduálnavariabilta

Celková variabilita

ANOVAVariabilita

1Súčet štvorcov

odchýlok

2Stupne

voľnosti

m-1

N - m

N-1

3Priemerný

štvorec(1/2)

S1

Sr

S

s12

sr2

4F-kritérium

2r

21

s

sF

m

1iin N

prof.Ing. Zlata Sojková,CSc. 20

Dvojfaktorová analýza rozptylu Dvojfaktorová analýza rozptylu bez opakovaniabez opakovania

• Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m

• ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n

• na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanielen jedno pozorovanie (opakovanie) yij

• overujeme tak vplyv dvoch nulových hypotéz

prof.Ing. Zlata Sojková,CSc. 21

Schéma dvojfaktorového experimentu s jedným pozorovaním v každej podtriede DAR

prof.Ing. Zlata Sojková,CSc. 22

A 1 2 … j … n Yi . yi .

1 y11 y12 y1j y1n Y1. Y1.

2 y21 y22 y2j y2n Y2. y2.

… ……….. i yi1 yi2 yij yin Yi. yi.

… ……….. m ym1 ym2 ymj ymn Ym. ym.

Y.1

Y.2 ... Y.j ... Y.1 Y.. y.1 y.2 ... y.j ... y.1 y..

n-úrovní faktora B

m-úrovnífaktora A

riadkové súčty

Riadkovépriemery

celkovýpriemer

B

Stĺpcové súčtystĺpcové priemery

Overujeme platnosť dvoch nulových hypotéz

prof.Ing. Zlata Sojková,CSc. 23

Hypotéza pre faktor A:Ho 1: 1 = 2 =… i = m = 0

t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze

H11 : i 0 pre aspoň jedno i (i = 1,2…m)

efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

ijjiij e α μ y Model pre skúmaný znak môžme zapísať

prof.Ing. Zlata Sojková,CSc. 24

Hypotéza pre faktor B:

Ho 2: 1 = 2 =… j = n = 0

t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze

H12 : j 0 pre aspoň jedno j (j = 1,2…m)

efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly

prof.Ing. Zlata Sojková,CSc. 25

Variabilitamedzi riadkami

Reziduálnavariabilta

Celková variabilita

DARVariabilita

1Súčet štvorcov

odchýlok

2Stupne

voľnosti

m-1

n-1

(m-1)(n-1)

3Priem.štvorec

(1/2)

Sr

Sc

s12

sr2

4F-kritérium

2

21

1

rs

sF S1

S2

Variabilita medzi stĺpcami

m.n -1

2

22

2

rs

sF s2

2

Rozklad celkovej variability skúmaného znaku:Sc= S1 + S2 + S r

prof.Ing. Zlata Sojková,CSc. 26

2m

1ii 1 ..)y.y(nS

2n

1jj2 ..)y.y(m S

2ji

m

1i

n

1jij r ..)y.y.yy(S

2m

1i

in

1jijc ..)yy( S

Variabilita medzi riadkami, vplyv faktora A

Variabilita medzi stĺpcami,vplyv faktora B

Reziduálnavariabilita

Celková variabilita

Dvojfaktorová analýza rozptylu Dvojfaktorová analýza rozptylu s opakovaníms opakovaním

• Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktora B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n

• Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu)

• Pre každú kombináciu úrovní máme viacviac pozorovanpozorovaníí (opakovaní) yij

• Overujeme tak vplyv troch nulových hypotézprof.Ing. Zlata Sojková,CSc. 27

User

Schéma dvojfaktorového experimentu s interkaciou

Faktor B B1 B2 ... Bn

A1 yijk Priemer

A1B1 Priemer A1B2

Priemer A1Bn

Priemer A1

A2 Priemer

A2B1 Priemer A2B2

Priemer A2Bn

Priemer A2

.

.

.

Am

Faktor A

Priemer

AmB1 Priemer AmB2

Priemer AmBn

Priemer Am

Priemer B1

Priemer B2

... Priemer Bn

Celkový priemer

prof.Ing. Zlata Sojková,CSc. 28

prof.Ing. Zlata Sojková,CSc. 29

Testy kontrastovTesty kontrastov

• v prípade, že H0 zamietame, zaujíma nás, medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely

• existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov

• je možné vytvoriť m*(m-1)/2 kontrastov

prof.Ing. Zlata Sojková,CSc. 30

Testy kontrastovTesty kontrastov

1. Fischerov LSD test2. Duncanov test3. Student-Newman-Keulsov test4. Tukeyho test5. Scheffeho test

prof.Ing. Zlata Sojková,CSc. 31

Fischerov LSD testFischerov LSD test

• LSD = Least Significant Difference• je založený na t-teste• štatisticky významný rozdiel je potvrdený, ak platí

vzťah:

• kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti

n

s2tyy

2r

)1n(m,.j.i

)1n(m,t

prof.Ing. Zlata Sojková,CSc. 32

Duncanov testDuncanov test

• štatisticky významný rozdiel je potvrdený, ak platí vzťah:

• kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti

n

sDyy

2r

.j.i

D

prof.Ing. Zlata Sojková,CSc. 33

Student-Newman-Keulsov testStudent-Newman-Keulsov test

• štatisticky významný rozdiel je potvrdený, ak platí vzťah:

• kde: tabuľovaná hodnota Student-Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti

n

sgyy

2r

.j.i

g

prof.Ing. Zlata Sojková,CSc. 34

Tukeyho testTukeyho test

• štatisticky významný rozdiel je potvrdený, ak platí vzťah:

• kde: tabuľovaná hodnota Tukeyho testu.)1n(m,m,q

n

s.qyy

2r

)1n(m,m,.j.i

prof.Ing. Zlata Sojková,CSc. 35

Scheffeho testScheffeho test

• štatisticky významný rozdiel je potvrdený, ak platí vzťah:

• kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti

)1n(m),1m(,F

)1n(m),1m(,2r

ji.j.i F.s).1m.(

n

1

n

1yy

prof.Ing. Zlata Sojková,CSc. 36

Ktorý test použiť?Ktorý test použiť?

Test Sila testu (1-β) Chyba I. druhu (α)

LSD najvyššia najvyššia

Duncan

Student-Newman-Keuls

Tukey

Scheffe najnižšia najnižšiaprof.Ing. Zlata Sojková,CSc. 37

viac konzervatívny,, menej pravdepodobné, že bude objavený skutočný rozdiel

viac pravdepo-dobné,, že bude určený nesprávny rozdiel

Ktorý test použiť?Ktorý test použiť?

• závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje.

prof.Ing. Zlata Sojková,CSc. 38

prof.Ing. Zlata Sojková,CSc. 39

Testy kontrastov - StatgraphicsTesty kontrastov - Statgraphics

• Multiple Range Tests

Method: 95,0 percent LSD Count Mean Homogeneous Groups

Col_4 5 303,8 XCol_3 5 337,0 XXCol_1 5 344,2 XCol_2 5 349,8 X

Contrast Sig. Difference +/- LimitsCol_1 - Col_2 -5,6 38,7085Col_1 - Col_3 7,2 38,7085Col_1 - Col_4 * 40,4 38,7085Col_2 - Col_3 12,8 38,7085Col_2 - Col_4 * 46,0 38,7085Col_3 - Col_4 33,2 38,7085* denotes a statistically significant difference.

prof.Ing. Zlata Sojková,CSc. 40

Testy kontrastov - StatgraphicsTesty kontrastov - Statgraphics

Col_1 Col_2 Col_3 Col_4

Means and 95,0 Percent LSD Intervals

280

300

320

340

360

380

Mea

n

prof.Ing. Zlata Sojková,CSc. 41

Overenie zhody variabilityOverenie zhody variability

• predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné.

• H0:

• Testy:– Cochranov test– Hartleyov test– Bartlettov test

22m

22

21 ....

prof.Ing. Zlata Sojková,CSc. 42

Cochranov testCochranov test

• je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi

• testovacia charakteristika:

• ak G ≥ Gα, m, n-1 → H0 zamietame• Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch

voľnosti

2 2 211 12 1

2 2 211 12 1

max( , ,..., )

...m

m

s s sG

s s s

prof.Ing. Zlata Sojková,CSc. 43

Bartlettov testBartlettov test• spočíva v porovnávaní aritmetického a geometrického

priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké.

• testovacia charakteristika:2

2 21

1 1

21

2 1

1

1

1

2,3026 .log .log

.

1 1 11

3( 1)

m m

i i ii i

m

i ii

m

ii

m

mi i

ii

M

C

M k s k s

s ks

k

Cm k k

prof.Ing. Zlata Sojková,CSc. 44

ki = ni-1

m – počet výberových súborov

ni – rozsah i-teho

výberového súboru

Ak χ2χ2(m-1), potom H0 zamietame

prof.Ing. Zlata Sojková,CSc. 45

top related