jednofaktorová anova

28
Jednofaktorová ANOVA Jednofaktorová analýza rozptylu (Test o shodě více než dvou středních hodnot)

Upload: blythe

Post on 10-Jan-2016

74 views

Category:

Documents


2 download

DESCRIPTION

Jednofaktorová ANOVA. Jednofaktorová analýza rozptylu (Test o shodě více než dvou středních hodnot). Motivační příklady. Porovnání výsledků přijímacího řízení u absolventů různých typů středních škol (gymnázium, SPŠ, SOU) Srovnání obsahu dusíku u 5-ti příbuzných druhů rostlin - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Jednofaktorová ANOVA

Jednofaktorová ANOVA

Jednofaktorová analýza rozptylu(Test o shodě více než dvou středních hodnot)

Page 2: Jednofaktorová ANOVA

Motivační příklady

• Porovnání výsledků přijímacího řízení u absolventů různých typů středních škol (gymnázium, SPŠ, SOU)

• Srovnání obsahu dusíku u 5-ti příbuzných druhů rostlin

• Srovnání platů podle bydliště respondentů (krajů) …

Page 3: Jednofaktorová ANOVA

Proč nepoužívat řadu dvouvýběrových t-testů?

Skupina I Skupina II

Skupina III

• Porovnáváme-li k tříd (skupin), provádíme testů. V každém z nich je pravděpodobnost chyby prvního druhu α.

• Pravděpodobnost, že uděláme alespoň jednu chybu prvního druhu pak roste s počtem porovnávaných tříd.

2

1

2

kkk

Page 4: Jednofaktorová ANOVA

Pravděpodobnost chyby I. druhu při srovnávání typu „každý s každým“ - „Statistical fishing“

Page 5: Jednofaktorová ANOVA

Motivační příklad Porovnejte úspěšnost absolventů gymnázii, SPŠ a odborných učilišť s maturitou (OU) u přijímací zkoušky z matematiky. Dosažené výsledky náhodně vybraných patnácti studentů jsou uvedeny v následující tabulce.

Gymnázium SPŠ OU

55 54 47

54 50 53

58 51 49

61 51 50

52 49 46

Page 6: Jednofaktorová ANOVA

Co je příčinou rozdílných výsledků?

Vliv sledovaného faktorutj. rozdíly mezi kvalitou výuky na jednotlivých typech středních škol.

Reziduální (zbytkové) vlivytj. rozdíly mezi školami v rámci tříd (není gymnázium jako gymnázium), rozdíly mezi pedagogy v rámci jedné školy, rozdíly mezi schopnostmi jednotlivých studentů, …

Page 7: Jednofaktorová ANOVA

Jak se projevují tyto dva typy vlivů?

Vliv sledovaného faktoruse projevuje rozdíly mezi třídami

Reziduální (zbytkové) vlivyse projevují rozdíly uvnitř tříd

Page 8: Jednofaktorová ANOVA

Co testujeme analýzou rozptylu?Jsou průměry jednotlivých výběrů (tříd) rozdílné vlivem různých středních hodnot příslušných populací, nebo lze rozdíly mezi průměry přičíst na vrub náhodnému kolísání?

Page 9: Jednofaktorová ANOVA

Jak kvantifikovat tyto rozdíly?Rozdíly mezi třídami (vliv faktoru) kvantifikuje mezitřídní variabilita (součet čtverců mezi třídami) :

Rozdíly uvnitř tříd (reziduální vlivy) kvantifikuje vnitřní variabilita (součet čtverců uvnitř tříd):

k

iiiB XXnSS

1

2

k

i

n

jiijW XXSS

1 1

2)(

Page 10: Jednofaktorová ANOVA

Celková variabilita SSTOTAL

Celková variabilita (celkový součet čtverců) je definována jako součet

mezitřídní variability a vnitřní variability.

k

i

n

jijTOTALBWTOTAL

i

XXSSSSSSSS1 1

2)(

Page 11: Jednofaktorová ANOVA

Srovnejte údaje ve dvou následujících tabulkách –bodové hodnocení náhodně vybraných studentů.

Gymnázium SPŠ OU

55 54 47

54 50 53

58 51 49

61 51 50

52 49 46

Gymnázium SPŠ OU

48 57 50

57 59 42

65 48 53

59 46 45

51 45 55

Page 12: Jednofaktorová ANOVA

Ukázka výpočtu mezitřídní a vnitřní variability

Page 13: Jednofaktorová ANOVA

0,130524955251552565 222

1

2

k

iiiB XXnSS

0,9449-4649-4751-5456-5456-55

)()(

22222

1 1

2

1 1

2

k

i

n

jiij

k

i

n

jiijW XXXXSS

Page 14: Jednofaktorová ANOVA

Rice Virtual Lab in Statisticsautor: David Lane

Applet – One Way Anova

ÚkolVšimněte si změn poměru mezitřídní a vnitrotřídní variability při zachování průměrů a proměnném výb. rozptylu.

Page 15: Jednofaktorová ANOVA

ANOVA

Je možné, že výběry reprezentovány takto rozdílnými průměry pocházejí ze stejného rozdělení?

H0:

HA:

Předpoklad: normalita výběrů,

(homoskedasticita)

k ...321

0H

223

22

21 ... k

Page 16: Jednofaktorová ANOVA

Odhad společného rozptylu σ2

za předpokladu platnosti H0

Odhad na základě mezitřídní variability (rozptyl mezi třídami, průměrný mezitřídní součet čtverců, vysvětlený rozptyl)

Odhad na základě vnitřní variability (rozptyl uvnitř tříd, průměrný součet čtverců uvnitř tříd, nevysvětlený rozptyl)

1

1

2

k

XXn

DF

SSMS

k

iii

B

BB

kN

XX

DF

SSMS

k

i

n

jiij

W

WW

i

1 1

2)(

Page 17: Jednofaktorová ANOVA

F-ratio (F-poměr)

Poměr dvou odhadů rozptylu (na základě výběrů z normálního rozdělení) má Fisher-Snedecorovo rozdělení.

Platí-li H0: MSB je srovnatelné s MSW, F-poměr se pohybuje kolem 1.

Platí-li HA: MSB je mnohem větší než MSW, F-poměr je mnohem větší než 1.

WBW

B DFDFFMS

MSratioF ;

Page 18: Jednofaktorová ANOVA

ANOVA - shrnutí

Formulace H0 a HA:

H0:

HA:

Testová statistika:

k ...321

0H

WBW

B DFDFFMS

MSratioF ;

Page 19: Jednofaktorová ANOVA

ANOVA - shrnutí

Předpoklady testu:• Normalita (výběry pocházejí z populací s

normálním rozdělením)• Homoskedasticita (shoda rozptylů – výběry

pocházejí z populací se shodným rozptylem)

Výpočet p-value: OBSxFvaluep 1

Page 20: Jednofaktorová ANOVA

Tabulka ANOVA

je typickým způsobem prezentace výsledku ANOVy.

Page 21: Jednofaktorová ANOVA

Síla testu

• Zvyšuje se se zvětšující se odchylkou od H0

(to nelze ovlivnit)• Zvyšuje se s počtem pozorování ve třídách• Zvyšuje se s vyvážeností tříd• Klesá s rostoucím počtem tříd

Page 22: Jednofaktorová ANOVA

Post Hoc analýza(vícenásobné porovnávání)

• Vysoký F-poměr indikuje existenci významných změn mezi populačními výběrovými průměry a vede k zamítnutí H0.

• V tomto případě je nutné identifikovat, které z populací signalizují významnou odchylku průměru.

• LSD metoda, Duncanův test, Tukeyův test pro významné rozdíly, Scheffého test a Bonferoniho test

• POZOR!!! Použijeme-li post hoc analýzu neoprávněně (v případě nezamítnuti H0), můžeme získat informaci o falešně významných rozdílech mezi průměry.

Page 23: Jednofaktorová ANOVA

Příklady

Litschmannová M., Statistika I. – cvičení,ANOVA – 13.1, 13.2

Page 24: Jednofaktorová ANOVA

Jak postupovat při nesplnění předpokladů?

Porušení homoskedasticity:Pokusíme se stabilizovat rozptyl pomocí transformací proměnných (není obsahem Statistiky I.). Pokud se nám rozptyl stabilizovat nepodaří, nemůžeme vliv faktoru testovat.

Porušení normality:Pokud je splněna podmínka homoskedasticity, můžeme použít neparametrickou obdobu ANOVy – Kruskall – Wallisův test (vícevýběrový test o shodě mediánů)

Page 25: Jednofaktorová ANOVA

Kruskall – Wallisův test

Formulace H0 a HA:H0:HA: neplatí H0

Volba testového kritéria:

( , Ti jsou součty pořadí pro jednotlivé výběry)

kIIIxxx 5,05,05,0

21

1

2

131

12

k

k

i i

i Nn

T

NNQ

k

iinN

1

Page 26: Jednofaktorová ANOVA

Kruskall – Wallisův test

Předpoklad testu:Homoskedasticita

Výpočet p-value:

OBSxFvaluep 1

Page 27: Jednofaktorová ANOVA

Příklad výpočtu pozorované hodnoty a p-value při Kruskall-Wallisově testu

VýběrI II III IV67 20 106 1322 -13 127 4910 11 13 9755 5 79 8594 38 37 46-17 53 31 3137 5 22 3728 70 61

76 1055 19125

Výběr

I II III IV

28 11 36 9,512,5 2 37 236,5 8 9,5 3525,5 4,5 31 3234 21 19 221 24 16,5 16,5

19 4,5 12,5 1915 29 27

30 6,525,5 33314

Rozsah výběru ni 8 7 12 10Součty pořadí Ti 145 75 293 193,5

20022,3 5625,0 85849,0 37442,32502,8 803,6 7154,1 3744,2

2iT

ii nT 2

24,713732,37441,71546,8038,250213737

1213

1

12

1

2

Nn

T

NNQ

k

i i

i

214 Q 0645,024,71 Fvaluep

Page 28: Jednofaktorová ANOVA

Příklady

Litschmannová M., Statistika I. – cvičení,ANOVA – 13.3