jednofaktorová anova
DESCRIPTION
Jednofaktorová ANOVA. Jednofaktorová analýza rozptylu (Test o shodě více než dvou středních hodnot). Motivační příklady. Porovnání výsledků přijímacího řízení u absolventů různých typů středních škol (gymnázium, SPŠ, SOU) Srovnání obsahu dusíku u 5-ti příbuzných druhů rostlin - PowerPoint PPT PresentationTRANSCRIPT
Jednofaktorová ANOVA
Jednofaktorová analýza rozptylu(Test o shodě více než dvou středních hodnot)
Motivační příklady
• Porovnání výsledků přijímacího řízení u absolventů různých typů středních škol (gymnázium, SPŠ, SOU)
• Srovnání obsahu dusíku u 5-ti příbuzných druhů rostlin
• Srovnání platů podle bydliště respondentů (krajů) …
Proč nepoužívat řadu dvouvýběrových t-testů?
Skupina I Skupina II
Skupina III
• Porovnáváme-li k tříd (skupin), provádíme testů. V každém z nich je pravděpodobnost chyby prvního druhu α.
• Pravděpodobnost, že uděláme alespoň jednu chybu prvního druhu pak roste s počtem porovnávaných tříd.
2
1
2
kkk
Pravděpodobnost chyby I. druhu při srovnávání typu „každý s každým“ - „Statistical fishing“
Motivační příklad Porovnejte úspěšnost absolventů gymnázii, SPŠ a odborných učilišť s maturitou (OU) u přijímací zkoušky z matematiky. Dosažené výsledky náhodně vybraných patnácti studentů jsou uvedeny v následující tabulce.
Gymnázium SPŠ OU
55 54 47
54 50 53
58 51 49
61 51 50
52 49 46
Co je příčinou rozdílných výsledků?
Vliv sledovaného faktorutj. rozdíly mezi kvalitou výuky na jednotlivých typech středních škol.
Reziduální (zbytkové) vlivytj. rozdíly mezi školami v rámci tříd (není gymnázium jako gymnázium), rozdíly mezi pedagogy v rámci jedné školy, rozdíly mezi schopnostmi jednotlivých studentů, …
Jak se projevují tyto dva typy vlivů?
Vliv sledovaného faktoruse projevuje rozdíly mezi třídami
Reziduální (zbytkové) vlivyse projevují rozdíly uvnitř tříd
Co testujeme analýzou rozptylu?Jsou průměry jednotlivých výběrů (tříd) rozdílné vlivem různých středních hodnot příslušných populací, nebo lze rozdíly mezi průměry přičíst na vrub náhodnému kolísání?
Jak kvantifikovat tyto rozdíly?Rozdíly mezi třídami (vliv faktoru) kvantifikuje mezitřídní variabilita (součet čtverců mezi třídami) :
Rozdíly uvnitř tříd (reziduální vlivy) kvantifikuje vnitřní variabilita (součet čtverců uvnitř tříd):
k
iiiB XXnSS
1
2
k
i
n
jiijW XXSS
1 1
2)(
Celková variabilita SSTOTAL
Celková variabilita (celkový součet čtverců) je definována jako součet
mezitřídní variability a vnitřní variability.
k
i
n
jijTOTALBWTOTAL
i
XXSSSSSSSS1 1
2)(
Srovnejte údaje ve dvou následujících tabulkách –bodové hodnocení náhodně vybraných studentů.
Gymnázium SPŠ OU
55 54 47
54 50 53
58 51 49
61 51 50
52 49 46
Gymnázium SPŠ OU
48 57 50
57 59 42
65 48 53
59 46 45
51 45 55
Ukázka výpočtu mezitřídní a vnitřní variability
0,130524955251552565 222
1
2
k
iiiB XXnSS
0,9449-4649-4751-5456-5456-55
)()(
22222
1 1
2
1 1
2
k
i
n
jiij
k
i
n
jiijW XXXXSS
Rice Virtual Lab in Statisticsautor: David Lane
Applet – One Way Anova
ÚkolVšimněte si změn poměru mezitřídní a vnitrotřídní variability při zachování průměrů a proměnném výb. rozptylu.
ANOVA
Je možné, že výběry reprezentovány takto rozdílnými průměry pocházejí ze stejného rozdělení?
H0:
HA:
Předpoklad: normalita výběrů,
(homoskedasticita)
k ...321
0H
223
22
21 ... k
Odhad společného rozptylu σ2
za předpokladu platnosti H0
Odhad na základě mezitřídní variability (rozptyl mezi třídami, průměrný mezitřídní součet čtverců, vysvětlený rozptyl)
Odhad na základě vnitřní variability (rozptyl uvnitř tříd, průměrný součet čtverců uvnitř tříd, nevysvětlený rozptyl)
1
1
2
k
XXn
DF
SSMS
k
iii
B
BB
kN
XX
DF
SSMS
k
i
n
jiij
W
WW
i
1 1
2)(
F-ratio (F-poměr)
Poměr dvou odhadů rozptylu (na základě výběrů z normálního rozdělení) má Fisher-Snedecorovo rozdělení.
Platí-li H0: MSB je srovnatelné s MSW, F-poměr se pohybuje kolem 1.
Platí-li HA: MSB je mnohem větší než MSW, F-poměr je mnohem větší než 1.
WBW
B DFDFFMS
MSratioF ;
ANOVA - shrnutí
Formulace H0 a HA:
H0:
HA:
Testová statistika:
k ...321
0H
WBW
B DFDFFMS
MSratioF ;
ANOVA - shrnutí
Předpoklady testu:• Normalita (výběry pocházejí z populací s
normálním rozdělením)• Homoskedasticita (shoda rozptylů – výběry
pocházejí z populací se shodným rozptylem)
Výpočet p-value: OBSxFvaluep 1
Tabulka ANOVA
je typickým způsobem prezentace výsledku ANOVy.
Síla testu
• Zvyšuje se se zvětšující se odchylkou od H0
(to nelze ovlivnit)• Zvyšuje se s počtem pozorování ve třídách• Zvyšuje se s vyvážeností tříd• Klesá s rostoucím počtem tříd
Post Hoc analýza(vícenásobné porovnávání)
• Vysoký F-poměr indikuje existenci významných změn mezi populačními výběrovými průměry a vede k zamítnutí H0.
• V tomto případě je nutné identifikovat, které z populací signalizují významnou odchylku průměru.
• LSD metoda, Duncanův test, Tukeyův test pro významné rozdíly, Scheffého test a Bonferoniho test
• POZOR!!! Použijeme-li post hoc analýzu neoprávněně (v případě nezamítnuti H0), můžeme získat informaci o falešně významných rozdílech mezi průměry.
Příklady
Litschmannová M., Statistika I. – cvičení,ANOVA – 13.1, 13.2
Jak postupovat při nesplnění předpokladů?
Porušení homoskedasticity:Pokusíme se stabilizovat rozptyl pomocí transformací proměnných (není obsahem Statistiky I.). Pokud se nám rozptyl stabilizovat nepodaří, nemůžeme vliv faktoru testovat.
Porušení normality:Pokud je splněna podmínka homoskedasticity, můžeme použít neparametrickou obdobu ANOVy – Kruskall – Wallisův test (vícevýběrový test o shodě mediánů)
Kruskall – Wallisův test
Formulace H0 a HA:H0:HA: neplatí H0
Volba testového kritéria:
( , Ti jsou součty pořadí pro jednotlivé výběry)
kIIIxxx 5,05,05,0
21
1
2
131
12
k
k
i i
i Nn
T
NNQ
k
iinN
1
Kruskall – Wallisův test
Předpoklad testu:Homoskedasticita
Výpočet p-value:
OBSxFvaluep 1
Příklad výpočtu pozorované hodnoty a p-value při Kruskall-Wallisově testu
VýběrI II III IV67 20 106 1322 -13 127 4910 11 13 9755 5 79 8594 38 37 46-17 53 31 3137 5 22 3728 70 61
76 1055 19125
Výběr
I II III IV
28 11 36 9,512,5 2 37 236,5 8 9,5 3525,5 4,5 31 3234 21 19 221 24 16,5 16,5
19 4,5 12,5 1915 29 27
30 6,525,5 33314
Rozsah výběru ni 8 7 12 10Součty pořadí Ti 145 75 293 193,5
20022,3 5625,0 85849,0 37442,32502,8 803,6 7154,1 3744,2
2iT
ii nT 2
24,713732,37441,71546,8038,250213737
1213
1
12
1
2
Nn
T
NNQ
k
i i
i
214 Q 0645,024,71 Fvaluep
Příklady
Litschmannová M., Statistika I. – cvičení,ANOVA – 13.3