Download - ANALÝZA ROZPTYLU
ANALÝZA ROZPTYLU
1
2
PREDNÁŠKA Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA
Jednofaktorová ANOVA - vyvážený pokus Prijatie rozhodnutia v ANOVA Predpoklady ANOVA Jednofaktorová ANOVA - nevyvážený pokus Dvojfaktorová ANOVA - bez opakovania Dvojfaktorová ANOVA - s opakovaním Metódy viacnásobného porovnávania Overenie zhody variability
ČO JE ANOVA
analysis of variance - analýza rozptylu metóda na porovnávanie stredných hodnôt
(priemerov) niekoľkých ZS hľadanie rozdielov medzi priemermi sa
zakladá na analýze rôznych foriem rozptylu AR zároveň skúma vplyv kvalitatívneho faktora
(faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi
ANOVA je zovšeobecnením Studentovho t-testu pre nezávislé výbery
3
ČO JE ANOVA praktické využitie
najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov
počet predaných výrobkov v závislosti od umiestnenia výrobku v regáli, atď.
4
ZÁKLADNÉ POJMY skúmaný štatistický znak
Označenie: y výsledný kvantitatívny znak napr. počet predaných výrobkov
faktor Označenie: A., B, ... je kvalitatívna premenná
úroveň faktora jednotlivé obmeny faktora určité množstvo kvantitatívneho faktora, napr.
množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností,
určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni,
5
ČO JE ANOVA
pojmy jednofaktorová/viacfaktorová ANOVA
skúmame vplyv jedného/viacerých faktor na kvantitatívnu premennú
vyvážená/nevyvážená ANOVA podľa toho, či majú jednotlivé
skupiny rovnaký rozsah n
6
ČO JE ANOVA
pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora napríklad porovnávame
priemerné výdavky obyvateľov so základným vzdelaním, priemerné výdavky stredoškolsky vzdelaného obyvateľstva, priemerné výdavky vysokoškolsky vzdelaného obyvateľstva
7
1
2
3
SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU “VYVÁŽENÝ POKUS”
A 1 2… j… n Yi . yi .
1 y11 y12 y1j y1n Y1. y1.
2 y21 y22 y2j y2n Y2. y2.
… ……….. i yi1 yi2 yij yin Yi. yi.
… ……….. m ym1 ym2 ymj ymn Ym. ym.
Y.. y..
Úrovnefaktora
Celkový súčet
opakovania
riadkový súčet
riadkovýpriemer
celkovýpriemer
9
Model pre výslednú napozorovanú hodnotu
ijiij e α μ y
Kde: - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty,
i - efekt i-tej úrovne faktora A
eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov
kde i = 1, 2,…, m j = 1,2,…, n
10
ijiij e α μ y
Nulovú hypotézu potom môžeme formulovať aj nasledovne:Ho : 1 = 2 =… i = m = 0
t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze
H1: i 0 pre aspoň jedno i (i = 1,2…m)efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
ijiij e μy alebo
HYPOTÉZY PRI ANOVAHYPOTÉZY PRI ANOVAHYPOTÉZY PRI ANOVAHYPOTÉZY PRI ANOVA
11
Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky:
.y - y e est ..y - .y est
.y est ..y est
iijijii
ii
ijiij e α μ y
ijiij e α μy čo môžeme prepísať:
.)y(y ..)y - .y( ..)y - y( iijiij
PRINCÍP ANOVY
12
Podstata ANOVY spočíva v rozklade celkovej variabilityrozklade celkovej variability výsledného skúmaného znaku
2.i
m
1i
n
1jij
2..
m
1i.i
2..
m
1i
n
1jij )yy()yy(n )yy(
Celková variabilita
Variabilita medzi úrovňami faktora, spôsobená pôsobením
faktora A,“variabilita medzi
triedami, riadkami”
Variabilita náhodná,
reziduálna,“vo vnútri tried
Sc S1 Sr
PRINCÍP ANOVY
Typy variability celková variabilitacelková variabilita
na koľko sa odchyľujú konkrétne hodnoty v skupinách od celkového priemeru
variabilita medzi skupinamivariabilita medzi skupinami na koľko sa odchyľujú skupinové priemery od celkového
priemeru variabilita vnútri skupínvariabilita vnútri skupín
na koľko sa odchyľujú konkrétne hodnoty v skupinách od ich skupinového priemeru
čím väčšia je variabilita medzi skupinami v porovnaní
s variabilitou vnútri skupín, tým väčší je účinok faktora
13
PRIJATIE ROZHODNUTIA V ANOVA
Testovacia štatistika (F) porovnáva variabilitu S1a variabilitu Sr
čím väčšia je variabilita S1
tým je vplyv faktora väčší tým sú väčšie rozdiely medzi skupinovými priemermi tým viac dôkazov máme pre prijatie alternatívnej
hypotézy14
celková variabilita
variabilita medzi skupinami
variabilita vnútri skupín
celková suma štvorcov
suma štvorcovodchýlok - faktor
rezid. suma štvorcovodchýlok
priemerná suma štvorcov odchýlok
priemerná sumaštvorcov rezid. odchýlok
= F
15
2..
m
1i
n
1jij )yy(
2..
m
1i.i )yy(n
2.i
m
1i
n
1jij )yy(
Variabilitamedzi triedami
Reziduálnavariabilta
Celková variabilita
ANOVAVariabilita
1Súčet štvorcov
odchýlok
2Stupne
voľnosti
m-1
m.n - m
N-1=m .n-1
3Priemerný
štvorec(1/2)
S1
Sr
Sc
s12
sr2
4F-krité-
rium
2r
21
s
sF
VÝSLEDNÁ TABUĽKA ANOVYVÝSLEDNÁ TABUĽKA ANOVY
Ak F vyp F vyp F F. ((m-1,(N-m)) . ((m-1,(N-m)) Ho zamietame Ho zamietame, v takom prípade je aspoň efekt jednej úrovne
faktora preukazný, teda priemerná úroveň ukazovateľa sa štatisticky významne líši od ostatných. resp. aspoň
jeden
efekt i
je štatisticky významne
odlišný odnuly. 16
PRIJATIE ROZHODNUTIA V ANOVAPRIJATIE ROZHODNUTIA V ANOVA
obor zamietnutia H0
kritický obor,
Fobor nezamietnutia Ho
AkF vyp F
Ho nezamietame
PREDPOKLADY ANOVY
Nezávislosť výberových súborov štatistická nezávislosť náhodných chýb eij
Normalita výbery pochádzajú z normálnych rozdelení,
narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR
Homoskedasticita -zhodné reziduálne rozptyly
12 = 2
2 = …. = 2 , t.j. D(eij) = 2
tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom
17
SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU - “NEVYVÁŽENÝ POKUS”
18
A 1 2… j … ni Yi . yi .
1 y11 y12 y1j ... n1 Y1. y1.
2 y21 y22 y2j ... n2 Y2. y2.
… ……….. i yi1 yi2 yij ... ni Yi. yi.
… ……….. m ym1 ym2 ymj ... nm Ym.
ym.
Y.. y..
Rôzny počet opakovaní
Úrovnefaktora
riadkový súčet
riadkovýpriemer
Kde
m
1iin N
celkovýpriemer
19
2..
m
1i
in
1jij )yy(
2..
m
1i.ii )yy(n
2.i
m
1i
in
1jij )yy(
Variabilitamedzi
triedami
Reziduálnavariabilta
Celková variabilita
ANOVAVariabilita
1Súčet štvorcov
odchýlok
2Stupnevoľnosti
m-1
N - m
N-1
3Priemerný
štvorec(1/2)
S1
Sr
Sc
s12
sr2
4F-kritérium
2r
21
s
sF
m
1iin N
VÝSLEDNÁ TABUĽKA ANOVYVÝSLEDNÁ TABUĽKA ANOVY
DVOJFAKTOROVÁ ANALÝZA ROZPTYLU BEZ DVOJFAKTOROVÁ ANALÝZA ROZPTYLU BEZ OPAKOVANIA OPAKOVANIA
Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m
ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n
na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno len jedno pozorovaniepozorovanie (opakovanie) yij
overujeme tak vplyv dvoch nulových hypotéz
20
SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S JEDNÝM POZOROVANÍM V KAŽDEJ PODTRIEDE DAR
21
A 1 2 … j … n Yi . yi .
1 y11 y12 y1j y1n Y1. Y1.
2 y21 y22 y2j y2n Y2. y2.
… ……….. i yi1 yi2 yij yin Yi. yi.
… ……….. m ym1 ym2 ymj ymn Ym. ym.
Y.1 Y.2 ... Y.j ... Y.1
Y.. y.1 y.2 ... y.j ...
y.1 y..
n-úrovní faktora B
m-úrovnífaktora A
riadkové súčty
Riadkovépriemery
celkovýpriemer
B
Stĺpcové súčty
stĺpcové priemery
Overujeme platnosť dvoch nulových hypotéz
22
Hypotéza pre faktor Afaktor A:
HHoo 1: 1: 1 1 = = 2 2 =… =… i i = = m m == 00
t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze
HH111 :1 : i i 0 0
pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
ijjiij e α μ y Model pre skúmaný znak môžme zapísať
23
Hypotéza pre faktor B: faktor B: Ho 2: 1 = 2 =… j = n = 0
t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze
H12 : j 0
pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly
24
Variabilitamedzi
riadkami
Reziduálnavariabilta
Celková variabilita
DARVariabilita
1Súčet štvorcov
odchýlok
2Stupnevoľnosti
m-1
n-1
(m-1)(n-1)
3Priem.štvorec
(1/2)
Sr
Sc
s12
sr2
4F-kritérium
2
21
1
rs
sF S1
S2
Variabilita medzi
stĺpcami
m.n -1
2
22
2
rs
sF s2
2
VÝSLEDNÁ TABUĽKA ANOVYVÝSLEDNÁ TABUĽKA ANOVY
ROZKLAD CELKOVEJ VARIABILITY SKÚMANÉHO ZNAKU: SC= S1 + S2 + S R
25
2m
1ii 1 ..)y.y(nS
2n
1jj2 ..)y.y(m S
2ji
m
1i
n
1jij r ..)y.y.yy(S
2m
1i
in
1jijc ..)yy( S
Variabilita medzi riadkami, vplyv faktora A
Variabilita medzi stĺpcami,vplyv faktora B
Reziduálna
variabilita
Celková variabilita
DVOJFAKTOROVÁ ANALÝZA ROZPTYLU DVOJFAKTOROVÁ ANALÝZA ROZPTYLU S S OPAKOVANÍM OPAKOVANÍM
Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktora B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n
Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu)
Pre každú kombináciu úrovní máme viacviac pozorovanpozorovaníí (opakovaní) yij
Overujeme tak vplyv troch nulových hypotéz
26
SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S INTERKACIOU
Faktor B B1 B2 ... Bn
A1 yijk Priemer
A1B1 Priemer A1B2
Priemer A1Bn
Priemer A1
A2 Priemer
A2B1 Priemer A2B2
Priemer A2Bn
Priemer A2
.
.
.
Am
Faktor A
Priemer
AmB1 Priemer AmB2
Priemer AmBn
Priemer Am
Priemer B1
Priemer B2
... Priemer Bn
Celkový priemer
27
Overujeme platnosť troch nulových hypotéz
28
Hypotéza pre faktor Afaktor A:
Ho : 1 = 2 =… i = m = 0
t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze
H1 : i 0
pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
( )ij i j ij ijy μ α e Model pre skúmaný znak môžme zapísať
29
Hypotéza pre faktor Bfaktor B: Ho: 1 = 2 =… j = n = 0
t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze
H1 : j 0 pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly
Hypotéza pre interakciu (interakciu ()ij)ij: : Ho : 11 = 12 =… ij = mn = 0
t.j. že pôsobenie interakcie je nulové, teda nepreukazné, oproti alternatívnej hypotéze
H1 : ()ij 0
30
Variabilitamedzi
riadkami
Reziduálnavariabilta
Celková variabilita
DARVariabilita
1Súčet štvorcov
odchýlok
2Stupnevoľnosti
m-1
n-1
m.n.(k-1)
3Priem.štvorec
(1/2)
Sr
Sc
s12
sr2
4F-kritérium
2
21
1
rs
sF S1
S2
Variabilita medzi
stĺpcami
m.n -1
2
22
2
rs
sF s2
2
Interakcia S12(m-1)(n-1)
212
12 2r
sF
ss12
2
VÝSLEDNÁ TABUĽKA ANOVYVÝSLEDNÁ TABUĽKA ANOVY
ROZKLAD CELKOVEJ VARIABILITY SKÚMANÉHO ZNAKU: SC= S1 + S2 + S12 +S R
31
m2
1 i 1
. ( .. ...)iS n k y y
n
22
j 1
. ( . . ...)jS m k y y
2
1 1 1
( .)m n l
r ijk iji j k
S y y
2
1 1 1
( ...)inm l
c iji j k
S y k y
Variabilita medzi riadkami, vplyv faktora A
Variabilita medzi stĺpcami, vplyv faktora B
Reziduálna variabilita
Celková variabilita
m2
12 . .. ...1 j=1
( )n
ij i ijii
S k y y y y
Variabilita z
interakcie
METÓDY VIACNÁSOBNÉHO POROVNÁVANIA v prípade, že H0 zamietame, zaujíma nás,
medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely
existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov
Ktoré priemery sú významne rozdielne? použijeme test kontrastov
testy, ktoré robia dve alebo viac porovnaní medzi tromi alebo viacerými priemermi
je možné vytvoriť m*(m-1)/2 kontrastov veľký počet testov
32
TESTY KONTRASTOVTESTY KONTRASTOV
1. Fischerov LSD test2. Duncanov test3. Student-Newman-Keulsov test4. Tukeyho test5. Scheffeho test
33
FISCHEROV LSD TESTFISCHEROV LSD TEST
LSD = Least Significant Difference je založený na t-teste štatisticky významný rozdiel je
potvrdený, ak platí vzťah:
kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti
n
s2tyy
2r
)1n(m,.j.i
)1n(m,t
34
DUNCANOV TESTDUNCANOV TEST
štatisticky významný rozdiel je potvrdený, ak platí vzťah:
kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti
n
sDyy
2r
.j.i
D
35
STUDENT-NEWMAN-KEULSOV STUDENT-NEWMAN-KEULSOV TESTTEST
štatisticky významný rozdiel je potvrdený, ak platí vzťah:
kde: tabuľovaná hodnota Student-Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti
n
sgyy
2r
.j.i
g
36
TUKEYHO TESTTUKEYHO TEST
štatisticky významný rozdiel je potvrdený, ak platí vzťah:
kde: tabuľovaná hodnota Tukeyho testu.
)1n(m,m,q
n
s.qyy
2r
)1n(m,m,.j.i
37
SCHEFFEHO TESTSCHEFFEHO TEST
štatisticky významný rozdiel je potvrdený, ak platí vzťah:
kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti
)1n(m),1m(,F
)1n(m),1m(,2r
ji.j.i F.s).1m.(
n
1
n
1yy
38
KTORÝ TEST POUŽIŤ?KTORÝ TEST POUŽIŤ?
Test Sila testu (1-β) Chyba I. druhu (α)
LSD najvyššia najvyššia
Duncan
Student-Newman-Keuls
Tukey
Scheffe najnižšia najnižšia
39
viac konzervatívn
y, menej pravdepo-dobné, že
bude objavený skutočný rozdiel
viac pravdepo-dobné,, že
bude určený
nesprávny rozdiel
KTORÝ TEST POUŽIŤ?KTORÝ TEST POUŽIŤ?
závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje.
40
TESTY KONTRASTOV - STATGRAPHICSTESTY KONTRASTOV - STATGRAPHICS
Multiple Range Tests
Method: 95,0 percent LSDCount Mean Homogeneous Groups
Col_4 5 303,8 XCol_3 5 337,0 XXCol_1 5 344,2 XCol_2 5 349,8 X
Contrast Sig. Difference +/- Limits
Col_1 - Col_2 -5,6 38,7085Col_1 - Col_3 7,2 38,7085Col_1 - Col_4 * 40,4 38,7085Col_2 - Col_3 12,8 38,7085Col_2 - Col_4 * 46,0 38,7085Col_3 - Col_4 33,2 38,7085* denotes a statistically significant difference.
41
TESTY KONTRASTOV - STATGRAPHICSTESTY KONTRASTOV - STATGRAPHICS
Col_1 Col_2 Col_3 Col_4
Means and 95,0 Percent LSD Intervals
280
300
320
340
360
380
Mea
n
42
OVERENIE ZHODY VARIABILITYOVERENIE ZHODY VARIABILITY
predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné.
H0:
Testy: Cochranov test Hartleyov test Bartlettov test
22m
22
21 ....
43
COCHRANOV TESTCOCHRANOV TEST
je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi
testovacia charakteristika:
ak G ≥ Gα, m, n-1 → H0 zamietame Gα, m, n-1 - tabuľková hodnota pri m a n-1
stupňoch voľnosti
2m1
212
211
2m1
212
211
s...ss
)s...ssmax(G
44
HARTLEYOV TESTHARTLEYOV TEST
testovacia charakteristika:
ak H ≥ Hα, m, n-1 → H0 zamietame
Hα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti
)s...ssmin(
)s...ssmax(H
2m1
212
211
2m1
212
211
45
BARTLETTOV TESTBARTLETTOV TEST spočíva v porovnávaní aritmetického a
geometrického priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké.
testovacia charakteristika:2
2 21
1 1
21
2 1
1
1
1
2,3026 .log .log
.
1 1 11
3( 1)
m m
i i ii i
m
i ii
m
ii
m
mi i
ii
M
C
M k s k s
s ks
k
Cm k k
46
ki = ni-1
m – počet výberových súborov
ni – rozsah i-teho výberového súboru
Ak χ2χ2(m-1), potom H0 zamietame
OVERENIE ZHODY VARIABILITY - OVERENIE ZHODY VARIABILITY - STATGRAPHICSSTATGRAPHICS
Variance Check
Test P-Value Bartlett's 1,70592 0,0517136
47
48
ĎAKUJEM ZA POZORNOSŤĎAKUJEM ZA POZORNOSŤ