pearsonův test dobré shody chí kvadrát
DESCRIPTION
Pearsonův test dobré shody chí kvadrát. n ei četnosti experimentální n oi četnosti očekávané (teoretické) Test se nehodí pro soubory s velmi malými četnosti v jednotlivých kategoriích!!! Zde je vhodnější Kolmogorovův test. - PowerPoint PPT PresentationTRANSCRIPT
Pearsonův test dobré shody chí kvadrát
nei četnosti experimentální
noi četnosti očekávané (teoretické)
Test se nehodí pro soubory s velmi malými četnosti v jednotlivých kategoriích!!! Zde je vhodnější Kolmogorovův test.
k
i oi
oiei
nnn
1
22 )(
Pozor!!!Všimněte si analogie mezi párovým testem (t-test, Wilcoxon) a testy shody (Smirnov, test dobré shody): v obou případech se sledují
rozdíly mezi párovými hodnotami.
Pearsonův i Smirnovův a Kolmogorovův test lze použít i pro diskrétní, ordinální i
nominální data.
III.
Závislost• Funkční
• Stochastická• Korelační• Regresní
» Lineární» Nelineární
Závislost dvou proměnných
• Grafické nebo tabelární zobrazení dat
• Hledání základních konfigurací a tendencí v datech
• Výpočet numerických charakteristik
Závislost dvou proměnnýchrozptylový graf (scatter plot)
kvadranty
Závislost dvou proměnných
Konfidenční elipsa pro danou hl. významnosti
Závislost dvou proměnných
Konfidenční elipsa pro danou hl. významnosti
Střed elipsy:
Osa x svírá s delší osou elipsy úhel
Plocha elipsy:
yx,0
22
22
yx
yx
sssrs
tg
21 rssQ yx
Pearsonův koeficient korelace
yx
xyxy ss
sr
1
))((1
n
yyxxs
n
iii
xy
kovariance
y
in
i x
ixy s
yys
xxn
r11
1
Standardizované hodnoty
0 ≤ r ≤ 1
• Vyjadřuje pouze sílu lineárního vztahu.
• Je velmi ovlivněn odlehlými hodnotami.
• Nerozlišuje mezi závisle a nezávisle proměnnou.
• Obě proměnné musí mít náhodný charakter.
• Korelace sama o sobě neznamená přítonmost příčinného vztahu!!!
Pearsonův koeficient korelace
Odhad a testování Pearsonova k. k.
• H0: r = 0
21 2
nr
rt
Síla asociace /r/
Malá 0,1 – 0,3Střední 0,3 – 0,7Silná 0,7 – 1,0
-1 ≤ r ≤ 1
r2 = koeficient determinace
Odhad a testování Pearsonova k. k.
• H0: r = ρ0
rrz
11ln
21
0
0
11
ln21
z
31
n
s z
z – tsz ≤ μz ≤ z + tsz
11
2
2
z
z
eer
3 nzzZ r
Odhad a testování Pearsonova k. k.
1
1111ln
21
rrz
31
31
21
21
nn
zzu
2
2211ln
21
rrz
•H0: r1 = r2
Pořadová korelace• Spearmanův
Hodí se spíše pro zařazovací ordinální data, pro zařazovací ordinální data se však běžně používá.
Di jsou rozdíly v pořadí hodnot xi a yi vzhledem k ostatním hodnotám výběru.
• KendallůvSleduje počet a charakter rozdílů v pořadí - pro j > i:
yj > yi konkordance (kladná asociace) P
yj < yi diskordance (kladná asociace) Q
Hodí se spíše pro porovnávací ordinální data
)1(6
1 2
2
nnD
r is
2/)1(
nnQPtk
Druhy korelace
• Formální korelace: u percentuálních dat
• Korelace způsobená společnou příčinou
• Korelace způsobená nehomogenitou
Závislost a asociace nominálních dat
Kontingenční tabulky čtyřpolní tabulka – pro dichotomická data
Marginální četnosti
Asociace v kontingenčních tabulkách
))()()((
2
dbcadcbaadbc
n
))()()(()( 2
2
dbcadcbanbcad
))()()(()2/( 2
2
dbcadcbannbcad
Je formálně shodný s Pearsonovým k. k.
Yatesova korekce na nespojitost
Chí kvadrát test nezávislosti
Fisherův exaktní (kombinatorický) test– pro malé četnosti
Asociace v kontingenčních tabulkách
!!!!1
!)!()!()!()!(
dcbandbcacdbaP
Zjišťujeme pravděpodobnost, že se vyskytne daná konfigurace četností a, b, c, d nebo jakákoli jiná, nulové hypotéze ještě nepříznivější(sloupcové a řádkové součty jsou stejné). Pokud je součet nižší než zvolená hladina významnosti – H0 se zamítá.
Woolfův G test nezávislosti
Asociace v kontingenčních tabulkách
G = 2[a.ln(a) + b.ln(b) + c.ln(c) + d.ln(d) – (a + b).ln(a + b) – (a + c).ln(a + c) –(b + d).ln(b + d) – (c + d).ln(c + d)]
Pro výběry malého rozsahu se použije korekce na nespojitost dle Yatese:
je-li empirická četnost menší než teoretická přičteme 0,5
je-li empirická četnost větší než teoretická odečteme 0,5
Získaná hodnota se srovná s kritickou hodnotou rozdělení chí kvadrát pro (r-1)(s-1) stupně volnosti.
Koeficienty asociace
• Yule:
• Simple matching (pozorovaná shoda):
• Rusell – Rao:
• Rogers – Tanimoto:
• Sneath:
bdacbdacQ
dcbadaRT
22
dcbaaRR
dcbadaSM
dcbacbDC
• Jaccard:
• Kulczynski 1:
• Sorensen – Dice:
• Anderberg:
• Ochiai – Otsuka:
Koeficienty asociace
cbaaA22
cbaaSD
22
cbaaJ
cbaK
1
))(( cabaaO
Kontingenční tabulky
Chí kvadrát test nezávislosti
r
i
s
j ji
ijr
i
s
j ji
jiijr
i
s
j ji
jiij
nnn
n
nnnnnn
n
ppnppnn
1 1 ..
2
1 1 ..
2..
1 1 ..
2..2 1
ˆˆ
)ˆˆ(
nn
p ii
..ˆ
nn
p jj
..ˆ
Asociace nominálních dat
Koeficienty kontingence
- odvozené od koeficientu χ 2, pro čtyřpolní tabulky jsou shodné s koeficientem Φ.
Cramerův koeficient kontingence
Čuprovův koeficient kontingence
Asociace v kontingenčních tabulkách
)1,1min(.
2
1
srnK
)1)(1(.
2
2
srnK
• Goodmanův – Kruskalův koeficient
• Kendallovo tau-c
kde m je menší z obou dimenzí v kontingenční tabulce.
Asociace ordinálních kategorií
QPQP
)1()(2
2
mn
QPmtc
Testy shody pro párová dichotomická data
Dichotomická data: Mc Nemarův test
H0: p12 = p21
Pro malé četnosti (b + c < 30):
cbcb
nnnn
2
2112
221122 )()(
cbcb
nnnn
2
2112
221122 )1()1(
Yatesova korekce na nespojitost
• Kappa koeficient shody
))(())(()(2
1 badbdccabcad
AeAeAo
Dichotomická data: srovnání 2 metod
Nominální data: Bowkerův test symetrie
Zobecnění McNemarova testu pro nominální znak s r úrovněmi:
r
i
r
j jiij
jiij
nnnn
1 1
22 )(
Kritérium má přibližně chí kvadrát rozdělení s r(r-1)/2 stupni volnosti.