Download - Jak statistika dokazuje závislost
Jak statistika dokazuje závislost (Pardubice 040916)
1
Jak statistika dokazuje závislost
Karel Zvára
katedra pravděpodobnosti a matematické statistiky MFF UK
http://www.karlin.mff.cuni.cz/~zvara
Jak statistika dokazuje závislost (Pardubice 040916)
2
teorie pravděpodobnosti matematická statistika
- pravděpodobnost šestky na hrací kostce
TP: =1/6 (symetrie) MS: na základě pokusu odhadnout
pst nebo rozhodnout o tvrzení, např. =1/6
např. 15 šestek z 60 hodů: bodový odhad je 0,25, 95% intervalový odhad (0,147; 0,379)
Jak statistika dokazuje závislost (Pardubice 040916)
3
příklad 1
Šestnáctileté slečny nosí náušnice častěji než stejně staří hoši
náušnice bez náušnic
celkem
hoši 2 8 10
dívky 8 3 11
celkem 10 11 21
Jak statistika dokazuje závislost (Pardubice 040916)
4
příklad 2
IQ souvisí se školním prospěchem
1.0 1.5 2.0 2.5 3.0
70
80
90
10
01
10
12
01
30
14
0
Závislost IQ na známkách
známky
iq
dívkahoch
Jak statistika dokazuje závislost (Pardubice 040916)
5
princip statistického usuzování (indukce) na základě dat (výběru) soudíme o
všech možných datech (populaci) populaci si zpravidla jen
představujeme výběr je podmnožinou populace,
má být reprezentativní nejlépe to zaručí náhodný výběr rozsah výběru ~ přesnost odhadu
Jak statistika dokazuje závislost (Pardubice 040916)
6
možné populace (náušnice) všechny šestnáctileté dívky (hoši)
u nás všechny šestnáctileté studentky
(studenti) u nás všechny šestnáctileté studentky
(studenti) gymnázií u nás všechny šestnáctileté studentky
(studenti) dané třídy dané školy
Jak statistika dokazuje závislost (Pardubice 040916)
7
možné výběry
náhodný výběr ze seznamu všech náhodný výběr školy, tam náhodný
výběr ze seznamu všech (riziko nereprezentativnosti)
informace u účastnících celostátního kola ... olympiády (riziko nereprezentativnosti)
Jak statistika dokazuje závislost (Pardubice 040916)
8
populace vers. výběrpopulace výběr
pravděpodobnost relativní četnost
populační průměr výběrový průměr
parametr statistika
platnost nulové hypotézy H0
rozhodnutí o nulové hypotéze
neznámé, pevné známé, náhodné
Jak statistika dokazuje závislost (Pardubice 040916)
9
statistické rozhodování
H0 – tvrzení o populaci, jehož popřením něco dokážeme, (nulová) hypotéza
H1 – alternativa, zpravidla (vědecky) dokazované tvrzení o populaci
nechceme příliš často něco falešně dokázat (prokázat)
předem zvolíme pravděpodobnost takové chyby (hladinu , zpravidla =5%)
Jak statistika dokazuje závislost (Pardubice 040916)
10
schéma rozhodování
rozhodnutí H0 platí H0 neplatí
zamítnout H0 chyba 1. druhu
(pst )
správné rozhodnutí (pst … síla testu)
nezamítnout H0 (přijmout)
správné rozhodnutí
chyba 2. druhu
Jak statistika dokazuje závislost (Pardubice 040916)
11
příklad s náušnicemi
d – pst náušnic u dívek
h – pst náušnic u hochů
H1: d > h
H0: d = h (pro d h bychom dostali stejná pravidla rozhodování)
Jak statistika dokazuje závislost (Pardubice 040916)
12
náušnice bez náušnic
celkem
hoši a b a+b
dívky c d c+d
celkem a+c b+d n
hypotéze H0 svědčí, když podíly osob s náušnicemi jsou podobné:
dcc
baa
tj. 1bcad
OROR – poměr šancí (odds ratio)
Jak statistika dokazuje závislost (Pardubice 040916)
13
náušnice bez náušnic
celkem
hoši a b a+b
dívky c d c+d
celkem a+c b+d n
alternativě svědčí, když podíl hochů s náušnicemi je podst. menší než u dívek:
dcc
baa
tj.1
bcad
OR
Jak statistika dokazuje závislost (Pardubice 040916)
14
úvaha
nutno zachovat hladinu nechť hypotéza platí
fixujme počty hochů, dívek, náušnic
(marginální četnosti) pa – pst, že a hochů má náušnice (při
pevných marginálních četnostech jsou b, c, d volbou a určeny také)
výpočet pravděpodobnosti pa kombinatorickou úvahou
Jak statistika dokazuje závislost (Pardubice 040916)
15
kolika způsoby lze rozdělit a+c náušnic mezi n osob:
ca
nm
kolik z nich dá a náušnic u hochů
c
dc
a
bama
pa = počet příznivých/počet možných
(klasická pravděpodobnost)
mm
p aa
kombinatorický výpočet
Jak statistika dokazuje závislost (Pardubice 040916)
16
původní tabulka (a = 2)
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p2 = 0,02105
ln OR = –2,367
021051,0352716
16545
10
21
8
11
2
10
2
p
Jak statistika dokazuje závislost (Pardubice 040916)
17
tabulka a = 1
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p1 = 0,00156
ln OR = –3,701
1 9
9 2
p2 = 0,02105
ln OR = –2,367
Jak statistika dokazuje závislost (Pardubice 040916)
18
tabulka a = 0
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,00003
ln OR = –
0 10
10 1
p2 = 0,02105
ln OR = –2,367
Jak statistika dokazuje závislost (Pardubice 040916)
19
tabulka a = 10
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,00000
ln OR =
10 0
0 11
p2 = 0,02105
ln OR = –2,367
Jak statistika dokazuje závislost (Pardubice 040916)
20
tabulka a = 9
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,0031
ln OR = 4,500
9 1
1 10
p2 = 0,02105
ln OR = –2,367
Jak statistika dokazuje závislost (Pardubice 040916)
21
tabulka a = 8
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,00702
ln OR = 2,890
8 2
2 9
p2 = 0,02105
ln OR = –2,367
Jak statistika dokazuje závislost (Pardubice 040916)
22
tabulka a = 7
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,05614
ln OR = 1,828
7 3
3 8
p2 = 0,02105
ln OR = –2,367
Jak statistika dokazuje závislost (Pardubice 040916)
23
shrnutí (Fisherův test)
a pa OR ln OR0 0,00003 0,000 -
1 0,00156 0,025 -3,701
2 0,02105 0,094 -2,367
3 0,11227 0,245 -1,410
7 0,05614 2,625 1,828
8 0,00702 6,222 2,890
9 0,00031 18,000 4,500
10 0,00000 90,000
p2+p1+p0=0,02264
na 5% hladině zamítáme H0
p2+p1+p0+p8+p9
+p10=0,02997
zamítli bychom pro oboustrannou alternativu
Jak statistika dokazuje závislost (Pardubice 040916)
24
poznámky
pro jakou populaci lze zjištění zobecnit?
jiný postup – chí-kvadrát test příklad s IQ – zcela jiný postup,
neboť data jsou ve spojitém měřítku, použije se regrese
Jak statistika dokazuje závislost (Pardubice 040916)
25
chí-kvadrát test
porovnává empirické četnosti nij (skutečně nastaly) s teoretickými četnostmi oij (očekávané na H0)
počítá statistiku
kde
i j ij
ijij
o
on 2
2
n
nno ji
ij
Jak statistika dokazuje závislost (Pardubice 040916)
26
hodnocení
H0 zamítá, je-li 2 příliš velké vlastnosti 2 asymptoticky,
použitelné, pokud oij dost velké (aspoň 5)
jinak Yatesova korekce zmenšením abs. hodnoty každého čitatele před umocněním o 0,5
Jak statistika dokazuje závislost (Pardubice 040916)
27
náušnice
0157,0
838,524,5
)24,58(76,4
)76,42( 222
p
0478,0
916,376,4
5,076,422
2
p
Yates