jak statistika dokazuje závislost
DESCRIPTION
Jak statistika dokazuje závislost. Karel Zvára katedra pravděpodobnosti a matematické statistiky MFF UK [email protected] http: // www.karlin.mff.cuni.cz / ~zvara. teorie pravděpodobnosti matematická statistika. - pravděpodobnost šestky na hrací kostce TP: =1 / 6 (symetrie) - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/1.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
1
Jak statistika dokazuje závislost
Karel Zvára
katedra pravděpodobnosti a matematické statistiky MFF UK
http://www.karlin.mff.cuni.cz/~zvara
![Page 2: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/2.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
2
teorie pravděpodobnosti matematická statistika
- pravděpodobnost šestky na hrací kostce
TP: =1/6 (symetrie) MS: na základě pokusu odhadnout
pst nebo rozhodnout o tvrzení, např. =1/6
např. 15 šestek z 60 hodů: bodový odhad je 0,25, 95% intervalový odhad (0,147; 0,379)
![Page 3: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/3.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
3
příklad 1
Šestnáctileté slečny nosí náušnice častěji než stejně staří hoši
náušnice bez náušnic
celkem
hoši 2 8 10
dívky 8 3 11
celkem 10 11 21
![Page 4: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/4.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
4
příklad 2
IQ souvisí se školním prospěchem
1.0 1.5 2.0 2.5 3.0
70
80
90
10
01
10
12
01
30
14
0
Závislost IQ na známkách
známky
iq
dívkahoch
![Page 5: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/5.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
5
princip statistického usuzování (indukce) na základě dat (výběru) soudíme o
všech možných datech (populaci) populaci si zpravidla jen
představujeme výběr je podmnožinou populace,
má být reprezentativní nejlépe to zaručí náhodný výběr rozsah výběru ~ přesnost odhadu
![Page 6: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/6.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
6
možné populace (náušnice) všechny šestnáctileté dívky (hoši)
u nás všechny šestnáctileté studentky
(studenti) u nás všechny šestnáctileté studentky
(studenti) gymnázií u nás všechny šestnáctileté studentky
(studenti) dané třídy dané školy
![Page 7: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/7.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
7
možné výběry
náhodný výběr ze seznamu všech náhodný výběr školy, tam náhodný
výběr ze seznamu všech (riziko nereprezentativnosti)
informace u účastnících celostátního kola ... olympiády (riziko nereprezentativnosti)
![Page 8: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/8.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
8
populace vers. výběrpopulace výběr
pravděpodobnost relativní četnost
populační průměr výběrový průměr
parametr statistika
platnost nulové hypotézy H0
rozhodnutí o nulové hypotéze
neznámé, pevné známé, náhodné
![Page 9: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/9.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
9
statistické rozhodování
H0 – tvrzení o populaci, jehož popřením něco dokážeme, (nulová) hypotéza
H1 – alternativa, zpravidla (vědecky) dokazované tvrzení o populaci
nechceme příliš často něco falešně dokázat (prokázat)
předem zvolíme pravděpodobnost takové chyby (hladinu , zpravidla =5%)
![Page 10: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/10.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
10
schéma rozhodování
rozhodnutí H0 platí H0 neplatí
zamítnout H0 chyba 1. druhu
(pst )
správné rozhodnutí (pst … síla testu)
nezamítnout H0 (přijmout)
správné rozhodnutí
chyba 2. druhu
![Page 11: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/11.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
11
příklad s náušnicemi
d – pst náušnic u dívek
h – pst náušnic u hochů
H1: d > h
H0: d = h (pro d h bychom dostali stejná pravidla rozhodování)
![Page 12: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/12.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
12
náušnice bez náušnic
celkem
hoši a b a+b
dívky c d c+d
celkem a+c b+d n
hypotéze H0 svědčí, když podíly osob s náušnicemi jsou podobné:
dcc
baa
tj. 1bcad
OROR – poměr šancí (odds ratio)
![Page 13: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/13.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
13
náušnice bez náušnic
celkem
hoši a b a+b
dívky c d c+d
celkem a+c b+d n
alternativě svědčí, když podíl hochů s náušnicemi je podst. menší než u dívek:
dcc
baa
tj.1
bcad
OR
![Page 14: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/14.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
14
úvaha
nutno zachovat hladinu nechť hypotéza platí
fixujme počty hochů, dívek, náušnic
(marginální četnosti) pa – pst, že a hochů má náušnice (při
pevných marginálních četnostech jsou b, c, d volbou a určeny také)
výpočet pravděpodobnosti pa kombinatorickou úvahou
![Page 15: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/15.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
15
kolika způsoby lze rozdělit a+c náušnic mezi n osob:
ca
nm
kolik z nich dá a náušnic u hochů
c
dc
a
bama
pa = počet příznivých/počet možných
(klasická pravděpodobnost)
mm
p aa
kombinatorický výpočet
![Page 16: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/16.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
16
původní tabulka (a = 2)
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p2 = 0,02105
ln OR = –2,367
021051,0352716
16545
10
21
8
11
2
10
2
p
![Page 17: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/17.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
17
tabulka a = 1
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p1 = 0,00156
ln OR = –3,701
1 9
9 2
p2 = 0,02105
ln OR = –2,367
![Page 18: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/18.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
18
tabulka a = 0
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,00003
ln OR = –
0 10
10 1
p2 = 0,02105
ln OR = –2,367
![Page 19: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/19.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
19
tabulka a = 10
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,00000
ln OR =
10 0
0 11
p2 = 0,02105
ln OR = –2,367
![Page 20: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/20.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
20
tabulka a = 9
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,0031
ln OR = 4,500
9 1
1 10
p2 = 0,02105
ln OR = –2,367
![Page 21: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/21.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
21
tabulka a = 8
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,00702
ln OR = 2,890
8 2
2 9
p2 = 0,02105
ln OR = –2,367
![Page 22: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/22.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
22
tabulka a = 7
+ -
hoši 2 8 10
dívky 8 3 11
10 11 21
p = 0,05614
ln OR = 1,828
7 3
3 8
p2 = 0,02105
ln OR = –2,367
![Page 23: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/23.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
23
shrnutí (Fisherův test)
a pa OR ln OR0 0,00003 0,000 -
1 0,00156 0,025 -3,701
2 0,02105 0,094 -2,367
3 0,11227 0,245 -1,410
7 0,05614 2,625 1,828
8 0,00702 6,222 2,890
9 0,00031 18,000 4,500
10 0,00000 90,000
p2+p1+p0=0,02264
na 5% hladině zamítáme H0
p2+p1+p0+p8+p9
+p10=0,02997
zamítli bychom pro oboustrannou alternativu
![Page 24: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/24.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
24
poznámky
pro jakou populaci lze zjištění zobecnit?
jiný postup – chí-kvadrát test příklad s IQ – zcela jiný postup,
neboť data jsou ve spojitém měřítku, použije se regrese
![Page 25: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/25.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
25
chí-kvadrát test
porovnává empirické četnosti nij (skutečně nastaly) s teoretickými četnostmi oij (očekávané na H0)
počítá statistiku
kde
i j ij
ijij
o
on 2
2
n
nno ji
ij
![Page 26: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/26.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
26
hodnocení
H0 zamítá, je-li 2 příliš velké vlastnosti 2 asymptoticky,
použitelné, pokud oij dost velké (aspoň 5)
jinak Yatesova korekce zmenšením abs. hodnoty každého čitatele před umocněním o 0,5
![Page 27: Jak statistika dokazuje závislost](https://reader036.vdocuments.pub/reader036/viewer/2022062301/56813aec550346895da35a33/html5/thumbnails/27.jpg)
Jak statistika dokazuje závislost (Pardubice 040916)
27
náušnice
0157,0
838,524,5
)24,58(76,4
)76,42( 222
p
0478,0
916,376,4
5,076,422
2
p
Yates