exploratornÍ statistika
DESCRIPTION
EXPLORATORNÍ STATISTIKA. Co je to statistika?. Číselné údaje o hromadných jevech . Sběr, zpracování a vyhodnocování stat. údajů. Teoretická disciplína, která se zabývá metodami sloužícími k popisu odhalování zákonitosti při působení podstatných činitelů na hromadné jevy. Základní pojmy. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/1.jpg)
EXPLORATORNÍ STATISTIKA
![Page 2: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/2.jpg)
Co je to statistika?
• Číselné údaje o hromadných jevech.
• Sběr, zpracování a vyhodnocování stat. údajů.
• Teoretická disciplína, která se zabývá metodami sloužícími k popisu odhalování zákonitosti při působení podstatných činitelů na hromadné jevy.
2
![Page 3: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/3.jpg)
Základní pojmy
Hromadný jev - jev vyskytující se v masovém měřítku u velkého počtu prvků (statistických jednotek).
Vlastnosti statistických jednotek vyjadřují statistické znaky (proměnné).
3
![Page 4: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/4.jpg)
Typy proměnných
4
![Page 5: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/5.jpg)
Kategoriální proměnná nominální (nemá smysl uspořádání)
5
![Page 6: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/6.jpg)
Číselné charakteristiky
TABULKA ROZDĚLENÍ ČETNOSTI
Hodnotyxi
Absolutní četnostini
Relativní četnostipi
x1 n1
x2 n2
xk nk
Celkem: 1
+ Modus
6
![Page 7: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/7.jpg)
7
Grafické znázornění
A) Histogram – sloupcový graf (bar chart)
![Page 8: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/8.jpg)
Co lze vyčíst z histogramu
Doc. Ing. Milan Hutyra, CSc. : Managment jakosti
(CZ.O4.01.3/3.2.15.2/0326 E-learningové prvky pro podporu výuky odborných a technických předmětů)
8
![Page 9: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/9.jpg)
9
Grafické znázornění
B) Výsečový graf – koláčový graf (pie chart)
![Page 10: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/10.jpg)
10
PříkladMinulý týden jsme zpracovali anketu týkající se názoru na
zavedení školného na vysokých školách.
Výsledky prezentuje následující graf:
![Page 11: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/11.jpg)
11
Příklad
Níže uvedená data představují částečný výsledek zaznamenaný při průzkumu zatížení jedné z ostravských křižovatek, a to barvu projíždějících automobilů. Data vyhodnoťte a graficky znázorněte.
![Page 12: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/12.jpg)
12
Řešení
![Page 13: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/13.jpg)
13
Kategoriální proměnná ordinální (má smysl uspořádání)
![Page 14: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/14.jpg)
14
Číselné charakteristikyTABULKA ROZDĚLENÍ ČETNOSTI
Hodnotyxi
Absolutní četnostini
Relativní četnostipi
Kumulativní četnostimi
Kumulativní relativní četnosti
Fi
x1 n1
x2 n2
xk nk
Celkem: 1
+ Modus
![Page 15: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/15.jpg)
15
Grafické znázornění
A) Histogram – sloupcový graf (bar chart)
![Page 16: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/16.jpg)
16
Grafické znázornění
B) Výsečový graf – koláčový graf (pie chart)
![Page 17: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/17.jpg)
17
Grafické znázornění
C) Polygon kumulativních četností
(Galtonova ogiva, S-křivka)
![Page 18: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/18.jpg)
18
Grafické znázornění
D) Paretův graf
![Page 19: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/19.jpg)
Paretův graf
Doc. Ing. Milan Hutyra, CSc. : Managment jakosti
(CZ.O4.01.3/3.2.15.2/0326 E-learningové prvky pro podporu výuky odborných a technických předmětů)
19
![Page 20: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/20.jpg)
20
Příklad
Následující data představují velikosti triček prodaných při výprodeji firmy TRIKO.
S, M, L, S, M, L, XL, XL, M, XL, XL, L, M, S, M, L, L, XL, XL, XL, L, M
a) Data vyhodnoťte a graficky znázorněte.
b) Určete kolik procent lidí si koupilo tričko velikosti nejvýše L.
![Page 21: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/21.jpg)
21
Řešení
![Page 22: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/22.jpg)
Kvantitativní (numerická) proměnná
22
![Page 23: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/23.jpg)
23
Číselné charakteristiky
A) Míry polohy
B) Míry variability
![Page 24: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/24.jpg)
24
Míry polohy
![Page 25: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/25.jpg)
25
Aritmetický průměr
n
xx
n
ii
1
![Page 26: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/26.jpg)
26
Vlastnosti aritmet. průměru
1.
neboli: Součet odchylek od průměru je 0.
2.
neboli: Přičteme-li ke každé hodnotě dat. souboru konstantu, průměr se o tuto konstantu změní.
3.
neboli: Vynásobíme-li každou hodnotu dat. souboru konstantou, průměr se změní také s násobkem této konstanty.
01
n
ii xx
xan
xa
n
xxa
n
ii
n
ii
!!:
xbn
bx
n
xxb
n
ii
n
ii
!!:
![Page 27: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/27.jpg)
27
Průměr není rezistentní vůči
odlehlým pozorováním
!!!!
![Page 28: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/28.jpg)
28
Kvantily
100p %-ní kvantil xp
odděluje 100p% menších hodnot od zbytku souboru
(100p% hodnot datového souboru je menších než toto číslo.)
![Page 29: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/29.jpg)
29
Jak se kvantily určují
• Výběrový soubor uspořádáme podle velikosti• Jednotlivým hodnotám proměnné přiřadíme
pořadí, a to tak, že nejmenší hodnota bude mít pořadí 1 a nejvyšší hodnota pořadí n (rozsah souboru)
• 100p%- ní kvantil je roven hodnotě proměnné s pořadím zp, kde: , přičemž zp zaokrouhlujeme na celá čísla !!!!!
5,0npz p
![Page 30: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/30.jpg)
30
Význačné kvantily
• KvartilyDolní kvartil x0,25
Medián x0,5 Horní kvartil x0,75
• Decily – x0,1; x0,2; ... ; x0,9
• Percentily – x0,01; x0,02; …; x0,99
• Minimum xmin a Maximum xmax
![Page 31: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/31.jpg)
31
PříkladNásledující data představují věk hudebníků vystupujících na přehlídce dechových orchestrů. Proměnnou věk považujte za spojitou. Určete:
a)Mediánb)Dolní kvartilc)Horní kvartild)První decil
![Page 32: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/32.jpg)
32
Interkvartilové rozpětí
25,075,0 xxIQR
Užití: např. při identifikaci odlehlých pozorování
![Page 33: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/33.jpg)
33
MAD
• Medián absolutních odchylek od mediánu
• Pomocná proměnná sloužící k identifikaci odlehlých pozorování
![Page 34: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/34.jpg)
34
PříkladPro data z předcházejícího příkladu určete MAD.
355,0 x MAD = 8
![Page 35: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/35.jpg)
35
Identifikace odlehlých pozorování• 1,5 násobek IQR
• Z-souřadnice
• Mediánová souřadnice
mpozorováníodlehlýmjexIQRxxIQRxx iii 5,15,1 75,025,0
s
xxsouřz i
i
.
mpozorováníodlehlýmjexsouřz ii 3.
MAD
xxsouřmediánová i
i .483,1. 5,0
mpozorováníodlehlýmjexsouřmediánová ii 3.
![Page 36: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/36.jpg)
36
PříkladV datech z předcházejícího příkladu identifikujte odlehlá pozorování:
a) Pomocí IQR
Odlehlé pozorování: 82
Vnitřní hradby
![Page 37: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/37.jpg)
37
b) Pomocí z-souřadnice, resp. med.-souřadnice
PříkladV datech z předcházejícího příkladu identifikujte odlehlá pozorování:
![Page 38: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/38.jpg)
38
Shorth
nejkratší interval,
v němž leží alespoň 50% hodnot proměnné
![Page 39: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/39.jpg)
39
PříkladPro data z předcházejícího příkladu určete shorth.
Shorth = 43;34
![Page 40: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/40.jpg)
40
Modus
střed shorthu
![Page 41: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/41.jpg)
41
Příklad:Pro data z předcházejícího příkladu určete modus.
Shorth =
Modus:
43;34
5,382
4334ˆ
x
Modus = 38,5 let, tj. typický věk hudebníka vystupujícího na přehlídce dech. orchestrů je 38,5 let.
![Page 42: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/42.jpg)
42
Míry variability
![Page 43: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/43.jpg)
43
Výběrový rozptyl
1
1
2
2
n
xxs
n
ii
![Page 44: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/44.jpg)
44
Vlastnosti výběrového rozptylu
1. Výběrový rozptyl konstanty je roven 0,neboli: jsou-li všechny hodnoty proměnné stejné, soubor má nulovou rozptýlenost.
2.
neboli: přičteme-li ke všem hodnotám proměnné konstantu, výběrový rozptyl se nezmění.
3.
neboli: vynásobíme-li všechny hodnoty proměnné konstantou, výběrový rozptyl se zvětší kvadrátem této konstanty (b2 krát)
21
2
1
2
21
2
2
111: x
n
ii
n
ii
yii
n
ii
x sn
xx
n
xaxasxay
n
xxsRa
221
22
1
22
1
2
21
2
2
1111: x
n
ii
n
ii
n
ii
yii
n
ii
x sbn
xxb
n
xxb
n
xbbxsbxy
n
xxsRb
![Page 45: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/45.jpg)
45
Nevýhoda výběrového rozptylu
Rozměr rozptylu charakteristiky je
druhou mocninou rozměru proměnné.
![Page 46: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/46.jpg)
46
Výběrová směrodatná odchylka
1
1
2
2
n
xxss
n
ii
![Page 47: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/47.jpg)
47
Nevýhody výb. směr. odchylky a výb. rozptylu
Neumožňují srovnání rozptylu proměnných, které mají různé rozměry (jednotky).
![Page 48: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/48.jpg)
48
Variační koeficient
%100x
sVx
(Směrodatná odchylka v procentech aritmetického průměru)
- Čím nižší var. koeficient, tím homogennější soubor.
- Vx>50% značí silně rozptýlený soubor.
![Page 49: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/49.jpg)
49
Výběrová šikmost
3
1
3
21 s
xx
nn
na
n
ii
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
a=0 a>0 a<0
![Page 50: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/50.jpg)
Jaký je vztah mezi šikmostí, mediánem a průměrem?
Úkoly:
V appletu generujte histogram odpovídající dat. souboru symetrickému (b=0), pozitivně zešikmenému (b>0) a negativně zešikmenému (b<0) a sledujte:
1. Průměrnou odchylku od průměru a průměrnou odchylku
od mediánu.
1. Vztah mezi průměrem a mediánem.
David M. Lane – Rice Virtual Lab in Statistics, Mean and Median
50
![Page 51: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/51.jpg)
Jaký je vztah mezi šikmostí, mediánem a průměrem?
51
Symetrická data Pozitivně zešikmená data
Negativně zešikmená data
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
0
10
20
30
40
50
60
1 2 3 4 5 6 7
Průměr = medián
Polovina dat.souboru je menší než průměr
Průměr > medián Průměr < medián
Nadpoloviční většina dat.souboru je menší než průměr
Nadpoloviční většina dat.souboru je větší než průměr
![Page 52: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/52.jpg)
52
Výběrová špičatost (normovaná)
32
13
321
1 2
41
4
nn
n
s
xx
nnn
nnb
n
ii
0
10
20
30
40
50
60
70
1 2 3 4 5 6 7
0
20
40
60
80
100
1 2 3 4 5 6 7
0
5
10
15
20
25
30
1 2 3 4 5 6 7
b=0 b>0 b<0
![Page 53: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/53.jpg)
53
Grafické znázornění num. proměnné
A.) Krabicový graf (Box plot)
Odlehlé pozorováníMin(po odstranění odlehlých pozorování)
Max(po odstranění odlehlých pozorování)
X0,25 X0,75
X0,5
průměr
![Page 54: EXPLORATORNÍ STATISTIKA](https://reader035.vdocuments.pub/reader035/viewer/2022070407/56814326550346895daf8fa2/html5/thumbnails/54.jpg)
54
Grafické znázornění num. proměnnéB.) Číslicový histogram (Stem and leaf)