semestrálna práca
TRANSCRIPT
Semestrálna práca
( Pravdepodobnosť a štatistika )
Č. zadania : 249344
Vypracoval: Jakub TomčoRočník : 2.Štud. skupina : 5.
Technická univerzita Ekonomická fakulta
Obsah
Úvod.......................................................................................................................................2
1 Zadanie................................................................................................................................3
2 Vypracovanie.......................................................................................................................5
2.1 Úloha A.1.....................................................................................................................5
2.2 Úloha A.2 a.)................................................................................................................9
2.3 Úloha A.2 b.)..............................................................................................................12
2.4 Úloha A.3...................................................................................................................13
2.5 Úloha B......................................................................................................................14
3 Záver.................................................................................................................................16
2
Technická univerzita Ekonomická fakulta
Úvod
Hlavným cieľom tejto semestrálnej práce je použitím nadobudnutých poznatkov
z predmetu Pravdepodobnosť a štatistika vyriešiť dva typy úloh. Na ich vyriešenie budem
používať štatistické funkcie tabuľkového editora, programu Microsoft Excel.
3
Technická univerzita Ekonomická fakulta
1 Zadanie
Každému študentovi bolo náhodne vygenerované individuálne zadanie.
Moje číslo zadania je 249344.
Číslo zadania: 249344
A
Majme výber pozorovaní: počet uchádzačov o zamestnanie vo veku 15 - 24 rokov v rokoch
2001 – 2009 na úrovni okresov SR v členení podľa pohlaví (tzn. 1.) muži a 2.) ženy, teda
máme dva výberové súbory). (Údaje stiahnete z regionálnej databázy ŠÚ SR).
A.1.
Pre druhý z týchto štatistických súborov:
a) zostrojte tabuľku početností, ktorá bude obsahovať jednoduché absolútne a relatívne
početnosti a kumulatívne absolútne a relatívne početnosti,
b) vytvorte bodový graf a koláčový graf
c) určte základné charakteristiky štatistického súboru.
A.2.
Pre prvý z týchto štatistických súborov:
a) na hladine významnosti 0,05 testujte, či výber možno pokladať za výber zo
základného súboru s normálnym rozdelením pravdepodobnosti,
b) bez ohľadu na záver v úlohe 2a) predpokladajme, že ide o výber zo základného súboru
s normálnym rozdelením a vypočítate pravdepodobnosť, že hodnota ukazovateľa
počet uchádzačov o zamestnanie vo veku 15 - 24 rokov bude väčšia ako hodnota 3.
najmenšieho pozorovania v súbore.
A.3.
Na základe získaných údajov testujte na hladine významnosti 0,01, či existujú rozdiely
v strednej hodnote ukazovateľa: počet uchádzačov o zamestnanie vo veku 15 - 24 rokov
medzi týmito dvoma pohlaviami (predpokladáme pritom normalitu rozdelenia súborov).
4
Technická univerzita Ekonomická fakulta
B
Starší automobil určitého typu je pojazdný za predpokladu, že sa na ňom vyskytne
maximálne 5 porúch. Automobil sme používali skoro každý deň počas celého minulého
roka, ani raz sa nestalo, žeby sa vyskytlo viac ako 5 porúch.
Každý deň sme zaznamenali počet porúch (stĺpec 249344 súboru udaje_3.xls) a auto
následne opravili.
a) Určte teoretické rozdelenie pravdepodobnosti, ktorým sa riadi počet porúch na
automobile.
b) Na hladine významnosti 0,05 testujte zhodu so zvoleným teoretickým
rozdelením pravdepodobnosti
5
Technická univerzita Ekonomická fakulta
2 Vypracovanie
2.1 Úloha A.1
A.1. Pre druhý z týchto štatistických súborov:
a) zostrojte tabuľku početností, ktorá bude obsahovať jednoduché absolútne a relatívne
početnosti a kumulatívne absolútne a relatívne početnosti,
b) vytvorte bodový graf a koláčový graf,
c) určte základné charakteristiky štatistického súboru
2.1.1 Riešenie:
a) Tabuľku početností som zostrojil na základe údajov, ktoré som získal z regionálnej
databázy ŠÚ SR. Vytváral som ju pre druhý výberový súbor, ktorého základne znaky
boli:
uchádzač o zamestnanie bola žena
uchádzač o zamestnanie bol vo veku 15 - 24 rokov
uchádzač sa zaujímal o zamestnanie v rokoch 2001 – 2009
uchádzač sa zaujímal o zamestnanie v niektorom z jednotlivých okresov SR (spolu 79
okresov)
Tabuľku početností som začal vytvárať najprv pomocou nástroja programu Excel –
Analýza dát – Histogram. Získal som jednotlivé triedy a absolútne jednoduché početnosti.
Relatívnu jednoduchú početnosť som získal pomocou vzťahu f i=
ni
n ,
kde „n“ predstavuje celkový počet pozorovaní, čiže rozsah výberu (v našom prípade 711).
Súčet relatívnych početností sa rovná 1.
6
Technická univerzita Ekonomická fakulta
Absolútnu kumulatívnu početnosť som vytvoril nasledovne:
prvá hodnota absolútnej kumulatívnej početnosti sa rovná prvej hodnote
jednoduchej absolútnej početnosti
ďalšie hodnoty absolútnej kumulatívnej početnosti som vypočítal podľa
vzťahu: N j=∑
i=1
j
n j
Relatívnu kumulatívnu početnosť som získal podľa vzťahu F i=
N i
n
Jednoduchá početnosť Kumulatívna početnosť
Triedy Absolútna Relatívna Absolútn
a
Relatívna
13 1 0,00140647 1 0,00140647
93,7692
3
45 0,063291139 46 0,06469761
174,538
5
118 0,165963432 164 0,23066104
255,307
7
119 0,167369902 283 0,39803094
336,076
9
89 0,125175809 372 0,52320675
416,846
2
70 0,098452883 442 0,62165963
497,615
4
45 0,063291139 487 0,68495077
578,384
6
53 0,074542897 540 0,75949367
659,153
8
26 0,036568214 566 0,79606188
739,923
1
32 0,045007032 598 0,84106892
820,692
3
22 0,030942335 620 0,87201125
7
Technická univerzita Ekonomická fakulta
901,461
5
19 0,026722925 639 0,89873418
982,230
8
13 0,018284107 652 0,91701828
1063 12 0,016877637 664 0,93389592
1143,76
9
8 0,011251758 672 0,94514768
1224,53
8
10 0,014064698 682 0,95921238
1305,30
8
6 0,008438819 688 0,9676512
1386,07
7
3 0,004219409 691 0,9718706
1466,84
6
3 0,004219409 694 0,97609001
1547,61
5
2 0,00281294 696 0,97890295
1628,38
5
5 0,007032349 701 0,9859353
1709,15
4
1 0,00140647 702 0,98734177
1789,92
3
1 0,00140647 703 0,98874824
1870,69
2
3 0,004219409 706 0,99296765
1951,46
2
1 0,00140647 707 0,99437412
2032,23
1
2 0,00281294 709 0,99718706
Další 2 0,00281294 711 1
711 1
b) Na základe tabuľky početností som zostrojil bodový graf a koláčový graf.
8
Technická univerzita Ekonomická fakulta
145 118
119
897045
53
26
3222
19 13 12 810
63 3 25 1 1 31 2 2
Absolútna početnosť13 93,76923077174,5384615 255,3076923336,0769231 416,8461538497,6153846 578,3846154659,1538462 739,9230769820,6923077 901,4615385982,2307692 10631143,769231 1224,5384621305,307692 1386,0769231466,846154 1547,6153851628,384615 1709,1538461789,923077 1870,6923081951,461538 2032,230769Další
0 5 10 15 20 25 300
20
40
60
80
100
120
140
Absolútna početnosť
Absolútna
c) Základné charakteristiky som zistil pomocou štatistického nástroja Analýza dát –
Popisná štatistika. Tieto charakteristiky by sa dali vypočítať aj pomocou funkcií
programu Excel.
Stredná hodnota (aritmetický priemer) výberového súboru je 432,5 – čo
znamená, že v priemere 433 žien vo veku 15 až 24 rokov sa uchádzalo o zamestnanie
9
Technická univerzita Ekonomická fakulta
v rokoch 2001 až 2009 (priemer je vypočítavaný za všetky okresy a za všetky roky –
iný by bol výpočet napríklad priemeru za jednotlivý okres alebo rok)
Rozptyl výberu, čo predstavuje priemer štvorcov odchýlok jednotlivých
hodnôt znaku od ich aritmetického priemeru je 128831,7571 – veľký rozptyl.
Smerodajnú odchýlku dostaneme ako druhú odmocninu z rozptylu, t.j.
358,93.
Špicatosť rozdelenia, čiže porovnanie stupňa koncentrácie hodnôt
prostredných veľkostí so stupňom nahustenia ostatných hodnôt je 3,667. Z toho
môžeme konštatovať, že rozdelenie je špicaté. Koeficient špicatosti 3,667 > 0.
Šikmosť rozdelenia, čiže porovnanie stupňa koncentrácie malých hodnôt
sledovaného štatistického znaku so stupňom koncentrácie veľkých hodnôt tohto znaku
je 1,764. Rozdelenie nie je symetrické, je natiahnuté doprava. Koeficient šikmosti
1,764 > 0, čo znamená, že väčšina hodnôt leží napravo od aritmetického priemeru.
Modus vyjadruje najpočetnejšiu hodnotu štatistického súboru, čo v našom
prípade je 250.
Medián je prostredná hodnota štatistického súboru, ktorá rozdeľuje daný
štatistický súbor na dve rovnaké časti. V našom prípade je to 307.
Ostatné charakteristiky, okrem týchto základných by sme mohli vypočítať
podľa štatistických funkcií programu Excel (HARMEAN, GEOMEAN, KVANTILY
atď.), ale nakoľko neboli v zadaní tak som sa nimi nezaoberal.
10
ŽENY
Str. hodnota 432,5161744
Chyba str.hodnoty 13,46097956
Medián 307
Modus 250
Smer. odchylka 358,9314101
Rozptyl výberu 128831,7571
Špicatosť 3,667318696
Šikmosť 1,764471449
Šikmosť rozdelenia 2100
Minimum 13
Maximum 2113
Súčet 307519
Počet 711
Najväčší (1) 2113
Najmenší (1) 13
Hladina spol. (95,0%) 26,42808624
Technická univerzita Ekonomická fakulta
2.2 Úloha A.2
A.2. Pre prvý z týchto štatistických súborov:
a) na hladine významnosti 0,05 testujte, či výber možno pokladať za výber zo základného
súboru s normálnym rozdelením pravdepodobnosti,
b) bez ohľadu na záver v úlohe 2a) predpokladajme, že ide o výber zo základného súboru s
normálnym rozdelením a vypočítate pravdepodobnosť, že hodnota ukazovateľa počet
uchádzačov o zamestnanie vo veku 15 - 24 rokov bude väčšia ako hodnota 3.najmenšieho
pozorovania v súbore.
2.2.1 Riešenie
A.2. a)
Nasledujúce úlohy som vypočítaval pre prvý mužov.
Pri riešení tejto úlohy bolo potrebné si najprv stanoviť podmienky pre hypotézy H0 a H1.
H0: Výber pochádza zo základného súboru s norm. rozdelením
H1: Výber nepochádza zo základného súboru s normálnym rozdelením
Na riešenie tejto úlohy som použil Pearsonov test, pričom α= 0,05
11
Technická univerzita Ekonomická fakulta
12
Triedy
Početno
sť F(b) pj n*pj test. char.
16 1
0,1575
28
0,1575
28
112,00
27
110,01162
13
144,84
62 118
0,2203
78
0,0628
49
44,685
83
120,28351
38
273,69
23 154
0,2955
75
0,0751
98
53,465
66
189,04009
03
402,53
85 104
0,3807
85
0,0852
1
60,584
07
31,112843
09
531,38
46 67
0,4722
28
0,0914
43
65,016
03
0,0605411
05
660,23
08 56
0,5651
66
0,0929
38
66,078
61
1,5372355
38
789,07
69 45
0,6546
22
0,0894
56
63,603
33
5,4412863
93
917,92
31 35
0,7361
69
0,0815
47
57,979
88
9,1078981
48
1046,7
69 28
0,8065
71
0,0704
02
50,055
66
9,7182222
72
1175,6
15 17
0,8641
33
0,0575
62
40,926
76
13,988154
32
1304,4
62 15
0,9087
06
0,0445
73
31,691
28
8,7910245
28
1433,3
08 9
0,9413
93
0,0326
87
23,240
76
8,7260129
57
1562,1
54 18
0,9640
95
0,0227
02
16,141
3
0,2140316
39
1691 7
0,9790
28
0,0149
33
10,617
07
1,2322790
52
1819,8
46 5
0,9883
3
0,0093
02
6,6137
55
0,3937561
2
1948,6
92 4
0,9938
18
0,0054
88
3,9018
34
0,0024697
67
2077,5
38 6
0,9968
84
0,0030
66
2,1800
49
6,6934400
69
2206,3
85 5
2
2
0,9985
07
0,0016
22
1,1535
6
2,1536
89
182,88436
74
2335,2 0,9993 0,0008 0,5780
Technická univerzita Ekonomická fakulta
Najprv som urobil tabuľku hodnôt. Opäť som využil program Excel – Analýza dát. Začal
som histogramom, Ďalším krokom bolo dopočítanie F (b) pomocou funkcie NORMDIST,
pravdepodobnosti pj a nakoniec n*pj.
Využitím Cochranovho pravidla som zlúčil niekoľko tried, pretože tie nespĺňali
požiadavku tohto pravidla = n*pj ≥ 1 ako je zobrazená tato podmienka v modrej tabuľke.
Potom som vypočítal test. charakteristiku nadefinovaním potrebného vzorca -
χ2=∑j=1
K (n j−np j )2
np j urobil súčet a funkciou CHIDIST vypočítal p-hodnotu.
Záver:
Keďže p-hodnota vyšla veľmi malé číslo v porovnaní s hladinou významnosti α,
môžem konštatovať, že hypotézu H0 zamietame a to znamená, že výber nepochádza zo
základného súboru s normálnym rozdelením pravdepodobnosti.
13
k-1-r
ak k-1-r ≥ 6, tak n*pj ≥ 1
27-1-2 = 24
p-
hodnota
2,7014E-
139
Technická univerzita Ekonomická fakulta
2.3 Úloha A.2. b)
Pri riešení tejto úlohy bolo potrebné najprv zistiť, ktorá je hodnota 3. najmenšieho
pozorovania v danom súbore. Preto som najprv vytvoril variačný rad pre údaje
pochádzajúce zo štatistického výberového súboru muži. Zistil som, že tretia najmenšia
hodnota je 21. Mal som vypočítať pravdepodobnosť, že hodnota ukazovateľa počet
uchádzačov o zamestnanie vo veku 15 - 24 rokov bude väčšia ako hodnota 3. najmenšieho
pozorovania v súbore.
Teda:
P(X>21) = 1 - P(X<21) = 1 - F(21)
Distribučnú funkciu v bode 21 som vypočítal pomocou funkcie NORMDIST, pričom
aritmetický priemer a smerodajnú odchýlku som zistil z daných údajov zo štatistického
súboru „muži“ pomocou funkcií AVERAGE, resp. STDEV. Požadovanú
pravdepodobnosť sme získali po odčítaní vypočítanej distribučnej funkcie v bode 21 od
čísla 1.
Priemer 569,787
6
Výb.odchýlk
a
551,214
6
F(21) = 0,159723
P(X>21) = 1- 0,159723 = 0,840277
Záver:
Pravdepodobnosť, že hodnota ukazovateľa počet uchádzačov o zamestnanie vo
veku 15 - 24 rokov bude väčšia ako hodnota 3. najmenšieho pozorovania v súbore je 84%.
14
Technická univerzita Ekonomická fakulta
15
Technická univerzita Ekonomická fakulta
2.4 Úloha A.3.
A.3. - Na základe získaných údajov testujte na hladine významnosti 0,01, či existujú
rozdiely v strednej hodnote ukazovateľa: počet uchádzačov o zamestnanie vo veku 15 - 24
rokov medzi týmito dvoma pohlaviami (predpokladáme pritom normalitu rozdelenia
súborov).
2.4.1 Riešenie:
Pri riešení tejto úlohy bolo potrebné si najprv stanoviť podmienky pre hypotézy H0 a H1.
H0: stredne hodnoty sú rovnaké
H1: stredne hodnoty nie sú rovnaké
Na porovnanie jednotlivých stredných hodnôt v daných súboroch som využil Z-test
pre stredne hodnoty, keďže ide o veľké súbory.
MUŽI ŽENY
Str. hodnota
569,787623
1
432,516174
4
Známy rozptyl 303837,56 128831,76
Pozorovanie 711 711
Hyp. rozdiel srř.
hodnôt 0
Z
5,56463863
6
P(Z<=z) (1)
1,31348E-
08
z krit (1)
2,32634787
4
P(Z<=z) (2)
2,62696E-
08
z krit (2) 2,57582930
16
Technická univerzita Ekonomická fakulta
4
Záver:
Pomocou tohto testu som zistil, že p-hodnota je rovná veľmi malému číslu, t.j.
2,62696E-08, čo znamená, že oproti hladine významnosti α = 0,01 je neporovnateľne malé.
Čiže hypotézu H0 zamietame. Stredné hodnoty nie sú rovnaké, teda existujú rozdiely v
stredných hodnotách.
2.5 Úloha B
Starší automobil určitého typu je pojazdný za predpokladu, že sa na ňom vyskytne
maximálne 5porúch. Automobil sme používali skoro každý deň počas celého minulého
roka, ani raz sa nestalo, žeby sa vyskytlo viac ako 5 porúch. Každý deň sme zaznamenali
počet porúch a auto následne opravili.
a) Určte teoretické rozdelenie pravdepodobnosti, ktorým sa riadi počet porúch na
automobile.
b) Na hladine významnosti 0,05 testujte zhodu so zvoleným teoretickým rozdelením
pravdepodobnosti.
2.5.1 Riešenie:
a) Teoretické rozdelenie pravdepodobnosti, ktorým sa riadi počet porúch na automobile
v našom prípade je diskrétne rozdelenie, konkrétne ide o BINOMICKÉ rozdelenie.
b) Opäť si najprv nadefinujeme počiatočné podmienky pre hypotézy H0 a H1.
H0: Výber pochádza zo základného súboru s binomickým rozdelením pravdepodobnosti
H1: Výber nepochádza zo základného súboru s binomickým rozdelením pravdepodobnosti
Potom pomocou funkcie AVERAGE som vypočítal aritmetický priemer daného
súboru. Keďže pre strednú hodnotu binomického rozdelenia platí E( X )=n∗p ,
potom pravdepodobnosť nastátia javu v každom pokuse som vypočítal ako
p=E( X )
n , kde n = 5
17
Technická univerzita Ekonomická fakulta
Priemer 2,49
5
p - pravdepodobnosť nastátia javu v každom
pokuse
0,49
9
Ďalším krokom bolo vytvorenie tabuľky početností, pri ktorej som využil funkciu
FREQUENCY. Pravdepodobnosť pj som vypočítal pomocou funkcie BINOMDIST,
potom n*pj a testovaciu charakteristiku nadefinovaním potrebného vzorca, ktorý som už
uvádzal pri úlohe A.2. za a). Opäť som využil Cochranovo pravidlo a tak som zistil, že nie
je potrebne zlučovať žiadne triedy, keďže každá hodnota n*pj spĺňa túto podmienku.
xj nj pj n*pj
test.
charakt.
5 7
0,0309
39
6,1877
5
0,2279906
25
4 32
0,1553
14
31,062
75
23,577836
89
3 62
0,3118
73
62,374
5
56,518790
73
2 58
0,3131
22
62,624
5
58,688371
77
1 34
0,1571
89
31,437
75
29,469558
39
0 7
0,0315
64
6,3127
51
6,3127505
01
200 1 200
174,79529
89
Cochranovo pravidlo
18
Technická univerzita Ekonomická fakulta
k-1-r
ak k-1-r ≥ 3, tak n*pj ≥ 4
k-1-r = 6-1-1 = 4
Získanú p-hodnotu, ktorú som vypočítal pomocou funkcie CHIDIST som porovnával so
zadanou hladinou významnosti α = 0,05.
Záver:
Keďže p-hodnota vyšla menšia ako daná hladina významnosti, môžeme
konštatovať, že výber nepochádza zo základného súboru s binomickým rozdelením
pravdepodobnosti a hypotézu H0 budeme zamietať.
19
Technická univerzita Ekonomická fakulta
3 Záver
Vyriešenie úloh síce pre mňa nebolo najjednoduchšie, musím uznať, že by som ho
nezvládol bez pomoci štúdia skrípt Pravdepodobnosť a štatistika a rád kolegov z môjho
odboru, ale táto práca mi rozšírila vedomosť z tohto predmetu, čo ma potešilo. Dúfam, že
sa Vám moja práca páčila.
20