semestrálna práca

Semestrálna práca

( Pravdepodobnosť a štatistika )

Č. zadania : 249344

Vypracoval: Jakub TomčoRočník : 2.Štud. skupina : 5.

Technická univerzita Ekonomická fakulta

Obsah

Úvod.......................................................................................................................................2

1 Zadanie................................................................................................................................3

2 Vypracovanie.......................................................................................................................5

2.1 Úloha A.1.....................................................................................................................5

2.2 Úloha A.2 a.)................................................................................................................9

2.3 Úloha A.2 b.)..............................................................................................................12

2.4 Úloha A.3...................................................................................................................13

2.5 Úloha B......................................................................................................................14

3 Záver.................................................................................................................................16

2


Úvod

Hlavným cieľom tejto semestrálnej práce je použitím nadobudnutých poznatkov

z predmetu Pravdepodobnosť a štatistika vyriešiť dva typy úloh. Na ich vyriešenie budem

používať štatistické funkcie tabuľkového editora, programu Microsoft Excel.

3


1 Zadanie

Každému študentovi bolo náhodne vygenerované individuálne zadanie.

Moje číslo zadania je 249344.

Číslo zadania: 249344

A

Majme výber pozorovaní: počet uchádzačov o zamestnanie vo veku 15 - 24 rokov v rokoch

2001 – 2009 na úrovni okresov SR v členení podľa pohlaví (tzn. 1.) muži a 2.) ženy, teda

máme dva výberové súbory). (Údaje stiahnete z regionálnej databázy ŠÚ SR).

A.1.

Pre druhý z týchto štatistických súborov:

a) zostrojte tabuľku početností, ktorá bude obsahovať jednoduché absolútne a relatívne

početnosti a kumulatívne absolútne a relatívne početnosti,

b) vytvorte bodový graf a koláčový graf

c) určte základné charakteristiky štatistického súboru.

A.2.

Pre prvý z týchto štatistických súborov:

a) na hladine významnosti 0,05 testujte, či výber možno pokladať za výber zo

základného súboru s normálnym rozdelením pravdepodobnosti,

b) bez ohľadu na záver v úlohe 2a) predpokladajme, že ide o výber zo základného súboru

s normálnym rozdelením a vypočítate pravdepodobnosť, že hodnota ukazovateľa

počet uchádzačov o zamestnanie vo veku 15 - 24 rokov bude väčšia ako hodnota 3.

najmenšieho pozorovania v súbore.

A.3.

Na základe získaných údajov testujte na hladine významnosti 0,01, či existujú rozdiely

v strednej hodnote ukazovateľa: počet uchádzačov o zamestnanie vo veku 15 - 24 rokov

medzi týmito dvoma pohlaviami (predpokladáme pritom normalitu rozdelenia súborov).

4


B

Starší automobil určitého typu je pojazdný za predpokladu, že sa na ňom vyskytne

maximálne 5 porúch. Automobil sme používali skoro každý deň počas celého minulého

roka, ani raz sa nestalo, žeby sa vyskytlo viac ako 5 porúch.

Každý deň sme zaznamenali počet porúch (stĺpec 249344 súboru udaje_3.xls) a auto

následne opravili.

a) Určte teoretické rozdelenie pravdepodobnosti, ktorým sa riadi počet porúch na

automobile.

b) Na hladine významnosti 0,05 testujte zhodu so zvoleným teoretickým

rozdelením pravdepodobnosti

5


2 Vypracovanie

2.1 Úloha A.1

A.1. Pre druhý z týchto štatistických súborov:

a) zostrojte tabuľku početností, ktorá bude obsahovať jednoduché absolútne a relatívne

početnosti a kumulatívne absolútne a relatívne početnosti,

b) vytvorte bodový graf a koláčový graf,

c) určte základné charakteristiky štatistického súboru

2.1.1 Riešenie:

a) Tabuľku početností som zostrojil na základe údajov, ktoré som získal z regionálnej

databázy ŠÚ SR. Vytváral som ju pre druhý výberový súbor, ktorého základne znaky

boli:

uchádzač o zamestnanie bola žena

uchádzač o zamestnanie bol vo veku 15 - 24 rokov

uchádzač sa zaujímal o zamestnanie v rokoch 2001 – 2009

uchádzač sa zaujímal o zamestnanie v niektorom z jednotlivých okresov SR (spolu 79

okresov)

Tabuľku početností som začal vytvárať najprv pomocou nástroja programu Excel –

Analýza dát – Histogram. Získal som jednotlivé triedy a absolútne jednoduché početnosti.

Relatívnu jednoduchú početnosť som získal pomocou vzťahu f i=

ni

n ,

kde „n“ predstavuje celkový počet pozorovaní, čiže rozsah výberu (v našom prípade 711).

Súčet relatívnych početností sa rovná 1.

6


Absolútnu kumulatívnu početnosť som vytvoril nasledovne:

prvá hodnota absolútnej kumulatívnej početnosti sa rovná prvej hodnote

jednoduchej absolútnej početnosti

ďalšie hodnoty absolútnej kumulatívnej početnosti som vypočítal podľa

vzťahu: N j=∑

i=1

j

n j

Relatívnu kumulatívnu početnosť som získal podľa vzťahu F i=

N i

n

Jednoduchá početnosť Kumulatívna početnosť

Triedy Absolútna Relatívna Absolútn

a

Relatívna

13 1 0,00140647 1 0,00140647

93,7692

3

45 0,063291139 46 0,06469761

174,538

5

118 0,165963432 164 0,23066104

255,307

7

119 0,167369902 283 0,39803094

336,076

9

89 0,125175809 372 0,52320675

416,846

2

70 0,098452883 442 0,62165963

497,615

4

45 0,063291139 487 0,68495077

578,384

6

53 0,074542897 540 0,75949367

659,153

8

26 0,036568214 566 0,79606188

739,923

1

32 0,045007032 598 0,84106892

820,692

3

22 0,030942335 620 0,87201125

7


901,461

5

19 0,026722925 639 0,89873418

982,230

8

13 0,018284107 652 0,91701828

1063 12 0,016877637 664 0,93389592

1143,76

9

8 0,011251758 672 0,94514768

1224,53

8

10 0,014064698 682 0,95921238

1305,30

8

6 0,008438819 688 0,9676512

1386,07

7

3 0,004219409 691 0,9718706

1466,84

6

3 0,004219409 694 0,97609001

1547,61

5

2 0,00281294 696 0,97890295

1628,38

5

5 0,007032349 701 0,9859353

1709,15

4

1 0,00140647 702 0,98734177

1789,92

3

1 0,00140647 703 0,98874824

1870,69

2

3 0,004219409 706 0,99296765

1951,46

2

1 0,00140647 707 0,99437412

2032,23

1

2 0,00281294 709 0,99718706

Další 2 0,00281294 711 1

711 1

b) Na základe tabuľky početností som zostrojil bodový graf a koláčový graf.

8


145 118

119

897045

53

26

3222

19 13 12 810

63 3 25 1 1 31 2 2

Absolútna početnosť13 93,76923077174,5384615 255,3076923336,0769231 416,8461538497,6153846 578,3846154659,1538462 739,9230769820,6923077 901,4615385982,2307692 10631143,769231 1224,5384621305,307692 1386,0769231466,846154 1547,6153851628,384615 1709,1538461789,923077 1870,6923081951,461538 2032,230769Další

0 5 10 15 20 25 300

20

40

60

80

100

120

140

Absolútna početnosť

Absolútna

c) Základné charakteristiky som zistil pomocou štatistického nástroja Analýza dát –

Popisná štatistika. Tieto charakteristiky by sa dali vypočítať aj pomocou funkcií

programu Excel.

Stredná hodnota (aritmetický priemer) výberového súboru je 432,5 – čo

znamená, že v priemere 433 žien vo veku 15 až 24 rokov sa uchádzalo o zamestnanie

9


v rokoch 2001 až 2009 (priemer je vypočítavaný za všetky okresy a za všetky roky –

iný by bol výpočet napríklad priemeru za jednotlivý okres alebo rok)

Rozptyl výberu, čo predstavuje priemer štvorcov odchýlok jednotlivých

hodnôt znaku od ich aritmetického priemeru je 128831,7571 – veľký rozptyl.

Smerodajnú odchýlku dostaneme ako druhú odmocninu z rozptylu, t.j.

358,93.

Špicatosť rozdelenia, čiže porovnanie stupňa koncentrácie hodnôt

prostredných veľkostí so stupňom nahustenia ostatných hodnôt je 3,667. Z toho

môžeme konštatovať, že rozdelenie je špicaté. Koeficient špicatosti 3,667 > 0.

Šikmosť rozdelenia, čiže porovnanie stupňa koncentrácie malých hodnôt

sledovaného štatistického znaku so stupňom koncentrácie veľkých hodnôt tohto znaku

je 1,764. Rozdelenie nie je symetrické, je natiahnuté doprava. Koeficient šikmosti

1,764 > 0, čo znamená, že väčšina hodnôt leží napravo od aritmetického priemeru.

Modus vyjadruje najpočetnejšiu hodnotu štatistického súboru, čo v našom

prípade je 250.

Medián je prostredná hodnota štatistického súboru, ktorá rozdeľuje daný

štatistický súbor na dve rovnaké časti. V našom prípade je to 307.

Ostatné charakteristiky, okrem týchto základných by sme mohli vypočítať

podľa štatistických funkcií programu Excel (HARMEAN, GEOMEAN, KVANTILY

atď.), ale nakoľko neboli v zadaní tak som sa nimi nezaoberal.

10

ŽENY

Str. hodnota 432,5161744

Chyba str.hodnoty 13,46097956

Medián 307

Modus 250

Smer. odchylka 358,9314101

Rozptyl výberu 128831,7571

Špicatosť 3,667318696

Šikmosť 1,764471449

Šikmosť rozdelenia 2100

Minimum 13

Maximum 2113

Súčet 307519

Počet 711

Najväčší (1) 2113

Najmenší (1) 13

Hladina spol. (95,0%) 26,42808624


2.2 Úloha A.2

A.2. Pre prvý z týchto štatistických súborov:

a) na hladine významnosti 0,05 testujte, či výber možno pokladať za výber zo základného

súboru s normálnym rozdelením pravdepodobnosti,

b) bez ohľadu na záver v úlohe 2a) predpokladajme, že ide o výber zo základného súboru s

normálnym rozdelením a vypočítate pravdepodobnosť, že hodnota ukazovateľa počet

uchádzačov o zamestnanie vo veku 15 - 24 rokov bude väčšia ako hodnota 3.najmenšieho

pozorovania v súbore.

2.2.1 Riešenie

A.2. a)

Nasledujúce úlohy som vypočítaval pre prvý mužov.

Pri riešení tejto úlohy bolo potrebné si najprv stanoviť podmienky pre hypotézy H0 a H1.

H0: Výber pochádza zo základného súboru s norm. rozdelením

H1: Výber nepochádza zo základného súboru s normálnym rozdelením

Na riešenie tejto úlohy som použil Pearsonov test, pričom α= 0,05

11


12

Triedy

Početno

sť F(b) pj n*pj test. char.

16 1

0,1575

28

0,1575

28

112,00

27

110,01162

13

144,84

62 118

0,2203

78

0,0628

49

44,685

83

120,28351

38

273,69

23 154

0,2955

75

0,0751

98

53,465

66

189,04009

03

402,53

85 104

0,3807

85

0,0852

1

60,584

07

31,112843

09

531,38

46 67

0,4722

28

0,0914

43

65,016

03

0,0605411

05

660,23

08 56

0,5651

66

0,0929

38

66,078

61

1,5372355

38

789,07

69 45

0,6546

22

0,0894

56

63,603

33

5,4412863

93

917,92

31 35

0,7361

69

0,0815

47

57,979

88

9,1078981

48

1046,7

69 28

0,8065

71

0,0704

02

50,055

66

9,7182222

72

1175,6

15 17

0,8641

33

0,0575

62

40,926

76

13,988154

32

1304,4

62 15

0,9087

06

0,0445

73

31,691

28

8,7910245

28

1433,3

08 9

0,9413

93

0,0326

87

23,240

76

8,7260129

57

1562,1

54 18

0,9640

95

0,0227

02

16,141

3

0,2140316

39

1691 7

0,9790

28

0,0149

33

10,617

07

1,2322790

52

1819,8

46 5

0,9883

3

0,0093

02

6,6137

55

0,3937561

2

1948,6

92 4

0,9938

18

0,0054

88

3,9018

34

0,0024697

67

2077,5

38 6

0,9968

84

0,0030

66

2,1800

49

6,6934400

69

2206,3

85 5

2

2

0,9985

07

0,0016

22

1,1535

6

2,1536

89

182,88436

74

2335,2 0,9993 0,0008 0,5780


Najprv som urobil tabuľku hodnôt. Opäť som využil program Excel – Analýza dát. Začal

som histogramom, Ďalším krokom bolo dopočítanie F (b) pomocou funkcie NORMDIST,

pravdepodobnosti pj a nakoniec n*pj.

Využitím Cochranovho pravidla som zlúčil niekoľko tried, pretože tie nespĺňali

požiadavku tohto pravidla = n*pj ≥ 1 ako je zobrazená tato podmienka v modrej tabuľke.

Potom som vypočítal test. charakteristiku nadefinovaním potrebného vzorca -

χ2=∑j=1

K (n j−np j )2

np j urobil súčet a funkciou CHIDIST vypočítal p-hodnotu.

Záver:

Keďže p-hodnota vyšla veľmi malé číslo v porovnaní s hladinou významnosti α,

môžem konštatovať, že hypotézu H0 zamietame a to znamená, že výber nepochádza zo

základného súboru s normálnym rozdelením pravdepodobnosti.

13

k-1-r

ak k-1-r ≥ 6, tak n*pj ≥ 1

27-1-2 = 24

p-

hodnota

2,7014E-

139


2.3 Úloha A.2. b)

Pri riešení tejto úlohy bolo potrebné najprv zistiť, ktorá je hodnota 3. najmenšieho

pozorovania v danom súbore. Preto som najprv vytvoril variačný rad pre údaje

pochádzajúce zo štatistického výberového súboru muži. Zistil som, že tretia najmenšia

hodnota je 21. Mal som vypočítať pravdepodobnosť, že hodnota ukazovateľa počet

uchádzačov o zamestnanie vo veku 15 - 24 rokov bude väčšia ako hodnota 3. najmenšieho

pozorovania v súbore.

Teda:

P(X>21) = 1 - P(X<21) = 1 - F(21)

Distribučnú funkciu v bode 21 som vypočítal pomocou funkcie NORMDIST, pričom

aritmetický priemer a smerodajnú odchýlku som zistil z daných údajov zo štatistického

súboru „muži“ pomocou funkcií AVERAGE, resp. STDEV. Požadovanú

pravdepodobnosť sme získali po odčítaní vypočítanej distribučnej funkcie v bode 21 od

čísla 1.

Priemer 569,787

6

Výb.odchýlk

a

551,214

6

F(21) = 0,159723

P(X>21) = 1- 0,159723 = 0,840277

Záver:

Pravdepodobnosť, že hodnota ukazovateľa počet uchádzačov o zamestnanie vo

veku 15 - 24 rokov bude väčšia ako hodnota 3. najmenšieho pozorovania v súbore je 84%.

14


15


2.4 Úloha A.3.

A.3. - Na základe získaných údajov testujte na hladine významnosti 0,01, či existujú

rozdiely v strednej hodnote ukazovateľa: počet uchádzačov o zamestnanie vo veku 15 - 24

rokov medzi týmito dvoma pohlaviami (predpokladáme pritom normalitu rozdelenia

súborov).

2.4.1 Riešenie:

Pri riešení tejto úlohy bolo potrebné si najprv stanoviť podmienky pre hypotézy H0 a H1.

H0: stredne hodnoty sú rovnaké

H1: stredne hodnoty nie sú rovnaké

Na porovnanie jednotlivých stredných hodnôt v daných súboroch som využil Z-test

pre stredne hodnoty, keďže ide o veľké súbory.

MUŽI ŽENY

Str. hodnota

569,787623

1

432,516174

4

Známy rozptyl 303837,56 128831,76

Pozorovanie 711 711

Hyp. rozdiel srř.

hodnôt 0

Z

5,56463863

6

P(Z<=z) (1)

1,31348E-

08

z krit (1)

2,32634787

4

P(Z<=z) (2)

2,62696E-

08

z krit (2) 2,57582930

16


4

Záver:

Pomocou tohto testu som zistil, že p-hodnota je rovná veľmi malému číslu, t.j.

2,62696E-08, čo znamená, že oproti hladine významnosti α = 0,01 je neporovnateľne malé.

Čiže hypotézu H0 zamietame. Stredné hodnoty nie sú rovnaké, teda existujú rozdiely v

stredných hodnotách.

2.5 Úloha B

Starší automobil určitého typu je pojazdný za predpokladu, že sa na ňom vyskytne

maximálne 5porúch. Automobil sme používali skoro každý deň počas celého minulého

roka, ani raz sa nestalo, žeby sa vyskytlo viac ako 5 porúch. Každý deň sme zaznamenali

počet porúch a auto následne opravili.

a) Určte teoretické rozdelenie pravdepodobnosti, ktorým sa riadi počet porúch na

automobile.

b) Na hladine významnosti 0,05 testujte zhodu so zvoleným teoretickým rozdelením

pravdepodobnosti.

2.5.1 Riešenie:

a) Teoretické rozdelenie pravdepodobnosti, ktorým sa riadi počet porúch na automobile

v našom prípade je diskrétne rozdelenie, konkrétne ide o BINOMICKÉ rozdelenie.

b) Opäť si najprv nadefinujeme počiatočné podmienky pre hypotézy H0 a H1.

H0: Výber pochádza zo základného súboru s binomickým rozdelením pravdepodobnosti

H1: Výber nepochádza zo základného súboru s binomickým rozdelením pravdepodobnosti

Potom pomocou funkcie AVERAGE som vypočítal aritmetický priemer daného

súboru. Keďže pre strednú hodnotu binomického rozdelenia platí E( X )=n∗p ,

potom pravdepodobnosť nastátia javu v každom pokuse som vypočítal ako

p=E( X )

n , kde n = 5

17


Priemer 2,49

5

p - pravdepodobnosť nastátia javu v každom

pokuse

0,49

9

Ďalším krokom bolo vytvorenie tabuľky početností, pri ktorej som využil funkciu

FREQUENCY. Pravdepodobnosť pj som vypočítal pomocou funkcie BINOMDIST,

potom n*pj a testovaciu charakteristiku nadefinovaním potrebného vzorca, ktorý som už

uvádzal pri úlohe A.2. za a). Opäť som využil Cochranovo pravidlo a tak som zistil, že nie

je potrebne zlučovať žiadne triedy, keďže každá hodnota n*pj spĺňa túto podmienku.

xj nj pj n*pj

test.

charakt.

5 7

0,0309

39

6,1877

5

0,2279906

25

4 32

0,1553

14

31,062

75

23,577836

89

3 62

0,3118

73

62,374

5

56,518790

73

2 58

0,3131

22

62,624

5

58,688371

77

1 34

0,1571

89

31,437

75

29,469558

39

0 7

0,0315

64

6,3127

51

6,3127505

01

200 1 200

174,79529

89

Cochranovo pravidlo

18


k-1-r

ak k-1-r ≥ 3, tak n*pj ≥ 4

k-1-r = 6-1-1 = 4

Získanú p-hodnotu, ktorú som vypočítal pomocou funkcie CHIDIST som porovnával so

zadanou hladinou významnosti α = 0,05.

Záver:

Keďže p-hodnota vyšla menšia ako daná hladina významnosti, môžeme

konštatovať, že výber nepochádza zo základného súboru s binomickým rozdelením

pravdepodobnosti a hypotézu H0 budeme zamietať.

19


3 Záver

Vyriešenie úloh síce pre mňa nebolo najjednoduchšie, musím uznať, že by som ho

nezvládol bez pomoci štúdia skrípt Pravdepodobnosť a štatistika a rád kolegov z môjho

odboru, ale táto práca mi rozšírila vedomosť z tohto predmetu, čo ma potešilo. Dúfam, že

sa Vám moja práca páčila.

20

semestrálna práca

Documents

tchto tatistickch

normlnym rozdelenm

vytvorte bodov

kolov graf

kumulatvne

najmenieho

relatvne poetnosti

ktorbudeobsahovajednoduchabsoltnearelatvne