statistika (opisna statistika) - ic geoss · 2019-04-08 · statistika uml. beseda statistika...

UPORABNA MATEMATIKA V LOGISTIKIza višješolsko strokovno izobraževanje

STATISTIKA(OPISNA STATISTIKA)

STATISTIKA UML

1

STATISTIKA UML

Cilj tega sklopa predavanja je predstaviti obvladovanje računskihspretnosti pri reševanju logističnih problemov in pri statistični analizi.

Pravilen izračun iskane količine je seveda pomemben, mnogokrat paje še pomembnejša interpretacija izračunanega rezultata. Na svojipoklicni poti boste morda morali sprejeti kako pomembno poslovnoodločitev. Svoje sodelavce boste morali prepričati v pravilnost svojeodločitve. Argumente boste morali podpreti z izračuni in izračunanokorektno interpretirati. Ali pa boste morda želeli analiziratipovpraševanje potencialnih kupcev izdelka, s katerim želite prodretina tržišče. V teh in podobnih primerih vam bo priskočilo na pomočvaše znanje matematike in statistike.

V uvodu je predstavljeno nekaj matematičnih zakonitosti, prikazanihnekaj računskih spretnosti in obdelana dva temeljna matematičnamodela soodvisnosti med dvema spremenljivima količinama.

2

STATISTIKA UML

.

Beseda statistika izvira iz latinske besede status, ki pomeni država.Statistika je kot metoda za zbiranje podatkov zelo stara, saj so že v staremveku zbirali podatke o prebivalstvu, pridelkih itd.

Pravi razvoj statistike se je začel v 17. stoletju, ko so znani matematikitega obdobja postavili temelje verjetnostnega računa, na katerem temeljimatematična statistika. V 20. stoletju je z razvojem računalništva postalastatistika širše uporabljana.

Osnovni namen statistike je razumevanje pojavov iste vrste, ki sepojavljajo v velikem številu, zato jih imenujemo množični pojavi. Množičenpojav je na primer serijska proizvodnja določenega izdelka. Med osnovnenaloge statistike štejemo zbiranje, razvrščanje in urejanje podatkov tersprejemanje zaključkov, kot so npr. odkrivanje lastnosti in zakonitostipopulacije in napovedovanje vrednosti.

3

STATISTIKA UML

Statistika je veja matematike, ki proučuje metode zbiranja, urejanja, kvantitativne obdelave, prikazovanja in analiziranja številskih podatkov.Ko zberemo podatke, jih je potrebno »obdelati«. Metodološka obdelava je odvisna od namena in cilja statistične raziskave. V vsakem primeru, pa naj bi vsebovala:

- ureditev podatkov, - grafični prikaz, - izračun parametrov, - interpretacijo.

4

STATISTIKA UML

Množica, ki jo statistično proučujemo, se imenuje populacija.

Populacija je lahko končna ali neskončna množica enot, kot so predmeti, ljudje,dogodki ali kaj drugega.

Populacijo moramo opredeliti stvarno, geografsko in časovno:

- s stvarno opredelitvijo natančno določimo, kdo ali kaj spada vanjo in kdo ne,- z geografsko opredelitvijo povemo, kje je zajeta populacija,- s časovno opredelitvijo pa kdaj. Število statističnih enot, ki jih zajamemo v

raziskavi, po navadi označujemo „N“ (numerus).

5

STATISTIKA UML

Elementi populacije se imenujejo statistične enote.

Pogosto ne moremo, ne želimo ali pa je predrago proučevati celotno populacijo, zato izberemo le podmnožico populacije, ki jo imenujemo vzorec, nato pa na podlagi lastnosti vzorca sklepamo o lastnostih populacije.

Podmnožica je slučajno izbrana, če ima vsak element enako verjetnost, da boizbran v vzorec.Lastnosti statistične enote, ki jih raziskujemo, imenujemo statistični podatek alistatistična spremenljivka.

Pri tem poskušamo zagotoviti reprezentativnost vzorca. Vzorec je reprezentativen, če so rezultati raziskave na vzorcu enaki, kot bi bili rezultati raziskave na celotni populaciji.

6

Slučajni vzorec dobimo s slučajnim izborom enot populacije v vzorec. Stem dosežemo, da je struktura vzorca kar najbolj podobna strukturipopulacije. Pogosto rečemo, da slučajni vzorec najbolje predstavlja(reprenzetira) celotno populacijo. Velikost vzorca bomo označili z „n“.

Statistična spremenljivka opisuje lastnost enot.

Primeri statističnih spremenljivk so spol oseb, število prometnih nesreč,število potnikov na vlaku, poraba goriva avtomobila na 100 km. V vsehopisanih primerih se izraz „spremenljivka“ uporablja upravičeno, sajvsaka opazovana enota zavzame neko določeno vrednost. Te vrednostiso lahko med seboj različne, lahko pa ima nekaj enot enake vrednosti.Vrednosti spremenljivk bomo pogosto imenovali podatki.

STATISTIKA UML

7

Glede na način izražanja vrednosti spremenljivke delimo spremenljivke na:

opisne, pri katerih vrednosti le opišemo z besedami in jih ne moremoovrednotiti numerično (npr. spol, kraj bivanja, nacin transporta) in

številske, pri katerih vrednosti izrazimo numerično. Številske spremenljivkedelimo na diskretne in zvezne.

Diskretne spremenljivke imajo za zalogo vrednosti končno ali neskončnozaporedje realnih števil. Ce vrednosti diskretne spremenljivke dobimo sstetjem, je njena zaloga vrednosti podmnožica naravnih števil (npr. številoprometnih nesreč, število potnikov na avtobusu).

Zvezne spremenljivke lahko zavzamejo vsako vrednost iz nekega intervala.Vrednosti zveznih spremenljivk dobimo z merjenjem (npr. čas, ki ga potrebujevoznik za določeno pot) ali z izračunavanjem (npr. poraba goriva vozila na 100km).

STATISTIKA UML

8

Parameter je statistična karakteristika populacije, ki gaizračunamo iz podatkov celotne populacije in vzorčnastatistika je statistična karakteristika vzorca, ki gaizračunamo iz podatkov vzorca

Kot primer parametra lahko navedemo povprečjepopulacije ali pa delež populacije z določeno lastnostjo.

Pri statističnem raziskovanju najprej zberemo podatke odposameznih enot vzorca, na podlagi teh podatkovizračunamo vzorčno statistiko, ki opisuje lastnost vzorca,nato pa s statističnem sklepanjem, ki temelji namatematični statistiki, sklepamo o parametru populacije.

STATISTIKA UML

9

STATISTIKA UML

Opisna statistika se ukvarja s predstavitvijo oz. povzemanjem pridobljenih podatkov. Množico informacij želimo obdelati in jih predstaviti na čim bolj nazoren način.

Inferenčna statistika raziskuje medsebojno povezanostdoločenih statističnih parametrov. Ukvarja se tudi zugotavljanjem zanesljivosti sklepov, ki smo jih dobili tako, danismo raziskali celotne populacije, pač pa samo njen manjši del,vzorec.

V nadaljevanju bomo spoznali osnove opisne statistike inosnove statističnega sklepanja.

10

Urejanje podatkovPodatke, ki smo jih pridobili od opazovanih statističnih enot populacije, moramo primerno urediti. Najprej si bomo ogledali urejanje številskih podatkov, nato pa se opisnih. Pri številskih podatkih imamo dve možnosti:

če je podatkov malo, npr. do 30, jih uredimo po velikosti v ranžirno vrsto, če pa je podatkov veliko, jih grupiramo in prikažemo v tabeli, ki jo imenujemo

frekvenčna porazdelitev. Število enot populacije smo označili z „N“.

Ranžirna vrsta

Po velikosti urejenim številskim podatkom v ranžirni vrsti določimo zaporednoštevilko, ki jo imenujemo rang. Rang nam pove, na katerem mestu v ranžirni vrstise nahaja podatek.

Enaki podatki stojijo v ranžirni vrsti skupaj in imajo enak rang. Izračunamo ga kotpovprečje rangov, ki bi jih podatki imeli, če bi bili različni med seboj.

STATISTIKA UML

11

STATISTIKA UML

Primer 1: Iz proizvodnje čokolad vzamemo vzorec 9-ih izdelkov (150g lešnikove čokolada) ter izmerimo težo ….

Vzorec Xi (posamezni rezultat)

1 150,62 151,83 151,54 153,45 150,66 152,27 149,58 150,49 150,9

RANŽIRNA VRSTA:

149,5150,4150,6150,6150,9151,5151,8152,2153,4

12

STATISTIKA UML

13

STATISTIKA UML

Običajno se podatke uredi v tabelah. Danes se za to uporablja računalniškoorodje EXCEL, ki ga boste uporabljali tudi vi pri reševanju študijskih primerih. Čepodatke vnesete v excelovo tabelo, ne boste imeli težav z grafično predstavitvijo,saj vam excel ponuja različne vrste grafikonov. Vi se le morate odločite, kateri jeza prikaz podatkov, ki ste jih zbrali, najprimernejši.

Primer 1: Linijski grafikon teže vzorcev mlečne čokolade

14

STATISTIKA UML

Sedaj pa sledi najtežji del obdelave, to je analitični del, ki mora vsebovatiizračune in interpretacije statističnih parametrov. Kateri statistične parametre najbi vsebovala posamezna poročila, je odvisno od namena in ciljev statističnegaproučevanja. Na nacionalnem nivoju je to v pristojnosti Statističnega uradaRepublike Slovenije; na podjetniškem nivoju pa je to prepuščeno menedžmentu,razen na tistih področjih, ki jih določajo predpisi.

Odločiti se boste morali za tiste parametre, ki po vašem mnenju najbolj odražajo lastnosti populacije.

Pri izračunu statističnih parametrov (aritmetična sredina, mediana, modus) jetreba upoštevati pravila in postopke, ki jih predpisuje stroka. Aritmetična sredina,mediana, modus kažejo osrednjo težnjo rezultatov, okrog njih se rezultati kopičijo:

Statistične parametre izračunamo za negrupirane in grupirane podatke.

15

STATISTIKA UML

Aritmetična sredina

16

STATISTIKA UML


Aritmetična sredina je povprečje rezultatov in je enakakvocientu vsote vseh vrednosti statistične spremenljivke sštevilom teh vrednosti

tišt.vrednosvsota

=x

∑∑

=

= =⇒=n

ii

n

ii

xxNN

xx

1

1

Negrupirani/posameznirezultati

17

STATISTIKA UML


Primer 2: Iz proizvodnje čokolad izračunajmo povprečno težo 9-ih izdelkov (150glešnikove čokolada)


1 150,62 151,83 151,54 153,45 150,66 152,27 149,58 150,49 150,9

18

STATISTIKA UML

Aritmetična sredina - tehtana aritmetična sredina

Primer 3: Izračunajte povprečno število zaposlenih v posamezni trgovini za podanepodatke o številu trgovin s številom zaposlenih

�̅�𝑥 =∑𝑖𝑖=1𝑛𝑛 𝑓𝑓𝑖𝑖 � 𝑥𝑥𝑖𝑖∑𝑖𝑖=1𝑛𝑛 𝑓𝑓𝑖𝑖

=𝑓𝑓1 � 𝑥𝑥1 + 𝑓𝑓2 � 𝑥𝑥2 + 𝑓𝑓3 � 𝑥𝑥3 + ⋯ . . + 𝑓𝑓𝑛𝑛 � 𝑥𝑥𝑛𝑛

𝑓𝑓1 + 𝑓𝑓2 + ⋯ . . +𝑓𝑓𝑛𝑛

�̅�𝑥 =20 � 1 + 10 � 2 + 30 � 3 + 25 � 4 + 15 � 5

20 + 10 + 30 + 25 + 15 =305100 = 𝟑𝟑,𝟎𝟎𝟎𝟎

Odg: Povprečno število zaposlenih je 3,05 v posamezni trgovini.

19

Primer za pomanjkljivost aritmetične sredineŠtiri osebe so pri testiranju dosegle naslednje rezultate: 21, 22, 23 in 36. �̅�𝑥 = 25,50. Ta vrednost pade v praznino med prvimi tremi in četrtim rezultatom. Težko bi trdili, da posamezni rezultati težijo k temu povprečju in da jih to povprečje dobro zastopa. Skrajna vrednost 36 ga je namreč preveč »potegnila proti sebi«.V tem primeru bi mediana (Me) gotovo bolje opisovala osrednjo težnjo rezultatov kot aritmetična sredina (�̅�𝑥)–koliko znaša mediana Me?

STATISTIKA UML

20

Mediana ali središčnica je tista srednja vrednost statističnespremenljivke, pri kateri je polovica vrednosti večjih, druga polovicavrednosti pa manjših od dane vrednosti (50% je manjših vrednosti in50% večjih vrednosti).

Neparno število enot: Parno število enot:Statistične podatke razvrstiti po velikosti:

( )1

2int

+=

=

rxMe

Nr

2

21++

=

=

rr xxMe

Nr

STATISTIKA UML

Mediana (Me)

21

STATISTIKA UML

Mediana (Me) Je rezultat na sredini ranžirne vrste Najprej izračunamo medianski položaj: (N+1)/2 Mediana je ta rezultat v ranžirni vrsti

(prešteješ). V našem primeru… Če bi bilo sodo število, vzameš povprečje obeh

rezultatov Pomanjkljivost: upošteva le vrednost na sredi

(nenatančna mera) Prednost: neodvisnost od skrajnih vrednosti

22

STATISTIKA UML

Mediana (Me)

23

Primer za pomanjkljivost aritmetične sredine brez podatka o standardnem odklonu (𝛿𝛿)

Pri eni zelo odstopajoči vrednosti nam �̅�𝑥 daje napačen vtis. Podatek o povprečni plači v tem podjetju bi bil 2875 evrov.

Enako �𝑥𝑥 bi dobili npr. za podatke 2000, 2000, 2000 in 5.500 (direktor), le da bi bila razpršenost posameznih rezultatov okoli povprečja v tem primeru bistveno manjša.

STATISTIKA UML

24

Preverjanje razlik med aritmetičnimi sredinami

Npr. razlika na vprašalniku učnih navad med fanti in dekleti je 2 točki (fantje 39, dekleta 41)

Razlika je zelo majhna – ali res obstaja ali je zgolj naključna –posledica t.i. napake vzorčenja (pojavi se zaradi slučajnih dejavnikov, ker smo rezultate zbrali na vzorcu, ne na celi populaciji)?

Preverimo s posebnimi stat. metodami, ki se jih ne bomo učili, pač pa bomo sklepali „na oko“.

Razlika med dvema �𝒙𝒙 je statistično pomembna: z visoko stopnjo prepričanosti (običajno na nivoju 95%) lahko trdimo, da res obstaja v populaciji (le 5% tveganje, da je v resnici ni).

STATISTIKA UML

25

Razpršenost rezultatov

K vsaki �̅�𝑥 sodi podatek o tem, koliko so rezultati okoli nje: Zgoščeni (bolj reprezentativna)

npr. �̅�𝑥=50 za rezultate 48, 49, 50, 51, 52 Razpršeni (manj reprezentativna)

npr. �̅�𝑥=50 za rezultate 5, 5, 60, 130 Najpreprostejša mera je razpon: razlika med

maksimalnim in minimalnim rezultatom Najpogosteje pa računamo standardni odklon

ali standardno deviacijo: pove, kolikšna so odstopanja posameznih rezultatov od aritmetične sredine

STATISTIKA UML

𝜎𝜎 =∑ 𝑥𝑥 − 𝑥𝑥 2

𝑛𝑛26

STATISTIKA UML

Primer 3: Iz proizvodnje čokolad izračunajmo standardni odklon vzorca 9-ihizdelkov (150g mlečna čokolada)

27

Razpršenost (nad.)

Velika in mala razpršenost: sploščena in koničasta distribucija

Primer za pomen mere razpršenosti: če se odpravljamo na počitnice, nam podatek o povprečni temperaturi pove, katerih oblačil naj vzamemo največ, podatek o razpršenosti pa, ali moramo vzeti tudi bistveno toplejša/lažja oblačila:

�̅�𝑥 = 20 (ali to pomeni od 18 do 22 ali od 10 do 30?)

STATISTIKA UML

28

STATISTIKA UML

MERA DISPERZIJE

RAZPON VARIACIJE:(Razpon med največjo in najmanjšo vrednostjo podatkov)

minmax XXR −=

29

STATISTIKA UML

Modus (Mo)

Je rezultat, ki se največkrat pojavlja v podatkih

Prednosti: tudi pri kvalitativnih spremenljivkah (ločene kategorije, npr. spol, stan)

Pomanjkljivosti: upošteva le najpogostejšo vrednost (nenatančna mera)

Modus ali gostiščnica se imenuje najpogostejša vrednost ali najpogostejši podatek v množici vseh vrednosti

30

STATISTIKA UML

Modus (Mo)

Primer 4: Iz proizvodnje čokolad izračunajmo modus (Mo) vzorca 9-ih izdelkov(150g lešnikove čokolada)


1 150,62 151,83 151,54 153,45 150,66 152,27 149,58 150,49 150,9

RANŽIRNA VRSTA:

149,5150,4150,6150,6150,9151,5151,8152,2153,4

31

KOEFICIENT VARIACIJE (V)

STATISTIKA UML

Omogoča primerjavo različnih pojavov glede variabilnosti. Koeficient variacije povekolikšen odstotek vrednosti aritmetične sredine zavzema standardni odklon. Večji kot jevečja je razpršenost podatkov.

Definiran je kot razmerje med standardnim odklonom in aritmetično sredino, odstandardnega odklona, ki prav tako prikazuje razpršenost statističnih enot, pa se razlikujepo tem, da je merjen v odstotkih in ga je zato moč uporabiti za primerjavo razpršenostienot različnih statističnih populacij.

𝑉𝑉 =100 � 𝜎𝜎�̅�𝑥

kjer je:

𝜎𝜎 – standardni odklon�̅�𝑥 – aritmetična sredina

32

STATISTIKA UML

Primer 5: Iz proizvodnje čokolad izračunajmo varianco in koeficientvariance V vzorca 9-ih izdelkov (150g lešnikove čokolada)

𝑉𝑉 =100 � 𝛿𝛿�̅�𝑥

=100 � 1,0867

151,21=

108,67151,21

= 0,71867

Interpretacija:

Pri vzorcu 9-ih kosov mlečnih čokolad predstavlja standardni odklon0,71867% vrednosti aritmetične sredine.

33

STATISTIKA UML

0 38

xMeMo1Q 3Q 0 38

Me xMo1Q 3Q0 38

x1Q Me

Mo

3Q

ee

Oe

MQQMMMx

−=−==

31 ee

eo

MQQMxMM−<−

<<

31 13 QMMQMMx

ee

oe

−<−<<

34

STATISTIKA UML

MERA DISPERZIJE


minmax XXR −=

35

UMLSTATISTIKA

36

UML

Določanje vrednosti spremenljivke, da bi se razporedila na opredeljeno mesto v množici –imenujemo ga kvantil.

Vrednosti za dano spremenljivko v grafikonu kumulative frekvenc, lahko izračunamo. Prav tako lahko izračunamo položaj določene vrednosti, če poznamo podatek o tem, kolikšen delež vrednosti je manjših oziroma večjih od dane vrednosti.

Pri statističnem preučevanju nas pogosto zanima položaj posamezne enote med ostalimi enotami v populaciji.

Za opredeljevanje položaja posamezne enote uporabljamo naslednja parametra:

• rang R (določa, na katerem mestu v urejeni vrsti je posamezna enota) pove, koliko enot imamanjše in koliko večje vrednosti od izbrane enote. Ima vse vrednosti od 1 do N in zatolastnost diskretne spremenljivke;

• kvantilni rang P (položaj posamezne enote določa relativno) pove, koliko odstotkov enotima manjše in koliko večje vrednosti od izbrane enote. Ima vse vrednosti na razmiku od 0 do1 in lastnost zvezne spremenljivke.

•kvantilnemu rangu P = 0 ustreza rang R = 0,5 in•kvantilnemu rangu P = 1 ustreza rang R = N + 0,5

STATISTIKA

37

UML

Vrednosti, ki ustrezajo določenemu kvantilnemu rangu, so kvantili. Med njiminajvečkrat računamo:•kvartile:– prvi kvartil – Q1 s kvantilnim rangom P = 0,25 je vrednost, od katere ima 25 % enotmanjše ali kvečjemu enake vrednost, 75 % enot pa večje vrednosti;

– drugi kvartil – Q2 s kvantilnim rangom P = 0,50 je vrednost, od katere ima 50 %enot manjše ali kvečjemu enake vrednosti, 50 % pa večje vrednosti;

– tretji kvartil – Q3 s kvantilnim rangom P = 0,75 je vrednost, od katere ima 75 % enotmanjše ali kvečjemu enake vrednosti, 25 % pa večje vrednosti.•decile:– prvi decil – D1 P(D1) = 0,10;

– drugi decil – D2 P(D2) = 0,20;

– peti decil – D5 P(D5) = 0,50 do– deveti decil – D9 P(D9) = 0,90 je vrednost, od katere ima 90 % enot manjše alikvečjemu enake vrednosti, 10 % pa večje.

Q2 = D5 = mediana

STATISTIKA

38

UML

KVANTILI IN KVANTILNI RANGI IZ RANŽIRNE VRSTE

Brskanje po podatkih in iskanje pravih podatkov je lahko zelo zamudno opravilo. Vstatistiki so razvili številne metode, kako lahko podatke predstavimo zelo pregledano,kar nam olajša delo. Najprej bomo spoznali razvrščanje po velikosti.

Po velikosti urejenim številskim ali vrstim podatkom pravimo ranžirna vrsta. Podatkev ranžirni vrsti lahko uredimo od najmanjšega do največjega ali obratno.

Podatkom v ranžirni dodelimo tudi zaporedno številko, ki jo imenujemo rang. Če jeveč podatkov enakih, jim dodelimo enak rang, ki ga izračunamo kot povprečje rangov,ki bi jih podatki imeli, če bi bili med seboj različni.

Zastavimo si lahko dve nalogi:

1) danemu kvantilu y poiščemo pripadajoči kvantilni rang P in2) danemu kvantilnemu rangu P poiščemo pripadajoči kvantil y.

STATISTIKA

39

STATISTIKA UML

KVANTILI IN KVANTILNI RANGI IZ RANŽIRNE VRSTE

40

UML

Primer 6: „danemu kvantilu y poiščemo pripadajoči kvantilni rang P“

Iz proizvodnje čokolad vzamemo vzorec 9-ih izdelkov (150g lešnikove čokolade) terizmerimo težo ….

Podatke uredimo po velikosti in izračunajmo odstotek teže lešnikove čokolade, ki jevečja od 152,1 gr !

Rešitev:

1. Podatke uredimo v ranžirno vrsto

STATISTIKA

41

UML

Primer 6 nad.:

STATISTIKA

42

UML

Primer 7: „danemu kvantilnemu rangu P poiščemo pripadajoči kvantil y“

Rešitev: Ad a)

1. Podatke uredimo v ranžirno vrsto

STATISTIKA

Iz proizvodnje čokolad vzamemo vzorec 9-ih izdelkov (150g lešnikove čokolade)ter izmerimo težo ….

Izračunajmo prvi kvartil (𝑄𝑄1) in tretji decil (𝐷𝐷3)

43

UMLSTATISTIKA

Kvantilni rang prvega kvartila 𝑄𝑄1 je 𝑃𝑃(𝑄𝑄1) = 0,25

Pripadajoči rang R je 2,5𝑹𝑹 = 𝑃𝑃 � 𝑁𝑁 + 0,5 = 0,25 � 9 + 0,5 = 2,75

Zato je 𝑅𝑅0 = 2 < 𝑅𝑅 < 𝑅𝑅1 = 3,5 in 𝑦𝑦0 = 150,4 < 𝑦𝑦 < 𝑦𝑦1 = 150,6

𝑸𝑸𝟏𝟏 = 𝑦𝑦 = 𝑦𝑦0 +𝑅𝑅 − 𝑅𝑅0𝑅𝑅1 − 𝑅𝑅0

𝑦𝑦1 − 𝑦𝑦0 = 150,4 +2,75 − 23,5 − 2

150,6 − 150,4 = 150,4 +0,751,5

� 0,2

= 150,4 + 0,5 � 0,2 = 150,4 + 0,1 = 𝟏𝟏𝟎𝟎𝟎𝟎,𝟎𝟎 €

Interpretacija rezultata: ocenjujemo, da je med devetimi vzorci 150gr lešnikovečokolade 25 % takih, katerih teža je manjša ali enaka 150,5 gr oziroma 75% vzorcev jetakih, katerih teža je večja kot 150,5 gr.

Primer 7a nad.:„danemu kvantilnemu rangu P poiščemo pripadajoči kvantil y“

44

UMLSTATISTIKA

Primer 7b nad.:„danemu kvantilnemu rangu P poiščemo pripadajoči kvantil y“

45

UML

Rešitev: Ad 7b)

STATISTIKA

46

UMLSTATISTIKA

47

STATISTIKA UML

Grupiranje podatkov in frekvenčna porazdelitev

Kadar je opazovanih enot veliko, jih združimo oziroma grupiramo v skupine, ki jihimenujemo razredi. Pri grupiranju najprej določimo skupne lastnosti enot vposameznih razredih, nato pa enote razdelimo po razredih. Lastnosti razredovmorajo biti izbrane tako, da je vsaka enota v natanko enem razredu.

Ne sme se zgoditi, da bi ista enota ustrezala lastnostim dveh razredov ali pa daza kakšno enoto ne bi obstajal razred, v katerega bi jo uvrstili.

Postavlja se vprašanje, koliko razredov je smiselno oblikovati. Če jih je premalo,izgubimo določene informacije o podatkih, če pa jih je preveč, zopet nimamopregleda. V praksi se je izkazalo, da je ustrezno izbrati od 6 do 20 razredovoziroma uporabimo naslednje pravilo za določanje število razredov:

Pri tem naj bo r število razredov in N število enot preučevane množice.

48

STATISTIKA UML


Sedaj pa je potrebno enote populacije razvrstiti v posamezne razrede. Odločiti semorate za najmanjšo in največjo vrednost spremenljivke, ki spada v posameznirazred. Ti vrednosti se imenujeta meji razreda, razlika med mejama pa širinarazreda.

V nadaljevanju bomo prešteli enote, ki jih bomo uvrstili v posamezne razrede. To število se imenuje frekvenca razreda, ki se običajno označuje z fj, kjer f pomeni število enot v razredu, j pa zaporedno številko razreda.

Tako urejeni podatki predstavljajo frekvenčno porazdelitev, ki je prikazana vfrekvenčni tabeli.

Frekvenčna tabela je primerna za nadaljnjo obdelavo in interpretacijo lastnosti populacije. Običajno se pri interpretaciji uporabljajo naslednji pojmi:

• relativna frekvenca,• komulativna frekvenca,• komulativna relativna frekvenca.

49

STATISTIKA UML


Relativna frekvenca je delež enot posameznega razreda, zato se tudi običajno izraža v odstotkih.

Delež izračunamo tako, da frekvenco razreda delite s številom enot populacije N.

Relativna frekvenca:

Komulativne frekvenca posameznega razreda predstavlja vsoto absolutnihfrekvenc v predhodnih razredih.

V prvem razredu je ta enaka frekvenci razreda, v naslednjih razredih pa jihizračunamo tako, da komulativni frekvenci predhodnega razreda prištejemofrekvenco tega razreda. Tudi komulativne frekvence lahko izrazite kot deležeoziroma z odstotki, ki se imenujejo komulativne relativne frekvence.

50

STATISTIKA UML

Primer 8: Frekvenčna tabela starosti ponesrečencev

51

STATISTIKA UML

Interpretacija:

Relativna frekvenca: V starosti med 30 in 40 let je bilo 9 ponesrečencev (kolona 3), kar predstavlja 11% vseh ponesrečenih (kolona 4) .

Komulativna frekvenca: Mlajših od 20 let je bilo 34 ponesrečencev (kolona 5), kar predstavlja 41% vseh ponesrečenih (kolona 6).

Grafični prikaz:

Histogram frekvenčne porazdelitve starosti ponesrečencev

Frekvenčni poligon starosti ponesrečencev

52

STATISTIKA UML

Za grafični prikaz relativnih frekvenc je primeren strukturni krog, kjer izsekipomenijo delež enot v posameznem razredu, torej relativno frekvenco.

53

STATISTIKA UML

Grupiranje podatkov in frekvenčna porazdelitevPrimer 9:V proizvodnji čokolad smo v času ene ure izbralinaključno 25 kosov (150g lešnikove čokolade) terizmerili njihovo težo. Podatki o teži so zbrani vtabeli.

Uredite podatke tako, da dobite predstavo o temkako uspešen je proizvodni proces !

Postopek:

1. Podatke uredimo v ranžirno vrsto2. Iz podatka o številu populacije N izračunamo

po Stugersov pravilu število razredov r,3. Poiščemo minimalno in maksimalno vrednost

podatkov in izračunamo širino razreda „i“4. Izdelamo frekvenčno tabelo meritev teže,5. Interpretacija dobljenih podatkov.

54

STATISTIKA UML

r - št. razredov

Število razredov je odvisno od enot (N) v množici podatkov - več kot je podatkov, več razredov bomo opredelili. Če jih je:

- preveč dobimo preveliko razdrobljenost podatkov (manjšo preglednost),- premalo dobimo zelo lepo preglednost, zabrišemo pa osnovne značilnosti proučevanega pojava (spremenljivke).

Velja, da uporabimo Stugersov princip: r = 1 + 3,32*log N

širina razreda:

55

STATISTIKA UML


56

STATISTIKA UML

4,00%8,00%

12,00%

56,00%

16,00%

4,00%

Relativna frekvenca teže čokolade

1 nad 138 do 141,88 2 nad 141,88 do 145,76 3 nad 145,76 do 149,65

4 nad 149,65 do 153,53 5 nad 153,53 do- 157,41 6 nad 157,41 do 161,29

02468

10121416

nad 138 do141,88

nad 141,88do 145,76

nad 145,76do 149,65

nad 149,65do 153,53

nad 153,53do- 157,41

nad 157,41do 161,29

1 2 3 4 5 6

Frekvenčni poligon teže čokolade

abs. frekv. fj

57

STATISTIKA UML


Aritmetično sredino grupiranih podatkov, katere smo uredili v frekvenčno porazdelitev izračunamo po naslednji formuli:

�̅�𝑥 =∑𝑖𝑖=1𝑛𝑛 𝑓𝑓𝑖𝑖 � 𝑥𝑥𝑖𝑖

𝑁𝑁=𝑓𝑓1 � 𝑥𝑥1 + 𝑓𝑓2 � 𝑥𝑥2 + 𝑓𝑓3 � 𝑥𝑥3 + ⋯ . . + 𝑓𝑓𝑛𝑛 � 𝑥𝑥𝑛𝑛

𝑁𝑁

kjer predstavlja 𝑥𝑥𝑖𝑖 sredino razreda.

𝑥𝑥𝑖𝑖 =𝑥𝑥𝑖𝑖𝑖𝑖 + 𝑥𝑥𝑖𝑖𝑖𝑖

2

58

STATISTIKA UML

Mediana ali središčnica je tista srednja vrednost statistične spremenljivke, pri kateri je polovica vrednosti večjih, druga polovica vrednosti pa manjših od dane vrednosti (50% je manjših vrednosti in 50% večjih vrednosti).

Najprej izračunamo medianski položaj: (N+1)/2

Medialni (kvartilni) razred je tisti, ki ima kumulativno frekvenco neposredno večjo od N/2

𝐿𝐿1– spodnja meja medialnega (kvartilnega) razreda∑𝑓𝑓 - kumulativna frekvenca pred medialnim (kvartilnim) razredom𝑓𝑓𝑚𝑚𝑚𝑚𝑚𝑚- originalna frekvenca medialnega (kvartilnega) razredai - velikost medialnega (kvartilnega) razreda

59

STATISTIKA UML

Modus ali gostiščnica se imenuje najpogostejša vrednost ali najpogostejši podatek v množici vseh vrednosti

Modalni razred je razred z največjo absolutno frekvenco (𝑓𝑓𝑗𝑗)

𝐿𝐿1-spodnja meja modalnega razredab - največja frekvencaa - frekvenca pred modalnim razredomc - frekvenca za modalnim razredomi - velikost modalnega razreda

i)cb()ab(

)ab(LMo 1 ⋅−+−

−+=

Prednost modusa pred aritmetično sredino je v tem, da samo absolutna frekvenca. Zato zelo dobro predstavlja podatke.

60

STATISTIKA UML

Povprečni absolutni odklon (𝑃𝑃𝑃𝑃𝑀𝑀) nam pove, za koliko se v povprečju vrednosti spremenljivke razlikujejo od aritmetične sredine.

𝑷𝑷𝑷𝑷𝑴𝑴 =∑𝒊𝒊=𝟏𝟏𝑵𝑵 𝒇𝒇𝒊𝒊 � 𝒙𝒙𝒊𝒊 − �𝒙𝒙

𝑵𝑵kjer so:

𝑥𝑥𝑖𝑖 – sredine razredov

𝑓𝑓 – absolutne frekvence razredov

�̅�𝑥 – aritmetična sredina

𝑁𝑁 – skupno število podatkov

61

STATISTIKA UML

Varianca (𝜎𝜎2) nam pove kolikšno je povprečno odstopanje posameznih vrednosti od aritmetične sredine.

𝜎𝜎2 =∑𝑖𝑖=1𝑁𝑁 𝑓𝑓𝑖𝑖 � 𝑥𝑥𝑖𝑖 − �̅�𝑥 2

𝑁𝑁kjer so:𝑥𝑥𝑖𝑖 – sredine razredov𝑓𝑓 – absolutne frekvence razredov�̅�𝑥 – aritmetična sredina𝑁𝑁 – skupno število podatkov

Standardni odklon ali standardna deviacija ( 𝜎𝜎 ) nam pove kolikšna soodstopanja posameznih rezultatov od aritmetične sredine oziroma koliko je"vredna aritmetična sredina" (kako dobro nam predstavlja podatke). Večja jevrednost večja je variabilnost podatkov.

𝜎𝜎 =∑𝑖𝑖=1𝑁𝑁 𝑓𝑓𝑖𝑖 � 𝑥𝑥𝑖𝑖 − �̅�𝑥 2

𝑁𝑁62

Kvartili

Q1 (spodnji kvartil)

if

fNLQ

q

⋅−

+=∑4

11

Spodnji kvartil je srednja vrednost ki niz delitako da 25% enot ima vrednost manjšo alienako Q1 a 75% večjo ali enako

Q3 (zgornji kvartil)

if

fNLQ

q

⋅−

+=∑4

313

Gornji kvartil kvartil je srednja vrednost ki nizdeli tako da 75% enot ima vrednost manjšo alienako Q3 a 25% večjo ali enako

STATISTIKA UML

63

MERE DISPERZIJE


minmax XXR −=

INTERKVARTIL(Razpon srednjih 50% členov niza)

13 QQIQ −=

KOEFICIENT KVARTILNE DEVIACIJE(Relativna mera za interkvartil)

1V0 Q13

13 ≤≤+−

=QQQQVQ

STATISTIKA UML

64

Koeficient α3 33

3 δα M

= 22 3 <<− α

Pearsonova mera asimetrijeδ

ok

MxS −=

δ)(3 e

kMxS −

= 33 <<− kS

Bowleyeva mera asimetrije13

13 2QQ

mQQS ekq −

−+= 11 <<− kqS

0 38

xMeMo1Q 3Q

0 38Me xMo1Q 3Q

0 38

x1Q Me

Mo

3Q

Simetrična Desnostranska Levostranska

ee

Oe

MQQMMMx

−=−==

31 ee

eo

MQQMxMM−<−

<<

31 13 QMMQMMx

ee

oe

−<−<<

65

Bowleyeva mera asimetrije

Bowleyeva mera asimetrije temelji na razmerju kvantilov in mediane.

v simetričnih porazdelitvah je Bowleyeva mera asimetrije enaka 0 v pozitivno asimetričnih mera je pozitivna, a v negativno asimetričnih je

negativna. Bowleyeva in Pearsonova mera asimetrije so nepopolne mere in dajoinformacije kot so koeficienti asimetrije, ter se izračunajo enostavno inhitreje.

STATISTIKA UML

66

SPLOŠČENOST 0 444

4 αδ

α M=

Ostraα4>3

Normalnaα4=3

Položna1,8<α4<3

Pravokotnaα4=1,8

U porazdelitev0<α4<1,8

STATISTIKA UML

67

STATISTIKA UML

Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke

68

STATISTIKA UML


L1 = 150

69

STATISTIKA UML


70

STATISTIKA UML


71

STATISTIKA UML


72

STATISTIKA UML


73

STATISTIKA UML


Najpogosteje se uporablja relativna mera variabilnosti, ki jo imenujemokoeficient variabilnosti (V) in jo izračunamo kot kvocient med standardnimodklonom in aritmetično sredino:

𝑲𝑲𝑲𝑲 =100 ∗ 𝝈𝝈

�𝒙𝒙

74

STATISTIKA UML


Koeficient α3 33

3 δα M

= 22 3 <<− αSPLOŠČENOST

0 444

4 αδ

α M=

75

STATISTIKA UML


Σf − vsota kumulativnih frekvenc predmedialnim razredomN – št. podatkov

L1 – spodnja meja medialnega razredafq – absolutna frekvenca medialnega

razredai – širina razreda

76

STATISTIKA UML


77

STATISTIKA UML

Primer 10: Za podatke v primeru 9 naredimo izračun statistične parametre zagrupirane podatke

78

UML

RAČUNANJE KVANTILOV IN KVANTILNIH RANGOV IZ FREKVENČNEPORAZDELITVE

Pri frekvenčni porazdelitvi so enote populacije zbrane v razrede. Rang posamezneenote nadomestimo s kumulativo razreda, v katerega sodi ta enota.

Rešimo naslednjo nalogo: Danemu kvantilu y izračunajmo pripadajoči kvantilnirang P.

Poiščimo razred, v katerega sodi vrednost y. Naj bo to j-ti razred, imenujemo gakvantilni razred. Tedaj velja naslednja ocena (denimo, da so razredi definirani tako,da vsebujejo svojo zgornjo mejo).

Rang R, ki pripada kvantilu y, je tedaj umeščen med kumulativo kvantilnegarazreda in kumulativo razreda pred njim.

STATISTIKA

79

UMLSTATISTIKA

80

UML

Tabela 1 prikazuje grupirane podatke o neto mesečnih plačah zaposlenih v podjetju ABC.

Primer 11:

Tabela 1: Neto mesečne plače zaposlenih v podjetju ABC

Izračunaj, kolikšen delež zaposlenih zasluži mesečno največ 850 EUR.

Danemu kvantilu y izračunajmo pripadajoči kvantilni rang P.

STATISTIKA

81

UML

Rešitev:

STATISTIKA

82

UML

Primer 12: Danemu kvantilnemu rangu P poiščimo pripadajoči kvantil y.

Tabela 1 prikazuje grupirane podatke o neto mesečnih plačah zaposlenih v podjetju ABC.

Tabela 1: Neto mesečne plače zaposlenih v podjetju ABC

STATISTIKA

83

UML

Rešitev: Ad a)Slike trenutno ni mogoče prikazati.

Slike trenutno ni mogoče prikazati.

STATISTIKA

84

UML

Rešitev: Ad b)

STATISTIKA

85

UML

Rešitev: Ad c)

STATISTIKA

86

statistika (opisna statistika) - ic geoss · 2019-04-08 · statistika uml. beseda statistika...

Documents