statistika (opisna statistika) - ic geoss · 2019-04-08 · statistika uml. beseda statistika...
TRANSCRIPT
UPORABNA MATEMATIKA V LOGISTIKIza višješolsko strokovno izobraževanje
STATISTIKA(OPISNA STATISTIKA)
STATISTIKA UML
1
STATISTIKA UML
Cilj tega sklopa predavanja je predstaviti obvladovanje računskihspretnosti pri reševanju logističnih problemov in pri statistični analizi.
Pravilen izračun iskane količine je seveda pomemben, mnogokrat paje še pomembnejša interpretacija izračunanega rezultata. Na svojipoklicni poti boste morda morali sprejeti kako pomembno poslovnoodločitev. Svoje sodelavce boste morali prepričati v pravilnost svojeodločitve. Argumente boste morali podpreti z izračuni in izračunanokorektno interpretirati. Ali pa boste morda želeli analiziratipovpraševanje potencialnih kupcev izdelka, s katerim želite prodretina tržišče. V teh in podobnih primerih vam bo priskočilo na pomočvaše znanje matematike in statistike.
V uvodu je predstavljeno nekaj matematičnih zakonitosti, prikazanihnekaj računskih spretnosti in obdelana dva temeljna matematičnamodela soodvisnosti med dvema spremenljivima količinama.
2
STATISTIKA UML
.
Beseda statistika izvira iz latinske besede status, ki pomeni država.Statistika je kot metoda za zbiranje podatkov zelo stara, saj so že v staremveku zbirali podatke o prebivalstvu, pridelkih itd.
Pravi razvoj statistike se je začel v 17. stoletju, ko so znani matematikitega obdobja postavili temelje verjetnostnega računa, na katerem temeljimatematična statistika. V 20. stoletju je z razvojem računalništva postalastatistika širše uporabljana.
Osnovni namen statistike je razumevanje pojavov iste vrste, ki sepojavljajo v velikem številu, zato jih imenujemo množični pojavi. Množičenpojav je na primer serijska proizvodnja določenega izdelka. Med osnovnenaloge statistike štejemo zbiranje, razvrščanje in urejanje podatkov tersprejemanje zaključkov, kot so npr. odkrivanje lastnosti in zakonitostipopulacije in napovedovanje vrednosti.
3
STATISTIKA UML
Statistika je veja matematike, ki proučuje metode zbiranja, urejanja, kvantitativne obdelave, prikazovanja in analiziranja številskih podatkov.Ko zberemo podatke, jih je potrebno »obdelati«. Metodološka obdelava je odvisna od namena in cilja statistične raziskave. V vsakem primeru, pa naj bi vsebovala:
- ureditev podatkov, - grafični prikaz, - izračun parametrov, - interpretacijo.
4
STATISTIKA UML
Množica, ki jo statistično proučujemo, se imenuje populacija.
Populacija je lahko končna ali neskončna množica enot, kot so predmeti, ljudje,dogodki ali kaj drugega.
Populacijo moramo opredeliti stvarno, geografsko in časovno:
- s stvarno opredelitvijo natančno določimo, kdo ali kaj spada vanjo in kdo ne,- z geografsko opredelitvijo povemo, kje je zajeta populacija,- s časovno opredelitvijo pa kdaj. Število statističnih enot, ki jih zajamemo v
raziskavi, po navadi označujemo „N“ (numerus).
5
STATISTIKA UML
Elementi populacije se imenujejo statistične enote.
Pogosto ne moremo, ne želimo ali pa je predrago proučevati celotno populacijo, zato izberemo le podmnožico populacije, ki jo imenujemo vzorec, nato pa na podlagi lastnosti vzorca sklepamo o lastnostih populacije.
Podmnožica je slučajno izbrana, če ima vsak element enako verjetnost, da boizbran v vzorec.Lastnosti statistične enote, ki jih raziskujemo, imenujemo statistični podatek alistatistična spremenljivka.
Pri tem poskušamo zagotoviti reprezentativnost vzorca. Vzorec je reprezentativen, če so rezultati raziskave na vzorcu enaki, kot bi bili rezultati raziskave na celotni populaciji.
6
Slučajni vzorec dobimo s slučajnim izborom enot populacije v vzorec. Stem dosežemo, da je struktura vzorca kar najbolj podobna strukturipopulacije. Pogosto rečemo, da slučajni vzorec najbolje predstavlja(reprenzetira) celotno populacijo. Velikost vzorca bomo označili z „n“.
Statistična spremenljivka opisuje lastnost enot.
Primeri statističnih spremenljivk so spol oseb, število prometnih nesreč,število potnikov na vlaku, poraba goriva avtomobila na 100 km. V vsehopisanih primerih se izraz „spremenljivka“ uporablja upravičeno, sajvsaka opazovana enota zavzame neko določeno vrednost. Te vrednostiso lahko med seboj različne, lahko pa ima nekaj enot enake vrednosti.Vrednosti spremenljivk bomo pogosto imenovali podatki.
STATISTIKA UML
7
Glede na način izražanja vrednosti spremenljivke delimo spremenljivke na:
opisne, pri katerih vrednosti le opišemo z besedami in jih ne moremoovrednotiti numerično (npr. spol, kraj bivanja, nacin transporta) in
številske, pri katerih vrednosti izrazimo numerično. Številske spremenljivkedelimo na diskretne in zvezne.
Diskretne spremenljivke imajo za zalogo vrednosti končno ali neskončnozaporedje realnih števil. Ce vrednosti diskretne spremenljivke dobimo sstetjem, je njena zaloga vrednosti podmnožica naravnih števil (npr. številoprometnih nesreč, število potnikov na avtobusu).
Zvezne spremenljivke lahko zavzamejo vsako vrednost iz nekega intervala.Vrednosti zveznih spremenljivk dobimo z merjenjem (npr. čas, ki ga potrebujevoznik za določeno pot) ali z izračunavanjem (npr. poraba goriva vozila na 100km).
STATISTIKA UML
8
Parameter je statistična karakteristika populacije, ki gaizračunamo iz podatkov celotne populacije in vzorčnastatistika je statistična karakteristika vzorca, ki gaizračunamo iz podatkov vzorca
Kot primer parametra lahko navedemo povprečjepopulacije ali pa delež populacije z določeno lastnostjo.
Pri statističnem raziskovanju najprej zberemo podatke odposameznih enot vzorca, na podlagi teh podatkovizračunamo vzorčno statistiko, ki opisuje lastnost vzorca,nato pa s statističnem sklepanjem, ki temelji namatematični statistiki, sklepamo o parametru populacije.
STATISTIKA UML
9
STATISTIKA UML
Opisna statistika se ukvarja s predstavitvijo oz. povzemanjem pridobljenih podatkov. Množico informacij želimo obdelati in jih predstaviti na čim bolj nazoren način.
Inferenčna statistika raziskuje medsebojno povezanostdoločenih statističnih parametrov. Ukvarja se tudi zugotavljanjem zanesljivosti sklepov, ki smo jih dobili tako, danismo raziskali celotne populacije, pač pa samo njen manjši del,vzorec.
V nadaljevanju bomo spoznali osnove opisne statistike inosnove statističnega sklepanja.
10
Urejanje podatkovPodatke, ki smo jih pridobili od opazovanih statističnih enot populacije, moramo primerno urediti. Najprej si bomo ogledali urejanje številskih podatkov, nato pa se opisnih. Pri številskih podatkih imamo dve možnosti:
če je podatkov malo, npr. do 30, jih uredimo po velikosti v ranžirno vrsto, če pa je podatkov veliko, jih grupiramo in prikažemo v tabeli, ki jo imenujemo
frekvenčna porazdelitev. Število enot populacije smo označili z „N“.
Ranžirna vrsta
Po velikosti urejenim številskim podatkom v ranžirni vrsti določimo zaporednoštevilko, ki jo imenujemo rang. Rang nam pove, na katerem mestu v ranžirni vrstise nahaja podatek.
Enaki podatki stojijo v ranžirni vrsti skupaj in imajo enak rang. Izračunamo ga kotpovprečje rangov, ki bi jih podatki imeli, če bi bili različni med seboj.
STATISTIKA UML
11
STATISTIKA UML
Primer 1: Iz proizvodnje čokolad vzamemo vzorec 9-ih izdelkov (150g lešnikove čokolada) ter izmerimo težo ….
Vzorec Xi (posamezni rezultat)
1 150,62 151,83 151,54 153,45 150,66 152,27 149,58 150,49 150,9
RANŽIRNA VRSTA:
149,5150,4150,6150,6150,9151,5151,8152,2153,4
12
STATISTIKA UML
13
STATISTIKA UML
Običajno se podatke uredi v tabelah. Danes se za to uporablja računalniškoorodje EXCEL, ki ga boste uporabljali tudi vi pri reševanju študijskih primerih. Čepodatke vnesete v excelovo tabelo, ne boste imeli težav z grafično predstavitvijo,saj vam excel ponuja različne vrste grafikonov. Vi se le morate odločite, kateri jeza prikaz podatkov, ki ste jih zbrali, najprimernejši.
Primer 1: Linijski grafikon teže vzorcev mlečne čokolade
14
STATISTIKA UML
Sedaj pa sledi najtežji del obdelave, to je analitični del, ki mora vsebovatiizračune in interpretacije statističnih parametrov. Kateri statistične parametre najbi vsebovala posamezna poročila, je odvisno od namena in ciljev statističnegaproučevanja. Na nacionalnem nivoju je to v pristojnosti Statističnega uradaRepublike Slovenije; na podjetniškem nivoju pa je to prepuščeno menedžmentu,razen na tistih področjih, ki jih določajo predpisi.
Odločiti se boste morali za tiste parametre, ki po vašem mnenju najbolj odražajo lastnosti populacije.
Pri izračunu statističnih parametrov (aritmetična sredina, mediana, modus) jetreba upoštevati pravila in postopke, ki jih predpisuje stroka. Aritmetična sredina,mediana, modus kažejo osrednjo težnjo rezultatov, okrog njih se rezultati kopičijo:
Statistične parametre izračunamo za negrupirane in grupirane podatke.
15
STATISTIKA UML
Aritmetična sredina
16
STATISTIKA UML
Aritmetična sredina
Aritmetična sredina je povprečje rezultatov in je enakakvocientu vsote vseh vrednosti statistične spremenljivke sštevilom teh vrednosti
tišt.vrednosvsota
=x
∑∑
=
= =⇒=n
ii
n
ii
xxNN
xx
1
1
Negrupirani/posameznirezultati
17
STATISTIKA UML
Aritmetična sredina
Primer 2: Iz proizvodnje čokolad izračunajmo povprečno težo 9-ih izdelkov (150glešnikove čokolada)
Vzorec Xi (posamezni rezultat)
1 150,62 151,83 151,54 153,45 150,66 152,27 149,58 150,49 150,9
18
STATISTIKA UML
Aritmetična sredina - tehtana aritmetična sredina
Primer 3: Izračunajte povprečno število zaposlenih v posamezni trgovini za podanepodatke o številu trgovin s številom zaposlenih
�̅�𝑥 =∑𝑖𝑖=1𝑛𝑛 𝑓𝑓𝑖𝑖 � 𝑥𝑥𝑖𝑖∑𝑖𝑖=1𝑛𝑛 𝑓𝑓𝑖𝑖
=𝑓𝑓1 � 𝑥𝑥1 + 𝑓𝑓2 � 𝑥𝑥2 + 𝑓𝑓3 � 𝑥𝑥3 + ⋯ . . + 𝑓𝑓𝑛𝑛 � 𝑥𝑥𝑛𝑛
𝑓𝑓1 + 𝑓𝑓2 + ⋯ . . +𝑓𝑓𝑛𝑛
�̅�𝑥 =20 � 1 + 10 � 2 + 30 � 3 + 25 � 4 + 15 � 5
20 + 10 + 30 + 25 + 15 =305100 = 𝟑𝟑,𝟎𝟎𝟎𝟎
Odg: Povprečno število zaposlenih je 3,05 v posamezni trgovini.
19
Primer za pomanjkljivost aritmetične sredineŠtiri osebe so pri testiranju dosegle naslednje rezultate: 21, 22, 23 in 36. �̅�𝑥 = 25,50. Ta vrednost pade v praznino med prvimi tremi in četrtim rezultatom. Težko bi trdili, da posamezni rezultati težijo k temu povprečju in da jih to povprečje dobro zastopa. Skrajna vrednost 36 ga je namreč preveč »potegnila proti sebi«.V tem primeru bi mediana (Me) gotovo bolje opisovala osrednjo težnjo rezultatov kot aritmetična sredina (�̅�𝑥)–koliko znaša mediana Me?
STATISTIKA UML
20
Mediana ali središčnica je tista srednja vrednost statističnespremenljivke, pri kateri je polovica vrednosti večjih, druga polovicavrednosti pa manjših od dane vrednosti (50% je manjših vrednosti in50% večjih vrednosti).
Neparno število enot: Parno število enot:Statistične podatke razvrstiti po velikosti:
( )1
2int
+=
=
rxMe
Nr
2
21++
=
=
rr xxMe
Nr
STATISTIKA UML
Mediana (Me)
21
STATISTIKA UML
Mediana (Me) Je rezultat na sredini ranžirne vrste Najprej izračunamo medianski položaj: (N+1)/2 Mediana je ta rezultat v ranžirni vrsti
(prešteješ). V našem primeru… Če bi bilo sodo število, vzameš povprečje obeh
rezultatov Pomanjkljivost: upošteva le vrednost na sredi
(nenatančna mera) Prednost: neodvisnost od skrajnih vrednosti
22
STATISTIKA UML
Mediana (Me)
23
Primer za pomanjkljivost aritmetične sredine brez podatka o standardnem odklonu (𝛿𝛿)
Pri eni zelo odstopajoči vrednosti nam �̅�𝑥 daje napačen vtis. Podatek o povprečni plači v tem podjetju bi bil 2875 evrov.
Enako �𝑥𝑥 bi dobili npr. za podatke 2000, 2000, 2000 in 5.500 (direktor), le da bi bila razpršenost posameznih rezultatov okoli povprečja v tem primeru bistveno manjša.
STATISTIKA UML
24
Preverjanje razlik med aritmetičnimi sredinami
Npr. razlika na vprašalniku učnih navad med fanti in dekleti je 2 točki (fantje 39, dekleta 41)
Razlika je zelo majhna – ali res obstaja ali je zgolj naključna –posledica t.i. napake vzorčenja (pojavi se zaradi slučajnih dejavnikov, ker smo rezultate zbrali na vzorcu, ne na celi populaciji)?
Preverimo s posebnimi stat. metodami, ki se jih ne bomo učili, pač pa bomo sklepali „na oko“.
Razlika med dvema �𝒙𝒙 je statistično pomembna: z visoko stopnjo prepričanosti (običajno na nivoju 95%) lahko trdimo, da res obstaja v populaciji (le 5% tveganje, da je v resnici ni).
STATISTIKA UML
25
Razpršenost rezultatov
K vsaki �̅�𝑥 sodi podatek o tem, koliko so rezultati okoli nje: Zgoščeni (bolj reprezentativna)
npr. �̅�𝑥=50 za rezultate 48, 49, 50, 51, 52 Razpršeni (manj reprezentativna)
npr. �̅�𝑥=50 za rezultate 5, 5, 60, 130 Najpreprostejša mera je razpon: razlika med
maksimalnim in minimalnim rezultatom Najpogosteje pa računamo standardni odklon
ali standardno deviacijo: pove, kolikšna so odstopanja posameznih rezultatov od aritmetične sredine
STATISTIKA UML
𝜎𝜎 =∑ 𝑥𝑥 − 𝑥𝑥 2
𝑛𝑛26
STATISTIKA UML
Primer 3: Iz proizvodnje čokolad izračunajmo standardni odklon vzorca 9-ihizdelkov (150g mlečna čokolada)
27
Razpršenost (nad.)
Velika in mala razpršenost: sploščena in koničasta distribucija
Primer za pomen mere razpršenosti: če se odpravljamo na počitnice, nam podatek o povprečni temperaturi pove, katerih oblačil naj vzamemo največ, podatek o razpršenosti pa, ali moramo vzeti tudi bistveno toplejša/lažja oblačila:
�̅�𝑥 = 20 (ali to pomeni od 18 do 22 ali od 10 do 30?)
STATISTIKA UML
28
STATISTIKA UML
MERA DISPERZIJE
RAZPON VARIACIJE:(Razpon med največjo in najmanjšo vrednostjo podatkov)
minmax XXR −=
29
STATISTIKA UML
Modus (Mo)
Je rezultat, ki se največkrat pojavlja v podatkih
Prednosti: tudi pri kvalitativnih spremenljivkah (ločene kategorije, npr. spol, stan)
Pomanjkljivosti: upošteva le najpogostejšo vrednost (nenatančna mera)
Modus ali gostiščnica se imenuje najpogostejša vrednost ali najpogostejši podatek v množici vseh vrednosti
30
STATISTIKA UML
Modus (Mo)
Primer 4: Iz proizvodnje čokolad izračunajmo modus (Mo) vzorca 9-ih izdelkov(150g lešnikove čokolada)
Vzorec Xi (posamezni rezultat)
1 150,62 151,83 151,54 153,45 150,66 152,27 149,58 150,49 150,9
RANŽIRNA VRSTA:
149,5150,4150,6150,6150,9151,5151,8152,2153,4
31
KOEFICIENT VARIACIJE (V)
STATISTIKA UML
Omogoča primerjavo različnih pojavov glede variabilnosti. Koeficient variacije povekolikšen odstotek vrednosti aritmetične sredine zavzema standardni odklon. Večji kot jevečja je razpršenost podatkov.
Definiran je kot razmerje med standardnim odklonom in aritmetično sredino, odstandardnega odklona, ki prav tako prikazuje razpršenost statističnih enot, pa se razlikujepo tem, da je merjen v odstotkih in ga je zato moč uporabiti za primerjavo razpršenostienot različnih statističnih populacij.
𝑉𝑉 =100 � 𝜎𝜎�̅�𝑥
kjer je:
𝜎𝜎 – standardni odklon�̅�𝑥 – aritmetična sredina
32
STATISTIKA UML
Primer 5: Iz proizvodnje čokolad izračunajmo varianco in koeficientvariance V vzorca 9-ih izdelkov (150g lešnikove čokolada)
𝑉𝑉 =100 � 𝛿𝛿�̅�𝑥
=100 � 1,0867
151,21=
108,67151,21
= 0,71867
Interpretacija:
Pri vzorcu 9-ih kosov mlečnih čokolad predstavlja standardni odklon0,71867% vrednosti aritmetične sredine.
33
STATISTIKA UML
0 38
xMeMo1Q 3Q 0 38
Me xMo1Q 3Q0 38
x1Q Me
Mo
3Q
ee
Oe
MQQMMMx
−=−==
31 ee
eo
MQQMxMM−<−
<<
31 13 QMMQMMx
ee
oe
−<−<<
34
STATISTIKA UML
MERA DISPERZIJE
RAZPON VARIACIJE:(Razpon med največjo in najmanjšo vrednostjo podatkov)
minmax XXR −=
35
UMLSTATISTIKA
36
UML
Določanje vrednosti spremenljivke, da bi se razporedila na opredeljeno mesto v množici –imenujemo ga kvantil.
Vrednosti za dano spremenljivko v grafikonu kumulative frekvenc, lahko izračunamo. Prav tako lahko izračunamo položaj določene vrednosti, če poznamo podatek o tem, kolikšen delež vrednosti je manjših oziroma večjih od dane vrednosti.
Pri statističnem preučevanju nas pogosto zanima položaj posamezne enote med ostalimi enotami v populaciji.
Za opredeljevanje položaja posamezne enote uporabljamo naslednja parametra:
• rang R (določa, na katerem mestu v urejeni vrsti je posamezna enota) pove, koliko enot imamanjše in koliko večje vrednosti od izbrane enote. Ima vse vrednosti od 1 do N in zatolastnost diskretne spremenljivke;
• kvantilni rang P (položaj posamezne enote določa relativno) pove, koliko odstotkov enotima manjše in koliko večje vrednosti od izbrane enote. Ima vse vrednosti na razmiku od 0 do1 in lastnost zvezne spremenljivke.
•kvantilnemu rangu P = 0 ustreza rang R = 0,5 in•kvantilnemu rangu P = 1 ustreza rang R = N + 0,5
STATISTIKA
37
UML
Vrednosti, ki ustrezajo določenemu kvantilnemu rangu, so kvantili. Med njiminajvečkrat računamo:•kvartile:– prvi kvartil – Q1 s kvantilnim rangom P = 0,25 je vrednost, od katere ima 25 % enotmanjše ali kvečjemu enake vrednost, 75 % enot pa večje vrednosti;
– drugi kvartil – Q2 s kvantilnim rangom P = 0,50 je vrednost, od katere ima 50 %enot manjše ali kvečjemu enake vrednosti, 50 % pa večje vrednosti;
– tretji kvartil – Q3 s kvantilnim rangom P = 0,75 je vrednost, od katere ima 75 % enotmanjše ali kvečjemu enake vrednosti, 25 % pa večje vrednosti.•decile:– prvi decil – D1 P(D1) = 0,10;
– drugi decil – D2 P(D2) = 0,20;
– peti decil – D5 P(D5) = 0,50 do– deveti decil – D9 P(D9) = 0,90 je vrednost, od katere ima 90 % enot manjše alikvečjemu enake vrednosti, 10 % pa večje.
Q2 = D5 = mediana
STATISTIKA
38
UML
KVANTILI IN KVANTILNI RANGI IZ RANŽIRNE VRSTE
Brskanje po podatkih in iskanje pravih podatkov je lahko zelo zamudno opravilo. Vstatistiki so razvili številne metode, kako lahko podatke predstavimo zelo pregledano,kar nam olajša delo. Najprej bomo spoznali razvrščanje po velikosti.
Po velikosti urejenim številskim ali vrstim podatkom pravimo ranžirna vrsta. Podatkev ranžirni vrsti lahko uredimo od najmanjšega do največjega ali obratno.
Podatkom v ranžirni dodelimo tudi zaporedno številko, ki jo imenujemo rang. Če jeveč podatkov enakih, jim dodelimo enak rang, ki ga izračunamo kot povprečje rangov,ki bi jih podatki imeli, če bi bili med seboj različni.
Zastavimo si lahko dve nalogi:
1) danemu kvantilu y poiščemo pripadajoči kvantilni rang P in2) danemu kvantilnemu rangu P poiščemo pripadajoči kvantil y.
STATISTIKA
39
STATISTIKA UML
KVANTILI IN KVANTILNI RANGI IZ RANŽIRNE VRSTE
40
UML
Primer 6: „danemu kvantilu y poiščemo pripadajoči kvantilni rang P“
Iz proizvodnje čokolad vzamemo vzorec 9-ih izdelkov (150g lešnikove čokolade) terizmerimo težo ….
Podatke uredimo po velikosti in izračunajmo odstotek teže lešnikove čokolade, ki jevečja od 152,1 gr !
Rešitev:
1. Podatke uredimo v ranžirno vrsto
STATISTIKA
41
UML
Primer 6 nad.:
STATISTIKA
42
UML
Primer 7: „danemu kvantilnemu rangu P poiščemo pripadajoči kvantil y“
Rešitev: Ad a)
1. Podatke uredimo v ranžirno vrsto
STATISTIKA
Iz proizvodnje čokolad vzamemo vzorec 9-ih izdelkov (150g lešnikove čokolade)ter izmerimo težo ….
Izračunajmo prvi kvartil (𝑄𝑄1) in tretji decil (𝐷𝐷3)
43
UMLSTATISTIKA
Kvantilni rang prvega kvartila 𝑄𝑄1 je 𝑃𝑃(𝑄𝑄1) = 0,25
Pripadajoči rang R je 2,5𝑹𝑹 = 𝑃𝑃 � 𝑁𝑁 + 0,5 = 0,25 � 9 + 0,5 = 2,75
Zato je 𝑅𝑅0 = 2 < 𝑅𝑅 < 𝑅𝑅1 = 3,5 in 𝑦𝑦0 = 150,4 < 𝑦𝑦 < 𝑦𝑦1 = 150,6
𝑸𝑸𝟏𝟏 = 𝑦𝑦 = 𝑦𝑦0 +𝑅𝑅 − 𝑅𝑅0𝑅𝑅1 − 𝑅𝑅0
𝑦𝑦1 − 𝑦𝑦0 = 150,4 +2,75 − 23,5 − 2
150,6 − 150,4 = 150,4 +0,751,5
� 0,2
= 150,4 + 0,5 � 0,2 = 150,4 + 0,1 = 𝟏𝟏𝟎𝟎𝟎𝟎,𝟎𝟎 €
Interpretacija rezultata: ocenjujemo, da je med devetimi vzorci 150gr lešnikovečokolade 25 % takih, katerih teža je manjša ali enaka 150,5 gr oziroma 75% vzorcev jetakih, katerih teža je večja kot 150,5 gr.
Primer 7a nad.:„danemu kvantilnemu rangu P poiščemo pripadajoči kvantil y“
44
UMLSTATISTIKA
Primer 7b nad.:„danemu kvantilnemu rangu P poiščemo pripadajoči kvantil y“
45
UML
Rešitev: Ad 7b)
STATISTIKA
46
UMLSTATISTIKA
47
STATISTIKA UML
Grupiranje podatkov in frekvenčna porazdelitev
Kadar je opazovanih enot veliko, jih združimo oziroma grupiramo v skupine, ki jihimenujemo razredi. Pri grupiranju najprej določimo skupne lastnosti enot vposameznih razredih, nato pa enote razdelimo po razredih. Lastnosti razredovmorajo biti izbrane tako, da je vsaka enota v natanko enem razredu.
Ne sme se zgoditi, da bi ista enota ustrezala lastnostim dveh razredov ali pa daza kakšno enoto ne bi obstajal razred, v katerega bi jo uvrstili.
Postavlja se vprašanje, koliko razredov je smiselno oblikovati. Če jih je premalo,izgubimo določene informacije o podatkih, če pa jih je preveč, zopet nimamopregleda. V praksi se je izkazalo, da je ustrezno izbrati od 6 do 20 razredovoziroma uporabimo naslednje pravilo za določanje število razredov:
Pri tem naj bo r število razredov in N število enot preučevane množice.
48
STATISTIKA UML
Grupiranje podatkov in frekvenčna porazdelitev
Sedaj pa je potrebno enote populacije razvrstiti v posamezne razrede. Odločiti semorate za najmanjšo in največjo vrednost spremenljivke, ki spada v posameznirazred. Ti vrednosti se imenujeta meji razreda, razlika med mejama pa širinarazreda.
V nadaljevanju bomo prešteli enote, ki jih bomo uvrstili v posamezne razrede. To število se imenuje frekvenca razreda, ki se običajno označuje z fj, kjer f pomeni število enot v razredu, j pa zaporedno številko razreda.
Tako urejeni podatki predstavljajo frekvenčno porazdelitev, ki je prikazana vfrekvenčni tabeli.
Frekvenčna tabela je primerna za nadaljnjo obdelavo in interpretacijo lastnosti populacije. Običajno se pri interpretaciji uporabljajo naslednji pojmi:
• relativna frekvenca,• komulativna frekvenca,• komulativna relativna frekvenca.
49
STATISTIKA UML
Grupiranje podatkov in frekvenčna porazdelitev
Relativna frekvenca je delež enot posameznega razreda, zato se tudi običajno izraža v odstotkih.
Delež izračunamo tako, da frekvenco razreda delite s številom enot populacije N.
Relativna frekvenca:
Komulativne frekvenca posameznega razreda predstavlja vsoto absolutnihfrekvenc v predhodnih razredih.
V prvem razredu je ta enaka frekvenci razreda, v naslednjih razredih pa jihizračunamo tako, da komulativni frekvenci predhodnega razreda prištejemofrekvenco tega razreda. Tudi komulativne frekvence lahko izrazite kot deležeoziroma z odstotki, ki se imenujejo komulativne relativne frekvence.
50
STATISTIKA UML
Primer 8: Frekvenčna tabela starosti ponesrečencev
51
STATISTIKA UML
Interpretacija:
Relativna frekvenca: V starosti med 30 in 40 let je bilo 9 ponesrečencev (kolona 3), kar predstavlja 11% vseh ponesrečenih (kolona 4) .
Komulativna frekvenca: Mlajših od 20 let je bilo 34 ponesrečencev (kolona 5), kar predstavlja 41% vseh ponesrečenih (kolona 6).
Grafični prikaz:
Histogram frekvenčne porazdelitve starosti ponesrečencev
Frekvenčni poligon starosti ponesrečencev
52
STATISTIKA UML
Za grafični prikaz relativnih frekvenc je primeren strukturni krog, kjer izsekipomenijo delež enot v posameznem razredu, torej relativno frekvenco.
53
STATISTIKA UML
Grupiranje podatkov in frekvenčna porazdelitevPrimer 9:V proizvodnji čokolad smo v času ene ure izbralinaključno 25 kosov (150g lešnikove čokolade) terizmerili njihovo težo. Podatki o teži so zbrani vtabeli.
Uredite podatke tako, da dobite predstavo o temkako uspešen je proizvodni proces !
Postopek:
1. Podatke uredimo v ranžirno vrsto2. Iz podatka o številu populacije N izračunamo
po Stugersov pravilu število razredov r,3. Poiščemo minimalno in maksimalno vrednost
podatkov in izračunamo širino razreda „i“4. Izdelamo frekvenčno tabelo meritev teže,5. Interpretacija dobljenih podatkov.
54
STATISTIKA UML
r - št. razredov
Število razredov je odvisno od enot (N) v množici podatkov - več kot je podatkov, več razredov bomo opredelili. Če jih je:
- preveč dobimo preveliko razdrobljenost podatkov (manjšo preglednost),- premalo dobimo zelo lepo preglednost, zabrišemo pa osnovne značilnosti proučevanega pojava (spremenljivke).
Velja, da uporabimo Stugersov princip: r = 1 + 3,32*log N
širina razreda:
55
STATISTIKA UML
Grupiranje podatkov in frekvenčna porazdelitev
56
STATISTIKA UML
4,00%8,00%
12,00%
56,00%
16,00%
4,00%
Relativna frekvenca teže čokolade
1 nad 138 do 141,88 2 nad 141,88 do 145,76 3 nad 145,76 do 149,65
4 nad 149,65 do 153,53 5 nad 153,53 do- 157,41 6 nad 157,41 do 161,29
02468
10121416
nad 138 do141,88
nad 141,88do 145,76
nad 145,76do 149,65
nad 149,65do 153,53
nad 153,53do- 157,41
nad 157,41do 161,29
1 2 3 4 5 6
Frekvenčni poligon teže čokolade
abs. frekv. fj
57
STATISTIKA UML
Aritmetična sredina
Aritmetično sredino grupiranih podatkov, katere smo uredili v frekvenčno porazdelitev izračunamo po naslednji formuli:
�̅�𝑥 =∑𝑖𝑖=1𝑛𝑛 𝑓𝑓𝑖𝑖 � 𝑥𝑥𝑖𝑖
𝑁𝑁=𝑓𝑓1 � 𝑥𝑥1 + 𝑓𝑓2 � 𝑥𝑥2 + 𝑓𝑓3 � 𝑥𝑥3 + ⋯ . . + 𝑓𝑓𝑛𝑛 � 𝑥𝑥𝑛𝑛
𝑁𝑁
kjer predstavlja 𝑥𝑥𝑖𝑖 sredino razreda.
𝑥𝑥𝑖𝑖 =𝑥𝑥𝑖𝑖𝑖𝑖 + 𝑥𝑥𝑖𝑖𝑖𝑖
2
58
STATISTIKA UML
Mediana ali središčnica je tista srednja vrednost statistične spremenljivke, pri kateri je polovica vrednosti večjih, druga polovica vrednosti pa manjših od dane vrednosti (50% je manjših vrednosti in 50% večjih vrednosti).
Najprej izračunamo medianski položaj: (N+1)/2
Medialni (kvartilni) razred je tisti, ki ima kumulativno frekvenco neposredno večjo od N/2
𝐿𝐿1– spodnja meja medialnega (kvartilnega) razreda∑𝑓𝑓 - kumulativna frekvenca pred medialnim (kvartilnim) razredom𝑓𝑓𝑚𝑚𝑚𝑚𝑚𝑚- originalna frekvenca medialnega (kvartilnega) razredai - velikost medialnega (kvartilnega) razreda
59
STATISTIKA UML
Modus ali gostiščnica se imenuje najpogostejša vrednost ali najpogostejši podatek v množici vseh vrednosti
Modalni razred je razred z največjo absolutno frekvenco (𝑓𝑓𝑗𝑗)
𝐿𝐿1-spodnja meja modalnega razredab - največja frekvencaa - frekvenca pred modalnim razredomc - frekvenca za modalnim razredomi - velikost modalnega razreda
i)cb()ab(
)ab(LMo 1 ⋅−+−
−+=
Prednost modusa pred aritmetično sredino je v tem, da samo absolutna frekvenca. Zato zelo dobro predstavlja podatke.
60
STATISTIKA UML
Povprečni absolutni odklon (𝑃𝑃𝑃𝑃𝑀𝑀) nam pove, za koliko se v povprečju vrednosti spremenljivke razlikujejo od aritmetične sredine.
𝑷𝑷𝑷𝑷𝑴𝑴 =∑𝒊𝒊=𝟏𝟏𝑵𝑵 𝒇𝒇𝒊𝒊 � 𝒙𝒙𝒊𝒊 − �𝒙𝒙
𝑵𝑵kjer so:
𝑥𝑥𝑖𝑖 – sredine razredov
𝑓𝑓 – absolutne frekvence razredov
�̅�𝑥 – aritmetična sredina
𝑁𝑁 – skupno število podatkov
61
STATISTIKA UML
Varianca (𝜎𝜎2) nam pove kolikšno je povprečno odstopanje posameznih vrednosti od aritmetične sredine.
𝜎𝜎2 =∑𝑖𝑖=1𝑁𝑁 𝑓𝑓𝑖𝑖 � 𝑥𝑥𝑖𝑖 − �̅�𝑥 2
𝑁𝑁kjer so:𝑥𝑥𝑖𝑖 – sredine razredov𝑓𝑓 – absolutne frekvence razredov�̅�𝑥 – aritmetična sredina𝑁𝑁 – skupno število podatkov
Standardni odklon ali standardna deviacija ( 𝜎𝜎 ) nam pove kolikšna soodstopanja posameznih rezultatov od aritmetične sredine oziroma koliko je"vredna aritmetična sredina" (kako dobro nam predstavlja podatke). Večja jevrednost večja je variabilnost podatkov.
𝜎𝜎 =∑𝑖𝑖=1𝑁𝑁 𝑓𝑓𝑖𝑖 � 𝑥𝑥𝑖𝑖 − �̅�𝑥 2
𝑁𝑁62
Kvartili
Q1 (spodnji kvartil)
if
fNLQ
q
⋅−
+=∑4
11
Spodnji kvartil je srednja vrednost ki niz delitako da 25% enot ima vrednost manjšo alienako Q1 a 75% večjo ali enako
Q3 (zgornji kvartil)
if
fNLQ
q
⋅−
+=∑4
313
Gornji kvartil kvartil je srednja vrednost ki nizdeli tako da 75% enot ima vrednost manjšo alienako Q3 a 25% večjo ali enako
STATISTIKA UML
63
MERE DISPERZIJE
RAZPON VARIACIJE:(Razpon med največjo in najmanjšo vrednostjo podatkov)
minmax XXR −=
INTERKVARTIL(Razpon srednjih 50% členov niza)
13 QQIQ −=
KOEFICIENT KVARTILNE DEVIACIJE(Relativna mera za interkvartil)
1V0 Q13
13 ≤≤+−
=QQQQVQ
STATISTIKA UML
64
Koeficient α3 33
3 δα M
= 22 3 <<− α
Pearsonova mera asimetrijeδ
ok
MxS −=
δ)(3 e
kMxS −
= 33 <<− kS
Bowleyeva mera asimetrije13
13 2QQ
mQQS ekq −
−+= 11 <<− kqS
0 38
xMeMo1Q 3Q
0 38Me xMo1Q 3Q
0 38
x1Q Me
Mo
3Q
Simetrična Desnostranska Levostranska
ee
Oe
MQQMMMx
−=−==
31 ee
eo
MQQMxMM−<−
<<
31 13 QMMQMMx
ee
oe
−<−<<
65
Bowleyeva mera asimetrije
Bowleyeva mera asimetrije temelji na razmerju kvantilov in mediane.
v simetričnih porazdelitvah je Bowleyeva mera asimetrije enaka 0 v pozitivno asimetričnih mera je pozitivna, a v negativno asimetričnih je
negativna. Bowleyeva in Pearsonova mera asimetrije so nepopolne mere in dajoinformacije kot so koeficienti asimetrije, ter se izračunajo enostavno inhitreje.
STATISTIKA UML
66
SPLOŠČENOST 0 444
4 αδ
α M=
Ostraα4>3
Normalnaα4=3
Položna1,8<α4<3
Pravokotnaα4=1,8
U porazdelitev0<α4<1,8
STATISTIKA UML
67
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
68
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
L1 = 150
69
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
70
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
71
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
72
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
73
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
Najpogosteje se uporablja relativna mera variabilnosti, ki jo imenujemokoeficient variabilnosti (V) in jo izračunamo kot kvocient med standardnimodklonom in aritmetično sredino:
𝑲𝑲𝑲𝑲 =100 ∗ 𝝈𝝈
�𝒙𝒙
74
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
Koeficient α3 33
3 δα M
= 22 3 <<− αSPLOŠČENOST
0 444
4 αδ
α M=
75
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
Σf − vsota kumulativnih frekvenc predmedialnim razredomN – št. podatkov
L1 – spodnja meja medialnega razredafq – absolutna frekvenca medialnega
razredai – širina razreda
76
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statističnih parametrov zagrupirane podatke
77
STATISTIKA UML
Primer 10: Za podatke v primeru 9 naredimo izračun statistične parametre zagrupirane podatke
78
UML
RAČUNANJE KVANTILOV IN KVANTILNIH RANGOV IZ FREKVENČNEPORAZDELITVE
Pri frekvenčni porazdelitvi so enote populacije zbrane v razrede. Rang posamezneenote nadomestimo s kumulativo razreda, v katerega sodi ta enota.
Rešimo naslednjo nalogo: Danemu kvantilu y izračunajmo pripadajoči kvantilnirang P.
Poiščimo razred, v katerega sodi vrednost y. Naj bo to j-ti razred, imenujemo gakvantilni razred. Tedaj velja naslednja ocena (denimo, da so razredi definirani tako,da vsebujejo svojo zgornjo mejo).
Rang R, ki pripada kvantilu y, je tedaj umeščen med kumulativo kvantilnegarazreda in kumulativo razreda pred njim.
STATISTIKA
79
UMLSTATISTIKA
80
UML
Tabela 1 prikazuje grupirane podatke o neto mesečnih plačah zaposlenih v podjetju ABC.
Primer 11:
Tabela 1: Neto mesečne plače zaposlenih v podjetju ABC
Izračunaj, kolikšen delež zaposlenih zasluži mesečno največ 850 EUR.
Danemu kvantilu y izračunajmo pripadajoči kvantilni rang P.
STATISTIKA
81
UML
Rešitev:
STATISTIKA
82
UML
Primer 12: Danemu kvantilnemu rangu P poiščimo pripadajoči kvantil y.
Tabela 1 prikazuje grupirane podatke o neto mesečnih plačah zaposlenih v podjetju ABC.
Tabela 1: Neto mesečne plače zaposlenih v podjetju ABC
STATISTIKA
83
UML
Rešitev: Ad a)Slike trenutno ni mogoče prikazati.
Slike trenutno ni mogoče prikazati.
STATISTIKA
84
UML
Rešitev: Ad b)
STATISTIKA
85
UML
Rešitev: Ad c)
STATISTIKA
86