1
DeskriptivnaDeskriptivna
statististatistička analizačka analiza
Predavač: Predavač: DrDr Mirko SavićMirko Savić
www.eccf.su.ac.yu
Deskriptivna statistička analiza predstavlja skup metoda kojima se vrši izračunavanje, prikazivanje i opisivanje osnovnih karakteristika statističkih serija.
Deskriptivna statistička analiza ima sledeće zadatke:1.Grupisanje i sređivanje statističkih podataka.
2. Prikazivanje statističkih podataka.
3.Određivanje osnovnih pokazatelja statističkih
serija.
2
Grupisanje podataka se vrši prema vrednostima ili modalitetima posmatranih obeležja.
Grupisanje i sređivanje statističkih podataka
Str. 51 i 104;29 i 56;19
Kao krajnji rezultat grupisanja javlja se
statistička serija.
Statistička serija predstavlja uređeni skup varijacija obeležja posmatrane statističke mase.
Statistička serija se prikazuje u obliku tabele,
najmanje u dva reda i dve kolone, gde je u prvoj
koloni iskazana kvalitativna strana statističke mase,
a u drugoj kvantitativna (brojčana) strana.
3
Obeležje (X) –
kvalitativna strana
Frekvencija (fi) –
kvantitativna strana
Primer za statističku seriju sa prekidnim
numeričkim obeležjem (intervalna serija):
Tabela broj 4: Raspored studenata prema broju položenih ispita Broj ispita
(X) Broj studenata
(fi) 1 2
0-2 10 3-5 20 6-8 15
Ukupno 45
DES-097 Z(06)1-1 Grupisanje, prekidna obeležja
DES-098 Z(06)1-2 Grupisanje, neprekidna obeležja
Prikazivanje statističkih podataka
Prikazivanje statističkih serija se može vršiti na dva
načina:
•tabelarno,•grafički.
Str. 69;35;23
4
Statistička tabela predstavlja uokvirenu površinu u koju se unosi statistička serija.
Broj i naziv tabele Naziv obeležja
(X) Naziv frekvencije
(fi) ← Zaglavlje
1 2 ← Redni broj kolone Vrednost ili modalitet obeležja f1 Vrednost ili modalitet obeležja f2
.
.
.
.
.
.
Vrednost ili modalitet obeležja fn
Ukupno: ∑=
n
iif
1 ← Zbirni red
Primedba: Izvor:
↑ Predkolona
Prema sadržaju, tabele mogu biti:
•proste,
•složene,
•kombinovane.
5
Grafičko prikazivanje
Grafikoni se najčešće dele na sledeći način:
•tačkasti (stigmogrami),
•površinski,
•prostorni,
•linijski,•kartogrami.
Str. 73;38;25
Primer za dijagram rasturanja
6
Primer za bar-dijagram
Primer za histogram frekvencija
7
Broj radnika prema odeljenjima i polu
10
54
12
98
0
2
4
6
8
10
12
14
Prvo Drugo Treće
Odeljenje
Broj radnika Muški
Ženski
Primer za bar dijagram sa dva obeležja
(urađeno u Excel-u)
Prinos pšenice u 2003. u mil. tona
Izvor: Statistički godišnjak SCG za 2003. godinu
Južna Amerika, 24
Okeanija, 24
Severna Amerika, 78
Azija, 239
Evropa, 200
Afrika, 18
Primer za kružni dijagram – pie-chart
(urađeno u Excel-u)
8
PrvoDrugo
Treće
Muški
Ženski
12
98
10
5
4
0
2
4
6
8
10
12
Broj radnika
Odeljenje
Pol
Broj radnika prema odeljenjima i polu
Primer za stereogram (urađeno u Excel-u)
Primer za poligon frekvencija (linijski dijagram)
9
Pravljenje preseka na osama
Poseta turista u hiljadama
0
20
40
60
80
100Januar
Februar
Mart
April
Maj
Jun
Jul
Avgust
Septembar
Oktobar
Novembar
Decembar
Primer za polarni dijagram (linijski dijagram)
10
Primer za
kartogram
Primer za loše grupisanje i grafičko prikazivanje:
Imate li klima uređaj?
27.7%
44.6%
27.7%
Ne
Da, u kući
Da, u autu
Izvor: Blic, 7. avgust 2006.
Primer za loše grafičko prikazivanje (Fresh&Co)
11
Tabela 1: Raspored domaćinstava u naselju prema broju automobila
Broj automobila
(xi)
Broj domaćinstava
(fi) Kumulacija ispod Kumulacija iznad
1 2 3 4
0 4 4
1 8 12 (4+8)
2 10 22 (4+8+10)
3 5 27 (4+8+10+5)
Ukupno 27 - -
Kumulacija ispod i iznad
Tabela 1: Raspored domaćinstava u naselju prema broju automobila
Broj automobila
(xi)
Broj domaćinstava
(fi) Kumulacija ispod Kumulacija iznad
1 2 3 4
0 4 4 27 (5+10+8+4)
1 8 12 (4+8) 23 (5+10+8)
2 10 22 (4+8+10) 15 (5+10)
3 5 27 (4+8+10+5) 5
Ukupno 27 - -
12 domaćinstava u naselju ima najviše 1 automobil 15 domaćinstava u naselju
ima najmanje 2 automobila
22 domaćinstava u naselju ima najviše 2 automobila
Kumulacija ispod i iznad
12
DES-001 K(05)2-1 Grupisanje i grafičko prikazivanje statističkih podataka (prekidna numerička obeležja)
DES-002 K(05)2-2 Grupisanje i grafičko prikazivanje statističkih podataka (neprekidna num. obeležja)
DES-013 K(05)2-3 Poligon kumul. frekvencija (neint. serija)
DES-071 K(05)2-4 Poligon kumul. frekvencija (intervalna serija)
DES-008 K(05)z 2-1 Poligon i histogram - vrem. serija
DES-054 K(05)z 2-2 Poligon i hist. frekvencija - prekidna
DES-060 K(05)z 2-3 Grupisanje i sređivanje – neprekidno ob.
DES-059 K(05)z 2-6 Grupisanje i sređivanje – prekidno ob.
DES-061 K(05)z 2-7 Grupisanje i sređivanje – neprekidno ob.
DES-024; K(05)z 2-8 Srednje v., mere v., pol. i histogram
DES-028; K(05)z 2-9 Mere varijacije – negrupisani, prekidna
DES-032; K(05)z 2-10 Srednje vred., Mere v. - grup. i prekidna
DES-063; K(05)z 2-11 Geometrijska sredina
DES-068; K(05)z 2-12 Srednje v. i mere v.-grupis., prekidna
DES-064; K(05)z 2-13 Geometrijska sredina
DES-016; K(05)z 2-14 Srednje v. i mere v., graf, neprekidno o.
DES-057 K(05)z 2-5 Poligon i histogram – neprekidna ob.
DES-058 K(05)z 2-4 Grupisanje i sređivanje – prekidno ob.
13
U osnovne mere statističkih serija spadaju(nema u udžbeniku):•Srednje vrednosti (mere centralne tendencije).•Mere varijacije (mere disperzije, raspršenosti).
•Mere oblika rasporeda.
µµµµ
σσσσ
σσσσ2222 Mo
αααα4444
αααα3333 Me
I V
Q1
Q2
Q3
Str. 104;60;37
Osnovne mere statističkih serija
Srednje vrednosti
Srednje vrednosti su vrednosti obeležja koje
na specifičan način reprezentuju čitavu
statističku masu, odnosno zamenjuju sve
vrednosti u statističkoj seriji i karakterišu
statističku masu u celini.
Str. 109;60;37
14
Srednje vrednosti poseduju sledeće osobine:•Ne mogu biti veće od najveće vrednosti obeležja niti
manje od najmanje vrednosti obeležja u seriji.•Mogu imati vrednost koja uopšte ne postoji u
numeričkoj seriji.
•Mogu biti izražene i decimalnim brojem bez obzira
da li je u pitanju serija sa prekidnim ili neprekidnim
obeležjem.
Izračunate srednje vrednosti se mogu utvrditi
samo računskim putem. Tu spadaju:
( )µ;x•aritmetička sredina*
•geometrijska sredina* (G),
•harmonijska sredina* (H),
•kvadratna sredina,
•kubna sredina,
•logaritamska sredina.
Srednje vrednosti se dele u dve grupe:•Izračunate srednje vrednosti.
•Srednje vrednosti po položaju.
15
Tu spadaju:•modus* (Mo),
•medijana* (Me),
•medijala (Ml),
•kvartili* (Q),
•kvintali (Kv),
•decili (D),
•percentili* (P).
Str. 143;69;37
Srednje vrednosti po položaju
To su srednje vrednosti koje se mogu odrediti na
osnovu pozicije na kojoj se nalaze kada su vrednosti
obeležja poređane u rastući niz.
Aritmetička sredina (prosek)
x (''iks-bar'')
µ (''mi'')
Prema tome da li su podaci grupisani ili ne, razlikuju se:
•prosta aritmetička sredina,
•ponderisana (složena, vagana) aritmetička sredina.
Simboli koji se koriste:
Aritmetička sredina za uzorak:
Aritmetička sredina za osnovni skup:
Str. 110;61;37
16
Prosta, za osnovni skup:
N
xN
ii∑
= =1µ ;
Prosta, za uzorak: n
xx
n
ii∑
= =1;
Ponderisana, za osnovni skup: ∑
∑
=
=
=
k
ii
k
iii
f
fx
1
1µ ;
Ponderisana, za uzorak: ∑
∑
=
=
=
k
ii
k
iii
f
fxx
1
1;
Formule za aritmetičku sredinu:
Primer 16 (strana 111) – Prosta aritmetička sredina za osnovni skup
Primer 17 (strana 111) (greškom piše primer 15) – Prosta aritmetička sredina za uzorak
Primer 18 (strana 112) – Složena aritmetička sredina za osnovni skup
Primer 21 (strana 118) – Složena aritmetička sredina za uzorak
17
Geometrijska sredina
Geometrijska sredina spada u izračunate srednje
vrednosti koja se koristi kada u numeričkoj seriji
obeležja pokazuju neke relativne pokazatelje (indekse) ili
karakteristike geometrijske progresije.
Simbol: G
Str. 135;65;39
Prosta geometrijska sredina: log n
xG
n
ii∑
= =1log
;
Ponderisana geometrijska sredina: ∑
∑=
=
=
k
ii
k
iii
f
xfG
1
1log
log ;
Geometrijska sredina: log GG=
Geometrijsku sredinu nije moguće izračunati ako je
neka vrednost obeležja jednaka nuli!
Formule za geometrijsku sredinu:
18
Primer za antilogaritam
logG=0,9542425
G=10logG=100,9542425=9Antilogaritam:
Primer 37 (strana 136)Prosta geometrijska sredina
DES-062 K:2-5 Prosta geometrijska sredina
Harmonijska sredina
Harmonijska sredina je jedna od izračunatih
srednjih vrednosti koja se izračunava iz
recipročnih vrednosti obeležja.
Simbol: H
Str. 138;67;40
Harmonijsku sredinu nije moguće izračunati ako je
neka vrednost obeležja jednaka nuli!
19
Prosta harmonijska sredina: ;
11∑
=
=
n
i ix
nH
Ponderisana harmonijska sredina: ;
1
1
∑
∑=
=
=
k
i i
i
k
ii
x
f
fH
Formule za harmonijsku sredinu:
Primer 39 (strana 138)Prosta harmonijska sredina
DES-067 K:2-6Prosta harmonijska sredina
Modus
Modus je ona vrednost obeležja koja se najčešće javlja
u statističkoj seriji, odnosno ona vrednost obeležja
koja ima najveću frekvenciju.
Primer 46 (strana 144)Modus za neintervalnu numeričku seriju
Zašto je modus nekad bolji od aritmetičke sredine?
Veličina obuće ili odeće.
Simbol: Mo
Str. 143;69;41
DES-081 Modus, negrupisani podaci
20
bff
faM
MM o
MM oo ⋅
++=
+−
+
101
10
gde je:aMo – donja granica modalnog intervala,
fMo-1 – frekvencija pre modalnog intervala,
fMo+1 – frekvencija posle modalnog intervala,
b – širina intervala, širina klase.
Modus se može utvrditi i na osnovu grafičkog prikaza!
Formula za modus (intervalna numerička serija):
U seriji može da postoji više modusa!
Primer 47 (strana 146)Modus za intervalnu numeričku seriju
Medijana
Medijana je srednja vrednost po položaju koja deli
numeričku seriju na dva jednaka dela. Jedna polovina
vrednosti obeležja je manja od nje, a druga polovina veća.
Simbol: Me
Str. 148;71;42
21
Neparan broj podataka: xM ne2
1+= ;
Paran broj podataka: 2
122
xxM
nn
e
++
= ;
Intervalna numerička serija sa neparnim brojem podataka: b
F
F
f
aMm
m
k
ii
M ee ⋅
−
∑
+=
=
11
2;
Intervalna numerička serija sa parnim brojem podataka: b
F
F
f
aMm
m
k
ii
M ee ⋅
−
+∑
+=
=
11
2
1
;
gde je:
aMe – donja granica medijalnog intervala,
aMe+1 – gornja granica medijalnog intervala,
Fm1 – kumulacija pre medijalnog intervala,
Fm – frekvencija medijalnog intervala,
b – širina intervala, širina klase.
Formule za medijanu:
Primer 48 (strana 148) – Medijana za negrupisane podatke –neparan broj podataka
Primer 49 (strana 149) – Medijana za negrupisane podatke –paran broj podataka
Primer 50 (strana 149) – Medijana za grupisane podatke –neintervalna serija i neparan broj podataka
Primer 51 (strana 150) – Medijana za grupisane podatke –neintervalna serija i paran broj podataka
Primer 52 (strana 152) – Medijana za grupisane podatke –intervalna serija i neparan broj podataka
Primer 53 (strana 153) – Medijana za grupisane podatke –intervalna serija i paran broj podataka
Medijana može da se odredi i grafički uz pomoć
kumulacija ispod i iznad.
22
Zašto je nekad bolje koristiti medijanu nego aritmetičku sredinu?
Preduzeće ima 6 radnika sa platama:100, 100, 150, 150, 400, 1500
µµµµ=400
Me=150
‘’U našem preduzeću prosečna plata je 400 evra!’’
Primer:
Kvartili
Kvartili su srednje vrednosti po položaju koje dele
statističku seriju na četiri jednaka dela kada su
vrednosti obeležja poređane u rastući niz.
Simboli: Q1, Q2, Q3
Str. 160;;46
Postoji ukupno tri kvartila.
23
Prvi kvartil (Q1) deli numeričku seriju tako da je jedna
četvrtina podataka manja od njega a tri četvrtine su
veće.
Drugi kvartil (Q2) je jednak sa medijanom (Me) i deli
numeričku seriju tako da je jedna polovina podataka
manja od njega a druga polovina veća.
Treći kvartil (Q3)…
Primer 57 (strana 160)Kvartili za negrupisane podatke – neparan broj podataka
Primer 61 (strana 162)Kvartili za grupisane podatke – neintervalna serija i neparan broj podataka
Percentili
Str. 175;;47
Percentili su srednje vrednosti po položaju koje dele
statističku seriju na sto jednakih delova.
Simbol: P
Na primer, zarada radnika: P80=15000
24
Primeri za srednje vrednosti:
DES-021 K:2-7Aritmetička sredina, modus i medijana, negrupisani podaci
DES-022 K:2-8Aritmetička sredina, modus i medijana, neintervalna serija
Mere varijacija(mere disperzije)
Primer 76 (strana 182)
Tri serije sa istim srednjim vrednostima
Str. 182;76;47
Mere varijacije su pokazatelji relativnih i
apsolutnih odstupanja vrednosti obeležja
od neke srednje vrednosti, obično od
aritmetičke sredine.
25
U statističkoj praksi postoji velik broj mera varijacije:•interval varijacije*,
•varijansa*,
•standardna devijacija*,
•koeficijent varijacije*,•normalizovano (standardizovano) odstupanje (z-
skor)*,
•interkvartilna varijacija,
•srednje apsolutno odstupanje,
Interval varijacije
Interval varijacije predstavlja razliku između
najveće i najmanje vrednosti obeležja.
Simbol: I
Str. 185;;48
26
Za negrupisane podatke ili neintervalnu seriju: xxI minmax −=
Kod intervalne serije: aaI k 0−=
gde je:xmax – najveća vrednost obeležja,xmin – najmanja vrednost obeležja,
ak – gornja granica poslednjeg intervala,
a0 – donja granica prvog intervala.
Formule za interval varijacije:
Primer 77 (strana 185)
Interval varijacije – negrupisani podaci
Primer 78 (strana 186)
Interval varijacije – grupisani podaci
Primer 79 (strana 187)
Interval varijacije – grupisani podaci,
intervalna serija
27
Interkvartilna varijacija (ne radi se)
Str. 189;;49
Interkvartilna varijacija je mera varijacije koja
zanemaruje uticaj ekstremnih vrednosti obeležja i
pokazuje razliku između prvog i trećeg kvartila u
numeričkoj seriji.
IQ = Q3−Q1
DES-072 K:2-12Kvartili, percentili, interkvartilna varijacija
Varijansa
Prosek kvadrata odstupanja
pojedinačnih vrednosti obeležja od neke
srednje vrednosti, najčešće od
aritmetičke sredine.
Simbol: σ2 (sigma na kvadrat)
Str. 196;79;49
Mera varijacije drugog stepena koja
nema jedinicu mere.
Njena vrednost se nalazi u intervalu [0, +∞]
28
Negrupisani podaci - osnovni skup: 2
212 ;
N
ii
x
Nµσ
=∑
= −
Negrupisani podaci - uzorak: 1
1
22
2
−
∑ −
= =
n
xnxn
ii
uσ ;
Grupisani podaci – osnovni skup: 2
1
1
2
2 µσ −
∑
∑
=
=
=
k
ii
k
iii
f
xf;
Grupisani podaci – uzorak: ∑ −
∑∑ −
=
=
==
k
ii
k
ii
k
ii i
u
f
fxfx
1
11
22
2
1σ ;
Formule za varijansu:
Primer 87 (strana 197)
Varijansa – negrupisani podaci, osnovni skup
Primer 90 (strana 204)
Varijansa – grupisani podaci, uzorak
29
Standardna devijacija
Prosečno odstupanje pojedinačnih vrednosti
obeležja od određene srednje vrednosti,
izraženo u jedinicama mere u kojima je
izraženo i obeležje koje se posmatra.
Njena vrednost se nalazi u intervalu [0, +∞]
Simbol: σ (sigma)
Str. 209;83;50
Mera varijacije prvog stepena.
Za osnovni skup: σσ 2= ;
Za uzorak: σσ2uu = .
Formule za standardnu devijaciju:
30
Koeficijent varijacije
Relativna mera varijacije koja pokazuje koliko
procenata iznosi standardna devijacija od
aritmetičke sredine.
Simbol: V
Str. 210;84;50
Kada se koristi?
Za osnovni skup: 100⋅=µ
σV ;
Za uzorak: 100⋅=x
Vu
uσ ;
Formule za koeficijent varijacije:
31
Normalizovano (standardizovano) odstupanje (z-skor)
Mera varijacije koja pokazuje odstupanje jedne
vrednosti obeležja od srednje vrednosti u
standardnim devijacijama.
Str. 216;85;51
Kada se koristi?
Primer 108 (strana 217)Normalizovano odstupanje
DES-037 K:2-11Normalizovano odstupanje – dva uzorka
Formule za normalizovano odstupanje:
Za osnovni skup: σ
µ−=
XU ;
Za uzorak: σ u
uxX
U−
= .
32
Primeri za mere varijacije:
DES-023 K:2-9Mere varijacije, negrupisani podaci, uzorak
DES-044 K:2-10Srednje vrednosti, mere varijacije, intervalna serija, uzorak
DES-069 Z(06)3-1Srednje vrednosti, mere varijacije, neintervalna, uzorak
Podaci o antropomerama građana SFRJ (16-55 godina starosti) (udžbenik, strana 52)
Muškarci
1,4142,91Broj cipela
2,5539,78Širina kukova
2,3848,80Širina ramena
0,555,01Dužina nosa
6,89174,64Visina tela
10,5172,8Težina tela
Standardna devijacijaAritmetička sredinaNaziv obeležja
Žene
1,0637,68Broj cipela
1,4038,70Širina kukova
2,2040,78Širina ramena
2,495,05Dužina nosa
9,25166,59Visina tela
12,9170,07Težina tela
Standardna devijacijaAritmetička sredinaNaziv obeležja
33
Mere oblika rasporeda
Za izračunavanje asimetrije i spljoštenosti
rasporeda koriste se sledeće mere:
•mera asimetrije (α3),
•mera spljoštenosti (ekscesa) (α4).
Str. 218;86;57
Mere oblika rasporeda se izračunavaju preko
pomoćnih i centralnih momenata rasporeda.
Koeficijent asimetrije
Ako je:
�α3 = 0, raspored je simetričan,
�α3 > 0, raspored je asimetričan u desno (pozitivna asimetrija),
�α3 < 0, raspored je asimetričan u levo (negativna asimetrija).
Numerički pokazatelj koji izražava u kojoj meri je neki raspored asimetričan u odnosu na normalni
raspored.
Simbol: α3
Str. 229;92;58
34
MMx oe ==
03 =α
fi
X
Raspored asimetričan u desnu stranu(pozitivna asimetrija)
xMM eo <<
03 >α fi
X
Raspored asimetričan u levu stranu
(negativna asimetrija)
MMx oe <<
03 <α
U zavisnosti od veličine koeficijenta, određuje
se i jačina asimetrije. Gradacija je sledeća:
|α3| ≤ 0,25 – mala asimetrija,
0,25 < |α3| ≤ 0,50 – srednja asimetrija,
|α3| > 0,50 – jaka asimetrija.
σα 3
33
u
M=
Formula za koeficijent asimetrije:
35
Koeficijent spljoštenosti
Simbol: α4
Str. 235;94;60
Numerički pokazatelj koji izražava u
kojoj meri je neki raspored spljošten u
odnosu na normalni raspored.
σα 4
44
u
M=
Na osnovu ove formule, koeficijent pruža sledeću informaciju:•α4 = 3, raspored je normalno spljošten (zaobljen),•α4 > 3, raspored je više izdužen u odnosu na normalni raspored,•α4 < 3, raspored je više spljošten u odnosu na normalni raspored.
Formula za koeficijent spljoštenosti:
36
34 =α
34 <α34 >α
Primer 110, 113, 115 (strana 224, 232, 236) –Koeficijenti asimetrije i spljoštenosti – neintervalna serija, uzorak
DES-074 K:2-13Skiciranje mera oblika rasporeda