popisnÉ (deskriptÍvne) charakteristiky
DESCRIPTION
POPISNÉ (DESKRIPTÍVNE) CHARAKTERISTIKY. PREDNÁŠKA 2. čo sú popisné charakteristiky rozdelenie popisných charakteristík. charakteristiky polohy charakteristiky variability charakteristiky šikmosti charakteristiky špicatosti. POPISNÉ CHARAKTERISTIKY. - PowerPoint PPT PresentationTRANSCRIPT
POPISNÉ (DESKRIPTÍVNE)
CHARAKTERISTIKY
1
PREDNÁŠKA 2
čo sú popisné charakteristiky rozdelenie popisných
charakteristík
charakteristiky polohy charakteristiky variability charakteristiky šikmosti charakteristiky špicatosti
2
POPISNÉ CHARAKTERISTIKY
číselné charakteristiky, ktoré koncentrovanou formou jedným číslom vyjadrujú určitú vlastnosť skúmaného štatistického znaku
vystihujú typické črty radu rozdelenia početností daného štatistického znaku
väčšina z nich -len pre kvantitatívne znaky
3
POPISNÉ CHARAKTERISTIKY rozlišujeme:
charakteristiky polohy charakteristiky variability charakteristiky šikmosti charakteristiky špicatosti
4
alebo stredné hodnoty vyjadrujú určitú úroveň (polohu) znaku, okolo ktorej sú ostatné hodnoty viac či menej koncentrované
5
CHARAKTERISTIKY POLOHY
CHARAKTERISTIKY POLOHY
rozlišujeme: priemery (jednoduchá, vážená forma)
aritmetickýaritmetický geometrický harmonický
ostatné stredné hodnoty modusmodus medián (kvantily)medián (kvantily)
6
CHARAKTERISTIKY POLOHY - VLASTNOSTI
majú byť typickou hodnotou štatistického súboru
musia byť jednoznačne definované pri výpočte sa do úvahy berú všetky
jednotky štatistického súboru majú byť ľahko zistiteľné mali by slúžiť k porovnávaniu stredných
hodnôt za niekoľko súborov majú čo najmenej podliehať
náhodnostiam výberu
7
PRIEMERY
PriemerPriemer predstavuje často rovnomernosť alebo normu, ktorá neexistuje. Keď v priemere každý zje hus, je možné, že niektorí zjedia dve, resp. viac, iní žiadnu.
8
PRIEMERY aritmetický priemeraritmetický priemer
jednoduchý
vážený
n – počet pozorovaní x1, x2, x3.....xn
j=1,2,3,....n ni=n
9
n
x
xn
1x
n
1jj
n
1jj
n
nxnx
nx
m
iiim
iii
1
1
1
10
PRIEMERY
priemery - aritmetický priemer
(napr. priemerná mzda, priemerná denná teplota, atď.)
Príklad: priemerná mzda (jednoduchý aritmetický priemer)
500 € 550 € 720 €1 770 € : 3 = 590 €
350 € 620 € 800 €1 770 € : 3 = 590 €
590x
500 550 720
350 620 800
PRIEMERY
aritmetický priemer aritmetický priemer - vážená forma- vážená forma
príklad: príklad: výpočet priemernej známky každú známku je potrebné násobiť
(vážiť) počtom študentov, až potom robíme súčet - „vážený súčet“, ktorý následne podelíme počtom študentov
11
známka počet študentov
xi.ni
1 12 12 2 16 32 3 9 27
spolu 37 71
xi ni xi.ni
x1 n1 x1.n1 . . .
.
.
.
.
.
.
xn nm xn.nm
spolu ni xi.ni
Priemerná známka: Priemerná známka: 1,921,92
PRIEMERY
aritmetický priemer aritmetický priemer – – výpočet z výpočet z intervalového rozdelenia početnosti (vážená intervalového rozdelenia početnosti (vážená forma)forma)
hranica hranica ni Ni xi xi*ni0 300 5 5 250 1250
300 400 7 12 350 2450400 500 12 24 450 5400500 600 14 38 550 7700600 700 18 56 650 11700700 800 27 83 750 20250800 900 13 96 850 11050900 1000 6 102 950 5700
1000 1100 3 105 1050 31501100 1 106 1150 1150
Spolu 106 69800
n
nxx
m
iii
1
12
Priemer = 658,49
Priemerný plat pracovníkov predstavuje 658 €, t.j. v priemere každý pracovník zarobí túto čiastku.
PRIEMERY
vlastnostivlastnosti aritmetického priemeru:1. stálosť súčtu hodnôt
2. platí nerovnosť: x min< x pr.<x max3. súčet odchýlok od priemeru sa rovná 0
4. súčet štvorcov odchýlok od priemeru je minimálny
13
jn x x
( ) 0jx x
2( ) minjx x
PRIEMERY
vlastnostivlastnosti aritmetického priemeru:5. Aritmetický priemer súčtu (rozdielu) hodnôt
xxjj a yyjj dvoch štatistických znakov sa rovná súčtu ich aritmetických priemerov.
6. Aritmetický priemer konštánt je rovný konštante.
7. Ak pripočítame k jednotlivým hodnotám znaku konštantu cc, zvýši sa o túto konštantu aj ich aritmetický priemer.
8. Ak vynásobíme jednotlivé hodnoty znaku konštantou cc, ich priemer bude cc-násobkom aritmetického priemeru.
14
PRIEMERY
Aritmetický priemer nemá
väčšinou žiadny odraz v
skutočnosti.
Každá priemerná rodina
má 2,2 dieťaťa, našťastie
to neznamená to, čo vidíme na obrázku.
15
PRIEMERYPRIEMERY- geometrický priemergeometrický priemer- používa sa pri časových
radoch (rast HDP za tri roky, vývoj inflácie za päť rokov...)
jednoduchý
vážený
16
n
n
jj
nng xxxxx
1
21 ......
n
m
i
ni
n nm
nng
im xxxxx
1
21 ...... 21
VÝVOJ HNP SR ZA RR.95-99 V US$ NA OBYV. A ROK
17
Rok GNPSR (US$) koeficient koeficient tempo tempo1995 3110 rastu prirastku v % rastu prirastku v %1996 3570 1.148 114.79 0.15 14.791997 3860 1.081 108.12 0.08 8.121998 3870 1.003 100.26 0.00 0.261999 3770 0.974 97.42 -0.03 -2.58
V roku 1997 oproti r. 96 vzrástol HNP na obyv. na 108,12%
V roku 1997 oproti r. 96 vzrástol HNP na obyv. o 8,12%
PRIEMERY
Z jednotlivých koeficientov rastu možno vypočítať:
priemerný koeficient rastu priemerný koeficient rastu
18
1-T 2 1-T
1 ...k . k .k k
Za obdobie rokov 1995-99 HNP v SR rástol ročne približne o 4,9%.
4 1,148.1,081.1,003.0,974 1.0493k
PRIEMERY
PRIEMERYPRIEMERY- harmonický priemerharmonický priemer- používa sa, ak existuje
medzi skúmanými hodnotami znaku a výsledným javom nepriamy vzťah (výpočet priemernej rýchlosti vozidla)
jednoduchý
vážený
19
n
j jn
h
x
n
xxx
nx
121
11...
11
m
i i
i
m
ii
h
xn
nx
1
1
HARMONICKÝ PRIEMER - PRÍKLAD:
20
Predpokladajme, že ideme 30 km ďaleko a prvých 15 kmprejdeme rýchlosťou 15 km za hod. a druhých 15 km rýchlosťou 75 km za hod. Akú priemernú rýchlosť sme dosiahli za hodinu?
PRIEMERYPRIEMERY
HARMONICKÝ PRIEMER (JEDNODUCHÝ)HARMONICKÝ PRIEMER (JEDNODUCHÝ)
21
Prvú trať ideme rýchlosťou 15km/hod… k jej prejdeniu potrebujeme práve 1hod. - 60 minút (15/15*60)Druhú trať (15 km) ideme rýchlosťou 75 km/hod….K jej prejdeniu potrebujeme len 12 minút (15/75*60) celková doba jazdy je teda 72 minút. Aritmetický priemer nás zmýli výsledkom (15+75)/2=45km za hodinu. K zisteniu priemernej doby jazdy pre oba úseky potrebujeme 60min+12min= 72/2 = 36 minút pre každý úsek jazdy, čo predstavuje priemernú rýchlosť 25 km / hod. (15/36*60=25) 2 2 150
251 1 1 6 6( )
15 75 75
h
j
nx
x
PRIEMERYPRIEMERY
- význam pri nesymetrických rozdeleniach u kvantitatívnych znakov,
- pri kvalitatívnych znakoch
- Patria sem:
- Kvantily – kvartily (medián)- Modus
22
OSTATNÉ STREDNÉ HODNOTYOSTATNÉ STREDNÉ HODNOTY
KVANTILYKVANTILY
Sú hodnoty znaku, ktoré v empirickom štatistickom súbore rozdeľujú štatistický súbor na rovnako početných častí.
23
Najčastejšie používané kvantily kvantily, pre ktoré = 100, sú percentily kvantily, pre ktoré = 10, sú decily kvantily, pre ktoré = 4, sú kvartily kvatil, pre ktorý =2, je medián
Ak k = 1, hovoríme o dolnom kvantile (dolnom percentile, decile, kvartile).
Ak k = -1, hovoríme o hornom kvantile (hornom percentile, decile, kvartile).
24
KVANTILKVANTIL
KVARTILYKVARTILY Predstavujú 3 reálne čísla, ktoré rozdeľujú
usporiadaný štatistický súbor na 4 rovnakopočetné časti.
Patrí sem: Prvý (dolný) kvartil
určuje 25% najnižších hodnôt v súbore
Druhý kvartil = mediánurčuje 50% najnižších hodnôt v súbore
Tretí (horný) kvartilurčuje 25% najvyšších hodnôt v súbore
25
41Q
42Q x
43Q
MEDIÁNMEDIÁN
MediánMedián - prostredná hodnota v štatistickom súbore usporiadanom podľa skúmaného znaku
( napr. výška prostredného pracovníka)
x~
26
MediánMedián je prostredná hodnota v usporiadanomštatistickom súbore. Usporiadame ženy podľa
výšky, a zistíme, ktorá z nich je prostredná.
27
MEDIÁNMEDIÁN
a) určovanie mediánu v štat. súbore, v ktorom je nepárny počet štatistických jednotiek
n- nepárny počet
28
xi ni Ni
1 12 122 16 283 9 37
37
2
1~
nrx
37 119
2xr
19 2x x
Medián 75.1x~
MEDIÁNMEDIÁN b) určovanie mediánu v štat. súbore, v ktorom
je párny počet štat. jednotiek
29
2~ 1
22
nn xx
x
2~2019 xxx
1.75 1.771.76
2x
xi ni Ni
1 12 122 17 293 9 38
38
MEDIÁNMEDIÁN
c) určovanie mediánu pri intervalovom rozdelení početností
- dá sa určiť len mediánový interval, do ktorého medián patrí. V rámci tohto intervalu potom medián určíme približne na základe absolútnych početností
a -dolná hranica medián. intervalu
h -rozpätie medián. intervalu
-početnosť medián. intervalu
- kumulat. početnosť po mediánový interval 30
1
1
12
r
ii
x
nn
x a hn
xn~
1
1
r
iin
MEDIÁNMEDIÁN
Výpočet mediánu z intervalového rozdelenia početnosti
31
Mediána 600h 100(n+1)/2 53,5KP po me 38ni me 18
Medián 688,89
Prostredný plat je 689 €, čo znamená, že 50% pracovníkov má plat vyšší a 50% pracovníkov nižší ako 689 €.
x
r
ii
n
nn
hax~
1
1
5.02~
ni NiDH HH Frequency
0 300 5 5300 400 7 12400 500 12 24500 600 14 38600 700 18 56700 800 27 83800 900 13 96900 1000 6 102
1000 1100 3 1051100 1 106
106
Výpočet dolného, resp. horného kvartilu z intervalového rozdelenia početnosti
32
)4(1
1
1
)4(1
)4(1
)4(1
5,0
Q
r
ii
n
nrhaQ
( 4)3
1(4)
3(4) (4) 13 3
0,5r
ii
Q
r nQ a h
n
dolná (horná) hranica intervalu, v ktorom sa bude nachádzať dolný (horný) kvartil
rozpätie intervalu, v ktorom sa bude nachádzať dolný (horný) kvartilporadie štatistickej jednotky, ktorej bude prislúchať dolný (horný) kvartilsúčet absolútnych početností po interval, v ktorom sa bude nachádzať dolný (horný) kvartilpočetnosť intervalu, v ktorom sa bude nachádzať dolný kvartil( 4)
1Qn
1
1
r
ii
n
(4)1r
KVARTILKVARTIL
(4)1a
h
33
( 4)1
1(4)
1(4) (4) 11 1
0.5r
ii
Q
r nQ a h
n
Dolná Hornáhranica hranica ni Ni
10 6 610 10.5 9 15
10.5 11 13 2811 11.5 17 45
11.5 12 21 6612 12.5 28 94
12.5 13 15 10913 13.5 6 115
13.5 14 3 11814 2 120
Spolu 120
25% pracovníkov má plat do 11 074 Sk a 75% pracovníkov má plat vyšší ako 11 074 Sk.
KVARTIL – výpočet dolného KVARTIL – výpočet dolného kvartilukvartilu
34
( 4)3
1(4)
3(4) (4) 13 3
0.5r
ii
Q
r nQ a h
n
Dolná Hornáhranica hranica ni Ni
10 6 610 10.5 9 15
10.5 11 13 2811 11.5 17 45
11.5 12 21 6612 12.5 28 94
12.5 13 15 10913 13.5 6 115
13.5 14 3 11814 2 120
Spolu 120
75% pracovníkov má plat do 12 438 Sk a 75% pracovníkov má plat vyšší ako 12 438 Sk.
KVARTIL – výpočet horného KVARTIL – výpočet horného kvartilukvartilu
GRAFICKÉ ZOBRAZENIE KVARTILOV
Krabicový graf – box plot
35
Box-and-Whisker Plot
8 9 10 11 12 13
plat
Z grafu je možné vyčítať informácie:• o úrovni znaku v súbore• o variabilite znaku v súbore• asymetrii znaku v súbore
MODUSMODUSMODUSMODUS
ModusModus - - najpočetnejšia alebo najčastejšie sa vyskytujúca hodnota v štat. súbore
- je definovaný v jednovrcholových rozdeleniach početností
36
x̂
2ˆ xxi ni
1 122 173 9
38
MODUSMODUSMODUSMODUS
a) bezprostredne sa dá určiť v štat. súbore, ak poznáme individuálne hodnoty znaku x a ich početností
b) v prípade intervalového rozdelenia početnosti sa priamo určí iba modálny interval, t.j. interval s najväčšou početnosťou v štat. súbore. V rámci tohto intervalu sa modus určí:
37
MODUSMODUSMODUSMODUS
1. na základe vzťahu početností modálneho a priľahlých intervalov
a - dolná hranica modálneho
intervalu
h - rozpätie intervalu
d0- rozdiel medzi početnosťou modálneho intervalu a predchádzajúceho intervalu
d1- rozdiel medzi početnosťou modálneho intervalu a nasledujúceho intervalu
38
10
0ˆdd
dhax
MODUSMODUS
Výpočet v prípade intervalového rozdelenia početnosti
39
Modusa 700h 100d0 9d1 14
Najčastejšie dosahovali pracovníci plat 739 €.
10
0ˆdd
dhax
modus 739
ni NiDH HH Frequency
0 300 5 5300 400 7 12400 500 12 24500 600 14 38600 700 18 56700 800 27 83800 900 13 96900 1000 6 102
1000 1100 3 1051100 1 106
106
Vzájomná poloha modusu, mediánu a Vzájomná poloha modusu, mediánu a aritmetického priemeru v štatistickom aritmetického priemeru v štatistickom súboresúbore
- symetrické rozdelenie - nesymetrické rozdelenie
- pozitívna asymetria - negatívna asymetria
40
POROVNANIE MODUSU, MEDIÁNU A STREDNEJ HODNOTY
41
INTERVALOVÉ ROZDELENIE PLATOV
42
Plat
05
1015202530
10 10.510
1110.5
11.511
1211.5
12.512
1312.5
13.513
1413.5
14
intervaly
abs.
poč
etno
sti
Priemer 11.76667Medián 11.86905Modus 12.175
CHARAKTERISTIKY VARIABILITY variabilitavariabilita – menlivosť hodnôt znaku v
štatistickom súbore Charakteristiky variability vyjadrujú:
ako veľmi sa hodnoty znaku menia, navzájom líšia
do akej miery sú hodnoty znaku koncentrované okolo stredných hodnôt
43
CHARAKTERISTIKY VARIABILITY
44
menšia variabilita
väčšia variabilita
porovnanie súborov z hľadiska variability
CHARAKTERISTIKY VARIABILITY miery variability:
A) A) miery variability, ktorých veľkosť ovplyvňujú len niektoré hodnoty znaku v súbore
- variačné rozpätie- kvantilové rozpätie- kvartilové rozpätie- kvartilová odchýlka
45
B) B) miery variability, ktorých veľkosť ovplyvňuje každá hodnota znaku v súbore:
- absolútne - priemerná odchýlka - rozptyl - smerodajná (štandardná)
odchýlka- relatívne - pomerná priemerná odchýlka
- variačný koeficient
46
CHARAKTERISTIKY VARIABILITY
CHARAKTERISTIKY VARIABILITY variačné rozpätievariačné rozpätie
najjednoduchšia miera variability informatívny charakter – berie do úvahy len
krajné hodnoty rozdiel medzi maximálnou a minimálnou
hodnotou v súboreR = xR = xmaxmax – x – xminmin
jeho veľkosť závisí od veľkosti krajných hodnôt (extrémne hodnoty), t.j. je citlivá voči extrémnym hodnotám - nevýhoda
47
CHARAKTERISTIKY VARIABILITY rozptylrozptyl (disperzia, variancia) ss22
priemerný štvorec odchýlok od priemeru meria variabilitu v druhých mocninách
mernej jednotky je neinterpretovateľný - nevýhoda
48
2
1
2 )(1
xxn
sn
jj
i
m
ii nxx
ns .)(
1 2
1
2
jednoduchá forma
vážená forma
CHARAKTERISTIKY VARIABILITYCHARAKTERISTIKY VARIABILITY
Vlastnosti rozptylu:Vlastnosti rozptylu:1. Rozptyl konštánt sa rovná nule.2. Ak pripočítame ku všetkým hodnotám znaku
rovnakú konštantu, rozptyl sa nezmení
3. Ak násobíme všetky hodnoty xj konštantou c, rozptyl takto vzniknutých hodnôt je násobkom štvorca konštanty c a rozptylu pôvodných hodnôt: s2
cx=c2.s2
49
CHARAKTERISTIKY VARIABILITY smerodajná smerodajná (štandardná) odchýlkaodchýlka ss
vyjadruje variabilitu súboru v pôvodných merných jednotkách
o koľko +/- sa v priemere jednotlivé hodnoty odchyľujú od priemeru
variačný koeficient variačný koeficient vv vyjadruje variabilitu súboru v % koľko % z priemeru predstavuje smerodajná odchýlka slúži na porovnávanie variability znakov vo viacerých
súboroch
50
2ss
%100x
sv
VÝPOČET VARIABILITYVÝPOČET VARIABILITY
51
Dolná Horná stredy int.hranica hranica ni xi xi*ni (xi-xpr) (xi-xpr)^2*ni (xi-xpr)^3*ni (xi-xpr)^4*ni
10 6 9.75 58.5 -2.01667 24.4016667 -49.2100278 99.2402226910 10.5 9 10.25 92.25 -1.51667 20.7025 -31.3987917 47.62150069
10.5 11 13 10.75 139.75 -1.01667 13.4369444 -13.6608935 13.8885750811 11.5 17 11.25 191.25 -0.51667 4.53805556 -2.34466204 1.211408719
11.5 12 21 11.75 246.75 -0.01667 0.00583333 -9.7222E-05 1.62037E-0612 12.5 28 12.25 343 0.483333 6.54111111 3.161537037 1.528076235
12.5 13 15 12.75 191.25 0.983333 14.5041667 14.26243056 14.0247233813 13.5 6 13.25 79.5 1.483333 13.2016667 19.58247222 29.0473338
13.5 14 3 13.75 41.25 1.983333 11.8008333 23.40498611 46.4198891214 2 14.25 28.5 2.483333 12.3338889 30.62915741 76.06240756
Spolu 120 1412.00 x 121.466667 -5.57388889 329.0441389
Priemer 11,76667Rozptyl 1,012222Smer. odch. 1,006093Var. koef. 8,55%Koef. šik. -0,04561Koef. špic. -0,32378
Variabilita platov meraná smerodajnou odchýlkousmerodajnou odchýlkou predstavuje 1 006 Sk, čo znamená, že za predpokladu jednovrcholového približne symetrického rozdelenia platov sa v intervale 11 767 Sk +-1 006 Sk nachádza asi 68% platov pracovníkov.Variabilita platov meraná variačným koeficientomvariačným koeficientom predstavuje 8,55% z priemerného platu.
CHARAKTERISTIKY ŠIKMOSTI hovoria o rozsahu zošikmenia v štatistickom
súbore vyžadujeme od nich, aby:
to boli čísla nezávislé od merných jednotiek sa rovnali 0 v prípade symetrického
rozdelenia
52
CHARAKTERISTIKY ŠIKMOSTI
a)a) Pearsonova miera šikmosti-Pearsonova miera šikmosti- určuje mieru asymetrie podľa vzájomnej polohy modusu a priemeru- je približná
53
ˆ
x
x x
s
CHARAKTERISTIKY ŠIKMOSTI koeficient šikmostikoeficient šikmosti presnejšia miera šikmosti,
označenie: 11
jednoduchá forma
vážená forma
54
3
1
3
1 .
)(
sn
xxn
jj
3
m
1ii
3i
1 s.n
n)xx(
CHARAKTERISTIKY ŠIKMOSTI
vyhodnotenie 11
bezrozmerné číslo 1 = 0 symetrické rozdelenie
1 > pozitívna (ľavostranná) asymetria
1 < negatívna (pravostranná) asymetria
55
-0+
ľavostranne
asymetrické
pravostranne
asymetrické
symetrické
CHARAKTERISTIKY ŠPICATOSTI čím viac sú početnosti sústredené v okolí
nejakej hodnoty znaku, tým má polygón rozdelenia výraznejší vrchol – tým je špicatejšíšpicatejší
rozdelenie hodnôt z hľadiska špicatosti sa v súbore porovnáva s normálnym rozdelenímnormálnym rozdelením
56
CHARAKTERISTIKY ŠPICATOSTI koeficient špicatosti označenie: 22
jednoduchá forma
vážená forma
57
3s.n
)xx(
4
n
1j
4j
2
3.
)(
41
4
2
sn
nxxm
iii
CHARAKTERISTIKY ŠPICATOSTI vyhodnotenie 22
bezrozmerné číslo 2 = 0 zhodné s normálnym rozdelením
2 > 0 špicatejšie ako normálne rozdelenie
2 < 0 plochšie ako normálne rozdelenie
58
špicatejšienormálneplochšie
VÝPOČET KOEFICIENTOV VÝPOČET KOEFICIENTOV ŠIKMOSTI A ŠPICATOSTIŠIKMOSTI A ŠPICATOSTI Slide 5151
Koeficient šikmosti = -0,04561Koeficient špicatosti = -0,32378
Interpretácia:Rozdelenie platov pracovníkov je
pravostranne asymetrické, t.j. vyššie početnosti sa sústreďujú pri vyšších platoch
Rozdelenie platov pracovníkov je plochšie ako normálne rozdelenie.
59
CHARAKTERISTIKY ŠIKMOSTI, ŠPICATOSTI - ZHRNUTIE
60
Koeficient špicatosti
Koeficient šikmosti
ĎAKUJEM ZA POZORNOSŤĎAKUJEM ZA POZORNOSŤ
61