-
STATISTIKA
3. predavanje
Doc.dr. Tadeja Kraner Šumenjak
-
Slučajna spremenljivka
Slučajna spremenljivka X je količina, ki dobi v
vsakem poskusu neko vrednost, ta pa je odvisna
od slučaja. Slučajna spremenljivka je določena z
dvema podatkoma:
-z zalogo vrednosti,
-s porazdelitvenim zakonom.
-
Zaloga vrednosti slučajne spremenljivke
Zaloga vrednosti slučajne spremenljivke X so
vrednosti, ki jih X more zavzeti. Glede na zalogo
vrednosti ločimo:
-diskretne: te imajo končno ali števno neskončno
zalogo vrednosti
-nediskretne: te imajo neštevno zalogo vrednosti.
Med njimi so najpomembnejše zvezne slučajne
spremenljivke.
-
Porazdelitveni zakon
Porazdelitveni zakon je predpis, ki pove, s kako
verjetnostjo zavzame slučajna spremenljivka X vrednosti
iz zaloge vrednosti.
Najbolj splošna oblika porazdelitvenega zakona je
porazdelitvena funkcija F, ki je definirina takole:
Pri danem x je vrednost funkcije F(x) enaka verjetnosti P,
da slučajna spremenljivka X zavzame vrednosti, ki so
manjše ali enake x.
( ) ( )F x P X x
-
Lastnosti porazdelitvene funkcije
( ) 0
( ) 1
F je naraščajoča
( ) 1- ( )
F
F
P X x F x
-
Za zapis diskretne slučajne spremenljivke uporabljamo
shemo:
1 2 3
1 2 3
, , , ...:
, , , ...
Pri čemer velja:
( )
0 1
1
i i
i
i
i
x x xX
p p p
P X x p
p
p
-
Primer
Mečemo kocko, izid meta je 1,2,3,4,5,6 pripadajoče verjetnosti so
1/6. Porazdelitvena shema slučajne spremenljivke X je:
1, 2, 3, 4, 5, 6
: .1 1 1 1 1 1, , , , ,
6 6 6 6 6 6
X
-
Porazdelitev s porazdelitveno funkcijo F(x) je
zvezna, če obstaja taka funkcija p(x), da je
Funkcijo p(x) imenujemo gostota verjetnosti.
( ) ( ) ( )
x
F x P X x p t dt
-
Lastnosti funkcije p(x)
( ) 0
( ) 1
Graf funkcije ( ) je nad abcisno osjo, ploščina pod njim pa je enaka 1.
( ) ( )
Ploščina lika, ki ga omejujeta abcisi in ter gostota verjetnosti ( ),
geometrijsko upod
b
a
p x
p x dx
p x
P a X b p t dt
a b p x
ablja iskano verjetnost.
-
NORMALNA PORAZDELITEV
Normalna porazdelitev je oblika frekvenčne
porazdelitve zvezne slučajne spremenljivke,
ki se v statistiki najpogosteje pojavlja. Srečamo jo
pri velikem številu empiričnih pojavov kot so na
primer višina živali iste pasme, ki rastejo v istem
življenjskem okolju, mase plodov itd.
Gostoto verjetnosti je prvi zapisal francoski
matematik A. de Moivre (1733).
Leta 1809 C.F. Gauss proučeval porazdelitev
odmerkov neke količine, če na izmerke vplivajo le
slučajni vplivi. Verjetnostna porazdelitev
odmerkov je znana pod imenom normalna ali
Gaussova krivulja.
-
Normalna porazdelitev je unimodalna in
simetrična. Gostoto verjetnosti normalne
porazdelitve opišemo z enačbo:
21
21( )2
x M
p x e
-
Normalna porazdelitev je enolično določena, če
poznamo aritmetično sredino M in standardni
odklon . Zato zapišemo normalno porazdelitev tudi
kot N(M, ). Za M = 8 in = 2 je normalna
porazdelitev prikazana na sliki :
0 2 4 6 8 10 12 14 160
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
x
g(x
)
Normalna porazdelitev ima vrh pri aritmetični
sredini x=M (maksimum). Okoli te točke je gostota
relativne frekvence največja. Z oddaljenostjo od
aritmetične sredine pa pada.
-
Oglejmo si še, kako se spreminja krivulja
porazdelitve, če spreminjamo standardni odklon. Na
sliki so narisane gostote porazdelitev treh normalnih
porazdelitev, ki imajo isto aritmetično sredino in
različne standardne odklone.
-
Čim večji je standardni odklon, tem bolj je
sploščen zvon.
Torej, čeprav se torej pojavi normalno
distribuirajo, so njihove normalne krivulje lahko
ne samo locirane na različnih mestih abcise,
ampak so lahko tudi bolj ali manj sploščene.
-
Z naraščanjem standardnega odklona se krivulja širi
in znižuje. Površina pod krivuljo predstavlja celotno
populacijo in je enaka 1. Delež enot, ki so manjše od
neke vrednosti (kvantila) x0 je enaka površini pod
krivuljo od - do x0.
Za število enot, ki so manjše od 7, pri normalni
porazdelitvi z M = 8 in = 2 je ta površina
prikazana na zgornji sliki.
0 2 4 6 8 10 12 14 160
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2
x
g(x
)
x
dxxgxF )()(
-
Za vsako normalno porazdelitev velja, da leži
na intervalih:
(M , M + ) 68,3 % populacije
(M 2 , M + 2 ) 95,5 % populacije
(M 3 , M + 3 ) 99,7 % populacije.
-
Denimo, da imamo statistično spremenljivko, ki jo
lahko modeliramo z ustrezno matematično funkcijo
in to funkcijo narišemo v verjetnostni skali. Dejstvo,
da imamo ustrezno verjetnostno porazdelitev,
omogoča, da lahko povemo o spremenljivki več.
-
Ilustrirajmo to na primeru. Proučujmo dolžino listov nekega drevesa.
Grafični prikaz frekvenčne porazdelitve nakazuje, da lahko histogramu
priredimo gladko krivuljo. Če to funkcijo narišemo v verjetnosti skali (na y
osi so verjetnosti). Sedaj lahko izračunamo, kolikšen odstotek listov v
celotni populaciji tega drevesa ima dolžino med 2 in 4 cm.
-
Standardizirana normalna porazdelitev
Vsako normalno porazdelitev lahko prevedemo v standardizirano
normalno porazdelitev. Če je X ( , ), je slučajna spremenljivka ,
-
porazdeljena po standardizirani normalni porazdelitvi Z (0,1).
N M Z
X MZ
N
IZREK
-
Izrek pove, da za poznavanje vseh normalnih porazdelitev
zadošča poznavanje N(0,1).
Izračunavanje verjetnosti za N(0,1) z določenim integralom
nadomeščajo statistične tabele, ki so podane na različne
načine.
V tabeli II (Obrazci, Nemec J.) je za izbrano vrednost z
(z>0) podana verjetnost p:
2
2
0 0
1( ) (0 ) ( )
2
z z t
H z P Z z p t dt e dt
-
Primer
0,51 ( ) 0,195
1,00 ( ) 0,3413
1,96 ( ) 0,4750
2,58 ( ) 0,4951
z H z
z H z
z H z
z H z
Verjetnost, da spremenljivka zavzame
vrednost iz intervala [0,z], kjer je z≥0.
-
Funkcijo razširimo še na negativna števila s
predpisom
Potem je verjetnost, da Z zavzame vrednosti z intervala
[a,b] enaka
Npr. kolikšen delež populacije ima telesno višino, ki je
porazdeljena normalno N(172,6), med 166 in 178
centimetri. Slučajna spremenljivka
je porazdeljena standardizirano normalno.
)(zH
( ) ( ).H z H z
).()( aHbH
6
172XZ
-
Torej je
Potem je verjetnost, da Z zavzame vrednosti z
intervala [-1,1] enaka
Iz tabele II odčitamo vrednost funkcije H(1)=0,3413.
Torej je ta delež 0,6823, oziroma 68,23%.
16
172178178
16
172166166
22
11
ZX
ZX
).1(2))1(()1()1()1( HHHHH
-
pozitivna števila:
( ) 0,5 ( )
( ) 0,5 ( )
negativna števila:
( ) 0,5 ( ) 0,5 ( )
( ) 0,5 ( ) 0,5 ( )
P Z z H z
P Z z H z
P Z z H z H z
P Z z H z H z
-
Primer
Vzemimo, da se jabolka po teži distribuirajo
normalno s srednjo težo 10 dag in standardnim
odklonom 2 dkg.
Kolikšna je verjetnost, da bo naključno izbrano
jabolko težje od 13 dag?
V katerih mejah je 90,45 % vseh jabolk?
Koliko mora biti težko jabolko, da bo spadalo v 2%
najtežjih?
-
VZORČENJE
-
27
IZBIRA POSKUSNIH ENOT
Glede na število opazovanih enot ločimo:
o popolno opazovanje (veliko denarja, časa, dobro
organizacijo). Npr. popis prebivalcev, tekoča registracija
rojstev, smrti…Statistične tehnike, kjer iz vzorca sklepamo na populacije niso
smiselne!
o delno opazovanje, iz populacije vzamemo vzorec (del populacije), ki ga
proučujemo. Ker sklepanje temelji na nepopolni informaciji, so sklepi bolj ali
manj verjetni.
-
Število vzorcev, ki jih lahko dobimo iz populacije je ogromno.
Vsi vzorci velikosti n, ki jih dobimo iz populacije velikosti N, tvorijo populacijo vzorcev velikosti n. To je hipotetična populacija, ki je zelo pomembna za matematično statistiko.
Število vzorcev, ki jih lahko dobimo je odvisno, če enote vračamo v populacijo ali ne. Ločimo:
-vzorce s ponavljanjem
-vzorce brez ponavljanja
-
Izbrano enoto vrnemo v populacijo:
-1
Izbrane enote ne vrnemo:
N n
n
N
n
Pri izračunu smo upoštevali, da so vzorci, ki
vsebujejo iste enote v drugačnem vrstnem
redu, enaki.
Kombinacije brez
ponavljanja.
Kombinacije s
ponavljanjem.
-
30
Glede na način izbire enot ločimo dve vrsti
vzorcev:
neslučajni vzorci: izbira temelji na
neslučajni izbiri enot, na izbiri najlažje
dosegljivih.
slučajni vzorci: izbira temelji na
določenem verjetnostnem zakonu.
-
31
Preden začnemo z vzorčenjem, moramo razmisliti,
kako naj izbiramo enote iz populacije?
Koliko enot naj bo v vzorcu?
ODGOVOR posreduje matematična statistika,
vendar le za slučajne vzorce.
-
32
DVE VRSTI SLUČAJNEGA VZORČENJA
Enostavno slučajno
vzorčenje
Sistematično vzorčenje
Stratificirano
vzorčenje
Kvotno vzorčenje
Večstopenjsko
vzorčenje
Slučajno vzorčenje brez
omejitev
Slučajno vzorčenje z
omejitvami
-
33
ENOSTAVNO SLUČAJNO VZORČENJE
Pri enostavnem slučajnem vzorčenju velja, da
ima vsaka za vzorčenje razpoložljiva enota
populacije na vsakem koraku vzorčenja enako
verjetnost, da je izbrana v vzorec.
Izbira enot temelji na uporabi generatorja
slučajnih števil. Izvedbe so različne: tabele
slučajnih števil, loterija, računalnik.
-
34
PRIMER
V populaciji je 855 enot. Za enostavni slučajni vzorec potrebujemo
100 različnih enot. Funkcija RANDOM na kalkulatorju generira
slučajna števila na intervalu [0,1).
Npr., na kalkulatorju dobljeno slučajno število je 0,119. Potem je:
S=INT(855∙0,119)+1=102
Funkcija INT decimalnemu številu odreže
vse decimalke. Izbrana je enota z oznako 102.
-
35
SISTEMATIČNO VZORČENJE
Izvedba enostavnega slučajnega vzorčenja na terenu je pogosto
težka. Npr. enostavna slučajna izbira dreves v velikem
sadovnjaku je tehnično zahtevno in zamudno delo.
Zato pogosto enostavno slučajno vzorčenje nadomestimo s
sistematičnim vzorčenjem. Najprej izračunamo korak K od ene
izbrane enote do druge:
vzorcuenot v število je
populaciji enot v število je
)(
n
N
n
NROUNDK
Zaokroži na celo št.
-
36
Iz okvira vzorčenja izberemo vsako K-to enoto.
Element slučajnosti vpeljemo s slučajno izbiro
prve izbrane enote.
Sistematično vzorčenje lahko povzroči, da dobimo
v vzorec nekaj enot preveč oz. nekaj enot
premalo, odvisno od zaokrožanja pri izračunu
koraka (če zaokrožimo navzdol, jih dobimo
preveč).
V obeh primerih sistematično vzorčenje
ponovimo (glej primer).
-
37
PRIMER
V okviru vzorčenja je 500 enot, ki imajo oznake 1 do 500. Za vzorec potrebujemo 60 enot. Korak je
Izbrali bomo vsako osmo enoto iz okvira vzorčenja. S slučajno izbiro enot z
oznakami 1,2,3,4,5,6,7,8 določimo, kje začnemo. Recimo, da je slučajna izbira
dala 2. Izbrane so enote: 2,10,18,…
V vzorec smo dobili 63 enot, torej tri preveč. Naredimo nov okvir vzorčenja.
Izbrane enote označimo od 1 do 63. Sedaj bomo izmed 63 enot 3 izločili.
Izračunamo korak:
.8)60
500(ROUNDK
.21)3
63(ROUNDK
-
38
Slučajna izbira enot z oznakami 1 do 21 je dala 5. Torej iz okvira
izločimo: 5, 26,47. Preostalih 60 enot je namenjenih za vzorec.
-
39
STRATIFICIRANO VZORČENJE
V določenih primerih enostavno slučajno vzorčenje ni najbolj
primerno. Recimo, da pri polnoletnih proučujemo priljubljenost
moderne glasbe. Starost vpliva na poslušanje, zato je moteč
dejavnik.
S slučajno izbiro bi lahko dobili vzorec, v katerem bi bil delež
starejših bistveno večji.
Smiselno populacijo razdeliti na dva dela, na mlajše in na
starejše, in iz vsakega dela izbrati vzorec primerne velikosti.
-
40
Če je populacija heterogena, jo razdelimo na homogene delne
populacije, ki jih imenujemo stratumi. Stratume opredelimo
glede na moteče dejavnike.
Npr. pri analizi javnega mnenja so smiselni stratumi: starost,
spol, kraj bivanja…
Za vsak stratum potrebujemo okvir vzorčenja. Število enot , ki jih
izberemo iz posameznega stratuma, je najpogosteje
proporcionalno velikosti stratuma.
-
41
PRIMER
Vzemimo, da imamo osnovno statistično množico 10000 krav, od
tega 5000 krav svetlo lisaste pasme, 2000 krav rjave pasme in
3000 krav frizijske pasme.
Če bi iz omenjene množice izbirali vzorec 100 krav, bi morali v
vzorec izbrati 50 krav svetlo lisaste pasme, 20 krav rjave pasme
in 30 krav frizijske pasme. Izbor iz posameznega stratusa pa
opravimo na enak način, kot smo ga opisali pri enostavnem
slučajnem vzorcu.
-
42
KVOTNO VZORČENJE
Neslučajna alternativa stratificiranemu vzorčenju je kvotno
vzorčenje. Uporabimo ga takrat, ko nimamo okvira vzorčenja za
stratume, znane pa so kvote po stratumih.
Če smo neko lastnost osnovne množice že zadovoljili, ne smemo
več izbirati enot s to lastnostjo. Čeprav izbor kvotnega vzorca ni
povsem slučajen, daje pri raziskavah javnega mnenja dobre
rezultate.
-
43
VEČSTOPENJSKO VZORČENJE
Če ni dosegljiv okvir vzorčenja, lahko to rešimo z vzorčenjem v več stopnjah.
Recimo, da proučujemo populacijo gimnazijcev v določenem šolskem letu. Spisek gimnazijcev ni dostopen, dostopen pa je spisek gimnazij. Le ta predstavlja okvir vzorčenja v prvi stopnji. Z enostavnim slučajnim vzorcem iz vseh gimnazij izberemo določeno število gimnazij. Za vsako izbrano gimnazijo, dobimo spisek dijakov. S slučajno izbiro izberemo določeno število dijakov v gimnazijah, ki so bile izbrane. Opisano je dvostopenjsko vzorčenje.