Download - STATISTIKA 3. predavanjefkbv.um.si/images/stories/matematika/4predstat.pdf · 2012. 4. 10. · 0 2 4 6 8 10 12 14 16 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 x) Normalna

STATISTIKA

3. predavanje

Doc.dr. Tadeja Kraner Šumenjak

Slučajna spremenljivka

Slučajna spremenljivka X je količina, ki dobi v

vsakem poskusu neko vrednost, ta pa je odvisna

od slučaja. Slučajna spremenljivka je določena z

dvema podatkoma:

-z zalogo vrednosti,

-s porazdelitvenim zakonom.

Zaloga vrednosti slučajne spremenljivke

Zaloga vrednosti slučajne spremenljivke X so

vrednosti, ki jih X more zavzeti. Glede na zalogo

vrednosti ločimo:

-diskretne: te imajo končno ali števno neskončno

zalogo vrednosti

-nediskretne: te imajo neštevno zalogo vrednosti.

Med njimi so najpomembnejše zvezne slučajne

spremenljivke.

Porazdelitveni zakon

Porazdelitveni zakon je predpis, ki pove, s kako

verjetnostjo zavzame slučajna spremenljivka X vrednosti

iz zaloge vrednosti.

Najbolj splošna oblika porazdelitvenega zakona je

porazdelitvena funkcija F, ki je definirina takole:

Pri danem x je vrednost funkcije F(x) enaka verjetnosti P,

da slučajna spremenljivka X zavzame vrednosti, ki so

manjše ali enake x.

( ) ( )F x P X x

Lastnosti porazdelitvene funkcije

( ) 0

( ) 1

F je naraščajoča

( ) 1- ( )

F

F

P X x F x

Za zapis diskretne slučajne spremenljivke uporabljamo

shemo:

1 2 3

1 2 3

, , , ...:

, , , ...

Pri čemer velja:

( )

0 1

1

i i

i

i

i

x x xX

p p p

P X x p

p

p

Primer

Mečemo kocko, izid meta je 1,2,3,4,5,6 pripadajoče verjetnosti so

1/6. Porazdelitvena shema slučajne spremenljivke X je:

1, 2, 3, 4, 5, 6

: .1 1 1 1 1 1, , , , ,

6 6 6 6 6 6

X

Porazdelitev s porazdelitveno funkcijo F(x) je

zvezna, če obstaja taka funkcija p(x), da je

Funkcijo p(x) imenujemo gostota verjetnosti.

( ) ( ) ( )

x

F x P X x p t dt

Lastnosti funkcije p(x)

( ) 0

( ) 1

Graf funkcije ( ) je nad abcisno osjo, ploščina pod njim pa je enaka 1.

( ) ( )

Ploščina lika, ki ga omejujeta abcisi in ter gostota verjetnosti ( ),

geometrijsko upod

b

a

p x

p x dx

p x

P a X b p t dt

a b p x

ablja iskano verjetnost.

NORMALNA PORAZDELITEV

Normalna porazdelitev je oblika frekvenčne

porazdelitve zvezne slučajne spremenljivke,

ki se v statistiki najpogosteje pojavlja. Srečamo jo

pri velikem številu empiričnih pojavov kot so na

primer višina živali iste pasme, ki rastejo v istem

življenjskem okolju, mase plodov itd.

Gostoto verjetnosti je prvi zapisal francoski

matematik A. de Moivre (1733).

Leta 1809 C.F. Gauss proučeval porazdelitev

odmerkov neke količine, če na izmerke vplivajo le

slučajni vplivi. Verjetnostna porazdelitev

odmerkov je znana pod imenom normalna ali

Gaussova krivulja.

Normalna porazdelitev je unimodalna in

simetrična. Gostoto verjetnosti normalne

porazdelitve opišemo z enačbo:

21

21( )2

x M

p x e

Normalna porazdelitev je enolično določena, če

poznamo aritmetično sredino M in standardni

odklon . Zato zapišemo normalno porazdelitev tudi

kot N(M, ). Za M = 8 in = 2 je normalna

porazdelitev prikazana na sliki :

0 2 4 6 8 10 12 14 160

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

x

g(x

)

Normalna porazdelitev ima vrh pri aritmetični

sredini x=M (maksimum). Okoli te točke je gostota

relativne frekvence največja. Z oddaljenostjo od

aritmetične sredine pa pada.

Oglejmo si še, kako se spreminja krivulja

porazdelitve, če spreminjamo standardni odklon. Na

sliki so narisane gostote porazdelitev treh normalnih

porazdelitev, ki imajo isto aritmetično sredino in

različne standardne odklone.

Čim večji je standardni odklon, tem bolj je

sploščen zvon.

Torej, čeprav se torej pojavi normalno

distribuirajo, so njihove normalne krivulje lahko

ne samo locirane na različnih mestih abcise,

ampak so lahko tudi bolj ali manj sploščene.

Z naraščanjem standardnega odklona se krivulja širi

in znižuje. Površina pod krivuljo predstavlja celotno

populacijo in je enaka 1. Delež enot, ki so manjše od

neke vrednosti (kvantila) x0 je enaka površini pod

krivuljo od - do x0.

Za število enot, ki so manjše od 7, pri normalni

porazdelitvi z M = 8 in = 2 je ta površina

prikazana na zgornji sliki.

0 2 4 6 8 10 12 14 160

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

x

g(x

)

x

dxxgxF )()(

Za vsako normalno porazdelitev velja, da leži

na intervalih:

(M , M + ) 68,3 % populacije

(M 2 , M + 2 ) 95,5 % populacije

(M 3 , M + 3 ) 99,7 % populacije.

Denimo, da imamo statistično spremenljivko, ki jo

lahko modeliramo z ustrezno matematično funkcijo

in to funkcijo narišemo v verjetnostni skali. Dejstvo,

da imamo ustrezno verjetnostno porazdelitev,

omogoča, da lahko povemo o spremenljivki več.

Ilustrirajmo to na primeru. Proučujmo dolžino listov nekega drevesa.

Grafični prikaz frekvenčne porazdelitve nakazuje, da lahko histogramu

priredimo gladko krivuljo. Če to funkcijo narišemo v verjetnosti skali (na y

osi so verjetnosti). Sedaj lahko izračunamo, kolikšen odstotek listov v

celotni populaciji tega drevesa ima dolžino med 2 in 4 cm.

Standardizirana normalna porazdelitev

Vsako normalno porazdelitev lahko prevedemo v standardizirano

normalno porazdelitev. Če je X ( , ), je slučajna spremenljivka ,

-

porazdeljena po standardizirani normalni porazdelitvi Z (0,1).

N M Z

X MZ

N

IZREK

Izrek pove, da za poznavanje vseh normalnih porazdelitev

zadošča poznavanje N(0,1).

Izračunavanje verjetnosti za N(0,1) z določenim integralom

nadomeščajo statistične tabele, ki so podane na različne

načine.

V tabeli II (Obrazci, Nemec J.) je za izbrano vrednost z

(z>0) podana verjetnost p:

2

2

0 0

1( ) (0 ) ( )

2

z z t

H z P Z z p t dt e dt

Primer

0,51 ( ) 0,195

1,00 ( ) 0,3413

1,96 ( ) 0,4750

2,58 ( ) 0,4951

z H z

z H z

z H z

z H z

Verjetnost, da spremenljivka zavzame

vrednost iz intervala [0,z], kjer je z≥0.

Funkcijo razširimo še na negativna števila s

predpisom

Potem je verjetnost, da Z zavzame vrednosti z intervala

[a,b] enaka

Npr. kolikšen delež populacije ima telesno višino, ki je

porazdeljena normalno N(172,6), med 166 in 178

centimetri. Slučajna spremenljivka

je porazdeljena standardizirano normalno.

)(zH

( ) ( ).H z H z

).()( aHbH

6

172XZ

Torej je

Potem je verjetnost, da Z zavzame vrednosti z

intervala [-1,1] enaka

Iz tabele II odčitamo vrednost funkcije H(1)=0,3413.

Torej je ta delež 0,6823, oziroma 68,23%.

16

172178178

16

172166166

22

11

ZX

ZX

).1(2))1(()1()1()1( HHHHH

pozitivna števila:

( ) 0,5 ( )

( ) 0,5 ( )

negativna števila:

( ) 0,5 ( ) 0,5 ( )

( ) 0,5 ( ) 0,5 ( )

P Z z H z

P Z z H z

P Z z H z H z

P Z z H z H z

Primer

Vzemimo, da se jabolka po teži distribuirajo

normalno s srednjo težo 10 dag in standardnim

odklonom 2 dkg.

Kolikšna je verjetnost, da bo naključno izbrano

jabolko težje od 13 dag?

V katerih mejah je 90,45 % vseh jabolk?

Koliko mora biti težko jabolko, da bo spadalo v 2%

najtežjih?

VZORČENJE

27

IZBIRA POSKUSNIH ENOT

Glede na število opazovanih enot ločimo:

o popolno opazovanje (veliko denarja, časa, dobro

organizacijo). Npr. popis prebivalcev, tekoča registracija

rojstev, smrti…Statistične tehnike, kjer iz vzorca sklepamo na populacije niso

smiselne!

o delno opazovanje, iz populacije vzamemo vzorec (del populacije), ki ga

proučujemo. Ker sklepanje temelji na nepopolni informaciji, so sklepi bolj ali

manj verjetni.

Število vzorcev, ki jih lahko dobimo iz populacije je ogromno.

Vsi vzorci velikosti n, ki jih dobimo iz populacije velikosti N, tvorijo populacijo vzorcev velikosti n. To je hipotetična populacija, ki je zelo pomembna za matematično statistiko.

Število vzorcev, ki jih lahko dobimo je odvisno, če enote vračamo v populacijo ali ne. Ločimo:

-vzorce s ponavljanjem

-vzorce brez ponavljanja

Izbrano enoto vrnemo v populacijo:

-1

Izbrane enote ne vrnemo:

N n

n

N

n

Pri izračunu smo upoštevali, da so vzorci, ki

vsebujejo iste enote v drugačnem vrstnem

redu, enaki.

Kombinacije brez

ponavljanja.

Kombinacije s

ponavljanjem.

30

Glede na način izbire enot ločimo dve vrsti

vzorcev:

neslučajni vzorci: izbira temelji na

neslučajni izbiri enot, na izbiri najlažje

dosegljivih.

slučajni vzorci: izbira temelji na

določenem verjetnostnem zakonu.

31

Preden začnemo z vzorčenjem, moramo razmisliti,

kako naj izbiramo enote iz populacije?

Koliko enot naj bo v vzorcu?

ODGOVOR posreduje matematična statistika,

vendar le za slučajne vzorce.

32

DVE VRSTI SLUČAJNEGA VZORČENJA

Enostavno slučajno

vzorčenje

Sistematično vzorčenje

Stratificirano

vzorčenje

Kvotno vzorčenje

Večstopenjsko

vzorčenje

Slučajno vzorčenje brez

omejitev

Slučajno vzorčenje z

omejitvami

33

ENOSTAVNO SLUČAJNO VZORČENJE

Pri enostavnem slučajnem vzorčenju velja, da

ima vsaka za vzorčenje razpoložljiva enota

populacije na vsakem koraku vzorčenja enako

verjetnost, da je izbrana v vzorec.

Izbira enot temelji na uporabi generatorja

slučajnih števil. Izvedbe so različne: tabele

slučajnih števil, loterija, računalnik.

34

PRIMER

V populaciji je 855 enot. Za enostavni slučajni vzorec potrebujemo

100 različnih enot. Funkcija RANDOM na kalkulatorju generira

slučajna števila na intervalu [0,1).

Npr., na kalkulatorju dobljeno slučajno število je 0,119. Potem je:

S=INT(855∙0,119)+1=102

Funkcija INT decimalnemu številu odreže

vse decimalke. Izbrana je enota z oznako 102.

35

SISTEMATIČNO VZORČENJE

Izvedba enostavnega slučajnega vzorčenja na terenu je pogosto

težka. Npr. enostavna slučajna izbira dreves v velikem

sadovnjaku je tehnično zahtevno in zamudno delo.

Zato pogosto enostavno slučajno vzorčenje nadomestimo s

sistematičnim vzorčenjem. Najprej izračunamo korak K od ene

izbrane enote do druge:

vzorcuenot v število je

populaciji enot v število je

)(

n

N

n

NROUNDK

Zaokroži na celo št.

36

Iz okvira vzorčenja izberemo vsako K-to enoto.

Element slučajnosti vpeljemo s slučajno izbiro

prve izbrane enote.

Sistematično vzorčenje lahko povzroči, da dobimo

v vzorec nekaj enot preveč oz. nekaj enot

premalo, odvisno od zaokrožanja pri izračunu

koraka (če zaokrožimo navzdol, jih dobimo

preveč).

V obeh primerih sistematično vzorčenje

ponovimo (glej primer).

37

PRIMER

V okviru vzorčenja je 500 enot, ki imajo oznake 1 do 500. Za vzorec potrebujemo 60 enot. Korak je

Izbrali bomo vsako osmo enoto iz okvira vzorčenja. S slučajno izbiro enot z

oznakami 1,2,3,4,5,6,7,8 določimo, kje začnemo. Recimo, da je slučajna izbira

dala 2. Izbrane so enote: 2,10,18,…

V vzorec smo dobili 63 enot, torej tri preveč. Naredimo nov okvir vzorčenja.

Izbrane enote označimo od 1 do 63. Sedaj bomo izmed 63 enot 3 izločili.

Izračunamo korak:

.8)60

500(ROUNDK

.21)3

63(ROUNDK

38

Slučajna izbira enot z oznakami 1 do 21 je dala 5. Torej iz okvira

izločimo: 5, 26,47. Preostalih 60 enot je namenjenih za vzorec.

39

STRATIFICIRANO VZORČENJE

V določenih primerih enostavno slučajno vzorčenje ni najbolj

primerno. Recimo, da pri polnoletnih proučujemo priljubljenost

moderne glasbe. Starost vpliva na poslušanje, zato je moteč

dejavnik.

S slučajno izbiro bi lahko dobili vzorec, v katerem bi bil delež

starejših bistveno večji.

Smiselno populacijo razdeliti na dva dela, na mlajše in na

starejše, in iz vsakega dela izbrati vzorec primerne velikosti.

40

Če je populacija heterogena, jo razdelimo na homogene delne

populacije, ki jih imenujemo stratumi. Stratume opredelimo

glede na moteče dejavnike.

Npr. pri analizi javnega mnenja so smiselni stratumi: starost,

spol, kraj bivanja…

Za vsak stratum potrebujemo okvir vzorčenja. Število enot , ki jih

izberemo iz posameznega stratuma, je najpogosteje

proporcionalno velikosti stratuma.

41

PRIMER

Vzemimo, da imamo osnovno statistično množico 10000 krav, od

tega 5000 krav svetlo lisaste pasme, 2000 krav rjave pasme in

3000 krav frizijske pasme.

Če bi iz omenjene množice izbirali vzorec 100 krav, bi morali v

vzorec izbrati 50 krav svetlo lisaste pasme, 20 krav rjave pasme

in 30 krav frizijske pasme. Izbor iz posameznega stratusa pa

opravimo na enak način, kot smo ga opisali pri enostavnem

slučajnem vzorcu.

42

KVOTNO VZORČENJE

Neslučajna alternativa stratificiranemu vzorčenju je kvotno

vzorčenje. Uporabimo ga takrat, ko nimamo okvira vzorčenja za

stratume, znane pa so kvote po stratumih.

Če smo neko lastnost osnovne množice že zadovoljili, ne smemo

več izbirati enot s to lastnostjo. Čeprav izbor kvotnega vzorca ni

povsem slučajen, daje pri raziskavah javnega mnenja dobre

rezultate.

43

VEČSTOPENJSKO VZORČENJE

Če ni dosegljiv okvir vzorčenja, lahko to rešimo z vzorčenjem v več stopnjah.

Recimo, da proučujemo populacijo gimnazijcev v določenem šolskem letu. Spisek gimnazijcev ni dostopen, dostopen pa je spisek gimnazij. Le ta predstavlja okvir vzorčenja v prvi stopnji. Z enostavnim slučajnim vzorcem iz vseh gimnazij izberemo določeno število gimnazij. Za vsako izbrano gimnazijo, dobimo spisek dijakov. S slučajno izbiro izberemo določeno število dijakov v gimnazijah, ki so bile izbrane. Opisano je dvostopenjsko vzorčenje.

Download - STATISTIKA 3. predavanjefkbv.um.si/images/stories/matematika/4predstat.pdf · 2012. 4. 10. · 0 2 4 6 8 10 12 14 16 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2 x) Normalna

Top Related