kvantitativne metode

Osnovne statistike metode Teoretske distribucije

90

2.5 Teoretske

distribucije

Za razliku od distribucija eksperimentalno prikupljenih podataka, koje

se nazivaju empirijskim distribucijama, teoretske distribucije su

zadane matematikom formulom, odnosno one predstavljaju

matematike funkcije te omoguavaju utvrivanje vjerojatnosti nekog

sluajnog dogaaja u zadanim uvjetima. Teoretske se distribucije

koriste kao matematiki modeli za opisivanje veeg broja statistikih

pojava. S obzirom da statistiki podaci mogu imati diskretna

(izraavaju konaan broj vrijednosti mjerenog svojstva i uvijek su

odreene cijelim brojem) i kontinuirana (mogu poprimiti bilo koju

numeriku vrijednost) obiljeja, mogue je razlikovati diskretne

(uniformna distribucija, binomna distribucija, Poissonova

distribucija) i kontinuirane (normalna distribucija, t-distribucija, F-

distribucija, 2-distribucija) teoretske distribucije. Meutim, prije negoli opiemo navedene teoretske distribucije, potrebno je upoznati

se s elementarnim pojmovima teorije vjerojatnosti.


91

2.5.1. Elementarni pojmovi teorije vjerojatnosti

Ako se u jednom eksperimentu, odnosno u realizaciji nekog sluajnog

dogaaja (primjerice, bacanje na koa s linije slobodnih bacanja,

bacanje igrae kocke, bacanje novia) moe dogoditi jedan od n

moguih ishoda, tada svaki od n moguih ishoda nekog eksperimenta

zovemo elementarni dogaaj, a skup svih moguih ishoda skup ili

prostor elementarnih dogaaja. Primjerice, u jednom pokuaju uta s

linije slobodnih bacanja mogua su dva ishoda: uspjean ut i

neuspjean ut. Dakle, skup elementarnih dogaaja ine dva

elementarna dogaaja: uspjean ut i neuspjean ut. Ili, ako

bacamo potpuno pravilnu igrau kocku, onda skup elementarnih

dogaaja ini est elementarnih dogaaja koji su oznaeni brojevima:

1, 2, 3, 4, 5, 6. Ukupni broj elementarnih dogaaja mogue je

izraunati uz pomo osnovnih pravila kombinatorike, a to su: pravilo

mnoenja, pravilo permutacija, pravilo varijacija i pravilo

kombinacija.

2.5.1.1. Pravilo mnoenja

Neka su x1, x2,, xn svi mogui ishodi jednog sluajnog dogaaja X, a

y1, y2,,ym svi mogui ishodi sluajnog dogaaja Y. Ukupan broj

elementarnih dogaaja koje je mogue dobiti kombinirajui ishode

sluajnih dogaaja X i Y jednak je n m.

Primjerice, ako bacamo dvije igrae kocke, tada jedno bacanje dviju

igraih kocaka predstavlja jedan elementarni dogaaj. Ukupan broj

svih moguih elementarnih dogaaja iznosi

6 6 = 36

jer svako bacanje jedne kocke ima 6 moguih ishoda. Skup

elementarnih dogaaja (moguih kombinacija) prikazan je u tablici

2.5-1. Tablica 2.5-1. Svi elementarni dogaaji koje je mogue dobiti bacanjem

dviju igraih kocaka

1 1 2 1 3 1 4 1 5 1 6 1

1 2 2 2 3 2 4 2 5 2 6 2

1 3 2 3 3 3 4 3 5 3 6 3

1 4 2 4 3 4 4 4 5 4 6 4

1 5 2 5 3 5 4 5 5 5 6 5

1 6 2 6 3 6 4 6 5 6 6 6


92

Primjer: Na koliko je naina mogue obojiti tri prazna kruia ako je

prvi mogue obojiti crvenom, bijelom i plavom bojom, drugi crnom,

zelenom i utom, a trei naranastom i ljubiastom bojom?

Ukupan broj elementarnih dogaaja iznosi 3 3 2 = 18. Dakle, kruie je mogue obojiti na 18 naina. U tablici 2.5-2 prikazan je

skup svih moguih naina (elementarnih dogaaja) na koje je mogue

obojiti kruie prema navedenom pravilu.

Tablica 2.5-2. Svi elementarni dogaaji koje je mogue dobiti bojenjem triju praznih kruia

prema navedenom pravilu

2.5.1.2. Pravilo permutacija

Ako su x1, x2,,xn elementi nekog skupa, na koliko ih je naina

mogue poredati? Svaka meusobno razliita kombinacija elemenata

x1, x2,,xn naziva se permutacija. Mogue je razlikovati permutacije

bez ponavljanja i permutacije s ponavljanjima.

Permutacije bez ponavljanja

Dakle, ako su x1, x2,, xn elementi nekog skupa, mogue ih je

poredati na 122).....3(n1)(nn naina, odnosno

!nP )n(

gdje je

P(n)

broj moguih permutacija (elementarnih dogaaja) za n

razliitih elemenata

n! (itamo: n faktorijel) predstavlja produkt prirodnih brojeva od 1

do n (prema dogovoru 0! = 1).

Primjerice, imamo etiri prazna kruia koja je potrebno obojiti

plavom, crvenom, utom i zelenom bojom. Pri tome je svaki krui


93

potrebno obojiti drugom bojom. Ukupan broj svih moguih

elementarnih dogaaja iznosi

2412344!n!P(n)

U tablici 2.5-3 prikazani su svi mogui naini (permutacije) na koje je

mogue obojiti etiri kruia, tako da se za svaki krui koristi po

jedna od etiri boje.

Tablica 2.5-3. Svi elementarni dogaaji koje je mogue dobiti bojenjem etiriju praznih kruia prema navedenom pravilu

Iz ovog primjera vidi se da je prvi krui mogue obojiti 4 bojama, za

drugi je mogue koristiti jednu od 3 preostale boje, za trei jednu od 2

preostale, a za posljednji krui ostaje samo jedna boja.

Primjer: Ako 8 trkaa sudjeluje u nekoj finalnoj trci, koliko je

moguih ishoda trke?

Broj moguih ishoda mogue je izraunati pravilom permutacije,

odnosno formulom

4032012345678!8P )8(

Dakle, broj moguih ishoda trke u kojoj sudjeluje 8 trkaa iznosi

40320.

Permutacija s ponavljanjem

Ako je od n elemenata njih r1, r2,,rk jednakih, tada svaki mogui

poredak tih n elemenata predstavlja jednu permutaciju s

ponavljanjem. Broj permutacija s ponavljanjem mogue je izraunati

formulom


94

!r!...r!r

!nP

k21

)n(

r,..,r,r k21 ,

gdje je

)(

.., 21

n

rrr kP broj moguih permutacija za n razliitih elemenata, od kojih

je r1,r2,..,.rk jednakih

n! predstavlja produkt prirodnih brojeva od 1 do n

rk! predstavlja produkt prirodnih brojeva od 1 do rk.

Primjerice, ako imamo 2 plave i 3 crvene kuglice, onda ih je mogue

poredati na

1012

120

12312

12345

!3!2

!5p )5( 3,2

naina.

U tablici 2.5-4 prikazani su svi mogui naini na koje je mogue

poredati 2 plave i 3 crvene kuglice.

Tablica 2.5-4. Svi elementarni dogaaji koje je mogue dobiti slaganjem 2 plave i 3 crvene

kuglice

Primjer: Ako su od 8 trkaa neke finalne utrke dvojica atletiara

reprezentativci Hrvatske, trojica reprezentativci Kenije i trojica

reprezentativci Alira, koliko je moguih permutacija (kombinacija

plasmana) pojedinih reprezentacija?

Broj moguih ishoda mogue je izraunati pravilom permutacije s

ponavljanjem, odnosno formulom

56072

40320

12312312

12345678

2!3!3!

8!P(8)

2,3,3


95

2.5.1.3. Pravilo varijacija

Mogue je razlikovati varijacije bez ponavljanja i varijacije s

ponavljanjima.

Varijacije bez ponavljanja

Ako iz nekog skupa od n razliitih elemenata formiramo kombinacije

(razrede) od r elemenata, a da se isti element ne pojavi dva ili vie

puta u istoj kombinaciji (razredu), onda se broj moguih ishoda

izrauna prema formuli

)!rn(

!nV )n(r

gdje je

Vr(n)

broj varijacija bez ponavljanja n-tog reda i r-tog razreda

n broj svih elemenata u skupu

r broj elemenata u traenoj kombinaciji (razredu).

Primjer: Na koliko je razliitih naina mogue posloiti 2 kuglice (r)

od ukupno 5 kuglica (n) razliitih boja (plava, crvena, uta, zelena i

bijela), a da se ista kuglica ne pojavi dva ili vie puta u jednom

razredu? Broj moguih ishoda je

206

120

123

12345

)!25(

!5V )5(2

Tablica 2.5-5 prikazuje sve mogue varijacije za n=5, a r=2, odnosno

prikazani su svi mogui naini na koje je mogue posloiti dvije od

pet kuglica razliitih boja.

Tablica 2.5-5. Svi elementarni dogaaji (ishodi) koje je mogue dobiti slaganjem dviju od pet

kuglica razliitih boja, a da se ista kuglica ne pojavi dva ili vie puta


96

Primjer: elimo li prognozirati redoslijed prva 3 od ukupno 8 trkaa

koji sudjeluju u nekoj finalnoj trci, postavlja se pitanje: koliko je

moguih ishoda? Broj moguih ishoda izraunava se formulom za

varijacije bez ponavljanja

336120

40320

12345

12345678

)!38(

!8V )8(3

Varijacije s ponavljanjem


(razrede) od r elemenata, a da pri tom dopustimo da se u istoj

kombinaciji jedan element pojavi dva ili vie puta, onda se broj

moguih ishoda izrauna prema formuli

r)n(

r nV

,

gdje je

)n(

rV

broj varijacija s ponavljanjem n-tog reda i r-tog razreda

n broj svih elemenata u skupu, a


Primjerice, na koliko razliitih naina moemo posloiti 2 kuglice (r)

od ukupno 5 kuglica (n) razliitih boja (plava, crvena, uta, zelena i

bijela), a da se ista kuglica moe pojaviti vie puta u jednom razredu?

Broj moguih ishoda mogue je izraunati formulom

255V 2)5(2

Tablica 2.5-6 prikazuje sve mogue varijacije s ponavljanjem za n=5,

a r=2.

Tablica 2.5-6. Svi elementarni dogaaji koje je mogue dobiti slaganjem dviju od pet kuglica razliitih boja, a da se ista kuglica moe pojaviti u istom razredu dva ili vie puta


97

2.5.1.4. Pravilo kombinacija

Kombinacije bez ponavljanja


(razrede) od r elemenata, a da pri tome nije vaan raspored

(redoslijed) elemenata unutar jednog razreda, onda se broj svih

moguih ishoda izrauna prema formuli

)!rn(!r

!nK )n(r

,

gdje je

Kr(n)

broj kombinacija bez ponavljanja n-tog reda i r-tog razreda

n broj svih elemenata u skupu


Primjerice, koliko je mogue dobiti razliitih uzoraka (kombinacija)

ako iz skupa od ukupno 5 kuglica (n) razliitih boja (plava, crvena,

uta, zelena i bijela) izvlaimo uzorak od 3 kuglice? Pod uzorkom

podrazumijevamo jednu kombinaciju u kojoj nije vaan poredak, ve

sadraj elemenata. Broj svih moguih uzoraka izrauna se prema

formuli

102

20

12

45

12123

12345

!2!3

!5

)!35(!3

!5K )5(3

U tablici 2.5-7 prikazan je skup svih moguih uzoraka koje je mogue

formirati iz skupa 5 kuglica razliitih boja.

Tablica 2.5-7. Svi elementarni dogaaji koje je mogue dobiti izvlaenjem triju kuglica iz skupa od pet kuglica razliitih boja


98

Primjer: Koliko je moguih uzoraka (kombinacija) ako od 45 brojeva

formiramo uzorke od po 6 brojeva (loto 6 od 45)? Broj moguih

kombinacija izrauna se formulom za kombinacije bez ponavljanja

8145060123456

40...4445

1...3839123456

1...4445

6)!(456!

45!K

)8(

3

Dakle, mogue je dobiti 8 145 060 razliitih kombinacija (ishoda).

2.5.1.5. Vjerojatnost

Elementarne dogaaje mogue je podijeliti na one s povoljnim i na

one s nepovoljnim ishodom. Ako u skupu od n elementarnih dogaaja

x-om oznaimo elementarne dogaaje s povoljnim ishodom, onda

omjer elementarnih dogaaja s povoljnim ishodom x i skupa

elementarnih dogaaja n predstavlja vjerojatnost da e se elementarni

dogaaj s povoljnim ishodom x dogoditi

n

x)x(p , a

p1n

x1

n

xn)x(q

predstavlja vjerojatnost da se elementarni dogaaj s povoljnim

ishodom x nee dogoditi. Dakle, moe se rei da je vjerojatnost broj

koji pokazuje anse za pojavljivanje nekog elementarnog dogaaja.

Iz navedenih formula vidi se da je:

p(x) + q(x) =1, pa je 1- p(x)= q(x), a 1- q(x)= p(x)

0 p(x) 1 i 0 q(x) 1 ako je p(x) = 1 (apsolutna sigurnost da e se dogaaj x dogoditi),

onda je q(x) = 0 (apsolutna sigurnost da se dogaaj x nee dogoditi),

i obrnuto.


99

2.5.2. Diskretne teoretske distribucije

2.5.2.1. Uniformna distribucija

Uniformna distribucija je najjednostavnija diskretna teoretska

distribucija, a osnovna joj je karakteristika jednaka vjerojatnost

ostvarenja svake vrijednosti sluajne varijable x (elementarnog

dogaaja). Neka sluajna varijabla x ima uniformnu distribuciju ako je

vjerojatnost bilo koje njene vrijednosti (elementarnog dogaaja) u

skupu od n elementarnih dogaaja jednaka

n

1)x(p ,

gdje je

p(x) vjerojatnost elementarnog dogaaja x = 1,..,n

n ukupan broj vrijednosti koje moe imati sluajna varijabla x.

Primjerice, ako bacamo pravilnu igrau kocku, vjerojatnost da se

dogodi svaka od est moguih vrijednosti je jednaka. S obzirom da je

n=6, onda je vjerojatnost za bilo koju od est moguih vrijednosti

(elementarnih dogaaja) jednaka p(x)=1/6=0,1666...(slika 2.5-8).

Slika 2.5-8. Uniformna distribucija za n=6


100

2.5.2.2. Binomna distribucija

Za neku sluajnu varijablu x kaemo da ima binomnu distribuciju s

parametrima n i p ako je

xnxxnx qpxnx

nqp

x

nxf

)!(!

!)( ,

gdje je f(x) vjerojatnost x za uspjene ishode od n svih moguih ishoda

koje moe imati sluajna varijabla x, p vjerojatnost uspjenog ishoda,

a q vjerojatnost neuspjenog ishoda (q=1- p).

Oekivana vrijednost binomne distribucije je np)x(E ,

varijanca npq)x(V 2 ,

koeficijent asimetrije (engl. skewnes) npq

qpa

3 ,

koeficijent spljotenosti (engl. kurtosis)npq

pq613a4

.

Binomna distribucija za p=q=0.5 je simetrina, za pq je negativno asimetrina (slika 2.5-9).

Slika 2.5-9. Binomna distribucija za n = 10 i p = q, p < q i p > q


101

Primjer: Ako se igraa kocka baci 5 puta, kolika je vjerojatnost da

dobijemo 3 estice?

Vjerojatnost da se dogodi estica u jednom bacanju je 1/6 (p), a da se

ne dobije 5/6 (q). Ukupan broj moguih vrijednosti je 5 (n), jer svako

bacanje generira po jedan ishod, a broj uspjenih ishoda iznosi 3 (x).

Ako se zadane vrijednosti uvrste u formulu, dobije se

0,03293312

3000

36

25

216

1

12

120

6

5

6

5

6

1

6

1

6

1

1)(21)2(3

12345

6

5

6

1

3)!(53!

5!(3)f

353

Dakle, vjerojatnost da se od 5 bacanja igrae kocke dobiju tri estice

iznosi 0,0032, odnosno 3,2 % (slika 2.5-10).

Slika 2.5-10. Binomna distribucija za n = 5, p = 1/6 i q=5/6

Za vrlo velike vrijednosti n i male vrijednosti p binomna se

distribucija aproksimira Poissonovom distribucijom.


102

0 5 10 15 20 25 30

nedovoljan

dovoljan

dobar

vrlo dobar

odlian

Simon Poisson (1781. 1840.) francuski matematiar. Od 1798. studira matematiku na Ecole Polytechnique kod znamenitih matematiara Laplacea i Lagrangea s kojima postaje prijatelj. Predaje na Ecole Polytechnique od 1802. do 1808., a od 1809. godine predaje teorijsku matematiku u novootvorenom Facult des Sciences. Publicirao je puno radova (preko 300). Jedan od vanijih radova objavio je 1837. godine u kome je opisao

distribuciju rijetkih dogaaja koja je po njemu dobila ime. Njegovi radovi su uvelike pridonijeli razvoju matematike, fizike i astronomije. Prema, J J O'Connor and E F Robertson: http://www-groups.dcs.st- and.ac.uk/%7Ehistory/Mathematicians/Poisson.html

310

30x

15,133,19

12

1

)(1

2

n

xx

s

N

i

i

2.5.2.3. Poissonova distribucija

Poissonova distribucija aproksimira binomnu distribuciju za velike

vrijednosti n (npr. n>50) i male vrijednosti p (npr. p


103

Slika 2.5-11. Poissonova distribucija za razliite vrijednosti parametra

Primjer: Pretpostavimo da se u populaciji koarkaa moe pronai 3%

onih koji u testu skok udalj s mjesta postiu rezultat vei od 3 m.

Kolika je vjerojatnost da se u uzorku veliine n=100 pronae 5

koarkaa koji u skoku udalj s mjesta imaju rezultat bolji od 3 m?

Dakle, x = 5, = p n = 0,03 100 = 3 jer je p = 0,03 (3% odgovara vjerojatnosti p=0.03), a n=100. Uvrtavanjem tih vrijednosti u

formulu, izrauna se traena vjerojatnost

0,10,0498120

2432,71828

5!

3(5)p 3

5

3

Slika 2.5-12. Poissonova distribucija za = 3

= 0,2 = 0,3

= 1 = 3


104

Carl Friedrich Gauss (1777.- 1855.) jedan je od najveih matematiara. Rodio se u vrlo siromanoj obitelji koja nije imala novca za njegovo kolovanje. U poetku mu je kolovanje omoguio ujak. Negov iznimni matematiki talent primijetili su ve u djetinjstvu njegovi uitelji Bttner i Bartels kada je mali Gauss za nekoliko trenutaka zbrojio cijele brojeve od 1 do 100 uvidjevi da se radi o zbroju 50 parova iji je zbroj

101. Uz njihovu pomo Gauss zapoinje kolovanje te dobiva bogatog mecenu grofa Carla Wilhelma Ferninanda uz iju pomo od 1792. godine pohaa Brunswick Collegium Carolinum. Od 1795. godine nastavlja studiranje na Sveuilitu u Gttingenu gdje diplomira i postie prve znanstvene rezultate. Nakon diplome doktorirao je na Sveuilitu u Helmstedtu (1799.) te se predaje istraivakom radu. Godine 1801. objavljuje svoju prvu znamenitu knjigu Disquisitiones Arithmeticae, a 1809. drugu knjigu pod nazivom Theoria motus corporum coelestium in sectionibus conicis Solem ambientium, u kojoj raspravlja o gibanju nebeskih tijela. Za metodologiju znanstveno-istraivakog rada u biolokim i drutvenim znanostima posebno je znaajno njegovo djelo Theoria combinationis observationum erroribus minimis obnoxiae (1823), koje je posveeno matematikoj statistici, posebice metodi najmanjih kvadrata i normalnoj krivulji, koja se u njegovu ast naziva Gaussovom krivuljom.

Prema,Kolesari i Petz, 1999, i http://de.wikipedia.org/wiki/Carl_Friedrich_Gauss

2.5.3. Kontinuirane teoretske distribucije

2.5.3.1. Normalna distribucija

Normalna distribucija sigurno je najvanija i najee koritena

kontinuirana teoretska distribucija u statistikim analizama (slika 2.5-

13). Naziva se jo i Gaussovom distribucijom jer se smatra da ju je

Gauss prvi matematiki definirao. Osim Gaussa, u definiranju

normalne raspodjele

znaajnu ulogu imali su

Laplace1 i De Moivre

2.

Za sluajnu kontinuiranu

varijablu x kae se da ima

normalnu distribuciju s

parametrima i 2 ako je

2x

2

1

e2

1)x(f

gdje je

aritmetika sredina

standardna devijacija

= 3,14459... e =2,71828.

Slika 2.5-13. Normalna distribucija s parametrima i

1 Pierre Simone Laplace (1749. - 1827.) francuski matematiar 2 Abraham De Moivre (1667. - 1754.) engleski matematiar francuskog podrijetla

-3 -2 -1 1 2 3
http://de.wikipedia.org/wiki/Carl_Friedrich_Gauss


105

Ako su vrijednosti izraene u standardiziranom obliku (v. poglavlje

2.7, str. 114-123.)

xz ,

onda se formula normalne distribucije svodi na oblike

2

2

z

e2

1)z(f

s parametrima = 0 i =1 (slika 2.5-14). U statistikim analizama esto je vanije utvrditi vjerojatnost postizanja boljeg ili loijeg

rezultata od neke vrijednosti, to se izraunava tzv. integralom

vjerojatnosti

dze2

1)z(

z

2

z2

Dobivena funkcija (z) je normalna kumulativna distribucija (slika 2.5-14), vrijednosti koje odgovaraju vjerojatnosti postizanja rezultata

koji je jednak ili manji od rezultata z, to odgovara povrini ispod

normalne distribucije od - do z. Slika 2.5-14 ilustrira odnos funkcije

f(z) i (z). Vrijednosti funkcije (z) za odgovarajue z vrijednosti prikazane su u tablici A str. 316.

Mogue je uoiti da je normalna distribucija zvonastog oblika,

unimodalna i zrcalno simetrina u odnosu na aritmetiku sredinu.

Aritmetika sredina, modus i medijan su jednaki. Normalna

distribucija je definirana aritmetikom sredinom i standardnom

devijacijom. Protee se u intervalu od - do +, a vjerojatnost da se

dogodi vrijednost u intervalu (slika 2.5-15):

od -1 do +1 je 68,27 %

od -2 do +2 je 95,45 %

od -3 do +3 je 99,73 %, odnosno

od -1,96 do + 1,96 je 95 %

od -2,58 do + 2,58 je 99 %.


106

Slika 2.5-14. Funkcije f(z) i (z) za = 0 i =1

Slika 2.5-15. Prikaz karakteristinih dijelova povrine kod normalne distribucije

68,27%

95,45%

99,73%


107

t-distribucija nazivaju Studentov t-test i Studentova t-distribucija. Posjeivao je i dopisivao se s mnogim statistiarima, meu kojima i s R. Fisherom i K. Pearsonom.

Prema, Kolesari i Petz, (1999) i O'Connor i Robertson: http://wwwgroups.dcs.st and.ac.uk/%7Ehistory/Mathematicians/Gosset.html

William Gosset (1876. 1937.) studirao je kemiju i matematiku na New College u Oxfordu. Po zavretku studija 1899. godine dobiva posao kemiara u poznatoj pivarskoj tvrtci Guinness u Dublinu. U nastojanju da unaprijedi proizvodnju, razvijao je statistike metode. Osobito je znaajan njegov doprinos u oblikovanju t-testa i t- distribucije. Objavljivao je lanke pod pseudonimom Student pa se esto t-test i

Znanstveni lanak The Probable Error of Mean objavljen u asopisu Biometrika 1908. godine.

2.5.3.2. Studentova t - distribucija

William Gosset definirao

je t-distribuciju i objavio

je u asopisu Biometri-

ka, 1908. godine pod

pseudonimom Student.

Sluajna varijabla t ima

Studentovu t-distribuciju

s parametrom df ako je

2

1

2

1

2

2

1

)(

df

df

t

dfdf

df

tf

gdje je

df broj stupnjeva slobode

(df=1,2)3

gama funkcija4

=3.14459...

Studentova t-distribucija

ima oblik slian normalnoj

distribuciji. Za df, t-distribucija se pribliava

standardiziranoj normalnoj

distribuciji s parametrima

=0 i =1. Sa smanjivanj-em broja stupnjeva slobode

t-distribucija poprima sve

iri oblik (slika 2.5-16).

3 Broj stupnjeva slobode (engl. degrees of freedom) definira se kao broj neovisnih opaanja (entiteta) n

umanjen za broj k parametara potrebnih da bi se odredio dani pokazatelj. Dakle, broj stupnjeva slobode df = n k (prema oi i Sedar, 2002: 249).

4 Vie o gama funkciji mogue je proitati u knjizi I.Pavi (1988). Statistika teorija i primjena. (str.113-

116). Zagreb: Tehnika knjiga.
http://wwwgroups.dcs.st/


108

Vrijednosti za t-distribuciju za odreeni broj stupnjeva slobode (df)

dane su u tablici B str. 317.

Slika 2.5-16. t-distribucija za df = 3, df =5, df = 10, df =100

3,1895% 2,5795%

2,2395% 1,9795%


109

2.5.3.3. Snedecorova F - distribucija

George W. Snedecor je na temelju ranijih radova R. A. Fishera, a za

potrebe suvremene statistike prakse, definirao F-distribuciju. U

Fisherovu ast oznaio ju je simbolom F. Snedecorova ili F-

distribucija je kontinuirana funkcija vjerojatnosti sluajne varijable

definirana u intervalu (0, +). Za neku sluajnu kontinuiranu varijablu

F kae se da ima F-distribuciju s parametrom df1 i df2 ako je

2/)dfdf(

2

1

1)2/df(2

df

2

1

21

21

21

1

1

Fdf

df1

F

df

df

2

df

2

df

2

dfdf

)F(f

,

gdje su

df1 i df2 stupnjevi slobode (df1 = 1,2, i df2 = 1,2,)

gama funkcija.

Funkcija f(F) zavisi od parametara df1 i df2. F-distribucija je

unimodalna i pozitivno asimetrina. Za male vrijednosti df (broja

stupnjeva slobode) ima jako izraenu pozitivnu asimetriju, a s

poveanjem broja stupnjeva slobode asimetrinost se smanjuje (slika

2.5-17).

Slika 2.5-17. F-distribucija za df1 = 5, df2 =5 i za df1 = 10, df2 =10

Vrijednosti za F-distribuciju za odgovarajui broj stupnjeva slobode

(df1 i df2) dane su u tablici C str. 318-321. F-vrijednost iz tablice C

oitava se tako da se broj stupnjeva slobode df1 ita na gornjem rubu

tablice (stupci), a broj stupnjeva slobode df2 ita na lijevom rubu

tablice (reci). Na mjestu krianja stupca i retka oita se odgovarajua

F-vrijednost.

df1=5

df2=5

df1=10

df2=10


110

2.5.3.4. 2 - distribucija

Za neku sluajnu kontinuiranu varijablu x kae se da ima 2-distribuciju s parametrom df ako je

2/12/

2/ 2/2

1)( xdf

dfex

dfxf

,

gdje je

df broj stupnjeva slobode (df = 1,2,)

gama funkcija e =2,71828.

Vidljivo je da funkcija f(x) zavisi samo od parametra df. Za male

vrijednosti df (broja stupnjeva slobode) 2-distribucija ima jako izraenu pozitivnu asimetriju, a s poveanjem broja stupnjeva slobode

tei simetrinosti (slika 2.5-18). Zbog sloenosti izraunavanja,

vrijednosti 2-distribucije za odgovarajui broj stupnjeva slobode (df) dane su u tablici D str. 322.

Slika 2.5-18. 2 - distribucija za broj stupnjeva slobode df =3, df=5, df=10, df=15

df=3 df=5

df=10 df=15

Osnovne statistike metode K-S test normaliteta distribucije

111

2.6 K-S test

normaliteta

distribucije

S obzirom na to da primjena parametrijskih statistikih metoda

zahtijeva kvantitativne normalno distribuirane varijable, obino se u

svakom realnom istraivanju utvruje da li empirijske distribucije

statistiki znaajno odstupaju od normalne distribucije. Naime,

emipirijske distribucije uvijek u nekoj mjeri odstupaju od teoretske

normalne distribucije zbog toga to se u istraivanjima koriste uzorci

ispitanika koji nikada potpuno ne odraavaju stanje populacije. Stoga

se, ovisno o reprezentativnosti uzorka ispitanika, moe dogoditi da

inae normalno distribuirane varijable u populaciji, manje ili vie

odstupaju od teoretske normalne distribucije. Takva odstupanja su

proizvod sluajnog variranja entiteta u uzorcima i ne smatraju se

statistiki znaajnima. S druge strane, ako su odstupanja neke

empirijske distribucije toliko velika da prelaze razinu sluajnih

odstupanja, tada se smatraju statistiki znaajnima. Takva odstupanja

nisu posljedica sluajnog variranja entiteta u uzorku, ve se radi o

varijablama kojih je stvarna distribucija razliita od normalne

distribucije.


112

Najee koriten postupak za utvrivanje normaliteta neke empirijske

distribucije je Kolmogorov-Smirnovljev test (K-S test). Ovaj statistiki

postupak temelji se na usporedbi empirijskih relativnih kumulativnih

frekvencija (rcf) i teoretskih relativnih kumulativnih frekvencija (trcf).

Postupak testiranja normaliteta distribucije pomou KS-testa prikazat

emo na sljedeem primjeru.

Primjer: 60 judaa izmjereno je testom skok udalj s mjesta. Potrebno

je uz pomo KS-testa utvrditi odstupa li njihova (empirijska)

distribucija statistiki znaajno od (teoretske) normalne distribucije uz

pogreku od 5%. Testiranje normaliteta empirijske distribucije iz ovog

primjera sastoji se od nekoliko koraka.

Tablica 2.6-1. Testiranje normaliteta distribucije KS-testom

Intervali razreda f cf rcf z trcf D

120


113

izraunati odstupanja izmeu empirijske i teoretske relativne

kumulativne frekvencije (stupac-D u tablici 2.6-1)

odrediti najvee odstupanje empirijske i teoretske relativne

kumulativne (maxD) frekvencije i usporediti ga s tablinom

vrijednou KS-testa, odreenom za odgovarajui broj entiteta

(tablica E, str. 323). Kritina (tablina) vrijednost KS-testa uz

pogreku od 0,05 za 60 entiteta iznosi 0,172. Ako je najvee

odstupanje (slika 2.6-1) izmeu empirijske i teoretske relativne

kumulativne frekvencije manje od kritine vrijednosti KS-testa

(maxD

Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

114

2.7 Standardizacija

podataka

(z - vrijednost)

Za prikupljanje podataka na nekom uzorku entiteta koriste se razliiti

mjerni instrumenti, pa su i rezultati izraeni u razliitim mjernim

jedinicama. Stoga je usporedba vrijednosti entiteta u razliitim

varijablama znatno oteana. Ovaj problem se rjeava postupkom

transformacije originalnih vrijednosti neke varijable u tzv.

standardizirane ili z-vrijednosti.

Postupak standardizacije provodi se pomou formule

j

jij

ij

xxz

,

gdje je

zij standardizirani rezultat entiteta i u varijabli j

xij originalna vrijednost ispitanika i u varijabli j

jx aritmetika sredina varijable j

j standardna devijacija varijable j.


115

Iz navedene formule lako je uoiti da se standardizirana vrijednost

izraunava odreivanjem odstupanja entiteta od aritmetike sredine

(centriranje rezultata), koje se potom podijeli standardnom

devijacijom. Dakle, standardizirana vrijednost je relativna mjera

odstupanja svakog entiteta od aritmetike sredine, izraena u

dijelovima standardne devijacije.

Praktina primjena transformacije originalnih podataka u z-vrijednosti

razmotrit e se u sljedeim primjerima.

Primjer: Deset uenika natjecalo se u tri atletske discipline: skok udalj

(SD), tranje na 100 metara (T100m) i bacanje kugle (BK) i postiglo

rezultate navedene u tablici 2.7-1.

Tablica 2.7-1. Rezultati 10 uenika u tri atletske discipline

Uenik SD T100m BK

AB 359 13,6 561

DF 321 13,9 550

JG 346 13,7 538

KL 332 14,0 490

DD 450 12,2 518

ED 314 14,1 551

TB 410 12,5 589

ZN 425 12,3 602

RG 369 13,5 547

EN 378 13,8 510

x 370,4 13,36 545,6

45,66 0,73 34,21

Potrebno je utvrditi ukupan poredak uenika na ovom natjecanju.

Dakle, problem se svodi na rangiranje veeg broja entiteta opisanih

veim brojem varijabli. S obzirom na to da su rezultati uenika u

navedenim disciplinama izraeni razliitim mjernim jedinicama, nije

opravdano kondenzirati rezultate njihovim jednostavnim zbrajanjem,

ve ih je prethodno potrebno transformirati u z-vrijednosti. Cijeli

postupak mogue je provesti u nekoliko koraka.

Prvi korak: Izraunati aritmetiku sredinu i standardnu devijaciju za

svaku varijablu (tablica 2.7-2).


116

Tablica 2.7-2. Aritmetike sredine i standardne devijacije

SD T100m BK

x 370,4 13,36 545,6

45,66 0,73 34,21

Drugi korak: Transformirati originalne podatake u z-vrijednosti na

temelju izraunatih aritmetikih sredina i standardnih devijacija.

Primjerice, standardizirani rezultat uenika AB u disciplini skok udalj

(SD) izrauna se prema formuli

25,066,45

4,11

66,45

4,370359z SD,AB

Na isti nain transformiraju se rezultati ostalih uenika u sve tri

discipline. Rezultati su prikazani u tablici 2.7-3.

Tablica 2.7-3. Standardizirani rezultati 10 uenika u tri atletske discipline

SD T100M BK

AB -0,25 0,33 0,45

DF -1,08 0,74 0,13

JG -0,53 0,46 -0,22

KL -0,84 0,87 -1,63

DD 1,74 -1,58 -0,81

ED -1,24 1,01 0,16

TB 0,87 -1,17 1,27

ZN 1,20 -1,44 1,65

RG -0,03 0,19 0,04

EN 0,17 0,60 -1,04

Trei korak: Prije kondenzacije rezultata (zbrojem ili prosjenom

vrijednou), potrebno je varijable koje su obrnuto skalirane

pomnoiti s -1, odnosno promijeniti im predznak. Naime, varijabla

tranje na 100 metara (T100m) je obrnuto skalirana, to znai da vea

numerika vrijednost predstavlja loiji rezultat. Stoga tu varijablu

treba pomnoiti s -1. Nakon ovog postupka dobiju se rezultati

prikazani u tablici 2.7-4.


117

Tablica 2.7-4. Standardizirani rezultati 10 uenika u tri atletske discipline nakon to je varijabla T100M pomnoena sa -1

SD T100M BK

AB -0,25 -0,33 0,45

DF -1,08 -0,74 0,13

JG -0,53 -0,46 -0,22

KL -0,84 -0,87 -1,63

DD 1,74 1,58 -0,81

ED -1,24 -1,01 0,16

TB 0,87 1,17 1,27

ZN 1,20 1,44 1,65

RG -0,03 -0,19 0,04

EN 0,17 -0,60 -1,04

etvrti korak: Kondenzirati standardizirane vrijednosti aritmetikom

sredinom, odnosno izraunavanjem prosjene z-vrijednosti za svakog

uenika u navedenim disciplinama. Primjerice, prosjena z-vrijednost

uenika AB izrauna se formulom

0,043

0,450,33)(0,25

3

zzzz BKAB,T100AB,AB,SDAB

Na isti nain izraunaju se prosjeni rezultati ostalih uenika u sve tri

discipline. Rezultati su prikazani u tablici 2.7-5.

Tablica 2.7-5. Prosjeni standardizirani rezultati 10 uenika u tri atletske discipline

z

AB -0,04

DF -0,56

JG -0,41

KL -1,11

DD 0,84

ED -0,70

TB 1,10

ZN 1,43

RG -0,06

EN -0,49

Peti korak: Silazno (od veega k manjem) poredati uenike po

izraunatoj prosjenoj z-vrijednosti. Konaan redoslijed uenika

prikazan je u tablici 2.7-6.


118

Tablica 2.7-6. Rangirani prosjeni standardizirani rezultati 10 uenika u tri atletske discipline

Uenik Rang z

ZN 1. 1,43

TB 2. 1,10

DD 3. 0,84

AB 4. -0,04

RG 5. -0,06

JG 6. -0,41

EN 7. -0,49

DF 8. -0,56

ED 9. -0,70

KL 10. -1,11

Dakle, najbolji je uenik ZN, zatim slijedi uenik TB pa uenik DD

itd. Ovaj postupak u sportu moe biti vrlo koristan za provoenje

selekcije.

Primjer: Izmjereno je 257 djeaka testom za procjenu eksplozivne

snage skok udalj s mjesta. Aritmetika sredina iznosila je 215 cm, a

standardna devijacija 12 cm. Uenik XY postigao je rezultat 230 cm.

Potrebno je procijeniti postotak (%) i broj uenika koji su postigli

loiji rezultat od uenika XY.

Prvo je potrebno izraunati z-vrijednost ispitanika XY, a ona iznosi

25,112

15

12

215230zXY

Uz pretpostavku da su rezultati normalno distribuirani, mogue je

procijeniti vjerojatnost boljeg rezultata uz pomo tablice A (str. 316).

Naime, vjerojatnost da se postigne bolji rezultat od odgovarajue z-

vrijednosti odgovara povrini ispod normalne distribucije od zadane z-

vrijednosti do desnoga kraja krivulje (slika 2.7-1).


119

Slika 2.7-1. Povrina ispod normalne distribucije odgovara vjerojatnosti da neki rezultat bude bolji ili loiji od zadane z - vrijednosti

Dakle, za vrijednost z=1,25 odgovara povrina ispod normalne

distribucije od p=0,1057, ili izraeno u postotku 10,57%, to izraava

vjerojatnost da se postigne bolji rezultat od ispitanika XY.

z = 1,25 p = 0,1057 10,57 %

Vjerojatnost postizanja loijeg rezultata jednaka je 1-0,1057=0,8943,

odnosno 89,43 %.

Na temelju procijenjene vjerojatnosti moe se izraunati broj

ispitanika s boljim, odnosno loijim rezultatom. S obzirom na to da je

n

dp , odnosno 100

n

d% ,

gdje je

p proporcija ( p= 0,1057)

d dio cjeline (broj uenika s boljim rezultatom od z = 1,25)

n cjelina (ukupan broj uenika n = 257),

onda je 2716,272571057,0npd uenika s boljim,

odnosno, 257 - 27 = 230 uenika s loijim rezultatom.

z=1,25

p = 0,1057

10,57 %

p = 0,8943

89,44 %


120

Praktina korist od standardizacije rezultata ogleda se i u mogunosti

grafikog prikazivanja rezultata entiteta u veem broju varijabli koje

opisuju njegov antropoloki profil (slika 2.7-2).

Legenda: SDM - skok udalj s mjesta, IP - iskret palicom, NEB neritmino bubnjanje, SKL sklekovi, T12min tranje 12 minuta, T20m - tranje 20 m, KUS koraci u stranu, BP brzina provlaka, TR taping rukom.

Slika 2.7-2. Grafiki prikaz profila treniranosti sportaa

To omoguava, primjerice, uoavanje stanja inilaca odgovornih za

uspjenost u odreenoj sportskoj aktivnosti, odnosno odreivanje

profila stanja treniranosti sportaa (slika 2.7-2). Na temelju slike 2.7-2

moe se uoiti u kojim je testovima ispitanik postigao dobre, a u

kojima loe rezultate, odnosno na to bi trebalo obratiti pozornost pri

programiranju treninga u sljedeem razdoblju.

2.7.1. Standardizacija varijabli matrinom algebrom

Neka je X matrica podataka dobivena opisivanjem nekog skupa od n

entiteta skupom od m varijabli.

X = (xij),

gdje je i = 1,,n, a j = 1,,m. Matrica standardiziranih podataka Z

dobije se operacijom

Z =XcV -1

SKL

SDM

IP NEB T12m

T20m KUS BP TR


121

gdje je Xc=X-1m

T matrica centriranih podataka

m = XT1n

-1 vektor aritmetikih sredina (1 - sumacijski vektor s n

jedinica)

V=(diagC)1/2

dijagonalna matrica standardnih devijacija koja se

dobije ekstrakcijom dijagonale matrice kovarijanci C=XcTXc n

-1.

Primjer: 9 ispitanika postiglo je sljedee rezultate u skoku udalj (SD),

tranju na 100 metara (T100m) i bacanju kugle (BK). Potrebno je

izraunati standardizirane rezultate uz pomo matrine algebre.

Matrica centriranih podataka Xc dobije se operacijom

Xc=X- 1mT,

gdje je

1 sumacijski vektor sa n jedinica

m=XT1n

-1 vektor aritmetikih sredina

SD T100m BK

359 13,6 561

321 13,9 550

346 13,7 538

332 14 490

450 12,2 518

314 14,1 551

410 12,5 589

425 12,3 602

369 13,5 547

X =

1

1

1

1

1

1

1

1

1

SDM T100m BK

369,56 13,31 549,56

SDM T100m BK

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

1 mT

=


122

Matrica kovarijanci C varijabli iz X izrauna se operacijom

C = XcT

Xc n-1

,

gdje je Xc matrica centriranih podataka poetnih vrijednosti matrice X.

Ekstrakcijom dijagonale matrice kovarijanci C dobije se dijagonalna

matrica varijanci V2

V2 = diagC,

a operacijom

V = (diagC)1/2

dijagonalna matrica standardnih devijacija V.

SD T100m BK

SD 2337,78 -36,11 531,53

T100m -36,11 0,58 -11,41

BK 531,53 -11,41 1140,28

= C

SD -10,56 -48,56 -23,56 -37,56 80,44 -55,56 40,44 55,44

T100m 0,29 0,59 0,39 0,69 -1,11 0,79 -0,81 -1,01

BK 11,44 0,44 -11,56 -59,56 -31,56 1,44 39,44 52,44

XcT

SD T100m BK

-10,56 0,29 11,44

-48,56 0,59 0,44

-23,56 0,39 -11,56

-37,56 0,69 -59,56

80,44 -1,11 -31,56

-55,56 0,79 1,44

40,44 -0,81 39,44

55,44 -1,01 52,44

-0,56 0,19 -2,56

Xc

9-1

n-1

SD T100m BK

SD 2337,78 0 0

T100m 0 0,58 0

BK 0 0 1140,28

V2=diagC SD T100m BK

SD 48,35 0 0

T100m 0 0,76 0

BK 0 0 33,77

V=(diagC)1/2

SD T100m BK

359 13,6 561

321 13,9 550

346 13,7 538

332 14 490

450 12,2 518

314 14,1 551

410 12,5 589

425 12,3 602

369 13,5 547

X

SDM T100m BK

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

369,56 13,31 549,56

1 mT

SD T100m BK

-10,56 0,29 11,44

-48,56 0,59 0,44

-23,56 0,39 -11,56

-37,56 0,69 -59,56

80,44 -1,11 -31,56

-55,56 0,79 1,44

40,44 -0,81 39,44

55,44 -1,01 52,44

-0,56 0,19 -2,56

Xc

-

=


123

Standardizirani podaci dobiju se operacijom

SD T100m BK

-10,56 0,29 11,44

-48,56 0,59 0,44

-23,56 0,39 -11,56

-37,56 0,69 -59,56

80,44 -1,11 -31,56

-55,56 0,79 1,44

40,44 -0,81 39,44

55,44 -1,01 52,44

-0,56 0,19 -2,56

Xc SD T100m BK

SD 0,0207 0 0

T100m 0 1,3146 0

BK 0 0 0,0296

V -1 SD T100m BK

-0,22 0,38 0,34

-1,00 0,77 0,01

-0,49 0,51 -0,34

-0,78 0,91 -1,76

1,66 -1,46 -0,93

-1,15 1,04 0,04

0,84 -1,07 1,17

1,15 -1,33 1,55

-0,01 0,25 -0,08

Z =

Osnovne statistike metode Procjena aritmetike sredine populacije

124

2.8 Procjena aritmetike

sredine populacije

Znanstvena istraivanja utemeljena na statistikim metodama

uglavnom su usmjerena na analizu reprezentativnih uzoraka izabranih

iz neke konane ili beskonane populacije. Razlog tome je ili to to

nije mogue mjeriti cijelu populaciju (npr. ako nas interesira kakav

uinak ima novo cjepivo na neku virusnu bolest) ili u previsokim

trokovima (npr. ako nas zanima razvijenost neke motorike

sposobnosti u desetogodinjaka, onda bi trebalo izmjeriti sve

desetogodinjake, to je vrlo zahtjevno i skupo, a u nekim sluajevima

je to i besmisleno, npr. ako testiramo kvalitetu nekog proizvoda koji

se testom unitava). Stoga se znanstvena istraivanja provode na

uzorcima, a dobiveni zakljuci se generaliziraju na populaciju koju

odabrani uzorak reprezentira. Pri tome valja naglasiti da rezultati

dobiveni na uzorku mogu biti manje ili vie razliiti od rezultata koje

bismo dobili na cijeloj populaciji. Bolja reprezentativnost uzorka

oituje se u sigurnijim zakljucima o populaciji, odnosno u

pouzdanijoj procjeni populacijskih parametara. Reprezentativnost

uzorka osigurava se njegovom veliinom i nainom odabira. Uzorci

entiteta mogu se birati na razliite naine, to odreuje tipove uzoraka.

Najjednostavnija podjela uzoraka je na namjerne i sluajne uzorke.

Pod namjernim uzorcima podrazumijevaju se oni uzorci iji su entiteti

birani prema nekom subjektivnom stavu istraivaa o

reprezentativnosti ili se uzorak formira prema lako ili trenutno


125

dostupnim entitetima (prigodni uzorak), dok kod sluajnih uzoraka svi

entiteti (iz populacije izbora uzorka) imaju jednaku vjerojatnost

izbora. S obzirom da se uzorci biraju radi to bolje reprezentativnosti

populacije iz koje su izabrani (jer se zakljuci dobiveni na uzorku uz

odreenu pogreku generaliziraju na populaciju), lako je uoiti da e

pogreka procjene biti manja to je broj entiteta uzorka blii populaciji

i u kome svi entiteti imaju jednaku vjerojatnost izbora.

Openito, neki parametar populacije (npr. aritmetike sredine, varijance...) procjenjuje se na temelju istovrsnog parametra

izraunatog iz nekog sluajnog uzorka . S obzirom na to da je iz neke populacije mogue izabrati puno sluajnih uzoraka, jasno je da

se time dobiva i veliki broj prametara . Izraunati parametri dobiveni na velikom broju uzoraka ne moraju biti jednaki parametru

populacije jer su izraunati na dijelu (podskupu) populacije.

Parametri izraunati na uzorcima ne moraju biti meusobno jednaki jer su izraunati na podacima koji se mogu meusobno razlikovati od

uzorka do uzorka. Stoga se postavlja pitanje: kako je mogue

procijeniti parametar populacije ako od svih moguih uzoraka odabranih iz neke populacije odaberemo jedan?

Ako iz neke populacije od N entiteta odaberemo sve mogue uzorke

veliine n (n


126

izraunamo aritmetiku sredinu () i standardnu devijaciju () neke varijable X koja je normalno distribuirana (slika 2.8-1).

Slika 2.8-1. Normalna distribucija pojedinanih rezultata entiteta neke populacije s

parametrima i

Ako iz te populacije metodom sluajnog odabira (npr. generatorom

sluajnih brojeva, koji je implementiran u gotovo sve novije

programske proizvode STATISTICA, SPSS i sl.), odaberemo jedan

uzorak veliine 5 entiteta (n=5), postavlja se pitanje: hoe li

aritmetika sredina tog (prvog) uzorka ( 1x ) biti jednaka aritmetikoj

sredini populacije ()?

S obzirom na to da su entiteti sluajno odabrani u ovaj uzorak moe se

pretpostaviti da e aritmetika sredina tog uzorka biti slina

aritmetikoj sredini populacije, a da joj ne mora biti jednaka.

Ako se odabere novi uzorak, postavlja se isto pitanje: hoe li

aritmetika sredina tog uzorka ( 2x ) biti jednaka aritmetikoj sredini

prvog uzorka ( 1x ), odnosno aritmetikoj sredini populacije ( )?

Odgovor e biti slian prethodnome, dakle, vjerojatno e biti slina,

ali ne mora biti ista. Ako se nastavi sa sluajnim izborom uzoraka1 iste

veliine (npr. 10 000 puta) i raunanjem njihovih aritmetikih sredina

1Entiteti se u sluajni uzorak biraju uz povrat, odnosno nakon izbora jednog entiteta zabiljeimo njegov

rezultat te ga vratimo u populaciju.

-3 -2 -1 1 2 3


127

dobit e se veliki broj aritmetikih sredina sluajno odabranih

uzoraka veliine 5 entiteta.

nxxx ,..,, 21

Postavlja se pitanje: kolika e biti aritmetika sredina te varijable

(varijable aritmetikih sredina sluajno odabranih uzoraka veliine 5

entiteta) i kakva e joj biti distribucija?

Kada bismo izraunali aritmetiku sredinu aritmetikih sredina

sluajno odabranih uzoraka, dobili bismo aritmetiku sredinu

populacije (), a distribucija bi bila normalna. Valja istaknuti da e distribucija aritmetikih sredina dovoljno velikih uzoraka (n>30)

jednake veliine teiti ka normalnoj distribuciji i u sluajevima kad

distribucija populacije nije normalna. (Ova zakonitost poznata je pod

imenom centralni granini teorem iji je matematiki dokaz mogue

pronai u knjizi I. Pavi (1988): Statistika teorija i primjena, str. 176-

178).

Dakle,

aritmetika sredina aritmetikih sredina sluajno odabranih uzoraka

jednake veliine tendirat e aritmetikoj sredini populacije

distribucija aritmetikih sredina sluajno odabranih uzoraka iste

veliine biti e normalna ili Gaussova.

S obzirom na to da je normalna distribucija zadana aritmetikom

sredinom i standardnom devijacijom, postavlja se pitanje procjene

standardne devijacije varijable aritmetikih sredina sluajno odabranih

uzoraka odreene veliine. No, prije toga razmotrimo o emu ona

ovisi. Ako nastavimo s izvlaenjem sluajnih uzoraka, ali ne vie

veliine 5 entiteta, ve 10, dobit emo varijablu aritmetikih sredina

sluajno odabranih uzoraka veliine 10 entiteta.

nxxx ,..,, 21

Postavlja se pitanje: je li se neto promijenilo u odnosu na varijablu

aritmetikih sredina sluajno odabranih uzoraka veliine 5 entiteta?

Da li poveanje entiteta u uzorku smanjuje ili poveava vjerojatnost


128

sluajnog odstupanja aritmetikih sredina uzoraka od aritmetike

sredine populacija ili pak nema nikakvog utjecaja?

Nije teko zakljuiti da poveanje veliine uzorka smanjuje

vjerojatnost sluajnog odstupanja aritmetikih sredina uzoraka oko

aritmetike sredine populacije. Dakle, distribucija aritmetikih sredina

sluajno odabranih uzoraka veliine 10 entiteta u odnosu na

distribuciju aritmetikih sredina sluajno odabranih uzoraka veliine 5

entiteta bit e ua, odnosno, imat e manju standardnu devijaciju

(slika 2.8-2).

Slika 2.8-2. Distribucija aritmetikih sredina sluajno odabranih uzoraka veliine n1=5, n2=10, n3=20

Valja zakljuiti da e standardna devijacija varijable aritmetikih

sredina sluajno odabranih uzoraka biti to manja to su uzorci vei.

Osim toga, na standardnu devijaciju aritmetikih sredina sluajno

odabranih uzoraka utjee i varijabilnost istraivane pojave (varijable)

u populaciji. Logino je da e standardna devijacija aritmetikih

sredina sluajno odabranih uzoraka jednake veliine biti manja kod

manje varijabilnih populacija nego kod populacija kod kojih

istraivana pojava vie varira. Meutim, kako na varijabilnost neke

pojave u odreenoj populaciji ne moemo utjecati, smanjenje

standardne devijacije aritmetikih sredina sluajno odabranih uzoraka

moe se postii jedino poveanjem uzorka. Standardna devijacija

aritmetikih sredina sluajno odabranih uzoraka naziva se standardna

pogreka aritmetike sredine (x

) i kljuna je za procjenu aritmetike

sredine populacije.

n=5 n=10 n=20


129

Ako je poznata standardna devijacija aritmetikih sredina sluajno

odabranih uzoraka, odnosno standardna pogreka aritmetike sredine,

onda je mogua i procjena aritmetike sredine populacije. Naime, ako

su aritmetike sredine sluajno odabranih uzoraka normalno

distribuirne, mogue je konstatirati da se u intervalu:

x

3 od aritmetike sredine populacije nalazi priblino 99% svih

aritmetikih sredina uzoraka,

x

2 od aritmetike sredine populacije nalazi priblino 95% svih

aritmetikih sredina uzoraka (v. poglavlje 2.5.3.1, str. 104-106).

Prema tome, aritmetika sredina populacije nalazit e se u intervalu

x3 od bilo koje aritmetike sredine uzorka s priblinom

vjerojatnou od 99%, odnosno u intervalu x

2 s priblinom

vjerojatnou od 95%.

Ako odstupanja aritmetikih sredina uzoraka (xi ) u odnosu na

aritmetiku sredinu populacije () podijelimo sa standardnom

pogrekom aritmetike sredine (x

)

x

i

i

xz

(gdje je i=1,...n, a n - ukupan broj sluajno odabranih uzoraka),

dobijemo standardizirana odstupanja aritmetikih sredina uzoraka u

odnosu na aritmetiku sredinu populacije. S obzirom na to da su pri

statistikom zakljuivanju uobiajene pogreke2 od p=0,05 (5%) i

p=0,01 (1%), mogue je uvidjeti da e z biti izmeu 1,96 u 95%,

odnosno izmeu 2,58 u 99% sluajeva.

96,196,1

x

x

; za p=0,05

58,258,2

x

x

; za p=0,01

Ako svaki lan gornjeg izraza pomnoimo sa standardnom pogrekom

aritmetike sredine (x

), dobijemo

2 Za pogreku s kojom se donosi odreeni statistiki zakljuak jo se upotrebljava i naziv razina

znaajnosti ili razina signifikantnosti.


130

xxx 96,196,1 ; za p=0,05

xxx 58,258,2 ; za p=0,01

pa se interval procjene aritmetike sredine populacije moe izraunati

formulama

xxxx 96,196,1 ; za p=0,05

xxxx 58,258,2 ; za p=0,01

Dakle, ako je poznata standardna pogreka aritmetike sredine, tada je

mogua procjena intervala u kojemu se s odreenom vjerojatnou

nalazi aritmetika sredina populacije. Meutim, standardnu pogreku

aritmetike sredine nije mogue izraunati na uobiajen nain za

izraunavanje standardne devijacije jer se u praksi raspolae samo

jednim uzorkom, ali ju je mogue procijeniti formulom3

nx

Iz formule je vidljivo da je veliina standardne pogreke aritmetike

sredine (x

) proporcionalna varijabilnosti pojave u populaciji () i

obrnuto proporcionalna drugom korijenu iz veliine uzorka (n).

S obzirom na to da je standardna devijacija populacije uglavnom

nepoznata, standardna pogreka aritmetike sredine procjenjuje se na

temelju procjene standardne devijacije populacije putem standardne

devijacije uzorka pa se standardna devijacija rauna sa n-1 u

nazivniku umjesto n. Dakle, standardna devijacija izrauna se

formulom4

1n

)xx(

s

n

1i

2

i

pa je procjena standardne pogreke aritmetike sredine (x

s ) jednaka

omjeru procjene standardne devijacije populacije putem uzorka (s) i

drugog korijena iz veliine uzorka (n).

3Matematiki izvod nalazi se u knjizi I.Pavi: Statistika teorija i primjena, str. 170-171.

4Detaljnije logiko objanjenje mogue je potraiti u knjizi B. Petz: Osnovne statistike metode za

nematematiare, str. 61-62 i 125-126, a matematiki dokaz u knjizi . Paue: Uvod u matematiku

statistiku, str. 117-120, ili u knjizi I. Pavi: Statistika teorija i primjena, str. 179-181.


131

n

ss

x

Zbog takvog naina procjenjivanja standardne pogreke aritmetike

sredine, sampling distribucija za izraz

x

i

s

x

nee biti normalna, ve Studentova t-distribucija (v. poglavlje

2.5.3.2, str. 107-108) Studentova t-distribucija tei normalnoj kada

broj stupnjeva slobode tei beskonanom (df) pa su i t-vrijednosti za velike uzorke (n>30) vrlo sline vrijednostma normalne

distribucije (1,96 za 95%, odnosno 2,58 za 99% pouzdanosti

procjene). Stoga kod malih uzoraka (n


132

gdje je:

x aritmetika sredina uzorka,

x

s procjena standardne pogreke aritmetike sredine,

tp vrijednost koja se za pogreku p (u statistikom zakljuivanju

najee se koristi pogreke 0,01 ili 1%, i 0,05 ili 5%) i odreeni

broj stupnjeva slobode (df=n-1) dobije se na temelju Studentove t-

distribucije.

U tablici B str. 317, dane su t-vrijednosti za odgovarajui broj

stupnjeva slobode (df=n-1) i pogreku (p).

Primjer: Na sluajno odabranom uzorku veliine 100 entiteta

izraunata je aritmetika sredina (x = 180 cm) i standardna devijacija

(s = 10 cm). Potrebno je procijeniti interval u kojemu se s

vjerojatnou od 0,95 nalazi aritmetika sredina populacije.

Prvo je potrebno procijeniti standardnu pogreku aritmetike sredine

cm1100

10

n

ss

x

Iz tablice B str. 317 odredi se t-vrijednost za df=n-1=100-1=99 i

pogreku od 0,05.

98,1t 05,099

Uvrtavanjem dobivenih vrijednosti u formulu za procjenu aritmetike

sredine populacije dobije se

198,1x198,1x ,

odnosno

98,18102,178 .

Dakle, mogue je zakljuiti da se aritmetika sredina populacije nalazi

u intervalu od 178,02 do 181,98 sa sigurnou od 95%, odnosno uz

pogreku od 5%.

Formula za standardnu pogreku aritmetike sredine

nx


133

omoguava procjenu veliine uzorka koja e osigurati

zadovoljavajuu reprezentativnost, odnosno razinu pouzdanosti

statistike procjene. Iz formule je vidljivo da e procjena aritmetike

sredine populacije na temelju nekog uzorka biti to pouzdanija

(standardna pogreka aritmetike sredine bit e manja) to je

varijabilnost pojave () manja i to je broj entiteta u uzorku (n) vei. S obzirom na to da na varijabilnost pojave ne moemo utjecati,

poveanje pouzdanosti statistike procjene postiemo poveanjem

broja entiteta u uzorku. Poveanjem broja entiteta u uzorku smanjuje

se standardna pogreka aritmetike sredine (slika 2.8-4), odnosno

poveava se pouzdanost statistike procjene. Meutim, iz slike 2.8-4

vidljivo je da se standardna pogreka artmetike sredine ne smanjuje

linearno s poveanjem veliine uzorka, ve je njezino smanjenje

znatno vee pri poveanju broja entiteta kod manjih uzoraka, dok

nakon neke veliine poveanje broja entiteta u uzroku nema znatniji

utjecaj na njezinu vrijednost. O tome treba voditi rauna pri planiranju

veliine uzoraka u nekom istraivanju, jer se poveanjem uzorka

poveavaju trokovi njegove provedbe nesrazmjerno s pouzdanou

statistike procjene.

Slika 2.8-4. Odnos izmeu standardne pogreke aritmetike sredine i veliine uzorka pri

standardnoj devijaciji populacije =10

Primjer: Na sluajnom uzorku od 50 studenata prve godine

Kineziolokog fakulteta izmjerili smo relativni primitak kisika.

Aritmetika sredina je iznosila x = 55 mlO2/kg/min, standardna devijacija s = 5,5 mlO2/kg/min. Standardna pogreka aritmetike

sredine iznosi


134

78,007,7

5,5

50

5,5s

x

Dakle, sa sigurnou od 95% aritmetika sredina populacije nalazi se

u intervalu

78,0t55 p

Uz pomo tablice B str. 317 odredi se t-vrijednost za odreenu

pogreku p i broj stupnjeva slobode df. Za pogreku p=0,05 i broj

stupnjeva slobode df=49 t-vrijednost iznosi 2,01. Prema tome, raspon

u kojem moe varirati aritmetika sredina populacije iznosi

14,378,001,22 mlO2/kg/min

Smatramo li taj raspon prevelikim i elimo li da on ne iznosi vie od 2

mlO2/kg/min, potrebno je poveati uzorak ispitanika. Broj entiteta koji

e osigurati da raspon intervala procjene aritmetike sredine ne bude

vei od 2 mlO2/kg/min izrauna se postupkom

n

11,22

n

5,501,222

12206,11n

2

11,22n

2

Prema tome, formulu pomou koje procjenjujemo veliinu uzorka za

odgovarajui raspon procjene aritmetike sredine populacije mogue

je napisati u ovom obliku

2

p

I

st2n

gdje je:

n broj entiteta

tp vrijednost za odreenu sigurnost procjene, odnosno pogreku p,

koja se dobije se na temelju Studentove t-distribucije uz odreeni

broj stupnjeva slobode df=n-1

s standardna devijacija, a

I prihvatljivi interval procjene aritmetike sredine populacije.

Osnovne statistike metode t-test

135

2.9 t - test

Dio statistike koji se bavi problemima statistikog zakljuivanja,

odnosno generaliziranjem zakljuaka s uzorka na populaciju naziva se

inferencijalna statistika. U okviru inferencijalne statistike,

odgovarajuim statistikim testom, testiraju se statistike hipoteze o

veliini odreenog statistikog parametra populacije na temelju

sluajnog uzorka. Hipoteze definira istraiva na temelju cilja

znanstvenog istraivanja. Naime, svako znanstveno istraivanje

usmjereno je na rjeavanje nekog znanstvenog problema. Uoeni

znanstveni problem, koji se eli rjeavati nekim znanstvenim

istraivanjem, valja detaljno i precizno opisati i obrazloiti. Pojedino

znanstveno istraivanje u pravilu je usmjereno na rjeavanje jednog

dijela uoenog znanstvenog problema pa se za svako znanstveno

istraivanje jasno navode ciljevi istraivanja, a na temelju njih

precizno se definiraju hipoteze. Dakle, hipoteze proizlaze iz

znanstvenog problema (dijela znanstvenog problema) koji elimo

istraivati, odnosno iz hipotetike teorije (dijela hipotetike teorije)

koju provjeravamo (Mejovek, 2003, str. 76.). Vrijednost neke

znanstvene hipoteze mogue je procjenjivati temeljem sljedeih

mjerila:

svrhovitost hipoteza treba biti u funkciji postizanja odreenog cilja

istraivanja;

provjerljivost hipotezu treba postaviti tako da ju je mogue

provjeriti odgovarajuim postupcima;

plodotvornost hipoteza treba omoguiti donoenje plodotvornih

zakljuaka u odnosu na istraivani problem;


136

suglasnost hipoteza treba biti u skladu s postojeim znanjima o

istraivanom problemu;

jednostavnost hipoteze trebaju biti precizno i jasno formulirane

(Marui i suradnici, 2000).

Hipoteza moe biti nulta i alternativna. Nulta hipoteza se postavlja

nijeno (primjerice, nije naena statistiki znaajna razlika izmeu

aritmetikih sredina grupe A i B; nije naena statistiki znaajna

povezanost izmeu varijable X i Y itd.), dok se alternativna hipoteza

suprotstavlja (proturjei) nultoj hipotezi (primjerice, naena je

statistiki znaajna razlika izmeu aritmetikih sredina grupe A i B;

naena je statistiki znaajna povezanost izmeu varijable X i Y itd.).

Postavljene hipoteze provjeravaju se pomou odgovarajuih

statistikih testova, pri emu se odluka o prihvaanju ili neprihvaanju

nulte/alternativne hipoteze donosi uz odreenu pogreku. Naime, cilj

je svakog istraivanja doi do istinitog zakljuka, odnosno onog koji

odgovara objektivnoj stvarnosti. Meutim, to ponekad nije mogue

postii jer se istraivanje provodi na temelju vrijednosti dobivenih iz

sluajnog uzorka, odnosno dijela populacije. Stoga se u postupku

odluivanja mogu pojaviti dvije vrste pogreaka:

pogreka tipa I ili odbacimo nultu hipotezu, a ona je tona

pogreka tipa II ili prihvatimo nultu hipotezu, a ona nije tona.

Tablica 2.9-1 pokazuje sve mogue ishode (zakljuke) pri statistikom

odluivanju. Tablica 2.9-1. Mogui ishodi pri statistikom odluivanju

Legenda:

- vjerojatnost odbacivanja H0 kada je ona tona (najee iznosi 0,05 i 0,01)

- vjerojatnost prihvaanja H0 kad ona nije tona p - vjerojatnost

Testiranje postavljenih hipoteza temelji se na odgovarajuoj teoretskoj

distribuciji (sampling distribuciji). T-testom se utvruje statistika

znaajnost razlike aritmetikih sredina dvaju uzoraka (t-test za

nezavisne uzorke), statistika znaajnost razlike aritmetikih sredina

jednog uzorka mjerenog u dvije vremenske toke (t-test za zavisne

Stvarno stanje

Statistika odluka H0 je tona H0 nije tona

Odbacujemo H0 Pogreka tipa I ()

p=

Tona odluka

p=1-

Prihvaamo H0 Tona odluka

p=1- Pogreka tipa II ()

p=


137

uzorke) te statistika znaajnost razlike aritmetike sredine nekog

uzorka u odnosu na neku unaprijed poznatu aritmetiku sredinu.

Razlike izmeu dviju aritmetikih sredina mogue je utvrditi

jednostavno njihovom usporedbom, ali uoena razlika ne mora biti i

statistiki znaajna. Naime, pojam statistiki znaajna razlika dviju

aritmetikih sredina nije obina razlika izmeu njih, ve je to razlika

vea od one koja se moe dogoditi sasvim sluajno, kao posljedica

sluajnoga odabira entiteta u uzorak. Dakle, statistiki znaajna

razlika aritmetikih sredina dvaju sluajno odabranih uzoraka

predstavlja razliku koja je posljedica stvarnih razlika izmeu

populacija kojima uzorci pripadaju, a ne sluajnog variranja uzoraka.

Statistiki znaajna razlika je vea od razlike koja se moe dobiti

sluajnim variranjem uzoraka. T-test upravo slui za utvrivanje

statistike znaajnosti razlike aritmetikih sredina zavisnih ili

nezavisnih uzoraka.

2.9.1. t-test za nezavisne uzorke

Za lake razumijevanje t-testa pretpostavimo da iz jedne velike i

normalno distribuirane populacije (npr. N=10000) sluajnim

odabirom biramo uzorke veliine 5 entiteta (n=5). Nakon to

odaberemo dva sluajna uzorka izraunamo, njihove aritmetike

sredine. Postavlja se pitanje: hoe li aritmetika sredina prvog uzorka

biti jednaka aritmetikoj sredini drugog uzorka? S obzirom da su

entiteti sluajno odabrani u oba uzorka, moe se pretpostaviti da

aritmetike sredine tih uzoraka mogu, ali i ne moraju biti jednake.

Dakle, izraunamo li razliku izmeu tih dviju aritmetikih sredina,

ona moe, ali i ne mora biti jednaka nuli.

Ako nastavimo (npr. 10 000 puta) sluajno birati parove uzoraka iste

veliine i raunati razlike aritmetikih sredina (R), dobit emo

nnnRxx

Rxx

Rxx

21

22221

11211

....

...

varijablu razlika aritmetikih sredina sluajno odabranih uzoraka

veliine 5 entiteta. Postavlja se pitanje: kolika e biti aritmetika


138

sredina ove varijable i kakva e joj biti distribucija? Aritmetika

sredina varijable razlika aritmetikih sredina sluajno odabranih

uzoraka odgovarala bi pravoj razlici. Budui da su uzorci birani iz iste

populacije, ta razlika je jednaka nuli jer sluajnim odabirom entiteta u

uzorak iskljuujemo bilo kakvu mogunost sistematske (namjerne)

tendencije razlikovanja aritmetikih sredina uzoraka. Sluajnim

odabirom uzoraka osiguravamo da se aritmetike sredine sluajno

razlikuju. To znai da e, uz jednaku vjerojatnost, neke razlike biti

pozitivnoga predznaka (aritmetika sredina prvog uzorka sluajno je

vea od aritmetike sredine drugog uzorka), a neke negativnoga

predznaka (aritmetika sredina prvog uzorka sluajno je manja od

aritmetike sredine drugog uzorka). Prema tome, tendencija grupiranja

razlika aritmetikih sredina uzoraka bit e oko nule prema normalnoj

distribuciji (slika 2.9-1).

Slika 2.9-1. Distribucija razlika aritmetikih sredina sluajno odabranih uzoraka

Ako se nastavi s izborom sluajnih uzoraka, ali ne vie veliine 5

entiteta, ve 10 i raunanjem razlika izmeu njihovih aritmetikih

sredina, dobije se nova varijabla.

nnnRxx

Rxx

Rxx

21

22221

11211

....

...

0


139

Postavlja se pitanje je li se neto promijenilo u odnosu na varijablu

razlika aritmetikih sredina sluajno odabranih uzoraka veliine 5

entiteta?

Nije teko zakljuiti da poveanje veliine uzoraka smanjuje

vjerojatnost razlika izmeu njihovih aritmetikih sredina. Prema tome,

distribucija razlika aritmetikih sredina sluajno odabranih uzoraka

veliine 10 entiteta u odnosu na distribuciju razlika aritmetikih

sredina sluajno odabranih uzoraka veliine 5 entiteta bit e ua,

odnosno, imat e manju standardnu devijaciju (slika 2.9-2).

Slika 2.9-2. Distribucija razlika aritmetikih sredina sluajno odabranih uzoraka veliine n1=5, n2=10, n3=20

Dakle, valja zakljuiti da e standardna devijacija varijable razlika

aritmetikih sredina sluajno odabranih uzoraka biti to manja to su

uzorci vei. Osim toga, logino je da e standardna devijacija razlika

aritmetikih sredina sluajno odabranih uzoraka jednake veliine biti

manja kod manje varijabilnih populacija nego populacije kod kojih

istraivana pojava vie varira. Meutim, kako na varijabilnost neke

pojave u odreenoj populacije ne moemo utjecati, smanjenje

standardne devijacije razlika aritmetikih sredina sluajno odabranih

uzoraka moe se postii jedino poveanjem uzorka. Standardna

devijacija razlika aritmetikih sredina sluajno odabranih uzoraka

naziva se standardna pogreka razlika aritmetikih sredina (21 xx

s

).

Ako je poznata standardna devijacija razlika aritmetikih sredina

sluajno odabranih uzoraka, odnosno standardna pogreka razlika

aritmetikih sredina, onda se u intervalu:

n=5 n=10 n=20


140

21

3xx

s

nalazi priblino 99% svih razlika izmeu aritmetikih

sredina sluajno odabranih uzoraka, a u intervalu

21

2xx

s

nalazi se priblino 95% (v. poglavlje 2.5.3.1, str. 104-106).

Iz toga slijedi da e svaka razlika izmeu dviju aritmetikih sredina

sluajno odabranih uzoraka biti statistiki znaajna ako je, primjerice,

3 puta vea od standardne pogreke razlika aritmetikih sredina

(21 xx

s

), zbog toga to je vjerojatnost sluajnog pojavljivanja tako

velike razlike izmeu aritmetikih sredina vrlo mala, manja od 1%.

Prema tome, da li e neka razlika izmeu dviju aritmetikih sredina

biti statistiki znaajna, ovisi o tome koliko je puta vea od

standardne pogreke razlika aritmetikih sredina (21 xx

s

).

Koliko je puta razlika aritmetikih sredina dvaju sluajno odabranih

uzoraka vea od standardne pogreke razlika aritmetikih sredina

izrauna se na sljedei nain

21

21

xxs

xxt

,

gdje je

t vrijednost koja pokazuje koliko je puta razlika aritmetikih sredina

vea od standardne pogreke razlika aritmetikih sredina

1x aritmetika sredina prvog uzorka

2x aritmetika sredina drugog uzorka

21 xx

s

standardna pogreka razlika aritmetikih sredina.

Standardnu pogreku razlika aritmetikh sredina moemo izraunati

formulom (matematiki dokaz mogue je pronai u knjizi I. Pavi:

Statistika teorija i primjena, str. 244-245):

21

21

21

2

22

2

11 )()(21 nn

nn

2nn

s1ns1ns

xx,

gdje je

s12 varijanca prvog uzorka

s22 varijanca drugog uzorka

n1 broj entiteta prvog uzorka

n2 broj entiteta drugog uzorka.


141

S obzirom da je varijanca populacije uglavnom nepoznata, standardna

pogreka razlika aritmetikih sredina procjenjuje se na temelju

procjene varijance populacije pomou varijance uzorka pa se varijanca

rauna sa n-1 u nazivniku umjesto n.

Izraunata t-vrijednost ne raspodjeljuje se prema normalnoj

distribuciji, ve prema t-distribuciji. Stoga je potrebno, na temelju t-

distribucije, za odreenu sigurnost procjene, odnosno pogreku p (u

statistikom zakljuivanju najee se koriste pogreke p=0,01 ili 1%,

i p=0,05 ili 5%), i odreeni broj stupnjeva slobode df = (n1-1)+(n2-1),

utvrditi kritinu t-vrijednost.

Kritine t-vrijednosti za odgovarajui broj stupnjeva slobode (df) i

odgovarajuu pogreku p prikazane su u tablici B str. 315. S obzirom

na to da Studentova t-distribucija tei k normalnoj (v. poglavlje

2.5.3.2, str. 107-108) kada broj stupnjeva slobode tei beskonanom

(df), onda su i t-vrijednosti za velike uzorke (n>100) vrlo sline vrijednostima normalne distribucije (1,96 za 95%, odnosno 2,58 za

99% sigurnosti procjene).

Ako je t-vrijednost vea od kritine t-vrijednosti, mogue je zakljuiti,

uz odreenu pogreku p, da je razlika izmeu aritmetikih sredina

analiziranih uzoraka statistiki znaajna, odnosno da uzorci ne

pripadaju istoj populaciji jer je vjerojatnost da se tako velika razlika

dobije sluajno manja od p (najee p=0,01 ili 1%, odnosno p=0,05

ili 5 %). Dakle, odbacujemo nultu i prihvaamo alternativnu hipotezu

t > dftp H1:x1 x2 - Razlika izmeu aritmetikih sredina analiziranih uzoraka statistiki je znaajna

uz pogreku p.

Meutim, ako je t-vrijednost manja od kritine t-vrijednosti, nije

mogue tvrditi da je razlika izmeu aritmetikih sredina analiziranih

uzoraka statistiki znaajna, odnosno da uzorci ne pripadaju istoj

populaciji jer se takva razlika moe dobiti sluajno u vie od 1% ili

5% sluajeva. Dakle, prihvaamo nultu hipotezu

t < dftp H0:x1 =x2 - Uz pogreku p ne moemo tvrditi da je

razlika izmeu aritmetikih sredina

analiziranih uzoraka statistiki znaajna.


142

Standardna pogreka razlika aritmetikih sredina, izraunata

navedenom formulom, pretpostavlja da oba uzorka potjeu iz iste

populacije. Stoga je potrebno provjeriti da li im se varijance statistiki

znaajno razlikuju pomou F-testa. F-vrijednost kojom se testira

statistika znaajnost razlika varijanci grupa izrauna se formulom

2

2

manjas

sF vea ,

gdje se u brojnik uvijek uvrtava vea, a u nazivnik manja varijanca.

Izraunata F-vrijednost distribuira se prema F-distribuciji (v.

poglavlje 2.5.3.3, str. 109), uz stupnjeve slobode za veu varijancu

df1=n1-1 i za manju varijancu df2=n2-1. Kritina F-vrijednost do koje

se smatra da razlika izmeu varijanci nije statistiki znaajna oitava

se za odreeni broj stupnjeva slobode iz tablice C (str. 318-321) F-

vrijednost se iz tablice oitava tako da se broj stupnjeva slobode

brojnika (df1) ita na gornjem rubu tablice (stupci), a broj stupnjeva

slobode nazivnika (df2) ita se na lijevom rubu tablice (reci). Na

mjestu krianja stupca i retka oita se kritina F-vrijednost. Ako je

izraunata F-vrijednost manja od tabline F-vrijednosti, zakljuujemo

da razlika izmeu varijanci nije statistiki znaajna.

Ako se utvrdi statistika znaajnost razlika varijanci uzoraka, odnosno

odbaci hipoteza o homogenosti varijance, dobivena statistika

znaajnost varijanci analiziranih uzoraka ne mora neophodno stavljati

u pitanje i ispravnost rezultata t-testa. Iako t-test polazi od

pretpostavke da su varijance grupa homogene, mnoge studije

(primjerice, Boneau, 1960)1 su pokazale da t-test daje relativno tone

rezultate i u sluajevima kada je prekren uvjet o homogenosti

varijanci, ali uz uvjet podjednakog broja entiteta u oba uzorka i slinih

distribucija. Stoga je u praksi potrebno planirati eksperimente u

kojima e uzorci biti sline veliine ime e pogreke u raunu t-testa

zbog eventualno razliitih varijanci uzoraka biti praktino zanemarive.

Ako navedeni uvjet nije ispunjen, a varijance se statistiki znaajno

razlikuju, tada je potrebno koristiti Cochran-Coxovu metodu (Cohran i

Cox, 1950, prema Petz, 2002). Ovim postupkom standardna pogreka

razlika procjenjuje se formulom

1 Boneau, C.A. (1960). The effects of violations of assumptions underlying the ttest. Psychol. Bull., 57,

49-64.


143

2

2

2

1

2

1

21 n

s

n

ss

xx

te se izrauna t-vrijednost

21

21

xxs

xxt

Kritina t-vrijednost odreuje se prema formuli

22

2

2

1

2

21

21

xx

xx

pss

tstst

,

gdje je

tp kritina t-vrijednost za pogreku p

2

1xs standardna pogreka aritmetike sredine prvog uzorka

2

2xs standardna pogreka aritmetike sredine drugog uzorka

t1 tablina t-vrijednost uz broj stupnjeva slobode vezana za prvi

uzorak (df=n1-1) i pogreku p

t2 tablina t-vrijednost uz broj stupnjeva slobode vezana za drugi

uzorak (df=n2-1) i pogreku p.

Ako je izraunata apsolutna t-vrijednost vea od na taj nain utvrene

kritine t-vrijednosti, zakljuujemo da je razlika izmeu aritmetikih

sredina statistiki znaajna uz pogreku p.

Primjer: Sluajnim odabirom formirani su uzorci od 100 koarkaa i

100 odbojkaa. Osnovni statistiki parametri ovih uzoraka u varijabli

skok uvis s mjesta iznose:

cmxk 62 ; cmsk 10

cmxo 67 ; cmso 12

Potrebno je utvrditi da li se koarkai i odbojkai statistiki znaajno

razlikuju u varijabli skok u vis s mjesta uz pogreku od 0,05.

Statistiku znaajnost razlike aritmetikih sredina sluajno odabranih

uzoraka koarkaa i odbojkaa u varijabli skok uvis s mjesta mogue je


144

utvrditi uz pomo t-testa za nezavisne uzorke. Prije testiranja

uobiajeno je postaviti hipoteze:

H0 (nulta hipoteza) nema statistiki znaajne razlike izmeu

aritmetikih sredina sluajno odabranih uzoraka koarkaa i

odbojkaa, odnosno za uoenu razliku ne moe se s pogrekom

p=0,05 tvrditi da je statistiki znaajna. Formalno se ta hipoteza

moe napisati kao:

ok xxH :0 .

H1 (alternativna hipoteza) postoji statistiki znaajna razlika

izmeu aritmetikih sredina sluajno odabranih uzoraka koarkaa i

odbojkaa, odnosno uoena razlika moe se smatrati statistiki

znaajnom uz pogreku p=0,05. Formalno se ta hipoteza moe

napisati kao:

ok xxH :1 .

Zavisno od rezultata t-testa, bit e prihvaena jedna od navedenih

hipoteza.

Standardna pogreka razlika aritmetikih sredina iznosi

1,562,441000

200

198

12991099s

nn

nn

2nn

s1ns1ns

22

xx

ok

ok

ok

ookk

xx

ok

ok

22 )()(

S obzirom na to da se radi o velikim uzorcima (n>30), standardnu

pogreku razlika aritmetikih sredina mogue je procijeniti i

pojednostavljenom formulom

1,562,441,441100

12

100

10

n

s

n

ss

22

ok

xx ok

2

2

1

2

.

t-vrijednost iznosi


145

3,21,56

5

1,56

6267

s

xxt

ok xx

ko

Kritina t-vrijednost (oita se iz tablice B str. 317 za pogreku p= 0,05

i broj stupnjeva slobode df=100-1+100-1=198) iznosi 0,05198t =1,98.

Izraunata t-vrijednost ukazuje na to da je razlika aritmetikih sredina

(xo-xk ) uzorka koarkaa i uzorka odbojkaa 3,2 puta vea od

standardne pogreke razlika aritmetikih sredina ko xx

s

. Vjerojatnost

da se takva razlika dogodi sluajno je znatno manja od 5% (jer

interval ko xx

1,98s

ukljuuje 95% sluajnih razlika).

Dakle, s obzirom na to da je izraunata t-vrijednost vea od kritine t-

vrijednosti, prihvaa se alternativna hipoteza, odnosno, zakljuuje se

da je razlika aritmetikih sredina uzoraka koarkaa i odbojkaa

statistiki znaajna uz pogreku manju od 0,05.

2.9.2. t-test za zavisne uzorke

Statistiku znaajnost razlika aritmetikih sredina jednog uzorka

mjerenoga u dvije vremenske toke mogue je utvrditi t-testom za

zavisne uzorke. Primjerice, ako elimo provjeriti uinkovitost nekog

nastavnog ili trenanog procesa, utjecaj nekog lijeka i sl., tada je

potrebno neki reprezentativni uzorak entiteta izmjeriti prije (inicijalno

stanje) i poslije (finalno stanje) primijenjenog tretmana te utvrditi da li

su dobivene razlike meu aritmetikim sredinama promatrane

varijable prvog (prije, inicijalno) i drugog (poslije, finalno) mjerenja

statistiki znaajne.

Statistika znaajnost razlika aritmetikih sredina dvaju zavisnih

uzoraka testira se pomou t-vrijednosti

21 xx

21

s

xxt

.

Zbog korelacije izmeu rezultata prvoga i drugog mjerenja,

standardna pogreka razlika (21 xx

s

) izrauna se formulom


146

1)n(n

dn

1d

s

2n

1i

n

1i

i

2

i

xx 21

,

gdje je

di = 1xi - 2xi razlika izmeu rezultata ispitanika i u 1. i 2. mjerenju

(i=1...n)

n broj ispitanika u uzorku.

Ako se radi o velikim uzorcima (n>30), standardnu pogreku razlika

mogue je procijeniti formulom

212x1x21xx

22

xxssr2sss

,

gdje je

1x

s standardna pogreka aritmetike sredine prvog mjerenja

2x

s standardna pogreka aritmetike sredine drugog mjerenja

r korelacija izmeu varijabli prvog i drugog mjerenja (v. poglavlje

2.11, str. 160-179).

Izraunata t-vrijednost (kao i kod t-testa za nezavisne uzorke)

usporeuje se s kritinom t-vrijednou koja se oita iz tablice B str.

317 uz odreenu pogreku p i broj stupnjeva slobode df=n-1. Ako je

izraunata t-vrijednost vea od kritine t-vrijednosti, zakljuuje se, uz

odreenu pogreku p, da je razlika izmeu aritmetikih sredina prvog i

drugog mjerenja statistiki znaajna, odnosno da je dolo do statistiki

znaajne promjene u promatranoj varijabli izmeu prvoga i drugog

mjerenja.

Primjer: Uzorak od 120 uenika testiran je Seargentovim testom prije

i poslije tromjesenog trenanog procesa provedenoga s ciljem da se

pobolja eksplozivna snaga. Dobiveni su sljedei rezultati:

10s

45x

1

1

8s

49x

2

2

r=0,75

Da li su promjene u eksplozivnoj snazi uenika izmeu prvog i drugog

mjerenja statistiki znaajne uz pogreku od 0,05?


147

Statistiku znaajnost razlika aritmetikih sredina prvoga i drugog

mjerenja mogue je utvrditi pomou t-testa za zavisne uzorke. Prije

testiranja uobiajeno je postaviti hipoteze:

210 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog

mjerenja nije statistiki znaajna uz pogreku 0,05.


mjerenja statistiki je znaajna uz pogreku 0,05.

Zavisno od rezultata t-testa bit e prihvaena jedna od navedenih

hipoteza. Dobivene vrijednosti potrebno je uvrstiti u formulu za

izraunavanje standardne pogreke aritmetikih sredina prvog

91,095,10

10

120

10s

1x

i drugog mjerenja

73,095,10

8

120

8s

2x ,

pomou kojih se izraunava standardna pogreka razlika

0,6.0,730,910,7520,730,91

ssr2sss

22

xx

2

x

2

xxx 212121

Potom se izrauna t-vrijednost

6,66,0

4

6,0

4549

21

12

xxs

xxt

i usporedi se s kritinom t-vrijednou (koja se oita iz tablice B str.

317 za pogreku p=0,05 i broj stupnjeva slobode df=120-1=119) koja

iznosi 1,98t0,05119 . Izraunata t-vrijednost pokazuje da je razlika

aritmetikih sredina prvoga i drugog mjerenja statistiki znaajna jer

je vjerojatnost da se takva razlika dogodi sluajno manja od 0,05

(5%).


148

Primjer: Uzorak od 12 uenika testiran je prije i poslije dvomjesenog

trenanog procesa provedenog radi poboljanja repetitivne snage

trupa. Dobiveni su sljedei rezultati:

1.mjerenje 2.mjerenje

Uenik 1xi 2xi

A 52 53

B 35 40

C 43 44

D 29 33

E 37 41

F 39 41

G 51 52

H 43 42

I 27 30

J 29 28

K 46 49

L 48 48

Hipoteze:


mjerenja nije statistiki znaajna uz pogreku 0,01.


mjerenja statistiki je znaajna uz pogreku 0,01.

S obzirom na to da se radi o malom uzorku, potrebno je koristiti

izvornu formulu za raunanje standardne pogreke razlika. Postupak

izraunavanja t-vrijednosti provodi se u nekoliko koraka. U prvom

koraku izraunaju se razlike izmeu rezultata ispitanika prvog i

drugog mjerenja (tablica - stupac 3), a u drugom koraku izraunate se

razlike kvadriraju (tablica - stupac 4).

1 2 3 4

Uenik 1xi 2xi di = 1xi - 2xi di2

A 52 53 -1 1

B 35 40 -5 25

C 43 44 -1 1

D 29 33 -4 16

E 37 41 -4 16

F 39 41 -2 4

G 51 52 -1 1

H 43 42 1 1

I 27 30 -3 9

J 29 28 1 1

K 46 49 -3 9

L 48 48 0 0

Zbroj 479 501 -22 84


149

U treem koraku izraunaju se sume svih stupaca koje se uvrste u

formule za raunanje aritmetikih sredina

39,9212

479x1 ; 41,75

12

501x1

te u formulu za raunanje standardne pogreke razlika

0,570,33132

43,67

132

40,3384

1)n(n

dn

1d

2n

1i

n

1i

i

2

i

xx 21

.

U posljednjem koraku izrauna se t-vrijednost

3,190,57

41,7539,92

xxt

21 xx

21

i usporedi s kritinom t-vrijednou (koja se oita iz tablice B str. 317

za pogreku p=0,01 i broj stupnjeva slobode df=12-1=11) koja iznosi

3,106. Izraunata t-vrijednost ukazuje na to da je razlika aritmetikih

sredina prvoga i drugog mjerenja statistiki znaajna jer je

vjerojatnost da se takva razlika dogodi sluajno manja od 1%. Stoga

prihvaamo hipotezu H1.

Napomena: Dodatne informacije vezane uz gradivo izneseno u poglavlju 2.8 i 2.9, mogu se pronai u knjizi B. Petz: Osnovne statistike metode za nematematiare, poglavlje 9: Razlika izmeu dvije aritmetike

sredine.

Osnovne statistike metode Univ

kvantitativne metode

Documents