kvantitativne metode

Download Kvantitativne metode

If you can't read please download the document

Upload: edoopanovic

Post on 27-Dec-2015

97 views

Category:

Documents


10 download

DESCRIPTION

Statistika

TRANSCRIPT

  • Osnovne statistike metode Teoretske distribucije

    90

    2.5 Teoretske

    distribucije

    Za razliku od distribucija eksperimentalno prikupljenih podataka, koje

    se nazivaju empirijskim distribucijama, teoretske distribucije su

    zadane matematikom formulom, odnosno one predstavljaju

    matematike funkcije te omoguavaju utvrivanje vjerojatnosti nekog

    sluajnog dogaaja u zadanim uvjetima. Teoretske se distribucije

    koriste kao matematiki modeli za opisivanje veeg broja statistikih

    pojava. S obzirom da statistiki podaci mogu imati diskretna

    (izraavaju konaan broj vrijednosti mjerenog svojstva i uvijek su

    odreene cijelim brojem) i kontinuirana (mogu poprimiti bilo koju

    numeriku vrijednost) obiljeja, mogue je razlikovati diskretne

    (uniformna distribucija, binomna distribucija, Poissonova

    distribucija) i kontinuirane (normalna distribucija, t-distribucija, F-

    distribucija, 2-distribucija) teoretske distribucije. Meutim, prije negoli opiemo navedene teoretske distribucije, potrebno je upoznati

    se s elementarnim pojmovima teorije vjerojatnosti.

  • Osnovne statistike metode Teoretske distribucije

    91

    2.5.1. Elementarni pojmovi teorije vjerojatnosti

    Ako se u jednom eksperimentu, odnosno u realizaciji nekog sluajnog

    dogaaja (primjerice, bacanje na koa s linije slobodnih bacanja,

    bacanje igrae kocke, bacanje novia) moe dogoditi jedan od n

    moguih ishoda, tada svaki od n moguih ishoda nekog eksperimenta

    zovemo elementarni dogaaj, a skup svih moguih ishoda skup ili

    prostor elementarnih dogaaja. Primjerice, u jednom pokuaju uta s

    linije slobodnih bacanja mogua su dva ishoda: uspjean ut i

    neuspjean ut. Dakle, skup elementarnih dogaaja ine dva

    elementarna dogaaja: uspjean ut i neuspjean ut. Ili, ako

    bacamo potpuno pravilnu igrau kocku, onda skup elementarnih

    dogaaja ini est elementarnih dogaaja koji su oznaeni brojevima:

    1, 2, 3, 4, 5, 6. Ukupni broj elementarnih dogaaja mogue je

    izraunati uz pomo osnovnih pravila kombinatorike, a to su: pravilo

    mnoenja, pravilo permutacija, pravilo varijacija i pravilo

    kombinacija.

    2.5.1.1. Pravilo mnoenja

    Neka su x1, x2,, xn svi mogui ishodi jednog sluajnog dogaaja X, a

    y1, y2,,ym svi mogui ishodi sluajnog dogaaja Y. Ukupan broj

    elementarnih dogaaja koje je mogue dobiti kombinirajui ishode

    sluajnih dogaaja X i Y jednak je n m.

    Primjerice, ako bacamo dvije igrae kocke, tada jedno bacanje dviju

    igraih kocaka predstavlja jedan elementarni dogaaj. Ukupan broj

    svih moguih elementarnih dogaaja iznosi

    6 6 = 36

    jer svako bacanje jedne kocke ima 6 moguih ishoda. Skup

    elementarnih dogaaja (moguih kombinacija) prikazan je u tablici

    2.5-1. Tablica 2.5-1. Svi elementarni dogaaji koje je mogue dobiti bacanjem

    dviju igraih kocaka

    1 1 2 1 3 1 4 1 5 1 6 1

    1 2 2 2 3 2 4 2 5 2 6 2

    1 3 2 3 3 3 4 3 5 3 6 3

    1 4 2 4 3 4 4 4 5 4 6 4

    1 5 2 5 3 5 4 5 5 5 6 5

    1 6 2 6 3 6 4 6 5 6 6 6

  • Osnovne statistike metode Teoretske distribucije

    92

    Primjer: Na koliko je naina mogue obojiti tri prazna kruia ako je

    prvi mogue obojiti crvenom, bijelom i plavom bojom, drugi crnom,

    zelenom i utom, a trei naranastom i ljubiastom bojom?

    Ukupan broj elementarnih dogaaja iznosi 3 3 2 = 18. Dakle, kruie je mogue obojiti na 18 naina. U tablici 2.5-2 prikazan je

    skup svih moguih naina (elementarnih dogaaja) na koje je mogue

    obojiti kruie prema navedenom pravilu.

    Tablica 2.5-2. Svi elementarni dogaaji koje je mogue dobiti bojenjem triju praznih kruia

    prema navedenom pravilu

    2.5.1.2. Pravilo permutacija

    Ako su x1, x2,,xn elementi nekog skupa, na koliko ih je naina

    mogue poredati? Svaka meusobno razliita kombinacija elemenata

    x1, x2,,xn naziva se permutacija. Mogue je razlikovati permutacije

    bez ponavljanja i permutacije s ponavljanjima.

    Permutacije bez ponavljanja

    Dakle, ako su x1, x2,, xn elementi nekog skupa, mogue ih je

    poredati na 122).....3(n1)(nn naina, odnosno

    !nP )n(

    gdje je

    P(n)

    broj moguih permutacija (elementarnih dogaaja) za n

    razliitih elemenata

    n! (itamo: n faktorijel) predstavlja produkt prirodnih brojeva od 1

    do n (prema dogovoru 0! = 1).

    Primjerice, imamo etiri prazna kruia koja je potrebno obojiti

    plavom, crvenom, utom i zelenom bojom. Pri tome je svaki krui

  • Osnovne statistike metode Teoretske distribucije

    93

    potrebno obojiti drugom bojom. Ukupan broj svih moguih

    elementarnih dogaaja iznosi

    2412344!n!P(n)

    U tablici 2.5-3 prikazani su svi mogui naini (permutacije) na koje je

    mogue obojiti etiri kruia, tako da se za svaki krui koristi po

    jedna od etiri boje.

    Tablica 2.5-3. Svi elementarni dogaaji koje je mogue dobiti bojenjem etiriju praznih kruia prema navedenom pravilu

    Iz ovog primjera vidi se da je prvi krui mogue obojiti 4 bojama, za

    drugi je mogue koristiti jednu od 3 preostale boje, za trei jednu od 2

    preostale, a za posljednji krui ostaje samo jedna boja.

    Primjer: Ako 8 trkaa sudjeluje u nekoj finalnoj trci, koliko je

    moguih ishoda trke?

    Broj moguih ishoda mogue je izraunati pravilom permutacije,

    odnosno formulom

    4032012345678!8P )8(

    Dakle, broj moguih ishoda trke u kojoj sudjeluje 8 trkaa iznosi

    40320.

    Permutacija s ponavljanjem

    Ako je od n elemenata njih r1, r2,,rk jednakih, tada svaki mogui

    poredak tih n elemenata predstavlja jednu permutaciju s

    ponavljanjem. Broj permutacija s ponavljanjem mogue je izraunati

    formulom

  • Osnovne statistike metode Teoretske distribucije

    94

    !r!...r!r

    !nP

    k21

    )n(

    r,..,r,r k21 ,

    gdje je

    )(

    .., 21

    n

    rrr kP broj moguih permutacija za n razliitih elemenata, od kojih

    je r1,r2,..,.rk jednakih

    n! predstavlja produkt prirodnih brojeva od 1 do n

    rk! predstavlja produkt prirodnih brojeva od 1 do rk.

    Primjerice, ako imamo 2 plave i 3 crvene kuglice, onda ih je mogue

    poredati na

    1012

    120

    12312

    12345

    !3!2

    !5p )5( 3,2

    naina.

    U tablici 2.5-4 prikazani su svi mogui naini na koje je mogue

    poredati 2 plave i 3 crvene kuglice.

    Tablica 2.5-4. Svi elementarni dogaaji koje je mogue dobiti slaganjem 2 plave i 3 crvene

    kuglice

    Primjer: Ako su od 8 trkaa neke finalne utrke dvojica atletiara

    reprezentativci Hrvatske, trojica reprezentativci Kenije i trojica

    reprezentativci Alira, koliko je moguih permutacija (kombinacija

    plasmana) pojedinih reprezentacija?

    Broj moguih ishoda mogue je izraunati pravilom permutacije s

    ponavljanjem, odnosno formulom

    56072

    40320

    12312312

    12345678

    2!3!3!

    8!P(8)

    2,3,3

  • Osnovne statistike metode Teoretske distribucije

    95

    2.5.1.3. Pravilo varijacija

    Mogue je razlikovati varijacije bez ponavljanja i varijacije s

    ponavljanjima.

    Varijacije bez ponavljanja

    Ako iz nekog skupa od n razliitih elemenata formiramo kombinacije

    (razrede) od r elemenata, a da se isti element ne pojavi dva ili vie

    puta u istoj kombinaciji (razredu), onda se broj moguih ishoda

    izrauna prema formuli

    )!rn(

    !nV )n(r

    gdje je

    Vr(n)

    broj varijacija bez ponavljanja n-tog reda i r-tog razreda

    n broj svih elemenata u skupu

    r broj elemenata u traenoj kombinaciji (razredu).

    Primjer: Na koliko je razliitih naina mogue posloiti 2 kuglice (r)

    od ukupno 5 kuglica (n) razliitih boja (plava, crvena, uta, zelena i

    bijela), a da se ista kuglica ne pojavi dva ili vie puta u jednom

    razredu? Broj moguih ishoda je

    206

    120

    123

    12345

    )!25(

    !5V )5(2

    Tablica 2.5-5 prikazuje sve mogue varijacije za n=5, a r=2, odnosno

    prikazani su svi mogui naini na koje je mogue posloiti dvije od

    pet kuglica razliitih boja.

    Tablica 2.5-5. Svi elementarni dogaaji (ishodi) koje je mogue dobiti slaganjem dviju od pet

    kuglica razliitih boja, a da se ista kuglica ne pojavi dva ili vie puta

  • Osnovne statistike metode Teoretske distribucije

    96

    Primjer: elimo li prognozirati redoslijed prva 3 od ukupno 8 trkaa

    koji sudjeluju u nekoj finalnoj trci, postavlja se pitanje: koliko je

    moguih ishoda? Broj moguih ishoda izraunava se formulom za

    varijacije bez ponavljanja

    336120

    40320

    12345

    12345678

    )!38(

    !8V )8(3

    Varijacije s ponavljanjem

    Ako iz nekog skupa od n razliitih elemenata formiramo kombinacije

    (razrede) od r elemenata, a da pri tom dopustimo da se u istoj

    kombinaciji jedan element pojavi dva ili vie puta, onda se broj

    moguih ishoda izrauna prema formuli

    r)n(

    r nV

    ,

    gdje je

    )n(

    rV

    broj varijacija s ponavljanjem n-tog reda i r-tog razreda

    n broj svih elemenata u skupu, a

    r broj elemenata u traenoj kombinaciji (razredu).

    Primjerice, na koliko razliitih naina moemo posloiti 2 kuglice (r)

    od ukupno 5 kuglica (n) razliitih boja (plava, crvena, uta, zelena i

    bijela), a da se ista kuglica moe pojaviti vie puta u jednom razredu?

    Broj moguih ishoda mogue je izraunati formulom

    255V 2)5(2

    Tablica 2.5-6 prikazuje sve mogue varijacije s ponavljanjem za n=5,

    a r=2.

    Tablica 2.5-6. Svi elementarni dogaaji koje je mogue dobiti slaganjem dviju od pet kuglica razliitih boja, a da se ista kuglica moe pojaviti u istom razredu dva ili vie puta

  • Osnovne statistike metode Teoretske distribucije

    97

    2.5.1.4. Pravilo kombinacija

    Kombinacije bez ponavljanja

    Ako iz nekog skupa od n razliitih elemenata formiramo kombinacije

    (razrede) od r elemenata, a da pri tome nije vaan raspored

    (redoslijed) elemenata unutar jednog razreda, onda se broj svih

    moguih ishoda izrauna prema formuli

    )!rn(!r

    !nK )n(r

    ,

    gdje je

    Kr(n)

    broj kombinacija bez ponavljanja n-tog reda i r-tog razreda

    n broj svih elemenata u skupu

    r broj elemenata u traenoj kombinaciji (razredu).

    Primjerice, koliko je mogue dobiti razliitih uzoraka (kombinacija)

    ako iz skupa od ukupno 5 kuglica (n) razliitih boja (plava, crvena,

    uta, zelena i bijela) izvlaimo uzorak od 3 kuglice? Pod uzorkom

    podrazumijevamo jednu kombinaciju u kojoj nije vaan poredak, ve

    sadraj elemenata. Broj svih moguih uzoraka izrauna se prema

    formuli

    102

    20

    12

    45

    12123

    12345

    !2!3

    !5

    )!35(!3

    !5K )5(3

    U tablici 2.5-7 prikazan je skup svih moguih uzoraka koje je mogue

    formirati iz skupa 5 kuglica razliitih boja.

    Tablica 2.5-7. Svi elementarni dogaaji koje je mogue dobiti izvlaenjem triju kuglica iz skupa od pet kuglica razliitih boja

  • Osnovne statistike metode Teoretske distribucije

    98

    Primjer: Koliko je moguih uzoraka (kombinacija) ako od 45 brojeva

    formiramo uzorke od po 6 brojeva (loto 6 od 45)? Broj moguih

    kombinacija izrauna se formulom za kombinacije bez ponavljanja

    8145060123456

    40...4445

    1...3839123456

    1...4445

    6)!(456!

    45!K

    )8(

    3

    Dakle, mogue je dobiti 8 145 060 razliitih kombinacija (ishoda).

    2.5.1.5. Vjerojatnost

    Elementarne dogaaje mogue je podijeliti na one s povoljnim i na

    one s nepovoljnim ishodom. Ako u skupu od n elementarnih dogaaja

    x-om oznaimo elementarne dogaaje s povoljnim ishodom, onda

    omjer elementarnih dogaaja s povoljnim ishodom x i skupa

    elementarnih dogaaja n predstavlja vjerojatnost da e se elementarni

    dogaaj s povoljnim ishodom x dogoditi

    n

    x)x(p , a

    p1n

    x1

    n

    xn)x(q

    predstavlja vjerojatnost da se elementarni dogaaj s povoljnim

    ishodom x nee dogoditi. Dakle, moe se rei da je vjerojatnost broj

    koji pokazuje anse za pojavljivanje nekog elementarnog dogaaja.

    Iz navedenih formula vidi se da je:

    p(x) + q(x) =1, pa je 1- p(x)= q(x), a 1- q(x)= p(x)

    0 p(x) 1 i 0 q(x) 1 ako je p(x) = 1 (apsolutna sigurnost da e se dogaaj x dogoditi),

    onda je q(x) = 0 (apsolutna sigurnost da se dogaaj x nee dogoditi),

    i obrnuto.

  • Osnovne statistike metode Teoretske distribucije

    99

    2.5.2. Diskretne teoretske distribucije

    2.5.2.1. Uniformna distribucija

    Uniformna distribucija je najjednostavnija diskretna teoretska

    distribucija, a osnovna joj je karakteristika jednaka vjerojatnost

    ostvarenja svake vrijednosti sluajne varijable x (elementarnog

    dogaaja). Neka sluajna varijabla x ima uniformnu distribuciju ako je

    vjerojatnost bilo koje njene vrijednosti (elementarnog dogaaja) u

    skupu od n elementarnih dogaaja jednaka

    n

    1)x(p ,

    gdje je

    p(x) vjerojatnost elementarnog dogaaja x = 1,..,n

    n ukupan broj vrijednosti koje moe imati sluajna varijabla x.

    Primjerice, ako bacamo pravilnu igrau kocku, vjerojatnost da se

    dogodi svaka od est moguih vrijednosti je jednaka. S obzirom da je

    n=6, onda je vjerojatnost za bilo koju od est moguih vrijednosti

    (elementarnih dogaaja) jednaka p(x)=1/6=0,1666...(slika 2.5-8).

    Slika 2.5-8. Uniformna distribucija za n=6

  • Osnovne statistike metode Teoretske distribucije

    100

    2.5.2.2. Binomna distribucija

    Za neku sluajnu varijablu x kaemo da ima binomnu distribuciju s

    parametrima n i p ako je

    xnxxnx qpxnx

    nqp

    x

    nxf

    )!(!

    !)( ,

    gdje je f(x) vjerojatnost x za uspjene ishode od n svih moguih ishoda

    koje moe imati sluajna varijabla x, p vjerojatnost uspjenog ishoda,

    a q vjerojatnost neuspjenog ishoda (q=1- p).

    Oekivana vrijednost binomne distribucije je np)x(E ,

    varijanca npq)x(V 2 ,

    koeficijent asimetrije (engl. skewnes) npq

    qpa

    3 ,

    koeficijent spljotenosti (engl. kurtosis)npq

    pq613a4

    .

    Binomna distribucija za p=q=0.5 je simetrina, za pq je negativno asimetrina (slika 2.5-9).

    Slika 2.5-9. Binomna distribucija za n = 10 i p = q, p < q i p > q

  • Osnovne statistike metode Teoretske distribucije

    101

    Primjer: Ako se igraa kocka baci 5 puta, kolika je vjerojatnost da

    dobijemo 3 estice?

    Vjerojatnost da se dogodi estica u jednom bacanju je 1/6 (p), a da se

    ne dobije 5/6 (q). Ukupan broj moguih vrijednosti je 5 (n), jer svako

    bacanje generira po jedan ishod, a broj uspjenih ishoda iznosi 3 (x).

    Ako se zadane vrijednosti uvrste u formulu, dobije se

    0,03293312

    3000

    36

    25

    216

    1

    12

    120

    6

    5

    6

    5

    6

    1

    6

    1

    6

    1

    1)(21)2(3

    12345

    6

    5

    6

    1

    3)!(53!

    5!(3)f

    353

    Dakle, vjerojatnost da se od 5 bacanja igrae kocke dobiju tri estice

    iznosi 0,0032, odnosno 3,2 % (slika 2.5-10).

    Slika 2.5-10. Binomna distribucija za n = 5, p = 1/6 i q=5/6

    Za vrlo velike vrijednosti n i male vrijednosti p binomna se

    distribucija aproksimira Poissonovom distribucijom.

  • Osnovne statistike metode Teoretske distribucije

    102

    0 5 10 15 20 25 30

    nedovoljan

    dovoljan

    dobar

    vrlo dobar

    odlian

    Simon Poisson (1781. 1840.) francuski matematiar. Od 1798. studira matematiku na Ecole Polytechnique kod znamenitih matematiara Laplacea i Lagrangea s kojima postaje prijatelj. Predaje na Ecole Polytechnique od 1802. do 1808., a od 1809. godine predaje teorijsku matematiku u novootvorenom Facult des Sciences. Publicirao je puno radova (preko 300). Jedan od vanijih radova objavio je 1837. godine u kome je opisao

    distribuciju rijetkih dogaaja koja je po njemu dobila ime. Njegovi radovi su uvelike pridonijeli razvoju matematike, fizike i astronomije. Prema, J J O'Connor and E F Robertson: http://www-groups.dcs.st- and.ac.uk/%7Ehistory/Mathematicians/Poisson.html

    310

    30x

    15,133,19

    12

    1

    )(1

    2

    n

    xx

    s

    N

    i

    i

    2.5.2.3. Poissonova distribucija

    Poissonova distribucija aproksimira binomnu distribuciju za velike

    vrijednosti n (npr. n>50) i male vrijednosti p (npr. p

  • Osnovne statistike metode Teoretske distribucije

    103

    Slika 2.5-11. Poissonova distribucija za razliite vrijednosti parametra

    Primjer: Pretpostavimo da se u populaciji koarkaa moe pronai 3%

    onih koji u testu skok udalj s mjesta postiu rezultat vei od 3 m.

    Kolika je vjerojatnost da se u uzorku veliine n=100 pronae 5

    koarkaa koji u skoku udalj s mjesta imaju rezultat bolji od 3 m?

    Dakle, x = 5, = p n = 0,03 100 = 3 jer je p = 0,03 (3% odgovara vjerojatnosti p=0.03), a n=100. Uvrtavanjem tih vrijednosti u

    formulu, izrauna se traena vjerojatnost

    0,10,0498120

    2432,71828

    5!

    3(5)p 3

    5

    3

    Slika 2.5-12. Poissonova distribucija za = 3

    = 0,2 = 0,3

    = 1 = 3

  • Osnovne statistike metode Teoretske distribucije

    104

    Carl Friedrich Gauss (1777.- 1855.) jedan je od najveih matematiara. Rodio se u vrlo siromanoj obitelji koja nije imala novca za njegovo kolovanje. U poetku mu je kolovanje omoguio ujak. Negov iznimni matematiki talent primijetili su ve u djetinjstvu njegovi uitelji Bttner i Bartels kada je mali Gauss za nekoliko trenutaka zbrojio cijele brojeve od 1 do 100 uvidjevi da se radi o zbroju 50 parova iji je zbroj

    101. Uz njihovu pomo Gauss zapoinje kolovanje te dobiva bogatog mecenu grofa Carla Wilhelma Ferninanda uz iju pomo od 1792. godine pohaa Brunswick Collegium Carolinum. Od 1795. godine nastavlja studiranje na Sveuilitu u Gttingenu gdje diplomira i postie prve znanstvene rezultate. Nakon diplome doktorirao je na Sveuilitu u Helmstedtu (1799.) te se predaje istraivakom radu. Godine 1801. objavljuje svoju prvu znamenitu knjigu Disquisitiones Arithmeticae, a 1809. drugu knjigu pod nazivom Theoria motus corporum coelestium in sectionibus conicis Solem ambientium, u kojoj raspravlja o gibanju nebeskih tijela. Za metodologiju znanstveno-istraivakog rada u biolokim i drutvenim znanostima posebno je znaajno njegovo djelo Theoria combinationis observationum erroribus minimis obnoxiae (1823), koje je posveeno matematikoj statistici, posebice metodi najmanjih kvadrata i normalnoj krivulji, koja se u njegovu ast naziva Gaussovom krivuljom.

    Prema,Kolesari i Petz, 1999, i http://de.wikipedia.org/wiki/Carl_Friedrich_Gauss

    2.5.3. Kontinuirane teoretske distribucije

    2.5.3.1. Normalna distribucija

    Normalna distribucija sigurno je najvanija i najee koritena

    kontinuirana teoretska distribucija u statistikim analizama (slika 2.5-

    13). Naziva se jo i Gaussovom distribucijom jer se smatra da ju je

    Gauss prvi matematiki definirao. Osim Gaussa, u definiranju

    normalne raspodjele

    znaajnu ulogu imali su

    Laplace1 i De Moivre

    2.

    Za sluajnu kontinuiranu

    varijablu x kae se da ima

    normalnu distribuciju s

    parametrima i 2 ako je

    2x

    2

    1

    e2

    1)x(f

    gdje je

    aritmetika sredina

    standardna devijacija

    = 3,14459... e =2,71828.

    Slika 2.5-13. Normalna distribucija s parametrima i

    1 Pierre Simone Laplace (1749. - 1827.) francuski matematiar 2 Abraham De Moivre (1667. - 1754.) engleski matematiar francuskog podrijetla

    -3 -2 -1 1 2 3

    http://de.wikipedia.org/wiki/Carl_Friedrich_Gauss
  • Osnovne statistike metode Teoretske distribucije

    105

    Ako su vrijednosti izraene u standardiziranom obliku (v. poglavlje

    2.7, str. 114-123.)

    xz ,

    onda se formula normalne distribucije svodi na oblike

    2

    2

    z

    e2

    1)z(f

    s parametrima = 0 i =1 (slika 2.5-14). U statistikim analizama esto je vanije utvrditi vjerojatnost postizanja boljeg ili loijeg

    rezultata od neke vrijednosti, to se izraunava tzv. integralom

    vjerojatnosti

    dze2

    1)z(

    z

    2

    z2

    Dobivena funkcija (z) je normalna kumulativna distribucija (slika 2.5-14), vrijednosti koje odgovaraju vjerojatnosti postizanja rezultata

    koji je jednak ili manji od rezultata z, to odgovara povrini ispod

    normalne distribucije od - do z. Slika 2.5-14 ilustrira odnos funkcije

    f(z) i (z). Vrijednosti funkcije (z) za odgovarajue z vrijednosti prikazane su u tablici A str. 316.

    Mogue je uoiti da je normalna distribucija zvonastog oblika,

    unimodalna i zrcalno simetrina u odnosu na aritmetiku sredinu.

    Aritmetika sredina, modus i medijan su jednaki. Normalna

    distribucija je definirana aritmetikom sredinom i standardnom

    devijacijom. Protee se u intervalu od - do +, a vjerojatnost da se

    dogodi vrijednost u intervalu (slika 2.5-15):

    od -1 do +1 je 68,27 %

    od -2 do +2 je 95,45 %

    od -3 do +3 je 99,73 %, odnosno

    od -1,96 do + 1,96 je 95 %

    od -2,58 do + 2,58 je 99 %.

  • Osnovne statistike metode Teoretske distribucije

    106

    Slika 2.5-14. Funkcije f(z) i (z) za = 0 i =1

    Slika 2.5-15. Prikaz karakteristinih dijelova povrine kod normalne distribucije

    68,27%

    95,45%

    99,73%

  • Osnovne statistike metode Teoretske distribucije

    107

    t-distribucija nazivaju Studentov t-test i Studentova t-distribucija. Posjeivao je i dopisivao se s mnogim statistiarima, meu kojima i s R. Fisherom i K. Pearsonom.

    Prema, Kolesari i Petz, (1999) i O'Connor i Robertson: http://wwwgroups.dcs.st and.ac.uk/%7Ehistory/Mathematicians/Gosset.html

    William Gosset (1876. 1937.) studirao je kemiju i matematiku na New College u Oxfordu. Po zavretku studija 1899. godine dobiva posao kemiara u poznatoj pivarskoj tvrtci Guinness u Dublinu. U nastojanju da unaprijedi proizvodnju, razvijao je statistike metode. Osobito je znaajan njegov doprinos u oblikovanju t-testa i t- distribucije. Objavljivao je lanke pod pseudonimom Student pa se esto t-test i

    Znanstveni lanak The Probable Error of Mean objavljen u asopisu Biometrika 1908. godine.

    2.5.3.2. Studentova t - distribucija

    William Gosset definirao

    je t-distribuciju i objavio

    je u asopisu Biometri-

    ka, 1908. godine pod

    pseudonimom Student.

    Sluajna varijabla t ima

    Studentovu t-distribuciju

    s parametrom df ako je

    2

    1

    2

    1

    2

    2

    1

    )(

    df

    df

    t

    dfdf

    df

    tf

    gdje je

    df broj stupnjeva slobode

    (df=1,2)3

    gama funkcija4

    =3.14459...

    Studentova t-distribucija

    ima oblik slian normalnoj

    distribuciji. Za df, t-distribucija se pribliava

    standardiziranoj normalnoj

    distribuciji s parametrima

    =0 i =1. Sa smanjivanj-em broja stupnjeva slobode

    t-distribucija poprima sve

    iri oblik (slika 2.5-16).

    3 Broj stupnjeva slobode (engl. degrees of freedom) definira se kao broj neovisnih opaanja (entiteta) n

    umanjen za broj k parametara potrebnih da bi se odredio dani pokazatelj. Dakle, broj stupnjeva slobode df = n k (prema oi i Sedar, 2002: 249).

    4 Vie o gama funkciji mogue je proitati u knjizi I.Pavi (1988). Statistika teorija i primjena. (str.113-

    116). Zagreb: Tehnika knjiga.

    http://wwwgroups.dcs.st/
  • Osnovne statistike metode Teoretske distribucije

    108

    Vrijednosti za t-distribuciju za odreeni broj stupnjeva slobode (df)

    dane su u tablici B str. 317.

    Slika 2.5-16. t-distribucija za df = 3, df =5, df = 10, df =100

    3,1895% 2,5795%

    2,2395% 1,9795%

  • Osnovne statistike metode Teoretske distribucije

    109

    2.5.3.3. Snedecorova F - distribucija

    George W. Snedecor je na temelju ranijih radova R. A. Fishera, a za

    potrebe suvremene statistike prakse, definirao F-distribuciju. U

    Fisherovu ast oznaio ju je simbolom F. Snedecorova ili F-

    distribucija je kontinuirana funkcija vjerojatnosti sluajne varijable

    definirana u intervalu (0, +). Za neku sluajnu kontinuiranu varijablu

    F kae se da ima F-distribuciju s parametrom df1 i df2 ako je

    2/)dfdf(

    2

    1

    1)2/df(2

    df

    2

    1

    21

    21

    21

    1

    1

    Fdf

    df1

    F

    df

    df

    2

    df

    2

    df

    2

    dfdf

    )F(f

    ,

    gdje su

    df1 i df2 stupnjevi slobode (df1 = 1,2, i df2 = 1,2,)

    gama funkcija.

    Funkcija f(F) zavisi od parametara df1 i df2. F-distribucija je

    unimodalna i pozitivno asimetrina. Za male vrijednosti df (broja

    stupnjeva slobode) ima jako izraenu pozitivnu asimetriju, a s

    poveanjem broja stupnjeva slobode asimetrinost se smanjuje (slika

    2.5-17).

    Slika 2.5-17. F-distribucija za df1 = 5, df2 =5 i za df1 = 10, df2 =10

    Vrijednosti za F-distribuciju za odgovarajui broj stupnjeva slobode

    (df1 i df2) dane su u tablici C str. 318-321. F-vrijednost iz tablice C

    oitava se tako da se broj stupnjeva slobode df1 ita na gornjem rubu

    tablice (stupci), a broj stupnjeva slobode df2 ita na lijevom rubu

    tablice (reci). Na mjestu krianja stupca i retka oita se odgovarajua

    F-vrijednost.

    df1=5

    df2=5

    df1=10

    df2=10

  • Osnovne statistike metode Teoretske distribucije

    110

    2.5.3.4. 2 - distribucija

    Za neku sluajnu kontinuiranu varijablu x kae se da ima 2-distribuciju s parametrom df ako je

    2/12/

    2/ 2/2

    1)( xdf

    dfex

    dfxf

    ,

    gdje je

    df broj stupnjeva slobode (df = 1,2,)

    gama funkcija e =2,71828.

    Vidljivo je da funkcija f(x) zavisi samo od parametra df. Za male

    vrijednosti df (broja stupnjeva slobode) 2-distribucija ima jako izraenu pozitivnu asimetriju, a s poveanjem broja stupnjeva slobode

    tei simetrinosti (slika 2.5-18). Zbog sloenosti izraunavanja,

    vrijednosti 2-distribucije za odgovarajui broj stupnjeva slobode (df) dane su u tablici D str. 322.

    Slika 2.5-18. 2 - distribucija za broj stupnjeva slobode df =3, df=5, df=10, df=15

    df=3 df=5

    df=10 df=15

  • Osnovne statistike metode K-S test normaliteta distribucije

    111

    2.6 K-S test

    normaliteta

    distribucije

    S obzirom na to da primjena parametrijskih statistikih metoda

    zahtijeva kvantitativne normalno distribuirane varijable, obino se u

    svakom realnom istraivanju utvruje da li empirijske distribucije

    statistiki znaajno odstupaju od normalne distribucije. Naime,

    emipirijske distribucije uvijek u nekoj mjeri odstupaju od teoretske

    normalne distribucije zbog toga to se u istraivanjima koriste uzorci

    ispitanika koji nikada potpuno ne odraavaju stanje populacije. Stoga

    se, ovisno o reprezentativnosti uzorka ispitanika, moe dogoditi da

    inae normalno distribuirane varijable u populaciji, manje ili vie

    odstupaju od teoretske normalne distribucije. Takva odstupanja su

    proizvod sluajnog variranja entiteta u uzorcima i ne smatraju se

    statistiki znaajnima. S druge strane, ako su odstupanja neke

    empirijske distribucije toliko velika da prelaze razinu sluajnih

    odstupanja, tada se smatraju statistiki znaajnima. Takva odstupanja

    nisu posljedica sluajnog variranja entiteta u uzorku, ve se radi o

    varijablama kojih je stvarna distribucija razliita od normalne

    distribucije.

  • Osnovne statistike metode K-S test normaliteta distribucije

    112

    Najee koriten postupak za utvrivanje normaliteta neke empirijske

    distribucije je Kolmogorov-Smirnovljev test (K-S test). Ovaj statistiki

    postupak temelji se na usporedbi empirijskih relativnih kumulativnih

    frekvencija (rcf) i teoretskih relativnih kumulativnih frekvencija (trcf).

    Postupak testiranja normaliteta distribucije pomou KS-testa prikazat

    emo na sljedeem primjeru.

    Primjer: 60 judaa izmjereno je testom skok udalj s mjesta. Potrebno

    je uz pomo KS-testa utvrditi odstupa li njihova (empirijska)

    distribucija statistiki znaajno od (teoretske) normalne distribucije uz

    pogreku od 5%. Testiranje normaliteta empirijske distribucije iz ovog

    primjera sastoji se od nekoliko koraka.

    Tablica 2.6-1. Testiranje normaliteta distribucije KS-testom

    Intervali razreda f cf rcf z trcf D

    120

  • Osnovne statistike metode K-S test normaliteta distribucije

    113

    izraunati odstupanja izmeu empirijske i teoretske relativne

    kumulativne frekvencije (stupac-D u tablici 2.6-1)

    odrediti najvee odstupanje empirijske i teoretske relativne

    kumulativne (maxD) frekvencije i usporediti ga s tablinom

    vrijednou KS-testa, odreenom za odgovarajui broj entiteta

    (tablica E, str. 323). Kritina (tablina) vrijednost KS-testa uz

    pogreku od 0,05 za 60 entiteta iznosi 0,172. Ako je najvee

    odstupanje (slika 2.6-1) izmeu empirijske i teoretske relativne

    kumulativne frekvencije manje od kritine vrijednosti KS-testa

    (maxD

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    114

    2.7 Standardizacija

    podataka

    (z - vrijednost)

    Za prikupljanje podataka na nekom uzorku entiteta koriste se razliiti

    mjerni instrumenti, pa su i rezultati izraeni u razliitim mjernim

    jedinicama. Stoga je usporedba vrijednosti entiteta u razliitim

    varijablama znatno oteana. Ovaj problem se rjeava postupkom

    transformacije originalnih vrijednosti neke varijable u tzv.

    standardizirane ili z-vrijednosti.

    Postupak standardizacije provodi se pomou formule

    j

    jij

    ij

    xxz

    ,

    gdje je

    zij standardizirani rezultat entiteta i u varijabli j

    xij originalna vrijednost ispitanika i u varijabli j

    jx aritmetika sredina varijable j

    j standardna devijacija varijable j.

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    115

    Iz navedene formule lako je uoiti da se standardizirana vrijednost

    izraunava odreivanjem odstupanja entiteta od aritmetike sredine

    (centriranje rezultata), koje se potom podijeli standardnom

    devijacijom. Dakle, standardizirana vrijednost je relativna mjera

    odstupanja svakog entiteta od aritmetike sredine, izraena u

    dijelovima standardne devijacije.

    Praktina primjena transformacije originalnih podataka u z-vrijednosti

    razmotrit e se u sljedeim primjerima.

    Primjer: Deset uenika natjecalo se u tri atletske discipline: skok udalj

    (SD), tranje na 100 metara (T100m) i bacanje kugle (BK) i postiglo

    rezultate navedene u tablici 2.7-1.

    Tablica 2.7-1. Rezultati 10 uenika u tri atletske discipline

    Uenik SD T100m BK

    AB 359 13,6 561

    DF 321 13,9 550

    JG 346 13,7 538

    KL 332 14,0 490

    DD 450 12,2 518

    ED 314 14,1 551

    TB 410 12,5 589

    ZN 425 12,3 602

    RG 369 13,5 547

    EN 378 13,8 510

    x 370,4 13,36 545,6

    45,66 0,73 34,21

    Potrebno je utvrditi ukupan poredak uenika na ovom natjecanju.

    Dakle, problem se svodi na rangiranje veeg broja entiteta opisanih

    veim brojem varijabli. S obzirom na to da su rezultati uenika u

    navedenim disciplinama izraeni razliitim mjernim jedinicama, nije

    opravdano kondenzirati rezultate njihovim jednostavnim zbrajanjem,

    ve ih je prethodno potrebno transformirati u z-vrijednosti. Cijeli

    postupak mogue je provesti u nekoliko koraka.

    Prvi korak: Izraunati aritmetiku sredinu i standardnu devijaciju za

    svaku varijablu (tablica 2.7-2).

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    116

    Tablica 2.7-2. Aritmetike sredine i standardne devijacije

    SD T100m BK

    x 370,4 13,36 545,6

    45,66 0,73 34,21

    Drugi korak: Transformirati originalne podatake u z-vrijednosti na

    temelju izraunatih aritmetikih sredina i standardnih devijacija.

    Primjerice, standardizirani rezultat uenika AB u disciplini skok udalj

    (SD) izrauna se prema formuli

    25,066,45

    4,11

    66,45

    4,370359z SD,AB

    Na isti nain transformiraju se rezultati ostalih uenika u sve tri

    discipline. Rezultati su prikazani u tablici 2.7-3.

    Tablica 2.7-3. Standardizirani rezultati 10 uenika u tri atletske discipline

    SD T100M BK

    AB -0,25 0,33 0,45

    DF -1,08 0,74 0,13

    JG -0,53 0,46 -0,22

    KL -0,84 0,87 -1,63

    DD 1,74 -1,58 -0,81

    ED -1,24 1,01 0,16

    TB 0,87 -1,17 1,27

    ZN 1,20 -1,44 1,65

    RG -0,03 0,19 0,04

    EN 0,17 0,60 -1,04

    Trei korak: Prije kondenzacije rezultata (zbrojem ili prosjenom

    vrijednou), potrebno je varijable koje su obrnuto skalirane

    pomnoiti s -1, odnosno promijeniti im predznak. Naime, varijabla

    tranje na 100 metara (T100m) je obrnuto skalirana, to znai da vea

    numerika vrijednost predstavlja loiji rezultat. Stoga tu varijablu

    treba pomnoiti s -1. Nakon ovog postupka dobiju se rezultati

    prikazani u tablici 2.7-4.

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    117

    Tablica 2.7-4. Standardizirani rezultati 10 uenika u tri atletske discipline nakon to je varijabla T100M pomnoena sa -1

    SD T100M BK

    AB -0,25 -0,33 0,45

    DF -1,08 -0,74 0,13

    JG -0,53 -0,46 -0,22

    KL -0,84 -0,87 -1,63

    DD 1,74 1,58 -0,81

    ED -1,24 -1,01 0,16

    TB 0,87 1,17 1,27

    ZN 1,20 1,44 1,65

    RG -0,03 -0,19 0,04

    EN 0,17 -0,60 -1,04

    etvrti korak: Kondenzirati standardizirane vrijednosti aritmetikom

    sredinom, odnosno izraunavanjem prosjene z-vrijednosti za svakog

    uenika u navedenim disciplinama. Primjerice, prosjena z-vrijednost

    uenika AB izrauna se formulom

    0,043

    0,450,33)(0,25

    3

    zzzz BKAB,T100AB,AB,SDAB

    Na isti nain izraunaju se prosjeni rezultati ostalih uenika u sve tri

    discipline. Rezultati su prikazani u tablici 2.7-5.

    Tablica 2.7-5. Prosjeni standardizirani rezultati 10 uenika u tri atletske discipline

    z

    AB -0,04

    DF -0,56

    JG -0,41

    KL -1,11

    DD 0,84

    ED -0,70

    TB 1,10

    ZN 1,43

    RG -0,06

    EN -0,49

    Peti korak: Silazno (od veega k manjem) poredati uenike po

    izraunatoj prosjenoj z-vrijednosti. Konaan redoslijed uenika

    prikazan je u tablici 2.7-6.

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    118

    Tablica 2.7-6. Rangirani prosjeni standardizirani rezultati 10 uenika u tri atletske discipline

    Uenik Rang z

    ZN 1. 1,43

    TB 2. 1,10

    DD 3. 0,84

    AB 4. -0,04

    RG 5. -0,06

    JG 6. -0,41

    EN 7. -0,49

    DF 8. -0,56

    ED 9. -0,70

    KL 10. -1,11

    Dakle, najbolji je uenik ZN, zatim slijedi uenik TB pa uenik DD

    itd. Ovaj postupak u sportu moe biti vrlo koristan za provoenje

    selekcije.

    Primjer: Izmjereno je 257 djeaka testom za procjenu eksplozivne

    snage skok udalj s mjesta. Aritmetika sredina iznosila je 215 cm, a

    standardna devijacija 12 cm. Uenik XY postigao je rezultat 230 cm.

    Potrebno je procijeniti postotak (%) i broj uenika koji su postigli

    loiji rezultat od uenika XY.

    Prvo je potrebno izraunati z-vrijednost ispitanika XY, a ona iznosi

    25,112

    15

    12

    215230zXY

    Uz pretpostavku da su rezultati normalno distribuirani, mogue je

    procijeniti vjerojatnost boljeg rezultata uz pomo tablice A (str. 316).

    Naime, vjerojatnost da se postigne bolji rezultat od odgovarajue z-

    vrijednosti odgovara povrini ispod normalne distribucije od zadane z-

    vrijednosti do desnoga kraja krivulje (slika 2.7-1).

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    119

    Slika 2.7-1. Povrina ispod normalne distribucije odgovara vjerojatnosti da neki rezultat bude bolji ili loiji od zadane z - vrijednosti

    Dakle, za vrijednost z=1,25 odgovara povrina ispod normalne

    distribucije od p=0,1057, ili izraeno u postotku 10,57%, to izraava

    vjerojatnost da se postigne bolji rezultat od ispitanika XY.

    z = 1,25 p = 0,1057 10,57 %

    Vjerojatnost postizanja loijeg rezultata jednaka je 1-0,1057=0,8943,

    odnosno 89,43 %.

    Na temelju procijenjene vjerojatnosti moe se izraunati broj

    ispitanika s boljim, odnosno loijim rezultatom. S obzirom na to da je

    n

    dp , odnosno 100

    n

    d% ,

    gdje je

    p proporcija ( p= 0,1057)

    d dio cjeline (broj uenika s boljim rezultatom od z = 1,25)

    n cjelina (ukupan broj uenika n = 257),

    onda je 2716,272571057,0npd uenika s boljim,

    odnosno, 257 - 27 = 230 uenika s loijim rezultatom.

    z=1,25

    p = 0,1057

    10,57 %

    p = 0,8943

    89,44 %

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    120

    Praktina korist od standardizacije rezultata ogleda se i u mogunosti

    grafikog prikazivanja rezultata entiteta u veem broju varijabli koje

    opisuju njegov antropoloki profil (slika 2.7-2).

    Legenda: SDM - skok udalj s mjesta, IP - iskret palicom, NEB neritmino bubnjanje, SKL sklekovi, T12min tranje 12 minuta, T20m - tranje 20 m, KUS koraci u stranu, BP brzina provlaka, TR taping rukom.

    Slika 2.7-2. Grafiki prikaz profila treniranosti sportaa

    To omoguava, primjerice, uoavanje stanja inilaca odgovornih za

    uspjenost u odreenoj sportskoj aktivnosti, odnosno odreivanje

    profila stanja treniranosti sportaa (slika 2.7-2). Na temelju slike 2.7-2

    moe se uoiti u kojim je testovima ispitanik postigao dobre, a u

    kojima loe rezultate, odnosno na to bi trebalo obratiti pozornost pri

    programiranju treninga u sljedeem razdoblju.

    2.7.1. Standardizacija varijabli matrinom algebrom

    Neka je X matrica podataka dobivena opisivanjem nekog skupa od n

    entiteta skupom od m varijabli.

    X = (xij),

    gdje je i = 1,,n, a j = 1,,m. Matrica standardiziranih podataka Z

    dobije se operacijom

    Z =XcV -1

    SKL

    SDM

    IP NEB T12m

    T20m KUS BP TR

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    121

    gdje je Xc=X-1m

    T matrica centriranih podataka

    m = XT1n

    -1 vektor aritmetikih sredina (1 - sumacijski vektor s n

    jedinica)

    V=(diagC)1/2

    dijagonalna matrica standardnih devijacija koja se

    dobije ekstrakcijom dijagonale matrice kovarijanci C=XcTXc n

    -1.

    Primjer: 9 ispitanika postiglo je sljedee rezultate u skoku udalj (SD),

    tranju na 100 metara (T100m) i bacanju kugle (BK). Potrebno je

    izraunati standardizirane rezultate uz pomo matrine algebre.

    Matrica centriranih podataka Xc dobije se operacijom

    Xc=X- 1mT,

    gdje je

    1 sumacijski vektor sa n jedinica

    m=XT1n

    -1 vektor aritmetikih sredina

    SD T100m BK

    359 13,6 561

    321 13,9 550

    346 13,7 538

    332 14 490

    450 12,2 518

    314 14,1 551

    410 12,5 589

    425 12,3 602

    369 13,5 547

    X =

    1

    1

    1

    1

    1

    1

    1

    1

    1

    SDM T100m BK

    369,56 13,31 549,56

    SDM T100m BK

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    1 mT

    =

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    122

    Matrica kovarijanci C varijabli iz X izrauna se operacijom

    C = XcT

    Xc n-1

    ,

    gdje je Xc matrica centriranih podataka poetnih vrijednosti matrice X.

    Ekstrakcijom dijagonale matrice kovarijanci C dobije se dijagonalna

    matrica varijanci V2

    V2 = diagC,

    a operacijom

    V = (diagC)1/2

    dijagonalna matrica standardnih devijacija V.

    SD T100m BK

    SD 2337,78 -36,11 531,53

    T100m -36,11 0,58 -11,41

    BK 531,53 -11,41 1140,28

    = C

    SD -10,56 -48,56 -23,56 -37,56 80,44 -55,56 40,44 55,44

    T100m 0,29 0,59 0,39 0,69 -1,11 0,79 -0,81 -1,01

    BK 11,44 0,44 -11,56 -59,56 -31,56 1,44 39,44 52,44

    XcT

    SD T100m BK

    -10,56 0,29 11,44

    -48,56 0,59 0,44

    -23,56 0,39 -11,56

    -37,56 0,69 -59,56

    80,44 -1,11 -31,56

    -55,56 0,79 1,44

    40,44 -0,81 39,44

    55,44 -1,01 52,44

    -0,56 0,19 -2,56

    Xc

    9-1

    n-1

    SD T100m BK

    SD 2337,78 0 0

    T100m 0 0,58 0

    BK 0 0 1140,28

    V2=diagC SD T100m BK

    SD 48,35 0 0

    T100m 0 0,76 0

    BK 0 0 33,77

    V=(diagC)1/2

    SD T100m BK

    359 13,6 561

    321 13,9 550

    346 13,7 538

    332 14 490

    450 12,2 518

    314 14,1 551

    410 12,5 589

    425 12,3 602

    369 13,5 547

    X

    SDM T100m BK

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    369,56 13,31 549,56

    1 mT

    SD T100m BK

    -10,56 0,29 11,44

    -48,56 0,59 0,44

    -23,56 0,39 -11,56

    -37,56 0,69 -59,56

    80,44 -1,11 -31,56

    -55,56 0,79 1,44

    40,44 -0,81 39,44

    55,44 -1,01 52,44

    -0,56 0,19 -2,56

    Xc

    -

    =

  • Osnovne statistike metode Standardizacija podataka (z-vrijednosti)

    123

    Standardizirani podaci dobiju se operacijom

    SD T100m BK

    -10,56 0,29 11,44

    -48,56 0,59 0,44

    -23,56 0,39 -11,56

    -37,56 0,69 -59,56

    80,44 -1,11 -31,56

    -55,56 0,79 1,44

    40,44 -0,81 39,44

    55,44 -1,01 52,44

    -0,56 0,19 -2,56

    Xc SD T100m BK

    SD 0,0207 0 0

    T100m 0 1,3146 0

    BK 0 0 0,0296

    V -1 SD T100m BK

    -0,22 0,38 0,34

    -1,00 0,77 0,01

    -0,49 0,51 -0,34

    -0,78 0,91 -1,76

    1,66 -1,46 -0,93

    -1,15 1,04 0,04

    0,84 -1,07 1,17

    1,15 -1,33 1,55

    -0,01 0,25 -0,08

    Z =

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    124

    2.8 Procjena aritmetike

    sredine populacije

    Znanstvena istraivanja utemeljena na statistikim metodama

    uglavnom su usmjerena na analizu reprezentativnih uzoraka izabranih

    iz neke konane ili beskonane populacije. Razlog tome je ili to to

    nije mogue mjeriti cijelu populaciju (npr. ako nas interesira kakav

    uinak ima novo cjepivo na neku virusnu bolest) ili u previsokim

    trokovima (npr. ako nas zanima razvijenost neke motorike

    sposobnosti u desetogodinjaka, onda bi trebalo izmjeriti sve

    desetogodinjake, to je vrlo zahtjevno i skupo, a u nekim sluajevima

    je to i besmisleno, npr. ako testiramo kvalitetu nekog proizvoda koji

    se testom unitava). Stoga se znanstvena istraivanja provode na

    uzorcima, a dobiveni zakljuci se generaliziraju na populaciju koju

    odabrani uzorak reprezentira. Pri tome valja naglasiti da rezultati

    dobiveni na uzorku mogu biti manje ili vie razliiti od rezultata koje

    bismo dobili na cijeloj populaciji. Bolja reprezentativnost uzorka

    oituje se u sigurnijim zakljucima o populaciji, odnosno u

    pouzdanijoj procjeni populacijskih parametara. Reprezentativnost

    uzorka osigurava se njegovom veliinom i nainom odabira. Uzorci

    entiteta mogu se birati na razliite naine, to odreuje tipove uzoraka.

    Najjednostavnija podjela uzoraka je na namjerne i sluajne uzorke.

    Pod namjernim uzorcima podrazumijevaju se oni uzorci iji su entiteti

    birani prema nekom subjektivnom stavu istraivaa o

    reprezentativnosti ili se uzorak formira prema lako ili trenutno

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    125

    dostupnim entitetima (prigodni uzorak), dok kod sluajnih uzoraka svi

    entiteti (iz populacije izbora uzorka) imaju jednaku vjerojatnost

    izbora. S obzirom da se uzorci biraju radi to bolje reprezentativnosti

    populacije iz koje su izabrani (jer se zakljuci dobiveni na uzorku uz

    odreenu pogreku generaliziraju na populaciju), lako je uoiti da e

    pogreka procjene biti manja to je broj entiteta uzorka blii populaciji

    i u kome svi entiteti imaju jednaku vjerojatnost izbora.

    Openito, neki parametar populacije (npr. aritmetike sredine, varijance...) procjenjuje se na temelju istovrsnog parametra

    izraunatog iz nekog sluajnog uzorka . S obzirom na to da je iz neke populacije mogue izabrati puno sluajnih uzoraka, jasno je da

    se time dobiva i veliki broj prametara . Izraunati parametri dobiveni na velikom broju uzoraka ne moraju biti jednaki parametru

    populacije jer su izraunati na dijelu (podskupu) populacije.

    Parametri izraunati na uzorcima ne moraju biti meusobno jednaki jer su izraunati na podacima koji se mogu meusobno razlikovati od

    uzorka do uzorka. Stoga se postavlja pitanje: kako je mogue

    procijeniti parametar populacije ako od svih moguih uzoraka odabranih iz neke populacije odaberemo jedan?

    Ako iz neke populacije od N entiteta odaberemo sve mogue uzorke

    veliine n (n

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    126

    izraunamo aritmetiku sredinu () i standardnu devijaciju () neke varijable X koja je normalno distribuirana (slika 2.8-1).

    Slika 2.8-1. Normalna distribucija pojedinanih rezultata entiteta neke populacije s

    parametrima i

    Ako iz te populacije metodom sluajnog odabira (npr. generatorom

    sluajnih brojeva, koji je implementiran u gotovo sve novije

    programske proizvode STATISTICA, SPSS i sl.), odaberemo jedan

    uzorak veliine 5 entiteta (n=5), postavlja se pitanje: hoe li

    aritmetika sredina tog (prvog) uzorka ( 1x ) biti jednaka aritmetikoj

    sredini populacije ()?

    S obzirom na to da su entiteti sluajno odabrani u ovaj uzorak moe se

    pretpostaviti da e aritmetika sredina tog uzorka biti slina

    aritmetikoj sredini populacije, a da joj ne mora biti jednaka.

    Ako se odabere novi uzorak, postavlja se isto pitanje: hoe li

    aritmetika sredina tog uzorka ( 2x ) biti jednaka aritmetikoj sredini

    prvog uzorka ( 1x ), odnosno aritmetikoj sredini populacije ( )?

    Odgovor e biti slian prethodnome, dakle, vjerojatno e biti slina,

    ali ne mora biti ista. Ako se nastavi sa sluajnim izborom uzoraka1 iste

    veliine (npr. 10 000 puta) i raunanjem njihovih aritmetikih sredina

    1Entiteti se u sluajni uzorak biraju uz povrat, odnosno nakon izbora jednog entiteta zabiljeimo njegov

    rezultat te ga vratimo u populaciju.

    -3 -2 -1 1 2 3

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    127

    dobit e se veliki broj aritmetikih sredina sluajno odabranih

    uzoraka veliine 5 entiteta.

    nxxx ,..,, 21

    Postavlja se pitanje: kolika e biti aritmetika sredina te varijable

    (varijable aritmetikih sredina sluajno odabranih uzoraka veliine 5

    entiteta) i kakva e joj biti distribucija?

    Kada bismo izraunali aritmetiku sredinu aritmetikih sredina

    sluajno odabranih uzoraka, dobili bismo aritmetiku sredinu

    populacije (), a distribucija bi bila normalna. Valja istaknuti da e distribucija aritmetikih sredina dovoljno velikih uzoraka (n>30)

    jednake veliine teiti ka normalnoj distribuciji i u sluajevima kad

    distribucija populacije nije normalna. (Ova zakonitost poznata je pod

    imenom centralni granini teorem iji je matematiki dokaz mogue

    pronai u knjizi I. Pavi (1988): Statistika teorija i primjena, str. 176-

    178).

    Dakle,

    aritmetika sredina aritmetikih sredina sluajno odabranih uzoraka

    jednake veliine tendirat e aritmetikoj sredini populacije

    distribucija aritmetikih sredina sluajno odabranih uzoraka iste

    veliine biti e normalna ili Gaussova.

    S obzirom na to da je normalna distribucija zadana aritmetikom

    sredinom i standardnom devijacijom, postavlja se pitanje procjene

    standardne devijacije varijable aritmetikih sredina sluajno odabranih

    uzoraka odreene veliine. No, prije toga razmotrimo o emu ona

    ovisi. Ako nastavimo s izvlaenjem sluajnih uzoraka, ali ne vie

    veliine 5 entiteta, ve 10, dobit emo varijablu aritmetikih sredina

    sluajno odabranih uzoraka veliine 10 entiteta.

    nxxx ,..,, 21

    Postavlja se pitanje: je li se neto promijenilo u odnosu na varijablu

    aritmetikih sredina sluajno odabranih uzoraka veliine 5 entiteta?

    Da li poveanje entiteta u uzorku smanjuje ili poveava vjerojatnost

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    128

    sluajnog odstupanja aritmetikih sredina uzoraka od aritmetike

    sredine populacija ili pak nema nikakvog utjecaja?

    Nije teko zakljuiti da poveanje veliine uzorka smanjuje

    vjerojatnost sluajnog odstupanja aritmetikih sredina uzoraka oko

    aritmetike sredine populacije. Dakle, distribucija aritmetikih sredina

    sluajno odabranih uzoraka veliine 10 entiteta u odnosu na

    distribuciju aritmetikih sredina sluajno odabranih uzoraka veliine 5

    entiteta bit e ua, odnosno, imat e manju standardnu devijaciju

    (slika 2.8-2).

    Slika 2.8-2. Distribucija aritmetikih sredina sluajno odabranih uzoraka veliine n1=5, n2=10, n3=20

    Valja zakljuiti da e standardna devijacija varijable aritmetikih

    sredina sluajno odabranih uzoraka biti to manja to su uzorci vei.

    Osim toga, na standardnu devijaciju aritmetikih sredina sluajno

    odabranih uzoraka utjee i varijabilnost istraivane pojave (varijable)

    u populaciji. Logino je da e standardna devijacija aritmetikih

    sredina sluajno odabranih uzoraka jednake veliine biti manja kod

    manje varijabilnih populacija nego kod populacija kod kojih

    istraivana pojava vie varira. Meutim, kako na varijabilnost neke

    pojave u odreenoj populaciji ne moemo utjecati, smanjenje

    standardne devijacije aritmetikih sredina sluajno odabranih uzoraka

    moe se postii jedino poveanjem uzorka. Standardna devijacija

    aritmetikih sredina sluajno odabranih uzoraka naziva se standardna

    pogreka aritmetike sredine (x

    ) i kljuna je za procjenu aritmetike

    sredine populacije.

    n=5 n=10 n=20

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    129

    Ako je poznata standardna devijacija aritmetikih sredina sluajno

    odabranih uzoraka, odnosno standardna pogreka aritmetike sredine,

    onda je mogua i procjena aritmetike sredine populacije. Naime, ako

    su aritmetike sredine sluajno odabranih uzoraka normalno

    distribuirne, mogue je konstatirati da se u intervalu:

    x

    3 od aritmetike sredine populacije nalazi priblino 99% svih

    aritmetikih sredina uzoraka,

    x

    2 od aritmetike sredine populacije nalazi priblino 95% svih

    aritmetikih sredina uzoraka (v. poglavlje 2.5.3.1, str. 104-106).

    Prema tome, aritmetika sredina populacije nalazit e se u intervalu

    x3 od bilo koje aritmetike sredine uzorka s priblinom

    vjerojatnou od 99%, odnosno u intervalu x

    2 s priblinom

    vjerojatnou od 95%.

    Ako odstupanja aritmetikih sredina uzoraka (xi ) u odnosu na

    aritmetiku sredinu populacije () podijelimo sa standardnom

    pogrekom aritmetike sredine (x

    )

    x

    i

    i

    xz

    (gdje je i=1,...n, a n - ukupan broj sluajno odabranih uzoraka),

    dobijemo standardizirana odstupanja aritmetikih sredina uzoraka u

    odnosu na aritmetiku sredinu populacije. S obzirom na to da su pri

    statistikom zakljuivanju uobiajene pogreke2 od p=0,05 (5%) i

    p=0,01 (1%), mogue je uvidjeti da e z biti izmeu 1,96 u 95%,

    odnosno izmeu 2,58 u 99% sluajeva.

    96,196,1

    x

    x

    ; za p=0,05

    58,258,2

    x

    x

    ; za p=0,01

    Ako svaki lan gornjeg izraza pomnoimo sa standardnom pogrekom

    aritmetike sredine (x

    ), dobijemo

    2 Za pogreku s kojom se donosi odreeni statistiki zakljuak jo se upotrebljava i naziv razina

    znaajnosti ili razina signifikantnosti.

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    130

    xxx 96,196,1 ; za p=0,05

    xxx 58,258,2 ; za p=0,01

    pa se interval procjene aritmetike sredine populacije moe izraunati

    formulama

    xxxx 96,196,1 ; za p=0,05

    xxxx 58,258,2 ; za p=0,01

    Dakle, ako je poznata standardna pogreka aritmetike sredine, tada je

    mogua procjena intervala u kojemu se s odreenom vjerojatnou

    nalazi aritmetika sredina populacije. Meutim, standardnu pogreku

    aritmetike sredine nije mogue izraunati na uobiajen nain za

    izraunavanje standardne devijacije jer se u praksi raspolae samo

    jednim uzorkom, ali ju je mogue procijeniti formulom3

    nx

    Iz formule je vidljivo da je veliina standardne pogreke aritmetike

    sredine (x

    ) proporcionalna varijabilnosti pojave u populaciji () i

    obrnuto proporcionalna drugom korijenu iz veliine uzorka (n).

    S obzirom na to da je standardna devijacija populacije uglavnom

    nepoznata, standardna pogreka aritmetike sredine procjenjuje se na

    temelju procjene standardne devijacije populacije putem standardne

    devijacije uzorka pa se standardna devijacija rauna sa n-1 u

    nazivniku umjesto n. Dakle, standardna devijacija izrauna se

    formulom4

    1n

    )xx(

    s

    n

    1i

    2

    i

    pa je procjena standardne pogreke aritmetike sredine (x

    s ) jednaka

    omjeru procjene standardne devijacije populacije putem uzorka (s) i

    drugog korijena iz veliine uzorka (n).

    3Matematiki izvod nalazi se u knjizi I.Pavi: Statistika teorija i primjena, str. 170-171.

    4Detaljnije logiko objanjenje mogue je potraiti u knjizi B. Petz: Osnovne statistike metode za

    nematematiare, str. 61-62 i 125-126, a matematiki dokaz u knjizi . Paue: Uvod u matematiku

    statistiku, str. 117-120, ili u knjizi I. Pavi: Statistika teorija i primjena, str. 179-181.

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    131

    n

    ss

    x

    Zbog takvog naina procjenjivanja standardne pogreke aritmetike

    sredine, sampling distribucija za izraz

    x

    i

    s

    x

    nee biti normalna, ve Studentova t-distribucija (v. poglavlje

    2.5.3.2, str. 107-108) Studentova t-distribucija tei normalnoj kada

    broj stupnjeva slobode tei beskonanom (df) pa su i t-vrijednosti za velike uzorke (n>30) vrlo sline vrijednostma normalne

    distribucije (1,96 za 95%, odnosno 2,58 za 99% pouzdanosti

    procjene). Stoga kod malih uzoraka (n

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    132

    gdje je:

    x aritmetika sredina uzorka,

    x

    s procjena standardne pogreke aritmetike sredine,

    tp vrijednost koja se za pogreku p (u statistikom zakljuivanju

    najee se koristi pogreke 0,01 ili 1%, i 0,05 ili 5%) i odreeni

    broj stupnjeva slobode (df=n-1) dobije se na temelju Studentove t-

    distribucije.

    U tablici B str. 317, dane su t-vrijednosti za odgovarajui broj

    stupnjeva slobode (df=n-1) i pogreku (p).

    Primjer: Na sluajno odabranom uzorku veliine 100 entiteta

    izraunata je aritmetika sredina (x = 180 cm) i standardna devijacija

    (s = 10 cm). Potrebno je procijeniti interval u kojemu se s

    vjerojatnou od 0,95 nalazi aritmetika sredina populacije.

    Prvo je potrebno procijeniti standardnu pogreku aritmetike sredine

    cm1100

    10

    n

    ss

    x

    Iz tablice B str. 317 odredi se t-vrijednost za df=n-1=100-1=99 i

    pogreku od 0,05.

    98,1t 05,099

    Uvrtavanjem dobivenih vrijednosti u formulu za procjenu aritmetike

    sredine populacije dobije se

    198,1x198,1x ,

    odnosno

    98,18102,178 .

    Dakle, mogue je zakljuiti da se aritmetika sredina populacije nalazi

    u intervalu od 178,02 do 181,98 sa sigurnou od 95%, odnosno uz

    pogreku od 5%.

    Formula za standardnu pogreku aritmetike sredine

    nx

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    133

    omoguava procjenu veliine uzorka koja e osigurati

    zadovoljavajuu reprezentativnost, odnosno razinu pouzdanosti

    statistike procjene. Iz formule je vidljivo da e procjena aritmetike

    sredine populacije na temelju nekog uzorka biti to pouzdanija

    (standardna pogreka aritmetike sredine bit e manja) to je

    varijabilnost pojave () manja i to je broj entiteta u uzorku (n) vei. S obzirom na to da na varijabilnost pojave ne moemo utjecati,

    poveanje pouzdanosti statistike procjene postiemo poveanjem

    broja entiteta u uzorku. Poveanjem broja entiteta u uzorku smanjuje

    se standardna pogreka aritmetike sredine (slika 2.8-4), odnosno

    poveava se pouzdanost statistike procjene. Meutim, iz slike 2.8-4

    vidljivo je da se standardna pogreka artmetike sredine ne smanjuje

    linearno s poveanjem veliine uzorka, ve je njezino smanjenje

    znatno vee pri poveanju broja entiteta kod manjih uzoraka, dok

    nakon neke veliine poveanje broja entiteta u uzroku nema znatniji

    utjecaj na njezinu vrijednost. O tome treba voditi rauna pri planiranju

    veliine uzoraka u nekom istraivanju, jer se poveanjem uzorka

    poveavaju trokovi njegove provedbe nesrazmjerno s pouzdanou

    statistike procjene.

    Slika 2.8-4. Odnos izmeu standardne pogreke aritmetike sredine i veliine uzorka pri

    standardnoj devijaciji populacije =10

    Primjer: Na sluajnom uzorku od 50 studenata prve godine

    Kineziolokog fakulteta izmjerili smo relativni primitak kisika.

    Aritmetika sredina je iznosila x = 55 mlO2/kg/min, standardna devijacija s = 5,5 mlO2/kg/min. Standardna pogreka aritmetike

    sredine iznosi

  • Osnovne statistike metode Procjena aritmetike sredine populacije

    134

    78,007,7

    5,5

    50

    5,5s

    x

    Dakle, sa sigurnou od 95% aritmetika sredina populacije nalazi se

    u intervalu

    78,0t55 p

    Uz pomo tablice B str. 317 odredi se t-vrijednost za odreenu

    pogreku p i broj stupnjeva slobode df. Za pogreku p=0,05 i broj

    stupnjeva slobode df=49 t-vrijednost iznosi 2,01. Prema tome, raspon

    u kojem moe varirati aritmetika sredina populacije iznosi

    14,378,001,22 mlO2/kg/min

    Smatramo li taj raspon prevelikim i elimo li da on ne iznosi vie od 2

    mlO2/kg/min, potrebno je poveati uzorak ispitanika. Broj entiteta koji

    e osigurati da raspon intervala procjene aritmetike sredine ne bude

    vei od 2 mlO2/kg/min izrauna se postupkom

    n

    11,22

    n

    5,501,222

    12206,11n

    2

    11,22n

    2

    Prema tome, formulu pomou koje procjenjujemo veliinu uzorka za

    odgovarajui raspon procjene aritmetike sredine populacije mogue

    je napisati u ovom obliku

    2

    p

    I

    st2n

    gdje je:

    n broj entiteta

    tp vrijednost za odreenu sigurnost procjene, odnosno pogreku p,

    koja se dobije se na temelju Studentove t-distribucije uz odreeni

    broj stupnjeva slobode df=n-1

    s standardna devijacija, a

    I prihvatljivi interval procjene aritmetike sredine populacije.

  • Osnovne statistike metode t-test

    135

    2.9 t - test

    Dio statistike koji se bavi problemima statistikog zakljuivanja,

    odnosno generaliziranjem zakljuaka s uzorka na populaciju naziva se

    inferencijalna statistika. U okviru inferencijalne statistike,

    odgovarajuim statistikim testom, testiraju se statistike hipoteze o

    veliini odreenog statistikog parametra populacije na temelju

    sluajnog uzorka. Hipoteze definira istraiva na temelju cilja

    znanstvenog istraivanja. Naime, svako znanstveno istraivanje

    usmjereno je na rjeavanje nekog znanstvenog problema. Uoeni

    znanstveni problem, koji se eli rjeavati nekim znanstvenim

    istraivanjem, valja detaljno i precizno opisati i obrazloiti. Pojedino

    znanstveno istraivanje u pravilu je usmjereno na rjeavanje jednog

    dijela uoenog znanstvenog problema pa se za svako znanstveno

    istraivanje jasno navode ciljevi istraivanja, a na temelju njih

    precizno se definiraju hipoteze. Dakle, hipoteze proizlaze iz

    znanstvenog problema (dijela znanstvenog problema) koji elimo

    istraivati, odnosno iz hipotetike teorije (dijela hipotetike teorije)

    koju provjeravamo (Mejovek, 2003, str. 76.). Vrijednost neke

    znanstvene hipoteze mogue je procjenjivati temeljem sljedeih

    mjerila:

    svrhovitost hipoteza treba biti u funkciji postizanja odreenog cilja

    istraivanja;

    provjerljivost hipotezu treba postaviti tako da ju je mogue

    provjeriti odgovarajuim postupcima;

    plodotvornost hipoteza treba omoguiti donoenje plodotvornih

    zakljuaka u odnosu na istraivani problem;

  • Osnovne statistike metode t-test

    136

    suglasnost hipoteza treba biti u skladu s postojeim znanjima o

    istraivanom problemu;

    jednostavnost hipoteze trebaju biti precizno i jasno formulirane

    (Marui i suradnici, 2000).

    Hipoteza moe biti nulta i alternativna. Nulta hipoteza se postavlja

    nijeno (primjerice, nije naena statistiki znaajna razlika izmeu

    aritmetikih sredina grupe A i B; nije naena statistiki znaajna

    povezanost izmeu varijable X i Y itd.), dok se alternativna hipoteza

    suprotstavlja (proturjei) nultoj hipotezi (primjerice, naena je

    statistiki znaajna razlika izmeu aritmetikih sredina grupe A i B;

    naena je statistiki znaajna povezanost izmeu varijable X i Y itd.).

    Postavljene hipoteze provjeravaju se pomou odgovarajuih

    statistikih testova, pri emu se odluka o prihvaanju ili neprihvaanju

    nulte/alternativne hipoteze donosi uz odreenu pogreku. Naime, cilj

    je svakog istraivanja doi do istinitog zakljuka, odnosno onog koji

    odgovara objektivnoj stvarnosti. Meutim, to ponekad nije mogue

    postii jer se istraivanje provodi na temelju vrijednosti dobivenih iz

    sluajnog uzorka, odnosno dijela populacije. Stoga se u postupku

    odluivanja mogu pojaviti dvije vrste pogreaka:

    pogreka tipa I ili odbacimo nultu hipotezu, a ona je tona

    pogreka tipa II ili prihvatimo nultu hipotezu, a ona nije tona.

    Tablica 2.9-1 pokazuje sve mogue ishode (zakljuke) pri statistikom

    odluivanju. Tablica 2.9-1. Mogui ishodi pri statistikom odluivanju

    Legenda:

    - vjerojatnost odbacivanja H0 kada je ona tona (najee iznosi 0,05 i 0,01)

    - vjerojatnost prihvaanja H0 kad ona nije tona p - vjerojatnost

    Testiranje postavljenih hipoteza temelji se na odgovarajuoj teoretskoj

    distribuciji (sampling distribuciji). T-testom se utvruje statistika

    znaajnost razlike aritmetikih sredina dvaju uzoraka (t-test za

    nezavisne uzorke), statistika znaajnost razlike aritmetikih sredina

    jednog uzorka mjerenog u dvije vremenske toke (t-test za zavisne

    Stvarno stanje

    Statistika odluka H0 je tona H0 nije tona

    Odbacujemo H0 Pogreka tipa I ()

    p=

    Tona odluka

    p=1-

    Prihvaamo H0 Tona odluka

    p=1- Pogreka tipa II ()

    p=

  • Osnovne statistike metode t-test

    137

    uzorke) te statistika znaajnost razlike aritmetike sredine nekog

    uzorka u odnosu na neku unaprijed poznatu aritmetiku sredinu.

    Razlike izmeu dviju aritmetikih sredina mogue je utvrditi

    jednostavno njihovom usporedbom, ali uoena razlika ne mora biti i

    statistiki znaajna. Naime, pojam statistiki znaajna razlika dviju

    aritmetikih sredina nije obina razlika izmeu njih, ve je to razlika

    vea od one koja se moe dogoditi sasvim sluajno, kao posljedica

    sluajnoga odabira entiteta u uzorak. Dakle, statistiki znaajna

    razlika aritmetikih sredina dvaju sluajno odabranih uzoraka

    predstavlja razliku koja je posljedica stvarnih razlika izmeu

    populacija kojima uzorci pripadaju, a ne sluajnog variranja uzoraka.

    Statistiki znaajna razlika je vea od razlike koja se moe dobiti

    sluajnim variranjem uzoraka. T-test upravo slui za utvrivanje

    statistike znaajnosti razlike aritmetikih sredina zavisnih ili

    nezavisnih uzoraka.

    2.9.1. t-test za nezavisne uzorke

    Za lake razumijevanje t-testa pretpostavimo da iz jedne velike i

    normalno distribuirane populacije (npr. N=10000) sluajnim

    odabirom biramo uzorke veliine 5 entiteta (n=5). Nakon to

    odaberemo dva sluajna uzorka izraunamo, njihove aritmetike

    sredine. Postavlja se pitanje: hoe li aritmetika sredina prvog uzorka

    biti jednaka aritmetikoj sredini drugog uzorka? S obzirom da su

    entiteti sluajno odabrani u oba uzorka, moe se pretpostaviti da

    aritmetike sredine tih uzoraka mogu, ali i ne moraju biti jednake.

    Dakle, izraunamo li razliku izmeu tih dviju aritmetikih sredina,

    ona moe, ali i ne mora biti jednaka nuli.

    Ako nastavimo (npr. 10 000 puta) sluajno birati parove uzoraka iste

    veliine i raunati razlike aritmetikih sredina (R), dobit emo

    nnnRxx

    Rxx

    Rxx

    21

    22221

    11211

    ....

    ...

    varijablu razlika aritmetikih sredina sluajno odabranih uzoraka

    veliine 5 entiteta. Postavlja se pitanje: kolika e biti aritmetika

  • Osnovne statistike metode t-test

    138

    sredina ove varijable i kakva e joj biti distribucija? Aritmetika

    sredina varijable razlika aritmetikih sredina sluajno odabranih

    uzoraka odgovarala bi pravoj razlici. Budui da su uzorci birani iz iste

    populacije, ta razlika je jednaka nuli jer sluajnim odabirom entiteta u

    uzorak iskljuujemo bilo kakvu mogunost sistematske (namjerne)

    tendencije razlikovanja aritmetikih sredina uzoraka. Sluajnim

    odabirom uzoraka osiguravamo da se aritmetike sredine sluajno

    razlikuju. To znai da e, uz jednaku vjerojatnost, neke razlike biti

    pozitivnoga predznaka (aritmetika sredina prvog uzorka sluajno je

    vea od aritmetike sredine drugog uzorka), a neke negativnoga

    predznaka (aritmetika sredina prvog uzorka sluajno je manja od

    aritmetike sredine drugog uzorka). Prema tome, tendencija grupiranja

    razlika aritmetikih sredina uzoraka bit e oko nule prema normalnoj

    distribuciji (slika 2.9-1).

    Slika 2.9-1. Distribucija razlika aritmetikih sredina sluajno odabranih uzoraka

    Ako se nastavi s izborom sluajnih uzoraka, ali ne vie veliine 5

    entiteta, ve 10 i raunanjem razlika izmeu njihovih aritmetikih

    sredina, dobije se nova varijabla.

    nnnRxx

    Rxx

    Rxx

    21

    22221

    11211

    ....

    ...

    0

  • Osnovne statistike metode t-test

    139

    Postavlja se pitanje je li se neto promijenilo u odnosu na varijablu

    razlika aritmetikih sredina sluajno odabranih uzoraka veliine 5

    entiteta?

    Nije teko zakljuiti da poveanje veliine uzoraka smanjuje

    vjerojatnost razlika izmeu njihovih aritmetikih sredina. Prema tome,

    distribucija razlika aritmetikih sredina sluajno odabranih uzoraka

    veliine 10 entiteta u odnosu na distribuciju razlika aritmetikih

    sredina sluajno odabranih uzoraka veliine 5 entiteta bit e ua,

    odnosno, imat e manju standardnu devijaciju (slika 2.9-2).

    Slika 2.9-2. Distribucija razlika aritmetikih sredina sluajno odabranih uzoraka veliine n1=5, n2=10, n3=20

    Dakle, valja zakljuiti da e standardna devijacija varijable razlika

    aritmetikih sredina sluajno odabranih uzoraka biti to manja to su

    uzorci vei. Osim toga, logino je da e standardna devijacija razlika

    aritmetikih sredina sluajno odabranih uzoraka jednake veliine biti

    manja kod manje varijabilnih populacija nego populacije kod kojih

    istraivana pojava vie varira. Meutim, kako na varijabilnost neke

    pojave u odreenoj populacije ne moemo utjecati, smanjenje

    standardne devijacije razlika aritmetikih sredina sluajno odabranih

    uzoraka moe se postii jedino poveanjem uzorka. Standardna

    devijacija razlika aritmetikih sredina sluajno odabranih uzoraka

    naziva se standardna pogreka razlika aritmetikih sredina (21 xx

    s

    ).

    Ako je poznata standardna devijacija razlika aritmetikih sredina

    sluajno odabranih uzoraka, odnosno standardna pogreka razlika

    aritmetikih sredina, onda se u intervalu:

    n=5 n=10 n=20

  • Osnovne statistike metode t-test

    140

    21

    3xx

    s

    nalazi priblino 99% svih razlika izmeu aritmetikih

    sredina sluajno odabranih uzoraka, a u intervalu

    21

    2xx

    s

    nalazi se priblino 95% (v. poglavlje 2.5.3.1, str. 104-106).

    Iz toga slijedi da e svaka razlika izmeu dviju aritmetikih sredina

    sluajno odabranih uzoraka biti statistiki znaajna ako je, primjerice,

    3 puta vea od standardne pogreke razlika aritmetikih sredina

    (21 xx

    s

    ), zbog toga to je vjerojatnost sluajnog pojavljivanja tako

    velike razlike izmeu aritmetikih sredina vrlo mala, manja od 1%.

    Prema tome, da li e neka razlika izmeu dviju aritmetikih sredina

    biti statistiki znaajna, ovisi o tome koliko je puta vea od

    standardne pogreke razlika aritmetikih sredina (21 xx

    s

    ).

    Koliko je puta razlika aritmetikih sredina dvaju sluajno odabranih

    uzoraka vea od standardne pogreke razlika aritmetikih sredina

    izrauna se na sljedei nain

    21

    21

    xxs

    xxt

    ,

    gdje je

    t vrijednost koja pokazuje koliko je puta razlika aritmetikih sredina

    vea od standardne pogreke razlika aritmetikih sredina

    1x aritmetika sredina prvog uzorka

    2x aritmetika sredina drugog uzorka

    21 xx

    s

    standardna pogreka razlika aritmetikih sredina.

    Standardnu pogreku razlika aritmetikh sredina moemo izraunati

    formulom (matematiki dokaz mogue je pronai u knjizi I. Pavi:

    Statistika teorija i primjena, str. 244-245):

    21

    21

    21

    2

    22

    2

    11 )()(21 nn

    nn

    2nn

    s1ns1ns

    xx,

    gdje je

    s12 varijanca prvog uzorka

    s22 varijanca drugog uzorka

    n1 broj entiteta prvog uzorka

    n2 broj entiteta drugog uzorka.

  • Osnovne statistike metode t-test

    141

    S obzirom da je varijanca populacije uglavnom nepoznata, standardna

    pogreka razlika aritmetikih sredina procjenjuje se na temelju

    procjene varijance populacije pomou varijance uzorka pa se varijanca

    rauna sa n-1 u nazivniku umjesto n.

    Izraunata t-vrijednost ne raspodjeljuje se prema normalnoj

    distribuciji, ve prema t-distribuciji. Stoga je potrebno, na temelju t-

    distribucije, za odreenu sigurnost procjene, odnosno pogreku p (u

    statistikom zakljuivanju najee se koriste pogreke p=0,01 ili 1%,

    i p=0,05 ili 5%), i odreeni broj stupnjeva slobode df = (n1-1)+(n2-1),

    utvrditi kritinu t-vrijednost.

    Kritine t-vrijednosti za odgovarajui broj stupnjeva slobode (df) i

    odgovarajuu pogreku p prikazane su u tablici B str. 315. S obzirom

    na to da Studentova t-distribucija tei k normalnoj (v. poglavlje

    2.5.3.2, str. 107-108) kada broj stupnjeva slobode tei beskonanom

    (df), onda su i t-vrijednosti za velike uzorke (n>100) vrlo sline vrijednostima normalne distribucije (1,96 za 95%, odnosno 2,58 za

    99% sigurnosti procjene).

    Ako je t-vrijednost vea od kritine t-vrijednosti, mogue je zakljuiti,

    uz odreenu pogreku p, da je razlika izmeu aritmetikih sredina

    analiziranih uzoraka statistiki znaajna, odnosno da uzorci ne

    pripadaju istoj populaciji jer je vjerojatnost da se tako velika razlika

    dobije sluajno manja od p (najee p=0,01 ili 1%, odnosno p=0,05

    ili 5 %). Dakle, odbacujemo nultu i prihvaamo alternativnu hipotezu

    t > dftp H1:x1 x2 - Razlika izmeu aritmetikih sredina analiziranih uzoraka statistiki je znaajna

    uz pogreku p.

    Meutim, ako je t-vrijednost manja od kritine t-vrijednosti, nije

    mogue tvrditi da je razlika izmeu aritmetikih sredina analiziranih

    uzoraka statistiki znaajna, odnosno da uzorci ne pripadaju istoj

    populaciji jer se takva razlika moe dobiti sluajno u vie od 1% ili

    5% sluajeva. Dakle, prihvaamo nultu hipotezu

    t < dftp H0:x1 =x2 - Uz pogreku p ne moemo tvrditi da je

    razlika izmeu aritmetikih sredina

    analiziranih uzoraka statistiki znaajna.

  • Osnovne statistike metode t-test

    142

    Standardna pogreka razlika aritmetikih sredina, izraunata

    navedenom formulom, pretpostavlja da oba uzorka potjeu iz iste

    populacije. Stoga je potrebno provjeriti da li im se varijance statistiki

    znaajno razlikuju pomou F-testa. F-vrijednost kojom se testira

    statistika znaajnost razlika varijanci grupa izrauna se formulom

    2

    2

    manjas

    sF vea ,

    gdje se u brojnik uvijek uvrtava vea, a u nazivnik manja varijanca.

    Izraunata F-vrijednost distribuira se prema F-distribuciji (v.

    poglavlje 2.5.3.3, str. 109), uz stupnjeve slobode za veu varijancu

    df1=n1-1 i za manju varijancu df2=n2-1. Kritina F-vrijednost do koje

    se smatra da razlika izmeu varijanci nije statistiki znaajna oitava

    se za odreeni broj stupnjeva slobode iz tablice C (str. 318-321) F-

    vrijednost se iz tablice oitava tako da se broj stupnjeva slobode

    brojnika (df1) ita na gornjem rubu tablice (stupci), a broj stupnjeva

    slobode nazivnika (df2) ita se na lijevom rubu tablice (reci). Na

    mjestu krianja stupca i retka oita se kritina F-vrijednost. Ako je

    izraunata F-vrijednost manja od tabline F-vrijednosti, zakljuujemo

    da razlika izmeu varijanci nije statistiki znaajna.

    Ako se utvrdi statistika znaajnost razlika varijanci uzoraka, odnosno

    odbaci hipoteza o homogenosti varijance, dobivena statistika

    znaajnost varijanci analiziranih uzoraka ne mora neophodno stavljati

    u pitanje i ispravnost rezultata t-testa. Iako t-test polazi od

    pretpostavke da su varijance grupa homogene, mnoge studije

    (primjerice, Boneau, 1960)1 su pokazale da t-test daje relativno tone

    rezultate i u sluajevima kada je prekren uvjet o homogenosti

    varijanci, ali uz uvjet podjednakog broja entiteta u oba uzorka i slinih

    distribucija. Stoga je u praksi potrebno planirati eksperimente u

    kojima e uzorci biti sline veliine ime e pogreke u raunu t-testa

    zbog eventualno razliitih varijanci uzoraka biti praktino zanemarive.

    Ako navedeni uvjet nije ispunjen, a varijance se statistiki znaajno

    razlikuju, tada je potrebno koristiti Cochran-Coxovu metodu (Cohran i

    Cox, 1950, prema Petz, 2002). Ovim postupkom standardna pogreka

    razlika procjenjuje se formulom

    1 Boneau, C.A. (1960). The effects of violations of assumptions underlying the ttest. Psychol. Bull., 57,

    49-64.

  • Osnovne statistike metode t-test

    143

    2

    2

    2

    1

    2

    1

    21 n

    s

    n

    ss

    xx

    te se izrauna t-vrijednost

    21

    21

    xxs

    xxt

    Kritina t-vrijednost odreuje se prema formuli

    22

    2

    2

    1

    2

    21

    21

    xx

    xx

    pss

    tstst

    ,

    gdje je

    tp kritina t-vrijednost za pogreku p

    2

    1xs standardna pogreka aritmetike sredine prvog uzorka

    2

    2xs standardna pogreka aritmetike sredine drugog uzorka

    t1 tablina t-vrijednost uz broj stupnjeva slobode vezana za prvi

    uzorak (df=n1-1) i pogreku p

    t2 tablina t-vrijednost uz broj stupnjeva slobode vezana za drugi

    uzorak (df=n2-1) i pogreku p.

    Ako je izraunata apsolutna t-vrijednost vea od na taj nain utvrene

    kritine t-vrijednosti, zakljuujemo da je razlika izmeu aritmetikih

    sredina statistiki znaajna uz pogreku p.

    Primjer: Sluajnim odabirom formirani su uzorci od 100 koarkaa i

    100 odbojkaa. Osnovni statistiki parametri ovih uzoraka u varijabli

    skok uvis s mjesta iznose:

    cmxk 62 ; cmsk 10

    cmxo 67 ; cmso 12

    Potrebno je utvrditi da li se koarkai i odbojkai statistiki znaajno

    razlikuju u varijabli skok u vis s mjesta uz pogreku od 0,05.

    Statistiku znaajnost razlike aritmetikih sredina sluajno odabranih

    uzoraka koarkaa i odbojkaa u varijabli skok uvis s mjesta mogue je

  • Osnovne statistike metode t-test

    144

    utvrditi uz pomo t-testa za nezavisne uzorke. Prije testiranja

    uobiajeno je postaviti hipoteze:

    H0 (nulta hipoteza) nema statistiki znaajne razlike izmeu

    aritmetikih sredina sluajno odabranih uzoraka koarkaa i

    odbojkaa, odnosno za uoenu razliku ne moe se s pogrekom

    p=0,05 tvrditi da je statistiki znaajna. Formalno se ta hipoteza

    moe napisati kao:

    ok xxH :0 .

    H1 (alternativna hipoteza) postoji statistiki znaajna razlika

    izmeu aritmetikih sredina sluajno odabranih uzoraka koarkaa i

    odbojkaa, odnosno uoena razlika moe se smatrati statistiki

    znaajnom uz pogreku p=0,05. Formalno se ta hipoteza moe

    napisati kao:

    ok xxH :1 .

    Zavisno od rezultata t-testa, bit e prihvaena jedna od navedenih

    hipoteza.

    Standardna pogreka razlika aritmetikih sredina iznosi

    1,562,441000

    200

    198

    12991099s

    nn

    nn

    2nn

    s1ns1ns

    22

    xx

    ok

    ok

    ok

    ookk

    xx

    ok

    ok

    22 )()(

    S obzirom na to da se radi o velikim uzorcima (n>30), standardnu

    pogreku razlika aritmetikih sredina mogue je procijeniti i

    pojednostavljenom formulom

    1,562,441,441100

    12

    100

    10

    n

    s

    n

    ss

    22

    ok

    xx ok

    2

    2

    1

    2

    .

    t-vrijednost iznosi

  • Osnovne statistike metode t-test

    145

    3,21,56

    5

    1,56

    6267

    s

    xxt

    ok xx

    ko

    Kritina t-vrijednost (oita se iz tablice B str. 317 za pogreku p= 0,05

    i broj stupnjeva slobode df=100-1+100-1=198) iznosi 0,05198t =1,98.

    Izraunata t-vrijednost ukazuje na to da je razlika aritmetikih sredina

    (xo-xk ) uzorka koarkaa i uzorka odbojkaa 3,2 puta vea od

    standardne pogreke razlika aritmetikih sredina ko xx

    s

    . Vjerojatnost

    da se takva razlika dogodi sluajno je znatno manja od 5% (jer

    interval ko xx

    1,98s

    ukljuuje 95% sluajnih razlika).

    Dakle, s obzirom na to da je izraunata t-vrijednost vea od kritine t-

    vrijednosti, prihvaa se alternativna hipoteza, odnosno, zakljuuje se

    da je razlika aritmetikih sredina uzoraka koarkaa i odbojkaa

    statistiki znaajna uz pogreku manju od 0,05.

    2.9.2. t-test za zavisne uzorke

    Statistiku znaajnost razlika aritmetikih sredina jednog uzorka

    mjerenoga u dvije vremenske toke mogue je utvrditi t-testom za

    zavisne uzorke. Primjerice, ako elimo provjeriti uinkovitost nekog

    nastavnog ili trenanog procesa, utjecaj nekog lijeka i sl., tada je

    potrebno neki reprezentativni uzorak entiteta izmjeriti prije (inicijalno

    stanje) i poslije (finalno stanje) primijenjenog tretmana te utvrditi da li

    su dobivene razlike meu aritmetikim sredinama promatrane

    varijable prvog (prije, inicijalno) i drugog (poslije, finalno) mjerenja

    statistiki znaajne.

    Statistika znaajnost razlika aritmetikih sredina dvaju zavisnih

    uzoraka testira se pomou t-vrijednosti

    21 xx

    21

    s

    xxt

    .

    Zbog korelacije izmeu rezultata prvoga i drugog mjerenja,

    standardna pogreka razlika (21 xx

    s

    ) izrauna se formulom

  • Osnovne statistike metode t-test

    146

    1)n(n

    dn

    1d

    s

    2n

    1i

    n

    1i

    i

    2

    i

    xx 21

    ,

    gdje je

    di = 1xi - 2xi razlika izmeu rezultata ispitanika i u 1. i 2. mjerenju

    (i=1...n)

    n broj ispitanika u uzorku.

    Ako se radi o velikim uzorcima (n>30), standardnu pogreku razlika

    mogue je procijeniti formulom

    212x1x21xx

    22

    xxssr2sss

    ,

    gdje je

    1x

    s standardna pogreka aritmetike sredine prvog mjerenja

    2x

    s standardna pogreka aritmetike sredine drugog mjerenja

    r korelacija izmeu varijabli prvog i drugog mjerenja (v. poglavlje

    2.11, str. 160-179).

    Izraunata t-vrijednost (kao i kod t-testa za nezavisne uzorke)

    usporeuje se s kritinom t-vrijednou koja se oita iz tablice B str.

    317 uz odreenu pogreku p i broj stupnjeva slobode df=n-1. Ako je

    izraunata t-vrijednost vea od kritine t-vrijednosti, zakljuuje se, uz

    odreenu pogreku p, da je razlika izmeu aritmetikih sredina prvog i

    drugog mjerenja statistiki znaajna, odnosno da je dolo do statistiki

    znaajne promjene u promatranoj varijabli izmeu prvoga i drugog

    mjerenja.

    Primjer: Uzorak od 120 uenika testiran je Seargentovim testom prije

    i poslije tromjesenog trenanog procesa provedenoga s ciljem da se

    pobolja eksplozivna snaga. Dobiveni su sljedei rezultati:

    10s

    45x

    1

    1

    8s

    49x

    2

    2

    r=0,75

    Da li su promjene u eksplozivnoj snazi uenika izmeu prvog i drugog

    mjerenja statistiki znaajne uz pogreku od 0,05?

  • Osnovne statistike metode t-test

    147

    Statistiku znaajnost razlika aritmetikih sredina prvoga i drugog

    mjerenja mogue je utvrditi pomou t-testa za zavisne uzorke. Prije

    testiranja uobiajeno je postaviti hipoteze:

    210 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog

    mjerenja nije statistiki znaajna uz pogreku 0,05.

    211 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog

    mjerenja statistiki je znaajna uz pogreku 0,05.

    Zavisno od rezultata t-testa bit e prihvaena jedna od navedenih

    hipoteza. Dobivene vrijednosti potrebno je uvrstiti u formulu za

    izraunavanje standardne pogreke aritmetikih sredina prvog

    91,095,10

    10

    120

    10s

    1x

    i drugog mjerenja

    73,095,10

    8

    120

    8s

    2x ,

    pomou kojih se izraunava standardna pogreka razlika

    0,6.0,730,910,7520,730,91

    ssr2sss

    22

    xx

    2

    x

    2

    xxx 212121

    Potom se izrauna t-vrijednost

    6,66,0

    4

    6,0

    4549

    21

    12

    xxs

    xxt

    i usporedi se s kritinom t-vrijednou (koja se oita iz tablice B str.

    317 za pogreku p=0,05 i broj stupnjeva slobode df=120-1=119) koja

    iznosi 1,98t0,05119 . Izraunata t-vrijednost pokazuje da je razlika

    aritmetikih sredina prvoga i drugog mjerenja statistiki znaajna jer

    je vjerojatnost da se takva razlika dogodi sluajno manja od 0,05

    (5%).

  • Osnovne statistike metode t-test

    148

    Primjer: Uzorak od 12 uenika testiran je prije i poslije dvomjesenog

    trenanog procesa provedenog radi poboljanja repetitivne snage

    trupa. Dobiveni su sljedei rezultati:

    1.mjerenje 2.mjerenje

    Uenik 1xi 2xi

    A 52 53

    B 35 40

    C 43 44

    D 29 33

    E 37 41

    F 39 41

    G 51 52

    H 43 42

    I 27 30

    J 29 28

    K 46 49

    L 48 48

    Hipoteze:

    210 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog

    mjerenja nije statistiki znaajna uz pogreku 0,01.

    211 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog

    mjerenja statistiki je znaajna uz pogreku 0,01.

    S obzirom na to da se radi o malom uzorku, potrebno je koristiti

    izvornu formulu za raunanje standardne pogreke razlika. Postupak

    izraunavanja t-vrijednosti provodi se u nekoliko koraka. U prvom

    koraku izraunaju se razlike izmeu rezultata ispitanika prvog i

    drugog mjerenja (tablica - stupac 3), a u drugom koraku izraunate se

    razlike kvadriraju (tablica - stupac 4).

    1 2 3 4

    Uenik 1xi 2xi di = 1xi - 2xi di2

    A 52 53 -1 1

    B 35 40 -5 25

    C 43 44 -1 1

    D 29 33 -4 16

    E 37 41 -4 16

    F 39 41 -2 4

    G 51 52 -1 1

    H 43 42 1 1

    I 27 30 -3 9

    J 29 28 1 1

    K 46 49 -3 9

    L 48 48 0 0

    Zbroj 479 501 -22 84

  • Osnovne statistike metode t-test

    149

    U treem koraku izraunaju se sume svih stupaca koje se uvrste u

    formule za raunanje aritmetikih sredina

    39,9212

    479x1 ; 41,75

    12

    501x1

    te u formulu za raunanje standardne pogreke razlika

    0,570,33132

    43,67

    132

    40,3384

    1)n(n

    dn

    1d

    2n

    1i

    n

    1i

    i

    2

    i

    xx 21

    .

    U posljednjem koraku izrauna se t-vrijednost

    3,190,57

    41,7539,92

    xxt

    21 xx

    21

    i usporedi s kritinom t-vrijednou (koja se oita iz tablice B str. 317

    za pogreku p=0,01 i broj stupnjeva slobode df=12-1=11) koja iznosi

    3,106. Izraunata t-vrijednost ukazuje na to da je razlika aritmetikih

    sredina prvoga i drugog mjerenja statistiki znaajna jer je

    vjerojatnost da se takva razlika dogodi sluajno manja od 1%. Stoga

    prihvaamo hipotezu H1.

    Napomena: Dodatne informacije vezane uz gradivo izneseno u poglavlju 2.8 i 2.9, mogu se pronai u knjizi B. Petz: Osnovne statistike metode za nematematiare, poglavlje 9: Razlika izmeu dvije aritmetike

    sredine.

  • Osnovne statistike metode Univ