kvantitativne metode
DESCRIPTION
StatistikaTRANSCRIPT
-
Osnovne statistike metode Teoretske distribucije
90
2.5 Teoretske
distribucije
Za razliku od distribucija eksperimentalno prikupljenih podataka, koje
se nazivaju empirijskim distribucijama, teoretske distribucije su
zadane matematikom formulom, odnosno one predstavljaju
matematike funkcije te omoguavaju utvrivanje vjerojatnosti nekog
sluajnog dogaaja u zadanim uvjetima. Teoretske se distribucije
koriste kao matematiki modeli za opisivanje veeg broja statistikih
pojava. S obzirom da statistiki podaci mogu imati diskretna
(izraavaju konaan broj vrijednosti mjerenog svojstva i uvijek su
odreene cijelim brojem) i kontinuirana (mogu poprimiti bilo koju
numeriku vrijednost) obiljeja, mogue je razlikovati diskretne
(uniformna distribucija, binomna distribucija, Poissonova
distribucija) i kontinuirane (normalna distribucija, t-distribucija, F-
distribucija, 2-distribucija) teoretske distribucije. Meutim, prije negoli opiemo navedene teoretske distribucije, potrebno je upoznati
se s elementarnim pojmovima teorije vjerojatnosti.
-
Osnovne statistike metode Teoretske distribucije
91
2.5.1. Elementarni pojmovi teorije vjerojatnosti
Ako se u jednom eksperimentu, odnosno u realizaciji nekog sluajnog
dogaaja (primjerice, bacanje na koa s linije slobodnih bacanja,
bacanje igrae kocke, bacanje novia) moe dogoditi jedan od n
moguih ishoda, tada svaki od n moguih ishoda nekog eksperimenta
zovemo elementarni dogaaj, a skup svih moguih ishoda skup ili
prostor elementarnih dogaaja. Primjerice, u jednom pokuaju uta s
linije slobodnih bacanja mogua su dva ishoda: uspjean ut i
neuspjean ut. Dakle, skup elementarnih dogaaja ine dva
elementarna dogaaja: uspjean ut i neuspjean ut. Ili, ako
bacamo potpuno pravilnu igrau kocku, onda skup elementarnih
dogaaja ini est elementarnih dogaaja koji su oznaeni brojevima:
1, 2, 3, 4, 5, 6. Ukupni broj elementarnih dogaaja mogue je
izraunati uz pomo osnovnih pravila kombinatorike, a to su: pravilo
mnoenja, pravilo permutacija, pravilo varijacija i pravilo
kombinacija.
2.5.1.1. Pravilo mnoenja
Neka su x1, x2,, xn svi mogui ishodi jednog sluajnog dogaaja X, a
y1, y2,,ym svi mogui ishodi sluajnog dogaaja Y. Ukupan broj
elementarnih dogaaja koje je mogue dobiti kombinirajui ishode
sluajnih dogaaja X i Y jednak je n m.
Primjerice, ako bacamo dvije igrae kocke, tada jedno bacanje dviju
igraih kocaka predstavlja jedan elementarni dogaaj. Ukupan broj
svih moguih elementarnih dogaaja iznosi
6 6 = 36
jer svako bacanje jedne kocke ima 6 moguih ishoda. Skup
elementarnih dogaaja (moguih kombinacija) prikazan je u tablici
2.5-1. Tablica 2.5-1. Svi elementarni dogaaji koje je mogue dobiti bacanjem
dviju igraih kocaka
1 1 2 1 3 1 4 1 5 1 6 1
1 2 2 2 3 2 4 2 5 2 6 2
1 3 2 3 3 3 4 3 5 3 6 3
1 4 2 4 3 4 4 4 5 4 6 4
1 5 2 5 3 5 4 5 5 5 6 5
1 6 2 6 3 6 4 6 5 6 6 6
-
Osnovne statistike metode Teoretske distribucije
92
Primjer: Na koliko je naina mogue obojiti tri prazna kruia ako je
prvi mogue obojiti crvenom, bijelom i plavom bojom, drugi crnom,
zelenom i utom, a trei naranastom i ljubiastom bojom?
Ukupan broj elementarnih dogaaja iznosi 3 3 2 = 18. Dakle, kruie je mogue obojiti na 18 naina. U tablici 2.5-2 prikazan je
skup svih moguih naina (elementarnih dogaaja) na koje je mogue
obojiti kruie prema navedenom pravilu.
Tablica 2.5-2. Svi elementarni dogaaji koje je mogue dobiti bojenjem triju praznih kruia
prema navedenom pravilu
2.5.1.2. Pravilo permutacija
Ako su x1, x2,,xn elementi nekog skupa, na koliko ih je naina
mogue poredati? Svaka meusobno razliita kombinacija elemenata
x1, x2,,xn naziva se permutacija. Mogue je razlikovati permutacije
bez ponavljanja i permutacije s ponavljanjima.
Permutacije bez ponavljanja
Dakle, ako su x1, x2,, xn elementi nekog skupa, mogue ih je
poredati na 122).....3(n1)(nn naina, odnosno
!nP )n(
gdje je
P(n)
broj moguih permutacija (elementarnih dogaaja) za n
razliitih elemenata
n! (itamo: n faktorijel) predstavlja produkt prirodnih brojeva od 1
do n (prema dogovoru 0! = 1).
Primjerice, imamo etiri prazna kruia koja je potrebno obojiti
plavom, crvenom, utom i zelenom bojom. Pri tome je svaki krui
-
Osnovne statistike metode Teoretske distribucije
93
potrebno obojiti drugom bojom. Ukupan broj svih moguih
elementarnih dogaaja iznosi
2412344!n!P(n)
U tablici 2.5-3 prikazani su svi mogui naini (permutacije) na koje je
mogue obojiti etiri kruia, tako da se za svaki krui koristi po
jedna od etiri boje.
Tablica 2.5-3. Svi elementarni dogaaji koje je mogue dobiti bojenjem etiriju praznih kruia prema navedenom pravilu
Iz ovog primjera vidi se da je prvi krui mogue obojiti 4 bojama, za
drugi je mogue koristiti jednu od 3 preostale boje, za trei jednu od 2
preostale, a za posljednji krui ostaje samo jedna boja.
Primjer: Ako 8 trkaa sudjeluje u nekoj finalnoj trci, koliko je
moguih ishoda trke?
Broj moguih ishoda mogue je izraunati pravilom permutacije,
odnosno formulom
4032012345678!8P )8(
Dakle, broj moguih ishoda trke u kojoj sudjeluje 8 trkaa iznosi
40320.
Permutacija s ponavljanjem
Ako je od n elemenata njih r1, r2,,rk jednakih, tada svaki mogui
poredak tih n elemenata predstavlja jednu permutaciju s
ponavljanjem. Broj permutacija s ponavljanjem mogue je izraunati
formulom
-
Osnovne statistike metode Teoretske distribucije
94
!r!...r!r
!nP
k21
)n(
r,..,r,r k21 ,
gdje je
)(
.., 21
n
rrr kP broj moguih permutacija za n razliitih elemenata, od kojih
je r1,r2,..,.rk jednakih
n! predstavlja produkt prirodnih brojeva od 1 do n
rk! predstavlja produkt prirodnih brojeva od 1 do rk.
Primjerice, ako imamo 2 plave i 3 crvene kuglice, onda ih je mogue
poredati na
1012
120
12312
12345
!3!2
!5p )5( 3,2
naina.
U tablici 2.5-4 prikazani su svi mogui naini na koje je mogue
poredati 2 plave i 3 crvene kuglice.
Tablica 2.5-4. Svi elementarni dogaaji koje je mogue dobiti slaganjem 2 plave i 3 crvene
kuglice
Primjer: Ako su od 8 trkaa neke finalne utrke dvojica atletiara
reprezentativci Hrvatske, trojica reprezentativci Kenije i trojica
reprezentativci Alira, koliko je moguih permutacija (kombinacija
plasmana) pojedinih reprezentacija?
Broj moguih ishoda mogue je izraunati pravilom permutacije s
ponavljanjem, odnosno formulom
56072
40320
12312312
12345678
2!3!3!
8!P(8)
2,3,3
-
Osnovne statistike metode Teoretske distribucije
95
2.5.1.3. Pravilo varijacija
Mogue je razlikovati varijacije bez ponavljanja i varijacije s
ponavljanjima.
Varijacije bez ponavljanja
Ako iz nekog skupa od n razliitih elemenata formiramo kombinacije
(razrede) od r elemenata, a da se isti element ne pojavi dva ili vie
puta u istoj kombinaciji (razredu), onda se broj moguih ishoda
izrauna prema formuli
)!rn(
!nV )n(r
gdje je
Vr(n)
broj varijacija bez ponavljanja n-tog reda i r-tog razreda
n broj svih elemenata u skupu
r broj elemenata u traenoj kombinaciji (razredu).
Primjer: Na koliko je razliitih naina mogue posloiti 2 kuglice (r)
od ukupno 5 kuglica (n) razliitih boja (plava, crvena, uta, zelena i
bijela), a da se ista kuglica ne pojavi dva ili vie puta u jednom
razredu? Broj moguih ishoda je
206
120
123
12345
)!25(
!5V )5(2
Tablica 2.5-5 prikazuje sve mogue varijacije za n=5, a r=2, odnosno
prikazani su svi mogui naini na koje je mogue posloiti dvije od
pet kuglica razliitih boja.
Tablica 2.5-5. Svi elementarni dogaaji (ishodi) koje je mogue dobiti slaganjem dviju od pet
kuglica razliitih boja, a da se ista kuglica ne pojavi dva ili vie puta
-
Osnovne statistike metode Teoretske distribucije
96
Primjer: elimo li prognozirati redoslijed prva 3 od ukupno 8 trkaa
koji sudjeluju u nekoj finalnoj trci, postavlja se pitanje: koliko je
moguih ishoda? Broj moguih ishoda izraunava se formulom za
varijacije bez ponavljanja
336120
40320
12345
12345678
)!38(
!8V )8(3
Varijacije s ponavljanjem
Ako iz nekog skupa od n razliitih elemenata formiramo kombinacije
(razrede) od r elemenata, a da pri tom dopustimo da se u istoj
kombinaciji jedan element pojavi dva ili vie puta, onda se broj
moguih ishoda izrauna prema formuli
r)n(
r nV
,
gdje je
)n(
rV
broj varijacija s ponavljanjem n-tog reda i r-tog razreda
n broj svih elemenata u skupu, a
r broj elemenata u traenoj kombinaciji (razredu).
Primjerice, na koliko razliitih naina moemo posloiti 2 kuglice (r)
od ukupno 5 kuglica (n) razliitih boja (plava, crvena, uta, zelena i
bijela), a da se ista kuglica moe pojaviti vie puta u jednom razredu?
Broj moguih ishoda mogue je izraunati formulom
255V 2)5(2
Tablica 2.5-6 prikazuje sve mogue varijacije s ponavljanjem za n=5,
a r=2.
Tablica 2.5-6. Svi elementarni dogaaji koje je mogue dobiti slaganjem dviju od pet kuglica razliitih boja, a da se ista kuglica moe pojaviti u istom razredu dva ili vie puta
-
Osnovne statistike metode Teoretske distribucije
97
2.5.1.4. Pravilo kombinacija
Kombinacije bez ponavljanja
Ako iz nekog skupa od n razliitih elemenata formiramo kombinacije
(razrede) od r elemenata, a da pri tome nije vaan raspored
(redoslijed) elemenata unutar jednog razreda, onda se broj svih
moguih ishoda izrauna prema formuli
)!rn(!r
!nK )n(r
,
gdje je
Kr(n)
broj kombinacija bez ponavljanja n-tog reda i r-tog razreda
n broj svih elemenata u skupu
r broj elemenata u traenoj kombinaciji (razredu).
Primjerice, koliko je mogue dobiti razliitih uzoraka (kombinacija)
ako iz skupa od ukupno 5 kuglica (n) razliitih boja (plava, crvena,
uta, zelena i bijela) izvlaimo uzorak od 3 kuglice? Pod uzorkom
podrazumijevamo jednu kombinaciju u kojoj nije vaan poredak, ve
sadraj elemenata. Broj svih moguih uzoraka izrauna se prema
formuli
102
20
12
45
12123
12345
!2!3
!5
)!35(!3
!5K )5(3
U tablici 2.5-7 prikazan je skup svih moguih uzoraka koje je mogue
formirati iz skupa 5 kuglica razliitih boja.
Tablica 2.5-7. Svi elementarni dogaaji koje je mogue dobiti izvlaenjem triju kuglica iz skupa od pet kuglica razliitih boja
-
Osnovne statistike metode Teoretske distribucije
98
Primjer: Koliko je moguih uzoraka (kombinacija) ako od 45 brojeva
formiramo uzorke od po 6 brojeva (loto 6 od 45)? Broj moguih
kombinacija izrauna se formulom za kombinacije bez ponavljanja
8145060123456
40...4445
1...3839123456
1...4445
6)!(456!
45!K
)8(
3
Dakle, mogue je dobiti 8 145 060 razliitih kombinacija (ishoda).
2.5.1.5. Vjerojatnost
Elementarne dogaaje mogue je podijeliti na one s povoljnim i na
one s nepovoljnim ishodom. Ako u skupu od n elementarnih dogaaja
x-om oznaimo elementarne dogaaje s povoljnim ishodom, onda
omjer elementarnih dogaaja s povoljnim ishodom x i skupa
elementarnih dogaaja n predstavlja vjerojatnost da e se elementarni
dogaaj s povoljnim ishodom x dogoditi
n
x)x(p , a
p1n
x1
n
xn)x(q
predstavlja vjerojatnost da se elementarni dogaaj s povoljnim
ishodom x nee dogoditi. Dakle, moe se rei da je vjerojatnost broj
koji pokazuje anse za pojavljivanje nekog elementarnog dogaaja.
Iz navedenih formula vidi se da je:
p(x) + q(x) =1, pa je 1- p(x)= q(x), a 1- q(x)= p(x)
0 p(x) 1 i 0 q(x) 1 ako je p(x) = 1 (apsolutna sigurnost da e se dogaaj x dogoditi),
onda je q(x) = 0 (apsolutna sigurnost da se dogaaj x nee dogoditi),
i obrnuto.
-
Osnovne statistike metode Teoretske distribucije
99
2.5.2. Diskretne teoretske distribucije
2.5.2.1. Uniformna distribucija
Uniformna distribucija je najjednostavnija diskretna teoretska
distribucija, a osnovna joj je karakteristika jednaka vjerojatnost
ostvarenja svake vrijednosti sluajne varijable x (elementarnog
dogaaja). Neka sluajna varijabla x ima uniformnu distribuciju ako je
vjerojatnost bilo koje njene vrijednosti (elementarnog dogaaja) u
skupu od n elementarnih dogaaja jednaka
n
1)x(p ,
gdje je
p(x) vjerojatnost elementarnog dogaaja x = 1,..,n
n ukupan broj vrijednosti koje moe imati sluajna varijabla x.
Primjerice, ako bacamo pravilnu igrau kocku, vjerojatnost da se
dogodi svaka od est moguih vrijednosti je jednaka. S obzirom da je
n=6, onda je vjerojatnost za bilo koju od est moguih vrijednosti
(elementarnih dogaaja) jednaka p(x)=1/6=0,1666...(slika 2.5-8).
Slika 2.5-8. Uniformna distribucija za n=6
-
Osnovne statistike metode Teoretske distribucije
100
2.5.2.2. Binomna distribucija
Za neku sluajnu varijablu x kaemo da ima binomnu distribuciju s
parametrima n i p ako je
xnxxnx qpxnx
nqp
x
nxf
)!(!
!)( ,
gdje je f(x) vjerojatnost x za uspjene ishode od n svih moguih ishoda
koje moe imati sluajna varijabla x, p vjerojatnost uspjenog ishoda,
a q vjerojatnost neuspjenog ishoda (q=1- p).
Oekivana vrijednost binomne distribucije je np)x(E ,
varijanca npq)x(V 2 ,
koeficijent asimetrije (engl. skewnes) npq
qpa
3 ,
koeficijent spljotenosti (engl. kurtosis)npq
pq613a4
.
Binomna distribucija za p=q=0.5 je simetrina, za pq je negativno asimetrina (slika 2.5-9).
Slika 2.5-9. Binomna distribucija za n = 10 i p = q, p < q i p > q
-
Osnovne statistike metode Teoretske distribucije
101
Primjer: Ako se igraa kocka baci 5 puta, kolika je vjerojatnost da
dobijemo 3 estice?
Vjerojatnost da se dogodi estica u jednom bacanju je 1/6 (p), a da se
ne dobije 5/6 (q). Ukupan broj moguih vrijednosti je 5 (n), jer svako
bacanje generira po jedan ishod, a broj uspjenih ishoda iznosi 3 (x).
Ako se zadane vrijednosti uvrste u formulu, dobije se
0,03293312
3000
36
25
216
1
12
120
6
5
6
5
6
1
6
1
6
1
1)(21)2(3
12345
6
5
6
1
3)!(53!
5!(3)f
353
Dakle, vjerojatnost da se od 5 bacanja igrae kocke dobiju tri estice
iznosi 0,0032, odnosno 3,2 % (slika 2.5-10).
Slika 2.5-10. Binomna distribucija za n = 5, p = 1/6 i q=5/6
Za vrlo velike vrijednosti n i male vrijednosti p binomna se
distribucija aproksimira Poissonovom distribucijom.
-
Osnovne statistike metode Teoretske distribucije
102
0 5 10 15 20 25 30
nedovoljan
dovoljan
dobar
vrlo dobar
odlian
Simon Poisson (1781. 1840.) francuski matematiar. Od 1798. studira matematiku na Ecole Polytechnique kod znamenitih matematiara Laplacea i Lagrangea s kojima postaje prijatelj. Predaje na Ecole Polytechnique od 1802. do 1808., a od 1809. godine predaje teorijsku matematiku u novootvorenom Facult des Sciences. Publicirao je puno radova (preko 300). Jedan od vanijih radova objavio je 1837. godine u kome je opisao
distribuciju rijetkih dogaaja koja je po njemu dobila ime. Njegovi radovi su uvelike pridonijeli razvoju matematike, fizike i astronomije. Prema, J J O'Connor and E F Robertson: http://www-groups.dcs.st- and.ac.uk/%7Ehistory/Mathematicians/Poisson.html
310
30x
15,133,19
12
1
)(1
2
n
xx
s
N
i
i
2.5.2.3. Poissonova distribucija
Poissonova distribucija aproksimira binomnu distribuciju za velike
vrijednosti n (npr. n>50) i male vrijednosti p (npr. p
-
Osnovne statistike metode Teoretske distribucije
103
Slika 2.5-11. Poissonova distribucija za razliite vrijednosti parametra
Primjer: Pretpostavimo da se u populaciji koarkaa moe pronai 3%
onih koji u testu skok udalj s mjesta postiu rezultat vei od 3 m.
Kolika je vjerojatnost da se u uzorku veliine n=100 pronae 5
koarkaa koji u skoku udalj s mjesta imaju rezultat bolji od 3 m?
Dakle, x = 5, = p n = 0,03 100 = 3 jer je p = 0,03 (3% odgovara vjerojatnosti p=0.03), a n=100. Uvrtavanjem tih vrijednosti u
formulu, izrauna se traena vjerojatnost
0,10,0498120
2432,71828
5!
3(5)p 3
5
3
Slika 2.5-12. Poissonova distribucija za = 3
= 0,2 = 0,3
= 1 = 3
-
Osnovne statistike metode Teoretske distribucije
104
Carl Friedrich Gauss (1777.- 1855.) jedan je od najveih matematiara. Rodio se u vrlo siromanoj obitelji koja nije imala novca za njegovo kolovanje. U poetku mu je kolovanje omoguio ujak. Negov iznimni matematiki talent primijetili su ve u djetinjstvu njegovi uitelji Bttner i Bartels kada je mali Gauss za nekoliko trenutaka zbrojio cijele brojeve od 1 do 100 uvidjevi da se radi o zbroju 50 parova iji je zbroj
101. Uz njihovu pomo Gauss zapoinje kolovanje te dobiva bogatog mecenu grofa Carla Wilhelma Ferninanda uz iju pomo od 1792. godine pohaa Brunswick Collegium Carolinum. Od 1795. godine nastavlja studiranje na Sveuilitu u Gttingenu gdje diplomira i postie prve znanstvene rezultate. Nakon diplome doktorirao je na Sveuilitu u Helmstedtu (1799.) te se predaje istraivakom radu. Godine 1801. objavljuje svoju prvu znamenitu knjigu Disquisitiones Arithmeticae, a 1809. drugu knjigu pod nazivom Theoria motus corporum coelestium in sectionibus conicis Solem ambientium, u kojoj raspravlja o gibanju nebeskih tijela. Za metodologiju znanstveno-istraivakog rada u biolokim i drutvenim znanostima posebno je znaajno njegovo djelo Theoria combinationis observationum erroribus minimis obnoxiae (1823), koje je posveeno matematikoj statistici, posebice metodi najmanjih kvadrata i normalnoj krivulji, koja se u njegovu ast naziva Gaussovom krivuljom.
Prema,Kolesari i Petz, 1999, i http://de.wikipedia.org/wiki/Carl_Friedrich_Gauss
2.5.3. Kontinuirane teoretske distribucije
2.5.3.1. Normalna distribucija
Normalna distribucija sigurno je najvanija i najee koritena
kontinuirana teoretska distribucija u statistikim analizama (slika 2.5-
13). Naziva se jo i Gaussovom distribucijom jer se smatra da ju je
Gauss prvi matematiki definirao. Osim Gaussa, u definiranju
normalne raspodjele
znaajnu ulogu imali su
Laplace1 i De Moivre
2.
Za sluajnu kontinuiranu
varijablu x kae se da ima
normalnu distribuciju s
parametrima i 2 ako je
2x
2
1
e2
1)x(f
gdje je
aritmetika sredina
standardna devijacija
= 3,14459... e =2,71828.
Slika 2.5-13. Normalna distribucija s parametrima i
1 Pierre Simone Laplace (1749. - 1827.) francuski matematiar 2 Abraham De Moivre (1667. - 1754.) engleski matematiar francuskog podrijetla
-3 -2 -1 1 2 3
http://de.wikipedia.org/wiki/Carl_Friedrich_Gauss -
Osnovne statistike metode Teoretske distribucije
105
Ako su vrijednosti izraene u standardiziranom obliku (v. poglavlje
2.7, str. 114-123.)
xz ,
onda se formula normalne distribucije svodi na oblike
2
2
z
e2
1)z(f
s parametrima = 0 i =1 (slika 2.5-14). U statistikim analizama esto je vanije utvrditi vjerojatnost postizanja boljeg ili loijeg
rezultata od neke vrijednosti, to se izraunava tzv. integralom
vjerojatnosti
dze2
1)z(
z
2
z2
Dobivena funkcija (z) je normalna kumulativna distribucija (slika 2.5-14), vrijednosti koje odgovaraju vjerojatnosti postizanja rezultata
koji je jednak ili manji od rezultata z, to odgovara povrini ispod
normalne distribucije od - do z. Slika 2.5-14 ilustrira odnos funkcije
f(z) i (z). Vrijednosti funkcije (z) za odgovarajue z vrijednosti prikazane su u tablici A str. 316.
Mogue je uoiti da je normalna distribucija zvonastog oblika,
unimodalna i zrcalno simetrina u odnosu na aritmetiku sredinu.
Aritmetika sredina, modus i medijan su jednaki. Normalna
distribucija je definirana aritmetikom sredinom i standardnom
devijacijom. Protee se u intervalu od - do +, a vjerojatnost da se
dogodi vrijednost u intervalu (slika 2.5-15):
od -1 do +1 je 68,27 %
od -2 do +2 je 95,45 %
od -3 do +3 je 99,73 %, odnosno
od -1,96 do + 1,96 je 95 %
od -2,58 do + 2,58 je 99 %.
-
Osnovne statistike metode Teoretske distribucije
106
Slika 2.5-14. Funkcije f(z) i (z) za = 0 i =1
Slika 2.5-15. Prikaz karakteristinih dijelova povrine kod normalne distribucije
68,27%
95,45%
99,73%
-
Osnovne statistike metode Teoretske distribucije
107
t-distribucija nazivaju Studentov t-test i Studentova t-distribucija. Posjeivao je i dopisivao se s mnogim statistiarima, meu kojima i s R. Fisherom i K. Pearsonom.
Prema, Kolesari i Petz, (1999) i O'Connor i Robertson: http://wwwgroups.dcs.st and.ac.uk/%7Ehistory/Mathematicians/Gosset.html
William Gosset (1876. 1937.) studirao je kemiju i matematiku na New College u Oxfordu. Po zavretku studija 1899. godine dobiva posao kemiara u poznatoj pivarskoj tvrtci Guinness u Dublinu. U nastojanju da unaprijedi proizvodnju, razvijao je statistike metode. Osobito je znaajan njegov doprinos u oblikovanju t-testa i t- distribucije. Objavljivao je lanke pod pseudonimom Student pa se esto t-test i
Znanstveni lanak The Probable Error of Mean objavljen u asopisu Biometrika 1908. godine.
2.5.3.2. Studentova t - distribucija
William Gosset definirao
je t-distribuciju i objavio
je u asopisu Biometri-
ka, 1908. godine pod
pseudonimom Student.
Sluajna varijabla t ima
Studentovu t-distribuciju
s parametrom df ako je
2
1
2
1
2
2
1
)(
df
df
t
dfdf
df
tf
gdje je
df broj stupnjeva slobode
(df=1,2)3
gama funkcija4
=3.14459...
Studentova t-distribucija
ima oblik slian normalnoj
distribuciji. Za df, t-distribucija se pribliava
standardiziranoj normalnoj
distribuciji s parametrima
=0 i =1. Sa smanjivanj-em broja stupnjeva slobode
t-distribucija poprima sve
iri oblik (slika 2.5-16).
3 Broj stupnjeva slobode (engl. degrees of freedom) definira se kao broj neovisnih opaanja (entiteta) n
umanjen za broj k parametara potrebnih da bi se odredio dani pokazatelj. Dakle, broj stupnjeva slobode df = n k (prema oi i Sedar, 2002: 249).
4 Vie o gama funkciji mogue je proitati u knjizi I.Pavi (1988). Statistika teorija i primjena. (str.113-
116). Zagreb: Tehnika knjiga.
http://wwwgroups.dcs.st/ -
Osnovne statistike metode Teoretske distribucije
108
Vrijednosti za t-distribuciju za odreeni broj stupnjeva slobode (df)
dane su u tablici B str. 317.
Slika 2.5-16. t-distribucija za df = 3, df =5, df = 10, df =100
3,1895% 2,5795%
2,2395% 1,9795%
-
Osnovne statistike metode Teoretske distribucije
109
2.5.3.3. Snedecorova F - distribucija
George W. Snedecor je na temelju ranijih radova R. A. Fishera, a za
potrebe suvremene statistike prakse, definirao F-distribuciju. U
Fisherovu ast oznaio ju je simbolom F. Snedecorova ili F-
distribucija je kontinuirana funkcija vjerojatnosti sluajne varijable
definirana u intervalu (0, +). Za neku sluajnu kontinuiranu varijablu
F kae se da ima F-distribuciju s parametrom df1 i df2 ako je
2/)dfdf(
2
1
1)2/df(2
df
2
1
21
21
21
1
1
Fdf
df1
F
df
df
2
df
2
df
2
dfdf
)F(f
,
gdje su
df1 i df2 stupnjevi slobode (df1 = 1,2, i df2 = 1,2,)
gama funkcija.
Funkcija f(F) zavisi od parametara df1 i df2. F-distribucija je
unimodalna i pozitivno asimetrina. Za male vrijednosti df (broja
stupnjeva slobode) ima jako izraenu pozitivnu asimetriju, a s
poveanjem broja stupnjeva slobode asimetrinost se smanjuje (slika
2.5-17).
Slika 2.5-17. F-distribucija za df1 = 5, df2 =5 i za df1 = 10, df2 =10
Vrijednosti za F-distribuciju za odgovarajui broj stupnjeva slobode
(df1 i df2) dane su u tablici C str. 318-321. F-vrijednost iz tablice C
oitava se tako da se broj stupnjeva slobode df1 ita na gornjem rubu
tablice (stupci), a broj stupnjeva slobode df2 ita na lijevom rubu
tablice (reci). Na mjestu krianja stupca i retka oita se odgovarajua
F-vrijednost.
df1=5
df2=5
df1=10
df2=10
-
Osnovne statistike metode Teoretske distribucije
110
2.5.3.4. 2 - distribucija
Za neku sluajnu kontinuiranu varijablu x kae se da ima 2-distribuciju s parametrom df ako je
2/12/
2/ 2/2
1)( xdf
dfex
dfxf
,
gdje je
df broj stupnjeva slobode (df = 1,2,)
gama funkcija e =2,71828.
Vidljivo je da funkcija f(x) zavisi samo od parametra df. Za male
vrijednosti df (broja stupnjeva slobode) 2-distribucija ima jako izraenu pozitivnu asimetriju, a s poveanjem broja stupnjeva slobode
tei simetrinosti (slika 2.5-18). Zbog sloenosti izraunavanja,
vrijednosti 2-distribucije za odgovarajui broj stupnjeva slobode (df) dane su u tablici D str. 322.
Slika 2.5-18. 2 - distribucija za broj stupnjeva slobode df =3, df=5, df=10, df=15
df=3 df=5
df=10 df=15
-
Osnovne statistike metode K-S test normaliteta distribucije
111
2.6 K-S test
normaliteta
distribucije
S obzirom na to da primjena parametrijskih statistikih metoda
zahtijeva kvantitativne normalno distribuirane varijable, obino se u
svakom realnom istraivanju utvruje da li empirijske distribucije
statistiki znaajno odstupaju od normalne distribucije. Naime,
emipirijske distribucije uvijek u nekoj mjeri odstupaju od teoretske
normalne distribucije zbog toga to se u istraivanjima koriste uzorci
ispitanika koji nikada potpuno ne odraavaju stanje populacije. Stoga
se, ovisno o reprezentativnosti uzorka ispitanika, moe dogoditi da
inae normalno distribuirane varijable u populaciji, manje ili vie
odstupaju od teoretske normalne distribucije. Takva odstupanja su
proizvod sluajnog variranja entiteta u uzorcima i ne smatraju se
statistiki znaajnima. S druge strane, ako su odstupanja neke
empirijske distribucije toliko velika da prelaze razinu sluajnih
odstupanja, tada se smatraju statistiki znaajnima. Takva odstupanja
nisu posljedica sluajnog variranja entiteta u uzorku, ve se radi o
varijablama kojih je stvarna distribucija razliita od normalne
distribucije.
-
Osnovne statistike metode K-S test normaliteta distribucije
112
Najee koriten postupak za utvrivanje normaliteta neke empirijske
distribucije je Kolmogorov-Smirnovljev test (K-S test). Ovaj statistiki
postupak temelji se na usporedbi empirijskih relativnih kumulativnih
frekvencija (rcf) i teoretskih relativnih kumulativnih frekvencija (trcf).
Postupak testiranja normaliteta distribucije pomou KS-testa prikazat
emo na sljedeem primjeru.
Primjer: 60 judaa izmjereno je testom skok udalj s mjesta. Potrebno
je uz pomo KS-testa utvrditi odstupa li njihova (empirijska)
distribucija statistiki znaajno od (teoretske) normalne distribucije uz
pogreku od 5%. Testiranje normaliteta empirijske distribucije iz ovog
primjera sastoji se od nekoliko koraka.
Tablica 2.6-1. Testiranje normaliteta distribucije KS-testom
Intervali razreda f cf rcf z trcf D
120
-
Osnovne statistike metode K-S test normaliteta distribucije
113
izraunati odstupanja izmeu empirijske i teoretske relativne
kumulativne frekvencije (stupac-D u tablici 2.6-1)
odrediti najvee odstupanje empirijske i teoretske relativne
kumulativne (maxD) frekvencije i usporediti ga s tablinom
vrijednou KS-testa, odreenom za odgovarajui broj entiteta
(tablica E, str. 323). Kritina (tablina) vrijednost KS-testa uz
pogreku od 0,05 za 60 entiteta iznosi 0,172. Ako je najvee
odstupanje (slika 2.6-1) izmeu empirijske i teoretske relativne
kumulativne frekvencije manje od kritine vrijednosti KS-testa
(maxD
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
114
2.7 Standardizacija
podataka
(z - vrijednost)
Za prikupljanje podataka na nekom uzorku entiteta koriste se razliiti
mjerni instrumenti, pa su i rezultati izraeni u razliitim mjernim
jedinicama. Stoga je usporedba vrijednosti entiteta u razliitim
varijablama znatno oteana. Ovaj problem se rjeava postupkom
transformacije originalnih vrijednosti neke varijable u tzv.
standardizirane ili z-vrijednosti.
Postupak standardizacije provodi se pomou formule
j
jij
ij
xxz
,
gdje je
zij standardizirani rezultat entiteta i u varijabli j
xij originalna vrijednost ispitanika i u varijabli j
jx aritmetika sredina varijable j
j standardna devijacija varijable j.
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
115
Iz navedene formule lako je uoiti da se standardizirana vrijednost
izraunava odreivanjem odstupanja entiteta od aritmetike sredine
(centriranje rezultata), koje se potom podijeli standardnom
devijacijom. Dakle, standardizirana vrijednost je relativna mjera
odstupanja svakog entiteta od aritmetike sredine, izraena u
dijelovima standardne devijacije.
Praktina primjena transformacije originalnih podataka u z-vrijednosti
razmotrit e se u sljedeim primjerima.
Primjer: Deset uenika natjecalo se u tri atletske discipline: skok udalj
(SD), tranje na 100 metara (T100m) i bacanje kugle (BK) i postiglo
rezultate navedene u tablici 2.7-1.
Tablica 2.7-1. Rezultati 10 uenika u tri atletske discipline
Uenik SD T100m BK
AB 359 13,6 561
DF 321 13,9 550
JG 346 13,7 538
KL 332 14,0 490
DD 450 12,2 518
ED 314 14,1 551
TB 410 12,5 589
ZN 425 12,3 602
RG 369 13,5 547
EN 378 13,8 510
x 370,4 13,36 545,6
45,66 0,73 34,21
Potrebno je utvrditi ukupan poredak uenika na ovom natjecanju.
Dakle, problem se svodi na rangiranje veeg broja entiteta opisanih
veim brojem varijabli. S obzirom na to da su rezultati uenika u
navedenim disciplinama izraeni razliitim mjernim jedinicama, nije
opravdano kondenzirati rezultate njihovim jednostavnim zbrajanjem,
ve ih je prethodno potrebno transformirati u z-vrijednosti. Cijeli
postupak mogue je provesti u nekoliko koraka.
Prvi korak: Izraunati aritmetiku sredinu i standardnu devijaciju za
svaku varijablu (tablica 2.7-2).
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
116
Tablica 2.7-2. Aritmetike sredine i standardne devijacije
SD T100m BK
x 370,4 13,36 545,6
45,66 0,73 34,21
Drugi korak: Transformirati originalne podatake u z-vrijednosti na
temelju izraunatih aritmetikih sredina i standardnih devijacija.
Primjerice, standardizirani rezultat uenika AB u disciplini skok udalj
(SD) izrauna se prema formuli
25,066,45
4,11
66,45
4,370359z SD,AB
Na isti nain transformiraju se rezultati ostalih uenika u sve tri
discipline. Rezultati su prikazani u tablici 2.7-3.
Tablica 2.7-3. Standardizirani rezultati 10 uenika u tri atletske discipline
SD T100M BK
AB -0,25 0,33 0,45
DF -1,08 0,74 0,13
JG -0,53 0,46 -0,22
KL -0,84 0,87 -1,63
DD 1,74 -1,58 -0,81
ED -1,24 1,01 0,16
TB 0,87 -1,17 1,27
ZN 1,20 -1,44 1,65
RG -0,03 0,19 0,04
EN 0,17 0,60 -1,04
Trei korak: Prije kondenzacije rezultata (zbrojem ili prosjenom
vrijednou), potrebno je varijable koje su obrnuto skalirane
pomnoiti s -1, odnosno promijeniti im predznak. Naime, varijabla
tranje na 100 metara (T100m) je obrnuto skalirana, to znai da vea
numerika vrijednost predstavlja loiji rezultat. Stoga tu varijablu
treba pomnoiti s -1. Nakon ovog postupka dobiju se rezultati
prikazani u tablici 2.7-4.
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
117
Tablica 2.7-4. Standardizirani rezultati 10 uenika u tri atletske discipline nakon to je varijabla T100M pomnoena sa -1
SD T100M BK
AB -0,25 -0,33 0,45
DF -1,08 -0,74 0,13
JG -0,53 -0,46 -0,22
KL -0,84 -0,87 -1,63
DD 1,74 1,58 -0,81
ED -1,24 -1,01 0,16
TB 0,87 1,17 1,27
ZN 1,20 1,44 1,65
RG -0,03 -0,19 0,04
EN 0,17 -0,60 -1,04
etvrti korak: Kondenzirati standardizirane vrijednosti aritmetikom
sredinom, odnosno izraunavanjem prosjene z-vrijednosti za svakog
uenika u navedenim disciplinama. Primjerice, prosjena z-vrijednost
uenika AB izrauna se formulom
0,043
0,450,33)(0,25
3
zzzz BKAB,T100AB,AB,SDAB
Na isti nain izraunaju se prosjeni rezultati ostalih uenika u sve tri
discipline. Rezultati su prikazani u tablici 2.7-5.
Tablica 2.7-5. Prosjeni standardizirani rezultati 10 uenika u tri atletske discipline
z
AB -0,04
DF -0,56
JG -0,41
KL -1,11
DD 0,84
ED -0,70
TB 1,10
ZN 1,43
RG -0,06
EN -0,49
Peti korak: Silazno (od veega k manjem) poredati uenike po
izraunatoj prosjenoj z-vrijednosti. Konaan redoslijed uenika
prikazan je u tablici 2.7-6.
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
118
Tablica 2.7-6. Rangirani prosjeni standardizirani rezultati 10 uenika u tri atletske discipline
Uenik Rang z
ZN 1. 1,43
TB 2. 1,10
DD 3. 0,84
AB 4. -0,04
RG 5. -0,06
JG 6. -0,41
EN 7. -0,49
DF 8. -0,56
ED 9. -0,70
KL 10. -1,11
Dakle, najbolji je uenik ZN, zatim slijedi uenik TB pa uenik DD
itd. Ovaj postupak u sportu moe biti vrlo koristan za provoenje
selekcije.
Primjer: Izmjereno je 257 djeaka testom za procjenu eksplozivne
snage skok udalj s mjesta. Aritmetika sredina iznosila je 215 cm, a
standardna devijacija 12 cm. Uenik XY postigao je rezultat 230 cm.
Potrebno je procijeniti postotak (%) i broj uenika koji su postigli
loiji rezultat od uenika XY.
Prvo je potrebno izraunati z-vrijednost ispitanika XY, a ona iznosi
25,112
15
12
215230zXY
Uz pretpostavku da su rezultati normalno distribuirani, mogue je
procijeniti vjerojatnost boljeg rezultata uz pomo tablice A (str. 316).
Naime, vjerojatnost da se postigne bolji rezultat od odgovarajue z-
vrijednosti odgovara povrini ispod normalne distribucije od zadane z-
vrijednosti do desnoga kraja krivulje (slika 2.7-1).
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
119
Slika 2.7-1. Povrina ispod normalne distribucije odgovara vjerojatnosti da neki rezultat bude bolji ili loiji od zadane z - vrijednosti
Dakle, za vrijednost z=1,25 odgovara povrina ispod normalne
distribucije od p=0,1057, ili izraeno u postotku 10,57%, to izraava
vjerojatnost da se postigne bolji rezultat od ispitanika XY.
z = 1,25 p = 0,1057 10,57 %
Vjerojatnost postizanja loijeg rezultata jednaka je 1-0,1057=0,8943,
odnosno 89,43 %.
Na temelju procijenjene vjerojatnosti moe se izraunati broj
ispitanika s boljim, odnosno loijim rezultatom. S obzirom na to da je
n
dp , odnosno 100
n
d% ,
gdje je
p proporcija ( p= 0,1057)
d dio cjeline (broj uenika s boljim rezultatom od z = 1,25)
n cjelina (ukupan broj uenika n = 257),
onda je 2716,272571057,0npd uenika s boljim,
odnosno, 257 - 27 = 230 uenika s loijim rezultatom.
z=1,25
p = 0,1057
10,57 %
p = 0,8943
89,44 %
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
120
Praktina korist od standardizacije rezultata ogleda se i u mogunosti
grafikog prikazivanja rezultata entiteta u veem broju varijabli koje
opisuju njegov antropoloki profil (slika 2.7-2).
Legenda: SDM - skok udalj s mjesta, IP - iskret palicom, NEB neritmino bubnjanje, SKL sklekovi, T12min tranje 12 minuta, T20m - tranje 20 m, KUS koraci u stranu, BP brzina provlaka, TR taping rukom.
Slika 2.7-2. Grafiki prikaz profila treniranosti sportaa
To omoguava, primjerice, uoavanje stanja inilaca odgovornih za
uspjenost u odreenoj sportskoj aktivnosti, odnosno odreivanje
profila stanja treniranosti sportaa (slika 2.7-2). Na temelju slike 2.7-2
moe se uoiti u kojim je testovima ispitanik postigao dobre, a u
kojima loe rezultate, odnosno na to bi trebalo obratiti pozornost pri
programiranju treninga u sljedeem razdoblju.
2.7.1. Standardizacija varijabli matrinom algebrom
Neka je X matrica podataka dobivena opisivanjem nekog skupa od n
entiteta skupom od m varijabli.
X = (xij),
gdje je i = 1,,n, a j = 1,,m. Matrica standardiziranih podataka Z
dobije se operacijom
Z =XcV -1
SKL
SDM
IP NEB T12m
T20m KUS BP TR
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
121
gdje je Xc=X-1m
T matrica centriranih podataka
m = XT1n
-1 vektor aritmetikih sredina (1 - sumacijski vektor s n
jedinica)
V=(diagC)1/2
dijagonalna matrica standardnih devijacija koja se
dobije ekstrakcijom dijagonale matrice kovarijanci C=XcTXc n
-1.
Primjer: 9 ispitanika postiglo je sljedee rezultate u skoku udalj (SD),
tranju na 100 metara (T100m) i bacanju kugle (BK). Potrebno je
izraunati standardizirane rezultate uz pomo matrine algebre.
Matrica centriranih podataka Xc dobije se operacijom
Xc=X- 1mT,
gdje je
1 sumacijski vektor sa n jedinica
m=XT1n
-1 vektor aritmetikih sredina
SD T100m BK
359 13,6 561
321 13,9 550
346 13,7 538
332 14 490
450 12,2 518
314 14,1 551
410 12,5 589
425 12,3 602
369 13,5 547
X =
1
1
1
1
1
1
1
1
1
SDM T100m BK
369,56 13,31 549,56
SDM T100m BK
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
1 mT
=
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
122
Matrica kovarijanci C varijabli iz X izrauna se operacijom
C = XcT
Xc n-1
,
gdje je Xc matrica centriranih podataka poetnih vrijednosti matrice X.
Ekstrakcijom dijagonale matrice kovarijanci C dobije se dijagonalna
matrica varijanci V2
V2 = diagC,
a operacijom
V = (diagC)1/2
dijagonalna matrica standardnih devijacija V.
SD T100m BK
SD 2337,78 -36,11 531,53
T100m -36,11 0,58 -11,41
BK 531,53 -11,41 1140,28
= C
SD -10,56 -48,56 -23,56 -37,56 80,44 -55,56 40,44 55,44
T100m 0,29 0,59 0,39 0,69 -1,11 0,79 -0,81 -1,01
BK 11,44 0,44 -11,56 -59,56 -31,56 1,44 39,44 52,44
XcT
SD T100m BK
-10,56 0,29 11,44
-48,56 0,59 0,44
-23,56 0,39 -11,56
-37,56 0,69 -59,56
80,44 -1,11 -31,56
-55,56 0,79 1,44
40,44 -0,81 39,44
55,44 -1,01 52,44
-0,56 0,19 -2,56
Xc
9-1
n-1
SD T100m BK
SD 2337,78 0 0
T100m 0 0,58 0
BK 0 0 1140,28
V2=diagC SD T100m BK
SD 48,35 0 0
T100m 0 0,76 0
BK 0 0 33,77
V=(diagC)1/2
SD T100m BK
359 13,6 561
321 13,9 550
346 13,7 538
332 14 490
450 12,2 518
314 14,1 551
410 12,5 589
425 12,3 602
369 13,5 547
X
SDM T100m BK
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
369,56 13,31 549,56
1 mT
SD T100m BK
-10,56 0,29 11,44
-48,56 0,59 0,44
-23,56 0,39 -11,56
-37,56 0,69 -59,56
80,44 -1,11 -31,56
-55,56 0,79 1,44
40,44 -0,81 39,44
55,44 -1,01 52,44
-0,56 0,19 -2,56
Xc
-
=
-
Osnovne statistike metode Standardizacija podataka (z-vrijednosti)
123
Standardizirani podaci dobiju se operacijom
SD T100m BK
-10,56 0,29 11,44
-48,56 0,59 0,44
-23,56 0,39 -11,56
-37,56 0,69 -59,56
80,44 -1,11 -31,56
-55,56 0,79 1,44
40,44 -0,81 39,44
55,44 -1,01 52,44
-0,56 0,19 -2,56
Xc SD T100m BK
SD 0,0207 0 0
T100m 0 1,3146 0
BK 0 0 0,0296
V -1 SD T100m BK
-0,22 0,38 0,34
-1,00 0,77 0,01
-0,49 0,51 -0,34
-0,78 0,91 -1,76
1,66 -1,46 -0,93
-1,15 1,04 0,04
0,84 -1,07 1,17
1,15 -1,33 1,55
-0,01 0,25 -0,08
Z =
-
Osnovne statistike metode Procjena aritmetike sredine populacije
124
2.8 Procjena aritmetike
sredine populacije
Znanstvena istraivanja utemeljena na statistikim metodama
uglavnom su usmjerena na analizu reprezentativnih uzoraka izabranih
iz neke konane ili beskonane populacije. Razlog tome je ili to to
nije mogue mjeriti cijelu populaciju (npr. ako nas interesira kakav
uinak ima novo cjepivo na neku virusnu bolest) ili u previsokim
trokovima (npr. ako nas zanima razvijenost neke motorike
sposobnosti u desetogodinjaka, onda bi trebalo izmjeriti sve
desetogodinjake, to je vrlo zahtjevno i skupo, a u nekim sluajevima
je to i besmisleno, npr. ako testiramo kvalitetu nekog proizvoda koji
se testom unitava). Stoga se znanstvena istraivanja provode na
uzorcima, a dobiveni zakljuci se generaliziraju na populaciju koju
odabrani uzorak reprezentira. Pri tome valja naglasiti da rezultati
dobiveni na uzorku mogu biti manje ili vie razliiti od rezultata koje
bismo dobili na cijeloj populaciji. Bolja reprezentativnost uzorka
oituje se u sigurnijim zakljucima o populaciji, odnosno u
pouzdanijoj procjeni populacijskih parametara. Reprezentativnost
uzorka osigurava se njegovom veliinom i nainom odabira. Uzorci
entiteta mogu se birati na razliite naine, to odreuje tipove uzoraka.
Najjednostavnija podjela uzoraka je na namjerne i sluajne uzorke.
Pod namjernim uzorcima podrazumijevaju se oni uzorci iji su entiteti
birani prema nekom subjektivnom stavu istraivaa o
reprezentativnosti ili se uzorak formira prema lako ili trenutno
-
Osnovne statistike metode Procjena aritmetike sredine populacije
125
dostupnim entitetima (prigodni uzorak), dok kod sluajnih uzoraka svi
entiteti (iz populacije izbora uzorka) imaju jednaku vjerojatnost
izbora. S obzirom da se uzorci biraju radi to bolje reprezentativnosti
populacije iz koje su izabrani (jer se zakljuci dobiveni na uzorku uz
odreenu pogreku generaliziraju na populaciju), lako je uoiti da e
pogreka procjene biti manja to je broj entiteta uzorka blii populaciji
i u kome svi entiteti imaju jednaku vjerojatnost izbora.
Openito, neki parametar populacije (npr. aritmetike sredine, varijance...) procjenjuje se na temelju istovrsnog parametra
izraunatog iz nekog sluajnog uzorka . S obzirom na to da je iz neke populacije mogue izabrati puno sluajnih uzoraka, jasno je da
se time dobiva i veliki broj prametara . Izraunati parametri dobiveni na velikom broju uzoraka ne moraju biti jednaki parametru
populacije jer su izraunati na dijelu (podskupu) populacije.
Parametri izraunati na uzorcima ne moraju biti meusobno jednaki jer su izraunati na podacima koji se mogu meusobno razlikovati od
uzorka do uzorka. Stoga se postavlja pitanje: kako je mogue
procijeniti parametar populacije ako od svih moguih uzoraka odabranih iz neke populacije odaberemo jedan?
Ako iz neke populacije od N entiteta odaberemo sve mogue uzorke
veliine n (n
-
Osnovne statistike metode Procjena aritmetike sredine populacije
126
izraunamo aritmetiku sredinu () i standardnu devijaciju () neke varijable X koja je normalno distribuirana (slika 2.8-1).
Slika 2.8-1. Normalna distribucija pojedinanih rezultata entiteta neke populacije s
parametrima i
Ako iz te populacije metodom sluajnog odabira (npr. generatorom
sluajnih brojeva, koji je implementiran u gotovo sve novije
programske proizvode STATISTICA, SPSS i sl.), odaberemo jedan
uzorak veliine 5 entiteta (n=5), postavlja se pitanje: hoe li
aritmetika sredina tog (prvog) uzorka ( 1x ) biti jednaka aritmetikoj
sredini populacije ()?
S obzirom na to da su entiteti sluajno odabrani u ovaj uzorak moe se
pretpostaviti da e aritmetika sredina tog uzorka biti slina
aritmetikoj sredini populacije, a da joj ne mora biti jednaka.
Ako se odabere novi uzorak, postavlja se isto pitanje: hoe li
aritmetika sredina tog uzorka ( 2x ) biti jednaka aritmetikoj sredini
prvog uzorka ( 1x ), odnosno aritmetikoj sredini populacije ( )?
Odgovor e biti slian prethodnome, dakle, vjerojatno e biti slina,
ali ne mora biti ista. Ako se nastavi sa sluajnim izborom uzoraka1 iste
veliine (npr. 10 000 puta) i raunanjem njihovih aritmetikih sredina
1Entiteti se u sluajni uzorak biraju uz povrat, odnosno nakon izbora jednog entiteta zabiljeimo njegov
rezultat te ga vratimo u populaciju.
-3 -2 -1 1 2 3
-
Osnovne statistike metode Procjena aritmetike sredine populacije
127
dobit e se veliki broj aritmetikih sredina sluajno odabranih
uzoraka veliine 5 entiteta.
nxxx ,..,, 21
Postavlja se pitanje: kolika e biti aritmetika sredina te varijable
(varijable aritmetikih sredina sluajno odabranih uzoraka veliine 5
entiteta) i kakva e joj biti distribucija?
Kada bismo izraunali aritmetiku sredinu aritmetikih sredina
sluajno odabranih uzoraka, dobili bismo aritmetiku sredinu
populacije (), a distribucija bi bila normalna. Valja istaknuti da e distribucija aritmetikih sredina dovoljno velikih uzoraka (n>30)
jednake veliine teiti ka normalnoj distribuciji i u sluajevima kad
distribucija populacije nije normalna. (Ova zakonitost poznata je pod
imenom centralni granini teorem iji je matematiki dokaz mogue
pronai u knjizi I. Pavi (1988): Statistika teorija i primjena, str. 176-
178).
Dakle,
aritmetika sredina aritmetikih sredina sluajno odabranih uzoraka
jednake veliine tendirat e aritmetikoj sredini populacije
distribucija aritmetikih sredina sluajno odabranih uzoraka iste
veliine biti e normalna ili Gaussova.
S obzirom na to da je normalna distribucija zadana aritmetikom
sredinom i standardnom devijacijom, postavlja se pitanje procjene
standardne devijacije varijable aritmetikih sredina sluajno odabranih
uzoraka odreene veliine. No, prije toga razmotrimo o emu ona
ovisi. Ako nastavimo s izvlaenjem sluajnih uzoraka, ali ne vie
veliine 5 entiteta, ve 10, dobit emo varijablu aritmetikih sredina
sluajno odabranih uzoraka veliine 10 entiteta.
nxxx ,..,, 21
Postavlja se pitanje: je li se neto promijenilo u odnosu na varijablu
aritmetikih sredina sluajno odabranih uzoraka veliine 5 entiteta?
Da li poveanje entiteta u uzorku smanjuje ili poveava vjerojatnost
-
Osnovne statistike metode Procjena aritmetike sredine populacije
128
sluajnog odstupanja aritmetikih sredina uzoraka od aritmetike
sredine populacija ili pak nema nikakvog utjecaja?
Nije teko zakljuiti da poveanje veliine uzorka smanjuje
vjerojatnost sluajnog odstupanja aritmetikih sredina uzoraka oko
aritmetike sredine populacije. Dakle, distribucija aritmetikih sredina
sluajno odabranih uzoraka veliine 10 entiteta u odnosu na
distribuciju aritmetikih sredina sluajno odabranih uzoraka veliine 5
entiteta bit e ua, odnosno, imat e manju standardnu devijaciju
(slika 2.8-2).
Slika 2.8-2. Distribucija aritmetikih sredina sluajno odabranih uzoraka veliine n1=5, n2=10, n3=20
Valja zakljuiti da e standardna devijacija varijable aritmetikih
sredina sluajno odabranih uzoraka biti to manja to su uzorci vei.
Osim toga, na standardnu devijaciju aritmetikih sredina sluajno
odabranih uzoraka utjee i varijabilnost istraivane pojave (varijable)
u populaciji. Logino je da e standardna devijacija aritmetikih
sredina sluajno odabranih uzoraka jednake veliine biti manja kod
manje varijabilnih populacija nego kod populacija kod kojih
istraivana pojava vie varira. Meutim, kako na varijabilnost neke
pojave u odreenoj populaciji ne moemo utjecati, smanjenje
standardne devijacije aritmetikih sredina sluajno odabranih uzoraka
moe se postii jedino poveanjem uzorka. Standardna devijacija
aritmetikih sredina sluajno odabranih uzoraka naziva se standardna
pogreka aritmetike sredine (x
) i kljuna je za procjenu aritmetike
sredine populacije.
n=5 n=10 n=20
-
Osnovne statistike metode Procjena aritmetike sredine populacije
129
Ako je poznata standardna devijacija aritmetikih sredina sluajno
odabranih uzoraka, odnosno standardna pogreka aritmetike sredine,
onda je mogua i procjena aritmetike sredine populacije. Naime, ako
su aritmetike sredine sluajno odabranih uzoraka normalno
distribuirne, mogue je konstatirati da se u intervalu:
x
3 od aritmetike sredine populacije nalazi priblino 99% svih
aritmetikih sredina uzoraka,
x
2 od aritmetike sredine populacije nalazi priblino 95% svih
aritmetikih sredina uzoraka (v. poglavlje 2.5.3.1, str. 104-106).
Prema tome, aritmetika sredina populacije nalazit e se u intervalu
x3 od bilo koje aritmetike sredine uzorka s priblinom
vjerojatnou od 99%, odnosno u intervalu x
2 s priblinom
vjerojatnou od 95%.
Ako odstupanja aritmetikih sredina uzoraka (xi ) u odnosu na
aritmetiku sredinu populacije () podijelimo sa standardnom
pogrekom aritmetike sredine (x
)
x
i
i
xz
(gdje je i=1,...n, a n - ukupan broj sluajno odabranih uzoraka),
dobijemo standardizirana odstupanja aritmetikih sredina uzoraka u
odnosu na aritmetiku sredinu populacije. S obzirom na to da su pri
statistikom zakljuivanju uobiajene pogreke2 od p=0,05 (5%) i
p=0,01 (1%), mogue je uvidjeti da e z biti izmeu 1,96 u 95%,
odnosno izmeu 2,58 u 99% sluajeva.
96,196,1
x
x
; za p=0,05
58,258,2
x
x
; za p=0,01
Ako svaki lan gornjeg izraza pomnoimo sa standardnom pogrekom
aritmetike sredine (x
), dobijemo
2 Za pogreku s kojom se donosi odreeni statistiki zakljuak jo se upotrebljava i naziv razina
znaajnosti ili razina signifikantnosti.
-
Osnovne statistike metode Procjena aritmetike sredine populacije
130
xxx 96,196,1 ; za p=0,05
xxx 58,258,2 ; za p=0,01
pa se interval procjene aritmetike sredine populacije moe izraunati
formulama
xxxx 96,196,1 ; za p=0,05
xxxx 58,258,2 ; za p=0,01
Dakle, ako je poznata standardna pogreka aritmetike sredine, tada je
mogua procjena intervala u kojemu se s odreenom vjerojatnou
nalazi aritmetika sredina populacije. Meutim, standardnu pogreku
aritmetike sredine nije mogue izraunati na uobiajen nain za
izraunavanje standardne devijacije jer se u praksi raspolae samo
jednim uzorkom, ali ju je mogue procijeniti formulom3
nx
Iz formule je vidljivo da je veliina standardne pogreke aritmetike
sredine (x
) proporcionalna varijabilnosti pojave u populaciji () i
obrnuto proporcionalna drugom korijenu iz veliine uzorka (n).
S obzirom na to da je standardna devijacija populacije uglavnom
nepoznata, standardna pogreka aritmetike sredine procjenjuje se na
temelju procjene standardne devijacije populacije putem standardne
devijacije uzorka pa se standardna devijacija rauna sa n-1 u
nazivniku umjesto n. Dakle, standardna devijacija izrauna se
formulom4
1n
)xx(
s
n
1i
2
i
pa je procjena standardne pogreke aritmetike sredine (x
s ) jednaka
omjeru procjene standardne devijacije populacije putem uzorka (s) i
drugog korijena iz veliine uzorka (n).
3Matematiki izvod nalazi se u knjizi I.Pavi: Statistika teorija i primjena, str. 170-171.
4Detaljnije logiko objanjenje mogue je potraiti u knjizi B. Petz: Osnovne statistike metode za
nematematiare, str. 61-62 i 125-126, a matematiki dokaz u knjizi . Paue: Uvod u matematiku
statistiku, str. 117-120, ili u knjizi I. Pavi: Statistika teorija i primjena, str. 179-181.
-
Osnovne statistike metode Procjena aritmetike sredine populacije
131
n
ss
x
Zbog takvog naina procjenjivanja standardne pogreke aritmetike
sredine, sampling distribucija za izraz
x
i
s
x
nee biti normalna, ve Studentova t-distribucija (v. poglavlje
2.5.3.2, str. 107-108) Studentova t-distribucija tei normalnoj kada
broj stupnjeva slobode tei beskonanom (df) pa su i t-vrijednosti za velike uzorke (n>30) vrlo sline vrijednostma normalne
distribucije (1,96 za 95%, odnosno 2,58 za 99% pouzdanosti
procjene). Stoga kod malih uzoraka (n
-
Osnovne statistike metode Procjena aritmetike sredine populacije
132
gdje je:
x aritmetika sredina uzorka,
x
s procjena standardne pogreke aritmetike sredine,
tp vrijednost koja se za pogreku p (u statistikom zakljuivanju
najee se koristi pogreke 0,01 ili 1%, i 0,05 ili 5%) i odreeni
broj stupnjeva slobode (df=n-1) dobije se na temelju Studentove t-
distribucije.
U tablici B str. 317, dane su t-vrijednosti za odgovarajui broj
stupnjeva slobode (df=n-1) i pogreku (p).
Primjer: Na sluajno odabranom uzorku veliine 100 entiteta
izraunata je aritmetika sredina (x = 180 cm) i standardna devijacija
(s = 10 cm). Potrebno je procijeniti interval u kojemu se s
vjerojatnou od 0,95 nalazi aritmetika sredina populacije.
Prvo je potrebno procijeniti standardnu pogreku aritmetike sredine
cm1100
10
n
ss
x
Iz tablice B str. 317 odredi se t-vrijednost za df=n-1=100-1=99 i
pogreku od 0,05.
98,1t 05,099
Uvrtavanjem dobivenih vrijednosti u formulu za procjenu aritmetike
sredine populacije dobije se
198,1x198,1x ,
odnosno
98,18102,178 .
Dakle, mogue je zakljuiti da se aritmetika sredina populacije nalazi
u intervalu od 178,02 do 181,98 sa sigurnou od 95%, odnosno uz
pogreku od 5%.
Formula za standardnu pogreku aritmetike sredine
nx
-
Osnovne statistike metode Procjena aritmetike sredine populacije
133
omoguava procjenu veliine uzorka koja e osigurati
zadovoljavajuu reprezentativnost, odnosno razinu pouzdanosti
statistike procjene. Iz formule je vidljivo da e procjena aritmetike
sredine populacije na temelju nekog uzorka biti to pouzdanija
(standardna pogreka aritmetike sredine bit e manja) to je
varijabilnost pojave () manja i to je broj entiteta u uzorku (n) vei. S obzirom na to da na varijabilnost pojave ne moemo utjecati,
poveanje pouzdanosti statistike procjene postiemo poveanjem
broja entiteta u uzorku. Poveanjem broja entiteta u uzorku smanjuje
se standardna pogreka aritmetike sredine (slika 2.8-4), odnosno
poveava se pouzdanost statistike procjene. Meutim, iz slike 2.8-4
vidljivo je da se standardna pogreka artmetike sredine ne smanjuje
linearno s poveanjem veliine uzorka, ve je njezino smanjenje
znatno vee pri poveanju broja entiteta kod manjih uzoraka, dok
nakon neke veliine poveanje broja entiteta u uzroku nema znatniji
utjecaj na njezinu vrijednost. O tome treba voditi rauna pri planiranju
veliine uzoraka u nekom istraivanju, jer se poveanjem uzorka
poveavaju trokovi njegove provedbe nesrazmjerno s pouzdanou
statistike procjene.
Slika 2.8-4. Odnos izmeu standardne pogreke aritmetike sredine i veliine uzorka pri
standardnoj devijaciji populacije =10
Primjer: Na sluajnom uzorku od 50 studenata prve godine
Kineziolokog fakulteta izmjerili smo relativni primitak kisika.
Aritmetika sredina je iznosila x = 55 mlO2/kg/min, standardna devijacija s = 5,5 mlO2/kg/min. Standardna pogreka aritmetike
sredine iznosi
-
Osnovne statistike metode Procjena aritmetike sredine populacije
134
78,007,7
5,5
50
5,5s
x
Dakle, sa sigurnou od 95% aritmetika sredina populacije nalazi se
u intervalu
78,0t55 p
Uz pomo tablice B str. 317 odredi se t-vrijednost za odreenu
pogreku p i broj stupnjeva slobode df. Za pogreku p=0,05 i broj
stupnjeva slobode df=49 t-vrijednost iznosi 2,01. Prema tome, raspon
u kojem moe varirati aritmetika sredina populacije iznosi
14,378,001,22 mlO2/kg/min
Smatramo li taj raspon prevelikim i elimo li da on ne iznosi vie od 2
mlO2/kg/min, potrebno je poveati uzorak ispitanika. Broj entiteta koji
e osigurati da raspon intervala procjene aritmetike sredine ne bude
vei od 2 mlO2/kg/min izrauna se postupkom
n
11,22
n
5,501,222
12206,11n
2
11,22n
2
Prema tome, formulu pomou koje procjenjujemo veliinu uzorka za
odgovarajui raspon procjene aritmetike sredine populacije mogue
je napisati u ovom obliku
2
p
I
st2n
gdje je:
n broj entiteta
tp vrijednost za odreenu sigurnost procjene, odnosno pogreku p,
koja se dobije se na temelju Studentove t-distribucije uz odreeni
broj stupnjeva slobode df=n-1
s standardna devijacija, a
I prihvatljivi interval procjene aritmetike sredine populacije.
-
Osnovne statistike metode t-test
135
2.9 t - test
Dio statistike koji se bavi problemima statistikog zakljuivanja,
odnosno generaliziranjem zakljuaka s uzorka na populaciju naziva se
inferencijalna statistika. U okviru inferencijalne statistike,
odgovarajuim statistikim testom, testiraju se statistike hipoteze o
veliini odreenog statistikog parametra populacije na temelju
sluajnog uzorka. Hipoteze definira istraiva na temelju cilja
znanstvenog istraivanja. Naime, svako znanstveno istraivanje
usmjereno je na rjeavanje nekog znanstvenog problema. Uoeni
znanstveni problem, koji se eli rjeavati nekim znanstvenim
istraivanjem, valja detaljno i precizno opisati i obrazloiti. Pojedino
znanstveno istraivanje u pravilu je usmjereno na rjeavanje jednog
dijela uoenog znanstvenog problema pa se za svako znanstveno
istraivanje jasno navode ciljevi istraivanja, a na temelju njih
precizno se definiraju hipoteze. Dakle, hipoteze proizlaze iz
znanstvenog problema (dijela znanstvenog problema) koji elimo
istraivati, odnosno iz hipotetike teorije (dijela hipotetike teorije)
koju provjeravamo (Mejovek, 2003, str. 76.). Vrijednost neke
znanstvene hipoteze mogue je procjenjivati temeljem sljedeih
mjerila:
svrhovitost hipoteza treba biti u funkciji postizanja odreenog cilja
istraivanja;
provjerljivost hipotezu treba postaviti tako da ju je mogue
provjeriti odgovarajuim postupcima;
plodotvornost hipoteza treba omoguiti donoenje plodotvornih
zakljuaka u odnosu na istraivani problem;
-
Osnovne statistike metode t-test
136
suglasnost hipoteza treba biti u skladu s postojeim znanjima o
istraivanom problemu;
jednostavnost hipoteze trebaju biti precizno i jasno formulirane
(Marui i suradnici, 2000).
Hipoteza moe biti nulta i alternativna. Nulta hipoteza se postavlja
nijeno (primjerice, nije naena statistiki znaajna razlika izmeu
aritmetikih sredina grupe A i B; nije naena statistiki znaajna
povezanost izmeu varijable X i Y itd.), dok se alternativna hipoteza
suprotstavlja (proturjei) nultoj hipotezi (primjerice, naena je
statistiki znaajna razlika izmeu aritmetikih sredina grupe A i B;
naena je statistiki znaajna povezanost izmeu varijable X i Y itd.).
Postavljene hipoteze provjeravaju se pomou odgovarajuih
statistikih testova, pri emu se odluka o prihvaanju ili neprihvaanju
nulte/alternativne hipoteze donosi uz odreenu pogreku. Naime, cilj
je svakog istraivanja doi do istinitog zakljuka, odnosno onog koji
odgovara objektivnoj stvarnosti. Meutim, to ponekad nije mogue
postii jer se istraivanje provodi na temelju vrijednosti dobivenih iz
sluajnog uzorka, odnosno dijela populacije. Stoga se u postupku
odluivanja mogu pojaviti dvije vrste pogreaka:
pogreka tipa I ili odbacimo nultu hipotezu, a ona je tona
pogreka tipa II ili prihvatimo nultu hipotezu, a ona nije tona.
Tablica 2.9-1 pokazuje sve mogue ishode (zakljuke) pri statistikom
odluivanju. Tablica 2.9-1. Mogui ishodi pri statistikom odluivanju
Legenda:
- vjerojatnost odbacivanja H0 kada je ona tona (najee iznosi 0,05 i 0,01)
- vjerojatnost prihvaanja H0 kad ona nije tona p - vjerojatnost
Testiranje postavljenih hipoteza temelji se na odgovarajuoj teoretskoj
distribuciji (sampling distribuciji). T-testom se utvruje statistika
znaajnost razlike aritmetikih sredina dvaju uzoraka (t-test za
nezavisne uzorke), statistika znaajnost razlike aritmetikih sredina
jednog uzorka mjerenog u dvije vremenske toke (t-test za zavisne
Stvarno stanje
Statistika odluka H0 je tona H0 nije tona
Odbacujemo H0 Pogreka tipa I ()
p=
Tona odluka
p=1-
Prihvaamo H0 Tona odluka
p=1- Pogreka tipa II ()
p=
-
Osnovne statistike metode t-test
137
uzorke) te statistika znaajnost razlike aritmetike sredine nekog
uzorka u odnosu na neku unaprijed poznatu aritmetiku sredinu.
Razlike izmeu dviju aritmetikih sredina mogue je utvrditi
jednostavno njihovom usporedbom, ali uoena razlika ne mora biti i
statistiki znaajna. Naime, pojam statistiki znaajna razlika dviju
aritmetikih sredina nije obina razlika izmeu njih, ve je to razlika
vea od one koja se moe dogoditi sasvim sluajno, kao posljedica
sluajnoga odabira entiteta u uzorak. Dakle, statistiki znaajna
razlika aritmetikih sredina dvaju sluajno odabranih uzoraka
predstavlja razliku koja je posljedica stvarnih razlika izmeu
populacija kojima uzorci pripadaju, a ne sluajnog variranja uzoraka.
Statistiki znaajna razlika je vea od razlike koja se moe dobiti
sluajnim variranjem uzoraka. T-test upravo slui za utvrivanje
statistike znaajnosti razlike aritmetikih sredina zavisnih ili
nezavisnih uzoraka.
2.9.1. t-test za nezavisne uzorke
Za lake razumijevanje t-testa pretpostavimo da iz jedne velike i
normalno distribuirane populacije (npr. N=10000) sluajnim
odabirom biramo uzorke veliine 5 entiteta (n=5). Nakon to
odaberemo dva sluajna uzorka izraunamo, njihove aritmetike
sredine. Postavlja se pitanje: hoe li aritmetika sredina prvog uzorka
biti jednaka aritmetikoj sredini drugog uzorka? S obzirom da su
entiteti sluajno odabrani u oba uzorka, moe se pretpostaviti da
aritmetike sredine tih uzoraka mogu, ali i ne moraju biti jednake.
Dakle, izraunamo li razliku izmeu tih dviju aritmetikih sredina,
ona moe, ali i ne mora biti jednaka nuli.
Ako nastavimo (npr. 10 000 puta) sluajno birati parove uzoraka iste
veliine i raunati razlike aritmetikih sredina (R), dobit emo
nnnRxx
Rxx
Rxx
21
22221
11211
....
...
varijablu razlika aritmetikih sredina sluajno odabranih uzoraka
veliine 5 entiteta. Postavlja se pitanje: kolika e biti aritmetika
-
Osnovne statistike metode t-test
138
sredina ove varijable i kakva e joj biti distribucija? Aritmetika
sredina varijable razlika aritmetikih sredina sluajno odabranih
uzoraka odgovarala bi pravoj razlici. Budui da su uzorci birani iz iste
populacije, ta razlika je jednaka nuli jer sluajnim odabirom entiteta u
uzorak iskljuujemo bilo kakvu mogunost sistematske (namjerne)
tendencije razlikovanja aritmetikih sredina uzoraka. Sluajnim
odabirom uzoraka osiguravamo da se aritmetike sredine sluajno
razlikuju. To znai da e, uz jednaku vjerojatnost, neke razlike biti
pozitivnoga predznaka (aritmetika sredina prvog uzorka sluajno je
vea od aritmetike sredine drugog uzorka), a neke negativnoga
predznaka (aritmetika sredina prvog uzorka sluajno je manja od
aritmetike sredine drugog uzorka). Prema tome, tendencija grupiranja
razlika aritmetikih sredina uzoraka bit e oko nule prema normalnoj
distribuciji (slika 2.9-1).
Slika 2.9-1. Distribucija razlika aritmetikih sredina sluajno odabranih uzoraka
Ako se nastavi s izborom sluajnih uzoraka, ali ne vie veliine 5
entiteta, ve 10 i raunanjem razlika izmeu njihovih aritmetikih
sredina, dobije se nova varijabla.
nnnRxx
Rxx
Rxx
21
22221
11211
....
...
0
-
Osnovne statistike metode t-test
139
Postavlja se pitanje je li se neto promijenilo u odnosu na varijablu
razlika aritmetikih sredina sluajno odabranih uzoraka veliine 5
entiteta?
Nije teko zakljuiti da poveanje veliine uzoraka smanjuje
vjerojatnost razlika izmeu njihovih aritmetikih sredina. Prema tome,
distribucija razlika aritmetikih sredina sluajno odabranih uzoraka
veliine 10 entiteta u odnosu na distribuciju razlika aritmetikih
sredina sluajno odabranih uzoraka veliine 5 entiteta bit e ua,
odnosno, imat e manju standardnu devijaciju (slika 2.9-2).
Slika 2.9-2. Distribucija razlika aritmetikih sredina sluajno odabranih uzoraka veliine n1=5, n2=10, n3=20
Dakle, valja zakljuiti da e standardna devijacija varijable razlika
aritmetikih sredina sluajno odabranih uzoraka biti to manja to su
uzorci vei. Osim toga, logino je da e standardna devijacija razlika
aritmetikih sredina sluajno odabranih uzoraka jednake veliine biti
manja kod manje varijabilnih populacija nego populacije kod kojih
istraivana pojava vie varira. Meutim, kako na varijabilnost neke
pojave u odreenoj populacije ne moemo utjecati, smanjenje
standardne devijacije razlika aritmetikih sredina sluajno odabranih
uzoraka moe se postii jedino poveanjem uzorka. Standardna
devijacija razlika aritmetikih sredina sluajno odabranih uzoraka
naziva se standardna pogreka razlika aritmetikih sredina (21 xx
s
).
Ako je poznata standardna devijacija razlika aritmetikih sredina
sluajno odabranih uzoraka, odnosno standardna pogreka razlika
aritmetikih sredina, onda se u intervalu:
n=5 n=10 n=20
-
Osnovne statistike metode t-test
140
21
3xx
s
nalazi priblino 99% svih razlika izmeu aritmetikih
sredina sluajno odabranih uzoraka, a u intervalu
21
2xx
s
nalazi se priblino 95% (v. poglavlje 2.5.3.1, str. 104-106).
Iz toga slijedi da e svaka razlika izmeu dviju aritmetikih sredina
sluajno odabranih uzoraka biti statistiki znaajna ako je, primjerice,
3 puta vea od standardne pogreke razlika aritmetikih sredina
(21 xx
s
), zbog toga to je vjerojatnost sluajnog pojavljivanja tako
velike razlike izmeu aritmetikih sredina vrlo mala, manja od 1%.
Prema tome, da li e neka razlika izmeu dviju aritmetikih sredina
biti statistiki znaajna, ovisi o tome koliko je puta vea od
standardne pogreke razlika aritmetikih sredina (21 xx
s
).
Koliko je puta razlika aritmetikih sredina dvaju sluajno odabranih
uzoraka vea od standardne pogreke razlika aritmetikih sredina
izrauna se na sljedei nain
21
21
xxs
xxt
,
gdje je
t vrijednost koja pokazuje koliko je puta razlika aritmetikih sredina
vea od standardne pogreke razlika aritmetikih sredina
1x aritmetika sredina prvog uzorka
2x aritmetika sredina drugog uzorka
21 xx
s
standardna pogreka razlika aritmetikih sredina.
Standardnu pogreku razlika aritmetikh sredina moemo izraunati
formulom (matematiki dokaz mogue je pronai u knjizi I. Pavi:
Statistika teorija i primjena, str. 244-245):
21
21
21
2
22
2
11 )()(21 nn
nn
2nn
s1ns1ns
xx,
gdje je
s12 varijanca prvog uzorka
s22 varijanca drugog uzorka
n1 broj entiteta prvog uzorka
n2 broj entiteta drugog uzorka.
-
Osnovne statistike metode t-test
141
S obzirom da je varijanca populacije uglavnom nepoznata, standardna
pogreka razlika aritmetikih sredina procjenjuje se na temelju
procjene varijance populacije pomou varijance uzorka pa se varijanca
rauna sa n-1 u nazivniku umjesto n.
Izraunata t-vrijednost ne raspodjeljuje se prema normalnoj
distribuciji, ve prema t-distribuciji. Stoga je potrebno, na temelju t-
distribucije, za odreenu sigurnost procjene, odnosno pogreku p (u
statistikom zakljuivanju najee se koriste pogreke p=0,01 ili 1%,
i p=0,05 ili 5%), i odreeni broj stupnjeva slobode df = (n1-1)+(n2-1),
utvrditi kritinu t-vrijednost.
Kritine t-vrijednosti za odgovarajui broj stupnjeva slobode (df) i
odgovarajuu pogreku p prikazane su u tablici B str. 315. S obzirom
na to da Studentova t-distribucija tei k normalnoj (v. poglavlje
2.5.3.2, str. 107-108) kada broj stupnjeva slobode tei beskonanom
(df), onda su i t-vrijednosti za velike uzorke (n>100) vrlo sline vrijednostima normalne distribucije (1,96 za 95%, odnosno 2,58 za
99% sigurnosti procjene).
Ako je t-vrijednost vea od kritine t-vrijednosti, mogue je zakljuiti,
uz odreenu pogreku p, da je razlika izmeu aritmetikih sredina
analiziranih uzoraka statistiki znaajna, odnosno da uzorci ne
pripadaju istoj populaciji jer je vjerojatnost da se tako velika razlika
dobije sluajno manja od p (najee p=0,01 ili 1%, odnosno p=0,05
ili 5 %). Dakle, odbacujemo nultu i prihvaamo alternativnu hipotezu
t > dftp H1:x1 x2 - Razlika izmeu aritmetikih sredina analiziranih uzoraka statistiki je znaajna
uz pogreku p.
Meutim, ako je t-vrijednost manja od kritine t-vrijednosti, nije
mogue tvrditi da je razlika izmeu aritmetikih sredina analiziranih
uzoraka statistiki znaajna, odnosno da uzorci ne pripadaju istoj
populaciji jer se takva razlika moe dobiti sluajno u vie od 1% ili
5% sluajeva. Dakle, prihvaamo nultu hipotezu
t < dftp H0:x1 =x2 - Uz pogreku p ne moemo tvrditi da je
razlika izmeu aritmetikih sredina
analiziranih uzoraka statistiki znaajna.
-
Osnovne statistike metode t-test
142
Standardna pogreka razlika aritmetikih sredina, izraunata
navedenom formulom, pretpostavlja da oba uzorka potjeu iz iste
populacije. Stoga je potrebno provjeriti da li im se varijance statistiki
znaajno razlikuju pomou F-testa. F-vrijednost kojom se testira
statistika znaajnost razlika varijanci grupa izrauna se formulom
2
2
manjas
sF vea ,
gdje se u brojnik uvijek uvrtava vea, a u nazivnik manja varijanca.
Izraunata F-vrijednost distribuira se prema F-distribuciji (v.
poglavlje 2.5.3.3, str. 109), uz stupnjeve slobode za veu varijancu
df1=n1-1 i za manju varijancu df2=n2-1. Kritina F-vrijednost do koje
se smatra da razlika izmeu varijanci nije statistiki znaajna oitava
se za odreeni broj stupnjeva slobode iz tablice C (str. 318-321) F-
vrijednost se iz tablice oitava tako da se broj stupnjeva slobode
brojnika (df1) ita na gornjem rubu tablice (stupci), a broj stupnjeva
slobode nazivnika (df2) ita se na lijevom rubu tablice (reci). Na
mjestu krianja stupca i retka oita se kritina F-vrijednost. Ako je
izraunata F-vrijednost manja od tabline F-vrijednosti, zakljuujemo
da razlika izmeu varijanci nije statistiki znaajna.
Ako se utvrdi statistika znaajnost razlika varijanci uzoraka, odnosno
odbaci hipoteza o homogenosti varijance, dobivena statistika
znaajnost varijanci analiziranih uzoraka ne mora neophodno stavljati
u pitanje i ispravnost rezultata t-testa. Iako t-test polazi od
pretpostavke da su varijance grupa homogene, mnoge studije
(primjerice, Boneau, 1960)1 su pokazale da t-test daje relativno tone
rezultate i u sluajevima kada je prekren uvjet o homogenosti
varijanci, ali uz uvjet podjednakog broja entiteta u oba uzorka i slinih
distribucija. Stoga je u praksi potrebno planirati eksperimente u
kojima e uzorci biti sline veliine ime e pogreke u raunu t-testa
zbog eventualno razliitih varijanci uzoraka biti praktino zanemarive.
Ako navedeni uvjet nije ispunjen, a varijance se statistiki znaajno
razlikuju, tada je potrebno koristiti Cochran-Coxovu metodu (Cohran i
Cox, 1950, prema Petz, 2002). Ovim postupkom standardna pogreka
razlika procjenjuje se formulom
1 Boneau, C.A. (1960). The effects of violations of assumptions underlying the ttest. Psychol. Bull., 57,
49-64.
-
Osnovne statistike metode t-test
143
2
2
2
1
2
1
21 n
s
n
ss
xx
te se izrauna t-vrijednost
21
21
xxs
xxt
Kritina t-vrijednost odreuje se prema formuli
22
2
2
1
2
21
21
xx
xx
pss
tstst
,
gdje je
tp kritina t-vrijednost za pogreku p
2
1xs standardna pogreka aritmetike sredine prvog uzorka
2
2xs standardna pogreka aritmetike sredine drugog uzorka
t1 tablina t-vrijednost uz broj stupnjeva slobode vezana za prvi
uzorak (df=n1-1) i pogreku p
t2 tablina t-vrijednost uz broj stupnjeva slobode vezana za drugi
uzorak (df=n2-1) i pogreku p.
Ako je izraunata apsolutna t-vrijednost vea od na taj nain utvrene
kritine t-vrijednosti, zakljuujemo da je razlika izmeu aritmetikih
sredina statistiki znaajna uz pogreku p.
Primjer: Sluajnim odabirom formirani su uzorci od 100 koarkaa i
100 odbojkaa. Osnovni statistiki parametri ovih uzoraka u varijabli
skok uvis s mjesta iznose:
cmxk 62 ; cmsk 10
cmxo 67 ; cmso 12
Potrebno je utvrditi da li se koarkai i odbojkai statistiki znaajno
razlikuju u varijabli skok u vis s mjesta uz pogreku od 0,05.
Statistiku znaajnost razlike aritmetikih sredina sluajno odabranih
uzoraka koarkaa i odbojkaa u varijabli skok uvis s mjesta mogue je
-
Osnovne statistike metode t-test
144
utvrditi uz pomo t-testa za nezavisne uzorke. Prije testiranja
uobiajeno je postaviti hipoteze:
H0 (nulta hipoteza) nema statistiki znaajne razlike izmeu
aritmetikih sredina sluajno odabranih uzoraka koarkaa i
odbojkaa, odnosno za uoenu razliku ne moe se s pogrekom
p=0,05 tvrditi da je statistiki znaajna. Formalno se ta hipoteza
moe napisati kao:
ok xxH :0 .
H1 (alternativna hipoteza) postoji statistiki znaajna razlika
izmeu aritmetikih sredina sluajno odabranih uzoraka koarkaa i
odbojkaa, odnosno uoena razlika moe se smatrati statistiki
znaajnom uz pogreku p=0,05. Formalno se ta hipoteza moe
napisati kao:
ok xxH :1 .
Zavisno od rezultata t-testa, bit e prihvaena jedna od navedenih
hipoteza.
Standardna pogreka razlika aritmetikih sredina iznosi
1,562,441000
200
198
12991099s
nn
nn
2nn
s1ns1ns
22
xx
ok
ok
ok
ookk
xx
ok
ok
22 )()(
S obzirom na to da se radi o velikim uzorcima (n>30), standardnu
pogreku razlika aritmetikih sredina mogue je procijeniti i
pojednostavljenom formulom
1,562,441,441100
12
100
10
n
s
n
ss
22
ok
xx ok
2
2
1
2
.
t-vrijednost iznosi
-
Osnovne statistike metode t-test
145
3,21,56
5
1,56
6267
s
xxt
ok xx
ko
Kritina t-vrijednost (oita se iz tablice B str. 317 za pogreku p= 0,05
i broj stupnjeva slobode df=100-1+100-1=198) iznosi 0,05198t =1,98.
Izraunata t-vrijednost ukazuje na to da je razlika aritmetikih sredina
(xo-xk ) uzorka koarkaa i uzorka odbojkaa 3,2 puta vea od
standardne pogreke razlika aritmetikih sredina ko xx
s
. Vjerojatnost
da se takva razlika dogodi sluajno je znatno manja od 5% (jer
interval ko xx
1,98s
ukljuuje 95% sluajnih razlika).
Dakle, s obzirom na to da je izraunata t-vrijednost vea od kritine t-
vrijednosti, prihvaa se alternativna hipoteza, odnosno, zakljuuje se
da je razlika aritmetikih sredina uzoraka koarkaa i odbojkaa
statistiki znaajna uz pogreku manju od 0,05.
2.9.2. t-test za zavisne uzorke
Statistiku znaajnost razlika aritmetikih sredina jednog uzorka
mjerenoga u dvije vremenske toke mogue je utvrditi t-testom za
zavisne uzorke. Primjerice, ako elimo provjeriti uinkovitost nekog
nastavnog ili trenanog procesa, utjecaj nekog lijeka i sl., tada je
potrebno neki reprezentativni uzorak entiteta izmjeriti prije (inicijalno
stanje) i poslije (finalno stanje) primijenjenog tretmana te utvrditi da li
su dobivene razlike meu aritmetikim sredinama promatrane
varijable prvog (prije, inicijalno) i drugog (poslije, finalno) mjerenja
statistiki znaajne.
Statistika znaajnost razlika aritmetikih sredina dvaju zavisnih
uzoraka testira se pomou t-vrijednosti
21 xx
21
s
xxt
.
Zbog korelacije izmeu rezultata prvoga i drugog mjerenja,
standardna pogreka razlika (21 xx
s
) izrauna se formulom
-
Osnovne statistike metode t-test
146
1)n(n
dn
1d
s
2n
1i
n
1i
i
2
i
xx 21
,
gdje je
di = 1xi - 2xi razlika izmeu rezultata ispitanika i u 1. i 2. mjerenju
(i=1...n)
n broj ispitanika u uzorku.
Ako se radi o velikim uzorcima (n>30), standardnu pogreku razlika
mogue je procijeniti formulom
212x1x21xx
22
xxssr2sss
,
gdje je
1x
s standardna pogreka aritmetike sredine prvog mjerenja
2x
s standardna pogreka aritmetike sredine drugog mjerenja
r korelacija izmeu varijabli prvog i drugog mjerenja (v. poglavlje
2.11, str. 160-179).
Izraunata t-vrijednost (kao i kod t-testa za nezavisne uzorke)
usporeuje se s kritinom t-vrijednou koja se oita iz tablice B str.
317 uz odreenu pogreku p i broj stupnjeva slobode df=n-1. Ako je
izraunata t-vrijednost vea od kritine t-vrijednosti, zakljuuje se, uz
odreenu pogreku p, da je razlika izmeu aritmetikih sredina prvog i
drugog mjerenja statistiki znaajna, odnosno da je dolo do statistiki
znaajne promjene u promatranoj varijabli izmeu prvoga i drugog
mjerenja.
Primjer: Uzorak od 120 uenika testiran je Seargentovim testom prije
i poslije tromjesenog trenanog procesa provedenoga s ciljem da se
pobolja eksplozivna snaga. Dobiveni su sljedei rezultati:
10s
45x
1
1
8s
49x
2
2
r=0,75
Da li su promjene u eksplozivnoj snazi uenika izmeu prvog i drugog
mjerenja statistiki znaajne uz pogreku od 0,05?
-
Osnovne statistike metode t-test
147
Statistiku znaajnost razlika aritmetikih sredina prvoga i drugog
mjerenja mogue je utvrditi pomou t-testa za zavisne uzorke. Prije
testiranja uobiajeno je postaviti hipoteze:
210 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog
mjerenja nije statistiki znaajna uz pogreku 0,05.
211 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog
mjerenja statistiki je znaajna uz pogreku 0,05.
Zavisno od rezultata t-testa bit e prihvaena jedna od navedenih
hipoteza. Dobivene vrijednosti potrebno je uvrstiti u formulu za
izraunavanje standardne pogreke aritmetikih sredina prvog
91,095,10
10
120
10s
1x
i drugog mjerenja
73,095,10
8
120
8s
2x ,
pomou kojih se izraunava standardna pogreka razlika
0,6.0,730,910,7520,730,91
ssr2sss
22
xx
2
x
2
xxx 212121
Potom se izrauna t-vrijednost
6,66,0
4
6,0
4549
21
12
xxs
xxt
i usporedi se s kritinom t-vrijednou (koja se oita iz tablice B str.
317 za pogreku p=0,05 i broj stupnjeva slobode df=120-1=119) koja
iznosi 1,98t0,05119 . Izraunata t-vrijednost pokazuje da je razlika
aritmetikih sredina prvoga i drugog mjerenja statistiki znaajna jer
je vjerojatnost da se takva razlika dogodi sluajno manja od 0,05
(5%).
-
Osnovne statistike metode t-test
148
Primjer: Uzorak od 12 uenika testiran je prije i poslije dvomjesenog
trenanog procesa provedenog radi poboljanja repetitivne snage
trupa. Dobiveni su sljedei rezultati:
1.mjerenje 2.mjerenje
Uenik 1xi 2xi
A 52 53
B 35 40
C 43 44
D 29 33
E 37 41
F 39 41
G 51 52
H 43 42
I 27 30
J 29 28
K 46 49
L 48 48
Hipoteze:
210 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog
mjerenja nije statistiki znaajna uz pogreku 0,01.
211 : xxH - razlika izmeu aritmetikih sredina prvoga i drugog
mjerenja statistiki je znaajna uz pogreku 0,01.
S obzirom na to da se radi o malom uzorku, potrebno je koristiti
izvornu formulu za raunanje standardne pogreke razlika. Postupak
izraunavanja t-vrijednosti provodi se u nekoliko koraka. U prvom
koraku izraunaju se razlike izmeu rezultata ispitanika prvog i
drugog mjerenja (tablica - stupac 3), a u drugom koraku izraunate se
razlike kvadriraju (tablica - stupac 4).
1 2 3 4
Uenik 1xi 2xi di = 1xi - 2xi di2
A 52 53 -1 1
B 35 40 -5 25
C 43 44 -1 1
D 29 33 -4 16
E 37 41 -4 16
F 39 41 -2 4
G 51 52 -1 1
H 43 42 1 1
I 27 30 -3 9
J 29 28 1 1
K 46 49 -3 9
L 48 48 0 0
Zbroj 479 501 -22 84
-
Osnovne statistike metode t-test
149
U treem koraku izraunaju se sume svih stupaca koje se uvrste u
formule za raunanje aritmetikih sredina
39,9212
479x1 ; 41,75
12
501x1
te u formulu za raunanje standardne pogreke razlika
0,570,33132
43,67
132
40,3384
1)n(n
dn
1d
2n
1i
n
1i
i
2
i
xx 21
.
U posljednjem koraku izrauna se t-vrijednost
3,190,57
41,7539,92
xxt
21 xx
21
i usporedi s kritinom t-vrijednou (koja se oita iz tablice B str. 317
za pogreku p=0,01 i broj stupnjeva slobode df=12-1=11) koja iznosi
3,106. Izraunata t-vrijednost ukazuje na to da je razlika aritmetikih
sredina prvoga i drugog mjerenja statistiki znaajna jer je
vjerojatnost da se takva razlika dogodi sluajno manja od 1%. Stoga
prihvaamo hipotezu H1.
Napomena: Dodatne informacije vezane uz gradivo izneseno u poglavlju 2.8 i 2.9, mogu se pronai u knjizi B. Petz: Osnovne statistike metode za nematematiare, poglavlje 9: Razlika izmeu dvije aritmetike
sredine.
-
Osnovne statistike metode Univ