izrada testa i analiza zadataka
DESCRIPTION
izrada testa i analiza zadatakaTRANSCRIPT
1
Kolegij Psihometrija
Tema
Izrada testa i analiza zadataka
Verzija 1.12. 2012.
Ovaj tekst predstavlja radni (nelektorirani) materijal i namijenjen je studentima
diplomskog studija psihologije za pripremu kolegija Psihometrija
2
Sadržaj
1. ODREĐENJE PREDMETA MJERENJA I PODRUČJA SADRŽAJA ......................................................................... 5
2. ODREĐENJE OSNOVNE NAMJENE I UVJETA PRIMJENE TESTA ...................................................................... 9
2.1. Moguće strategije pri izradi kompozitnog testa ..................................................................................................... 11
3. ODREĐENJE OPĆIH KARAKTERISTIKA KONAČNE VERZIJE TESTA – IZRADA TESTOVNIH
SPECIFIKACIJA .............................................................................................................................................................. 11
3.1. Dužina testa ........................................................................................................................................................... 12
4. IZRADA PRVE VERZIJE TESTA .............................................................................................................................. 13
4.1. Izrada čestica ......................................................................................................................................................... 13
4.2. Uputa za rad i zadaci za vježbu ............................................................................................................................. 15
4.3. Izrada ključa za bodovanje (protokola za ocjenjivanje) ........................................................................................ 16
4.4. Izrada lista za odgovore ......................................................................................................................................... 17
5. LOGIČKA I SADRŽAJNA ANALIZA ČESTICA ..................................................................................................... 18
6. PRIMJENA PRVE VERZIJE TESTA NA PROBNOM UZORKU ............................................................................. 20
7. ANALIZA I IZBOR ZADATAKA ZA KONAČNU VERZIJU TESTA ..................................................................... 21
7.1. Mjere težine i osjetljivosti ………………………………………………………………………………………………………….. 23
7.1.1. Aritmetička sredina zadatka ........................................................................................................................... 22
7.1.2. Mjere osjetljivosti zadatka ............................................................................................................................. 24
7.2. Mjere diskriminativne valjanosti ………………………………………………………………………………………………… 30
7.2.1. Mjere povezanosti između uratka u zadatku i mjera konstrukta …………………………………………….. 30
7.2.1.1. Pearsonov koeficijent korelacije ................................................................................................................. 30
7.2.1.2. Point biserijalni koeficijent korelacije ......................................................................................................... 30
7.2.1.3. Biserijalni koeficijent korelacije ................................................................................................................. 31
7.2.1.4. Fi koeficijent ............................................................................................................................................... 32
7.2.1.5. Tetrahorički koeficijent korelacije .............................................................................................................. 33
7.2.2. Analiza diskriminativne valjanosti na osnovi linije traga ili karakteristične krivulje zadatka ....................... 33
7.2.3. Ostale mjere diskriminativne valjanosti ......................................................................................................... 34
7.2.3.1. Izračunavanje diskriminativne valjanosti zadatka uporabom indeksa diskriminativnosti ........................... 34
7.2.3.2. Provjera diskriminativne valjanosti zadatka analizom varijance................................................................. 35
7.2.3.3. Prosječna korelacija zadatka s preostalim zadacima u testu........................................................................ 35
7.2.3.4. Varijanca u zadatku koju objašnjavaju preostali zadaci u testu - multipla korelacija ................................. 36
7.2.4. Pristupi određenju diskriminativne valjanosti s obzirom na određenje mjere razvijenosti konstrukta........... 36
7.2.4.1. Ukupni rezultat u testu kao mjera konstrukta .............................................................................................. 36
7.2.4.2. Određivanje diskriminativne valjanosti izračunavanjem korelacije zadatka pod faktorskim modelom...... 37
7.2.4.3. Uporaba vanjskog kriterija kao mjere konstrukta ....................................................................................... 37
7.2.5. Mjere diskriminativne valjanosti izračunate na ekstremnim ili ciljanim skupinama ..................................... 38
7.3. Analiza distraktora i netočnih odgovora ................................................................................................................ 40
7.4. Analiza različitog funkcioniranja zadataka ........................................................................................................... 42
7.5. Procedura izbora zadataka ..................................................................................................................................... 44
3
7.5.1. Koncept homogenosti testa ............................................................................................................................ 50
7.5.2. Primjer analize i izbora zadataka ................................................................................................................... 51
8. PROVJERA STABILNOSTI KARAKTERISTIKA ZADATAKA ............................................................................. 60
9. STRUKTURA TESTA I OSOBINE UKUPNIH TESTOVNIH REZULTATA .......................................................... 61
9.1. Izražavanje ukupnog rezultata u testu kao jednostavni zbroj odgovora ................................................................ 61
9.2. Diferencijalno ponderiranje uratka u zadacima ..................................................................................................... 63
9.3. Standardizacija uratka u zadacima ........................................................................................................................ 65
10. ISPITIVANJE PSIHOMETRIJSKIH OSOBINA KONAČNE VERZIJE TESTA – VALIDACIJA TESTA ........... 66
11. PODACI POTREBNI ZA VREDNOVANJE REZULTATA U TESTU I KLJUČ ZA BODOVANJE .................... 67
12. OPREMA I DOKUMENTACIJA TESTA ................................................................................................................. 69
4
Očekivani ishod: Usvojiti osnovne procedure u procesu izrade kompozitnog mjernog
instrumenta
Kako bi test imao zadovoljavajuće metrijske karakteristike, potrebno se prilikom njegove izrade
pridržavati određenih pravila. Izrada i razvoj testa predstavlja proces koji uključuje više međusobno
povezanih koraka, ali u pravilu uključuje određenje predmeta mjerenja i područja sadržaja koje se
testom namjerava ispitivati, okvirnu namjenu testa odnosno potencijalnih interpretacija testovnih
rezultata, izradu samog testovnog sadržaja te analizu i izbor zadataka. Nakon toga potrebno je
provjeriti osnovne metrijske karakteristike testa, prikupiti podatke potrebne za vrednovanje i
interpretaciju testovnih rezultata, te izraditi priručnik koji će potencijalnog korisnika opremiti svim
relevantnim informacijama za primjenu testa. Provjera psihometrijskih karakteristika testa trajan je
proces i nakon izrade konačne verzije potrebno je kontinuirano prikupljati podatke koji će ukazivati
na opravdanost primjene testovnih rezultata u različitim situacijama. U slučaju potrebe poželjno je
da autor unese izmjene u sadržaj testa s ciljem poboljšavanja kvalitete testa.
U ovom poglavlju opisana je procedura izrade kompozitnog mjernog instrumenta u kontekstu
klasične teorije testova. Koraci opisani u ovom poglavlju nisu uvijek jasno odijeljeni već se
prožimaju i često puta zahtjevaju integriranje različitih odluka i postupaka. U određenim
slučajevima autor može neke korake izostaviti ili ih u određenom stupnju prilagoditi specifičnim
zahtjevima konkretnog testa, ali to pri izradi većine profesionalnih testova mora biti vrlo jasno
argumentirano. Kao primjer možemo navesti izradu pismenog ispita za provjeru znanja koji se
namjerava koristiti jednokratno. U tom slučaju autor vrlo često ne prolazi sve navedene faze, niti
provodi validaciju takvog postupka. Takvi nizovi pitanja ne bi se trebali niti nazivati testovima u
užem smislu riječi budući da nemaju poznate metrijske karakteristike. U pojedinim slučajevima
testovi koji se koriste u situacijama prijemnih ispita ili državne mature, zbog očuvanja tajnosti
testovnog sadržaja, ne prolaze prethodnu empirijsku provjeru, već se ona može učiniti tek nakon
primjene testa na ispitanicima. U spomenutim i sličnim slučajevima autor testa namjerno ili iz
nekog drugog razloga izostavlja neku od navedenih procedura (npr. empirijsku analizu čestica) što u
najvećem broju slučajeva može utjecati na kvalitetu konačnog oblika testa. U svakom slučaju kada
testovni rezultati utječu na status ispitivanih osoba nužno je izradi testa pristupiti savjesno i
poštujući načela koja ćemo detaljnije razraditi u ovom poglavlju. Pored toga, ovisno o području
mjerenja izrada mjernog instrumenta može uključivati određene dodatne ili specifične postupke koji
nisu uobičajeni pri izradi standardnih testova. U nastavku ćemo se uglavnom držati procesa izrade
testova opće namjene čiji je cilj razlikovanje ispitanika s obzirom na jedan zadani konstrukt, a koje
Nunnaly i Bernstein (1994) nazivaju konvencionalnim. Treba naglasiti da postoje i drugačiji
pristupi izradi mjernih instrumenata, ali oni izlaze izvan okvira obrađenog u okviru ove teme. Tako
su u području mjerenja stavova pojedini autori razvili specifične postupke izrade instrumenata
poput Likertove, Thurstoneove, Bogardusove ili Guttmanove ljestvice pri čemu ti postupci
odudaraju od uobičajene izrade testa i neće biti opisani na ovom mjestu.
U pojedinim slučajevima dodat ćemo neke specifičnosti izrade testova kada se radi o različitim
područjima mjerenja poput znanja, sposobnosti odnosno različitih mjera ličnosti u širem smislu tog
pojma. Iskustvo autora pri izradi testova određene vrste i namjene može olakšati proces izrade
5
mjernog instrumenta te usmjeravanje na bitne aspekte u procesu izrade, ali ukoliko kao cilj želimo
kvalitetan mjerni instrument onda je u svakom slučaju važno pridržavati se svih navedenih koraka
pri izradi testa. Kako se o većini metrijskih karakteristika zaključci izvode na osnovi različitih vrsta
podataka dobivenih primjenom testa, provjera i validacija testa predstavlja trajan proces koji nije
gotov izradom konačne verzije testa. Višekratnom primjenom testa njegov sadržaj može postati
poznat što u određenim slučajevima može utjecati na njegove prvotne karakteristike.
Izradi testa i njegovoj evaluaciji može se pristupiti kroz različite psihometrijske teorijske okvire. U
ovom poglavlju koristit ćemo okvir koji se može označiti kao klasična teorija testova iako se mogu
odabrati i drugi teorijski psihometrijski okviri. Jedan od teorijskih okvira za izradu testa pruža
teorija odgovora na zadatke koja u okviru teorije vjerojatnosti nudi različite suvremene koncepte u
osnovi izrade i vrednovanja testovnih rezultata. Pored teorije odgovora na zadatke Bejar (1981)
navodi i model slučajnog uzorkovanja iz domene (R-S, random-sampling), a koji se zasniva na
općoj pretpostavci da je moguće domisliti neograničeni skup ili domenu (univerzum, populaciju)
čestica koje mjere neki zadani konstrukt pri čemu se test razmatra kao uzorak čestica iz zadane
domene.
1. ODREĐENJE PREDMETA MJERENJA I PODRUČJA SADRŽAJA
Što je predmet mjerenja?
Prvi korak u izradi testa predstavlja određenje osnovnog predmeta mjerenja ili konstrukta koji se
želi mjeriti, te područja sadržaja koje se testom želi zahvatiti. Ono što se želi izmjeriti testom ili
nekom drugom procedurom mjerenja uobičajeno se naziva predmet mjerenja, konstrukt, osobina,
atribut ili karakteristika Ovaj korak je nužno povezan s odlukom o zadanom cilju ili ciljevima te
planiranim zaključcima koji se namjeravaju izvoditi iz rezultata primjene testa. Polazeći od šireg
određenja predmeta mjerenja potrebno je odabrati teorijski okvir unutar kojeg će se izvesti
definicija predmeta mjerenja. Najveći broj predmeta mjerenja u psihologiji i srodnim disciplinama
nema realnu egzistenciju već predstavljaju hipotetske konstrukte koji proizlaze iz nekog od
teorijskih okvira ili modela. Stoga je osobito važno za njihovo jednoznačno određenje, a time i
kasniju provjeru valjanosti samog instrumenta, jasno odrediti teorijska polazišta od kojih su autori
krenuli u izradu instrumenta.
Unutar psihologije postoji veliki broj konstrukta koji mogu biti legitimni predmeti mjerenja kao što
su anksioznost, depresivnost, neuroticizam, razina posttraumatskog stresa, traumatsko iskustvo,
numerički faktor, vrijednosti, emocionalna inteligencija, opće obrazovanje, ispitna anksioznost,
agresivnost, logičko rezoniranje, potreba za spoznajom i dr. Brojni od navedenih konstrukata mogu
biti definirani unutar različitih teorijskih konceptualizacija te obuhvaćaju različit opseg mogućih
indikatora.
6
Ovdje valja upozoriti da se u posljednjoj verziji Standarda za pedagoško i psihološko testiranje
(APA, 1999) odstupa od uvriježenog značenja termina “konstrukt”, budući da postoje situacije kada
test ne mora nužno biti mjera nekog teorijski definiranog konstrukta. Postoje situacije kada je
primarni cilj testa predviđanje rezultata u nekom kriteriju pri čemu uradak u testu ne mora nužno
biti mjera nekog konstrukta, a u određenim slučajevima upitno je mogu li se osobine mjerene
testovima tretirati kao konstrukti. Stoga se termin “konstrukt” ovdje upotrebljava u širem značenju,
u smislu pojma ili svojstva koje se testom želi izmjeriti.
Koji je teorijski okvir za određenje predmeta mjerenja?
Pojedini konstrukti su na teorijskoj razini jednoznačnije definirani dok kod drugih izbor određenog
specifičnog teorijskog modela ili pristupa može u značajnoj mjeri dovesti do razlike u određenju
konstrukta i interpretaciji rezultata. Isti konstrukt može se različito definirati unutar različitih
teorijskih sustava. Tako npr., ako je prvotna ideja autora bila izraditi test za provjeru intelektualnih
sposobnosti kandidata za neki studij na cjelokupnu daljnju izradu mjernog instrumenta utjecat će
činjenica je li se autor odlučio za Spearmanov, Thurstoneov, Guilfordov ili neki drugi teorijski
koncept inteligencije.
U slučaju mjerenja osobina ličnosti poput ekstraverzije može se poći od Eysenckovog određenja te
osobine ili od koncepta pet-faktorskog modela ličnosti. U području mjerenja psihopatoloških
dimenzija određenje posttraumatskog stresnog poremećaja može proizlaziti iz neke općeprihvaćene
dijagnostičke kategorije ili klasifikacije koja se tijekom vremena može mijenjati što za posljedicu
ima promjenu određenja poremećaja te izmjene simptoma koji ulaze u opis poremećaja. Tako se
npr. određenje posttraumatskog stresnog poremećaja (PTSP) prvi puta pojavljuje 1980. u priručniku
Američke psihijatrijske organizacije (DSM-III). U sljedećem izmijenjenom izdanju DSM-III-R
1987. godine određenje posttraumatskog stresnog poremećaja dijelom je izmijenjeno. U izdanju
1996. (DSM-IV) određenje je ponovno dijelom modificirano što znači da instrumenti za mjerenje
PTSP-a koji su konstrukt određivali na osnovi ranijeg opisa simptoma više nisu aktualni. To
ukazuje da određenje ovog poremećaja nije jednoznačno što znači da je važno znati od kojeg
određenja polazi pojedini mjerni instrument za mjerenje ove dimenzije.
Pored toga izbor metode ili procedure za provjeru konstruktne valjanosti u značajnoj mjeri ovisi o
teorijskom polazištu. Na slici je prikazan hijerarhijski model prema kojemu različiti indikatori
nekog konstrukta mogu biti grupirani u zasebne kategorije (facete) koje imaju neko zajedničko
obilježje, dok je u osnovi uratka u svim kategorijama neko opće zajedničko obilježje.
Primjer hijerarhijskog modela
7
Ovakav model može podrazumijevati da u konačnici mjerni instrument može biti podijeljen u
subskale ili subtestove što znači da se i ukupni rezultat može iskazati kroz više numeričkih
vrijednosti. Ove odluke u značajnoj mjeri određuju razvoj postupaka za provjeru različitih vrsta
valjanosti testa, te interpretaciju rezultata dobivenih primjenom testa. U pojedinim slučajevima
može se pri određenju konstrukta koristiti i više različitih teorija, tj. može se koristiti eklektički
pristup.
U ovom dijelu važno je upoznavanje s postojećom literaturom vezanom uz predmet mjerenja, te
analiza srodnih postojećih mjernih instrumenata koji mjere isti ili srodne konstrukte. Ukoliko već
postoje srodni instrumenti važno je proučiti iskustva u njihovoj primjeni i validaciji, te obrazložiti
potrebu za izradom novog instrumenta. U ovoj fazi važno je razmotriti određenje predmeta mjerenja
u odnosu na druge srodne psihološke konstrukte. Naime pojedini konstrukti se na teorijskoj razini
mogu preklapati u znatnoj mjeri ili se događa da se ista psihološka pojava ili ponašanje ponekad
naziva različitim terminima. Iz ove teorijske neodređenosti ponekad se izrađuju mjerni instrumenti
koji ukazuju na povezanost dva konstrukta, a ta povezanost proizlazi iz činjenice da oba mjerna
instrumenta sadrže jednake ili slične indikatore, tj. mjereći „različite“ konstrukte ispitanicima
postavljamo slična pitanja. Nakon analize sadržaja mjernih instrumenata može se uočiti da
korelacija između dva testa ne ukazuje na povezanost dva teorijska konstrukta već proizlazi iz
činjenice da oba konstrukta sadrže identične ili slične indikatore. Npr. neki indikatori depresivnosti
i anksioznosti se mogu preklapati što znači da će mjere jednog i drugog konstrukta sadržavati jedan
dio sličnih čestica što za posljedicu ima korelaciju između upitnika koji mjere ta dva konstrukta.
Važno je analizirati i koliko je teorijsko prekrivanje indikatora predmeta mjerenja s indikatorima
drugih konstrukata (npr. iste jedinice ponašanja mogu se koristiti kao indikatori anksioznosti,
depresivnosti, neurotičnosti i sl.). Ova analiza važna je za kasnije postupke određivanja postupaka
za procjenu konvergentne i diskriminantne valjanosti odnosno očekivanu povezanost instrumenta
koji izrađujemo s drugim varijablama.
Što čini područje sadržaja testa?
Nakon odabira i razmatranja teorijskog okvira unutar kojega se definira zadani konstrukt potrebno
je odrediti područje sadržaja ili populaciju svih mogućih teorijskih indikatora (domenu) koji se
mogu smatrati mjerama konstrukta. Kako dio autora test definira kao uzorak iz specifične domene
ponašanja (Crocker i Algina, 1986, Annastasi, 1988) za provjeru sadržajne valjanosti testa nužno je
odrediti koju populaciju ponašanja reprezentira sadržaj testa. Ovisno o konstruktu u tu svrhu može
poslužiti plan i program nekog predmeta ili kolegija (za testove znanja), popis simptoma nekog
poremećaja (kod upitnika psihopatoloških dimenzija) ili popis procesa koji spadaju pod definiciju
konstrukta (kod testova sposobnosti). U ovoj fazi autor mora imati jasan odgovor na pitanje što
može biti sadržaj testa, a što ne bi trebalo ili ne bi smjelo biti uključeno u test.
Tako npr., test može kao predmet imati poznavanje povijesti modernog doba, znanje povijesti XIX.
stoljeća ili znanje povijesti XIX. stoljeća prema programu za učenike prvih razreda srednje škole. U
području mjerenja postignuća navest ćemo primjer određenja područja sadržaja Testa znanja iz
psihologije na Državnoj maturi 2011./2012. (NCVVO, 2011). Na osnovi službenog Nastavnog
plana i programa za Psihologiju u gimnazijama sačinjen je ispitni katalog s popisom ključnih znanja
8
i vještina, odnosno obrazovnih ishoda koja se ispituju testom. Cjelokupan sadržaj ili domena
podijeljeni su u devet područja:
1. Psihologija kao teorijska i primijenjena znanost, 2. Biološke osnove ponašanja, 3. Osjeti i
percepcija, 4. Emocije i motivacija, 5. Pamćenje i učenje, 6. Inteligencija i stvaralaštvo, 7. Razvojna
psihologija, 8. Ličnost i psihički poremećaji, 9. Socijalna psihologija.
Nakon toga su unutar svakog područja definirani obrazovni ishodi, tj. što se ispituje unutar
pojedinog područja. Ovakav popis olakšava autorima testa izradu pitanja budući svako pitanje u
testu mora proizlaziti iz navedenog obrazovnog ishoda, a s druge strane olakšava pripremu
kandidatima jer im je jasno što se od njih na ispitu očekuje. Primjer obrazovnih ishoda unutar prvog
područja 1. Psihologija kao teorijska i primijenjena znanost:
Od pristupnika se očekuje da zna odnosno može:
- opisati povijesni razvoj psihologije
- navesti osobe važne u povijesti psihologije
- objasniti predmet proučavanja psihologije
- razlikovati psihičke procese
- objasniti čimbenike koji utječu na psihičke procese
- usporediti grane psihologije
- usporediti različite pristupe u suvremenoj psihologiji…
Kako bi se osiguralo da sadržaj testa dobro reprezentira cjelokupno područje definiran je broj
zadataka iz pojedinog područja u testu. Nije nužno da svako područje bude reprezentirano jednakim
brojem zadataka, već na to može utjecati opseg i važnost pojedinog područja. Ta raspodjela
prikazana je u tablici 1. Kada se polazi od neke teorije ona može uvjetovati podjelu područja
sadržaja u manje cjeline ili podcjeline te određivati odnose među njima.
Tablica 1. Primjer strukture Testa znanja iz psihologije
Zadaci
višestrukoga
izbora
Zadaci
kratkoga
odgovora
Zadaci
produženoga
odgovora
Ukupno
1. Psihologija kao teorijska
i primijenjena znanost
1 1 1 3
2. Biološke osnove ponašanja 1 2 0 3
3. Osjeti i percepcija, 1 2 1 4
4. Emocije i motivacija 1 2 1 4
5. Pamćenje i učenje 1 2 0 3
6. Inteligencija i stvaralaštvo 1 2 1 4
7. Razvojna psihologija 1 2 0 3
8. Ličnost i psihički poremećaji 1 2 1 4
9. Socijalna psihologija 1 2 1 4
UKUPNO 9 (28,5%) 17 (53%) 6 (18,5%) 32 (100%)
U prethodnoj tablici prikazano je kakva je struktura Testa znanja iz psihologije pri čemu se može
specificirati i vrsta pojedinih zadataka (npr. zadaci otvorenog tipa, zadaci s ponuđenim odgovorima)
koje će test sadržavati. Na ovaj način se osigurava sadržajna valjanost kao i zastupljenost određenih
vrsta zadataka te procesa koji se žele mjeriti. Tijekom koncipiranja strukture testa predviđeno je da
9
se test sastoji od tri vrste zadataka, te da se oni boduju na sljedeći način: odgovori u zadacima
višestrukoga izbora boduju se s 0 ili 1 bod, odgovori u zadacima kratkoga odgovora s 0, 1 i 2 boda,
a zadaci produženoga odgovora s 0,1,2, i 3 boda ovisno o odgovoru. Kako bi se osigurala sadržajna
valjanost potrebno je voditi računa da se zadaci iz različitih područja ravnomjerno rasporede s
obzirom na vrstu zadatka. Naime ukoliko autori ne vode računa o broju bodova koje može donositi
svako područje reprezentativnost testa može biti narušena unatoč činjenici da je iz svakog područja
odabran razmjeran broj zadataka. Naravno da sastavljanje ovakvog testa podrazumijeva da je autor
na početku nekog nastavnog procesa imao ideju što očekuje da njegovi polaznici znaju i mogu
nakon završetka nastave.
U Standardima za pedagoško i psihološko testiranje (APA, 1999.) se koristi izraz okvir testa pod
kojim se podrazumijeva opis aspekata (sadržaja, vještina, procesa i dijagnostičkih svojstava)
mjerenog konstrukta ili područja. Koncipiranje testovnog okvira može se temeljiti na teoriji, na
analizi sadržaja mjerenog područja ili proučavanju područja koje obuhvaća neki zadani kriterij.
Okvir testa polazište je za kasniju evaluaciju testa osobito za provjeru sadržajne valjanosti. U ovoj
fazi važno je prosuditi i relevantnost pojedinih sadržaja s obzirom na predviđenu namjenu testa.
Npr. pitanje o vremenskom određenju nekog događaja može spadati u sadržaj testa znanja iz
povijesti. Pri tome se od ispitanika može tražiti točan datum događaja, samo godina ili samo
stoljeće u kojemu se događaj zbio. Autor mora odrediti je li u određenoj situaciji relevantno
poznavanje datuma ili je dovoljno provjeriti smješta li ispitanik ispravno pojedini događaj u širi
vremenski kontekst. Pri određenju područja sadržaja u isto vrijeme treba voditi računa o osobinama
populacije na kojoj će test biti primijenjen. Kada su donijete odluke o tome što test treba mjeriti i
što njegovi rezultati trebaju obuhvatiti, sljedeći korak je razrada testovnih specifikacija, odnosno
razmatranje specifičnih karakteristika testa bitnih za njegovu izradu.
Sljedeća dva odjeljka nadovezuju se na određenje predmeta mjerenja i uključuju razradu i
vrednovanje osnovnih specifikacija testa, tj. određenje bitnih karakteristika na osnovi kojih će se
izraditi testovni sadržaj, omogućiti vrednovanje i interpretacija dobivenih rezultata te provoditi
postupci provjere metrijskih karakteristika testa.
2. ODREĐENJE OSNOVNE NAMJENE I UVJETA PRIMJENE TESTA
Osnovne značajke i razvoj testa u značajnoj mjeri ovise o zadanoj namjeni testa. Poznavanje
primarne svrhe testa uvjetuje brojne odluke vezane uz izradu testa, kao što su duljina testa, vrijeme
primjene, zahtjevi koji se postavljaju pred ispitanika, postupak izražavanja ukupnog rezultata i dr.
Neki od važnih informacija o mogućim uvjetima primjene testa mogu biti:
a) Hoće li se test koristiti u selekcijske svrhe? Ukoliko hoće, može se očekivati davanje socijalno
poželjnih odgovora ili različiti oblici simulacije, pa ih strukturom testa treba nastojati onemogućiti.
U ovom slučaju informacije dobivene metodom samoprocjene mogu biti upitne valjanosti.
10
b) Hoće li se na osnovi testovnih rezultata donositi odluke vezane individualni rezultat ispitanika
tako da će utjecati na njegov status (prijem na posao studij i sl.)? Ukoliko hoće, nužno je
minimalizirati pogrešku mjerenja što znači da treba voditi računa da test ima visoku pouzdanost.
c) Na kojemu dobnom uzrastu će se test primjenjivati? Ukoliko se radi o mlađim dobnim uzrastima
vrijeme trajanja ne smije biti predugo zbog niže koncentracije, a također sadržaj mora biti
prilagođen tako da bude razumljiv djeci.
d) Kakva je obrazovna struktura i poznavanje jezika potencijalnih ispitanika? Ukoliko se radi o niže
obrazovanim ispitanicima uputa i sadržaj moraju biti izrađeni tako da budu razumljivi i jasni
ispitanicima. Pored toga, ako se očekuju ispitanici koji ne vladaju dobro jezikom, poželjno je
koristiti neverbalni sadržaj.
e) Koliko je vremena raspoloživo za primjenu? Ponekad je vrijeme raspoloživo za primjenu testa
faktor koji će utjecati na odluku o broju zadataka i trajanju testa. Posebno je važno uzeti u obzir
hoće li se test koristiti kao dio neke šire baterije testova.
f) Hoće li primjena biti anonimna ili ispitanici moraju dati svoje identifikacijske podatke? Je li
predmet mjerenja „socijalno osjetljiv“ (npr. bračna vjernost, nacionalni stereotipi, seksualna
orijentacija)?
g) Tko će primjenjivati test? Ukoliko to mogu biti različiti stručnjaci ili suradnici sama primjena
testa mora biti jednostavna s vrlo detaljnom uputom.
h) Postoji li mogućnost da se otkrivanjem testovnog sadržaja izazove pristranost odnosno pojedini
ispitanici dovedu u povoljniji položaj? U brojnim situacijama ispita, prijemnih ispita ili državne
mature sadržaj testa mora do same primjene ostati u potpunoj tajnosti.
i) Koliki broj ispitanika se očekuje? U slučaju kada se očekuje veliki broj ispitanika koji će biti
jednokratno ispitani potrebno je voditi računa o osjetljivosti instrumenta.
j) Postoji li potreba za ekvivalentnom formom testa?
Iako u pojedinim slučajevima autori pristupaju izradi testa s idejom da njegova primjena bude što
šira ipak potencijalnim korisnicima trebaju naznačiti u kojim situacijama je primjena testa i
njegovih rezultata opravdana, a u kojim slučajevima primjena nije primjerena. Neki primjeri
određenih ciljeva za koje se mogu izrađivati mjerni instrumenti:
- ispitati depresivnost kod prognanika
- ispitati kognitivne sposobnosti kandidata za posjedovanje oružja
- ispitati perceptivne sposobnosti pilota borbenih zrakoplova
- ispitati znanje matematike kandidata za studij elektrotehnike
- ispitati odnos učenika petog do osmog razreda osnovne škole s roditeljima
11
2.1. Moguće strategije pri izradi kompozitnog testa
Izbor zadataka za konačnu verziju testa ovisi, između ostalog, o nekim poželjnim
psihometrijskim osobinama konačne verzije testa. U skladu s tim mogu se koristiti različite
strategije pri izboru zadataka u konačnu verziju testa. Analiza testovnih zadataka odnosi se na
problem procjene statističkih parametara s ciljem njihova izbora i komponiranja u kompozitne
mjerne postupke, koji će imati neke zadane ili poželjne metrijske karakteristike. Tako cilj
konstrukcije može biti mjerni instrument koji će optimalno diskriminirati uzorak inferiornih ili
uzorak superiornih ispitanika, minimalizirati pogrešku mjerenja, konstrukcija paralelne forme
nekog postojećeg testa i sl. Prilikom konstrukcije testa i izbora zadataka moguće je koristiti različite
strategije ovisno o primarnoj namjeni testa.
Dvije dominantne strategije pri izradi testa, a koje polaze od dvije moguće namjene testa, mogu se
opisati na sljedeći način:
1. Dominantna strategija pri izboru zadataka jest sačiniti test u kojemu svi zadaci mjere isti
konstrukt, tj. cilj je povećanje unutarnje konzistencije testa, odnosno homogenizacija testovnog
sadržaja. Autor u tom slučaju nastoji maksimalizirati korelaciju između zadatka i neke mjere
konstrukta, odnosno nastoji da prosječna korelacija među zadacima bude što viša.
2. Druga moguća strategija usmjerena je na konstrukciju instrumenta s prediktivnom valjanošću za
neki zadani kriterij. U ovom slučaju nastoji se maksimalizirati korelacija između ukupnog rezultata
u testu i neke vanjske kriterijske varijable. U skladu s načelima koja vrijede za linearne
kombinacije, u takav test uvrštavaju se čestice koje su povezane sa zadanim kriterijem, a u
međusobno su što nižim korelacijama. Prilikom izrade ovakvog testa čestice se najčešće biraju na
osnovi korelacije između zadataka i vanjskog kriterija s kojim bi test trebao biti povezan. Ovakva
strategija izrade testa rezultira određenim poteškoćama. Tako zbog heterogenosti sadržaja
interpretacija ukupnog rezultata u testu nije moguća ili nije opravdana, procjene pouzdanosti tipa
unutarnje konzistencije nisu prikladne, a valjanost testa vezana je primarno uz jedan zadani kriterij.
Većina autora se slaže da je u svrhu konstrukcije prediktorskih instrumenata bolje optimalno
kombinirati nezavisne homogene testove u bateriju, nego to činiti sa zadacima u jednom testu
(Nunnally, Bernstein, 1994).
3. ODREĐENJE OPĆIH KARAKTERISTIKA KONAČNE VERZIJE TESTA
– IZRADA TESTOVNIH SPECIFIKACIJA
Prema standardima za psihološko i pedagoško testiranje (APA, 1999) testovne specifikacije
uključuju:
a) oblik zadataka, zadaća ili pitanja
b) oblik odgovora ili načina odgovaranje i vrstu postupaka ocjenjivanja
c) naznačiti poželjna psihometrijska svojstva čestica kao što su njihova težina i diskriminativnost
d) naznačiti poželjna svojstva testa: težina, osjetljivost, pouzdanost, korelacije među zadacima
12
e) naznačiti očekivane karakteristike vezane uz valjanost: faktorsku strukturu, korelacije sa srodnim
testovima i kriterijskim varijablama
f) trajanje primjene testa
g) karakteristike planirane populacije ispitanika i postupci primjene
h) naznačiti hoće li vrednovanje rezultata biti normativno ili kriterijsko, odnosno koji od tih pristupa
se preporučuje
i) upisuju li ispitanici odgovore u test ili u list za odgovore
k) postoji li mogućnost računalne primjene testa
Nunnaly i Bernstein (1994) naglašavaju važnost promišljanja svih bitnih značajki testa koji
izrađujemo i nazivaju ih planom izrade testa. Aktivnosti na izradi testa temelje se na ovim
specifikacijama. Kod testova znanja (postignuća) vrlo često se u tablici specificira broj zadataka (i
način njihovog bodovanja) s obzirom na obrazovne ili kognitivne razine. Tako se npr. može odrediti
u skladu s Bloomovom ili nekom drugom taksonomijom obrazovnih ishoda koliko će zadataka u
testu ispitivati pamćenje, razumijevanje, primjenu ili neku drugu razinu koju je trebalo definirati pri
samoj izradi programa koji se testom vrednuje. Ovakva tablica se često u engleskoj literaturi naziva
blueprint. Na taj se način sprečava da se testom ispituje samo pamćenje određenih sadržaja (npr.
reprodukcija definicija ili pojedinih imena ili naziva, već da se ispituje i razumijevanje odnosa
među pojedinim sadržajima, kao i mogućnost njihove primjene). Tako npr. pitanje o autoru nekog
koeficijenta korelacije ukazuje na pamćenje, usporedba i procjena prikladnosti dva različita
koeficijenta ukazuje na razumijevanje, dok odabir prikladnog koeficijenta i njegovo izračunavanje
ukazuje na mogućnost ispitanika da određeno znanje i primjeni.
3.1. Dužina testa
Odluka o dužini testa povezana je s nekoliko aspekata primjene testa, a najčešće treba uzeti u obzir
psihometrijske i praktične razloge. Tijekom faze probne primjene testa treba procijeniti koliko je
vremena potrebno ispitanicima za rješavanje pojedinih zadataka. Na osnovi tih informacija može se
učiniti procjena o vremenu potrebnom za primjenu testa ovisno o broju zadataka. Prvi važan
čimbenik pri donošenju odluke jest raspoloživo vrijeme za primjenu. Ako se test želi koristiti u
školskom sustavu onda je poželjno da vrijeme njegove primjene ne traje dulje od jednog školskog
sata. Kada se test želi koristiti unutar baterije drugih testova onda vrijeme njegove primjene ne
smije biti predugo. Drugi argument za odluku o broju zadataka jest željena pouzdanost odnosno
veličina pogreške mjerenja. U većini slučajeva kada se na osnovi testovnih rezultata donose odluke
koje utječu na status ispitanika nužno je da testovni rezultati sadrže malu količinu pogreške. U tom
slučaju test mora imati relativno veći broj zadataka. Ukoliko su barem približno poznate veličine
interkorelacija među zadacima testa moguće je uporabom Spearman-Brownove formule procijeniti
koliko bi zadataka test trebao imati da dosegne neku zadanu pouzdanost. Tako npr. iskustvo u
primjeni testova čiji se zadaci boduju s 0 i 1, tj. kod kojih uradak u zadacima predstavlja binarnu
varijablu, pokazuje da je prosječna korelacija među zadacima takvog testa približno 0,1. Iz toga
proizlazi da bi test morao imati barem 50 zadataka da ostvari pouzdanost od približno 0,85. U
slučaju da je prosječna korelacija među zadacima 0,2 za ostvarenje iste pouzdanosti ukupnih
rezultata bit će dovoljna 23 zadatka. Treći čimbenik može biti osjetljivost ukupnih rezultata, koja je
bitna prilikom primjene na velikim uzorcima ispitanika. U tom slučaju je poželjno da test ima veći
13
broj zadataka, odnosno da omogućuje veći broj razlikovanja među ispitanicima. U slučajevima kada
raspoloživo vrijeme primjene nije ograničeno autori moraju uzeti u obzir da kod predugih testova
koncentracija i motivacija ispitanika tijekom vremena opadaju što može utjecati na rezultate,
osobito u funkciji dobi. Na duljinu testa mogu utjecati i drugi faktori poput heterogenosti područja
sadržaja. Ako se radi o širokom i relativno heterogenom području za ostvarenje sadržajne valjanosti
bit će potrebno više zadataka kako bi sva područja bila kvalitetno reprezentirana testovnim
sadržajem.
4. IZRADA PRVE VERZIJE TESTA
Ključne dijelove testa predstavljaju: opća uputa u test, zadaci te opis odgovora koji se smatraju
točnim ili indikativnim kao i procedura za njihovo bodovanje. Stoga autori/i ovom dijelu moraju
pristupiti temeljito.
4.1. Izrada čestica
Na osnovi operacionalne definicije predmeta mjerenja, te određenja područja sadržaja prelazi se na
kreiranje indikatora mjerenog atributa. Na osnovi određenja područja sadržaja koje se želi zahvatiti
testom svako ponašanje ili proces koji ukazuje na zadani konstrukt potrebno je pretvoriti u
konkretan zadatak. U prvoj fazi indikatori mogu biti razrađeni na teorijskoj razini, a zatim pretočeni
u konkretna pitanja ili zadatke, koji će nakon primjene imati status varijabli, te omogućavati
mjerenje. Zadatak ili čestica testa postat će indikator predmeta mjerenja ukoliko se može dokazati
da variraju na neki sukladan način s konstruktom koji bi trebali mjeriti. Na osnovi teorijske razrade
konstrukta, prethodnih iskustva te analize srodnih mjernih instrumenata autor/i moraju odlučiti
kakav će oblik imati čestice odnosno dijelovi testa. To u značajnoj mjeri ovisi o području mjerenja,
a različite vrste zadataka i njihov utjecaj na psihometrijske karakteristike testa opisane su u
poglavlju XX. Uz svaki indikator mogu se razmotriti barem tri pitanja:
a) kako se indikator može izazvati, tj. kako će izgledati podražajni materijal ili zadatak (podražaj:
testovni zadatak, pitanje, crtež,...)
b) kako se ponašanje ili reakcija ispitanika može opaziti i registrirati (ispitanik rješava zadatak, daje
procjenu, bira ponuđenu opciju,...)
c) kako se opažena reakcija ispitanika može vrednovati, tj. kvantificirati
14
U većini slučajeva važno je učiniti razliku između teorijskog aspekta ponašanja i zadatka koji
predstavlja konkretnu operacionalizaciju odnosno mjeru tog ponašanja. U slučaju da analiza pokaže
da neka čestica ima lošu valjanost uzrok može biti irelevantnost tog aspekta ponašanja na teorijskoj
razini (npr. to ponašanje nije relevantno za zadani konstrukt) ili je zadatak loše formuliran (pitanje
nije jasno, ljestvica na kojoj se biraju odgovori nije jasna i sl.).
Primjer 1. Jedno od ponašanja koje su u osnovi konstrukta ekstraverzije kao osobine ličnosti
može biti teorijski konceptualizirano kao: „ponašanja koje karakteriziraju česti kontakti s
drugim ljudima“.
Sada je potrebno domisliti konkretan zadatak koji bi omogućavao mjerenje ovog aspekta
ekstraverzije. U nastavku su navedena tri zadatka koji bi mogli poslužiti kao mjere navedenog
ponašanja:
1. Volim se družiti s drugim ljudima DA NE
2. Imam puno prijatelja
a) sasvim točno, b) uglavnom točno, c) uglavnom netočno, d) potpuno netočno
3. Ne volim provoditi vrijeme sam a) rijetko b) uglavnom c) često
Primjer 2. Jedan od očekivanih ishoda nastave iz psihologije može biti određen kao
„Poznavati osobe važne za razvoj znanstvene psihologije“. Čestice kojima bi se mogao mjeriti
ovaj indikator mogu biti:
1. Navedi osnivača prvog laboratorija eksperimentalne psihologije: _____________
2. Tko je osnovao prvi laboratorij eksperimentalne psihologije u Laipzigu:
1) W. Wundt b) W. James c) S. Freud d) R. Bujas
Primjer 3. Jedan od simptoma anksioznosti može biti glavobolja. Sljedeća pitanja mogu
ukazivati na intenzitet navedenog simptoma.
1. Imate li glavobolje DA NE
2. Jeste li imali problema s glavoboljom u proteklih mjesec dana:
a) uopće ne b) rijetko c) često d) redovito
Primjer 4. Zadatak kojim bi se mogla ispitivati sposobnost ispitanika za prostorno predočavanje
likova može izgledati ovako:
U zadatku je zadan lik na lijevoj strani i 6 njemu sličnih likova s desne strane. Vaš je
zadatak da odredite koji je od likova s desne strane moguće dobiti okretanjem (rotiranjem) zadanog
lika u lijevu ili desnu stranu. Pri tom se zadani lik ne može okretati zrcalno.
15
Razmislite koja bi sve ponašanja i procese mogli uključiti u opis niže navedenih konstrukata, te
kako bi se mogli izazivati odnosno mjeriti.
Motivacija za studij
Tolerancija na frustraciju
Duhovitost (humor)
Emocionalna inteligencija
Autor značajnu pažnju treba posvetiti izradi testovnih zadataka jer o njihovoj kvaliteti ovise sva
psihometrijska svojstva testa. Broj zadataka koje treba izraditi za probnu verziju testa treba biti veći
od predviđenog broja zadataka za konačnu verziju testa, kao bismo nakon sadržajne i empirijske
analize mogli zadržati dovoljan broj zadataka, te iz testa isključiti zadatke koji ne zadovoljavaju
postavljene kriterije. Koliko probna verzija testa treba sadržavati zadataka ovisi o području mjerenja
te iskustvu autora, ali veći broj zadataka ostavlja veći prostor za izbor kvalitetnih zadataka.
4.2. Uputa za rad i zadaci za vježbu
Uvodni dio svakog testa sadrži uputu koja treba biti kratka i jasno uputiti ispitanika u njegov
zadatak, koliko mu je vremena na raspolaganju, gdje trebaju upisivati odgovore, te kakve su
moguće posljedice određenih strategija koje ispitanik koristi (npr. u slučaju kada ne zna odgovor).
Kod testova sposobnosti poželjno je u uvodnom dijelu testa navesti barem jedan primjer zadatka s
objašnjenim postupkom rješavanja te načinom odabira odgovora. Ovo je osobito važno ukoliko
ispitanici odgovore ne upisuju u svezak sa zadacima nego u list za odgovore.
16
U nastavku je naveden primjer upute u Test rječnika.
UPUTA
Ovim testom ispituje se Vaše poznavanje stranih riječi koje se koriste u svakodnevnom govoru.
U svakom zadatku navedena je jedna riječ, a ispod nje 5 mogućih značenja te riječi. Vaš je zadatak
da odaberete jedan ispravan odgovor koji opisuje značenje zadane riječi i da u listu za odgovore označite taj
odgovor.
Primjer: TRANZICIJA
a) pomak
b) putovanje
c) stanje
d) siromaštvo
e) prijelaz
Ispravan odgovor u ovom slučaju jest odgovor označen slovom e) prijelaz, budući da taj odgovor
jedini ispravno opisuje značenje zadane riječi. Stoga bi u listu za odgovore pored primjera trebalo označiti
odgovor E. Vodite računa da je u svakom zadatku samo jedan od ponuđenih odgovora ispravan.
U nastavku slijedi 30 sličnih zadataka, a Vaš je zadatak da uz svaki zadatak odaberete jedan
ponuđeni odgovor.
Ukoliko Vam značenje riječi nije poznato odaberite onaj od ponuđenih odgovora koji se vama
osobno čini najvjerojatnijim točnim odgovorom.
NIŠTA ne upisujte u ovaj svezak sa zadacima!
Odgovore označite u listu za odgovore!
Ne okrećite list dok ne dobijete uputu!
4.3. Izrada ključa za bodovanje (protokola za ocjenjivanje)
Tijekom izrade i konceptualizacije određenog zadatka nužno je odmah zabilježiti odgovore ili
reakcije ispitanika koje će se prihvaćati kao ispravne ili indikativne. Kod zadatka sposobnosti
korisno je da autor zadatka pored točnog odgovora navede i obrazloženje točnog odgovora.
Protokol s predviđenim točnim odgovorima podložan je promjenama tijekom procesa analize
17
zadataka. Na kraju ovog dijela rada na testu potrebno je spojiti uputu i zadatke u cjelinu, nakon čega
je poželjno provjeriti jezičnu ispravnost teksta, odnosno ispraviti moguće pravopisne i gramatičke
pogreške.
Primjer izrade ključa za bodovanje zadatka koji glasi:
Objasnite zašto klasična formula kvocijenta inteligencije nije prikladna za izražavanje stupnja
inteligencije odraslih ispitanika.
Očekivani odgovor trebao bi sadržavati sljedeće informacije:
Klasična formula za izračunavanje nije prikladna za izražavanje inteligencije odraslih, jer nakon
adolescencije mentalna dob ne raste ili je njezin porast usporen, dok se kronološka dob kontinuirano
povećava. To u praksi znači da bi kvocijent za starije ispitanike bio sve manji budući da vrijednost u
brojniku izraza za kvocijent inteligencije (mentalna dob) raste sporije od vrijednosti u nazivniku
(kronološka dob). Npr. 70-godišnjak koji rješava testove namijenjen 50-godišnjacima imao bi
kvocijent inteligencije oko 70 što nije realno jer u stvarnosti on ne funkcionira kao intelektualno
zaostala osoba. Isto tako bi npr. 50-godišnjak za ostvarenje kvocijenta od 120 trebao rješavati
testove namijenjene 60-godišnjacima što očito nema smisla.
Uputa za bodovanje uratka u ovom zadatku:
3 boda – objašnjenje zadovoljava zahtjeve pitanja. Navodi problem stalnog povećanja kronološke
dobi tokom godina dok mentalna dob ostaje ista. Odgovor je logično strukturiran, sadržajan i
usmjeren na pitanje. Postoji mogućnost da neki odgovori koriste primjer prilikom odgovaranja (npr.
Ista mentalna dob kod 20-godišnjaka i 40- godišnjaka dovodi do različitog IQ).
2 boda - pitanje je djelomično odgovoreno. Odgovor sadrži točnu formulu za izračunavanje
kvocijenta inteligencije i navodi problem starenja odraslih ispitanika, ali ove dvije informacije nisu
povezane tj. nedostaje objašnjenje.
1 bod - odgovor je vrlo neprecizan, npr. navodi formulu kvocijenta inteligencije ili navodi da
kvocijent inteligencije pada s dobi bez ikakvog dodatnog objašnjenja.
0 bodova – odgovor je u potpunosti netočan.
Kod zadataka otvorenog tipa temeljito izrađen ključ za bodovanje uratka povećava objektivnost
testa.
4.4. Izrada lista za odgovore
U pojedinim slučajevima ispitanici svoje odgovore ne upisuju direktno u test odnosno svezak s
testovnim zadacima već u prilagođeni list za odgovore. Jedan od razloga za primjenu listova za
18
odgovore je ekonomičnost budući da je trošak tiska testova veći od listova za odgovore i u tom
slučaju korisnik iste testove može koristiti kroz duže vremensko razdoblje. Drugi i možda češći
razlog jest mogućnost brže analize budući da je korekcija odgovora brža kroz listove za odgovore, a
u posebnim slučajevima kada su listovi prilagođeni moguće je učitavanje rezultata provesti
primjenom uređaja za optičko učitavanje podataka čime se višestruko skraćuje vrijeme potrebno za
analizu rezultata.
U svakom slučaju list za odgovore mora biti pregledan i uz svaki odgovor mora biti jasno označen
redni broj zadatka u testu kako bi se izbjegle pogreške prilikom upisa odgovora u list. Kako
ispitanici prilikom uporabe listova za odgovore određeno vrijeme troše za pronalaženje mjesta u
listu za odgovore na koje treba upisati odgovor autori trebaju provjeriti treba li u tom slučaju
produljiti ukupno vrijeme rada u odnosu na situaciju kada se odgovori upisuju direktno u test.
19
5. LOGIČKA I SADRŽAJNA ANALIZA ČESTICA
Nakon što je sačinjen preliminarni skup čestica, te razrađena uputa može se sačiniti prva verzija
testa. Nakon što se pregleda i provjeri prva verzija poželjno ju je dati neovisnim stručnjacima na
recenziju kako bi proveli sadržajnu i logičku analizu. Poželjno je da ovaj posao provjere učini osoba
koja nije sudjelovala u samoj izradi testa, a koja poznaje osobitosti područja na koje se odnosi
mjereni konstrukt, te koja poznaje osnovna načela izrade testa. Recenzentu je dostupan i ključ za
bodovanje na koji također treba dati svoje komentare odnosno prijedloge za moguća poboljšanja.
Od recenzenta se očekuje i povratna informacija o sadržajnoj valjanosti testa, odnosno
relevantnosti pojedinih čestica za mjerenje zadanog konstrukta. Nakon ove procedure korisno je da
autor/autori i recenzent(i) rasprave sve komentare te donesu odluku o izmjenama koje treba učiniti u
prvoj verziji testa.
Nakon učinjenih izmjena test se prvi puta može eksperimentalno primijeniti na stvarnim
ispitanicima. Kroz ovu primjenu nastoje se dobiti dodatne povratne informacije o razumljivosti i
prikladnosti upute i testovnog sadržaja. Ovakva eksperimentalna primjena prethodi prvoj pravoj
primjeni na probnom uzorku ispitanika. Preporučljivo je da ova primjena testa bude individualna na
motiviranim ispitanicima za koje se može pretpostaviti da imaju visoko razvijen konstrukt koji se
mjeri testom. Najčešće se primjenjuje tehnika „razmišljanja na glas“. Uz prisutnost ispitivača
ispitanik rješava test pri čemu razmišlja na glas, a ispitivač bilježi procese i asocijacije koje
ispitanik ima za vrijeme odgovaranja na zadatke. Ispitivač također registrira i vrijeme koje je
potrebno ispitaniku za odgovaranje na pojedine zadatke, odnosno cijeli test. Bilješke je potrebno
unijeti u prethodno pripremljene protokole. Nakon individualne primjene na nekoliko probnih
ispitanika autor/autori trebaju učiniti dodatne izmjene u prvoj verziji testa ukoliko za tim ima
potrebe.
U pojedinim slučajevima, a osobito kada predtestiranje na većim uzorcima nije moguće, ova faza
može se provesti i uporabom tzv. fokusne grupe. Kada autori žele steći dubinski uvid u način kako
ispitanici doživljavaju i razumijevaju sadržaj testa i zadatke, ali i test u cjelini (jasnoća upute,
trajanje rješavanja zadataka, kvaliteta konstrukcije pojedinih zadataka, moguća alternativna rješenja
zadataka, ...) kroz vođeni razgovor s probnim ispitanicima mogu dobiti odgovore na konkretna
pitanja i nedoumice. Sudionici fokusnih grupa najčešće su pripadnici ciljnog uzorka kojemu je test
namijenjen. Pored toga mogu biti podijeljeni u skupine s obzirom na razvijenost konstrukta ili neke
relevantne osobine (npr. učenici s lošim, prosječnim i izvrsnim školskim uspjehom). U toj situaciji
ispitanici najprije rješavaju test, nakon čega slijedi vođena rasprava koju usmjerava moderator
grupe. Na ovaj način se mogu prikupiti dodatne informacije korisne za poboljšanje kvalitete testa, a
ove kvalitativne informacije korisno je kombinirati s kvantitativnim podacima koji se dobivaju
primjenom testa na većim uzorcima (Ćurković, Pavlina, Buljan-Culej, 2008.).
Npr. prilikom izrade upitnika religioznosti korisno je dobiti povratnu informaciju o razumijevanju
pojedinih pitanja i procesima koje ta pitanja izazivaju kod osoba koje su visoko religiozne i osoba
koje se ne smatraju vjernicima ili su pripadnici različitih religija. Kao primjer pitanja koje može biti
shvaćeno na dva načina navest ćemo pitanje iz upitnika za mjerenje ljubomore:
Sumnjam da me moj partner/partnerica vara DA NE
20
Ovo pitanje može se razumjeti na dva načina. Prvi je da imam sumnju, tj. pretpostavljam da me moj
partner/partnerica uistinu vara, dok se pitanje može shvatiti i tako da sumnjam da je to moguće, tj.
izražavam sumnju ili nevjericu u takvu mogućnost. Pitanja koja sadrže određene nejasnoće ili se
mogu različito razumjeti nakon ovakvih analiza lakše je detektirati i isključiti iz testa ili ih doraditi.
U slučaju da autori izostave ovaj dio provjere zadataka izlažu se opasnosti da se neke pogreške
otkriju tek znatno kasnije te da ti nedostatci značajno umanje kvalitetu i upotrebljivost testa.
6. PRIMJENA PRVE VERZIJE TESTA NA PROBNOM UZORKU
Nakon što je sačinjena prva (preliminarna) verzija testa potrebno ju je primijeniti na probnom
uzorku ispitanika. U načelu ovaj uzorak bi trebao biti reprezentativan za populaciju na kojoj se
namjerava primjenjivati konačna verzija testa. Poželjno je da veličina ovoga uzorka omogućuje
statističku stabilnost parametara zadataka, a u većini slučajeva za ovu svrhu prihvatljivi su uzorci
veći od 150-200 ispitanika uz pretpostavku heterogenosti ispitanika s obzirom na mjereni konstrukt.
Za vrijeme ove probne primjene poželjno je registrirati vrijeme koje je većini ispitanika bilo
potrebno da odgovore na sve zadatke. Druga je mogućnost da se od ispitanika zatraži da nakon
svakih npr. 10 minuta označe na kojem se zadatku trenutno nalaze. Pored toga od ispitanika je
korisno nakon završetka primjene testa zatražiti povratnu informaciju o svim nejasnoćama koje su
imali odnosno zadacima koji su kod njih stvarali poteškoće. Sve komentare potrebno je zabilježiti
kako bi se kasnije pri odabiru zadataka za konačnu verziju testa mogli uzeti u obzir.
21
7. ANALIZA I IZBOR ZADATAKA ZA KONAČNU VERZIJU TESTA
Nakon što su na probnom uzorku prikupljeni podaci pristupa se postupku empirijske analize čestica
te izbora čestica za konačnu verziju testa. U ovom dijelu opisat ćemo proceduru analize i izbora
zadataka s ciljem izrade testa homogenog sadržaja čiji zadaci u što je mogućem većem stupnju
mjere zadani konstrukt. Pored toga pretpostavit ćemo da se ne radi o pravom testu brzine, tj. da
vrijeme rada ne utječe presudno na rezultat ispitanika.
Mogu se razlikovati u osnovi dva opća pristupa izboru zadataka. Prvi pristup može se opisati kao
racionalni i podrazumijeva da autor (autori) testa sam na osnovi logičke ili teorijske analize, te
osobnog iskustva donosi odluku o zadacima koje će uvrstiti u konačnu formu testa. Drugi pristup
može se nazvati empirijskim i podrazumijeva da se odluka o izboru zadataka za konačnu verziju
testa donese nakon primjene testa na uzorku ispitanika te da se pri odluci uzimaju u obzir empirijski
dobiveni kvantitativni pokazatelji (Guilford, 1954.). U većini slučajeva je poželjna kombinacija oba
pristupa te podudaranje različitih pokazatelja valjanosti zadatka.
Analiza zadataka predstavlja skup postupaka za procjenu osobina čestica kompozitnih testova u
svrhu njihova izbora i kombiniranja u cjelovite mjerne postupke koji će imati neke poželjne
karakteristike. Analiza zadataka predstavlja dio procesa izrade testa, a vrlo je korisna i u kasnijima
fazama razvoja testa prilikom njegove psihometrijske evaluacije.
Logička osnovica za provođenje analize zadataka može se argumentirati na sljedeći način:
1) Sve kvantitativne osobine ukupnih testovnih rezultata u potpunosti su određene osobinama
njihovih elemenata (zadataka). Kao što je ranije pokazano aritmetička sredina i varijanca ukupnih
testovnih rezultata matematički se mogu izvesti iz pojedinih karakteristika zadataka koji čine test.
2) Bazična pretpostavka analize zadataka jest da određene statističke karakteristike zadataka ostaju
nepromijenjene (do određene aproksimacije) pri izmjeni konteksta u kojemu se procjenjuju, tj. da
postoji njihova statistička stabilnost. Korisnici moraju biti svjesni činjenice da uporaba testa na
selekcioniranom uzorku može promijeniti parametre utvrđene na reprezentativnom uzorku iz ciljane
populacije.
Razvijen je relativno velik broj statističkih parametara testovnih čestica konzistentnih s
pretpostavkama klasične teorije testova. Neke od osnovnih polazišta prilikom razvoja procedura
analize zadataka su:
a) uspostavljanje matematičke relacije između određenih parametara zadataka i parametara ukupnih
rezultata.
b) određivanje metode procjene parametara, tako da oni, ako je moguće, budu neovisni o
karakteristikama validacijskog uzorka. Lord i Novick (1968) naglašavaju da statistika zadataka i
parametri ne opisuju samo zadatak, već obično i uzorak ispitanika na koje je zadatak primijenjen.
c) izbor najefikasnijih metoda, s matematičkog i računskog stanovišta, za procjenu parametara
zadataka. Poželjno je da je procjenu parametra moguće izvršiti indikatorom koji ima poželjna
22
statistička svojstva, kao što su mala pogreška uzorkovanja, poznata distribucija uzorkovanja i
jednostavnost računanja.
Pored toga jedna od temeljnih pretpostavki jest statistička neovisnost odgovora na jedan
zadatak u odnosu na druge zadatke u kompozitu. Pojednostavljeno to znači da se vjerojatnost
odgovora na jedan zadatak kada ga analiziramo izdvojenog iz cjeline ne bi trebala mijenjati kada se
taj zadatak analizira unutar skupine zadataka. U praksi se ipak može dogoditi da prethodni zadaci
(zbog uvježbavanja ili uvida u određene procese) povećaju vjerojatnost odgovora u ciljanom
zadatku. Kod testova znanja ponekad se dogodi da je odgovor na jedan zadatak djelomično sadržan
u prethodnim zadacima ili je odgovor na neki prethodni zadatak mogao utjecati na rješavanje
ciljanog zadatka. To znači da pojedine karakteristike zadatka u statističkom smislu ovise o drugim
zadacima.
Analiza zadataka najčešće uključuje analizu dva različita aspekta osobina testovnih zadataka:
1) Prva skupina karakteristika zadataka odnosi se na tzv. univarijatne karakteristike zadataka. Ove
karakteristike mogu se analizirati zasebno za svaki zadatak neovisno o drugim varijablama ili
ukupnom uratku u testu. U ovu kategoriju spadaju mjere težine zadatka (indeksi lakoće i težine kod
binarnih zadataka ili aritmetička sredina) i mjere osjetljivosti zadatka (varijanca ili standardna
devijacija, te analiza frekvencije točnih odgovora).
2) Drugi aspekt analize zadataka odnosi se na diskriminativnu valjanost zadataka. Diskriminativna
valjanost zadatka predstavlja stupanj u kojemu se zadatkom mjeri konstrukt koji bi zadatak trebao
mjeriti. Drugim riječima ispituje se stupanj u kojemu se zadatkom mogu razlikovati (diskriminirati)
ispitanici s obzirom na neku zadanu kriterijsku varijablu kojom se odmjerava zadani konstrukt ili
predmet mjerenja. Najčešće je to ukupni uradak u testu, ali se može koristiti bilo koja druga
smislena kriterijska varijabla. Ovdje treba razlikovati diskriminativnost u smislu opće osjetljivosti
zadatka, tj. broja različitih rezultata koje ispitanici mogu ostvariti u zadatku, od diskriminativne
valjanosti koja ukazuje na mogućnost razlikovanja ispitanika s obzirom na željeni konstrukt. Naime
zadatak može dobro razlikovati ispitanike, ali da to razlikovanje nije povezano s predmetom
mjerenja.
7.1. Mjere težine i osjetljivosti zadatka
7.1.1. Aritmetička sredina zadatka
Kao mjera težine zadatka najčešće se koristi aritmetička sredina, tj. zbroj svih odgovora podijeljen s
brojem ispitanika.
N
X
M
N
1
23
Ukoliko ispitanici za točno rješenje dobivaju veću numeričku vrijednost, veća aritmetička sredina
ukazuje na manju težinu zadatka. Kod mjera ličnosti veći broj ispitanika koji biraju indikativni
odgovor ne ukazuje na veću „težinu“ zadatka već na veću prisutnost te osobine u uzorku. Stoga je
preporučljivo umjesto pojma težina koristiti izraze „zastupljenost“ ili „učestalost“, iako je
psihometrijsko značenje identično.
Kod binarnih testovnih zadataka najčešće se kao indikator težine / lakoće zadatka koristi
indeks lakoće, tj. proporcija ispitanika koji točno / indikativno odgovaraju na zadatak
p
X
N
i
i
N
1 ,
gdje X može poprimiti samo dvije vrijednosti: nula ili jedan. Proporcija ispitanika koji nisu
odgovorili indikativno uobičajeno se označava kao indeks težine:
q=1-p.
U većini testova sposobnosti i znanja zadaci u kojima ispitanici nisu odabrali odgovor boduju se s
nula bodova. U pojedinim slučajevima vrijedi razmotriti koliki je broj takvih odgovora koji
nedostaju. Ukoliko je razlog nedostatak vremena moguće je dodatnu analizu uraditi na uzorku
ispitanika koji su odabrali neki odgovor u zadatku. U tom slučaju se može dogoditi da zadatak u
osnovi nije težak, ali je vrijeme za rad u testu bilo nedostatno. Ukoliko brzina rada nije bila od
primarnog interesa autorima ovu vrstu informacija treba posebno razmotriti.
Iako je problem utjecaja slučajnog pogađanja raspravljen ranije ovdje vrijedi još jednom upozoriti
na posljedice djelovanja slučajnog pogađanja na uradak ispitanika. Pored razvijenosti predmeta
mjerenja, na parametar težine utječe i mogućnost slučajnog pogađanja odgovora na zadatke
višestrukog izbora s A ponuđenih odgovora. Guilford je (1954) predložio metodu za korekciju
uratka u zadatku zbog mogućnosti slučajnog pogađanja, razvijenu uz dvije pretpostavke: a)
ispitanici se mogu podijeliti u dvije skupine oni koji znaju odgovor i oni koji pogađaju, b) oni koji
pogađaju podjednako biraju sve alternative
p
RW
A
T
ii
'
1
p' = procjena proporcije ispitanika koji stvarno znaju odgovor na zadatak
Ri = broj točnih odgovora na zadatak
Wi = broj netočnih odgovora na zadatak
A = broj alternativa
T = ukupan broj ispitanika koji su pokušali zadatak (T=R+W)
Ponekad ispitanici efikasnom eliminacijom netočnih ponuđenih alternativa mogu odabrati
točan odgovor. U tom slučaju točan odgovor ne ukazuje na pravi predmet mjerenja, te je stoga
važno ponuditi podjednako atraktivne alternative kod zadataka višestrukog izbora. Očito je da u
lakoceindekspN
tocnihfr
N
xM
)(
24
zadatku s po dva ponuđena odgovora aritmetička sredina od p=0,5 ukazuje na rezultat koji bismo
očekivali kada bi ispitanici po slučaju odabirali odgovore. Stoga bi uz pretpostavku o slučajnom
odabiru odgovora tek vrijednosti indeksa lakoće iznad 0,5 ukazivale na neku razvijenost predmeta
mjerenja kod ispitanika. Stoga bismo optimalnu osjetljivost u zadacima s A ponuđenih odgovora
mogli procijeniti na osnovi izraza:
popt = 0,5 + 0,5/A
To znači da bi u zadatku sa po dva ponuđena odgovora optimalna osjetljivost bila 0,5 + 0,5/2 =
0,75. Dakle maksimalna osjetljivost zadatka s dva ponuđena odgovora iznosila bi 0,75. Kod
zadataka s 3 ponuđena odgovora optimalna težina bila bi 0,67, s četiri odgovora 0,62, a kod
zadataka s 5 ponuđenih odgovora 0,6. Lord (prema Crocker i Algina, 1986) u simulacijskoj studiji
pokazuje kako bi optimalni indeksi lakoće zadataka u testu kada želimo povećati pouzdanost trebale
biti još i veće (npr. u zadacima s dva ponuđena odgovora on sugerira p= 0,85). U konačnici autor
treba nastojati prikupiti dodatne podatke o učestalosti slučajnog pogađanja budući da pretpostavka
o potpuno slučajnom odabiru odgovora relativno rijetko vrijedi za situacije rješavanja testova.
Neki autori, poput Reesa (prema Guilford, 1954), nasuprot navedenom objektivnom,
razvijaju koncept subjektivne težine zadatka, za koju se u nekim istraživanjima pokazalo da je
proporcionalna logaritmu njihove objektivne težine. Reese je napravio komparativnu studiju
objektivne i subjektivne težine, pri čemu je subjektivna težina izražena na dva načina: skaliranjem
zadataka na osnovi sudova metodom frakcija, te na osnovi proporcije subjektivnih pogrešaka
(ispitanik sam procjenjuje je li zadatak riješio točno ili nije). U oba slučaja odnos objektivne i
subjektivne težine opisan je krivuljom u obliku slova S. Indekse težine, kao objektivne mjere težine
zadataka moguće je usporediti s nekim drugim indikatorima težine zadatka. Jednu informaciju
mogu pružati procjene autora testa o očekivanoj težini zadataka, pored toga moguće je stručnjake iz
područja zatražiti da procjene težine zadataka (npr. nastavnike koji podučavaju potencijalne
ispitanike), a također se od samih ispitanika može zatražiti procjena subjektivne težine svakog
zadatka. Usporedba ovih vrijednosti, a osobito njihovo nepodudaranje zahtjeva dodatnu analizu. U
nekim situacijama moguće je da težina zadatka ne proizlazi jedino iz nisko razvijenog konstrukta
kod ispitanika već iz nekih drugih razloga (loših izvora za pripremu, dvosmislenosti pitanja,
nedostatka vremena i sl.). Važnu, iako čini se ne i komplementarnu, informaciju može pružiti i
stupanj sigurnosti ispitanika u točnost odgovora.
Zaključno može se reći da procjena težine zadatka ovisi o uzorku na kojem je procijenjena, a
u kontekstu klasične teorije testova također nema pretpostavke o prirodi odnosa između razine
sposobnosti i vjerojatnosti točnog odgovora na zadatak.
7.1.2. Mjere osjetljivosti zadatka
U većini slučajeva zadaci prosječne težine imat će najveću osjetljivost, odnosno omogućit će
najveći broj razlikovanja ispitanika na osnovi uratka u zadatku. U ovom kontekstu važno je odrediti
neku mjeru raspršenja rezultata u zadatku. U ovom slučaju najčešće se kao pokazatelj osjetljivosti
25
zadatka koriste varijanca ili standardna devijacija varijable. Uobičajeni izraz za varijancu zasniva se
na prosječnoj kvadriranoj udaljenosti svih rezultata od aritmetičke sredine:
Kod binarnih zadataka postoji direktna relacija između težine zadatka i varijance, pri čemu je
varijanca binarnog zadatka jednaka umnošku indeksa lakoće i indeksa težine: Vi = pq, odnosno
standardna devijacija jednaka je korijenu iz umnoška indeksa lakoće i indeksa težine. Tako
prosječno težak zadatak (pi=0.5) ima i maksimalnu varijancu (vi=0.25). Vrlo lagani i vrlo teški
zadaci u pravilu će imati manju osjetljivost od zadataka prosječne težine.
7.2. Mjere diskriminativne valjanosti
Diskriminativna valjanost se može procjenjivati na različite načine, ali se u osnovi nastoji provjeriti
postoji li povezanost između uratka u zadatku i neke mjere konstrukta.
Uradak ispitanika u zadatku predstavlja varijablu koja može imati različita svojstva (raspon
vrijednosti, oblik distribucije i dr.) što može utjecati na izbor prikladnih statističkih postupaka za
određenje diskriminativne valjanosti zadatka. Takvu opaženu varijablu zvat ćemo empirijskim
indikatorom ili mjerom teorijskog konstrukta ukoliko njezine opažene vrijednosti variraju na neki
sistematičan način s konstruktom, odnosno ako vrijedi pretpostavka da njezine očekivane
vrijednosti rastu monotono s konstruktom (Lord, Novick, 1968.).
Ranije smo spomenuli da u nekim modelima mjerenja odnos između uratka u zadatku i razvijenosti
konstrukta može biti opisan i nemonotonim funkcijama. Zbog prirode mjerenja većina mjera, u
manjem ili većem stupnju, predstavlja korelat atributa, prije nego li atribut sam. Utvrđivanje bilo
koje funkcije koja povezuje uradak u zadatku i uradak u testu ide u prilog njegove valjanosti.
Diskriminativna valjanost se može određivati na različite načine, a ovdje ćemo ukratko opisati
njihovu osnovnu logiku. Bitan aspekt svakog od pristupa uključuje statističku proceduru koja se
koristi, te sadržaj kriterijske varijable koja se koristi za prosuđivanje valjanosti zadatka.
S obzirom na metodu ili statistički postupak koji se koristi za određivanje diskriminativne
valjanosti mogu se razlikovati:
a) postupci zasnovani na korelaciji zadatka s kriterijem
c) postupci zasnovani na analizi karakteristične krivulje zadatka
b) ostali postupci (ovdje spadaju različiti postupci poput metoda analize varijance, indeksa
diskriminativnosti, prosječne korelacije zadatka s ostalim zadacima, multiple korelacije i dr.)
Prethodni postupci razlikuju se s obzirom na korištenu statističku proceduru, ali je vrlo često
korisno kombinirati različite navedene postupke.
N
d
N
MXV
ii
22)(
26
S obzirom na kriterij koji se koristi kao mjera razvijenosti konstrukta, možemo razlikovati
sljedeće situacije:
a) ukupni uradak u testu u kojemu se nalazi zadatak koji analiziramo. U ovom slučaju se mogu
razlikovati situacije u kojima je zadatak uključen u ukupni rezultat (spuriozni koeficijenti) i slučaj
kada je udio zadatka isključen iz ukupnog rezultata (nespuriozni ili korigirani koeficijenti)
b) korištenje neke latentne varijable izračunate pod faktorskim modelom ili nekim drugim
modelom koji uključuje latentne varijable
c) korištenje neke vanjske kriterijske varijable (drugi test ili neka kriterijska varijabla)
S obzirom na uzorak na kojemu se provodi analiza možemo razlikovati sljedeće situacije:
a) analiza na cjelokupnom uzorku ispitanika koji su sudjelovali u istraživanju
b) analiza na ekstremnim skupinama ispitanika
c) analiza na ciljanim skupinama ispitanika
Različite parametre koji se mogu analizirati u okviru analize zadataka pojasnit ćemo na primjeru
sljedeće matrice koja prikazuje rezultate primjene jednog testa od k zadataka na uzorku od 50
ispitanika. Naime, svaka analiza zadataka polazi od matrice definirane brojem zadataka i brojem
ispitanika. Sve relevantne psihometrijske karakteristike testa sadržane su takvoj matrici.
27
Tablica 2. Matrica s rezultatima primjene testa A sačinjenog od k zadataka na uzorku od 20
ispitanika.
N Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 Z11 ... U
1 1 0 1 1 1 1 1 1 1 0 0 ... 50
2 1 0 1 1 1 1 1 1 0 0 0 ... 49
3 1 0 1 1 1 1 1 0 1 0 0 ... 48
4 1 0 1 0 1 1 1 1 0 1 0 ... 47
5 1 0 1 0 1 1 1 1 1 1 0 ... 46
6 1 0 1 0 1 1 1 1 0 0 0 ... 45
7 1 0 1 0 1 1 1 1 1 0 0 ... 44
8 1 0 1 0 0 1 1 0 0 1 0 ... 43
9 1 0 1 0 0 1 1 0 1 0 0 ... 42
10 1 0 1 0 0 1 1 1 0 0 0 ... 41
11 1 0 0 0 0 1 1 0 1 1 1 ... 40
12 1 0 0 0 0 1 1 0 0 1 1 ... 39
13 1 0 0 0 0 1 1 1 1 1 1 ... 38
14 1 0 0 0 0 0 1 1 0 1 1 ... 37
15 1 0 0 0 0 0 1 0 1 1 1 ... 36
16 1 0 0 0 0 0 1 0 0 1 1 ... 35
17 1 0 0 0 0 0 1 0 1 0 1 ... 34
18 1 0 0 0 0 0 0 1 0 1 1 ... 33
19 1 0 0 0 0 0 0 0 1 1 1 ... 32
20 1 0 0 0 0 0 0 0 0 1 1 ... 31
p 1,00 0,00 0,50 0,15 0,35 0,65 0,85 0,5 0,5 0,6 0,5
frT 20 0 10 3 6 13 17 10 10 12 10
V 0 0 0,25 0,1275 0,2275 0,2275 0,1275 0,25 0,25 0,24
p = indeks lakoće zadatka
frT = frekvencija točnih odgovora u zadatku
V = varijanca zadatka
U = ukupni rezultat u testu izražen kao zbroj točnih odgovora
28
Razmotrimo na konceptualnoj razini karakteristike zadataka u tablici 2.
Zadatak 1 riješili su svi ispitanici (p=1) i taj zadatak je za ovaj uzorak prelagan. On ne omogućuje
nikakvo razlikovanje ispitanika s obzirom na predmet mjerenja. Kako nema varijancu za taj zadatak
nije moguće računati nikakvu mjeru povezanosti s ukupnim rezultatom. Ovakav zadatak bismo
vjerojatno izbacili iz testa. Zadatak se može zadržati na početku testa s ciljem da ispitanicima bude
neka vrsta uvježbavanja u naredne teže zadatke. Zadržavanje ovog zadatka u testu ima značajke
dodavanja konstante rezultatima svih ispitanika i ne utječe na varijancu ukupnih testovnih rezultata.
Uz moguću pretpostavku da na većem uzorku možemo očekivati neki broj ispitanika koji ga ipak ne
bi riješili mogli bismo ga zadržati kao mogući ekstremno lagani zadatak.
Zadatak 2 nije riješio nitko od ispitanika. Analogno prvom zadatku ovaj zadatak je pretežak
ispitanicima (uz pretpostavku da je zadatak logički i sadržajno valjan). Niti ovaj zadatak nema
varijancu te stoga za njega nije moguće procjenjivati diskriminativnu valjanost. Ovakav zadatak
bismo, kao i prvi, vjerojatno izbacili iz konačne verzije testa. Kao i kod prvog zadatka, uz
pretpostavku da bi na većem uzorku iz populacije ipak neki od ispitanika riješili točno ovaj zadatak,
možemo ga zadržati kao ekstremno težak zadatak. Očito je da zadržavanje ovakvog zadatka u ovoj
verziji testa nema nikakve posljedice na aritmetičku sredinu i varijancu ukupnih testovnih rezultata.
Zadatak 3 točno rješava 50% ispitanika te je taj zadatak optimalne težine (p=0,5) i ima
maksimalnu varijancu (V=0,25) koju može ostvariti neki binarni zadatak. Ukoliko pogledamo
uradak u trećem zadatku iznadprosječnih i ispodprosječnih ispitanika podijeljenih s obzirom na
njihov ukupni uradak u testu možemo uočiti da su ga točno riješili svi iznadprosječni ispitanici, a da
ga nije riješio nitko od ispodprosječnih ispitanika. Očito je da će korelacija ovoga zadatka s
ukupnim rezultatom u testu biti najveća moguća, odnosno zadatak ima visoku diskriminativnu
valjanost. Ovaj zadatak u zadanim uvjetima ima optimalne karakteristike.
Zadatak 4 točno rješava 15% ispitanika stoga je ovaj zadatak relativno težak. Pogledamo li koji ga
ispitanici rješavaju uočavamo da se radi o najboljim ispitanicima s obzirom na ukupni rezultat u
testu. Zbog njegove težine nekolicina iznadprosječnih ispitanika nije ga uspjela riješiti. Ipak taj
zadatak je u zadanim uvjetima maksimalno povezan s ukupnim rezultatom. U računskom pogledu
zbog nešto manje varijance njegova će point-biserijalna korelacija biti nešto manja od one koju
bismo dobili za treći zadatak.
Zadatak 5 točno rješava 35% ispitanika te i ovaj zadatak možemo smatrati iznadprosječno teškim
iako je lakši od četvrtog, a teži od trećeg zadatka. U pogledu njegove diskriminativne valjanosti
također uočavamo da su svi ispitanici koji su ga riješili bolji prema ukupnom testovnom rezultatu
od ispitanika koji ga nisu riješili. Stoga bismo i za ovaj zadatak mogli ustvrditi da ima maksimalnu
diskriminativnu valjanost za zadatak takve težine. Ipak zbog manje varijance njegova point-
biserijalna korelacija bit će nešto manja od one koju bismo dobili za treći zadatak, ali vjerojatno
veća od četvrtog zadatka koji ima još manju varijancu.
Zadatak 6 lakši je od prosjeka budući da ga rješava 65% ispitanika. Njegova varijanca jednaka je
varijanci petog zadatka, a kao što vidimo i ovaj zadatak je maksimalno povezan s ukupnim uratkom
budući da su svi ispitanici koji su ga riješili (njih 65%) ujedno i bolji s obzirom na ukupni rezultat u
29
testu od ispitanika koji ovaj zadatak nisu riješili. Njegova korelacija s ukupnim rezultatom, odnosno
diskriminativna valjanost bit će podjednaka onoj koju ostvaruje peti zadatak.
Zadatak 7 rješava 85% ispitanika što ga čini laganim zadatkom. Ispitanici koji ga nisu točno riješili
ujedno su najlošiji prema ukupnom rezultatu što znači da je njegova diskriminativna valjanost
maksimalna za zadatak ovakve težine. Njegova point-biserijalna korelacija s ukupnim rezultatom u
testu bit će manja od korelacija ostvarenih za zadatke 5 i 6, a bit će podjednaka korelaciji koju
ostvaruje četvrti zadatak koji je teži ali ima jednaku varijancu.
Zadatak 8 ima maksimalnu osjetljivost, ali se može vidjeti da njegova povezanost s ukupnim
rezultatom nije maksimalna. Naime, među iznadprosječnim ispitanicima njih 70% točno rješava
ovaj zadatak, a 30% ga nije uspjelo riješiti. Među ispodprosječnima u testu 30% ispitanika točno
rješava ovaj zadatak, a ostali ga nisu točno riješili. Može se zaključiti da je ovaj zadatak umjereno
povezan s ukupnim rezultatom jer ga ipak bolje rješavaju iznadprosječni ispitanici.
Zadatak 9 također je prosječne težine (p=0,5), ali ako pogledamo njegovu povezanost s ukupnim
rezultatom u testu ona je vjerojatno jednaka nuli. Naime iznadprosječni i ispodprosječni ispitanici u
ovom testu jednako su uspješni u ovom zadatku. Unatoč činjenici da ima maksimalnu varijancu
ovaj zadatak bismo izbacili iz testa jer ne mjeri isto što i ostatak testa. Očito je da visok rezultat u
testu ne povećava vjerojatnost točnog rješenja u ovom zadatku.
Zadatak 10 je nešto lakši od prosjeka (p=0,6) ali je očito da ga u većoj mjeri točno rješavaju
ispitanici koji su u ovom testu ispodprosječni. To znači da će korelacija ovog zadatka s ukupnim
rezultatom biti negativna.
Zadatak 11 ima optimalnu osjetljivost i maksimalnu povezanost s ukupnim rezultatom, ali je ta
povezanost negativna. U slučaju visoke negativne korelacije zaključujemo da je visok rezultat u
testu povezan s nižim rezultatom u zadatku, tj. da zadatak dijeli zajedničku varijancu s ukupnim
rezultatom. Kod zadataka u upitnicima ličnosti u takvim slučajevima najčešće je potrebno obrnuto
bodovati uradak u zadatku (slučaj kad je formulacija pitanja u jednom zadatku obrnuta u odnosu na
druga pitanja).
U nastavku ćemo razmotriti primjenu različitih statističkih koeficijenata prilikom izračunavanja
korelacije između uratka u zadatku i neke mjere razvijenosti konstrukta.
30
7.2.1. MJERE POVEZANOSTI IZMEĐU URATKA U ZADATKU I MJERE
KONSTRUKTA
7.2.1.1. Pearsonov koeficijent korelacije
U svim situacijama u kojima je opravdano izračunavanje standardnog Pearsonovog koeficijenta
korelacije ovaj koeficijent može se koristiti kao mjera diskriminativne valjanosti zadatka. U slučaju
kada je uradak u zadatku izražen kao politomna varijabla s većim brojem stupnjeva (npr. na
Likertovoj ljestvici od 5 stupnjeva ili kao kontinuirana varijabla) može se računati standardni
Pearsonov koeficijent korelacije. U praksi je vrlo čest slučaj da je uradak u zadatku testa izražen na
ljestvici koja ima smanjen varijabilitet tako da su u statističkom smislu narušene pretpostavke za
izračunavanje Pearsonovog koeficijenta korelacije. U tom slučaju prikladnije je odabrati neki od
drugih statističkih indikatora povezanosti među varijablama.
7.2.1.2. Point biserijalni koeficijent korelacije
U najvećem broju testova sposobnosti i postignuća uradak u zadatku izražava se kao binarna
varijabla, tj. moguće su samo dvije vrijednosti: 0 i 1. U tom slučaju može se koristiti point-
biserijalni koeficijent korelacije, koji daje vrijednosti jednake onima koje bismo dobili primjenom
Pearsonovog koeficijenta na istim podacima, a može se izračunati preko sljedećeg izraza:
q
pMMr
t
tp
pb
Mp = aritmetička sredina ukupnih rezultata za one ispitanike koji su točno riješili zadatak
Mt = aritmetička sredina ukupnih rezultata za sve ispitanike
t = standardna devijacija ukupnih rezultata za sve ispitanike
p = indeks lakoće zadatka
q = indeks težine zadatka
Brojni autori smatraju da je point-biserijalni koeficijent najrealističnija indikacija veze zadatka i
ukupnog uratka. Čak i kad nije optimalan indikator asocijacije, omogućuje daljnje statističke
izvode. Za r(pb) nedostaje formula za standardnu pogrešku ali je ona aproksimativno jednaka
Pearsonovom koeficijentu. Osnovni praktični problem jest što je ova mjera povezanosti osjetljiva na
oblik distribucije. To znači da će kod zadataka čija je distribucija asimetrična, odnosno čiji je
varijabilitet reduciran (što je slučaj kod lakih i teških zadataka) postojati tendencija da njihove
korelacije s ukupnim uratkom budu sustavno niže. Posljedično, najveće korelacije s ukupnim
rezultatom imat će u pravilu zadaci prosječne težine čija je distribucija približno normalna ili barem
simetrična. Što je varijabilitet zadatka manji, neovisno radi li se o lakim ili teškim zadacima,
korelacije tih zadataka s mjerama ukupnog uratka ili vanjskim kriterijem bit će niže. Treba biti
svjestan da korelacija između dihotomne i kontinuirane varijable u ovom slučaju u praksi iznimno
rijetko dostiže vrijednost 1.
Kod svih mjera diskriminativne valjanosti koje uključuju korelaciju između zadatka i uratka u testu
može se javiti problem spurioznosti. Naime zbog činjenice da je zadatak već uključen u ukupni
rezultat on će u određenoj mjeri korelirati sa svojim udjelom u ukupnom rezultatu te na taj način
31
umjetno povećavati korelaciju zadatka s testom, odnosno povećavati koeficijent diskriminativne
valjanosti tog zadatka. Ranije smo razmotrili slučaj linearne kombinacije koja se sastoji od k
standardiziranih i međusobno nepovezanih članica. U tom slučaju korelacija bilo koje članice s
ukupnim rezultatom iznosit će:
kriu
1
U slučaju testa koji se sastoji od zadataka koji su u nultim međusobnim korelacijama nema razloga
da niti jedan zadatak korelira s ukupnim rezultatom iznad nule. Ipak zbog navedenog efekta
spurioznosti u testu od 5 standardiziranih zadataka svaki će zadatak korelirati s ukupnim rezultatom
0,45. Kako bismo otklonili ovaj utjecaj spurioznosti moguće je izračunati korigirani, tj. nespuriozni
koeficijent korelacije između zadatka i ukupnog rezultata u testu. To je moguće izračunavanjem
korelacije između zadatka i ukupnog rezultata iz kojega je isključen udio zadatka koji analiziramo
(tj. zbroji se ukupni rezultat u testu bez tog zadatka). Korekciju je moguće provesti i računski
uporabom sljedeće formule:
iupbiu
iupb
nesppb
r
rr
22)(
rpb = spuriozna point-biserijalna korelacija zadatka i ukupnog rezultata u testu
σi = standardna devijacija zadatka
σu = standardna devijacija ukupnih rezultata u testu
Efekt spurioznosti bit će to veći što je manji broj zadataka u testu, tj. što je veći relativni udio
varijance zadatka u varijanci ukupnih rezultata. Kod većeg broja zadataka (npr. 20 i više) razlika
između spurioznih i korigiranih koeficijenata postaje zanemariva.
7.2.1.3. Biserijalni koeficijent korelacije
Kao mjera diskriminativne valjanosti zadatka može se koristiti i neki od koeficijenata biserijalne
korelacije. Za slučaj zadatka izraženog kao dihotomna varijabla može se izračunati biserijalni
koeficijent korelacije kao mjera povezanosti zadatka i mjere konstrukta. Ovaj koeficijent računa se
između jedne umjetno dihotomizirani varijable (što uradak u zadatku u pravilu jest) i druge
varijable čiji su rezultati izraženi na kontinuiranoj ljestvici (što je najčešće slučaj s ukupnim
rezultatom u testu). Ovaj koeficijent nudi procjenu korelacije između dihotomne i kontinuirane
varijable koju bismo dobili da je dihotomna varijabla preciznije odmjerena tj. da su njezini rezultati
normalno distribuirani i izraženi na kontinuiranoj ljestvici. Izraz za biserijalni koeficijent korelacije
glasi:
rM M p
yb
p t
t
Mp - M ukupnih rezultata ispitanika koji su riješili zadatak
Mt - M ukupnih rezultata za sve ispitanike
32
y - visina ordinate normalne distribucije uz opaženi p
Ovaj koeficijent će za razliku od point-biserijalnog za lake i teške zadatke rezultirati većom
korelacijom s kriterijem. Nedostatak ovog koeficijenta jest što on u osnovi predstavlja procjenu
povezanosti i nema karakteristike Pearsonovog koeficijenta korelacije.
7.2.1.4. Fi koeficijent
Sljedeća mogućnost izračunavanja povezanosti zadatka i mjere konstrukta koja može umanjiti
posljedice asimetrije jest dihotomizacija ukupnog rezultata te izračunavanje fi-koeficijenta kao
mjere povezanosti između dvije dihotomne varijable (uratka u zadatku i uratka u testu).
Dihotomizacijom ukupnog rezultata gubi se dio informacija koje nam nude individualni ukupni
rezultati, ali se s druge strane umanjuje efekt asimetrije kod lakih i teških zadataka. Ispitanike se
prema ukupnom uratku u testu može podijeliti u dvije skupine npr. na osnovi medijana ili s obzirom
na aritmetičku sredinu u iznadprosječne i ispodprosječne ispitanike. U tom slučaju se za svaki
zadatak ispitanici podjele u četiri podskupine A, B, C i D kao što je to prikazano u sljedećoj tablici.
uradak u testu
1 -iznadprosječni
u testu
0 - ispodprosječni
u testu
uradak
u
zadatku
1- točno riješili
zadatak
A B
0 - netočno riješili
zadatak
C D
Fi koeficijent se može izračunati na osnovi sljedećeg izraza:
))()()((
)()(
DBCADCBA
BCAD
Fi koeficijent se inače koristi za određivanje povezanosti između dvije stvarno dihotomne varijable
ili ih se može opravdano dihotomizirati. Predznak ovoga koeficijenta može se odrediti naknadno, na
osnovi uvida u strukturu 2x2 tablice. Fi koeficijent je računski ekvivalentan Pearsonovom
koeficijentu korelacije kada bismo ga izračunali na dvije dihotomne varijable. I ovdje je jasno da će
redukcija varijabiliteta imati utjecaja na veličinu dobivenih koeficijenata korelacije u odnosu na
situaciju kada bismo te varijable imali izmjerene kao kontinuirane.
33
7.2.1.5. Tetrahorički koeficijent korelacije
U slučaju kada smo uradak u testu dihotomizirali korelacija između uratka u zadatku (dihotomno
izraženog) i tako dihotomiziranog rezultata u testu može se izračunati primjenom tetrahoričkog
koeficijenta korelacije. Ovaj koeficijent se koristi kao mjera povezanosti dvije umjetno
dihotomizirane varijable (za koje se može pretpostaviti da ih je moguće izmjeriti na kontinuiranim
ljestvicama) i nudi procjenu povezanosti među tim varijablama koju bismo dobili da su te dvije
varijable bile izmjerene metrički superiornije, tj. na kontinuiranim ljestvicama. Izračunavanje ovog
koeficijenta je složeno, a jedna računska aproksimacija za izračunavanje tetrahoričkog koeficijenta
glasi:
BC
ADr
o
tet
1
180cos
A,B,C,D su frekvencije dobivene u tablici kontingencije u kojoj je prikazan odnos dvije dihotomne
varijable.
U pravilu ovim koeficijentom dobivamo veće vrijednosti u odnosu na one izračunate na osnovi fi-
koeficijenta. Pojedini autori sugeriraju da bi bilo korisne i korelacije među dihotomnim zadacima u
testu izračunati uporabom ovoga koeficijenta.
7.2.2. Analiza diskriminativne valjanosti na osnovi linije traga ili karakteristične krivulje
zadatka
Karakteristična krivulja zadatka predstavlja grafički prikaz odnosa između razvijenosti predmeta
mjerenja i uratka u zadatku. Skoro svi modeli skaliranja ispitanika mogu se opisati različitim
tipovima krivulja koje povezuju mjereni atribut (konstrukt) s nekom mjerom uratka u zadatku.
Ovakva krivulja uobičajeno se naziva linija traga zadatka ili karakteristična krivulja zadatka.
Ukoliko u dvodimenzionalnom koordinatnom sustavu grafički prikažemo proporciju točnih ili
indikativnih odgovora u zadatku (ordinata) za skupine ispitanika s različito razvijenim mjerenim
atributom (apscisa) dobit ćemo krivulju koja je najčešće monotona rastuća krivulja S-oblika. Na
dovoljno velikom uzorku moguće je podijeliti apscisu, tj. kontinuum s mjerenom osobinom, koji je
najčešće standardiziran, tako da pokrijemo interval od npr. -3z do +3z. Ovakva krivulja dobivena za
jedan zadatak obično se naziva empirijska karakteristična krivulja zadatka ili empirijska funkcija
odgovora na zadatak. Ukoliko uradak ispitanika u zadatku raste na neki monoton način s porastom
ukupnog uratka u zadatku to ukazuje da zadatak mjeri, barem u nekom stupnju, isti konstrukt koji se
mjeri cijelim testom. Analiza karakteristične krivulje zadatka može biti vrlo korisna autoru testa pri
utvrđivanju diskriminativne valjanosti zadatka osobito u slučajevima kada odnos nije linearan. Tako
npr. neki zadatak može biti nediskriminativan za sve ispodprosječne i prosječne ispitanike, a dobro
diskriminirati samo najbolje ispitanike u testu. Na donja dva grafikona lijevi zadatak ima
prihvatljivu krivulju zadatka koja pokazuje da proporcija točnih odgovora u zadatku raste u funkciji
povećanja ukupnog rezultata u testu. Krivulja zadatka prikazana na desnom grafikonu sugerira
nelogično smanjenje uratka u testu kod ispitanika koji su nešto iznad prosjeka prema ukupnom
34
rezultatu. Iako bi ovaj zadatak čak mogao imati pozitivnu korelaciju s ukupnim rezultatom ovakva
krivulja ukazuje na potrebu za revizijom sadržaja zadatka.
Slika 1. Primjer empirijskih karakterističnih krivulja zadataka
7.2.3. OSTALE MJERE DISKRIMINATIVNE VALJANOSTI
U ovu skupinu uvrstili smo različite postupke mjera diskriminativne valjanosti koji mogu biti korisni u
različitim uvjetima analize zadataka.
7.2.3.1. Izračunavanje diskriminativne valjanosti zadatka uporabom indeksa
diskriminativnosti
Neki autori predlažu indeks diskriminativnosti koji se može računati samo na dihotomnim
zadacima. Ispitanike prema ukupnom rezultatu moramo dihotomizirati prema nekom kriteriju
(najčešće prema ukupnom rezultatu u testu), tako da imamo skupinu uspješnih ili iznadprosječnih i
skupinu neuspješnih ili ispodprosječnih. Indeks se računa na sljedeći način:
D = (pu - pl)100
pu = proporcija točnih odgovora u zadatku u skupini iznadprosječnih u testu
pl = proporcija točnih odgovora u zadatku u skupini ispodprosječnih u testu
Na osnovi logike gornjeg izraza ukoliko su svi iznadprosječni testu riješili zadatak, a u skupini
ispodprosječnih ga nije riješio nitko indeks će poprimiti vrijednost 100. Tu ukazuje na visoko
diskriminativan zadatak. U slučaju da je proporcija uspješnih u zadatku podjednaka u obje skupine
indeks će biti blizak nuli i ukazivati na nepovezanost zadatka s ukupnim rezultatom u testu. Indeks
diskriminativnosti može teorijski varirati u rasponu od -100 do +100. Pojedini autori izostavljaju
množenje sa 100 tako da indeks u tom slučaju varira od -1 do +1.
0,08
0,31
0,75
0,92
0
0,2
0,4
0,6
0,8
1
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2
p
ukupni rezultat
zadatak 1:
0,15
0,69
0,33
0,92
0
0,2
0,4
0,6
0,8
1
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2
p
ukupni rezultat
zadatak 8:
35
Ebel (1960, prema Crocker i Algina) predlaže sljedeće vrijednosti indeksa diskriminativnosti:
D prikladnost zadatka
D ≥ 40 zadatak ima zadovoljavajuću diskriminativnost
30 ≤ D ≤ 39 zadataka zahtjeva manju ili nikakvu reviziju
20 ≤ D ≤ 29 zadatak ima graničnu diskriminativnu valjanost i
zahtjeva reviziju
D ≤ 19 zadatak treba isključiti ili zahtjeva potpunu reviziju
Iako je jednostavan za izračunavanje ovaj indeks nema poznatu distribuciju, pa nema mogućnosti za
provjeru hipoteze da je D značajno različiti od nule ili provjere koji je od dva zadatka statistički
značajno diskriminativniji.
7.2.3.2. Provjera diskriminativne valjanosti zadatka analizom varijance
Tehnikama analize varijance možemo pokušati provjeravati slične hipoteze o funkcioniranju
zadatka koje smo analizirali do sada. Ukoliko za ispitanike koji su točno riješili neki binarni zadatak
i za one koji ga nisu riješili izračunamo aritmetičku sredinu njihovih ukupnih rezultata u testu
očekivali bismo da se te dvije vrijednosti statistički značajno razlikuju.
M - ukupnih rezultata SD ukupnih rezultata N
1= točno riješili
zadatak M= 23,16 6,32 122
0 = nisu riješili
zadatak M= 19,43 5,24 86
7.2.3.3. Prosječna korelacija zadatka s preostalim zadacima u testu
Prosječna korelacija između analiziranog zadatka i svih preostalih zadataka u testu također ukazuje
na činjenicu da zadatak ima isti predmet mjerenja kao i ostali zadaci. Richardson je još 1936.
pokazao da u uvjetima paralelnih testova barem približno vrijedi odnos:
2
iuij rr ,
36
odnosno prosječna korelacija jednog zadatka s ostalima (izračunata na osnovi fi-koeficijenta)
približno je jednaka kvadratu korelacije između zadatka i ukupnog rezultata u testu (izračunatog na
osnovi point-biserijalnog koeficijenta korelacije). Suvremena računala bez poteškoća mogu
izračunati ovaj parametar koji ranije nije često korišten zbog zahtjevnog opsega posla.
7.2.3.4. Varijanca u zadatku koju objašnjavaju preostali zadaci u testu - multipla korelacija
Jedan od ciljeva analize zadatka jest utvrditi mjeri li zadatak isti konstrukt koji mjere ostali zadaci u
testu. Odgovor na to pitanje može pružiti multipla korelacija izračunata između testovnih zadataka
korištenih sa statusom prediktorskih varijabli i analiziranog zadatka kao kriterija. Kvadrat multiple
korelacije u tom slučaju ukazuje na postotak varijance u zadatku koji je moguće objasniti na osnovi
svih ostalih zadataka u tom testu. Što je taj postotak veći proizlazi da zadatak u većem stupnju mjeri
konstrukt koji mjere preostali zadaci u testu. Ova procedura može biti pristrana ili neprikladna u
određenim slučajevima kada je test sačinjen od velikog broja zadataka ili su zadaci binarni što
narušava pretpostavke za izračunavanje multiple korelacije.
7.2.4. Pristupi određenju diskriminativne valjanosti s obzirom na određenje mjere
razvijenosti konstrukta
S obzirom na kriterij koji se koristi kao mjera razvijenosti konstrukta, možemo razlikovati nekoliko
pristupa. U idealnom slučaju svaki zadatak bilo bi poželjno povezati s pravim rezultatom ispitanika
na zadanom konstruktu, ali kako to nije moguće u većini slučajeva kao mjeru razvijenosti
konstrukta koristimo ukupni rezultat u testu čije zadatke analiziramo. Drugi pristup određenju
kriterija može biti izračunavanje kriterijskog rezultata kao latentne varijable, pri čemu najčešće
koristimo faktorske mjere konstrukta. U ovom slučaju rezultat u kriteriju predstavlja neku
matematičku definiciju korištenih zadataka na osnovi zadanog algoritma. Pored toga moguće je kao
mjeru konstrukta koristiti i neku vanjsku varijablu.
7.2.4.1. Ukupni rezultat u testu kao mjera konstrukta
Najčešća dostupna mjera razvijenosti konstrukta jest rezultat koji ispitanici ostvaruju u testu u
kojemu se nalazi zadatak čiju valjanost analiziramo. On je valjan u onoj mjeri u kojoj su to i zadaci
od kojih je sačinjen, a čiju diskriminativnu valjanost želimo provjeriti. U tom slučaju treba biti
oprezan s uporabom ukupnog rezultata kao mjere konstrukta. Hipotetski, u skupu zadataka niske
valjanosti i ukupni rezultat bit će loša mjera konstrukta te pojedini valjani zadaci unutar testa mogu
imati skromne korelacije s ukupnim rezultatom jer sam ukupni rezultat nije dobra mjera ciljanog
konstrukta. Ipak u većini slučajeva ukupni rezultat je jedina dostupna mjera konstrukta pri procjeni
diskriminativne valjanosti zadataka.
37
7.2.4.2. Određivanje diskriminativne valjanosti izračunavanjem korelacije zadatka pod
faktorskim modelom
Faktorska analiza vrlo često se koristi kao postupak za provjeru valjanosti kompozitnog mjernog
instrumenta. Pri tom se nastoji utvrditi manji broj latentnih varijabli ili faktora koji omogućuju
objašnjenje povezanosti među manifesnim varijablama, odnosno u ovom slučaju zadacima. Na
osnovi broja značajnih ekstrahiranih faktora zaključujemo o broju latentnih dimenzija koje se nalaze
u osnovi uratka u testovnim zadacima. Ukoliko je autor krenuo od pretpostavke o
jednodimenzionalnom predmetu mjerenja, tj. jednom konstruktu koji je u osnovi uratka u zadacima
onda bi faktorska analiza trebala rezultirati jednim generalnim faktorom.
Na osnovi korelacija između zadataka i faktora zaključujemo o zasićenosti svakog pojedinog
zadatka faktorom odnosno hipotetskim predmetom mjerenja. Polazeći od pretpostavke o jednom
faktoru autor bi u konačnu verziju testa birao zadatke s najvećim korelacijama s generalnim
faktorom, a one zadatke koji ne koreliraju s njim ili koreliraju s nekim drugim sadržajno
irelevantnim faktorom/faktorima izbacio bi iz testa. Uobičajeno se korelacije manifesnih varijabli i
faktora veće od 0,3 smatraju relevantnim prilikom interpretacije odnosa varijabli i faktora.
Tablica 3. Matrica faktorske strukture
Komponenta
1 2 3
P1 0,779 0,011 0,184
P2 0,659 -0,145 -0,034
P3 0,636 -0,124 -0,163
P4 0,633 -0,124 0,463
P5 0,624 -0,011 0,294
P6 0,101 0,893 0,018
P7 0,224 0,872 -0,052
P8 0,547 -0,063 0,216
U slučaju da faktorska struktura rezultira s dva značajna faktora autor se može odlučiti da test
podijeli u dva dijela (subskale, subtesta) i svaki dio interpretira zasebno. Ovakva odluka najčešće
podrazumijeva i reviziju teorijskog polazišta od kojeg se krenulo u izradu testa.
7.2.4.3. Uporaba vanjskog kriterija kao mjere konstrukta
U pojedinim slučajevima kada raspolažemo uratkom ispitanika u nekoj drugoj vanjskoj varijabli
koja predstavlja razvijenost konstrukta diskriminativna valjanost može se procjenjivati korelacijom
38
zadatka s tom vanjskom varijablom. To npr. može biti neki drugi test koji mjeri isti konstrukt, a koji
ima poznatu i prihvatljivu pouzdanost i valjanost.
7.2.5. Mjere diskriminativne valjanosti izračunate na ekstremnim ili ciljanim skupinama
ispitanika
U određenim slučajevima provjera diskriminativne valjanosti zadatka ne provodi se na cjelokupnom
uzorku već na manjem broju ispitanika odabranih najčešće s obzirom na razvijenost konstrukta. Ti
postupci povećavaju vjerojatnost pojave diskriminativne valjanosti kod zadataka kad se izbace
ispitanici kod kojih je konstrukt prosječno razvijen. Uobičajeno se na osnovi uratka u testu odabire
27% ispitanika s najvišim rezultatom i 27% ispitanika s najnižim rezultatom dok se ostali ispitanici
isključuju iz analize. 27% se odabire jer je to točka infleksije normalne distribucije, tj. mjesto gdje
krivulja mijenja oblik. Mogu se naravno koristiti i drugi kriteriji određivanja ekstremnih skupina.
Na ovako selekcioniranim skupinama mogu se koristiti gotovo svi do sada spomenuti koeficijenti, a
navest ćemo neke od mogućih postupaka:
Primjer: Izračunavanje diskriminativne valjanosti zadatka uz uporabu fi koeficijenta na osnovi
uratka u dihotomnom zadatku i ispitanika dihotomiziranih u ekstremne skupine s obzirom na
ukupni rezultat u testu. Ispitanike se podijeli u dvije ekstremne skupine uz npr. kriterij 27%
najboljih i 27% najlošijih prema ukupnom testovnom rezultatu.
Za svaki zadatak formira se tablica koja sadrži sljedeće informacije te se zatim izračuna fi-
koeficijent.
uradak u testu
1 – ekstremno
uspješni u testu
0 – ekstremno
neuspješni
u testu
uradak u
zadatku
1- točno riješili
zadatak
A B
0 - netočno
riješili zadatak
C D
U pojedinim slučajevima nužan je oprez prilikom određivanja tzv. ekstremnih skupina. U slučaju
kada imamo uzorak ispitanika koji su već selekcionirani prema nekoj osobini (npr. ispitanici s
visoko razvijenim sposobnostima) njihovom podjelom na osnovi uratka u testu na 27% najboljih i
27% najlošijih u osnovi nećemo dobiti stvarne ekstremne skupine već samo ispitanike s relativno
boljim i lošijim uratkom u tom testu. U tom slučaju bilo bi dobro uzeti rezultate apriori određenih
39
skupina za koje imamo očekivanje ili obrazloženje da su uistinu ekstremni ili barem vrlo različiti s
obzirom na mjereni konstrukt.
Pored ekstremnih skupina autori pri analizi mogu odabrati ciljane skupine ispitanika koje se
razlikuju prema nekim obilježjima relevantnim za proces koji se želi izazvati zadatkom Tako se
mogu koristiti skupine ispitanika koje pripadaju različitim dijagnostičkim kategorijama, dobnim ili
obrazovnim skupinama i sl.
Završno o analizi zadataka
Iskustvo pokazuje da u većini situacija različiti indikatori diskriminativne valjanosti rezultiraju
uglavnom sukladnim informacijama. Ovisno o karakteristikama varijabli autor mora odabrati
statistički prikladne statističke parametre no u većini slučajeva rang poredak zadataka određen na
osnovi različitih indikatora diskriminativne valjanosti podudara se u visokom stupnju.
Izdvojit ćemo neke faktore koji mogu sustavno utjecati na procjene diskriminativne valjanosti.
Jedan izvor pristranosti može biti sadržan u utjecaju vremenskog ograničenja na uradak u zadacima.
Proporcija ispitanika koji su točno riješili zadatak u većini slučajeva opada kako se približava kraj
testa. Naime pojedini ispitanici ne stižu zbog kratkog vremena posvetiti dovoljno vremena
zadacima koji su pri kraju testa što onda proizvodi njihovu veću težinu, manju varijancu i manju
diskriminativnu valjanost. Stoga je moguće da procjene karakteristika zadataka pri kraju testa u
slučaju prekratkog raspoloživog vremena mogu biti pristrane. Logički ako svi ispitanici ne stižu do
kraja analiza pojedinih zadataka zasniva se na različitim uzorcima. Nepokušane zadatke nije uvijek
opravdano tretirati kao netočno riješene budući da se na taj način u određenim slučajevima umjetno
povećava diskriminativna valjanost zadataka. Kod testova brzine, odnosno testova kod kojih utjecaj
brzine može imati utjecaja treba razmotriti prikladnost standardne procedure analize zadataka.
Drugi faktor o kojemu treba voditi računa jest mogućnost slučajnog pogađanja u zadatku. Već smo
naglasili utjecaj pogađanja na procjene težine zadatka, ali jednako je ozbiljan problem vezan i uz
osjetljivost. Naime kod zadataka otvorenog tipa kod kojih se uradak boduje s 0 ili 1 varijancu u
pravilu generira razvijenost konstrukta kod ispitanika. Međutim kod zadataka s ponuđenim
odgovorima točan odgovor može proizlaziti iz razvijenosti konstrukta ali i uslijed slučajnog
pogađanja. U tom slučaju jedan dio varijance otpada na pogrešku i posredno umanjuje sve mjere
korelacije zadatka s drugim varijablama. Općenito koeficijenti valjanosti zadataka u tom su slučaju
umanjeni za stupanj slučajnog pogađanja u zadatku. Rezultati pokazuju da se također povećanjem
težine zadatka povećava i faktor slučajnog pogađanja. Implikacije na analizu zadataka su da kod
teških testova gdje je pogađanje izraženo imamo i manje pouzdan ukupni rezultat u testu u odnosu
na koji koreliramo uradak u zadacima. Plumlee (prema Guilford, 1954) navodi da zadaci s pet
ponuđenih alternativa u pravilu imaju niže koeficijente valjanosti od zadataka otvorenog tipa za
približno 0,08. Isto tako dihotomno bodovani zadaci imat će niže koeficijente od zadataka u kojima
je moguć veći raspon rezultata, tj. čija je varijanca veća. Pojedini autori u ovakvim situacijama
sugeriraju uporabu korekcije zbog slučajnog pogađanja ili korištenje ekstremnih grupa pri analizi,
ali je važnije da autori prilikom usporedbe diskriminativne valjanosti zadataka uzimaju u obzir
karakteristike zadataka i uvjete primjene testa prilikom evaluacije dobivenih parametara.
40
7.3. Analiza distraktora i netočnih odgovora
Prilikom analize zadatka korisno je razmotriti raspon i strukturu odgovora koje ispitanici navode ili
odabiru (kod zadataka s višestrukim ponuđenim odgovorima). Naime u najvećem broju informacija
korisnik testa uzima u obzir informacije koje proizlaze iz točnih ili predviđenih odgovora, dok se
svi ostali odgovori smatraju netočnim i posebno ne analiziraju. Ponekad je korisno, osobito tijekom
razvoja testa, detaljnije analizirati sve odgovore koji ispitanici navode na pojedino pitanje. Kod
zadataka otvorenog tipa to je često puta nužnost jer je pri korekciji nužno za svaki odgovor
prosuditi je li prihvatljiv, odnosno je li u skladu s odgovorom predviđenim u ključu za bodovanje.
Ukoliko se pojedini netočni odgovor javlja učestalo vrijedi razmotriti postoji li mogućnost da je
odgovor u cijelosti ili dijelom prihvatljiv, ali ga autor nije predvidio tijekom izrade ključa za
bodovanje. Moguće je u takvim slučajevima analizirati može li jezična konstrukcija pitanja dovesti
do drugačijeg razumijevanja pitanja od onoga koje je autor originalno zamislio. Kod testova znanja
ili postignuća korisno je razmotriti postoji li neki izvor informacije koji sadrži netočnosti ili se radi
o propustima tijekom nastave koji su doveli do pojave nepredviđenih odgovora u značajnoj
proporciji. Sve ovo je posebno važno u slučaju kad se kod ispitanika s visokim rezultatom u testu
učestalo javljaju ovakvi odgovori.
Kod zadataka s višestrukim ponuđenim odgovorima ova vrsta analize je korisna, a dijelom i
jednostavnija zbog ograničenog broja mogućih odgovora. Kod takvih zadataka autor mora voditi
računa o kvaliteti ponuđenih odgovora koji se nude uz točan odgovor. Ti netočni odgovori nazivaju
se distraktori (tj. odgovori koji trebaju zavesti ispitanika, „ometači“). Jedan oblik analize jest
provjera učestalosti izbora pojedine od ponuđenih opcija.
Npr. u jednom zadatku s pet ponuđenih odgovora ispitanici su sljedećom učestalošću birali svoje
odgovore.
Odgovor A 16%
Odgovor B (točan odgovor) 44%
Odgovor C 4%
Odgovor D 16%
Odgovor E 18%
Iz tablice se vidi da su ispitanici u najvećoj mjeri birali točan odgovor. U slučaju da se točno
rješenje u ovom zadatku boduje s 1 ili 0 bodova, indeks lakoće zadatka iznosit će p=0,44. Poželjno
bi bilo da ostale odgovore ispitanici biraju s podjednakom učestalošću. U navedenom primjeru očito
41
je da odgovor C nije jednako atraktivan jer ga bira svega 4% ispitanika. Ovu opciju bilo bi korisno
zamijeniti nekom atraktivnijom opcijom koju će ispitanici smatrati vjerojatnijom. Ukoliko ispitanik
ne zna odgovor u tom slučaju lako eliminira opcije koje su malo vjerojatne te time povećava
vjerojatnost da pogađanjem odabere točan odgovor.
U psihometrijskoj literaturi mogu se pronaći pokušaji da se iz analize odabira krivih odgovora
izvuku određene informacije o razvijenosti predmeta mjerenja kod ispitanika, te nekim njihovim
drugim karakteristikama. Pokazalo se da u određenim slučajevima informacija o tome koju je od
krivih opcija ispitanik odabrao nudi neku informaciju o razvijenosti konstrukta. Naime, u sljedećem
primjeru zadano je pitanje
Navedite glavni grad Nizozemske.
a ponuđene opcije su:
a) Amsterdam, b) Rotterdam, c) Den Haag, d) Antwerpen, e) Kopenhagen.
Ukoliko ispitanik ne zna odgovor pokušat će analizirati koji su odgovori najvjerojatniji. Za
očekivati je da ispitanici koji bi u ovom slučaju odabrali odgovor b) Amsterdam vjerojatno imaju
veću razvijenost poznavanja zemljopisa od ispitanika koji bi u ovom slučaju birali odgovore d) i e)
jer se radi o gradovima koji uopće nisu u Nizozemskoj. Pojedini autori čak sugeriraju modele u
kojima bi se pojedine krive opcije umjesto s nula bodova honorirale s nekim nenultim ponderom
(Andrich, 2011.).
Analiza ovog tipa može uključivati analizu karakteristične krivulje zadatka ali za svaku od
pojedinih krivih opcija, jednako kao što se to čini za opciju koja predstavlja točan odgovor. Cilj
analize jest vidjeti koliko često ispitanici koji se razlikuju prema ukupnom rezultatu u testu biraju
npr. opciju A. Ukoliko zadatak ima zadovoljavajuću diskriminativnu valjanost za očekivati je da će
ta krivulja imati monotoni opadajući oblik, tj. da će najlošiji ispitanici birati razmjerno najčešće
opciju A, prosječni ispitanici manje često, a najbolji ispitanici najrjeđe. Ovakve krivulje moguće je
nacrtati za svaku od ponuđenih opcija. U slučajevima kada je oblik krivulje nelogičan korisno je
provesti detaljniju analizu, npr. u slučajevima kada najbolji ispitanici neku netočnu opciju ili
distraktor biraju češće od najlošijih ispitanika. Pored toga može se izračunati neka mjera
povezanosti (npr. koeficijent point-biserijalne korelacije) između odabira pojedine opcije i uratka u
cijelom testu slično kao što se računa koeficijent diskriminativne valjanosti zadatka. U ovom
slučaju se svima koji su odabrali npr. opciju A (koja predstavlja netočan odgovor) prida jedan bod,
a svi ostali odgovori (uključujući i točan odgovor) boduju se s nula bodova. Ponavljajući ovaj
postupak mogu se izračunati korelacije između odabira svakog od distraktora u zadatku i ukupnog
uratka ili nekog relevantnog kriterija. Analiza distraktora može autoru testa pružiti korisne
informacije o procesima koje kod ispitanika izazivaju pojedini zadaci, te se te informacije mogu
uključiti u njihovo poboljšanje.
Slika 2. Primjer analize odgovora na zadatke s višestrukim ponuđenim odgovorima
42
Item 3 3 Rit = 0,51
A* (43)
B (44)
C (10)
D (2)
Perc
enta
ge
Score GroupsSubgroup 0 -- Subtest 0 (Missings)
0
20
40
60
80
100
1 2 3 4
Item 37 28,1 Rit = -0,13
A (5)
B (37)
C (46)
D (3)
E* (9)
Perc
enta
ge
Score GroupsSubgroup 0 -- Subtest 0 (Missings)
0
20
40
60
80
100
1 2 3 4
Na lijevom grafikonu prikazan je postotak odabranih odgovora za svaki od četiri ponuđena
odgovora u zadatku u funkciji ukupnog rezultata prikazanog na apscisi. Ispitanici su podijeljeni u 4
skupine s obzirom na njihov ukupni rezultat u testu u kojemu se nalazi taj zadatak. Kao što se može
vidjeti krivulja koja opisuje postotak ispitanika koji su birali odgovor A (koji predstavlja točan
odgovor u ovom zadatku) raste s porastom ukupnog rezultata koji su ispitanici ostvarili u testu.
Ostale tri krivulje pokazuju da se broj ispitanika koji su birali neki od tri netočna odgovora smanjuje
u funkciji porasta ukupnog rezultat u testu. Ovakva struktura odgovora ukazuje da zadatak i
ponuđeni odgovori uglavnom dobro funkcioniraju iako se može uočiti da sve tri netočne opcije nisu
jednako atraktivne ispitanicima. Korelacija zadatka s ukupnim uratkom u testu iznosi 0,51.
Na desnom grafikonu prikazana je slična analiza zadatka s 5 ponuđenih odgovora. Iz analize se
može vidjeti da je postotak ispitanika koji biraju odgovor koji je predviđen kao točan vrlo niska i
što je još važnije autoru, krivulja koja opisuje postotak ispitanika koji biraju točan odgovor
(odgovor E) ne raste u funkciji porasta ukupnog rezultata u testu. To znači ispitanici koji imaju
relativno najveći broj bodova u testu nisu uspješniji u ovom zadatku od ispitanika koji imaju mali
broj bodova u testu. Krivulje koje opisuju postotak odabira ostale četiri opcije pokazuju da odabir
odgovora B raste u funkciji porasta ukupnog rezultata u testu. Autori moraju analizirati razloge
zbog čega bolji ispitanici biraju odgovor koji nije predviđen kao točan. Inače korelacija ovog
zadatka s ukupnim rezultatom u testu iznosi -0,13 i ukazuje na lošu diskriminativnu valjanost
zadatka, a iz grafikona se može zaključiti koji su razlozi.
7.4. Analiza različitog funkcioniranja zadataka
Vjerojatnost točnog odgovora u zadatku u prvom redu mora ovisiti o razvijenosti konstrukta koji taj
zadatak mjeri, odnosno to je jedini teorijski faktor za koji se očekuje da utječe na uspješnost
ispitanika u zadatku. Ukoliko pored predmeta mjerenja na uradak djeluju i neki drugi faktori
povezani s karakteristikama ispitanika ili karakteristikama skupine koje rješava zadatak onda se
javlja problem različitog funkcioniranja zadatka (eng. DIF - differential item functioning).
Ukoliko se prilikom analize utvrde razlike u uratku u zadatku između skupina različitih prema
nekom obilježju poput spola (muškarci i žene), dobi (mlađi i stariji), veličini mjesta boravka (mala i
velika mjesta) ili nekom drugom relevantnom obilježju za koje raspolažemo s podacima potrebno je
analizirati moguće uzroke tih razlika. Ukoliko se može dokazati da razlika proizlazi iz činjenice da
43
se analizirane skupine razlikuju prema predmetu mjerenja i da je to razlog njihova različitog uratka
u zadatku problem u osnovi ne postoji. Npr. ukoliko teorijske spoznaje i empirijski podaci ukazuju
da se muškarci i žene razlikuju prema nekom konstruktu onda je očekivano da i testovni zadaci
ukazuje na tu razliku. Međutim ukoliko autor nema spoznaje o očekivanim razlikama između grupa
na analiziranom konstruktu moguće je da se radi o problemu različitog funkcioniranja zadatka.
Prema Standardima za psihološko i pedagoško testiranje različito funkcioniranje zadataka postoji
kada se ispitanici jednakih sposobnosti, razlikuju u prosjeku prema svojim odgovorima u zadatku
ovisno o grupnoj pripadnosti (APA, 1999.). Kada se otkrije različito funkcioniranje zadataka, autor
testa pokušava pronaći plauzibilno objašnjenje razlika te utvrditi uzroke tih razlika. Kada
vjerodostojna istraživanja pokazuju različito funkcioniranje zadataka u području mjerenom testom
za dobne, spolne, rasne, etničke, kulturalne, lingvističke i/ili skupine osoba s invaliditetom, autor
testa dužan je, čim je to moguće, provesti odgovarajuća ispitivanja. Takva ispitivanja trebaju
nastojati otkriti i odstraniti one aspekte uređenja, sadržaja i oblika testa koji mogu biti izvor njegove
pristranosti za različite skupine ispitanika.
U slučaju da se utvrdi da su uzroci razlika irelevantni za konstrukt koji se testom mjeri autor tada
može/mora zamijeniti ili preurediti čestice koje dovode do grupnih razlika. Određenje irelevantnosti
uzroka u odnosu na konstrukt podrazumijeva detaljnu teorijsku elaboraciju predmeta mjerenja te
područja sadržaja. Naime pojedini faktori mogu biti visoko povezani s određenim karakteristikama
grupe te ih nije moguće razmatrati odvojeno. U tom slučaju autor mora računati da je mjera
zadanog konstrukta povezana s nekim stabilnim karakteristikama ispitanika koje nije razložno
odvajati niti kontrolirati.
Ponekad se termin »pristranost zadatka» koristi kao sinonim za “različito funkcioniranje zadatka”.
Termin «pristran» ima često pejorativno značenje koje ne mora uvijek biti opravdano. Nunnally
(1994.) smatra da je izraz “pristran” opravdan samo u određenim slučajevima budući da u
pojedinim situacijama postojanja različitog funkcioniranja zadatka nije uvijek moguće utvrditi što je
uzrok bez jasnih kriterija ili dokazane pretpostavke o jednakim sposobnostima pripadnika dviju
populacija. Ova dva termina su srodni, ali se različito funkcioniranje može odrediti kao širi pojam.
Tako u određenim slučajevima očekujemo različito funkcioniranje zadatka jer je konzistentno s
razlikama ispitanika na mjerenom konstruktu i može biti od šireg teorijskog i istraživačkog interesa,
ali ne ukazuje na pristranost, odnosno ne zahtijevaju intervenciju u sadržaj testa. Pristranost (bias) u
statističkom smislu predstavlja sustavnu pogrešku u testovnom rezultatu.
Pristranost se može odnositi na slabu reprezentativnost ili na postojanje nekih aspekata testovnih
rezultata irelevantnih za konstrukt koji test mjeri a koji na različiti način utječu na uradak različitih
skupina ispitanika (APA, 2004.). Činjenica da određeni zadaci u testu mogu biti pristrani u korist ili
na štetu neke određene grupe, može postati problem za ispitanike, korisnike testa, kao i za sve
ostale koji se koriste testovnim rezultatima. Iako ovaj problem dugo postoji, donedavno je bilo malo
slaganja o definiciji pristranosti testova i zadataka, pa su i metode za njihovo utvrđivanje bile
nedovoljno razvijene.
U okviru klasične teorije testova različito funkcioniranje zadataka može se odrediti u slučaju kada
ispitanici iz različitih populacija, za koje se može dokazati da se ne razlikuju prema razvijenosti
44
mjerenog konstrukta, imaju različitu uspješnost uratka u zadatku. Ovaj problem može se detektirati
i analizirati u okviru klasične teorije testova i u okviru modela teorije odgovora na zadatke (IRT).
Jedan zadatak može biti teži, diskriminativniji ili rezultirati većom tendencijom slučajnom
pogađanju za jednu grupu u odnosu na drugu grupu.
U okviru klasičnih pristupa razvijeno je više procedura za utvrđivanje različitog funkcioniranja
zadatka ili pristranosti zadatka. Najjednostavniji pristup jest testirati razliku u uratku u jednom
zadatku za pripadnike skupina koja se ne razlikuju prema ukupnom testovnom rezultatu (odnosno
skupina između kojih ne postoji razlika u razvijenosti konstrukta koji se nastoji zadatkom izmjeriti).
Uobičajena statistička metoda kojom se testira različito funkcioniranje zadatka je tzv. Mantel-
Haenszelov postupak. Za binarne zadatke prikladna je i uporaba logističke regresijske analize.
Ukoliko je moguće na osnovi uratka u zadatku (zadacima) predviđati neku kriterijsku varijablu
(npr., spol) to može ukazivati na pristranost zadat(a)ka ili problem različitog funkcioniranja.
Posljedice pristranost pojedinih zadataka mogu značajno utjecati na valjanost izvedenih zaključaka
na osnovi testovnih rezultata. Zamislimo test koji se sastoji od 20 zadataka i mjeri atribut prema
kojemu se populacije muškaraca i žena ne razlikuju, ali na 3 zadatka nalazimo razliku prema spolu
budući su ti zadaci pristrani. Posljedica može biti da ćemo i prema prosječnim testovnim
rezultatima utvrditi razliku između muškaraca i žena.
Ovaj problem osobito je važan pri situacijama selekcije u kojima pripadnici pojedinih populacija
imaju veću šansu za uspjeh iako to ne bi trebao biti slučaj na osnovi razvijenosti konstrukta.
7.5. Procedura izbora zadataka
Na osnovi informacija prikupljenih analizom zadataka potrebno je izvršiti odabir zadataka za
konačnu verziju testa, odnosno odabrati zadatke koji će sačinjavati test s nekim poželjnim
psihometrijskim svojstvima. Proces izbora zadataka je dinamičan i uključuje ponavljanje
izračunavanja pojedinih parametara zadataka nakon izbacivanja svakog pojedinog zadatka ili
skupine zadataka iz testa. Isključivanjem svakog pojedinog zadatka mijenjaju se i karakteristike
ukupnih testovnih rezultata a time i karakteristike zadataka povezane s varijancom ukupnih
testovnih rezultata poput korelacija zadataka s ukupnim rezultatom. Ovo je osobito izraženo u
početnoj verziji testa koja uključuje sve zadatke, pa i one čijim izbacivanjem se mogu znatnije
promijeniti karakteristike ukupnih testovnih rezultata.
Prilikom izbora zadataka najčešće smo usmjereni na zadatke koji imaju prihvatljive koeficijente
diskriminativne valjanosti te čija je težina i osjetljivost primjerena očekivanoj namjeni testa.
Poželjno je na početku ove procedure definirati približna psihometrijska svojstva konačne verzije
testa te približan broj zadataka koje namjeravamo zadržati u konačnoj formi testa. Moguće je
odrediti kriterij zadržavanja zadataka s obzirom na vrijednosti koeficijenata diskriminativne
valjanosti iako su u većini slučajeva ovi kriteriji prije relativni nego apsolutni. Zadatke koji nemaju
prihvatljivu diskriminativnu valjanost isključit ćemo iz testa, jer nisu valjani indikatori zadanog
konstrukta. Iako je kvantitativna osnovica evaluacije i izbora zadataka jednaka za testove
sposobnosti i postignuća, kod testova postignuća je od posebne važnosti dokazati sadržajnu
45
valjanost zadatka. Ukoliko teorijska analiza ukazuje na nedostatnu sadržajnu valjanost zadatak se
isključuje unatoč mogućoj zadovoljavajućoj diskriminativnoj valjanosti, odnosno prihvatljivim
statističkim parametrima. S obzirom na težinsku primjerenost i osjetljivost najčešće se među
zadacima prihvatljive valjanosti nastoji odabrati veći broj zadataka prosječne težine, te manji broj
laganih i teških zadataka. U većini slučajeva je poželjno je pokriti cijeli raspon težinske
primjerenosti. Izborom zadataka različite težine možemo utjecati na oblik distribucije ukupnih
rezultata, odnosno na bolju diskriminaciju ispitanika u nekom intervalu mjerenog atributa. Ovo
naravno vrijedi uz pretpostavku da zadaci imaju zadovoljavajuću diskriminativnu valjanost. Izbor
laganih zadataka koji nemaju zadovoljavajuću diskriminativnu valjanost neće doprinijeti
razlikovanju inferiornih ispitanika prema mjerenom atributu.
Korisno je grafički prikazati odnos zadataka s obzirom na dvije ključne karakteristike koje
analiziramo u procesu analize zadataka: težinu lakoću) zadatka i diskriminativnu valjanost. U tom
slučaju se može izvršiti odabir zadataka koji zadovoljavaju neke postavljene kriterije. Primjer
takvog prikaza (koji se ponekad naziva r-p dijagram) može se vidjeti na grafikonu br. 3.
Grafički prikaz 3. Grafički prikaz težine i diskriminativne valjanosti zadataka
Na sljedećim primjerima pokušat ćemo demonstrirati utjecaj izbora zadataka različite težine na
mogućnost razlikovanja ispitanika ukupnim testovnim rezultatima. U ovom slučaju pretpostavit
ćemo da su zadaci u visokim međusobnim korelacijama, tj. da u visokom stupnju mjere isti u
konstrukt.
Indeks lakoće0
0,2
0,4
0,6
0,8
1
0 0,5 1
rit
46
Tablica 4. Primjer 1: Test koji se sastoji od prosječno teških zadataka
isp\zad Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 z10 U
1 1 1 1 1 1 1 1 1 1 1 10
2 1 1 1 1 1 1 1 1 1 1 10
3 1 1 1 1 1 1 1 1 1 1 10
4 1 1 1 1 1 1 1 1 1 1 10
5 1 1 0 1 0 1 0 0 1 1 6
6 0 0 0 1 0 1 0 0 1 1 4
7 0 0 0 0 1 0 0 0 1 0 2
8 0 0 0 0 0 0 0 0 0 0 0
9 0 0 0 0 0 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 0 0 0
p 0.5 0.5 0.4 0.6 0.5 0.6 0.4 0.4 0.7 0.6
Primjer 1 demonstrira situaciju kada se test sastoji od prosječno teških zadataka a ne sadrži lake i
teške zadatke. U tom slučaju postojat će tendencija da je razlikovanje na osnovi ukupnih rezultata
najveće među prosječnim ispitanicima, dok se iznadprosječni i ispodprosječni ispitanici na osnovi
ovih zadataka neće moći dobro razlikovati.
47
Tablica 5. Primjer 2: Test koji se sastoji od prosječno teških zadataka, ali i manjeg broja vrlo lakih i
vrlo teških zadataka
isp\zad Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 z10 U
1 1 1 1 1 1 1 1 1 1 1 10
2 1 1 1 1 1 1 1 0 1 1 9
3 1 1 1 1 1 1 0 0 1 1 8
4 1 1 1 1 1 1 0 0 1 1 8
5 1 1 0 1 1 1 0 0 1 1 7
6 0 1 0 1 0 1 0 0 1 1 5
7 0 0 0 0 0 1 0 0 1 0 2
8 0 0 0 0 0 1 0 0 1 0 2
9 0 0 0 0 0 0 0 0 1 0 1
10 0 0 0 0 0 0 0 0 0 0 0
p 0.5 0.6 0.4 0.6 0.5 0.8 0.2 0.1 0.9 0.5
Slučaj naveden u drugom primjeru predstavlja najčešću situaciju izrade testa i ova bi strategija
trebala rezultirati dobrim razlikovanjem duž cijelog kontinuuma mjerene osobine i uglavnom
dovodi do normalne raspodjele ukupnih rezultata.
Tablica 6. Primjer 3: Test koji se sastoji od laganih zadataka
isp\zad Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 z10 U
1 1 1 1 1 1 1 1 1 1 1 10
2 1 1 1 1 1 1 1 1 1 1 10
3 1 1 1 1 1 1 1 1 1 1 10
4 1 1 1 1 1 1 1 1 1 1 10
5 1 1 1 1 1 1 1 1 1 1 10
6 0 1 1 1 1 1 1 1 1 1 9
7 0 0 1 1 1 1 1 1 1 1 8
48
8 0 0 0 0 1 1 1 1 0 1 5
9 0 0 0 0 0 1 0 1 0 1 3
10 0 0 0 0 0 0 0 0 0 1 1
p 0.5 0.6 0.7 0.7 0.8 0.9 0.8 0.9 0.7 1.0
U trećem primjeru u testu dominiraju lagani zadaci što će dovoditi do negativno asimetrične
distribucije ukupnih rezultata te slabije mogućnosti razlikovanja iznadprosječnih ispitanika.
Razmotrimo, za ilustraciju, slučaj kada se test sastoji od zadataka prosječne težine ali različite
međusobne povezanosti.
Tablica 7. Primjer 4: Test koji se sastoji od prosječno teških zadataka u visokim korelacijama
isp\zad Z1 Z2 Z3 Z4 Z5 U
1 1 1 1 1 1 5
2 1 1 1 1 1 5
3 1 1 1 1 1 5
4 1 1 1 1 1 5
5 1 1 1 1 1 5
6 0 0 0 0 0 0
7 0 0 0 0 0 0
8 0 0 0 0 0 0
9 0 0 0 0 0 0
10 0 0 0 0 0 0
p 0.5 0.5 0.5 0.5 0.5 M=2,5
U ovom slučaju aritmetička sredina testa iznosit će M=2,5, a varijabilitet testovnih rezultata bit će
velik.
49
Tablica 8. Primjer 5: Test koji se sastoji od prosječno teških zadataka u nultim korelacijama
isp\zad Z1 Z2 Z3 Z4 Z5 U
1 1 0 1 0 1 3
2 0 1 0 1 1 3
3 1 0 1 0 1 3
4 0 1 0 1 1 3
5 1 0 1 0 1 3
6 0 1 0 1 0 2
7 1 0 1 0 0 2
8 0 1 0 1 1 3
9 1 0 1 0 0 2
10 0 1 0 1 0 2
p 0.5 0.5 0.5 0.5 0.5 M=2,5
I u primjeru 5 aritmetička sredina ukupnih rezultata iznosi M=2,5, ali je očito iz ove ilustracije da se
ukupni testovni rezultati manje razlikuju od onih u primjeru 4.
Što su težine zadataka veće, distribucija ukupnih rezultata postaje pozitivno asimetrična, i obrnuto
test sačinjen od lakših zadataka rezultira negativno asimetričnom distribucijom ukupnih testovnih
rezultata. Ako su zadaci prosječne težine distribucija će biti simetrična.
Utjecaj interkorelacija na oblik distribucije ukupnih rezultata nije jednoznačan. Najveći utjecaj
interkorelacije među zadacima imaju na zvonolikost distribucije (kurtosis). Kako se korelacije među
zadacima testa povećavaju distribucija ukupnih rezultata se mijenja od platikurtične (razvučene
distribucije) ka mezokurtičnoj, odnosno leptokurtičnoj (kod koje su rezultati koncentrirani oko
prosječne vrijednosti), a u slučaju ekstremno visokih korelacija distribucija teži bimodalnom obliku.
Uz hipotetski savršeno korelirane zadatke prosječne težine, polovica ispitanika ostvarit će
maksimalni uradak, a polovica nulti uradak, tj. takvim testom bismo hipotetski ostvarili svega dva
različita ukupna rezultata. Savršeno pouzdan test diskriminirat će dvije grupe ispitanika u
potpunosti, ali pri tome neće dati nikakve informacije o razlikama unutar grupa.
U pravilu se tijekom analize zadataka sukcesivno isključuju najlošiji zadaci, te se nakon isključenja
svakog pojedinog zadatka analiziraju karakteristike preostalih zadataka te svojstva ukupnih
testovnih rezultata poput pouzdanosti, homogenosti, osjetljivosti te faktorske strukture. Wherry,
Campbell i Perloff su predložili metodu sukcesivne analize zadataka u kojoj se nakon isključenja
50
zadatka analiziraju koeficijenti diskriminativne valjanosti zadataka u skraćenoj verziji testa. Oni
predlažu zadržavanje zadataka kod kojih dolazi do povećanja diskriminativne valjanosti, te
razmatranje i isključenje zadataka kod kojih je došlo do smanjenja diskriminativne valjanosti.
Procedura se ponavlja dok promjene postanu zanemarivo male.
U pravilu rad na isključivanju zadataka traje dok se ne ostvare neka poželjna svojstva ukupnih
testovnih rezultata ili dok se daljnjim isključivanjem zadataka ne počnu narušavati poželjna svojstva
testa. Tako će npr. izbacivanje loših zadataka u početku dovoditi do povećanja prosječne korelacije
među zadacima pa čak i povećanja pouzdanosti ukupnih rezultata. Međutim nakon isključenja
relativno lošijih zadataka u jednoj točki će daljnjim izbacivanjem zadataka početi opadati
pouzdanost testa i doći će do pogoršanja nekih aspekata valjanosti i osjetljivosti.
U načelu autor će pri izboru zadataka preferirati zadatke s većom diskriminativnom valjanošću,
zadatke optimalne težine, ali također i zadatke sa zadovoljavajućom sadržajnom valjanošću. U
određenim slučajevima, osobito kod testova znanja, autor može zadržati zadatak koji će sačuvati
sadržajnu valjanost testa iako postoje i drugi zadaci čiji su kvantitativni pokazatelji superiorniji.
7.5.1. Koncept homogenosti testa
Jedna od karakteristika testa koja se može relativno neovisno analizirati jest homogenost testa.
Homogenost ukazuje na stupanj u kojemu neki test koji se sastoji od više komponenti mjeri jedan
konstrukt ili identičnu kombinaciju različitih konstrukata. Homogenost proizlazi iz činjenice da svi
dijelovi testa mjere isti konstrukt. Savršeno heterogen test jest onaj čiji su zadaci statistički
neovisni, tj. svaki zadatak ima različit predmet mjerenja.
Iako postoje različiti postupci za utvrđivanje homogenosti, najčešće korišten indikator homogenosti
jest prosječna korelacija među zadacima kompozita.
ijr
Visoka korelacija među zadacima ukazuje na zajednički predmet mjerenja, odnosno na
homogenost njihova sadržaja. Visoka homogenost ukazuje na visoku pouzdanost tipa unutarnje
konzistencije. Nasuprot tome, niska prosječna korelacija ukazuje na relativnu heterogenost
testovnog sadržaja, ali pouzdanost ukupnih rezultata kod takvog kompozita može biti visoka
ukoliko je broj zadataka velik. U tom slučaju će mali dio zajedničkog variranja koji zadaci dijele
postati relativno dominantan u varijanci ukupnih rezultata. Na homogenost može ukazivati i
relativna količina varijance objašnjene prvim ekstrahiranim faktorom ili glavnom komponentom.
Drugim riječima, ako kod homogenog testa sve zadatke poredamo po težini, svaki ispitanik
riješit će dio zadataka do određene točke, a niti jedan iza te točke. U savršeno heterogenom testu,
gdje su zadaci poredani po težini riješeni zadaci nekog ispitanika bit će raspoređeni po slučaju.
Treba voditi računa da kod procjene prosječne korelacije na vrijednosti prosječnih korelacija utječu
i metrička svojstva zadataka. Tako će u pravilu prosječna korelacije među zadacima biti veća kod
51
zadataka koji imaju veći varijabilitet, što onda može ukazivati na nižu homogenost testa, ali se mora
uzeti u obzir redukcija varijance kod takve vrste zadataka. Tako npr. prosječna korelacija među
binarnim zadacima rijetko prelazi 0,2, pa test inteligencije čiji su zadaci u prosječnim korelacijama
od 0,15, a prvi ekstrahirani faktor objašnjava 30% varijance može imati prihvatljivu homogenost.
7.5.2. Primjer analize i izbora zadataka
Za ilustraciju procedure analize zadataka i izbora zadataka prikazat ćemo rezultate primjene probne
verzije kratkog upitnika koji se sastoji od 6 pitanja. Nazovimo ovaj kratki kompozitni instrument
Upitnik A. U svakom pitanju ispitanici su mogli izraziti svoj stupanj slaganja s pojedinom tvrdnjom
na ljestvici od 5 stupnjeva (1 do 5). Probna verzija upitnika A primijenjena je na uzorku od 162
ispitanika. Kako se radi o malom broju čestica ovdje možemo analizirati i korelacijsku matricu
među česticama. Na skupu od 6 varijabli moguće je izračunati 15 različitih koeficijenata korelacije.
Tablica 9. Korelacijska matrica između 6 zadataka Upitnika A
Z1 Z2
Z3 Z4 Z5 Z6
Z1 1 ,116 ,565** ,328** ,173* ,301**
Z2 1 ,040 ,236** ,078 -,075
Z3 1 ,412** ,222** ,316**
Z4 1 ,311** ,360**
Z5 1 ,264**
Z6 1
*P<0,05, **P<0,01
Iz korelacija među zadacima teško je donijeti jednoznačan sud o zajedničkom predmetu mjerenja
svih 6 zadataka. Veličine korelacija među zadacima kreću se od -0,075 do 0,565 i ukazuju na
određenu povezanost među zadacima, ali je očito da su potrebne dodatne informacije koje bi
opravdale korištenje svih 6 zadataka u ovom upitniku.
U nastavku ćemo prikazati standardne informacije koje se mogu dobiti o zadacima i
karakteristikama ukupnih testovnih rezultata primjenom naredbe RELIABILITY unutar statističkog
programa SPSS.
52
Tablica 10. Deskriptivna statistika zadataka
M SD N
Z1 3,4198 1,04393 162
Z2 3,0988 1,24217 162
Z3 3,6049 1,04173 162
Z4 3,3889 1,09912 162
Z5 2,8704 1,09283 162
Z6 2,9877 ,98427 162
Iz tablice 10. možemo uočiti da se aritmetičke sredine zadataka kreću između 2,87 i 3,6. Očekivana
teorijska aritmetička sredina s obzirom na raspon vrijednosti u zadacima (od 1 do 5) bila bi oko 3.
Standardne devijacije svih zadataka bliske su vrijednosti 1.
Tablica 11. Deskriptivna statistika ukupnih rezultata u Upitniku A od 6 čestica
Scale Statistics
M Varijanca SD N čestica
19,3704 15,353 3,91825 6
U prethodnoj tablici br. 11 navedeni su osnovni deskriptivni parametri ukupnih rezultata.
Aritmetička sredina ukupnih rezultata iznosi M=19,37 i jednaka je zbroju aritmetičkih sredina svih
6 čestica koje sačinjavaju Upitnik A.
3.4198 + 3,0988 + 3,6049 + 3,3889 + 2,8704 + 2,9877 = 19,37
Teorijski bismo mogli očekivati aritmetičku sredinu od približno 18. Opažena aritmetička sredina
nešto je viša od ove hipotetske vrijednosti.
Tablica 12. Statistički parametri čestica Upitnika A
Summary Item Statistics
Mean Minimum Maximum Range
Maximum /
Minimum Variance N of Items
Item Means 3,228 2,870 3,605 ,735 1,256 ,081 6
Item Variances 1,182 ,969 1,543 ,574 1,593 ,039 6
Inter-Item Covariances ,275 -,092 ,614 ,706 -6,679 ,029 6
Inter-Item Correlations ,243 -,075 ,565 ,640 -7,509 ,025 6
U prethodnoj tablici br. 12 navedeni su sumarni podaci za četiri važna parametra testovnih čestica.
U prvom redu navedene su informacije o aritmetičkim sredinama zadataka. U prvom stupcu (Mean)
nalazi se prosječna vrijednost svih aritmetičkih sredina zadataka. To je u osnovi vrijednost
aritmetičke sredine ukupnih rezultata podijeljena s brojem čestica (19,37/6=3,228). U nastavku reda
53
navedene su vrijednosti najmanje i najveće aritmetičke sredine, razlike između te dvije vrijednosti
(range = 3,605-2,870), omjer najveće i najmanje aritmetičke sredine (3,605/2,870=1,256), varijanca
izračunata na skupu svih aritmetičkih sredina, te konačno broj čestica u analiziranoj verziji testa.
U sljedeća tri reda navedene su iste informacije za varijance testovnih zadataka, kovarijance i
korelacije među zadacima. Osobito važna informacija pri analizi zadataka jest njihova prosječna
korelacija (Mean). Prosječna korelacija izračunata na osnovi 15 korelacija iz tablice 9. iznosi 0,243.
Ova prosječna korelacija pruža autoru informaciju o homogenosti/heterogenosti testovnih zadataka,
omogućuje i procjenu broja zadataka potrebnih za neku zadanu pouzdanost kompozita
Tablica 13. Statistički podaci koji opisuju odnos pojedinog zadatka i ukupnih rezultata u testu
Item-Total Statistics
Scale Mean if
Item Deleted
Scale Variance
if Item Deleted
Corrected Item-
Total
Correlation
Spuriozni
koeficijenti
korelacije
Squared
Multiple
Correlation
Cronbach's
Alpha if Item
Deleted
Z1 15,9506 10,966 ,477 ,66937 ,349 ,566
Z2 16,2716 12,733 ,121 ,42761 ,098 ,706
Z3 15,7654 10,839 ,500 ,68584 ,391 ,558
Z4 15,9815 10,279 ,548 ,72929 ,314 ,535
Z5 16,5000 11,730 ,324 ,56249 ,130 ,622
Z6 16,3827 11,952 ,357 ,56649 ,224 ,610
U prethodnoj tablici br. 13 nalaze se podaci koji autoru testa omogućuju odluku o izboru najboljih
zadataka odnosno posljedicama isključivanja pojedinog zadatka na osnovne karakteristike ukupnih
testovnih rezultata. U prvom stupcu nalaze se vrijednosti aritmetičke sredine ukupnih rezultata u
testu u slučaju da izbacimo neki od zadataka. U slučaju izbacivanja prvog zadatka (čija je
aritmetička sredina 3,4198) aritmetička sredina ukupnih rezultat umanjila bi se za tu vrijednost te bi
iznosila 15,9506. U drugom stupcu navedena je vrijednost varijance ukupnih rezultata u slučaju
izbacivanja pojedinog zadatka. U trećem stupcu (Corrected item-total Correlation) navedene su
korigirane (nespuriozne) korelacije između zadatka i ukupnog rezultata u testu. To znači da je svaki
zadatak koreliran sa zbrojem svih preostalih zadataka. U slučaju Upitnika A vidimo da su ti
koeficijenti u rasponu od 0,121 za drugi zadatak do 0,548 za četvrti zadatak. Iako ne postoji
apsolutna vrijednost koeficijenta diskriminativne valjanosti koju bismo uzeli kao prihvatljivu za
zadržavanje zadatka u testu vrijedi pravilo da se zadaci s niskim koeficijentima isključuju iz
kompozita. Jedan kriterij jest statistička značajnost koeficijenta, jer korelacije koje nisu niti
statistički značajne nema smisla uzeti u razmatranje. Kod odluke o najnižoj prihvatljivoj veličini
koeficijenta diskriminativne valjanosti treba voditi računa o različitim faktorima (vrsta varijable,
težina zadatka, oblik povezanosti zadatka i ukupnog uratka i sl,.) ali općenito koeficijenti niži od 0,2
Ukazuju na nisku ili nedovoljnu diskriminativnu valjanost. U nedostatku boljih zadataka autori
ponekad i ovakve zadatke zadrže u testu, ali je očito da u tom slučaju test mora imati više zadataka
kako bi ukupni rezultati ostvarili neke poželjne karakteristike.
54
U našem primjeru prvi zadatak koji bismo isključili iz testa bio bi zadatak broj 2, čiji je koeficijent
diskriminativne valjanosti skromnih 0,121. Ukoliko bismo isključili ovaj zadataka bilo bi potrebno
provesti novu analizu testa koji bi se sastojao od 5 zadržanih zadataka. U tablici 13. su navedeni i
spuriozni koeficijenti korelacije za koje smo ranije naveli da su umjetno povećani s obzirom da
svaki zadatak korelira sa svojim udjelom u ukupnom rezultatu, a taj efekt je to veći što je manji broj
zadataka. Ukoliko usporedimo spuriozne i korigirane koeficijente diskriminativne valjanosti uočit
ćemo da su spuriozni sustavno veći, ali se može uočiti da spuriozni koeficijent drugog zadatka ima
znatno veću vrijednost od nespuriozne korelacije tog zadatka. Iako je ova vrijednost i dalje relativno
najniža od svih 6 zadataka apsolutna veličina koeficijenta ne ukazuje na lošu diskriminativnu
valjanost ovoga zadatka. Stoga pri analizi kratkih testova treba svakako voditi računa o utjecaju
spurioznosti. Valja naglasiti da program SPSS u okviru standardne naredbe za analizu zadataka ne
prikazuje veličine spurioznih koeficijenata korelacije. U nastavku tablice 13. u stupcu Squared
Multiple Correlation prikazani su koeficijenti multiple determinacije pri čemu se pojedini zadatak
uzima kao kriterij a svi preostali zadaci kao prediktori. U slučaju da je postotak varijance u zadatku
koji je moguće objasniti ostalim testovnim zadacima relativno velik to ukazuje da zadatak u osnovi
mjeri isti konstrukt kao i ostali zadaci. U našem slučaju uočavamo da drugi zadatak i prema ovom
kriteriju dijeli najmanje zajedničke varijance s ostalim zadacima. U posljednjem stupcu Cronbach's
Alpha if Item Deleted nalaze se procjene pouzdanosti ukupnih rezultata u testu izražene
Cronbachovim alfa koeficijentom u slučaju da se izbaci pojedini zadatak. Pouzdanost ukupnih
rezultata za analiziranu verziju od 6 zadataka nalazi se u tablici 14. Uočavamo da će se
izbacivanjem drugog zadatka sadašnja pouzdanost kompozita od 0,646 povećati na 0,706.
Izbacivanje dobrih zadataka imat će za posljedicu smanjenje pouzdanosti kompozita.
Tablica 14. Pouzdanost ukupnih rezultata u testu izražena Cronbachovim alfa koeficijentom
Reliability Statistics
Cronbach's
Alpha
Cronbach's
Alpha Based on
Standardized
Items N of Items
,646 ,658 6
U tablici 14. navedena je pouzdanost Upitnika A sastavljenog od 6 zadataka i ona iznosi 0,646. U
drugom stupcu navedena je vrijednost pouzdanosti koju bismo dobili u slučaju da se svi zadaci
standardiziraju tj. izraze u z-vrijednostima. U slučaju da su zadaci identičnih ili vrlo sličnih
varijanci ove dvije vrijednost bit će identične ili vrlo slične. Ukoliko su zadaci različitih varijanci, tj.
različitoj mjeri utječu na varijancu ukupnih rezultata to može dovesti do određene razlike između
ove dvije procjene. Naime druga procjena ne uzima u obzir varijance zadataka i odgovara
vrijednosti koju bismo dobili da u Spearman-Brown-ovu formulu uvrstimo vrijednost prosječne
korelacije među zadacima koja iznosi 0,243 (rxx = (6x 0,243)/1+ (6-1)0,243 = 1,458/ 2,215 =
0,658). U slučaju da smo odlučili isključiti drugi zadatak cijelu proceduru trebalo bi ponoviti na
zadržanih 5 zadataka te nakon toga odlučiti treba li izbaciti sljedeći najlošiji zadatak.
55
U slučaju da smo na probnoj verziji Upitnika A od 6 zadataka proveli i faktorsku analizu metodom
glavnih komponenti dobili bismo dvije značajne glavne komponente s karakterističnim
vrijednostima većim od 1.
Tablica 15. Vrijednosti karakterističnih korjenova 6 glavnih komponenti dobivenih analizom
Upitnika A.
Component
Initial Eigenvalues
Total % of Variance Cumulative %
1 2,350 39,163 39,163
2 1,082 18,034 57,197
3 ,926 15,434 72,631
4 ,687 11,450 84,081
5 ,553 9,221 93,302
6 ,402 6,698 100,000
Iz veličina karakterističnih korjenova možemo uočiti jedan koji znatno odstupa prema svojoj
vrijednosti (λ1=2,35). Sljedeća glavna komponente (λ2=1,082) tek neznatno prelazi vrijednost 1 i
formalno je značajna prema Kaiser-Guttmanovom kriteriju, ali je na autoru da odredi imali ju
smisla razmatrati u ovom slučaju. Ukoliko ipak zadržimo dva faktora pogledajmo 16. koja sadrži
matricu faktorske strukture, tj. korelacije manifesnih varijabli (zadataka) s dvije zadržane glavne
komponente nakon provedene varimax rotacije.
Tablica 16. Matrica faktorske strukture nakon varimax rotacije
Rotated Component Matrixa
Component
1 2
Z1 ,720 ,073
Z2 ,057 ,946
Z3 ,775 -,005
Z4 ,686 ,343
Z5 ,509 ,118
Z6 ,682 -,288
Iz tablice 16. uočavamo da je jedino drugi zadatak povezan s drugom glavnom komponentom, dok
su ostali zadaci povezani s prvim faktorom (ili komponentom). Izuzetak je četvrti zadatak koji
pored korelacije s prvim faktorom ima i povezanost s drugim faktorom. Na osnovi analize
vrijednosti karakterističnih korjenova može se uočiti da nakon prve glavne komponente vrijednosti
karakterističnih korjenova ne bilježe značajniji pad, te bismo na osnovi tog kriterija mogli
značajnim smatrati samo prvi ekstrahirani faktor odnosno komponentu. Struktura matrice faktorske
56
strukture sugerira da bi isključenje drugog zadatka bilo opravdano budući da on mjeri nešto drugo u
odnosu na ostale zadatke. Nakon izbacivanja drugog pitanja potrebno je ponoviti cjelokupnu
analizu zadataka. Naravno da se može preskočiti dio koji sadrži univarijatne karakteristike zadataka,
odnosno njihove mjere težine i osjetljivosti koji se ne mijenjaju.
Tablica 17. Deskriptivna statistika ukupnih rezultata u Upitniku A nakon isključenja 2. zadatka
Scale Statistics
Mean Variance Std. Deviation N of Items
16,2716 12,733 3,56836 5
Može se uočiti da je aritmetička sredina skraćene verzije upitnika od 5 zadataka (nakon izbacivanja
2. zadatka) umanjena za vrijednost aritmetičke sredine 2. zadatka te sada iznosi M=16,27.
vrijednost varijance također je smanjena u odnosu na prvu verziju koja je uključivala 6 zadataka.
Tablica 18. Statistički parametri čestica Upitnika A nakon isključenja 2. zadatka
Summary Item Statistics
Mean Minimum Maximum Range
Maximum /
Minimum Variance N of Items
Item Means 3,254 2,870 3,605 ,735 1,256 ,097 5
Item Variances 1,109 ,969 1,208 ,239 1,247 ,009 5
Inter-Item Covariances ,359 ,198 ,614 ,416 3,107 ,013 5
Inter-Item Correlations ,325 ,173 ,565 ,391 3,260 ,011 5
Prosječni parametri navedeni u tablici 18 u odnosu na one u tablici 12. neznatno su promijenjeni.
Važno je uočiti da je prosječna korelacija koja je u prethodnoj verziji upitnika iznosila 0,243 sada
povećana i iznosi 0,325 što znači da je izbacivanjem drugog zadatka kompozit učinjen
homogenijim. Autor nakon isključenja pojedinog zadatka treba razmotriti i moguće promjene
ostalih karakteristika zadataka poput prosječne aritmetičke sredine, varijance te kovarijance.
Tablica 19. Statistički podaci koji opisuju odnos pojedinog zadatka i ukupnih rezultat u testu nakon
isključenja drugog zadatka
Scale Mean if
Item Deleted
Scale Variance
if Item Deleted
Corrected Item-
Total
Correlation
Spuriozna
korelacija
Squared
Multiple
Correlation
Cronbach's
Alpha if Item
Deleted
Z1 12,8519 8,649 ,488 0,695 ,341 ,646
Z3 12,6667 8,323 ,553 0,739 ,386 ,619
Z4 12,8827 8,303 ,509 0,719 ,266 ,637
Z5 13,4012 9,322 ,332 0,590 ,129 ,711
Z6 13,2840 9,149 ,439 0,648 ,197 ,666
57
Isključenjem jednog zadatka promijenili smo u određenoj mjeri karakteristike ukupnih rezultata te
je stoga potrebno ponovno izračunati i razmotriti korelacije svih zadataka s ukupnim rezultatom.
Razmotrimo li koeficijente diskriminativne valjanosti zadataka nakon isključenja drugog zadatka
uočit ćemo da su se povećali za sve zadržane zadatke s izuzetkom četvrtog zadatka. Naime taj
zadatak je jedini imao značajnu korelaciju s isključenim drugim zadatkom. Najniži koeficijent
diskriminativne valjanosti u ovoj verziji upitnika ima peti zadatak i taj koeficijent iznosi 0,332. Na
autoru je odluka hoće li nastaviti s izbacivanjem zadataka ili će ovu verziju od 5 zadatka smatrati
konačnom. Iz tablice 19. možemo vidjeti da bismo isključenjem petog zadatka pouzdanost
kompozita dodatno povećali na 0,711. Negativne posljedice bile bi vjerojatno smanjenje
osjetljivosti i varijance ukupnih rezultata. Dodatni faktor pri odluci o zadržavanju/isključenju
zadatka može biti utjecaj na sadržajnu valjanost. Pogledamo li u ovom slučaju vrijednosti
spurioznih koeficijenata diskriminativne valjanosti one se kreću između 0,648 i 0,739 i više su od
nespurioznih.
Tablica 20. Pouzdanost ukupnih rezultata u testu izražena Cronbachovim alfa koeficijentom nakon
isključenja drugog zadatka
Reliability Statistics
Cronbach's
Alpha
Cronbach's
Alpha Based on
Standardized
Items N of Items
,706 ,707 5
Pouzdanost verzije od 5 zadataka iznosi 0,706 i povećana je u odnosu na verziju upitnika od 6
zadataka. Iz prethodne tablice uočavamo informaciju da bi se isključenjem petog zadatka
pouzdanost kompozita povećala neznatno na 0,711. Kada bismo odlučili isključiti peti zadatak
slijedila bi nova analiza zadatka verzije upitnika od 4 zadatka. U tom slučaju bilo bi moguće da se
daljnjim izbacivanjem zadataka pouzdanost kompozita počne smanjivati unatoč mogućoj
homogenizaciji zadataka. To može biti dodatni argument autoru testa pri odluci o isključenju
pojedinog zadatka.
U slučaju da provedemo faktorsku analizu verzije upitnika od 5 zadataka dobit ćemo samo jednu
glavnu komponentu čiji je karakteristični korijen veći od 1 (λ1=2,325). To ukazuje na jedan faktor
koji mjere svi zadaci. Taj faktor objašnjava ukupno 46,5% varijance.
58
Tablica 21. Vrijednosti karakterističnih korjenova 5 glavnih komponenti dobivenih analizom
Upitnika A nakon isključenja drugog zadatka
Component
Initial Eigenvalues
Total % of Variance Cumulative %
1 2,325 46,500 46,500
2 ,926 18,526 65,026
3 ,706 14,115 79,142
4 ,619 12,381 91,523
5 ,424 8,477 100,000
Tablica 22. Matrica faktorske strukture upitnika nakon isključenja drugog zadatka
Component Matrixa
Component
1
Z1 ,722
Z3 ,773
Z4 ,717
Z5 ,522
Z6 ,648
Iz matrice faktorske strukture u tablici 22. možemo vidjeti da svih 5 zadataka imaju razmjerno
visoka zasićenja s prvim faktorom što ukazuje na zajednički predmet mjerenja svih zadataka. Ovaj
podatak može biti dodatni argument autoru da zadrži svih 5 zadataka u konačnoj verziji testa. U
terminima faktorske analize možemo analizirati i komunalitet pojedinih varijabli, odnosno zadataka.
U slučaju jednog faktora postotak zajedničke varijance odnosno komunalitet svake varijable jednak
je kvadratu korelacije zadatka s faktorom tako najveći komunalitet ima treći zadatak (59,7%), a
najmanji peti zadataka (27,2%).
Tablica 23. Frekvencije ukupnih rezultata u Upitniku A nakon isključenja drugog zadatka
Frequency Percent Valid Percent
Cumulative
Percent
Valid 6,00 1 ,6 ,6 ,6
8,00 4 2,5 2,5 3,1
9,00 2 1,2 1,2 4,3
10,00 3 1,9 1,9 6,2
11,00 6 3,7 3,7 9,9
12,00 5 3,1 3,1 13,0
13,00 12 7,4 7,4 20,4
14,00 13 8,0 8,0 28,4
59
15,00 23 14,2 14,2 42,6
16,00 9 5,6 5,6 48,1
17,00 26 16,0 16,0 64,2
18,00 16 9,9 9,9 74,1
19,00 11 6,8 6,8 80,9
20,00 12 7,4 7,4 88,3
21,00 7 4,3 4,3 92,6
22,00 8 4,9 4,9 97,5
23,00 2 1,2 1,2 98,8
24,00 1 ,6 ,6 99,4
25,00 1 ,6 ,6 100,0
Total 162 100,0 100,0
Kako je cilj najvećeg broja mjernih procedura mogućnost razlikovanja ispitanika s obzirom na
predmet mjerenja autoru je korisno razmotriti i karakteristike distribucije ukupnih rezultata.
Teorijski rezultati bi u upitniku od 5 pitanja mogli varirati od 5 do 25. Iz tablice 23. možemo vidjeti
da raspon opaženih rezultata iznosi 6 do 25 pri čemu je opaženo 19 različitih rezultata uz približno
normalnu distribuciju.
Grafički prikaz 4. Histogramski prikaz distribucije ukupnih rezultata u upitniku A nakon isključenja
drugog zadatka
60
8. Provjera stabilnosti karakteristika zadataka
Svi razmotreni statistički koeficijenti korišteni u analizi zadataka imaju svoju pogrešku. Kako
bismo bili sigurni da su odluke o izboru zadataka uistinu bile statistički utemeljene poželjno je da su
zasnovane na stabilnim procjenama parametara zadataka. Vrlo je preporučljivo provesti neki oblik
provjere stabilnosti izračunatih parametara zadataka na neovisnom uzorku, odnosno provesti neki
oblik križne validacije. U tom slučaju je moguće skraćenje testa na jednom uzorku provesti
koristeći procjene zadataka dobivene na drugom uzorku te usporediti karakteristike ukupnih
testovnih rezultata dobivene na oba uzorka. Ovo je osobito važno kod testova s većim brojem
zadataka jer je nužno da uslijed slučaja neki koeficijenti mogu postići visoke vrijednosti. Pored toga
cjelokupna procedura izbora zadataka u određenoj je mjeri pristrana jer se biraju samo zadaci s
visokim koeficijentima diskriminativne valjanosti.
Kao proporcije indeksi p i q imaju svoju standardnu pogrešku:
e p e q
pq
N( ) ( )
Iz posljednjeg izraza slijedi da povećavanje validacijskog uzorka smanjuje pogrešku procjene, te da
je ona relativno veća za zadatke s većom varijancom. Ovdje je temeljna pretpostavka da se radi o
slučajnom uzorku iz neke poznate populacije.
Za r(pb) nedostaje formula za standardnu pogrešku ali je ona aproksimativno jednaka Pearsonovom
koeficijentu, koja glasi
e r
r
N( )
1
1
2
Što se koeficijent korelacije r(pb) više razlikuje od nulte vrijednosti, to distribucija korelacija
postaje sve više asimetrična, čime je i pretpostavka normalne distribucije sve manje primjenjiva.
Poseban slučaj gornjeg izraza je također vrlo koristan, a vrijedi za slučaj populacijske vrijednosti
r(pb) = 0 :
e rN
( )
1
1
Kada je N velik, koeficijenti korelacije izračunati na uzorcima iz bivarijatne normalne
populacije s pravom vrijednošću r=0, imaju tendenciju normalne distribucije.
Za indikatore težine može se reći da imaju nešto veću stabilnost od indikatora diskriminativne
valjanosti. Indeksi težine su konzistentni čak i kod uzoraka manjih od 50. Kao i općenito kod
uzorkovanja veći problem može biti pristranost u izboru uzorka nego sama veličina uzorka.
61
9. Struktura testa i osobine ukupnih testovnih rezultata
Autor testa mora razmotriti i predložiti postupak za izračunavanje ukupnog rezultata u testu.
Kompozitni testovi sastoje se od 2 ili više elemenata, pri čemu se ukupni rezultat definira pod
nekim modelom jednostavne ili diferencijalno ponderirane linearne kombinacije. Način određivanja
ukupnog rezultata utječe na varijancu i osjetljivost ukupnih rezultata, a time i na sve relevantne
karakteristike ukupnih testovnih rezultata kao i na korelacije zadataka s ukupnim rezultatom.
Izborom zadataka određenih karakteristika, te njihovim prikladnim kombiniranjem u ukupni
rezultat utječemo na sve relevantne karakteristike ukupnih testovnih rezultata.
9.1. Izražavanje ukupnog rezultata u testu kao jednostavni zbroj odgovora
Klasična teorija najčešće bruto rezultat ispitanika definira kao zbroj rezultata u pojedinim
zadacima odnosno u većini testova uratka kao broj točnih odgovora (BTO):
U Xi ij
j
k
1
Rjeđe se koristi proporcija točnih odgovora,
i
ij
j
k
X
k
1
koja je prikladnija za usporedbu individualnih rezultata na testovima različite duljine i korisnicima
testovnih rezultata daje uvid u uspješnost ispitanika s obzirom na ukupni broj zadataka.
Iako su predloženi brojni, teorijski superiorniji, postupci za definiranje kompozitnog rezultata, čini
se da je broj točnih odgovora još uvijek najčešći oblik izražavanja ukupnog testovnog rezultata,
prvenstveno zbog jednostavnosti i jednoznačnosti. Od ranije je poznato da je aritmetička sredina
ukupnih rezultata u testu determinirana aritmetičkim sredinama zadataka, tj. aritmetička sredina
ukupnih rezultata jednaka je zbroju aritmetičkih sredina zadataka, te ne ovisi o korelacijama
zadataka.
Varijanca ukupnih rezultata u testu izraženih pod modelom aditivne linearne kombinacije bilo kojeg
broja varijabli zadana je izrazom:
Pri čemu
i = 1,...,k , j = 1,...,k , i < j
kjM j ,...,1,
jiijiu rVV 2
62
Varijanca linearne kombinacije jednaka je sumi svih elemenata matrice varijanci-kovarijanci
varijabli članica te kombinacije. Izborom zadataka s velikim varijancama, kao i zadataka koji su u
međusobnim visokim korelacijama (kovarijancama) povećavamo varijancu ukupnih rezultata.
Minimalna varijanca testovnih rezultata ostvarena je u slučaju kada su zadaci u nultim korelacijama.
Odnos između karakteristika zadataka i varijabiliteta ukupnih rezultata može se izraziti i uporabom
koeficijenata diskriminativne valjanosti zadataka. Umnožak spuriozne korelacije zadatka s ukupnim
rezultatom i standardne devijacije zadatka neki autori nazivaju indeksom pouzdanosti zadatka
(Guilford, 1954, Gulliksen, 1950.). Ovaj indeks može biti od posebne važnosti pri određenju
varijabiliteta ukupnih rezultata jer omogućuje deskripciju standardne devijacije ukupnih rezultata u
terminima parametara zadataka:
u iu i
i
k
r
1
riu = point-biserijalna korelacija zadatka i s ukupnim rezultatom u (spuriozna)
i = standardna devijacija zadatka i
u = standardna devijacija ukupnih rezultata
Iz prethodnog izraza proizlazi da je standardna devijacija ukupnih rezultata u testu jednaka
zbroju umnožaka spurioznih korelacija svih zadataka s ukupnim rezultatom s pripadajućim
standardnim devijacijama zadataka. Proizlazi da je povećanje varijance ukupnih rezultata moguće
izborom zadataka s velikim varijabilitetom, te visokim korelacijama s ukupnim rezultatom. Ovdje
se uzima u obzir spuriozna korelacija zadatka s ukupnim rezultatom budući da ona predstavlja
realnu povezanost za razliku od korigirane koja uklanja efekt spurioznosti, ali se za svaki zadatak
izračunava u odnosu na drugi kompozit.
Primjer:
U testu koji se sastoji od 5 binarnih zadataka treba izračunati standardnu devijaciju ukupnih
testovnih rezultata. Poznati su indeksi lakoće i standardne devijacije pojedinih zadataka i spuriozne
korelacije svakog zadatka s ukupnim rezultatom:
Zadatak p SD riu riui
Z1 0,90 0,3 0,45 0,135
Z2 0,80 0,4 0,52 0,208
Z3 0,50 0,5 0,78 0,39
Z4 0,20 0,4 0,68 0,272
Z5 0,90 0,3 0,55 0,165
=1,17
Korištenjem prethodne formule standardna devijacija ukupnih testovnih rezultata iznosi 1,17.
63
9.2. Diferencijalno ponderiranje uratka u zadacima
Iako klasična teorija polazi od jednostavnog zbroja odgovora u zadacima, učinjeni su brojni
pokušaji da se uradak u zadatku ponderira tako da omogući veću informaciju o razvijenosti
predmeta mjerenja kod ispitanika. U općem obliku ukupni rezultat definiran u maniri diferencijalno
ponderirane linearne kombinacije ima oblik:
k
j
ijjiDP XwU1
)(
ili
UiDP = Xi1 w1 + Xi2 w2 + Xi3 w3+ ... + Xikwk i = 1,...,N
Kod diferencijalno ponderiranih linearnih kombinacija svaki pojedini rezultat množi se s
odgovarajućim ponderom (zadanom konstantom, koeficijentom važnosti). Na taj način se svakom
pojedinom rezultatu pridaje različit značaj, odnosno različita važnost u linearnoj kombinaciji.
Diferencijalno ponderirana linearna kombinacija predstavlja općenitiji model od jednostavnog
zbroja uradaka u dijelovima testa i ima sljedeći oblik:
pri čemu se definira vektor w = (wj) , j = 1,...,k
Određivanje vektora pondera wj može se učiniti uz različite pretpostavke. Ponderiranje komponenti
i dalje omogućuje definiranje jednoznačne relacije parametara zadataka s parametrima ukupnih
kompozitnih rezultata.
Vjerojatno najčešći pristup zasniva se na korištenju informacije o težini zadatka, budući da je
plauzibilna pretpostavka da težim zadacima treba pridati veći značaj u kompozitu. Najjednostavniji
oblik korištenja informacije o težini zadatka jest ponderiranje zadatka njegovim indeksom težine qj,
tj. proporcijom ispitanika koji nisu točno riješili zadatak. Ova procedura je smislena ukoliko vrijedi
pretpostavka da svaki zadatak u jednakom stupnju mjeri željeni atribut. Očito je da ponderiranje
indeksima težine ne uzima u obzir diskriminativnu valjanost zadatka. Ovaj postupak u najvećem
broju slučajeva povećava broj različitih ukupnih rezultata, a kako ne mijenja korelacije među
zadacima faktorska struktura testa ostaje nepromijenjena.
Aritmetička sredina diferencijalno ponderirane linearne kombinacije jednaka je zbroju aritmetičkih
sredina njezinih komponenti, pomnoženih s pripadajućim ponderima, tj. sumi ponderiranih
aritmetičkih sredina.
Na ovaj način se pojedinom zadatku može pridijeliti različit udio pri kreiranju aritmetičke sredine
ukupnih rezultata.
Varijanca diferencijalno ponderirane linearne kombinacije određena je izrazom:
Pri čemu
kjwMM jjDPU ,...,1,)(
jijiijiiu wwrwVV 22
64
i = 1,...,k , j = 1,...,k , i < j
Iz prethodnog izraza očito je da će na varijancu ukupnih testovnih rezultata utjecati varijance
zadataka, njihove međusobne korelacije, ali i vrijednosti pondera pridanih pojedinim zadacima.
Pod različitim faktorskim modelima moguće je ponderiranjem maksimalizirati projekcije zadataka
na prvu glavnu komponentu, te izraziti ukupni rezultat u maniri faktorskih bodova, što predstavlja
iskorak iz klasične teorije. U ovom slučaju ponderima se nastoji kreirati faktorski rezultat za koji će
vrijediti da omogućuje maksimalne korelacije sa zadacima, odnosno da objašnjava najveću moguću
količinu varijance u zadacima.
To se može činiti u Hotellingovoj maniri ponderirajući zadatke tako da im se maksimaliziraju
projekcije na prvu glavnu komponentu ili prvi zajednički faktor. Može se dokazati da za ukupni
rezultat izražen kao prva glavna komponenta vrijedi da ima najveću moguću pouzdanost pod
modelom unutarnje konzistencije. Spomenuti faktorski modeli veći značaj u linearnoj kombinaciji
pridaju zadacima koji su bolji prediktori latentnog predmeta mjerenja. Pored toga optimalnim
ponderiranjem uratka u zadacima može se maksimalizirati korelacija ukupnih testovnih rezultata s
nekim vanjskim kriterijem.
McDonald (1999), Burt (prema Gulliksen, 1950) i Gulliksen (1950) posvetili su dosta pažnje
problemu ponderiranja i došli do sličnih zaključaka. Efikasnost pondera u mijenjanju osobina
varijance zajedničkog faktora ovisi o nekoliko činitelja.
a) ovisi o rasponu pondera pridanih komponentama (zadacima) u odnosu na njihovu aritmetičku
sredinu. Što je veći ovaj omjer, veća je mogućnost da tako ponderirani ukupni rezultat ne korelira
visoko s nekim drugačije ponderiranim rezultatom. Ako ponderi u dva slučaja koreliraju potpuno,
takva će biti i korelacija formiranih ukupnih rezultata.
b) Što su veće interkorelacije među komponentama, to će biti veća korelacija između dva različito
ponderirana kompozitna rezultata.
c) Što je veći broj komponenti, to će biti manji efekt ponderiranja na izmjenu karaktera
kompozitnog rezultata.
Diferencijalno ponderiranje je efikasnije kod kratkih testova, dok iznad 10 ili 20 zadataka
ima sve manji efekt. Isto tako ima više efekta kad su korelacije među zadacima niže. Efikasno
ponderiranje pojedinog zadatka ovisi o njegovoj varijanci, te kovarijancama s drugim zadacima.
Složeniji modeli teorije testova u osnovi predstavljaju neku vrstu diferencijalnog
ponderiranja uratka u zadacima u realnom ili latentnom prostoru. Stoga ovi zaključci mogu biti
razmotreni i u tom kontekstu.
Empirijska istraživanja pokazuju da ove procedure ne dovode do značajnijih promjena pouzdanosti
ukupnih rezultata (Ghiselli, 1964; Wolf, 1975). Od naših autora Krković i Kulenović (1976)
razmatraju 21 različiti oblik diferencijalnog ponderiranja uratka u zadacima, te pokazuju da su
različito definirani kompozitni rezultati visoko redundantni. Ipak ponderiranje rezultira značajnim
65
povećanjem osjetljivosti rezultata, tj. brojem različitih rezultata. Metode izbora zadataka i teorija na
kojoj su zasnovane moraju biti direktno povezane s metodama bodovanja testa (Gulliksen, 1950).
9.3. Standardizacija uratka u zadacima
Moguće je također pri izražavanju ukupnih rezultata, uradak u zadacima ili dijelovima testa
transformirati u standardizirane z-vrijednosti, čime se izjednačava udio svake čestice u varijanci
kompozita.
k
j
ijiz zU1
)(
U slučaju standardizacije uratka u zadacima svaki zadatak ima jednaku varijancu te jednako
doprinosi varijanci ukupnih rezultata.
Na razini ispitanika uradak u svakom zadatku sada ne mora nužno donositi jednak broj bodova, već
će ovisiti o težini zadatka. Dva ispitanika koji su točno riješili jednak broj zadataka različite težine
mogu imati različit ukupni rezultat. U tablici su prikazani rezultati jednog ispitanika u pet zadataka.
U jednom slučaju njegov rezultat izražen je kao broj točnih odgovora (X), dok su u drugom slučaju
prethodno standardizirani pa tek onda zbrojeni (z).
z1 z2 z3 z4 z5 Ukupni
rezultat
M 0,1 0,3 0,5 0,7 0,9
s.d. 0,3 0,46 0,5 0,46 0,3
z 3 1,52 1 0,65 0,33 6,5
X 1 1 1 1 1 5
M = aritmetička sredina zadatka
s.d. = standardna devijacija zadatka
Z= individualni rezultat izražen kao z-vrijednost
X = uradak u zadatku bodovan s 0 ili 1
Standardizacija predstavlja linearnu transformaciju i nema efekta na linearne mjere interkorelacija,
no ima efekta na ukupnu varijancu kompozita jer mijenja varijance zadataka i njihove kovarijance.
Ovako definiran ukupni rezultat odgovara prvom centroidnom faktoru u kontekstu Thurstone-ovog
faktorskog modela. Tako definiran vektor predstavlja centroid u prostoru vektora manifesnih
varijabli zadataka.
Aritmetička sredina ukupnih rezultata u tom slučaju iznosit će nula neovisno o težini zadataka.
0...21 zkzzUz MMMM
66
Varijanca jednostavne aditivne linearne kombinacije varijabli izraženih u z-vrijednostima:
Što odgovara sumi svih elemenata korelacijske matrice zadane članicama linearne kombinacije
Pri čemu
i = 1,...,k , j = 1,...,k , i < j
Standardnu devijaciju kompozita i u ovom slučaju možemo izračunati na osnovi indeksa
pouzdanosti zadataka, tj. umnoška spurioznih koeficijenata diskriminativne valjanosti i standardnih
devijacija zadataka. Ako su sada sve standardne devijacije zadataka jednake jedinici, proizlazi da je
standardna devijacija testa jednaka zbroju spurioznih korelacija zadataka s ukupnim rezultatom u
testu.
k
i
iuu r1
riu = point-biserijalna korelacija zadatka i s ukupnim rezultatom u (spuriozna)
i = standardna devijacija zadatka i
u = standardna devijacija ukupnih rezultata
10. Ispitivanje psihometrijskih osobina konačne verzije testa – validacija testa
Kada je dovršena izrada prve verzije testa i ispitane njezine preliminarne karakteristike može se
preći na primjenu testa na većim (reprezentativnim) uzorcima ispitanika, te započeti s temeljitom
validacijom instrumenta. Kako se navodi u Standardima za pedagoško i psihološko testiranje
(1999.) validacija je zajednička odgovornost autora i korisnika testa. Autor je odgovoran za
pribavljanje relevantnih podataka i obrazloženje predložene upotrebe testa. Korisnik testa ima
konačnu odgovornost za procjenu upotrebljivosti testa u okolnostima u kojima ga treba primijeniti.
Kada se upotreba testa razlikuje od one koju je opravdao njegov autor, korisnik snosi posebnu
odgovornost za validaciju. Ova faza podrazumijeva odabir prikladnih postupaka za procjenu svih
relevantnih psihometrijskih karakteristika testa kao što su valjanost, pouzdanost, objektivnost ili
osjetljivost. Pored toga potrebno je kontinuirano raditi na prikupljanju empirijskih dokaza i
teorijskih argumenata koji potkrepljuju zaključke i specifične interpretacije izvedene iz testovnih
rezultata, a koje proizlaze iz predloženih upotreba testa. Od autora se očekuje da osmisli nacrte
validacijskih studija kojima će argumentirati opravdanost različitih oblika uporabe testovnih
rezultata. Za većinu testova poželjno je da, zbog veće objektivnosti i nepristranosti postupka,
njihovu validaciju provode neovisni stručnjaci, dakle da to ne radi samo autor testa. Implicitna
pretpostavka pri ostvarivanju svih razmatranih psihometrijskih karakteristika testa jest korektna
iju rkV 2
67
primjena testa u strogo definiranim uvjetima jer kako navodi Guilford (1954) provođenje testiranja
nalik je provođenju eksperimenta. Validacija se može promatrati kao prikupljanje uvjerljive
znanstvene argumentacije koja opravdava planiranu interpretaciju testovnih rezultata i njihovu
relevantnost za predviđene svrhe. Konceptualni okvir upućuje na vrste podataka koje se mogu
prikupljati da bi se ocijenile planirane interpretacije u svjetlu svrhe testiranja. Kako validacija
napreduje i prikupljaju se novi podaci o značenju testovnih rezultata, može se ukazati potreba za
mijenjanjem testa, njegovog konceptualnog okvira pa čak i konstrukta koji se želi mjeriti (APA.
1999.)
11. Podaci potrebni za vrednovanje rezultata u testu i ključ za bodovanje
Upotrebljivost testa u većini slučajeva nije potpuna bez normativnih podataka na osnovi kojih
korisnik može vrednovati pojedini individualni rezultat ispitanika. Zbog toga je na osnovi primjene
testa na uzorcima reprezentativnim za ciljane populacije potrebno prirediti tablice s normativnim
vrijednostima, na osnovi kojih je moguće svaki rezultat vrednovati u odnosu na prosječni uradak
pripadnika neke ciljane populacije. Takve tablice omogućuju konverziju uratka u testu na različite
ljestvice poput decila ili centila, odnosno z-vrijednosti, T-ljestvicu, devijacioni kvocijent
inteligencije ili neku drugu ljestvicu s poznatim karakteristikama. U većini slučajeva poželjno je
pored normi za opću populaciju (npr. sve odrasle državljane u dobi od 18 do 65 godina) prirediti
specifične norme za pojedine poduzorke koji mogu biti od interesa korisnicima u različitim
situacijama selekcije ili dijagnostike (npr. posebne norme za muškarce ili žene, posebne dobne
kategorije, pojedina usmjerenja srednjih škola, stanovnike mjesta različite veličine i sl.). U sljedećoj
tablici naveden je primjer za vrednovanje rezultata u testu u percentilima i T-vrijednostima
68
Tablica 24. Norme za test X izražene u percentilima i T-
vrijednostima
BRUTO REZULTAT Uzorak A Uzorak B Uzorak C
C T C T C T
3 1 3 1 19 1 25
4 5 21 26
5 8 22 28
6 10 24 29
7 12 25 30
8 14 26 2 32
9 16 28 4 33
10 19 29 5 35
11 21 2 31 6 36
12 23 4 32 10 38
13 25 6 34 13 39
14 2 27 8 35 16 40
15 29 10 36 20 42
16 4 32 12 38 26 43
17 6 34 15 39 31 45
18 10 36 18 41 35 46
19 11 38 21 42 40 47
20 15 40 25 44 44 49
21 21 43 29 45 51 50
22 26 45 35 46 55 52
23 34 47 40 48 60 53
24 40 49 45 49 65 55
25 50 51 50 51 72 56
26 58 53 55 52 76 57
27 66 56 59 54 79 59
28 75 58 64 55 83 60
29 81 60 68 56 97 62
30 87 62 75 58 90 63
31 91 64 79 59 92 64
32 96 67 84 61 93 66
33 97 69 89 62 95 67
34 99 71 90 64 69
35 73 92 65 96 70
36 75 95 66 97 72
37 76 97 68 98 73
38 80 99 69 99 74
39 82 71 76
40 84 72 77
M 24.41 24.48 20.80
SD 4.584 7.004 7.065
69
Kod pojedinih instrumenata koji se koriste u dijagnostici potrebno je odrediti kritične vrijednosti na
osnovi kojih se ispitanici mogu razvrstavati u pojedine dijagnostičke kategorije.
Tako npr., u upitniku depresivnosti u kojemu rezultati mogu varirati u rasponu od 20 do 80 korisnik
može koristiti sljedeće vrijednosti kako bi odredio ozbiljnost depresivnosti kod pojedinog klijenta.
Rezultat Dijagnostička kategorija
20-49 normalan rezultat koji ne ukazuje na depresivnost
50-59 blaga depresivnost
60-69 srednja depresivnost
70 i više ozbiljna depresivnost koja zahtjeva klinički tretman
Ukoliko korisnik ne raspolaže valjanim normama za vrednovanje rezultata onda je upotrebljivost
instrumenta značajno smanjena. Pored normi oprema testa mora sadržavati cjelovitu uputu za
bodovanje uratka u zadacima, tj. protokol za ocjenjivanje (ključ za bodovanje).
12. OPREMA I DOKUMENTACIJA TESTA
Autor testa dužan je potencijalnim korisnicima prirediti sve potrebne informacije važne za odabir
testa u skladu s potrebama korisnika, upute za odgovarajuću primjenu testa, postupke bodovanja i
vrednovanja rezultata te prikladnu interpretaciju rezultata. U Standardima za pedagoško i
psihološko testiranje (APA, 1999) navodi se da se testovnom dokumentacijom specificira priroda
testa, planirana namjena, procesi uključeni u njegov nastanak, tehničke informacije u vezi s
ocjenjivanjem, interpretacijom i dokazima valjanosti i pouzdanosti, skaliranje i normiranje (ako je
potrebno za opisivani test) i upute za primjenu i interpretaciju testa. Ove informacije se objavljuju u
dokumentima kao što su testovni priručnici, tehnički priručnici, upute za korisnike, ilustrativni
uzorci, ispitne zbirke, upute za voditelje testiranja i ocjenjivače ili ogledni materijali za ispitanike.
Testovni dokumenti trebaju sadržavati dovoljno informacija da korisnici i recenzenti mogu
prosuditi prikladnost testa za njegove deklarirane svrhe.
U opremi testa potrebno je dokumentirati racionalu testa, njegove preporučene namjene, argumente
u prilog tih namjena i informacije koje omogućavaju interpretaciju rezultata. Ako je razumno
pretpostaviti mogućnost određenih zloupotreba testa, potrebno je eksplicitno iskazati odgovarajuća
upozorenja. Testovni dokumenti trebaju specificirati kvalifikacije koje mora imati osoba da bi
mogla primjenjivati i adekvatno interpretirati testovne rezultate. Svaka forma testa i njegov
dokument treba imati datum autorskih ili izdavačkih prava.