izrada testa i analiza zadataka

1

Kolegij Psihometrija

Tema

Izrada testa i analiza zadataka

Verzija 1.12. 2012.

Ovaj tekst predstavlja radni (nelektorirani) materijal i namijenjen je studentima

diplomskog studija psihologije za pripremu kolegija Psihometrija

2

Sadržaj

1. ODREĐENJE PREDMETA MJERENJA I PODRUČJA SADRŽAJA ......................................................................... 5

2. ODREĐENJE OSNOVNE NAMJENE I UVJETA PRIMJENE TESTA ...................................................................... 9

2.1. Moguće strategije pri izradi kompozitnog testa ..................................................................................................... 11

3. ODREĐENJE OPĆIH KARAKTERISTIKA KONAČNE VERZIJE TESTA – IZRADA TESTOVNIH

SPECIFIKACIJA .............................................................................................................................................................. 11

3.1. Dužina testa ........................................................................................................................................................... 12

4. IZRADA PRVE VERZIJE TESTA .............................................................................................................................. 13

4.1. Izrada čestica ......................................................................................................................................................... 13

4.2. Uputa za rad i zadaci za vježbu ............................................................................................................................. 15

4.3. Izrada ključa za bodovanje (protokola za ocjenjivanje) ........................................................................................ 16

4.4. Izrada lista za odgovore ......................................................................................................................................... 17

5. LOGIČKA I SADRŽAJNA ANALIZA ČESTICA ..................................................................................................... 18

6. PRIMJENA PRVE VERZIJE TESTA NA PROBNOM UZORKU ............................................................................. 20

7. ANALIZA I IZBOR ZADATAKA ZA KONAČNU VERZIJU TESTA ..................................................................... 21

7.1. Mjere težine i osjetljivosti ………………………………………………………………………………………………………….. 23

7.1.1. Aritmetička sredina zadatka ........................................................................................................................... 22

7.1.2. Mjere osjetljivosti zadatka ............................................................................................................................. 24

7.2. Mjere diskriminativne valjanosti ………………………………………………………………………………………………… 30

7.2.1. Mjere povezanosti između uratka u zadatku i mjera konstrukta …………………………………………….. 30

7.2.1.1. Pearsonov koeficijent korelacije ................................................................................................................. 30

7.2.1.2. Point biserijalni koeficijent korelacije ......................................................................................................... 30

7.2.1.3. Biserijalni koeficijent korelacije ................................................................................................................. 31

7.2.1.4. Fi koeficijent ............................................................................................................................................... 32

7.2.1.5. Tetrahorički koeficijent korelacije .............................................................................................................. 33

7.2.2. Analiza diskriminativne valjanosti na osnovi linije traga ili karakteristične krivulje zadatka ....................... 33

7.2.3. Ostale mjere diskriminativne valjanosti ......................................................................................................... 34

7.2.3.1. Izračunavanje diskriminativne valjanosti zadatka uporabom indeksa diskriminativnosti ........................... 34

7.2.3.2. Provjera diskriminativne valjanosti zadatka analizom varijance................................................................. 35

7.2.3.3. Prosječna korelacija zadatka s preostalim zadacima u testu........................................................................ 35

7.2.3.4. Varijanca u zadatku koju objašnjavaju preostali zadaci u testu - multipla korelacija ................................. 36

7.2.4. Pristupi određenju diskriminativne valjanosti s obzirom na određenje mjere razvijenosti konstrukta........... 36

7.2.4.1. Ukupni rezultat u testu kao mjera konstrukta .............................................................................................. 36

7.2.4.2. Određivanje diskriminativne valjanosti izračunavanjem korelacije zadatka pod faktorskim modelom...... 37

7.2.4.3. Uporaba vanjskog kriterija kao mjere konstrukta ....................................................................................... 37

7.2.5. Mjere diskriminativne valjanosti izračunate na ekstremnim ili ciljanim skupinama ..................................... 38

7.3. Analiza distraktora i netočnih odgovora ................................................................................................................ 40

7.4. Analiza različitog funkcioniranja zadataka ........................................................................................................... 42

7.5. Procedura izbora zadataka ..................................................................................................................................... 44

3

7.5.1. Koncept homogenosti testa ............................................................................................................................ 50

7.5.2. Primjer analize i izbora zadataka ................................................................................................................... 51

8. PROVJERA STABILNOSTI KARAKTERISTIKA ZADATAKA ............................................................................. 60

9. STRUKTURA TESTA I OSOBINE UKUPNIH TESTOVNIH REZULTATA .......................................................... 61

9.1. Izražavanje ukupnog rezultata u testu kao jednostavni zbroj odgovora ................................................................ 61

9.2. Diferencijalno ponderiranje uratka u zadacima ..................................................................................................... 63

9.3. Standardizacija uratka u zadacima ........................................................................................................................ 65

10. ISPITIVANJE PSIHOMETRIJSKIH OSOBINA KONAČNE VERZIJE TESTA – VALIDACIJA TESTA ........... 66

11. PODACI POTREBNI ZA VREDNOVANJE REZULTATA U TESTU I KLJUČ ZA BODOVANJE .................... 67

12. OPREMA I DOKUMENTACIJA TESTA ................................................................................................................. 69

4

Očekivani ishod: Usvojiti osnovne procedure u procesu izrade kompozitnog mjernog

instrumenta

Kako bi test imao zadovoljavajuće metrijske karakteristike, potrebno se prilikom njegove izrade

pridržavati određenih pravila. Izrada i razvoj testa predstavlja proces koji uključuje više međusobno

povezanih koraka, ali u pravilu uključuje određenje predmeta mjerenja i područja sadržaja koje se

testom namjerava ispitivati, okvirnu namjenu testa odnosno potencijalnih interpretacija testovnih

rezultata, izradu samog testovnog sadržaja te analizu i izbor zadataka. Nakon toga potrebno je

provjeriti osnovne metrijske karakteristike testa, prikupiti podatke potrebne za vrednovanje i

interpretaciju testovnih rezultata, te izraditi priručnik koji će potencijalnog korisnika opremiti svim

relevantnim informacijama za primjenu testa. Provjera psihometrijskih karakteristika testa trajan je

proces i nakon izrade konačne verzije potrebno je kontinuirano prikupljati podatke koji će ukazivati

na opravdanost primjene testovnih rezultata u različitim situacijama. U slučaju potrebe poželjno je

da autor unese izmjene u sadržaj testa s ciljem poboljšavanja kvalitete testa.

U ovom poglavlju opisana je procedura izrade kompozitnog mjernog instrumenta u kontekstu

klasične teorije testova. Koraci opisani u ovom poglavlju nisu uvijek jasno odijeljeni već se

prožimaju i često puta zahtjevaju integriranje različitih odluka i postupaka. U određenim

slučajevima autor može neke korake izostaviti ili ih u određenom stupnju prilagoditi specifičnim

zahtjevima konkretnog testa, ali to pri izradi većine profesionalnih testova mora biti vrlo jasno

argumentirano. Kao primjer možemo navesti izradu pismenog ispita za provjeru znanja koji se

namjerava koristiti jednokratno. U tom slučaju autor vrlo često ne prolazi sve navedene faze, niti

provodi validaciju takvog postupka. Takvi nizovi pitanja ne bi se trebali niti nazivati testovima u

užem smislu riječi budući da nemaju poznate metrijske karakteristike. U pojedinim slučajevima

testovi koji se koriste u situacijama prijemnih ispita ili državne mature, zbog očuvanja tajnosti

testovnog sadržaja, ne prolaze prethodnu empirijsku provjeru, već se ona može učiniti tek nakon

primjene testa na ispitanicima. U spomenutim i sličnim slučajevima autor testa namjerno ili iz

nekog drugog razloga izostavlja neku od navedenih procedura (npr. empirijsku analizu čestica) što u

najvećem broju slučajeva može utjecati na kvalitetu konačnog oblika testa. U svakom slučaju kada

testovni rezultati utječu na status ispitivanih osoba nužno je izradi testa pristupiti savjesno i

poštujući načela koja ćemo detaljnije razraditi u ovom poglavlju. Pored toga, ovisno o području

mjerenja izrada mjernog instrumenta može uključivati određene dodatne ili specifične postupke koji

nisu uobičajeni pri izradi standardnih testova. U nastavku ćemo se uglavnom držati procesa izrade

testova opće namjene čiji je cilj razlikovanje ispitanika s obzirom na jedan zadani konstrukt, a koje

Nunnaly i Bernstein (1994) nazivaju konvencionalnim. Treba naglasiti da postoje i drugačiji

pristupi izradi mjernih instrumenata, ali oni izlaze izvan okvira obrađenog u okviru ove teme. Tako

su u području mjerenja stavova pojedini autori razvili specifične postupke izrade instrumenata

poput Likertove, Thurstoneove, Bogardusove ili Guttmanove ljestvice pri čemu ti postupci

odudaraju od uobičajene izrade testa i neće biti opisani na ovom mjestu.

U pojedinim slučajevima dodat ćemo neke specifičnosti izrade testova kada se radi o različitim

područjima mjerenja poput znanja, sposobnosti odnosno različitih mjera ličnosti u širem smislu tog

pojma. Iskustvo autora pri izradi testova određene vrste i namjene može olakšati proces izrade

5

mjernog instrumenta te usmjeravanje na bitne aspekte u procesu izrade, ali ukoliko kao cilj želimo

kvalitetan mjerni instrument onda je u svakom slučaju važno pridržavati se svih navedenih koraka

pri izradi testa. Kako se o većini metrijskih karakteristika zaključci izvode na osnovi različitih vrsta

podataka dobivenih primjenom testa, provjera i validacija testa predstavlja trajan proces koji nije

gotov izradom konačne verzije testa. Višekratnom primjenom testa njegov sadržaj može postati

poznat što u određenim slučajevima može utjecati na njegove prvotne karakteristike.

Izradi testa i njegovoj evaluaciji može se pristupiti kroz različite psihometrijske teorijske okvire. U

ovom poglavlju koristit ćemo okvir koji se može označiti kao klasična teorija testova iako se mogu

odabrati i drugi teorijski psihometrijski okviri. Jedan od teorijskih okvira za izradu testa pruža

teorija odgovora na zadatke koja u okviru teorije vjerojatnosti nudi različite suvremene koncepte u

osnovi izrade i vrednovanja testovnih rezultata. Pored teorije odgovora na zadatke Bejar (1981)

navodi i model slučajnog uzorkovanja iz domene (R-S, random-sampling), a koji se zasniva na

općoj pretpostavci da je moguće domisliti neograničeni skup ili domenu (univerzum, populaciju)

čestica koje mjere neki zadani konstrukt pri čemu se test razmatra kao uzorak čestica iz zadane

domene.

1. ODREĐENJE PREDMETA MJERENJA I PODRUČJA SADRŽAJA

Što je predmet mjerenja?

Prvi korak u izradi testa predstavlja određenje osnovnog predmeta mjerenja ili konstrukta koji se

želi mjeriti, te područja sadržaja koje se testom želi zahvatiti. Ono što se želi izmjeriti testom ili

nekom drugom procedurom mjerenja uobičajeno se naziva predmet mjerenja, konstrukt, osobina,

atribut ili karakteristika Ovaj korak je nužno povezan s odlukom o zadanom cilju ili ciljevima te

planiranim zaključcima koji se namjeravaju izvoditi iz rezultata primjene testa. Polazeći od šireg

određenja predmeta mjerenja potrebno je odabrati teorijski okvir unutar kojeg će se izvesti

definicija predmeta mjerenja. Najveći broj predmeta mjerenja u psihologiji i srodnim disciplinama

nema realnu egzistenciju već predstavljaju hipotetske konstrukte koji proizlaze iz nekog od

teorijskih okvira ili modela. Stoga je osobito važno za njihovo jednoznačno određenje, a time i

kasniju provjeru valjanosti samog instrumenta, jasno odrediti teorijska polazišta od kojih su autori

krenuli u izradu instrumenta.

Unutar psihologije postoji veliki broj konstrukta koji mogu biti legitimni predmeti mjerenja kao što

su anksioznost, depresivnost, neuroticizam, razina posttraumatskog stresa, traumatsko iskustvo,

numerički faktor, vrijednosti, emocionalna inteligencija, opće obrazovanje, ispitna anksioznost,

agresivnost, logičko rezoniranje, potreba za spoznajom i dr. Brojni od navedenih konstrukata mogu

biti definirani unutar različitih teorijskih konceptualizacija te obuhvaćaju različit opseg mogućih

indikatora.

6

Ovdje valja upozoriti da se u posljednjoj verziji Standarda za pedagoško i psihološko testiranje

(APA, 1999) odstupa od uvriježenog značenja termina “konstrukt”, budući da postoje situacije kada

test ne mora nužno biti mjera nekog teorijski definiranog konstrukta. Postoje situacije kada je

primarni cilj testa predviđanje rezultata u nekom kriteriju pri čemu uradak u testu ne mora nužno

biti mjera nekog konstrukta, a u određenim slučajevima upitno je mogu li se osobine mjerene

testovima tretirati kao konstrukti. Stoga se termin “konstrukt” ovdje upotrebljava u širem značenju,

u smislu pojma ili svojstva koje se testom želi izmjeriti.

Koji je teorijski okvir za određenje predmeta mjerenja?

Pojedini konstrukti su na teorijskoj razini jednoznačnije definirani dok kod drugih izbor određenog

specifičnog teorijskog modela ili pristupa može u značajnoj mjeri dovesti do razlike u određenju

konstrukta i interpretaciji rezultata. Isti konstrukt može se različito definirati unutar različitih

teorijskih sustava. Tako npr., ako je prvotna ideja autora bila izraditi test za provjeru intelektualnih

sposobnosti kandidata za neki studij na cjelokupnu daljnju izradu mjernog instrumenta utjecat će

činjenica je li se autor odlučio za Spearmanov, Thurstoneov, Guilfordov ili neki drugi teorijski

koncept inteligencije.

U slučaju mjerenja osobina ličnosti poput ekstraverzije može se poći od Eysenckovog određenja te

osobine ili od koncepta pet-faktorskog modela ličnosti. U području mjerenja psihopatoloških

dimenzija određenje posttraumatskog stresnog poremećaja može proizlaziti iz neke općeprihvaćene

dijagnostičke kategorije ili klasifikacije koja se tijekom vremena može mijenjati što za posljedicu

ima promjenu određenja poremećaja te izmjene simptoma koji ulaze u opis poremećaja. Tako se

npr. određenje posttraumatskog stresnog poremećaja (PTSP) prvi puta pojavljuje 1980. u priručniku

Američke psihijatrijske organizacije (DSM-III). U sljedećem izmijenjenom izdanju DSM-III-R

1987. godine određenje posttraumatskog stresnog poremećaja dijelom je izmijenjeno. U izdanju

1996. (DSM-IV) određenje je ponovno dijelom modificirano što znači da instrumenti za mjerenje

PTSP-a koji su konstrukt određivali na osnovi ranijeg opisa simptoma više nisu aktualni. To

ukazuje da određenje ovog poremećaja nije jednoznačno što znači da je važno znati od kojeg

određenja polazi pojedini mjerni instrument za mjerenje ove dimenzije.

Pored toga izbor metode ili procedure za provjeru konstruktne valjanosti u značajnoj mjeri ovisi o

teorijskom polazištu. Na slici je prikazan hijerarhijski model prema kojemu različiti indikatori

nekog konstrukta mogu biti grupirani u zasebne kategorije (facete) koje imaju neko zajedničko

obilježje, dok je u osnovi uratka u svim kategorijama neko opće zajedničko obilježje.

Primjer hijerarhijskog modela

7

Ovakav model može podrazumijevati da u konačnici mjerni instrument može biti podijeljen u

subskale ili subtestove što znači da se i ukupni rezultat može iskazati kroz više numeričkih

vrijednosti. Ove odluke u značajnoj mjeri određuju razvoj postupaka za provjeru različitih vrsta

valjanosti testa, te interpretaciju rezultata dobivenih primjenom testa. U pojedinim slučajevima

može se pri određenju konstrukta koristiti i više različitih teorija, tj. može se koristiti eklektički

pristup.

U ovom dijelu važno je upoznavanje s postojećom literaturom vezanom uz predmet mjerenja, te

analiza srodnih postojećih mjernih instrumenata koji mjere isti ili srodne konstrukte. Ukoliko već

postoje srodni instrumenti važno je proučiti iskustva u njihovoj primjeni i validaciji, te obrazložiti

potrebu za izradom novog instrumenta. U ovoj fazi važno je razmotriti određenje predmeta mjerenja

u odnosu na druge srodne psihološke konstrukte. Naime pojedini konstrukti se na teorijskoj razini

mogu preklapati u znatnoj mjeri ili se događa da se ista psihološka pojava ili ponašanje ponekad

naziva različitim terminima. Iz ove teorijske neodređenosti ponekad se izrađuju mjerni instrumenti

koji ukazuju na povezanost dva konstrukta, a ta povezanost proizlazi iz činjenice da oba mjerna

instrumenta sadrže jednake ili slične indikatore, tj. mjereći „različite“ konstrukte ispitanicima

postavljamo slična pitanja. Nakon analize sadržaja mjernih instrumenata može se uočiti da

korelacija između dva testa ne ukazuje na povezanost dva teorijska konstrukta već proizlazi iz

činjenice da oba konstrukta sadrže identične ili slične indikatore. Npr. neki indikatori depresivnosti

i anksioznosti se mogu preklapati što znači da će mjere jednog i drugog konstrukta sadržavati jedan

dio sličnih čestica što za posljedicu ima korelaciju između upitnika koji mjere ta dva konstrukta.

Važno je analizirati i koliko je teorijsko prekrivanje indikatora predmeta mjerenja s indikatorima

drugih konstrukata (npr. iste jedinice ponašanja mogu se koristiti kao indikatori anksioznosti,

depresivnosti, neurotičnosti i sl.). Ova analiza važna je za kasnije postupke određivanja postupaka

za procjenu konvergentne i diskriminantne valjanosti odnosno očekivanu povezanost instrumenta

koji izrađujemo s drugim varijablama.

Što čini područje sadržaja testa?

Nakon odabira i razmatranja teorijskog okvira unutar kojega se definira zadani konstrukt potrebno

je odrediti područje sadržaja ili populaciju svih mogućih teorijskih indikatora (domenu) koji se

mogu smatrati mjerama konstrukta. Kako dio autora test definira kao uzorak iz specifične domene

ponašanja (Crocker i Algina, 1986, Annastasi, 1988) za provjeru sadržajne valjanosti testa nužno je

odrediti koju populaciju ponašanja reprezentira sadržaj testa. Ovisno o konstruktu u tu svrhu može

poslužiti plan i program nekog predmeta ili kolegija (za testove znanja), popis simptoma nekog

poremećaja (kod upitnika psihopatoloških dimenzija) ili popis procesa koji spadaju pod definiciju

konstrukta (kod testova sposobnosti). U ovoj fazi autor mora imati jasan odgovor na pitanje što

može biti sadržaj testa, a što ne bi trebalo ili ne bi smjelo biti uključeno u test.

Tako npr., test može kao predmet imati poznavanje povijesti modernog doba, znanje povijesti XIX.

stoljeća ili znanje povijesti XIX. stoljeća prema programu za učenike prvih razreda srednje škole. U

području mjerenja postignuća navest ćemo primjer određenja područja sadržaja Testa znanja iz

psihologije na Državnoj maturi 2011./2012. (NCVVO, 2011). Na osnovi službenog Nastavnog

plana i programa za Psihologiju u gimnazijama sačinjen je ispitni katalog s popisom ključnih znanja

8

i vještina, odnosno obrazovnih ishoda koja se ispituju testom. Cjelokupan sadržaj ili domena

podijeljeni su u devet područja:

1. Psihologija kao teorijska i primijenjena znanost, 2. Biološke osnove ponašanja, 3. Osjeti i

percepcija, 4. Emocije i motivacija, 5. Pamćenje i učenje, 6. Inteligencija i stvaralaštvo, 7. Razvojna

psihologija, 8. Ličnost i psihički poremećaji, 9. Socijalna psihologija.

Nakon toga su unutar svakog područja definirani obrazovni ishodi, tj. što se ispituje unutar

pojedinog područja. Ovakav popis olakšava autorima testa izradu pitanja budući svako pitanje u

testu mora proizlaziti iz navedenog obrazovnog ishoda, a s druge strane olakšava pripremu

kandidatima jer im je jasno što se od njih na ispitu očekuje. Primjer obrazovnih ishoda unutar prvog

područja 1. Psihologija kao teorijska i primijenjena znanost:

Od pristupnika se očekuje da zna odnosno može:

- opisati povijesni razvoj psihologije

- navesti osobe važne u povijesti psihologije

- objasniti predmet proučavanja psihologije

- razlikovati psihičke procese

- objasniti čimbenike koji utječu na psihičke procese

- usporediti grane psihologije

- usporediti različite pristupe u suvremenoj psihologiji…

Kako bi se osiguralo da sadržaj testa dobro reprezentira cjelokupno područje definiran je broj

zadataka iz pojedinog područja u testu. Nije nužno da svako područje bude reprezentirano jednakim

brojem zadataka, već na to može utjecati opseg i važnost pojedinog područja. Ta raspodjela

prikazana je u tablici 1. Kada se polazi od neke teorije ona može uvjetovati podjelu područja

sadržaja u manje cjeline ili podcjeline te određivati odnose među njima.

Tablica 1. Primjer strukture Testa znanja iz psihologije

Zadaci

višestrukoga

izbora

Zadaci

kratkoga

odgovora

Zadaci

produženoga

odgovora

Ukupno

1. Psihologija kao teorijska

i primijenjena znanost

1 1 1 3

2. Biološke osnove ponašanja 1 2 0 3

3. Osjeti i percepcija, 1 2 1 4

4. Emocije i motivacija 1 2 1 4

5. Pamćenje i učenje 1 2 0 3

6. Inteligencija i stvaralaštvo 1 2 1 4

7. Razvojna psihologija 1 2 0 3

8. Ličnost i psihički poremećaji 1 2 1 4

9. Socijalna psihologija 1 2 1 4

UKUPNO 9 (28,5%) 17 (53%) 6 (18,5%) 32 (100%)

U prethodnoj tablici prikazano je kakva je struktura Testa znanja iz psihologije pri čemu se može

specificirati i vrsta pojedinih zadataka (npr. zadaci otvorenog tipa, zadaci s ponuđenim odgovorima)

koje će test sadržavati. Na ovaj način se osigurava sadržajna valjanost kao i zastupljenost određenih

vrsta zadataka te procesa koji se žele mjeriti. Tijekom koncipiranja strukture testa predviđeno je da

9

se test sastoji od tri vrste zadataka, te da se oni boduju na sljedeći način: odgovori u zadacima

višestrukoga izbora boduju se s 0 ili 1 bod, odgovori u zadacima kratkoga odgovora s 0, 1 i 2 boda,

a zadaci produženoga odgovora s 0,1,2, i 3 boda ovisno o odgovoru. Kako bi se osigurala sadržajna

valjanost potrebno je voditi računa da se zadaci iz različitih područja ravnomjerno rasporede s

obzirom na vrstu zadatka. Naime ukoliko autori ne vode računa o broju bodova koje može donositi

svako područje reprezentativnost testa može biti narušena unatoč činjenici da je iz svakog područja

odabran razmjeran broj zadataka. Naravno da sastavljanje ovakvog testa podrazumijeva da je autor

na početku nekog nastavnog procesa imao ideju što očekuje da njegovi polaznici znaju i mogu

nakon završetka nastave.

U Standardima za pedagoško i psihološko testiranje (APA, 1999.) se koristi izraz okvir testa pod

kojim se podrazumijeva opis aspekata (sadržaja, vještina, procesa i dijagnostičkih svojstava)

mjerenog konstrukta ili područja. Koncipiranje testovnog okvira može se temeljiti na teoriji, na

analizi sadržaja mjerenog područja ili proučavanju područja koje obuhvaća neki zadani kriterij.

Okvir testa polazište je za kasniju evaluaciju testa osobito za provjeru sadržajne valjanosti. U ovoj

fazi važno je prosuditi i relevantnost pojedinih sadržaja s obzirom na predviđenu namjenu testa.

Npr. pitanje o vremenskom određenju nekog događaja može spadati u sadržaj testa znanja iz

povijesti. Pri tome se od ispitanika može tražiti točan datum događaja, samo godina ili samo

stoljeće u kojemu se događaj zbio. Autor mora odrediti je li u određenoj situaciji relevantno

poznavanje datuma ili je dovoljno provjeriti smješta li ispitanik ispravno pojedini događaj u širi

vremenski kontekst. Pri određenju područja sadržaja u isto vrijeme treba voditi računa o osobinama

populacije na kojoj će test biti primijenjen. Kada su donijete odluke o tome što test treba mjeriti i

što njegovi rezultati trebaju obuhvatiti, sljedeći korak je razrada testovnih specifikacija, odnosno

razmatranje specifičnih karakteristika testa bitnih za njegovu izradu.

Sljedeća dva odjeljka nadovezuju se na određenje predmeta mjerenja i uključuju razradu i

vrednovanje osnovnih specifikacija testa, tj. određenje bitnih karakteristika na osnovi kojih će se

izraditi testovni sadržaj, omogućiti vrednovanje i interpretacija dobivenih rezultata te provoditi

postupci provjere metrijskih karakteristika testa.

2. ODREĐENJE OSNOVNE NAMJENE I UVJETA PRIMJENE TESTA

Osnovne značajke i razvoj testa u značajnoj mjeri ovise o zadanoj namjeni testa. Poznavanje

primarne svrhe testa uvjetuje brojne odluke vezane uz izradu testa, kao što su duljina testa, vrijeme

primjene, zahtjevi koji se postavljaju pred ispitanika, postupak izražavanja ukupnog rezultata i dr.

Neki od važnih informacija o mogućim uvjetima primjene testa mogu biti:

a) Hoće li se test koristiti u selekcijske svrhe? Ukoliko hoće, može se očekivati davanje socijalno

poželjnih odgovora ili različiti oblici simulacije, pa ih strukturom testa treba nastojati onemogućiti.

U ovom slučaju informacije dobivene metodom samoprocjene mogu biti upitne valjanosti.

10

b) Hoće li se na osnovi testovnih rezultata donositi odluke vezane individualni rezultat ispitanika

tako da će utjecati na njegov status (prijem na posao studij i sl.)? Ukoliko hoće, nužno je

minimalizirati pogrešku mjerenja što znači da treba voditi računa da test ima visoku pouzdanost.

c) Na kojemu dobnom uzrastu će se test primjenjivati? Ukoliko se radi o mlađim dobnim uzrastima

vrijeme trajanja ne smije biti predugo zbog niže koncentracije, a također sadržaj mora biti

prilagođen tako da bude razumljiv djeci.

d) Kakva je obrazovna struktura i poznavanje jezika potencijalnih ispitanika? Ukoliko se radi o niže

obrazovanim ispitanicima uputa i sadržaj moraju biti izrađeni tako da budu razumljivi i jasni

ispitanicima. Pored toga, ako se očekuju ispitanici koji ne vladaju dobro jezikom, poželjno je

koristiti neverbalni sadržaj.

e) Koliko je vremena raspoloživo za primjenu? Ponekad je vrijeme raspoloživo za primjenu testa

faktor koji će utjecati na odluku o broju zadataka i trajanju testa. Posebno je važno uzeti u obzir

hoće li se test koristiti kao dio neke šire baterije testova.

f) Hoće li primjena biti anonimna ili ispitanici moraju dati svoje identifikacijske podatke? Je li

predmet mjerenja „socijalno osjetljiv“ (npr. bračna vjernost, nacionalni stereotipi, seksualna

orijentacija)?

g) Tko će primjenjivati test? Ukoliko to mogu biti različiti stručnjaci ili suradnici sama primjena

testa mora biti jednostavna s vrlo detaljnom uputom.

h) Postoji li mogućnost da se otkrivanjem testovnog sadržaja izazove pristranost odnosno pojedini

ispitanici dovedu u povoljniji položaj? U brojnim situacijama ispita, prijemnih ispita ili državne

mature sadržaj testa mora do same primjene ostati u potpunoj tajnosti.

i) Koliki broj ispitanika se očekuje? U slučaju kada se očekuje veliki broj ispitanika koji će biti

jednokratno ispitani potrebno je voditi računa o osjetljivosti instrumenta.

j) Postoji li potreba za ekvivalentnom formom testa?

Iako u pojedinim slučajevima autori pristupaju izradi testa s idejom da njegova primjena bude što

šira ipak potencijalnim korisnicima trebaju naznačiti u kojim situacijama je primjena testa i

njegovih rezultata opravdana, a u kojim slučajevima primjena nije primjerena. Neki primjeri

određenih ciljeva za koje se mogu izrađivati mjerni instrumenti:

- ispitati depresivnost kod prognanika

- ispitati kognitivne sposobnosti kandidata za posjedovanje oružja

- ispitati perceptivne sposobnosti pilota borbenih zrakoplova

- ispitati znanje matematike kandidata za studij elektrotehnike

- ispitati odnos učenika petog do osmog razreda osnovne škole s roditeljima

11

2.1. Moguće strategije pri izradi kompozitnog testa

Izbor zadataka za konačnu verziju testa ovisi, između ostalog, o nekim poželjnim

psihometrijskim osobinama konačne verzije testa. U skladu s tim mogu se koristiti različite

strategije pri izboru zadataka u konačnu verziju testa. Analiza testovnih zadataka odnosi se na

problem procjene statističkih parametara s ciljem njihova izbora i komponiranja u kompozitne

mjerne postupke, koji će imati neke zadane ili poželjne metrijske karakteristike. Tako cilj

konstrukcije može biti mjerni instrument koji će optimalno diskriminirati uzorak inferiornih ili

uzorak superiornih ispitanika, minimalizirati pogrešku mjerenja, konstrukcija paralelne forme

nekog postojećeg testa i sl. Prilikom konstrukcije testa i izbora zadataka moguće je koristiti različite

strategije ovisno o primarnoj namjeni testa.

Dvije dominantne strategije pri izradi testa, a koje polaze od dvije moguće namjene testa, mogu se

opisati na sljedeći način:

1. Dominantna strategija pri izboru zadataka jest sačiniti test u kojemu svi zadaci mjere isti

konstrukt, tj. cilj je povećanje unutarnje konzistencije testa, odnosno homogenizacija testovnog

sadržaja. Autor u tom slučaju nastoji maksimalizirati korelaciju između zadatka i neke mjere

konstrukta, odnosno nastoji da prosječna korelacija među zadacima bude što viša.

2. Druga moguća strategija usmjerena je na konstrukciju instrumenta s prediktivnom valjanošću za

neki zadani kriterij. U ovom slučaju nastoji se maksimalizirati korelacija između ukupnog rezultata

u testu i neke vanjske kriterijske varijable. U skladu s načelima koja vrijede za linearne

kombinacije, u takav test uvrštavaju se čestice koje su povezane sa zadanim kriterijem, a u

međusobno su što nižim korelacijama. Prilikom izrade ovakvog testa čestice se najčešće biraju na

osnovi korelacije između zadataka i vanjskog kriterija s kojim bi test trebao biti povezan. Ovakva

strategija izrade testa rezultira određenim poteškoćama. Tako zbog heterogenosti sadržaja

interpretacija ukupnog rezultata u testu nije moguća ili nije opravdana, procjene pouzdanosti tipa

unutarnje konzistencije nisu prikladne, a valjanost testa vezana je primarno uz jedan zadani kriterij.

Većina autora se slaže da je u svrhu konstrukcije prediktorskih instrumenata bolje optimalno

kombinirati nezavisne homogene testove u bateriju, nego to činiti sa zadacima u jednom testu

(Nunnally, Bernstein, 1994).

3. ODREĐENJE OPĆIH KARAKTERISTIKA KONAČNE VERZIJE TESTA

– IZRADA TESTOVNIH SPECIFIKACIJA

Prema standardima za psihološko i pedagoško testiranje (APA, 1999) testovne specifikacije

uključuju:

a) oblik zadataka, zadaća ili pitanja

b) oblik odgovora ili načina odgovaranje i vrstu postupaka ocjenjivanja

c) naznačiti poželjna psihometrijska svojstva čestica kao što su njihova težina i diskriminativnost

d) naznačiti poželjna svojstva testa: težina, osjetljivost, pouzdanost, korelacije među zadacima

12

e) naznačiti očekivane karakteristike vezane uz valjanost: faktorsku strukturu, korelacije sa srodnim

testovima i kriterijskim varijablama

f) trajanje primjene testa

g) karakteristike planirane populacije ispitanika i postupci primjene

h) naznačiti hoće li vrednovanje rezultata biti normativno ili kriterijsko, odnosno koji od tih pristupa

se preporučuje

i) upisuju li ispitanici odgovore u test ili u list za odgovore

k) postoji li mogućnost računalne primjene testa

Nunnaly i Bernstein (1994) naglašavaju važnost promišljanja svih bitnih značajki testa koji

izrađujemo i nazivaju ih planom izrade testa. Aktivnosti na izradi testa temelje se na ovim

specifikacijama. Kod testova znanja (postignuća) vrlo često se u tablici specificira broj zadataka (i

način njihovog bodovanja) s obzirom na obrazovne ili kognitivne razine. Tako se npr. može odrediti

u skladu s Bloomovom ili nekom drugom taksonomijom obrazovnih ishoda koliko će zadataka u

testu ispitivati pamćenje, razumijevanje, primjenu ili neku drugu razinu koju je trebalo definirati pri

samoj izradi programa koji se testom vrednuje. Ovakva tablica se često u engleskoj literaturi naziva

blueprint. Na taj se način sprečava da se testom ispituje samo pamćenje određenih sadržaja (npr.

reprodukcija definicija ili pojedinih imena ili naziva, već da se ispituje i razumijevanje odnosa

među pojedinim sadržajima, kao i mogućnost njihove primjene). Tako npr. pitanje o autoru nekog

koeficijenta korelacije ukazuje na pamćenje, usporedba i procjena prikladnosti dva različita

koeficijenta ukazuje na razumijevanje, dok odabir prikladnog koeficijenta i njegovo izračunavanje

ukazuje na mogućnost ispitanika da određeno znanje i primjeni.

3.1. Dužina testa

Odluka o dužini testa povezana je s nekoliko aspekata primjene testa, a najčešće treba uzeti u obzir

psihometrijske i praktične razloge. Tijekom faze probne primjene testa treba procijeniti koliko je

vremena potrebno ispitanicima za rješavanje pojedinih zadataka. Na osnovi tih informacija može se

učiniti procjena o vremenu potrebnom za primjenu testa ovisno o broju zadataka. Prvi važan

čimbenik pri donošenju odluke jest raspoloživo vrijeme za primjenu. Ako se test želi koristiti u

školskom sustavu onda je poželjno da vrijeme njegove primjene ne traje dulje od jednog školskog

sata. Kada se test želi koristiti unutar baterije drugih testova onda vrijeme njegove primjene ne

smije biti predugo. Drugi argument za odluku o broju zadataka jest željena pouzdanost odnosno

veličina pogreške mjerenja. U većini slučajeva kada se na osnovi testovnih rezultata donose odluke

koje utječu na status ispitanika nužno je da testovni rezultati sadrže malu količinu pogreške. U tom

slučaju test mora imati relativno veći broj zadataka. Ukoliko su barem približno poznate veličine

interkorelacija među zadacima testa moguće je uporabom Spearman-Brownove formule procijeniti

koliko bi zadataka test trebao imati da dosegne neku zadanu pouzdanost. Tako npr. iskustvo u

primjeni testova čiji se zadaci boduju s 0 i 1, tj. kod kojih uradak u zadacima predstavlja binarnu

varijablu, pokazuje da je prosječna korelacija među zadacima takvog testa približno 0,1. Iz toga

proizlazi da bi test morao imati barem 50 zadataka da ostvari pouzdanost od približno 0,85. U

slučaju da je prosječna korelacija među zadacima 0,2 za ostvarenje iste pouzdanosti ukupnih

rezultata bit će dovoljna 23 zadatka. Treći čimbenik može biti osjetljivost ukupnih rezultata, koja je

bitna prilikom primjene na velikim uzorcima ispitanika. U tom slučaju je poželjno da test ima veći

13

broj zadataka, odnosno da omogućuje veći broj razlikovanja među ispitanicima. U slučajevima kada

raspoloživo vrijeme primjene nije ograničeno autori moraju uzeti u obzir da kod predugih testova

koncentracija i motivacija ispitanika tijekom vremena opadaju što može utjecati na rezultate,

osobito u funkciji dobi. Na duljinu testa mogu utjecati i drugi faktori poput heterogenosti područja

sadržaja. Ako se radi o širokom i relativno heterogenom području za ostvarenje sadržajne valjanosti

bit će potrebno više zadataka kako bi sva područja bila kvalitetno reprezentirana testovnim

sadržajem.

4. IZRADA PRVE VERZIJE TESTA

Ključne dijelove testa predstavljaju: opća uputa u test, zadaci te opis odgovora koji se smatraju

točnim ili indikativnim kao i procedura za njihovo bodovanje. Stoga autori/i ovom dijelu moraju

pristupiti temeljito.

4.1. Izrada čestica

Na osnovi operacionalne definicije predmeta mjerenja, te određenja područja sadržaja prelazi se na

kreiranje indikatora mjerenog atributa. Na osnovi određenja područja sadržaja koje se želi zahvatiti

testom svako ponašanje ili proces koji ukazuje na zadani konstrukt potrebno je pretvoriti u

konkretan zadatak. U prvoj fazi indikatori mogu biti razrađeni na teorijskoj razini, a zatim pretočeni

u konkretna pitanja ili zadatke, koji će nakon primjene imati status varijabli, te omogućavati

mjerenje. Zadatak ili čestica testa postat će indikator predmeta mjerenja ukoliko se može dokazati

da variraju na neki sukladan način s konstruktom koji bi trebali mjeriti. Na osnovi teorijske razrade

konstrukta, prethodnih iskustva te analize srodnih mjernih instrumenata autor/i moraju odlučiti

kakav će oblik imati čestice odnosno dijelovi testa. To u značajnoj mjeri ovisi o području mjerenja,

a različite vrste zadataka i njihov utjecaj na psihometrijske karakteristike testa opisane su u

poglavlju XX. Uz svaki indikator mogu se razmotriti barem tri pitanja:

a) kako se indikator može izazvati, tj. kako će izgledati podražajni materijal ili zadatak (podražaj:

testovni zadatak, pitanje, crtež,...)

b) kako se ponašanje ili reakcija ispitanika može opaziti i registrirati (ispitanik rješava zadatak, daje

procjenu, bira ponuđenu opciju,...)

c) kako se opažena reakcija ispitanika može vrednovati, tj. kvantificirati

14

U većini slučajeva važno je učiniti razliku između teorijskog aspekta ponašanja i zadatka koji

predstavlja konkretnu operacionalizaciju odnosno mjeru tog ponašanja. U slučaju da analiza pokaže

da neka čestica ima lošu valjanost uzrok može biti irelevantnost tog aspekta ponašanja na teorijskoj

razini (npr. to ponašanje nije relevantno za zadani konstrukt) ili je zadatak loše formuliran (pitanje

nije jasno, ljestvica na kojoj se biraju odgovori nije jasna i sl.).

Primjer 1. Jedno od ponašanja koje su u osnovi konstrukta ekstraverzije kao osobine ličnosti

može biti teorijski konceptualizirano kao: „ponašanja koje karakteriziraju česti kontakti s

drugim ljudima“.

Sada je potrebno domisliti konkretan zadatak koji bi omogućavao mjerenje ovog aspekta

ekstraverzije. U nastavku su navedena tri zadatka koji bi mogli poslužiti kao mjere navedenog

ponašanja:

1. Volim se družiti s drugim ljudima DA NE

2. Imam puno prijatelja

a) sasvim točno, b) uglavnom točno, c) uglavnom netočno, d) potpuno netočno

3. Ne volim provoditi vrijeme sam a) rijetko b) uglavnom c) često

Primjer 2. Jedan od očekivanih ishoda nastave iz psihologije može biti određen kao

„Poznavati osobe važne za razvoj znanstvene psihologije“. Čestice kojima bi se mogao mjeriti

ovaj indikator mogu biti:

1. Navedi osnivača prvog laboratorija eksperimentalne psihologije: _____________

2. Tko je osnovao prvi laboratorij eksperimentalne psihologije u Laipzigu:

1) W. Wundt b) W. James c) S. Freud d) R. Bujas

Primjer 3. Jedan od simptoma anksioznosti može biti glavobolja. Sljedeća pitanja mogu

ukazivati na intenzitet navedenog simptoma.

1. Imate li glavobolje DA NE

2. Jeste li imali problema s glavoboljom u proteklih mjesec dana:

a) uopće ne b) rijetko c) često d) redovito

Primjer 4. Zadatak kojim bi se mogla ispitivati sposobnost ispitanika za prostorno predočavanje

likova može izgledati ovako:

U zadatku je zadan lik na lijevoj strani i 6 njemu sličnih likova s desne strane. Vaš je

zadatak da odredite koji je od likova s desne strane moguće dobiti okretanjem (rotiranjem) zadanog

lika u lijevu ili desnu stranu. Pri tom se zadani lik ne može okretati zrcalno.

15

Razmislite koja bi sve ponašanja i procese mogli uključiti u opis niže navedenih konstrukata, te

kako bi se mogli izazivati odnosno mjeriti.

Motivacija za studij

Tolerancija na frustraciju

Duhovitost (humor)

Emocionalna inteligencija

Autor značajnu pažnju treba posvetiti izradi testovnih zadataka jer o njihovoj kvaliteti ovise sva

psihometrijska svojstva testa. Broj zadataka koje treba izraditi za probnu verziju testa treba biti veći

od predviđenog broja zadataka za konačnu verziju testa, kao bismo nakon sadržajne i empirijske

analize mogli zadržati dovoljan broj zadataka, te iz testa isključiti zadatke koji ne zadovoljavaju

postavljene kriterije. Koliko probna verzija testa treba sadržavati zadataka ovisi o području mjerenja

te iskustvu autora, ali veći broj zadataka ostavlja veći prostor za izbor kvalitetnih zadataka.

4.2. Uputa za rad i zadaci za vježbu

Uvodni dio svakog testa sadrži uputu koja treba biti kratka i jasno uputiti ispitanika u njegov

zadatak, koliko mu je vremena na raspolaganju, gdje trebaju upisivati odgovore, te kakve su

moguće posljedice određenih strategija koje ispitanik koristi (npr. u slučaju kada ne zna odgovor).

Kod testova sposobnosti poželjno je u uvodnom dijelu testa navesti barem jedan primjer zadatka s

objašnjenim postupkom rješavanja te načinom odabira odgovora. Ovo je osobito važno ukoliko

ispitanici odgovore ne upisuju u svezak sa zadacima nego u list za odgovore.

16

U nastavku je naveden primjer upute u Test rječnika.

UPUTA

Ovim testom ispituje se Vaše poznavanje stranih riječi koje se koriste u svakodnevnom govoru.

U svakom zadatku navedena je jedna riječ, a ispod nje 5 mogućih značenja te riječi. Vaš je zadatak

da odaberete jedan ispravan odgovor koji opisuje značenje zadane riječi i da u listu za odgovore označite taj

odgovor.

Primjer: TRANZICIJA

a) pomak

b) putovanje

c) stanje

d) siromaštvo

e) prijelaz

Ispravan odgovor u ovom slučaju jest odgovor označen slovom e) prijelaz, budući da taj odgovor

jedini ispravno opisuje značenje zadane riječi. Stoga bi u listu za odgovore pored primjera trebalo označiti

odgovor E. Vodite računa da je u svakom zadatku samo jedan od ponuđenih odgovora ispravan.

U nastavku slijedi 30 sličnih zadataka, a Vaš je zadatak da uz svaki zadatak odaberete jedan

ponuđeni odgovor.

Ukoliko Vam značenje riječi nije poznato odaberite onaj od ponuđenih odgovora koji se vama

osobno čini najvjerojatnijim točnim odgovorom.

NIŠTA ne upisujte u ovaj svezak sa zadacima!

Odgovore označite u listu za odgovore!

Ne okrećite list dok ne dobijete uputu!

4.3. Izrada ključa za bodovanje (protokola za ocjenjivanje)

Tijekom izrade i konceptualizacije određenog zadatka nužno je odmah zabilježiti odgovore ili

reakcije ispitanika koje će se prihvaćati kao ispravne ili indikativne. Kod zadatka sposobnosti

korisno je da autor zadatka pored točnog odgovora navede i obrazloženje točnog odgovora.

Protokol s predviđenim točnim odgovorima podložan je promjenama tijekom procesa analize

17

zadataka. Na kraju ovog dijela rada na testu potrebno je spojiti uputu i zadatke u cjelinu, nakon čega

je poželjno provjeriti jezičnu ispravnost teksta, odnosno ispraviti moguće pravopisne i gramatičke

pogreške.

Primjer izrade ključa za bodovanje zadatka koji glasi:

Objasnite zašto klasična formula kvocijenta inteligencije nije prikladna za izražavanje stupnja

inteligencije odraslih ispitanika.

Očekivani odgovor trebao bi sadržavati sljedeće informacije:

Klasična formula za izračunavanje nije prikladna za izražavanje inteligencije odraslih, jer nakon

adolescencije mentalna dob ne raste ili je njezin porast usporen, dok se kronološka dob kontinuirano

povećava. To u praksi znači da bi kvocijent za starije ispitanike bio sve manji budući da vrijednost u

brojniku izraza za kvocijent inteligencije (mentalna dob) raste sporije od vrijednosti u nazivniku

(kronološka dob). Npr. 70-godišnjak koji rješava testove namijenjen 50-godišnjacima imao bi

kvocijent inteligencije oko 70 što nije realno jer u stvarnosti on ne funkcionira kao intelektualno

zaostala osoba. Isto tako bi npr. 50-godišnjak za ostvarenje kvocijenta od 120 trebao rješavati

testove namijenjene 60-godišnjacima što očito nema smisla.

Uputa za bodovanje uratka u ovom zadatku:

3 boda – objašnjenje zadovoljava zahtjeve pitanja. Navodi problem stalnog povećanja kronološke

dobi tokom godina dok mentalna dob ostaje ista. Odgovor je logično strukturiran, sadržajan i

usmjeren na pitanje. Postoji mogućnost da neki odgovori koriste primjer prilikom odgovaranja (npr.

Ista mentalna dob kod 20-godišnjaka i 40- godišnjaka dovodi do različitog IQ).

2 boda - pitanje je djelomično odgovoreno. Odgovor sadrži točnu formulu za izračunavanje

kvocijenta inteligencije i navodi problem starenja odraslih ispitanika, ali ove dvije informacije nisu

povezane tj. nedostaje objašnjenje.

1 bod - odgovor je vrlo neprecizan, npr. navodi formulu kvocijenta inteligencije ili navodi da

kvocijent inteligencije pada s dobi bez ikakvog dodatnog objašnjenja.

0 bodova – odgovor je u potpunosti netočan.

Kod zadataka otvorenog tipa temeljito izrađen ključ za bodovanje uratka povećava objektivnost

testa.

4.4. Izrada lista za odgovore

U pojedinim slučajevima ispitanici svoje odgovore ne upisuju direktno u test odnosno svezak s

testovnim zadacima već u prilagođeni list za odgovore. Jedan od razloga za primjenu listova za

18

odgovore je ekonomičnost budući da je trošak tiska testova veći od listova za odgovore i u tom

slučaju korisnik iste testove može koristiti kroz duže vremensko razdoblje. Drugi i možda češći

razlog jest mogućnost brže analize budući da je korekcija odgovora brža kroz listove za odgovore, a

u posebnim slučajevima kada su listovi prilagođeni moguće je učitavanje rezultata provesti

primjenom uređaja za optičko učitavanje podataka čime se višestruko skraćuje vrijeme potrebno za

analizu rezultata.

U svakom slučaju list za odgovore mora biti pregledan i uz svaki odgovor mora biti jasno označen

redni broj zadatka u testu kako bi se izbjegle pogreške prilikom upisa odgovora u list. Kako

ispitanici prilikom uporabe listova za odgovore određeno vrijeme troše za pronalaženje mjesta u

listu za odgovore na koje treba upisati odgovor autori trebaju provjeriti treba li u tom slučaju

produljiti ukupno vrijeme rada u odnosu na situaciju kada se odgovori upisuju direktno u test.

19

5. LOGIČKA I SADRŽAJNA ANALIZA ČESTICA

Nakon što je sačinjen preliminarni skup čestica, te razrađena uputa može se sačiniti prva verzija

testa. Nakon što se pregleda i provjeri prva verzija poželjno ju je dati neovisnim stručnjacima na

recenziju kako bi proveli sadržajnu i logičku analizu. Poželjno je da ovaj posao provjere učini osoba

koja nije sudjelovala u samoj izradi testa, a koja poznaje osobitosti područja na koje se odnosi

mjereni konstrukt, te koja poznaje osnovna načela izrade testa. Recenzentu je dostupan i ključ za

bodovanje na koji također treba dati svoje komentare odnosno prijedloge za moguća poboljšanja.

Od recenzenta se očekuje i povratna informacija o sadržajnoj valjanosti testa, odnosno

relevantnosti pojedinih čestica za mjerenje zadanog konstrukta. Nakon ove procedure korisno je da

autor/autori i recenzent(i) rasprave sve komentare te donesu odluku o izmjenama koje treba učiniti u

prvoj verziji testa.

Nakon učinjenih izmjena test se prvi puta može eksperimentalno primijeniti na stvarnim

ispitanicima. Kroz ovu primjenu nastoje se dobiti dodatne povratne informacije o razumljivosti i

prikladnosti upute i testovnog sadržaja. Ovakva eksperimentalna primjena prethodi prvoj pravoj

primjeni na probnom uzorku ispitanika. Preporučljivo je da ova primjena testa bude individualna na

motiviranim ispitanicima za koje se može pretpostaviti da imaju visoko razvijen konstrukt koji se

mjeri testom. Najčešće se primjenjuje tehnika „razmišljanja na glas“. Uz prisutnost ispitivača

ispitanik rješava test pri čemu razmišlja na glas, a ispitivač bilježi procese i asocijacije koje

ispitanik ima za vrijeme odgovaranja na zadatke. Ispitivač također registrira i vrijeme koje je

potrebno ispitaniku za odgovaranje na pojedine zadatke, odnosno cijeli test. Bilješke je potrebno

unijeti u prethodno pripremljene protokole. Nakon individualne primjene na nekoliko probnih

ispitanika autor/autori trebaju učiniti dodatne izmjene u prvoj verziji testa ukoliko za tim ima

potrebe.

U pojedinim slučajevima, a osobito kada predtestiranje na većim uzorcima nije moguće, ova faza

može se provesti i uporabom tzv. fokusne grupe. Kada autori žele steći dubinski uvid u način kako

ispitanici doživljavaju i razumijevaju sadržaj testa i zadatke, ali i test u cjelini (jasnoća upute,

trajanje rješavanja zadataka, kvaliteta konstrukcije pojedinih zadataka, moguća alternativna rješenja

zadataka, ...) kroz vođeni razgovor s probnim ispitanicima mogu dobiti odgovore na konkretna

pitanja i nedoumice. Sudionici fokusnih grupa najčešće su pripadnici ciljnog uzorka kojemu je test

namijenjen. Pored toga mogu biti podijeljeni u skupine s obzirom na razvijenost konstrukta ili neke

relevantne osobine (npr. učenici s lošim, prosječnim i izvrsnim školskim uspjehom). U toj situaciji

ispitanici najprije rješavaju test, nakon čega slijedi vođena rasprava koju usmjerava moderator

grupe. Na ovaj način se mogu prikupiti dodatne informacije korisne za poboljšanje kvalitete testa, a

ove kvalitativne informacije korisno je kombinirati s kvantitativnim podacima koji se dobivaju

primjenom testa na većim uzorcima (Ćurković, Pavlina, Buljan-Culej, 2008.).

Npr. prilikom izrade upitnika religioznosti korisno je dobiti povratnu informaciju o razumijevanju

pojedinih pitanja i procesima koje ta pitanja izazivaju kod osoba koje su visoko religiozne i osoba

koje se ne smatraju vjernicima ili su pripadnici različitih religija. Kao primjer pitanja koje može biti

shvaćeno na dva načina navest ćemo pitanje iz upitnika za mjerenje ljubomore:

Sumnjam da me moj partner/partnerica vara DA NE

20

Ovo pitanje može se razumjeti na dva načina. Prvi je da imam sumnju, tj. pretpostavljam da me moj

partner/partnerica uistinu vara, dok se pitanje može shvatiti i tako da sumnjam da je to moguće, tj.

izražavam sumnju ili nevjericu u takvu mogućnost. Pitanja koja sadrže određene nejasnoće ili se

mogu različito razumjeti nakon ovakvih analiza lakše je detektirati i isključiti iz testa ili ih doraditi.

U slučaju da autori izostave ovaj dio provjere zadataka izlažu se opasnosti da se neke pogreške

otkriju tek znatno kasnije te da ti nedostatci značajno umanje kvalitetu i upotrebljivost testa.

6. PRIMJENA PRVE VERZIJE TESTA NA PROBNOM UZORKU

Nakon što je sačinjena prva (preliminarna) verzija testa potrebno ju je primijeniti na probnom

uzorku ispitanika. U načelu ovaj uzorak bi trebao biti reprezentativan za populaciju na kojoj se

namjerava primjenjivati konačna verzija testa. Poželjno je da veličina ovoga uzorka omogućuje

statističku stabilnost parametara zadataka, a u većini slučajeva za ovu svrhu prihvatljivi su uzorci

veći od 150-200 ispitanika uz pretpostavku heterogenosti ispitanika s obzirom na mjereni konstrukt.

Za vrijeme ove probne primjene poželjno je registrirati vrijeme koje je većini ispitanika bilo

potrebno da odgovore na sve zadatke. Druga je mogućnost da se od ispitanika zatraži da nakon

svakih npr. 10 minuta označe na kojem se zadatku trenutno nalaze. Pored toga od ispitanika je

korisno nakon završetka primjene testa zatražiti povratnu informaciju o svim nejasnoćama koje su

imali odnosno zadacima koji su kod njih stvarali poteškoće. Sve komentare potrebno je zabilježiti

kako bi se kasnije pri odabiru zadataka za konačnu verziju testa mogli uzeti u obzir.

21

7. ANALIZA I IZBOR ZADATAKA ZA KONAČNU VERZIJU TESTA

Nakon što su na probnom uzorku prikupljeni podaci pristupa se postupku empirijske analize čestica

te izbora čestica za konačnu verziju testa. U ovom dijelu opisat ćemo proceduru analize i izbora

zadataka s ciljem izrade testa homogenog sadržaja čiji zadaci u što je mogućem većem stupnju

mjere zadani konstrukt. Pored toga pretpostavit ćemo da se ne radi o pravom testu brzine, tj. da

vrijeme rada ne utječe presudno na rezultat ispitanika.

Mogu se razlikovati u osnovi dva opća pristupa izboru zadataka. Prvi pristup može se opisati kao

racionalni i podrazumijeva da autor (autori) testa sam na osnovi logičke ili teorijske analize, te

osobnog iskustva donosi odluku o zadacima koje će uvrstiti u konačnu formu testa. Drugi pristup

može se nazvati empirijskim i podrazumijeva da se odluka o izboru zadataka za konačnu verziju

testa donese nakon primjene testa na uzorku ispitanika te da se pri odluci uzimaju u obzir empirijski

dobiveni kvantitativni pokazatelji (Guilford, 1954.). U većini slučajeva je poželjna kombinacija oba

pristupa te podudaranje različitih pokazatelja valjanosti zadatka.

Analiza zadataka predstavlja skup postupaka za procjenu osobina čestica kompozitnih testova u

svrhu njihova izbora i kombiniranja u cjelovite mjerne postupke koji će imati neke poželjne

karakteristike. Analiza zadataka predstavlja dio procesa izrade testa, a vrlo je korisna i u kasnijima

fazama razvoja testa prilikom njegove psihometrijske evaluacije.

Logička osnovica za provođenje analize zadataka može se argumentirati na sljedeći način:

1) Sve kvantitativne osobine ukupnih testovnih rezultata u potpunosti su određene osobinama

njihovih elemenata (zadataka). Kao što je ranije pokazano aritmetička sredina i varijanca ukupnih

testovnih rezultata matematički se mogu izvesti iz pojedinih karakteristika zadataka koji čine test.

2) Bazična pretpostavka analize zadataka jest da određene statističke karakteristike zadataka ostaju

nepromijenjene (do određene aproksimacije) pri izmjeni konteksta u kojemu se procjenjuju, tj. da

postoji njihova statistička stabilnost. Korisnici moraju biti svjesni činjenice da uporaba testa na

selekcioniranom uzorku može promijeniti parametre utvrđene na reprezentativnom uzorku iz ciljane

populacije.

Razvijen je relativno velik broj statističkih parametara testovnih čestica konzistentnih s

pretpostavkama klasične teorije testova. Neke od osnovnih polazišta prilikom razvoja procedura

analize zadataka su:

a) uspostavljanje matematičke relacije između određenih parametara zadataka i parametara ukupnih

rezultata.

b) određivanje metode procjene parametara, tako da oni, ako je moguće, budu neovisni o

karakteristikama validacijskog uzorka. Lord i Novick (1968) naglašavaju da statistika zadataka i

parametri ne opisuju samo zadatak, već obično i uzorak ispitanika na koje je zadatak primijenjen.

c) izbor najefikasnijih metoda, s matematičkog i računskog stanovišta, za procjenu parametara

zadataka. Poželjno je da je procjenu parametra moguće izvršiti indikatorom koji ima poželjna

22

statistička svojstva, kao što su mala pogreška uzorkovanja, poznata distribucija uzorkovanja i

jednostavnost računanja.

Pored toga jedna od temeljnih pretpostavki jest statistička neovisnost odgovora na jedan

zadatak u odnosu na druge zadatke u kompozitu. Pojednostavljeno to znači da se vjerojatnost

odgovora na jedan zadatak kada ga analiziramo izdvojenog iz cjeline ne bi trebala mijenjati kada se

taj zadatak analizira unutar skupine zadataka. U praksi se ipak može dogoditi da prethodni zadaci

(zbog uvježbavanja ili uvida u određene procese) povećaju vjerojatnost odgovora u ciljanom

zadatku. Kod testova znanja ponekad se dogodi da je odgovor na jedan zadatak djelomično sadržan

u prethodnim zadacima ili je odgovor na neki prethodni zadatak mogao utjecati na rješavanje

ciljanog zadatka. To znači da pojedine karakteristike zadatka u statističkom smislu ovise o drugim

zadacima.

Analiza zadataka najčešće uključuje analizu dva različita aspekta osobina testovnih zadataka:

1) Prva skupina karakteristika zadataka odnosi se na tzv. univarijatne karakteristike zadataka. Ove

karakteristike mogu se analizirati zasebno za svaki zadatak neovisno o drugim varijablama ili

ukupnom uratku u testu. U ovu kategoriju spadaju mjere težine zadatka (indeksi lakoće i težine kod

binarnih zadataka ili aritmetička sredina) i mjere osjetljivosti zadatka (varijanca ili standardna

devijacija, te analiza frekvencije točnih odgovora).

2) Drugi aspekt analize zadataka odnosi se na diskriminativnu valjanost zadataka. Diskriminativna

valjanost zadatka predstavlja stupanj u kojemu se zadatkom mjeri konstrukt koji bi zadatak trebao

mjeriti. Drugim riječima ispituje se stupanj u kojemu se zadatkom mogu razlikovati (diskriminirati)

ispitanici s obzirom na neku zadanu kriterijsku varijablu kojom se odmjerava zadani konstrukt ili

predmet mjerenja. Najčešće je to ukupni uradak u testu, ali se može koristiti bilo koja druga

smislena kriterijska varijabla. Ovdje treba razlikovati diskriminativnost u smislu opće osjetljivosti

zadatka, tj. broja različitih rezultata koje ispitanici mogu ostvariti u zadatku, od diskriminativne

valjanosti koja ukazuje na mogućnost razlikovanja ispitanika s obzirom na željeni konstrukt. Naime

zadatak može dobro razlikovati ispitanike, ali da to razlikovanje nije povezano s predmetom

mjerenja.

7.1. Mjere težine i osjetljivosti zadatka

7.1.1. Aritmetička sredina zadatka

Kao mjera težine zadatka najčešće se koristi aritmetička sredina, tj. zbroj svih odgovora podijeljen s

brojem ispitanika.

N

X

M

N

1

23

Ukoliko ispitanici za točno rješenje dobivaju veću numeričku vrijednost, veća aritmetička sredina

ukazuje na manju težinu zadatka. Kod mjera ličnosti veći broj ispitanika koji biraju indikativni

odgovor ne ukazuje na veću „težinu“ zadatka već na veću prisutnost te osobine u uzorku. Stoga je

preporučljivo umjesto pojma težina koristiti izraze „zastupljenost“ ili „učestalost“, iako je

psihometrijsko značenje identično.

Kod binarnih testovnih zadataka najčešće se kao indikator težine / lakoće zadatka koristi

indeks lakoće, tj. proporcija ispitanika koji točno / indikativno odgovaraju na zadatak

p

X

N

i

i

N

1 ,

gdje X može poprimiti samo dvije vrijednosti: nula ili jedan. Proporcija ispitanika koji nisu

odgovorili indikativno uobičajeno se označava kao indeks težine:

q=1-p.

U većini testova sposobnosti i znanja zadaci u kojima ispitanici nisu odabrali odgovor boduju se s

nula bodova. U pojedinim slučajevima vrijedi razmotriti koliki je broj takvih odgovora koji

nedostaju. Ukoliko je razlog nedostatak vremena moguće je dodatnu analizu uraditi na uzorku

ispitanika koji su odabrali neki odgovor u zadatku. U tom slučaju se može dogoditi da zadatak u

osnovi nije težak, ali je vrijeme za rad u testu bilo nedostatno. Ukoliko brzina rada nije bila od

primarnog interesa autorima ovu vrstu informacija treba posebno razmotriti.

Iako je problem utjecaja slučajnog pogađanja raspravljen ranije ovdje vrijedi još jednom upozoriti

na posljedice djelovanja slučajnog pogađanja na uradak ispitanika. Pored razvijenosti predmeta

mjerenja, na parametar težine utječe i mogućnost slučajnog pogađanja odgovora na zadatke

višestrukog izbora s A ponuđenih odgovora. Guilford je (1954) predložio metodu za korekciju

uratka u zadatku zbog mogućnosti slučajnog pogađanja, razvijenu uz dvije pretpostavke: a)

ispitanici se mogu podijeliti u dvije skupine oni koji znaju odgovor i oni koji pogađaju, b) oni koji

pogađaju podjednako biraju sve alternative

p

RW

A

T

ii

'

1

p' = procjena proporcije ispitanika koji stvarno znaju odgovor na zadatak

Ri = broj točnih odgovora na zadatak

Wi = broj netočnih odgovora na zadatak

A = broj alternativa

T = ukupan broj ispitanika koji su pokušali zadatak (T=R+W)

Ponekad ispitanici efikasnom eliminacijom netočnih ponuđenih alternativa mogu odabrati

točan odgovor. U tom slučaju točan odgovor ne ukazuje na pravi predmet mjerenja, te je stoga

važno ponuditi podjednako atraktivne alternative kod zadataka višestrukog izbora. Očito je da u

lakoceindekspN

tocnihfr

N

xM

)(

24

zadatku s po dva ponuđena odgovora aritmetička sredina od p=0,5 ukazuje na rezultat koji bismo

očekivali kada bi ispitanici po slučaju odabirali odgovore. Stoga bi uz pretpostavku o slučajnom

odabiru odgovora tek vrijednosti indeksa lakoće iznad 0,5 ukazivale na neku razvijenost predmeta

mjerenja kod ispitanika. Stoga bismo optimalnu osjetljivost u zadacima s A ponuđenih odgovora

mogli procijeniti na osnovi izraza:

popt = 0,5 + 0,5/A

To znači da bi u zadatku sa po dva ponuđena odgovora optimalna osjetljivost bila 0,5 + 0,5/2 =

0,75. Dakle maksimalna osjetljivost zadatka s dva ponuđena odgovora iznosila bi 0,75. Kod

zadataka s 3 ponuđena odgovora optimalna težina bila bi 0,67, s četiri odgovora 0,62, a kod

zadataka s 5 ponuđenih odgovora 0,6. Lord (prema Crocker i Algina, 1986) u simulacijskoj studiji

pokazuje kako bi optimalni indeksi lakoće zadataka u testu kada želimo povećati pouzdanost trebale

biti još i veće (npr. u zadacima s dva ponuđena odgovora on sugerira p= 0,85). U konačnici autor

treba nastojati prikupiti dodatne podatke o učestalosti slučajnog pogađanja budući da pretpostavka

o potpuno slučajnom odabiru odgovora relativno rijetko vrijedi za situacije rješavanja testova.

Neki autori, poput Reesa (prema Guilford, 1954), nasuprot navedenom objektivnom,

razvijaju koncept subjektivne težine zadatka, za koju se u nekim istraživanjima pokazalo da je

proporcionalna logaritmu njihove objektivne težine. Reese je napravio komparativnu studiju

objektivne i subjektivne težine, pri čemu je subjektivna težina izražena na dva načina: skaliranjem

zadataka na osnovi sudova metodom frakcija, te na osnovi proporcije subjektivnih pogrešaka

(ispitanik sam procjenjuje je li zadatak riješio točno ili nije). U oba slučaja odnos objektivne i

subjektivne težine opisan je krivuljom u obliku slova S. Indekse težine, kao objektivne mjere težine

zadataka moguće je usporediti s nekim drugim indikatorima težine zadatka. Jednu informaciju

mogu pružati procjene autora testa o očekivanoj težini zadataka, pored toga moguće je stručnjake iz

područja zatražiti da procjene težine zadataka (npr. nastavnike koji podučavaju potencijalne

ispitanike), a također se od samih ispitanika može zatražiti procjena subjektivne težine svakog

zadatka. Usporedba ovih vrijednosti, a osobito njihovo nepodudaranje zahtjeva dodatnu analizu. U

nekim situacijama moguće je da težina zadatka ne proizlazi jedino iz nisko razvijenog konstrukta

kod ispitanika već iz nekih drugih razloga (loših izvora za pripremu, dvosmislenosti pitanja,

nedostatka vremena i sl.). Važnu, iako čini se ne i komplementarnu, informaciju može pružiti i

stupanj sigurnosti ispitanika u točnost odgovora.

Zaključno može se reći da procjena težine zadatka ovisi o uzorku na kojem je procijenjena, a

u kontekstu klasične teorije testova također nema pretpostavke o prirodi odnosa između razine

sposobnosti i vjerojatnosti točnog odgovora na zadatak.

7.1.2. Mjere osjetljivosti zadatka

U većini slučajeva zadaci prosječne težine imat će najveću osjetljivost, odnosno omogućit će

najveći broj razlikovanja ispitanika na osnovi uratka u zadatku. U ovom kontekstu važno je odrediti

neku mjeru raspršenja rezultata u zadatku. U ovom slučaju najčešće se kao pokazatelj osjetljivosti

25

zadatka koriste varijanca ili standardna devijacija varijable. Uobičajeni izraz za varijancu zasniva se

na prosječnoj kvadriranoj udaljenosti svih rezultata od aritmetičke sredine:

Kod binarnih zadataka postoji direktna relacija između težine zadatka i varijance, pri čemu je

varijanca binarnog zadatka jednaka umnošku indeksa lakoće i indeksa težine: Vi = pq, odnosno

standardna devijacija jednaka je korijenu iz umnoška indeksa lakoće i indeksa težine. Tako

prosječno težak zadatak (pi=0.5) ima i maksimalnu varijancu (vi=0.25). Vrlo lagani i vrlo teški

zadaci u pravilu će imati manju osjetljivost od zadataka prosječne težine.

7.2. Mjere diskriminativne valjanosti

Diskriminativna valjanost se može procjenjivati na različite načine, ali se u osnovi nastoji provjeriti

postoji li povezanost između uratka u zadatku i neke mjere konstrukta.

Uradak ispitanika u zadatku predstavlja varijablu koja može imati različita svojstva (raspon

vrijednosti, oblik distribucije i dr.) što može utjecati na izbor prikladnih statističkih postupaka za

određenje diskriminativne valjanosti zadatka. Takvu opaženu varijablu zvat ćemo empirijskim

indikatorom ili mjerom teorijskog konstrukta ukoliko njezine opažene vrijednosti variraju na neki

sistematičan način s konstruktom, odnosno ako vrijedi pretpostavka da njezine očekivane

vrijednosti rastu monotono s konstruktom (Lord, Novick, 1968.).

Ranije smo spomenuli da u nekim modelima mjerenja odnos između uratka u zadatku i razvijenosti

konstrukta može biti opisan i nemonotonim funkcijama. Zbog prirode mjerenja većina mjera, u

manjem ili većem stupnju, predstavlja korelat atributa, prije nego li atribut sam. Utvrđivanje bilo

koje funkcije koja povezuje uradak u zadatku i uradak u testu ide u prilog njegove valjanosti.

Diskriminativna valjanost se može određivati na različite načine, a ovdje ćemo ukratko opisati

njihovu osnovnu logiku. Bitan aspekt svakog od pristupa uključuje statističku proceduru koja se

koristi, te sadržaj kriterijske varijable koja se koristi za prosuđivanje valjanosti zadatka.

S obzirom na metodu ili statistički postupak koji se koristi za određivanje diskriminativne

valjanosti mogu se razlikovati:

a) postupci zasnovani na korelaciji zadatka s kriterijem

c) postupci zasnovani na analizi karakteristične krivulje zadatka

b) ostali postupci (ovdje spadaju različiti postupci poput metoda analize varijance, indeksa

diskriminativnosti, prosječne korelacije zadatka s ostalim zadacima, multiple korelacije i dr.)

Prethodni postupci razlikuju se s obzirom na korištenu statističku proceduru, ali je vrlo često

korisno kombinirati različite navedene postupke.

N

d

N

MXV

ii

22)(

26

S obzirom na kriterij koji se koristi kao mjera razvijenosti konstrukta, možemo razlikovati

sljedeće situacije:

a) ukupni uradak u testu u kojemu se nalazi zadatak koji analiziramo. U ovom slučaju se mogu

razlikovati situacije u kojima je zadatak uključen u ukupni rezultat (spuriozni koeficijenti) i slučaj

kada je udio zadatka isključen iz ukupnog rezultata (nespuriozni ili korigirani koeficijenti)

b) korištenje neke latentne varijable izračunate pod faktorskim modelom ili nekim drugim

modelom koji uključuje latentne varijable

c) korištenje neke vanjske kriterijske varijable (drugi test ili neka kriterijska varijabla)

S obzirom na uzorak na kojemu se provodi analiza možemo razlikovati sljedeće situacije:

a) analiza na cjelokupnom uzorku ispitanika koji su sudjelovali u istraživanju

b) analiza na ekstremnim skupinama ispitanika

c) analiza na ciljanim skupinama ispitanika

Različite parametre koji se mogu analizirati u okviru analize zadataka pojasnit ćemo na primjeru

sljedeće matrice koja prikazuje rezultate primjene jednog testa od k zadataka na uzorku od 50

ispitanika. Naime, svaka analiza zadataka polazi od matrice definirane brojem zadataka i brojem

ispitanika. Sve relevantne psihometrijske karakteristike testa sadržane su takvoj matrici.

27

Tablica 2. Matrica s rezultatima primjene testa A sačinjenog od k zadataka na uzorku od 20

ispitanika.

N Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 Z11 ... U

1 1 0 1 1 1 1 1 1 1 0 0 ... 50

2 1 0 1 1 1 1 1 1 0 0 0 ... 49

3 1 0 1 1 1 1 1 0 1 0 0 ... 48

4 1 0 1 0 1 1 1 1 0 1 0 ... 47

5 1 0 1 0 1 1 1 1 1 1 0 ... 46

6 1 0 1 0 1 1 1 1 0 0 0 ... 45

7 1 0 1 0 1 1 1 1 1 0 0 ... 44

8 1 0 1 0 0 1 1 0 0 1 0 ... 43

9 1 0 1 0 0 1 1 0 1 0 0 ... 42

10 1 0 1 0 0 1 1 1 0 0 0 ... 41

11 1 0 0 0 0 1 1 0 1 1 1 ... 40

12 1 0 0 0 0 1 1 0 0 1 1 ... 39

13 1 0 0 0 0 1 1 1 1 1 1 ... 38

14 1 0 0 0 0 0 1 1 0 1 1 ... 37

15 1 0 0 0 0 0 1 0 1 1 1 ... 36

16 1 0 0 0 0 0 1 0 0 1 1 ... 35

17 1 0 0 0 0 0 1 0 1 0 1 ... 34

18 1 0 0 0 0 0 0 1 0 1 1 ... 33

19 1 0 0 0 0 0 0 0 1 1 1 ... 32

20 1 0 0 0 0 0 0 0 0 1 1 ... 31

p 1,00 0,00 0,50 0,15 0,35 0,65 0,85 0,5 0,5 0,6 0,5

frT 20 0 10 3 6 13 17 10 10 12 10

V 0 0 0,25 0,1275 0,2275 0,2275 0,1275 0,25 0,25 0,24

p = indeks lakoće zadatka

frT = frekvencija točnih odgovora u zadatku

V = varijanca zadatka

U = ukupni rezultat u testu izražen kao zbroj točnih odgovora

28

Razmotrimo na konceptualnoj razini karakteristike zadataka u tablici 2.

Zadatak 1 riješili su svi ispitanici (p=1) i taj zadatak je za ovaj uzorak prelagan. On ne omogućuje

nikakvo razlikovanje ispitanika s obzirom na predmet mjerenja. Kako nema varijancu za taj zadatak

nije moguće računati nikakvu mjeru povezanosti s ukupnim rezultatom. Ovakav zadatak bismo

vjerojatno izbacili iz testa. Zadatak se može zadržati na početku testa s ciljem da ispitanicima bude

neka vrsta uvježbavanja u naredne teže zadatke. Zadržavanje ovog zadatka u testu ima značajke

dodavanja konstante rezultatima svih ispitanika i ne utječe na varijancu ukupnih testovnih rezultata.

Uz moguću pretpostavku da na većem uzorku možemo očekivati neki broj ispitanika koji ga ipak ne

bi riješili mogli bismo ga zadržati kao mogući ekstremno lagani zadatak.

Zadatak 2 nije riješio nitko od ispitanika. Analogno prvom zadatku ovaj zadatak je pretežak

ispitanicima (uz pretpostavku da je zadatak logički i sadržajno valjan). Niti ovaj zadatak nema

varijancu te stoga za njega nije moguće procjenjivati diskriminativnu valjanost. Ovakav zadatak

bismo, kao i prvi, vjerojatno izbacili iz konačne verzije testa. Kao i kod prvog zadatka, uz

pretpostavku da bi na većem uzorku iz populacije ipak neki od ispitanika riješili točno ovaj zadatak,

možemo ga zadržati kao ekstremno težak zadatak. Očito je da zadržavanje ovakvog zadatka u ovoj

verziji testa nema nikakve posljedice na aritmetičku sredinu i varijancu ukupnih testovnih rezultata.

Zadatak 3 točno rješava 50% ispitanika te je taj zadatak optimalne težine (p=0,5) i ima

maksimalnu varijancu (V=0,25) koju može ostvariti neki binarni zadatak. Ukoliko pogledamo

uradak u trećem zadatku iznadprosječnih i ispodprosječnih ispitanika podijeljenih s obzirom na

njihov ukupni uradak u testu možemo uočiti da su ga točno riješili svi iznadprosječni ispitanici, a da

ga nije riješio nitko od ispodprosječnih ispitanika. Očito je da će korelacija ovoga zadatka s

ukupnim rezultatom u testu biti najveća moguća, odnosno zadatak ima visoku diskriminativnu

valjanost. Ovaj zadatak u zadanim uvjetima ima optimalne karakteristike.

Zadatak 4 točno rješava 15% ispitanika stoga je ovaj zadatak relativno težak. Pogledamo li koji ga

ispitanici rješavaju uočavamo da se radi o najboljim ispitanicima s obzirom na ukupni rezultat u

testu. Zbog njegove težine nekolicina iznadprosječnih ispitanika nije ga uspjela riješiti. Ipak taj

zadatak je u zadanim uvjetima maksimalno povezan s ukupnim rezultatom. U računskom pogledu

zbog nešto manje varijance njegova će point-biserijalna korelacija biti nešto manja od one koju

bismo dobili za treći zadatak.

Zadatak 5 točno rješava 35% ispitanika te i ovaj zadatak možemo smatrati iznadprosječno teškim

iako je lakši od četvrtog, a teži od trećeg zadatka. U pogledu njegove diskriminativne valjanosti

također uočavamo da su svi ispitanici koji su ga riješili bolji prema ukupnom testovnom rezultatu

od ispitanika koji ga nisu riješili. Stoga bismo i za ovaj zadatak mogli ustvrditi da ima maksimalnu

diskriminativnu valjanost za zadatak takve težine. Ipak zbog manje varijance njegova point-

biserijalna korelacija bit će nešto manja od one koju bismo dobili za treći zadatak, ali vjerojatno

veća od četvrtog zadatka koji ima još manju varijancu.

Zadatak 6 lakši je od prosjeka budući da ga rješava 65% ispitanika. Njegova varijanca jednaka je

varijanci petog zadatka, a kao što vidimo i ovaj zadatak je maksimalno povezan s ukupnim uratkom

budući da su svi ispitanici koji su ga riješili (njih 65%) ujedno i bolji s obzirom na ukupni rezultat u

29

testu od ispitanika koji ovaj zadatak nisu riješili. Njegova korelacija s ukupnim rezultatom, odnosno

diskriminativna valjanost bit će podjednaka onoj koju ostvaruje peti zadatak.

Zadatak 7 rješava 85% ispitanika što ga čini laganim zadatkom. Ispitanici koji ga nisu točno riješili

ujedno su najlošiji prema ukupnom rezultatu što znači da je njegova diskriminativna valjanost

maksimalna za zadatak ovakve težine. Njegova point-biserijalna korelacija s ukupnim rezultatom u

testu bit će manja od korelacija ostvarenih za zadatke 5 i 6, a bit će podjednaka korelaciji koju

ostvaruje četvrti zadatak koji je teži ali ima jednaku varijancu.

Zadatak 8 ima maksimalnu osjetljivost, ali se može vidjeti da njegova povezanost s ukupnim

rezultatom nije maksimalna. Naime, među iznadprosječnim ispitanicima njih 70% točno rješava

ovaj zadatak, a 30% ga nije uspjelo riješiti. Među ispodprosječnima u testu 30% ispitanika točno

rješava ovaj zadatak, a ostali ga nisu točno riješili. Može se zaključiti da je ovaj zadatak umjereno

povezan s ukupnim rezultatom jer ga ipak bolje rješavaju iznadprosječni ispitanici.

Zadatak 9 također je prosječne težine (p=0,5), ali ako pogledamo njegovu povezanost s ukupnim

rezultatom u testu ona je vjerojatno jednaka nuli. Naime iznadprosječni i ispodprosječni ispitanici u

ovom testu jednako su uspješni u ovom zadatku. Unatoč činjenici da ima maksimalnu varijancu

ovaj zadatak bismo izbacili iz testa jer ne mjeri isto što i ostatak testa. Očito je da visok rezultat u

testu ne povećava vjerojatnost točnog rješenja u ovom zadatku.

Zadatak 10 je nešto lakši od prosjeka (p=0,6) ali je očito da ga u većoj mjeri točno rješavaju

ispitanici koji su u ovom testu ispodprosječni. To znači da će korelacija ovog zadatka s ukupnim

rezultatom biti negativna.

Zadatak 11 ima optimalnu osjetljivost i maksimalnu povezanost s ukupnim rezultatom, ali je ta

povezanost negativna. U slučaju visoke negativne korelacije zaključujemo da je visok rezultat u

testu povezan s nižim rezultatom u zadatku, tj. da zadatak dijeli zajedničku varijancu s ukupnim

rezultatom. Kod zadataka u upitnicima ličnosti u takvim slučajevima najčešće je potrebno obrnuto

bodovati uradak u zadatku (slučaj kad je formulacija pitanja u jednom zadatku obrnuta u odnosu na

druga pitanja).

U nastavku ćemo razmotriti primjenu različitih statističkih koeficijenata prilikom izračunavanja

korelacije između uratka u zadatku i neke mjere razvijenosti konstrukta.

30

7.2.1. MJERE POVEZANOSTI IZMEĐU URATKA U ZADATKU I MJERE

KONSTRUKTA

7.2.1.1. Pearsonov koeficijent korelacije

U svim situacijama u kojima je opravdano izračunavanje standardnog Pearsonovog koeficijenta

korelacije ovaj koeficijent može se koristiti kao mjera diskriminativne valjanosti zadatka. U slučaju

kada je uradak u zadatku izražen kao politomna varijabla s većim brojem stupnjeva (npr. na

Likertovoj ljestvici od 5 stupnjeva ili kao kontinuirana varijabla) može se računati standardni

Pearsonov koeficijent korelacije. U praksi je vrlo čest slučaj da je uradak u zadatku testa izražen na

ljestvici koja ima smanjen varijabilitet tako da su u statističkom smislu narušene pretpostavke za

izračunavanje Pearsonovog koeficijenta korelacije. U tom slučaju prikladnije je odabrati neki od

drugih statističkih indikatora povezanosti među varijablama.

7.2.1.2. Point biserijalni koeficijent korelacije

U najvećem broju testova sposobnosti i postignuća uradak u zadatku izražava se kao binarna

varijabla, tj. moguće su samo dvije vrijednosti: 0 i 1. U tom slučaju može se koristiti point-

biserijalni koeficijent korelacije, koji daje vrijednosti jednake onima koje bismo dobili primjenom

Pearsonovog koeficijenta na istim podacima, a može se izračunati preko sljedećeg izraza:

q

pMMr

t

tp

pb

Mp = aritmetička sredina ukupnih rezultata za one ispitanike koji su točno riješili zadatak

Mt = aritmetička sredina ukupnih rezultata za sve ispitanike

t = standardna devijacija ukupnih rezultata za sve ispitanike

p = indeks lakoće zadatka

q = indeks težine zadatka

Brojni autori smatraju da je point-biserijalni koeficijent najrealističnija indikacija veze zadatka i

ukupnog uratka. Čak i kad nije optimalan indikator asocijacije, omogućuje daljnje statističke

izvode. Za r(pb) nedostaje formula za standardnu pogrešku ali je ona aproksimativno jednaka

Pearsonovom koeficijentu. Osnovni praktični problem jest što je ova mjera povezanosti osjetljiva na

oblik distribucije. To znači da će kod zadataka čija je distribucija asimetrična, odnosno čiji je

varijabilitet reduciran (što je slučaj kod lakih i teških zadataka) postojati tendencija da njihove

korelacije s ukupnim uratkom budu sustavno niže. Posljedično, najveće korelacije s ukupnim

rezultatom imat će u pravilu zadaci prosječne težine čija je distribucija približno normalna ili barem

simetrična. Što je varijabilitet zadatka manji, neovisno radi li se o lakim ili teškim zadacima,

korelacije tih zadataka s mjerama ukupnog uratka ili vanjskim kriterijem bit će niže. Treba biti

svjestan da korelacija između dihotomne i kontinuirane varijable u ovom slučaju u praksi iznimno

rijetko dostiže vrijednost 1.

Kod svih mjera diskriminativne valjanosti koje uključuju korelaciju između zadatka i uratka u testu

može se javiti problem spurioznosti. Naime zbog činjenice da je zadatak već uključen u ukupni

rezultat on će u određenoj mjeri korelirati sa svojim udjelom u ukupnom rezultatu te na taj način

31

umjetno povećavati korelaciju zadatka s testom, odnosno povećavati koeficijent diskriminativne

valjanosti tog zadatka. Ranije smo razmotrili slučaj linearne kombinacije koja se sastoji od k

standardiziranih i međusobno nepovezanih članica. U tom slučaju korelacija bilo koje članice s

ukupnim rezultatom iznosit će:

kriu

1

U slučaju testa koji se sastoji od zadataka koji su u nultim međusobnim korelacijama nema razloga

da niti jedan zadatak korelira s ukupnim rezultatom iznad nule. Ipak zbog navedenog efekta

spurioznosti u testu od 5 standardiziranih zadataka svaki će zadatak korelirati s ukupnim rezultatom

0,45. Kako bismo otklonili ovaj utjecaj spurioznosti moguće je izračunati korigirani, tj. nespuriozni

koeficijent korelacije između zadatka i ukupnog rezultata u testu. To je moguće izračunavanjem

korelacije između zadatka i ukupnog rezultata iz kojega je isključen udio zadatka koji analiziramo

(tj. zbroji se ukupni rezultat u testu bez tog zadatka). Korekciju je moguće provesti i računski

uporabom sljedeće formule:

iupbiu

iupb

nesppb

r

rr

22)(

rpb = spuriozna point-biserijalna korelacija zadatka i ukupnog rezultata u testu

σi = standardna devijacija zadatka

σu = standardna devijacija ukupnih rezultata u testu

Efekt spurioznosti bit će to veći što je manji broj zadataka u testu, tj. što je veći relativni udio

varijance zadatka u varijanci ukupnih rezultata. Kod većeg broja zadataka (npr. 20 i više) razlika

između spurioznih i korigiranih koeficijenata postaje zanemariva.

7.2.1.3. Biserijalni koeficijent korelacije

Kao mjera diskriminativne valjanosti zadatka može se koristiti i neki od koeficijenata biserijalne

korelacije. Za slučaj zadatka izraženog kao dihotomna varijabla može se izračunati biserijalni

koeficijent korelacije kao mjera povezanosti zadatka i mjere konstrukta. Ovaj koeficijent računa se

između jedne umjetno dihotomizirani varijable (što uradak u zadatku u pravilu jest) i druge

varijable čiji su rezultati izraženi na kontinuiranoj ljestvici (što je najčešće slučaj s ukupnim

rezultatom u testu). Ovaj koeficijent nudi procjenu korelacije između dihotomne i kontinuirane

varijable koju bismo dobili da je dihotomna varijabla preciznije odmjerena tj. da su njezini rezultati

normalno distribuirani i izraženi na kontinuiranoj ljestvici. Izraz za biserijalni koeficijent korelacije

glasi:

rM M p

yb

p t

t

Mp - M ukupnih rezultata ispitanika koji su riješili zadatak

Mt - M ukupnih rezultata za sve ispitanike

32

y - visina ordinate normalne distribucije uz opaženi p

Ovaj koeficijent će za razliku od point-biserijalnog za lake i teške zadatke rezultirati većom

korelacijom s kriterijem. Nedostatak ovog koeficijenta jest što on u osnovi predstavlja procjenu

povezanosti i nema karakteristike Pearsonovog koeficijenta korelacije.

7.2.1.4. Fi koeficijent

Sljedeća mogućnost izračunavanja povezanosti zadatka i mjere konstrukta koja može umanjiti

posljedice asimetrije jest dihotomizacija ukupnog rezultata te izračunavanje fi-koeficijenta kao

mjere povezanosti između dvije dihotomne varijable (uratka u zadatku i uratka u testu).

Dihotomizacijom ukupnog rezultata gubi se dio informacija koje nam nude individualni ukupni

rezultati, ali se s druge strane umanjuje efekt asimetrije kod lakih i teških zadataka. Ispitanike se

prema ukupnom uratku u testu može podijeliti u dvije skupine npr. na osnovi medijana ili s obzirom

na aritmetičku sredinu u iznadprosječne i ispodprosječne ispitanike. U tom slučaju se za svaki

zadatak ispitanici podjele u četiri podskupine A, B, C i D kao što je to prikazano u sljedećoj tablici.

uradak u testu

1 -iznadprosječni

u testu

0 - ispodprosječni

u testu

uradak

u

zadatku

1- točno riješili

zadatak

A B

0 - netočno riješili

zadatak

C D

Fi koeficijent se može izračunati na osnovi sljedećeg izraza:

))()()((

)()(

DBCADCBA

BCAD

Fi koeficijent se inače koristi za određivanje povezanosti između dvije stvarno dihotomne varijable

ili ih se može opravdano dihotomizirati. Predznak ovoga koeficijenta može se odrediti naknadno, na

osnovi uvida u strukturu 2x2 tablice. Fi koeficijent je računski ekvivalentan Pearsonovom

koeficijentu korelacije kada bismo ga izračunali na dvije dihotomne varijable. I ovdje je jasno da će

redukcija varijabiliteta imati utjecaja na veličinu dobivenih koeficijenata korelacije u odnosu na

situaciju kada bismo te varijable imali izmjerene kao kontinuirane.

33

7.2.1.5. Tetrahorički koeficijent korelacije

U slučaju kada smo uradak u testu dihotomizirali korelacija između uratka u zadatku (dihotomno

izraženog) i tako dihotomiziranog rezultata u testu može se izračunati primjenom tetrahoričkog

koeficijenta korelacije. Ovaj koeficijent se koristi kao mjera povezanosti dvije umjetno

dihotomizirane varijable (za koje se može pretpostaviti da ih je moguće izmjeriti na kontinuiranim

ljestvicama) i nudi procjenu povezanosti među tim varijablama koju bismo dobili da su te dvije

varijable bile izmjerene metrički superiornije, tj. na kontinuiranim ljestvicama. Izračunavanje ovog

koeficijenta je složeno, a jedna računska aproksimacija za izračunavanje tetrahoričkog koeficijenta

glasi:

BC

ADr

o

tet

1

180cos

A,B,C,D su frekvencije dobivene u tablici kontingencije u kojoj je prikazan odnos dvije dihotomne

varijable.

U pravilu ovim koeficijentom dobivamo veće vrijednosti u odnosu na one izračunate na osnovi fi-

koeficijenta. Pojedini autori sugeriraju da bi bilo korisne i korelacije među dihotomnim zadacima u

testu izračunati uporabom ovoga koeficijenta.

7.2.2. Analiza diskriminativne valjanosti na osnovi linije traga ili karakteristične krivulje

zadatka

Karakteristična krivulja zadatka predstavlja grafički prikaz odnosa između razvijenosti predmeta

mjerenja i uratka u zadatku. Skoro svi modeli skaliranja ispitanika mogu se opisati različitim

tipovima krivulja koje povezuju mjereni atribut (konstrukt) s nekom mjerom uratka u zadatku.

Ovakva krivulja uobičajeno se naziva linija traga zadatka ili karakteristična krivulja zadatka.

Ukoliko u dvodimenzionalnom koordinatnom sustavu grafički prikažemo proporciju točnih ili

indikativnih odgovora u zadatku (ordinata) za skupine ispitanika s različito razvijenim mjerenim

atributom (apscisa) dobit ćemo krivulju koja je najčešće monotona rastuća krivulja S-oblika. Na

dovoljno velikom uzorku moguće je podijeliti apscisu, tj. kontinuum s mjerenom osobinom, koji je

najčešće standardiziran, tako da pokrijemo interval od npr. -3z do +3z. Ovakva krivulja dobivena za

jedan zadatak obično se naziva empirijska karakteristična krivulja zadatka ili empirijska funkcija

odgovora na zadatak. Ukoliko uradak ispitanika u zadatku raste na neki monoton način s porastom

ukupnog uratka u zadatku to ukazuje da zadatak mjeri, barem u nekom stupnju, isti konstrukt koji se

mjeri cijelim testom. Analiza karakteristične krivulje zadatka može biti vrlo korisna autoru testa pri

utvrđivanju diskriminativne valjanosti zadatka osobito u slučajevima kada odnos nije linearan. Tako

npr. neki zadatak može biti nediskriminativan za sve ispodprosječne i prosječne ispitanike, a dobro

diskriminirati samo najbolje ispitanike u testu. Na donja dva grafikona lijevi zadatak ima

prihvatljivu krivulju zadatka koja pokazuje da proporcija točnih odgovora u zadatku raste u funkciji

povećanja ukupnog rezultata u testu. Krivulja zadatka prikazana na desnom grafikonu sugerira

nelogično smanjenje uratka u testu kod ispitanika koji su nešto iznad prosjeka prema ukupnom

34

rezultatu. Iako bi ovaj zadatak čak mogao imati pozitivnu korelaciju s ukupnim rezultatom ovakva

krivulja ukazuje na potrebu za revizijom sadržaja zadatka.

Slika 1. Primjer empirijskih karakterističnih krivulja zadataka

7.2.3. OSTALE MJERE DISKRIMINATIVNE VALJANOSTI

U ovu skupinu uvrstili smo različite postupke mjera diskriminativne valjanosti koji mogu biti korisni u

različitim uvjetima analize zadataka.

7.2.3.1. Izračunavanje diskriminativne valjanosti zadatka uporabom indeksa

diskriminativnosti

Neki autori predlažu indeks diskriminativnosti koji se može računati samo na dihotomnim

zadacima. Ispitanike prema ukupnom rezultatu moramo dihotomizirati prema nekom kriteriju

(najčešće prema ukupnom rezultatu u testu), tako da imamo skupinu uspješnih ili iznadprosječnih i

skupinu neuspješnih ili ispodprosječnih. Indeks se računa na sljedeći način:

D = (pu - pl)100

pu = proporcija točnih odgovora u zadatku u skupini iznadprosječnih u testu

pl = proporcija točnih odgovora u zadatku u skupini ispodprosječnih u testu

Na osnovi logike gornjeg izraza ukoliko su svi iznadprosječni testu riješili zadatak, a u skupini

ispodprosječnih ga nije riješio nitko indeks će poprimiti vrijednost 100. Tu ukazuje na visoko

diskriminativan zadatak. U slučaju da je proporcija uspješnih u zadatku podjednaka u obje skupine

indeks će biti blizak nuli i ukazivati na nepovezanost zadatka s ukupnim rezultatom u testu. Indeks

diskriminativnosti može teorijski varirati u rasponu od -100 do +100. Pojedini autori izostavljaju

množenje sa 100 tako da indeks u tom slučaju varira od -1 do +1.

0,08

0,31

0,75

0,92

0

0,2

0,4

0,6

0,8

1

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2

p

ukupni rezultat

zadatak 1:

0,15

0,69

0,33

0,92

0

0,2

0,4

0,6

0,8

1

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2

p

ukupni rezultat

zadatak 8:

35

Ebel (1960, prema Crocker i Algina) predlaže sljedeće vrijednosti indeksa diskriminativnosti:

D prikladnost zadatka

D ≥ 40 zadatak ima zadovoljavajuću diskriminativnost

30 ≤ D ≤ 39 zadataka zahtjeva manju ili nikakvu reviziju

20 ≤ D ≤ 29 zadatak ima graničnu diskriminativnu valjanost i

zahtjeva reviziju

D ≤ 19 zadatak treba isključiti ili zahtjeva potpunu reviziju

Iako je jednostavan za izračunavanje ovaj indeks nema poznatu distribuciju, pa nema mogućnosti za

provjeru hipoteze da je D značajno različiti od nule ili provjere koji je od dva zadatka statistički

značajno diskriminativniji.

7.2.3.2. Provjera diskriminativne valjanosti zadatka analizom varijance

Tehnikama analize varijance možemo pokušati provjeravati slične hipoteze o funkcioniranju

zadatka koje smo analizirali do sada. Ukoliko za ispitanike koji su točno riješili neki binarni zadatak

i za one koji ga nisu riješili izračunamo aritmetičku sredinu njihovih ukupnih rezultata u testu

očekivali bismo da se te dvije vrijednosti statistički značajno razlikuju.

M - ukupnih rezultata SD ukupnih rezultata N

1= točno riješili

zadatak M= 23,16 6,32 122

0 = nisu riješili

zadatak M= 19,43 5,24 86

7.2.3.3. Prosječna korelacija zadatka s preostalim zadacima u testu

Prosječna korelacija između analiziranog zadatka i svih preostalih zadataka u testu također ukazuje

na činjenicu da zadatak ima isti predmet mjerenja kao i ostali zadaci. Richardson je još 1936.

pokazao da u uvjetima paralelnih testova barem približno vrijedi odnos:

2

iuij rr ,

36

odnosno prosječna korelacija jednog zadatka s ostalima (izračunata na osnovi fi-koeficijenta)

približno je jednaka kvadratu korelacije između zadatka i ukupnog rezultata u testu (izračunatog na

osnovi point-biserijalnog koeficijenta korelacije). Suvremena računala bez poteškoća mogu

izračunati ovaj parametar koji ranije nije često korišten zbog zahtjevnog opsega posla.

7.2.3.4. Varijanca u zadatku koju objašnjavaju preostali zadaci u testu - multipla korelacija

Jedan od ciljeva analize zadatka jest utvrditi mjeri li zadatak isti konstrukt koji mjere ostali zadaci u

testu. Odgovor na to pitanje može pružiti multipla korelacija izračunata između testovnih zadataka

korištenih sa statusom prediktorskih varijabli i analiziranog zadatka kao kriterija. Kvadrat multiple

korelacije u tom slučaju ukazuje na postotak varijance u zadatku koji je moguće objasniti na osnovi

svih ostalih zadataka u tom testu. Što je taj postotak veći proizlazi da zadatak u većem stupnju mjeri

konstrukt koji mjere preostali zadaci u testu. Ova procedura može biti pristrana ili neprikladna u

određenim slučajevima kada je test sačinjen od velikog broja zadataka ili su zadaci binarni što

narušava pretpostavke za izračunavanje multiple korelacije.

7.2.4. Pristupi određenju diskriminativne valjanosti s obzirom na određenje mjere

razvijenosti konstrukta

S obzirom na kriterij koji se koristi kao mjera razvijenosti konstrukta, možemo razlikovati nekoliko

pristupa. U idealnom slučaju svaki zadatak bilo bi poželjno povezati s pravim rezultatom ispitanika

na zadanom konstruktu, ali kako to nije moguće u većini slučajeva kao mjeru razvijenosti

konstrukta koristimo ukupni rezultat u testu čije zadatke analiziramo. Drugi pristup određenju

kriterija može biti izračunavanje kriterijskog rezultata kao latentne varijable, pri čemu najčešće

koristimo faktorske mjere konstrukta. U ovom slučaju rezultat u kriteriju predstavlja neku

matematičku definiciju korištenih zadataka na osnovi zadanog algoritma. Pored toga moguće je kao

mjeru konstrukta koristiti i neku vanjsku varijablu.

7.2.4.1. Ukupni rezultat u testu kao mjera konstrukta

Najčešća dostupna mjera razvijenosti konstrukta jest rezultat koji ispitanici ostvaruju u testu u

kojemu se nalazi zadatak čiju valjanost analiziramo. On je valjan u onoj mjeri u kojoj su to i zadaci

od kojih je sačinjen, a čiju diskriminativnu valjanost želimo provjeriti. U tom slučaju treba biti

oprezan s uporabom ukupnog rezultata kao mjere konstrukta. Hipotetski, u skupu zadataka niske

valjanosti i ukupni rezultat bit će loša mjera konstrukta te pojedini valjani zadaci unutar testa mogu

imati skromne korelacije s ukupnim rezultatom jer sam ukupni rezultat nije dobra mjera ciljanog

konstrukta. Ipak u većini slučajeva ukupni rezultat je jedina dostupna mjera konstrukta pri procjeni

diskriminativne valjanosti zadataka.

37

7.2.4.2. Određivanje diskriminativne valjanosti izračunavanjem korelacije zadatka pod

faktorskim modelom

Faktorska analiza vrlo često se koristi kao postupak za provjeru valjanosti kompozitnog mjernog

instrumenta. Pri tom se nastoji utvrditi manji broj latentnih varijabli ili faktora koji omogućuju

objašnjenje povezanosti među manifesnim varijablama, odnosno u ovom slučaju zadacima. Na

osnovi broja značajnih ekstrahiranih faktora zaključujemo o broju latentnih dimenzija koje se nalaze

u osnovi uratka u testovnim zadacima. Ukoliko je autor krenuo od pretpostavke o

jednodimenzionalnom predmetu mjerenja, tj. jednom konstruktu koji je u osnovi uratka u zadacima

onda bi faktorska analiza trebala rezultirati jednim generalnim faktorom.

Na osnovi korelacija između zadataka i faktora zaključujemo o zasićenosti svakog pojedinog

zadatka faktorom odnosno hipotetskim predmetom mjerenja. Polazeći od pretpostavke o jednom

faktoru autor bi u konačnu verziju testa birao zadatke s najvećim korelacijama s generalnim

faktorom, a one zadatke koji ne koreliraju s njim ili koreliraju s nekim drugim sadržajno

irelevantnim faktorom/faktorima izbacio bi iz testa. Uobičajeno se korelacije manifesnih varijabli i

faktora veće od 0,3 smatraju relevantnim prilikom interpretacije odnosa varijabli i faktora.

Tablica 3. Matrica faktorske strukture

Komponenta

1 2 3

P1 0,779 0,011 0,184

P2 0,659 -0,145 -0,034

P3 0,636 -0,124 -0,163

P4 0,633 -0,124 0,463

P5 0,624 -0,011 0,294

P6 0,101 0,893 0,018

P7 0,224 0,872 -0,052

P8 0,547 -0,063 0,216

U slučaju da faktorska struktura rezultira s dva značajna faktora autor se može odlučiti da test

podijeli u dva dijela (subskale, subtesta) i svaki dio interpretira zasebno. Ovakva odluka najčešće

podrazumijeva i reviziju teorijskog polazišta od kojeg se krenulo u izradu testa.

7.2.4.3. Uporaba vanjskog kriterija kao mjere konstrukta

U pojedinim slučajevima kada raspolažemo uratkom ispitanika u nekoj drugoj vanjskoj varijabli

koja predstavlja razvijenost konstrukta diskriminativna valjanost može se procjenjivati korelacijom

38

zadatka s tom vanjskom varijablom. To npr. može biti neki drugi test koji mjeri isti konstrukt, a koji

ima poznatu i prihvatljivu pouzdanost i valjanost.

7.2.5. Mjere diskriminativne valjanosti izračunate na ekstremnim ili ciljanim skupinama

ispitanika

U određenim slučajevima provjera diskriminativne valjanosti zadatka ne provodi se na cjelokupnom

uzorku već na manjem broju ispitanika odabranih najčešće s obzirom na razvijenost konstrukta. Ti

postupci povećavaju vjerojatnost pojave diskriminativne valjanosti kod zadataka kad se izbace

ispitanici kod kojih je konstrukt prosječno razvijen. Uobičajeno se na osnovi uratka u testu odabire

27% ispitanika s najvišim rezultatom i 27% ispitanika s najnižim rezultatom dok se ostali ispitanici

isključuju iz analize. 27% se odabire jer je to točka infleksije normalne distribucije, tj. mjesto gdje

krivulja mijenja oblik. Mogu se naravno koristiti i drugi kriteriji određivanja ekstremnih skupina.

Na ovako selekcioniranim skupinama mogu se koristiti gotovo svi do sada spomenuti koeficijenti, a

navest ćemo neke od mogućih postupaka:

Primjer: Izračunavanje diskriminativne valjanosti zadatka uz uporabu fi koeficijenta na osnovi

uratka u dihotomnom zadatku i ispitanika dihotomiziranih u ekstremne skupine s obzirom na

ukupni rezultat u testu. Ispitanike se podijeli u dvije ekstremne skupine uz npr. kriterij 27%

najboljih i 27% najlošijih prema ukupnom testovnom rezultatu.

Za svaki zadatak formira se tablica koja sadrži sljedeće informacije te se zatim izračuna fi-

koeficijent.

uradak u testu

1 – ekstremno

uspješni u testu

0 – ekstremno

neuspješni

u testu

uradak u

zadatku

1- točno riješili

zadatak

A B

0 - netočno

riješili zadatak

C D

U pojedinim slučajevima nužan je oprez prilikom određivanja tzv. ekstremnih skupina. U slučaju

kada imamo uzorak ispitanika koji su već selekcionirani prema nekoj osobini (npr. ispitanici s

visoko razvijenim sposobnostima) njihovom podjelom na osnovi uratka u testu na 27% najboljih i

27% najlošijih u osnovi nećemo dobiti stvarne ekstremne skupine već samo ispitanike s relativno

boljim i lošijim uratkom u tom testu. U tom slučaju bilo bi dobro uzeti rezultate apriori određenih

39

skupina za koje imamo očekivanje ili obrazloženje da su uistinu ekstremni ili barem vrlo različiti s

obzirom na mjereni konstrukt.

Pored ekstremnih skupina autori pri analizi mogu odabrati ciljane skupine ispitanika koje se

razlikuju prema nekim obilježjima relevantnim za proces koji se želi izazvati zadatkom Tako se

mogu koristiti skupine ispitanika koje pripadaju različitim dijagnostičkim kategorijama, dobnim ili

obrazovnim skupinama i sl.

Završno o analizi zadataka

Iskustvo pokazuje da u većini situacija različiti indikatori diskriminativne valjanosti rezultiraju

uglavnom sukladnim informacijama. Ovisno o karakteristikama varijabli autor mora odabrati

statistički prikladne statističke parametre no u većini slučajeva rang poredak zadataka određen na

osnovi različitih indikatora diskriminativne valjanosti podudara se u visokom stupnju.

Izdvojit ćemo neke faktore koji mogu sustavno utjecati na procjene diskriminativne valjanosti.

Jedan izvor pristranosti može biti sadržan u utjecaju vremenskog ograničenja na uradak u zadacima.

Proporcija ispitanika koji su točno riješili zadatak u većini slučajeva opada kako se približava kraj

testa. Naime pojedini ispitanici ne stižu zbog kratkog vremena posvetiti dovoljno vremena

zadacima koji su pri kraju testa što onda proizvodi njihovu veću težinu, manju varijancu i manju

diskriminativnu valjanost. Stoga je moguće da procjene karakteristika zadataka pri kraju testa u

slučaju prekratkog raspoloživog vremena mogu biti pristrane. Logički ako svi ispitanici ne stižu do

kraja analiza pojedinih zadataka zasniva se na različitim uzorcima. Nepokušane zadatke nije uvijek

opravdano tretirati kao netočno riješene budući da se na taj način u određenim slučajevima umjetno

povećava diskriminativna valjanost zadataka. Kod testova brzine, odnosno testova kod kojih utjecaj

brzine može imati utjecaja treba razmotriti prikladnost standardne procedure analize zadataka.

Drugi faktor o kojemu treba voditi računa jest mogućnost slučajnog pogađanja u zadatku. Već smo

naglasili utjecaj pogađanja na procjene težine zadatka, ali jednako je ozbiljan problem vezan i uz

osjetljivost. Naime kod zadataka otvorenog tipa kod kojih se uradak boduje s 0 ili 1 varijancu u

pravilu generira razvijenost konstrukta kod ispitanika. Međutim kod zadataka s ponuđenim

odgovorima točan odgovor može proizlaziti iz razvijenosti konstrukta ali i uslijed slučajnog

pogađanja. U tom slučaju jedan dio varijance otpada na pogrešku i posredno umanjuje sve mjere

korelacije zadatka s drugim varijablama. Općenito koeficijenti valjanosti zadataka u tom su slučaju

umanjeni za stupanj slučajnog pogađanja u zadatku. Rezultati pokazuju da se također povećanjem

težine zadatka povećava i faktor slučajnog pogađanja. Implikacije na analizu zadataka su da kod

teških testova gdje je pogađanje izraženo imamo i manje pouzdan ukupni rezultat u testu u odnosu

na koji koreliramo uradak u zadacima. Plumlee (prema Guilford, 1954) navodi da zadaci s pet

ponuđenih alternativa u pravilu imaju niže koeficijente valjanosti od zadataka otvorenog tipa za

približno 0,08. Isto tako dihotomno bodovani zadaci imat će niže koeficijente od zadataka u kojima

je moguć veći raspon rezultata, tj. čija je varijanca veća. Pojedini autori u ovakvim situacijama

sugeriraju uporabu korekcije zbog slučajnog pogađanja ili korištenje ekstremnih grupa pri analizi,

ali je važnije da autori prilikom usporedbe diskriminativne valjanosti zadataka uzimaju u obzir

karakteristike zadataka i uvjete primjene testa prilikom evaluacije dobivenih parametara.

40

7.3. Analiza distraktora i netočnih odgovora

Prilikom analize zadatka korisno je razmotriti raspon i strukturu odgovora koje ispitanici navode ili

odabiru (kod zadataka s višestrukim ponuđenim odgovorima). Naime u najvećem broju informacija

korisnik testa uzima u obzir informacije koje proizlaze iz točnih ili predviđenih odgovora, dok se

svi ostali odgovori smatraju netočnim i posebno ne analiziraju. Ponekad je korisno, osobito tijekom

razvoja testa, detaljnije analizirati sve odgovore koji ispitanici navode na pojedino pitanje. Kod

zadataka otvorenog tipa to je često puta nužnost jer je pri korekciji nužno za svaki odgovor

prosuditi je li prihvatljiv, odnosno je li u skladu s odgovorom predviđenim u ključu za bodovanje.

Ukoliko se pojedini netočni odgovor javlja učestalo vrijedi razmotriti postoji li mogućnost da je

odgovor u cijelosti ili dijelom prihvatljiv, ali ga autor nije predvidio tijekom izrade ključa za

bodovanje. Moguće je u takvim slučajevima analizirati može li jezična konstrukcija pitanja dovesti

do drugačijeg razumijevanja pitanja od onoga koje je autor originalno zamislio. Kod testova znanja

ili postignuća korisno je razmotriti postoji li neki izvor informacije koji sadrži netočnosti ili se radi

o propustima tijekom nastave koji su doveli do pojave nepredviđenih odgovora u značajnoj

proporciji. Sve ovo je posebno važno u slučaju kad se kod ispitanika s visokim rezultatom u testu

učestalo javljaju ovakvi odgovori.

Kod zadataka s višestrukim ponuđenim odgovorima ova vrsta analize je korisna, a dijelom i

jednostavnija zbog ograničenog broja mogućih odgovora. Kod takvih zadataka autor mora voditi

računa o kvaliteti ponuđenih odgovora koji se nude uz točan odgovor. Ti netočni odgovori nazivaju

se distraktori (tj. odgovori koji trebaju zavesti ispitanika, „ometači“). Jedan oblik analize jest

provjera učestalosti izbora pojedine od ponuđenih opcija.

Npr. u jednom zadatku s pet ponuđenih odgovora ispitanici su sljedećom učestalošću birali svoje

odgovore.

Odgovor A 16%

Odgovor B (točan odgovor) 44%

Odgovor C 4%

Odgovor D 16%

Odgovor E 18%

Iz tablice se vidi da su ispitanici u najvećoj mjeri birali točan odgovor. U slučaju da se točno

rješenje u ovom zadatku boduje s 1 ili 0 bodova, indeks lakoće zadatka iznosit će p=0,44. Poželjno

bi bilo da ostale odgovore ispitanici biraju s podjednakom učestalošću. U navedenom primjeru očito

41

je da odgovor C nije jednako atraktivan jer ga bira svega 4% ispitanika. Ovu opciju bilo bi korisno

zamijeniti nekom atraktivnijom opcijom koju će ispitanici smatrati vjerojatnijom. Ukoliko ispitanik

ne zna odgovor u tom slučaju lako eliminira opcije koje su malo vjerojatne te time povećava

vjerojatnost da pogađanjem odabere točan odgovor.

U psihometrijskoj literaturi mogu se pronaći pokušaji da se iz analize odabira krivih odgovora

izvuku određene informacije o razvijenosti predmeta mjerenja kod ispitanika, te nekim njihovim

drugim karakteristikama. Pokazalo se da u određenim slučajevima informacija o tome koju je od

krivih opcija ispitanik odabrao nudi neku informaciju o razvijenosti konstrukta. Naime, u sljedećem

primjeru zadano je pitanje

Navedite glavni grad Nizozemske.

a ponuđene opcije su:

a) Amsterdam, b) Rotterdam, c) Den Haag, d) Antwerpen, e) Kopenhagen.

Ukoliko ispitanik ne zna odgovor pokušat će analizirati koji su odgovori najvjerojatniji. Za

očekivati je da ispitanici koji bi u ovom slučaju odabrali odgovor b) Amsterdam vjerojatno imaju

veću razvijenost poznavanja zemljopisa od ispitanika koji bi u ovom slučaju birali odgovore d) i e)

jer se radi o gradovima koji uopće nisu u Nizozemskoj. Pojedini autori čak sugeriraju modele u

kojima bi se pojedine krive opcije umjesto s nula bodova honorirale s nekim nenultim ponderom

(Andrich, 2011.).

Analiza ovog tipa može uključivati analizu karakteristične krivulje zadatka ali za svaku od

pojedinih krivih opcija, jednako kao što se to čini za opciju koja predstavlja točan odgovor. Cilj

analize jest vidjeti koliko često ispitanici koji se razlikuju prema ukupnom rezultatu u testu biraju

npr. opciju A. Ukoliko zadatak ima zadovoljavajuću diskriminativnu valjanost za očekivati je da će

ta krivulja imati monotoni opadajući oblik, tj. da će najlošiji ispitanici birati razmjerno najčešće

opciju A, prosječni ispitanici manje često, a najbolji ispitanici najrjeđe. Ovakve krivulje moguće je

nacrtati za svaku od ponuđenih opcija. U slučajevima kada je oblik krivulje nelogičan korisno je

provesti detaljniju analizu, npr. u slučajevima kada najbolji ispitanici neku netočnu opciju ili

distraktor biraju češće od najlošijih ispitanika. Pored toga može se izračunati neka mjera

povezanosti (npr. koeficijent point-biserijalne korelacije) između odabira pojedine opcije i uratka u

cijelom testu slično kao što se računa koeficijent diskriminativne valjanosti zadatka. U ovom

slučaju se svima koji su odabrali npr. opciju A (koja predstavlja netočan odgovor) prida jedan bod,

a svi ostali odgovori (uključujući i točan odgovor) boduju se s nula bodova. Ponavljajući ovaj

postupak mogu se izračunati korelacije između odabira svakog od distraktora u zadatku i ukupnog

uratka ili nekog relevantnog kriterija. Analiza distraktora može autoru testa pružiti korisne

informacije o procesima koje kod ispitanika izazivaju pojedini zadaci, te se te informacije mogu

uključiti u njihovo poboljšanje.

Slika 2. Primjer analize odgovora na zadatke s višestrukim ponuđenim odgovorima

42

Item 3 3 Rit = 0,51

A* (43)

B (44)

C (10)

D (2)

Perc

enta

ge

Score GroupsSubgroup 0 -- Subtest 0 (Missings)

0

20

40

60

80

100

1 2 3 4

Item 37 28,1 Rit = -0,13

A (5)

B (37)

C (46)

D (3)

E* (9)

Perc

enta

ge

Score GroupsSubgroup 0 -- Subtest 0 (Missings)

0

20

40

60

80

100

1 2 3 4

Na lijevom grafikonu prikazan je postotak odabranih odgovora za svaki od četiri ponuđena

odgovora u zadatku u funkciji ukupnog rezultata prikazanog na apscisi. Ispitanici su podijeljeni u 4

skupine s obzirom na njihov ukupni rezultat u testu u kojemu se nalazi taj zadatak. Kao što se može

vidjeti krivulja koja opisuje postotak ispitanika koji su birali odgovor A (koji predstavlja točan

odgovor u ovom zadatku) raste s porastom ukupnog rezultata koji su ispitanici ostvarili u testu.

Ostale tri krivulje pokazuju da se broj ispitanika koji su birali neki od tri netočna odgovora smanjuje

u funkciji porasta ukupnog rezultat u testu. Ovakva struktura odgovora ukazuje da zadatak i

ponuđeni odgovori uglavnom dobro funkcioniraju iako se može uočiti da sve tri netočne opcije nisu

jednako atraktivne ispitanicima. Korelacija zadatka s ukupnim uratkom u testu iznosi 0,51.

Na desnom grafikonu prikazana je slična analiza zadatka s 5 ponuđenih odgovora. Iz analize se

može vidjeti da je postotak ispitanika koji biraju odgovor koji je predviđen kao točan vrlo niska i

što je još važnije autoru, krivulja koja opisuje postotak ispitanika koji biraju točan odgovor

(odgovor E) ne raste u funkciji porasta ukupnog rezultata u testu. To znači ispitanici koji imaju

relativno najveći broj bodova u testu nisu uspješniji u ovom zadatku od ispitanika koji imaju mali

broj bodova u testu. Krivulje koje opisuju postotak odabira ostale četiri opcije pokazuju da odabir

odgovora B raste u funkciji porasta ukupnog rezultata u testu. Autori moraju analizirati razloge

zbog čega bolji ispitanici biraju odgovor koji nije predviđen kao točan. Inače korelacija ovog

zadatka s ukupnim rezultatom u testu iznosi -0,13 i ukazuje na lošu diskriminativnu valjanost

zadatka, a iz grafikona se može zaključiti koji su razlozi.

7.4. Analiza različitog funkcioniranja zadataka

Vjerojatnost točnog odgovora u zadatku u prvom redu mora ovisiti o razvijenosti konstrukta koji taj

zadatak mjeri, odnosno to je jedini teorijski faktor za koji se očekuje da utječe na uspješnost

ispitanika u zadatku. Ukoliko pored predmeta mjerenja na uradak djeluju i neki drugi faktori

povezani s karakteristikama ispitanika ili karakteristikama skupine koje rješava zadatak onda se

javlja problem različitog funkcioniranja zadatka (eng. DIF - differential item functioning).

Ukoliko se prilikom analize utvrde razlike u uratku u zadatku između skupina različitih prema

nekom obilježju poput spola (muškarci i žene), dobi (mlađi i stariji), veličini mjesta boravka (mala i

velika mjesta) ili nekom drugom relevantnom obilježju za koje raspolažemo s podacima potrebno je

analizirati moguće uzroke tih razlika. Ukoliko se može dokazati da razlika proizlazi iz činjenice da

43

se analizirane skupine razlikuju prema predmetu mjerenja i da je to razlog njihova različitog uratka

u zadatku problem u osnovi ne postoji. Npr. ukoliko teorijske spoznaje i empirijski podaci ukazuju

da se muškarci i žene razlikuju prema nekom konstruktu onda je očekivano da i testovni zadaci

ukazuje na tu razliku. Međutim ukoliko autor nema spoznaje o očekivanim razlikama između grupa

na analiziranom konstruktu moguće je da se radi o problemu različitog funkcioniranja zadatka.

Prema Standardima za psihološko i pedagoško testiranje različito funkcioniranje zadataka postoji

kada se ispitanici jednakih sposobnosti, razlikuju u prosjeku prema svojim odgovorima u zadatku

ovisno o grupnoj pripadnosti (APA, 1999.). Kada se otkrije različito funkcioniranje zadataka, autor

testa pokušava pronaći plauzibilno objašnjenje razlika te utvrditi uzroke tih razlika. Kada

vjerodostojna istraživanja pokazuju različito funkcioniranje zadataka u području mjerenom testom

za dobne, spolne, rasne, etničke, kulturalne, lingvističke i/ili skupine osoba s invaliditetom, autor

testa dužan je, čim je to moguće, provesti odgovarajuća ispitivanja. Takva ispitivanja trebaju

nastojati otkriti i odstraniti one aspekte uređenja, sadržaja i oblika testa koji mogu biti izvor njegove

pristranosti za različite skupine ispitanika.

U slučaju da se utvrdi da su uzroci razlika irelevantni za konstrukt koji se testom mjeri autor tada

može/mora zamijeniti ili preurediti čestice koje dovode do grupnih razlika. Određenje irelevantnosti

uzroka u odnosu na konstrukt podrazumijeva detaljnu teorijsku elaboraciju predmeta mjerenja te

područja sadržaja. Naime pojedini faktori mogu biti visoko povezani s određenim karakteristikama

grupe te ih nije moguće razmatrati odvojeno. U tom slučaju autor mora računati da je mjera

zadanog konstrukta povezana s nekim stabilnim karakteristikama ispitanika koje nije razložno

odvajati niti kontrolirati.

Ponekad se termin »pristranost zadatka» koristi kao sinonim za “različito funkcioniranje zadatka”.

Termin «pristran» ima često pejorativno značenje koje ne mora uvijek biti opravdano. Nunnally

(1994.) smatra da je izraz “pristran” opravdan samo u određenim slučajevima budući da u

pojedinim situacijama postojanja različitog funkcioniranja zadatka nije uvijek moguće utvrditi što je

uzrok bez jasnih kriterija ili dokazane pretpostavke o jednakim sposobnostima pripadnika dviju

populacija. Ova dva termina su srodni, ali se različito funkcioniranje može odrediti kao širi pojam.

Tako u određenim slučajevima očekujemo različito funkcioniranje zadatka jer je konzistentno s

razlikama ispitanika na mjerenom konstruktu i može biti od šireg teorijskog i istraživačkog interesa,

ali ne ukazuje na pristranost, odnosno ne zahtijevaju intervenciju u sadržaj testa. Pristranost (bias) u

statističkom smislu predstavlja sustavnu pogrešku u testovnom rezultatu.

Pristranost se može odnositi na slabu reprezentativnost ili na postojanje nekih aspekata testovnih

rezultata irelevantnih za konstrukt koji test mjeri a koji na različiti način utječu na uradak različitih

skupina ispitanika (APA, 2004.). Činjenica da određeni zadaci u testu mogu biti pristrani u korist ili

na štetu neke određene grupe, može postati problem za ispitanike, korisnike testa, kao i za sve

ostale koji se koriste testovnim rezultatima. Iako ovaj problem dugo postoji, donedavno je bilo malo

slaganja o definiciji pristranosti testova i zadataka, pa su i metode za njihovo utvrđivanje bile

nedovoljno razvijene.

U okviru klasične teorije testova različito funkcioniranje zadataka može se odrediti u slučaju kada

ispitanici iz različitih populacija, za koje se može dokazati da se ne razlikuju prema razvijenosti

44

mjerenog konstrukta, imaju različitu uspješnost uratka u zadatku. Ovaj problem može se detektirati

i analizirati u okviru klasične teorije testova i u okviru modela teorije odgovora na zadatke (IRT).

Jedan zadatak može biti teži, diskriminativniji ili rezultirati većom tendencijom slučajnom

pogađanju za jednu grupu u odnosu na drugu grupu.

U okviru klasičnih pristupa razvijeno je više procedura za utvrđivanje različitog funkcioniranja

zadatka ili pristranosti zadatka. Najjednostavniji pristup jest testirati razliku u uratku u jednom

zadatku za pripadnike skupina koja se ne razlikuju prema ukupnom testovnom rezultatu (odnosno

skupina između kojih ne postoji razlika u razvijenosti konstrukta koji se nastoji zadatkom izmjeriti).

Uobičajena statistička metoda kojom se testira različito funkcioniranje zadatka je tzv. Mantel-

Haenszelov postupak. Za binarne zadatke prikladna je i uporaba logističke regresijske analize.

Ukoliko je moguće na osnovi uratka u zadatku (zadacima) predviđati neku kriterijsku varijablu

(npr., spol) to može ukazivati na pristranost zadat(a)ka ili problem različitog funkcioniranja.

Posljedice pristranost pojedinih zadataka mogu značajno utjecati na valjanost izvedenih zaključaka

na osnovi testovnih rezultata. Zamislimo test koji se sastoji od 20 zadataka i mjeri atribut prema

kojemu se populacije muškaraca i žena ne razlikuju, ali na 3 zadatka nalazimo razliku prema spolu

budući su ti zadaci pristrani. Posljedica može biti da ćemo i prema prosječnim testovnim

rezultatima utvrditi razliku između muškaraca i žena.

Ovaj problem osobito je važan pri situacijama selekcije u kojima pripadnici pojedinih populacija

imaju veću šansu za uspjeh iako to ne bi trebao biti slučaj na osnovi razvijenosti konstrukta.

7.5. Procedura izbora zadataka

Na osnovi informacija prikupljenih analizom zadataka potrebno je izvršiti odabir zadataka za

konačnu verziju testa, odnosno odabrati zadatke koji će sačinjavati test s nekim poželjnim

psihometrijskim svojstvima. Proces izbora zadataka je dinamičan i uključuje ponavljanje

izračunavanja pojedinih parametara zadataka nakon izbacivanja svakog pojedinog zadatka ili

skupine zadataka iz testa. Isključivanjem svakog pojedinog zadatka mijenjaju se i karakteristike

ukupnih testovnih rezultata a time i karakteristike zadataka povezane s varijancom ukupnih

testovnih rezultata poput korelacija zadataka s ukupnim rezultatom. Ovo je osobito izraženo u

početnoj verziji testa koja uključuje sve zadatke, pa i one čijim izbacivanjem se mogu znatnije

promijeniti karakteristike ukupnih testovnih rezultata.

Prilikom izbora zadataka najčešće smo usmjereni na zadatke koji imaju prihvatljive koeficijente

diskriminativne valjanosti te čija je težina i osjetljivost primjerena očekivanoj namjeni testa.

Poželjno je na početku ove procedure definirati približna psihometrijska svojstva konačne verzije

testa te približan broj zadataka koje namjeravamo zadržati u konačnoj formi testa. Moguće je

odrediti kriterij zadržavanja zadataka s obzirom na vrijednosti koeficijenata diskriminativne

valjanosti iako su u većini slučajeva ovi kriteriji prije relativni nego apsolutni. Zadatke koji nemaju

prihvatljivu diskriminativnu valjanost isključit ćemo iz testa, jer nisu valjani indikatori zadanog

konstrukta. Iako je kvantitativna osnovica evaluacije i izbora zadataka jednaka za testove

sposobnosti i postignuća, kod testova postignuća je od posebne važnosti dokazati sadržajnu

45

valjanost zadatka. Ukoliko teorijska analiza ukazuje na nedostatnu sadržajnu valjanost zadatak se

isključuje unatoč mogućoj zadovoljavajućoj diskriminativnoj valjanosti, odnosno prihvatljivim

statističkim parametrima. S obzirom na težinsku primjerenost i osjetljivost najčešće se među

zadacima prihvatljive valjanosti nastoji odabrati veći broj zadataka prosječne težine, te manji broj

laganih i teških zadataka. U većini slučajeva je poželjno je pokriti cijeli raspon težinske

primjerenosti. Izborom zadataka različite težine možemo utjecati na oblik distribucije ukupnih

rezultata, odnosno na bolju diskriminaciju ispitanika u nekom intervalu mjerenog atributa. Ovo

naravno vrijedi uz pretpostavku da zadaci imaju zadovoljavajuću diskriminativnu valjanost. Izbor

laganih zadataka koji nemaju zadovoljavajuću diskriminativnu valjanost neće doprinijeti

razlikovanju inferiornih ispitanika prema mjerenom atributu.

Korisno je grafički prikazati odnos zadataka s obzirom na dvije ključne karakteristike koje

analiziramo u procesu analize zadataka: težinu lakoću) zadatka i diskriminativnu valjanost. U tom

slučaju se može izvršiti odabir zadataka koji zadovoljavaju neke postavljene kriterije. Primjer

takvog prikaza (koji se ponekad naziva r-p dijagram) može se vidjeti na grafikonu br. 3.

Grafički prikaz 3. Grafički prikaz težine i diskriminativne valjanosti zadataka

Na sljedećim primjerima pokušat ćemo demonstrirati utjecaj izbora zadataka različite težine na

mogućnost razlikovanja ispitanika ukupnim testovnim rezultatima. U ovom slučaju pretpostavit

ćemo da su zadaci u visokim međusobnim korelacijama, tj. da u visokom stupnju mjere isti u

konstrukt.

Indeks lakoće0

0,2

0,4

0,6

0,8

1

0 0,5 1

rit

46

Tablica 4. Primjer 1: Test koji se sastoji od prosječno teških zadataka

isp\zad Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 z10 U

1 1 1 1 1 1 1 1 1 1 1 10

2 1 1 1 1 1 1 1 1 1 1 10

3 1 1 1 1 1 1 1 1 1 1 10

4 1 1 1 1 1 1 1 1 1 1 10

5 1 1 0 1 0 1 0 0 1 1 6

6 0 0 0 1 0 1 0 0 1 1 4

7 0 0 0 0 1 0 0 0 1 0 2

8 0 0 0 0 0 0 0 0 0 0 0

9 0 0 0 0 0 0 0 0 0 0 0

10 0 0 0 0 0 0 0 0 0 0 0

p 0.5 0.5 0.4 0.6 0.5 0.6 0.4 0.4 0.7 0.6

Primjer 1 demonstrira situaciju kada se test sastoji od prosječno teških zadataka a ne sadrži lake i

teške zadatke. U tom slučaju postojat će tendencija da je razlikovanje na osnovi ukupnih rezultata

najveće među prosječnim ispitanicima, dok se iznadprosječni i ispodprosječni ispitanici na osnovi

ovih zadataka neće moći dobro razlikovati.

47

Tablica 5. Primjer 2: Test koji se sastoji od prosječno teških zadataka, ali i manjeg broja vrlo lakih i

vrlo teških zadataka


1 1 1 1 1 1 1 1 1 1 1 10

2 1 1 1 1 1 1 1 0 1 1 9

3 1 1 1 1 1 1 0 0 1 1 8

4 1 1 1 1 1 1 0 0 1 1 8

5 1 1 0 1 1 1 0 0 1 1 7

6 0 1 0 1 0 1 0 0 1 1 5

7 0 0 0 0 0 1 0 0 1 0 2

8 0 0 0 0 0 1 0 0 1 0 2

9 0 0 0 0 0 0 0 0 1 0 1

10 0 0 0 0 0 0 0 0 0 0 0

p 0.5 0.6 0.4 0.6 0.5 0.8 0.2 0.1 0.9 0.5

Slučaj naveden u drugom primjeru predstavlja najčešću situaciju izrade testa i ova bi strategija

trebala rezultirati dobrim razlikovanjem duž cijelog kontinuuma mjerene osobine i uglavnom

dovodi do normalne raspodjele ukupnih rezultata.

Tablica 6. Primjer 3: Test koji se sastoji od laganih zadataka


1 1 1 1 1 1 1 1 1 1 1 10

2 1 1 1 1 1 1 1 1 1 1 10

3 1 1 1 1 1 1 1 1 1 1 10

4 1 1 1 1 1 1 1 1 1 1 10

5 1 1 1 1 1 1 1 1 1 1 10

6 0 1 1 1 1 1 1 1 1 1 9

7 0 0 1 1 1 1 1 1 1 1 8

48

8 0 0 0 0 1 1 1 1 0 1 5

9 0 0 0 0 0 1 0 1 0 1 3

10 0 0 0 0 0 0 0 0 0 1 1

p 0.5 0.6 0.7 0.7 0.8 0.9 0.8 0.9 0.7 1.0

U trećem primjeru u testu dominiraju lagani zadaci što će dovoditi do negativno asimetrične

distribucije ukupnih rezultata te slabije mogućnosti razlikovanja iznadprosječnih ispitanika.

Razmotrimo, za ilustraciju, slučaj kada se test sastoji od zadataka prosječne težine ali različite

međusobne povezanosti.

Tablica 7. Primjer 4: Test koji se sastoji od prosječno teških zadataka u visokim korelacijama

isp\zad Z1 Z2 Z3 Z4 Z5 U

1 1 1 1 1 1 5

2 1 1 1 1 1 5

3 1 1 1 1 1 5

4 1 1 1 1 1 5

5 1 1 1 1 1 5

6 0 0 0 0 0 0

7 0 0 0 0 0 0

8 0 0 0 0 0 0

9 0 0 0 0 0 0

10 0 0 0 0 0 0

p 0.5 0.5 0.5 0.5 0.5 M=2,5

U ovom slučaju aritmetička sredina testa iznosit će M=2,5, a varijabilitet testovnih rezultata bit će

velik.

49

Tablica 8. Primjer 5: Test koji se sastoji od prosječno teških zadataka u nultim korelacijama

isp\zad Z1 Z2 Z3 Z4 Z5 U

1 1 0 1 0 1 3

2 0 1 0 1 1 3

3 1 0 1 0 1 3

4 0 1 0 1 1 3

5 1 0 1 0 1 3

6 0 1 0 1 0 2

7 1 0 1 0 0 2

8 0 1 0 1 1 3

9 1 0 1 0 0 2

10 0 1 0 1 0 2

p 0.5 0.5 0.5 0.5 0.5 M=2,5

I u primjeru 5 aritmetička sredina ukupnih rezultata iznosi M=2,5, ali je očito iz ove ilustracije da se

ukupni testovni rezultati manje razlikuju od onih u primjeru 4.

Što su težine zadataka veće, distribucija ukupnih rezultata postaje pozitivno asimetrična, i obrnuto

test sačinjen od lakših zadataka rezultira negativno asimetričnom distribucijom ukupnih testovnih

rezultata. Ako su zadaci prosječne težine distribucija će biti simetrična.

Utjecaj interkorelacija na oblik distribucije ukupnih rezultata nije jednoznačan. Najveći utjecaj

interkorelacije među zadacima imaju na zvonolikost distribucije (kurtosis). Kako se korelacije među

zadacima testa povećavaju distribucija ukupnih rezultata se mijenja od platikurtične (razvučene

distribucije) ka mezokurtičnoj, odnosno leptokurtičnoj (kod koje su rezultati koncentrirani oko

prosječne vrijednosti), a u slučaju ekstremno visokih korelacija distribucija teži bimodalnom obliku.

Uz hipotetski savršeno korelirane zadatke prosječne težine, polovica ispitanika ostvarit će

maksimalni uradak, a polovica nulti uradak, tj. takvim testom bismo hipotetski ostvarili svega dva

različita ukupna rezultata. Savršeno pouzdan test diskriminirat će dvije grupe ispitanika u

potpunosti, ali pri tome neće dati nikakve informacije o razlikama unutar grupa.

U pravilu se tijekom analize zadataka sukcesivno isključuju najlošiji zadaci, te se nakon isključenja

svakog pojedinog zadatka analiziraju karakteristike preostalih zadataka te svojstva ukupnih

testovnih rezultata poput pouzdanosti, homogenosti, osjetljivosti te faktorske strukture. Wherry,

Campbell i Perloff su predložili metodu sukcesivne analize zadataka u kojoj se nakon isključenja

50

zadatka analiziraju koeficijenti diskriminativne valjanosti zadataka u skraćenoj verziji testa. Oni

predlažu zadržavanje zadataka kod kojih dolazi do povećanja diskriminativne valjanosti, te

razmatranje i isključenje zadataka kod kojih je došlo do smanjenja diskriminativne valjanosti.

Procedura se ponavlja dok promjene postanu zanemarivo male.

U pravilu rad na isključivanju zadataka traje dok se ne ostvare neka poželjna svojstva ukupnih

testovnih rezultata ili dok se daljnjim isključivanjem zadataka ne počnu narušavati poželjna svojstva

testa. Tako će npr. izbacivanje loših zadataka u početku dovoditi do povećanja prosječne korelacije

među zadacima pa čak i povećanja pouzdanosti ukupnih rezultata. Međutim nakon isključenja

relativno lošijih zadataka u jednoj točki će daljnjim izbacivanjem zadataka početi opadati

pouzdanost testa i doći će do pogoršanja nekih aspekata valjanosti i osjetljivosti.

U načelu autor će pri izboru zadataka preferirati zadatke s većom diskriminativnom valjanošću,

zadatke optimalne težine, ali također i zadatke sa zadovoljavajućom sadržajnom valjanošću. U

određenim slučajevima, osobito kod testova znanja, autor može zadržati zadatak koji će sačuvati

sadržajnu valjanost testa iako postoje i drugi zadaci čiji su kvantitativni pokazatelji superiorniji.

7.5.1. Koncept homogenosti testa

Jedna od karakteristika testa koja se može relativno neovisno analizirati jest homogenost testa.

Homogenost ukazuje na stupanj u kojemu neki test koji se sastoji od više komponenti mjeri jedan

konstrukt ili identičnu kombinaciju različitih konstrukata. Homogenost proizlazi iz činjenice da svi

dijelovi testa mjere isti konstrukt. Savršeno heterogen test jest onaj čiji su zadaci statistički

neovisni, tj. svaki zadatak ima različit predmet mjerenja.

Iako postoje različiti postupci za utvrđivanje homogenosti, najčešće korišten indikator homogenosti

jest prosječna korelacija među zadacima kompozita.

ijr

Visoka korelacija među zadacima ukazuje na zajednički predmet mjerenja, odnosno na

homogenost njihova sadržaja. Visoka homogenost ukazuje na visoku pouzdanost tipa unutarnje

konzistencije. Nasuprot tome, niska prosječna korelacija ukazuje na relativnu heterogenost

testovnog sadržaja, ali pouzdanost ukupnih rezultata kod takvog kompozita može biti visoka

ukoliko je broj zadataka velik. U tom slučaju će mali dio zajedničkog variranja koji zadaci dijele

postati relativno dominantan u varijanci ukupnih rezultata. Na homogenost može ukazivati i

relativna količina varijance objašnjene prvim ekstrahiranim faktorom ili glavnom komponentom.

Drugim riječima, ako kod homogenog testa sve zadatke poredamo po težini, svaki ispitanik

riješit će dio zadataka do određene točke, a niti jedan iza te točke. U savršeno heterogenom testu,

gdje su zadaci poredani po težini riješeni zadaci nekog ispitanika bit će raspoređeni po slučaju.

Treba voditi računa da kod procjene prosječne korelacije na vrijednosti prosječnih korelacija utječu

i metrička svojstva zadataka. Tako će u pravilu prosječna korelacije među zadacima biti veća kod

51

zadataka koji imaju veći varijabilitet, što onda može ukazivati na nižu homogenost testa, ali se mora

uzeti u obzir redukcija varijance kod takve vrste zadataka. Tako npr. prosječna korelacija među

binarnim zadacima rijetko prelazi 0,2, pa test inteligencije čiji su zadaci u prosječnim korelacijama

od 0,15, a prvi ekstrahirani faktor objašnjava 30% varijance može imati prihvatljivu homogenost.

7.5.2. Primjer analize i izbora zadataka

Za ilustraciju procedure analize zadataka i izbora zadataka prikazat ćemo rezultate primjene probne

verzije kratkog upitnika koji se sastoji od 6 pitanja. Nazovimo ovaj kratki kompozitni instrument

Upitnik A. U svakom pitanju ispitanici su mogli izraziti svoj stupanj slaganja s pojedinom tvrdnjom

na ljestvici od 5 stupnjeva (1 do 5). Probna verzija upitnika A primijenjena je na uzorku od 162

ispitanika. Kako se radi o malom broju čestica ovdje možemo analizirati i korelacijsku matricu

među česticama. Na skupu od 6 varijabli moguće je izračunati 15 različitih koeficijenata korelacije.

Tablica 9. Korelacijska matrica između 6 zadataka Upitnika A

Z1 Z2

Z3 Z4 Z5 Z6

Z1 1 ,116 ,565** ,328** ,173* ,301**

Z2 1 ,040 ,236** ,078 -,075

Z3 1 ,412** ,222** ,316**

Z4 1 ,311** ,360**

Z5 1 ,264**

Z6 1

*P<0,05, **P<0,01

Iz korelacija među zadacima teško je donijeti jednoznačan sud o zajedničkom predmetu mjerenja

svih 6 zadataka. Veličine korelacija među zadacima kreću se od -0,075 do 0,565 i ukazuju na

određenu povezanost među zadacima, ali je očito da su potrebne dodatne informacije koje bi

opravdale korištenje svih 6 zadataka u ovom upitniku.

U nastavku ćemo prikazati standardne informacije koje se mogu dobiti o zadacima i

karakteristikama ukupnih testovnih rezultata primjenom naredbe RELIABILITY unutar statističkog

programa SPSS.

52

Tablica 10. Deskriptivna statistika zadataka

M SD N

Z1 3,4198 1,04393 162

Z2 3,0988 1,24217 162

Z3 3,6049 1,04173 162

Z4 3,3889 1,09912 162

Z5 2,8704 1,09283 162

Z6 2,9877 ,98427 162

Iz tablice 10. možemo uočiti da se aritmetičke sredine zadataka kreću između 2,87 i 3,6. Očekivana

teorijska aritmetička sredina s obzirom na raspon vrijednosti u zadacima (od 1 do 5) bila bi oko 3.

Standardne devijacije svih zadataka bliske su vrijednosti 1.

Tablica 11. Deskriptivna statistika ukupnih rezultata u Upitniku A od 6 čestica

Scale Statistics

M Varijanca SD N čestica

19,3704 15,353 3,91825 6

U prethodnoj tablici br. 11 navedeni su osnovni deskriptivni parametri ukupnih rezultata.

Aritmetička sredina ukupnih rezultata iznosi M=19,37 i jednaka je zbroju aritmetičkih sredina svih

6 čestica koje sačinjavaju Upitnik A.

3.4198 + 3,0988 + 3,6049 + 3,3889 + 2,8704 + 2,9877 = 19,37

Teorijski bismo mogli očekivati aritmetičku sredinu od približno 18. Opažena aritmetička sredina

nešto je viša od ove hipotetske vrijednosti.

Tablica 12. Statistički parametri čestica Upitnika A

Summary Item Statistics

Mean Minimum Maximum Range

Maximum /

Minimum Variance N of Items

Item Means 3,228 2,870 3,605 ,735 1,256 ,081 6

Item Variances 1,182 ,969 1,543 ,574 1,593 ,039 6

Inter-Item Covariances ,275 -,092 ,614 ,706 -6,679 ,029 6

Inter-Item Correlations ,243 -,075 ,565 ,640 -7,509 ,025 6

U prethodnoj tablici br. 12 navedeni su sumarni podaci za četiri važna parametra testovnih čestica.

U prvom redu navedene su informacije o aritmetičkim sredinama zadataka. U prvom stupcu (Mean)

nalazi se prosječna vrijednost svih aritmetičkih sredina zadataka. To je u osnovi vrijednost

aritmetičke sredine ukupnih rezultata podijeljena s brojem čestica (19,37/6=3,228). U nastavku reda

53

navedene su vrijednosti najmanje i najveće aritmetičke sredine, razlike između te dvije vrijednosti

(range = 3,605-2,870), omjer najveće i najmanje aritmetičke sredine (3,605/2,870=1,256), varijanca

izračunata na skupu svih aritmetičkih sredina, te konačno broj čestica u analiziranoj verziji testa.

U sljedeća tri reda navedene su iste informacije za varijance testovnih zadataka, kovarijance i

korelacije među zadacima. Osobito važna informacija pri analizi zadataka jest njihova prosječna

korelacija (Mean). Prosječna korelacija izračunata na osnovi 15 korelacija iz tablice 9. iznosi 0,243.

Ova prosječna korelacija pruža autoru informaciju o homogenosti/heterogenosti testovnih zadataka,

omogućuje i procjenu broja zadataka potrebnih za neku zadanu pouzdanost kompozita

Tablica 13. Statistički podaci koji opisuju odnos pojedinog zadatka i ukupnih rezultata u testu

Item-Total Statistics

Scale Mean if

Item Deleted

Scale Variance

if Item Deleted

Corrected Item-

Total

Correlation

Spuriozni

koeficijenti

korelacije

Squared

Multiple

Correlation

Cronbach's

Alpha if Item

Deleted

Z1 15,9506 10,966 ,477 ,66937 ,349 ,566

Z2 16,2716 12,733 ,121 ,42761 ,098 ,706

Z3 15,7654 10,839 ,500 ,68584 ,391 ,558

Z4 15,9815 10,279 ,548 ,72929 ,314 ,535

Z5 16,5000 11,730 ,324 ,56249 ,130 ,622

Z6 16,3827 11,952 ,357 ,56649 ,224 ,610

U prethodnoj tablici br. 13 nalaze se podaci koji autoru testa omogućuju odluku o izboru najboljih

zadataka odnosno posljedicama isključivanja pojedinog zadatka na osnovne karakteristike ukupnih

testovnih rezultata. U prvom stupcu nalaze se vrijednosti aritmetičke sredine ukupnih rezultata u

testu u slučaju da izbacimo neki od zadataka. U slučaju izbacivanja prvog zadatka (čija je

aritmetička sredina 3,4198) aritmetička sredina ukupnih rezultat umanjila bi se za tu vrijednost te bi

iznosila 15,9506. U drugom stupcu navedena je vrijednost varijance ukupnih rezultata u slučaju

izbacivanja pojedinog zadatka. U trećem stupcu (Corrected item-total Correlation) navedene su

korigirane (nespuriozne) korelacije između zadatka i ukupnog rezultata u testu. To znači da je svaki

zadatak koreliran sa zbrojem svih preostalih zadataka. U slučaju Upitnika A vidimo da su ti

koeficijenti u rasponu od 0,121 za drugi zadatak do 0,548 za četvrti zadatak. Iako ne postoji

apsolutna vrijednost koeficijenta diskriminativne valjanosti koju bismo uzeli kao prihvatljivu za

zadržavanje zadatka u testu vrijedi pravilo da se zadaci s niskim koeficijentima isključuju iz

kompozita. Jedan kriterij jest statistička značajnost koeficijenta, jer korelacije koje nisu niti

statistički značajne nema smisla uzeti u razmatranje. Kod odluke o najnižoj prihvatljivoj veličini

koeficijenta diskriminativne valjanosti treba voditi računa o različitim faktorima (vrsta varijable,

težina zadatka, oblik povezanosti zadatka i ukupnog uratka i sl,.) ali općenito koeficijenti niži od 0,2

Ukazuju na nisku ili nedovoljnu diskriminativnu valjanost. U nedostatku boljih zadataka autori

ponekad i ovakve zadatke zadrže u testu, ali je očito da u tom slučaju test mora imati više zadataka

kako bi ukupni rezultati ostvarili neke poželjne karakteristike.

54

U našem primjeru prvi zadatak koji bismo isključili iz testa bio bi zadatak broj 2, čiji je koeficijent

diskriminativne valjanosti skromnih 0,121. Ukoliko bismo isključili ovaj zadataka bilo bi potrebno

provesti novu analizu testa koji bi se sastojao od 5 zadržanih zadataka. U tablici 13. su navedeni i

spuriozni koeficijenti korelacije za koje smo ranije naveli da su umjetno povećani s obzirom da

svaki zadatak korelira sa svojim udjelom u ukupnom rezultatu, a taj efekt je to veći što je manji broj

zadataka. Ukoliko usporedimo spuriozne i korigirane koeficijente diskriminativne valjanosti uočit

ćemo da su spuriozni sustavno veći, ali se može uočiti da spuriozni koeficijent drugog zadatka ima

znatno veću vrijednost od nespuriozne korelacije tog zadatka. Iako je ova vrijednost i dalje relativno

najniža od svih 6 zadataka apsolutna veličina koeficijenta ne ukazuje na lošu diskriminativnu

valjanost ovoga zadatka. Stoga pri analizi kratkih testova treba svakako voditi računa o utjecaju

spurioznosti. Valja naglasiti da program SPSS u okviru standardne naredbe za analizu zadataka ne

prikazuje veličine spurioznih koeficijenata korelacije. U nastavku tablice 13. u stupcu Squared

Multiple Correlation prikazani su koeficijenti multiple determinacije pri čemu se pojedini zadatak

uzima kao kriterij a svi preostali zadaci kao prediktori. U slučaju da je postotak varijance u zadatku

koji je moguće objasniti ostalim testovnim zadacima relativno velik to ukazuje da zadatak u osnovi

mjeri isti konstrukt kao i ostali zadaci. U našem slučaju uočavamo da drugi zadatak i prema ovom

kriteriju dijeli najmanje zajedničke varijance s ostalim zadacima. U posljednjem stupcu Cronbach's

Alpha if Item Deleted nalaze se procjene pouzdanosti ukupnih rezultata u testu izražene

Cronbachovim alfa koeficijentom u slučaju da se izbaci pojedini zadatak. Pouzdanost ukupnih

rezultata za analiziranu verziju od 6 zadataka nalazi se u tablici 14. Uočavamo da će se

izbacivanjem drugog zadatka sadašnja pouzdanost kompozita od 0,646 povećati na 0,706.

Izbacivanje dobrih zadataka imat će za posljedicu smanjenje pouzdanosti kompozita.

Tablica 14. Pouzdanost ukupnih rezultata u testu izražena Cronbachovim alfa koeficijentom

Reliability Statistics

Cronbach's

Alpha

Cronbach's

Alpha Based on

Standardized

Items N of Items

,646 ,658 6

U tablici 14. navedena je pouzdanost Upitnika A sastavljenog od 6 zadataka i ona iznosi 0,646. U

drugom stupcu navedena je vrijednost pouzdanosti koju bismo dobili u slučaju da se svi zadaci

standardiziraju tj. izraze u z-vrijednostima. U slučaju da su zadaci identičnih ili vrlo sličnih

varijanci ove dvije vrijednost bit će identične ili vrlo slične. Ukoliko su zadaci različitih varijanci, tj.

različitoj mjeri utječu na varijancu ukupnih rezultata to može dovesti do određene razlike između

ove dvije procjene. Naime druga procjena ne uzima u obzir varijance zadataka i odgovara

vrijednosti koju bismo dobili da u Spearman-Brown-ovu formulu uvrstimo vrijednost prosječne

korelacije među zadacima koja iznosi 0,243 (rxx = (6x 0,243)/1+ (6-1)0,243 = 1,458/ 2,215 =

0,658). U slučaju da smo odlučili isključiti drugi zadatak cijelu proceduru trebalo bi ponoviti na

zadržanih 5 zadataka te nakon toga odlučiti treba li izbaciti sljedeći najlošiji zadatak.

55

U slučaju da smo na probnoj verziji Upitnika A od 6 zadataka proveli i faktorsku analizu metodom

glavnih komponenti dobili bismo dvije značajne glavne komponente s karakterističnim

vrijednostima većim od 1.

Tablica 15. Vrijednosti karakterističnih korjenova 6 glavnih komponenti dobivenih analizom

Upitnika A.

Component

Initial Eigenvalues

Total % of Variance Cumulative %

1 2,350 39,163 39,163

2 1,082 18,034 57,197

3 ,926 15,434 72,631

4 ,687 11,450 84,081

5 ,553 9,221 93,302

6 ,402 6,698 100,000

Iz veličina karakterističnih korjenova možemo uočiti jedan koji znatno odstupa prema svojoj

vrijednosti (λ1=2,35). Sljedeća glavna komponente (λ2=1,082) tek neznatno prelazi vrijednost 1 i

formalno je značajna prema Kaiser-Guttmanovom kriteriju, ali je na autoru da odredi imali ju

smisla razmatrati u ovom slučaju. Ukoliko ipak zadržimo dva faktora pogledajmo 16. koja sadrži

matricu faktorske strukture, tj. korelacije manifesnih varijabli (zadataka) s dvije zadržane glavne

komponente nakon provedene varimax rotacije.

Tablica 16. Matrica faktorske strukture nakon varimax rotacije

Rotated Component Matrixa

Component

1 2

Z1 ,720 ,073

Z2 ,057 ,946

Z3 ,775 -,005

Z4 ,686 ,343

Z5 ,509 ,118

Z6 ,682 -,288

Iz tablice 16. uočavamo da je jedino drugi zadatak povezan s drugom glavnom komponentom, dok

su ostali zadaci povezani s prvim faktorom (ili komponentom). Izuzetak je četvrti zadatak koji

pored korelacije s prvim faktorom ima i povezanost s drugim faktorom. Na osnovi analize

vrijednosti karakterističnih korjenova može se uočiti da nakon prve glavne komponente vrijednosti

karakterističnih korjenova ne bilježe značajniji pad, te bismo na osnovi tog kriterija mogli

značajnim smatrati samo prvi ekstrahirani faktor odnosno komponentu. Struktura matrice faktorske

56

strukture sugerira da bi isključenje drugog zadatka bilo opravdano budući da on mjeri nešto drugo u

odnosu na ostale zadatke. Nakon izbacivanja drugog pitanja potrebno je ponoviti cjelokupnu

analizu zadataka. Naravno da se može preskočiti dio koji sadrži univarijatne karakteristike zadataka,

odnosno njihove mjere težine i osjetljivosti koji se ne mijenjaju.

Tablica 17. Deskriptivna statistika ukupnih rezultata u Upitniku A nakon isključenja 2. zadatka

Scale Statistics

Mean Variance Std. Deviation N of Items

16,2716 12,733 3,56836 5

Može se uočiti da je aritmetička sredina skraćene verzije upitnika od 5 zadataka (nakon izbacivanja

2. zadatka) umanjena za vrijednost aritmetičke sredine 2. zadatka te sada iznosi M=16,27.

vrijednost varijance također je smanjena u odnosu na prvu verziju koja je uključivala 6 zadataka.

Tablica 18. Statistički parametri čestica Upitnika A nakon isključenja 2. zadatka

Summary Item Statistics

Mean Minimum Maximum Range

Maximum /

Minimum Variance N of Items

Item Means 3,254 2,870 3,605 ,735 1,256 ,097 5

Item Variances 1,109 ,969 1,208 ,239 1,247 ,009 5

Inter-Item Covariances ,359 ,198 ,614 ,416 3,107 ,013 5

Inter-Item Correlations ,325 ,173 ,565 ,391 3,260 ,011 5

Prosječni parametri navedeni u tablici 18 u odnosu na one u tablici 12. neznatno su promijenjeni.

Važno je uočiti da je prosječna korelacija koja je u prethodnoj verziji upitnika iznosila 0,243 sada

povećana i iznosi 0,325 što znači da je izbacivanjem drugog zadatka kompozit učinjen

homogenijim. Autor nakon isključenja pojedinog zadatka treba razmotriti i moguće promjene

ostalih karakteristika zadataka poput prosječne aritmetičke sredine, varijance te kovarijance.

Tablica 19. Statistički podaci koji opisuju odnos pojedinog zadatka i ukupnih rezultat u testu nakon

isključenja drugog zadatka

Scale Mean if

Item Deleted

Scale Variance

if Item Deleted

Corrected Item-

Total

Correlation

Spuriozna

korelacija

Squared

Multiple

Correlation

Cronbach's

Alpha if Item

Deleted

Z1 12,8519 8,649 ,488 0,695 ,341 ,646

Z3 12,6667 8,323 ,553 0,739 ,386 ,619

Z4 12,8827 8,303 ,509 0,719 ,266 ,637

Z5 13,4012 9,322 ,332 0,590 ,129 ,711

Z6 13,2840 9,149 ,439 0,648 ,197 ,666

57

Isključenjem jednog zadatka promijenili smo u određenoj mjeri karakteristike ukupnih rezultata te

je stoga potrebno ponovno izračunati i razmotriti korelacije svih zadataka s ukupnim rezultatom.

Razmotrimo li koeficijente diskriminativne valjanosti zadataka nakon isključenja drugog zadatka

uočit ćemo da su se povećali za sve zadržane zadatke s izuzetkom četvrtog zadatka. Naime taj

zadatak je jedini imao značajnu korelaciju s isključenim drugim zadatkom. Najniži koeficijent

diskriminativne valjanosti u ovoj verziji upitnika ima peti zadatak i taj koeficijent iznosi 0,332. Na

autoru je odluka hoće li nastaviti s izbacivanjem zadataka ili će ovu verziju od 5 zadatka smatrati

konačnom. Iz tablice 19. možemo vidjeti da bismo isključenjem petog zadatka pouzdanost

kompozita dodatno povećali na 0,711. Negativne posljedice bile bi vjerojatno smanjenje

osjetljivosti i varijance ukupnih rezultata. Dodatni faktor pri odluci o zadržavanju/isključenju

zadatka može biti utjecaj na sadržajnu valjanost. Pogledamo li u ovom slučaju vrijednosti

spurioznih koeficijenata diskriminativne valjanosti one se kreću između 0,648 i 0,739 i više su od

nespurioznih.

Tablica 20. Pouzdanost ukupnih rezultata u testu izražena Cronbachovim alfa koeficijentom nakon

isključenja drugog zadatka

Reliability Statistics

Cronbach's

Alpha

Cronbach's

Alpha Based on

Standardized

Items N of Items

,706 ,707 5

Pouzdanost verzije od 5 zadataka iznosi 0,706 i povećana je u odnosu na verziju upitnika od 6

zadataka. Iz prethodne tablice uočavamo informaciju da bi se isključenjem petog zadatka

pouzdanost kompozita povećala neznatno na 0,711. Kada bismo odlučili isključiti peti zadatak

slijedila bi nova analiza zadatka verzije upitnika od 4 zadatka. U tom slučaju bilo bi moguće da se

daljnjim izbacivanjem zadataka pouzdanost kompozita počne smanjivati unatoč mogućoj

homogenizaciji zadataka. To može biti dodatni argument autoru testa pri odluci o isključenju

pojedinog zadatka.

U slučaju da provedemo faktorsku analizu verzije upitnika od 5 zadataka dobit ćemo samo jednu

glavnu komponentu čiji je karakteristični korijen veći od 1 (λ1=2,325). To ukazuje na jedan faktor

koji mjere svi zadaci. Taj faktor objašnjava ukupno 46,5% varijance.

58

Tablica 21. Vrijednosti karakterističnih korjenova 5 glavnih komponenti dobivenih analizom

Upitnika A nakon isključenja drugog zadatka

Component

Initial Eigenvalues

Total % of Variance Cumulative %

1 2,325 46,500 46,500

2 ,926 18,526 65,026

3 ,706 14,115 79,142

4 ,619 12,381 91,523

5 ,424 8,477 100,000

Tablica 22. Matrica faktorske strukture upitnika nakon isključenja drugog zadatka

Component Matrixa

Component

1

Z1 ,722

Z3 ,773

Z4 ,717

Z5 ,522

Z6 ,648

Iz matrice faktorske strukture u tablici 22. možemo vidjeti da svih 5 zadataka imaju razmjerno

visoka zasićenja s prvim faktorom što ukazuje na zajednički predmet mjerenja svih zadataka. Ovaj

podatak može biti dodatni argument autoru da zadrži svih 5 zadataka u konačnoj verziji testa. U

terminima faktorske analize možemo analizirati i komunalitet pojedinih varijabli, odnosno zadataka.

U slučaju jednog faktora postotak zajedničke varijance odnosno komunalitet svake varijable jednak

je kvadratu korelacije zadatka s faktorom tako najveći komunalitet ima treći zadatak (59,7%), a

najmanji peti zadataka (27,2%).

Tablica 23. Frekvencije ukupnih rezultata u Upitniku A nakon isključenja drugog zadatka

Frequency Percent Valid Percent

Cumulative

Percent

Valid 6,00 1 ,6 ,6 ,6

8,00 4 2,5 2,5 3,1

9,00 2 1,2 1,2 4,3

10,00 3 1,9 1,9 6,2

11,00 6 3,7 3,7 9,9

12,00 5 3,1 3,1 13,0

13,00 12 7,4 7,4 20,4

14,00 13 8,0 8,0 28,4

59

15,00 23 14,2 14,2 42,6

16,00 9 5,6 5,6 48,1

17,00 26 16,0 16,0 64,2

18,00 16 9,9 9,9 74,1

19,00 11 6,8 6,8 80,9

20,00 12 7,4 7,4 88,3

21,00 7 4,3 4,3 92,6

22,00 8 4,9 4,9 97,5

23,00 2 1,2 1,2 98,8

24,00 1 ,6 ,6 99,4

25,00 1 ,6 ,6 100,0

Total 162 100,0 100,0

Kako je cilj najvećeg broja mjernih procedura mogućnost razlikovanja ispitanika s obzirom na

predmet mjerenja autoru je korisno razmotriti i karakteristike distribucije ukupnih rezultata.

Teorijski rezultati bi u upitniku od 5 pitanja mogli varirati od 5 do 25. Iz tablice 23. možemo vidjeti

da raspon opaženih rezultata iznosi 6 do 25 pri čemu je opaženo 19 različitih rezultata uz približno

normalnu distribuciju.

Grafički prikaz 4. Histogramski prikaz distribucije ukupnih rezultata u upitniku A nakon isključenja

drugog zadatka

60

8. Provjera stabilnosti karakteristika zadataka

Svi razmotreni statistički koeficijenti korišteni u analizi zadataka imaju svoju pogrešku. Kako

bismo bili sigurni da su odluke o izboru zadataka uistinu bile statistički utemeljene poželjno je da su

zasnovane na stabilnim procjenama parametara zadataka. Vrlo je preporučljivo provesti neki oblik

provjere stabilnosti izračunatih parametara zadataka na neovisnom uzorku, odnosno provesti neki

oblik križne validacije. U tom slučaju je moguće skraćenje testa na jednom uzorku provesti

koristeći procjene zadataka dobivene na drugom uzorku te usporediti karakteristike ukupnih

testovnih rezultata dobivene na oba uzorka. Ovo je osobito važno kod testova s većim brojem

zadataka jer je nužno da uslijed slučaja neki koeficijenti mogu postići visoke vrijednosti. Pored toga

cjelokupna procedura izbora zadataka u određenoj je mjeri pristrana jer se biraju samo zadaci s

visokim koeficijentima diskriminativne valjanosti.

Kao proporcije indeksi p i q imaju svoju standardnu pogrešku:

e p e q

pq

N( ) ( )

Iz posljednjeg izraza slijedi da povećavanje validacijskog uzorka smanjuje pogrešku procjene, te da

je ona relativno veća za zadatke s većom varijancom. Ovdje je temeljna pretpostavka da se radi o

slučajnom uzorku iz neke poznate populacije.

Za r(pb) nedostaje formula za standardnu pogrešku ali je ona aproksimativno jednaka Pearsonovom

koeficijentu, koja glasi

e r

r

N( )

1

1

2

Što se koeficijent korelacije r(pb) više razlikuje od nulte vrijednosti, to distribucija korelacija

postaje sve više asimetrična, čime je i pretpostavka normalne distribucije sve manje primjenjiva.

Poseban slučaj gornjeg izraza je također vrlo koristan, a vrijedi za slučaj populacijske vrijednosti

r(pb) = 0 :

e rN

( )

1

1

Kada je N velik, koeficijenti korelacije izračunati na uzorcima iz bivarijatne normalne

populacije s pravom vrijednošću r=0, imaju tendenciju normalne distribucije.

Za indikatore težine može se reći da imaju nešto veću stabilnost od indikatora diskriminativne

valjanosti. Indeksi težine su konzistentni čak i kod uzoraka manjih od 50. Kao i općenito kod

uzorkovanja veći problem može biti pristranost u izboru uzorka nego sama veličina uzorka.

61

9. Struktura testa i osobine ukupnih testovnih rezultata

Autor testa mora razmotriti i predložiti postupak za izračunavanje ukupnog rezultata u testu.

Kompozitni testovi sastoje se od 2 ili više elemenata, pri čemu se ukupni rezultat definira pod

nekim modelom jednostavne ili diferencijalno ponderirane linearne kombinacije. Način određivanja

ukupnog rezultata utječe na varijancu i osjetljivost ukupnih rezultata, a time i na sve relevantne

karakteristike ukupnih testovnih rezultata kao i na korelacije zadataka s ukupnim rezultatom.

Izborom zadataka određenih karakteristika, te njihovim prikladnim kombiniranjem u ukupni

rezultat utječemo na sve relevantne karakteristike ukupnih testovnih rezultata.

9.1. Izražavanje ukupnog rezultata u testu kao jednostavni zbroj odgovora

Klasična teorija najčešće bruto rezultat ispitanika definira kao zbroj rezultata u pojedinim

zadacima odnosno u većini testova uratka kao broj točnih odgovora (BTO):

U Xi ij

j

k

1

Rjeđe se koristi proporcija točnih odgovora,

i

ij

j

k

X

k

1

koja je prikladnija za usporedbu individualnih rezultata na testovima različite duljine i korisnicima

testovnih rezultata daje uvid u uspješnost ispitanika s obzirom na ukupni broj zadataka.

Iako su predloženi brojni, teorijski superiorniji, postupci za definiranje kompozitnog rezultata, čini

se da je broj točnih odgovora još uvijek najčešći oblik izražavanja ukupnog testovnog rezultata,

prvenstveno zbog jednostavnosti i jednoznačnosti. Od ranije je poznato da je aritmetička sredina

ukupnih rezultata u testu determinirana aritmetičkim sredinama zadataka, tj. aritmetička sredina

ukupnih rezultata jednaka je zbroju aritmetičkih sredina zadataka, te ne ovisi o korelacijama

zadataka.

Varijanca ukupnih rezultata u testu izraženih pod modelom aditivne linearne kombinacije bilo kojeg

broja varijabli zadana je izrazom:

Pri čemu

i = 1,...,k , j = 1,...,k , i < j

kjM j ,...,1,

jiijiu rVV 2

62

Varijanca linearne kombinacije jednaka je sumi svih elemenata matrice varijanci-kovarijanci

varijabli članica te kombinacije. Izborom zadataka s velikim varijancama, kao i zadataka koji su u

međusobnim visokim korelacijama (kovarijancama) povećavamo varijancu ukupnih rezultata.

Minimalna varijanca testovnih rezultata ostvarena je u slučaju kada su zadaci u nultim korelacijama.

Odnos između karakteristika zadataka i varijabiliteta ukupnih rezultata može se izraziti i uporabom

koeficijenata diskriminativne valjanosti zadataka. Umnožak spuriozne korelacije zadatka s ukupnim

rezultatom i standardne devijacije zadatka neki autori nazivaju indeksom pouzdanosti zadatka

(Guilford, 1954, Gulliksen, 1950.). Ovaj indeks može biti od posebne važnosti pri određenju

varijabiliteta ukupnih rezultata jer omogućuje deskripciju standardne devijacije ukupnih rezultata u

terminima parametara zadataka:

u iu i

i

k

r

1

riu = point-biserijalna korelacija zadatka i s ukupnim rezultatom u (spuriozna)

i = standardna devijacija zadatka i

u = standardna devijacija ukupnih rezultata

Iz prethodnog izraza proizlazi da je standardna devijacija ukupnih rezultata u testu jednaka

zbroju umnožaka spurioznih korelacija svih zadataka s ukupnim rezultatom s pripadajućim

standardnim devijacijama zadataka. Proizlazi da je povećanje varijance ukupnih rezultata moguće

izborom zadataka s velikim varijabilitetom, te visokim korelacijama s ukupnim rezultatom. Ovdje

se uzima u obzir spuriozna korelacija zadatka s ukupnim rezultatom budući da ona predstavlja

realnu povezanost za razliku od korigirane koja uklanja efekt spurioznosti, ali se za svaki zadatak

izračunava u odnosu na drugi kompozit.

Primjer:

U testu koji se sastoji od 5 binarnih zadataka treba izračunati standardnu devijaciju ukupnih

testovnih rezultata. Poznati su indeksi lakoće i standardne devijacije pojedinih zadataka i spuriozne

korelacije svakog zadatka s ukupnim rezultatom:

Zadatak p SD riu riui

Z1 0,90 0,3 0,45 0,135

Z2 0,80 0,4 0,52 0,208

Z3 0,50 0,5 0,78 0,39

Z4 0,20 0,4 0,68 0,272

Z5 0,90 0,3 0,55 0,165

=1,17

Korištenjem prethodne formule standardna devijacija ukupnih testovnih rezultata iznosi 1,17.

63

9.2. Diferencijalno ponderiranje uratka u zadacima

Iako klasična teorija polazi od jednostavnog zbroja odgovora u zadacima, učinjeni su brojni

pokušaji da se uradak u zadatku ponderira tako da omogući veću informaciju o razvijenosti

predmeta mjerenja kod ispitanika. U općem obliku ukupni rezultat definiran u maniri diferencijalno

ponderirane linearne kombinacije ima oblik:

k

j

ijjiDP XwU1

)(

ili

UiDP = Xi1 w1 + Xi2 w2 + Xi3 w3+ ... + Xikwk i = 1,...,N

Kod diferencijalno ponderiranih linearnih kombinacija svaki pojedini rezultat množi se s

odgovarajućim ponderom (zadanom konstantom, koeficijentom važnosti). Na taj način se svakom

pojedinom rezultatu pridaje različit značaj, odnosno različita važnost u linearnoj kombinaciji.

Diferencijalno ponderirana linearna kombinacija predstavlja općenitiji model od jednostavnog

zbroja uradaka u dijelovima testa i ima sljedeći oblik:

pri čemu se definira vektor w = (wj) , j = 1,...,k

Određivanje vektora pondera wj može se učiniti uz različite pretpostavke. Ponderiranje komponenti

i dalje omogućuje definiranje jednoznačne relacije parametara zadataka s parametrima ukupnih

kompozitnih rezultata.

Vjerojatno najčešći pristup zasniva se na korištenju informacije o težini zadatka, budući da je

plauzibilna pretpostavka da težim zadacima treba pridati veći značaj u kompozitu. Najjednostavniji

oblik korištenja informacije o težini zadatka jest ponderiranje zadatka njegovim indeksom težine qj,

tj. proporcijom ispitanika koji nisu točno riješili zadatak. Ova procedura je smislena ukoliko vrijedi

pretpostavka da svaki zadatak u jednakom stupnju mjeri željeni atribut. Očito je da ponderiranje

indeksima težine ne uzima u obzir diskriminativnu valjanost zadatka. Ovaj postupak u najvećem

broju slučajeva povećava broj različitih ukupnih rezultata, a kako ne mijenja korelacije među

zadacima faktorska struktura testa ostaje nepromijenjena.

Aritmetička sredina diferencijalno ponderirane linearne kombinacije jednaka je zbroju aritmetičkih

sredina njezinih komponenti, pomnoženih s pripadajućim ponderima, tj. sumi ponderiranih

aritmetičkih sredina.

Na ovaj način se pojedinom zadatku može pridijeliti različit udio pri kreiranju aritmetičke sredine

ukupnih rezultata.

Varijanca diferencijalno ponderirane linearne kombinacije određena je izrazom:

Pri čemu

kjwMM jjDPU ,...,1,)(

jijiijiiu wwrwVV 22

64

i = 1,...,k , j = 1,...,k , i < j

Iz prethodnog izraza očito je da će na varijancu ukupnih testovnih rezultata utjecati varijance

zadataka, njihove međusobne korelacije, ali i vrijednosti pondera pridanih pojedinim zadacima.

Pod različitim faktorskim modelima moguće je ponderiranjem maksimalizirati projekcije zadataka

na prvu glavnu komponentu, te izraziti ukupni rezultat u maniri faktorskih bodova, što predstavlja

iskorak iz klasične teorije. U ovom slučaju ponderima se nastoji kreirati faktorski rezultat za koji će

vrijediti da omogućuje maksimalne korelacije sa zadacima, odnosno da objašnjava najveću moguću

količinu varijance u zadacima.

To se može činiti u Hotellingovoj maniri ponderirajući zadatke tako da im se maksimaliziraju

projekcije na prvu glavnu komponentu ili prvi zajednički faktor. Može se dokazati da za ukupni

rezultat izražen kao prva glavna komponenta vrijedi da ima najveću moguću pouzdanost pod

modelom unutarnje konzistencije. Spomenuti faktorski modeli veći značaj u linearnoj kombinaciji

pridaju zadacima koji su bolji prediktori latentnog predmeta mjerenja. Pored toga optimalnim

ponderiranjem uratka u zadacima može se maksimalizirati korelacija ukupnih testovnih rezultata s

nekim vanjskim kriterijem.

McDonald (1999), Burt (prema Gulliksen, 1950) i Gulliksen (1950) posvetili su dosta pažnje

problemu ponderiranja i došli do sličnih zaključaka. Efikasnost pondera u mijenjanju osobina

varijance zajedničkog faktora ovisi o nekoliko činitelja.

a) ovisi o rasponu pondera pridanih komponentama (zadacima) u odnosu na njihovu aritmetičku

sredinu. Što je veći ovaj omjer, veća je mogućnost da tako ponderirani ukupni rezultat ne korelira

visoko s nekim drugačije ponderiranim rezultatom. Ako ponderi u dva slučaja koreliraju potpuno,

takva će biti i korelacija formiranih ukupnih rezultata.

b) Što su veće interkorelacije među komponentama, to će biti veća korelacija između dva različito

ponderirana kompozitna rezultata.

c) Što je veći broj komponenti, to će biti manji efekt ponderiranja na izmjenu karaktera

kompozitnog rezultata.

Diferencijalno ponderiranje je efikasnije kod kratkih testova, dok iznad 10 ili 20 zadataka

ima sve manji efekt. Isto tako ima više efekta kad su korelacije među zadacima niže. Efikasno

ponderiranje pojedinog zadatka ovisi o njegovoj varijanci, te kovarijancama s drugim zadacima.

Složeniji modeli teorije testova u osnovi predstavljaju neku vrstu diferencijalnog

ponderiranja uratka u zadacima u realnom ili latentnom prostoru. Stoga ovi zaključci mogu biti

razmotreni i u tom kontekstu.

Empirijska istraživanja pokazuju da ove procedure ne dovode do značajnijih promjena pouzdanosti

ukupnih rezultata (Ghiselli, 1964; Wolf, 1975). Od naših autora Krković i Kulenović (1976)

razmatraju 21 različiti oblik diferencijalnog ponderiranja uratka u zadacima, te pokazuju da su

različito definirani kompozitni rezultati visoko redundantni. Ipak ponderiranje rezultira značajnim

65

povećanjem osjetljivosti rezultata, tj. brojem različitih rezultata. Metode izbora zadataka i teorija na

kojoj su zasnovane moraju biti direktno povezane s metodama bodovanja testa (Gulliksen, 1950).

9.3. Standardizacija uratka u zadacima

Moguće je također pri izražavanju ukupnih rezultata, uradak u zadacima ili dijelovima testa

transformirati u standardizirane z-vrijednosti, čime se izjednačava udio svake čestice u varijanci

kompozita.

k

j

ijiz zU1

)(

U slučaju standardizacije uratka u zadacima svaki zadatak ima jednaku varijancu te jednako

doprinosi varijanci ukupnih rezultata.

Na razini ispitanika uradak u svakom zadatku sada ne mora nužno donositi jednak broj bodova, već

će ovisiti o težini zadatka. Dva ispitanika koji su točno riješili jednak broj zadataka različite težine

mogu imati različit ukupni rezultat. U tablici su prikazani rezultati jednog ispitanika u pet zadataka.

U jednom slučaju njegov rezultat izražen je kao broj točnih odgovora (X), dok su u drugom slučaju

prethodno standardizirani pa tek onda zbrojeni (z).

z1 z2 z3 z4 z5 Ukupni

rezultat

M 0,1 0,3 0,5 0,7 0,9

s.d. 0,3 0,46 0,5 0,46 0,3

z 3 1,52 1 0,65 0,33 6,5

X 1 1 1 1 1 5

M = aritmetička sredina zadatka

s.d. = standardna devijacija zadatka

Z= individualni rezultat izražen kao z-vrijednost

X = uradak u zadatku bodovan s 0 ili 1

Standardizacija predstavlja linearnu transformaciju i nema efekta na linearne mjere interkorelacija,

no ima efekta na ukupnu varijancu kompozita jer mijenja varijance zadataka i njihove kovarijance.

Ovako definiran ukupni rezultat odgovara prvom centroidnom faktoru u kontekstu Thurstone-ovog

faktorskog modela. Tako definiran vektor predstavlja centroid u prostoru vektora manifesnih

varijabli zadataka.

Aritmetička sredina ukupnih rezultata u tom slučaju iznosit će nula neovisno o težini zadataka.

0...21 zkzzUz MMMM

66

Varijanca jednostavne aditivne linearne kombinacije varijabli izraženih u z-vrijednostima:

Što odgovara sumi svih elemenata korelacijske matrice zadane članicama linearne kombinacije

Pri čemu

i = 1,...,k , j = 1,...,k , i < j

Standardnu devijaciju kompozita i u ovom slučaju možemo izračunati na osnovi indeksa

pouzdanosti zadataka, tj. umnoška spurioznih koeficijenata diskriminativne valjanosti i standardnih

devijacija zadataka. Ako su sada sve standardne devijacije zadataka jednake jedinici, proizlazi da je

standardna devijacija testa jednaka zbroju spurioznih korelacija zadataka s ukupnim rezultatom u

testu.

k

i

iuu r1

riu = point-biserijalna korelacija zadatka i s ukupnim rezultatom u (spuriozna)

i = standardna devijacija zadatka i

u = standardna devijacija ukupnih rezultata

10. Ispitivanje psihometrijskih osobina konačne verzije testa – validacija testa

Kada je dovršena izrada prve verzije testa i ispitane njezine preliminarne karakteristike može se

preći na primjenu testa na većim (reprezentativnim) uzorcima ispitanika, te započeti s temeljitom

validacijom instrumenta. Kako se navodi u Standardima za pedagoško i psihološko testiranje

(1999.) validacija je zajednička odgovornost autora i korisnika testa. Autor je odgovoran za

pribavljanje relevantnih podataka i obrazloženje predložene upotrebe testa. Korisnik testa ima

konačnu odgovornost za procjenu upotrebljivosti testa u okolnostima u kojima ga treba primijeniti.

Kada se upotreba testa razlikuje od one koju je opravdao njegov autor, korisnik snosi posebnu

odgovornost za validaciju. Ova faza podrazumijeva odabir prikladnih postupaka za procjenu svih

relevantnih psihometrijskih karakteristika testa kao što su valjanost, pouzdanost, objektivnost ili

osjetljivost. Pored toga potrebno je kontinuirano raditi na prikupljanju empirijskih dokaza i

teorijskih argumenata koji potkrepljuju zaključke i specifične interpretacije izvedene iz testovnih

rezultata, a koje proizlaze iz predloženih upotreba testa. Od autora se očekuje da osmisli nacrte

validacijskih studija kojima će argumentirati opravdanost različitih oblika uporabe testovnih

rezultata. Za većinu testova poželjno je da, zbog veće objektivnosti i nepristranosti postupka,

njihovu validaciju provode neovisni stručnjaci, dakle da to ne radi samo autor testa. Implicitna

pretpostavka pri ostvarivanju svih razmatranih psihometrijskih karakteristika testa jest korektna

iju rkV 2

67

primjena testa u strogo definiranim uvjetima jer kako navodi Guilford (1954) provođenje testiranja

nalik je provođenju eksperimenta. Validacija se može promatrati kao prikupljanje uvjerljive

znanstvene argumentacije koja opravdava planiranu interpretaciju testovnih rezultata i njihovu

relevantnost za predviđene svrhe. Konceptualni okvir upućuje na vrste podataka koje se mogu

prikupljati da bi se ocijenile planirane interpretacije u svjetlu svrhe testiranja. Kako validacija

napreduje i prikupljaju se novi podaci o značenju testovnih rezultata, može se ukazati potreba za

mijenjanjem testa, njegovog konceptualnog okvira pa čak i konstrukta koji se želi mjeriti (APA.

1999.)

11. Podaci potrebni za vrednovanje rezultata u testu i ključ za bodovanje

Upotrebljivost testa u većini slučajeva nije potpuna bez normativnih podataka na osnovi kojih

korisnik može vrednovati pojedini individualni rezultat ispitanika. Zbog toga je na osnovi primjene

testa na uzorcima reprezentativnim za ciljane populacije potrebno prirediti tablice s normativnim

vrijednostima, na osnovi kojih je moguće svaki rezultat vrednovati u odnosu na prosječni uradak

pripadnika neke ciljane populacije. Takve tablice omogućuju konverziju uratka u testu na različite

ljestvice poput decila ili centila, odnosno z-vrijednosti, T-ljestvicu, devijacioni kvocijent

inteligencije ili neku drugu ljestvicu s poznatim karakteristikama. U većini slučajeva poželjno je

pored normi za opću populaciju (npr. sve odrasle državljane u dobi od 18 do 65 godina) prirediti

specifične norme za pojedine poduzorke koji mogu biti od interesa korisnicima u različitim

situacijama selekcije ili dijagnostike (npr. posebne norme za muškarce ili žene, posebne dobne

kategorije, pojedina usmjerenja srednjih škola, stanovnike mjesta različite veličine i sl.). U sljedećoj

tablici naveden je primjer za vrednovanje rezultata u testu u percentilima i T-vrijednostima

68

Tablica 24. Norme za test X izražene u percentilima i T-

vrijednostima

BRUTO REZULTAT Uzorak A Uzorak B Uzorak C

C T C T C T

3 1 3 1 19 1 25

4 5 21 26

5 8 22 28

6 10 24 29

7 12 25 30

8 14 26 2 32

9 16 28 4 33

10 19 29 5 35

11 21 2 31 6 36

12 23 4 32 10 38

13 25 6 34 13 39

14 2 27 8 35 16 40

15 29 10 36 20 42

16 4 32 12 38 26 43

17 6 34 15 39 31 45

18 10 36 18 41 35 46

19 11 38 21 42 40 47

20 15 40 25 44 44 49

21 21 43 29 45 51 50

22 26 45 35 46 55 52

23 34 47 40 48 60 53

24 40 49 45 49 65 55

25 50 51 50 51 72 56

26 58 53 55 52 76 57

27 66 56 59 54 79 59

28 75 58 64 55 83 60

29 81 60 68 56 97 62

30 87 62 75 58 90 63

31 91 64 79 59 92 64

32 96 67 84 61 93 66

33 97 69 89 62 95 67

34 99 71 90 64 69

35 73 92 65 96 70

36 75 95 66 97 72

37 76 97 68 98 73

38 80 99 69 99 74

39 82 71 76

40 84 72 77

M 24.41 24.48 20.80

SD 4.584 7.004 7.065

69

Kod pojedinih instrumenata koji se koriste u dijagnostici potrebno je odrediti kritične vrijednosti na

osnovi kojih se ispitanici mogu razvrstavati u pojedine dijagnostičke kategorije.

Tako npr., u upitniku depresivnosti u kojemu rezultati mogu varirati u rasponu od 20 do 80 korisnik

može koristiti sljedeće vrijednosti kako bi odredio ozbiljnost depresivnosti kod pojedinog klijenta.

Rezultat Dijagnostička kategorija

20-49 normalan rezultat koji ne ukazuje na depresivnost

50-59 blaga depresivnost

60-69 srednja depresivnost

70 i više ozbiljna depresivnost koja zahtjeva klinički tretman

Ukoliko korisnik ne raspolaže valjanim normama za vrednovanje rezultata onda je upotrebljivost

instrumenta značajno smanjena. Pored normi oprema testa mora sadržavati cjelovitu uputu za

bodovanje uratka u zadacima, tj. protokol za ocjenjivanje (ključ za bodovanje).

12. OPREMA I DOKUMENTACIJA TESTA

Autor testa dužan je potencijalnim korisnicima prirediti sve potrebne informacije važne za odabir

testa u skladu s potrebama korisnika, upute za odgovarajuću primjenu testa, postupke bodovanja i

vrednovanja rezultata te prikladnu interpretaciju rezultata. U Standardima za pedagoško i

psihološko testiranje (APA, 1999) navodi se da se testovnom dokumentacijom specificira priroda

testa, planirana namjena, procesi uključeni u njegov nastanak, tehničke informacije u vezi s

ocjenjivanjem, interpretacijom i dokazima valjanosti i pouzdanosti, skaliranje i normiranje (ako je

potrebno za opisivani test) i upute za primjenu i interpretaciju testa. Ove informacije se objavljuju u

dokumentima kao što su testovni priručnici, tehnički priručnici, upute za korisnike, ilustrativni

uzorci, ispitne zbirke, upute za voditelje testiranja i ocjenjivače ili ogledni materijali za ispitanike.

Testovni dokumenti trebaju sadržavati dovoljno informacija da korisnici i recenzenti mogu

prosuditi prikladnost testa za njegove deklarirane svrhe.

U opremi testa potrebno je dokumentirati racionalu testa, njegove preporučene namjene, argumente

u prilog tih namjena i informacije koje omogućavaju interpretaciju rezultata. Ako je razumno

pretpostaviti mogućnost određenih zloupotreba testa, potrebno je eksplicitno iskazati odgovarajuća

upozorenja. Testovni dokumenti trebaju specificirati kvalifikacije koje mora imati osoba da bi

mogla primjenjivati i adekvatno interpretirati testovne rezultate. Svaka forma testa i njegov

dokument treba imati datum autorskih ili izdavačkih prava.

izrada testa i analiza zadataka

Documents