betrouwbaarheid en validiteit: alleen een kwestie van goed meten ? math candel, methodologie &...
TRANSCRIPT
Betrouwbaarheid en validiteit:
Alleen een kwestie van goed meten ?
• Math Candel, Methodologie & Statistiek, Universiteit Maastricht
Overzicht:
• Klassieke testtheorie
• Methoden en technieken:– Betrouwbaarheid– Overeenstemming– Validiteit
• Samenvatting
Klassieke testtheorie:
Y T F E
• Y: geobserveerde score• T: score op goede kenmerk (true trait)• F: score op foute kenmerk (false trait)• E: meetfout
• Betrouwbaarheid: invloed van E• Validiteit: invloed van F
Methoden t.a.v. betrouwbaarheid
• Test-hertest betrouwbaarheid– korte periode: geheugeneffecten– lange periode: kenmerk zelf is veranderd
• Cronbach’s – gevoelig voor betrouwbaarheid en
itemheterogeniteit
Cronbach’s • VOEG schaal • Subschaal: klachten t.a.v. spijsvertering:
• Is uw eetlust minder dan normaal ?• Hebt u nogal eens een opgezet gevoel in uw maagstreek ?• Hebt u nogal eens pijn in uw maagstreek ?• Is uw buik nogal eens van streek ?• Is uw maag nogal eens van streek ?• Hebt u nogal eens vage maagklachten ?
• Antwoordopties: 1 = ja, 2 = nee
RELIABILITY ANALYSIS (SPSS)
Corrected Alpha if itemItem total deletedCorrelation
____________________________________Item1 0.2923 0.8623Item2 0.6870 0.7976Item3 0.7474 0.7831Item4 0.4325 0.8445Item5 0.7268 0.7913Item6 0.8108 0.7678____________________________________
Alpha = 0.8381
Mengen van schalen
• Belang gezondheid– B1: Gezondheid is
het allerbelangrijkste in het leven van een mens
– B2: Voor gezondheid moet je alles over hebben, etc….
• Locus of control– L1: Gezondheid
wordt bepaald door krachten die je niet kunt beinvloeden
– L2: Je kunt weinig doen aan je eigen gezondheid, etc….
RELIABILITY ANALYSIS (SPSS)
Corrected Alpha if itemItem total deletedCorrelation
____________________________________B1 0.2481 0.4899B2 0.3398 0.4469B3 0.2590 0.4854L1 0.3492 0.4335L2 0.2110 0.5096L3 0.2431 0.4903____________________________________
Alpha = 0.5225
Methoden t.a.v. overeenstemming
• Nominale/Ordinale metingen
• Twee beoordelaars• VB: Palpatiemethode
om stugheid borstweefsel te bepalen
0
1
2
3
4
5
patie
nt 1
patie
nt 2
patie
nt 3
patie
nt 4
patie
nt 5
patie
nt 6
patie
nt 7
patie
nt 8
patie
nt 9
patie
nt 1
0
patie
nt 1
1
patie
nt 1
2
• Oij geobserveerde frequentie in rij i en kolom j
• Eij verwachte frequentie in rij i en kolom j
ARTS B
I II III IV Rij-totaal
I 1 2 0 0 3
ARTS A II 0 0 3 0 3
III 0 0 0 3 3
IV 0 0 1 2 3
Kolom-totaal
1 2 4 5 N=12
…………...
o e
e
P P
P1
ij i jE p p N * *
o
ijji
P
O
N
e
ijji
P
E
N
Correlatiecoefficient• Pearson’s r = 0.82 vs Cohen’s = 0.00
• Pearson’s r is een maat voor associatie:
Best fittende lijn
Beoordeling van arts A
4.54.03.53.02.52.01.51.0.5
Be
oo
rde
ling
van
art
s B 5
4
3
2
1
0
Overeenstemming in 2 situaties
0
1
2
3
4
5
patient 1
patient 2
patient 3
patient 4
patient 5
patient 6
patient 7
patient 8
patient 9
patient 1
0
patient 1
1
patient 1
2
0
1
2
3
4
5
patient 1
patient 2
patient 3
patient 4
patient 5
patient 6
patient 7
patient 8
patient 9
patient 1
0
patient 1
1
patient 1
2
• = 0.423 • = 0.394
Gewogen Kappa
o
ij ijji
P
w O
N
e
ij ijji
P
w E
N
• Oij geobserveerde frequentie in rij i en kolom j
• Eij verwachte frequentie in rij i en kolom j
• wij gewicht voor rij i en kolom j
Kwadratische gewichten
ijwi j
K
1
1
2
2( )
( )
• i = rijnummer
• j = kolomnummer
• K = aantal klassen
1 2
2
21
1 2
4 11
19
89
w
( )
( )
Overeenstemming in 2 situaties
0
1
2
3
4
5
patient 1
patient 2
patient 3
patient 4
patient 5
patient 6
patient 7
patient 8
patient 9
patient 1
0
patient 1
1
patient 1
2
0
1
2
3
4
5
patient 1
patient 2
patient 3
patient 4
patient 5
patient 6
patient 7
patient 8
patient 9
patient 1
0
patient 1
1
patient 1
2
• = 0.423
• w = -0.184
• = 0.394
• w = 0.762
Overeenstemming
0
5
10
15
20
25
30
35
40
45
patie
nt 1
patie
nt 2
patie
nt 3
patie
nt 4
patie
nt 5
patie
nt 6
patie
nt 7
patie
nt 8
patie
nt 9
patie
nt 10
patie
nt 11
patie
nt 12
• Kwantitatieve metingen• Twee beoordelaars• VB: TCM meting om
stugheid borstweefsel te bepalen
Bland & Altman scatterplot
Gemiddelde
3736
3534
3332
3130
2928
2726
2524
2322
2120
1918
17
Ve
rsch
il 20
10
0
-10
-20
• gemiddelde van de verschillen = 0
• geen correlatie tussen gemiddelden en verschillen
• geen uitschieters in verschillen: 02*SD(verschil)
Methoden t.a.v. validiteit
• Predictieve validiteit: Voorspelkracht van de meting– Hoe goed voorspelt iemand’s CITO score zijn/haal
schoolcarriere ?– VOEG subschalen goede voorspellers van iemand’s
huisartsbezoek ? (maagklachten, hart/long klachten, bewegingsklachten, vermoeidheidsklachten)
Constructvaliditeit/ Nomologische validiteit
• Gedraagt de meting zich zoals je dit op basis
van kennis of theorie mag verwachten ? – Convergente validiteit: Hangen twee metingen van
hetzelfde construct sterk met elkaar samen ?– Discriminante validiteit: Hangen twee metingen
van verschillende constructen zwak met elkaar samen ?
Discriminante validiteitX : m a a g k l a c h t e n s c o r eY : b e w e g i n g s k l a c h t e n s c o r e ( X , Y ) = 0 . 2 6 7 0
C o r r e c t i e v o o r a t t e n u a t i e :
B e t r o u w b a a r h e d e n s c h a t t e n m e t C r o n b a c h ’ s z o d a t :
( , )( , )
( , ' ) * ( , ' )X YT TX Y
X X Y Y
( , ).
. * ..X YT T 0 2 6 7 0
0 8 6 2 3 0 5 6 9 20 3 8 11
Samenvatting• Verschillende statistische procedures en maten:
meer dan goed meten alleen – Cronbach’s niet geschikt voor zeer heterogene items – Associatiematen geven geen inzicht in
overeenstemming– Kappa vs gewogen kappa vs Bland & Altman
scatterplot – Verscheidene procedures/maten voor validiteit