Philipp K. Masur
Konfirmatorische Faktorenanalyse oder
Item-Response-Theory-Analyse?
Ein Vergleich beider Verfahren zur
Entwicklung eines Leistungstests
2
Wie modelliere ich ein Konstrukt?
Ausgangslage
Phänomene lassen sich häufig nicht direkt messen
Abstrakte Konstrukte (z. B. Intelligenz, Medienkompetenz, Einstellungen,…)
Nur indirekt über beobachtbare Indikatoren (Items) erfassbar
Schätzung der latenten Variable
Zwei Modell-Familien:
Strukturgleichungsmodelle (SEM)
(Jöreskog, 1967; 1970; 1971)
Modelle auf Basis der Item-Response-Theory (IRT)
(Rasch, 1960; Lord & Novick, 1968; Andersen, 1972; Bock & Aitken, 1981)
3
Überblick über beide Modellarten
Theoretischer Hintergrund
Strukturgleichungsmodelle
Multivariates Verfahren mit konfirmatorischen Charakter
In der KoWi vergleichsweise häufig eingesetzt (z.B. zur Prüfung von
Hypothesensystemen, aber auch zur Skalenkonstruktion)
IRT-Modelle
Verfahren, welche die Lösungswahrscheinlichkeit eines Items als Funktion
aus Personenfähigkeit und Itemschwierigkeit modellieren
In der KoWi eher selten (z. B. bei der Entwicklung von Leistungstests)
4
Vergleich beider Verfahren
Theoretischer Hintergrund
Strukturgleichungs- und (einfache) IRT-Modell formal äquivalent
Sowohl bei dichotomen, als auch bei polytomen Items
(Lord & Novick, 1968, Takane & de Leeuw, 1987; Kim & Yoon, 2011)
Schätzung gleichartiger Modelle in beiden Verfahren möglich
(Glockner-Rist & Hoijtink, 2009)
Unterschiede in der Anwendung
Bei der Skalenkonstruktion: Fokussierung auf unterschiedliche Aspekte
In der hypothesen-basierten Forschung: Umgang mit Messfehlern
5
Formale Äquivalenz
Theoretischer Hintergrund
Faktorladung (λ)
SEM
Diskrimination (a)
IRT
Trennschärfe
Threshold (ν)Location /
Itemschwierigkeit (b)
Lösungswahr-
scheinlichkeit
Ratewahr-
scheinlichkeit (c)
Ratewahr-
scheinlichkeit
6
Potenzielle Nachteile der CFA bei der Skalenkonstruktion
Theoretischer Hintergrund
Häufig Vernachlässigung der
Schwierigkeit einzelner Items und
dadurch oft Einschränkung des
eigentlichen Merkmalsraumes
Häufig unverhältnismäßige
Spezifizierung des Konstruktes
durch Eliminierung vermeintlich
unpassender Items
Fokussierung auf formale Validität
und erreichen eines passenden
Modells
SEM IRT
Berücksichtigung unterschiedlich
schwieriger Items und dadurch
Fokussierung auf Abdeckung des
Merkmalsraumes
Evaluation der Modelpassung auf der
Personenebene
Überprüfung der Äquidistanz-
annahme von Antwortkategorien
Adaptives Testen
7
Potenzielle Nachteile des IRT-Modells in der hypothesen-
basierten Forschung
Theoretischer Hintergrund
Berücksichtigung des Messfehlers
bei der Schätzung der latenten
Variable
Flexible Integration von
Messmodellen und strukturellen
Komponenten innerhalb eines
Modells
Dadurch genauere Schätzung
möglicher Effekte oder Einflüsse
auf das Konstrukt
SEM IRT
Fehlende Berücksichtigung des
Messfehlers bei Benutzung des IRT-
Scores
Keine Berücksichtigung von
strukturellen Komponenten
Vorteile bei der Diagnostik
(Ermittlung der „wahren“ Fähigkeit,
Einstellung,…) durch verbesserte
Schätzung des Factorscores
8
Ziel dieser Untersuchung
Forschungsfrage
1. Skalenkonstruktion eines Leistungstest (dichotome Antwortstruktur) mit
beiden Verfahren
Kategoriale
Konfirmatorische
Faktorenanalyse
(CCFA)
Zwei-
Parameter-
Modell
(2PL)
WLSMV-Schätzung
(Berücksichtigung der
Thresholds)
Im Gegensatz zum
Rasch(1PL)-Model
Berücksichtigung der
Itemschwierigkeit und
der Trennschärfe
9
Ziel dieser Untersuchung
Forschungsfrage
1. Skalenkonstruktion eines Leistungstest (dichotome Antwortstruktur) mit
beiden Verfahren
2. Herausstellen von Unterschieden bei der Beurteilung der Items
3. Vergleich der finalen Modelle
10
Datengrundlage
Methode
Online-Befragung zum Thema Privatheit (Trepte et al., under review)
Rekrutierung über das Sosci-Panel (Leiner, 2012)
1,077 vollständige Datensätze
Soziodemographische Merkmale
Geschlecht: 54% weiblich
Alter: M = 37 Jahre (SD = 14.4)
Bildung: 23.8% Abitur, 11.2% Bachelor, 35.8% Master-Abschluss
11
Messinstrument
Methode
Itempool zur Konstruktion der Online Privacy Literacy Scale
40 dichotome Wissensfragen (Wahr/Falsch oder Multiple Choice)
Messung von Privatheitskompetenz in fünf Dimensionen
Wissen über institutionelle Praktiken der Datensammlung und -auswertung
Wissen über technische Aspekte des Datenschutzes
Wissen über Datenschutzrecht
Wissen über Datenschutzstrategien
“Unternehmen kombinieren Daten, die auf verschiedenen Webseiten im
Internet hinterlassen werden und stellen daraus Nutzerprofile zusammen“
12
Skalenkonstruktion auf zwei Wegen
Methode
Methode CFA IRT
1. Schritt Schätzen des latenten Konstruktes
mit WLSMV (Muthen et al., 1997)
Schätzen eines 2PL-Modells
2. Schritt Beurteilen der Güte
auf Basis des Global-Fits (χ2),
Faktorladungen und Modifikation-
Indizes
Beurteilen der Güte
auf Basis des Global-Fits
(M2), der Itemschwierigkeit und der
Itemtrennschärfe
3. Schritt Ausschließen entsprechender
Items
Ausschließen entsprechender
Items
4. Schritt Erneutes Beurteilen der Güte Erneutes Beurteilen der Güte
5. Schritt Überführen in das jeweils andere Modell
13
Wissen über inst. Praktiken (CCFA-Modell)
Ergebnisse
Wissen
über inst.
Praktiken
TE
C0
1
TE
C0
2
TE
C03
TE
C0
4
TE
C0
5
TE
C0
6
TE
C0
7
TE
C0
8
.91 .49 .65 .55 .55 .83 .63 .88
Model Fit: WLMSV, χ2(20) = 60.17, p < .001; CFI = .97, RMSEA = .04, WRMR = 1.07
14
Wissen über inst. Praktiken (CCFA-Modell)
Ergebnisse
Wissen
über inst.
Praktiken
TE
C0
1
TE
C03
TE
C0
5
TE
C0
6
TE
C0
7
TE
C0
8
.91 .69 .54 .80 .60 .90
Model Fit: WLMSV, χ2(9) = 16.86, p = .051; CFI = .99, RMSEA = .03, WRMR = .67
15
Wissen über inst. Praktiken (2PL-Modell)
Ergebnisse
Model Fit: M2(20) = 55.42, p < .001; CFI = .98, RMSEA = .04, SRMR = .05
PR
A 0
1
PR
A 0
3
PR
A 0
8
PR
A 0
5
PR
A 0
6
PR
A 0
7
PR
A 0
4P
RA
02
16
Wissen über inst. Praktiken (2PL-Modell)
Ergebnisse
17
Wissen über inst. Praktiken (2PL-Modell)
Ergebnisse
Model Fit: M2(9) = 12.10, p = .21; CFI = 1.00, RMSEA = .02, SRMR = .04
18
Wissen über techn. Aspekte (CCFA-Modell)
Ergebnisse
Wissen
über tech.
Aspekte
TE
C0
1
TE
C0
2
TE
C03
TE
C0
4
TE
C0
5
TE
C0
6
TE
C0
7
TE
C0
8
.58 .74 .90 .82 .86 .84 .69 .38
Model Fit: WLMSV, χ2(20) = 90.89, p < .001; CFI = .98, RMSEA = .06, WRMR = 1.25
19
Wissen über techn. Aspekte (CCFA-Modell)
Ergebnisse
Wissen
über tech.
Aspekte
TE
C0
2
TE
C03
TE
C0
4
TE
C0
5
TE
C0
6
.73 .88 .82 .88 .85
Model Fit: WLMSV, χ2(5) = 30.02, p < .001; CFI = .99, RMSEA = .07, WRMR = 1.00
20
Vergleich beider Modelle
Ergebnisse (Wissen über inst. Praktiken)
Methode CFA-Skalenkonstruktion IRT-Skalenkonstruktion
Ausgeschlossene
ItemsItem 02 und 04 Item 02 und 03
χ2(9) 16.86, p = .05 13.89, p = .13
M2(9) 13.31, p = .15 12.10, p = .21
21
Wissen über techn. Aspekte (2PL-Modell)
Ergebnisse
Model Fit: M2(20) = 86.49, p < .001; CFI = .98, RMSEA = .06, SRMR = .05
TE
C 0
7
TE
C 0
2T
EC
05
TE
C 0
6
TE
C 0
3
TE
C 0
1
TE
C 0
4
TE
C 0
8
22
Wissen über techn. Aspekte (2PL-Modell)
Ergebnisse
23
Wissen über techn. Aspekte (2PL-Modell)
Ergebnisse
Model Fit: M2(5) = 13.71, p = .02; CFI = .99, RMSEA = .04, SRMR = .03
24
Vergleich beider Modelle
Ergebnisse (Wissen über techn. Aspekte)
Methode CFA-Skalenkonstruktion IRT-Skalenkonstruktion
Ausgeschlossene
ItemsItems 08, 07 und 01 Items 08, 06 und 02
χ2(9) 30.02, p < .001 16.11, p = .01
M2(9) 25.83, p < .001 13.70, p = .02
25
Erkenntnisse aus der beispielhaften Skalenkonstruktion
Diskussion
Beide Verfahren führen zu ähnlichen Modellen
In diesem Fall verfügen die über IRT konstruierten Skalen (zufällig?) über
einen etwas besseren Fit
Unterschiedliche Aspekte werden bei der Konstruktion berücksichtigt
IRT ermöglicht die Identifikation psychometrisch redundanter Items
SEM fokussiert die Spezifizierung des Konstruktes
26
Relevanz für die Kommunikationswissenschaft
Fazit und Ausblick
In vielen Fällen ist die Diagnostik von Individuen von Bedeutung
Beispiele: Medienkompetenz, Mediensucht, politische Einstellung,
Wertvorstellung,…
Oft ist auch die Bestimmung einer latenten „Position“ von Interesse
Beispiel: Einschätzung der politischen Position eines Akteurs oder mehrerer
Akteure anhand von Stellungsnahmen zu unterschiedlichen Themen
IRT-Modelle können bessere und vergleichbarere Scores liefern!
27
Vorschlag: Kombination beider Verfahren
Fazit und Ausblick
Auch wenn die Diagnostik von untergeordnetem Interesse sein sollte:
Setzt man die “IRT-Brille” auf, berücksichtigt man andere Aspekte bei der
Skalenkonstruktion
Integration von schwierigen und einfachen Items, bei gleichzeitiger
Berücksichtigung der Itemtrennschärfe: Abdeckung des Merkmalsraumes
Evaluation der Model-Passung auf der Personenebene
Die finale Skala kann anschließend wieder in ein SEM überführt werden, um
bei der hypothesenbasierter Forschung die Messfehler zu berücksichtigen
Vielen Dank für Ihre Aufmerksamkeit!
Institut für Kommunikationswissenschaft
Fachgebiet Medienpsychologie (540 F)
Universität Hohenheim
70599 Stuttgart
Philipp K. Masur
Literatur
29
Andersen, E. B. (1972). The numerical solution of a set of conditional estimation equations. Journal of the Royal Statistical
Society, Series B, 34, 42-54.
Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: an application of an EM algorithm.
Psychometrika, 46, 443-459.
Glockner-Rist, A., & Hoijtink, H. (2003). The best of both worlds: Factor analysis of dichotomous data using item response theory
and structural equation modeling. Structural Equation Modeling: A Multidisciplinary Journal, 10(4), 544–565.
doi:10.1207/S15328007SEM1004_4
Kim, E. S., & Yoon, M. (2011). Testing measurement invariance: A comparison of multiple group categorical CFA and IRT.
Structural Equation Modeling: A Multidisciplinary Journal, 18(2), 212–228. doi:10.1080/10705511.2011.557337
Jöreskog, K. G. (1967). Some contributions to maximum likelihood factor analysis. Psychometrika, 32, 443-482
Jöreskpg, K. G. (1969). A general approach to confirmatory maximum likelihood factor analysis. Psychometrika, 34, 183-202.
Jöreskopg, K. G. (1970). A general method for analysis of covariance structures. Biometrika, 57, 239-251.
Leiner, Dominik J. (2012). SoSci Panel: The Noncommercial Online Access Panel. Poster presented at the GOR 2012, 6th
March, Mannheim. Available fromhttps://www.soscisurvey.de/panel/download/SoSciPanel.GOR2012.pdf.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison Wesley.
Maydeu-Olivares, A., & Joe, H. (2006). Limited information goodness-of-fit testing in multidimensional contingency tables.
Psychometrika, 71(4), 713–732. doi:10.1007/s11336-005-1295-9
Muthén, B. O., du Troit, S. H. C., & Spisic, D. (1997). Robust inference using weighted least squares and quadratic estimating
equations in latent variable modeling with categorical and continuous outcomes. Retrieved from
http://www.statmodel.com/bmuthen/articles/Article_075.pdf
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational
Research.
Takane, Y., & de Leeuw, J. (1987). On the relationship between item response theory and factor analysis of discretized variables.
Psychometrika, 52(3), 393–408.
Trepte, S., Teutsch, D., Masur, P. K., Eicher, C., Fischer, M., Hennhöfer, A., Lind, F. (2015). Do people know about privacy and
data protection strategies? Towards the "Online Privacy Literacy Scale" (OPLIS). In. S. Gutwirth, R. Leenes & P. de Hert
(Eds.). Reforming European Data Protection Law. (pp. 333-365). Springer Netherlands. doi: 10.1007/978-94-017-9385-8
Trepte, S., Masur, P. K. & Teutsch, D. (under review). Entwicklung und Validierung der Online-Privatheitskompetenzskala.