testtheoretische grundlagen gütekriterien
DESCRIPTION
Testtheoretische Grundlagen Gütekriterien. Seminar: testen und entscheiden Dozentin: dr. s. andree Referentin: lisa scheidler. Übersicht. Einführung Testtheorien Psychologische Tests Die klassische Testtheorie Gütekriterien Hauptgütekriterien Objektivität Reliabilität Validität - PowerPoint PPT PresentationTRANSCRIPT
SEMINAR: TESTEN UND ENTSCHEIDEN
DOZENTIN: DR. S. ANDREE
REFERENTIN: L ISA SCHEIDLER
Testtheoretische Grundlagen
Gütekriterien
2
Übersicht
Einführung Testtheorien Psychologische Tests
Die klassische TesttheorieGütekriterien
Hauptgütekriterien Objektivität Reliabilität Validität
Nebengütekriterien
Einführung3
Klassische Testtheorie
„Messwerte beinhalten den wahren Wert + den Messfehler“
Befasst sich mit unterschiedlichen Bestandteilen von Messwerten
Grundlage für ca. 95 % der psychologischen Testdiagnostik (Stand 1999)
Probabilistische Testtheorie
„Wie hängt das Testverhalten einer oder mehrerer Personen von einem zu erfassenden psychischen Merkmal ab?“
4
Einführung
Theorien sollen erklären, beschreiben und vorhersagen
Probabilistische Testtheorie:Das zugrundeliegende Testmodell erklärt systematische
Zusammenhänge zwischen den Reaktionen des Probanden und spezifischen Testaufgaben mithilfe von latenten Personenvariablen.
Latente vs. manifeste/ beobachtbare Variablen ?
5
Latente vs. Manifeste Variablen
Latente Variablen verborgen, nicht sichtbar können auch Dimensionen oder Konstrukte sein(z.B. IQ,
Extraversion…) nicht direkt beobachtbar, mit Hilfe
beobachtbarer/manifester Variablen , bzw. Items messbarManifeste Variablen
Items sind die beobachtbaren Indikatoren von latenten Variablen
Items finden sich als Aufgaben/Fragen in Tests systematische Zusammenhänge zwischen Itemantworten
( ergeben letztlich latente Variablen)
6
KTT Probabilistische TT (IRT)
Testergebnis entspricht direkt dem Ausprägungsgrad des gemessenen Merkmals.
Problemstellung: Ermitteln des Wertes
für Messfehler, um auf den wahren Wert schließen zu können.
Annahme von Zusammenhang zw. Merkmalsausprägung & Testergebnis kann unterschiedlich sein (WSK- Aussagen)
Problemstellung: Testebene (Items, manifeste V.)
liefert Indikator (meist Funktionen) für Veränderungen auf Merkmalsebene (latente V.)
Klassische vs. Probabilistische Testtheorie
7
Einführung
Was erfassen psychologische Tests? Fähigkeiten Persönlichkeitsmerkmale Psychische Eigenschaften Psychologische Konstrukte (latente Variablen)
„Tests“: …auch: Fragebögen, standard. Interviews/ Beobachtungen,… …sind Verfahren, die nicht durch die getestete Person
verfälscht werden können
8
Einführung
Gibt es den „unverfälschten“ Test?Wodurch werden Tests verfälscht?z.B.:
Soziale Erwünschtheit Motivation Testangst Wahrgenommener Zeitdrück Aufmerksamkeit/Tagesform Unterschungsdauer Vorkenntnisse, z.B. über Test Absichtliche Verfälschungen …
9
Klassische Testtheorie (KTT)
Axiome: 1. Jedes beobachtbare Testergebnis einer Person p im Test t
setzt sich additiv zusammen aus dem „wahren Wert“ und einem Fehlerwert.
2. Der (bei häufiger Messung) erwartete Mittelwert des Fehlers ist 0.
3. Die Größe des Messfehlers ist unabhängig vom wahren Ausprägungsgrad des getesteten Merkmals.
4. Die Messfehler verschiedener Testanwendungen sind voneinander unabhängig.
10
Klassische Testtheorie (KTT)
Ziel der KTT: zeitstabile Merkmale möglichst unverzerrt Erfassen Zu testende Person ist zufällig einer Population
entnommen Testergebnis variiert zufällig (unsystematische
Einflüsse, wie Müdigkeit, werden durch Messfehler heraus gerechnet)
Personen erhalten zu unterschiedlichen Zeitpunkten unterschiedliche Werte
Hypothetische Verteilung entsteht aus unendlich vielen Testungen Annäherung an wahren Mittelwert und Normalverteilung
11
Klassische Testtheorie (KTT)
Wahrer Wert (T) Per Definition der Mittelwert einer hypothetischen
Verteilung ( Ergebnis einer perfekten, fiktiven Messung ohne Verzerrungen etc.)
Nicht beobachtbar, zeitlich stabil
Beobachteter Messwert (X) Tatsächlich gemessener Wert, Ergebnis einer
Datenerhebung Verknüpfungsaxiom: X= T+E Beobachteter Messwert= wahrer Wert T + Messfehler E
12
Klassische Testtheorie (KTT)
Messfehler (E)
Alle unkontrollierbaren und unsystematischen Einflüsse, die den beobachteten Wert vom wahren Wert abweichen lassen.
E= X – T Messfehler ergibt sich aus der Differenz von
beobachtetem Messwert X und wahrem Wert T einer Person
13
Klassische Testtheorie (KTT)
Kritik Grundannahmen sind Axiome, empirisch nicht
überprüfbar Konzept des individuell konstanten wahren Wertes ist
nur für bestimmte Merkmale haltbar KTT verlangt Werte, die metrischen Skalen zugrunde
liegen (keine Ränge etc.) Berücksichtigt nur Gesamtpopulation, keine
Unterpopulationen
KTT hat sich in der praktischen Anwendung bewährt
14
Gütekriterien
Hauptgütekriterien
Objektivität Durchführung Auswertung Interpretation
Reliabilität Retest-Reliabilität Paralleltestreliabilität Innere Konsistenz
• Validitäto Inhaltsvaliditäto Konstruktvaliditäto Kriteriumsvalidität
15
Objektivität
Grundvoraussetzung wissenschaftlicher Messungen /Erhebungen
Die Messung ist unabhängig von bewussten oder unbewussten Einflüssen Des Testleiters Der Ergebnispräsentation
16
Reliabilität
Zuverlässigkeit: Grad der Genauigkeit, mit der ein Test ein bestimmtes Merkmal misst
Unabhängig davon, ob er dieses Merkmal beabsichtigt zu messen
Wird überprüft durch die Reproduzierbarkeit von Messergebnissen
Arten von Wiederholungsmessungen: Paralleltest, Test-Retest, Testhalbierung (split-half)
Man kann immer wieder den selben Fehler machen. Die Ergebnisse sind dann zwar reliabel, aber nicht gültig (valide).!
17
Validität
Misst der Test wirklich, was er wirklich messen soll?
Gültigkeit des Tests entscheidet, ob eine Generalisierbarkeit der Testergebnisse auf Verhalten außerhalb der Testsituation getätigt werden kann!
Gültigkeit von Testergebnissen in der wahren Welt kann nur mit ausreichend Validität erreicht werden.
18
Gruppenarbeit
Hauptgütekriterien Objektivität
Durchführung Auswertung Interpretation
Reliabilität Retest-Reliabilität Paralleltestreliabilität Innere Konsistenz
• Validitäto Inhaltsvaliditäto Konstruktvaliditäto Kriteriumsvalidität
Aufgaben:
1. Kann Validität ohne Reliabilität entstehen?
2. Wie kann man dem Gütekriterium in der Praxis gerecht werden (Objektivität, Reliabilität oder Validität) ?Welche Probleme können auftreten? Beispiele?
Ca. 10 Min Zeit
19
Gütekriterien
Kann Validität ohne Reliabilität entstehen?
Objektivität = notwendig, aber nicht hinreichend für
Reliabilität
= notwendig, aber nicht hinreichend für
Validität
20
Objektivität
Durchführungsobjektivität Unabhängigkeit der Messung vom Versuchsleiter, Interviewer,
usw. während der Durchführung
Wie kann dies realisiert werden? Max. Standardisierung der Testsituation: schriftliche
Anweisungen, standardisierte Frage- und Antwortmöglichkeiten
Min. soziale Interaktion: Verbot eigener Formulierungen durch Interviewer, keine abweichenden Inhalte
„blinder Versuchsleiter“ –nicht in Zielsetzung eingeweiht Merkmale des Versuchsleiters haben ebenfalls Einfluss: z.B.
Attraktivität, Seriosität, Stimmlage, Dialekt, etc. (Brosius et al., 2012)
21
Objektivität
Auswertungsobjektivität Unabhängigkeit vom Testauswerter bei der Auswertung des
Tests egal welcher Auswerter den Test bearbeitet hat, der Proband
erhält immer 102 Punkte im IQ- Test
Wie kann dies realisiert werden? Eindeutige Operationalisierung Standardisierte Messverfahren und einheitliche Skalen (z.B.
durch Multiple-Choice) Standardisierte Kategorien und Regeln bei der Auswertung
offener Antwortmöglichkeiten Statistische Überprüfung der Übereinstimmung mehrerer
Beurteiler möglich durch bestimmte Kennzahlen (z.B. „W“)
22
Objektivität
Interpretationsobjektivität Unabhängigkeit vom Testanwender bei der Interpretation
der Ergebnisse
Wie kann dies realisiert werden? Bewertung von Testergebnissen erfolgt anhand vorher
festgelegten oder analytisch ermittelten Regeln / Kategorien Proband mit 131 Punkten im IQ- Test wird laut Konvention
als „Hochbegabt“ eingestuft ( IQ>130) Einheitliche Festlegung, welche Testwerte welche Schlüsse
nach sich ziehen Arbeit mit Testmanual zentral Angabe einer Normentabelle aus einer Eichstichprobe
Zur Einschätzung der Aussagekraft des Testergebnisses
23
Reliabilität
Retest- Reliabilität Die selbe Stichprobe absolviert den selben Test mit
z.B. 8 Wochen Abstand Korrelation der Messwerte zu Zeitpunkt 1 und 2 Reliabilität gegeben, wenn sich das zu messende
Merkmal nicht verändert hatProbleme:
Übungseffekte Erinnerungseffekte Zeitliche Stabilität der Merkmale Zeitökonomie
24
Reliabilität
Paralleltestreliabilität
Korrellation zwischen beobachteten Messerwerten zweier paralleler Tests
Items sind dabei nicht identisch, besitzen aber die gleichen Mittelwerte, Streuungen und Differenzen (Itemanalyse nötig)
Problem: eine sehr große Auswahl an Items wird benötigt um mittels Analyse geeignete Paare zu finden; dabei können Lerneffekte nicht ausgeschlossen werden
25
Reliabilität
Innere Konsistenz Generalisierte Testhalbierungsmethode Jedes Item eines Tests wird als eigener Teil betrachtet Alle Teile werden korreliert- je stärker die Korrelation,
desto größer die Innere Konsistenz Cronbachs α gibt an, wie genau die Items eines Tests ein
Konstrukt messen Konventionen:> 0,9 exzellent > 0,8 gut > 0,7 akzeptabel >0,6 fragwürdig > 0,5 schlecht
26
Validität
Inhaltsvalidität Vpn repräsentiert das zu erfassende Merkmal
tatsächlich inhaltlich z.B. gutes Ergebnis in Rechtschreibtest- tatsächlich gute
Rechtschreibleistung Überprüfung z.B. durch Experten
Testitems stellen eine inhaltlich repräsentative Stichprobe bezüglich des zu erfassenden Merkmals dar Schwierig, da: keine numerischen Maße/ Kennwerte zur
Beurteilung einer repräsentativen Menge
27
Validität
Konstruktvalidität Durch quantifizierbare Methoden wird überprüft, ob
der Test das misst, was er messen soll z.B. durch Faktorenanalyse: Überprüfung der Passung
von Items zu vorher festgelegten Faktoren (entsprechen psychologischen Konstrukten o.ä.)
Struktursuchende Konstruktvalidität Konvergente Validität: Vergleich eines Tests mit einem
ähnlichen, aber etablierten Test Diskriminante Validität: Test ist abgrenzbar von anderen
– Konzentrationstest soll nur Konzentration und nicht
zusätzlich Intelligenz messen
28
Validität
Kriteriumsvalidität Testergebnisse sagen erfolgreich das Verhalten
außerhalb der Testsituation voraus z.B. Schuleignungstest sagt tatsächlich spätere
Schulleistung vorher ermittelt durch Korrelation zwischen Testvariable und
Kriteriumsvariable Arten von Kriteriumsvalidität:
Vorhersagevalidität Retrospektive Validität: Korrelation mit zurückliegenden
Kriterien Inkrementelle Validität: Beitrag eines Tests zur Vorhersage
eines Kriteriums
29
Gütekriterien
Bsp. : BET- „Büroklammern-Entwirr-Test zur Messung der Intelligenz“ (Diekmann,2007) 100 Büroklammern miteinander verknüpft; in 5 Minuten entwirren. Score = Anzahl der entwirrten Klammern Eine Person ist umso intelligenter , je größer ihr BET
Gütekriterien Objektiv Reliabel Valide
?
30
Gütekriterien
Nebengütekriterien
Skalierung Normierung Testökonomie Zumutbarkeit Unverfälschbarkeit Fairness
31
Nebengütekriterien
Skalierung Die empirischen Merkmalsrelationen werden adäquat
abgebildet mittels der erhobenen Testdaten. Skalenniveau ist entscheidend z.B. lassen nur metrische Skalen Aussagen über
Differenzen & Verhältnisse zu
32
Nebengütekriterien
Normierung Bezugssystem, um die Ergebnisse einer Person zu den
Merkmalsausprägungen anderer Personen einzuordnen und zu interpretieren Vergleichswerte entstehen durch Eichstichprobe, bzw.
Normtabellen Eichstichprobe muss repräsentativ für die
interessierende Personengruppe sein Prozentrangnormen Standardnormen
33
Nebengütekriterien
Testökonomie – Wirtschaftlichkeit des Tests Erkenntnisgewinn und beanspruchte Ressourcen (z.B.
Zeit, Geld,…) eines Tests müssen in einem guten Verhältnis stehen
Finanzieller Aufwand Testmaterial, Software, Arbeitszeit,..
Zeitlicher Aufwand Vorbereitung, Durchführung, Auswertung, Rückmeldung,
…
Konflikt mit anderen Gütekriterien: neuartige, valide Tests mit hohem Erkenntnisgewinn rechtfertigen höhere Kosten
34
Nebengütekriterien
Zumutbarkeit
Der Proband darf zeitlich, körperlich und psychisch nicht übermäßig belastet werden (im Verhältnis zum Erkenntnisgewinn gesehen).
Betrifft ausschließlich Testpersonen Nutzen des Tests und damit die Zumutbarkeit teilweise
schwer einzuschätzen
35
Nebengütekriterien
Unverfälschbarkeit
Das Verfahren sollte so konstruiert sein, dass der Proband seine Testergebnisse nicht durch gezielte Reaktionen/ Antworten beeinflussen kann. Problematisch bei Persönlichkeitsfragebögen, wo das
Prinzip schnell durchschaut werden kann (z.B. aufgrund von sozialer Erwünschtheit)
Bei Leistungstests meist gegeben
36
Nebengütekriterien
Fairness
Testergebnisse führen zu keiner Benachteiligung von Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen z.B. Culture- fair- Tests: Personen müssen über keine
hohen sprachlichen oder anderen kulturabhängigen Fähigkeiten verfügen um den Test zu verstehen/ zu lösen.
37
Literatur
Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium.
Diekmann, A. (2007). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Hamburg: Rowohlt-Taschenbuch-Verlag.
Fisseni, H.J. (1990). Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe- Verlag.
Moosbrugger, H., Kelava, A. (2007) Testtheorie und Fragebogenkonstruktion. Berlin: Springer.
Internet: http://www.uni-bielefeld.de/stud/fpsycho/downloads/Skripte/markus2000.pdf (Zugriff:01.05.2014)