einstellungsforschung mittels umfragen: reliabilität der in der umfrageforschung üblicherweise...

Einstellungsforschung mittels Umfragen:

Reliabilität der in der Umfrageforschung üblicherweise eingesetzten Instrumente

Siegfried Schumann

Klassische Testtheorie

Feststellung 1: (für individuelle Messung)

• Die klassische Testtheorie ist im wesentlichen eine Messfehlertheorie.

• Ihre Grundannahme besteht darin, den Messwert, den man bei der Testung einer Person erhält, grundsätzlich als fehlerbehaftet zu betrachten.

• Jeder empirisch ermittelte Messwert setzt sich nach dieser Vorstellung additiv aus einem "wahren Wert" (true score) und einem Messfehler zusammen. (vgl. Fischer, 1974: 26-28)

Feststellung 2: (für Messung bei Populationen)

Betrachten wir nun nicht wie bisher eine einzige Person, sondern eine Population P

von Personen. Für diese Population lassen sich folgende Sätze ableiten: – 1. Der Erwartungswert des Messfehlers ist gleich null.

(einfacher: Der durchschnittliche Messfehler in jeder beliebigen Population oder Teilpopulation P ist null).

– 2. Die Korrelation zwischen den Fehlern und den wahren Werten eines Tests (über die Personen der Population) ist gleich null.

– 3. Die Korrelation zwischen den Fehlern im Test Xi und den wahren Werten für einen anderen Test Xj (über die Personen der Population) ist gleich null.

– 4. Die Korrelation zwischen den Messfehlern zweier Tests ist gleich null (vgl. Fischer, 1974: 29-32).

LiRE Messwert = wahrer Wert Messwert = wahrer Wert REX

+ Messfehler + Messfehler

Definition „Reliabilität“ nach klass. Testtheorie

Reliabilität:

Reliabilität: (X, X´: parallele Tests!)

Schätzung für Reliabilität:

Möglichkeiten der Reliabilitätsschätzung nach KTT

• Grundidee: Parallele Tests

• Abwandlung I: Test-Retest Methode– Voraussetezung: keine Veränderung im empirischen Relativ – Auch nicht durch Messung!

• Abwandlung II: Interne Konsistenz– Bei Likert-Instrumenten

• Ältere Literatur: Split half + Korrektur für Testverkürzung• Neuere Literatur: Cronbachs Alpha

Reliabilität und zeitliche Stabilitäteinzelner Items

Test-Retest innerhalb der Befragung 2003: (Δt = min)

• Maximalschätzung für Reliabilität Veränderung des Merkmals durch „Reifung“ praktisch ausgeschlossen Nicht ausgeschlossen: Effekte der ersten Befragung (insbes.

Konsistenzeffekte)

• Empirisch ermittelte Korrelationen:– Zuzug von Ausländern erleichtern / einschränken .59– US-Militäreinsatz im Irak gerechtfertigt / nicht gerechtfertigt .60– Kernenergie weiter ausbauen / alle KKWs sofort abschalten .55 – Europ. Vereinigung vorantreiben / geht schon jetzt zu weit .56– Vertrauen in die Gewerkschaften (0 = überhaupt nicht … 10 = voll und ganz) .61– Sympathie für Angela Merkel (-5 = sehr unsympathisch … +5 = sehr symp.) .54– Sympathie für Gerhard Schröder (-5 = sehr unsymp. … +5 = sehr symp) .57

Interesse für Politik: 1990 – 1991 – 1992 (Δ = 1 Jahr)

Interesse für Politik: 1994 – 1998 – 2002 (Δ = 4 Jahre)

Bemerkungen:

• Test-Retest Korrelation sinkt mit Intervalldauer!– Merkmal offenbar nicht völlig zeitlich stabil– Reliabilitätsschätzung mit möglichst kurzem Abstand!

– Verteilung annähernd symmetrisch

Beispiel für eine asymmetrische Verteilung

Wahlnorm: 1992 – 1993a – 1993b (Δ = unter 1 Jahr)

57 (pol. Int.)

Wahlnorm: 1994 – 1998 – 2002 (Δ = 4 Jahre)

Bemerkungen:

• Korrelationskoeffizienten niedriger als bei Interesse für Politik– Mögliche Ursachen:

- Inhalt des Items - Form der Verteilung (hier: asymmetrisch)

• erneut: Test-Retest Korrelation sinkt mit Intervalldauer!– Merkmal offenbar nicht völlig zeitlich stabil– Reliabilitätsschätzung mit möglichst kurzem Abstand!

↓ Verlängerung der Antwortskala

LiRe-Selbsteinschätzung: 1990 – 1991 – 1992

57 (pol. Int.)

LiRe-Selbsteinschätzung: 1994 – 1998 – 2002

Bemerkungen:

• erneut: Test-Retest Korrelation sinkt mit Intervalldauer!– Merkmal offenbar nicht völlig zeitlich stabil– Reliabilitätsschätzung mit möglichst kurzem Abstand!– Korrelationskoeffizienten höher als bisher (mehr

Antwortalternativen!)

• Zwischenfazit:– Merkmale offenbar nicht völlig zeitlich stabil– daher: Reliabilitätsschätzung mit möglichst kurzem Abstand!– Höhe der Korrelationskoeffizienten hängt offenbar ab von:

• Größe der Antwortskala• Symmetrie der Merkmalsverteilung• Inhalt des Items

Reliabilität und zeitliche Stabilitätder REX-Skala

REX: „bestes“ Item: 1994 – 1998 – 2002

REX: „schlechtestes“ Item: 1994 – 1998 – 2002

1.8 3.5

1 2 3 4 5

REX: Stabilität Gesamtskala 1994 – 1998 – 2002

Reliabilität, zeitliche Stabilität und Validität

der ASKO-Skala:

Ein Anwendungsbeispiel

ASKO: Frageformulierung

ASKO: Stabilität einzelner Items 1990 – 1991 – 1992

ASKO: Stabilität Gesamtskala 1990 – 1991 – 1992

REX: Stabilität Gesamtskala 1994 – 1998 – 2002 (wdh.)

ASKO: Reliabilitätsschätzung über int.Konsistenz

ASKO: Validität I (diverse Studien)

ASKO: Validität II (bundesweite Studie 2003)

ASKO: Validität III (diverse Studien)

Übersicht über die Ergebnisse

Δ Test-Retest

Ant-wort-stufen

rt1-t2

Cron-bachs Alpha

Verteilung

Item / Likert-Instrument

0 (1 Befragung) 7 .55 - .60 - unterschiedl. Issues / Symp. / Vertrauen 1 Jahr 5 .57 - symmetrisch Politisches Interesse 4 Jahre dto. .46 - dto. dto. unter 1 Jahr 5 .41 - asymmetrisch Wahlnorm 4 Jahre dto. .21 - dto. dto. 1 Jahr 11 .67 - symmetrisch Links-Rechts Selbsteinsch. 4 Jahre dto. .40 - dto. dto. 4 Jahre 5 .38 - symmetrisch bestes Item von REX 4 Jahre dto. .19 - asymmetrisch schlechtestes Item von REX 4 Jahre - .40 .84 dto. REX (Likert-Instrument) 1 Jahr - .56 .83 symmetrisch ASKO-Skala - - - .70 - .83 dto. dto. (diverse Umfragen)

• Reliabilität einzelner Items ist recht gering (max. um „.60“)

• Sie ist offenbar abhängig …– vom Iteminhalt– von der Anzahl der Antwortvorgaben– von der Verteilung der Antworten

• Reliabilität von Likert-Instrumenten liegt deutlich höher– Dies gilt auch bei dichotom formulierten Items– Unterschiedliche Schätzverfahren liefern unterschiedliche

Ergebnisse!

• Die zeitliche Stabilität von Items und von Likert-Instrumenten ist eher gering.

• Trotz allem sind valide Ergebnisse zu erzielen.

Exkurs: Wissensfragen (2003)

Bedeutung der BTW-Zweitstimme: 49.6%

Anzahl der Bundesländer: unbekannt: 27.5% falls bekannt: 16 41.7% (ca. 30 % von „allen“)falls bekannt: 14-18 62.1%

Bekannt: Partei von … G. Schröder 98.9%J. Fischer 98.8%A. Merkel 94.6%G. Westerwelle 98.4%E. Stoiber 87.5%J. Trittin82.8%G. Gysi 84.3%F. Schönhuber 0.8% (34.6%: REP)G. Frey 17.6%

vielen Dankfür Ihre

Aufmerksamkeit!

• Zur Info Attenuation-Formel:

T TX Y

XX YY' '

einstellungsforschung mittels umfragen: reliabilität der in der umfrageforschung üblicherweise...

Documents

das nationale bildungspanel - uni-bamberg.de ·...

messung in der umfrageforschung ii: die rolle theoretischer...

modulhandbuch - soziologie.uni-halle.de · entsprechender...

Überprüfung der reliabilität und validität eines...

einfÜhrung in die methoden der umfrageforschung befragung...

analyse von querschnittsdaten -...

reliabilität und validität in der...

neue beiträge zur standarddiagnostik in psychotherapie und...

manual functional ambulation categories (fac)€¦ · die...

syndromische surveillance akuter respiratorischer ... ·...

einstellungsforschung mittels umfragen:...

matura in den erstsprachen grundlagen der testpsychologie:...

einstellungsforschung mittels umfragen: einstellungsmodelle...

multizentrische reliabilität mrt-gestützter volumetrie des...

technik der umfrageforschung im Überblick (beispiel: extrem...

politikwissenschaftliche einstellungsforschung:...

iii. themen der sozialpsychologie (1): einstellungen...

ratswd working paper series · 1.1 zur relevanz der...

die psychometrische güte des motivational value … · die...

gütekriterien: objektivität – reliabilität –...