kristin mitte - gütekriterien und pädagogische diagnostik.pdf
TRANSCRIPT
Vorlesung Modul 3 „Beobachten, Beraten und Fördern im pädagogischen Feld“
Prof. Dr. Kristin [email protected]
Sprechzeit: Di 13-14 Uhr
Moodle: Gütekriterien
Organisatorisches I
• Start der VL: s.t. oder c.t.?
2
Modul 3
• VL + Seminar– Seminar im WS 12/13
Di 14-16Di 16-18
oder
– Seminar im SS13
Organisatorisches II: Seminaraufteilung3
Prüfung
• Letzte VL-Woche
• Klausur 90 Minuten
• Mix aus geschlossenen Fragen, Multiple Choice, offenen Fragen
• Prüfungsvorleistung: Seminar
4
Organisatorisches III
• Wer von Ihnen kann KEIN(EN) – Laptop
– I-Pad
– Smartphone
– Etc.
mitbringen, um während der VL aufs Internet zuzugreifen?
5
Literatur
• Literaturempfehlungen am Ende einer Veranstaltung bzw. eines Themenblocks
• Grundlage: Ingenkamp, K.H. & Lissmann, U. (2005). Lehrbuch der Pädagogischen
Diagnostik. Weinheim: Beltz.
6
Überblick über die VL
A. Grundlagen der Diagnostik: Ziele, Methoden und Verfahren• Diagnostik als wissenschaftsbasiertes,
professionelles Handeln• Methodische Grundlagen (Testtheorien,
Verfahrenskonstruktion, Gütekriterien)• Test-, Befragungsmethoden und
Beobachtungsverfahren (Basiswissen)• Leistungs- und Verhaltensbeurteilung
B. Einführung in die Beratungspsychologie
7
Beratung
• Beraten ist ein alltäglicher Prozess
• Aber: Alltagsberatung ist nicht professionelle Beratung!
8
TheoretischesWissen + operative
Kompetenzen
Beratung
• McLeod (2004): Beraterqualitäten– Interpersonelle Fähigkeiten (z.B. Zuhören,
nonverbale Kommunikation)– Persönliche Überzeugungen (z.B. Glaube an
Veränderungspotential)– Konzeptionelle Fähigkeiten (z.B. Fähigkeit,
Probleme des Klienten einschätzen zu können)– Persönliche Integrität (z.B. vorurteilfrei)– Beherrschung von Beratungstechniken – Fähigkeit soziale Systeme zu verstehen und mit
ihnen zu arbeiten
9
Definition Beratung
Beratung ist ein zwischenmenschlicher Prozess, • in welchem eine Person oder eine Gruppe, d.h. die
Ratsuchenden/Klienten • in der und durch die Interaktion mit einer anderen Person, dem sog.
Berater/Team,• mehr Klarheit gewinnt über eigene Probleme und deren
Bewältigungsmöglichkeiten.
Die Hilfe zur Selbsthilfe, d.h. die Steigerung der Problemlösefertigkeiten seitens des Ratsuchenden, ist ein entscheidendes Element von Beratung. Psychosoziale Beratung soll damit nicht nur bei Lösung eines aktuellen, spezifischen Problems stehen bleiben, sondern dem Klienten die Möglichkeiten aufzeigen, wie ähnlich gelagerte Probleme in Zukunft zu bewältigen sind
(Warschburger, 2009, S. 16)
10
Eine kurze Frage an Sie
Eine zweite Frage
12
Diagnostische Kompetenzen im LA
• KMK (2004): Lehrerinnen und Lehrer üben ihre Beurteilungs- und Beratungsaufgabe im Unterricht und bei der Vergabe von Berechtigungen für Ausbildungs-und Berufswege kompetent, gerecht und verantwortungsbewusst aus. Dafür sind hohe pädagogisch-psychologische und diagnostische Kompetenzen von Lehrkräften erforderlich.
13
Fähigkeit, akkurate diagnostische Urteile zu fällen
Noch eine Frage
• Individualisierung im Unterricht?
14
Diagnostische Kompetenzen im LA
• Pisa-Konsortium, 2001: „Eine zentrale Voraussetzung für eine optimale Förderung ist eine ausreichende diagnostische Kompetenz der Lehrkräfte, also die Fähigkeit, den Kenntnisstand, die Verarbeitungs- und Verstehensprozesse sowie die aktuellen Leseschwierigkeiten der Schülerinnen und Schüler korrekt einschätzen zu können. Diagnostik in schulischen Entscheidungssituationen hat den Zweck, Informationen zur Optimierung des pädagogischen Handelns zu gewinnen“.
15
16
17
Leistungsstand?
Lern
pote
ntia
le? Lernhindernisse?
Lernfortschritte?
Anpassung Unterricht
+
Anpassung Unterricht
-
Diagnostik+
Optimum
Diagnostik-
18
Psychodiagnostik – Definition
• Diagnose und Diagnostik („diagignostikein“) bezeichnet im Griechischen eine kognitive Funktion mit den Bedeutungen „gründlich kennen lernen", „entscheiden" und „beschließen„
• Ist eine Methodenlehre im Dienste der Praktischen Psychologie (Wellek, 1955)
• Diagnostik habe das Ziel, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964)
• Leichner (1979) sieht die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten Bedingungen.
19
• Dient der Beantwortung von Fragestellungen, die sich auf die – Beschreibung– Klassifikation– Erklärung– Vorhersage
menschlichen Verhaltens und Erlebens beziehen.• Informationen darüber werden
– gezielt erhoben mittels Methoden, die wissenschaftlichen Standards genügen und
– im Sinne der Fragestellung interpretiert
• Der Prozess wird von psychologischem Wissen geleitet
20
Schmidt-Atzert & Amelang, 2012
Pädagogische Diagnostik• „… umfasst alle diagnostischen Tätigkeiten, durch die
bei einzelnen Lernenden und den in einer Gruppe Lernenden Voraussetzungen und Bedingungen planmäßiger Lehr- und Lernprozesse ermittelt, Lernprozesse analysiert und Lernergebnisse festgestellt werden, um individuelles Lernen zu optimieren. Zur Pädagogischen Diagnostik gehören ferner die diagnostischen Tätigkeiten, die die Zuweisung zu Lerngruppen oder zu individuellen Förderprogrammen ermöglichen sowie die mehr gesellschaftlich verankerten Aufgaben der Steuerung des Bildungsnachwuchses oder der Erteilung von Qualifikationen zum Ziel haben.“
Ingenkamp & Lissmann, 200821
Konzepte der Diagnostik (Oder: Woher schließe ich, wie Sie sich morgen verhalten?)
Eigenschaften(traits)
Verhaltensweisen(signs)
Verhaltensweisen(samples)
Eigenschaftsdiagnostik
Verhaltensdiagnostik
22
Eigenschaftsdiagnostik
• Wichtig: welche Eigenschaften hat Person
• Eigenschaften sind (weitgehend)– Zeitlich stabil und– Situationsunabhängig
• Analogieschluss: von Indikatoren von Eigenschaften wird auf zukünftiges Verhalten geschlossen (von einem Objekt wird auf ein anderes Objekt geschlossen aufgrund der Analogie zwischen beiden Objekten)
• z.B. Persönlichkeitstests, Intelligenz- und Leistungstests
23
Verhaltensdiagnostik
• Wichtig: welches Verhalten zeigt Person („The best predictor of future performance is past performance"; Wernimont & Campbell, 1968, S. 372)
• Verhalten ist– Situational abhängig– Es gibt aber repräsentative Stichproben dieses Verhaltens
• Induktionsschluss: von einem in einer spezifischen Situation unter spezifischen Bedingungen gezeigten Verhalten wird auf zukünftiges Verhalten geschlossen (von einer Teilklasse wird auf die Gesamtklasse geschlossen)
• z.B. Selbst- und Fremdbeobachtungen, Rollenspiele, Simulationen
24
Diagnostik lässt sich noch auf anderen Ebenen differenzieren
25
Status- vs. Prozessdiagnostik
• Statusdiagnostik: = einmalige Feststellung des Ist-Zustandes(für Diagnose + Prognose)
• Prozessdiagnostik:= wiederholte Untersuchungen zur Erfassung von Veränderungen
26
Selektions- vs. Modifikationsdiagnostik
• Selektionsdiagnostik– Personenselektion: Bedingung gegeben – geeignete
Person wird gesucht– Bedingungsselektion: Person gegeben – geeignete
Bedingung wird gesucht
• Modifikationsdiagnostik– Verhaltensmodifikation: welches Verhalten muss
geändert werden– Bedingungsmodifikation: welche externen
Bedingungen müssen geändert werden
27
Vielen Dank für Ihre Aufmerksamkeit!
… Psychologische Diagnostik
Sitzung 2: es wird statistisch…
Ein Beispiel vorab…
• Ein Lehrer möchte das Wissen über ein Thema in Mathematik überprüfen
• Er entwickelt einen Test mit 20 Fragen (Items)
• Jedes Item kann entweder „richtig“ oder „falsch“ beantwortet werden
• Die Summe der richtig beantworteten Items ergibt das Maß für Mathematikwissen
2
Es könnten sich dem Lehrer nun folgende Fragen stellen…
• Sollte man einen Summenwert bilden oder mehrere (z.B. für Bruchrechnung und Dreisatz)?
• Messen alle Items gleich gut das Mathewissen? • Wie gut misst der Gesamtwert Mathewissen?
• Hätte es nicht auch ein Test mit 5 Items getan? Oder sind 30 Items notwendig?
• Hätte man 2 Testhälften geben können, damit die Schüler untereinander nicht abschreiben? Messen die dann das gleiche?
• Gibt es einen systematischen Bias in den Fragen? Werden bestimmte Schüler benachteiligt (z.B. aufgrund ihrer Herkunft)?
• Kann man aus niedrigen Werten schließen, dass der Schüler eine Lernstörung aufweist?
• …
3
Mit anderen Worten
• Wie gut ist der Test?
Damit es gerecht zugeht, ist die Aufgabe für alle gleich: „Klettern Sie auf diesen Baum“!
Unterschied „Pseudotest“ und wissenschaftlicher Test: Gütekriterien 4
Vorüberlegungen
Mittelwert und Standardabweichung – was ist das?
• Mittelwert als arithmetisches Mittel – im Gegensatz zum häufigsten Wert = Modalwert
– Im Gegensatz zur mittleren Position = Median
• Standardabweichung als mittlere Abweichung vom Mittelwert
5
Vorüberlegungen
6
163
163
163
170172
182197182180
Modalwert =
Median =
Mittelwert =
??
?
Vorüberlegungen
• Mittelwert
7
Vorüberlegungen
8
163
163
163
170172
182197182180
Modalwert =
Median =
Mittelwert =
163
172
?(3*163+170+175+180+2*182+197) / 9175
Ein paar Mittelwerte…
9
Quelle: Statistisches Bundesamt, https://www.destatis.de/DE/PresseService/Presse/Pressemitteilungen/2011/08/PD11_301_12641.html
Ein paar Mittelwerte…
10Quelle: http://www.mappedplanet.com/map/stats.php?param=30
Vorüberlegungen
163
163
163
170172
182197182180
175 175 175 175 175 175 175 175 175
Vorüberlegungen
• Varianz und Standardabweichung
12
Vorüberlegungen
163
163
163
170172
182197182180
175 175 175 175 175 175 175 175 175
Var(x) = SD (x) = 0
Var(x) = (163‐175)2+…+ (197‐175)2/8
Var(x) = 133SD(x) = 11,5
Vorüberlegungen
Korrelation – was ist das?
• Besteht ein (linearer) Zusammenhang zwischen mehreren Variablen?
• Wie ist dieser Zusammenhang ausgeprägt?
14
Vorüberlegungen
0
1
2
3
4
5
6
7
8
9
0 5 10 15 20
Stu
nd
en
im
Le
se
sa
al
Wochen bis zu Klausur
Wochen bis zu
Klausur
Stunden auf
Feten, …
Stunden im
Lesesaal
16 10 0,5
14 8,5 1
12 6 1
10 6,5 2,5
8 4 4
6 3,5 6
… … …
0
2
4
6
8
10
12
0 5 10 15 20
Stu
nd
en
au
f F
ete
n, …
Wochen bis zu Klausur
15
Vorüberlegungen
• Abbildung dieses Zusammenhangs durch folgende Koeffizienten:– Kovarianz
– Korrelation
16
Vorüberlegungen
d.h.
17
hohe Kovarianz, wenn diejenigen Personen, die im Merkmal A überdurchschnittlich sind auch im Merkmal B überdurchschnittlich sind bzw. diejenigen Personen, die im Merkmal A unterdurchschnittlich sind auch im Merkmal B unterdurchschnittlich sind.
Vorüberlegungen
Aber: • Variablen nicht standardisiert, d.h. die Höhe der
Kovarianz ist abhängig von der Maßeinheit der VariablenDas bedeutet… • Zusammenhang Gewicht u. Körpergröße
– Gewicht in kg unda) Körpergröße in mb) Körpergröße in cm Kovarianz ist 100x höher gegenüber a!
18
Vorüberlegungen
Wochen bis zu
Klausur
X
Stunden auf Feten,
…
Y
16 10 (10-6,4) * (16-11) = 17,9
14 8,5 (8,5-6,4) * (14-11) = 6,25
12 6 … …
10 6,5 … …
8 4 … …
6 3,5 … …
M = 11 M = 6,4 ∑ = 45,5
Cov (x, y) = 45,5 / 6 = 7,58 19
Vorüberlegungen
Die Produkt‐Moment‐Korrelation r
• Zum Bsp.: r = 7,58 / (3,42 * 2,30) = .97• r im Bereich zwischen ‐1 … 0 … +1
20
Vorüberlegungen
• Ein Wort der Warnung: Korrelation sagt nichts über Kausalität aus (!)
• Klassisches Beispiel aus Südschweden: die Anzahl an Geburten war positiv mit der Anzahl an nistenden Störchen korreliert
21
Vorüberlegungen
• Ein zweites Wort der Warnung: eine Korrelation von 0 bedeutet nicht, dass zwei Variablen nicht in Zusammenhang stehen
• Beispiel: U‐förmiger Zusammenhang
22
Hintergrund
• „Messen ist eine homomorphe Abbildung eines empirischen Relativs (z.B. Objekte oder Ereignisse und die für sie definierten Relationen) in ein numerisches Relativ“ (Nachtigall & Wirtz, 2004, S. 48)
• Messen beinhaltet die Zuordnung von Zahlen zu Eigenschaften von Objekten / Personen nach einer bestimmten Messvorschrift
23
Hintergrund
24
Aus: Kany, W. & Schöler, H. (2009). Diagnostik schulischer Lern‐ und Leistungsschwierigkeiten. Ein Leitfaden. Stuttgart: Kohlhammer
Skalenniveaus
• Nominalskala
– Nomen: lateinisch für Namen
– Einteilung in (beliebige aber) eindeutige Kategorien, z.B.
• Männlich = 0, weiblich = 1; • Ledig = 0, verheiratet = 1, geschieden = 2, feste Partnerschaft = 3, anderes = 4
– Statistik: Modalwert, Häufigkeiten
25
Skalenniveaus
• Ordinalskala
– Natürliche Reihenfolge, aber Abstände sind nicht gleich Rangreihe, z.B.
• Schulnoten
• Plätze bei den Olympischen Spielen
– Statistik: Median
26
Skalenniveaus
• Intervallskala
– Gleiche Abstände zwischen den Werten (z.B. Unterschied zwischen 50°C und 25°C entspricht dem Unterschied zwischen 35°C und 10°C)
– 0‐Punkt ist aber willkürlich festgelegt• Abweichungsnormen
• Temperatur in Grad Celsius
– Statistik: Mittelwert
27
Skalenniveaus
• Verhältnisskala
– Gleiche Abstände zwischen den Werten und– 0‐Punkt ist natürlich gegeben
• Gewicht, Größe• Temperatur in Kelvin
– Statistik: Vielfaches, Quotient,…
28
Beispiel
Nominalskalierung und Mittelwert: fiktive Studie zum Zusammenhang von Schulleistung, Haarfarbe und Geschlecht
29
Kategorie Häufigkeit „Durchgefallen“
0 = weiblich, brünett 15
1 = weiblich, blond 0
2 = männlich, brünett 5
3 = männlich, blond 5
Mittelwert = (15*0 + 0*1 + 5*2 + 5*3) / 25= 1
Der typische Schüler, der in Prüfungen durchfällt, ist weiblich und blond. Dies bestätigt das Vorurteildes blonden Dummchens.
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
Hauptgütekriterien
Nebengütekriterien
30
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“
31
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.“
32
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“
33
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsregeln adäquat abbilden.“
34
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.“
35
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Gütekriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.“
36
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“
37
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.“
38
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.“
39
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Kriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.“
40
Testgütekriterien unter der Lupe
41
Objektivität
Objektivität
• Subjektive Einflüsse des Untersuchers sollten minimiert werden Vereinheitlichung der Arbeitsschritte
• Bezieht sich auf die 3 Bereiche– Durchführung: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Durchführungsbedingungen gesichert ist.
– Auswertung: Das Ausmaß, in dem bei vorliegenden Antworten zum gleichen Testergebnis gekommen wird.
– Interpretation: Das Ausmaß, in dem einem Testwert die gleiche Interpretation bei verschiedenen Beurteilern zugeordnet wird.
42
Objektivität
Beispiel 1: Mündliche Prüfungen
• Pritz (1981): Abiturprüfung in Geografie– Codierung einer tatsächlichen Prüfung, nachgespielt in 16 vs. 21 Minuten (suchte nach Worten, machte Pausen)
– Zusätzliche Informationen: Vornoten– Beurteiler: 81 Geografielehrer– Ergebnis: Noten schwankten zwischen 1 und 5 (!)– Durchschnittsnote 2.5 (schnell) vs. 3.4 (langsam)
43n. Ingenkamp & Lissmann, 2008
Objektivität
Beispiel 2: schriftliche Prüfungen
• Weiss (1965): 2 Aufsätze in Deutsch– a) „begabter Sohn vom Redakteur“, b) durchschnittlicher
Schüler mit Vorliebe für Schundhefte– Beurteiler: 92 LehrerInnen– Rechtschreibung: a) 16% vergaben eine 1 vs. b) 0%
(vergleichbare Ergebnisse bei Stil und Inhalt)– Mittlere Note: a) 2.08 vs. b) 2.83
• Andere Untersuchungen fanden für eine Prüfungsleistung das gesamte Notenspektrum – unabhängig vom Fach! (s. mdl. Prüfungen)
44n. Ingenkamp & Lissmann, 2008
Objektivität
Beispiel 2: schriftliche Prüfungen
• Klasseninterner Bezugsmaßstab: gleiches Testergebnis unterschiedliche Konsequenzen in Abhängigkeit von der Klasse, in der ein Schüler ist
• Z.B. Untersuchung in 37 Klassen eines Berliner Bezirks– Vergleich der 3 besten und der 3 schlechtesten Klassen (gemessen mittels eines validen Mathematiktests)
– Ergebnis: weniger Schüler für weiterführende Schulen empfohlen in den besten Klassen!
45n. Ingenkamp & Lissmann, 2008
Objektivität
• Bildet die Grundlage für die folgenden Gütekriterien!
46
… Psychologische Diagnostik
Gütekriterien
Hintergrund
• „Messen ist eine homomorphe Abbildung eines empirischen Relativs (z.B. Objekte oder Ereignisse und die für sie definierten Relationen) in ein numerisches Relativ“ (Nachtigall & Wirtz, 2004, S. 48)
• Messen beinhaltet die Zuordnung von Zahlen zu Eigenschaften von Objekten / Personen nach einer bestimmten Messvorschrift
3
Hintergrund
4
Aus: Kany, W. & Schöler, H. (2009). Diagnostik schulischer Lern‐ und Leistungsschwierigkeiten. Ein Leitfaden. Stuttgart: Kohlhammer
Beispiel
Nominalskalierung und Mittelwert: fiktive Studie zum Zusammenhang von Schulleistung, Haarfarbe und Geschlecht
5
Kategorie Häufigkeit „Durchgefallen“
0 = weiblich, brünett 15
1 = weiblich, blond 0
2 = männlich, brünett 5
3 = männlich, blond 5
Mittelwert = (15*0 + 0*1 + 5*2 + 5*3) / 25= 1
Der typische Schüler, der in Prüfungen durchfällt, ist weiblich und blond. Dies bestätigt das Vorurteildes blonden Dummchens.
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
Hauptgütekriterien
Nebengütekriterien
6
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“
7
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.“
8
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“
9
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsregeln adäquat abbilden.“
10
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.“
11
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Gütekriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.“
12
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“
13
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.“
14
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.“
15
Testgütekriterien
• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness
„Ein Test erfüllt das Kriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.“
16
Testgütekriterien unter der Lupe
17
Objektivität
Objektivität
• Subjektive Einflüsse des Untersuchers sollten minimiert werden Vereinheitlichung der Arbeitsschritte
• Bezieht sich auf die 3 Bereiche– Durchführung: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Durchführungsbedingungen gesichert ist.
– Auswertung: Das Ausmaß, in dem bei vorliegenden Antworten zum gleichen Testergebnis gekommen wird.
– Interpretation: Das Ausmaß, in dem einem Testwert die gleiche Interpretation bei verschiedenen Beurteilern zugeordnet wird.
18
Objektivität
Beispiel 1: Mündliche Prüfungen
• Pritz (1981): Abiturprüfung in Geografie– Codierung einer tatsächlichen Prüfung, nachgespielt in 16 vs. 21 Minuten (suchte nach Worten, machte Pausen)
– Zusätzliche Informationen: Vornoten– Beurteiler: 81 Geografielehrer– Ergebnis: Noten schwankten zwischen 1 und 5 (!)– Durchschnittsnote 2.5 (schnell) vs. 3.4 (langsam)
19n. Ingenkamp & Lissmann, 2008
Objektivität
Beispiel 2: schriftliche Prüfungen
• Weiss (1965): 2 Aufsätze in Deutsch– a) „begabter Sohn vom Redakteur“, b) durchschnittlicher
Schüler mit Vorliebe für Schundhefte– Beurteiler: 92 LehrerInnen– Rechtschreibung: a) 16% vergaben eine 1 vs. b) 0%
(vergleichbare Ergebnisse bei Stil und Inhalt)– Mittlere Note: a) 2.08 vs. b) 2.83
• Andere Untersuchungen fanden für eine Prüfungsleistung das gesamte Notenspektrum – unabhängig vom Fach! (s. mdl. Prüfungen)
20n. Ingenkamp & Lissmann, 2008
Objektivität
Beispiel 2: schriftliche Prüfungen
• Klasseninterner Bezugsmaßstab: gleiches Testergebnis unterschiedliche Konsequenzen in Abhängigkeit von der Klasse, in der ein Schüler ist
• Z.B. Untersuchung in 37 Klassen eines Berliner Bezirks– Vergleich der 3 besten und der 3 schlechtesten Klassen (gemessen mittels eines validen Mathematiktests)
– Ergebnis: weniger Schüler für weiterführende Schulen empfohlen in den besten Klassen!
21n. Ingenkamp & Lissmann, 2008
Objektivität
• Bildet die Grundlage für die folgenden Gütekriterien!
22
Testgütekriterien unter der Lupe
23
Reliabilität (Zuverlässigkeit)
Zunächst…
• ein kleines Experiment
24
Klassische Testtheorie (KTT)
• Geht zurück auf Gulliksen (1950) sowie Lord und Novick (1968) (Ideen aber auch schon bei Thurstone und Spearman zu finden)
• Grundlage für viele Testverfahren
25
KTT
Es muss zunächst zwischen drei Variablen unterschieden werden:
• Beobachteter Wert • Wahrer Wert (true score)• Messfehler (random error)
26
Axiome der KTTExistenzaxiom: Der wahre Wert τvi existiert als Erwartungswert der Messung xvi:
τvi = E(xvi)
Verknüpfungsaxiom: Jede Messung xvi ist aus einem wahren Wert τvi und einem
zufälligen Fehlerwert εvi zusammengesetzt:
xvi = τvi + εvi
v = Personi = Test(item)
Ableitungen
• Der Messfehler ist eine Zufallsvariable mit dem Erwartungswert 0
• Die Korrelation zwischen Messfehler und wahrem Wert ist 0
• Verknüpfungsaxiom gilt auch auf Varianzebene
28
Reliabilität (Messgenauigkeit)
Var(τ)Var(x)
• Ist der Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte
Rel =
• Kann Werte zwischen 0 und 1 annehmen
Reliabilität
• Frau Müller schreibt einen Mathematiktest zur einfachen Addition im Zahlenraum 1‐10. Einige Fragen, die auftreten könnten/sollten – die Reliabilität betreffend– Generalisierbarkeit über Items?
– Generalisierbarkeit über die Zeit?– Generalisierbarkeit über Lehrer?(Interrater‐Reliabilität Objektivität)
Wie kann die Reliabilität geschätzt werden?
Reliabilitäts‐schätzung
Paralleltest‐Reliabilität
Retest‐Reliabilität
Interne
Konsistenz
� Parallele Tests im Sinne der KTT weisen gleiche wahre Werte und Fehlervarianzen auf (= eineiige Zwillinge)
� Schätzung der Paralleltest‐Reliabilität über die Korrelation der Testwerte xA und xB der parallelen Testformen
Rel(x) = Corr (xA, xB)
Reliabilitäts‐schätzung
Paralleltest‐Reliabilität
Retest‐Reliabilität
Interne
Konsistenz
� Annahme, dass ein Test bei zweimaliger Durchführung die gleichen wahren Werte und Fehlervarianzen aufweist
� Schätzung der Retest‐Reliabilität über die Korrelation der Testwerte xt1 und xt2
Rel(x) = Corr (xt1, xt2)
Reliabilitäts‐schätzung
Paralleltest‐Reliabilität
Retest‐Reliabilität
Interne
Konsistenz
Einfluss von Merkmalsveränderungen
aus M
oosbrugger&
Kelava, S. 118
� Mehrere Verfahren zur Bestimmung der internen Konsistenz, darunter:– Split‐half Reliabilität– Cronbachs Koeffizient Alpha
Reliabilitäts‐schätzung
Paralleltest‐Reliabilität
Retest‐Reliabilität
Interne
Konsistenz
Split‐Half‐Reliabilität
• Aufteilung der Testskala in zwei möglichst parallele Testhälfte (z.B. odd‐even)
• Schätzung der Split‐Half‐Reliabilität über die Korrelation der Testhälften a1 und a2
• Diese Schätzung sollte noch aufgewertet werden
Reliabilität und Testlänge
Implikation
• Je weniger Aufgaben eine Prüfung, desto geringer die Reliabilität (s. aber auch nächste Sitzung zur Validität)
• Je weniger Einzelarbeiten in eine Jahresnote einfließen, desto unreliabler die Gesamtnote
• Je weniger soziale Beurteiler, desto unreliabler das Urteil
Einige Anmerkungen
• Reliabilitäten sind stichprobenabhängig!
• Welcher Koeffizient (und welche Höhe) angemessen ist, wird von vielen Faktoren bestimmt– Empfehlungen (Salvia & Ysseldyke, xx)
• Rel > .6 bei Gruppenfragen• Bei Individualentscheidungen Rel > .9 bzw. Rel > .8 bei Screening
Reliabilität
Beispiel: schriftliche Prüfungen
n. Ingenkamp & Lissmann, 2008
Eells (1930): 61 Lehrer beurteilen mehrere Arbeiten (darunter Geografie) innerhalb von 11 Wochen zwei Mal
Korrelation r = .25 (Retestreliabilität)
Reliabilität
Beispiel: schriftliche Prüfungen• Hartog & Rhodes (1936): 14 Prüfer, 15 Geschichtsarbeiten
– 44% der Fälle, die zu t1 mit „bestanden“ oder „gut“ bewertet wurden, fielen bei der zweiten Bewertung durch (und umgekehrt)
• Dicker (1995): wiederholte Zensierung von Mathematikarbeiten durch 79 Hauptschullehrer (24 nahmen an beiden Messzeitpunkten teil)– Nur 1/3 der Lehrer vergab dieselbe Note– nach 3 Monaten r = .46
• Aber: Korrelation von Halbjahreszeugnissen zwischen .70‐.80
n. Ingenkamp & Lissmann, 2008
… Psychologische Diagnostik
Sitzung 4: Was messen wir?
Einige Anmerkungen
• Reliabilitäten sind stichprobenabhängig!
• Welcher Koeffizient (und welche Höhe) angemessen ist, wird von vielen Faktoren bestimmt– Empfehlungen (Salvia & Ysseldyke, xx)
• Rel > .6 bei Gruppenfragen• Bei Individualentscheidungen Rel > .9 bzw. Rel > .8 bei Screening
Reliabilität
Beispiel: schriftliche Prüfungen
n. Ingenkamp & Lissmann, 2008
Eells (1930): 61 Lehrer beurteilen mehrere Arbeiten (darunter Geografie) innerhalb von 11 Wochen zwei Mal
Korrelation r = .25 (Retestreliabilität)
Reliabilität
Beispiel: schriftliche Prüfungen• Hartog & Rhodes (1936): 14 Prüfer, 15 Geschichtsarbeiten
– 44% der Fälle, die zu t1 mit „bestanden“ oder „gut“ bewertet wurden, fielen bei der zweiten Bewertung durch (und umgekehrt)
• Dicker (1995): wiederholte Zensierung von Mathematikarbeiten durch 79 Hauptschullehrer (24 nahmen an beiden Messzeitpunkten teil)– Nur 1/3 der Lehrer vergab dieselbe Note– nach 3 Monaten r = .46
• Aber: Korrelation von Halbjahreszeugnissen zwischen .70‐.80
n. Ingenkamp & Lissmann, 2008
Testgütekriterien unter der Lupe
Validität
5
Validität
Es handelt sich um das wichtigste Gütekriterium!
Problem: Es gibt nicht einen einzigen Kennwert und im Gegensatz zur Reliabilität keine eindeutige Definition; common sense:
6
"Validity refers to the degree to which evidence and theory support the interpretation of test scores entailed by
proposed uses of tests". (APA, 1999)
Misst man das, was man messen möchte? (z.B. Cattell, 1946)
Wichtig
• Wie ist das zu messende Konstrukt definiert?Beispiel: was ist Lesekompetenz? Definition durch wissenschaftliche Literatur Verschiedene Fragen zu klären, darunter auch– gehört zur Lesekompetenz nicht nur Leseverständnis sondern auch Lesegeschwindigkeit?
Dimensionalität des KonstruktsSubskalen vs. Gesamtskalen eines Tests
7
Validität
Inhaltsvalidität:Wie gut spiegelt der Test den definierten Inhaltsbereich wider? (Repräsentativität der Items fürs Merkmal)
Kriteriumsvalidität: Wie genau kann der Test ein Kriterium vorhersagen?
Konstruktvalidität:Wie genau repräsentiert der Test ein Konstrukt (eine hypothetische Eigenschaft einer Person)?
8
Inhaltsvalidität
• Testinhalt bezieht sich auf sämtliche Fragen eines Tests inkl. Antwortoptionen
• Repräsentationsschluss: vom Verhalten im Testinhalt wird auf Verhalten in der Menge möglicher Fragen geschlossen Items müssen repräsentativ sein
• Grundlegende Fragen:– Alle relevanten Inhalte vorhanden? – Angemessenes Verhältnis der einzelnen Inhalten? – Keine irrelevanten Inhalte?
9
Beispiel
• Test soll mathematisches Wissen 1. Klasse messen
– 1 + 4 = ____– Paul hat eine Artischocke. Von Hans erhält er vier weitere Artischocken. Wie viele Artischocken hat Paul?
– I + IV = ____– Compute the sum of one and four!
– 4.5 * 3.9 = ____
10
Inhaltsvalidität
Überprüfung meist über Expertenrating:1. Definition des Konstrukts und seiner Facetten2. Entsprechend werden Aufgaben oder Fragen generiert.
3. Unabhängige Experten schätzen ein, wie gut die Aufgaben / Fragen dem Konstrukt entsprechen.
4. Beurteilerübereinstimmung wird als Koeffizient der Inhaltsvalidität angesehen.
11
Inhaltsvalidität
Anwendung im pädagogischen Kontext• Aufgaben sollten ausreichend (!) Inhalt im Unterricht gewesen sein (und nicht nur am Rande erwähnt)
• Niveau im Unterricht sollte sich in den Aufgaben widerspiegeln (Faktenwissen, Transfer etc.)
• Zeitvolumen vergleichbarGrundsatz der proportionalen Abbildung
12
Inhaltsvalidität – Was passiert bei nichtrepräsentativer Itemauswahl?
Behandelter Stoff
3 Schüler, jeder lernt 66%Max:
Moritz:
Paul:
Geprüfter Stoff
Ergebnis der Prüfung:100% richtig Note 1
66% richtig Note 3
33% richtig Note 5 13
Inhaltsvalidität
Weitere Anwendung im pädagogischen Kontext• sind Rechenaufgaben in Textform gestellt, wird nicht nur das mathematische Verständnis sondern auch Lesefertigkeit und Textverständnis geprüft
14
Kriteriumsbezogene Validität
• Korrelation zwischen Zielmerkmal oder Kriterium und Test
• Typische Kriterien:– Akademische Leistung (z.B. Schulnoten, Auszeichnungen)– Berufliche Leistung (z.B. Verkaufszahlen, Einschätzungen durch Vorgesetzte)
– Gruppenzugehörigkeit (z.B. psych. Diagnose)– Werte bei anderen Tests– …
• Beispiel: Vorhersage des gymnasialen Schulerfolgs durch Empfehlung der Grundschule
15
Kriteriumsbezogene Validität
16
Zeit t
Test
t1
Kriterium
Konkurrente Validität
Kriterium
Prädiktive Validität
t2
Befunde
Baron‐Boldt et al., 1988: Meta‐Analyse von 61 Studien
• Zusammenhang zwischen– Hauptschul‐/Realschulabschlußnote und Ausbildungserfolg: .37
– Abinote und Studienerfolg: .46
Böhnel, 1996: • Zusammenhang Schulerfolg 4. und 8. Klasse: .78 (ungarische Einheitsschule)
17
Konstruktvalidität
• Beziehungen des Zielkonstrukts zu anderen Konstrukten und Verhaltensweisen
• Hypothesen zu diesen Assoziationen aufbauend auf Theorie entwickeln und an Daten überprüfen
• Konvergente und diskriminante Validität
18
Konstruktvalidität
• Möglichkeit der Überprüfung mittels
– Untersuchung von Gruppenunterschieden– Untersuchungen von Korrelationen zwischen Tests– Untersuchung der internen Struktur– Untersuchungen zur Stabilität über die Zeit– …
19
Validität als Korrelation
• Höhe der Korrelation?
• Reliabilitätsabhängigkeit (Reliabilitätsindex)
• Stichprobenabhängigkeit– Selektions‐ und Selbstselektionseffekte führen zu „range restriction“ in den beteiligten Variablen
– Dies verringert die Korrelation zwischen Test und Kriterium
20
Testgütekriterien unter der Lupe
Fairness
21
Problem
„Murphy Archibald, 30, ein Vietnam‐Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova‐Universität verdient. Doch als er an der Universität auftauchte, befand sich seine Akte unter „Minoritäten‐Bewerber" mit einem b wie „black" darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde ihm das Stipendium entzogen. Ex‐Stipendiat Archibald verdankt sein Scheitern der guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil‐Rights‐Act von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft." (Der Spiegel, 1975, Nr. 7, S. 93; aus Amelang & Zielinski)
22
Problem
„Frauen werden bei gleicher Eignung bevorzugt eingestellt“
23
Fairness auf Itemebene
Welche Person ist hübscher? (Stanford‐Binet Test)
24
Fairness auf Itemebene
Welches Tier passt nicht zu den anderen? Elefant, Kuh, Gans, Schwein, Huhn (Item im CMM 1‐3) Deutsche Kinder wählen normalerweise den Elefanten (kein Haustier), islamische Kinder wählen in der überwiegenden Mehrzahl das Schwein, da dieses im Islam als unreines Tier gilt (Gözlü, 1986)
Häkelaufgabe zur Messung der Feinmotorik
25
Fairness auf Itemebene
Eber : Rüssel = Gockel : a) Truthahn b) Stall c) Schnabel d) Pflug
würde bei Stadtkindern nicht Analogieschluss testen
26
Fairness auf Itemebene
Verschiedene Punkte zu berücksichtigen, z.B.:• Wird Iteminhalt von verschiedenen Gruppen unterschiedlich interpretiert?
• Haben einzelne Worte eine unterschiedliche Bedeutung oder sind einigen Gruppen nicht geläufig?
• Sind die Gruppen unterschiedlich stark mit dem Material vertraut?
• …
27
Aber:
• Unterschiedliche Mittelwerte führen nicht zwangsläufig dazu, dass der Einsatz eines Tests unfair ist! (Fairness auf Testebene)
28
Exkurs: Regressionsmodell (Cleary, 1968)
• Ein Test ist nur dann fair (unbiased), wenn die Regressionsgeraden zwischen Kriterium und Testwert der verschiedenen Gruppen identisch sind
• Fair ist dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird
• Dieses Modell gilt als das Wichtigste! (z.B. Standards for Educational and Psychological Testing der American Educational Research Association, American Psychological Association, National Council on Measurement in Education)
29
Exkurs: Beispiel aus Amelang
• Untersuchungsmaterial von Simons und Möbus (1976). Aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres waren N = 58 Arbeiter‐ und N = 63 Akademikerkinder ausgewählt worden. Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe T‐normiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus beiden Sub‐Stichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab ‐ womit die Testbatterie für das anstehende Vorhersageproblem gemäß der übernommenen Definition fair war.
30
Vielen Dank für Ihre Aufmerksamkeit!
… Psychologische Diagnostik
Sitzung 5: Normen
Testgütekriterien unter der Lupe
Normierung
2
Selbsteinschätzung funktioniert nicht• In verschiedensten Studien aus verschiedensten Gebieten: Einschätzung der
eigenen Fähigkeiten nur bedingt aussagekräftig, z.B. – Einschätzung von Medizinern über ihre eigenen Kommunikationskompetenzen vs. Ratings von
Patienten und Supervisoren
– Einschätzung der eigenen Intelligenz: nicht besser als durch eine Person, die einen das erste Mal auf einem 90‐sekündigen Video gesehen hat, auf dem man einen Wetterbericht vorliest
– Vorhersage bei Studenten, wann sie eine größere Hausarbeit abgeben: tatsächliche Abgabe ca. 3 Wochen nach „most realistic“ Schätzung und ca. eine Woche nach „worst case scenario“
– 70% von (US‐)Abiturienten schätzten ihre Führungskompetenz „überdurchschnittlich“ ein, aber nur 2% „unterdurchschnittlich“
– Zusammenhang Noten durch Lehrer und durch sich selbst: Korrelation < .4 (im Gegensatz zu .7 durch Lehrer und Peers), 68% der Schüler würden sich bessere Note geben als der Lehrer gibt
(n. Dunnally, 2004)
Vorteile akkurater Selbsteinschätzung
• Kennt man seine eigene Stärken und Schwächen, wird Lernen effektiver eingesetzt
• Erhöht Selbstverantwortlichkeit fürs Lernen
(n. Dunnally, 2004)
(n. Rheinberg)
Moodle
• Rheinbergaufgabe
Vergleichsmöglichkeiten
• … mit einer Referenzgruppe (= soziale Bezugsnorm, normorientiert)
• … mit Kriterien (= sachliche Bezugsnorm, kriteriumsorientiert)
• … mit früheren Ergebnissen (= intraindividuelle Bezugsnorm, individueller/ ipsativer Vergleich)
7
Vergleichsmöglichkeiten
Prozentränge
= relative Position auf der Rangreihe der Bezugsgruppe (Beispiel: PR = 60 bedeutet, dass 60 Prozent der Bezugsgruppe den gleichen oder geringeren Wert haben)
• Vorteil: keine NV notwendigNachteil: nicht intervallskaliert!
• Frage: wie würden Sie ein Testergebnis PR = 25 beschreiben?(weit unterdurchschnittlich, unterdurchschnittlich, durchschnittlich, überdurchschnittlich, weit überdurchschnittlich)
9
Prozentränge
• Berechnung:PR = cumf/N * 100
Cumf = Kumulierte Häufigkeit
Anzahl "richtig" 5 6 7 8 9 10 11 12 13 14
f 1 0 6 10 19 24 14 6 4 1
cumf 1 1 7 17 36 60 74 80 84 85
PR 1,2 1,2 8,2 20,0 42,4 70,6 87,1 94,1 98,8 100,0
Peter: 5 richtige Antworten, Paul 7 richtige PR 1,2 vs. 8,2
Max: 9 richtige Antworten, Moritz 11 richtige PR 42,4 vs. 87,1
10
Prozentränge
Hohe Testwertdichte führt im PR zur Überbetonung von Unterschieden Nichtlineare Transformation der Rohwerte
11
Abweichungsnormen
• Position des Testwertes als Differenz (Abstand) zum arithmetischen Mittelwert der Bezugsgruppe
• Zur Vergleichbarkeit: Relativierung an der Standardabweichung
12
Abweichungsnormen
= (x – M(x))/SD(x)
= M + SD * z‐Wert
13Frage: wie würden Sie ein Testergebnis IQ‐Wert = 90 beschreiben?(Achtung: korrekterweise erst KI berechnen!)
Abweichungsnormen
durch‐schnittlich
unter~ über~
weit ~ weit ~ 14
Frage: wie würden Sie ein Testergebnis IQ‐Wert = 90 beschreiben?
Prozentränge
15ACHTUNG: gilt nur bei NV!!!
Zensuren
Zensur 1 2 3 4 5 6
Prozentanteil 9 16 25 25 16 9
Prozentanteil 2 14 34 34 14 2
Angemessenheit der Anwendung von NV auf Noten???
Normierung
• An repräsentativer Eichstichprobe (ausreichend groß)
• Möglichst für verschiedene Altersgruppen, getrennt nach Geschlecht, Schultyp, ... (in Abhängigkeit vom Test und der Fragestellung)– Z.B. Sprachkenntnisse bei Kindern mit Migrationshintergrund:
Unterschiede bei Wahl der Normstichprobe
• in regelmäßigen Abständen (Aktualität)– Z.B. Schneider & Stefanek (2007): Rechtschreibeleistung, die
heute durchschnittlich ist (statistisch „normal“), wäre vor 30 Jahren unterdurchschnittlich gewesen!
17
Kriteriumsorientierte Normen
• Inhaltliches Kriterium (z.B. Lernziel)– Wichtig: Definition der Aufgabengrundgesamtheit
– Repräsentative Aufgabenstichprobe
18
Normen am Beispiel
• Maximilian, 4. Klasse, Leistung im letzten Mathetest– Soziale Bezugsnorm: im Vergleich zu seinen Mitschülern (oder besser einer repräsentativen Stichprobe von Viertklässlern) durchschnittliche Leistung mit z‐Wert von 0
– Kriteriumsorientierte Bezugsnorm: beherrscht alle Grundrechenarten; deutlich mehr als die Mindestaufgabenanzahl gelöst
– Individuelle Bezugsnorm: Verschlechterung gegenüber letztem Test
Probleme der Bezugssysteme im Schulalltag
• Soziale Bezugsnorm– „Normgruppe“: häufig klasseninternes Bezugssystem (s. Probleme Objektivität)
– Gemeinsamer Lernzuwachs aller Schüler der „Normgruppe“ bleibt unsichtbarz.B. Rheinberg (1980): >50% der Schüler mit Lehrern, die nur die soziale Bezugsnorm einsetzten, gaben am Ende des Schuljahres an, dass sie nur gleichviel oder weniger als am Anfang des Jahres könnten
– Individuelle Schwankungen bleiben meist unsichtbar, dies kann zu einer Demotivation rel. leistungsschwacher Schüler führen
– Lehrplanziel wird ausgeblendet– Fördert Konkurrenz zwischen Schülern
Probleme der Bezugssysteme im Schulalltag
• Individuelle Bezugsnorm– Ausblendung länger überdauernder Leistungsunterschiede (mgl. Demotivation leistungsstarker Schüler?)
– Soziale Vergleiche als Quelle der Selbsteinschätzung entfallenz.B. Rheinberg (1998): Schüler wünschten sich im Laufe eines Unterrichtsexperiments mit ausschließlich individueller Rückmeldung wieder Informationen zur sozialen Bezugsnorm
– Unlogische Konsequenzen, z.B. bei Schullaufbahnempfehlung
– Lehrplanziel wird ausgeblendet
Probleme der Bezugssysteme im Schulalltag
• Kriteriumsbezogene Bezugsnorm
– Aufwand in der exakten Definition des Kriteriums – detailliert für alle Zensuren (!)
– Standardisierung des Curriculums
– S. auch Nachteile der anderen Normen
Fehler in der Beurteilung
• Keine gleichmäßige Ausschöpfung des Beurteilungsspektrums
– Strengefehler: Neigung, negative Bewertungen zu geben, d.h. auch schon kleinere Mängel zu betonen
– Mildefehler: Neigung, positive Bewertungen zu geben, d.h. auch größere Mängel zu vernachlässigen
– Tendenz zur Mitte: Häufung von mittleren Urteilen (3)– Tendenz zu Extremurteilen: Häufung von sehr guten (Begeisterung) und sehr schlechten (Enttäuschung) Urteilen, keine durchschnittlichen Bewertungen
Fehler in der Beurteilung
• Keine gleichmäßige Ausschöpfung des Beurteilungsspektrums – Was tun?– Eigene Beobachtung! Häufigkeit der Notenvergabe über einen längeren Zeitraum, über viele Schüler und Klassen
– Vergleich mit Kollegen– Vergleich mit objektiven Schultests– Informationen über alterstypische Leistungen berücksichtigen (bei Unterricht in verschiedenen Altersstufen)
– Immer sowohl nach Stärken als auch nach Schwächen suchen
Fehler in der Beurteilung
• Reihungsfehler: Abhängigkeit der Beurteilung von der Benotung davor, z.B. durchschnittliche Leistung nach einer sehr guten Prüfung eher als schlecht bewertet
• Logische Fehler: von einem Leistungsmerkmal wird (fälschlicherweise) auf ein anderes geschlossen, z.B. wer gut in Mathe ist, ist auch gut in Physik
• Halo‐Effekte: globaler Gesamteindruck überstrahlt spezifische Merkmale, z.B. Ruf des Primus oder des Sitzenbleibers
Standardmessfehler SD(ε)• Ist derjenige Anteil an der Streuung (Standardabweichung) eines Tests, der zu Lasten seiner (mangelnden) Reliabilität geht
• Wurzel aus Var(ε) (da diese auch unbekannt ist, erfolgt die Berechnung über SD(x) und die Reliabilität)
Standardmessfehler SD(ε)
27
TrueScore
+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)
68%
95%
>99%
Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)
Exkurs: Konfidenzintervall
• Kennzeichnet den Bereich, in dem mit 95% (…%) Wahrscheinlichkeit der wahre Wert liegt
SD(ε)
68%‐Konfidenzintervall
29
TrueScore
+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)
Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)
Messung 1
Messung 8Messung 235
95%‐Konfidenzintervall
30
TrueScore
+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)
Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)
Messung 1
Messung 8Messung 235
Konfidenzintervall – Beispiel(Exkurs)
• Eine Testperson hat in einem Intelligenztest einen Wert von X = 110. Die Reliabilität des Tests beträgt Rel = .84. Die Streuung ist SD(x) = 15.
SD(ε) = SD(x) * (1 – Rel)= 15 * .16= 6
95%‐CIu = 110 – 1.96 * 6 = 9895%‐CIo = 110 + 1.96 * 6 = 122
Konfidenzintervall
• Laut Ingenkamp und Lissmann beträgt der Standardmessfehler für Zensuren +/‐ eine Zensurenstufe!
• Sie können gerne die entsprechenden Konfidenzintervalle für einen „durchschnittlichen“ Schüler berechnen…
Exkurs: Kritische Differenz
a) Wie weit müssen zwei Testwerte auseinander liegen, damit die Differenz (auf einem gewählten Signifikanzniveau) als erheblich gilt?
→ Kri sche Differenz, die empirisch übertroffen werden muss, um als bedeutsam zu gelten:
Dkrit = z * SD(x) * 2 (1− Rel)
(z. B. Testwerte zweier Schüler)
Exkurs: Kritische Differenzb) Wie groß müssen die Leistungsunterschiede eines
Probanden in zwei Tests (mit den Reliabilitäten Rel1 und Rel2) sein, um als abgesichert gelten zu können?
→ Kritische Differenz, die empirisch übertroffen werden muss, um als bedeutsam zu gelten:
Dkrit = z * SD(x) * (z. B. Vergleich von Werten verschiedener Skalen unterschiedlicher Reliabilität)
Kritische Differenz – Beispiel(Exkurs)
• Ein Schüler hat im mathematischen Subtest einen Wert von X1 = 110, im verbalen Subtest einen Wert von X2 = 92. Die Reliabilität der Subtests beträgt Rel1 = .91 und Rel1 = .84. Die Streuung ist SD = 15.
Dkrit = z * SD(x) * 2 − (Rel1 + Rel2)
= 1.96 * 15 * 2 – (.91 + .84)= 14.7
Psychologische Diagnostik
Prüfungen konzipieren und beurteilen –Aufgaben‐ und Prüfungsanalyse
Gute Prüfungen
• Gütekriterien– Siehe bisherige Sitzungen, z.B. Prinzip der proportionalen Abbildung, repräsentative Aufgabenauswahl, objektive Durchführung und Auswertung
• Lehrerfreundlich– Praktikabilität: Durchführung und Auswertung möglich mit den vorhandenen Ressourcen (inkl. Zeit)
• Schülerfreundlich– Motivieren und verdeutlichen Lernfortschritte
Kreismodell
Auswertung der Prüfung
Analyse der Prüfung
Erstellung der Prüfung
In wie vielen von 100 Fällen tritt ein Ereignis ein, wenn es … ist? a) Seltenb) Häufigc) Wahrscheinlich
Allgemeine Empfehlungen zur Formulierung
• Klar definiertes Problem, möglichst signifikant und in der Bedeutungswelt aller(!) Schüler verankert
• Einfacher, präziser und eindeutiger Wortlaut
• Negationen möglichst vermeiden; wenn man sie einsetzt, dann besonders hervorheben (z.B. „Welche der folgende Tiere ist KEIN Säugetier?“); Doppelte Verneinungen auf jeden Fall vermeiden
• Irrelevante Informationen möglichst vermeiden
• Korrektes Raten vermeiden keine systematischen Antwortmuster (s. Testcleverness)
• Mit leichten Aufgaben beginnen, sehr komplexe Aufgaben aber auch nichtans Ende (Ermüdung)
Aufgabentypen n. Antwortformat
• Freies Antwortformat– Itemantwort wird von Schüler selbst formuliert (Text, Zahlen, Grafiken …)– Formen: Ergänzungsaufgaben und Essay– Typisch bei (aber nicht beschränkt auf) Erfassung von spontanen Reaktionen (was fällt dem
Schüler zuerst ein) und kreativen Leistungen– Geringere Wahrscheinlichkeit, dass richtige Antwort erraten wird– Aktives Wissen– Essay etc. kann Testangst erhöhen!
Vs.
• Gebundenes Antwortformat– Antwortalternativen werden vorgegeben, Schüler muss Auswahl treffen– Formen: Wahr‐Falsch, Multiple Choice, Ordnungsaufgaben– Kann Auswertungsobjektivität erhöhen– Erhöht Auswertungsökonomie– Kann Validität erhöhen, da in der gleichen Zeit mehr Stoff geprüft werden kann– Eher passives Wissen
Multiple Choice
• Der Nutzen eines Tests steht in engem Zusammenhang zura) Sozialen Bezugsnormb) Validität
c) Skalenniveau
d) Mikrokarotät
e) Wickelkommode
Multiple‐Choice‐Fragen• Häufige Empfehlung: 4‐5 unabhängige Antwortalternativen
– 1 richtige Antwort– 3‐4 Distraktoren
• Ratewahrscheinlichkeit kann drastisch verringert werden, wenn mehrere Kategorien richtig sind oder eine beliebige Anzahl von Kategorien ausgewählt werden kann
• Aber: – Erhöht die Schwierigkeit– Stellt sehr hohe Anforderungen an die Formulierung der
Distraktoren– Wird häufig als unfair erlebt
Erfurt ist die Landeshauptstadt vona) Bayern b) Mecklenburg‐Vorpommern c) Sachsen d) Thüringen
Schwieriger zu lesen als
Erfurt ist die Landeshauptstadt vona) Bayernb) Mecklenburg‐Vorpommernc) Sachsend) Thüringen
Multiple‐Choice‐Fragen• Testclevere Schüler sollten nicht bevorteilt werden
• Antwortalternativen vertikal statt horizontal anordnen
• Unterschiedliche Empfehlungen bzgl. Reihenfolge– Richtige Antwort sollte an jeder Stelle auftauchen– Antworten alphabetisch sortieren
• Antwortalternativen können z.B. aus vorangegangenen Tests im offenen Frageformat gewonnen werden (gewisse Plausibilität)
Testcleverness
• Typische Eigenschaften falscher Antworten– Stehen an erster oder letzter Stelle– Sind logische Extreme (z.B. „immer“, „nie“)– Enthalten unerwartete Sprache oder Termini– Enthalten komplett unglaubwürdige Aussagen
• Typische Eigenschaften richtiger Antworten– Sind länger– Nutzen bekannte Phrasen– Passen grammatikalisch zur Frage– Sind 1 von 2 ähnlichen Antworten– Sind 1 von 2 entgegengesetzten Antworten
Empfehlungen
• Antwortoptionen möglichst kurz und von gleicher Länge
• Keine grammatikalischen Fehler (z.B. Frage verlangt Mehrzahl, aber Distraktor ist Einzahl)
• Keine unplausiblen Antworten; typische Fehler (auch aus bisherigen Prüfungen) sind gute Distraktoren
• Es sollte eine klare richtige Antwort geben• Positionen der richtigen Antwort variieren• Ähnliche falsche Antworten vermeiden• Fragen sollten keine Infos für spätere Fragen enthalten• Kein 1:1 von Büchern/Präsentationen
Zuordnungsverfahren
• Korrespondenz herstellen zwischen zwei Listen
Z.B. „Ordne jede der folgenden Personen ihren Erfindungen zu.“
1) ___ James Watt a) Blitzableiter2) ___ Philipp Reis b) Computer3) ___ Konrad Zuse c) Dampfmaschine4) ___ O.H.v. Mayenburg d) Glühbirne 5) ___ Benjamin Franklin e) Telefon
f) Zahnpasta
Halboffene Fragen
• Sätze mit mehren Lücken vermeiden
• Länge der Lücken sollte keinen Hinweis auf Antwort enthalten Lücken gleich groß und groß genug für die längste Antwort
• Festlegen, wie Punkte vergeben werden (auch unerwartete Antworten)
Offene Fragen
• Häufig zeitaufwändig zu beantworten nur geringe Anzahl möglich (Reliabilität!)
• am Schwersten zum Auswerten
Offene FragenLernziel nach Bloom Bedeutung Prüfungsformulierung
(Beispiele)
Wissen Erinnern von Fakten, Definitionen, Konzepten…
Definiere, Benenne, Identifiziere, Wer?, Wann?, Wo?, Was?
Verstehen Erklären/Interpretieren der Bedeutung
Erkläre, Umschreibe, Fasse zusammen, Gib Beispiele
Anwenden Anwenden eines Konzepts,um ein Problem zu lösen
Nutze, Löse, Demonstriere, Zeige
Analyse Zerlegen des Materials inseine Komponenten, um Beziehungen zu erkennen
Unterscheide, Vergleiche, Setze … in Beziehung mit …
Synthese Produzieren von etwas Neuem
Konstruiere, Entwickle, Kreiere, Verändere
Bewertung Beurteilen aufgrund bestimmter Kriterien
Bewerte, Evaluiere, Verteidige, Kritisiere
Kreismodell
Auswertung der Prüfung
Analyse der Prüfung
Erstellung der Prüfung
Auswertung der Prüfung
Subjektiv‐holistisch Objektiv‐
rational
Schlüsselkomponenten, ‐elemente und Regeln zur Bewertungnicht klar spezifiziert
Alle Aspekte eindeutig definiertund standardisiert
Exkurs: Bewertungsschemata
Aus: Stiggins, R.: Classroom Assessment for Student Learning: Doing It Right, Using It Well
Offene Fragen
• Hinweise für die Auswertung– Namen des Schülers bedecken– Eine Frage über alle Schüler korrigieren anstatt jede Arbeit einzeln; dabei bisherige Punkte bedecken
– Mischen der Arbeiten nach jeder Fragenkorrektur– Im Lösungsschema auch vermerken, wie mit zusätzlicher Information, irrelevanten Fehlern und Grammatik‐/Rechtschreibfehlern umgegangen werden soll
– Da Korrektur durch 2. Lehrer leider häufig unpraktikabel ist, empfiehlt sich eine Stichprobe an Tests zweimal zu korrigieren
Exkurs: Portfolio
Exkurs: Portfolio
• Schlüsselelemente (n. Salvia & Ysseldyke)– Ergebnisse auf höheren Stufen des Wissens
– Spiegelt Arbeitsprozesse in der Realität (Integration, Aufwand…)
– Fördert Kooperation– Multiple Beurteilungsdimensionen (z.B. Arbeitsprozesse)
– Fördert Reflektion und Meta‐Wissen
– Integration von Bewertung und Instruktion
• Bessere Gütekriterien, wenn– Themen nicht zu breit und keine Freiwahlaufgaben, d.h. für alle
Schüler gleich (Beispiel: Interraterreliabilität fiel von ≈.6 auf ≈.4, wenn Schüler selbst Inhalt und Genre wählen können, Breland)
– Bewertungsschemata äußerst detailliert und rigide in der Handhabung
– Anzahl der Aufgaben abhängig vom Inhalt, aber gewisse Grundanzahl notwendig (Beispiel Shavelson et al., 1991: zwischen 8 und 20 Probleme Mathematik und Naturwissenschaften, 6 bei Schreiben …), um generalisieren zu können
Standardisierung!
Exkurs: Portfolio
Kreismodell
Auswertung der Prüfung
Analyse der Prüfung
Erstellung der Prüfung
Wieso Prüfungsanalyse?
• Prüfungsbenotung anpassen (z.B. einzelne Aufgaben aus der Bewertung herausnehmen)
• Entwickelt Gespür für zukünftige Prüfungen
• Zusammenstellung eines Repertoires guter Aufgaben
• Zeigt Ansatzpunkte für Unterrichtsmaßnahmen
Wieso Prüfungsanalyse
• Viele Punkte/Gute Noten– Lehrer: guter Unterrichtsstil, gute Prüfungsfragen– Schüler: klug, gut vorbereitet Zu leicht?, Fehler im Bewerten?, Betrug?, unbeabsichtigte Hinweise in den Fragen?
• Wenig Punkte/schlechte Noten– Lehrer: schlechter Schüler– Schüler: schlechter Lehrer, blöder Test Zu schwer?, inhaltsvalide?, Fehler im Bewerten?, zu wenig Zeit?
Was analysieren?
• Schwierigkeit
• Trennschärfe
• Fehleranalyse, z.B.– Flüchtigkeits‐ und Leichtsinnsfehler– Missverständnisse und Verwechslungen– Lücken in lernzielrelevanten Kompetenzen– Vorkenntnisdefizite– Verständnisfehler
Datenmatrix
Aufgabe 1 Aufgabe 2 Aufgabe i … Aufgabe m Zeilensumme
Schüler 1 x11 x12 x1i … x1m Z1
Schüler 2 x21 x22 x2i … x2m Z2
… … … … … …
Schüler n xn1 xn2 xni … xnm Zn
Spaltensumme S1 S2 Sin … Sm
Schwierigkeitsindex P = Quotient aus der tatsächlich erreichten Punktsummealler Schüler für ein Item (Sin) und der maximal erreichbaren Punktsumme aller Schüler bei diesem Item [n * max(xi)] multipliziert mit 100
Je höher Schwierigkeitsindex, desto leichter ist die Aufgabe
Schwierigkeitsindex = Lösungsanteil LA
Beispiel
Aufgabe 1 Aufgabe 2 Aufgabe 3 Zeilensumme
Schüler 1 1 1 0 2
Schüler 2 1 0 0 1
Schüler 3 1 0 0 1
Schüler 4 1 1 1 3
Spaltensumme 4 2 1
z.B. 1 = richtig, 0 = falsch
Schwierigkeitsindex P1 = Quotient aus der tatsächlich erreichten Punktsummealler Schüler für Item 1 (4) und der maximal erreichbaren Punktsumme aller Schüler bei diesem Item (4 * 1) multipliziert mit 100
P1 = 100 P2 = 50P3 = 25
Itemschwierigkeit• Itemschwierigkeit und Reihenfolge in Prüfung (ca. 80% der Schüler halten
sich an vorgegebene Reihenfolge!): Leichtere Aufgabe als Warm‐up an den Anfang, schwere in die Mitte
• n. Jürgens & Sacher sind Aufgaben mit sehr hoher Schwierigkeit bedenklich (P 20)
• Aber: Vertrauensintervall berücksichtigen (aus: Jürgens & Sacher, 2008, S. 133), bei typischen Klassenstärken sind schon P < 35 problematisch
Itemschwierigkeit
• Außerdem beachten: Lernbedeutsamkeit (wichtig: a‐priori!, ansonsten mgl. Verzerrung in Abhängigkeit der Ergebnisse)
• Je bedeutsamer eine Aufgabe, desto häufiger sollte sie gelöst sein, also desto leichter sollte sie den Schülern fallen
• n. Jürgens & Sacher– Hohe Lernbedeutsamkeit: P 70– Mittlere Lernbedeutsamkeit: P 50– Geringe Lernbedeutsamkeit: P 35
Trennschärfe
• Substanziell positive Korrelation zwischen Antworten im Item und im Gesamttest
• D.h. Schüler, die im Gesamttest höhere Werte erhalten, sollten auch häufiger das Item lösen
• Korrigierter Koeffizient: Item selbst geht nicht in Gesamttest ein
Aufgabe 1 Aufgabe 2 Aufgabe 3 Zeilensumme
Schüler 1 1 1 0 2
Schüler 2 1 0 0 1
Schüler 3 1 0 0 1
Schüler 4 1 1 1 3
Spaltensumme 4 2 1
Trennschärfe
• Im Rahmen einer sozialen Bezugsnorm werden Trennschärfen größer .30 angestrebt
• Negativen Trennschärfen sollte nachgegangen werden (Itemformulierung!)
• Eine Abnahme der Trennschärfe bei späteren Aufgaben spricht für Ermüdungseffekte
Zusammenhang Schwierigkeit – Trennschärfe:
Schwierigkeit
Trennschärfe
Beispiele ‐ MC
A* B C D
Itemschwierigkeit 99 0 1 0
Trennschärfe .06 ‐ ‐.06 ‐
* Richtige Antwortalternative
Item überprüfen: zu leicht? Enthalten Antwortalternativen Hinweise?
Beispiele ‐ MC
A* B C D
Itemschwierigkeit 35 10 2 50
Trennschärfe ‐.20 .13 .02 .30
* Richtige Antwortalternative
Item überprüfen: Falsch codiertes Item?, C geeignet als Distraktor?
Beispiele ‐ MC
A* B C D
Itemschwierigkeit 35 20 15 30
Trennschärfe .45 ‐.13 ‐.02 ‐.30
* Richtige Antwortalternative
Relativ schweres Item, diskriminiert gut
Vielen Dank für Ihre Aufmerksamkeit!
Urteilsbildung und Klassifikation
am Beispiel von
Kindeswohlgefährdung
Kindeswohl
Kindeswohlgefährdung
• Misshandlung– Körperliche M. (direkte Gewalt wie z.B. Schlagen, Stoßen,
Schütteln, Würgen, Verbrennen, eigenen Kot/Urin essen lassen, Vergiftungen)
– Seelische/geistige M. (z.B. häusliche Gewalt, Isolation, feindselige Ablehnung wie ständiges Nörgeln, Beschimpfen oder Demütigen, Terrorisieren, Liebesentzug, Drohungen)
• Sexueller Missbrauch
• Vernachlässigung (z.B. körperlich, medizinisch, mangelnde Aufsicht, emotional, kognitiv)
Folgen von Kindeswohlgefährdung
• In Abhängigkeit von der Dauer, Schwere,
Zeitpunkt der Gefährdung
• Folgen vielfältig, z.B.
– Entwicklungsverzögerungen
– Bindungsstörungen
– Psych. Störungen
Risiko- und Schutzfaktoren
n. Deegener et al., 2009
Förderung von Resilienz
• Bedingungslose Wertschätzung
• Aufmerksamkeit
• Verantwortung übertragen, keine vorschnellen Hilfen
• Selbsteinschätzung steigern: Gefühle benennen, konstruktives Feedback, Stärken und Schwächen aufzeigen
• Anregungsreiche Umgebung, aber Routine im Lebensalltag
• Interessen fördern
Hinweise
Handlungsanweisung für Lehrer, Ber
Hinweise
Handlungsanweisung für Lehrer, Ber
Klassifikation
Test
Kriterium
Klassifikation
Test
Kriterium
Cut-off-Wert
Klassifikation
Test
Kriterium
Cut-off-Wert
TP
TN FP
FN
Fehler
Testergebnis
Keine Gefährdung (Negativ) Gefährdung (Positiv)
Misshandlung Positives
Familienklima
Misshandlung Positives
Familienklima
Wahre Negative
TN
Wahre Positive
TP
Falsche Negative
FN
Falsche Positive
FP
Test zeigt an
+ -
Kriterium + TPRisiko: 1 - β
FNRisiko: β
- FPRisiko: α
TNRisiko: 1 - α
Sensitivität = TP / (TP + FN)
Spezifität = TN / (TN + FP)
Positiver Vorhersagewert = TP / (TP + FP)
Negativer Vorhersagewert = TN / (TN + FN)
Test
Krit.
Cut-off
TP
TN FP
FN
Höhere Prävalenz
Effizienz = 1
Test
Krit.
Cut-off
TN FP
FN TP
“If you hear hoofbeats, think of horses, not zebras”
Test
Krit.
Cut-off
TP
TN FP
FN
Strengerer Test
Test
Krit.
Cut-off
TP
TN FP
FN
Test
Krit.
Cut-off
TP
TN FP
FN
Verbesserung der Validität
Test
Krit.
Cut-off
TN FP
FN TP
Klinische vs. Statistische Urteilsbildung
• Es ist zu unterscheiden zwischen Datengewinnung und Synthese der Daten.
• Datengewinnung:– Klinisch: Beurteilung durch Diagnostiker notwendig, informell
subjektiver Weg (z.B. Exploration, Beobachtung)
– Mechanisch: Standardisierung von Aufzeichnung, Auswertung und Interpretation
• Datensynthese:– Klinisch: erfahrungs- und intuitionsgesteuert, keine expliziten
und validierten Regeln; dies ist nicht auf den klinischen Bereich begrenzt!
– Statistisch: Gewichtung der diagnostischen Informationen nach expliziten Regeln (z.B. Regressionsgleichung)
Statistische Urteilsbildung
• Aufbauend auf empirisch abgesicherten Beziehungen
zwischen Prädiktoren und Kriterium werden
mathematisch optimale Vorhersagen getroffen
mathematisch optimale Kombination und Gewichtung
der Prädiktoren
• Beispiel Regressionsgleichung: mathematisch optimal
da Methode der kleinsten Quadrate
Befunde
• Aktuelle Meta-Analyse von Grove et al. (2000): Einschluss von 136 Studien aus verschiedensten Bereichen (z.B. Diagnosen, Behandlungsergebnisse, Berufs-/Trainingserfolg, Gewalt, Anpassung an institutionelle Lebensbedingungen wie Gefängnis …)
• Ergebnis: Stat > Klin in 47% der StudienStat = Klin in 47% der StudienStat < Klin in 6% der Studien
• Moderatoren:– größere Unterschiede bei Interviewdaten (S>K), kleinere Unterschiede
bei medizinischen Daten
– kein Einfluss von Training und Erfahrung
– kein Einfluss, ob Beurteiler gleich viele oder mehr Daten zur Verfügung hatte
Einige typische Reaktionen von
Diagnostikern (Grove & Meehl, 1996)
• „Es gibt keine Formel bzw. die Formel gilt nicht für unsere Population“
• „Die Ergebnisse der Studien sind nicht auf meine eigenen Fähigkeiten als Diagnostiker anwendbar“
• „Statistische Urteilsbildung ist viel zu teuer“
• „Wir wollen Vorhersagen für einzigartige Individuen treffen“
• „Die meisten Daten, die wir nutzen, sind nicht quantifizierbar“
• „Wenn die Diagnostiker Feedback über ihre Ergebnisse erhalten hätten, würden sie zukünftig die Formel schlagen“
Grove und Meehl zeigen für diese (und andere) Reaktionen die Unangemessenheit der dahinter liegenden Annahmen
• Statistische Datensynthese ist in den
meisten Fällen mindestens so gut wie
klinische Datensynthese
• Dies bezieht sich allerdings nur auf den
Bereich der Datensynthese! Meist wird
eine multimethodale Datensammlung
empfohlen.
Auszug: Bogen zur
Dringlichkeitseinschätzung
Handlungsanweisung für Lehrer, Berlin
Ha
nd
lun
gsa
nw
eis
un
g fü
r L
eh
rer, B
erlin
Multimethodale Diagnostik
Verhaltensbeobachtung
Entscheidungen
• Angewandte Diagnostik führt zu Entscheidungen (Cronbach & Gleser, 1965)– Sollte Paul eine besondere Förderung erhalten?– Ist Julius geeignet für den Übergang ins Gymnasium?– Welche Unterrichtsform ist am Besten für Kevin?– War die Ursache für den schlechten Vortrag von Peter soziale Ängstlichkeit, mangelndes Verständnis für den Stoff oder verbale Schwierigkeiten?
Datensammlung aufbauend auf Fragestellung und Hypothesen
In der Regel multimethodal
Informationsgewinnung
• Häufig: Unterschiede zwischen den Informationen des Kindes, der Eltern und der Lehrer
• Kashani et al. (1985):– Eltern berichten eher über externales Verhalten– Kinder über ängstliche oder depressive Gefühle/Symptome incl.
suizidale Gedanken
• Unterschiede größer bei älteren Kindern/Jugendlichen• Befunde, dass diese Unterschiede auch familiäre Probleme vorhersagen können
Informationsgewinnung
Ursachen der Abweichung von Informationen:
• Unterschiedliche Informationsbasis
• Situationsspezifisch unterschiedliches Verhalten des Kindes• Unterschiedliche Urteilsanker• Simulations‐ oder Dissimulationstendenzen
• Messfehler der Messinstrumente
Exkurs: Beispiel ADHS
In Abhängigkeit vom mentalen Alter
Exkurs: ADHS• Diagnostik beinhaltet neben den Einsatz sogenannter
Ratingskalen auch Interviews mit Eltern, Lehrer, Kinder und optimalerweise Verhaltensbeobachtungen (auch im Unterricht)
Beispiel: Ausschnitt aus der Vanderbilt ADHD Diagnostic Teacher Rating Scale
Beobachtung
= Verhalten, Ereignisse, Vorgänge werden sorgfältig wahrgenommen und registriert (im Vergleich zu anderen Verfahren direkterer Zugang ermöglicht)
• Ist zielgerichtet• Ist methodisch kontrolliert
„zuschauen“ ist nicht „beobachten“
Beispiel
• Überprüfung der Aufmerksamkeitsverteilung im Unterricht (vgl. Altrichter&Posch 1998, S. 120)
• Registrierung der Schüler, die Lehrer aufruft
• Anhand eines Sitzplanes wird hinter dem Namen vermerkt, wie häufig Schüler aufgerufen wird (Strichliste, mit („+“) und ohne („‐“) vorherige Meldung)
• Markierungen bilden nach und nach Aktionsraum ab
• Ergebnis: dem Lehrer wurde bewusst, dass manche Schüler wenig Beachtung fanden
Inhalte der Beobachtung
• Merkmale, die die Beobachtbarkeit des Verhaltens determinieren
– Fremd‐ vs. Selbstbeobachtung– Häufigkeit
– Vermeidbarkeit
– Öffentlichkeit
– Notwendige Interaktionspartner– Soziale Erwünschtheit
9
Beobachtung
Klassifikation frei (unsystematisch) vs. systematisch• Unsystematische Beobachtung
– Alltagsgleich, aber mit bestimmtem Ziel, z.B. Hypothesenbildung
– Beobachtungsgegenstand nicht eindeutig festgelegt– Selektion der Eindrücke– Kodierung der Eindrücke deskriptiv / qualitativ
• Systematische Beobachtung– Verlauf (Ort, Zeit etc.) und Bereich (Verhaltensweisen) definiert– Registrierung festgelegt– Auswertungsprozedur entwickelt– Gütekriterien bedeutsam
Beobachtung
Klassifikation naturalistisch vs. kontrolliert• Naturalistische Beobachtung
– Feldbeobachtung– Realistisches, ökologisch valides Bild– Keine Beeinflussung der Umwelt– Beispiel: Hausbesuch, um sich einen Eindruck von der familialen
Interaktion zu machen
• Kontrollierte Beobachtung– Laborbeobachtung– Situativer Rahmen vorgegeben– Ermöglicht Vergleich zwischen Personen– Beispiel: Personen vor laufender Kamera eine Rede halten lasse um
potentielle Angstreaktionen in selbstwertbedrohlich Situationen zu untersuchen
Beobachtung
Klassifikation nach Grad der Teilnahme• Aktiv‐teilnehmende Beobachtung
– Beobachter mischen sich ins Geschehen ein – Problem: Gütekriterien
• Passiv‐teilnehmende Beobachtung– Beobachter ist anwesend, greift aber nicht ein
• Nicht‐teilnehmende, verdeckte Beobachtung– Beobachtung ohne Wissen der beobachteten Person– Ethisch‐rechtlich problematisch (im Labor nachträgliche
Einwilligung)
Welche Verhaltensattribute sind essentiell für eine Kategorie? Wie ist das Abstraktionsniveau?
Beispiele aus dem verbalen Zeugnisteil– „Du zeigst ein reges Interesse am Unterricht“– „Beim Vortrag eines Textes wirst du zunehmend selbstsicherer“
Woran erkennen?Hutt & Hutt (1974)
„Es liegt auf der Hand, dass wir nicht messen können, was wir nicht definieren können“
Problem: Definition einer Verhaltenseinheit
Beispiel: „Konzentriert sein“
Beispiel Aggressivität
• Die Lehrkraft sitzt bei Anna und Peter am Pult und erklärt ihnen die Matheaufgaben. Anna schreit laut Richtung Lehrkraft: „Das will ich nicht machen, machen Sie es doch selbst!“ Währenddessen steht Erika von ihrem Platz auf und geht zum Papierkorb, um ihre Buntstifte anzuspitzen. Im Vorbeigehen schlägt sie Daniel auf den Kopf. Dieser zuckt zusammen, sagt aber nichts und hebt den Blick nicht vom Buch. Carlo lacht höhnisch und sagt anerkennend zu Erika: „He, schön gemacht!“
Beispiel Aggressivität
• Humpert et al. (1983): – 32% der befragten Lehrer definieren fast ausschließlich massive Auseinandersetzungen zwischen Schülern als aggressiv
– 17% definieren massive Auseinandersetzungen zwischen Schülern und Angriffe auf Lehrpersonen als aggressiv
– 10% sehen tendenziell kein aggressives Verhalten– 9% stufen alle Verhaltensweisen als aggressiv ein
Heterogene Aggressionsbegriffe
Grundlegende Messgrößen von Verhalten
• Häufigkeit• Dauer
– Mittlere Dauer einer Einheit– Gesamtzeit des Auftretens einer Einheit während des Beobachtungszeitraums
Beispiel: Paula verlässt ihren Sitzplatz während des Unterrichts 4 Mal (Häufigkeit) für je 2, 4, 7 und 3 Minuten (mittlere Dauer: 4 Minuten, Gesamtzeit: 16 Minuten, relative Gesamtzeit: 16/45 = .36)
• Intensität des VerhaltensBeispiel: Weinen auf einer Skala von „Wimmern“ (geringe Intensität) bis „Schreien“ (hohe Intensität)
Protokollierung von Beobachtungsergebnissen
Deskription
isomorphe reduktive
das zu Beobachtende Beschränkung auf möglichst vollständig und interessantes Ver‐unverändert wiedergeben haltensklassen
Zeichensysteme Kategorie‐ Schätzskalen
(Indexsysteme) systeme
Beispiel „Sitzkreis“Situation Verhalten Ursache Konsequenz
9.00 Uhr Schlägt plötzlich seinen linken Sitznachbarn mit der offenen Hand
Keine beobachtet Ignoriert Peerund Lehrer
9.03 Uhr Schreit „Nein“ zum Lehrer und bleibt sitzen
Lehrer gibt spezifische Anweisung, zum Sitzplatz zurückzugehen
Lehrer ignoriert,Peers lachen
9.05 Uhr Steht auf und setzt sich auf seinen Sitzplatz
Peer kommt zu ihm und flüstert ihm etwas ins Ohr
Lehrer lobt ihn
Exkurs: Beispiel Aggressivität
Kodierung
Drei Varianten:• Zeichen‐ /Indexsysteme
– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme
– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus
– Aufwändige Entwicklung• Schätzskalen
– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent,
d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)
Beispiel „Sitzkreis“
Verhalten Häufigkeit
Auf dem Stuhl herumzappeln IIIIII
Aufstehen II
Andere Unterbrechen IIIII
Physische Aggression gg. Peer I
Physische Aggression gg. Lehrer
Verbale Aggression gg. Peer
Verbale Aggression gg. Lehrer I
Beispiel „Sitzkreis“Verhalten 30‘‘ 1 Min 1.30 2 Min …
Auf dem Stuhl herumzappeln √ √ √
Aufstehen √
Andere Unterbrechen √ √
Physische Aggression gg. Peer √
…
Kodierung
Drei Varianten:• Zeichen‐ /Indexsysteme
– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme
– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus
– Aufwändige Entwicklung• Schätzskalen
– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent,
d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)
Beispiel
Beobachtungssystem zur Analyse aggressiven
Verhaltens in schulischen Settings BASYS
Kodierung
Drei Varianten:• Zeichen‐ /Indexsysteme
– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme
– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus
– Aufwändige Entwicklung• Schätzskalen
– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent,
d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)
Beispiel
Arten: a) numerische SkalaWie aggressiv ist der Schüler?
1 2 3 4 5 6 7
b) verbale SkalaDie Aggressivität des Schülers ist
nicht vorhanden – schwach – mittel – stark
c) grafische SkalaWie aggressiv ist der Schüler?
0 100
Auswertung
• Beobachtung und Registrierung der interessierenden Verhaltensweisen in vivo– Hohe Anforderungen, da Beobachtung und Registrierung
simultan erforderlich– Problem: möglicherweise bleiben interessierende
Verhaltensweisen unentdeckt, da Beobachter überlastet– Lösungsansatz: Mehrere Beobachter, die sich jeweils auf
unterschiedliche, eng umschriebene Aspekte konzentrieren• Nachträgliche Auswertung auf Basis von
Videoaufzeichnungen– Beobachtung und Registrierung können zeitlich separiert
werden– Wiederholungsoptionen– Beliebig feine zeitliche Untergliederung
Gütekriterien
• Objektivität/Reliabilität: Untersuchung der Beobachterübereinstimmung
• Validität: reflektiert situationsspezifisches Verhalten Generalisierung auf Persönlichkeitsmerkmale muss überprüft werden
Exkurs: ADHS, Umgang im Unterricht
• Schulisches Umfeld anpassen– Irrelevantes verbannen (z.B. einzeln setzen), aber Hintergrundmusik kann helfen
– Wichtiges hervorheben (inkl. Instruktionen wiederholen lassen) + Kürze der Instruktionen und der Aufgaben (besser 2 x 5 als 1 x 10 Minuten)
– Aufgabenstellungen wechseln (wenig Wiederholungen), auch mit motorischen Komponenten
– Bewegungen ermöglichen– Mittleres Schwierigkeitsniveau der Aufgaben– Intraindividueller Vergleich
Exkurs: ADHS, Umgang im Unterricht
• Arbeitstechniken beibringen (was ist der Plan, wie kann ich den Plan umsetzen, welche Zwischenschritte etc.)
• Belohnungssysteme, z.B. Token Economy
• Positives Feedback• Freiheiten lassen, aber Routine einführen
Minimalprogramm der Beobachtung
• Auswahl der Beobachtungsfrage (z.B. Wer ist besonders geschickt mit Werkzeugen?)
• Auswahl der Situation (z.B. Anfertigen Vogelhäuschen im Werkunterricht)
• Auswahl und Kategorisierung der Indikatoren (z.B. präziser Schnitt mit Säge)
• Festlegung wer wann beobachtet wird• Reflexion über Beobachtungsfehler• Vorbereitung der Eintragung der Beobachtungsergebnisse direkt im Anschluss an die Beobachtung
Ausgewählte Testverfahren
Exkurs: Ein mgl. Modell
Z.B. Heller, 2000
Persönlichkeits‐ vs. Fähigkeitstests
Im pädagogischen Bereich…
• Fähigkeiten wie Intelligenz und Konzentration beeinflussen die benötigte Lernzeit
• Emotionale und motivationale Merkmale bestimmen die aufgewendete Lernzeit
Im pädagogischen Bereich…Beispiele: • Feststellung des sonderpädagogischen Förderbedarfs
– Intelligenz als ein Anhaltspunkt– IQ < 85 Förderbedarf
(aber: 16% vs. 3‐4% Förderschule)
• Vorsicht in der Interpretation von niedrigen Werten!– Mangelnde Intelligenz?– Fehlende Motivation?
– Geringe Deutschkenntnisse (bei sprachgebundenen Tests)?
– Pygmalion‐Effekt? (Rosenthal: Lehrern wurden zufällig zugewiesene Ergebnisse von Intelligenztests rückgemeldet Leistung veränderte sich entsprechend)
– …
Im pädagogischen Bereich…Beispiele: • Feststellung des sonderpädagogischen Förderbedarfs
– Intelligenz als ein Anhaltspunkt– IQ < 85 Förderbedarf
(aber: 16% vs. 3‐4% Förderschule)
• Diagnose Hochbegabung– IQ > 130
• Konzentrationsschwierigkeiten– Hyperaktive Form der Konzentrationsschwierigkeiten:
motorische Unruhe, leichte Ablenkbarkeit, Nicht‐Abwarten‐Können, Nicht‐Zu‐Ende‐Führen begonnener Tätigkeiten, …
– Hypoaktive Form der Konzentrationsschwierigkeiten: langsames Arbeiten, Tagträumereien, Trödeln, …
Exkurs: Hochbegabung
• Spirale der Enttäuschung vermeiden• Hochbegabter muss auch lernen, dass Anstrengung (Üben) notwendig ist
• Mgl. Förderung: Interne Differenzierung im Klassenverband oder externe ~ in Spezialklassen– Akzeleration: beschleunigte Darbietung des Stoffs, z.B. Überspringen von Klassen (auch fachspezifisch)
– Enrichment: Anreichern des Stoffs mit neuen Themen, Lernformen etc., z.B. Wettbewerbe, Schülerakademien
Speed‐ vs. Power‐TestsSpeed‐Tests (Geschwindigkeitstests):• einfache Aufgaben, die bei ausreichend Zeit von allen Probanden gelöst
werden können (Schwierigkeit der Aufgaben konvergiert gegen Null)• Differenzierung durch Begrenzung der Bearbeitungszeit• Beispiel: Konzentrationstests
Power‐Tests (Niveautests):• schwierige Aufgaben, die auch bei ausreichend Zeit nicht von allen
Probanden gelöst werden können• Differenzierung durch Aufgabenschwierigkeit• Beispiel: Intelligenztests (Vielzahl an Intelligenztests aber streng
genommen Mischform: schwierige Aufgaben und Zeitbegrenzung)
Exkurs: Aufmerksamkeit
• Konzeptuelle Unterscheidung verschiedener Bereiche (vgl. z.B. Heubrock & Petermann, 2001)– Vigilanz u. Daueraufmerksamkeit:
Fähigkeit, gleichmäßig hohen Aktivierungsgrad über längeren Zeitraum aufrechtzuerhalten, um seltene Veränderungen bei monotonen Aufgaben zu erkennen (Vigilanz) oder auf häufige Stimuli zu reagieren (Daueraufmerksamkeit)
– Selektive Aufmerksamkeit:
Fähigkeit, schnell und zuverlässig auf relevante Reize zu reagieren ohne sich von irrelevanten Reizen ablenken zu lassen
– Geteilte Aufmerksamkeit:
Fähigkeit, Aufmerksamkeit zwischen mehreren Aufgaben aufzuteilen
KLT‐R• Ab der 4./5. Klasse zur Erfassung der „allgemeinen psychischen
Leistungsfähigkeit“ – Aufmerksamkeit, aber auch andere Komponenten des Arbeitsverhaltens wie Ausdauer, Anstrengungsbereitschaft, Sorgfalt…
• Im Sinne der Aufmerksamkeitskomponenten: Messung von Daueraufmerksamkeit
• Einfache Rechenaufgaben mit mehreren Schwierigkeitslevel‐ 4‐6: für 4., 5., 6. Schulklasse‐ 6‐13: für 6.‐13. Schulklasse
• Umfang:– zwei Parallelformen mit je 180 Aufgaben und 18 Minuten Bearbeitungszeit
KLT‐R ‐ Aufbau
8 + 9 – 24 – 4 + 3
3 + 6 – 89 + 1 + 7
Verrechnung mittels zweier Regeln:‐ wenn Ergebnis der oberen Zeile größer als Ergebnis der unteren
Zeile, dann muss die unteren Zahl von der oberen subtrahiert werden
‐ wenn Ergebnis der oberen Zeile kleiner als Ergebnis der unteren Zeile, dann müssen beide Zahlen addiert werden
‐ Es dürfen keine Zwischenergebnisse notiert werden‐ Diese Regeln gelten für die Alterstufen ab 6. Schulklasse; für die
Klassenstufen 4‐6 soll stets die kleinere von der größeren Zahl abgezogen werden
Gütekriterien
• Objektivität grundsätzlich gegeben; dem Testleiter werden aber Spielräume hinsichtlich Motivierung oder Umgang mit Probanden eingeräumt
• Reliabilität gegeben
• Validität:– geringere Korrelationen zum d2 (.20‐.37) als zu Rechentests (bis .57);
Fehler korrelieren mit .21 zur Mathenote (bei Gymnasiasten), ansonsten kaum bedeutsame Zusammenhänge zu Schulleistungen
• Normierung:– Revidierte Fassung: an 860 bayrischen Schülern (4.‐6. Klasse) und 2600
bayrischen Schülern (6.‐13. Klasse); getrennte Normen für Schulklassen und Schultypen; „Erwachsene“ = 350 Schüler älter als 18
Fazit
• Überprüfung von Daueraufmerksamkeit mittels Papier‐Bleistift‐Test
• Dem Test wird eine hohe inhaltliche Validität zugesprochen (Nell, 2003), aber Konfundierung mit Rechenfähigkeiten (und Merkfähigkeit) gegeben
• Für die revidierte Fassung sind die bisherigen Daten zur Validierung und Normierung als unzureichend zu bewerten
Aufmerksamkeits‐Belastungs‐Test d2‐R
• Der in Deutschland am häufigsten eingesetzte LeistungstestBeispiel: Befragung in Kinder‐ und Jugendpsychiatrie: 89% Anwendungshäufigkeit (Bölte et al., 2000)
• Erfasst „leistungsbezogene, kontinuierliche und fokussierende Reizselektion“
• Misst kurzfristige, selektive Aufmerksamkeit
d2‐R
• Durchstreichtest
• 14 Zeilen mit d & p, die mit 1 bis 4 Strichen versehen sind; Proband soll alle d mit zwei Strichen durchstreichen
• Für jede Zeile 20 Sekunden Zeit; Testdauer ohne Instruktion somit 4 Minuten 40 Sekunden
• Als Einzel‐ oder Gruppentest durchführbar
Achtung: ursprüngliche Version
Gütekriterien
• Objektivität grundsätzlich gegeben; dem Testleiter werden aber Spielräume hinsichtlich Motivierung oder Umgang mit Probanden eingeräumt; lange Testinstruktion
• Reliabilität: gegeben
• Validität:– Mittlere Korrelationen mit anderen Konzentrationstests, geringere mit
Intelligenztests
• Normierung:– > 3000 Teilnehmer zwischen 9 und 60 Jahren; Altersnormen liegen vor
Intelligenztests
• Können unterschieden werden aufbauend auf der zugrunde gelegten Theorie (z.B. g‐Faktormodelle)
• D.h. Einsatz von Intelligenztests erfordert Kenntnis von Intelligenztheorien
• Einige Tests messen g, andere nur Intelligenzkomponenten
• Einige Tests sind sprachfrei und kulturfair, andere bildungsabhängig
Intelligenztheorien
• Vielzahl verschiedener Theorien, mit und ohne „g‐Faktor“
• Beispiele: – Spearmans Zwei‐Faktorentheorie– Cattells kristalline und fluide Intelligenz
Theorie von Cattell
CFT‐Gruppe• Einer der am häufigsten eingesetzten Intelligenztests• CFT = „Culture Fair Test“, sprachfrei, ausschließlich nonverbale Aufgaben• CFT 1: Vorschulkinder und Schüler der Grundschulklassen 1‐3
– Substitution (Symbole mit Figuren verbinden– Labyrinthe (L. durchfahren)– Klassifikation (Abgrenzung einer Figur von ähnlichen Figuren)– Ähnlichkeiten (Details in veränderten Bildern erkennen)– Matrizen (M. vervollständigen)
• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr, CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)
– 4 Untertests : Reihenfortsetzen, Klassifikationen, Matrizen, Topologische Schlußfolgerungen+ 2 schulnahe Ergänzungstests (Wortschatz, Zahlenfolgen)
• Reliabilität gegeben• gute Validität für Erfolg Realschule, befriedigende für Gymnasium• Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 – 15;6 für Ergänzungstests
CFT‐Gruppe• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr,
CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)– 4 Untertests: – Reihenfortsetzen, – Klassifikationen, – Matrizen, – Topologische Schlußfolgerungen+ 2 schulnahe Ergänzungstests (Wortschatz, Zahlenfolgen)
• Reliabilität gegeben• gute Validität für Erfolg Realschule, befriedigende für
Gymnasium• Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 –
15;6 für Ergänzungstests
CFT‐Gruppe
• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr, CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)
4 Untertests: – Reihenfortsetzen, – Klassifikationen, – Matrizen, – Topologische Schlussfolgerungen+ 2 Ergänzungstests (Wortschatz, Zahlenfolgen; CFT20)
CFT‐Gruppe
• Reliabilität gegeben
• gute Validität für Erfolg Realschule, befriedigende für Gymnasium
• CFT 20/CFT 3: Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 – 15;6 für Ergänzungstests
Wechsler‐Tests
WIE (2006)
WISC
• Grundlage: Wechslers Intelligenzkonzeption
• "Intelligenz ist ein hypothetisches Konstrukt, ist die zusammengesetzte oder globale Fähigkeit des Individuums, zielgerichtet zu handeln, rational zu denken und sich wirkungsvoll mit seiner Umwelt auseinanderzusetzen. Sie ist zusammengesetzt oder global, weil sie aus Elementen oder Fähigkeiten besteht, die, obwohl nicht völlig unabhängig, qualitativ unterscheidbar sind“
• Pragmatische Auswahl von Subtests
WISC
• Als Einzeltest für den Altersbereich 6‐16 Jahren konzipiert
• 15 Untertests
• Diese werden den vier Index‐Wert‐Skalen Sprachliches Verständnis, Wahrnehmungsorganisation, Arbeitsgedächtnis und Arbeitsgeschwindigkeit zugeordnet (+ Berechnung Gesamt‐IQ)
• Je nach Fragestellung unterschiedliche Auswahl der Subtestsund dementsprechend auch unterschiedliche Bearbeitungsdauer; Median ca. 67 Minuten
WISC
• Gesamt‐IQ: allgemeine Intelligenz
• Sprachliches Verständnis: Betonung auf kristalline Intelligenz (Wissensanwendung)
• Wahrnehmungsorganisation: Betonung auf fluide Intelligenz (neues Lernen)
• Arbeitsgedächtnis: Betonung auf KZG (auditorisch)
• Arbeitsgeschwindigkeit: Betonung auf mentale Schnelligkeit (Leistungsaufgaben mit selektiver Konzentration)
WISC
• Sprachliches Verständnis: Betonung auf kristalline Intelligenz (Wissensanwendung)
• Z.B. – Ähnlichkeiten finden (Wasser‐Milch)
WISC
• Wahrnehmungsorganisation: Betonung auf fluide Intelligenz (neues Lernen)
• Z.B.– Mosaiktest
WISC
• Arbeitsgedächtnis: Betonung auf KZG (auditorisch)
• Z.B.– Zahlennachsprechen
WISC
• Arbeitsgeschwindigkeit: Betonung auf mentale Schnelligkeit (Leistungsaufgaben mit selektiver Konzentration)
• Z.B.– Symbolsuche
WISC
• Durchführung erfordert umfangreiche Übung und Erfahrung
• Reliabilität sehr gut, Validitätsbefunde liegen vor
• Normdaten von 1650 Kindern aus den deutschsprachigen Ländern
Ausgewählte Testverfahren
Emotional‐Motivationale Konstrukte
Interessen
• Beziehen sich auf die Bewertung von Handlungen, Objekten, Ideen; sind emotional‐kognitive Verhaltenspräferenzen
• „Bei Interessen handelt es sich um generalisierte Verhaltenstendenzen, über die ein Individuum verfügt, das von einer bestimmten Klasse von Anreizen und Tätigkeiten angezogen wird.“ (Amelang & Zielinski)
• Unterschiedliche Aspekte, z.B. – Interessen: Neugierde + Valenz (angenehm vs. unangenehm)
(Asendorpf, 2007)– Interesse (als Emotion und damit mgl.weise als Vorstufe von
Interessen): Reiz des Neuen + Copingpotential (Silvia, 2005)
Kurzer Exkurs: Berufsfindung
• Unterschiedliche Modelle; charakteristisch für den diagnostischen Bereich: Matching‐Ansatz
• Matching‐Ansatz: Passung zwischen Beruf (Anforderungen, Bedürfnisbefriedigungs‐möglichkeiten) und Person (Fähigkeiten und Qualifikationen, Bedürfnisse)
Kurzer Exkurs: Berufsfindung• Theorie von Holland (1997): je klarer und konsistenter das Interessenprofil und je
mehr es mit den Inhalten einer Stelle übereinstimmt, desto– höher wird die spätere Berufszufriedenheit sein
(aber Korrelationen im Bereich von ‐.07 bis .51; im Mittel: .22; Meta‐Analyse von Assouline & Meir, 1987)
– langfristiger wird jemand in einem bestimmten Beruf verbleiben (aber: mittlere Korrelation: .15)
– besser wird die berufliche Leistung sein (aber: mittlere Korrelation: .06)
• Berufliche Gravitationshypothese: wenn eine Person feststellt, dass eine Stelle nicht den eigenen Fähigkeiten und Interessen entspricht, verlässt sie diese wieder und sucht nach einer Umwelt mit höherer Übereinstimmung
• Austin & Hanisch (1990): die in der 10. Klasse gemessenen Fähigkeiten sagten besser den später ausgeübten Beruf (11 Jahre nach Abschluss) vorher als die zeitgleich gemessenen Interessen
Aktuelles Verfahren
Explorix (Jörin, Stoll, Bergmann & Eder, 2006)
Explorix
• Für Berufs‐ und Laufbahnberatung
• Als Selbstexplorationsinstrument über Internet durchführbar (www.explorix.de)
• Basiert auf Hollands Typenmodell (Deutsche Version des Self‐directed Search von Holland): Holland unterscheidet 6 Typen im RIASEC‐Modell
RIASEC‐Modell
• Holland unterscheidet 6 Dimensionen: RIASEC
• Nach Holland kann eine Person einem dominanten Typ (Primärtyp) sowie zwei weiteren Typen (Sekundär‐ und Tertiärtyp) zugeordnet werden; dies wird in einem Drei‐Buchstaben‐Code dargestellt
RIASEC‐Modell
A Künstler
S Sozial
E Unternehmer
I Forscher
R Realistisch
C Konventionell
RIASEC‐Modell
• Realistischer Typ (‐R): bevorzugt ein geordnetes, systematisches, praktisches Umgehen mit Dingen, Werkzeugen, Maschinen und Tieren; z.B. Klempner, Elektriker, Landwirt (handwerkliche, technische und landwirtschaftliche Berufe)
• Forscher‐Typ (=I): bevorzugt Tätigkeiten, die beobachtende, systematische, symbolische und kreative Unternehmungen betreffen; z.B. Laborassistent oder Physiker (Forschung, Wissenschaft, Labor)
• Künstlerischer Typ (=A): bevorzugt freie und unsystematische Tätigkeiten, die sich mit Wörtern, Bildern, Musik oder physischen Objekten befassen, um Kunstformen zu entwickeln; z.B. Designer oder Schriftsteller (Kunst/Kultur, Theater, Film, Mode, Journalismus…)
• Sozialer Typ (=S): bevorzugt Tätigkeiten im Bereich der Interaktion mit anderen, um diese auszubilden, zu heilen, zu trainieren oder zu belehren; z.B. Lehrer oder Krankenpfleger (Bildungswesen, soziale Beratung, Gesundheitswesen).
• Unternehmerischer Typ (=E): bevorzugt Aktivitäten, die sich mit der Beeinflussung und geschickten Behandlung anderer befassen, um Organisationsziele zu erreichen oder wirtschaftlichen Gewinn zu haben; z.B. Rechtsanwalt, Verkäufer (Management, Verkauf, Werbung, PR).
• Konventioneller Typ (=C): bevorzugt geordnete und systematische Tätigkeiten, die sich mit dem Führen von Daten und Akten, dem Organisieren von Material und dem Bedienen von Büromaschinen beschäftigen; z.B. Buchhalter, Sekretärin oder Kassierer (Verwaltung, Büro, Sekretariat).
Explorix
• Proband kann Test hinsichtlich Typenprofil selbst auswerten
• Diagnostiker kann außerdem ermitteln: – Differenziertheit (Eindeutigkeit der Interessen‐schwerpunkte),
– Konsistenz (Nähe der drei Typen im Hexagon‐Modell)
– Identität (eigene Skala, Einschätzung, wie klar und stabil die Subskalen sind, z.B. Ich bin noch nicht sicher, welche Berufe ich erfolgreich ausüben könnte)
Gütekriterien
• Objektivität gegeben
• Reliabilität: interne Konsistenz gegeben
• Validität: theoretische Hexagon‐Struktur in einigen Studien angezweifelt; Konstruktvalidität gegeben, keine Angaben zur Kriteriumsvalidität
• Keine Normwerte
Leistungsmotivation
• Sie haben die Wahl: belegen Sie einen leichten, mittelschweren oder schweren Kurs an der Uni?
Motive
Die heutige Motivationspsychologie beschäftigt sich mehr mit rationalen Zielbildungsprozessen, die einem Erwartungs‐mal‐Wert Modell folgen. Dies wurde zuerst und am genauesten für die Leistungsmotivation herausgearbeitet.
Vorsicht:
Motivationsstärke ist aktueller Zustand einer Person in einer motivierenden Situation.
Ein Motiv ist die überdauernde Tendenz zu bestimmten Motivationsstärken in motivanregenden Situationen (also ein Persönlichkeitsmerkmal).
Interindividuelle Differenzen
Aus: Carver & Scheier
Exkurs: Leistungsmotiv
Mit Energie und Beharrlichkeit an einer bedeutsamen Sache arbeiten; danach streben, etwasBeachtliches zu vollbringen; in Beruf und Geschäft andern vorweg sein, eine Gruppeüberreden oder führen, eine Sache gestalten; in seinem Handeln Ehrgeiz zeigen
Risikowahlmodell von Atkinson (1957) I
‐ Leistungsmotivation L‐ subjektive Erfolgswahrscheinlichkeit W, dementsprechend ist 1‐W subjektives Risiko‐ Leistungsmotiv M
werden multiplikativ verknüpft zu
L = M(1‐W)W, wobei
‐ M(1‐W) die Wertkomponente der Motivation‐ W die Erwartungskomponente der Motivation
Leistungsmotiv M:‐ Erfolgsmotiv Me, Erfolg anzustreben‐ Misserfolgsmotiv Mm, Misserfolg zu meiden
Exkurs: Leistungsmotiv
Konsequenzena) Me > Mm b) Me < Mm:
Re
su
ltie
re
nd
e L
eis
tun
gs
mo
tiv
ati
on
Erfolgs-
tendenz
Leistungs-
tendenz
Mißerfolgs-
tendenz
Leistungsmotiv
Folgerungen für Leistungsmotiv:
Erfolgsmotivierte wählen eher Aufgaben mittlerer Schwierigkeit und bearbeiten sie besser und ausdauernder.
Misserfolgsmotivierte wählen eher sehr leichte oder sehr schwere Aufgaben und bearbeiten sie besser und ausdauernder.
Projektive Motivtests
Ein Proband soll Geschichten zu mehrdeutigen Bildern erzählen, die bestimmte Motive mittelstark anregen.
Die Häufigkeit, mit der ein bestimmtes Motiv in den Geschichten vorkommt, wird als Motivstärke interpretiert: das Motiv wurde in die Geschichten "hineinprojiziert".
Die so gemessenen Motive müssen den Probanden nicht bewusst sein.
Ziel der Verfahren ist es vielmehr latente Motive zu erfassen, zunehmend implizite Motive genannt.
Verbreitet: Thematischer Apperzeptionstest (TAT) von Murray (1943).
Projektive Motivtests
• Illustration: Bild aus dem Leistungsmotiv‐TAT von Heckhausen (1963)
Projektive Motivtests
•Kodierung für dieses Bild: Hoffnung auf Erfolg
In h a lt B e is p ie l
B e d ü rfn is n a ch L e is tu n g
u n d E rfo lg
E r w ill e in e n n e u e n A p p a ra t
k o n s tru ie re n
T ä tig k e it zu r
Z ie le rre ic h u n g
E r d e n k t ü b e r d ie A u fg a b e
n a c h
E rfo lg s e rw a rtu n g E r is t s ic h e r, d a ß e r
e rfo lg re ic h s e in w ird
L o b in fo lg e g u te r
L e is tu n g
D e r M e is te r a n e rk e n n t d ie
K o n s tru k tio n
P o s itive r G e fü h ls zu s ta n d D ie A rb e it m a ch t ih m S p a ß
E rfo lg s th e m a W e n n d ie G e s ch ich te
in s g e sa m t e in e n ü b e rw ie g e n d
e rfo lg s g e tö n te n G e h a lt h a t
Projektive Motivtests
•Kodierung für dieses Bild: Furcht vor Misserfolg
I n h a l t B e i s p i e l
B e d ü r f n i s n a c h
M i s s e r f o l g s m e id u n g
E r h o f f t , d a ß d e r M e i s t e r d e n
F e h le r n ic h t b e m e r k t
T ä t i g k e i t z u r
M i s s e r f o l g s m e id u n g
E r g i b t v o r , d a s s d i e
K o n s t r u k t i o n n o c h in A r b e i t i s t
( o b w o h l s ie s c h o n f e r t i g i s t )
E r f o l g s u n g e w is s h e i t E r z w e i f e l t a n s e i n e m E r f o lg
T a d e l i n f o l g e s c h le c h t e r
L e i s t u n g
D e r M e i s t e r k r i t i s i e r t d i e
K o n s t r u k t i o n
N e g a t i v e r
G e f ü h ls z u s t a n d
E r ä r g e r t s ic h ü b e r s e in e n
F e h le r
M i s s e r f o l g D ie K o n s t r u k t io n e n t h ä l t e i n e n
F e h le r
M i s s e r f o l g s t h e m a W e n n d i e G e s c h i c h t e
i n s g e s a m t e i n e n ü b e r w ie g e n d
m is s e r f o l g s g e t ö n t e n G e h a l t
h a t
Projektive Motivtests
Kritik an projektiven Tests
1. Interne Konsistenz nur ca. .50 bei ca. 6 Bildern. Verteidigung: Motivwechsel durch Sättigungseffekt!
2. Retestreliabilität über wenige Wochen auch nur ca. .50.Verteidigung: unterschiedliche Motivationslagen an verschiedenen Testtagen!
3. Unklarheit der Interpretation: eigenes Motiv oder nur Sensitivität für Thema?
Projektive Motivtests
Beispiel Aggressions‐TAT für Kinder
Besagen hohe Werte, dass das Kind aggressiv ist oder dass es oft Aggressionen anderer erlebt?
Projektive Motivtests
Kinder mit hohen Werten im Aggressions‐TAT sind entweder tatsächlich stark aggressiv (laut Erzieherurteil). Oder: Sie erkennen diese Reize besonders gut (Sensitivität gegenüber Aggressionsthematik) (Asendorpf, 1994).
Kriminalbeamte erzielten auch besonders hohe Werte in Aggressions‐TATs (Toch & Schulte, 1961).
Insofern sollte der Name "Thematischer Apperzeptionstest" ganz wörtlich genommen werden.
Motivmessung
• Bewusste Motive können mit Fragebögen erfasst werden.
• z.B. Skalen zur Erfassung der Lern‐ und Leistungsmotivation (SELLMO)– 31 Items, 4 Zielorientierungen– „In der Schule/Im Studium geht es mir darum …“
• „zum Nachdenken angeregt zu werden“ (Orientierung an einem Lernziel)
• „das was ich kann und weiß auch zu zeigen“ (Annäherungs‐Leistungsziel)
• „dass niemand merkt, wenn ich etwas nicht verstehe“ (Vermeidungs‐Leistungsziel)
• „mit wenig Arbeit durch die Schule/durchs Studium zu kommen“ (Arbeitsvermeidungstendenz)
– Gütekriterien zufriedenstellend
Selbstkonzept der Fähigkeiten
• Selbstkonzept enthält das Wissen über sich selbst• Selbstwertgefühl ist die Zufriedenheit mit sich selbst
(affektive Bewertung des Selbstkonzepts)• Neben dem allgemeinen Selbstwert gibt es auch
bereichsspezifische Komponenten
Selbstkonzept der Fähigkeiten
Modell von Marsh und Kollegen
Messung des Selbstkonzepts• In der Regel über Fragebogen (Selbstbericht)
• Z.B. Skalen zur Erfassung des schulischen Selbstkonzepts (SESSKO):– Nur kognitive Komponente des Selbstkonzepts– 22 Items; 4 Vergleichsperspektiven
• Kriterial („Wenn ich mir angucke, was wir in der Schule können müssen, halte ich mich für …“ ‐ nicht begabt bis sehr begabt)
• Individuell („Ich bin für die Schule … als früher“ – weniger begabt bis begabter)• Sozial („Ich denke, ich bin für die Schule … als meine Mitschüler/innen“ ‐ weniger begabt
bis begabter)• Absolut („Ich bin für die Schule …“ ‐ nicht begabt bis sehr begabt)
– Reliabilität gegeben, Korrelation mit Noten, aber andere Aspekte der Validität erscheinen problematisch (z.B. nur geringe Korrelation mit Leistungsmotivation, wozu 4 Skalen …)
Ein Überblick zur Beratung
Beratung im pädagogischen Kontext
Dienstordnung für Lehrer, Land Hessen:• § 4 „Die Lehrkräfte erziehen, unterrichten, beraten und betreuen…“
• §9 „… Die Klassenlehrerin oder der Klassenlehrer soll die Schülerinnen und Schüler der Klasse in allen schulischen Angelegenheiten beraten. …“
• §9 „…Die Klassenlehrerin oder der Klassenlehrer steht in besonderem Maße den Eltern zur Beratung zur Verfügung …“
Eine mögliche Definition von Beratung
• „Beratung ist in ihrem Kern jene Form einer interventiven und präventiven helfenden Beziehung,
• in der ein Berater mittels sprachlicher Kommunikation und auf einer Grundlage anregender und stützender Methoden innerhalb eines vergleichsweise kurzen Zeitraums versucht,
• bei einem desorientieren, inadäquat belasteten oder entlasteten Klienten einen auf kognitiv-emotionale Einsicht fundierten aktiven Lernprozess in Gang zu bringen, in dessen Verlauf seine Selbsthilfebereitschaft, seine Selbststeuerungsfähigkeit und seine Handlungskompetenz verbessert werden können“ (Dietrich, 1983)
3
Man kann nicht nicht kommunizieren
• Watzlawick: „alles Verhalten, nicht bloß der Gebrauch von Wörtern, ist Kommunikation“
Man kann nicht nicht kommunizieren
• Beispiel Blickkontakt:– Herstellen sozialer Bindungen– Distanzregulierung– Kontrollsignale („im Auge behalten“)– Sympathie– 2 Minuten Wegsehen, dann 2 Minuten Anschauen
Interpretation als Interesse– Intensiver Blickkontakt bei positiven Inhalten: Sympathie vs.
Intensiver Blickkontakt bei negativen Inhalten: Ablehnung– Blickverweigerung:
• Beschwichtigung• Angst, Stress, Schuld, Scham• Täuschung und Lüge• Fehlende Kommunikationsbereitschaft
Inkongruenz
• Verbale und non‐verbale Signale stimmen nicht überein
„Ich finds toll hier“
Grundvorgang der Kommunikation
Eine Nachricht enthält stets viele Botschaften gleichzeit ig
(n. Schulz v. Thun) .
Sachbotschaft
Beziehungs-botschaft
Selbstoffen-barung
Appell-botschaft
NachrichtSender Em pfänger
Worüber ich informiere
Wozu ich Dich veranlassen möchteWas ich von Dir halte (Du‐
Botschaften) und wie wir zueinander stehen (Wir‐Botschaften)
Was ich von mir selbst
kundgebe
Grundvorgang der Kommunikation
Was steckt alles in dieser Nachricht?
Mann auf Beifahrersitz Frau am Steuer„Du, da vorne ist grün! “
„Du da vorn ist grün! “Mann Frau
Die Am pel ist grün.
Du brauchst m eine Hilfe.
I ch habe es eilig.
Fahr schon los!
Unterschiedliche Schulen„Können Sie mir sagen, wie ich zum Bahnhof komme?“
Aus: Rausch et al., Modul Beratungspsychologie
Unterschiedliche Schulen
• Unterschiedliche Menschenbilder (n. Rausch et al.)
– Mensch als Objekt von Außenreizen (z.B. Behaviorismus)
– Mensch als Objekt unbewusster Triebe (z.B. psychodynamische Theorien)
– Mensch als frei handelnde Person (z.B. Humanistische Ansätze, kognitive Theorien)
Unterschiedliche Schulen
Aus: Warschburger, Beratungspsychologie
Unspezifische Wirkfaktoren
Basisvariablen der Gesprächspsychotherapie
• Empathie den inneren Bezugsrahmen des anderen möglichst wahrzunehmen, mit all seinen emotionalen Komponenten und Bedeutungen, gerade so, als ob man die andere Person wäre, jedoch ohne jemals die „als ob“ - Position aufzugeben (Rogers, 1991)
• WertschätzungWenn Selbsterfahrungen eines anderen durch mich in der Art und Weise wahrgenommen werden, dass keine dieser Selbsterfahrungen danach unterschieden werden, ob sie meiner positiven Beachtung mehr oder weniger wert sind, dann erlebe ich bedingungslose positive Beachtung (bedingungsfreie positive Beachtung) für diese Person (Rogers, 1987)
• Echtheit/Kongruenz
Ein guter Berater ist…
– geduldiger
– flexibler in Variation des Interventionsverhaltens
(abhängig vom Klienten)
– aktiver
– unterhält gute Beziehungen zu Klienten
– stellt weniger Sachfragen
n. Margraf & Baumann (1986)
Beispiel: Erziehungsberatung
Auto‐ritär
Auto‐ritativ
Vernach‐lässigend
Permissiv
Zuwendung
Kontrolle
Erziehungsstile n. Baumrind
Beispiel: Erziehungsberatung
Modellernen Verstärkungslernen
Positive Verstärkung: Verhalten wird wahrscheinlicher Negative Verstärkung: Verhalten wird wahrscheinlicher, da negativer Stimulus
beendet wird Bestrafung: Verhalten wird unwahrscheinlicher Löschung: Beendigung von Verstärkung
Zwangsinteraktion n. Patterson
Beispiel: Erziehungsberatung
„Mama, ich möchte Kekse!“
„Nein Paula, wir haben Kekse zu Hause.“ Mutter versucht, Verhalten zu löschen
(mit hoher Stimme wimmernd) „Ich möchte Kekse, ich möchte Kekse!“
Löschung verursacht Eskalation
(versucht ruhig zu bleiben) „Paula, du hattest heute schon ein Eis und ich möchte nicht, dass du dir den Appetit aufs Abendbrot verdirbst.“
Mutter versucht, Verhalten zu löschen
(bricht in Tränen aus, schreit wiederholt mit aller Kraft) „Mama, ich will Kekse! Ich will Kekse! Ich will Kekse!“
Löschung verursacht Eskalation
„Na gut, aber das ist das letzte Mal, dass ich dich mit zum Einkaufen genommen habe!“
Positive Verstärkung des Weinens
Mama packt die Kekse in den Korb und Paula hört sofort auf mit weinen und betteln.
Negative Verstärkung des Aufgebens
Neulich im Supermarkt…
Beispiel: Erziehungsberatung
• Emotionale Unterstützung• Positive Zeit• Aufbau verschiedener Kompetenzen
• Verantwortungsübernahme
• konsistente Grenzsetzung, aber auch Freiraum