© testdaf-institut / zfa 2009 das facettenanalytische bewertungsverfahren (fbv) – der weg zur...
Post on 06-Apr-2015
114 Views
Preview:
TRANSCRIPT
© TestDaF-Institut / ZfA 2009
Dasfacettenanalytische
Bewertungsverfahren(FBV)
–Der Weg zur fairen Beurteilung von schriftlichen
Leistungen
Bratislava, April 2009
Folie 2
Ablauf dieser Präsentation
1. Bewerterübereinstimmung in schulischen Tests und daraus resultierende Probleme
2. Klassische Lösungsmöglichkeiten dieser Probleme
3. Das FBV – Ein moderner Weg zu einem fairen Ergebnis
1. Bewerterübereinstimmung in schulischen Tests
Seit Mitte der 60er Jahre steht die Notengebung durch Lehrer auf dem
Prüfstand.
Erste Studien von R. Weiss (1965):
Fragestellungen:
□ Wie groß ist die Variabilität im Lehrerurteil bei identischen Arbeiten?
□ Welche Faktoren beeinflussen die Beurteilung?
Ergebnisse:
Folie 3
Bewerterübereinstimmung in schulischen Tests
Variabilität der Benotung ein und derselben schriftlichen Leistung durch 92 Lehrer
Folie 4
Rechtschreibung Stil
sehr gut 7% sehr gut 24%
gut 28% gut 41%
befriedigend 39% befriedigend 19%
ausreichend 22% ausreichend 14%
mangelhaft 4% mangelhaft 2%
Inhalt Gesamtnote
sehr gut 26% sehr gut 10%
gut 47% gut 45%
befriedigend 20% befriedigend 35%
ausreichend 7% ausreichend 10%
mangelhaft 0% mangelhaft 0%
Bewerterübereinstimmung in schulischen Tests
Ca. 40 Jahre später: Replikation der Weiss-Studie (Birkel & Birkel, 2002)
– Benotung ein und derselben schriftlichen Leistung durch 88 Lehrer
Folie 5
2. Klassische Lösungsmöglichkeiten
Das Problem unterschiedlicher Bewertungen durch mehrere Bewerter
ist lange bekannt.
Entsprechend wurden verschiedene Lösungsmöglichkeiten entwickelt,
um diesem Problem zu begegnen.
a) Bewerterschulungen und Kalibrierungen
b) Mittelwert aus mehreren Beurteilungen
c) Drittbewertungsverfahren
Folie 6
a) Schulungen und Kalibrierungen
Viele Studien haben sich mit der Wirksamkeit von Schulungen oder Kalibrierungen auf die Beurteilungsleistung beschäftigt.
Fast alle kommen zum Ergebnis, dass:
□ das Ziel identischer Beurteilungen durch mehrere Bewerter nicht erreicht werden kann
□ die Bewerterübereinstimmung nicht substanziell verbessert wird
□ wohl aber die Konsistenz der Bewerter durch solche Schulungen deutlich erhöht werden kann
Folie 7
b) Mittelwert mehrerer Beurteilungen
Jede Leistung wird von mehreren Bewertern beurteilt.
Das Ergebnis entspricht dem Mittelwert dieser Bewertungen.
Folie 8
c) Drittbewertungsverfahren
Jede Leistung wird von 2 Bewertern beurteilt.
Weichen die Bewerter nur leicht voneinander ab, wird auch hier der
Mittelwert gebildet.
Weichen die Ergebnisse stark voneinander ab, wird ein dritter Bewerter
hinzugezogen.
Das Ergebnis des dritten Bewerters entscheidet über die Beurteilung.
Probleme:
□ Sind die beiden ersten Bewerter eher milde, bekommt der Schüler ein gutes Ergebnis.
□ Sind die beiden ersten Bewerter eher streng, bekommt er ein schlechteres Ergebnis.
□ Sind die beiden Bewerter unterschiedlich, entscheidet allein die Milde/Strenge des dritten Bewerters über das Ergebnis.
Folie 9
3. Das facettenanalytische Bewertungsverfahren (FBV)
Was ist das?
□ Ein mathematisches Verfahren zur Ermittlung eines fairen Ergebnisses bei fehleranfälligen Leistungsbeurteilungen
□ Das Verfahren berücksichtigt mehrere Variablen, die das Ergebnis beeinflussen Facetten der Beurteilungssituation, z. B.
□ Fähigkeit des Schülers
□ Strenge/Milde des Bewerters
□ Schwierigkeit der Kriterien
□ Es besteht aus mehreren Schritten, in denen die Facetten genauer untersucht werden.
□ Am Ende steht für jeden Schüler ein Ergebnis, das ein idealer (durchschnittlich strenger) Bewerter auf 8 idealen (gleich schwierigen) Kriterien abgegeben hätte.
Folie 10
Ein erster Versuch und ein Problem
Bewerter 1 Bewerter 2 Bewerter 3
↓ ↓ ↓
30 Arbeiten 30 Arbeiten 30 Arbeiten
19 17 12
Durchschnittliche Punktzahl pro Schüler
Frage: ► Ist Bewerter 1 milder als Bewerter 2 und 3 ?
► Ist Bewerter 3 strenger als Bewerter 1 und 2 ?
Ausgangspunkt: 90 Arbeiten
Antwort
Das kann man nicht sagen, denn:
Gruppe 3 ist vielleicht einfach schlechter als die Gruppen 1 und 2
bzw.
ist die Gruppe 1 vielleicht einfach besser als die Gruppen 2 und 3.
Lösung:
Es werden Vergleichsbeurteilungen eingeführt.□ Aus dem Testlauf werden 7 Leistungen von Schülern ausgewählt, die
exemplarisch das ganze Leistungsspektrum abdecken.
□ Diese 7 Leistungen bekommt jeder Bewerter zur Beurteilung vorgelegt. Sie bilden den Vergleichsmaßstab für die Anordnung der Bewerter auf einer gemeinsamen Skala von mild nach streng.
Folie 13
Folie 14
Rang KriteriumMittel-wert
1 Eigene Erfahrung 2.1
2 Eigene Meinung 2.0
3 Orthografische Korrektheit 1.9
4 Gesamteindruck 1.6
5 Wiedergabe 1.5
6 Strukturen 1.4
7 Wortschatz 1.3
8 Grammatische Korrektheit 1.2
Ebenfalls basierend auf den 7 Vergleichsarbeiten wird auch die Schwierigkeit der einzelnen Kriterien berechnet.Beispiel:
Da alle Kriterien genau gleich gewichtet sein sollen, wird später eine Anpassung vorgenommen. (Beispiel folgt später)
Noch ein Problem:
Die hier zu vergebenden Punkte entsprechen einer Nominalsakala und
sind daher für Berechnungen von Mittelwerten nicht geeignet.
Daher werden die Werte in die Logit-Skala transformiert.
Dies stellt eine kompliziertere Rechnung dar, die im Detail hier nicht
erläutert werden kann.
Gemäß dieser Logit-Skala können jetzt alle Facetten in einem
gemeinsamen Raum angeordnet werden (Facettenraum).
Folie 15
Folie 16
+------------------------------------------------+|Logit| Schüler |Bewerter |Kriterium |Skala||-----+------------+---------+-------------+-----|| 8 + ***. + + + (3) || | . | | | || 7 + . + + + || | . | | | || 6 + . + + + || | . | | | || 5 + *. + + + || | *. | | | || 4 + *. + + + || | ***. | | | --- || 3 + ****. + + + || | ***. | | | || 2 + *****. + . + + 2 || | ******. | * | Gram. Korr. | || 1 + ********. + *** + Wortschatz + || | *********. | ** | Struk. Wied.| |* 0 * *********. * ******. * Gesamteindr.* --- *| | ********. | ****. | Orth. Korr. | || -1 + *********. + *. + eig. Mein. + || | ******. | . | eig. Erf. | 1 || -2 + ******. + . + + || | *****. | | | || -3 + ***. + + + || | **. | | | --- || -4 + *. + + + || | *. | | | || -5 + . + + + || | . | | | || -6 + . + + + || | . | | | || -7 + *. + + + (0) ||-----+------------+---------+-------------+-----||Measr| * = 18 | * = 2 |-Criterion |Scale|+------------------------------------------------+
Theoretisches Beispiel einer Stufenprüfung A2/B1
Ein * steht für: 18 Schüler2 Bewerter
Je höher der Logit desto:- besser der Schüler- strenger der Bewerter- schwieriger das Kriterium
„Skala“ steht hier für die 4-stufige Kriterienskala (0-3 Punkte)
Die Berechnung
• Jede einzelne Beurteilung jedes Bewerters für jeden Schüler in jedem der Kriterien wird jetzt verrechnet:
Endergebnis des Schülers =
Rohwert + Bewerterstrenge + Kriterienschwierigkeit
• Das so ermittelte Endergebnis wird dann wieder in die ursprüngliche 4-stufige Punkte-Skala (0, 1, 2, 3) zurück transformiert und ergibt die faire Bewertung des Schülers.
Folie 17
Punkte
Wir haben unsere 4-stufige (0-3) Skala, auf der die Bewerter jedes der Kriterien beurteilen.
3
2
1
0
Schüler Bewerter KriteriumPunkte
Schüler, Bewerter und Kriterien werden auf dieser Skala angeordnet.
3
2
1
0
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
3
2
1
0
Die Kriterienskala wird in die Logit-Skala umgerechnet, um weitere Berechnungen vornehmen zu können.
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
Beispiel: Ein Schüler hat z. B. im Kriterium „Wortschatz“ eine Bewertung von 1 Punkt erhalten. Dies entspricht einem Logit von ca. -1.5 .
3
2
1
0
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
Dieser Schüler wurde von einem strengen Bewerter beurteilt, der einen Logit von 2.0 hat.
3
2
1
0
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
Der Bewerterlogit wird zum Schülerlogit hinzuaddiert.
3
2
1
0
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
Der Bewerterlogit wird zum Schülerlogit hinzuaddiert.
3
2
1
0
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
Das Kriterium, in dem der Schüler bewertet wurde, ist ebenfalls ein eher schwieriges Kriterium mit einem Logit von 1.0.
3
2
1
0
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
Der Kriteriumslogit wird zum Schülerlogit hinzuaddiert.
3
2
1
0
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
Der Kriteriumslogit wird zum Schülerlogit und Bewerterlogit hinzuaddiert.
3
2
1
0
Logit Schüler Bewerter KriteriumPunkte
8
7
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
In der Summe entsteht der neue korrigierte Schülerlogit mit einem Wert von 1.5, der umgerechnet in die 4-stufige Kriterienskala einem fairen Punktwert von 2 entspricht.
3
2
1
0
Die Berechnung
Diese Berechnungen werden für jedes Kriterium getrennt berechnet.
Pro Schüler gibt es also 8 solcher Berechnungen.
Genauso wird verfahren, wenn die Bewerter eher milde oder die
Kriterien eher leicht sind. Nur wird dann der Schülerlogit nach unten
statt nach oben verschoben, um eine faire Bewertung zu erhalten.
Am Schluss werden alle 8 neuen Ergebnisse zusammengerechnet und
man erhält das Endergebnis für SK.
Folie 29
Rückmeldung an die Bewerter
Wie beschrieben ordnet das TestDaF-Institut die Bewerter auf einer
Strenge/Milde-Skala an; von A („extrem mild“) bis I („extrem streng“).
Außerdem wird auch die Konsistenz der entsprechenden Bewertung
gemessen.
Da Extremwerte und starke Inkonsistenzen die Ergebnisse des FBV
verzerren können, gibt es nach jeder Auswertung eine Rückmeldung
an die Bewerter.
Folie 30
Literaturhinweis
Leicht verständliche Darstellung der Grundzüge des FBV mit Bezug
zum DSD:
Eckes, T., Weiss-Motz, F. & Whelan-Mostofizadeh, S. (2009):
Ermittlung fairer Ergebnisse im Prüfungsteil Schriftliche Kommunikation
des Deutschen Sprachdiploms. In: Deutsche Lehrer im Ausland,
Februarheft.
Folie 31
Vielen Dank für Ihre Aufmerksamkeit
Jan Plümecke
und
Dr. Boris Menrath
top related