言語テストにおける段階評価の実際:...
DESCRIPTION
言語テストにおける段階評価の実際: 入試とプレイスメントテストのデータ処理. 日本言語テスト学会第 13 回全国研究大会 2009年9月7日 新潟青陵大学 木村哲夫. 発表の概要. 段階評価とは?. なぜ段階評価なのか?. 入試における段階評価. プレイスメントテストにおける段階評価. 段階評価とは?. 能力を順序尺度上(潜在ランク)で評価する 評価. - PowerPoint PPT PresentationTRANSCRIPT
言語テストにおける段階評価の実際:入試とプレイスメントテストのデータ処理
日本言語テスト学会第 13 回全国研究大会2009年9月7日
新潟青陵大学 木村哲夫
発表の概要2
段階評価とは?
入試における段階評価
プレイスメントテストにおける段階評価
なぜ段階評価なのか?
段階評価とは?
古典的テスト理論( CTT) 間隔尺度 連続的
項目応答理論( IRT) 間隔尺度 連続的
ニューラルテスト理論( NTT) 順序尺度 段階的
能力を順序尺度上(潜在ランク)で評価する評価
3
(Shojima, 2008)
ニューラルテスト理論 (neural test theory:NTT) :自己組織化マップ (self-organizing map, SOM) や生成トポグラフィックマッピング (generative topographic mapping, GTM) のメカニズムを利用したノンパラメトリック・テスト理論
なぜ段階評価か?: NTT の利点
① 測定方法論的側面 (解像度の問題)
テストはそもそも連続的に学力を評価できるほど信頼性が高い測定道具ではなく、 5 ~ 10 段階くらいにランク付けることがせいぜいである。
荘島 (2008)
4
体重と体重計•現象(連続) •測定(高解像度)
Weight
1 23 4
5
荘島 (2008) より引用
能力とテスト•現象(連続?)•測定(低信頼性・低解像度)
Ability
6
1234
荘島 (2008) より引用
なぜ段階評価か?: NTT の利点
② 教育社会学的側面
連続尺度の負の側面•生徒たちは、日々、一点でも高い得点をとるよう動機付けられている。•不安定な連続尺度の乱高下に一喜一憂させるべきではない 。
順序尺度の正の側面•段階評価は、連続尺度上での評価よりも頑健•継続して努力しないと上位ランクに進めない。
荘島 (2008)
7
なぜ段階評価か?: NTT の利点
③ 教育現場の評価体制の側面
指導要録、通知票、調査書、作品・レポート・実技テスト、学力の文章表現など、教育現場で行われている評価体制は、順序尺度に帰着する。 松宮・荘島 (2008)
8
なぜ段階評価か?: NTT の利点
④ 品質管理・アカウンタビリティの側面
段階評価を導入すれことにより、段階評価により区別される各能力段階(潜在ランク)の特徴を、Can-Do Chart との関連で示すことが、連続尺度のもとで検討するよりも容易に行える。テストから作成された Can-Do Chart はテストの説明資料・学力達成への道標になる。松宮・荘島 (2009)
Shoujima(2009)
9
10
Graded evaluation
↓Accountability
↓Qualification
test
For Qualifying TestsFor Qualifying Tests
Ordinal academic ability evaluation scale based on Neural Test Theory
Ordinal academic ability evaluation scale based on Neural Test Theory
Continuous academic ability evaluation scale based on IRT or CTT
Continuous academic ability evaluation scale based on IRT or CTT
It is difficult to explain the relationship between scores and abilities because individual abilities also change continuously
It is difficult to explain the relationship between scores and abilities because individual abilities also change continuously
Because the individual abilities also change in stages, it is easy to explain the relationship between scores and abilities. This increases the test’s accountability.
Because the individual abilities also change in stages, it is easy to explain the relationship between scores and abilities. This increases the test’s accountability.
Shoujima(2009) より引用
11
項目分析手法とソフトウエア項目分析手法 ソフトウエアCTT古典的テスト理論
TDAP (大友・中村・秋山 )
IRT1PLM(Rasch Model)
EasyEstimation, Easy EstTheta (熊谷 )
NTTニューラルテスト理論
neutet(橋本 )exametrica(荘島 )
GNT段階ニューラルテスト理論
exametrica(荘島 )
※ 段階ニューラルテスト (graded neural test, GNT) モデル:多値の 順序データに対応するための NTT の拡張モデル
入試データを段階評価にしたら設問の種類 解答方法 項目数 配点 小計会話応答 多肢選択 5 2 10
文法語彙 多肢選択 12 2 24
語句並び替え作文 多肢選択 4 4 16
長文内語句穴埋 多肢選択 10 2 20
長文読解 多肢選択 8 2 16
長文読解 正誤判断 14 1 14
合 計 53 100•会話応答はリスニングではなくテキストを読む形式。•多肢選択は作文を除き 4択、作文は選択肢の語句を並び替え、 2番目と 5番目を回答(片方正解は 0 点)。•長文内語句穴埋と長文読解は、それぞれ 2種類の文章からなる。
12
入試データを段階評価にしたら基本統計量平均 48.5 標準誤差 0.68 中央値 49 最頻値 42 標準偏差 10.69 尖度 -0.075 歪度 0.014 最小 19 最大 79 標本数 249
010
20
30
40
50
60
70
80
90
1000
102030405060
ヒストグラム
データ区間 ( 得点)
頻度(人)
13
入試データを段階評価にしたら
通常の評価方法
素点をもとに、平均値と標準偏差を調整、または中央値補正により、他の試験科目とのバランスを取り処理。
段階評価にした場合
① すべての項目を 2値データNTT により処理。② 下位テスト (設問のタイプ )ごとに 2値データ NTT により処理し、その潜在ランクを段階NTT(GNT) により、順序尺度として処理。 →今回は①により処理
14
入試データを段階評価にしたら
潜在ランク数 (Q) をいくつに分析すべきか?
多い方が合否ボーダーを切りやすいが、項目数と受験者数から、分析の限界 (弱順序配列を満たすこと)がある。
素点合計と潜在ランクの相関(スピアマンの順位相関係数)Q=10 Q=11 Q=12 Q=13 Q=14 Q=15 Q=16 Q=17 Q=18 Q=19
0.82 0.82 0.83 0.82 0.83 0.82 0.83 0.82 0.83 0.82
テスト適合度はランク数を増やしても大きく変わらないが、 RMP に基づくテスト適合度はランク数を増やすにつれて下がる。今回はQ=10 とした場合の段階評価について、素点合計との差を見ることにする。
15
入試データを段階評価にしたら
順位相関 0.82 ということは?
約 67%の順位は一致しているが、 33%は順位が異なり、合否の判定が変わる。
通常の評価方法 換算点順位 37 位まで 44人合格
段階評価にした場合 潜在ランク 10 ~8まで 47人合格
ある学科で 40人程度を入学させようとする場合
16
入試データを段階評価にしたら通常 NTT 通常 NTT 通常 NTT 通常 NTT 通常 NTT
1 10 29 10 88 8 62 6 112 5
2 10 32 10 93 8 62 6 117 5
2 10 32 10 96 8 73 6 118 5
2 10 37 10 22 7 73 6 135 5
5 10 37 10 51 7 88 6 55 4
6 10 45 10 51 7 101 6 55 4
7 10 45 10 55 7 101 6 55 4
7 10 55 10 62 7 101 6 62 4
10 10 17 9 67 7 101 6 73 4
10 10 37 9 67 7 7 5 93 4
12 10 45 9 73 7 32 5 101 4
12 10 14 8 73 7 45 5 112 4
14 10 17 8 73 7 62 5 118 4
14 10 28 8 73 7 67 5 118 4
17 10 32 8 73 7 67 5 124 4
17 10 37 8 82 7 73 5 130 4
22 10 37 8 88 7 82 5 136 4
22 10 37 8 93 7 82 5 17 3
22 10 37 8 112 7 82 5 37 3
22 10 45 8 29 6 88 5 51 3
22 10 51 8 32 6 101 5 67 3
29 10 55 8 55 6 112 5 82 3
17
入試データを段階評価にしたら通常 NTT 通常 NTT 通常 NTT
45 10 55 8 32 6
45 10 88 8 7 5
55 10 93 8 32 5
45 9 96 8 17 3
45 8 22 7 37 3
51 8 29 6
18
入試データを段階評価にしたら
通常の評価方法
各項目の配点は恣意的に決められる。
識別力が高低にかかわらず、あらかじめ 決められた配点によって重みづけられてしまう。
段階評価 (NTT) の場合
各項目が IRP によって重みづけられる。
識別力が高い項目に正答すればするほど潜在ランクが高く 、誤答すればするほど潜在ランクが 低く推定される。識別力が小さい項目に、いくら正答しようとも誤答しようとも、潜在ランクの推定に影響を与えない。
19
入試データを段階評価にしたら原因①: IRP が平坦な (識別力が低い ) 項目がいくつかあるため
能力の低い受験生がたまたま正解しても、能力の高い受験生がうっかり不正解しても潜在ランクの推定には影響を与えない。
1 2 3 4 5 6 7 8 9 100.00.20.40.60.81.0
文法語彙第 10問のIRP
潜在ランク
確率
20
入試データを段階評価にしたら (10) Compared to Christmas in Western counties, in Japan it is very much ( 15 ) oriented.
(A) commerce (B) commercial(C) commercially (D) commercialized
Bottom(19-41)
Middle(42-54)
Top(55-79)
0% 20%
40%
60%
80%
100%
38%
39%
26%
44%
44%
62%通常の処理(正解数)
A B
C( 正解 ) D
Bottom(1-3)
Middle(4-6)
Top (8-10)
0% 20% 40% 60% 80%100%
32%
43%
30%
47%
43%
57%段階評価の処理(NTT)
A B
C( 正解 ) D
21
入試データを段階評価にしたら
1 2 3 4 5 6 7 8 9 100.00.20.40.60.81.0
長文穴埋め第7問のIRP
潜在ランク
確率
原因②: IRP が単調増加しない (識別力に問題がる ) 項目がいくつかあるため
中程度の能力の受験者には魅力的に見える選択肢だが、低い能力の受験者は文脈に関係なく自分の知っている語句の選択肢を選んで、偶然正解したのではないか?
22
入試データを段階評価にしたら What Vermont lacks in size, it makes up for in beauty. It is known as the Green Mountain State. The name comes from the Green Mountains, ( which ) divide the state up and down the center. ( 32 ), the name Vermont comes from the French "verd mont," meaning green mountain.
32 (A) As a result (B) Finally (C) However (D) In fact
Bottom(1-3)
Middle(4-6)
Top (8-10)
0% 20% 40% 60% 80% 100%
15%
36%
24%
66%
43%
63%
段階評価の処理(NTT)
A BC D( 正解 )
Bottom(19-41)
Middle(42-54)
Top(55-79)
0% 20%
40%
60%
80%
100%
25%
25%
26%
49%
57%
63%
通常の処理(正解数)
A BC D( 正解 )
23
入試データを段階評価にしたら
より優秀な学生を獲得できる可能性が高いのでは?
合否ボーダーラインを検討しやすいのではないか?
IRP や TRP を出題者にフィードバックすることで、次年度問題作成において質の向上につながるのでは?
テスト得点のみに頼った入試からの脱却につながるのではないか?
恣意的な配点による素点に基づく通常の処理よりも、項目の IRP による重みづけによる段階評価による入試は
①
②
④
③
24
英語プレイスメントテスト作成の流れ
項目選択のための予備テスト
IRT : 1PLM による項目分析 (ZL
値 )NTT :項目参照プロファイル (IRP)
項目分析
misfit の除去
CTT :点双列相関係数 (P.BIS)
プレイスメントテスト完成
Misfit除去の基準Misfit Person : ZL <-1.96Misfit Item : P.BIS<0.25
25
26
予備テストの項目数と受験者数受験者数 項目数 準 1
級2級 準 2
級3級
文法語彙問題(vg)
222 80 25 20 20 15
会話問題 (dlg) 157 47 12 15 10 10
説明文問題 (mlg) 119 35 --- 15 10 10
受験者数 項目数 準 1級
2級 準 2級
3級
文法語彙問題(vg)
193 32 2 10 13 7
会話問題 (dlg) 142 13 0 7 2 4
説明文問題 (mlg) 112 19 --- 7 5 7
misfit の除去
2 段階モデルによる英語プレイスメントテストの分析
27
① 2008 疑似クラス分け (N=75)
② 2009 N短大のクラス分け(N=125)
• NTT 分析は予備テストで得られた IRP を固定し、①は neutet 、②はexametrika を使 LRT-SOM モデルにより、潜在ランクの目標分布を指定せずに行った。• GNT の分析は exametrika を使い LRT-SOM モデルにより、 潜在ランクの目標分布を 一様分布として行った。
NTT(Q=10) により下位テストの潜在ランク(Rvg, Rdlg, Rmlg) を求め
潜在ランク (Rvg, Rdlg, Rmlg) の単純和 (SUM) をもとに5クラス分け潜在ランク (Rvg, Rdlg, Rmlg) を項目としてGNT(Q=5) により5クラス分け
SUM
GTN
SUM によるクラス分けとGNT によるクラス分けの相関
受験者数 第 1 段NTTランク数
第 2 段GNTランク数
順位相関係数
① 2008 75 10 5 0.93
② 2009 12510 5 0.95
10 10 0.92
28
•① の GNT を Q=10 とした場合は、弱順序配列を満たさなかった•順位相関係数はスピアマンの順位相関係数
1 2 3 4 5 6 7 8 9 1002468
1012
潜在ランク
得点
1 2 3 4 5 6 7 8 9 100
5
10
15
20
25
30
潜在ランク
得点
1 2 3 4 5 6 7 8 9 100
5
10
15
潜在ランク得点
1 2 3 4 5 6 7 8 9 100
5
10
15
20
25
30
潜在ランク
得点
1 2 3 4 5 6 7 8 9 100
2
4
6
8
10
12
潜在ランク得点
1 2 3 4 5 6 7 8 9 100
5
10
15
潜在ランク
得点
29
下位テストのテスト参照プロファイル (TRP)
① 2008 (N=75)
② 2009(N=125)
Vg MlgDlg
Vg MlgDlg
GNT のテスト参照プロファイル(TRP)
30
1 2 3 4 50
2
4
6
8
10
12
14
潜在ランク
得点
1 2 3 4 50
2
4
6
8
10
12
14
潜在ランク
得点
① 2008 (N=75) ② 2008(N=125)
1 2 3 4 5 6 7 8 9 100.0
0.1
0.2
0.3
0.4
0.5相対 LRD
相対 RMD
潜在ランク
相対
度数
1 2 3 4 5 6 7 8 9 100.0
0.1
0.2
0.3
0.4
0.5相対 LRD
相対 RMD
潜在ランク
相対
度数
1 2 3 4 5 6 7 8 9 100.0
0.1
0.2
0.3
0.4
0.5相対 LRD
相対 RMD
潜在ランク相
対度
数
1 2 3 4 5 6 7 8 9 100.0
0.1
0.2
0.3
0.4
0.5相対 LRD
相対 RMD
潜在ランク
相対
度数
1 2 3 4 5 6 7 8 9 100.0
0.1
0.2
0.3
0.4
0.5相対 LRD
相対 RMD
潜在ランク
相対
度数
1 2 3 4 5 6 7 8 9 100.0
0.1
0.2
0.3
0.4
0.5相対 LRD
相対 RMD
潜在ランク
相対
度数
31
下位テストの相対潜在ランク分布 (LRD) と相対ランク・メンバーシップ分布 (RMD)
Vg MlgDlg
① 2008 (N=75)
② 2009(N=125)
Vg MlgDlg
GNT の相対潜在ランク分布 (LRD) と相対ランク・メンバーシップ分布 (RMD)
32
① 2008 (N=75) ② 2009(N=125)
1 2 3 4 50.00
0.06
0.12
0.18
0.24
0.30
相対 LRD
相対 RMD
潜在ランク
相対度数
1 2 3 4 50.00
0.06
0.12
0.18
0.24
0.30
相対 LRD
相対 RMD
潜在ランク相対度数
33
GNT の項目参照プロファイル (IRP)
① 2008 (N=75) ② 2009(N=125)
1 2 3 4 50.0
1.0
2.0
3.0
4.0
5.0
RVgRDlgRMlg
LATENT RANK
1 2 3 4 50.0
1.0
2.0
3.0
4.0
5.0
RVgRDlgRMlg
LATENT RANK
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
34
RVg
RMlg
RDlg
RVg
RMlg
RDlg
GNT の境界カテゴリ参照プロファイル(BCRP) ① 2008 (N=75)
② 2008(N=125)
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
35
RVg
RMlg
RDlg
RVg
RMlg
RDlg
GNT の項目カテゴリ参照プロファイル(ICRP)
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
1 2 3 4 50.0
0.2
0.4
0.6
0.8
1.0
12345
① 2008 (N=75)
① 2008 (N=125)
2 段階モデルによる英語プレイスメントテストの分析(まとめ)
36
予備テストで識別力の高い項目を用意した場合SUM でも GNT でもほぼ同様のクラス分けができる。
NTT と GNT の 2 段階で分析することで、クラス( 能力)の境界を解釈・設定しやすくなる。
GNT で一様分布を指定することで、より均等なクラス分けが実現する。
SUM と GNT によるクラス分けで異なる結果が出るのは、 GNT は下位テストの識別力の差を考慮するためであろう。
2 段階モデルによる英語プレイスメントテストの分析(今後に向けて)
37
下位テストに読解問題を加える (GNT による分析)
各下位テストに項目数を増やし (等化)アイテムバンクを構築・公開:学校 ( 教員 ) 間での共有
各下位テストを Moodle-based CAT にする
潜在ランクを何らかの Can-D0-Chart へ対応づける
英語基礎力の構成概念の妥当性の検討