neural test theory を使った - nagoya institute of...

19
Neural Test Theory を使った Can-do Statements の分析 小山 由紀江* 木村 哲夫** *名古屋工業大学 466-8555 名古屋市昭和区御器所町 E-mail: [email protected] **新潟青陵大学 951-8121 新潟市中央区水道町 1-5939 E-mail: [email protected] 概要 テスト理論の歴史において,Item Response Theory (IRT)は母集団に左右されずに項 目の難易度を推定できる点で,古典的テスト理論の限界を突破するものであった.しかし,IRT は連続尺度を仮定した理論であり,学力を測定するテストの解像度を考慮するとき必ずしも最適 なテスト理論とは言えない.この問題を解決するテスト理論として Shojima(2007) Neural Test TheoryNTT)を提案した.本研究の目的は Can-do StatementsCDS)を NTT を使っ て分析し,古典的テスト理論,Rasch モデルの分析結果と比較することによって,順序尺度に 基づいて能力推定をする NTT の特性を検証することである.また CDS と外部指標テストを NTT によって分析し,その結果をクロス集計することによって CDS の自己評価としての妥当 性を検証する. キーワード Neural Test TheoryCan-do Statements,古典的テスト理論,Rasch モデル, Analysis of Can-do Statements Using Neural Test Theory KOYAMA, Yukie* KIMURA, Tetsuo** *Nagoya Institute of Technology Gokiso-cho, Showa-ku, Nagoya, 466-8555 Japan

Upload: others

Post on 12-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

Neural Test Theory を使った

Can-do Statements の分析

小山 由紀江*

木村 哲夫**

*名古屋工業大学

〒466-8555 名古屋市昭和区御器所町

E-mail: [email protected]

**新潟青陵大学

〒951-8121 新潟市中央区水道町 1-5939

E-mail: [email protected]

概要 テスト理論の歴史において,Item Response Theory (IRT)は母集団に左右されずに項

目の難易度を推定できる点で,古典的テスト理論の限界を突破するものであった.しかし,IRT

は連続尺度を仮定した理論であり,学力を測定するテストの解像度を考慮するとき必ずしも最適

なテスト理論とは言えない.この問題を解決するテスト理論として Shojima(2007) は Neural

Test Theory(NTT)を提案した.本研究の目的は Can-do Statements(CDS)を NTTを使っ

て分析し,古典的テスト理論,Rasch モデルの分析結果と比較することによって,順序尺度に

基づいて能力推定をする NTT の特性を検証することである.また CDS と外部指標テストを

NTT によって分析し,その結果をクロス集計することによって CDS の自己評価としての妥当

性を検証する.

キーワード Neural Test Theory,Can-do Statements,古典的テスト理論,Rasch モデル,

Analysis of Can-do Statements Using Neural Test Theory

KOYAMA, Yukie*

KIMURA, Tetsuo**

*Nagoya Institute of Technology

Gokiso-cho, Showa-ku, Nagoya, 466-8555 Japan

Page 2: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

**Niigata-Seiryo University

1-5939 Suido-cho, Chuo-ku, Niigata, 951-8121 Japan

Abstract In the history of testing, Item Response Theory was epoch making in that IRT

overcame the limitations of Classical Test Theory (CTT). IRT calculates item difficulty

parameters regardless of the population of test-takers. However, IRT is based on a

continuous scale, and Shojima (2007a) proposed Neural Test Theory (NTT), which is based

on an ordinal scale, to show advantages for measuring learners’ ability. Although both IRT

and NTT are based on Latent Variable Models, NTT is more appropriate in educational

settings because it can give ranking information for items and test takers. The test

resolution required in educational settings is not as high as in other disciplines because

tests always have a certain percentage of standard error in their measurement. Therefore

the ranking information is more meaningful in educational settings.

The objectives of the current study is to show the appropriateness of NTT for analyzing

Can-do statements (CDS) by comparing results from CTT, Rash model and NTT. The NTT

analysis of a parallel test and the CDS is also discussed as a way to examine the validity of

the CDS

.

Keyword Neural Test Theory, Can-do Statements, Classical Test Theory, Rasch Model,

1.はじめに

古典的テスト理論 (Classical Test Theory, CTT) は,1920年代に登場した客観的統計的

「科学的な」測定法である.これは,Spolsky (1995) が Edgeworthの言葉 ”unavoidable

uncertainty” を引用して説明した,それ以前の主観的伝統的な測定法に代わって登場した.

このテスト理論は 1920年代には受験者の能力の「新しい」測定法でありテスト理論の基礎

を作ったが,集団準拠のテスト理論であることから受験者の集団によって個々の受験者の

評価が左右されるという限界がある.この限界を超えるテスト理論として登場したのが項

目応答理論 (Item Response Theory; IRT) である.IRTは Lord (1950) によって初めて提

唱された理論だが,受験者集団に関わらず個々の項目の難易度パラメータが決まる.その

ため,異なるテストを用いても共通の難易度パラメータで被験者の能力を測定することが

可能となり,この点で CTT の限界を超える理論として,以来半世紀に渡って教育関連のテ

スト開発に大きく貢献してきた.現在でも TOEFL などの大規模試験の項目は IRT に基づ

いて選択されており,さらに Computerized Adaptive Test (コンピュータ適応型テスト)の

Page 3: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

項目選択の指標としても重要な意味を持っている.

一方で,学習者の能力評価をするためのより適切なテスト理論として Neural Test

Theory (NTT) が Shojima(2007)によって提案され,近年注目を集めている.NTTは直

接的に観測されるテストの得点ではなく,潜在的な変数(能力値)を対象とする点では IRT

と同じく潜在変数モデル(Latent Variable Model)の一つである.しかし NTTは潜在変数を

段階的順序的なものと仮定しているのに対し,IRTや Raschモデルでは変数は連続的なも

のと仮定している点が大きな違いである.連続的な変数を仮定している点では,IRTは因

子分析と同じ考え方に基づいていると言える.(荘島,2010)

以上述べた潜在変数の捉え方の違いによって分析法を分類すると以下の【図 1】のように

なる.

【図 1】潜在変数モデルと変数

2.本研究の目的

連続変数を仮定した IRTや Raschモデルに,二値データだけでなく,多値データを扱う

拡張モデル(Samejima(1969) model,Andrich's (1978, 2005) Rating Scale Model,Masters'

(1982) Partial Credit Model など) があるように,順序変数を仮定した NTTにも二値デー

タだけでなく,多値データを扱う拡張モデル段階的ニューラルテスト(graded neural test,

GNT)モデルがある.通常何段階かのリッカートスケールによって回答する Can-Do

Statements(CDS)の分析には,多値データ扱うモデルが適切である.本研究の目的は,英

語能力を自己評価する Can-Do Statements(CDS)の回答を GNT によって分析し,CTT,

Rasch モデルの分析結果と比較することによって,GNT の CDS の分析法としての適性を

明らかにすることにある.またさらに CDSの英語力自己評価の指標としての妥当性を論じ

ることにする.

潜在変数

モデル

連続変数

項目反応理論

因子分析

順序変数 NTT

Page 4: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

3.Neural Test Theory

CTTと IRTがいずれも連続尺度を仮定し,連続尺度上で受験者の能力を測定しているの

に対し,NTTは潜在的な順序尺度を仮定した潜在ランク理論(latent rank theory, LRT)の

一つであることは,前述したとおりである.本章では NTT の特徴をさらに詳述し,CDS

を分析するテスト理論としての適性を示すことにする.

受験者の能力を測定する場合は,身長や体重を測定する場合と異なり,測定した結果の

値が正確に能力を示しているとは必ずしも言えない.何故ならば信頼性の非常に高いテス

トでもテストには必ず測定誤差があり,それは CTTによる「標準誤差」としても規定され

ている.標準誤差は極めて信頼性の高い 100 点満点のテストでも 5-10 点あることを考え

ると,テストの「解像度」は連続尺度ではなく順序尺度で表す程度の解像度と捉えた方が

良いという立場から提案されたのが Shojima(2007a)によるNTTと Shojima(2007b)による

NTTの拡張モデル GNTモデルである.

荘島(2010)によると,NTTは「潜在変数に1次元の順序変数を仮定したノンパラメト

リックな潜在変数モデル」であり,「ニューラルネットワークモデルの自己組織化マップ

(self-organizing map, SOM) (Kohonen, 1995)を利用した計算方法と,生成トポグラフィッ

クマッピング(generative topographic mapping, GTM) (Bishop, Svensen and Williams,

1998) のメカニズム」を利用した計算方法がある.SOMによる推定はランダムな並び替え

を行うため毎回の計算が微小に異なり,GTMでは計算量は毎回一致しかつ計算時間が速い

ため,GTM は大規模データの分析に適している.しかし,SOM の方が出力されるプロフ

ァイルが滑らかである.

NTTの分析によって得られる指標の主なものを説明すると以下のようになる.

① 潜在ランク(latent rank):学力の段階,各受験者が位置づけられるランク.

② 項目参照プロファイル(item reference profile, IRP):各潜在ランクに属する受験者が

各項目に正解できる確率.項目ごとに出力される.

③ テスト参照プロファイル(test reference profile, TRP):各潜在ランクに属する受験

者がそのテストで取ることが予測される期待得点.

④ ランクメンバーシッププロファイル(rank membership profile, RMP):各受験者があ

る潜在ランクに属する確率.受験者ごとに出力される.

⑤潜在ランク分布(latent rank distribution, LRD):ある潜在ランクに受験者が何人属す

るかを示す推定された潜在ランクの分布.

NTT は以上の①~⑤の特徴からも明らかなように,学習者の潜在能力をランクとして段

階的に評価するためのテスト理論と言ってよいだろう.

Page 5: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

4.Can-do Statements と外部指標テスト

CDSは,2001年に Common European Framework of Reference for Languages(以下

CEFR)(Council of Europe, 2001) が出版されて以来,言語学習の各レベルの目標設定や

自律的学習者の養成に資する指標として,多くの関心を集めてきた.ヨーロッパのみなら

ず日本においても日本語,英語,ドイツ語など様々な言語の自己評価の指標としてそれぞ

れの教育現場に適した CDS を作成する研究がおこなわれている.CDS は,言語能力の各

レベルにその言語力で何ができるかを記述した「能力記述文」(Can-do Statements)のこと

であり,これに回答することによって学習者が自らの言語力を評価するものである.例え

ば CEFR の最も低い A1 レベルは “Can understand and use familiar everyday

expressions and very basic phrases aimed at the satisfaction of needs of a concrete type.”

と記述されている.(Council of Europe, 2001, p24) このように,CDSは「自分の能力を

自ら評価する」という自己評価を言語運用尺度の大きな柱とした点で,画期的な評

価法と言えよう.

ヨーロッパでは,CEFRの枠組みで制定された Language Passportが国家間を移動する

人々の言語能力を証明するが,これは CDS や DIALANG(reading, writing, listening,

grammar, vocabulary のオンライン無料テスト)の結果を含む European Portfolioに基づ

いて発行される.CEFR の CDS は,言語テスト DIALANG の中で受験者が行う自己評価

の分析に等よって,妥当性が保証されている(Alderson, J.C, 2005).また CDSの機能に

はテストスコアの解釈基準という側面もある.日本英語検定協会の英検 Can-do リストや

TOEIC Can-do Guide はこの例であり,多数の受験者を対象としたリサーチに基づいて

CDSが作成されている.Dunlea (2009) は 20,000人以上の英検受験者にアンケートを行い

その結果に基づいて英検 Can-do リストの CDS を作成したことを報告している.しかし,

CDS の回答の結果とテストのスコアの結びつきについては,未だ検討すべき課題が多く残

されている.

このように,CDS はそれのみでは学習者の言語能力の評価とは成りえず,外部指標とな

るテストが不可欠である.

5.方法

5.1 使用した CDSと外部指標テスト

本研究で対象とする CDS は工科系大学の学生に必要な英語力を問う独自に作成した

CDS である.その内容は,一部一般的な内容も含むが,大部分は大学生活や一般科学技術

に関する内容である.CDS の構成は,リーディング,ライティング,スピーキング,リス

ニングの各技能に 5 問ずつの記述文を作成したものである.例えばライティングの 1 番目

Page 6: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

は「友人のために授業用に買っておくもののリストを書くことができる.」という内容であ

る.各項目は,5ポイントスケールで「1.全くできない --- 5.簡単にできる」から選んで回

答する.最後にこの CDS 自体の自己評価としての妥当性を問う質問「この can-do

statements に回答することによって自分の英語力を自分で評価することができたと思い

ますか」という自己評価に対する評価を加えたが,これは質問内容の質が異なるため今回

は分析の対象から除いた.(小山,2008)(CDSの内容については巻末の付録参照)

CDS を評価する外部指標として「科学技術英語統一テスト」(以下「EXAM」)を使用し

た.このテストは教員が必修科目「科学技術英語」の期末試験として作成したもので,内

容は一般科学技術英語である.構成はリスニング 30問,リーディングと語彙 70問の計 100

問,問題形式は 4択中心の多肢選択問題で,アチーブメントテストである.

5.2 受験者

国立大学工学部の 1 年生を対象とした.CDS の回答は授業時間を用い,時間は限定しな

かった.回答者数は 882名であった.EXAMは同じく授業時間内に行われ,解答時間は 90

分間,受験者数は全体で 942名であった.実施時期であるが,CDSは 2007年 10月,EXAM

は 2008年 2月と,4か月の時間的経過があった.いずれもマークシートを使用し,マーク

シートリーダーによってデータを取った.

5.3 分析方法

CDS と EXAM を CTT, Rasch モデル, NTT により分析を行い,比較検討を加えたが,

Raschモデルの分析にはWinsteps (Linacre, 2009) を使用し,NTTの分析にはExametrika

(Shojima, 2008) を使用した.NTT の分析は,データの規模が比較的小さいことから自己

組織化マップ(self-organizing map, SOM)のメカニズムを利用した設定で行った.なお

CDSは多値データであるため,RaschモデルはWinsteps のAndrich’s Rating Scale Model

によって分析し,NTTは GNTモデルを使用した.(CDSの分析に使用したのはNTTの中

の GNTモデルであるが,本論文では煩雑になるため,以下,厳密には GNTモデルを指す

場合も NTTと記すことにする.)

6.分析結果と考察

6.1 CTTによる分析結果

まず CTTによる分析であるが,CDSと統一テストの基礎統計は以下の【表 1】に示す通

りである.またそれぞれの素点による分布のグラフが【図 2】である.

【表 1】から解るように,標準偏差は CDSの方がやや大きく,【図 2】から見ても受験者

のスコアの分散が EXAMより大きいことが明らかである.アルファ係数は項目の信頼性を

表す指標であるが,いずれも 0.936,0.834と高い値を示し,どちらも信頼性には問題がな

Page 7: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

いと言って良いだろう.また平均値は,CDSは 52.3と中央付近にあり,EXAMは 74.6 と

右寄りの高い値になっている.【図 2】を見ると両者のスコアの分布状況の違いがよく解る.

EXAM はもともとアチーブメントテストとして設定されているため,平均値が高くなり,

分散が小さくなることは必ずしも悪いことではない.この場合も大多数の学生が 7 割以上

の正解率を得て,その意味で設定されたレベルをクリアしたと言えよう.

【表 1】

Simple Statistics

CDS EXAM

N of Examinees 882 942

N of Items 20 100

Min 20 33

Max 100 97

Median 53 76

Mean 52.375 74.606

Variance 130.532 86.685

Standard Deviation 11.425 9.310

Alpha Coefficient 0.936 0.834

【図 2-1】CTTによる CDSの素点の分布 【図 2-2】CTTによる EXAM素点の分布

6.2 Raschモデルによる分析結果

Raschモデルによる分析であるが,CDSの分析結果については【表 2】を参照されたい.

まず項目の一元性を見るために CDS と EXAMの infitの値を調べた.これらの値が 0.6-

1.4 であれば一元性があると言えるが(Wright et al. 1994),CDS は.82-1.16 の間に,

EXAMは.88-1.12の間に,それぞれ全ての項目が収まっているため,両者共に 1つの構成

要素を測定している(一元性のある)ものと判断できる.(EXAMの個々の項目の分析結果

Page 8: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

については巻末の資料を参照のこと.)

次に項目困難度であるが,CDSについては項目自体が少ないため,標準偏差は 1.05,項

目困難度は-1.66-1.72と難易度の幅が狭く,すべてに 5または 1で回答した能力推定が困

難な受験者(4 名)を除いて分析された受験者の能力分布が-7.01-4.77 であるのに比べる

と,下のレベルを見分ける CDSが特に少ない.しかし項目困難度と受験者の推定能力のピ

ークがずれてはいないので,下のレベルの受験者以外にとっては,この項目困難度は受験

者にある程度適合していると言える.(【図 3-1】を参照)

EXAM については,標準偏差は 1.37 で項目困難度は-3.61-3.51 まで程よく広がってい

るが,受験者の能力分布が-.93-4.28で分布のピークも全くずれている.この問題群に対し

て能力の高い受験者が多く,平均より上の受験者を弁別する項目が不足している.(【図 3-2】

を参照)この傾向は CTTによる分析結果にも表れていたことであるが,Raschモデルによ

る分析によって個々の項目との関連がより明確になった.

【表 2】Raschモデルによる CDSの項目分析(1)

Item MEASURE ERROR Infit.MSQ Outfit.MSQ

R1 -1.36 0.06 1.16 1.16

R2 -0.33 0.05 1.09 1.09R3 -0.89 0.05 1.1 1.1R4 -1.51 0.05 0.97 0.96R5 1.02 0.05 1.07 1.13W1 -1.08 0.05 1.12 1.12W2 0.27 0.05 0.98 0.97W3 1.72 0.06 0.92 0.91W4 0.99 0.05 0.96 0.96W5 1.25 0.05 0.87 0.85S1 -1.66 0.05 1.08 1.08S2 -0.35 0.05 0.96 0.95S3 0.99 0.06 0.82 0.81S4 -0.44 0.05 0.97 0.96S5 0.98 0.06 0.82 0.8L1 -1.17 0.05 1.09 1.09L2 -0.72 0.05 0.86 0.85L3 0.7 0.05 1.01 1L4 0.34 0.05 1 1L5 1.25 0.05 1.16 1.12

Page 9: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

【図 3-1】Rasch モデルによる CDSの困難度と受験者の推定能力の分布

Page 10: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

【図 3-2】Rasch モデルによる EXAMの項目困難度と受験者の推定能力値の分布

Page 11: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

6.3 NTTによる分析結果

NTT による分析は,CDS と EXAM の両方をランク5で設定した.この理由は,どちら

も受験者数は十分にあるが,CDS の項目数が少ないため,ランク数を大きくするとモデル

の適合度が下がってしまうためである.EXAM については項目数も十分あるので,ランク

数を大きくして分析してもモデルの適合度が下がることはないが,本研究では,両者の関

連を調べるため,ランク数をそろえておいた方が解釈が容易である.

【図 4-1】に示される CDS のテスト項目プロファイル(TRP)を見てみるとランク5の

回答者でも6割強の所に位置し,ランク1の4割との差は2割程度しかない.しかし,

EXAM の場合【図 4-2】この傾向がさらに顕著でランク1でも6割以上の得点を得ること

が予想され,テスト全体が受験者のレベルに比べ易しいものであることが解る.また【図

5-1】【図 5-2】に示される EXAM の潜在ランク分布(LRD)分析結果は,被験者の推定さ

れた潜在ランクの分布を示すものであるが,ランク 1の分布は低く,全体に右肩上がりで,

これは CTT, Rasch モデルによる分析の結果と同様受験者にとって問題が易しいことを示

している.なお RMDはある潜在ランクに受験者が何人いるかを示すもので,受験者の母集

団の特徴を表すものである.

【図 4-1】CDSの TRP 【図 4-2】EXAMの TRP

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5

SC

OR

E

LATENT RANK

Page 12: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

【図 5-1】CDSの LRDと RMD 【図 5-2】EXAMの LRDと RMD

7.CDSと EXAMの NTTによる分析結果

本章では,CDS と EXAMの分析結果の関連性を明らかにすることを目的とし,NTT分

析によつ CDS と EXAM の受験者の潜在ランクをクロス集計した.なお CDS のランクと

EXAMのランクの相関はスピアマンの順位相関が 0.20,ケンドールの順位相関が 0.16で正

の相関が確認されている.ランク数が多いと 2 変数の関連が分かりにくいため,ランク数

に関しては最終的に 3×3にまとめた.再グループ化の基準は各カテゴリの周辺度数で,周

辺度数の大きいものはそのままにし,小さいものは近接のランクとグループ化し,各グル

ープに属す受験者数をほぼ同数にするというやり方である.再グループ化の手順は以下に

示す通りである.

1)ランク数 5 で分析した CDS と EXAM の受験者のランクをクロス集計すると【表 3-1】

のような結果が得られた.CDS も EXAM も R5 の周辺度数が大きかった.そのため,R5

以外の 4つを 2つずつまとめることにした.

2)R1 と R2,R3 と R4 をそれぞれ1つにまとめ,R1&R2,R3&R4 とし,1)の CDS と

EXAMのランク数 5を再グループ化して 3に減らし,3×3のクロス集計し【表 3-2】のよ

うな結果を得た.

Page 13: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

【表 3-1】CDMと EXAMのランクのクロス集計(5×5)

CDS

R1 R2 R3 R4 R5 合計

EXA

M

R1 49 22 27 26 13 137

R2 31 21 25 20 27 124

R3 26 31 42 31 36 166

R4 28 21 32 36 45 162

R5 34 45 70 53 84 286

合計 168 140 196 166 205 875

【表 3-2】CDMと EXAMのランクのクロス集計(3×3)

CDS

R1&R2 R3&R4 R5 合計

EXA

M

R1&R2 123 98 40 261

R3&R4 106 141 81 328

R5 79 123 84 286

以下のグラフは,上記のプロセスを経て得た CDSと EXAMの 3×3のクロス集計の結果

を表わしている.【図 6】は,EXAM の結果をランク分けした各ランクに CDS の回答者の

各ランクに属する回答者がどのくらいの割合を占めるかを示すものである.このグラフで

解るように EXAMの成績ランク群が「R1&R2」→「R3&R4」→「R5」と上がるに従って,

CDSでの自己評価が低い「R1&R2」の割合は減少し,反対にCDSでの自己評価が高い「R5」

の割合は増加している.このことは,この CDS が順序尺度を基にランク化を行う NTT の

分析によって外部指標の EXAMのランクとリンク付けができていることを示す.換言すれ

ば科学技術英語を内容とする CDS が一般科学技術英語の知識を問うテスト EXAM との関

連で,その妥当性を示す証左と言えるだろう.なお,クロス集計については各段階でχ二

乗検定を行い,すべて有意性(p<.001)を確認している.

これまで述べてきたように,NTTは,連続的尺度によって分析する IRT等の分析方法と

異なり,初めから順序尺度を仮定している.従って(松宮・荘島,2009)にもあるように,

実施したテストの項目参照プロファイル(IRP)によって項目を段階的に分類し,潜在ラン

クを達成レベルとしてそれぞれのレベルに対応する CDS を作成することは,NTT の特質

に極めて合致したNTTの応用法と考えられる.また同様の理由によって,本研究のように,

多くの場合リッカートスケールで回答するような CDS とテストの解答を分析し,CDS の

妥当性を検証する場合もNTTは適切な分析手法であると考えられる.

Page 14: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

【図 6】EXAMのランクと CDSのランクの関係

8.まとめ

本研究の目的は(1)CDSを CTT, Raschモデル,NTTの三種類の異なるテスト理論に

基づいて分析し,それぞれの結果を EXAMの分析結果と関連させつつ比較すること,また

(2)CDSと EXAMのNTTによる分析結果をランク付けの観点から再評価し,自己評価

である CDSの評価指標としての妥当性を明らかにすることであった.

(1)の CTT, Rasch モデル,NTTの分析結果は,いずれの分析方法によっても同様に

EXAM の問題は受験者にとって難易度の高い問題は少なく,低い問題の方が多いというこ

とが明らかになったが,Rasch モデルの分析によると個々の受験者と問題の難易度の関連

がより明確になった.また NTTの分析の場合は,5段階にランク分けした場合の 1番下の

ランクと 1 番上のランクの受験者が正解する率の差は 2 割もなく一番下のランクでさえ 6

割以上の正解をすることが示され,テストとしては識別力が低いことが分かった.

(2)のNTTによる CDSと EXAMの分析結果からは,CDSと EXAMのランクをクロ

ス集計したところ EXAM のランクが上がるにつれ CDS の高いランクの割合も増加し,こ

の CDSが外部指標である EXAMとの関連で,内容的な妥当性を有することが示された.

今後の課題としては,CDS の NTT による分析結果をより詳細に考察し,CDS の内容を

修正して,その妥当性を高めることが挙げられる.例えば,項目参照プロファイルを観察

すれば,ある項目の識別力の高低や,受験者の能力と正答率の関連を見ることができ,そ

の結果,項目の良し悪しを判断することができるだろう.そうすれば,項目の差し替えや

Page 15: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

改良もより容易になる.また,テストの結果を NTTによって分析し,そのランクに属す項

目をまとめて CDS を作成するという方策も,もちろん NTT の本質的な特徴に合致してい

る.その意味で,NTTによる CDSやテストの分析は,妥当性の高い CDSを作成し,自己

評価の意義付けを高めることにもつながる.テストの社会的責任が重い昨今,より良いテ

ストの作成は大変重要な課題であり,それはより適切な分析方法を目的に応じて選択する

ことにかかっている.妥当性と信頼性の高いテストを作成するには,CTT, IRT, NTTのそ

れぞれの特性を見極め,テストの目的と種類に応じた分析法を選択し,かつ適宜組み合わ

せていくことが重要であろう.

Page 16: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

文 献

[1] Alderson, J.C.(2005) Diagnosing Foreign Language Proficiency: The Interface

Between Learning And Assessment. New York.

[2] Andrich D. (1978) A rating scale formulation for ordered response categories.

Psychometrika, 43, 561-573

[3] Andrich, D. (2005). The Rasch model explained. In Sivakumar Alagumalai, David D

Durtis, and Njora Hungi (Eds.) Applied Rasch Measurement: A book of exemplars.

Springer-Kluwer. Chapter 3, 308-328.

[4] Bishop, Svensen and Williams, 1998 generative topographic mapping, GTM

[5] Council of Europe. (2001). Common European Framework of References for

Languages: Learning,Teaching, Assessment. Cambridge: Cambridge University

Press.

[6] Dunlea, J. (2009). The EIKEN Can-do List: Improving feedback for an English

proficiency test in Japan. In L. Taylor & C.J. Weir (Eds.), Studies in language

testing 31: Language testing matters (pp.245-262). Cambridge, England:

Cambridge

[7] 小山由紀江(2008)「Can-do Statementsの妥当性検証:ESPの観点から」JACET中

部 25周年記念論文集 2008,大学英語教育学会(JACET)中部支部,(2008年 6月),

pp177-187

[8] Linacre, J. M. (2009) WINSTEPS: A Rasch model computer program.

http://www.winsteps.com/ (accessed 2009.02.16), originally developed by Wright,

B.D., and Linacre, J. M. (1998), MESA Press, Chicago

[9] Lord, F.M. (1950). Notes on comparable scales for test scores (Research Bulletin

50-48).Educational Testing Service.

[10] Masters G.N. (1982) A Rasch model for partial credit scoring. Psychometrika, 47,

[11] 松宮功・荘島宏二郎 (2009) ニューラルテスト理論を利用して作成する教科テストの

Can-do table.第 7回日本テスト学会抄録集,232-233

[12] Shojima, K. (2007) Neural test theory. DNC Research Note, 07-02.

[13] Shojima, K. (2008) Exametrika. http://www.rd.dnc.ac.jp/~shojima/exmk/ (Retrieved 2010.7.7)

[14] 荘島宏二郎 (2010) ニューラルテスト理論―学力を段階評価するための潜在ランク理

Page 17: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

論― . 植野真臣・荘島宏二郎, 学習評価の新潮流.朝倉書店,東京, pp.83-111

[15] Samejima, F. (1969). Estimation of Latent Ability Using a Response Pattern of Graded Scores

(Psychometric Monograph No. 17). Richmond, VA: Psychometric Society. Retrieved from

http://www.psychometrika.org/journal/online/MN17.pdf

[16] Wright, B.D., Linacre, J. M., Gustafson, J-E., Martin-Lof, P. (1994). Reasonable mean-square

fit values. Rasch Measurement Transactions, 8. 370

====

Page 18: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

巻末資料

1.名工大 CDS version 2

Reading

1. メニューを読んで理解できる

2. 器具の説明書を読んで,使い方が理解できる.

3. 簡易版の英語の小説を読んで,理解できる.

4. 宿題の詳細と締め切りを書いたメモを読んで,理解できる.

5. 新聞の科学に関する記事を読んで,理解できる.

Writing

1. 友人のために,授業用に買っておくもののリストを書くことができる.

2. 先生との面談の約束をとるため,お願いの文章を書くことができる.

3. 科学に関する新聞記事の要約を書くことができる.

4. ある器具の外観を記述するパラグラフ(短文)を書くことができる.

5. 友人がある器具を使えるよう,使い方の指示の文章を書くことができる

Speaking

1.家族または自分自身について話したり,紹介したりできる.

2.先生が解るように,ある学生について説明することができる.

3.簡単な実験のやり方・手順を,説明することができる.

4.先週の週末に体験したことを,説明することができる.

5.授業の要点をかいつまんで,話すことができる.

Listening

1.待ち合わせの場所の説明を聞いて,その場所まで行くことができる.

2.先生の指示を聞いて,そのとおりに宿題を完成させることができる.

3.テレビのニュースを聞いて,だいたいの内容を理解することができる.

4.デパートの館内放送を聞いて,どこの売り場でセールをやっているのか理解できる.

5.自分が勉強している科目なら,英語の授業や講演を聞いて,理解できる

Evaluation

「この can-do statement に回答することによって自分の英語力を自分で評価することが

できたと思いますか」

2.Raschモデルによる EXAMの項目分析結果

Page 19: Neural Test Theory を使った - Nagoya Institute of …presentation.web.nitech.ac.jp/publication/36.pdfNeural Test Theory を使った Can-do Statements の分析 小山 由紀江*

Items

item MEASURE ERROR Infit.MSQ Outfit.MSQ item MEASURE ERROR Infit.MSQ Outfit.MSQ

1 0.23 0.08 1.06 1.11 51 -3.61 0.38 1 0.59

2 -0.03 0.09 1.01 0.97 52 -2.98 0.28 0.98 0.56

3 -0.14 0.09 1.02 0.99 53 -2.59 0.23 1 0.96

4 -0.27 0.09 1.05 1.06 54 -2.84 0.26 1 0.9

5 -0.04 0.09 1.05 1.06 55 0.23 0.08 0.99 0.95

6 2.03 0.07 1.02 1.08 56 -2.91 0.27 0.96 0.59

7 1.3 0.07 1.04 1.04 57 -1.14 0.12 0.97 0.87

8 1.56 0.07 1.11 1.13 58 0.19 0.08 0.99 0.95

9 1.19 0.07 1.08 1.1 59 -0.61 0.1 0.96 0.83

10 2.29 0.07 1.08 1.12 60 -0.32 0.09 0.93 0.82

11 2.3 0.07 1.08 1.15 61 0.05 0.08 0.94 0.87

12 0.36 0.08 1.06 1.09 62 -0.49 0.1 0.96 0.86

13 1.37 0.07 1.06 1.06 63 -1.87 0.17 0.98 0.77

14 1.16 0.07 1.05 1.07 64 -2.59 0.23 0.99 0.97

15 0.94 0.07 1.09 1.1 65 0.14 0.08 1.02 1.01

16 0.76 0.07 1 1.01 66 -0.47 0.1 1.01 0.95

17 1.68 0.07 1.03 1.03 67 0.42 0.08 1.02 1.01

18 0.11 0.08 1.08 1.15 68 -0.41 0.1 1 0.93

19 -0.97 0.12 0.98 0.95 69 0.01 0.08 0.92 0.86

20 -0.19 0.09 1 0.97 70 0.59 0.07 0.93 0.91

21 0.25 0.08 0.98 0.93 71 -1.39 0.14 1.01 1.04

22 0.66 0.07 1.05 1.05 72 0.23 0.08 0.98 0.95

23 3.21 0.09 1.12 1.41 73 0.46 0.08 0.99 0.99

24 2.39 0.07 1.06 1.12 74 -0.52 0.1 1 0.99

25 1.52 0.07 1.08 1.1 75 -2.35 0.21 0.94 0.58

26 2.43 0.07 1.08 1.18 76 0.5 0.08 0.94 0.91

27 1.48 0.07 1 1 77 0.14 0.08 0.93 0.88

28 1.54 0.07 1.01 1.01 78 -0.99 0.12 0.94 0.74

29 3.51 0.1 1.09 1.36 79 -0.54 0.1 0.98 1.03

30 2.75 0.08 1.07 1.2 80 0.56 0.07 1.09 1.13

31 -1.28 0.13 0.95 0.82 81 1.15 0.07 1.04 1.05

32 -1.47 0.14 0.98 0.9 82 0.22 0.08 0.95 0.93

33 -1.28 0.13 0.88 0.63 83 -0.07 0.09 1.01 0.96

34 -0.94 0.11 0.93 0.81 84 -0.77 0.11 0.99 0.96

35 -0.11 0.09 0.92 0.83 85 -0.75 0.11 0.99 0.93

36 0.24 0.08 0.94 0.89 86 -0.27 0.09 0.97 0.93

37 -2.71 0.25 0.94 0.56 87 -1.55 0.15 1 0.91

38 0.25 0.08 0.92 0.86 88 -0.53 0.1 0.93 0.85

39 -0.28 0.09 1 1.09 89 -0.84 0.11 0.94 0.8

40 1.13 0.07 1.04 1.04 90 -1.08 0.12 0.99 1

41 0.48 0.08 0.99 0.96 91 0.37 0.08 1.02 1.03

42 1.18 0.07 1 0.99 92 -1.17 0.13 1 0.95

43 0.15 0.08 1.02 1.01 93 -1.74 0.16 0.99 0.83

44 -0.03 0.08 1.04 1.04 94 -0.65 0.1 0.94 0.78

45 0.95 0.07 0.98 1 95 0.77 0.07 0.94 0.91

46 -1.28 0.13 0.9 0.63 96 0.61 0.07 1.02 1.02

47 -0.27 0.09 0.97 1 97 -1.59 0.15 0.93 0.8

48 1.03 0.07 0.99 0.98 98 1.04 0.07 0.95 0.94

49 0.52 0.07 0.96 0.93 99 -0.76 0.11 0.93 0.81

50 -0.4 0.09 0.94 0.85 100 1.47 0.07 1.06 1.08