アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート...

33
アルク英語教育実態レポート Vol. 10 [2017 年 11 月] ■■ ■■ Telephone Standard Speaking Test (TSST) の妥当性検証

Upload: others

Post on 30-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

アルク英語教育実態レポート Vol. 10

[2017年 11月]

■■

■■

Telephone Standard Speaking Test (TSST) の妥当性検証

Page 2: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

1

はじめに

株式会社アルクは 1969 年の創業以来、月刊誌『ENGLISH JOURNAL』、通信教育講座「1000 時

間ヒアリングマラソン」、書籍「キクタン」シリーズなど、さまざまな英語学習教材を開発してきま

した。近年は「英語スピーキング能力測定試験 TSST (Telephone Standard Speaking Test)」、「英語

学習アドバイザー資格認定制度 ESAC (English Study Advisors’ Certificate)」を独自に開発し、学習

成果の検証や継続的学習支援のサービスも提供するようになりました。

私たちは、語学学習者に成果をもたらす有益な方法を常に追求したいと考えています。そのために

アルク教育総合研究所を設立しました。「アルク教育総研」は、学習行動が成果に結びつきやすくな

ることを目指し、教材・学習法の研究、学習者個人・企業・教育機関のニーズ調査等を随時行い、そ

の結果を公表しています。

TSST は、2004 年に運用を開始して以来、そのスコアは、学校や企業におけるスピーキング能力の

伸びの確認や、企業の採用、海外派遣者の選抜等に使われています。一方 TSST の妥当性については、

Test of English for International CommunicationsTM (TOEIC®) Listening and Reading Test

(TOEIC® L&R TEST) との相関関係 (アルク英語教育実態レポート Vol. 7) など一部検証され、公表

されています。しかし、包括的な検証はまだでした。本報告書では、よく用いられる妥当性検証の枠組

みに基づき、TSST の妥当性の証拠として提示できることと、今後検証すべきことを整理することを目

的とします。

なお、本報告書は、第 1 章「TSST について」はアルク教育総合研究所が、それ以外の章は小泉利恵

(順天堂大学) が執筆しました。

Page 3: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

2

◆本レポートの概要◆

■TSST が作られた経緯

TSST は Standard Speaking Test (SST) を土台にしている。American Council on the Teaching of

Foreign Languages (ACTFL) による Oral Proficiency Interview (OPI) を、日本人英語学習者向けに

修正する形で開発されたのが SST である。SST は、試験官が受験者の能力を直接対面して判定する直

接テスト (direct test) であり、時間やコストの面から対面式でない半直接テスト (semi-direct test)

形式も求められていた。その流れに沿って、時間や場所等の制約を受けずに受験可能なテストを目指

して開発されたのが TSST である。

■TSST の妥当性検証

2015~2016 年に実施した TSST (受験者 5,406 名、採点者 32 名、タスク 771 問の採点データ) を

対象に分析した。分析は、Facets (Version 3.71.4; Linacre, 2014) の評価尺度モデルを用いて多相ラッ

シュ分析を行った。受験者、タスク、採点者の 3 相を含めた。

分析を通じて、以下のような課題に応えようとした。

(1) スコアの全体の分散は、多相ラッシュ分析によってどの程度説明されるか

(2) 採点者の厳しさに違いはあるか

(3) 採点者内の一貫性は高いか

(4) タスクの難易度は意図通りか

(5) タスクが測る能力は一貫しているか

(6) 受験者の能力推定値は、安定しているか

(7) TSSTスコアの出し方は適切か

(8) 受験者は、複数のタスクでの反応や複数の採点者による採点の点で、一貫した能力を示しているか

(9) ルーブリックのレベルは十分に弁別されているか

(10) ルーブリックは受験者を十分に弁別できているか

(11) 採点者とタスク、採点者と受験者、タスクと受験者の間に偏った評価傾向は見られるか

◆採点者:採点の厳しさの度合いで 32 名は 2 グループに分かれたが大きな開きはないこと、一人の採

点者に注目しても採点の一貫性は非常に高く保たれていることが分かった。

◆タスク:タスクの難易度は 2 層に分かれ、テスト制作側の意図通りになっているといえる。しかし、

タスクは 10 個あるので、もう少し異なる難易度のタスクを入れることが、より精密にスピーキング能

力で受験者を分けるための一つの改善方法になると思われる。

◆TSST スコアの出し方:多相ラッシュ分析を用いて算出した受験者能力値と、採点者 3 名の判断に

よる TSST スコアの相関関係を調べたところ、非常に強い関係が見られた (r = .95)。そのため、多相

ラッシュ分析による推定値と、3 名の採点者の採点に基づき決めた最終スコアは一貫しており、TSST

スコアの算出方法は適切であると考えられる。

◆受験者:受験者が 10 問への回答で一貫した能力を示しているかを、受験者のインフィット平均平方

値を用いて検討したところ、「アンダーフィット」と判定された受験者が多い傾向があった。これは、

スピーキング能力が低目だがいくつかの難し目のタスクでは高得点だった、またはその逆の場合があ

る、ということである。該当タスクに関しては再検討してみる必要があると思われる。

Page 4: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

3

◆目次◆

はじめに p. 1

本レポートの概要 p. 2

1 TSST について

1.1 TSST の概要 p. 4

1.2 TSST の評価方法 p. 4

1.3 TSST の評価基準と9つのレベル p. 5

2 半直接テストとしての TSST の位置づけ p. 6

3 妥当性検証の枠組みと手順

3.1 妥当性検証の枠組み p. 10

3.2 TSST の妥当性検証の手順 p. 11

4 TSST の妥当性検証

4.1 TSST の妥当性に関するこれまでの研究 p. 18

4.2 TSST の多相ラッシュ分析による研究 p. 20

5 まとめと今後の課題 p. 28

Page 5: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

4

1 TSST について

1.1 TSST の概要

英語スピーキング能力を測定するツールとしての TSST (Telephone Standard Speaking Test)

は、電話を使った英語スピーキング能力測定試験である。1997 年から始まった対面インタビュー型

テスト SST (Standard Speaking Test) の実績と経験からアルクが独自に開発し、2004 年から運用を

開始した。法人団体受験を中心に利用が伸び、SST と合わせた受験者数は 2016 年 12 月時点で累計

10 万件を超えるまでになっている。

TSST は団体受験、個人受験、いずれの形式でも利用できる。その概要は以下のとおりである。

1. 固定電話、携帯電話を利用して受験する。

2. 受験期間中は 24 時間受験が可能。

3. 受験時間は約 15 分。

4. 高校生以上の受験者が対象。

5. 質問項目は受験者ごとにデータベースからランダムに抽出され、全 10 問が出題される。

6. 10 の質問は、身の回りの具体的事柄について述べたり、何かの手順を説明したりするなど、難

易度の異なるもので構成されている。

7. 質問音声は日本語・英語両方の言語で流れる。質問の英語が聞き取れないために回答できないこ

とを防ぐためである。

8. 1問の回答時間は 45 秒。既定回答時間が経過後、次の質問が自動的に流れる。

9. 録音された回答音声を3人の評価官が個別に聞いて評価する。

10. 原則的に、受験期間終了後、約1週間で結果を Web 上で公開し、受験者が各自結果を確認す

る。

11. 法人団体受験の場合は、法人側担当者が受験者の結果一覧を Web からダウンロードできる。

1.2 TSST の評価方法

TSST は以下の4つの評価基準に基づいて「英語を使って何ができるか」を、発話全体を見渡し

て、レベル1(初級)~レベル9(上級)までの9段階で、総合的に評価する。

図 1 TSST の評価観点

言語機能

理由を述べる、意⾒を述べる、問題解決し提案する、手順を説明する、苦情を言うなど

英語でどのようなことを遂⾏できるか

話題/場面

自分に直結している話題、時事問題、予期しない困難な場面など

どれくらい複雑な状況で、何について話せるか

テキストタイプ

単語、フレーズ、短い簡単な⽂、⻑くて複雑な⽂、順序⽴てた理論的な話し⽅など

どのような複雑さの構文を使い、どう話を構成しているか

正確さ

⽂法、語彙、発⾳、流暢さなど

聞き⼿にどれくらい正確に理解されるか

総合評価

Page 6: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

5

1.3 TSST の評価基準と9つのレベル

TSST の評価基準と9段階のレベルの特徴を記したものが表 1 である。

表1 TSST の評価基準

レベル 概要

9

身近な話題だけでなく社会的な話題についても話すことができます。現在・過去・未来のすべての時制を自在に操り叙述や描写をしたり、予期しない複雑な状況に置かれても、問題に効率よく対処することができます。一連の説明をする場合に、時間の流れや聞き手の理解を配慮し、情報や自分の考えなどを聞き手が理解しやすい構成で組み立てて話すことができます。文法や語彙選択を意識しなくても正確に話すことができ、たまに誤りがあったとしてもコミュニケーションの支障にはならない程度です。ノンネイティブの英語に不慣れな聞き手でも、話の内容を容易に理解することができます。

8

身近な話題に加え社会的な話題についても、ほとんどの場合うまく話すことができます。予期しない複雑な状況に置かれても、概ね対処することができます。複雑な構文も自然に使えることがほとんどですが、文法の誤りは多少あり、時制の制御も完全ではありません。まとまりのある内容を概ね分かりやすく話すことができますが、語彙の広がりや適切さに欠けたり、時に?いよどんだり、回りくどい表現になることもまだあります。ノンネイティブの英語に不慣れな聞き手でも、一般的にほとんど理解してもらえます。

7

複雑ではないコミュニケーションに難なく対応することができます。英語が母語の文化圏で生活するのに必要な、食べ物・買い物・旅などについて、具体的なやり取りができます。予期しない複雑な状況に置かれてもある程度は対処できますが、回りくどい話し方になったり、文法の誤りや言い直しが増え、うまくまとめることができないこともあります。詳細に踏み込んで話したり、使える構文や表現の正確さが優れていたり、ネイティブスピーカーに近い発音など、聞き手に理解してもらいやすくなる特徴を併せ持っています。

6

複雑ではないコミュニケーションに難なく対応することができます。英語が母語の文化圏で生活するのに必要な、食べ物・買い物・旅行などについて、具体的なやり取りができます。自分の意図することを特に苦労することなく文をつないで表現できますが、長く複雑な文になると誤りや自己訂正が目立ったり、より適切な語や表現を探そうとして流暢さが損なわれることもあります。時制の混在もまだ頻繁に見られます。発音はネイティブスピーカーに近い場合から母国語の影響が強い場合まで人によって差があります。

5

日常生活に関わることや自分自身に身近な話題について、簡単な質問に答えたり、自分から質問をするなどして、簡単な会話をすることができます。自分から積極的に情報を加えて話すことができますが、文が長くなるにつれ、文法の誤りや言い直しが増えたり、言い終わるまでに時間がかかったりします。適切な語彙や表現を使えないことも多く、発音にもまだ母国語の影響が強く見られる場合も多いですが、ノンネイティブの英語に慣れている聞き手であれば理解してもらえるでしょう。

4

日常生活に関わることや自分自身に身近な話題について、簡単な質問に答えたり、自分から質問をするなどして、簡単な会話をすることができます。短い文をいくつかつないで意思を相手に伝えることができますが、適切な語順や語彙を探そうとして言いよどんだり、言い直しをすることが多くあります。自分から積極的に話すというよりは、聞かれたことに対しなんとか答えることに精一杯なことが多いです。発音や語彙にはまだ母国語の影響が強く見られる場合が多いですが、ノンネイティブの英語に慣れている聞き手であれば理解してもらえるでしょう。

3

暗記した決まり文句を単に繰り返すところから一歩踏み出し、時には知っている表現を応用して、短い簡単な文を自分で作り話すことができます。しかし、内容は自分自身に深く関わりのある事柄に限られ、全体の半分近くで意味が通じなくなるような文法・語彙選択の誤りが見られます。話を進めるのに大変苦労し、時間がかかることが多く、聞き手を待たせてしまいます。発音は母国語の影響が強く残っている場合が多く、何回か繰り返しても聞き手に理解してもらえないこともあるでしょう。

2

日常生活に密着した簡単な質問に、非常に苦労しながら答えることによって、最小限のコミュニケーションを図ることができます。学習で丸暗記した決まり文句や語句が中心で、フレーズや単語の羅列で答えることが多く、途中で長い沈黙があったり、相手の言葉をそのまま繰り返したりすることもあります。簡単な文を作る場合もありますが、文法や語彙選択が大きく間違っているため、ノンネイティブの英語に慣れている聞き手でも理解できないことが多くあります。

1

まだコミュニケーションができるまでに至っていません。丸暗記した表現を使って自分の名前を言ったり、挨拶を交わすことができる場合もありますが、基本的には数字、曜日、色などのごく基本的な単語を断片的に並べるにとどまります。質問に対してたまにしか応答できず、応答するまでにも長い時間がかかります。母国語の影響を受けた発音のため、聞き取ってもらえない場合も多くあります。会話という形でコミュニケーションを図ることはできません。

上級

中級

初級

Page 7: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

6

2 半直接テストとしての TSSTの位置づけ

言語を使って意図を伝達する能力を測るスピーキングテストは、第二次世界大戦中に開発された、

対面して試験官と受験者が話す形式 (面接型) にさかのぼる (Fulcher, 2003)。その後、面接型の典型

として、全米外国語教育協会 (American Council on the Teaching of Foreign Languages: ACTFL) に

よる Oral Proficiency Interview (OPI) が開発され、世界に広まった。現在では 82 言語の ACTFL OPI

が行われている (ACTFL, n.d.)。日本では、英語だけでなく、日本語能力を測るテストとしても、ACTFL

OPI は使われている。

英語スピーキング能力測定については、初級・中級の学習者が日本人には多く、初級・中級をより細

かく分けることが求められていた。そのニーズに合わせ、中級のレベル分けを増やし、初級者でも話し

やすいように絵を 2 種類使うなどして、ACTFL OPI を修正する形で開発されたのが Standard

Speaking Test (SST) である (荻野, 2002)。1997 年に ACTFL とアルクが共同開発し、現在も実施さ

れている。また、中学生・高校生向けに SST を改訂した、High school Oral Proficiency Examination

(HOPE) と呼ばれるスピーキングテストも開発された (今井・吉田, 2007)。

面接型スピーキングテストは、試験官が受験者の能力を直接対面して判定する、直接テスト (direct

test) である。しかし、対面で行うため時間もコストもかかり、実用性が低いため、対面式でない形で

行いたいという動機が高まっていた。それに対応して、半直接テスト (semi-direct test) と呼ばれる、

受験者は電話やコンピュータに向かって話し、録音を採点者が後で聞いてスコアを付ける形式が開発

された。ACTFL OPI の半直接テストの例としては、Simulated Oral Proficiency Interview (SOPI) と

いうテープに音声を吹き込む形式や、Oral Proficiency Interview by Computer (OPIc) という、イン

ターネット経由でコンピュータが質問を提示し、受験者はアバターと会話をする形式のテストがある。

その流れに沿って、SST を電話を使う半直接形式に修正したのが TSST である。

直接テストと半直接テストの比較は、Qian (2009) や Kiddle and Kormos (2011) など、テストス

コアや発話特徴の比較、受験者のテストの捉え方の違いなど様々な観点で研究が行われてきた。半直

接テストの特徴を、表 2 にまとめた。

表 2 半直接テストの特徴 (Kiddle & Kormos, 2011に基づく)

長所 ・実施が容易

・集団実施が可能

・採点の信頼性が高くなりやすい

・発話の引き出し手順が統制しやすい

・面接官の訓練が必要なく、採点に集中できる

・受験者が受けやすい

短所 ・試験官とのやりとりがないため、対話能力が測れない

・現実世界とは大きく異なる形で測る

・採点者が、より熟達度が高い受験者のスコアを低くつけやすい

・より長く、より明瞭な発話を話すように受験者に求められない

Page 8: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

7

・技術的な問題で録音の質が悪いこともある

・マイクに対する恐怖心を持つ受験者がいる

・受験者は、受験を通して学ぶことが少ない

・受験者は、直接テストを好む場合が多い

その他 ・直接・半直接テストでのスコアの相関は一般的に高く、平均点はほぼ同じことが多い

・発話を書き起こして詳細に検討すると、違いはどこかでは見られることが多い

半直接テストは、実際に発話を引き出してスピーキング能力を測るという、直接テストが持つ長所

を引き継ぎつつ、時間とコストがかかるという実用性の低さを克服しようとしたテストである。金子

(2004) によると、TSST は、試験官確保の問題、受験場所確保の問題、スケジューリングの問題、採

点のためのダビングや保管等の問題を克服するべく、ACTFL OPI に基づき作成された SST を土台と

して、時間や場所等の制約を受けずに受験可能なテストを目指して開発された。ACTFL OPI、SST、

TSST の特徴を表 3 にまとめた。

表 3 3 つのスピーキングテストの主な特徴

ACTFL OPI SSTa TSST

テスト形式 約 20~30 分の面接式 (直

接テスト)。全て英語

約 15 分の面接式 (直接テ

スト)。全て英語

約 15 分の電話を使った録

音式 (半直接テスト)。受験

者が指定された電話番号

に電話をかけると、自動応

答装置と通話録音装置が

作動。指示は日本語と英

語。受験者の回答は英語

対象者 特に指定なし 高校生以上 (16 歳以上) 高校生以上

テスト構成 1. ウォームアップ

2. レベルチェック

3. プローブ (突き上げ ,

probe)

4. ロール・プレイ

5. 簡単な質問 (ワインド

ダウン)

2 と 3 を繰り返し行う

1. ウォームアップ

2. 1 枚の絵の描写

3. ロール・プレイ

4. 4 コマまたは 6 コマの

絵の描写

5. 簡単な質問 (ワインド

ダウン)

10個の録音された質問に、

各 45 秒間答える。6 問が

中級、4 問が上級レベル

例:Please describe ( ).

Please talk about the last

time you ( ).

Please compare ( )

with ( ).

レベル 11 レベル:初級 (下中上)、

中級 (下中上)、上級 (下

中上)、超級、卓越級 b

9 レベル:レベル 1~3:初

級、4~8:中級、9:上級 c

SST と同じ

試験官・評価

官 (採点者)

の資格

全 11 レベルを評価するた

めには超級を、初中級レベ

ルの評価には上級の中以

訓練後に認定試験合格が

求められる

訓練後に認定試験合格が

求められる

Page 9: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

8

上の英語スピーキング能

力が必要。訓練後に認定試

験合格が求められる

採点方法 評価官 2 名が採点。ずれが

大きい場合には 3人目 (主

任評価官) が採点し、最終

スコアを決定。通常は面接

官が第 1 評価官

ACTFL OPI と同じ 常に評価官 3 名が採点

採点基準 4 つの観点を含む包括的ル

ーブリックを使用

ACTFL OPI と同じ ACTFL OPI と同じ

結果の提示 認定証・スコアの説明 認定証・評価コメント・評

価ガイド

スコアレポート・スコアの

説明・評価コメントと学習

アドバイス (図 2 参照)

その他 ・試験官が受験者のレベル

に合わせて質問やタスク

を変化させる

・絵は使わない

・ACTFL OPI と同じ

・絵を使うことで話しやす

くしている

・実施には人が関わらず、

自動化されたシステムか

らランダムに質問提示

・絵は使わない

注:表 3 の情報は以下に基づく:アルクのウェブサイト https://tsst.alc.co.jp/

http://tsst.alc.co.jp/sst/

ACTFL (2012, n.d.), 金子 (2004), Language Testing International (2017), 荻野 (2002), Yoffe (1997),

Zhou (2015)。

aSST を使って、The NICT JLE (Japanese Learner English) Corpus が作られた (和泉・内元・井佐

原, 2004)。

bNovice-low, Novice-mid, Novice-high, Intermediate-low, Intermediate-mid, Intermediate-high,

Advanced-low, Advanced-mid, Advanced-high, Superior, Distinguished の 11 レベル。

cNovice-low, Novice-mid, Novice-high, Intermediate-low, Intermediate-low plus, Intermediate-

mid, Intermediate-mid plus, Intermediate-high, Advanced の 9 レベル

Page 10: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

9

図 2 TSST スコアレポートの例

Page 11: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

10

3 妥当性検証の枠組みと手順

3.1 妥当性検証の枠組み

妥当性 (validity) とは、一般に「テスト開発者がテストで測りたいと思う能力 (構成概念) がどの程

度測れているかと、どの程度使用目的に合っているか」である。意図する能力をより多く測れ、意図し

た使用目的に大きく沿っていれば、妥当性が高いと考えられる。この定義を、検証の方法まで含めて厳

密に規定したものが、「テスト得点に基づいた解釈と使用の適切さが、実証的証拠と理論的論拠によっ

て裏づけられる程度、またはその程度を統合的に評価した判断」(Messick, 1989, p. 13) という、妥当

性研究でよく使われる妥当性の定義である。この定義により、テストの妥当性の有無でなく、テスト得

点に基づいた解釈と使用の妥当性の程度を議論すべきで、その際には理論的・実証的な観点から論拠・

証拠を提示し、統合的に判断すべきことが分かる。

妥当性はテスト開発・使用の際に必ず調べる必要がある、最も重要な概念である。Messick (1989,

1996) によると、妥当性は単一的な (unitary) 概念だが、以下の 6 つの要素に分けることができる。

この中には、信頼性とテスト使用の面も含まれる (詳細は平井・飯村, 2017; 小泉, 2017; 水本, 2014 参

照)。

1. 測りたい能力との関係 (内容的要素, content aspect)

2. 受験プロセス (本質的要素, substantive aspect)

3. テスト内の構造 (構造的要素, structural aspect)

4. 信頼性 (一般化可能性的要素, generalizability aspect)

5. 他のテスト・基準との関係 (外的要素, external aspect)

6. テスト使用 (結果的要素, consequential aspect)

Messick は、それぞれの要素について、できるだけ多くの妥当性の証拠を提示し、テスト作成から使用

を終えるまで妥当性検証を続ける必要があるとした。しかし、それを実践することは難しく、テスト開

発者や使用者が可能な形で妥当性検証を進められる枠組みが求められていた。

Messick の妥当性の定義に基づきつつ、「論証に基づく妥当性へのアプローチ」(argument-based

approach) と呼ばれる実行可能な枠組みを提示したのが Kane (1992, 2006)。その大まかな手順は以下

である。

(a) テストの対象領域 (target domain) を決める (テストが測る構成概念や、テストスコアの解

釈・使用の範囲を明示する)

(b) 論証 (argument) を行う

(b1) 解釈的論証 (interpretive argument) を組み立てる。スコアの意図した解釈

(interpretation) と使用 (use) と、推論 (inference)・論拠 (warrant)・前提 (assumption) 等

を明記する。(各推論での前提と証拠提示のための分析法と、上記の Messick [1989, 1996] の

6 つの要素が、完全に対応するわけでないことに注意したい)

(b2) それぞれの前提の裏づけとなる証拠や、その反証となる証拠を提示し、推論などを組み立

てることにより、妥当性論証 (validity argument) を行う。

Page 12: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

11

言語テスティングの分野では、論証に基づく妥当性検証の独自の枠組みが、Chapelle, Enright, and

Jamieson (2008) や Bachman and Palmer (2010) によって提案され、よく用いられてきた。本報告

書では、Chapelle et al. (2008) とスピーキングやライティングの採点プロセスに特化して作られた

Knoch and Chapelle (in press) の枠組みを使って妥当性検証を行う (論証に基づくアプローチについ

ては、平井・飯村, 2017 も参照)。

上で述べたように、妥当性はテストに帰属するものではなく、テストスコアに基づいた解釈と使用

の妥当性であるが、本報告書では、分かりやすさを重視し、解釈と使用の妥当性という意味で「テスト

の妥当性」という用語を使う。

3.2 TSST の妥当性検証の手順

Knoch and Chapelle (in press) と Chapelle et al. (2008) に基づき、妥当性の枠組みを図 3 と表 4

~10 にまとめた。本報告書では、この枠組みに沿って検証していく。Knoch and Chapelle は採点プロ

セスを中心にした枠組みのため、タスクの観点などを Chapelle et al. (2008). の記述を参考に補った。

その際、スピーキングテストの妥当性検証一般で使えるよう、TSST では関わらない論証や前提なども

入れた。補足した点については、*を付けた。

まず、(a) の TSST が測る構成概念は、英語スピーキング能力であり、テストスコアの解釈も同様で

ある。TSST の使用範囲は、スピーキング能力のレベルを知るため、スピーキング能力でクラス分けを

するため、指導や学習後のスピーキング能力の伸びを確認するため、企業の採用や海外派遣者などの

選抜のため、レベルを知り指導や学習に活かすため等である。TSST の使用範囲は広いため、妥当性検

証を行うべき範囲も広くなっている。

次に図 3 では、今回の妥当性検証で論証をどのように組み立てていくかという、(b1) 解釈的論証の

イメージを示した。まずは、テストで得られる「観測」からテストを使うことによる「プラスの波及効

果」までをつなぐ、得点化、一般化、説明、外挿、決定、波及効果の 6 つの推論を設定する。推論ごと

に、推論を成り立たせる論拠と前提を記述していく。

解釈的論証を提示した後、(b2) 妥当性論証を行うために、前提ごとに分析を行い、証拠を示してい

く。証拠がある程度提示された後、証拠によって裏づけられた前提や論拠、推論のつながりが適切であ

るかを吟味し、その判断を総合的に提示して、妥当性論証を行う。

1 つの推論を例に、再度細かく説明する。例えば、得点化 (evaluation) の推論において、テストで

引き出した発話 (観測、パフォーマンス) は、得点化をすることにより観測 (された) 得点になる。得

点化の背後では、「テストのパフォーマンス (観測) は、意図した特徴を持つ観測得点 (observed

scores) が得られる手順を使って得点化されている」(表 4 参照) という主張 (claim) がされている。

その主張が正当で、つまり、得点化の推論が適切で、観測得点が発話の特徴を反映した適切なものであ

るためには、表 5 に挙げた、得点化に関わる論拠とその背後にある前提を満たす必要がある。論拠と

前提を満たすためには、分析を行い、プラスの証拠 (backing) を提示することが求められる。表 5~

10 の証拠提示のための分析法で で示したものが本報告書で証拠を示すもの、 で示したものが今

後の証拠を示すことを求められるものである。

Page 13: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

12

プラスの証拠が提示され、マイナスの証拠が提示されなければ、得点化に関わる前提と論拠が満た

されたことになり、得点化の推論が適切と判断できる。その場合、観測が観測得点に適切に変換された

と考えられ、次の一般化の推論について検討しはじめることになる。

プラスの波及効果 (Positive consequence)

論拠 6

前提

よって ↑

波及効果 (Consequence)

意思決定とスコア報告 (Decision-making and score reporting)

論拠 5

前提

よって ↑

決定 (Decision)

目標得点 (Target Score)

論拠 4

前提

よって ↑

外挿 (Extrapolation)

構成概念 (Construct)

論拠 3

前提

よって ↑

説明 (Explanation)

期待得点 (Expected Score)

論拠 2

前提

よって ↑

一般化 (Generalization)

観測得点 (Observed Score)

論拠 1

前提

よって (Since) ↑

得点化 (Evaluation)

観測 (Observation)

図 3 解釈的論証における推論・論拠・前提。Chapelle, Chung, Hegelheimer, Pendar, and Xu (2010)

を修正

表 4 推論と関連する主張

推論 (Inference) 主張 (Claim)

得点化 (Evaluation) テストのパフォーマンス (観測) は、意図した特徴を持つ観測得点

(observed scores) が得られる手順を使って得点化されている

一般化 (Generalization) 観測得点は、平行版であるタスク・テストフォーム間や、採点者

間で一貫した値を示す期待得点 (expected scores) の推定値で

ある

説明 (Explanation) 期待得点は、定義された構成概念に起因するものである

外挿 (Extrapolation) テストの構成概念は、目標言語使用領域での言語パフォーマン

スの質を十分説明するものである

決定 (Decision) パフォーマンスの質の推定値に基づいた決定は、適切であり、上

手く伝達できている

波及効果 (Consequence) テストの波及効果は、使用者にとって有益なものである

表 5 得点化の推論における、対応する論拠 (warrants) と前提 (assumptions)、証拠提示のための分

析法 (sources for backing)

得点化の推論:テストのパフォーマンスは、意図した特徴を持つ観測得点 (observed scores) が得ら

れる手順を使って得点化されている

Page 14: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

13

論拠 前提 証拠提示のための分析法 (証拠の例)

A. テストの

実施手順

は適切で

ある*

1. テスト実施者や面接官向けの実施手

順と例示を含む十分なサポート文書

がある

文書のリビュー。テスト実施者や面接官

へのインタビュー

2. テスト実施者や面接官は適度に資格

を持つ者である

テスト実施者や面接官の雇用のポリシー

と、その文書化に対する専門家の検証

3. テスト実施者や面接官は、テスト実

施のために徹底的に、かつ定期的に

訓練を受けている

専門家による面接官訓練手順の検証。テ

スト実施者や面接官への面接

B. ルーブリ

ックの特

性は開発

者によっ

て意図さ

れたもの

と同じで

ある

4. 分析的なルーブリックの観点は、意

図したのと同じように別々の能力を

測っている

因子分析 (観点ごとに独自の因子を示

す)

5. ルーブリックのレベルは十分に弁別

できている

多相ラッシュ分析 (各レベル [ステッ

プ、steps] に入ったスコア数が十分ある

[p. 25, (9)])。他の適切な量的検定; 質的

方法

6. ルーブリックは、テスト目的のため

に必要となるレベルに受験者を分け

ることができている

多相ラッシュ分析 (十分な受験者分離

(person separation) がある。受験者の信

頼性が高い [p. 24, (6), p. 27, (10)])。2 値

の尺度では二項・符号検定

C. 採点者は

タスクレ

ベルで信

頼性が高

く採点で

きている

7. 採点者はレベル間でのパフォーマン

スの違いを特定できている

多相ラッシュ分析 (採点者が異なるレベ

ルを適切に使っている [p. 25, (9)])。他の

適切な量的検定。採点者の言語報告

(verbal report; 採点者が全てのレベルに

おいて採点に自信を持っている)

8. 採点者はタスクにルーブリックを一

貫して適応できている

採点者の一貫性を示す統計分析 (例:古

典的テスト理論における信頼性分析、多

相ラッシュ分析における平均平方値 [p.

23, (3)])。言語報告を通して集めた採点者

の認知プロセス (ルーブリックの使い方

が一貫している)

9. 採点者は、問題なく記述子を使え、

決定に自信を持っている

採点者の自己レポート。面接またはアン

ケート

10. 採点者はルーブリック (とあてはま

る場合に、観点) を使うのに徹底的

に、かつ定期的に訓練を受けている

専門家による採点者訓練手順の検証。採

点者とテスト実施者への面接

11. 採点者向けのルーブリックの例示を

含む十分なサポート文書がある

文書のリビュー。採点者とテスト実施者

へのインタビュー

Page 15: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

14

12. 採点者は適度に資格を持つ者である 採点者の雇用のポリシーと、その文書化

に対する専門家の検証

13. 採点時には、採点者のパフォーマン

スが最適化するようにデザインされ

ている

採点時の手順の検証。採点者とテスト実

施者へのインタビュー

14. 検出可能な採点者の特徴のために、

構成概念に無関係の系統的な分散

が、開発者によって設定された容認

可能な程度以上に、採点に影響して

いない

バイアス分析 (例:多相ラッシュ分析。測

定できる採点者の特徴が採点に影響して

いない [p. 27, (11)])。採点者の言語報告

(採点者の認知プロセスが、採点者の特徴

に関わらず一貫している)

15. (当てはまる場合) 特定の観点に対

する採点者のバイアスの程度が、開

発者によって設定された容認可能な

範囲内である

バイアス分析 (例:多相ラッシュ分析。採

点者が観点を同じように使っている)

16. タスクタイプや、ルーブリックの観

点以外のテスト状況の系統的な要因

に対して採点者が示す、バイアスの

程度が、開発者によって設定された

容認可能な範囲内である

バイアス分析 (例:多相ラッシュ分析。採

点者が、タスクタイプ間や他のテスト状

況間で、同じように採点している [p. 27,

(11)])

注:TSST の妥当性検証で関連する前提。本報告書で使用する分析法。今後行うべき分析法。表 6~10

でも同様。

表 6 一般化の推論における、対応する論拠と前提、証拠提示のための分析法

一般化の推論:観測得点は、平行版であるタスク・テストフォーム間や、採点者間で一貫した値を

示す期待得点 (expected scores) の推定値である

論拠 前提 証拠提示のための分析法 (証拠の例)

A. 平行なタ

スク・テ

ストフォ

ー ム 間

で、安定

した値が

出ている

1. タスク細目やテスト細目が明確に書

かれている

文書のリビュー

2. 安定した得点を出すためにタスク数

は十分である

古典的テスト理論や多相ラッシュ分析

における信頼性 [p. 23, (4)] や一般化可

能性理論

3. タスクが測る能力は一貫している 多相ラッシュ分析における平均平方値

[p. 24, (5)]

4. 同時期に異なるテストフォームを受

けた時に、似た点数が得られる

再テスト法による信頼性

B. 異なる採

点 者 で

も、ある

5. 採点者はテスト全体で、同じ厳しさ

で、一貫して採点している

テスト全体での採点者の一貫性を示す

統計分析 (例:古典的テスト理論におけ

る信頼性分析 [p. 18, Zhou, 2015]、多相

Page 16: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

15

回答に対

して同じ

採点を行

っている

ラッシュ分析における平均平方値 [p.

23, (2)] や一般化可能性理論)。多相ラッ

シュ分析における採点者の厳しさ分析

[p. 23, (3)]

6. 採点者の数は、十分な信頼性を持つ

スコアにたどり着くのに十分である

一般化可能性理論を使った統計的分析

(採点者数は十分である [p. 18, Zhou,

2015])

7. 採点プロセスにおいて、テスト状況

または採点の実施条件等のために、

スコアに構成概念に無関係な分散が

入り込んでいない

採点条件が異なる場合での、採点結果の

統計分析 (例:多相ラッシュ分析 [p. 25,

(7)])。採点条件によって採点プロセスが

影響を受けないように行う、採点プロセ

ス・条件の定期的な観察

8. 採点の不一致を系統的に修正するた

めに、手順が決まっている

スコアの不一致をどのように解決する

かを記載したテスト文書のリビュー (注

1)

注 1:第 3 の採点者が調整すると決まっているそうである。

表 7 説明の推論における、対応する論拠と前提、証拠提示のための分析法

説明の推論:期待得点は、定義された構成概念 (言語熟達度) に起因するものである

論拠 前提 証拠提示のための分析法 (証拠の例)

A. ルーブリックは明

確に定義された構

成概念に基づいて

いる

1. ルーブリックは、正当と認めら

れる理論的なモデル、または熟

達度・発達の教育的モデルに基

づいている

ルーブリックの内容の専門家による

リビュー。テスト開発と文書化のリビ

ュー (注 1)

2. ルーブリックの観点と記述子

は構成概念をカバーしている

(構成概念に無関係、または構

成概念を代表していないとい

うことはない)

ルーブリックの内容とテスト開発の

文書化過程についての専門家による

リビュー (注 1)。採点者や他の専門家

への面接

3. 採点者の認知プロセスは、理論

的な熟達度・発達モデルと一致

している

採点者の言語報告 (採点者が、熟達

度・発達の理論的モデルの背後にある

重要な要素に基づいて採点している)

B. ルーブリックにお

ける記述子は、理

論的な構成概念を

反映し、テストの

談話においてそれ

が確認可能である

4. 受験者の談話は、ルーブリック

での記述子を反映している

受験者談話の分析

5. 受験者の談話の関連する特徴

は、レベルを弁別している

レベル間での受験者の談話の特徴の

質的分析

Page 17: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

16

C. 検証対象のテスト

のスコアは、意図

した構成概念と関

連している*

6. 検証対象のテストのスコアと、

同じ能力を (一部) 測るテスト

のスコアは、予測通りの程度で

相関関係がある

相関分析 (p. 18, Kaneko, 2004; p. 18,

Zhou, 2015; p. 19, 平井, 2015)。因子

分析。共分散構造分析

D. テストスコアの内

的構造は、理論的

な言語能力モデル

と一致している*

7. テストスコアの内的構造は、意

図通りの構造になっている

相関分析。因子分析。共分散構造分析。

多相ラッシュ分析における一次元性

の確認 (p. 23, (1))

注 1:TSST が使うルーブリックの原形は ACTFL OPI のルーブリックであり、今までの教育などの経

験に基づき作られたため、TSST についてもこの証拠は満たしていると考えてよいだろう。

表 8 外挿の推論における、対応する論拠と前提、証拠提示のための分析法

外挿の推論:テストの構成概念は、目標言語使用領域での言語パフォーマンスの質を十分説明する

ものである

論拠 前提 証拠提示のための分析法 (証拠の例)

A. テストで

のパフォー

マンスは、目

標言語使用

領域で重要

な能力を示

している

1. タスクや、発話を引き出す手順は、目

標言語使用領域におけるタスクや手

順と真正性が高い (代表的なもので

ある)

領域の専門家または言語的に素人の判

断 (注 1)

2. タスクや、発話を引き出す手順によ

り、目標言語使用領域で重要な能力

が引き出されている

談話分析。領域の専門家または言語的に

素人の判断 (注 1)

3. テストスコアは、目標言語使用領域

での言語熟達度を示す他のテストス

コアや他の指標 (例:自己評価・教師

評価) と関連している。テストタスク

でのパフォーマンスと目標言語使用

領域でのタスクでのパフォーマンス

は関連している

相関分析 (p. 18, Kaneko, 2004; p. 19,

アルク教育総合研究所, 2016a, 2016b)。

因子分析。共分散構造分析。受験者談話

の分析

B. 採点の手

順は、目標言

語使用領域

における言

語パフォー

マンスの評

価を十分に

モデル化し

ている

4. ルーブリックの観点は、目標言語使

用領域で使われる評価観点を反映し

ている

領域の専門家または言語的に素人の判

断 (注 2)

5. 採点者は、目標言語使用領域での読

み手・聞き手に似た形で、ルーブリッ

クの観点と記述子を使っている

採点者の認知プロセスと、目標言語使用

領域での専門家の読み手・聞き手の認知

プロセスの比較

6. ルーブリックの観点は、同じ目的で

デザインされた他の言語評価におけ

るルーブリック観点と関連している

同じ目的でデザインされた 2つのテスト

の観点の比較 (詳細な記述子の内容分

析; 注 3)

Page 18: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

17

7. 採点者の認知プロセスが同じ目的で

デザインされた他の言語評価で見ら

れる認知プロセスに関連している

同じ目的でデザインされたテスト間で

の採点者の認知プロセスの比較

注 1:電話を使った半直接形式でモノローグのみをタスクで引き出していることから、スピーキング能

力やタスクの代表性については限界点があると考えられる。

注 2:ACTFL OPI と同じルーブリックの観点であるため、目標言語使用領域で使われる評価観点を反

映していると考えてよいだろう。

注 3:SST と TSST は同じルーブリックを使っていることから、B6 は満たされると考えられる。

表 9 決定の推論における、対応する論拠と前提、証拠提示のための分析法

決定の推論:パフォーマンスの質の推定値に基づいた決定は、適切であり、上手く伝達できている

論拠 前提 証拠提示のための分析法 (証拠の例)

採点結果は

スコアの報

告に適切で、

適切な意思

決定を可能

にする

1. テストは、意思決定に必要なレベル

に受験者を弁別できる

専門家によるレビュー。多相ラッシュ分

析などを使った統計分析 [p. 25, (9),

p.27, (10)]

2. スコアレポートとルーブリックのレ

イアウトはスコア報告に適してお

り、使用者による適切な意思決定を

可能にする

スコアレポートとルーブリックのレイ

アウトの専門家によるレビュー。テスト

使用者への面接

3. テスト使用者は、適切な決定を行う

ために、ルーブリックやスコアレポ

ート、関連するフィードバックを解

釈できる

テスト使用者への面接。公的なテストの

文書の専門家によるレビュー

表 10 波及効果の推論における、対応する論拠と前提、証拠提示のための分析法

波及効果の推論:テストの波及効果は、使用者にとって有益なものである

論拠 前提 証拠 (Backing) のための論拠

テストやル

ーブリック、

スコアレポ

ート、関連す

るフィード

バックは、テ

スト使用者

の最高の興

味を促進す

るようにデ

ザインされ

ている

1. テスト使用者は、将来の指導と学習

への情報を得るために、ルーブリッ

クやスコアレポート、関連するフィ

ードバックを解釈することができる

テスト使用者への面接

2. テストやルーブリック、スコアレポ

ート、関連するフィードバックは、指

導へのプラスの波及効果がある

教師への面接。教室での観察

3. テストやルーブリック、スコアレポ

ート、関連するフィードバックは、学

習へのプラスの波及効果がある

教師とテスト使用者への面接。実験研究

4. ルーブリックは、採点者へプラスの

波及効果がある

採点者への面接

Page 19: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

18

4 TSSTの妥当性検証

4.1 TSSTの妥当性に関するこれまでの研究

過去に行われた、TSST の妥当性に関する結果を載せているものをまとめ、表 5~10 で挙げた証拠

提示のための分析法とも関連づけて述べる。

■金子 (2004)

TSST と SST を両方 3 日以内に受験した場合、スコアの相関は非常に高かった (r = .923, n = 83;

表 7 の説明の推論における C6 の証拠。同じ構成概念を測るテストスコア間の相関)。TSST と TOEIC®

L&R を両方受験した場合、スコアの相関は高かった (r = .725, n = 214; 表 8 の外挿の推論における

A3の証拠。目標言語使用領域で言語熟達度を示す他のテストスコアとTSSTスコアの間の関係。もし、

同じ受験者に TSST と SST、TOEIC® L&R を受けてもらい、TSST と SST の相関 > TSST と TOEIC®

L&R の相関 という関係が見られれば、表 7 の C6 のより強い証拠となる)。

TSST と SST を両方受験した人にアンケートを行ったところ、以下の結果が見られた。

(1) インタビュー形式のテストと電話でのテストではどちらの方がより正しく自分の英会話力を

評価できると感じましたか (2 択)

インタビュー形式のテスト 82.69% 電話でのテスト 17.31% (表 8 の外挿の推論におけ

る A2 の証拠。言語的に素人の判断。約 17%が TSST の方がより正しく英会話力を評価で

きるとし、その割合は少ないため、弱い証拠。TSST と SST との比較でなく、TSST とし

てどうかを尋ねて、その割合が高ければ、より強い証拠となる)

(2) インタビュー形式のテストと電話でのテストではどちらの方が難しいと感じましたか (2 択)

インタビュー形式のテスト 43.31% 電話でのテスト 57.69%

(3) 電話でのテストに比べ、インタビュー形式のテストでの試験官の存在はどのような影響があ

ったと思いますか (回答は 1 つ)

かなり・少し話しやすくなる 73.08% あまり影響はない 3.85%

かなり・少し話しにくくなる 23.07%

この資料は公開されていないため、公開することが望ましいと思われる。

■Zhou (2015)

TSST と SST において、採点者の一貫性がどのように異なるか、TSST と SST を両方受けた人のス

コアがどのように異なるかを調べた。75 名の日本人の大人の英語学習者 (Novice-mid~Intermediate-

high) が TSST と SST の両方のテストを受けた際のデータを使用した。その結果、TSST の採点者一

貫性は高く、SST と同じ程度だった (TSST のレベル全体で見た場合、採点が完全に一致したのが

60.00%、1 レベルずれたものが 36.44%、2 以上ずれたのが 3.56%; 表 6 の一般化の推論における B5

の証拠。テスト全体での採点者の一貫性)。一般化可能性理論で分析したところ、採点者 1 名でも .82

と高い一貫性を示した (表 6 の一般化の推論における B6 の証拠。運用時には 3 名の採点者がいるた

め、十分な採点者数)。TSST と SST のスコアについては、スコアが完全に一致したのが 64%で、高い

Page 20: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

19

相関が見られた (r = .89; 表 7 の説明の推論における C6 の証拠。同じ構成概念を測るテストスコア間

の相関)。つまり、採点者の一貫性も、受験者が受け取った最終スコアについても、2 つのテスト間で

ほとんど違いはなかった。

■平井 (2015)

Story Retelling Speaking Test (SRST) を開発し (Hirai & Koizumi, 2009, 2013)、教員評価と生徒

のピア (相互) 評価を行った。そのスコアと TSST スコアの相関を調べたところ、SRST の教員評価と

TSST の相関は高く (r = .76, n = 55)、SRST のピア評価と TSST の相関は中程度 (r = .59, n = 55) だ

った (表 7 の説明の推論における C6 の証拠。同じ構成概念を測るテストスコア間の相関)。

■アルク教育総合研究所 (2016a)

日本の高校 3 校の 1 年生 350 名に TSST を実施し、アンケートで英検の取得級や大学入試模擬試験

での偏差値を尋ねた。英検については、190 名が英検取得級を答えた。その級を、5 級を 1、4 級を 2、

3 級を 3、準 2 級を 4、2 級を 5、準 1 級を 6 と置き換え、TSST スコアとの相関を調べたところ、r

= .46 で中程度の相関があった。大学入試模擬試験での偏差値を答えたのは 55 名で、TSST スコアと

の相関は r = .51 あった (表 8 の外挿の推論における A3 の証拠。目標言語使用領域で言語熟達度を示

す他のテストスコアと TSST スコアの間の関係)。

同 350 名に、「TSST は英語のスピーキング能力が測れる有効な試験だと思いますか (1 つ選択)」を

尋ねたところ、「非常にそう思う・そう思う」78.4%、「分からない」16.1%、「そう思わない・全くそう

思わない」5.6%という結果だった。「非常にそう思う・そう思う」が多かったことから、表 8 の外挿の

推論における A2 の言語的な素人からの証拠と考えられる。

上記 350 名を指導している英語教師にも、TSST を受験してもらい、その後に生徒と同じ質問「TSST

は英語のスピーキング能力が測れる有効な試験だと思いますか (1 つ選択)」を尋ねたところ、「非常に

そう思う・そう思う」70.6%、「分からない」23.5%、「そう思わない・全くそう思わない」5.9%という

結果だった。「非常にそう思う・そう思う」が多かったことから、表 8 の外挿の推論における A2 の領

域の専門家から証拠と考えられる。

■アルク教育総合研究所 (2016b)

2004~2015 年の TSST 受験者のうち、TOEIC® L&R のスコアが自己申告により分かっている

25,559 名の TSST レベルおよび TOEIC® L&R のスコアを使用した。この中には、高校生や大学生、

社会人、英語教師などが含まれている。

TSST レベル分布については、レベル 4 を中心とした正規分布に近い形となった。海外赴任や留学

に出て何とかやっていけるのはレベル 6 以上とすると、平均的には、日本人英語学習者はそのレベル

まで達していないと考えられる。

次に、TSST レベルと TOEIC® L&R スコアとの関係を調べたところ、相関係数は r = .69 で、中程

度の相関があった。2011 年から 2015 年までの相関係数の推移を見たが、いずれも r = .65~ .71 の間

であり、年による変動はあまりないことが分かった (表 8 の外挿の推論における A3 の証拠。目標言語

使用領域で言語熟達度を示す他のテストスコアと TSST スコアの間の関係)。

Page 21: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

20

4.2 TSSTの多相ラッシュ分析による研究

TSST の妥当性を検証するにあたり、アルク教育総合研究所よりデータをご提供いただき、妥当性検

証に関わる分析を行った。多相ラッシュ分析では、受験者とタスク以外に、採点者など、3 つ以上の相

を入れることができる。多相ラッシュ分析により、スコアそのものを使った分析では得られない、詳細

な情報を得ることができる。

4.2.1 TSST に関する研究課題

(1) スコアの全体の分散は、多相ラッシュ分析によってどの程度説明されるか

(2) 採点者の厳しさに違いはあるか

(3) 採点者内の一貫性は高いか

(4) タスクの難易度は意図通りか

(5) タスクが測る能力は一貫しているか

(6) 受験者の能力推定値は、安定しているか

(7) TSST スコアの出し方は適切か

(8) 受験者は、複数のタスクでの反応や複数の採点者による採点の点で、一貫した能力を示しているか

(9) ルーブリックのレベルは十分に弁別されているか

(10) ルーブリックは受験者を十分に弁別できているか

(11) 採点者とタスク、採点者と受験者、タスクと受験者の間に偏った評価傾向は見られるか

4.2.2 方法

(A) 使用データ

受験者 5,406 名、採点者 32 名、タスク 771 問の採点データを用いた。2015~2016 年の間の半年間

に実施したデータであった。表 3 で説明したように、1 回の TSST では採点者は 3 名関わり、タスク

はランダムに選ばれた 10 個が提示される。ある採点者は複数の受験者やタスクに関わり、あるタスク

は複数の採点者と受験者に使われるなど、互いに関係があり、データにつながりがあるため、分析が可

能になる。今回は、採点者 1 がタスク 1、3、9 を、採点者 2 がタスク 2、4、10 を、採点者 3 がタス

ク 5~8 を採点したデータを使って分析した。

(B) 分析

Facets (Version 3.71.4; Linacre, 2014) の評価尺度モデル (rating scale model) を用いて多相ラッ

シュ分析を行った (多相ラッシュ分析の詳細は Barkaoui, 2013; Eckes, 2011; McNamara, 1996 を参

照)。受験者、タスク、採点者の 3 相を含めた。

ラッシュモデルへの適合 (フィット) の基準については、Eckes (2005) に基づき、インフィット平

均平方値を使い、判断基準は2種類用いた。TSSTは現在はどちらかというと影響度が小さいテストで

あるが、今後影響度が高くなることも考慮したためである。第一の広い基準は、平均平方値が0.50~

1.50内ならば、ラッシュモデルが予測する一般的なパターンに沿って、モデルに適合したと考えるもの

Page 22: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

21

である (Linacre, 2013)。0.50未満であればモデルの予測に一致しすぎてオーバーフィット (過剰適合)

と考え、1.50を超えればモデルの予測に一致していないアンダーフィット (またはミスフィット) と解

釈した。第二の狭い基準は、平均平方値が0.70~1.30内ならば、モデルに適合したと考えるものである。

0.70未満であれば、モデルの予測に一致しすぎているオーバーフィットと、1.30を超えれば、モデルの

予測に一致していないアンダーフィットと解釈した。アンダーフィットは一般的でないパターンであ

るため問題であるが、オーバーフィットは予測に一致しすぎているという意味で、問題視されないこ

とが多い。また、アンダーフィットは1.50を超えても、2.00までならば測定に問題を起こさず

(“unproductive for construction of measurement, but not degrading”)、2.00を超えた場合に問題

(“distorts or degrades the measurement system”) と考えることもある (Linacre, 2013, p. 266)。そ

のため、2.00を超えた%も示した。

4.2.3 結果と考察

図 4 は結果の全体像を示す変数マップである。0 が平均であるロジット尺度上で結果が示されてい

る。推定値 (measure) が高くなるにつれて、受験者のスピーキング能力が高く、タスクが難しく、採

点者の評価が厳しくなると解釈できる。この結果を数値で表したのが表 11 である。対象の相を何グル

ープに分けられているかを示す値として、「分離」(separation) と「層」(strata) が Facets のアウト

プットで出力されるが、Linacre (2013) の区別法に基づき、今回は「非常に高い・低いスコアが、た

ぶん高い・低い能力によって起こっている」(p. 315)と考えられるため、「層」を用いて解釈した。

表 11 3 相の記述統計

平均値 (標準

偏差)

最小値~

最高値

範囲 分離

(Separation)

(Strata)

信頼性

(Reliability)

受験者 -1.73 (3.69) -14.14~12.39 26.53 6.23 8.64 .97

タスク 0.00 (0.47) -1.35~1.77 3.12 1.11 1.81 .55

採点者 0.00 (0.35) -0.89~0.80 1.69 1.40 2.20 .66

Page 23: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

22

図 4 多相ラッシュ分析の変数マップ。Vertical = (1*,2*,3*,S) Yardstick (columns lines low high

extreme)= 0,2,-10,10,End で設定

表 12 は、上記の 2 つの適合度基準での結果がまとめられている。どの程度モデルに適合しているか

は使用する基準によって変わるが、解釈は 1.50 を超えた割合を中心に述べる。

表 12 オーバーフィット、適合、アンダーフィットの%

値 < 0.70

(overfit)

0.70 ≦値

≦ 1.30

(fit)

1.30 < 値

(underfit)

値 < 0.50

(overfit)

0.50 ≦値

≦ 1.50

(fit)

1.50 < 値

(underfit)

2.00 < 値

(underfit)

受験者 34.96 43.42 21.55 14.30 70.09 15.54 7.08

タスク 11.28 80.68 8.04 3.11 94.81 2.08 0.00

採点者 0.00 93.75 6.25 0.00 100.00 0.00 0.00

注:満点を取り、フィット値が出ない受験者がおり、合計が 100%にならないところもある。

Page 24: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

23

(1) スコアの全体の分散は、多相ラッシュ分析によってどの程度説明されるか

ラッシュの測定値によって説明された分散 (variance explained by Rasch measures) の値を見たと

ころ、80.72%という高い割合が説明されていた。そのため、データの一次元性が満たされており、TSST

で一つの構成概念を測っていると考えられる (表 7 の説明の推論における D7 の証拠。多相ラッシュ分

析における一次元性の確認)。

(2) 採点者の厳しさに違いはあるか

採点者の厳しさの値 (measure) を用いて検討したところ、1.69 ロジットの違いがあり、フェア・ス

コアという素点の尺度に直すと、0.42 点の違いがあった。採点者の層は 2.20 と、より厳しい採点者と

より甘い採点者という、厳しさが異なる 2 グループに分かれた。大きな厳しさの違いではないが、少

しの違いはあることが分かった (表 6 の一般化の推論における B5 の証拠。多相ラッシュ分析における

採点者の厳しさ分析)。

実際の運用では、3 名の結果の平均が最終スコアになり、第 3 の経験豊富な採点者は、ずれがあった

ときに第 1・第 2 の採点者にフィードバックを行うとのことなので、今回示された採点の厳しさの違

いはあまり問題にはならないと思われるが、採点者訓練の質などをさらに向上させることが求められ

る。

(3) 採点者内の一貫性は高いか

採点者のインフィット平均平方値 (infit mean square) を用いて検討したところ、表 12 が示すよう

に、広い基準では採点者全員が適合の値を示していた。採点者の行動は、ラッシュモデルから予想され

る範囲内で一貫しており、採点者内の一貫性は非常に高かった (表 5 の得点化の推論における C8 と、

表 6 の一般化の推論における B5 の証拠。採点者の一貫性確認)。

(4) タスクの難易度は意図通りか

タスクの層は 1.81 で、約 2 のため、中級と上級レベルで設定していることから意図通りと考えるこ

ともできる。しかし、10 個タスクがあるところで 2 グループしか分かれていないのは、改善が必要と

も考えられる。表 11 によるとタスクの信頼性は .55 であり、もう少し高めの方が好ましいだろう (表

6 の一般化の推論における A2 の弱い証拠。多相ラッシュ分析での信頼性分析)。もう少し異なる難易

度のタスクを入れるのが一つの改善方法と思われる。

タスクは中級と上級用のレベル分けがあるため、中級・上級のタスク間の難易度 (measure) に違い

があるかを、t 検定と効果量を用いて検討した (Mizumoto, n.d.)。中級タスクの平均点は-0.06 (SD =

0.45, k (タスク数) = 492) で、上級タスクの平均点は 0.11 (SD = 0.48, k = 279) であった。正規性と

等分散性が満たされることを確認の後、t 検定を行ったところ、t(769) = -4.97, p < .001 で有意差が

あったが、効果量は d = g = -0.37, 95%CI[-0.52, -0.22] と小さい程度にとどまった。図 5 の箱ひ

げ図を見ると、中級と上級のタスクの難易度には重なりが多かったことが分かる。そのため、中級・上

級の違いは全体的な傾向としては見られたが、個々のタスクレベルでは、より難易度が異なるように

タスク作成を行うと改善につながることが示唆される。

Page 25: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

24

中級タスク 上級タスク

図 5 個々のデータポイントが示された箱ひげ図 (Mizumoto, n.d. を使用)

(5) タスクが測る能力は一貫しているか

タスクのインフィット平均平方値 (infit mean square) を用いて検討したところ、表 12 が示すよう

に、ほとんどのタスクが基準の範囲内だった。そのため、タスクの使われ方は、ラッシュモデルから予

想される範囲内で一貫しており、タスク内の一貫性は高かった (表 6 の一般化の推論における A3 の証

拠。多相ラッシュ分析での平均平方値)。今後、広い基準でアンダーフィットと判定されたタスクにつ

いて、テストとして改善点がないかを調べる必要がある。

(6) 受験者の能力推定値は、安定しているか

受験者のスピーキング能力を推定した値 (measure) の安定性を調べるために、表 11 の受験者の信

頼性を見たところ、 .97 であり、非常に安定した値であった (表 5 の得点化の推論における B6 の証

拠。多相ラッシュ分析での受験者の高い信頼性)。

この値を用いて、テストスコアが誤差でどの程度変動するかを表す、測定の標準誤差 (standard

error of measurement: SEM) を使って計算した (式 1; Harvill, 1991)。

SEM = 標準偏差×√(1-信頼性) = 3.69*(√(1- .97) = 0.64 (式 1)

0.64 は、68%の確率での誤差の大きさを示す。95%の確率での誤差の大きさは、それに 1.96 をかけ

た 1.25 (= 0.64*1.96) であり、1.25 点程度は誤差でばらつくと考えられる。つまり TSST スコアの一

つ上か下のレベルのスコアには、誤差でなりうることを示す。これは大きな誤差に思えるかもしれな

いが、他のテストと比べて非常に大きいわけではない。例えば TOEFL iBT のスピーキング・セクシ

ョンは 30 点満点で、SEM が 1.62 で (Educational Testing Service, 2011)、95%の確率での誤差の大

Page 26: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

25

きさは 3.18 (= 1.62*1.96) であり、9 点満点に換算すると 0.95 (= 9*3.18/30) となり、TSST と大きく

異なるわけではない。

(7) TSST スコアの出し方は適切か

多相ラッシュ分析を用いて算出した受験者能力値と、採点者 3 名の判断による TSST スコアの相関

関係を調べたところ、非常に強い関係が見られた (r = .95)。そのため、多相ラッシュ分析による推定

値と、3 名の採点者の採点に基づき決めた最終スコアは一貫しており、TSST スコアの算出方法は適切

であると考えられる (表 6 の一般化の推論における B7 の証拠。多相ラッシュ分析で推定値と最終スコ

アの強い関係)。

(8) 受験者は、複数のタスクでの反応や複数の採点者による採点の点で、一貫した能力を示しているか

受験者のインフィット平均平方値 (infit mean square) を用いて検討したところ、表 12 が示すよう

に、アンダーフィットと判定された受験者が多い傾向があった (例:1.50 を超えた受験者は 15.54%)。

アンダーフィットと判定された受験者は、スピーキング能力が低めだが、ある数個の難しめのタスク

については高い点を取っている場合 (例:事前に回答を準備したのと同じ質問が提示されたり、ある特

定のトピックに関してだけ得意だったりした場合)、スピーキング能力が高めだが、ある数個の易しい

タスクについて低い点を取っている場合 (例:テストのどこかで実力を発揮しなかった場合) などが考

えられる。受験者のタスクごとの元スコアを見直して原因を特定し、テストとして問題がないかを確

認する必要がある。

(9) ルーブリックのレベルは十分に弁別されているか

ルーブリックの診断を行う過程で、この研究課題に答えていく。Bond and Fox (2015, pp. 222–226)

によると、表 14 にある 4 つの性質を満たすのがよい。

表 13 カテゴリー統計値

注:Rasch-Thurstone Thresholds Measure:あるカテゴリーを取る確率が 50%になるところ (Rasch-

half point thresholds)。例えば、レベル 2 を取る確率が 50%になるのは-10.35。

変数マップ (variable map) の右の Scale に示される---は、Expectation Measure at -0.5 の値。レベ

ル 2 と一致するのは-9.17、1.5 と対応するのは-10.48 (Linacre, 2013, p. 202)

Page 27: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

26

図 6 確率曲線 (Probability Curves)

表 14 ルーブリックの診断観点と結果

(1) 敷居 (threshold) の難易度推定値が、レベルが上がるにつれて上がっている。各レベルに少な

くとも 10 個の採点が含まれている

・Rasch-Andrich Thresholds Measure: 敷居の値。図 6 で、線同士が交わったところの値。例

えば表 13 では、レベル 1 と 2 で等しい確率になる位置が-10.26

・今回の結果:レベルが上がるにつれて上がっていた。一番使用頻度が少なかったレベルはレベ

ル 9 の 191 個であり、各レベルに少なくとも 10 個の採点が含まれていた。そのため、この基準

は満たしていた。

(2) 敷居 (またはステップ) の間の差 (= 距離) について、隣のレベル同士の距離が 1.4 ロジット以

上、5.0 ロジット未満である。

・今回の結果:レベル 1 と 2 の距離が 10.26、2 と 3 の距離が 2.16 (= -8.1 - (-10.26))、3

と 4 の距離が 3.57、4 と 5 の距離が 3.98、5 と 6 の距離が 3.22、6 と 7 の距離が 2.36、7 と 8

の距離が 1.81、8 と 9 の距離が 2.06。全て 1.4 ロジット以上だったが、レベル 1 と 2 の距離が

10.26 と、5.0 ロジットを超えていた。レベル 1 と 2 の差は大きいため、この結果は避けられな

いかもしれない。全体的にはこの基準は満たしていた。

(3) 確率曲線 (probability curve) において、それぞれのレベルにはっきり頂上がある。

・今回の結果:図 6 を見ると、レベル 2 と 7 の頂上は低めではあるものの、各レベルに頂上が

あり、条件を満たしていた。

(4) レベルの適合度統計 (level fit statistics) は平均で 1.0 であるが、2.0 より大きい値の場合には

Page 28: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

27

ラッシュモデルが予測する評価パターンからかなり離れていると判断され、問題である。

・今回の結果:全て 1.6 以内であり、基準を満たしていた。

もし 4 点の基準を一つでも満たさないものがあれば、隣接するレベルを合わせてレベルを減らす、

レベルにおける記述子を修正するなどの修正を行うか、採点者を変更するか、採点者訓練を改善して

よりレベル分けができるようにするなどの対処が必要であるが、今回の結果では基準をほとんどすべ

て満たしていたことから、それは必要ないと思われる (表 5 の得点化の推論における B5・C7 の証拠。

ルーブリックの十分な弁別と十分なパフォーマンスの違いの特定。また、表 9 の決定の推論における

1 の証拠。ルーブリックによる、受験者の十分な弁別)。

(10) ルーブリックは受験者を十分に弁別できているか

表 11 の受験者の層 (strata) を見ると 8.64 で、約 8 のため、TSST で受験者を 8 グループのスピー

キング能力に分けることができていた。これは TSST が 9 レベルを設けており、レベル 9 の受験者は

少ないことを考えると適切だったと考えられる (表 5 の得点化の推論における B6 の証拠。ルーブリッ

クのレベルの弁別。表 9 の決定の推論における 1 の証拠。ルーブリックによる、受験者の十分な弁別)。

(11) 採点者とタスク、採点者と受験者、タスクと受験者の間に偏った評価傾向は見られるか

バイアス分析を行い検討した。Facets のバイアス分析のアウトプットの z 値 (現在のアウトプット

では t 値; Linacre, 2013, p. 212) を参照し、それが|±2.00|を超えた%を調べた。表 15 を見ると、

採点者と受験者の組み合わせでは、9.33%の偏った採点傾向が見られた。これは、ある特定の受験者を

より甘く、またはより厳しく採点していたケースが 9%ほどあったことを示す。採点者とタスクの組み

合わせでは、4.10%の偏った採点傾向が見られた。ある特定のタスクをより甘く、またはより厳しく採

点していたケースが 4%ほどあったということである。受験者とタスク点の組み合わせでは、3.73%の

偏った傾向が見られた。どの割合も 10%以内で、大きな問題にはならないと考えられる (表 5 の得点

化の推論における C14・C16 の証拠。バイアス分析結果)。しかし、今後の改善のためにはこの偏りが

見られたケースを吟味し、その理由の特定を行い、改善策を考える方がよい。また、採点者に関して

は、定期的な訓練の際などにバイアス分析の結果を提示し、自分の採点傾向に気づき、改善するよう促

すことが重要である。

表 15 バイアス分析のまとめ

採点者 x 受験者 採点者 x タスク 受験者 x タスク

|±2.00|を超えた% 9.33% (1,512/16,205) 4.10% (545/13,286) 3.73% (2,011/53,923)

Page 29: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

28

5 まとめと今後の課題

第 4 章で、TSST の妥当性に関する証拠を挙げてきた。まとめると以下になる。

・得点化 (evaluation) の推論においては、11 個の前提に対し、6 個の証拠を提示できた。

・一般化 (generalization) の推論においては、8 個の前提に対し、6 個の証拠を提示できた。

・説明 (explanation) の推論においては、7 個の前提に対し、4 個の証拠を提示できた。

・外挿 (extrapolation) の推論においては、7 個の前提に対し、5 個の証拠を提示できた。

・決定 (decision) の推論においては、3 個の前提に対し、1 個の証拠を提示できた。

・波及効果 (consequence) の推論においては、4 個の前提に対し、1 個も証拠を提示できなかった。

6 つの推論の中では、波及効果以外の推論に関しては何らかの証拠が挙げられていた。5 つの推論に

ついては、証拠の数も半分以上と多いため、妥当性検証としては進んだ状態である。さらに、採点など

のプロセスについては、検証がされていなかった。そのためプロセスと波及効果に関する検討が今

後の課題である。また、それぞれの推論でまだ検証されていない点 (表で で示した点) は各推論に

おいて数個あり、重要なものから順に検証していく必要があろう。また、既に行っていて公表していな

いだけの点があれば、それを文書化してできるだけ公開することも求められる。なお、表 6 の一般化

の推論における A4 の「再テスト法による信頼性の検証」は現在行っているところである。

妥当性論証としては、証拠が集まってきているものの、まだ抜けた部分もあり、TSST の妥当性を

強く論証するには証拠が十分ではない状態と考えられる。

テスト機関には、テスト得点の解釈や使用法が適切かを調べ、妥当性検証報告書として詳細をテス

ト使用者に公表する責任がある (American Educational Research Association, American

Psychological Association, & National Council on Measurement in Education, 2014; Japan

Language Testing Association Steering Committee & JLTA Language Testing Terminology

Committee, 2006)。しかし、日本のテストにおいては、妥当性検証の結果が報告されていることが少

なく、遅れていると言える。TSST について、今回の報告書で多くの妥当性の証拠が公表されたことは、

大きなステップである。今後多くのテストについて情報公開がなされることを期待したい。

引用文献

アルク教育総合研究所 (2016a). 『日本の高校生の英語スピーキング能力実態調査 I―3 年間追跡調査

における 1 年目調査レポート―』 (アルク英語教育実態レポート, Vol. 6). 東京:アルク教育総合

研究所. Retrieved from http://www.alc.co.jp/company/report/

アルク教育総合研究所 (2016b). 『日本人の英語スピーキング能力―リスニング・リーディング力との

関係性に見る英語運用能力の実態―』 (アルク英語教育実態レポート, Vol. 7). 東京:アルク教育

総合研究所. Retrieved from http://www.alc.co.jp/company/report/

American Council on the Teaching of Foreign Languages (ACTFL). (2012). ACTFL Oral

Proficiency Interview familiarization manual. Retrieved from

https://www.languagetesting.com/oral-proficiency-interview-opi

Page 30: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

29

American Council on the Teaching of Foreign Languages (ACTFL). (n.d.). Oral proficiency

assessments (including OPI and OPIc). Retrieved from https://www.actfl.org/professional-

development/assessments-the-actfl-testing-office/oral-proficiency-assessments-including-opi-

opic

American Educational Research Association (AERA), American Psychological Association, &

National Council on Measurement in Education. (2014). Standards for educational and

psychological testing. Washington, DC: AERA.

Bachman, L., & Palmer, A. (2010). Language assessment in practice. Oxford University Press.

Barkaoui, K. (2013). Multifaceted Rasch analysis for test evaluation. In A. Kunnan (Ed.), The

companion to language assessment (Vol. III: Evaluation, Methodology, and Interdisciplinary

Themes, Part 10: Quantitative analysis, pp. 1301–1322). West Sussex, UK: John Wiley & Sons.

doi:10.1002/9781118411360.wbcla070

Bond, T. G., & Fox, C. M. (2015). Applying the Rasch model: Fundamental measurement in the

human sciences (3rd ed.). New York, NY: Routledge.

Chapelle, C. A., Enright, M. K., & Jamieson, J. M. (Eds.). (2008). Building a validity argument for

the Test of English as a Foreign Language.™ New York, NY: Routledge.

Eckes, T. (2011). Introduction to many-facet Rasch measurement: Analyzing and evaluating rater-

mediated assessments. Frankfurt am Main, Germany: Peter Lang.

Educational Testing Service. (2011). Reliability and comparability of TOELF iBTTM scores. TOEFL

iBTTM research insight (Series I, Vol. 3). Princeton, NJ: Author. Retrieved from

https://www.ets.org/research/policy_research_reports/publications/periodical/2011/isje

Fulcher, G. (2003). Testing second language speaking. Essex, U.K.: Pearson Education Limited.

平井明代 (2015). 「授業を活かすストーリーリテリング・テストの活用」 『大塚フォーラム』, 33, 49–

69. 以下から入手可能:https://tsukuba.repo.nii.ac.jp/?action=pages_view_main&active_action=

repository_view_main_item_detail&item_id=36432&item_no=1&page_id=13&block_id=83

平井明代・飯村英樹 (2017). 「測定と評価―妥当性と信頼性」 平井明代 (編著)『教育・心理系研究の

ためのデータ分析入門―理論と実践から学ぶ SPSS 活用法』 (pp. 1–19) 東京:東京図書

Hirai, A., & Koizumi, R. (2009). Development of a practical speaking test with a positive impact on

learning using a story retelling technique. Language Assessment Quarterly, 6, 151–167.

doi:10.1080/15434300902801925

Hirai, A., & Koizumi, R. (2013). Validation of empirically derived rating scales for a Story Retelling

Speaking Test. Language Assessment Quarterly, 10, 398–422.

doi:10.1080/15434303.2013.824973

今井裕之・吉田達弘 (2007) 『HOPE:中高生のための英語スピーキングテスト』 東京:教育出版

和泉絵美・内元清貴・井佐原均 (編) (2004). 『日本人 1200 人の英語スピーキングコーパス』

東京:アルク

Japan Language Testing Association (JLTA) Steering Committee & JLTA Language Testing

Terminology Committee. (2006). The JLTA bilingual list of language testing terms. The JLTA

Page 31: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

30

Code of Good Testing Practice. Nagano: JLTA Secretariat. Retrieved from

https://jlta.ac/?page_id=35

Kane, M. T. (1992). An argument-based approach to validity. Psychological Bulletin, 12, 527-535.

doi:http://dx.doi.org/10.1037/0033-2909.112.3.527

Kane, M. T. (2006). Validation. In R. L. Brennan (Ed.), Educational measurement (4th ed., pp. 17–

64). Westport, CT: American Council on Education and Praeger.

金子恵美子 (2004). 「スピーキングテストの並存的妥当性 (concurrent validity) の検証:直接テスト

SST と半直接テスト T-SST における検証」日本言語テスト学会第 8 回全国研究大会口頭発表. 於:

麗澤大学

Kiddle, T., & Kormos, J. (2011). The effect of mode of response on a semidirect test of oral proficiency.

Language Assessment Quarterly, 8, 342–360. doi:10.1080/15434303.2011.613503

小泉利恵 (2017). 「テストに必要な要素:妥当性、信頼性、実用性」 小泉利恵・印南洋・深澤真 (編).

『実例でわかる 英語テスト作成ガイド』(pp. 55–59) 東京:大修館書店

Language Testing International. (2017). ACTFL Speaking Assessment: The Oral Proficiency

Interview® (OPI). Retrieved from https://www.languagetesting.com/oral-proficiency-interview-

opi/

Linacre, J. M. (2013). A user’s guide to FACETS: Rasch-model computer programs (Program

manual 3.71.0). Retrieved from http://www.winsteps.com/a/facets-manual.pdf

Linacre, J. M. (2014). Facets: Many-Facet Rasch-measurement (Version 3.71.4) [Computer

software]. Chicago: MESA Press.

McNamara, T. (1996). Measuring second language performance. Essex, U.K.: Addison Wesley

Longman Limited.

Messick, S. (1989). Validity. In R. L. Linn (Ed.). Educational Measurement (3rd ed., pp. 13–103).

New York, NY: National Council on Measurement in Education/American Council on Education.

Messick, S. (1996). Validity and washback in language testing. Language Testing, 13, 241–256.

doi:10.1177/026553229601300302

水本篤 (2014). 「測定の妥当性と信頼性」 竹内理・水本篤 (編) 『外国語教育研究ハンドブックー研

究手法のより良い理解のために』(改訂版, pp. 17–31). 東京:松柏社

Mizumoto, A. (n.d.). langtest.jp. Retrieved from http://langtest.jp/shiny/two/

Knoch, U., & Chapelle, C. A. (in press). Validation of rating processes within an argument-based

framework. Language Testing. doi:https://doi.org/10.1177/0265532217710049

荻野香織 (2002). 「英語スピーキング能力テスト SST とは何か」 『早稲田大学オーラルコミュニケ

ーション研究所研究報告書』(pp. 2–9). 東京:早稲田大学オーラルコミュニケーション研究所

Qian, D. D. (2009). Comparing direct and semi-direct modes for speaking assessment: Affective

effects on test takers. Language Assessment Quarterly, 6, 113–125.

doi:http://dx.doi.org/10.1080/15434300902800059

Yoffe, L. (1997). An overview of the ACTFL proficiency interview: A test of speaking ability? Shiken:

JALT Testing & Evaluation SIG Newsletter, 1(2), 2–13. Retrieved from

Page 32: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

31

http://hosted.jalt.org/test/yof_1.htm

Zhou, Y. (2015). Comparing ratings of a face-to-face and telephone-mediated speaking test. JACET

Journal, 59, 33–52.

本報告書の推奨引用方法

小泉利恵・アルク教育総合研究所 (2017). 『Telephone Standard Speaking Test (TSST) の妥

当性検証』 (アルク英語教育実態レポート, Vol. 10). 東京:アルク教育総合研究所

Page 33: アルク英語教育実態レポート...2017/11/14  · アルク英語教育実態レポート Vol. 10 [2017年11月] Telephone Standard Speaking Test (TSST) の妥当性検証

32

◆連絡・問い合わせ先◆

株式会社アルク

アルク教育総合研究所

東京都千代田区九段北 4-2-6 市ヶ谷ビル 5F

Email: [email protected]