joptシンポジウム2016 口頭英語能力テストの現状...

20
JOPTシンポジウム2016 口頭英語能力テストの現状と課題: TOEFL iBT® を中心に 早稲田大学教育・総合科学学術院 教授 澤木 泰代 2016322キャンパスプラザ京都 1

Upload: others

Post on 23-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

JOPTシンポジウム2016

口頭英語能力テストの現状と課題:TOEFL iBT® を中心に

早稲田大学教育・総合科学学術院

教授 澤木 泰代

2016年3月22日 キャンパスプラザ京都

1

Page 2: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

本日の予定

TOEFL iBT®とは

テスト妥当性の論証の枠組み(Chapelle et al., 2008)

TOEFL iBTの妥当性論証

タスク・デザインと採点基準(scoring rubrics)

採点手順、採点者と採点結果の信頼性

スコア解釈

母語(L1)の採点結果への影響

TOEFL iBTスピーキング・セクションが測る英語スピーキング能力

スピーキング練習における自動採点システム(SpeechRaterSM)の利用

今後の課題(TOEFL iBTが測るスピーキング力、採点方法について)

2

Page 3: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

TOEFL iBTとは

英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

4セクション構成(Reading, Listening, Speaking & Writing)

海外でのTOEFL iBTスコア利用

高等教育機関(短大、大学、大学院)への留学生受け入れ

International teaching assistants (ITAs) 採用(スピーキング)

日本でのTOEFL iBTスコア利用(国際教育交換協議会 [CIEE], 2012)

短大・大学院における入試や単位認定

教育委員会による英語教職員採用

3

Page 4: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

TOEFL iBTスピーキング・セクション

インターネットの利用(ヘッドセットとマイクを使用)

6つのモノローグ・タスク(全体で約20分)

試験時間内を通してノートを取ることが可能

No. タスク 準備時間 解答時間

1 INDEPENDENT: Speak 15秒 45秒

2 INDEPENDENT: Speak 15秒 45秒

3 INTEGRATED: Read + Listen + Speak 30秒 60秒

4 INTEGRATED: Read + Listen + Speak 30秒 60秒

5 INTEGRATED: Listen + Speak 20秒 60秒

6 INTEGRATED: Listen + Speak 20秒 60秒

4

(TOEFL iBT test questions [http://www.ets.org/Media/Tests/TOEFL/pdf/SampleQuestions.pdf] 参照)

Page 5: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

テスト妥当性の論証

近年の論証に基づいたテスト妥当性理論検証の枠組み (argument-based

approaches to test validation) の採用

様々な方向から特定のテストについて組織的に検証することによって、テストの妥当性を論証

テストの妥当性

結果の利用とその影響テストに基づく

意思決定

タスク・デザイン

テストが測る能力

測定の質採点方法

5

Page 6: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

Evaluation(評価)

Generalization(一般化)

Extrapolation(推定)

Domain definition(領域の定義)

Explanation(説明)

Utilization(利用)

TOEFL iBTの妥当性論証の枠組み(Chapelle, Enright & Jamieson, 2008)

TOEFL iBTの妥当性の論証に必要となる6つの推論(inferences)

実証研究や理論に基づき一つの推論について十分なサポートが得られたら次の推論の検証へ

(Chapelle et al., 2008; ETS, 2011b)

6

(Chapelle et al., 2008, p. 18を基に作成)

Page 7: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

タスク・デザイン(推論1 領域の定義; Chapelle et al., 2008)

学業の様々な場面で英語スピーキング力が必要

教室で

意見を言い、その理由などを説明する

過去の経験について話す 人や事象、できごとなどを描

写する(例:ディスカッション、発表、読んだ内容についての議論)

教室以外の大学施設や生活の場で

意見を言い、その理由などを説明する

原理や信条などを話す あらゆる身近な内容について提

案をする

テスト・タスクが目標言語使用領域や重要な言語使用タスクの特徴とかみ合っているか

(ETS, 2006, p. 33)

7

Page 8: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

各スピーキング・タスクで測る力 (ETS, 2006, p. 31)

Tasks 1 & 2 (Independent tasks):自分の経験、意見や考えに基づいて話す力(受験者に馴染み深い様々なトピックについて)

Tasks 3 & 4 (Reading/listening/speaking tasks):読んだことや聴いたことをまとめて話す力(大学生活と講義内容について)

Tasks 5 & 6 (Listening/speaking tasks):聴いたことについて話す力(大学生活と講義内容について)

タスク・デザイン(推論1 領域の定義; Chapelle et al., 2008)

8

Page 9: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

採点基準(推論2 評価; Chapelle et al., 2008)

TOEFL iBTスピーキング採点基準:

http://www.ets.org/s/toefl/pdf/toefl_speaking_rubrics.pdf

総合的採点基準(ETS, 2006, p. 36)

意図した内容をどの程度うまく伝えられるかに関する総合評価

言語的な質と談話の特徴に注目

Independent taskとintegrated taskで採点基準は異なる(観点は共通)

General description

Delivery(話し方)

Language use(言語使用)

Topic development(話の展開) *タスクタイプにより違いあり

素点(各タスク0-4点x6タスク)を尺度点(0-30)に換算

評価基準に基づいて算出したスコアが、テストの構成概念を測るうえで適切か

9

Page 10: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

TOEFL iBT

Scoring

rubrics

Topic

Development

Language Use

Delivery

Fluency

Intonation

Rhythm

Pronunciation

Content relevance

Idea progression

Coherence

Grammar

VocabularyPrecision

Sophistication

Diversity

Range

Complexity

Accuracy

(Xi et al., 2008,

Figure 4を基に作成)

採点基準(推論2 評価; Chapelle et al., 2008) 10

Page 11: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

採点の一貫性(推論3 一般化; Chapelle et al., 2008)

タスクの数(2 independent + 4 integrated tasks)と採点者数:一般化可能性理論による分析結果などを基に決定(Lee, 2006)

採点者:主に米国在住の英語母語話者(Xi & Mollaun, 2011)

スピーキング・セクションの信頼性

Generalizability coefficient = 0.88, SEM = 1.62 (ETS, 2011a)

スピーキング・タスクの一貫性確保のための施策(ETS, 2011a)

タスク・デザインの一貫性の保持(詳細なテスト細目とパイロット・テスト)

徹底した採点者のトレーニングとモニタリング(Online Scoring Network)

タスク間や採点者間での採点結果比較

テストにおいてどの程度一貫した採点結果が得られるか(テスト冊子、タスク、受験会場、採点者間など)

11

Page 12: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

母語を反映したアクセントの採点結果への影響:先行研究結果は様々

Xi & Mollaun (2011): インド在住の採点者(バイリンガルあるいは多言語話者)用の特別な採点者トレーニング・プログラムがTOEFL iBTスピーキング・タスク採点結果の一貫性に与える影響を検証

対象:インド在住の英語バイリンガル(26名)

手法:特別な採点者トレーニングを受けるグループと、ETSの通常の採点者トレーニング・プログラムを受けるグループ間で採点結果の一貫性を比較

結果:特別なトレーニングを受けたグループの総じて高い一貫性(ETS認定の通常の採点者と同程度)

採点の一貫性(推論3 一般化; Chapelle et al., 2008) 12

Page 13: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

TOEFL iBTで測るスピーキング能力(推論4 説明 & 推論5 推定;Chapelle et al., 2008)

モノローグのタスク形式への懸念:インタラクションを含まないタスク・デザインで、学業に必要なスピーキング力を十分に測ることができるか

Ockey, Koyama, Setoguchi & Sun (2015): TOEFL iBTスピーキング・スコアと大学でのスピーキング・タスクとの関係に関する研究

対象:日本の私立大学生222名

結果:

各タスクとの相関:グループ口頭ディスカッション、図表描写、口頭プレゼンテーション)との強い相関

各評価基準との相関:発音、流暢さ、語彙・文法 > インタラクション能力、描写スキル、発表のしかた(delivery skill)

得られたテスト・スコアは構成概念を十分反映したものであるかテストの構成概念がどの程度実生活に必要な英語力と結びついたものであるか

13

Page 14: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

TOEFL iBT受験準備教材における自動採点システム(SpeechRater)の活用

SpeechRater:ETSが開発した、英語非母語話者の英語自由発話を採点するための自然言語処理自動採点システム

現在はTOEFL iBT受験準備教材(TOEFL® Practice Online)でスピーキング・タスク解答の採点に利用

Xi, Higgins, Zechner & Williamson (2008): SpeechRater v1.0

TOEFL iBTスピーキング・セクション採点基準のうち、Deliveryを中心に、Language Useの一部もカバー

29のスコアリング・モデル用変数の候補(うち多くがFluencyに関する変数)から、human rater のスコアを予測するための様々な回帰モデルを作成

14

Page 15: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

TOEFL iBT採点基準とSpeechRater v1.0との比較

(Xi et al., 2008)

TOEFL iBT

Scoring

rubrics

Topic

Development

Language Use

Delivery

Fluency

Intonation

Rhythm

Pronunciation

Content relevance

Idea progression

Coherence

Grammar

VocabularyPrecision

Sophistication

Diversity

Range

Complexity

Accuracy

15

(Xi et al., 2008,

Figure 4を基に作成)

Page 16: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

TOEFL iBT受験準備教材における自動採点システム(SpeechRater)の活用

Xi et al. (2008): SpeechRater v1.0

TOEFL Practice Onlineデータの相関分析結果(6タスクの合計点):

Human score x SpeechRater score Pearson’s r = 0.57

Human score x Human score Pearson’s r = 0.74

より幅広い能力レベルをカバーするField Studyデータでは、Human score とSpeechRater scoreの相関は上昇(Pearson’s r = 0.68)

TOEFL iBT採点基準を網羅はしていないが、Delivery, Language Use, Topic Developmentの3つの採点基準間の高い相関を反映すると考えられる

結論:正規のTOEFL iBTテストではなく、テスト受験準備など利害関係が低いコンテクストでの利用は適切

16

Page 17: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

今後の課題: 口頭英語力テストがはかるスピーキング力

タスク・デザインの面から

TOEFL iBTスピーキング・セクションと他のタスク形式によるテストとの関係性に関する研究の継続(e.g., Ockey et al. 2015)

インタラクションをどうテストするか

English as a lingua franca(ELF)コミュニケーションの観点から(e.g., accommodation strategies; Canagarajah, 2009; Jenkins, 2006)

テクノロジーの観点から(e.g., virtual reality)

17

Page 18: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

現状と課題:口頭英語力テストがはかるスピーキング力

採点方法の面から

自動採点プログラムの充実(SpeechRaterでカバーする採点基準の充実)

L1アクセントの採点結果への影響に関する更なる調査(採点者母集団の拡大?)

採点基準におけるNative speaker normの存在とELF

“…the ultimate argument for which standard and norm to use has to be based on the intended use of the test and the context in which the learners will be expected to use English for communication. Because the TOEFL iBTtest measures English language abilities required to handle academic studies in English-medium universities…, it adopts standard English norms by educated speakers in the evaluation of the writing or speaking… Therefore, nonnative raters would still be expected to evaluate performance on the TOEFL iBT Speaking section against standard English norms by educated speakers“ (Xi and Mollaun, 2011, p. 1223).

18

Page 19: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

参考文献

Canagarajah, S. (2009). Changing communicative needs, revised assessment objectives:

Testing English as an international language. Language Assessment Quarterly, 16, 229-242.

Chapelle, C. A., Enright, M. K., & Jamieson, J. M. (2008). Test score interpretation and use. In C.

A., Chapelle, M. K., Enright, & J. M. Jamieson (Eds.), Building a validity argument for the Test of

English as a Foreign Language™ (pp. 1-26). New York: Routledge.

ETS (2006). Propell™ workshop for TOEFL® iBT. Princeton, NJ: Author.

ETS (2011a). Reliability and comparability of TOEFL iBT scores (TOEFL iBT™ Research Insight

series, Series 1, Volume 3). Princeton, NJ: Author.

ETS (2011b). Validity evidence supporting the interpretation and use of TOEFL iBT™ scores

(TOEFL iBT™ Research Insight series, Series 1, Volume 4). Princeton, NJ: Author.

Jenkins, J. (2006). The spread of EIL: A testing time for testers. ELT Journal, 60(1), 42-50.

Lee, Y-.W. (2006). Dependability of scores for a new ESL speaking assessment consisting of

integrated and independent tasks. Language Testing, 23(2), 131-166.

19

Page 20: JOPTシンポジウム2016 口頭英語能力テストの現状 …jopt.jp/doc/symp2016/sawaki.pdfTOEFL iBTとは 英語で学業をこなすのに必要なアカデミック英語運用能力を測るテスト

参考文献

Ockey, G. J., Koyama, D., Setoguchi, E.,& Sun, A. (2015). The extent to which

TOEFL iBT speaking scores are associated with performance on oral language tasks

and oral ability components for Japanese university students. Language Testing,

32(1), 39-62.

Xi, X., Higgins, D., Zechner, K., & Williamson, D. M. (2008). Automated scoring

of spontaneous speech using SpeechRater v1.0 (ETS Research Report No.

RR-08-62). Princeton, NJ: ETS.

Xi, X., & Mollaun, P. (2011). Using raters from India to score a large-scale speaking

test. Language Learning, 61(4), 1222-1255.

国際教育交換協議会(CIEE)日本代表部TOEFL 事業部 (2012). 「TOEFL iBTスコア

利用実態調査報告書2012年版—大学編(入学試験・単位認定)・高等専門学校編(入学試

験・単位認定)」 東京:国際教育交換協議会(CIEE)日本代表部

20