次級量尺分數估計法應用於大型教育...

88
國立臺中教育大學教育測驗統計研究所理學碩士論文 指導教授:郭伯臣 博士 次級量尺分數估計法應用於大型教育 測驗情境之模擬研究 研究生:張宛婷

Upload: others

Post on 11-Oct-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

國立臺中教育大學教育測驗統計研究所理學碩士論文

指導教授:郭伯臣 博士

次級量尺分數估計法應用於大型教育 測驗情境之模擬研究

研究生:張宛婷 撰

中 華 民 國 九 十 七 年 六 月

I

摘要

本研究主要模擬實驗方式探討不同次級量尺分數(subscale score)計算方法

於不同情境中,單一測驗設計與等化測驗設計測驗分數之估計效果。此外,本研

究亦提出新的次級量尺分數計算方法,以比較不同次級量尺分數計算方法之差

異。

本研究使用模擬資料估計不同次級量尺分數計算方法之測驗分數估計誤

差,在單一測驗設計中考慮五個因素:1.次級量尺相關程度、2.施測人數、3.測驗

題型混合比例、4.次級量尺個數、5.次級量尺測驗長度;在等化測驗設計中考慮

四個因素:1.次級量尺相關程度、2.施測人數、3.定錨試題配置、4.等化估計方法。

研究結果發現︰

1. 本研究提出新的次級量尺計算方法,具有較佳之估計精準度;

2. 測驗分數估計誤差隨次級量尺相關程度增加而減少,且不受施測人數影

響;

3. 單一測驗設計中,測驗分數估計誤差隨測驗題型混合比例增加而減少、

隨次級量尺個數增加而增加及隨次級量尺測驗長度增加而減少;

4. 等化測驗設計中,測驗分數估計誤差不受定錨試題配置影響,且使用 IRT

等化估計法中的同時估計法其估計精準度優於 CTT等化估計法。

關鍵詞:大型測驗、測驗等化、次級量尺

II

Abstract

The purpose of this paper is to explore subscale scores estimation in two testing

design situations, single testing design and equating testing design. Additionally, two

new methods to estimate subscale scores are presented in this paper.

Using simulation data, this study investigates the accuracy of subscale scores

estimation for different methods of estimating subscale scores. In single testing design,

factors taken into consideration include the following: correlation between subscales,

sample sizes, ratio of CR/MC items, numbers of subscales, and test length. In equating

testing design, factors taken into consideration include the following: correlation

between subscales, sample sizes, collocation of anchor items, and equating methods.

The results show that:

1. New methods of estimating subscale scores are better than other methods.

2. The estimation error decreases as correlation between subscales increases ; however,

the sample sizes don’t impact the estimation error.

3. In single testing design, the estimation error decrease as ratio of CR/MC items

increase and the estimation error decrease as test length increase.

4. In equating testing design, the collocation of anchor items do not impact the

estimation error and the concurrent calibration method based on item response

theory has higher accuracy than equating calibration based on classical test theory.

Keywords: large-scale assessments, subscale scores, equating testing design

III

目錄 摘要 ............................................................................................................................. I 目錄 ...........................................................................................................................III 表目錄 ...................................................................................................................... IV 圖目錄 ........................................................................................................................V 第一章 緒論 ............................................................................................................ 1 第一節 研究背景與動機 .................................................................................. 1 第二節 研究目的.............................................................................................. 3 第三節 名詞釋義.............................................................................................. 4

第二章 文獻探討..................................................................................................... 5 第一節 試題反應理論...................................................................................... 5 第二節 次級量尺分數估計方法 ...................................................................... 7 第三節 測驗等化的意義與等化估計方法 ..................................................... 18

第三章 研究方法................................................................................................... 24 第一節 本研究提出之新次級量尺分數計算方法 ......................................... 24 第二節 研究步驟............................................................................................ 26 第三節 估計精準度........................................................................................ 32 第四節 研究工具............................................................................................ 33

第四章 研究結果................................................................................................... 34 第一節 單一測驗設計之估計結果 ................................................................ 34 第二節 等化測驗設計於 IRT等化估計方法之估計結果 ............................. 38 第三節 等化測驗設計於 CTT等化估計方法之估計結果 ............................ 40 第四節 等化測驗設計於定錨試題配置之結果 ............................................. 43 第五節 不同等化估計方法之綜合比較......................................................... 45

第五章 結論與建議 ............................................................................................ 48 第一節 結論 ................................................................................................... 48 第二節 建議 ................................................................................................... 49

參考文獻 .................................................................................................................. 51 中文部分 ........................................................................................................... 51 英文部分.................................................................................................................... 51

附錄一 單一測驗設計之誤差 RMSE.................................................................... 57 附錄二 等化測驗設計之誤差 RMSE.................................................................... 75

IV

表目錄 表 3-1 單一測驗設計之共同變項設定對照表 ...................................................... 28 表 3-2 等化測驗設計之共同變項設定對照表 ...................................................... 29

V

圖目錄 圖 3-1 研究步驟流程圖......................................................................................... 27 圖 4-1 單一測驗設計下不同次級量尺相關程度之 RMSE................................... 34 圖 4-2 單一測驗設計下不同施測人數之 RMSE .................................................. 35 圖 4-3 單一測驗設計下不同測驗題型混合比例之 RMSE................................... 36 圖 4-4 單一測驗設計下不同次級量尺個數之 RMSE .......................................... 37 圖 4-5 單一測驗設計下不同次級量尺測驗長度之 RMSE................................... 37 圖 4-6 IRT等化測驗設計下不同次級量尺相關程度之 RMSE............................ 38 圖 4-7 等化測驗設計下不同施測人數之 RMSE .................................................. 39 圖 4-8 REG在不同次級量尺相關程度之 RMSE ................................................. 40 圖 4-9 PC在不同次級量尺相關程度之 RMSE .................................................... 41 圖 4-10 REG在不同施測人數之 RMSE............................................................... 42 圖 4-11 PC在不同施測人數之 RMSE.................................................................. 42 圖 4-12 Bock定錨試題在相同次級量尺與不同次級量尺之 RMSE.................... 43 圖 4-13 OPI定錨試題在相同次級量尺與不同次級量尺之 RMSE...................... 43 圖 4-14 W-Bock定錨試題在相同次級量尺與不同次級量尺之 RMSE ............... 44 圖 4-15 REGP定錨試題在相同次級量尺與不同次級量尺之 RMSE .................. 44 圖 4-16 同時估計法與平均數等化法之綜合比較 ................................................ 45 圖 4-17 同時估計法與線性等化法之綜合比較 .................................................... 46 圖 4-18 同時估計法與等百分位數等化法之綜合比較 ........................................ 47

1

第一章 緒論 本研究根據試題反應理論(item response theory, IRT)中三參數logistic模式

(three-parameter logistic model, 3PL)與一般化部分給分模式(generalized partial

credit model, GPCM),以模擬實驗方式探討不同次級量尺分數(subscale score)

計算方法之差異;並探討不同次級量尺分數計算方法於單一測驗設計與等化測驗

設計中,其測驗分數估計之效果。本章將針對研究動機、研究目的與名詞釋義進

行闡述。

第一節 研究背景與動機 近年來,隨著資訊科技快速進步、測驗形式的改變及需求量的快速增加,大

型測驗(large-scale assessments)的議題廣泛受到矚目。大型測驗依其功能之不

同,大致可分為兩種類型,一為具有篩選功能之大型測驗,例如「國中基本學力

測驗(The Basic Competence Test for Junior High School Students)」、「大學學力

測驗(College Entrance Examination)」及「美國大學入學測驗(American College

Test, ACT)」等。這些大型測驗主要目的為測量學生的學科能力,提供學生於高

中入學或大學入學之依據。另一種為建立教育資料庫之大型測驗,例如「台灣教

育長期追蹤資料庫」(Taiwan Education Panel Survey, TEPS)」、「臺灣學生學

習成就評量資料庫(Taiwan Assessment of Student Achievement, TASA)」、「國

際數理趨勢研究(The Trends in International Mathematics and Science Study,

TIMSS)」、「國家教育進展評量(National Assessment of Educational Progress,

NAEP)」、「國際學生評量(Program for International Student Assessment, PISA)」

及「國際閱讀發展研究(Progress of International Reading Literacy Study, PIRLS)」。

這些大型測驗主要目的為建置一套完整且客觀的學生學習成就資料庫,並且藉由

例行性地學生資訊蒐集及統整,以追蹤學生學習的成果及分析其變遷趨勢,進而

2

檢視目前國家教育體制與政策實施是否完善。然而不管是具有篩選功能或是欲建

立教育資料庫之大型測驗,實施時常會遇到許多問題,例如:題庫(item bank)

建立、題本設計(booklet design)、資料收集設計(data collection design)、樣

本的設計(sample design)、通過標準設定、參數估計(parameter estimation)、

量尺化程序(scaling procedures)、分數量尺(score scale)之計算、次級量尺分

數之報告等。然而,這些問題大部分已經有許多相關且完整的研究報告及實施程

序的探討,例如:TEPS心理計量報告(楊孟麗、譚康榮、黃敏雄,2003)、The

NAEP 1998 Technical Report(Nance, John, & Terry, 2001)、TIMSS 2003 Technical

Report(Martin, Mullis, & Chrostowski, 2004)、National Indian Education Study 2007

Part I(Moran, Rampey, Dion, & Donahue, 2008),但卻無針對次級量尺分數之相

關研究及分析報告進行探討。因此,本研究的主要目的將著重於不同次級量尺分

數計算方法之研究。

測驗的整體分數通常使用來評斷個人等級,測驗的次級量尺分數通常有助於

教師評斷學生的特殊專長及弱點(Yen, 1987;Wainer, Vevea, Camacho, Reeve, Rosa,

Nelson, Swygert, & Thissen, 2000),這兩種分數提供受試者表現不同訊息重要度

之解釋。然而,若能直接測量學生各面向的能力,將會比由學生整體成績來預測

學生於各面向表現程度有較好的效果(Bock, Thissen, & Zimowski, 1997)。因此,

若能精準的估計次級量尺分數,便能有效提供受試者更多訊息,所以次級量尺分

數的報告亦為許多大型測驗所感興趣的問題(Kahraman & Kamata, 2004)。舉例

來說,2007臺灣學生國語文學習成就評量(TASA-LAN 2007),測驗內容包含字

詞測驗(如字音、字形及字義等)、語法句式測驗(如句型與語態的辨識、文法

與修辭的運用及標點符號、連接詞的使用等)及閱讀測驗(如閱讀方法與理解能

力運用)等(台灣學生學習成就評量資料庫,2007);PISA 2006數學能力測驗

(Mathematical Literacy in PISA 2006),測驗內容包含量數(quantity)、空間與

形狀(space and shape)、推論(reasoning)及不確定性(uncertainty)(PISA 2006)。

3

因此,可知藉由測驗的整體分數能了解學生的整體表現,而藉由測驗的次級量尺

分數報告則能呈現學生在字詞測驗、語法句式測驗及閱讀測驗等面向的優勢與劣

勢(以TASA-LAN 2007為例),不僅有助於個別化的學習指導,更能掌握學生各

面向的表現水準。

次級量尺分數計算通常會遇到試題數過少的問題,使得次級量尺分數估計誤

差大。因此,若測驗能有足夠多的試題來測量相同的次級量尺,則能精確的估計

次級量尺分數,且對於次級量尺分數之報告為可信的。然而,在真實情境中,次

級量尺之試題數通常很少,這是經常存在的問題(Pommerich, Nicewander, &

Hanson, 1999)。由上述能發現,最常使用來增加測驗分數估計精準度的方式為增

加試題數,但在大型測驗中,由於受試者接受的測驗可能包含許多次級量尺,為

避免試題數過多,導致學生無法於短時間內順利完成,試題數的不足被視為次要

的條件。

第二節 研究目的 雖然國外已有學者針對次級量尺分數之研究進行探討,但是國內部分目前尚

無相關研究,且並沒有研究比較這些方法使用於等化測驗設計。此外,本研究除

探討國外學者所提出的幾種常見的次級量尺分數計算方法外,亦提出新的次級量

尺分數計算方法。綜合上述,茲將本研究目的歸納如下:

一、 比較研究者提出之新的次級量尺分數計算方法,其測驗分數估計效果。

二、 單一測驗設計中,不同次級量尺分數計算方法於不同次級量尺相關程度、

施測人數、測驗題型混合比例、次級量尺個數及次級量尺測驗長度之估計

效果。

三、 等化測驗設計中,不同次級量尺分數計算方法於不同次級量尺相關程度、

施測人數、定錨試題配置及等化方法之估計效果。

4

第三節 名詞釋義

一、 次級量尺分數

次級量尺分數係指能測量之學生各面向的能力,這些面向可以為學習目標

(learning objectives)、子測驗(subtests)或是學習規範(learning standards),其

目的在提供各面向訊息。如數學科成就測驗包含測量、幾何及空間感、代數及函

數等。

二、 選擇題

選擇題(multiple choice items, MC items)的構成包含題幹(stem)、選項或可

能答案(options, possible answers, alternatives)、正確答案或最佳答案(correct

answer, best answer)及誘答(distractors, misleads, foils)。由命題者提出問題後要

求學生作反應,且通常只有一個正確答案(歐滄和, 2002),有一致且客觀的評分

方式,不是對就是錯。

三、 建構式反應測驗題

建構式反應測驗題(constructed response items, CR items)依據學生能自由發

揮程度,可以分成簡答題(short answer questions)、申論題(essay test)及研究

計畫。其作答為由受試者自由書寫,不受試題所提供選項的限制,但是仍然有客

觀的標準答案(歐滄和, 2002)。通常為人工閱卷,並無一致的評分方式,給分方

式可以為部份給分。本研究所使用的建構式反應測驗題為三點計分。

四、 單一測驗設計

單一測驗設計有別於等化測驗設計之測驗題型,係指一般測驗情境。本研究

之單一測驗設計有 MC 試題及由 MC 試題與 CR 試題組合而成之混合測驗試題

(mixed-format tests)。

5

第二章 文獻探討 本研究的目的在於探討不同次級量尺分數計算方法使用於單一測驗設計與等

化測驗設計之測驗分數估計效果。3PL模式與 GPCM為試題反應理論中常見之二

元計分模式與多點計分模式,故本研究次級量尺分數估計效果之模擬研究,使用

試題反應理論中 3PL模式與 GPCM。因此,本章文獻探討中,將介紹試題反應理

論、次級量尺分數計算方法、測驗等化的意義與等化估計方法。

第一節 試題反應理論 試題反應理論根據強勢假設(strong assumption)而來,認為受試者對試題反

應的正確性之期望值可用下式表示:

),()( AIfX =ξ (2.1)

其中, X 為試題反應的正確性; I為試題參數向量; A為能力參數向量。

式子(2.1)指 X 的期望值是由試題參數和能力參數所成之函數所決定的,

而且要進行測驗資料之分析時,IRT 模式必須符合單向性(unidimensionality)、

局部獨立(local independence)、非速度性(nonspeedness)及「知道-正確」假設

(“know-correct” assumption)四項基本的假設(Weiss & Yoes, 1991)。

由於試題反應理論涵蓋的範圍很廣,以下僅針對本研究所使用於二元計分模

式中的 3PL模式及多點計分模式中的 GPCM進行介紹(Baker, 1992;Hambleton &

Swaminathan, 1985;Mislevy & Bock, 1990;Muraki, 1992)。

一、 3PL模式

在 IRT中 3PL模式,假設能力值為 kθ 之受試者 k,作答試題 j通過的機率如

下:

)(exp1

)1(),,,|1( 1)(* kjbaD

jjjjjkj P

cccbaxP

jkjθθ θ ≡

+

−+== −− (2.2)

6

其中: jx 為受試者在試題 j中的作答反應(1為答對、0為答錯);

ja 為試題 j的試題鑑別度參數( item discrimination parameter),

∞<<∞− ja ;

jb 為試題 j的試題難度參數(item difficulty parameter), ∞<<∞− jb ;

jc 為試題 j的試題猜測度參數(item guessing parameter), 10 <≤ jc ;

D是一個量尺因素(scaling factor),通常 702.1=D 。

此模式假定測驗會發生猜題之現象(Birnbaum, 1968;Lord, 1980)。

二、 GPCM

GPCM是部分給分模式(partial credit model, PCM)的延伸,由Muraki(1992)

所提出,為各試題之間有不同的鑑別度參數。假定試題 j具有 jm 個等級類別

(graded categories),則 GPCM如下:

∑ ∑

∑ ∑

= =

=

= =

=

+−

+−

=

=jj m

c

c

vvjj

k

vvjj

m

c

c

vjvj

k

vjvj

jk

dba

dba

ba

baP

1 1

1

1 1

1

)(exp

)(exp

)(exp

)(exp)(

θ

θ

θ

θθ (2.3)

其中: 01 ≡d (此假設是為了在進行參數估計時,使其有一個相對原點),

kjjk dbb −= ;

θ為受試者能力值, ∞<<∞− θ ;

k為受試者回答所屬的類別,從 jm...1 ;

jm 為隨題目而變的變數,即試題 j所有的類別數;

)(θjkP 為能力值θ的受試者於試題 j得到第 ),,3,2( jmkk K= 類的機率,

)1)(0( << θjkP ;

7

vjjv dbb −= 為試題 j第 v個試題的步驟參數(item step parameter)或類

別閾參數(category intersection parameter),隨著類別界線(category

boundary)而變,相鄰在兩類別間,就有一個 jvb 參數, ∞<<∞− jvb ;

jb 為試題座標參數(item location parameter);

vd 為閾參數(threshold parameter);

kd 為同一試題內的第 k類和其他類別的相對難度;

ja 為試題 j的斜率參數(slope parameter),同一試題在各類別選項有相

同的斜率參數,但不同的試題有不同斜率。

第二節 次級量尺分數估計方法 一些相關研究論文提出準確的估計觀察分數(observed score)且可信賴之估

計方法(Yen, 1987;Yen, Sykes, Ito, & Julian, 1997;Bock, Thissen, & Zimowski,

1997;Pommerich, Nicewander, & Hanson, 1999;Wainer, Vevea, Camacho, Reeve,

Rosa, Nelson, Swygert, & Thissen, 2000;Gessaroli, 2004;Kahraman & Kamata,

2004;Tate, 2004;Shin, Ansley, Tsai, & Mao, 2005;Shin, 2006),這些方法是使用

測驗資料在不同次級量尺之間的附屬訊息,以進行次級量尺分數之估計。在此將

詳述三種次級量尺分數計算之方法,包含 Bock 方法(Bock method)、目標表現

指標方法(objective performance index method, OPI method)及回歸分數方法

(regressed score method, REG method)與正確率分數方法(proportion-correct

method, PC method)。

8

壹、Bock方法

Bock 方法是以試題反應理論模式來估計次級量尺分數,利用受試者測驗之

IRT量尺分數轉換成次級量尺分數,研究中定義 Bock方法之次級量尺 j測驗分數

為 jTIRT ,次級量尺分數估計如下式(Bock, Thissen, & Zimowski, 1997;Shin,

2006):

∑=

=jI

iij

jj n

TIRT1

)ˆ(1θε (2.4)

其中,i為試題; j為次級量尺; jI 為次級量尺 j中的試題數; jn 為次級量尺

j中最大可能分數; ∑=

−=iI

iij mn

1)1( , im 為試題 i之所有類別數;θ̂為受試者能力

估計值; )ˆ(θε ij 為受試者能力估計值為θ̂時,次級量尺 j在試題 i之答對率。

若為MC試題,則答對率如下式:

)ˆ()ˆ( θθε ijij p= (2.5)

以 1PL估計時,則)]b-ˆexp[-1.7(1

1)ˆ()ˆ(ijθ

θθε+

== ijij p (2.6)

以 2PL估計時,則)]b-ˆ(exp[-1.7a1

1)ˆ()ˆ(ijij θ

θθε+

== ijij P (2.7)

以 3PL估計時,則)]b-ˆ(exp[-1.7a1

c-1)ˆ()ˆ(

ijij

ij

θθθε

++== ijijij cP (2.8)

其中, ija 為試題鑑別度參數; ijb 為試題難度參數; ijc 為試題猜測度參數。

若為 CR試題,則期望分數為:

)ˆ()1()ˆ(1

θθε ijk

m

kij pk

i

∑=

−= (2.9)

9

因此,以 GPCM估計時,則∑ ∑

= =

=

=im

c

c

vijvij

k

vijvij

ijk

ba

baP

1 1

1

)ˆ(exp

)ˆ(exp)ˆ(

θ

θθ (2.10)

其中, v為分數水準指標; ijvb 為第 v個難度類別參數; k為目前計算之分數

水準。

貳、目標表現指標方法

目標表現指標方法(OPI 方法)為估計每個次級量尺試題的真實分數(true

score)。以選擇題的試題來說明,假設有 n題試題的測驗,包含 J個次級量尺, jn

為次級量尺 j中最大可能分數,且一個試題最多屬於一個次級量尺,而有些試題

不屬於任何次級量尺。若 jX 為次級量尺 j中觀察答對試題分數(observed

number-correct score),則定義 )n/X(ET jjj ≡ 。假設可以由受試者得到除了觀察分

數 jX 外之訊息,即指 jT的先驗分布(prior distribution),此額外的或是先驗訊息

(prior information),可能是受試者在學校的成績或是其他測驗的表現。在此定

義 OPI方法之次級量尺 j測驗分數為 jTOPI ,以下介紹 OPI方法(Yen, 1987):

1. 起始步驟

首先,假設給定一位受試者的情況下, jT之先驗分布為 ),( jj srβ ,如下式:

)!1()!1()1()!1(

)(11

−−

−−+=

−−

jj

sj

rjjj

j srTTsr

Tgjj

for 0,;10 >≤≤ jjj srT (2.11)

並假設給定 jT 時, jX 服從二項分布(binomial distribution),如下式(Yen &

Fitzpatrick, 2007):

10

jjj xnj

xj

j

jjjj TT

xn

TxXp −−

== )1()|( for 10;0 ≤≤≤≤ jjj Tnx (2.12)

根據式子(2.11)與(2.12)可知給定 jx 時, jT之後驗分布(posterior distribution)

為:

),()|( jjjjj qpxXTg β== (2.13)

其中, jx- jjjjjj nsqxrp +=+= 且 (2.14)

定義 OPI為後驗分布之平均數,jj

jjj qp

pTTOPI

+== ~ (2.15)

接著,詳述使用 OPI程序時, jT之先驗分布估計程序。

2. 估計先驗分布

以 n題試題選擇題的試題而言,測驗之試題參數估計是使用 3PL模式同時進

行估計,且假設有足夠多的樣本數估計試題參數。由式子(2.5)與(2.8)可知,

)ˆ(θε ij 為試題 i在次級量尺 j之答對率,令

∑=

=jn

iij

jj n

T1

)ˆ(1θε (2.16)

因此,若給定受試者能力θ̂之次級量尺 j,答對率的估計為:

∑=

=jn

iij

jj n

T1

)ˆ(1ˆ θε (2.17)

假設給定受試者能力估計值為θ̂,平均數為 )|ˆ( θµ jT 、變異數為 )|ˆ(2 θσ jT ,

則受試者分數之先驗分布為 )|ˆ( θjTg 。由式子(2.11),假設 jT 之先驗分布為

),( jj srβ ,故平均數及變異數能表達如下式(Novick & Jackson, 1974, p. 113):

11

jj

jj sr

rT

+=)|ˆ( θµ (2.18)

)1()()|ˆ( 2

2

+++=

jjjj

jjj srsr

srT θσ (2.19)

根據式子(2.18)與(2.19),可得,

*)|ˆ( jjj nTr θµ= (2.20)

*j ])|T̂(-1[ jj ns θµ= (2.21)

其中, 1-)|ˆ(

])|T̂(-1)[|ˆ(2

j*

θσ

θµθµ

j

jj T

Tn = (2.22)

使用 IRT模式下, )|ˆ(2 θσ jT 能由試題參數的觀點表達(Lord, 1983),

∑=

≈jn

iij

jj n

T1

)(1)|ˆ( θεθµ (2.23)

由於 jT為θ的單調轉化(monotonic transformation),得下式:

)|ˆ()|ˆ( 22jjj TTT σθσ = (2.24)

根據 Lord(1980, p.71),可知,

12 )ˆ,()|ˆ( −≈ jjjj TTITTσ (2.25)

其中, )ˆ,( jj TTI 為 jT̂ 提供給 jT 的訊息量,使用式子(2.24)、(2.25)及 Lord(1980,

p.85),可知下式:

2]/[)ˆ,(

)ˆ,(θ

θ

∂∂=

j

jjj T

TITTI (2.26)

∑=

=∂

∂ jn

iij

j

j

nT

1

' )(1θε

θ 且 (2.27)

12

其中,)1(

])()][(1[7.1)('

ij

ijijijijij c

cPPa−

−−=

θθθε (2.28)

根據 Lord(1980, p.79), )ˆ,()ˆ,( θθθ ITI j ≈ (2.29)

若基於 IRT 模式,以最大概似(maximum likelihood)程序求受試者能力值

估計值,根據 Lord(1980, p.74),如下式:

∑∑= = −

=J

j

n

i ijij

ijj

I1 1

2'

)](1)][([)]([

)ˆ,(θεθε

θεθθ (2.30)

若基於受試者答對試題分數,以最大概似程序求受試者能力值估計值,如下

式:

∑ ∑∑ ∑

= =

= =

−= J

j ijn

i ij

J

j

n

i ij

j

j

I1 1

21 1

'

)](1[)]([

])([)ˆ,(

θεθε

θεθθ (2.31)

式子(2.30)與(2.31)簡化先前的假設,即每個試題都屬於一個次級量尺;

若有些試題不屬於任何次級量尺,但卻有用來估計θ,這些試題提供之訊息量需

加入至式子(2.30)與(2.31)。

)ˆ,(

)(1

)|ˆ(

2

1'

2

θθ

θε

θσI

nT

jn

i ijj

j

≈∑ =

(2.32)

因此,若為建構式反應的試題,根據式子(2.9)可算出(Yen, Sykes, Ito, & Julian,

1997;Shin, 2006),

[ ]

{ }∑

=

=

−−=

−−=

i

i

m

kijijkij

m

kijijijij

pka

ka

1

22

1

'

)]ˆ([)ˆ()1(

)ˆ()1()ˆ()ˆ(

θεθ

θεθεθε (2.33)

13

∑ ∑

∑∑

∑∑

= =

=

=

=

=

=

−−=

−−

−−

=

−−=

CR i

CR

i

i

CR

i

n

i

m

kijijkij

n

iijijk

m

k

m

kijijkij

n

iijijk

m

k

ij

pka

pk

pka

pkI

1 1

222

1 2'

1

2

2

1

222

1 2'

1

2

2'

)]ˆ([)ˆ()1(

)]ˆ([)ˆ()1(

)]ˆ([)ˆ()1(

)]ˆ([)ˆ()1(

)]ˆ([)ˆ,(

θεθ

θεθ

θεθ

θεθ

θεθθ與

(2.34)

其中, CRn 為建構式反應試題的總試題數。

因此,根據式子(2.20)至(2.22)中, jT 的 beta 先驗分布(prior beta

distribution),能使用式子(2.17)去估計式子(2.23),與式子(2.28)、(2.30)、

(2.31)及(2.32)之 3PL模式下參數觀點表示。故利用式子(2.14),可知 jT 之

beta後驗分布(posterior beta distribution)參數值能由 IRT參數觀點表示如下:

jjjj xnTp += *ˆ (2.35)

jjjjj xnnTq −+−= *]ˆ1[ (2.36)

因此,jj

jjj

jj

jjj nn

xnTqp

pTTOPI

+

+=

+== *

*ˆ~ (2.37)

若以先驗分布 jT̂ 及觀察答對率分數 jj nx / 相對貢獻的觀點,則 OPI方法可以

寫成:

j

jjjjjj n

xwTwTTOPI )1(ˆ~ −+== (2.38)

其中, jw 為給定先驗分布之相對權重,如下式:

jj

jj nn

nw

+= *

*

(2.39)

14

必須注意的是,先驗估計的標準誤「式子(2.32)的開根號」趨近於 0時, jw 幾

乎會一致;反之,若 0* =jn ,則不給予先驗估計之權重。

3. 檢驗一致性

若 )(' θε ij 能用來描述試題反應,即使 IRT 模式能精確地描述受試者在試題上

的表現,受試者在次級量尺之試題反應可能是多向度的(multidimensional)。舉

例來說,一個特殊的受試者可以答對困難的題目,但是卻答錯簡單的題目;在這

個例子中,以先驗估計 jT̂ 及 jj nx / 表示之並不適當。在 OPI方法的計算程序中,

可利用下式來判斷受試者在各次級量尺中之先驗分布是否符合預期(Yen, 1987;

Yen, Sykes, Ito, & Julian, 1997)。

∑= −

=J

j jj

jj

jj

TT

Tnx

nQ

1

2

)ˆ1(ˆ

)ˆ( (2.40)

根據 Yen(1987, p. 7),若 )10. ,(2 JQ χ≤ ,指沒有落入拒絕區,表示 jT̂ 與 jj nx /

是適配的,則利用式子(2.35)至式子(2.37)來計算 OPI 方法;反之,若

)10. ,(2 JQ χ> ,表示 jT̂ 與 jj nx / 是不適配的,因此假設式子(2.35)、(2.36)與(2.37)

之 0* =jn 來計算 OPI方法。

參、回歸分數方法

回歸分數通常是使用原始分數來估計真實分數,Kelley 回歸分數(Kelley,

1927;1947),表示如下式:

)( )1( ˆ µρµµρρτ −+=−+= xx (2.41)

其中,τ̂為受試者真實分數; ρ 為群體受試者的測驗信度;

x為受試者的觀察分數;µ為群體受試者的平均分數。

15

而 Kelley’s回歸分數在估計真實分數時,可以表示如下式:

.)(.ˆ xxrx −+=τ (2.42)

其中, r取代式子(2.41)的 ρ; x.取代式子(2.41)的µ;

在此定義回歸分數方法(REG方法)之次級量尺分數為 TREG ,則式子(2.42)

以向量形式表達,可以表示如下式(Wainer, Vevea, Camacho, Reeve, Rosa, Nelson,

Swygert, & Thissen, 2000;Shin, 2006;Shin, Ansley, Tsai, & Mao, 2005):

.)(.ˆ xxBx −+==τTREG (2.43)

其中,x為次級量尺的測驗觀察分數;x.為群體受試者的平均觀察分數;B為

用來估計測驗信度之多變量矩陣。

矩陣B可視為一種權重,包含結合真實分數τ 與觀察分數 x之關係,若 IB = ,

則代表觀察分數是完全可信的,即觀察分數 x為真實分數的估計;若 0B = ,則代

表所有真實分數均可用平均分數 x.表示之。

根據式子(2.43)可知,若欲求真實分數的估計值,須先取得B值,定義 obsS

為不同次級量尺觀察分數的共變異矩陣(the observed covariance matrix),其對角

元素為各次級量尺觀察分數的變異數; trueS 為不同次級量尺真實分數的共變異矩

陣。

trueS 非對角元素為不同次級量尺成對真實分數的共變異數,由於誤差和真實

分數無關,則可知 '' jvjvjvjv xxσσ ττ = 。 trueS 對角元素為真實分數的變異數,2

τσ ; obsS

對角元素為觀察分數的變異數,2

xσ 。因此,可知 )/( 22x

obstrue SS σσ τ×= ,其中

22 / xσσ τ 為次級量尺的信度。根據此關係,能夠估計真分數的共變異矩陣, trueS 。

如下式:

obsvv

truevv

ss '' = for 'vv ≠ (2.44)

16

obsvvv

truevv

ss ρ=' for 'vv = (2.45)

其中,v、 'v為矩陣之元素;ρ為次級量尺的信度。本研究使用 Cronbach's α

係數(Cronbach's coefficient alpha)來計算次級量尺的信度。計算式子如下式

(Wainer, Vevea, Camacho, Reeve, Rosa, Nelson, Swygert, & Thissen, 2000):

ασ

σρ =−

−≥

∑= ]1[

1 21

2

'

x

n

iy

xx

i

nn (2.46)

上式假設 x測驗包含 n題試題 nyyy ,,, 21 K ; 'x測驗為 x測驗之複本測驗(alternate

form)。

因此,以矩陣形式表達時,根據式子(2.44)與(2.45)可知 trueS 與 obsS 的關

係為, DSS −= obstrue 。其中,D為對角矩陣,對角元素為誤差變異數之估計值,

故可得:誤差變異數 =觀察分數變異數 −× (1 信度 ),則D表示如下。

−⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅

⋅⋅⋅−⋅⋅⋅−

=

obsvvv

obs

obs

s

ss

)1(00

0)1(000)1(

222

111

ρ

ρρ

D (2.47)

接著,假定次級量尺為常態分布,以下舉例來說明估計程序。若假設有兩變

數 1y 及 2y ,服從多變量常態分布(multivariate normal distribution),則可知

∑∑∑∑

2221

1211

2

1

2

1 ,~µµ

Nyy

(Johnson & Wichern, 2007)。 (2.48)

因此,在給定 2y 下,變數 1y 可以表示如下式:

),)((~)( 12

1

22 211112

1

22 22121 ∑ ∑ ∑∑∑ ∑ −− −−+ µµ yyy (2.49)

故可知,給定任意值 2y ,變數 1y 的期望值與條件共變異矩陣,如下式:

17

∑ ∑ ∑ ∑ ∑∑ ∑ −− −=−+= )( 11 12

1

22 2112

1

22 22121 2)()( y|y1

yyy 與μμ|Ε (2.50)

根據上述標準化的結果,對於次級量尺估計問題,假設真實分數τ 和觀察分

數 x服從多變量常態分布,平均數為µ,可知,

∑∑∑∑

obstrue

truetrue

,~µµ

x (2.51)

由式子(2.50)知,給定觀察分數 jx 的條件下,受試者 j在次級量尺之真實

分數 jτ 為 )()() |( j1

j µµτ −+= −∑∑ xx obstruejE 。則真實分數估計的公式如下式:

.) (. ). ()(. ˆ jj1true xxBxxxSSx −+=−+== −obsTREG τ (2.52)

其中,以次級量尺之平均分數 .x 代替 µ; trueS 與 obsS 代替∑true與∑obs

1)( −= obstrue SSB 。

肆、正確率分數方法

正確率為在所有作答反應下答對次數的比例(Gummerman, 1972;Shin,

2006)。在此定義正確率分數(PC 方法)之次級量尺 j測驗分數為 jTPC 。計算

方式如下︰

j

jj n

xTPC = (2.53)

其中, j為次級量尺; jn 為次級量尺 j的最大可能分數; jx 為次級量尺 j的

總分(composite score)。

18

第三節 測驗等化的意義與等化估計方法

壹、測驗等化的意義與種類

測驗等化(test equating)是利用統計方法,將受試者在某一測驗的分數轉換

至另一測驗分數量尺,以比較兩測驗分數關係的過程(Kolen & Brennan, 1995)。

這些測驗的內容及難度都極為相似,為了用來測量相同的特質或能力,而等化之

目的乃是為了校準試題難度的差異而非測驗內容之差異,且等化之結果不會因為

時間和人的因素而改變其意義(Kolen & Brennan, 2004)。然而,等化必須滿足對

稱性(symmetry property)、相等性(equity properties)、團體不變性(group invariance

property)及測驗必須是單向度(unidimensionality of the tests)等性質,等化才能

進行(Angoff, 1971;Harris & Crouse, 1993;Lord, 1980;Petersen, Kolen, & Hoover,

1989;Hambleton & Swaminathan, 1985;Kolen & Brennan, 1995, 2004;Morris,

1982;Yen, 1983)。

而測驗等化依受試者之類型可分為水平等化與垂直等化兩種,茲介紹如下:

一、 水平等化

水平等化(horizontal equating)的實施是當某一種測驗有數種不同形式的題

本,而這些題本都是用來測量某一特質,且受試者的能力分布與試題難度又相似

時,為了要比較不同題本的分數,將透過等化程序建立題本之間的等化分數

(equating scores)。這些題本經由等化的過程,其測驗成績即可在相同的量尺上

進行比較(王暄博,2006;張鈺卿、張宛婷、郭伯臣與楊思偉,2007),例如:

托福、GRE的考試就有多種複本測驗,可以進行一年多次的考試機會。

二、 垂直等化

垂直等化(vertical equating)的實施是當某一種測驗有數種不同形式的題本,

而這些題本都是用來測量某一特質,但受試者的能力分布與試題難度卻不相同

19

時,為了要比較不同題本的分數,透過等化程序而建立題本之間的等化分數(王

暄博,2006;張鈺卿、張宛婷、郭伯臣與楊思偉,2007)。垂直等化之測驗,受

試者的能力是屬於不同年齡或年級的分配情形,如美國的加州成就測驗

(California Achievement Tests , CAT)、愛奧華基本技能測驗(Iowa Test of Basic

Skills)等,即利用垂直等化進行測驗分數間之連結。

貳、等化估計方法

測驗等化估計方法大致可分為古典測驗理論(classical test theory, CTT)等化

估計方法與 IRT 等化估計方法(王暄博,2006)。CTT 等化估計方法,是利用原

始總分進行等化,又以平均數等化(mean equating)、線性等化(linear equating)

及等百分位數等化(equipercentile equating)三種方法較為常見(Crocker & Algina,

1986)。然而 CTT等化估計方法在測驗實施上有其限制,故有了 IRT等化估計方

法的出現。

IRT 等化估計方法利用不同組群受試者的反應資料,推估試題參數值和能力

參數值,再經過連結(linking)的過程,將參數值轉化到同一量尺上。IRT 等化

估計方法包含同時估計法(concurrent calibration)及連結分開估計法(separate

calibration with linking)兩種(王暄博,2006)。在連結分開估計法中,包含平均

數法(mean method)、平均數與標準差法(mean and sigma method)、特徵曲線法

(characteristic curve method) (Haebara, 1980;Kolen & Brennan, 1995;Stocking

& Lord, 1983)。

一、 CTT等化估計方法

(一) 平均數等化

若有兩測驗(測驗X及測驗Y)要進行等化,平均數等化假設兩測驗的難度

差異相當於量尺分數上相差一個常數(王暄博,2006)。因此,平均數等化假設

20

兩測驗分數與各自平均數相差的值相等,如下式:

)()( YyXx µµ −=− (2.54)

其中, x為測驗X之特定分數; y為測驗Y之特定分數; )(Xµ 為測驗X的平

均數; )(Yµ 為測驗Y的平均數。

轉換式子(2.54),得下式:

)()()( YXxyxmY µµ +−== (2.55)

其中, )(xmY 代表使用平均數等化將分數 x轉換到測驗Y的分數量尺上。

(二) 線性等化

線性等化允許兩測驗的難度差異在量尺分數中有更多的變化,而不只是一個

常數的差距。舉例來說,線性等化允許在低能力受試者群中,測驗X難度比測驗

Y更難;但在高能力受試者群中,測驗X難度比測驗Y簡單。

線性等化假設分數若相等,則標準化分數須相等(Z分數),如下式:

)(

)()(

)(Y

YyX

Xxσ

µσ

µ −=

− (2.56)

其中, )(Xµ 及 )(Xσ 為測驗X的平均數與標準差; )(Yµ 及 )(Yσ 為測驗Y的

平均數與標準差。

轉換式子(2.56),得下式:

)(])(

)()[()( YX

XxYyxlY µσ

µσ +

−== (2.57)

其中, )(xlY 代表使用線性等化將分數 x轉換到測驗Y的分數量尺上。

(三) 等百分位數等化

等百分位數等化使用曲線來描述測驗與測驗間難度的差異,使得此方法比線

性等化更加普遍化(Kolen & Brennan, 2004)。此方法由 Braun及 Holland(1982)

提出,假設測驗X分數之百分等級與測驗Y分數有相同的百分等級,定義如下:

X 為測驗X分數的隨機變數, x指測驗X之特定分數;

21

Y為測驗Y分數的隨機變數, y指測驗Y之特定分數;

F為群體受試者在測驗X分數之累積分佈;

G為在相同群體受試者下,測驗Y分數之累積分佈;

Ye 為對稱等化函數,即測驗X分數轉換至測驗Y分數;

*G 為在相同母體受試者下, Ye 的累積分佈函數,即測驗X分數轉換至測驗Y

分數的累積分佈函數。

因此,等百分位數等化必須滿足, GG =* (2.58)

上式表示,在相同群體受試者下,測驗X分數變換成測驗Y分數的累積分布

等於測驗Y分數的累積分布。故當 X 和Y為連續隨機變數,則等百分數數等化函

數為(Braun & Holland, 1982), )]([)( 1 xFGxeY−= (2.59)

其中, 1−G 為G函數的反函數。

因此,假設 Xe 為對稱等化函數,即測驗Y分數轉換至測驗X分數;

*F 為在相同母體受試者下, Xe 的累積分佈函數,即測驗Y分數轉換至測驗X

分數的累積分佈函數。

根據對稱性質, )()(1 xexe YX =− ; )()(1 yeye xY =− (2.60)

可得, )]([)( 1 yGFyeX−= (2.61)

式子(2.61)為測驗Y分數轉換成測驗X分數之等百分位數等化函數,其中,

1−F 為F函數的反函數。

二、 IRT等化估計方法

(一) 同時估計

同時估計是利用多群組受試者及多份測驗題本的測驗資料同時進行分析,此

22

估計發展出一個 IRT的能力量尺,並使所有的估計值能用數字表達。當進行多群

組校正,將存在一個本質上的等化問題。因為存在許多不同的等化設計,不同的

等化設計可能需要一個不同的校正策略(calibration strategy)。經由校正程序後,

即能使得所有測驗之試題參數與受試者能力值在相同量尺上。其主要的原理是利

用較多的試題參數訊息,將欲進行等化之試題參數估計值同時對應於相同能力量

尺上,此方法利用了定錨試題之參數估計值(鑑別度參數、難度參數及猜測度參

數)及定錨試題參數估計值之變異數共變數矩陣(variance-covariance matrix)

(Mislevy & Bock, 1982;王暄博,2006)。

等化的過程中,利用定錨試題等化係數將不同測驗題本之試題參數估計值轉

化於相同的量尺上時,若所使用之等化係數估計值不甚正確,將產生等化標準

誤。然而,使用同時估計法則可避免此種缺點,並且能應用最多試題訊息來完成

等化。

(二) 連結分開估計

在 IRT模式下,不同測驗估計的試題參數量尺與受試者能力參數量尺呈現線

性關係,因此,在不等組的參數估計過程中,可利用連結分開估計將不同測驗之

估計結果連結至相同的量尺上,而此估計方法需要線性轉換的估計程序(Cook &

Eignor, 1991; Kolen & Brennan, 1995)。

連結分開估計是假設不同測驗量尺間符合線性關係,因此,目的為求得回歸

參數 A及B(regression parameters),舉例來說,量尺 I與量尺 J為三參數 IRT模

式中之不同量尺,則假設受試者能力參數與試題參數估計值在兩量尺之關係如

下:

IjJjIjJjIj

JjIiJi ccBAbbA

aaBA =+==+= , , , θθ (2.62)

其中,參數 A與B為一常數;

JjJjJj cba , , 為量尺 J第 j題的試題參數值;

23

IjIjIj cba , , 為量尺 I第 j題的試題參數值。

而在此量尺轉換過程中 c參數是獨立的(Kolen & Brennan, 2004)。

由式子(2.62)可得參數 A與B的另一表示方法,如下:

IiJiIjJjJj

Ij

IiIj

JiJj

IiIi

JiJi AAbbBaa

bbbb

A θθθθθθ

−=−==−

−=

−−

= ,*

*

*

* (2.63)

若以平均數及標準差呈現,參數 A與B可表示為:

)()()()(

,)()(

)()(

)()(

IJIJ

I

J

J

I

I

J

AbAbBaa

bbA

θµθµµµ

θσθσ

µµ

σσ

−=−=

=== (2.64)

其中, )( ),( ),( ),( IJIJ bbaa µµµµ 為量尺 I與量尺 J試題參數之平均數;

)( ),( JI bb σσ 為量尺 I與量尺 J試題參數之標準差;

)( ),( IJ θµθµ 為量尺 I與量尺 J受試者能力參數之平均數。

連結分開估計在進行測驗等化時,是先分別估計不同測驗之試題參數與受試

者能力參數,再利用不同測驗之定錨試題及線性轉換的估計程序,將不同測驗量

尺轉換在同ㄧ量尺上進行比較。常見的連結分開估計等化方法包含平均數法

( mean/mean transformation methods)、平均數與標準差法( mean/sigma

transformation methods)及特徵曲線法(characteristic curve transformation methods)

(Haebara, 1980;Stocking and Lord, 1983;王暄博,2006)。

然而,國內外許多文獻證實,同時估計法比連結分開估計法能獲得更較佳的

估計精準度(Kim & Cohen, 1998;陳煥文,2004),也有文獻直接指出,同時估

計法優於以線性技術為基礎之等化方法,如特徵曲線法等(Stocking & Lord,

1983;李源煌、楊玉女,2000)。因此,本研究等化測驗為使用同時估計法進行

等化參數之估計。

24

第三章 研究方法 本章分為四部份,首先介紹本研究提出之新的次級量尺分數計算方法,其次

介紹研究步驟及估計精準度,最後介紹研究工具。

第一節 本研究提出之新次級量尺分數計算方法 依據文獻探討,研究者整理出目前常用之次級量尺分數計算方法(以MC的

試題為例),如下。

1. Bock方法:次級量尺 j測驗分數為 ∑==

jI

iij

jj n

TIRT1

)ˆ(1θε ;

2. OPI方法:次級量尺 j測驗分數為j

jjjjjj n

xwTwTTOPI )1(ˆ~ −+== ;

3. REG方法:次級量尺測驗分數為

.) (. ). ()(. ˆ jj1true xxBxxxSSx −+=−+== −obsTREG τ ;

4. PC方法:次級量尺 j測驗分數為j

jj n

xTPC =

此外,本研究改良原先次級量尺分數計算之方法,開發兩種新的次級量尺分

數計算方法,詳細介紹如下:

一、 W-Bock方法

研究者擬以 Bock方法為基礎,引入「權重」之概念,也就是將題本 v之 IRT

量尺分數信度 vρ 的比重視為權重。因此,研究者定義次級量尺 j測驗分數為

j

jvjvj n

xTTWIRT )1(ˆ ρρ −+= (3.1)

其中, j為次級量尺; jn 為次級量尺 j中最大可能分數; jT̂ 為答對率分數,

25

由式子(2.46)可得; vρ 為題本 v之信度。

信度的概念是由 Green, Bock, Humphrey, Linn, & Reckase(1984)提出,計算公

式為 2

22 )()(

θ

θ

σθσσ

θρ e−= (3.2)

其中, 2θσ 為能力估計值的變異數, )(2 θσ e 為能力值測量誤差變異數

(measurement error variance)。

二、 REGP方法

根據 Wainer et al.(2000)提出之以 IRT 量尺分數為基礎之經驗貝氏回歸估計

(empirical Bayes regressed estimates based on IRT scale scores),研究者將此測驗

分數估計方法命名為 TREGP ,次級量尺測驗分數表示如下式:

x.)-B(xx.)x.x()S(Sx.ˆ jj1obstrue +=−+= −τ (3.3)

其中: jx 為受試者 j在次級量尺之 IRT估計分數;x.為次級量尺之平均分數。

因此,如同式子(2.44)至式子(2.47)可知 vρ 為次級量尺 v之 IRT量尺分

數信度,且]][[][

][2

vv

vv SEAverageVariance

Varianceθθ

θρ

+= (3.4)

並假設v

j*j

xx

ρ≈ ,如同 REG方法之觀察分數,且如同式子(2.44)與(2.45),

obsS 為 *jx 之共變量矩陣; trueS 之矩陣對角線元素會等於 obsS 乘上 IRT量尺分數信

度 vρ ,非對角線元素等於 obsS 之非對角線元素。

26

第二節 研究步驟 本研究根據上述所提之六種不同次級量尺分數計算方法,欲探討不同方法於

於單一測驗設計與等化測驗設計情境下,其測驗分數估計之效果。在研究步驟中

依次介紹本研究的研究流程、模擬實驗之變項設計、實驗設計及實驗步驟。

壹、 研究流程

根據文獻探討,Bock方法、OPI方法、REG方法及 PC方法,皆可用於次級

量尺分數之計算,加上本研究提出之新次級量尺分數計算方法,REGP 方法及

W-Bock 方法,共有六種不同次級量尺分數計算方法。因此,本模擬研究欲探討

不同方法於不同情境中,次級量尺分數計算之精準度。在單一測驗設計中,本研

究將比較六種次級量尺分數計算方法之測驗分數估計精準度;在等化測驗設計

中,由於 REG方法及 PC方法是以 CTT為基礎,故在等化上使用 CTT等化估計

方法,並且比較不同 CTT 等化估計方法之優劣;而其餘方法則使用現代測驗理

論等化估計方法。研究流程請參閱下方模擬實驗架構圖。

27

圖 3-1 研究步驟流程圖

貳、 模擬實驗之變項設計

一、 共同變項設定

本研究欲比較不同次級量尺分數計算方法對於測驗分數估計之精準度,且模

擬單一測驗設計與等化測驗設計兩種情境。茲將本研究的共同變項設定整理如表

3-1及表 3-2。

測驗題本設計

模擬受試者能力參數

實驗設計

文獻探討

單一測驗設計 等化測驗設計

單一題型 混合題型

使用不同方法估計分數精準度

產生模擬資料

使用不同方法估計

次級量尺分數

IRT等化 CTT等化

28

(一) 單一測驗設計

表 3-1 單一測驗設計之共同變項設定對照表

研究變項 變項設定 測驗題本長度 24題、36題及 72題 次級量尺測驗長度 6題、12題或 18題 題本次級量尺個數 2個、4個或 6個 次級量尺相關程度 大約 1.0、0.8、0.5及 0.2 次級量尺之 MCCR / 試題數比例 0、20%及 50% 受試人數 500、1000及 3000人 每一種情形模擬次數 100次

根據研究目的,本研究模擬不同的情境之測驗資料。單一測驗設計之參數估

計使用 PARSCALE軟體;模擬資料的產生設計六種不同因素,如表 3-1所示。

1. 在測驗題本長度中,模擬 24題、36題及 72題三種題本長度。

2. 在次級量尺測驗長度中,模擬各次級量尺為 6題、12題或 18題三種試題數。

3. 在題本次級量尺個數中,模擬題本包含 2個、4個或 6個三種次級量尺個數。

本研究固定測驗題本長度(24 題、36 題及 72 題),欲探討不同的次級量尺

測驗長度及不同的題本次級量尺個數對於次級量尺分數估計的影響。舉例來說,

當測驗長度為 24 題時,研究中探討 2 個及 4 個次級量尺個數的配置情形,且探

討次級量尺測驗長度為 12題及 6題的配置情形;測驗長度為 36題時,探討 2個

及 6 個次級量尺個數的配置情形,且次級量尺測驗長度為 18 題及 6 題的配置情

形;測驗長度為 72 題時,探討 4 個及 6 個次級量尺個數的配置情形,且次級量

尺測驗長度為 18題及 12題的配置情形。因此,在上述三種因素中,總共有 623 =×

種配置情形。

4. 在次級量尺相關程度中,本研究欲探討次級量尺相關性與次級量尺分數估計

誤差之影響,因此,模擬不同次級量尺之受試者能力值θ,服從標準多變量

常態分布(standardized multivariate normal distribution),並假設能力值之間

的相關係數(correlation coefficients)為約等於 1.0、0.8、0.5及 0.2四種情形。

29

5. 在次級量尺之 MCCR / 試題數比例中,本研究欲探討單一測驗設計中,單一

測驗題型(single format tests)與混合測驗題型(mixed format tests)對於次

級量尺分數估計誤差之影響。因此,模擬 0、20%及 50%三種比例。例如,

次級量尺測驗長度 6 題,且 MCCR / 試題數比例為 20%,即代表此次級量尺

包含 5題MC的試題及 1題 CR的試題。

6. 在施測人數中,模擬施測人數為 500人、1000人及 3000人三種情形。

因此,根據模擬實驗之變項設定,本研究在單一測驗設計中,共探討

64843336 =×××× 種配置情形。

(二) 等化測驗設計

表 3-2 等化測驗設計之共同變項設定對照表

研究變項 變項設定 次級量尺相關程度 大約 1.0、0.8、0.5及 0.2 受試人數 500、1000及 3000人 定錨試題配置 相同次級量尺與不同次級量尺

等化估計方法 平均數等化法、線性等化法、等百

分位數等化法及同時估計法 每一種情形模擬次數 100次

在等化測驗設計中,本研究擬比較以不同次級量尺分數計算方法用於等化測

驗之成效,參數估計方面使用 BILOG-MG軟體,其共同變項設定如表 3-2所示。

1. 題本配置方面,每個測驗題本長度設定為 24題、題本次級量尺個數為 2個、

次級量尺測驗長度為 12 題( 122/24 = )、定錨試題比例為 4/1 (6 題,

64/124 =× )。本研究使用定錨不等組設計(non-equivalent groups with anchor

test design, NEAT)。

2. 定錨試題配置方面,模擬定錨試題在相同與不同次級量尺兩種等化設計。例

如,次級量尺個數為 2個(次級量尺 1及次級量尺 2),且定錨試題數為 6題,

即探討定錨試題均在次級量尺 1 與定錨試題平分在次級量尺 1 及次級量尺 2

之等化估計效果。

30

3. 產生模擬資料時,考慮了受試者人數以及次級量尺相關程度兩個因素。

4. 次級量尺計算方法中,由於 REG 方法及 PC 方法是以 CTT 為基礎。因此,

比較兩計算方法於平均數等化法、線性等化法及等百分位數等化法之等化估

計效果;其餘的次級量此計算方法(Bock 方法、W-Bock 方法、OPI 方法及

REGP方法)則使用同時估計法。

此外,本研究對於單一測驗設計與等化測驗設計中,每一不同的條件均重覆

進行 100次的資料模擬,來估計次級量尺分數之精準度,精準度是以次級量尺分

數之根均方差(root mean square error, RMSE)作為評估準則。

二、 參數設定

1. 受試者能力參數設定

模擬不同次級量尺之受試者能力分布,為標準多變量常態分布。

假設 ),...,( 1 jθθθ = 服從多變量常態分布,記為 ),( ΣµMN ,其中, jθθ ,...,1 分別

為截尾常態分布,即 )1,0(~),...,1,0(~1 NN jθθ ,平均數為 0,標準差為 1,範

圍界定於 3~3− ,相關約為 1.0、0.8、0.5與 0.2。

2. 試題參數設定

(1) 鑑別度參數設定

模擬鑑別度參數分布為截尾常態分布,平均數為 1,標準差為 0.5,將範圍

界定於 5.1~5.0 ,記為 )25.0,1(N 。

(2) 難度參數設定

模擬難度參數分布為截尾常態分布 )1,0(N ,範圍 3~3− 。

(3) 猜測度參數設定

模擬猜測度參數分布為截尾常態分布,平均數為 0.125,標準差為 0.25,

將範圍界定於 25.0~0 ,記為 )0625.0,125.0(N 。

31

參、 實驗設計

一、 單一測驗設計

本研究撰寫程式模擬產生72題MC試題及36題CR試題(研究中設定3點計

分,即0分、1分及2分)之題庫,以及模擬產生受試者人數3000人。因此,探討

不同測驗題本長度之次級量尺分數精準度時,再隨機由題庫抽取所需試題。舉例

來說,若題本內包含4個次級量尺,次級量尺測驗長度為6題,且 MCCR / 試題數

比率為20%,則代表在此狀況中,須由題庫抽取20題MC試題及4題CR試題。探討

不同人數之次級量尺分數精準度時,再隨機抽取所需之人數。

二、 等化測驗設計

等化測驗設計比較定錨試題在相同與不同次級量尺對於次級量尺分數估計

誤差之影響。在模擬研究中,每個題本的施測題數為 24題、定錨試題比例為 4/1 ,

施測人數為 500、1000及 3000人,故撰寫程式模擬產生等化測驗所需 42題MC

試題之題庫以及模擬產生所需總受試者人數 6000 人,探討不同人數之等化後次

級量尺分數精準度時,再隨機抽取所需之人數。

肆、 模擬實驗步驟

本研究為模擬實驗,實驗的程序如下:

一、 建立試題題庫,並從題庫中挑選試題至各次級量尺組成題本;

二、 模擬不同次級量尺之受試者能力分布,服從標準多變量常態分布,並假設

相關約為 1.0、0.8、0.5及 0.2;

三、 利用 IRT三參數模式計算各次級量尺之 )(θijP 及 )(θijkP ,其中, i為試題、

j為次級量尺、 k為類別;

四、 使用步驟 3之 )(θijP 及 )(θijkP 計算每個次級量尺之真實分數,舉例來說,若

32

次級量尺有 6題MC試題(試題 1到試題 6),則此次級量尺的真實分數為

6題試題 )(θijP 之總和。研究中假設此為真實分數,使用來比較不同次級量

尺分數計算方法之基準。

五、 使用步驟 3之 )(θijP 及 )(θijkP 產生作答反應(response) ijy ;

六、 使用步驟 5之作答反應 ijy ,估計不同方法之次級量尺分數;

七、 重複進行 100 次步驟 5 及步驟 6,比較不同方法對於次級量尺分數的

RMSE。

第三節 估計精準度 估計精準度指估計誤差的大小,估計風險值(value at risk)越小,則代表估

計越準確。本研究使用次級量尺分數之RMSE作為估計分數的準確指數,計算式

子如下:

NRMSE

N

iii

jj

∑ −= =1

2jj )ˆ(

)ˆ,(ξξ

ξξ (3.5)

其中, j為第 j個次級量尺;

N代表受試者人數;

),...,,,( Nj3j2jj1 ξξξξξ = 為次級量尺 j之真實分數;

)ˆ,...,ˆ,ˆ,ˆ(ˆNj3j2jj1 ξξξξξ = 為次級量尺 j之估計分數。

33

第四節 研究工具

壹、 MATLAB

MATLAB為高階程式語言,語法簡單方便使用且擁有功能強大的函數庫,它

能夠使用簡單的指令進行數值計算、模擬、繪圖等。因此,本研究使用此軟體來

產生模擬資料及撰寫次級量尺分數計算之程式。

貳、 BILOG-MG

本研究使用BILOG-MG(Zimowski, Muraki, Mislevy & Bock, 2003)軟體進行

等化測驗之參數估計,利用邊際估計法(marginal maximal likelihood estimation,

MMLE)與期望後驗法(expected a posteriori, EAP)來估計受試者能力參數。

參、 PARSCALE

本研究使用PARSCALE(Muraki & Bock, 1996)軟體進行單一測驗之參數估

計,利用MMLE與EAP方法來估計受試者能力參數。

34

第四章 研究結果 本章分為五節,第一節為單一測驗設計之估計結果;第二節等化測驗設計於

IRT等化估計方法之估計結果;第三節為等化測驗設計於CTT等化估計方法之估

計結果;第四節為等化測驗設計於定錨試題配置之結果;第五節為不同等化估計

方法之綜合比較。本研究比較之六種次級量尺計算方法於本文第四及第五章將簡

稱為Bock, OPI, W-Bock, REG, REGP, PC ,且次級量尺測驗分數估計之RMSE於附

錄呈現。

第一節 單一測驗設計之估計結果

壹、不同次級量尺相關程度之估計結果

根據模擬研究的結果,將單一測驗設計之不同次級量尺計算方法估計結果依

次級量尺相關程度分類,圖4-1為單一測驗設計之次級量尺相關程度平均誤差結

果。

0.05

0.08

0.11

0.14

0.17

0.2 0.5 0.8 1

次級量尺間相關

誤差值(

RM

SE)

Bock

OPI

REG

PC

REGP

W-Bock

圖 4-1 單一測驗設計下不同次級量尺相關程度之 RMSE

35

由圖 4-1可以得到:

一、 在四種相關程度下,除 PC 外,各次級量尺計算方法估計誤差隨相關

程度增加而減少,即相關程度愈高估計愈精準,以 Bock表現最明顯;

而 OPI在相關程度約為 0.8與 1時估計誤差差距不大。

二、 在相關程度約為 0.2及 0.5時,RMSE由大到小依次為 Bock, W-Bock,

PC, OPI, REG, REGP;在相關程度約為 0.8時,RMSE由大到小依次為

PC, Bock, OPI, W-Bock, REG, REGP;在相關程度約為 1時,RMSE由

大到小依次為 PC, OPI, REGP, REG, Bock, W-Bock。可發現相關程度低

時(相關程度約為 0.2與 0.5),Bock及W-Bock誤差較大;在相關程

度約為 1時,REGP, REG, Bock, W-Bock估計較精準且差異不大。整體

而言,REG與 REGP估計較其他方法精準。

貳、不同施測人數之估計結果

根據模擬研究的結果,將單一測驗設計之不同次級量尺計算方法估計結果依

施測人數分類,圖4-2為單一測驗設計之施測人數平均誤差結果。

0.07

0.08

0.09

0.10

0.11

0.12

500 1000 3000

受試者人數

誤差值(

RM

SE)

Bock

OPI

REG

PC

REGP

W-Bock

圖 4-2 單一測驗設計下不同施測人數之 RMSE

36

由圖 4-2可以得到:

在三種施測人數中,不同次級量尺計算方法之估計誤差差異不明顯,即不同

計算方法之估計誤差比較不受施測人數影響。

參、不同測驗題型混合比例之估計結果

根據模擬研究的結果,將單一測驗設計之不同次級量尺計算方法估計結果依

測驗題型混合比例分類,圖4-3為單一測驗設計之測驗題型混合比例平均誤差結

果。

0.07

0.09

0.11

0.13

0 20% 50%

次級量尺間CR/MC比例

誤差值(

RM

SE)

Bock

OPI

REG

PC

REGP

W-Bock

圖 4-3 單一測驗設計下不同測驗題型混合比例之 RMSE

由圖 4-3可以得到:

在三種不同測驗題型混合比例中,PC, OPI, REG, REGP之估計誤差隨不同測

驗題型混合比例增加而降低;Bock與W-Bock之估計誤差不明顯。

肆、不同次級量尺個數之估計結果

根據模擬研究的結果,將單一測驗設計之不同次級量尺計算方法估計結果依

次級量尺個數分類,圖4-4為單一測驗設計之次級量尺個數平均誤差結果。

37

0.06

0.08

0.10

0.12

0.14

2 4 6

次級量尺數

誤差值(

RM

SE)

Bock

OPI

REG

PC

REGP

W-Bock

圖 4-4 單一測驗設計下不同次級量尺個數之 RMSE

由圖 4-4可以得到:

在三種次級量尺個數中,不同次級量尺計算方法之估計誤差皆隨著次級量尺

數的增加而變大,其中以 PC表現最明顯;除 OPI外,各方法在次級量尺個數為

2到 4時的估計誤差均大於次級量尺個數為 4到 6時的估計誤差。

伍、不同次級量尺測驗長度之估計結果

根據模擬研究的結果,將單一測驗設計之不同次級量尺計算方法估計結果依

次級量尺測驗長度分類,圖4-5為單一測驗設計之測驗長度平均誤差結果。

0.06

0.08

0.10

0.12

0.14

0.16

6 12 18

次級量尺測驗長度

誤差值(

RM

SE)

Bock

OPI

REG

PC

REGP

W-Bock

圖 4-5 單一測驗設計下不同次級量尺測驗長度之 RMSE

38

由圖 4-5可以得到:

在三種次級量尺測驗長度中,不同次級量尺計算方法之估計誤差皆隨著次級

量尺測驗長度的增加而降低,其中以 REGP表現最明顯;REGP, OPI, REG, W-Bock

在次級量尺測驗長度為 6到 12時的估計誤差差距大於次級量尺測驗長度為 12到

18時的估計誤差差距。

第二節 等化測驗設計於IRT等化估計方法之估計

結果

壹、不同次級量尺相關程度之估計結果

本研究之IRT等化估計方法使用同時估計法,根據模擬研究的結果,將等化

測驗設計於不同次級量尺計算方法估計結果依次級量尺相關程度分類,圖4-6為等

化測驗設計之次級量尺相關程度平均誤差結果。

0.05

0.08

0.11

0.14

0.17

0.2 0.5 0.8 1

次級量尺間相關

誤差值(

RM

SE)

Bock

OPI

W-Bock

REGP

圖 4-6 IRT等化測驗設計下不同次級量尺相關程度之 RMSE

由圖 4-6可以得到:

一、 在四種相關程度下,使用同時估計法後估計誤差皆隨相關程度增加而

39

降低,即相關程度愈高估計愈精準。其中以 Bock 表現最明顯,OPI

差異不大。

二、 在相關程度約為 0.2及 0.5時,RMSE由大到小依次為 Bock, W-Bock,

OPI, REGP;在相關程度約為 0.8時,四種估計方法差異不大;在相關

程度約為 1時,Bock, W-Bock, REGP的誤差最小且差異不大。整體而

言,REGP估計較其他方法精準。

貳、不同施測人數之估計結果

根據模擬研究的結果,將等化測驗設計之不同次級量尺計算方法估計結果依

施測人數分類,圖4-7為等化測驗設計之施測人數平均誤差結果。

0.08

0.09

0.10

0.11

0.12

0.13

500 1000 3000

受試者人數

誤差值(

RM

SE)

Bock

OPI

W-Bock

REGP

圖 4-7 等化測驗設計下不同施測人數之 RMSE

由圖 4-7可以得到:

在三種施測人數中,不同次級量尺計算方法之估計誤差差異不明顯,即不同

計算方法之估計誤差比較不受施測人數影響。

40

第三節 等化測驗設計於CTT等化估計方法之估計

結果

壹、 REG在不同次級量尺相關程度之估計結果

根據模擬研究的結果,將REG在三種CTT等化測驗設計之估計結果依次級量

尺相關程度分類,圖4-8為CTT等化測驗設計之次級量尺相關程度平均誤差結果。

0.05

0.10

0.15

0.20

0.2 0.5 0.8 1

次級量尺間相關

誤差值(

RM

SE)

mean

linear

equipercentile

圖 4-8 REG在不同次級量尺相關程度之 RMSE

由圖 4-8可以得到:

一、 在四種相關程度下,REG在三種CTT等化法下誤差值皆會隨相關程度增加

而減少,即相關程度愈高估計愈精準。整體而言,等百分位數等化法的效

果優於其餘兩個等化法,但是在相關程度約為1時,三種CTT等化法的差

異不大。

二、 RMSE順序為線性等化法、平均數等化法、等百分位數等化法;線性等化

法及平均數等化法差異不大。在相關程度約為 1時,三種估計方法的誤差

差異不大。

41

貳、 PC在不同次級量尺相關程度之估計結果

根據模擬研究的結果,將PC在三種CTT等化測驗設計之估計結果依各次級量

尺相關程度分類,圖4-9為CTT等化測驗下之次級量尺相關程度平均誤差結果。

0.05

0.10

0.15

0.20

0.25

0.2 0.5 0.8 1

次級量尺間相關

誤差值(

RM

SE)

mean

linear

equipercentile

圖 4-9 PC在不同次級量尺相關程度之 RMSE

由圖 4-9可以得到:

一、 在四種相關程度下,PC在平均數等化法與線性等化法之估計誤差值皆會隨

相關程度增加而減少,即相關程度愈高估計愈精準;而等百分位數等化法

在四種相關程度下差異不明顯。整體而言,等百分位數等化法的效果優於

其餘兩個等化法,但是在相關程度近似於1時,三種CTT等化法的差異不

大。

二、 RMSE順序為線性等化法、平均數等化法、等百分位數等化法;線性等化

法及平均數等化法差異不大。在相關程度約為 1時,三種估計方法的誤差

差異不大。

參、 REG在不同施測人數之估計結果

根據模擬研究的結果,將REG在三種CTT等化估計方法下之估計結果依施測

人數分類,圖4-10為CTT等化測驗之施測人數平均誤差結果。

42

0.07

0.09

0.11

0.13

0.15

0.17

0.19

500 1000 3000

受試者人數

誤差值(

RM

SE)

mean

linear

equipercentile

圖 4-10 REG在不同施測人數之 RMSE

由圖 4-10可以得到:

三種施測人數下,REG在三種CTT等化法之估計誤差差異皆不明顯。

肆、 PC在不同施測人數之估計結果

根據模擬研究的結果,將PC在三種CTT等化估計方法下之估計結果依施測人

數分類,圖4-11為CTT等化測驗之施測人數平均誤差結果。

0.07

0.09

0.11

0.13

0.15

0.17

0.19

500 1000 3000

受試者人數

誤差值(

RM

SE)

mean

linear

equipercentile

圖 4-11 PC在不同施測人數之 RMSE

由圖 4-11可以得到:

三種施測人數下,PC在三種CTT等化法之估計誤差差異皆不明顯。

43

第四節 等化測驗設計於定錨試題配置之結果 根據模擬研究的結果,將不同定錨試題配置之誤差結果繪製成圖 4-12 到圖

4-15,其中橫軸表示各種等化設計情境,代號為 N_n,N 為次級量尺相關程度近

似值(N=0.2, 0.5, 0.8, 1),n為施測人數(n=500, 1000, 3000)。

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2_

500

0.5_

500

0.8_

500

1_

500

0.2_1

000

0.5_1

000

0.8_1

000

1_

1000

0.2_3

000

0.5_3

000

0.8_3

000

1_

3000

誤差值(

RM

SE)

不同

相同

圖 4-12 Bock定錨試題在相同次級量尺與不同次級量尺之 RMSE

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2_

500

0.5_

500

0.8_

500

1_

500

0.2_1

000

0.5_1

000

0.8_1

000

1_

1000

0.2_3

000

0.5_3

000

0.8_3

000

1_

3000

誤差值(

RM

SE)

不同

相同

圖 4-13 OPI定錨試題在相同次級量尺與不同次級量尺之 RMSE

44

0.06

0.08

0.1

0.12

0.14

0.16

0.2_

500

0.5_

500

0.8_

500

1_

500

0.2_1

000

0.5_1

000

0.8_1

000

1_

1000

0.2_3

000

0.5_3

000

0.8_3

000

1_

3000

誤差值(

RM

SE)

不同

相同

圖 4-14 W-Bock定錨試題在相同次級量尺與不同次級量尺之 RMSE

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2_

500

0.5_

500

0.8_

500

1_

500

0.2_1

000

0.5_1

000

0.8_1

000

1_

1000

0.2_3

000

0.5_3

000

0.8_3

000

1_

3000

誤差值(

RM

SE)

不同

相同

圖 4-15 REGP定錨試題在相同次級量尺與不同次級量尺之 RMSE

由圖 4-12到圖 4-15可以得到:

同時估計法於不同次級量尺計算方法之定錨試題在相同次級量尺與不同次

級量尺之估計誤差差異不大。

45

第五節 不同等化估計方法之綜合比較 本研究中,不同次級量尺分數計算方法使用了不同等化估計方法,以下就使

用同時估計法之 Bock, OPI, W-Bock, REGP,及使用平均數等化法、線性等化法與

等百分位數等化法之 REG與 PC進行綜合比較。

壹、 同時估計法與平均數等化法的綜合比較

根據模擬研究的結果,將不同次級量尺計算方法在同時估計法與平均數等化

法估計誤差繪製成圖 4-16,其中橫軸表示各種等化設計情境,代號為 N_n,N為

次級量尺相關程度近似值(N=0.2, 0.5, 0.8, 1),n為施測人數(n=500, 1000, 3000)。

0.00

0.05

0.10

0.15

0.20

0.25

0.2_

500

0.5_

500

0.8_

500

1_

500

0.2_1

000

0.5_1

000

0.8_1

000

1_

1000

0.2_3

000

0.5_3

000

0.8_3

000

1_

3000

誤差值(

RM

SE)

Bock

OPI

W-Bock

REGP

REG

PC

圖 4-16 同時估計法與平均數等化法之綜合比較

由圖 4-16可以得到:

除相關約為 1時,OPI與 REG之估計誤差近乎相等;整體而言,同時估計法

優於平均數等化法。

46

貳、 同時估計法與線性法等化法的綜合比較

根據模擬研究的結果,將不同次級量尺計算方法在同時估計法與線性等化法

估計誤差繪製成圖 4-17。

0.00

0.05

0.10

0.15

0.20

0.25

0.2_

500

0.5_

500

0.8_

500

1_

500

0.2_1

000

0.5_1

000

0.8_1

000

1_

1000

0.2_3

000

0.5_3

000

0.8_3

000

1_

3000

誤差值(

RM

SE)

Bock

OPI

W-Bock

REGP

REG

PC

圖 4-17 同時估計法與線性等化法之綜合比較

由圖 4-17可以得到:

除施測人數 500與 3000人且相關約為 1時OPI與REG之估計誤差近乎相等;

整體而言,同時估計法優於線性等化法。

47

參、 同時估計法與等百分位數等化法的綜合比較

根據模擬研究的結果,將不同次級量尺計算方法在同時估計法與等百分位數

等化法之估計誤差繪製成圖 4-18。

0.00

0.05

0.10

0.15

0.20

0.2_

500

0.5_

500

0.8_

500

1_

500

0.2_1

000

0.5_1

000

0.8_1

000

1_

1000

0.2_3

000

0.5_3

000

0.8_3

000

1_

3000

誤差值(

RM

SE)

Bock

OPI

W-Bock

REGP

REG

PC

圖 4-18 同時估計法與等百分位數等化法之綜合比較

由圖 4-18可以得到:

除 Bock於相關程度低時(相關程度約為 0.2與 0.5)RMSE大於等百分位數

等化法外,同時估計法是優於等百分位數等化法,但差異不大。

48

第五章 結論與建議

第一節 結論 本研究欲了解單一測驗設計中,次級量尺分數計算方法在不同次級量尺相關

程度、施測人數、測驗題型混合比例、次級量尺個數及次級量尺測驗長度之估計

效果;以及等化測驗設計中,不同次級量尺相關程度、施測人數、定錨試題配置

及不同等化方法之等化連結效果。得到以下結論︰

一、 本研究提出新的次級量尺計算方法(W-Bock及 REGP),在單一測驗設計

下,W-Bock及 REGP方法之測驗分數估計效果分別較 Bock及 REG方法

佳;在等化測驗設計下,W-Bock較 Bock方法佳。

二、 單一測驗設計

1. 以相關程度而言,除 PC 外,不同次級量尺分數計算方法隨相關程度愈高估

計愈精準。Bock與W-Bock受次級量尺相關程度影響最大,相關程度低時(相

關程度約為 0.2與 0.5),Bock與W-Bock誤差值明顯高於其他次級量尺分數

計算方法,但隨相關程度增加誤差值相對降低。整體而言,REG與 REGP估

計較其他方法精準。

2. 以施測人數而言,可發現於本研究模擬情境中,不同次級量尺計算方法之估

計誤差不受施測人數影響。

3. 以測驗題型混合比例而言,除 Bock與W-Bock外,其餘次級量尺計算方法隨

著測驗題型混合比例愈高估計愈精準。

4. 以次級量尺個數而言,不同次級量尺計算方法隨著次級量尺個數增加使得估

計誤差愈大。

5. 以次級量尺測驗長度而言,不同次級量尺計算方法隨著次級量尺測驗長度增

加估計愈精準。

49

三、 等化測驗設計

1. 以相關程度而言,不同次級量尺計算方法隨著次級量尺相關程度愈高估計愈

精準。

2. 以施測人數而言,可發現於本研究模擬情境中,不同次級量尺計算方法之估

計誤差不受施測人數影響。

3. 以定錨試題配置而言,定錨試題在相同次級量尺與不同次級量尺之估計誤差

差異不大。

4. 以不同等化估計方法而言,除等百分位數等化法在次級量尺相關程度低時(相

關程度約為 0.2與 0.5),估計效果比 Bock好,及相關約為 1時,REG與 OPI

估計效果差異不大,其餘情形同時估計法效果優於 CTT等化估計法之平均數

等化法、線性等化法及等百分位數等化法。

第二節 建議 茲就本研究未盡完備之處,提出一些研究建議,供後續研究者參考。

一、 本研究在 IRT等化估計方法僅使用同時等化法,未來研究可考量連結分開

估計等化方法,例如:平均數法、平均數與標準差法及特徵曲線法等。

二、 本研究在等化測驗設計中僅考慮一種次級量尺配置模式(每個題本包含兩

個次級量尺,每個次級量尺的測驗長度為 12 題,定錨試題為 6 題等),

未來研究可考量不同次級量尺配置模式。

三、 本研究僅考慮一種受試者能力分布,未來研究可考量不同受試者能力分布

之效果比較。

四、 本研究提出六種次級量尺計算方法,如:Bock, OPI, W-Bock, REG, REGP,

PC,並未涵蓋所有次級量尺計算方法,未來研究可嘗試不同次級量尺計算

方法之測驗分數估計結果。

50

五、 由本研究可以發現,次級量尺分數的計算上,若次級量尺間相關程度高

時, Bock, W-Bock, REG, REGP四種方法估計效果較好且差異性不大;若

次級量尺間相關程度低時,REG與 REGP估計效果較好。未來研究者在大

型測驗次級量尺分數計算上,若次級量尺相關程度高者可以使用 Bock,

W-Bock, REG, REGP四種方法;若相關程度範圍較大者,則建議使用 REG

與 REGP兩種方法。

51

參考文獻 中文部分 王暄博(2006)。BIB與 NEAT設計之水平及垂直等化效果比較。國立臺中教育

大學教育測驗統計研究所碩士論文,未出版,臺中市。

李源煌、楊玉女(2000)。建立學科評量量尺之理論基礎。中國測驗學會測驗年

刊,47(1),95-116。

張鈺卿、張宛婷、郭伯臣、楊思偉(2007)。不同年度及不同年級大型教育測驗

等化效果之模擬研究。台灣師範大學主辦,2007年中國測驗學會教育測驗學

術研討會,臺北市。

陳煥文(2004)。垂直等化連結特性之研究-四種連結方法的比較。(國科會專題

研究計畫,NSC92-2413-H-024-015)。臺南市︰國立臺南大學測驗統計研究

所。

楊孟麗、譚康榮、黃敏雄(2003)。台灣教育長期追蹤資料庫︰心理計量報告︰

TEPS2001分析能力測驗第一版。中央研究院調查研究專題中心。

臺灣學生學習成就評量資料庫(2007)。2007年學生學習成就評量國語文科評量

簡介。檢索日期:12/01/2007。http://tasa.naer.edu.tw/chinese.htm

歐滄和(2002)。教育測驗與評量。臺北市:心理。

英文部分 Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R.L. Thorridike (Ed.),

Educational measurement (2nd ed., 508-600). Washington, DC: American

Council on Education. (Reprinted as W. A. Angoff, Scales, norms, and equivalent

scores. Princeton, NJ: Educational Testing Service, 1984.)

Baker, F. B. (1992). Item Response Theory: Parameter Estimation Techniques. New

52

Yook: Marcel Dekker.

Baker, F. B. & Kim, S.H. (2004). Item Response Theory: Parameter Estimation

Techniques. New Yook: Marcel Dekker, Inc. 2nd Edition.

Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s

ability. In F. M. Lord & M. R. Novick(Eds.), Statistical theories of mental test

scores. Reading, MA: Addison-Wesley.

Bock, R. D., Thissen, D., & Zimowski, M. F. (1997). IRT estimation of domain scores.

Journal of educational measurement, 34(3),197-211.

Braun, H. I. & Holland, P. W. (1982). Observed-score test equating: A mathematical

analysis of some ETS equating procedures. In P. W. Holland and D. B. Rubin

(Eds.), Test equating (pp.9-49). New York:Academic.

Cook, L. L. & Eignor, D. R. (1991). An NCMF instructional module on IRT equating

methods. Educational Measurement: Issues and Practice, 10, 37-45.

Green, B. F., Bock, R. D., Humphreys, L. G., Linn, R. L., & Reckase, M. D. (1984).

Technical guidelines for assessing computerized adaptive tests. Journal of

Educational Measurement, 21(4), 347-360.

Gummerman, K (1972). A Response-Contingent Measure of Proportion Correct. The

Journal of the Acoustical Society of America, 52, 1645-1647.

Crocker, L. & Algina, J. (1986). Introduction to Classical and Modem Test Theory.

New York: Holt, Rinehart and Winston.

Gessaroli, M. E. (2004). Using hierarchical multidimensional item response theory to

estimate augmented subscores. Paper presented at the annual meeting of the

National Council on Measurement in Education, San Diego, CA.

Haebara, T. (1980). Equating Logistic Ability Scales by a Weighted Least Squares

Method. Japanese Psychological Research, 22, 144-149.

53

Hambleton, R. K. & Swaminathan, H. (1985). Item response theory: Principles and

applications. Boston, MA: Kluwer-Nijhoff.

Harris, D. J. & Crouse, J. D. (1993). A study of criteria used in equating. Applied

Measurement in Education, 6, 195-240.

Johnson, D. A. & Wichern, D. W. (2007). Applied multivariate statistical analysis.

New Jersey: Pearson Education.

Kahraman, N. & Kamata, A. (2004). Increasing the precision of subscale scores by

using out-of-scale information. Applied psychological measurement, 28(6),

407-426.

Kelley, T. L. (1927). The interpretation of educational measurements. New York:

World Book.

Kelley, T. L. (1947). Fundamentals of statistics. Cambridge, MA: Harvard University

Press.

Kim, S. H. & Cohen, A. S. (1998). A Comparison of Linking and Concurrent

Calibration Under Item Response Theory. Applied Psychological Measurement,

22, 131-143.

Kolen, M. J. & Brennan, R. L. (2004). Test equating, scaling, and linking: methods

and practices (2nd ed.). New York: Springer-Verlag.

Kolen, M. J. & Brennan, R. J. (1995). Test Equating: Methods and Practices. New

York: Springer-Verlag.

Lord, F. M. (1980). Application of item response theory to practical testing problems.

hillsdale, NJ : lawrence erlbaum associates.

Lord, F. M. (1983). Unbiased estimators of ability parameters, of their variance, and of

their parallel-forms reliability. Psychometrika, 48, 233-245.

Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading,

54

MA: Addison Wesley.

Martin, M. O., Mullis, I. V. S., & Chrostowski, S. J. (Eds.) (2004), TIMSS 2003

Technical Report. Chestnut Hill, MA: TIMSS & PIRLS International Study

Center, Boston College.

Moran, R., Rampey, B. D., Dion, G., & Donahue, P. (2008). National Indian Education

Study 2007 Part I: Performance of American Indian and Alaska Native Students

at Grades 4 and 8 on NAEP 2007 Reading and Mathematics Assessments (NCES

2008–457). National Center for Education Statistics, Institute of Education

Sciences, U.S. Department of Education, Washington, D.C.

Morris, C. N. (1982). On the foundations of test equating. In P.W. Holland and D.B.

Rubin (Eds.), Test equating (pp. 169-191). New York: Academic.

Mislevy, R. J. & Bock R. D. (1982). Implementation of the EM algorithm in the

estimation of item parameters: The BILOG computer program. In: Item Response

Theory and Computerized Adaptive Testing Conference Proceedings (Wayzata,

MN).

Mislevy, R. J. & Bock R. D. (1990). PC-BILOG-Item analysis and test scoring with

binary logistic models [Computer software]. Mooresville, IN: Scientific Software.

Muraki, E. (1992). A generalized Partial credit model:Application of an EM algorithm.

Applied Psychological Measurement, 16(2), 159-176.

Muraki, E. & Bock, R. D. (1996). PARSCALE: IRT based test scoring and item

analysis for graded open-ended exercises and performance tasks (Version 3)

[Computer software]. Chicago: Scientific Software.

Nance, L. A., John, R. D., & Terry, L. S. (2001). The NEAP 1998 Technical Report.

National Center for Education Statistics, Educational Testing Service.

Novick, M. R. & Jackson, P. H. (1974). Statistical methods for educational and

55

psychological research. New York, NY: McGraw-Hill.

Petersen, N. S., Kolen, M. J., & Hoover, H. D. (1989). Scaling, norming, and equating.

In R.L. Linn (Ed.), Educational measurement (3rd ed., pp. 221-262). New York:

Macmillan.

PISA(2006). PISA 2006 Science Competencies for Tomorrow's World. Retrieved

December 27, 2007, from

http://www.pisa.oecd.org/document/2/0,3343,en_32252351_32236191_39718850

_1_1_1_1,00.html

Pommerich, M., Nicewander, W. A., & Hanson, B. (1999). Estimating average domain

scores. Journal of educational measurement, 36, 199-216.

Shin, C. D., Ansley, T., Tsai, T., & Mao X. (2005). A comparison of methods of

estimating objective scores. Paper presented at the annual meeting of the National

Council on Measurement in Education, Montreal, Quebec, Canada.

Shin, C. D. (2006). A comparison of methods of estimating subscale scores for

Mixed-Format tests. Paper presented at the annual meeting of the National

Council on Measurement in Education, San Francisco.

Stocking, M. L. & Lord, F. M. (1983). Developing a Common Metric in Item

Response Theory. Applied Psychological Measurement, 7(2).201-211.

Tate, R. L. (2004). Implications of multidimensionality for total score and subscale

performance. Applied measurement in education, 17(2). 89-112.

Wainer, H., Vevea, J. L., Camacho, F., Reeve III, B. B., Rosa, K., Nelson, L., Swygert,

K. A., & Thissen, D. (2000). Test scoring. Hillsdale, NJ: Earlbaum Associates.

Weiss, D.J. & Yoes, M.E. (1991). Item response Theory: In Advances in Educational

and Psychological Testing. Edited by Hambleton, R.K., & Zaal, J.N., Kluwer

Academic Publishers, Massachusetts, USA.

56

Yen, W. M. (1983). Tau-equivalence and equipercentile equating. Psychometrika, 48,

353-369.

Yen, W. M. (1987). A Bayesian / IRT index of objective performance. Paper presented

at the annual meeting of the Psychometric Society, Montreal, Quebec, Canada,

June 1-19.

Yen, W. M., Sykes, R. C., Ito, K., & Julian, M. (1997). A Bayesian / IRT index of

objective performance for tests with mixed-item types. Paper presented at the

annual meeting of the National Council on Measurement in Education in Chicago.

Yen, W. M. & Fitzpatrick, A. R. (2007). Item Response Theory. In Robert L. Brennan

(Ed.), Educational Measurement (4rd ed.). New York: Macmillan.

Zimowski, M. F., Muraki, E., Mislevy, R. J. & Bock, R. D. (2003). BILOG-MG.

Scientific Software lnternational.

57

附錄一 單一測驗設計之誤差RMSE

附表 1-1 測驗題型混和比例為 0%、施測人數 3000人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1742 0.1148 0.0981 0.1132 0.0941 0.1508 0.2_6_72 0.0001 0.0005 0.0005 0.0006 0.0001 0.0004 0.1447 0.1085 0.0960 0.1167 0.0925 0.1339 0.5_6_72 0.0002 0.0007 0.0005 0.0006 0.0001 0.0003 0.0933 0.0940 0.0801 0.1142 0.0787 0.0892 0.8_6_72 0.0003 0.0007 0.0004 0.0006 0.0005 0.0003 0.0500 0.0887 0.0539 0.1134 0.0555 0.0497 1_6_72 0.0005 0.0006 0.0005 0.0006 0.0007 0.0005 0.1653 0.0931 0.0837 0.0924 0.0798 0.1466 0.2_4_72 0.0002 0.0006 0.0005 0.0006 0.0006 0.0004 0.1379 0.0915 0.0835 0.0954 0.0795 0.1285 0.5_4_72 0.0002 0.0007 0.0007 0.0008 0.0007 0.0003 0.0898 0.0833 0.0728 0.0932 0.0701 0.0861 0.8_4_72 0.0003 0.0006 0.0006 0.0006 0.0006 0.0003 0.0494 0.0792 0.0525 0.0925 0.0522 0.0491 1_4_72 0.0005 0.0006 0.0006 0.0006 0.0005 0.0005 0.1779 0.1529 0.1240 0.1592 0.1217 0.1419 0.2_6_36 0.0002 0.0009 0.0007 0.0008 0.0008 0.0006 0.1477 0.1348 0.1192 0.1679 0.1171 0.1300 0.5_6_36 0.0003 0.0009 0.0006 0.0008 0.0009 0.0005 0.0997 0.1091 0.0953 0.1568 0.0996 0.0942 0.8_6_36 0.0005 0.0010 0.0006 0.0008 0.0010 0.0005 0.0650 0.1057 0.0710 0.1593 0.0789 0.0656 1_6_36 0.0007 0.0010 0.0008 0.0008 0.0011 0.0007 0.1352 0.0891 0.0838 0.0919 0.0797 0.1151 0.2_2_36 0.0007 0.0008 0.0007 0.0009 0.0008 0.0006 0.1189 0.0918 0.0859 0.0971 0.0811 0.1082 0.5_2_36 0.0004 0.0008 0.0008 0.0009 0.0008 0.0006 0.0840 0.0822 0.0755 0.0906 0.0721 0.0801 0.8_2_36 0.0005 0.0007 0.0006 0.0007 0.0008 0.0005 0.0618 0.0827 0.0661 0.0920 0.0638 0.0618 1_2_36 0.0008 0.0009 0.0007 0.0009 0.0009 0.0008

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

58

附表 1-1 測驗題型混和比例為 0%、施測人數 3000人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1676 0.1527 0.1226 0.1577 0.1212 0.1355 0.2_4_24 0.0004 0.0020 0.0007 0.0010 0.0011 0.0009 0.1450 0.1341 0.1208 0.1679 0.1189 0.1262 0.5_4_24 0.0005 0.0011 0.0008 0.0011 0.0011 0.0007 0.1008 0.1106 0.0995 0.1588 0.1004 0.0958 0.8_4_24 0.0007 0.0011 0.0008 0.0010 0.0012 0.0008 0.0753 0.1082 0.0800 0.1578 0.0887 0.0768 1_4_24 0.0009 0.0012 0.0009 0.0010 0.0014 0.0009 0.1418 0.1083 0.0972 0.1115 0.0939 0.1221 0.2_2_24 0.0009 0.0018 0.0008 0.0009 0.0010 0.0011 0.1254 0.1079 0.1000 0.1190 0.0956 0.1125 0.5_2_24 0.0006 0.0011 0.0010 0.0011 0.0012 0.0007 0.0899 0.0942 0.0870 0.1127 0.0835 0.0856 0.8_2_24 0.0006 0.0010 0.0008 0.0010 0.0010 0.0007 0.0727 0.0955 0.0763 0.1117 0.0742 0.0733 1_2_24 0.0009 0.0011 0.0010 0.0011 0.0011 0.0009

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

59

附表 1-2 測驗題型混和比例為 0%、施測人數 1000人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1737 0.1140 0.0981 0.1130 0.0948 0.1518 0.2_6_72 0.0002 0.0010 0.0009 0.0011 0.0011 0.0006 0.1455 0.1087 0.0963 0.1168 0.0932 0.1344 0.5_6_72 0.0003 0.0010 0.0009 0.0010 0.0009 0.0004 0.0935 0.0936 0.0803 0.1140 0.0790 0.0893 0.8_6_72 0.0004 0.0012 0.0008 0.0011 0.0009 0.0005 0.0493 0.0890 0.0537 0.1126 0.0551 0.0492 1_6_72 0.0009 0.0011 0.0010 0.0011 0.0013 0.0009 0.1642 0.0928 0.0839 0.0925 0.0803 0.1467 0.2_4_72 0.0003 0.0010 0.0009 0.0011 0.0009 0.0005 0.1384 0.0914 0.0836 0.0954 0.0799 0.1289 0.5_4_72 0.0003 0.0010 0.0010 0.0010 0.0009 0.0004 0.0897 0.0831 0.0729 0.0931 0.0705 0.0858 0.8_4_72 0.0005 0.0012 0.0008 0.0012 0.0009 0.0005 0.0489 0.0795 0.0523 0.0921 0.0520 0.0487 1_4_72 0.0008 0.0010 0.0010 0.0010 0.0011 0.0009 0.1773 0.1517 0.1242 0.1588 0.1231 0.1430 0.2_6_36 0.0005 0.0014 0.0012 0.0013 0.0014 0.0009 0.1489 0.1357 0.1201 0.1681 0.1189 0.1310 0.5_6_36 0.0006 0.0016 0.0010 0.0016 0.0014 0.0008 0.1001 0.1093 0.0957 0.1564 0.1007 0.0946 0.8_6_36 0.0008 0.0018 0.0011 0.0014 0.0016 0.0009 0.0647 0.1067 0.0714 0.1585 0.0790 0.0652 1_6_36 0.0014 0.0017 0.0014 0.0014 0.0025 0.0014 0.1339 0.0890 0.0837 0.0920 0.0801 0.1152 0.2_2_36 0.0011 0.0016 0.0013 0.0014 0.0014 0.0014 0.1212 0.0917 0.0862 0.0969 0.0818 0.1105 0.5_2_36 0.0008 0.0014 0.0013 0.0014 0.0013 0.0011 0.0839 0.0822 0.0754 0.0906 0.0725 0.0800 0.8_2_36 0.0010 0.0015 0.0012 0.0015 0.0012 0.0010 0.0608 0.0824 0.0653 0.0913 0.0632 0.0608 1_2_36 0.0015 0.0015 0.0015 0.0016 0.0015 0.0015

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

60

附表 1-2 測驗題型混和比例為 0%、施測人數 1000人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1675 0.1493 0.1226 0.1572 0.1224 0.1362 0.2_4_24 0.0007 0.0029 0.0011 0.0020 0.0014 0.0016 0.1466 0.1348 0.1216 0.1678 0.1208 0.1278 0.5_4_24 0.0009 0.0020 0.0014 0.0018 0.0015 0.0011 0.1010 0.1106 0.0996 0.1587 0.1010 0.0960 0.8_4_24 0.0010 0.0017 0.0012 0.0017 0.0015 0.0012 0.0751 0.1093 0.0800 0.1568 0.0880 0.0764 1_4_24 0.0017 0.0018 0.0018 0.0014 0.0030 0.0017 0.1408 0.1081 0.0975 0.1118 0.0947 0.1213 0.2_2_24 0.0015 0.0028 0.0015 0.0018 0.0016 0.0019 0.1272 0.1081 0.1003 0.1189 0.0965 0.1140 0.5_2_24 0.0010 0.0019 0.0017 0.0021 0.0018 0.0013 0.0900 0.0939 0.0869 0.1124 0.0835 0.0856 0.8_2_24 0.0013 0.0019 0.0015 0.0019 0.0014 0.0014 0.0725 0.0957 0.0758 0.1110 0.0744 0.0730 1_2_24 0.0018 0.0017 0.0019 0.0017 0.0019 0.0018

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

61

附表 1-3測驗題型混和比例為 0%、施測人數 500人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1722 0.1134 0.0982 0.1129 0.0960 0.1524 0.2_6_72 0.0005 0.0014 0.0012 0.0014 0.0014 0.0008 0.1458 0.1090 0.0966 0.1170 0.0946 0.1350 0.5_6_72 0.0005 0.0017 0.0013 0.0016 0.0012 0.0006 0.0940 0.0939 0.0810 0.1147 0.0800 0.0898 0.8_6_72 0.0007 0.0017 0.0012 0.0015 0.0012 0.0008 0.0503 0.0894 0.0549 0.1126 0.0562 0.0502 1_6_72 0.0013 0.0016 0.0015 0.0017 0.0015 0.0013 0.1636 0.0928 0.0839 0.0923 0.0812 0.1469 0.2_4_72 0.0006 0.0014 0.0013 0.0014 0.0014 0.0009 0.1402 0.0918 0.0841 0.0953 0.0810 0.1311 0.5_4_72 0.0005 0.0015 0.0013 0.0015 0.0013 0.0006 0.0896 0.0832 0.0730 0.0932 0.0713 0.0857 0.8_4_72 0.0008 0.0017 0.0014 0.0015 0.0012 0.0009 0.0503 0.0796 0.0533 0.0920 0.0530 0.0500 1_4_72 0.0012 0.0016 0.0014 0.0017 0.0013 0.0012 0.1758 0.1501 0.1244 0.1588 0.1249 0.1444 0.2_6_36 0.0014 0.0024 0.0016 0.0020 0.0018 0.0017 0.1488 0.1356 0.1204 0.1680 0.1207 0.1315 0.5_6_36 0.0008 0.0023 0.0015 0.0021 0.0021 0.0011 0.1003 0.1090 0.0965 0.1569 0.1013 0.0946 0.8_6_36 0.0012 0.0024 0.0016 0.0019 0.0022 0.0013 0.0659 0.1074 0.0731 0.1581 0.0813 0.0663 1_6_36 0.0019 0.0023 0.0021 0.0020 0.0034 0.0020 0.1339 0.0901 0.0838 0.0922 0.0810 0.1161 0.2_2_36 0.0018 0.0026 0.0018 0.0021 0.0018 0.0024 0.1219 0.0918 0.0861 0.0967 0.0825 0.1112 0.5_2_36 0.0011 0.0021 0.0020 0.0023 0.0021 0.0017 0.0836 0.0819 0.0749 0.0900 0.0724 0.0797 0.8_2_36 0.0014 0.0023 0.0019 0.0022 0.0017 0.0015 0.0616 0.0824 0.0659 0.0912 0.0638 0.0616 1_2_36 0.0019 0.0021 0.0018 0.0021 0.0019 0.0018

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

62

附表 1-3測驗題型混和比例為 0%、施測人數 500人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1677 0.1482 0.1228 0.1572 0.1244 0.1373 0.2_4_24 0.0020 0.0035 0.0022 0.0025 0.0027 0.0026 0.1483 0.1361 0.1225 0.1679 0.1236 0.1300 0.5_4_24 0.0011 0.0022 0.0017 0.0022 0.0023 0.0016 0.1013 0.1105 0.0996 0.1585 0.1028 0.0963 0.8_4_24 0.0016 0.0028 0.0017 0.0022 0.0029 0.0016 0.0765 0.1097 0.0815 0.1562 0.0905 0.0775 1_4_24 0.0022 0.0028 0.0024 0.0025 0.0040 0.0021 0.1398 0.1086 0.0973 0.1118 0.0956 0.1209 0.2_2_24 0.0019 0.0037 0.0019 0.0024 0.0020 0.0022 0.1280 0.1086 0.1004 0.1187 0.0977 0.1155 0.5_2_24 0.0015 0.0027 0.0023 0.0027 0.0023 0.0017 0.0902 0.0946 0.0866 0.1124 0.0845 0.0860 0.8_2_24 0.0019 0.0027 0.0023 0.0026 0.0025 0.0021 0.0731 0.0959 0.0764 0.1110 0.0750 0.0735 1_2_24 0.0023 0.0026 0.0023 0.0025 0.0024 0.0023

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

63

附表 1-4 測驗題型混和比例為 20%、施測人數 3000人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1768 0.1062 0.0928 0.1044 0.0892 0.1551 0.2_6_72 0.0001 0.0006 0.0005 0.0006 0.0005 0.0005 0.1505 0.1019 0.0912 0.1064 0.0880 0.1408 0.5_6_72 0.0001 0.0006 0.0005 0.0005 0.0005 0.0002 0.0945 0.0885 0.0778 0.1034 0.0748 0.0910 0.8_6_72 0.0002 0.0005 0.0005 0.0005 0.0005 0.0002 0.0483 0.0847 0.0556 0.1044 0.0565 0.0479 1_6_72 0.0004 0.0006 0.0005 0.0006 0.0006 0.0004 0.1664 0.0863 0.0786 0.0853 0.0750 0.1496 0.2_4_72 0.0001 0.0006 0.0006 0.0006 0.0006 0.0004 0.1426 0.0850 0.0786 0.0872 0.0750 0.1344 0.5_4_72 0.0002 0.0006 0.0005 0.0006 0.0006 0.0002 0.0908 0.0775 0.0691 0.0845 0.0657 0.0875 0.8_4_72 0.0002 0.0006 0.0005 0.0006 0.0004 0.0003 0.0473 0.0745 0.0514 0.0853 0.0508 0.0469 1_4_72 0.0005 0.0006 0.0005 0.0006 0.0005 0.0005 0.1743 0.1415 0.1165 0.1447 0.1140 0.1397 0.2_6_36 0.0002 0.0007 0.0006 0.0007 0.0006 0.0006 0.1421 0.1233 0.1110 0.1489 0.1082 0.1258 0.5_6_36 0.0003 0.0007 0.0005 0.0007 0.0006 0.0004 0.1002 0.1066 0.0961 0.1478 0.0937 0.0945 0.8_6_36 0.0004 0.0010 0.0006 0.0009 0.0007 0.0004 0.0617 0.0994 0.0725 0.1448 0.0773 0.0617 1_6_36 0.0006 0.0007 0.0009 0.0007 0.0012 0.0006 0.1288 0.0881 0.0771 0.0836 0.0740 0.1172 0.2_2_36 0.0005 0.0011 0.0007 0.0008 0.0007 0.0005 0.1149 0.0823 0.0780 0.0864 0.0735 0.1054 0.5_2_36 0.0004 0.0007 0.0008 0.0008 0.0006 0.0004 0.0850 0.0792 0.0734 0.0855 0.0691 0.0810 0.8_2_36 0.0005 0.0007 0.0007 0.0007 0.0007 0.0005 0.0576 0.0754 0.0614 0.0837 0.0601 0.0573 1_2_36 0.0007 0.0008 0.0007 0.0008 0.0007 0.0007

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

64

附表 1-4 測驗題型混和比例為 20%、施測人數 3000人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1614 0.1358 0.1141 0.1428 0.1122 0.1284 0.2_4_24 0.0005 0.0010 0.0008 0.0010 0.0008 0.0007 0.1448 0.1257 0.1147 0.1483 0.1118 0.1265 0.5_4_24 0.0004 0.0008 0.0006 0.0009 0.0007 0.0005 0.1006 0.1064 0.0998 0.1462 0.0968 0.0947 0.8_4_24 0.0006 0.0010 0.0008 0.0010 0.0010 0.0006 0.0707 0.1007 0.0792 0.1429 0.0841 0.0707 1_4_24 0.0007 0.0008 0.0009 0.0008 0.0014 0.0007 0.1307 0.1001 0.0898 0.1012 0.0871 0.1146 0.2_2_24 0.0011 0.0022 0.0009 0.0011 0.0010 0.0012 0.1208 0.0987 0.0919 0.1050 0.0878 0.1102 0.5_2_24 0.0007 0.0009 0.0009 0.0009 0.0009 0.0007 0.0897 0.0906 0.0852 0.1036 0.0804 0.0851 0.8_2_24 0.0007 0.0010 0.0009 0.0009 0.0008 0.0007 0.0687 0.0878 0.0735 0.1013 0.0723 0.0687 1_2_24 0.0008 0.0010 0.0009 0.0010 0.0009 0.0008

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

65

附表 1-5 測驗題型混和比例為 20%、施測人數 1000人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1761 0.1057 0.0927 0.1042 0.0896 0.1558 0.2_6_72 0.0003 0.0009 0.0009 0.0009 0.0009 0.0005 0.1520 0.1023 0.0916 0.1067 0.0888 0.1419 0.5_6_72 0.0002 0.0010 0.0008 0.0010 0.0009 0.0003 0.0951 0.0884 0.0780 0.1032 0.0751 0.0914 0.8_6_72 0.0004 0.0009 0.0008 0.0009 0.0007 0.0004 0.0476 0.0852 0.0557 0.1040 0.0560 0.0473 1_6_72 0.0009 0.0011 0.0010 0.0011 0.0012 0.0009 0.1652 0.0860 0.0784 0.0851 0.0751 0.1494 0.2_4_72 0.0003 0.0009 0.0009 0.0009 0.0008 0.0004 0.1444 0.0848 0.0787 0.0871 0.0753 0.1359 0.5_4_72 0.0003 0.0009 0.0009 0.0010 0.0009 0.0003 0.0911 0.0773 0.0691 0.0844 0.0661 0.0877 0.8_4_72 0.0004 0.0011 0.0008 0.0011 0.0007 0.0004 0.0466 0.0744 0.0512 0.0848 0.0505 0.0463 1_4_72 0.0008 0.0010 0.0009 0.0010 0.0010 0.0008 0.1737 0.1405 0.1168 0.1445 0.1154 0.1413 0.2_6_36 0.0004 0.0014 0.0012 0.0015 0.0012 0.0010 0.1433 0.1243 0.1116 0.1493 0.1097 0.1264 0.5_6_36 0.0005 0.0013 0.0012 0.0012 0.0011 0.0007 0.1006 0.1069 0.0968 0.1480 0.0948 0.0949 0.8_6_36 0.0008 0.0017 0.0011 0.0014 0.0013 0.0008 0.0613 0.1005 0.0733 0.1440 0.0777 0.0613 1_6_36 0.0012 0.0013 0.0014 0.0012 0.0022 0.0012 0.1284 0.0874 0.0768 0.0833 0.0740 0.1173 0.2_2_36 0.0010 0.0020 0.0012 0.0013 0.0012 0.0009 0.1171 0.0822 0.0781 0.0862 0.0738 0.1075 0.5_2_36 0.0006 0.0013 0.0012 0.0013 0.0012 0.0007 0.0851 0.0793 0.0734 0.0856 0.0696 0.0812 0.8_2_36 0.0008 0.0013 0.0011 0.0013 0.0012 0.0008 0.0567 0.0755 0.0608 0.0834 0.0596 0.0566 1_2_36 0.0012 0.0013 0.0015 0.0014 0.0012 0.0012

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

66

附表 1-5 測驗題型混和比例為 20%、施測人數 1000人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1607 0.1351 0.1148 0.1430 0.1137 0.1297 0.2_4_24 0.0007 0.0017 0.0013 0.0016 0.0015 0.0014 0.1468 0.1261 0.1153 0.1483 0.1130 0.1277 0.5_4_24 0.0007 0.0015 0.0013 0.0015 0.0014 0.0010 0.1012 0.1068 0.0999 0.1462 0.0973 0.0952 0.8_4_24 0.0009 0.0017 0.0013 0.0015 0.0013 0.0010 0.0708 0.1019 0.0798 0.1421 0.0840 0.0708 1_4_24 0.0016 0.0017 0.0017 0.0015 0.0026 0.0016 0.1301 0.0991 0.0894 0.1009 0.0874 0.1142 0.2_2_24 0.0015 0.0029 0.0015 0.0018 0.0016 0.0017 0.1227 0.0991 0.0921 0.1049 0.0885 0.1120 0.5_2_24 0.0009 0.0018 0.0015 0.0015 0.0014 0.0010 0.0901 0.0905 0.0853 0.1035 0.0807 0.0855 0.8_2_24 0.0011 0.0015 0.0016 0.0015 0.0014 0.0012 0.0680 0.0879 0.0732 0.1008 0.0720 0.0680 1_2_24 0.0017 0.0018 0.0017 0.0017 0.0026 0.0017

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

67

附表 1-6 測驗題型混和比例為 20%、施測人數 500人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1747 0.1051 0.0927 0.1041 0.0901 0.1562 0.2_6_72 0.0003 0.0014 0.0012 0.0015 0.0011 0.0006 0.1522 0.1026 0.0920 0.1070 0.0898 0.1423 0.5_6_72 0.0004 0.0013 0.0014 0.0015 0.0014 0.0005 0.0952 0.0884 0.0784 0.1037 0.0759 0.0914 0.8_6_72 0.0006 0.0014 0.0011 0.0014 0.0010 0.0006 0.0486 0.0856 0.0569 0.1040 0.0571 0.0483 1_6_72 0.0010 0.0012 0.0013 0.0012 0.0015 0.0010 0.1654 0.0861 0.0786 0.0850 0.0759 0.1504 0.2_4_72 0.0005 0.0013 0.0012 0.0013 0.0012 0.0006 0.1464 0.0851 0.0790 0.0872 0.0761 0.1382 0.5_4_72 0.0004 0.0013 0.0012 0.0014 0.0013 0.0005 0.0908 0.0775 0.0691 0.0845 0.0669 0.0875 0.8_4_72 0.0002 0.0006 0.0005 0.0006 0.0011 0.0003 0.0478 0.0749 0.0520 0.0850 0.0512 0.0475 1_4_72 0.0012 0.0014 0.0014 0.0014 0.0014 0.0012 0.1720 0.1386 0.1170 0.1445 0.1168 0.1428 0.2_6_36 0.0011 0.0019 0.0015 0.0018 0.0018 0.0015 0.1432 0.1242 0.1120 0.1491 0.1110 0.1269 0.5_6_36 0.0008 0.0021 0.0014 0.0019 0.0016 0.0010 0.1014 0.1064 0.0976 0.1486 0.0960 0.0955 0.8_6_36 0.0009 0.0019 0.0017 0.0019 0.0023 0.0010 0.0625 0.1012 0.0751 0.1438 0.0796 0.0624 1_6_36 0.0016 0.0018 0.0019 0.0017 0.0031 0.0016 0.1268 0.0885 0.0770 0.0835 0.0747 0.1161 0.2_2_36 0.0014 0.0029 0.0019 0.0019 0.0021 0.0014 0.1179 0.0820 0.0780 0.0858 0.0744 0.1091 0.5_2_36 0.0009 0.0019 0.0017 0.0020 0.0019 0.0010 0.0842 0.0791 0.0732 0.0853 0.0698 0.0804 0.8_2_36 0.0011 0.0019 0.0018 0.0019 0.0016 0.0012 0.0570 0.0752 0.0610 0.0830 0.0598 0.0567 1_2_36 0.0017 0.0020 0.0019 0.0020 0.0019 0.0016

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

68

附表 1-6 測驗題型混和比例為 20%、施測人數 500人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1611 0.1353 0.1148 0.1430 0.1150 0.1315 0.2_4_24 0.0022 0.0028 0.0018 0.0022 0.0022 0.0021 0.1482 0.1269 0.1156 0.1480 0.1147 0.1295 0.5_4_24 0.0011 0.0022 0.0019 0.0025 0.0011 0.0013 0.1017 0.1068 0.1006 0.1467 0.0990 0.0958 0.8_4_24 0.0015 0.0025 0.0021 0.0023 0.0025 0.0016 0.0720 0.1024 0.0811 0.1420 0.0857 0.0720 1_4_24 0.0020 0.0023 0.0022 0.0019 0.0031 0.0019 0.1291 0.1005 0.0891 0.1006 0.0875 0.1139 0.2_2_24 0.0020 0.0037 0.0020 0.0024 0.0019 0.0019 0.1253 0.0986 0.0922 0.1044 0.0890 0.1142 0.5_2_24 0.0015 0.0025 0.0021 0.0024 0.0022 0.0014 0.0890 0.0901 0.0846 0.1030 0.0807 0.0846 0.8_2_24 0.0014 0.0021 0.0021 0.0022 0.0018 0.0016 0.0685 0.0879 0.0736 0.1005 0.0727 0.0684 1_2_24 0.0019 0.0025 0.0020 0.0025 0.0019 0.0019

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

69

附表 1-7 測驗題型混和比例為 50%、施測人數 3000人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1785 0.1008 0.0895 0.0994 0.0861 0.1579 0.2_6_72 0.0001 0.0005 0.0004 0.0005 0.0004 0.0003 0.1469 0.0930 0.0845 0.0963 0.0807 0.1380 0.5_6_72 0.0001 0.0005 0.0005 0.0005 0.0005 0.0002 0.0945 0.0844 0.0742 0.0959 0.0711 0.0913 0.8_6_72 0.0002 0.0006 0.0004 0.0005 0.0004 0.0002 0.0466 0.0827 0.0528 0.0996 0.0522 0.0462 1_6_72 0.0004 0.0005 0.0005 0.0005 0.0005 0.0004 0.1694 0.0819 0.0757 0.0814 0.0725 0.1530 0.2_4_72 0.0001 0.0005 0.0005 0.0006 0.0005 0.0003 0.1390 0.0772 0.0721 0.0787 0.0684 0.1316 0.5_4_72 0.0001 0.0005 0.0005 0.0005 0.0004 0.0001 0.0906 0.0730 0.0656 0.0782 0.0628 0.0876 0.8_4_72 0.0002 0.0005 0.0004 0.0005 0.0005 0.0002 0.0461 0.0725 0.0493 0.0813 0.0475 0.0458 1_4_72 0.0004 0.0005 0.0005 0.0005 0.0004 0.0004 0.1781 0.1361 0.1126 0.1356 0.1101 0.1445 0.2_6_36 0.0002 0.0007 0.0005 0.0007 0.0006 0.0005 0.1521 0.1236 0.1106 0.1393 0.1084 0.1366 0.5_6_36 0.0003 0.0007 0.0006 0.0007 0.0007 0.0004 0.1005 0.1007 0.0938 0.1335 0.0895 0.0951 0.8_6_36 0.0003 0.0008 0.0006 0.0007 0.0005 0.0004 0.0590 0.0968 0.0701 0.1356 0.0718 0.0589 1_6_36 0.0007 0.0008 0.0008 0.0007 0.0011 0.0007 0.1353 0.0803 0.0734 0.0784 0.0705 0.1234 0.2_2_36 0.0010 0.0011 0.0007 0.0007 0.0007 0.0007 0.1185 0.0784 0.0746 0.0806 0.0704 0.1106 0.5_2_36 0.0004 0.0007 0.0007 0.0007 0.0007 0.0004 0.0838 0.0727 0.0682 0.0773 0.0642 0.0803 0.8_2_36 0.0004 0.0007 0.0006 0.0007 0.0007 0.0004 0.0551 0.0720 0.0580 0.0784 0.0559 0.0549 1_2_36 0.0006 0.0007 0.0006 0.0007 0.0006 0.0006

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

70

附表 1-7 測驗題型混和比例為 50%、施測人數 3000人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1630 0.1306 0.1090 0.1317 0.1068 0.1306 0.2_4_24 0.0005 0.0013 0.0007 0.0008 0.0007 0.0006 0.1397 0.1194 0.1086 0.1381 0.1068 0.1230 0.5_4_24 0.0004 0.0010 0.0007 0.0010 0.0007 0.0005 0.1026 0.1036 0.0967 0.1340 0.0919 0.0963 0.8_4_24 0.0004 0.0009 0.0008 0.0009 0.0007 0.0005 0.0666 0.0945 0.0771 0.1317 0.0798 0.0668 1_4_24 0.0007 0.0008 0.0009 0.0008 0.0012 0.0007 0.1341 0.0980 0.0842 0.0930 0.0814 0.1189 0.2_2_24 0.0006 0.0017 0.0007 0.0009 0.0007 0.0005 0.1196 0.0921 0.0866 0.0980 0.0831 0.1085 0.5_2_24 0.0005 0.0008 0.0007 0.0009 0.0007 0.0005 0.0897 0.0858 0.0808 0.0949 0.0759 0.0853 0.8_2_24 0.0006 0.0009 0.0008 0.0009 0.0009 0.0006 0.0631 0.0810 0.0662 0.0931 0.0638 0.0631 1_2_24 0.0008 0.0010 0.0009 0.0009 0.0009 0.0008

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

71

附表 1-8 測驗題型混和比例為 50%、施測人數 1000人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1777 0.1001 0.0893 0.0992 0.0863 0.1586 0.2_6_72 0.0002 0.0009 0.0008 0.0009 0.0008 0.0004 0.1474 0.0932 0.0846 0.0964 0.0811 0.1383 0.5_6_72 0.0002 0.0009 0.0008 0.0009 0.0007 0.0003 0.0951 0.0845 0.0743 0.0959 0.0715 0.0917 0.8_6_72 0.0003 0.0010 0.0007 0.0009 0.0007 0.0004 0.0458 0.0829 0.0531 0.0989 0.0520 0.0455 1_6_72 0.0007 0.0009 0.0010 0.0009 0.0009 0.0007 0.1682 0.0818 0.0757 0.0812 0.0727 0.1528 0.2_4_72 0.0002 0.0009 0.0009 0.0009 0.0008 0.0003 0.1409 0.0770 0.0723 0.0787 0.0687 0.1332 0.5_4_72 0.0002 0.0009 0.0008 0.0009 0.0008 0.0002 0.0907 0.0730 0.0657 0.0782 0.0631 0.0877 0.8_4_72 0.0003 0.0009 0.0007 0.0010 0.0007 0.0003 0.0451 0.0725 0.0487 0.0809 0.0470 0.0449 1_4_72 0.0007 0.0009 0.0008 0.0009 0.0007 0.0007 0.1778 0.1350 0.1127 0.1352 0.1106 0.1461 0.2_6_36 0.0007 0.0013 0.0011 0.0014 0.0011 0.0008 0.1533 0.1242 0.1111 0.1394 0.1092 0.1372 0.5_6_36 0.0005 0.0014 0.0010 0.0014 0.0012 0.0006 0.1012 0.1008 0.0944 0.1336 0.0905 0.0957 0.8_6_36 0.0006 0.0011 0.0010 0.0011 0.0012 0.0006 0.0585 0.0978 0.0710 0.1348 0.0721 0.0584 1_6_36 0.0010 0.0014 0.0014 0.0014 0.0015 0.0010 0.1349 0.0801 0.0732 0.0783 0.0707 0.1232 0.2_2_36 0.0017 0.0019 0.0012 0.0011 0.0012 0.0011 0.1204 0.0781 0.0747 0.0804 0.0707 0.1124 0.5_2_36 0.0007 0.0014 0.0012 0.0014 0.0013 0.0007 0.0841 0.0729 0.0686 0.0775 0.0643 0.0805 0.8_2_36 0.0007 0.0013 0.0011 0.0013 0.0012 0.0007 0.0540 0.0718 0.0573 0.0779 0.0551 0.0539 1_2_36 0.0009 0.0012 0.0011 0.0013 0.0009 0.0009

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

72

附表 1-8 測驗題型混和比例為 50%、施測人數 1000人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1626 0.1283 0.1090 0.1315 0.1074 0.1317 0.2_4_24 0.0006 0.0016 0.0013 0.0014 0.0013 0.0010 0.1419 0.1198 0.1092 0.1380 0.1077 0.1247 0.5_4_24 0.0006 0.0016 0.0013 0.0016 0.0014 0.0010 0.1032 0.1037 0.0969 0.1343 0.0928 0.0968 0.8_4_24 0.0007 0.0016 0.0013 0.0016 0.0013 0.0008 0.0663 0.0955 0.0775 0.1309 0.0794 0.0666 1_4_24 0.0013 0.0016 0.0015 0.0015 0.0020 0.0013 0.1337 0.0967 0.0840 0.0926 0.0815 0.1187 0.2_2_24 0.0011 0.0027 0.0014 0.0015 0.0014 0.0010 0.1215 0.0924 0.0869 0.0979 0.0837 0.1104 0.5_2_24 0.0008 0.0013 0.0013 0.0014 0.0013 0.0009 0.0901 0.0858 0.0810 0.0949 0.0763 0.0857 0.8_2_24 0.0008 0.0013 0.0013 0.0014 0.0014 0.0009 0.0624 0.0813 0.0657 0.0928 0.0633 0.0625 1_2_24 0.0012 0.0014 0.0014 0.0015 0.0013 0.0012

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

73

附表 1-9 測驗題型混和比例為 50%、施測人數 500人情形之 RMSE

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1757 0.0995 0.0893 0.0990 0.0868 0.1583 0.2_6_72 0.0003 0.0014 0.0012 0.0014 0.0012 0.0006 0.1469 0.0931 0.0849 0.0963 0.0817 0.1382 0.5_6_72 0.0003 0.0013 0.0010 0.0014 0.0010 0.0003 0.0945 0.0845 0.0746 0.0965 0.0719 0.0911 0.8_6_72 0.0005 0.0013 0.0009 0.0013 0.0009 0.0005 0.0467 0.0831 0.0543 0.0988 0.0531 0.0464 1_6_72 0.0011 0.0012 0.0016 0.0013 0.0013 0.0011 0.1680 0.0815 0.0754 0.0808 0.0728 0.1533 0.2_4_72 0.0004 0.0012 0.0011 0.0012 0.0011 0.0005 0.1425 0.0769 0.0723 0.0785 0.0690 0.1350 0.5_4_72 0.0003 0.0013 0.0011 0.0013 0.0011 0.0003 0.0899 0.0731 0.0659 0.0785 0.0633 0.0869 0.8_4_72 0.0005 0.0011 0.0010 0.0011 0.0010 0.0005 0.0466 0.0726 0.0498 0.0809 0.0480 0.0463 1_4_72 0.0010 0.0012 0.0011 0.0013 0.0011 0.0010 0.1764 0.1338 0.1128 0.1351 0.1119 0.1472 0.2_6_36 0.0013 0.0017 0.0016 0.0019 0.0017 0.0014 0.1535 0.1246 0.1116 0.1398 0.1103 0.1378 0.5_6_36 0.0007 0.0020 0.0016 0.0019 0.0017 0.0008 0.1007 0.1005 0.0943 0.1341 0.0909 0.0951 0.8_6_36 0.0010 0.0020 0.0013 0.0019 0.0014 0.0011 0.0595 0.0979 0.0727 0.1345 0.0739 0.0595 1_6_36 0.0015 0.0018 0.0020 0.0017 0.0021 0.0013 0.1329 0.0803 0.0731 0.0782 0.0710 0.1216 0.2_2_36 0.0020 0.0023 0.0016 0.0018 0.0016 0.0014 0.1225 0.0779 0.0747 0.0801 0.0709 0.1146 0.5_2_36 0.0009 0.0018 0.0018 0.0019 0.0016 0.0009 0.0827 0.0728 0.0681 0.0774 0.0644 0.0793 0.8_2_36 0.0010 0.0016 0.0014 0.0016 0.0015 0.0010 0.0549 0.0722 0.0579 0.0781 0.0560 0.0547 1_2_36 0.0015 0.0019 0.0017 0.0019 0.0017 0.0016

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

74

附表 1-9 測驗題型混和比例為 50%、施測人數 500人情形之 RMSE(續)

RMSE / STD 不同實驗設計 IRT OPI REG PC REGP WIRT

0.1630 0.1284 0.1093 0.1316 0.1088 0.1332 0.2_4_24 0.0017 0.0020 0.0016 0.0020 0.0029 0.0017 0.1440 0.1211 0.1103 0.1382 0.1094 0.1268 0.5_4_24 0.0010 0.0021 0.0015 0.0022 0.0017 0.0012 0.1030 0.1038 0.0969 0.1347 0.0935 0.0967 0.8_4_24 0.0016 0.0022 0.0022 0.0021 0.0019 0.0016 0.0676 0.0960 0.0791 0.1309 0.0812 0.0677 1_4_24 0.0017 0.0024 0.0024 0.0023 0.0033 0.0017 0.1322 0.0980 0.0839 0.0929 0.0818 0.1179 0.2_2_24 0.0013 0.0039 0.0019 0.0021 0.0019 0.0014 0.1219 0.0924 0.0869 0.0976 0.0842 0.1115 0.5_2_24 0.0013 0.0024 0.0020 0.0022 0.0020 0.0014 0.0893 0.0859 0.0810 0.0949 0.0763 0.0851 0.8_2_24 0.0014 0.0023 0.0021 0.0023 0.0015 0.0016 0.0628 0.0814 0.0658 0.0926 0.0638 0.0628 1_2_24 0.0019 0.0022 0.0020 0.0022 0.0019 0.0019

不同實驗設計中代號為 N_R_m,N為次級量尺間相關,R為次級量尺數, m為題本試題數

75

附錄二 等化測驗設計之誤差RMSE

附表 2-1 定錨試題於不同次級量尺情形之 RMSE

RMSE / STD 受試者人數 次級量尺

相關程度 IRT OPI WIRT REGP 0.1582 0.1146 0.1383 0.1096 0.2 0.0013 0.0020 0.0064 0.0017 0.1289 0.1049 0.1156 0.1078 0.5 0.0010 0.0015 0.0015 0.0024 0.1043 0.1024 0.0992 0.1049 0.8 0.0011 0.0014 0.0012 0.0018 0.0742 0.0965 0.0749 0.0773

500

1 0.0016 0.0016 0.0016 0.0023 0.1504 0.1110 0.1284 0.1099 0.2 0.0008 0.0019 0.0034 0.0015 0.1342 0.1080 0.1173 0.1020 0.5 0.0008 0.0012 0.0013 0.0012 0.0933 0.0952 0.0886 0.0976 0.8 0.0009 0.0013 0.0011 0.0011 0.0729 0.0934 0.0734 0.0761

1000

1 0.0010 0.0013 0.0011 0.0012 0.1419 0.1108 0.1189 0.1051 0.2 0.0008 0.0011 0.0024 0.0008 0.1270 0.1063 0.1140 0.1027 0.5 0.0005 0.0007 0.0013 0.0132 0.1049 0.1027 0.0993 0.0970 0.8 0.0005 0.0008 0.0005 0.0007 0.0756 0.0994 0.0761 0.0788

3000

1 0.0007 0.0008 0.0007 0.0008

76

附表 2-2 定錨試題於相同次級量尺情形之 RMSE

RMSE / STD 受試者人數 次級量尺

相關程度 IRT OPI WIRT REGP 0.1569 0.1148 0.1417 0.1027 0.2 0.0017 0.0023 0.0100 0.0020 0.1295 0.1073 0.1158 0.1017 0.5 0.0010 0.0018 0.0019 0.0022 0.1042 0.1029 0.0994 0.0924 0.8 0.0013 0.0018 0.0014 0.0020 0.0764 0.0976 0.0771 0.0822

500

1 0.0016 0.0019 0.0016 0.0027 0.1485 0.1129 0.1304 0.1108 0.2 0.0008 0.0031 0.0039 0.0019 0.1336 0.1065 0.1187 0.1038 0.5 0.0009 0.0013 0.0018 0.0015 0.1038 0.1030 0.0986 0.0966 0.8 0.0009 0.0014 0.0010 0.0013 0.0735 0.0966 0.0745 0.0838

1000

1 0.0010 0.0013 0.0011 0.0023 0.1384 0.1111 0.1176 0.1069 0.2 0.0005 0.0010 0.0013 0.0010 0.1301 0.1084 0.1163 0.1032 0.5 0.0006 0.0007 0.0009 0.0008 0.1047 0.1032 0.0991 0.0970 0.8 0.0005 0.0008 0.0006 0.0009 0.0758 0.0997 0.0763 0.0826

3000

1 0.0007 0.0007 0.0007 0.0010

77

附表 2-3 REG方法下定錨試題於不同次級量尺情形之 RMSE

RMSE / STD 受試者人數 次級量尺

相關程度 平均數等化法 線性等化法 等百分位數等化法 0.1694 0.1706 0.1209 0.2 0.0022 0.0025 0.0026 0.1603 0.1664 0.1139 0.5 0.0023 0.0047 0.0026 0.1287 0.1258 0.0986 0.8 0.0024 0.0024 0.0015 0.1021 0.1092 0.0861

500

1 0.0026 0.0038 0.0024 0.1857 0.1968 0.1305 0.2 0.0018 0.0035 0.0024 0.1556 0.1561 0.1045 0.5 0.0016 0.0021 0.0016 0.1356 0.1353 0.0987 0.8 0.0019 0.0022 0.0013 0.0970 0.1041 0.1058

1000

1 0.0023 0.0036 0.0016 0.1803 0.1781 0.1245 0.2 0.0009 0.0009 0.0009 0.1720 0.1741 0.1226 0.5 0.0009 0.0011 0.0010 0.1362 0.1369 0.1115 0.8 0.0011 0.0011 0.0008 0.0983 0.0978 0.0976

3000

1 0.0012 0.0012 0.0009

78

附表 2-4 REG方法下定錨試題於相同次級量尺情形之 RMSE

RMSE / STD 受試者人數 次級量尺

相關程度 平均數等化法 線性等化法 等百分位數等化法 0.1808 0.1898 0.1244 0.2 0.0023 0.0043 0.0031 0.1434 0.1541 0.1171 0.5 0.0019 0.0033 0.0025 0.1171 0.1209 0.0944 0.8 0.0026 0.0042 0.0019 0.0943 0.0992 0.0941

500

1 0.0029 0.0041 0.0020 0.1849 0.1921 0.1274 0.2 0.0014 0.0029 0.0021 0.1569 0.1600 0.1161 0.5 0.0015 0.0026 0.0016 0.1200 0.1257 0.1022 0.8 0.0017 0.0035 0.0014 0.0928 0.1128 0.0903

1000

1 0.0020 0.0043 0.0013 0.1732 0.1814 0.1279 0.2 0.0007 0.0021 0.0013 0.1589 0.1688 0.1256 0.5 0.0009 0.0017 0.0013 0.1343 0.1340 0.1179 0.8 0.0011 0.0011 0.0010 0.0985 0.0978 0.1050

3000

1 0.0012 0.0015 0.0008

79

附表 2-5 PC方法下定錨試題於不同次級量尺情形之 RMSE

RMSE / STD 受試者人數 次級量尺

相關程度 平均數等化法 線性等化法 等百分位數等化法 0.1924 0.1932 0.1144 0.2 0.0024 0.0024 0.0018 0.1804 0.1858 0.1148 0.5 0.0024 0.0042 0.0017 0.1520 0.1494 0.1167 0.8 0.0025 0.0025 0.0018 0.1302 0.1380 0.1088

500

1 0.0026 0.0037 0.0018 0.2068 0.2163 0.1196 0.2 0.0019 0.0032 0.0014 0.1746 0.1750 0.1055 0.5 0.0017 0.0019 0.0014 0.1568 0.1566 0.1126 0.8 0.0019 0.0021 0.0014 0.1261 0.1307 0.1316

1000

1 0.0020 0.0027 0.0015 0.1990 0.1982 0.1228 0.2 0.0009 0.0009 0.0009 0.1904 0.1918 0.1203 0.5 0.0009 0.0010 0.0008 0.1576 0.1580 0.1209 0.8 0.0011 0.0011 0.0008 0.1274 0.1271 0.1221

3000

1 0.0011 0.0011 0.0008

80

附表 2-6 PC方法下定錨試題於相同次級量尺情形之 RMSE

RMSE / STD 受試者人數 次級量尺

相關程度 平均數等化法 線性等化法 等百分位數等化法 0.2017 0.2085 0.1128 0.2 0.0025 0.0036 0.0018 0.1693 0.1782 0.1120 0.5 0.0023 0.0030 0.0017 0.1466 0.1499 0.1107 0.8 0.0029 0.0039 0.0021 0.1217 0.1260 0.1150

500

1 0.0029 0.0039 0.0018 0.2057 0.2118 0.1187 0.2 0.0015 0.0026 0.0012 0.1780 0.1806 0.1191 0.5 0.0016 0.0023 0.0012 0.1486 0.1537 0.1175 0.8 0.0018 0.0033 0.0012 0.1173 0.1381 0.1132

1000

1 0.0019 0.0041 0.0015 0.1967 0.2033 0.1183 0.2 0.0008 0.0018 0.0006 0.1805 0.1893 0.1255 0.5 0.0010 0.0016 0.0007 0.1562 0.1560 0.1277 0.8 0.0011 0.0012 0.0010 0.1271 0.1267 0.1291

3000

1 0.0011 0.0013 0.0008