第六章累进效度及辩论（三）

第六章累进效度及辩论（三）

湖南师范大学外国语学院邓杰教授

教学目标

了解实施环节的基本概念、焦点问题及证据来源

了解项目反应理论的基本原理了解 WinSteps 软件的功能和使用方法了解 WinFacets 软件的功能和使用方法

实施效度

基本概念：测试真实性；答题行为分析方法；项目反应理论焦点问题：考生反应的相关性、真实性、交互性证据来源：考生答卷、调查问卷；监考须知、监考步骤、监考记录；答题过程的调查、访谈等

基本概念1. 测试真实性（ Authenticity ）：答题过程体现实际语言使用的程度

真实生活任务（ Real-life tasks ）：日常生活中有可能碰到的活动，通常不受课程教学内容的约束

语言教学任务（ Language instructional tasks ）：课程教学活动，亦可与日常生活相关

2. 答题行为分析方法（ Response Analysis Methods ）观察法（ Observation ）、问卷调查法（ Questionnaire ）、访谈法

（ Interview ）内省法（ Introspection ）、反省法（ Retrospection ）、有声思维

（ Think-Aloud ）眼动跟踪（ Eye-tracking ）

项目反应理论（ Item Response Theory ，IRT ）理论模型

单参数： 1PL-One-Parameter Logistic Model ，难度（ b ）双参数： 2PL-Two-Parameter Logistic Model ，难度（ b ）和区分度

（ a ）三参数： 3PL-Three-Parameter Logistic Model ，难度（ b ）、区分度

（ a ）和猜测概率（ c ）多维度 : Many-Facets Rash Model ，影响成绩的多个方面，如评分员、

评分方法、话题类别等数值类型

二项值（ Dichotomous ）： 0 和 1 ，分别表示答错和答对多项值（ Polytomous ）：非 0 － 1 值，用于等级量表（ Rating Scale ）

和部分得分（ Partial Credit ）模型。每个值项表示一个类别，代表量表中的等级（始于 1 ），或满分中的任一部分分数（始于 0 ）

考生能力与项目难度

　 Items 　　　　Persons c i a l b h k d f j e g Ability p q Ln(p/q)N 1 1 1 1 1 1 1 1 1 1 1 1 12 1.00 0.00 J 1 1 1 0 1 1 1 1 1 0 0 1 8 0.73 0.27 0.98 C 1 1 1 1 1 1 1 0 0 1 1 0 8 0.73 0.27 0.98 E 1 1 0 1 1 1 1 0 1 1 0 0 7 0.64 0.36 0.56 L 1 1 0 1 1 1 1 0 1 1 1 0 8 0.73 0.27 0.98 I 1 1 1 1 1 1 0 1 0 0 0 0 6 0.55 0.45 0.18 F 1 1 1 1 1 1 0 1 0 0 1 0 7 0.64 0.36 0.56 K 1 1 1 1 0 0 1 0 1 0 0 0 5 0.45 0.55 -0.18 A 1 1 1 1 1 1 0 0 0 0 0 0 5 0.45 0.55 -0.18 G 1 1 1 1 0 0 1 0 1 0 0 0 5 0.45 0.55 -0.18 D 1 1 1 1 0 0 0 1 0 0 0 0 4 0.36 0.64 -0.56 B 1 1 1 0 0 0 0 1 0 0 0 0 3 0.27 0.73 -0.98 H 1 0 1 1 0 0 0 0 0 0 0 0 2 0.18 0.82 -1.50 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0.00 1.00 Facility 13 11 10 10 7 7 6 5 5 3 3 1 　　　　p 1.00 0.92 0.83 0.83 0.58 0.58 0.50 0.42 0.42 0.25 0.25 0.08 q 0.00 0.08 0.17 0.17 0.42 0.42 0.50 0.58 0.58 0.75 0.75 0.92 Ln(q/p) 　 -2.40 -1.61 -1.61 -0.34 -0.34 0.00 0.34 0.34 1.10 1.10 2.40 　　　　

Log odds （比余对数）比率与其余数之比的自然对数

Extreme cases

百分比到比余对数

集中趋势（ central tendency ）

地板效应(floor effect)

天花板效应（ ceiling effect ）

Ln(95/5)

Ln(5/95)

5%

95%

50% Ln(50/50)

比余对数

10%

Ln(10/90)

将考生能力和项目难度都映射到同一量表（比余对数），使之可比。

单参数模型（ 1PL ）

1. 难度与能力相等时，信息量最大（对于考生，中等难度的项目最好；对于项目，适应中等水平时最佳）

2. 项目的最大信息量为 0.25 （答对与答错的概率均为 50 ％时）

项目特征和项目信息量

),(1),( iiii bPbQ

为考生能力； b 为项目难度； P 为答对的概率

(1) (2) (3)

项目特征曲线（ Item Characteristic Curve ）

How closely the difficulty of the item matches the ability of the person

1PL 测试信息量及标准误 (SEM)测试信息量等于项目信息量之和

5

个项目的测

试

最大测试信息量为1.25

能力方差为测试信息量的倒数，测试标准误为能力方差的平方根

项目的最大标准误为

1 信息量越大，误差越小

.25

双参数模型（ 2PL ）

a 为项目区分度

1. ICC 越陡峭，区分度越好，信息量越大2. 单参数模型中， ICC 斜率相同，不同难

度的 ICC 互不交叉，但双参数模型中，不同难度的 ICC 由于区分度不同则有可能交叉

2PL 的测试信息量及标准误

1. 信息量越大，误差越小2. 图中测试，由于项目数量少（仅

3 个），测试信息量基本取决于单个项目（区分度好的项目）

蓝线－测试信息量红线－测试标准误黑线－项目信息量

三参数模型（ 3PL ）

c

a

b

1. c 为猜测概率2. b 不再等于 0.53. 猜测概率导致信息量下降，

误差增加

i

ijj c

cP

P

QaI

22

1

)(

)(

)()(

iijj c

cPPQ

aISEM2

2

1)(

)()(

1)(1)(

WinSteps 软件的结果图表解读单参数模型应用示例

项目难度估计及拟合分析The most difficult item is the highest vertically. This is item 21.The easiest item is the lowest vertically. This is item 6.The most predictable item is the left-most item. It is item 17. The least predictable item is the right-most item, again item 21.Items along the vertical 0 line exhibit the degree of predictability that accords with the Rasch model

泡泡图（ Bubble Chart ）

t 值以正负 2 之间为宜：1.越接近 0 ，越与模型预测一致；2.>2 时，有可能拟合不够（ under fit ）3.<-2 时，有可能拟合过度（ over fit ）4.是否拟合不够或过度，应结合标准化残差均方根（ MNSQ ）进行分析

考生能力估计及拟合分析同理

标准化界内拟合 t 值

项目难度及拟合情况

项目 21 和 30 的界内拟合指数 ZSTD 均大于 2 ，但 MNSQ 均在可接受范围，因此还不足以否定项目的有效性

标准化残差均方根（MNSQ）的期望值为 1，超出一定比例为拟合不够（误差太大），低于一定比例为拟合过度（太过完美）。合适的波动比例依样本量而定。

样本量适宜比例拟合不够拟合过度

<500 30% > 1.3 < 0.7

500~1000 20% > 1.2 < 0.8

>1000 10% > 1.1 < 0.9

考生能力及拟合情况

考生 4 的能力最强（ 3.95 ），但界外拟合最差（ 4.48 的MNSQ 越大于期望值 1 ），说明该生能力最难预测，肯定有很容易的项目答错了。

考生－项目分布图

测试的难度不够：1.绝大多数考生的能力处于 0 ～ 4 之间，均值为 22.能力在 2.5 以上的考生众多，但却没有相应难度的项目3.绝大多数项目的难度在 -1 ～ 1 之间，均值为 04.难度在 0 以下的项目众多，但考生只有4 人；难度最小的 6 个项目甚至没有考生

项目特征曲线 (Item Characteristic Curve ， ICC )红线－模型预测曲线蓝线－观测数据曲线灰线－置信度（通常为 95％）的上线和下线

1. 能力在 2 以上的考生全部答对（项目难以区分高端考生）

2. 能力为－ 1 处有考生答对了（猜测）

3. 所有点都落在置信范围之内（整体功能仍然不错）

项目难度问题

能力低于难度 4 个洛基单位（ -4 ）处，有人答对了，且能力与难度差值在 -4 ～ 1 之间的答对概率为 0.25 ，相当于 4选项选择题的随机概率，说明该项目的猜测现象很严重。

原因是该项目的难度大（所有项目中难度最大）

项目区分度问题

蓝线低端和顶端区分度差，但中间部分的区分度问题更严重。能力与项目差值在 -2 至 1 之间的答对概率都在 50 ％左右。

WinSteps 软件的结果图表解读多项值分析示例

原始数据

R 意为逆向 (reversed)。同时使用正向和逆向项目，可探测出反应是否未经思考，以避免成见效应（ Halo Effect －因为成见而不加思索地为所有项目选择同一个值）逆向项目的值

应转换为正向值。

能力、难度和区分度估计

PTMEA Corr. －Point-Measure Correlation项目与测试的相关系数，即项目区分度。期望值为正相关，正值越大，正相关越强，区分度越好。

25R 本为“逆向”项，转换后相关系数为正值

项目难度估计

项目拟合度估计

界内和界外拟合都大于 2 ，拟合不足（ Underfit ）

界内和界外拟合都小于 -2 ，拟合过度（ Overfit ）

结构分析去掉拟合过度 (17,18,22,6) 和拟合不足 (25,9,20 ）的项目iDelete=17,18,22,6,25,9,20

最难项目（ 13 ）的两个最高级别的交汇处

最易项目（ 15 ）的两个最低级别的交汇处

类别的次序颠倒，意味着量表结构存在问题

M 为均值，人数为 33

各类别的难度应该单调递增，而不应颠倒

量表结构调整示例

量表质量诊断 (五级）

Category Label

Observed Count

Average Measure

Infit Mean Square

Outfit Mean Square

Threshold Calibration

1 190 -2.08 0.77 0.83 None

2 207 -0.86 0.93 1.01 -1.51

3 179 0.15 1.13 1.88 -0.36

4 7 1.71 0.33 0.90 3.57

5 113 1.18 1.45 1.47 -1.70

频数极小且难度级别的顺序颠倒

基本无法在图中体现

45 合并 (12344) 与 43 合并(12334)结果

Category Label

Observed Count

Average Measure

Infit Mean Square

Outfit Mean Square

Threshold Calibration

45 合 43 合 45 合 43 合 45 合 43 合 45 合 43 合 45 合 43 合

1 190 190 -2.5 -2.49 0.72 0.72 0.79 0.79 None None

2 207 207 -0.83 -0.84 0.97 0.94 0.92 0.90 -1.74 -1.74

3 179 186 0.79 0.83 0.88 0.87 1.35 1.27 -0.12 -0.15

4 120 113 1.96 1.91 1.39 1.43 1.31 1.34 1.86 1.88

合并后，各级别均有一定观测数量；难度单调递增；界内和界外拟合均在 -2 和 2 之间；门槛值亦单调递增

三个量表对比分析

Category Label

Average Measure

FitStep

CalibrationsPerson

SeparationItem

Separation

12345 Disordered < 2.0 Disordered 1.36 None

12344 （ 45合）

Ordered < 2.0 Ordered 2.06 8.23

12334 （ 43合）

Ordered < 2.0 Ordered 1.90 8.16

45 合并的考生和项目分隔值均大于 43 合并的两个对应值，说明45 合并较 43 合并区分更好

WinSteps软件结果图表解读部分得分（ Partial Credit ）模型

控制文件设计

评分等级

部分得分：各项目的评分等级可以各不相同

项目标签

考生－项目得分图

考生均值

项目均值

各部分分值的得分项目及难度

WinFacets软件结果图表解读多维分析

所有维度的纵向“尺度”

维度 2 －评判对象维度 1 －评分员维度 3 －评判内容

值跨度

“+” －正向观测值越大，估计值越大

“-” －逆向观测值越大，估计值越小

Brahe 估计值最大，观测值最小，评分最严厉

Betty估计值最大，观测值最大，得分最高，能力最强

结果报告

负向：给分越少越，越严厉

负向：得分越少，难度最大

正向：得分越多，能力最强

偏差 /交互分析

与其他评分员不一致

非期望评判结果

意外评分员

可简化为 3 类

第六章 累进效度及辩论 （ 三）

Documents

第六章累进效度及辩论（三）