第六章 累进效度及辩论 ( 三)

38
第第第 第第第第第第第 第第 () 第第第第第第第第第第第 第 第第

Upload: riona

Post on 15-Jan-2016

113 views

Category:

Documents


0 download

DESCRIPTION

第六章 累进效度及辩论 ( 三). 湖南师范大学外国语学院 邓 杰 教授. 教学目标. 了解实施环节的基本概念、焦点问题及证据来源 了解项目反应理论的基本原理 了解 WinSteps 软件的功能和使用方法 了解 WinFacets 软件的功能和使用方法. 基本概念:测试真实性;答题行为分析方法;项目反应理论 焦点问题:考生反应的相关性、真实性、交互性 证据来源:考生答卷、调查问卷;监考须知、监考步骤、监考记录;答题过程的调查、访谈等. 实施效度. 基本概念. 测试真实性( Authenticity ):答题过程体现实际语言使用的程度 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第六章 累进效度及辩论 ( 三)

第六章 累进效度及辩论(三)

湖南师范大学外国语学院邓 杰 教授

Page 2: 第六章 累进效度及辩论 ( 三)

教学目标

了解实施环节的基本概念、焦点问题及证据来源

了解项目反应理论的基本原理 了解 WinSteps 软件的功能和使用方法 了解 WinFacets 软件的功能和使用方法

Page 3: 第六章 累进效度及辩论 ( 三)

实施效度

基本概念:测试真实性;答题行为分析方法;项目反应理论焦点问题:考生反应的相关性、真实性、交互性证据来源:考生答卷、调查问卷;监考须知、监考步骤、监考记录;答题过程的调查、访谈等

Page 4: 第六章 累进效度及辩论 ( 三)

基本概念1. 测试真实性( Authenticity ):答题过程体现实际语言使用的程度

真实生活任务( Real-life tasks ):日常生活中有可能碰到的活动,通常不受课程教学内容的约束

语言教学任务( Language instructional tasks ):课程教学活动,亦可与日常生活相关

2. 答题行为分析方法( Response Analysis Methods ) 观察法( Observation )、问卷调查法( Questionnaire )、访谈法

( Interview ) 内省法( Introspection )、反省法( Retrospection )、有声思维

( Think-Aloud ) 眼动跟踪( Eye-tracking )

Page 5: 第六章 累进效度及辩论 ( 三)

项目反应理论( Item Response Theory ,IRT ) 理论模型

单参数: 1PL-One-Parameter Logistic Model ,难度( b ) 双参数: 2PL-Two-Parameter Logistic Model ,难度( b )和区分度

( a ) 三参数: 3PL-Three-Parameter Logistic Model ,难度( b )、区分度

( a )和猜测概率( c ) 多维度 : Many-Facets Rash Model ,影响成绩的多个方面,如评分员、

评分方法、话题类别等 数值类型

二项值( Dichotomous ): 0 和 1 ,分别表示答错和答对 多项值( Polytomous ):非 0 - 1 值,用于等级量表( Rating Scale )

和部分得分( Partial Credit )模型。每个值项表示一个类别,代表量表中的等级(始于 1 ),或满分中的任一部分分数(始于 0 )

Page 6: 第六章 累进效度及辩论 ( 三)

考生能力与项目难度

  Items        Persons c i a l b h k d f j e g Ability p q Ln(p/q)N 1 1 1 1 1 1 1 1 1 1 1 1 12 1.00 0.00 J 1 1 1 0 1 1 1 1 1 0 0 1 8 0.73 0.27 0.98 C 1 1 1 1 1 1 1 0 0 1 1 0 8 0.73 0.27 0.98 E 1 1 0 1 1 1 1 0 1 1 0 0 7 0.64 0.36 0.56 L 1 1 0 1 1 1 1 0 1 1 1 0 8 0.73 0.27 0.98 I 1 1 1 1 1 1 0 1 0 0 0 0 6 0.55 0.45 0.18 F 1 1 1 1 1 1 0 1 0 0 1 0 7 0.64 0.36 0.56 K 1 1 1 1 0 0 1 0 1 0 0 0 5 0.45 0.55 -0.18 A 1 1 1 1 1 1 0 0 0 0 0 0 5 0.45 0.55 -0.18 G 1 1 1 1 0 0 1 0 1 0 0 0 5 0.45 0.55 -0.18 D 1 1 1 1 0 0 0 1 0 0 0 0 4 0.36 0.64 -0.56 B 1 1 1 0 0 0 0 1 0 0 0 0 3 0.27 0.73 -0.98 H 1 0 1 1 0 0 0 0 0 0 0 0 2 0.18 0.82 -1.50 M 0 0 0 0 0 0 0 0 0 0 0 0 0 0.00 1.00 Facility 13 11 10 10 7 7 6 5 5 3 3 1        p 1.00 0.92 0.83 0.83 0.58 0.58 0.50 0.42 0.42 0.25 0.25 0.08 q 0.00 0.08 0.17 0.17 0.42 0.42 0.50 0.58 0.58 0.75 0.75 0.92 Ln(q/p)   -2.40 -1.61 -1.61 -0.34 -0.34 0.00 0.34 0.34 1.10 1.10 2.40        

Log odds (比余对数)比率与其余数之比的自然对数

Extreme cases

Page 7: 第六章 累进效度及辩论 ( 三)

百分比到比余对数

集中趋势( central tendency )

地板效应(floor effect)

天花板效应( ceiling effect )

Ln(95/5)

Ln(5/95)

5%

95%

50% Ln(50/50)

比余对数

10%

Ln(10/90)

将考生能力和项目难度都映射到同一量表(比余对数),使之可比。

Page 8: 第六章 累进效度及辩论 ( 三)

单参数模型( 1PL )

1. 难度与能力相等时,信息量最大(对于考生,中等难度的项目最好;对于项目,适应中等水平时最佳)

2. 项目的最大信息量为 0.25 (答对与答错的概率均为 50 %时)

项目特征和项目信息量

),(1),( iiii bPbQ

为考生能力; b 为项目难度; P 为答对的概率

(1) (2) (3)

项目特征曲线( Item Characteristic Curve )

How closely the difficulty of the item matches the ability of the person

Page 9: 第六章 累进效度及辩论 ( 三)

1PL 测试信息量及标准误 (SEM)测试信息量等于项目信息量之和

5

个项目的测

最大测试信息量为1.25

能力方差为测试信息量的倒数,测试标准误为能力方差的平方根

项目的最大标准误为

1 信息量越大,误差越小

.25

Page 10: 第六章 累进效度及辩论 ( 三)

双参数模型( 2PL )

a 为项目区分度

1. ICC 越陡峭,区分度越好,信息量越大2. 单参数模型中, ICC 斜率相同,不同难

度的 ICC 互不交叉,但双参数模型中,不同难度的 ICC 由于区分度不同则有可能交叉

Page 11: 第六章 累进效度及辩论 ( 三)

2PL 的测试信息量及标准误

1. 信息量越大,误差越小2. 图中测试,由于项目数量少(仅

3 个),测试信息量基本取决于单个项目(区分度好的项目)

蓝线-测试信息量红线-测试标准误黑线-项目信息量

Page 12: 第六章 累进效度及辩论 ( 三)

三参数模型( 3PL )

c

a

b

1. c 为猜测概率2. b 不再等于 0.53. 猜测概率导致信息量下降,

误差增加

i

ijj c

cP

P

QaI

22

1

)(

)(

)()(

iijj c

cPPQ

aISEM2

2

1)(

)()(

1)(1)(

Page 13: 第六章 累进效度及辩论 ( 三)

WinSteps 软件的结果图表解读单参数模型应用示例

Page 14: 第六章 累进效度及辩论 ( 三)

项目难度估计及拟合分析The most difficult item is the highest vertically. This is item 21.The easiest item is the lowest vertically. This is item 6.The most predictable item is the left-most item. It is item 17. The least predictable item is the right-most item, again item 21.Items along the vertical 0 line exhibit the degree of predictability that accords with the Rasch model

泡泡图( Bubble Chart )

t 值以正负 2 之间为宜:1.越接近 0 ,越与模型预测一致;2.>2 时,有可能拟合不够( under fit )3.<-2 时,有可能拟合过度( over fit )4.是否拟合不够或过度,应结合标准化残差均方根( MNSQ )进行分析

考生能力估计及拟合分析同理

标准化界内拟合 t 值

Page 15: 第六章 累进效度及辩论 ( 三)

项目难度及拟合情况

项目 21 和 30 的界内拟合指数 ZSTD 均大于 2 ,但 MNSQ 均在可接受范围,因此还不足以否定项目的有效性

标准化残差均方根(MNSQ)的期望值为 1,超出一定比例为拟合不够(误差太大),低于一定比例为拟合过度(太过完美)。合适的波动比例依样本量而定。

样本量 适宜比例 拟合不够 拟合过度

<500 30% > 1.3 < 0.7

500~1000 20% > 1.2 < 0.8

>1000 10% > 1.1 < 0.9

Page 16: 第六章 累进效度及辩论 ( 三)

考生能力及拟合情况

考生 4 的能力最强( 3.95 ),但界外拟合最差( 4.48 的MNSQ 越大于期望值 1 ),说明该生能力最难预测,肯定有很容易的项目答错了。

Page 17: 第六章 累进效度及辩论 ( 三)

考生-项目分布图

测试的难度不够:1.绝大多数考生的能力处于 0 ~ 4 之间,均值为 22.能力在 2.5 以上的考生众多,但却没有相应难度的项目3.绝大多数项目的难度在 -1 ~ 1 之间,均值为 04.难度在 0 以下的项目众多,但考生只有4 人;难度最小的 6 个项目甚至没有考生

Page 18: 第六章 累进效度及辩论 ( 三)

项目特征曲线 (Item Characteristic Curve , ICC )红线-模型预测曲线蓝线-观测数据曲线灰线-置信度(通常为 95%)的上线和下线

1. 能力在 2 以上的考生全部答对(项目难以区分高端考生)

2. 能力为- 1 处有考生答对了(猜测)

3. 所有点都落在置信范围之内(整体功能仍然不错)

Page 19: 第六章 累进效度及辩论 ( 三)

项目难度问题

能力低于难度 4 个洛基单位( -4 )处,有人答对了,且能力与难度差值在 -4 ~ 1 之间的答对概率为 0.25 ,相当于 4选项选择题的随机概率,说明该项目的猜测现象很严重。

原因是该项目的难度大(所有项目中难度最大)

Page 20: 第六章 累进效度及辩论 ( 三)

项目区分度问题

蓝线低端和顶端区分度差,但中间部分的区分度问题更严重。能力与项目差值在 -2 至 1 之间的答对概率都在 50 %左右。

Page 21: 第六章 累进效度及辩论 ( 三)

WinSteps 软件的结果图表解读多项值分析示例

Page 22: 第六章 累进效度及辩论 ( 三)

原始数据

R 意为逆向 (reversed)。同时使用正向和逆向项目,可探测出反应是否未经思考,以避免成见效应( Halo Effect -因为成见而不加思索地为所有项目选择同一个值)逆向项目的值

应转换为正向值。

Page 23: 第六章 累进效度及辩论 ( 三)

能力、难度和区分度估计

PTMEA Corr. -Point-Measure Correlation项目与测试的相关系数,即项目区分度。期望值为正相关,正值越大,正相关越强,区分度越好。

25R 本为“逆向”项,转换后相关系数为正值

Page 24: 第六章 累进效度及辩论 ( 三)

项目难度估计

Page 25: 第六章 累进效度及辩论 ( 三)

项目拟合度估计

界内和界外拟合都大于 2 ,拟合不足( Underfit )

界内和界外拟合都小于 -2 ,拟合过度( Overfit )

Page 26: 第六章 累进效度及辩论 ( 三)

结构分析 去掉拟合过度 (17,18,22,6) 和拟合不足 (25,9,20 )的项目iDelete=17,18,22,6,25,9,20

最难项目( 13 )的两个最高级别的交汇处

最易项目( 15 )的两个最低级别的交汇处

类别的次序颠倒,意味着量表结构存在问题

M 为均值,人数为 33

各类别的难度应该单调递增,而不应颠倒

Page 27: 第六章 累进效度及辩论 ( 三)

量表结构调整示例

Page 28: 第六章 累进效度及辩论 ( 三)

量表质量诊断 (五级)

Category Label

Observed Count

Average Measure

Infit Mean Square

Outfit Mean Square

Threshold Calibration

1 190 -2.08 0.77 0.83 None

2 207 -0.86 0.93 1.01 -1.51

3 179 0.15 1.13 1.88 -0.36

4 7 1.71 0.33 0.90 3.57

5 113 1.18 1.45 1.47 -1.70

频数极小且难度级别的顺序颠倒

基本无法在图中体现

Page 29: 第六章 累进效度及辩论 ( 三)

45 合并 (12344) 与 43 合并(12334)结果

Category Label

Observed Count

Average Measure

Infit Mean Square

Outfit Mean Square

Threshold Calibration

45 合 43 合 45 合 43 合 45 合 43 合 45 合 43 合 45 合 43 合

1 190 190 -2.5 -2.49 0.72 0.72 0.79 0.79 None None

2 207 207 -0.83 -0.84 0.97 0.94 0.92 0.90 -1.74 -1.74

3 179 186 0.79 0.83 0.88 0.87 1.35 1.27 -0.12 -0.15

4 120 113 1.96 1.91 1.39 1.43 1.31 1.34 1.86 1.88

合并后,各级别均有一定观测数量;难度单调递增;界内和界外拟合均在 -2 和 2 之间;门槛值亦单调递增

Page 30: 第六章 累进效度及辩论 ( 三)

三个量表对比分析

Category Label

Average Measure

FitStep

CalibrationsPerson

SeparationItem

Separation

12345 Disordered < 2.0 Disordered 1.36 None

12344 ( 45合)

Ordered < 2.0 Ordered 2.06 8.23

12334 ( 43合)

Ordered < 2.0 Ordered 1.90 8.16

45 合并的考生和项目分隔值均大于 43 合并的两个对应值,说明45 合并较 43 合并区分更好

Page 31: 第六章 累进效度及辩论 ( 三)

WinSteps软件结果图表解读部分得分( Partial Credit )模型

Page 32: 第六章 累进效度及辩论 ( 三)

控制文件设计

评分等级

部分得分:各项目的评分等级可以各不相同

项目标签

Page 33: 第六章 累进效度及辩论 ( 三)

考生-项目得分图

考生均值

项目均值

各部分分值的得分项目及难度

Page 34: 第六章 累进效度及辩论 ( 三)

WinFacets软件结果图表解读多维分析

Page 35: 第六章 累进效度及辩论 ( 三)

所有维度的纵向“尺度”

维度 2 -评判对象维度 1 -评分员 维度 3 -评判内容

值跨度

“+” -正向观测值越大,估计值越大

“-” -逆向观测值越大,估计值越小

Brahe 估计值最大,观测值最小,评分最严厉

Betty估计值最大,观测值最大,得分最高,能力最强

Page 36: 第六章 累进效度及辩论 ( 三)

结果报告

负向:给分越少越,越严厉

负向:得分越少,难度最大

正向:得分越多,能力最强

Page 37: 第六章 累进效度及辩论 ( 三)

偏差 /交互分析

与其他评分员不一致

Page 38: 第六章 累进效度及辩论 ( 三)

非期望评判结果

意外评分员

可简化为 3 类