英语语言测试8

Download Report

Transcript 英语语言测试8

第六章 累进效度及辩论
(三)
湖南师范大学外国语学院
邓 杰 教授
教学目标

了解实施环节的基本概念、焦点问题及证据来
源

了解项目反应理论的基本原理

了解WinSteps软件的功能和使用方法

了解WinFacets软件的功能和使用方法
基本概念:测试真实性;答题行为分析方法;项目反应理论
焦点问题:考生反应的相关性、真实性、交互性
证据来源:考生答卷、调查问卷;监考须知、监考步骤、监考记录;
答题过程的调查、访谈等
实施效度
基本概念
测试真实性(Authenticity):答题过程体现实际语言使用的程度
1.


真实生活任务(Real-life tasks):日常生活中有可能碰到的活动,通常
不受课程教学内容的约束
语言教学任务(Language instructional tasks):课程教学活动,亦可与
日常生活相关
答题行为分析方法(Response Analysis Methods)
2.



观察法(Observation)、问卷调查法(Questionnaire)、访谈法
(Interview)
内省法(Introspection)、反省法(Retrospection)、有声思维(ThinkAloud)
眼动跟踪(Eye-tracking)
项目反应理论(Item Response Theory,IRT)

理论模型

单参数:1PL-One-Parameter Logistic Model,难度(b)

双参数:2PL-Two-Parameter Logistic Model,难度(b)和区分度(a)



三参数:3PL-Three-Parameter Logistic Model,难度(b)、区分度(a)
和猜测概率(c)
多维度: Many-Facets Rash Model,影响成绩的多个方面,如评分员、评
分方法、话题类别等
数值类型


二项值(Dichotomous ):0和1,分别表示答错和答对
多项值(Polytomous):非0-1值,用于等级量表(Rating Scale)和部
分得分(Partial Credit)模型。每个值项表示一个类别,代表量表中的等
级(始于1),或满分中的任一部分分数(始于0)
考生能力与项目难度
Guttman
Scalogram
Persons
N
J
C
E
L
I
F
K
A
G
D
B
H
M
Facility
p
q
Ln(q/p)
c
1
1
1
1
1
1
1
1
1
1
1
1
1
0
13
1.00
0.00
Items
i
a
l
b
h
k
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
0
1
1
1
0
0
1
1
1
1
1
1
0
1
1
1
0
0
1
1
1
1
0
0
0
1
1
0
0
0
0
0
1
1
0
0
0
0
0
0
0
0
0
11
10
10
7
7
6
0.92 0.83 0.83 0.58 0.58 0.50
0.08 0.17 0.17 0.42 0.42 0.50
-2.40 -1.61 -1.61 -0.34 -0.34 0.00
Extreme cases
d
1
1
0
0
0
1
1
0
0
0
1
1
0
0
5
0.42
0.58
0.34
f
1
1
0
1
1
0
0
1
0
1
0
0
0
0
5
0.42
0.58
0.34
j
1
0
1
1
1
0
0
0
0
0
0
0
0
0
3
0.25
0.75
1.10
e
1
0
1
0
1
0
1
0
0
0
0
0
0
0
3
0.25
0.75
1.10
g
1
1
0
0
0
0
0
0
0
0
0
0
0
0
1
0.08
0.92
2.40
Ability
12
8
8
7
8
6
7
5
5
5
4
3
2
0
p
1.00
0.73
0.73
0.64
0.73
0.55
0.64
0.45
0.45
0.45
0.36
0.27
0.18
0.00
q
0.00
0.27
0.27
0.36
0.27
0.45
0.36
0.55
0.55
0.55
0.64
0.73
0.82
1.00
Ln(p/q)
0.98
0.98
0.56
0.98
0.18
0.56
-0.18
-0.18
-0.18
-0.56
-0.98
-1.50
Log odds(比余对数)
比率与其余数之比的自然对数
百
分
比
到
比
余
对
数
将考生能力和项目难度都
映射到同一量表(比余对
数),使之可比。
Ln(95/5)
天花板效应
(ceiling effect)
95%
50%
Ln(50/50)
集中趋势
(central
tendency)
10%
5%
比余对数
Ln(10/90)
Ln(5/95)
地板效应
(floor effect)
单参数模型(1PL)
Pi (q, bi ) 项目特征曲线(Item Characteristic Curve)
(1)
(2)
Pi (q, bi )
项目特征和项目信息量
I i (q, bi )
How closely the difficulty
of the item matches the
ability of the person
(3)
I max
q
(q -b )
e j i
Pij (q j , bi ) =
(q -b )
1+ e j i
q 为考生能力;b 为项目难度;P为答对的概率
I i (q, bi ) = Pi (q, bi )Qii (q, bi )
Qi ( , bi )  1  Pi ( , bi )
1. 难度与能力相等时,信息量最大
(对于考生,中等难度的项目最好;
对于项目,适应中等水平时最佳)
2. 项目的最大信息量为0.25(答对与
答错的概率均为50%时)
1PL测试信息量及标准误(SEM)
测试信息量等于项目信息量之和
5
个
项
目
的
测
试
.25
最大
测试
信息
量为
1.25
I j (q j ) = å I ij (q j , bi )
i
能力方差为测试信息量的倒数,
测试标准误为能力方差的平方根
Var(qˆ) =
1
I (qˆ)
SEM(q ) = 1 I (qˆ) = 1
å P(q, b )Q (q, b )
项
目
的
最
大
标
准
误
为
1
i
i
信
息
量
越
大
,
误
差
越
小
i
i
双参数模型(2PL)
I i (q, bi , ai ) = ai2 Pi (q, bi )Q(q, bi )
eai (q -bi )
p(q ,bi ) =
1+ eai (q -bi )
a 为项目区分度
1. ICC越陡峭,区分度越好,信息量越大
2. 单参数模型中,ICC斜率相同,不同难度
的ICC互不交叉,但双参数模型中,不同
难度的ICC由于区分度不同则有可能交叉
2PL的测试信息量及标准误
蓝线-测试信息量
红线-测试标准误
黑线-项目信息量
1.
2.
信息量越大,误差越小
图中测试,由于项目数量少(仅
3个),测试信息量基本取决于
单个项目(区分度好的项目)
I j (q j ) = å ai2 Pi (q, bi , ai )Q(q, bi , ai )
i
SEM (q ) = 1 I j (q j ) = 1
åa P(q, b , a )Q(q, b , a )
2
i i
i
i
i
i
i
三参数模型(3PL)
b
a
c
eai (q -bi )
Pi (q, ai , b i , ci ) = c+ (1- c)
1+ eai (q -bi )
1. c 为猜测概率
2. b 不再等于0.5
3. 猜测概率导致信息量下降,
误差增加
Q(q ) é P(q - c) ù
I i (q, bi , ai , c i ) = a
ê
ú
P(q ) ë 1- c û
2
2 Q ( )  P (  c ) 
I j ( j )   ai
P( )  1  c 
i
2
2
i
SEM ( )  1 I j ( j )  1
 ai2
i
Q( )  P(  c) 
P( )  1  c 
2
单参数模型应用示例
WinSteps 软件的结果图表解读
项目难度估计及拟合分析
考生能力估计及拟合
分析同理
The most difficult item is the highest vertically. This is item 21.The easiest item is the lowest
vertically. This is item 6.
The most predictable item is the left-most item. It is item 17. The least predictable item is the rightmost item, again item 21.
Items along the vertical 0 line exhibit the degree of predictability that accords with the Rasch model
泡泡图(Bubble Chart)
t 值以正负2之间为宜:
1. 越接近0,越与模型
预测一致;
2. >2时,有可能拟合
不够(under fit)
3. <-2时,有可能拟合
过度(over fit)
4. 是否拟合不够或过
度,应结合标准化
残差均方根(MNSQ)
进行分析
标准化界内拟合 t 值
项目难度及拟合情况
标准化残差均方根(MNSQ)的期望值为1,超出一定比例为拟合不够(误差太大),
低于一定比例为拟合过度(太过完美)。合适的波动比例依样本量而定。
样本量
适宜比例
拟合不够
拟合过度
<500
30%
> 1.3
< 0.7
500~1000
20%
> 1.2
< 0.8
>1000
10%
> 1.1
< 0.9
项目 21和30的界内拟合
指数ZSTD均大于2,但
MNSQ均在可接受范围,
因此还不足以否定项目
的有效性
考生能力及拟合情况
考生4的能力最强(3.95),但界外拟合最差(4.48的MNSQ越大
于期望值1),说明该生能力最难预测,肯定有很容易的项目答
错了。
考生-项目分布图
测试的难度不够:
1.绝大多数考生的能力处于0~4之间,均
值为2
2.能力在2.5以上的考生众多,但却没有相
应难度的项目
3.绝大多数项目的难度在-1~1之间,均值
为0
4.难度在0以下的项目众多,但考生只有4
人;难度最小的6个项目甚至没有考生
项目特征曲线 (Item Characteristic
Curve, ICC )
红线-模型预测曲线
蓝线-观测数据曲线
灰线-置信度(通常为95%)
的上线和下线
1. 能力在2以上的考生全部
答对(项目难以区分高端
考生)
2. 能力为-1处有考生答对
了(猜测)
3. 所有点都落在置信范围之
内(整体功能仍然不错)
项目难度问题
能力低于难度4个洛基单
位(-4)处,有人答对
了,且能力与难度差值
在-4~1之间的答对概率
为0.25,相当于4选项选
择题的随机概率,说明
该项目的猜测现象很严
重。
原因是该项目的难度大
(所有项目中难度最大)
项目区分度问题
蓝线低端和顶端区分
度差,但中间部分的
区分度问题更严重。
能力与项目差值在-2
至1之间的答对概率
都在50%左右。
多项值分析示例
WinSteps 软件的结果图表解读
原始数据
逆向项目的值
应转换为正向
值。
R 意为逆向(reversed)。
同时使用正向和逆向项目,
可探测出反应是否未经思
考,以避免成见效应
(Halo Effect-因为成
见而不加思索地为所有项
目选择同一个值)
能力、难度和区分度估计
PTMEA Corr. -
Point-Measure
Correlation
项目与测试的相关系
数,即项目区分度。
期望值为正相关,正
值越大,正相关越强,
区分度越好。
25R本为“逆向”项,
转换后相关系数为正
值
项目难度估计
项目拟合度估计
界内和界外拟合
都大于2,拟合不
足(Underfit)
界内和界外拟合
都小于-2,拟合过
度(Overfit)
结构分析
去掉拟合过度(17,18,22,6)和拟合不足(25,9,20)的项目
iDelete=17,18,22,6,25,9,20
最难项目(13)的两个
最高级别的交汇处
各类别的难度
应该单调递增,
而不应颠倒
类别的次序颠倒,意味
着量表结构存在问题
最易项目(15)的两个
最低级别的交汇处
M为均值,人数为33
量表结构调整示例
量表质量诊断(五级)
基本无法在图
中体现
频数极小且难
度级别的顺序
颠倒
Category
Label
Observed
Count
Average
Measure
Infit Mean
Square
Outfit Mean
Square
Threshold
Calibration
1
190
-2.08
0.77
0.83
None
2
207
-0.86
0.93
1.01
-1.51
3
179
0.15
1.13
1.88
-0.36
4
7
1.71
0.33
0.90
3.57
5
113
1.18
1.45
1.47
-1.70
45合并(12344)与43合并(12334)结果
Category
Label
Observed
Count
Average
Measure
Infit Mean
Square
Outfit Mean
Square
Threshold
Calibration
45合
43合
45合
43合
45合
43合
45合
43合
45合
43合
1
190
190
-2.5
-2.49
0.72
0.72
0.79
0.79
None
None
2
207
207
-0.83
-0.84
0.97
0.94
0.92
0.90
-1.74
-1.74
3
179
186
0.79
0.83
0.88
0.87
1.35
1.27
-0.12
-0.15
4
120
113
1.96
1.91
1.39
1.43
1.31
1.34
1.86
1.88
合并后,各级别均有一定观测数量;难度单调递增;界内和界外拟合均在-2和2之间;门槛值亦单调递增
三个量表对比分析
Category
Label
Average
Measure
Fit
Step
Calibrations
Person
Separation
Item
Separation
12345
Disordered
< 2.0
Disordered
1.36
None
12344(45合)
Ordered
< 2.0
Ordered
2.06
8.23
12334(43合)
Ordered
< 2.0
Ordered
1.90
8.16
45合并的考生和项目分
隔值均大于43合并的两
个对应值,说明45合并
较43合并区分更好
部分得分(Partial Credit)模型
WinSteps软件结果图表解读
控制文件设计
评分等级
部分得分:
各项目的
评分等级
可以各不
相同
项目标签
考生
-项
目得
分图
考生均值
项目均值
各部分分
值的得分
项目及难
度
多维分析
WinFacets软件结果图表解读
所有维度的纵向“尺度”
“+”-正向
观测值越大,
估计值越大
维度1-评分员 维度2-评判对象
“-”-逆向
观测值越大,
估计值越小
Brahe估计
值最大,观
测值最小,
评分最严厉
Betty
估计
值最
大,
观测
值最
大,
得分
最高,
能力
最强
维度3-评判内容
值
跨
度
结果报告
负向:
给分越
少越,
越严厉
正向:
得分越多,
能力最强
负向:
得分越少,
难度最大
偏差/交互分析
Bias/Interaction analysis specified by: 1. Senior
scientists, 2. Junior Scientists
1
Relative Measure
0,5
Anne
0
Betty
Chris
David
-0,5
Edward
Fred
George
-1
-1,5
1. Avogadro
2. Brahe
1. Senior scientists
3. Cavendish
与其他评分员不一致
非期望评判结果
意外评分员
可简化为3类