试题及试卷质量分析（刘红云）.

Transcript 试题及试卷质量分析（刘红云）.

量化分析方法在教育评价
中的应用
北京师范大学心理学院
刘红云
主要内容

试题及试卷的质量分析

测试结果的分析与解释
试题及试卷质量分析
概要

测试工具的质量

经典测验理论

项目反应理论

测验理论新进展
试卷（试题）质量标准


可靠的测量结果来源于高质量的试卷，高质量的试
卷来源于“好”题。
怎样的试题才是 “好”试题
 符合考试的测量目标，体现考试（教学）理念


符合教育测量学的要求
命题改进的两个主要方向

试题如何更好地体现考试（教学）理念

如何提高考试的科学化水平
试题（卷）质量分析的两个视角

质性分析

量化分析
质性分析



质性评价的方法是我国各类考试评价中广泛采用的方法，
大批有经验的专家和一线教师凭借丰富的经验，通过对试
题进行质的分析，为改进命题质量起到了积极地不可替代
的作用；
优点：通过有经验专家的评价，可以在测试前发现试题中
可能存在的问题，并有可能提出针对性的、可行的修改建
议；
缺点：依赖于专家的经验，带有一定的主观性；在大规模
的考试中，专家的经验有时带有片面性；专家之间的判断
有时不一致，专家判断与考生实际作答存在偏差。
量化分析



用测量学的理论，对考生的作答情况进行分析，从
量化的角度对试题（或试卷）进行分析的方法由来
已久，在国外大型的考试中普遍采用，对改进命题
质量有着不可磨灭的贡献；
优点：根据考生的具体作答情况，提供了试题（试
卷）客观的分析指标，这些测量指标有明确的含义，
为改进试题提供了客观的依据；
缺点：须结合学科内容才能改善试题，分析过程较
复杂，难于掌握，这些指标必须在测试后才能得到。
试题（卷）质量分析的两个视角



从评价学的观点看：评价是基于事实的价值判断，
定量分析提供的正是试卷评价所需的事实基础。
从当前的现状看：各类考试评价在较大程度上缺
乏测量理论的指导和统计数据的支持，但是近年
来这一领域的尝试逐渐受到重视。
从发展的观点看：提高考试的科学化水平离不开
测量理论的指导，要实现命题质量的突破，必须
走质性分析和量化分析相结合的道路。
常用试题质量分析的方法


经典测验理论

难度、区分度、学生作答信息（试题）

项目偏差分析（试题）

信度（试卷）
项目反应理论

难度、区分度、猜测度（试题）

试题的项目特征曲线及试题的信息量；

试卷的信息函数及测量的误差；

项目偏差分析。
经典测验理论的试题分析：目的

评价每道试题的质量；

试题的质量决定着试卷的质量（信度和效度）

试题分析可以为改进试题质量提供一些建议

可以帮助我们更好地理解测验，如测验适用于什
么样的群体等问题
CTT：项目分析

当作项目分析时，我们应该考虑以下几个问题:

题目考核内容与测验目的是否相符？

测验题目是否有效?是否测量了想要测的内容?

项目可靠吗？

做完这个题目需要用多长时间?

哪些题目较难，哪些题目比较容易？

质量不够好的题目是否需要删除？
CTT项目分析的内容

主要包括三种分析

评价错误选项的质量（选择题）

评价项目的难度

评价项目在高分群体和低分群体中
的差异，即区分度
关于磁悬浮列车减小摩擦的方法，正确的说法是
A. 给摩擦面加润滑油 B.减小摩擦面间的压力
C .使摩擦面脱离接触 D.变滑动为滚动
低分组
A
高分组
总体
选择人所占比选择人所占比选择人所占比
数
例（%）
数
例（%）
数
例（%）
11
20.0
0
0
16
7.8
B
13
23.6
0
0
19
9.3
C*
19
34.5
54
98.2
152
74.1
D
12
21.8
1
1.8
18
8.8
关于磁悬浮列车减小摩擦的方法，正确的说法是
A. 给摩擦面加润滑油 B.减小摩擦面间的压力
C .使摩擦面脱离接触 D.变滑动为滚动
难度
鉴别指数
区分度
低分组正确率高分组正确率
0.74
0.83
0. 29
0. 95
D
0. 66
经典测量理论的试题参数：难度

难度指标（通过率或得分率P值）
X
P
X max
CTT：项目难度
选择题：答对人数占总人数的比例
难度表示的意义：
p = .00
p = 1.00
举例:
100 个人参加考试
70人答对这个题目
P值是多少?
这道题难还是
容易?
项目难度 (cont.)
P值多大比较好?

最常见的或最理想的回答：P = .50

因为P=0.5时，理论上这样的题目最能鉴别好学
生和差学生
是不是我们只应该选择难度是.50的题目呢?
什么时候不是？
我们是否仅选择难度是0.5左右的题目呢？
不一定...
如果是一个尖子生的选拔考试？
如果是一个毕业达标考试？
中考？
项目难度
一般的标准
< .30
难
.30-.40
中等偏难
.40 -.60
中等难度
.60-.80
中等偏易
> .80
容易
经典测量理论的试题参数：区分度

区分度指标

鉴别力指数D

题目和总分相关r
经典测验理论的分析：区分度

区分度是指测验项目对所测量的心理特征的
区分程度或鉴别能力，也就是项目的效度。
区分度高的项目，能将不同水平的学生区分
开来；区分度低的项目，则不能很好地鉴别
考生水平，水平高和水平低的考生差不多。
项目区分度：相关系数

相关法
计算区分度最常用的方法是相关法，即
以某一项目分数与效标分数或测验总分
的相关作为该项目区分度的指标，相关
越高，该项目区分度越高。
项目区分度：鉴别指数

将学生能力按照测验的总分分为高分组
（前25%-33%）和低分组（后25%-33%），
计算两个组在某道题目上通过率或平均
分数的差异：
D＝ PH－PL
测验的信度

测验结果的可靠性和一致性程度
题目和总分的相关(Item-total
Correlations)
不相关的内容可以简单求和吗？
如果测验中的某个题目与其他题目毫
不相关，这个题目对提高测验的信度
理论上贡献不大；
题总相关除了描述测验题目的区分度
外，从另外一个角度可以考察测验题
目对整个测验信度的贡献。
测验的信度
•如果题目测量的特质或能力不相关，那么测
验的信度一定不高；
•一般采用Cronbach’s alpha 内部一致性信
度；
•高的项目和总分的相关可以提高测验的信度；
影响信度的因素



考生群体－－信度系数不仅受考生群体的异质程度
的影响，也受考生群体平均水平的影响。
测验长度－－测验越长，信度值越高。测验加长
，可能改进项目取样的代表性，从而更好地反映受
测者的真实水平；测验项目越多，在每个项目上的
随机误差就有可能相互抵消。
测验的难度－－测验太难或太易时，分数范围会缩
小，降低信度。
同质性信度的估计


测量同质性信度的基本公式
其中K为构成测验项目数，为相关系
数的平均数，rkk为同质性信度值。
根据溶解度曲线，判断下列说法不正确的是：
A. t10C时，甲的溶解度小于乙的溶解度;
B. t20C时，甲、乙的饱和溶液中
含甲、乙两种物质的质量相等;
C. t30C时，甲、乙两物
质的饱和溶液降温
至t20C时,会析出晶体;
D.当甲中含有少量乙时,
可采用冷却热饱和
溶液的方法提纯甲.
P=0.33 (预估0.75)， D=0.2
A
15
0.07
11
19.6
3
3.2
1
1.7
B*
69
0.33
11
19.6
35
36.8
23
39.7
C
63
0.30
22
39.3
30
31.6
11
19
D
60
0.29
11
19.6
26
27.4
23
39.7
2
0.01
1
1.8
1
1.1
0
0
缺选


太空生活与工作；若不穿太空服，只带
氧气瓶，航天员能否走出舱外？运用你
所学的物理知识说出一条理由。答：＿
＿＿（填“能”或“不能”）．因为舱
外＿＿＿＿＿＿＿。
答案：不能太空没有大气压(或太空温
度低)
CTT：第一空 P=0.98 D=0.07
第二空 P=0.42 D=0.58
总结：经典测验理论的优点




CTT是体系上最成熟的，可以说，CTT是其他测验
理论赖以产生的基石
建立在较简单的数学模型之上，易于被人理解和
接受，且计算简便，容易推广；
理论假设较弱，对实施条件要求不严格，适用性
广；
在多数情况下CTT是足够精确的，可以放心地应用。
总结：经典测量理论的缺陷




真分数与观测分数间存在线性关系的假定不符合
事实；
项目统计量(难度和区分度)严重依赖于考生样本
群体；
对考生能力的估计依赖于测验题目的难度；
测验信度建立在平行测验假设的基础之上，但严
格平行的测验是不存在的；
总结：经典测验理论的局限性



测验信度的取值也依赖于考生群体.当考生能力水平的差
异大时,测验分数的分布范围就大,计算出的信度值就高,
而反之信度值就低；
信度是针对每个考生是相同的,只代表平均测量精度.信
度不能给出不同能力水平的准确测量精度,因而对如何提
高不同能力水平的测量精度问题CTT显得无能为力;
对测验等值、适应性测验、标准参照性测验的编制等问
题不能给以满意的解决。
项目反应理论

难度、区分度、猜测度（试题）；

试题的项目特征曲线及试题的信息量；

试卷的信息函数及测量的误差；

项目偏差分析。
项目反应理论（IRT）
项目反应理论
（Item Response Theory）
三个理论假设

单维性假设

局部独立性假设

项目反应模型（项目特征函数）
项目反应模型
单参数模型（Rasch模型）
两参数模型（2-PL模型）
三参数模型（3-PL模型）
等级反应模型（GRM）
分步评分模型（PCM）
单维模型VS.多维模型
参数模型VS.非参数模型
项目反应函数

Rasch 模型：
exp(－b)
P( )＝
1  exp(－b)
θ为考生的能力，b为试题的难度
Item Response Function
e θ n  δi
Pni1 
1  e θ n  δi
e  2.718
1
Probability
0.8
0.6
0.4
0.2
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
Theta - Delta
42
分步计分模型的项目特征曲线
难度参数的含义（b）
分步计分模型中项目的难度
试题与模型的拟合
项目反应模型
单参数模型（Rasch模型）
exp(－b)
P( )＝
1  exp(－b)
项目反应模型
双参数模型
exp[1.7a(－b)]
P( )＝
1  exp[1.7a(－b)]
项目反应模型
三参数模型
exp1.7a(－b)
1 c
P( )＝c  (1  c)
c
1  exp1.7a(－b)
1  exp 1.7a(  b)
参数的含义（a）
参数的含义（a）
参数的含义（b）
参数的含义（b）
参数的含义（c）
极低能力被
试答对的概
率为0
c=0
参数的含义（c）
低能力被试
可能答对的
可能性不为0
C=0.2
信息函数

试题信息函数
1
ˆ
I ( )  Var( |  )
( P)
1.7a(1  c)
I ( ) 

PQ [c  e1.7 a ( b ) ][1  e 1.7 a ( b ) ]2
2
 max

1
1
1  8c
b
ln( 
)
1.7a 2
2
测验信息函数（试题信息函数之和）
信息函数（例）
1
试题参数
a
b
c
1.80 1.00 0.00
2
0.80 1.00 0.00
3
1.80 1.00 0.25
4
1.80 -1.50 0.00
5
1.20 -0.50 0.10
6
0.40 0.50 0.15
试
题
项目信息函数
信息函数的性质





同一试题信息函数随着所测被试能力的不同而不
同；同时试题信息函数受试题自身特征的影响。
a，b相同的试题，c值大的信息量小。
a值大的试题，只是在较窄的区间内提供的信息量
多，a值小的试题，对能力的估计提供帮助不大，
但是广泛地分布在较宽区间
试题提供信息量最大的位置，是在接近试题难度
之处
可加性
组卷（水平测试）



内容上的均衡：每个考核维度上保
证一定的题量；
为了测量整个总体，测验中需要各
种难度的题目；
应该考虑临界分数点题量以及测验
的信度。



根据预测的结果考虑考生分布的特征与
预期的结果一致吗？
根据预测结果考虑试题难度分布与预期
的结果一致吗？
根据预测的结果按照测验的目标有依据
地组卷。
IRT 提供的测验的信息用来组卷
10
TIF
9
8
Information
7
6
5
IIFs
SE
4
3
2
1
0
-3
-2.5
-2
-1.5
-1
-0.5
0
Theta
0.5
1
1.5
2
2.5
3
IRT提供的项目特征用来组卷
IRF for
“poor” item
1.0
0.9
TCC
0.8
P(u| THETA)
0.7
0.6
0.5
0.4
IRFs for
“good” items
0.3
0.2
0.1
0.0
-3
-2.5
-2
-1.5
-1
-0.5
0
THETA
0.5
1
1.5
2
2.5
3
Knowledge Assessment Test
1.0
0.9
0.8
P(U=1|THETA)
0.7
0.6
0.5
0.4
0.3
0.2
0.0
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
THETA
0.5
1.0
1.5
2.0
2.5
3.0
8
7
6
TIF
Information
组出一套能够
测量较广范围
能力的试卷
0.1
SE
5
4
3
2
1
0
-3
-2.5
-2
-1.5
-1
-0.5
0
Theta
0.5
1
1.5
2
2.5
3
Promotion Qualification Test
1.0
0.9
0.8
P(U=1|THETA)
0.7
0.6
0.5
0.4
0.3
0.1
0.0
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
THETA
0.5
1.0
1.5
2.0
2.5
3.0
20
16
TIF
Information
组成一套用于
选拔某类考生
群体的试卷
0.2
SE
12
8
4
0
-3
-2.5
-2
-1.5
-1
-0.5
0
Theta
0.5
1
1.5
2
2.5
3
Test Characteristic Curves for Forms A and B
1.0
0.9
0.8
P(theta)
0.7
组出两
套平行
的测验
0.6
0.5
0.4
0.3
Form B TCC
0.2
Form A TCC
0.1
0.0
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Theta
Test Information Functions for Forms A and B
18
16
Information
14
12
Form A TIF
10
Form B TIF
8
6
4
2
0
-3
-2.5
-2
-1.5
-1
-0.5
0
Theta
0.5
1
1.5
2
2.5
3
总结：项目反应理论的优点



采用非线性模型，建立了考生对项目的反应与其
潜在能力之间的非线性关系，这一点更符合事实；
对考生能力的估计不依赖于特定的测验题目，
IRT将考生能力和测题难度放在同一量尺上进行估
计，无论测验的难易，考生能力估计值不变，不
同的测验结果可直接比较；
难度和区分度的估计值与被试能力无关。同一个
测验项目，高能力和低能力被试的反应拟合同一
条项目特征函数曲线(ICC)，同一条ICC所对应的
项目参数是唯一的；
总结：项目反应理论的优点



测验信息函数的概念代替了信度理论，用测验
对能力估计所提供的信息量的多少来表示测量
的精度。这避免了平行测验的假定，并能给出
不同能力考生的测量精度；
根据项目信息量的大小来选择对能力估计精度
最有增益的项目，使测验达到预先规定的满意
的精度。对不同能力的考生实施不同测题，既
提高了测量精度又缩短了测验长度；
对测验等值、适应性测验、标准参照性测验的
编制等问题给出了满意的解决办法。
总结：项目反应理论的缺点




单维性假定难以满足，可能要用到更复杂的多维
模型；
IRT建立在更复杂的数学模型之上，依赖更强的假
设，计算复杂，不易掌握；
IRT对测验条件要求较严格，样本容量要大，考生
的能力分布范围要广，测题数量要多，这些条件
不满足就会影响其精确性；
对CTT的一些研究领域，如测验效度问题等，IRT
并没有提出独到的见解。
举例（数学）
如图所示的函数图象的关系式可能是（
1
（B）y =
x
（A）y = x
）.
2
（C）y = x
1
(D) y =
x
y
O
x
（第 10 题）
某城市进行旧城区人行道的路面翻新,准备对地面密铺彩色地砖,
有人提出了 4 种地砖的形状供设计选用：
正三角形，②正四边形，③正五边形，④正六边形．
①其中不能进行密铺的地砖的形状是（）.
(A) ①
(B) ②
(C) ③
(D) ④
举例（数学）
如图所示的函数图象的关系式可能是（
（A）y = x
（B）y =
1
x
（C）y = x2
）.
(D) y =
1
x
y
O
x
（第 10 题）

该题为涉及函数图像的问题，兼顾了基础知识
与基本能力两个方面。
如图所示的函数图象的关系式可能是（
（A）y = x
（B）y =
1
x
）.
（C）y = x2
(D) y =
1
x
y
x
O
（第 10 题）

题目做答（难度为0.618，区分度为0.541。）
选项
百分比
A
B
C
D
未答
全体
6.0
16.4
10.5
61.8
5.4
高分组
0.2
3.5
2.3
88.1
5.9
低分组
16.4
25.8
17.9
33.9
6.1
题目特征曲线
某城市进行旧城区人行道的路面翻新,准备对地面密铺彩色地砖,
有人提出了 4 种地砖的形状供设计选用：
正三角形，②正四边形，③正五边形，④正六边形．
①其中不能进行密铺的地砖的形状是（）.
(A) ①
(B) ②
(C) ③
(D) ④
难度为0.859，区分度为0.346
选项
百分比
A
B
C
D
未答
全体
3.6
2.3
85.9
7.9
0.3
高分组
0.3
0.2
99.0
0.6
0.1
低分组 10.2
6.3
64.4
18.3
0.8
典型题目分析（物理）
下图是小华同学探究“让线圈转起来”的实验
装置图.线圈能够转动的原因是
，
在实验中为了使线圈能持续转动，采取的
办法是
；要想使线圈的转动方向
与原来的相反，采用______或者_____的方法。
难度是0.54，区分度是0.69
人数
百分比
0分
1270
17.3
1分
1041
14.2
2分
1902
25.9
3分
1597
21.8
4分
1531
20.9
根据溶解度曲线，判断下列说法不正确的是：
A. t10C时，甲的溶解度小于乙的溶解度;
B. t20C时，甲、乙的饱和溶液中
含甲、乙两种物质的质量相等;
C. t30C时，甲、乙两物
质的饱和溶液降温
至t20C时,会析出晶体;
D.当甲中含有少量乙时,
可采用冷却热饱和
溶液的方法提纯甲.
P=0.33 (预估0.75)， D=0.2
A
15
0.07
11
19.6
3
3.2
1
1.7
B*
69
0.33
11
19.6
35
36.8
23
39.7
C
63
0.30
22
39.3
30
31.6
11
19
D
60
0.29
11
19.6
26
27.4
23
39.7
2
0.01
1
1.8
1
1.1
0
0
缺选
Item Characteristic Curve: ITEM0014
a = 0.457
b = 1.626
1.0
Pro b ab ility
0.8
0.6
0.4
0.2
b
0
-3
-2
-1
0
Ability
1
2
3
本小题提供了两个备选题，请你从下面的20－1和20－2题
中任选一个予以解答，多做一个题不多计分.
20-1. 如图，AB 是⊙O 的直径,BD 是⊙O 的弦，延长 BD 到点 C,使
DC=BD,连接 AC 交⊙O 与点 F.，点 F 不与点 A 重合。
（1）AB 与 AC 的大小有什么关系?为什么?
（2）按角的大小分类, 请你判断△ABC 属于哪一类三角形，
并说明理由.
20-2. 按下面的方法作：
①以点 O 为圆心，任意长为半径作圆，分别交∠MON 的两
边于点Ａ、B，交射线 OM 的反向延长线于点 C；
②连接 CB；
③以 O 为顶点，OA 为一边作∠AOP＝∠OCB．
A
F
O
B
D
（第 20－1 题）
C
O
④若过点 A 作⊙O 的切线交射线 OP 于点 F，
E
B
A
连接 AB 交 OP 于点 E。
N
F
M
P
（1）根据上述作图，射线 OP 是∠MON 的平分线吗？并说明理由；
（第 20－2 题）
（2）若∠MON＝60°，OF＝10，求 AE 的长．
C
20_1(0.604, 0.404)
人数
.00
1.00
2.00
3.00
4.00
5.00
6.00
7.00
百分数
20_2(0.462, 0.340)
人数
百分数
775
11.1
331
1068
15.3
197
302
4.3
41
887
12.7
124
343
4.9
153
122
1.7
135
458
6.5
392
816
11.7
988
4.7
2.8
.6
1.8
2.2
1.9
5.6
14.1
Item Characteristic Curve: 0021
Partial Credit Model (Normal Metric)
1.0
0.8
1
Probability
8
0.6
0.4
2
7
0.2
4
5
3
0
-3
-2
-1
6
0
Ability
1
2
3
谢谢！
刘红云
北京师范大学心理学院
心理测量与人力资源管理研究所
联系方式：[email protected]

试题及试卷质量分析（刘红云）.

Transcript 试题及试卷质量分析（刘红云）.

Directory