第五章测量的信度

Transcript 第五章测量的信度

案例一
有一个体操运动员参加跳马比赛，第一次跳
了8.9分，转播席上的嘉宾评论员说这不是他
真实的水平，他的真实水平应该在9.5分以
上。果然第二次他跳出了9.9分。如果没有嘉
宾的点评，你认为哪次成绩是该运动员的真实
水平？
案例二
王先生去应聘某公司的经理岗位，考官拿
出一个企业忠诚度测验让王先生答卷，经评估
后得出结论，王先生忠诚度不够。结果王先生
不服，要求重新答一次，结果正好相反。
案例三
小明学习成绩一直很差，他找张老师咨
询，张老师找了一个智力测验让他做，结果还
不错，智商有120。母亲觉得不可思议，这么
高的智商为什么学习成绩那么差呢，于是她带
着小明去了一家咨询机构，那里的咨询师拿出
了同样一个智力测验让小明做，结果算出来智
商只有88。哪一次的结果是可信的。
第三章
信度
第一节信度概述
第二节估计信度的方法
第三节影响信度的因素

信度
主要对整个测量而言。

效度

难度
主要对测量的项目而言。

区分度
第一节信度概述
一、含义：指一个测验的稳定性程度。
是指同一被试在不同时间内用同一测
验（或两个等值测验）重复测量，所得结
果的一致程度。
信度的统计定义
定义1：信度是被试团体真分数方差与实得分数方差之比
E
T
2
2

2
X

T
2

T
2
rXX 
2
E
X
2
2
X
定义2：信度是被试团体真分数与实得分数相关系数的平方
rXX  
2
TX
定义3：信度是一个测验X（A卷）与它的任意一个平行测验
（B卷）的相关系数 rXX   XX 



信度是指实测值与真值相差的程度。
信度是指统计量与参数之间的接近程度。
信度是两次重复测量或等值测量之间的关联程
度。
二、信度的指标

信度系数

信度指数
rXT＝ST/SX

测量标准误
rxx＝ST2/SX2 =rXT2
信度指数的平方即信度系数
SE＝SX
信度越高，标准误越小；信度越低，标准误越大。
三、信度的作用






1、评价测验
一般能力与学绩测验的信度系数应达到0.90以
上；
标准智力测验的信度系数应达到0.85以上；
个性和兴趣测验的信度系数可稍低，一般应达
到0.7～0.80；
当信度系数小于0.70时，不能用测验来对个人
进行评价，也不能用来进行团体间的比较；
当信度系数大于0.70时，可用来进行团体间的
比较；大于0.85时，可以用来鉴别个人。
2、信度可以用来解释个人测验分数的意义。

SE＝SX

已知韦氏智力测验标准差为15，信度系数为
0.95，对一名12岁的儿童实施该测验后，IQ为
110，那么他的真分数在95％的可靠度要求
下，变动范围应是多大？（有95％的把握可以
断定真分数在103.4和116.6之间）
3、信度可以帮助不同测验分数的比较

某校五年级进行期末考试，小张数学考了85
分，此次数学测验年级平均分是77分，标准差
是8分，此次测验的信度系数是0.84；语文考
了95分，此次语文测验年级平均分是81分，
标准差是10分，此次测验的信度系数是0.91；
问小张两科测验的成绩是否有显著差异？
三、对信度系数的几点解释
1.经典测量理论的信度系数
信度系数是表示测量结果的稳定性程度的指标。记
为：
rXX
信度系数的值域：[0,1]
没有百分之百可靠的测量，因此，rXX=1只是理论上
的值，实际当中是不会存在的。
？相关系数的值域是[-1,+1] ，信度系数的值域：
[0,1]，为什么？
第二节估计信度的方法
一、重测信度
二、复本信度
三、内在一致性信度
四、评分者信度
返回
一、重测信度（test-retest reliability）



测验——一段时间后——再测验（测验分数跨时间的一致
性）
前后两次是同一批被试
前后两次使用的是同一个测验

相关系数：
稳定性系数（coefficient of stability）

使用的前提条件：
（1）所测得心理特性必须是稳定的。
（2）遗忘和练习的效果基本上相互抵消。
（3）在两次施测的间隔期内，被试在所要查的心理特质方
面没有获得更多的学习和训练。
例题




用一个算术四则的速度测验12个小学生，得分记为
X，为了考察测量结果的可靠性，于3个月后再测一
次，得分记为Y，问测验结果是否可靠？
学生序号 1 2 3 4 5 6 7 8 9 10 11 12
X
20 20 21 22 23 23 232425262627
Y
20 21 21 20 23 23 252526262729
使用重测信度时需要注意的问题

两次施测时间间隔的长短会影响重测信度系数估计值的
大小，因此，在报告重测信度系数时应该报告间隔的时
间长度。
例如，简单说一句“某测验的信度是0.92”是不能接受的。
较恰当的说法是“某测验的信度系数为0.92，该数值是通过
计算一份能力测验间隔两周两次测试成绩的相关系数得出
的。数据来源是从某市随机抽取的500名小学5年级的学生施
测……”。

两次测验之间的时间间隔要适宜。应由测验的
性质、测题类型、测题数量和被试特点所决
定。
二、复本信度（alternate-form reliability）
同时施测：等值性系数
致性
测验分数跨形式的一
延时施测：稳定性与等值性系数测验分数跨
形式与时间的一致性(此种复本信度系数最低)
同时施测可能会存在作答疲劳的效应，而延时施测可
能会存在学习或培训效应。
例题

以A、B两型英语复本测验对初中三年级10个学生
施测，为避免由测验施测顺序所造成的误差，其
中5个学生先做A型测验，休息15分钟后，再做B
型测验；而另5个学生先做B型测验，休息15分钟
后，再做A型测验。10个学生A型测验结果记为
X，B型测验结果记为Y，其测验的复本信度如
何？

学生序号 1 2 3 4 5 6 7 8 9 10
X
19 19 18 17 16 15 15 14 13 12
Y
20 17 18 18 17 15 13 15 12 12



使用的前提条件
（1）首先要构造出两份真正平行的测验。
（2）被试要有条件接受两个测验。这种条件
主要取决于时间、经费等几个方面。
(3) 被试仍会受到练习和记忆的影响，复本
法只能减少而不能完全排除练习和记忆的影
响。
缺点：




1、编制两个完全相等的测验是很困难的，如果两
个复本过分相似，则变成再测形式，而过分不相
似，又使等值的条件不存在；
2、两个复本测验有可能在某种程度上测量了不同
的性质，这就会低估测验的信度；
3、被试同时接受性质相似的两个测验，可能减少
完成测验的积极性；
4、虽然两个复本测验的题目材料不同，但被试一
旦掌握了解题的某一模式，就能触类旁通，有可
能失去复本的意义。
三、内部一致性信度
以一次测验的结果来估计测验的信度.
用以估计测验内部的一致性。
1．分半法

按题目的奇偶顺序或其它方法将测验分成两个
尽可能平行的半份测验
返回
计算分半信度的一个重要之处是如
何进行合理的分半.
一般以奇偶分半法

例题：有一个由100题构成的量表施行于10
个高三学生（分数见下表）。测验一次
后，学生即毕业离校，现怎样评价测验结
果的信度？

学生序号 1 2 3 4 5 6 7 8 9 10
奇X
38 37 38 41 40 36 38 39 40 35
偶Y
37 37 36 39 39 34 38 39 39 36


方法一


计算两半之间的相关系数，得到半个测验的信
度系数；
用斯皮尔曼—布朗公式进行修正。
rxx 
2rhh
1  rhh
举例
方法二

当两个分半测验的不等值时：
弗朗那根（Flanagan）公式
卢龙（Rulon）公式
弗朗那根（Flanagan）公式

rtt  2 1 
2
2
Sa  Sb
2
St

2
2
S a，S b 分别是两半测验分数的方差
2
S t 是整个测验的方差
举例
卢龙（Rulon）公式
rxx  1 
举例
S
S
2
d
2
x
返回
2.同质性信度

库德－理查逊公式（只适用于1、0记分
测验）
K  R 20 公式 :
r kk

 pi qi 
 k 


 1 
2
k

1
Sx 


K 表示构成测验的题目数 , pi 为通过第 i 题的人数比例 , qi 为未通过第 i 题的人数比例
克伦巴赫α系数（适用于多重记分测
K  R 公式:
kp q 
 k 
验）
r 
1



k 1
S
21
i
kk


i
2
x

2

Si 
k
kS  X ( k  X )

 
1  2 
( k  1) S
k 1
Sx 
K表示构成测验的题目数, X为测验总分的平均数, s 为测验总分的变异数.
2
x
2
x
2
x
2
其中 K 为测验的题目数 , Si 为某一题目分数
练习：假设一个测验有5个测题,施测
于一个30个人的样本,结果求出方差为
2.5，求其内在一致性信度。
测题答对人数
1
15
2
20
3
12
4
10
5
6
p
0.50
0.67
0.40
0.33
0.20
q
pq
0.50 0.25
0.33 0.22
0.60 0.24
0.67 0.22
0.80 0.16
Σpq=1.09
误差来源
1、分半方法
2、项目的同质性
速度测验不适宜用分半法估计信度
内在一致性系数的使用局限性
1.
2.
只适合于同质性的测验
特别不适合于速度测验
估计信度的方法与测验型式和测验次数的关系
测试卷份数
测试次数
1份
2份
1次
分半信度
Kuder-Richardson信度
Alpha系数
复本信度（同时测试）
2次
重测信度
复本信度（延时测试）
返回
四、评分者信度

测验分数跨评分者之间的一致性
 只有两个评分者时
等级相关，积差相关
 有两个以上的评分者，且采用等级评分时
肯德尔和谐系数
1．只有两个评分者时

等级相关

1

rR

6 D
2
n(n  1)
2
积差相关
rXY 
 xy
nS X SY
2 ．有两个以上的评分者，且采用等级评分时

肯德尔和谐系数
W 
2   Ri 
 Ri  N
2
1
K
12
举例
N
3
2
N

三个教师给6篇作文评分
教师
A
B
C
1
25
22
15
2
30
26
20
3
27
21
18
4
20
20
14
5
28
25
21
6
32
30
22
将分数值转换为得分等级（最高为1……）然
后求出每一篇作文所得等级之和（Ri ）
A
B
C
Ri
1
5
4
5
14
2
2
2
3
7
3
4
5
4
13
4
6
6
6
18
5
3
3
2
8
6
1
1
1
3
Ri ＝14+7+13+18+8+3＝63
Ri2＝811
K＝3
N=6
各种信度估计方法的误差方差来源
重测信度
时间间隔
复本信度（同时测试）
题目内容
复本信度（延时测试）
时间间隔与题目内容
分半信度
题目内容
Kuder-Richardson 和Alpha系数
题目内容与心理行为特质的同质性
评分者信度
评分者间差异
不同类型测验的信度要求
标准化智力测验
标准化成就测验
标准化人格测验
标准化团体测验
某些投射测验
0.90
0.85
0.80
0.70
0.60
(中等到高的信度)
(中等到低的信度)
(低信度)
第三节提高测量信度的方法
一、影响测量信度的主要因素
1. 被试方面
被试的身心状态带来随机误差。
被试样本的异质性和团体平均水平都会影响测验的信度。
2. 主试方面
主试实施测验的标准化程度。
3 . 施测环境方面
4 . 测量工具方面
测题的取样、难度、同质性、格式等带来随机误差。
测验长度
5 . 两次施测的时间间隔
重测信度与复本信度受时间间隔的影响。
返回
影响信度系数的因素
分数分布范围：被试某特性越接近，范围越狭
窄，信度系数越小
测验长度的影响：其他条件不变时，测验长度越
长，即题目越多，信度就越高
测验难度的影响：题目太难，测验分数的差别取
决于随机分布的测量误差，信度系数就低测验
太容易，分数分布范围变窄，信度系数降低
时间间隔：时间长，信度估计低
测验的难度


测验的难度与信度没有直接的对应关系，但是当测
验太难或太易时，则测验的分数分布范围会缩小，
从而降低信度。
通常难度为0.5时，测验分数的分布范围最大。
返回
测验长度
 测验越长，测题或内容取样越有代表性
 测验越长，受猜测因素影响就越小
 项目越多，每个项目上的随机误差相互抵消
增加测验长度与信度提高之间关系的公式：
rX X 
k  rtt
1  ( k  1) rtt
式中： k为新测验长度（题数）与原测验长度之比
rtt 为原测验的信度系数
rX X 为原测验长度增加到 k 倍时的信度系数

例：有一包含10题的测验，其信度系数为0.30，若把测验增加到原测验
长度的3倍，那么新测验的信度系数应该是多少？
解： rX X 

k  rtt
1  ( k  1) rtt

3  0.30
1  2  0.30
 0.5625
例：原测验共10题，信度系数为0.30，如要把测验信度系数提高到0.94，
需要把原测验延长多少倍？增加多少题？
解：k 
rX X (1  rtt )
rtt (1  rX X )

0.954(1  0.30)
0.30(1  0.954)
 48.39
返回
二、提高测量信度的常用方法





适当增加测验的长度
测题的难度接近正态分布并控制在中等水平
努力提高测题的区分度
选取恰当的被试团体
严格按照标准化要求施测
返回

第五章测量的信度

Transcript 第五章测量的信度

Directory