第五章测量的信度

Download Report

Transcript 第五章测量的信度

案例一
有一个体操运动员参加跳马比赛,第一次跳
了8.9分,转播席上的嘉宾评论员说这不是他
真实的水平,他的真实水平应该在9.5分以
上。果然第二次他跳出了9.9分。如果没有嘉
宾的点评,你认为哪次成绩是该运动员的真实
水平?
案例二
王先生去应聘某公司的经理岗位,考官拿
出一个企业忠诚度测验让王先生答卷,经评估
后得出结论,王先生忠诚度不够。结果王先生
不服,要求重新答一次,结果正好相反。
案例三
小明学习成绩一直很差,他找张老师咨
询,张老师找了一个智力测验让他做,结果还
不错,智商有120。母亲觉得不可思议,这么
高的智商为什么学习成绩那么差呢,于是她带
着小明去了一家咨询机构,那里的咨询师拿出
了同样一个智力测验让小明做,结果算出来智
商只有88。哪一次的结果是可信的。
第三章
信度
第一节 信度概述
第二节 估计信度的方法
第三节 影响信度的因素

信度
主要对整个测量而言。

效度

难度
主要对测量的项目而言。

区分度
第一节 信度概述
一、含义:指一个测验的稳定性程度。
是指同一被试在不同时间内用同一测
验(或两个等值测验)重复测量,所得结
果的一致程度。
信度的统计定义
定义1:信度是被试团体真分数方差与实得分数方差之比
E
T
2
2

2
X

T
2

T
2
rXX 
2
E
X
2
2
X
定义2:信度是被试团体真分数与实得分数相关系数的平方
rXX  
2
TX
定义3:信度是一个测验X(A卷)与它的任意一个平行测验
(B卷)的相关系数 rXX   XX 



信度是指实测值与真值相差的程度。
信度是指统计量与参数之间的接近程度。
信度是两次重复测量或等值测量之间的关联程
度。
二、信度的指标

信度系数

信度指数
rXT=ST/SX

测量标准误
rxx=ST2/SX2 =rXT2
信度指数的平方即信度系数
SE=SX
信度越高,标准误越小;信度越低,标准误越大。
三、信度的作用






1、评价测验
一般能力与学绩测验的信度系数应达到0.90以
上;
标准智力测验的信度系数应达到0.85以上;
个性和兴趣测验的信度系数可稍低,一般应达
到0.7~0.80;
当信度系数小于0.70时,不能用测验来对个人
进行评价,也不能用来进行团体间的比较;
当信度系数大于0.70时,可用来进行团体间的
比较;大于0.85时,可以用来鉴别个人。
2、信度可以用来解释个人测验分数的意义。

SE=SX

已知韦氏智力测验标准差为15,信度系数为
0.95,对一名12岁的儿童实施该测验后,IQ为
110,那么他的真分数在95%的可靠度要求
下,变动范围应是多大?(有95%的把握可以
断定真分数在103.4和116.6之间 )
3、信度可以帮助不同测验分数的比较

某校五年级进行期末考试,小张数学考了85
分,此次数学测验年级平均分是77分,标准差
是8分,此次测验的信度系数是0.84;语文考
了95分,此次语文测验年级平均分是81分,
标准差是10分,此次测验的信度系数是0.91;
问小张两科测验的成绩是否有显著差异?
三、对信度系数的几点解释
1.经典测量理论的信度系数
信度系数是表示测量结果的稳定性程度的指标。记
为:
rXX
信度系数的值域:[0,1]
没有百分之百可靠的测量,因此,rXX=1只是理论上
的值,实际当中是不会存在的。
?相关系数的值域是[-1,+1] ,信度系数的值域:
[0,1],为什么?
第二节 估计信度的方法
一、重测信度
二、复本信度
三、内在一致性信度
四、评分者信度
返回
一、重测信度(test-retest reliability)



测验——一段时间后——再测验(测验分数跨时间的一致
性)
前后两次是同一批被试
前后两次使用的是同一个测验

相关系数:
稳定性系数(coefficient of stability)

使用的前提条件:
(1)所测得心理特性必须是稳定的。
(2)遗忘和练习的效果基本上相互抵消。
(3)在两次施测的间隔期内,被试在所要查的心理特质方
面没有获得更多的学习和训练。
例题




用一个算术四则的速度测验12个小学生,得分记为
X,为了考察测量结果的可靠性,于3个月后再测一
次,得分记为Y,问测验结果是否可靠?
学生序号 1 2 3 4 5 6 7 8 9 10 11 12
X
20 20 21 22 23 23 232425262627
Y
20 21 21 20 23 23 252526262729
使用重测信度时需要注意的问题

两次施测时间间隔的长短会影响重测信度系数估计值的
大小,因此,在报告重测信度系数时应该报告间隔的时
间长度。
例如,简单说一句“某测验的信度是0.92”是不能接受的。
较恰当的说法是“某测验的信度系数为0.92,该数值是通过
计算一份能力测验间隔两周两次测试成绩的相关系数得出
的。数据来源是从某市随机抽取的500名小学5年级的学生施
测……”。

两次测验之间的时间间隔要适宜。应由测验的
性质、测题类型、测题数量和被试特点所决
定。
二、复本信度(alternate-form reliability)
同时施测:等值性系数
致性
测验分数跨形式的一
延时施测:稳定性与等值性系数 测验分数跨
形式与时间的一致性(此种复本信度系数最低)
同时施测可能会存在作答疲劳的效应,而延时施测可
能会存在学习或培训效应。
例题

以A、B两型英语复本测验对初中三年级10个学生
施测,为避免由测验施测顺序所造成的误差,其
中5个学生先做A型测验,休息15分钟后,再做B
型测验;而另5个学生先做B型测验,休息15分钟
后,再做A型测验。10个学生A型测验结果记为
X,B型测验结果记为Y,其测验的复本信度如
何?

学生序号 1 2 3 4 5 6 7 8 9 10
X
19 19 18 17 16 15 15 14 13 12
Y
20 17 18 18 17 15 13 15 12 12



使用的前提条件
(1)首先要构造出两份真正平行的测验。
(2)被试要有条件接受两个测验。这种条件
主要取决于时间、经费等几个方面。
(3) 被试仍会受到练习和记忆的影响,复本
法只能减少而不能完全排除练习和记忆的影
响。
缺点:




1、编制两个完全相等的测验是很困难的,如果两
个复本过分相似,则变成再测形式,而过分不相
似,又使等值的条件不存在;
2、两个复本测验有可能在某种程度上测量了不同
的性质,这就会低估测验的信度;
3、被试同时接受性质相似的两个测验,可能减少
完成测验的积极性;
4、虽然两个复本测验的题目材料不同,但被试一
旦掌握了解题的某一模式,就能触类旁通,有可
能失去复本的意义。
三、内部一致性信度
以一次测验的结果来估计测验的信度.
用以估计测验内部的一致性。
1.分半法

按题目的奇偶顺序或其它方法将测验分成两个
尽可能平行的半份测验
返回
计算分半信度的一个重要之处是如
何进行合理的分半.
一般以奇偶分半法

例题:有一个由100题构成的量表施行于10
个高三学生(分数见下表)。测验一次
后,学生即毕业离校,现怎样评价测验结
果的信度?

学生序号 1 2 3 4 5 6 7 8 9 10
奇X
38 37 38 41 40 36 38 39 40 35
偶Y
37 37 36 39 39 34 38 39 39 36


方法一


计算两半之间的相关系数,得到半个测验的信
度系数;
用斯皮尔曼—布朗公式进行修正。
rxx 
2rhh
1  rhh
举例
方法二

当两个分半测验的不等值时:
弗朗那根(Flanagan)公式
卢龙(Rulon)公式
弗朗那根(Flanagan)公式

rtt  2 1 
2
2
Sa  Sb
2
St

2
2
S a,S b 分别是两半测验分数的方差
2
S t 是整个测验的方差
举例
卢龙(Rulon)公式
rxx  1 
举例
S
S
2
d
2
x
返回
2.同质性信度

库德-理查逊公式(只适用于1、0记分
测验)
K  R 20 公 式 :
r kk

 pi qi 
 k 


 1 
2
k

1
Sx 


K 表 示 构 成 测 验 的 题 目 数 , pi 为 通 过 第 i 题 的 人 数 比 例 , qi 为 未 通 过 第 i 题 的 人 数 比 例
克伦巴赫α系数(适用于多重记分测
K  R 公式:
kp q 
 k 
验)
r 
1



k 1
S
21
i
kk


i
2
x

2

Si 
k
kS  X ( k  X )

 
1  2 
( k  1) S
k 1
Sx 
K表示构成测验的题目数, X为测验总分的平均数, s 为测验总分的变异数.
2
x
2
x
2
x
2
其 中 K 为 测 验 的 题 目 数 , Si 为 某 一 题 目 分 数
练习: 假设一个测验有5个测题,施测
于一个30个人的样本,结果求出方差为
2.5,求其内在一致性信度。
测题 答对人数
1
15
2
20
3
12
4
10
5
6
p
0.50
0.67
0.40
0.33
0.20
q
pq
0.50 0.25
0.33 0.22
0.60 0.24
0.67 0.22
0.80 0.16
Σpq=1.09
误差来源
1、分半方法
2、项目的同质性
速度测验不适宜用分半法估计信度
内在一致性系数的使用局限性
1.
2.
只适合于同质性的测验
特别不适合于速度测验
估计信度的方法与测验型式和测验次数的关系
测试卷份数
测试次数
1份
2份
1次
分半信度
Kuder-Richardson信度
Alpha系数
复本信度(同时测试)
2次
重测信度
复本信度(延时测试)
返回
四、评分者信度

测验分数跨评分者之间的一致性
 只有两个评分者时
等级相关,积差相关
 有两个以上的评分者,且采用等级评分时
肯德尔和谐系数
1.只有两个评分者时

等级相关

1

rR

6 D
2
n(n  1)
2
积差相关
rXY 
 xy
nS X SY
2 .有两个以上的评分者,且采用等级评分时

肯德尔和谐系数
W 
2   Ri 
 Ri  N
2
1
K
12
举例
N
3
2
N

三个教师给6篇作文评分
教师
A
B
C
1
25
22
15
2
30
26
20
3
27
21
18
4
20
20
14
5
28
25
21
6
32
30
22
将分数值转换为得分等级(最高为1……)然
后求出每一篇作文所得等级之和(Ri )
A
B
C
Ri
1
5
4
5
14
2
2
2
3
7
3
4
5
4
13
4
6
6
6
18
5
3
3
2
8
6
1
1
1
3
Ri =14+7+13+18+8+3=63
Ri2=811
K=3
N=6
各种信度估计方法的误差方差来源
重测信度
时间间隔
复本信度(同时测试)
题目内容
复本信度(延时测试)
时间间隔与题目内容
分半信度
题目内容
Kuder-Richardson 和Alpha系数
题目内容与心理行为特质的同质性
评分者信度
评分者间差异
不同类型测验的信度要求
标准化智力测验
标准化成就测验
标准化人格测验
标准化团体测验
某些投射测验
0.90
0.85
0.80
0.70
0.60
(中等到高的信度)
(中等到低的信度)
(低信度)
第三节 提高测量信度的方法
一、影响测量信度的主要因素
1. 被试方面
被试的身心状态带来随机误差。
被试样本的异质性和团体平均水平都会影响测验的信度。
2. 主试方面
主试实施测验的标准化程度。
3 . 施测环境方面
4 . 测量工具方面
测题的取样、难度、同质性、格式等带来随机误差。
测验长度
5 . 两次施测的时间间隔
重测信度与复本信度受时间间隔的影响。
返回
影响信度系数的因素
分数分布范围: 被试某特性越接近,范围越狭
窄,信度系数越小
测验长度的影响: 其他条件不变时,测验长度越
长,即题目越多,信度就越高
测验难度的影响: 题目太难,测验分数的差别取
决于随机分布的测量误差,信度系数就低 测验
太容易,分数分布范围变窄,信度系数降低
时间间隔:时间长,信度估计低
测验的难度


测验的难度与信度没有直接的对应关系,但是当测
验太难或太易时,则测验的分数分布范围会缩小,
从而降低信度。
通常难度为0.5时,测验分数的分布范围最大。
返回
测验长度
 测验越长,测题或内容取样越有代表性
 测验越长,受猜测因素影响就越小
 项目越多,每个项目上的随机误差相互抵消
增加测验长度与信度提高之间关系的公式:
rX X 
k  rtt
1  ( k  1) rtt
式 中 : k为 新 测 验 长 度 ( 题 数 ) 与 原 测 验 长 度 之 比
rtt 为 原 测 验 的 信 度 系 数
rX X 为 原 测 验 长 度 增 加 到 k 倍 时 的 信 度 系 数

例:有一包含10题的测验,其信度系数为0.30,若把测验增加到原测验
长度的3倍,那么新测验的信度系数应该是多少?
解 : rX X 

k  rtt
1  ( k  1) rtt

3  0.30
1  2  0.30
 0.5625
例:原测验共10题,信度系数为0.30,如要把测验信度系数提高到0.94,
需要把原测验延长多少倍?增加多少题?
解:k 
rX X (1  rtt )
rtt (1  rX X )

0.954(1  0.30)
0.30(1  0.954)
 48.39
返回
二、提高测量信度的常用方法





适当增加测验的长度
测题的难度接近正态分布并控制在中等水平
努力提高测题的区分度
选取恰当的被试团体
严格按照标准化要求施测
返回