项目反应理论讲座(文剑冰).

Download Report

Transcript 项目反应理论讲座(文剑冰).

项目反应理论简介
华东师范大学心理系
文 剑 冰
经典测量理论(CTT)
• 经典测量理论的假设
X=T+E
• 经典测量理论的信度
• 经典测量理论的效度
• 经典测量理论的试题参数
• 经典测量理论的测验编制
经典测量理论的假设
• 观察分数=真分数+误差分数
X=T+E
• 观察分数与误差分数之间互相独立
• 误差分数的平均数为0
• 多次测量的误差分数之间相关为0
经典测量理论的信度
• 信度的概念
“真实分数方差在观测分数方差中所占的比率”
• 信度系数的估计方法
– 重测信度(稳定性系数)
– 复本信度(等值性系数)
– 内部一致性信度
– 评分者信度
• 信度系数的应用 Se  St 1  rXX
经典测量理论的试题参数
• 难度指标(通过率或得分率P值)
X
P
X max
• 区分度指标(鉴别力指数D或相关
系数r)
D= PH-PL
经典测量理论的测验编制
• 假设被试的特质是正态分布,从而
测验总分的分布也是正态
• 测验分数尽可能区分被试,因此测
验总分的变异程度越大越好
• 测验中试题的难度中等为好,区分
度越大越好
经典测量理论的缺陷
• 参数依赖于样本
• 能力量表与难度量表不统一
• 对于所有被试的测量误差相等
• 无法反应潜在特质与被试作答之
间的关系
• 在测验编制问题上的困惑
准备知识
• 标准分数
X X
Z
S
• Z>0,高于平均,Z<0,低于平均
• P(-1.96<Z<1.96)=0.950
• P(-3<Z<3)=0.997
A
1
1
1
0
1
0
0
0
1
1
6
B
0
1
0
1
1
1
1
0
1
0
6
C
1
0
1
0
1
1
0
1
1
1
7
D
1
1
1
0
0
0
0
0
0
1
4
E
1
1
1
1
0
1
1
0
1
0
7
F
1
1
0
0
0
0
1
0
1
1
5
G
1
1
1
0
1
1
0
0
1
1
7
H
0
1
1
1
1
0
1
1
1
1
8
I
1
0
0
0
1
0
0
1
1
0
4
J
0
1
1
0
0
0
1
0
0
1
4
总
7
8
7
3
6
4
5
3
8
7
项目反应理论(IRT)
项目反应理论
(Item Response Theory)
三个理论假设
• 单维性假设
• 局部独立性假设
• 项目反应模型(项目特征函数)
项目反应模型
单参数模型(Rasch模型)
exp(-b)
P( )=
1  exp(-b)
双参数模型
exp[ Da (-b)] P( )  a ( b ) 1 e Z / 2 dZ
P( )=


2
1  exp[ Da (-b)]
2
三参数模型
exp Da (-b)
1 c
P( )=c  (1  c)
c
1  exp Da (-b)
1  exp  Da (  b)
项目反应模型的参数
•
单参数模型
双参数模型
三参数模型
参数的含义(a)
参数的含义(a)
参数的含义(b)
参数的含义(b)
参数的含义(c)
极低能力被
试答对的概
率为0
c=0
参数的含义(c)
低能力被试
可能答对的
可能性不为0
C=0.2
单参数模型
双参数模型
三参数模型
项目反应模型参数的估计
试题
试题参数
考生对试题的回答
a
b
c
1
2
3
4
5
1
1. 00
0.25
0.10
1
1
0
0
0
2
0.50
1.32
0.10
1
0
0
1
0
3
1.60
1.25
0.10
1
0
1
1
0
项目反应模型参数的估计
• 反应模式(110)的概率:
• L=P1P2Q3
试题
试题参数
a
b
考生能力
c
1
1. 00 0.25 0.10
2
0.50 1.32 0.10
3
1.60 1.25 0.10
0.50
1.00
1.50
似然函数值
0.205
0.235
0.150
• 极大似然估计和贝叶斯估计(联合后验分布的众数)
对θ=0.5时似然函数的计算
1  c1


L( )  P1 ( ) P2 ( )1  P3 ( )   c1 
1.7 a1 ( b1 ) 
1 e


1  c3
1  c2


  
  c2 
 1   c3 
1.7 a3 ( b3 ) 
1.7 a2 ( b2 )  
1 e
1 e

  

1  0.1


  0.1 
1.71( 0.5  0.25) 
1 e


1  0.1
1  0.1

  

  0.1 
 1   0.1 
1.70.5( 0.51.32)  
1.71.6( 0.51.25) 
1 e
1 e

  

 0.205
能力参数的估计方法
• 极大似然法(ML)
– 使已知反应模式的似然函数值达到最大
• MAP(Maximum a Posteriori)
– 使后验概率函数值达到最大
• EAP(Expected a Posteriori)
– 后验概率函数值的平均数
估计项目参数的方法
• 联合极大似然估计法(JMLE)
• 边际极大似然估计法(MMLE)
• 条件极大似然估计法(CMLE)
• 联合估计时标尺的建立(通常设能力均数为0)
– P(0.5;1.0,-0.8,0.2)=P(2;1.0,0.7,0.2)
=P(2;2.0,1.35,0.2)
参数估计时标尺的建立
P(0.5;1.0,-0.8,0.2)=P(2;1.0,0.7,0.2)
=P(2;2.0,-0.15,0.2)
1  0.2
1  0.2

 

P   0.2 
  0.2 
1.710.5 ( 0.8 )  
1.71( 2  0.7 ) 
1 e
1 e

 

1  0.2


  0.2 
1.720.5 ( 0.15)  
1 e


– 通常将被试能力平均值设定为0
信息函数
• 试题信息函数
1
ˆ
I ( )  Var ( |  )
( P) 2
1.7a 2 (1  c)
I ( ) 

1.7 a ( b )
1.7 a ( b ) 2
PQ [c  e
][1  e
]
 max
1
1
1  8c
b
ln( 
)
1.7 a 2
2
• 测验信息函数(试题信息函数之和)
信息函数(例)
1
试题参数
a
b
c
1.80 1.00 0.00
2
0.80 1.00 0.00
3
1.80 1.00 0.25
4
1.80 -1.50 0.00
5
1.20 -0.50 0.10
6
0.40 0.50 0.15
试
题
信息函数的性质
• 同一试题信息函数随着所测被试能力
的不同而不同;同时试题信息函数受
试题自身特征的影响。
• a,b相同的试题,c值大的信息量小。
• a值大的试题,只是在较窄的区间内提
供的信息量多,a值小的试题,对能力
的估计提供帮助不大,但是广泛地分
布在较宽区间
• 试题提供信息量最大的位置,是在接
近试题难度(比难度稍大)之处
模型-资料的拟合度检验
• 卡方检验
( fo  fe )
 
fe
2
• 将被试按能力分组,
2
项目反应理论的特点与优点
• 非线性、非确定性的模型
• 参数独立于所使用的样本
• 试题难度与被试能力的统一
• 对于不同能力的被试测量误差也不同
• 提出测验编制的指导原则
IRT的其他模型
• 单维多等级模型
等级反应模型(GRM)
分部评分模型(PCM)
• 多维模型
能力有不同的维度,试题的区分度(/
难度),在相应的维度上的取值不同
项目反应理论的应用
• 测验编制
• 计算机化自适应测验
• 测验等值
• 测验偏差
测验偏差
• 测验偏差(Bias)或项目功能差异
(Differential Item Functioning,DIF )
– 来自不同族群的能力相同被试,在试题上答对
的概率不同,则说存在项目功能差异
项目偏差与项目功 能差异
• 项目偏差(item bias) :如果来自不同团体的具
有相同能力的个体对某题正确回答的概率不同,
那么这道题就存在偏差。但是“偏差”一词常用
于社会学中,且带有判断和评价含义,把“偏差”
这词语应用于统计学中不适合。
• 项目功能差异(Differential Item Functioning)
指的是在控制团体能力之后,一个项目在不同团
体中显示的不同统计特性。
• 项目影响(item impact)是指目标组与参照组在
某题上的差异真的是由于两者在测验所测的能力
上有差异。
非一致性DIF
一致性DIF
项目反应理论的常用软件
• BILOG
–二级记分,单参,双参,三参模型
• MULTILOG
–多级记分,GRM,
• PARSCALE
–多级记分,GRM,PCM,GPCM
BILOG-MG的使用
数据的准备
• 数据文件是ASCII码的文本文件
• 至少包含ID和答题情况
BILOG 程序文件 (*.BLM)
Title line
IRT calibration of chinese and maths score.
>COMMENT
>GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE;
>SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’;
>LENGTH NITEMS=(80);
>INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’;
(5A1,80A1)
>CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0;
>SCORE MET=2, IDIST=0, RSC=0, INF=1;
BILOG 程序文件 (*.BLM)
IRT calibration of chinese and maths score.
>COMMENT
>GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE;
>SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’;
>LENGTH NITEMS=(80);
>INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’;
(5A1,80A1)
>CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0;
>SCORE MET=2, IDIST=0, RSC=0, INF=1;
数据文件名
模型参数个数
个人ID位数
保存外部文件
BILOG 程序文件 (*.BLM)
IRT calibration of chinese and maths score.
>COMMENT
>GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE;
>SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’;
>LENGTH NITEMS=(80);
>INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’;
(5A1,80A1)
>CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0;
>SCORE MET=2, IDIST=0, RSC=0, INF=1;
保存试题参数,被试参数,
CTT结果,测验信息函数
BILOG 程序文件 (*.BLM)
IRT calibration of chinese and maths score.
>COMMENT
>GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE;
>SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’;
>LENGTH NITEMS=(80);
(分)测验题数
>INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’;
(5A1,80A1)
>CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0;
>SCORE MET=2, IDIST=0, RSC=0, INF=1;
BILOG 程序文件 (*.BLM)
IRT calibration of chinese and maths score.
>COMMENT
>GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE;
>SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’;
>LENGTH NITEMS=(80);
>INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’;
(5A1,80A1)
>CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0;
>SCORE MET=2, IDIST=0, RSC=0, INF=1;
标准答案文件名
总题数
选项个数
omit文件名
BILOG 程序文件 (*.BLM)
IRT calibration of chinese and maths score.
>COMMENT
>GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE;
>SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’;
>LENGTH NITEMS=(80);
>INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’;
(5A1,80A1)
>CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0;
>SCORE MET=2, IDIST=0, RSC=0, INF=1;
FORTRAN 语言
读数据的格式A,X,T,I,/
BILOG 程序文件 (*.BLM)
IRT calibration of chinese and maths score.
>COMMENT
>GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE;
>SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’;
>LENGTH NITEMS=(80);
>INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’;
试题参数估计时的设定
(5A1,80A1)
>CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0;
>SCORE MET=2, IDIST=0, RSC=0, INF=1;
画出拟合度差
(p<=指定数值)
的试题
BILOG 程序文件 (*.BLM)
IRT calibration of chinese and maths score.
>COMMENT
>GLOBAL DFN=‘C:\YAN2.DAT', NIDW=5, NPARM=2, SAVE;
>SAVE SCO = ‘YAN2.SCO', PARM = ‘YAN2.PAR', TST = ‘YAN2.TST‘,IST=‘YAN2.IST’;
>LENGTH NITEMS=(80);
被试能力估计时的设定
>INPUT NTOT=80,NALT=4, KFN=‘KEY.TXT’,OFN=‘OMIT.TXT’;
(5A1,80A1)
>CALIB NQPT=40, CYC=100, NEW=30, CRIT=.001, PLOT=0;
>SCORE MET=2, IDIST=0, RSC=0, INF=1;
测验信息曲线
0-不做重新标刻(缺省)
1-ML
1-按scale和location线性变换
2-EAP(缺省)
3-按样本的L和S重新标刻
3-MAP
3-EAP时潜变量以L为均数S为标准差
BILOG 结果文件 (*.PH1)
CTT的试题参数
ITEM STATISTICS FOR SUBTEST TEST0001
Ln[(1-p)/p]
ITEM
NAME
#TRIED
ITEM*TEST CORRELATION
#RIGHT
PCT
LOGIT
PEARSON
BISERIAL
------------------------------------------------------------------------1
ITEM0001
480.0
395.0
82.3
-1.54
0.318
0.468
2
ITEM0002
480.0
357.0
74.4
-1.07
0.306
0.415
3
ITEM0003
480.0
444.0
92.5
-2.51
0.252
0.469
4
ITEM0004
480.0
321.0
66.9
-0.70
0.468
0.608
5
ITEM0005
480.0
292.0
60.8
-0.44
0.119
0.151
6
ITEM0006
480.0
265.0
55.2
-0.21
0.162
0.204
7
ITEM0007
480.0
315.0
65.6
-0.65
0.288
0.372
8
ITEM0008
480.0
247.0
51.5
-0.06
0.391
0.490
9
ITEM0009
480.0
178.0
37.1
0.53
0.128
0.163
10
ITEM0010
480.0
253.0
52.7
-0.11
0.406
0.509
BILOG 结果文件 (*.PH2)
IRT的试题参数
-Slope*threshold
CYCLE
15;
SUBTEST TEST0001;
ITEM
LARGEST CHANGE=
Slope/sqrt(1
+slope^2)
0.00007
ITEM PARAMETERS AFTER CYCLE
INTERCEPT
SLOPE
THRESHOLD
S.E.
S.E.
S.E.
15
LOADING
ASYMPTOTE
S.E.
CHISQ
S.E.
DF
(PROB)
------------------------------------------------------------------------------ITEM0001 |
1.785
|
0.922
|
-1.936
|
0.678
|
|
0.147* |
0.146* |
0.265* |
0.107* |
|
|
|
|
|
ITEM0002 |
1.214
|
0.816
|
-1.487
|
0.632
|
|
0.118* |
0.124* |
0.224* |
0.096* |
|
|
|
|
|
0.000
|
2.2
8.0
0.000* | (0.9758)
|
0.000
|
3.4
0.000* | (0.9469)
|
9.0
BILOG 结果文件 (*.PH3)
被试的能力参数
GROUP
SUBJECT IDENTIFICATION
MARGINAL
WEIGHT
TEST
TRIED RIGHT PERCENT
ABILITY
S.E.
PROB
-------------------------------------------------------------------------1
11
|
|
1.00
TEST0001
80
46
57.50 |
-0.4595
0.1175 | 0.00
1
12
|
|
1.00
TEST0001
80
46
57.50 |
-0.5095
0.2318 | 0.00
1
13
|
|
1.00
TEST0001
80
28
35.00 |
-1.7741
0.4445 | 0.00
1
14
|
|
1.00
TEST0001
80
58
72.50 |
-0.2157
0.3886 | 0.00
1
15
|
|
1.00
TEST0001
80
57
71.25 |
0.0378
0.4430 | 0.00
1
16
|
|
1.00
TEST0001
80
20
25.00 |
-2.2754
0.2127 | 0.00
1
17
|
|
1.00
TEST0001
80
63
78.75 |
0.4364
0.1461 | 0.00
1
18
|
|
1.00
TEST0001
80
65
81.25 |
0.5205
0.2539 | 0.00
试题参数文件 (*.PAR)
BILOG保存的外部文件
• 试题参数文件(*.PAR)
• 被试能力估计文件(*.SCO)
数据格式与PH2和PH3文件中基本相同