英语语言测试4

Transcript 英语语言测试4

第四章测试效度及其
验证方法（一）
湖南师范大学外国语学院
邓杰教授
教学目标
1.
2.
3.
4.
5.
6.
7.
了解效标关联效度的概念、内涵及不足
了解相关分析的原理、相关性假设检验及其
SPSS操作
了解内容效度的概念、内涵及不足
了解专家评判一致性的检验方法及SPSS操作
了解构念效度的概念、内涵及常用检验方法
了解因子分析和回归分析的原理、功能及SPSS
操作
了解结构方程模型的原理、功能及AMOS操作
1、单一效度论（20世纪50年代以前）



效标关联效度（Criterion-related Validity）

概念内涵：当前测试与标准测试的相关程度

验证方法：求两个测试成绩的相关系数（Correlation Coefficient）
两个子类

同期效度（Concurrent Validity）

预测效度（Predictive Validity）
主要问题

标准测试自身的效度

同期效度两个测试的可比性

预测效度两个测试相关的意义
Validity＝Correlation efficient
效标关联效度
当
前
测
试
相关分析
标
准
测
试
A test is valid for anything with which it correlates.
相关分析
(1)
(2)
线性相关
相关系数r 的取值范围为 [-1,1]，其中：
 |ｒ|＜0.3称为微弱相关
 0.3≤ |ｒ|＜0.5称为低度相关
 0.5≤ |ｒ|＜0.8称为显著相关
 0.8≤ |ｒ|＜1称为高度相关或强
相关
(3)
(4)
非线性相关或曲线相关
Pearson 积距相关 rxy =
（定距数据）
=
Spearman 等级相关
（定序数据）
å( x - x ) ( y - y )
å( x - x ) å( y - y )
i
i
2
i
Cov(x, y)
Var(x)Var(y)
rxy =1-
6å Di2
n(n 2 -1)
i
2
积距相关示例
p/2
拒绝区间
α/2
原假设(Null Hypothesis)：H0: r = 0
备择假设(Alternative H )：H1: r ≠ 0
p/2
接受区间
1-α
拒绝区间
α/2
p 表示H0成立的概率，a为一
个非常小的概率。
a
如果p 值比更小，则说明
H0几乎不可能成立，完全有理
由拒绝H0而接受H1；
相反，如果p 值大于 a
，则
说明拒绝H0的理由还不够充分，
只能接受H0。
如果p值不大，即使接受H0，
结论的说服力也不强；如果p
值为大概率，那么接受H0同样
具有说服力。
å
hi = aij
检验结果
说明.963的相关系数具有统计
意义，两组成绩显著正相关
2
接受H1的条件极度苛刻，H1被接受则结论说服力强，所以期望的结论通常为H1
2
2、效度分类说（20世纪50～80年代中期）

三位一体：内容效度和构念效度作为效标关联效度的补充
效标关联效度
当
前
测
试
相关分析
标
准
测
试
内容效度
相关性典型性充足性
专家评判
构念效度
分数
潜在特质
多质多法、因子分析、结构方程等
内容效度（Content Validity）

定义


目标
内容
测试
内容
内涵


试题或任务在多大程度
上代表了目标内容的范
畴或全域
测试内容的相关性、典
型性及充足性
检验方法

专家评判：先检验评判
一致性，再分析有效程
度
内容效度
相关性典型性充足性
专家评判
专家评判一致性检验（Inter-rater
Consistency Test）
 Cronbach a信度系数（定距）
2ö
æ
S
å
n ç
i
a=
1- 2 ÷
n -1 çè
St ÷ø
两位专家时，等同于Pearson相关系数

Kendall’s w 协同系数（定序）
w=
åR
2
i
-
1
n
(å R )
2
i
1 2 3
K ( n - n)
12
两位专家时，用Kendall’s Tao
或 Spearman等级相关（注意：行为考生，列为专家）
评判一致性检验（Cronbach a）
 a ＜ 0.6，较差
 0.6 ≤ a＜ 0.8，较好
 a ≥ 0.8，很好
至少还应同时报
告项总体平均分
和标准差或方差
评判一致性检验（Kendall’s W ）
S1
R1
6 (3)
R2
3 (2)
R3
9 (5)
秩总计 10
秩均值 3.33
S2
2 (1.5)
2 (1)
2 (1)
3.5
1.17
S3
7 (4)
7 (4)
8 (3.5)
11.5
3.83
S4
2 (1.5)
6 (3)
4 (2)
6.5
2.17
S5
9 (5)
9 (5)
8 (3.5)
13.5
4.50
秩序和
15
15
15
45
15
H0: 专家评判不具一致性
H1: 专家评判具有一致性
请解读此统计结果
构念效度（Construct Validity）

构念效度
定义

分数解释构念的合理性程度
分数
潜在特质
多质多法、因子分析、结构方程等

内涵


分数的真实含义，即分数到底意味着什么
验证方法

多质多法分析（Multitrait-Multimethod, MTMM）

因子分析（Factor analysis）

结构方程模型（Structural Equation Model）
多质多法分析（MTMM）
Method 1
Trait 1
Method 2
Trait 2
Method 3
Trait 3
Method 4
异法同质的相关强——又称聚合效度（Convergent Validity）
同法异质的相关弱——又称区分效度（Discriminant Validity）
因子分析（Factor Analysis）
x1
降
维
x2
r2,1
x3
r3,1
x4
x5
x6
x7
r4,1
r1,1
Factor 1
r3,2
r6,1
r2,3
r7,2
r1,2
r9,2
r5,3
x8
x10
r8,3
r10,3
r1,3
Factor 2
x9
Factor 3
e
探测结构
1. 降维: 因子个数应远小于原有变量个数
2. 探测结构：一个因子应可解释一种类别特征，如能力特征、任务特征、评判特征
3. 信息损失小：因子应能反映原有变量的绝大部分信息
4. 因子独立性：各因子应不相关，否则即意味着存在未被提取的因子
5. 变量相关性：同类变量相关应趋向1，不同类变量相关应趋向0（因子分析中旋转的目的）
因子分析数学模型
因子维度
线性组合矩阵
f1
ì x1 = a11 f1 + a12 f2 + + a1k fk + e1
ï
ï x2 = a21 f1 + a22 f2 + + a2k fk + e 2
í
ï
ïî x p = a p1 f1 + a p2 f2 + + a pk fk + e p
x1
变
量
维
度
fk
f2
x2
xp
特征值(EigenValue)
因子负荷(Loading)
p
g = å aij2 ( j =1, 2,
2
j
k)
i=1
因子（fj ）代表所有变量
的程度（f1个最大）
标准化后，所有变量的总方差为 p，
特征值与p之比即为因子的方差贡献率
aij = Cov(xi , f j )
= rxi , f j（标准化后）
s = h +se
2
xi
2
i
2
i
共同度(Commonality)
k
h = å aij2 (i =1, 2,
2
i
p)
j=1
所有因子共同代表变量（xi ）
的程度（xi 应只与一个因子
高度相关）；
值越接近1，信息丢失越少
特殊因子
s e2 =1- hi2
i
(i =1, 2,
p)
变量（xi ）与因子（fj ）降维后的信息丢失程度；
值越接近0，信息丢失越少
的相关程度
rxi , f j =
Cov(xi , f j )
Var(xi ) = Var( f j ) =1
Var(xi ) Var( f j ) 标准化，即令
因子分析例析
3位教师对31个学生的作文进行评分，评判指标包括内容(Content)、
结构(Structure)、词汇(Vocabulary)和连贯(Cohesion) 四个项目，评判
等级从低到高分为1～5共五个等级。请先检验评分员之间的一致性，
再通过因子分析对评分结果做出解释。
因子分析数据表
评判一致性分析数据表
评判一致性检验结果
操
作
步
骤
因子分析适宜性检验
KMO检验
检验取样足够度，值越大取样越充分，最大值为1
Bartlett的球形检验
检验各变量是否各自独立
H0：各变量各自独立
H1：各变量互不独立（存在相关）
各变量存在相关且取值范围大致相当时，数据分布才有可能呈球形
结果与讨论
共同度（Commonality）
公共因子能体现绝大分
变量80%以上的信息
(i =1, 2,
p) ( j =1, 2,
k)
p 为原始变量数；k 为提取因子数
特征值（EigenValue）
方差贡献率（% of Variance）
前3个成份的特征值总
计达10.5，方差贡献
率累积接近80%
特征值占原始变量总数的百分比
旋转后，各因子的特征值和
贡献率趋于均匀
(本例中成份4无明显改善)
累积方差贡献率
应不低于80%
用4个因子代替12
个变量，约丢失
15%的信息
结果与讨论
成份得分矩阵与旋转成份矩阵结
果类似，但成份4更难以解读
4个成份与12个变量的相关系数表明：
1.前3个成份分别代表第2、1和3位评分教师；
2.第4个成份虽与Structure1和Structure3两个变量存在一定
关联，但两变量分别与成份2和成份3的关联更强
结论：因子分析未能提取与内容、结构、词汇和连贯相关的4个成份，但前
3个成份能很好代表3位评分教师，这说明本次写作成绩能说明教师的评分
情况，但难以解释写作能力的结构维度（试讨论可能的原因）。
回归模型（Regression Model）
y
y
x
y = b0 + b1 x + e
。
。。
e
。。
。
。 yˆ = b0 + b1x
x
y 因变量（Dependent Variable）
x 自变量（Independent Variable）
b0
y 和 x 均为观测值
yˆ 预测值（Predicted Value)
yi = yî + ei = b0 + b1xi + ei
e 残差（Residual)
b0 截距（Intercept)，常量
b1 斜率（Slope)，回归系数
y
x1
y = b0 + b1x1 + b2 x2 +
x2
…
+ bi xi + e
y
y = b0 e
b1x
x6
ln(y) = ln(b0 )+ b1 x
x
回归分析
2. 回归系数显著性
1. 回归方程显著性
回归平方和
n
Sr = å( yˆ - y)2
i=1
n
残差平方和
i=1
总方差
Se = å(yi - yî )2
H 0 : b1 = 0
H1 : b1¹ 0
Syy = Sr + Se
方差来源
回归
剩余
总和
Sig. 应小于.05
是否显著大于1
平方和
sr
se
syy
自由度
1
n-2
n-1
H0：x 和 y 的线性关系不明显
H1：x 和 y 的线性关系明显
均方
sr/1
se/(n-2)
F值
sr/1
se/(n-2)
显著性
Sig. 应小于.05
3. 残差分析
n
rˆ =
åe e
n
自相关系数
t t-1
rˆ = [-1,1]
t=2
n
n
åe åe
2
t
t=2
t
DW =
2
t-1
t=2
n
åe
t-1
)2
DW(Durbin-Watson)检验
DW = [0, 4]
2
t
t=2
t=2
DW = 4; rˆ = -1
DW = (2, 4); rˆ = (-1, 0)
DW = 2; rˆ = 0
DW = (0, 2); rˆ = (0,1)
DW = 0; rˆ =1
å(e - e
完全负相关
负相关；
不相关
正相关
完全正相关
P-P图：
累积概
率围绕
对角线
波动
ei = 0
残差服从均
值为0，方
2
差为 s的正
态分布
Q-Q图：数据点在直
线上下随机散布（探
测离群值或异常）
回归分析例析
专家根据可能的猜测因素对选项的可猜性进行了评判，结果如下表所示。试
分析导致选项可猜的主要因素和次要因素。
x ³ 2 （选项可猜） x < 2 （选项不可猜）
y
Distractor
－3
1 1 x
y= + ´
2 2 3
－2
－1
Key
1
2
3
x
-3 肯定错；-2很可能错；-1 可能错
0 不可猜 1 可能对 2 很可能对 3 肯定对
GPrb：可猜性
ACmm：常识性
ADet：限定
AClu：前后题线索
AStm：与题干的关系
AInc：包含关系
AOpp：对立关系
ASmn：语义凸显
AFrm：形式凸显
AElm：排除法
SPSS操作
R方（R2），
又称复相关系
数或判决系数，
反映回归模型
解释总方差的
比例。
共线性：各变
量应相互独立，
否则应先进行
因子分析，再
用因子代替原
始变量。
个案的观测值及其与期望值的差
残差分布
正态性
P-P图(ProbabilityProbability Plot)
Q-Q图(Quantile-Quantile Plot，分位数)：
Y：标准化残差；X：标准化预测值
模
型
拟
合
度
随着解释变量
的增多，回归
平方和越来越
大、残差平方
和越来越小
逐步方法各步
骤纳入的变量
所有模型都
能拟合
相关性
相关矩阵
五个变量显著相关，
说明导致选项可猜的
主要因素为此五种
模型汇总
回归模型能够解释总
方差的比例。一般应
不低于80％。
R方更改量越大，预
测性越强。一般应大
于10％。
残差自相关检
验结果。DW
应约为2。
系数检验
Sig.应小于.05
容差：Tolerance
表示未被其他变
量解释的量。值
最小，说明可被
其他变量解释的
量越多，共线性
问题越严重。
VIF：Variance
Inflation Factor
（膨胀因子），
为容差的倒数。
一般应小于2，意
味容差大于50％。
残差分析
分布高度集
中在均值周
围且标准差
非常小
2个负
离群值
1个正
离群值
1个正
离群值
2个负
离群值
结构方程模型基础（Greek letters）
Uppercase Lowercase
Name
Uppercase Lowercase
Name
Α
α
alpha
Ν
ν
nu
Β
β
beta
Ξ
ξ
xi
Γ
γ
gamma
Ο
ο
omicron
Δ
δ
delta
Π
π
pi
Ε
ε
epsilon
Ρ
ρ
rho
Ζ
ζ
zeta
Σ
σ
sigma
Η
η
eta
Τ
τ
tau
Θ
θ
theta
Υ
υ
upsilon
Ι
ι
iota /ai`ǝutǝ/
Φ
φ
phi
Κ
κ
kappa
Χ
χ
chi /kai/
Λ
λ
lambda
Ψ
ψ
psi
Μ
μ
mu
Ω
ω
omega
/ksai/
/rǝu/
/fai/
结构方程模型（Structural Equation
Modeling－SEM）
f12
协方差
(Covariance)
x = Lx + d
因子分析模型
潜变量
(latent)
验证性因子分析，Confirmatory Factor
Analysis－CFA
探索性因子分析，Exploratory Factor
Analysis-EFA (SPSS中)
直接效应
(Direct Effect)
/`gæmǝ/
g 11
X1
z1
Y1
g 13
X3
外源变量（因）
(exogenous)
g 32
Y3
g 23
x2
/ksai/
观测变量
(observed)
l21
l31
X1
X2
X3
X4
d1
d2
d3
d4
z3
l41
l52
负荷
(loading)
l62
l72
l82
X5
X6
X7
X8
d5
d6
d7
d8
/`læmdǝ/

Direct effect (直接效应) is that influence of
one variable on another that is unmediated
by any other variables in a path model

Indirect effects (间接效应) of a variable are
mediated by at least one intervening variable

Total effects (总效应) are the sum of direct
and indirect effects
b 32
b 21
X2
x1
误差
(error)
/`deltǝ/
图1 测量模型（Measurement Model）
间接效应
(Indirect Effect)
b /`betǝ/
31
g 12
l11
误差
(error)
/`zetǝ/
/fai/
Y2
z2
内生变量（果）
(endogenous)
回归分析模型 y = Bh + z
图2 结构模型（Path Model）
•
Total effects = Direct effect + Indirect
effects
结构方程模型（Structural Equation
Modeling－SEM）
d1
d2
d3
d4
e1
e2
X1
X2
X3
X4
y1
y2
l11 l21
l31
/èpsilǝn/
e4
y3
y4
l31
l11 l21
l41
e3
l41
验证性因子分析
x1
g11
h1
g21
b21
路径（回归）分析
H = Bh + Lx + z
/ì:tǝ/
h2
l82
l62
l72
y5
y6
y7
y8
e5
e6
e7
e8
l52
图3 全模型（Full Model）
样本规模大小(Sample size)

数据服从正态分布、无缺失值和异常值（Bentler & Chou，
1987）时，样本比例最小为估计参数的5倍，10倍更合适，
否则，样本比例应为估计参数的15倍。

用极大似然法（Maximum likelihood）估计时，Loehlin
（1992）建议样本数至少为100，200较为适当。当样本
数400－500时，此法会变得过于敏感，而使得模型不适
合。
模型拟合优度评价
指标名称
临界值
全称
绝对指标
2
x （卡方）
GFI（拟合优度指数）
AGFI（修正拟合优度指数）
RMR（残差均方根）
RMSEA（近似误差均方根）
越小越好
> 0.9
> 0.9
< 0.05
< 0.05
相对指标
NFI（规范拟合指数）
NNFI（非规范拟合指数）
> 0.9
> 0.9
IFI（增值拟合指数）
CFI（比较拟合指数）
> 0.9
> 0.9
信息指标
AIC（赤池信息准则）
ECVI（交叉验证指数）
越小越好 Akaike Information Criterion
越小越好 … Cross Validation Index
Goodness of Fit Index
Adjusted Goodness of Fit Index
Root Mean Square Residual
Root Mean Square Error of
Approximation
Normed Fit Index
Non-Normed Fit Index 或
TLI（Tucker-Lewis Index）
Incremental Fit Index
Comparative Fit Index
模型建构（AMOS软件）
1. 选择，快速绘制潜变
量及其观测变量。
2. 选择，把观测变量旋
转到适当位置。
3. 选择，打开数据表文
件，并浏览数据。
4. 选择图标，将数据表
字段拖至为各观测变量，
建立变量与字段的关联。
5. 运用插件（Plugins）自
动为潜变量和参数（负荷
及误差）命名，添加协方
差（双箭头），或调整观
测变量的大小。
输出设置
输出效应值
输出标准化估
计值（不同单
位数据可比）
输出修正指数
（MI）（提示如
何修正模型）
输出临界比（CR）
（逐步比较参数的
差异临界比）
模型修正例析
H0:数据完全拟合模型
最小样本
差异卡方
检验的P值
应>0.05；
CMIN/DF
应小于2.
一次修改一个，
且MI为最大值
RMSEA
应<.05；
PCLOSE
应>0.05.
H0:RMSEA无异于.05
模型修正例析
最小样本差异卡方检验
的P值应>0.05；
CMIN/DF应小于2.
GFI和AGFI分别
由.975和.913提高
到.998和.990.
RMSEA应<.05；
PCLOSE应>0.05.
输出结果解读（结构方程模型经典案例——
惠顿的社会疏离感［Social Alienation］历时研究）
例6，模型A：通过中间变量 SES (Socio-Economic Status)，探索分析社
会疏离感的稳定性。相关系数、标准差和均值来自Wheaton et all (1977)。
67年和71年的难以名状感(anomia)和无力感
(powles) 为基于量表Anomia和Powerlessness
的观测值；教育(education)和SEI分别为67年时
的受教育年限和邓肯社会经济指数值。
各误差项到观测变量的方差固定为1，各潜变
量到观测变量的路径中，一条路径的方差固
定为1，其余自由估计。
Notes for group (Group number 1)
The model is recursive.（递归模型）
Sample size = 932（样本量）
Variables Summary (Group number 1)
Your model contains the following
variables (Group number 1)
Observed, endogenous variables
anomia67
powles67
anomia71
有箭头指向的变量
powles71
（内生变量）
educatio
SEI
Unobserved, endogenous variables
71_alienation
67_alienation
Unobserved, exogenous variables
eps1
eps2
eps3
eps4
由箭头引导的变量
ses
（外源/外生）
delta1
zeta1
zeta2
delta2
Variable Counts (Group number 1)
Number of variables in your model:
Number of observed variables:
Number of unobserved variables:
Number of exogenous variables:
Number of endogenous variables:
17
6
11
9
8
Parameter summary (Group number 1)
样本矩：6个观测
变量的方差及其协
方差（6中取2的组
合数＝15）。
Computation of degrees of freedom (Default model)
Number of distinct sample moments: 21
Number of distinct parameters to be estimated: 15
Degrees of freedom (21 - 15): 6
Chi Square Goodness/Badness of Fit
（卡方拟合优度/劣度）卡方值越小，
Result (Default model)
拟合越好。
Minimum was achieved
H0：观察（实际）协方差矩阵与模型
Chi-square = 71.544
（期望）协方差矩阵相等（没有差异）
Degrees of freedom = 6
Probability level = .000
Regression Weights: (Group number 1 - Default model)
67_alienation
71_alienation
71_alienation
powles71
anomia71
powles67
anomia67
educatio
SEI
<--<--<--<--<--<--<--<--<---
ses
67_alienation
ses
71_alienation
71_alienation
67_alienation
67_alienation
ses
ses
Estimate
-.614
.705
-.174
.849
1.000
.888
1.000
1.000
5.331
S.E.
C.R.
P Label
.056 -10.876 ***
.054 13.163 ***
.054 -3.234 .001
.040 21.243 ***
.041 21.413 ***
ses
zeta1
zeta2
eps1
eps2
eps3
eps4
delta1
delta2
S.E.
.640
.472
.387
.343
.271
.373
.292
.499
18.221
H0：回归系数为0
H1：回归系数不为0
.430 12.403 ***
Variances: (Group number 1 - Default model)
Estimate
6.656
5.301
3.737
4.010
3.187
3.696
3.622
2.944
260.630
C.R.(Critical Ratio,临界比) =
Estimate/S.E. (Standard Error,
标准误，即标准差的平均值)
C.R.
10.398
11.230
9.653
11.700
11.757
9.908
12.414
5.900
14.304
P Label
***
***
***
***
***
***
***
***
***
若回归系数不具统计意
义，则应删除相应路径。
H0：方差为0
a =.05; C.R. >1.96;P <.05 拒绝H0
***: P小于.001(小数点后4位)
Modification Indices (Group number 1 - Default model)
Covariances: (Group number 1 - Default model)
eps2
eps2
eps2
eps1
eps1
eps1
<-->
<-->
<-->
<-->
<-->
<-->
M.I.
5.905
26.545
32.071
4.609
35.367
40.911
delta1
eps4
eps3
delta1
eps4
eps3
Par Change
-.424
.825
-.988
.421
-1.069
1.253
模型修正可以减少卡方值
一次修改一个；
M.I.为最大值；
理论上应有合理解释
（本例中，67年和71年的难以名状感应
具有相关性，增加两观测变量误差的协
方差具有合理性）
Variances: (Group number 1 - Default model)
M.I.
Par Change
Regression Weights: (Group number 1 - Default model)
M.I.
Par Change
powles71 <---
powles67
5.457
.057
powles71 <---
anomia67
9.006
-.065
anomia71 <---
powles67
6.775
-.069
anomia71 <---
anomia67 10.352
.076
powles67 <---
powles71
5.612
.054
powles67 <---
anomia71
7.278
-.054
anomia67 <---
powles71
7.706
-.070
anomia67 <---
anomia71
9.065
.068
若两个方差或回归系数的估计值差异不
显著，可取同样的名称，以减少估计参
数的数目，简化模型。
Hoelter’s Critical N: (Group number 1 - Default model)
在.05 和 .01 显著性水平
上可以接受的最大样本量。
本例的样本量为932，远
超过临界样本量，导致模
型被拒绝。
TEM8实例分析
模型
卡方值
RMSEA
GFI
AGFI
NNFI
CFI
一阶单因子模型
268.36
0.026
0.995
0.991
0.901
0.923
一阶三因子模型
170.83
0.021
0.997
0.994
0.935
0.954
二阶单因子模型
170.83
0.021
0.997
0.994
0.935
0.954
二阶三因子模型能最好解释TEM8人
文知识题所测试的目标构念。
除此以外，还应报告哪些数据？
一阶三因子
一阶单因子
(First-Order)
二阶三因子
(Second-Order)

英语语言测试4

Transcript 英语语言测试4

Directory