Transcript 英语语言测试4
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授 教学目标 1. 2. 3. 4. 5. 6. 7. 了解效标关联效度的概念、内涵及不足 了解相关分析的原理、相关性假设检验及其 SPSS操作 了解内容效度的概念、内涵及不足 了解专家评判一致性的检验方法及SPSS操作 了解构念效度的概念、内涵及常用检验方法 了解因子分析和回归分析的原理、功能及SPSS 操作 了解结构方程模型的原理、功能及AMOS操作 1、单一效度论(20世纪50年代以前) 效标关联效度(Criterion-related Validity) 概念内涵:当前测试与标准测试的相关程度 验证方法:求两个测试成绩的相关系数(Correlation Coefficient) 两个子类 同期效度(Concurrent Validity) 预测效度(Predictive Validity) 主要问题 标准测试自身的效度 同期效度两个测试的可比性 预测效度两个测试相关的意义 Validity=Correlation efficient 效标关联效度 当 前 测 试 相关分析 标 准 测 试 A test is valid for anything with which it correlates. 相关分析 (1) (2) 线性相关 相关系数r 的取值范围为 [-1,1],其中: |r|<0.3称为微弱相关 0.3≤ |r|<0.5称为低度相关 0.5≤ |r|<0.8称为显著相关 0.8≤ |r|<1称为高度相关或强 相关 (3) (4) 非线性相关或曲线相关 Pearson 积距相关 rxy = (定距数据) = Spearman 等级相关 (定序数据) å( x - x ) ( y - y ) å( x - x ) å( y - y ) i i 2 i Cov(x, y) Var(x)Var(y) rxy =1- 6å Di2 n(n 2 -1) i 2 积距相关示例 p/2 拒绝区间 α/2 原假设(Null Hypothesis):H0: r = 0 备择假设(Alternative H ):H1: r ≠ 0 p/2 接受区间 1-α 拒绝区间 α/2 p 表示H0成立的概率,a为一 个非常小的概率。 a 如果p 值比 更小,则说明 H0几乎不可能成立,完全有理 由拒绝H0而接受H1; 相反,如果p 值大于 a ,则 说明拒绝H0的理由还不够充分, 只能接受H0。 如果p值不大,即使接受H0, 结论的说服力也不强;如果p 值为大概率,那么接受H0同样 具有说服力。 å hi = aij 检验结果 说明.963的相关系数具有统计 意义,两组成绩显著正相关 2 接受H1的条件极度苛刻,H1被接受则结论说服力强,所以期望的结论通常为H1 2 2、效度分类说(20世纪50~80年代中期) 三位一体:内容效度和构念效度作为效标关联效度的补充 效标关联效度 当 前 测 试 相关分析 标 准 测 试 内容效度 相关性 典型性 充足性 专家评判 构念效度 分数 潜在特质 多质多法、因子分析、结构方程等 内容效度(Content Validity) 定义 目标 内容 测试 内容 内涵 试题或任务在多大程度 上代表了目标内容的范 畴或全域 测试内容的相关性、典 型性及充足性 检验方法 专家评判:先检验评判 一致性,再分析有效程 度 内容效度 相关性 典型性 充足性 专家评判 专家评判一致性检验(Inter-rater Consistency Test) Cronbach a信度系数(定距) 2ö æ S å n ç i a= 1- 2 ÷ n -1 çè St ÷ø 两位专家时,等同于Pearson相关系数 Kendall’s w 协同系数(定序) w= åR 2 i - 1 n (å R ) 2 i 1 2 3 K ( n - n) 12 两位专家时,用Kendall’s Tao 或 Spearman等级相关(注意:行为考生,列为专家) 评判一致性检验(Cronbach a) a < 0.6,较差 0.6 ≤ a< 0.8,较好 a ≥ 0.8,很好 至少还应同时报 告项总体平均分 和标准差或方差 评判一致性检验(Kendall’s W ) S1 R1 6 (3) R2 3 (2) R3 9 (5) 秩总计 10 秩均值 3.33 S2 2 (1.5) 2 (1) 2 (1) 3.5 1.17 S3 7 (4) 7 (4) 8 (3.5) 11.5 3.83 S4 2 (1.5) 6 (3) 4 (2) 6.5 2.17 S5 9 (5) 9 (5) 8 (3.5) 13.5 4.50 秩序和 15 15 15 45 15 H0: 专家评判不具一致性 H1: 专家评判具有一致性 请解读此统计结果 构念效度(Construct Validity) 构念效度 定义 分数解释构念的合理性程度 分数 潜在特质 多质多法、因子分析、结构方程等 内涵 分数的真实含义,即分数到底意味着什么 验证方法 多质多法分析(Multitrait-Multimethod, MTMM) 因子分析(Factor analysis) 结构方程模型(Structural Equation Model) 多质多法分析(MTMM) Method 1 Trait 1 Method 2 Trait 2 Method 3 Trait 3 Method 4 异法同质的相关强——又称聚合效度(Convergent Validity) 同法异质的相关弱——又称区分效度(Discriminant Validity) 因子分析(Factor Analysis) x1 降 维 x2 r2,1 x3 r3,1 x4 x5 x6 x7 r4,1 r1,1 Factor 1 r3,2 r6,1 r2,3 r7,2 r1,2 r9,2 r5,3 x8 x10 r8,3 r10,3 r1,3 Factor 2 x9 Factor 3 e 探测结构 1. 降维: 因子个数应远小于原有变量个数 2. 探测结构:一个因子应可解释一种类别特征,如能力特征、任务特征、评判特征 3. 信息损失小:因子应能反映原有变量的绝大部分信息 4. 因子独立性:各因子应不相关,否则即意味着存在未被提取的因子 5. 变量相关性:同类变量相关应趋向1,不同类变量相关应趋向0(因子分析中旋转的目的) 因子分析数学模型 因子维度 线性组合矩阵 f1 ì x1 = a11 f1 + a12 f2 + + a1k fk + e1 ï ï x2 = a21 f1 + a22 f2 + + a2k fk + e 2 í ï ïî x p = a p1 f1 + a p2 f2 + + a pk fk + e p x1 变 量 维 度 fk f2 x2 xp 特征值(EigenValue) 因子负荷(Loading) p g = å aij2 ( j =1, 2, 2 j k) i=1 因子(fj )代表所有变量 的程度(f1个最大) 标准化后,所有变量的总方差为 p, 特征值与p之比即为因子的方差贡献率 aij = Cov(xi , f j ) = rxi , f j(标准化后) s = h +se 2 xi 2 i 2 i 共同度(Commonality) k h = å aij2 (i =1, 2, 2 i p) j=1 所有因子共同代表变量(xi ) 的程度(xi 应只与一个因子 高度相关); 值越接近1,信息丢失越少 特殊因子 s e2 =1- hi2 i (i =1, 2, p) 变量(xi )与因子(fj ) 降维后的信息丢失程度; 值越接近0,信息丢失越少 的相关程度 rxi , f j = Cov(xi , f j ) Var(xi ) = Var( f j ) =1 Var(xi ) Var( f j ) 标准化,即令 因子分析例析 3位教师对31个学生的作文进行评分,评判指标包括内容(Content)、 结构(Structure)、词汇(Vocabulary)和连贯(Cohesion) 四个项目,评判 等级从低到高分为1~5共五个等级。请先检验评分员之间的一致性, 再通过因子分析对评分结果做出解释。 因子分析数据表 评判一致性分析数据表 评判一致性检验结果 操 作 步 骤 因子分析适宜性检验 KMO检验 检验取样足够度,值越大取样越充分,最大值为1 Bartlett的球形检验 检验各变量是否各自独立 H0:各变量各自独立 H1:各变量互不独立(存在相关) 各变量存在相关且取值范围大致相当时,数据分布才有可能呈球形 结果与讨论 共同度(Commonality) 公共因子能体现绝大分 变量80%以上的信息 (i =1, 2, p) ( j =1, 2, k) p 为原始变量数;k 为提取因子数 特征值(EigenValue) 方差贡献率(% of Variance) 前3个成份的特征值总 计达10.5,方差贡献 率累积接近80% 特征值占原始变量总数的百分比 旋转后,各因子的特征值和 贡献率趋于均匀 (本例中成份4无明显改善) 累积方差贡献率 应不低于80% 用4个因子代替12 个变量,约丢失 15%的信息 结果与讨论 成份得分矩阵与旋转成份矩阵结 果类似,但成份4更难以解读 4个成份与12个变量的相关系数表明: 1.前3个成份分别代表第2、1和3位评分教师; 2.第4个成份虽与Structure1和Structure3两个变量存在一定 关联,但两变量分别与成份2和成份3的关联更强 结论:因子分析未能提取与内容、结构、词汇和连贯相关的4个成份,但前 3个成份能很好代表3位评分教师,这说明本次写作成绩能说明教师的评分 情况,但难以解释写作能力的结构维度(试讨论可能的原因)。 回归模型(Regression Model) y y x y = b0 + b1 x + e 。 。。 e 。。 。 。 yˆ = b0 + b1x x y 因变量(Dependent Variable) x 自变量(Independent Variable) b0 y 和 x 均为观测值 yˆ 预测值(Predicted Value) yi = yˆi + ei = b0 + b1xi + ei e 残差(Residual) b0 截距(Intercept),常量 b1 斜率(Slope),回归系数 y x1 y = b0 + b1x1 + b2 x2 + x2 … + bi xi + e y y = b0 e b1x x6 ln(y) = ln(b0 )+ b1 x x 回归分析 2. 回归系数显著性 1. 回归方程显著性 回归平方和 n Sr = å( yˆ - y)2 i=1 n 残差平方和 i=1 总方差 Se = å(yi - yˆi )2 H 0 : b1 = 0 H1 : b1¹ 0 Syy = Sr + Se 方差来源 回归 剩余 总和 Sig. 应小于.05 是否显著大于1 平方和 sr se syy 自由度 1 n-2 n-1 H0:x 和 y 的线性关系不明显 H1:x 和 y 的线性关系明显 均方 sr/1 se/(n-2) F值 sr/1 se/(n-2) 显著性 Sig. 应小于.05 3. 残差分析 n rˆ = åe e n 自相关系数 t t-1 rˆ = [-1,1] t=2 n n åe åe 2 t t=2 t DW = 2 t-1 t=2 n åe t-1 )2 DW(Durbin-Watson)检验 DW = [0, 4] 2 t t=2 t=2 DW = 4; rˆ = -1 DW = (2, 4); rˆ = (-1, 0) DW = 2; rˆ = 0 DW = (0, 2); rˆ = (0,1) DW = 0; rˆ =1 å(e - e 完全负相关 负相关; 不相关 正相关 完全正相关 P-P图: 累积概 率围绕 对角线 波动 ei = 0 残差服从均 值为0,方 2 差为 s的正 态分布 Q-Q图:数据点在直 线上下随机散布(探 测离群值或异常) 回归分析例析 专家根据可能的猜测因素对选项的可猜性进行了评判,结果如下表所示。试 分析导致选项可猜的主要因素和次要因素。 x ³ 2 (选项可猜) x < 2 (选项不可猜) y Distractor -3 1 1 x y= + ´ 2 2 3 -2 -1 Key 1 2 3 x -3 肯定错;-2很可能错;-1 可能错 0 不可猜 1 可能对 2 很可能对 3 肯定对 GPrb:可猜性 ACmm:常识性 ADet:限定 AClu:前后题线索 AStm:与题干的关系 AInc:包含关系 AOpp:对立关系 ASmn:语义凸显 AFrm:形式凸显 AElm:排除法 SPSS操作 R方(R2), 又称复相关系 数或判决系数, 反映回归模型 解释总方差的 比例。 共线性:各变 量应相互独立, 否则应先进行 因子分析,再 用因子代替原 始变量。 个案的观测值及其与期望值的差 残差分布 正态性 P-P图(ProbabilityProbability Plot) Q-Q图(Quantile-Quantile Plot,分位数): Y:标准化残差;X:标准化预测值 模 型 拟 合 度 随着解释变量 的增多,回归 平方和越来越 大、残差平方 和越来越小 逐步方法各步 骤纳入的变量 所有模型都 能拟合 相关性 相关矩阵 五个变量显著相关, 说明导致选项可猜的 主要因素为此五种 模型汇总 回归模型能够解释总 方差的比例。一般应 不低于80%。 R方更改量越大,预 测性越强。一般应大 于10%。 残差自相关检 验结果。DW 应约为2。 系数检验 Sig.应小于.05 容差:Tolerance 表示未被其他变 量解释的量。值 最小,说明可被 其他变量解释的 量越多,共线性 问题越严重。 VIF:Variance Inflation Factor (膨胀因子), 为容差的倒数。 一般应小于2,意 味容差大于50%。 残差分析 分布高度集 中在均值周 围且标准差 非常小 2个负 离群值 1个正 离群值 1个正 离群值 2个负 离群值 结构方程模型基础(Greek letters) Uppercase Lowercase Name Uppercase Lowercase Name Α α alpha Ν ν nu Β β beta Ξ ξ xi Γ γ gamma Ο ο omicron Δ δ delta Π π pi Ε ε epsilon Ρ ρ rho Ζ ζ zeta Σ σ sigma Η η eta Τ τ tau Θ θ theta Υ υ upsilon Ι ι iota /ai`ǝutǝ/ Φ φ phi Κ κ kappa Χ χ chi /kai/ Λ λ lambda Ψ ψ psi Μ μ mu Ω ω omega /ksai/ /rǝu/ /fai/ 结构方程模型(Structural Equation Modeling-SEM) f12 协方差 (Covariance) x = Lx + d 因子分析模型 潜变量 (latent) 验证性因子分析,Confirmatory Factor Analysis-CFA 探索性因子分析,Exploratory Factor Analysis-EFA (SPSS中) 直接效应 (Direct Effect) /`gæmǝ/ g 11 X1 z1 Y1 g 13 X3 外源变量(因) (exogenous) g 32 Y3 g 23 x2 /ksai/ 观测变量 (observed) l21 l31 X1 X2 X3 X4 d1 d2 d3 d4 z3 l41 l52 负荷 (loading) l62 l72 l82 X5 X6 X7 X8 d5 d6 d7 d8 /`læmdǝ/ Direct effect (直接效应) is that influence of one variable on another that is unmediated by any other variables in a path model Indirect effects (间接效应) of a variable are mediated by at least one intervening variable Total effects (总效应) are the sum of direct and indirect effects b 32 b 21 X2 x1 误差 (error) /`deltǝ/ 图1 测量模型(Measurement Model) 间接效应 (Indirect Effect) b /`betǝ/ 31 g 12 l11 误差 (error) /`zetǝ/ /fai/ Y2 z2 内生变量(果) (endogenous) 回归分析模型 y = Bh + z 图2 结构模型(Path Model) • Total effects = Direct effect + Indirect effects 结构方程模型(Structural Equation Modeling-SEM) d1 d2 d3 d4 e1 e2 X1 X2 X3 X4 y1 y2 l11 l21 l31 /`epsilǝn/ e4 y3 y4 l31 l11 l21 l41 e3 l41 验证性因子分析 x1 g11 h1 g21 b21 路径(回归)分析 H = Bh + Lx + z /`i:tǝ/ h2 l82 l62 l72 y5 y6 y7 y8 e5 e6 e7 e8 l52 图3 全模型(Full Model) 样本规模大小(Sample size) 数据服从正态分布、无缺失值和异常值(Bentler & Chou, 1987)时,样本比例最小为估计参数的5倍,10倍更合适, 否则,样本比例应为估计参数的15倍。 用极大似然法(Maximum likelihood)估计时,Loehlin (1992)建议样本数至少为100,200较为适当。当样本 数400-500时,此法会变得过于敏感,而使得模型不适 合。 模型拟合优度评价 指标名称 临界值 全称 绝对指标 2 x (卡方) GFI(拟合优度指数) AGFI(修正拟合优度指数) RMR(残差均方根) RMSEA(近似误差均方根) 越小越好 > 0.9 > 0.9 < 0.05 < 0.05 相对指标 NFI(规范拟合指数) NNFI(非规范拟合指数) > 0.9 > 0.9 IFI(增值拟合指数) CFI(比较拟合指数) > 0.9 > 0.9 信息指标 AIC(赤池信息准则) ECVI(交叉验证指数) 越小越好 Akaike Information Criterion 越小越好 … Cross Validation Index Goodness of Fit Index Adjusted Goodness of Fit Index Root Mean Square Residual Root Mean Square Error of Approximation Normed Fit Index Non-Normed Fit Index 或 TLI(Tucker-Lewis Index) Incremental Fit Index Comparative Fit Index 模型建构(AMOS软件) 1. 选择 ,快速绘制潜变 量及其观测变量。 2. 选择 ,把观测变量旋 转到适当位置 。 3. 选择 ,打开数据表文 件,并浏览数据。 4. 选择图标 ,将数据表 字段拖至为各观测变量, 建立变量与字段的关联。 5. 运用插件(Plugins)自 动为潜变量和参数(负荷 及误差)命名,添加协方 差(双箭头),或调整观 测变量的大小。 输出设置 输出效应值 输出标准化估 计值(不同单 位数据可比) 输出修正指数 (MI)(提示如 何修正模型) 输出临界比(CR) (逐步比较参数的 差异临界比) 模型修正例析 H0:数据完全拟合模型 最小样本 差异卡方 检验的P值 应>0.05; CMIN/DF 应小于2. 一次修改一个, 且MI为最大值 RMSEA 应<.05; PCLOSE 应>0.05. H0:RMSEA无异于.05 模型修正例析 最小样本差异卡方检验 的P值应>0.05; CMIN/DF应小于2. GFI和AGFI分别 由.975和.913提高 到.998和.990. RMSEA应<.05; PCLOSE应>0.05. 输出结果解读(结构方程模型经典案例—— 惠顿的社会疏离感[Social Alienation]历时研究) 例6,模型A:通过中间变量 SES (Socio-Economic Status),探索分析社 会疏离感的稳定性。相关系数、标准差和均值来自Wheaton et all (1977)。 67年和71年的难以名状感(anomia)和无力感 (powles) 为基于量表Anomia和Powerlessness 的观测值;教育(education)和SEI分别为67年时 的受教育年限和邓肯社会经济指数值。 各误差项到观测变量的方差固定为1,各潜变 量到观测变量的路径中,一条路径的方差固 定为1,其余自由估计。 Notes for group (Group number 1) The model is recursive.(递归模型) Sample size = 932(样本量) Variables Summary (Group number 1) Your model contains the following variables (Group number 1) Observed, endogenous variables anomia67 powles67 anomia71 有箭头指向的变量 powles71 (内生变量) educatio SEI Unobserved, endogenous variables 71_alienation 67_alienation Unobserved, exogenous variables eps1 eps2 eps3 eps4 由箭头引导的变量 ses (外源/外生) delta1 zeta1 zeta2 delta2 Variable Counts (Group number 1) Number of variables in your model: Number of observed variables: Number of unobserved variables: Number of exogenous variables: Number of endogenous variables: 17 6 11 9 8 Parameter summary (Group number 1) 样本矩:6个观测 变量的方差及其协 方差(6中取2的组 合数=15)。 Computation of degrees of freedom (Default model) Number of distinct sample moments: 21 Number of distinct parameters to be estimated: 15 Degrees of freedom (21 - 15): 6 Chi Square Goodness/Badness of Fit (卡方拟合优度/劣度)卡方值越小, Result (Default model) 拟合越好。 Minimum was achieved H0:观察(实际)协方差矩阵与模型 Chi-square = 71.544 (期望)协方差矩阵相等(没有差异) Degrees of freedom = 6 Probability level = .000 Regression Weights: (Group number 1 - Default model) 67_alienation 71_alienation 71_alienation powles71 anomia71 powles67 anomia67 educatio SEI <--<--<--<--<--<--<--<--<--- ses 67_alienation ses 71_alienation 71_alienation 67_alienation 67_alienation ses ses Estimate -.614 .705 -.174 .849 1.000 .888 1.000 1.000 5.331 S.E. C.R. P Label .056 -10.876 *** .054 13.163 *** .054 -3.234 .001 .040 21.243 *** .041 21.413 *** ses zeta1 zeta2 eps1 eps2 eps3 eps4 delta1 delta2 S.E. .640 .472 .387 .343 .271 .373 .292 .499 18.221 H0:回归系数为0 H1:回归系数不为0 .430 12.403 *** Variances: (Group number 1 - Default model) Estimate 6.656 5.301 3.737 4.010 3.187 3.696 3.622 2.944 260.630 C.R.(Critical Ratio,临界比) = Estimate/S.E. (Standard Error, 标准误,即标准差的平均值) C.R. 10.398 11.230 9.653 11.700 11.757 9.908 12.414 5.900 14.304 P Label *** *** *** *** *** *** *** *** *** 若回归系数不具统计意 义,则应删除相应路径。 H0:方差为0 a =.05; C.R. >1.96;P <.05 拒绝H0 ***: P小于.001(小数点后4位) Modification Indices (Group number 1 - Default model) Covariances: (Group number 1 - Default model) eps2 eps2 eps2 eps1 eps1 eps1 <--> <--> <--> <--> <--> <--> M.I. 5.905 26.545 32.071 4.609 35.367 40.911 delta1 eps4 eps3 delta1 eps4 eps3 Par Change -.424 .825 -.988 .421 -1.069 1.253 模型修正可以减少卡方值 一次修改一个; M.I.为最大值; 理论上应有合理解释 (本例中,67年和71年的难以名状感应 具有相关性,增加两观测变量误差的协 方差具有合理性) Variances: (Group number 1 - Default model) M.I. Par Change Regression Weights: (Group number 1 - Default model) M.I. Par Change powles71 <--- powles67 5.457 .057 powles71 <--- anomia67 9.006 -.065 anomia71 <--- powles67 6.775 -.069 anomia71 <--- anomia67 10.352 .076 powles67 <--- powles71 5.612 .054 powles67 <--- anomia71 7.278 -.054 anomia67 <--- powles71 7.706 -.070 anomia67 <--- anomia71 9.065 .068 若两个方差或回归系数的估计值差异不 显著,可取同样的名称,以减少估计参 数的数目,简化模型。 Hoelter’s Critical N: (Group number 1 - Default model) 在.05 和 .01 显著性水平 上可以接受的最大样本量。 本例的样本量为932,远 超过临界样本量,导致模 型被拒绝。 TEM8实例分析 模型 卡方值 RMSEA GFI AGFI NNFI CFI 一阶单因子模型 268.36 0.026 0.995 0.991 0.901 0.923 一阶三因子模型 170.83 0.021 0.997 0.994 0.935 0.954 二阶单因子模型 170.83 0.021 0.997 0.994 0.935 0.954 二阶三因子模型能最好解释TEM8人 文知识题所测试的目标构念。 除此以外,还应报告哪些数据? 一阶三因子 一阶单因子 (First-Order) 二阶三因子 (Second-Order)