PowerPoint 演示文稿

Download Report

Transcript PowerPoint 演示文稿

教育统计与测量学原理
70
人数
60
男女
50
40
30
20
10
年份
1980年 1985年
1991年
Z=(x-x)/s
教育科研所 张国威
教育统计与测量学原理
学习教育统计与教育测量的重要意义
1、教育统计和测量是认识教育本质的有力武器;
2、是分析处理教育工作中各种数据资料、进行
教育督导与评价的有效工具;
3、对教育管理科学化具有重要意义 ;
4、是教育科学研究中,发现探索教育教学规律、
指导教育教学实践、为教育行政部门决策提供
依据的重要思想方法;
5、是党和政府制定教育方针、政策以及认清教育
事业和整个国民经济发展关系的重要工具。
第一部分:教育统计学
一、概述
1、什么是教育统计学
2、教育统计学的历史
3、教育统计学的内容
二、描述统计
1、常用的统计表、图与统计量
2、相关分析
3、正态分布
三、推断统计
1、相关概念
2、总体平均数估计
3、平均数差异的显著性检验
四、实验设计简介
一、概述
教育统计学概念、发展历史、内容
1、概念:教育统计学就是运用数理统计的原理和方
法研究教育问题的一门应用科学。它是研究如何收集、
整理、分析和解释教育方面的数据,从而表明教育上某
些现象的特征及规律的一门科学,它是处理教育实际工
作和进行教育研究以及提高管理质量的科学水平、提高
教育质量的重要工具。
教育统计学的主要任务:对教育现象进行调查和实
验,在占有充分数据资料的基础上,经过对数据的整
理计算、统计分析和统计检验等方法,对研究结果予
以科学说明。即从数量方面的研究,来探索教育和心
理现象的发展变化的特征和规律,或根据研究结果的
数据处理、统计推断,做出正确决策。
教育统计学概念、发展历史、内容
2、教育统计学发展史:教育统计学产生于上个世纪初,发展于五、六十年代,
广泛应用于八十年代以后。
(1)国外:20世纪初统计学传入美国,桑代克(E.L.Thorndike)为了达到“极力以
心理学与统计学为工具研究教育学,使教育科学化”的目的,1904年出版世界上第一本
有关教育统计学的专著《心理与社会测量导论》。
(2)国内:我国的教育统计学是在辛亥革命以后,随着西方科学技术成就一起被引入。
当时的大学教育系和中等师范学校,都把教育统计学作为必修课程,很多学者撰写专著,
如薛鸿志《教育统计方法》(1925)、王书林《教育测验与统计》(1935)等。1979
年随着全国教育科学规划会议的召开,教育统计学恢复了新生,各师范大学又都开设了教
育统计学课程。教育部组织叶佩华、万梅亭、郝德元、陈一百等教授编写《教育统计学》
作为全国通用教材。
经过100多年的发展,各种教育统计方法已相当丰富。但每一种方法的运用
在我国还处于推广和适用阶段,因此不少人对它的作用缺乏足够的认识,特别
是对复杂的教育问题,由于统计方法本身的限制,还有十分重要的实验设计和
统计推断的问题不能在理论上得到有力解决,还有待于教育学家亲自动手来推
进统计理论和改进统计工具。
教育统计学概念、发展历史、内容
3、教育统计学的内容: 教育统计学按应用
分为描述统计、推断统计、实验设计(多元统计)三
部分内容。
(1)描述统计的主要作用就在于就所关心的教育现象进行全面调查和观测,然后将所
得的大量数据加以整理、简缩、制成图表;或就这些数据的分布特征(如集中趋势、离散
趋势、相关度等等)计算出具有概括性的数字作为标志。借助这些概括性的数字,我们就
可以从杂乱无章的数据中取得有意义的信息。
(2)推断统计也叫抽样统计,它是在描述统计的基础上发展起来的。是用抽样的方
法,根据部分数据来推断一般情况,即通过局部对全局的情况加以推断的一种方法。它
可以帮我们透过现象看到本质,对客观现象作出本质性的判断 ,它是从样本的研究中得
出统计量。来推断总体的有关特征,以便作出具体的措施和决策。常用的方法有:u检
验、t检验、卡方检验和非参数检验,还有多元分析中的主成份分析和因素分析等。
(3)实验设计通常指实验程序的计划和安排。而实验程序的计划和安排离不开统计
和检验。
二、描述统计
第一章 常用统计表、统计图及统计量
标
题
(一)常用统计表
1、统计表的结构:由标题、项目(标目)、数据、线条、表注(数据来源)组成
1983年我国普通中学教师学历统计表
学 历
项
目
线
条
人
数
百分比(%)
大学本科以上
300887
11.6
大专毕业
566863
21.8
中专毕业以下
1729750
66.6
2596900
100.0
合
计
注:引自《中国教育成就统计资料》,1984年人民教育出版社
数
据
表
注
二、描述统计
第一章 常用统计表、图及统计量数
2、制表的一般要求
A、统计表的内容要简要,最好一个表说明一个中心内容。标
题的措词要简明扼要,正确说明内容,使人一望便知。
B、分项要准确,以能说明问题为主,分项的好坏是决定统计
表质量的关键,切忌分项太细。
C、数据是统计表的语言,说明内容,要求准确,书写整齐,
一律用阿拉伯数字,单位要统一,位数对齐,有效数字要一
致,表格内不能有空白。
D、线条不要太多,表的上下端有顶线与底线,左右两边不要
用线封死,纵项目用细线格开,横项目一律不画线条,合计
项目用粗线条或双线与其它项目分开。
第一章 常用统计表、统计图及统计量
(二)常用统计图
1、统计图结构:图题、图目、图尺、图例、图形、图注
图
尺
(
制
图
的
尺
度
线
。
点
、
单
位
的
总
称
)
图
题
70
人数
图
例
60
男女
50
40
图
形
30
20
10
图
目
年份
1980年 1985年
1991年
某校近十年教师人数及性别变化图示
(二)常用统计图
2、统计图的类型及绘制要求
人数
10
14
16
1.65
15
讲师
5
5
公务 职员 农工 其他
与科
商企
教人
业
员
某校某班50名学生家庭背景情况比较
42.9%
米
1.70
28.8%
20
15
1.75
助教
教授0.4%
1.60
1.55
副教授
1.50
21.9%
1.45
1.40
某大学教师职称图
岁
7 8 9 10 11 12 13 14 15 16 17 18
某市7至18岁男女生身高比较图
类型:1 直条图 2 圆形图 3 曲线图 4直方图
绘制统计图的要求
A、根据数据和目的选择合适的图形
B、图形所表示的面积或距离要比例适当
C、表示不同的事物要用不同的颜色与线条
(二)常用统计图
*
3、次数分布表与直方图
对一批数据按一定次序排列并加以分组、编成反映这群数据
在各组上出现次数的统计表和图,就是次数分布表和直方图。
例:一次考试之后,某班48名学生的成绩如下:
86,77,63,78,92,72,66,87,75,83,74,
47,83,81,76,82,97,69,82,88,71,67,65,
75,70,82,77,86,60,93,71,80,76,78,57,
95,78,64,79,82,68,74,73,84,76,79,86,
68
将该组数据整理成次数分布表与直方图
1求全距:R=max{xi}-min{xi}用该组数据最大数减最小数
步骤:2定组数和组距 :数据划分组数、每组上下限之间距离(全距除以组数)
2/5
3列组限:从最高分至最低分以组距为单位依次分组
K=1.87(n-1)
4归组划记:计算数据出现次数,并计算累积次数及相对次数
次 数 分 布 表
例:一次考试之
组限
组中值
划记
次数 f 累积次数∑f 相对次数Rf 累积相对次数∑Rf
95 99
97
2
2
0.04
0.04
90 94
92
2
4
0.04
0.08
85 89
87
正
5
9
0.10
0.18
80 84
82
正
9
18
0.19
0.37
75 79
77
正正
12
30
0.25
0.62
70 74
72
正
7
37
0.15
0.77
65 69
67
正
6
43
0.13
0.90
60 64
62
3
46
0.06
0.96
55 59
57
1
47
50 54
47
0.98
52
0
0.02
45 49
48
0.98
47
1
0
0.02
1.00
合计
48
48
1.00
后,某班48名学
生的成绩如下:
86,77,63,78,
92,72,66,87,
75,83,74,47,
83,81,76,82,
97,69,82,88,
71,67,65,75,
70,82,77,86,
60,93,71,80,
76,78,57,95,
78,64,79,82,
68,74,73,84,
76,79,86,68
直方图
次数
14
12
10
8
6
4
2
分数
45 50 55 60 65 70 75 80 85 90 95 100
第一章 常用统计表、统计图及统计量
(三)常用统计量-集中量数
1、集中量数 :代表一组数据的集中趋势和典型特征
常用的有:平均数
(1)
中数 众数
平均数(算数平均数) X
1、X=(X1+X2+---+Xn)/n=(1/n)∑Xi (原始数据公式)
2、X=∑fxc/n (分组数据公式) xc:组中值
f:次数
3、X=(n1 x1+n2x2+---+nkxk)/(n1+n2+---nk) (加权平均数公式)
(2)中数(中位数):用 Md表示,是在一组按大小顺序排列的数据
中位置居中的那个数。数据是奇数个时,正好是中间位置的数,
即第(N+1)/2 个那个数;数据是偶数个时,求中间位置两个
数的平均数。如:1 3 6 7 9 Md=6; 3 6 7 9 20 21 Md=(7+9)
/2=8
(3)众数:用 M0表示,是一组数据中次数出现最多的那个数。
在众数不明显的情况下,一般可看众数段,即哪个分数段的次数多,
就以该段中点值作众数。一般用观察法求得。
平均数、中数、众数在数据常态分布中的相对位置
众中平
正态分布
众中平
正偏态分布
平中众
负偏态分布
常用统计量-差异量数
2、差异量数:全距 平均差 标准差
差异量数是描述次数分布中“离中趋势”这一特征的统计量,简
称“差异量”。一组数据,若离中趋势小,则集中量的代表性就
大;反之,若离中趋势大,则集中量的代表性就小。但是,仅考
虑集中量数是不够的。要了解两组学生成绩分布的全貌,还必须
研究两个组的差异量数。最常用的差异量有全距、平均差和标准
差。
(1)全距(符号为“R”),指一组数据中由最大量数到最小量数
的距离。R小说明离散程度小,比较整齐。
(2)平均差,指一组数据内的每个数与均数差的绝对值的算术
平均数,通常用AD表示。平均差的计算公式为:
AD=(1/n)∑ Xi-X 或 AD=(1/n)∑ Xi-Md
差异量数-方差与标准
差
X
X1
X2
(3)、标准差:指一组数据中每一个数值与它们的平均数之差的
平方的算术平均数的平方根,其符号为S(样本标准差)、总体标准
差用σ表示。 S的计算公式为:
2
2
2 …
2
S=
(x -x)+(x -x)+(x -x)+ +(x -x)
1
2
3
n
n
S 越大表明离散程度越大,数据不均匀,集中量的代表性小。
S 2表示样本方差 σ 2 表示总体方差
方差与标准差除具有平均差的优点之外,还具有受抽样
影响小和适于代数运算等优点,是最优良的差异量数。
标准差的应用-变异系数
标准差的应用:变异系数、标准分数
变异系数是一种相对差异量,常用cv表示
变异系数计算公式:CV =

 100 %
X
主要用于:①同一团体不同观测值离散程度的比较;②对于水平相差较
大,但进行的是同一种观测的各种团体离散程度的比较。
例:已知某小学一年级学生的平均体重为25千克,标准差是3.7千克,平均
身高110厘米,标准差为6.2厘米,问体重与身高的离散程度那个大?
解:CV体重=3.7/25=14.8%
CV身高=6.2/110=5.64%
答:通过比较差异系数可知,体重的分散程度比身高的分散程度大
(14.8>5.64)。
标准差的应用-标准分
标准分数(又称Z分数)。它是一种以平均数为参
照点,以标准差为单位的,表示一个分数在团
体分数中所处位置的量数,其计算方法为:由
原始分数与平均分数的差除以标准差所得的量
数,其符号为“Z”,计算公式是:
x-x
Z =
s
标准分是以标准差为单位的,故称为标准分。它是一种相对地位分。
标准分有正负之分,一般在[-3,3]中(几率为99.74%) ,平均值为零。
标准分可比性根据在于标准正态分布。
T分数:T=10Z+50 (一般20≤T≤80)
E分数:E=20Z+90 (一般30≤E≤150)
标准差的应用-标准分
例:有某生三次数学考试的成绩分别为70、57、45,三次考
试的班平均分为70、55、42,标准差分别为8、4、5。如
何看待该生的三次考试成绩?
答:如果仅从原始分数看,肯定认为第一次最好,其实
不然,要计算出各次的标准分数,才能说明问题。
根据公式得出: Z1=(70-70)/8=0
Z2=(57-55)/4=0.5
Z3=(45-42)/5=0.6
这说明,原始分数为70,其位置正在平均线上,而原
始分数为57的,其位置在平均线上0.5处,而原始分数为45
的,其位置在平均线上0.6处。很显然第三次成绩最好,第
一次最差。
标准差的应用-标准分
例:甲乙两学生五科考试成绩如
下,试分析哪名学生成绩好些?
标准分数:Z = x - x
s
运用标准分比较不
同教育测验成绩总分的
优劣,更为合理。
如果按原始分数乙
生总分是354分优于甲生
的342分总分,但按标准
分数则甲生的3.24分优
于乙生的3.03分。
两考生总成绩标准分数计算表
科 目
X
S
X
Z
甲生 乙生 甲生 乙生
14.0 80 85 0.71 1.07
语文
70.0
数学
85.0
3.5
90 88
1.43
地理
55.0
4.0
57 51
0.50 -1.00
历史
42.0
5.0
45 40
0.60 -0.40
政治
70.0
8.0
70 90
0
合计
342 354 3.24
0.86
2.50
3.03
二、描述统计
第二章 相关分析
相关分析:研究两自变量之间的关系紧密程度的过程,统计学上称为相关分析。
事物的变化总是伴随着一定的量的变化,有些是单变量,有些是双变量或多变量,
也有些是复变量。集中量数和差异量数反映的是单变量数据特征,相关分析主要
研究双变量数据特征。
我们都知道事物现象间的相互关系,如果从数量关系的角度考察,可分为函
数关系和相关关系两种类型。相关关系可分为正相关、负相关、直线相关、曲线
相关、完全相关(函数关系)、高度相关、低相关和零相关。
如:教育经费的投入与教育事业发展规模和速度之间的关系是正相关;
复习次数与遗忘量之间的关系是负相关。
相关分析的方法有二:一是图示法,一为计算法。
图示法:
将两组观
测值标在
坐标系中
●
●
●
● ●
●
● ●
● ●
●
●
●
●
● ●
曲线相关
●
●
●
●
●
●
●
●
●
●●
直线相关
对相关系数的解释注意以下问题:
二、描述统计
第二章 相关分析
A在小样本中要做显著性检验;
B相关系数大小差异不是绝对的;
C相关系数不是等距的不能进行大小比较;
D相关关系不一定是因果关系
相关系数:是描述两组数据之间相关程度的量数
种类有:积差相关系数、等级相关、点二列相关和φ 相关
积差相关系数(皮尔逊系数):是描述来自正态总体两个连续变量
之间线性相关程度的一种相关量数
r=[n∑xy-(∑x)(∑y)]/√ [n∑X 2-(∑X)2][n∑y2-(∑y)2]
相关系数的范围: -1≤ r≤1
当r是正值时为正相关; 当r是负值时为负相关;r=0为零相关。
通常1 r ≥ 0.70 为高度相关;0.70
0.40≥ r
r ≥ 0.40为较显著相关
0 为低相关。当然在下结论时还要进行显著性检验
(
第二章 相关分析
X -X
x
rxy =
=
y
N
 ZxZ y
N
例:数学与物理、物理与英语相关性比较
数学
物理
英语
物理
70
75
76
75
60
63
60
63
82
75
65
75
44
60
56
60
52
55
70
55
90
97
85
97
80
89
48
89
r =0.91
Y -Y
)(
)
r =0.26
二、描述统计
第三章 正态分布
①正态曲线位于x轴上方,以x=μ 为对称轴,以x轴为渐近线
②曲线的位置和形状取决于μ 值和σ值 , μ决定位置,σ决定
形状。σ越大曲线越矮胖, σ越小曲线越陡峭 ③ x=μ 时曲线
p
处于最高点,即当x=μ 时f(μ)=1/ √2 σ为最大值
,曲线呈
中间高两边低的形态。
1、 正态曲线及其特点
在社会、教育现象中大多数随机变量都呈现是或近似正态分布的情形。正态
分布是统计理论与统计应用中最重要应用最广泛的一种分布。
一个正态分布是由总体的平均数和总体的方差所决定的。
2
正态曲线方程: f(x)=【1/(√2 p● σ) 】e -(x- μ) /2 σ
p
正
态
曲
线
的
特
点
2
其中: 是园周率;e是自然对数的底;x为随机变量的取值; μ为正态分布的均
2
值; σ 为正态分布的方差。
2
正态分布 x~(μ, σ )的密度函数曲线
Y
0.8
0.6
0.4
0.2
0
1 1.5 2.5 3
4.5
6
σ =0.8, μ =1.5、2.5、4.5
X
第三章 正态分布
2、正态分布曲线的重要性质:z=(x-
μ)/σ
如: z=1时 P=0.3413
z=2时 P=0.4772
z=2.5时 P=0.4938
z=3时 P=0.4987
标准正态分布 x~(0, 1 )z 、 P的意义
68.26%
95.46%
99.73%
-3σ-2σ-σ 0 σ 2σ 3σ
从概率的角度而言:
观测数据落在(μ+1σ)内的概率
为68.26%;落在(μ+2σ )内的概
率为95.46%;落在(μ+3σ )内的
概率为99.73%。
3、正态曲线理论的应用
(1)推求学生成绩中某些分数的人数
例:假定500个学生某科成绩近似正态分布,其X=70,
σ=10,试问(1)75分以下有多少人(2)85分以上有多
少人(3)75-85分之间有多少人。
解:(1)z=(75-70)/10=0.5,查正态分布表中值为0.6915,因此75分以下的学生
占69.15%,75分以下的人数是500X69.15%=346(人)
(2) z=(85-70)/10=1.5,查正态分布表中值为0.93319, 85分以下的学生占
93.319%,因此85分以上的学生占100%-93.319%=6.681%,所以85分以上的人
数是500X 6.681%=33(人)
(3)75分至85分之间,实际上是75分以上至85分以下的范围,因此85分的
百分率减去75分以下的百分率即为所求 93.319%-69.15%=24.169%
500
x24.169%=121(人)
-3σ-2σ-σ 0 σ2σ3σ
用标准分计算更容易理解:
Z =
正态曲线理论的应用
x- x
σ
Z=1.96=(x-75)/10
X= 1.96X10+75=94.6(分)
(2)推求某一特定百分率的成绩界限
例:某县对初一年级学生1000名学生进行能力测验,其结果
为X=75,σ=10,现拟根据此次结果选取25名学生作为“尖子
班”培养,假定测验成绩近似正态分布,问多少分以上才能被
选到“尖子班”学习。
分析:“尖子班”的人数占全年级的百分比为:
25/1000=2.5%
在正态分布表中查表中值0.975所对应的标准分数,
z=1.96,既是说1000名学生中有97.5%的人数在标准分
数1.96以下,因此有2.5%的人数在标准分1.96以上,
再将标准分数1.96化为原始分数得:
2.5%
1.96X10+75=94.6(分)
97.5%
X
1.96σ
75
94.6
答:分数在94.6分以上才能进“尖子班”。
 (x )
正态曲线理论的应用
0
(3)分析测验试题的难度
x
0.65
0.75
0.85
0.39
0.67
1.04
例:某校学生在一次测验中,第一题的答对率为15%,第二题的答对率为
25%,第三题的答对率为35%,假设这三题所测量的能力近似正态分布,
问1、2、3题的难度值各为多少?各题之间的难度差异怎样?
在正态分布中,通常是根据答错率找出所对应的标准分数界限值,此值即为该题的难度比值。
解:
试题难度值比较表
题号
答对率 答错率
难度值
难度差异
1
15%
85%
1.04
2
25% 75%
0.67
0.37
3
35% 65%
0.39
0.28
由左表可知虽然
三题的答对率都
相差10%,但第
二题与第三题的
难度差异却比第
一题与第二题的
难度差异要小。
三、推断统计
教育现象和一切客观物质世界中的现象一样,
不仅存在质的方面,同时也存在量的方面,而且
这两方面是辩证统一的。教育统计学就是在教育
现象的质与量中,专门研究其数量方面特征的重
要工具。在建立了以概率论和抽样方法为主要依
据后,教育统计学便具有了以局部推知全体,以
样本资料推知总体性质的科学推断功能。
根据样本信息对总体参数状况的推断有两种不
同形式,既总体参数估计和假设检验,二者既有
区别也有联系。
三、推断统计
第一章 相关概念
1、总体和样本
所要研究对象的全体叫做总体。其中每一个研究对象叫做个体。从
总体中抽取的一部分叫做总体的一个样本,样本中个体的数目叫做样
本容量。
2、参数与统计量
总体参数是指一切由观察测定总体的全部个体而得到的统计量数(μ,σ);
样本统计量是指为估计总体参数从样本所得的统计( X ,s )。
例1:对家用电器质量抽查,确定次品率。不能采用全部检测的方法。
例2:全市要检查初中学生体育锻炼达标情况,对每名学生一一测试工
作量很大,不仅耗费人力、物力和时间,而且没有必要。有没有一种科学
的方法只抽测一少部分学生,然后根据这部分学生的测试成绩去推知全市
中学生的体育达标情况?
推断统计
3、随机误差
样本统计量与总体参数之间的差距。
从某市参加高考的1200名学生中抽取200名试卷组成一个样本,计
算这200份试卷的平均分和标准差,这200份试卷的平均分和标准差与
1200名考生的平均分和标准差是有差距的,不同的抽取带来不同的差距,
这种差距称之为随机误差。
4、抽样方法
A、随机抽样(抽签法、随机数字法) B、机械抽样
C、分层抽样 D、整群抽样
抽取样本应遵循的原则。第一总体中每一个个体被抽中的机会均等,即抽中
与抽不中纯属偶然;第二任一个体与其它个体在抽取时无联带关系,即抽中的个
体与抽不中的个体无关;第三在条件允许的情况下,尽量使样本容量大一些。
5. 小概率事
在随机事件中,概率很小的事件被称为小概率事件,习惯上约定在0.05以下,即当P(A)< 5%
时,则称A为小概率事件。在统计推断中认为,小概率事件在一次试验或观察中是不可能发生的。
第二章 总体平均数的区间估计
(总体平均数的置信区间)
多个样本平均数呈正态分布 x ~N(μ,
σ)
√n
推断统计的基本理论之一就是抽样理论,而推断统计的任务则是根据样本资
料来推断总体的特征,从而揭示总体的本质和规律。
抽样分布的几个重要定理(统计推断的理论依据)
1.从总体中随机抽出容量为n的一切可能样本的平均数的平均数等于总体的平
均数。E(x)= μ
2.容量为n的平均数在抽样分布上的标准差,等于总体标准差除以n的方根。
σ
x
=σ
√n
3、从正态总体中,随机抽取的容量为n的一切可能的样本平均数的分布也呈
正态分布。
4、虽然总体不呈正态分布,如果样本容量较大,反映总体μ和σ的样本平均
数的抽样分布,也接近于正态分布。
第二章 总体平均数的区间估计
(总体平均数的置信区间)
α/2
α/2
1-α
x-1.96σ/ √ n
0
区间估计示意图 x+ 1.96σ/√n
根据样本平均数估计总体平均数的所在区间,称为总体平均数的区间估计。
基本原理:按一定概率要求,根据样本平均数估计总体平均数的所在区间。
(一)、原总体的方差已知
样本平均数的总体分布,在样本容量很大时其分布近似于正态分
布,样本平均数分布的标准差为σ/√ n,根据正态分布的性质U=(Xμ )/ σX
服从正态分布。对于给定的α 值(0<α<1),则称(1-α)
为置信度,可求出满足P(U>Uα)=1-α。一般取α=0.01或α=0.05,
对应的U0.05=1.96 U0.01=2.58。
置信区间:α=0.05 (x-1.96σ/ √ n, x+ 1.96σ/√n )为总体平均
数95%的置信区间
α=0.01 (x-2.58σ/ √ n, x+ 2.58σ/√n )为总体平均数
99%的置信区间
(二)、原总体的方差未知
对于总体方差未知且容量n﹥30,则用S代σ 相应的有
置信区间为:α=0.05 (x-1.96S/ √n, x+ 1.96S/√n )为总体平
均数95%的置信区间
α=0.01 (x-2.58S/ √n, x+ 2.58S/√n )为总体平均
数99%的置信区间
例:从某地区高考初试的数学试卷中,随机抽取40份,分析后得到如下数据,平均成
绩为51.2,标准差为3.8,问这一地区初试数学平均成绩在怎样的范围内?
答:已知 X=51.2 S=3.8 n=40, 本题属于总体方差未知且大样本n>30,
因此: 置信区间的下限=51.2-1.96x3.8/√40=50
置信区间的上限=51.2+1.96x3.8/√40=52
这一地区初试数学平均成绩有95%的可能性在(50,52)范围内。
同理也可以计算出有99%的可能性在(49.6,52.7)范围内。
 (x )
三、推断统计
拒绝假设区域
拒绝假设区域
第三章 显著性检验
接受假设区域
0.025
0.95
0
平均数差异的显著性检验(Z检验与t检验)
0.025
x
一、显著性检验的基本思想
显著性检验是统计推断的一种方法,它是确定一个具有已知统计量的样本是不是
从已知对应参数的总体中抽出来的或是两样本的统计量是来自同一总体还是来自不同
的总体。或从另外的角度说,样本统计量与总体参数的差异或两个样本统计量的差异
究竟是由于抽样所引起的随机误差,还是本质上的误差,这需要检验才能加以确定。
判断这种差异是否显著,要用概率来回答。如果差异是由于抽样误差而引起的可能性
大,那末两者的差异就不显著,反之两者的差异就显著。
抽样误差的概率大小是由显著性水平来衡量的。通常采用的显著性水平为0.05或
0.01,如果 P>0.05为差异不显著;如果 0.05≥P>0.01差异显著;如果P<0.01
则特别显著。
需要注意的是,显著性检验是以随机样本为前提的,以概率论原理为基础的,所
以进行检验时应注意样本的随机性,以及样本的可比性,观测指标的所有条件应尽可
能相同或基本相同。
三、推断统计
第三章 显著性检验
二、显著性检验的一般方法
一般来说,统计检验先对总体的分布规律作出某种假说,然后,
根据样本提供的信息,对假说作出肯定或否定的决策。具体步骤为:
①提出假设。如“假设两个群体平均数没有差别”,其数学符号
为:“H0:μ1=μ2”,这种对群体所作的“无差别”的假设,称为
“零假设”或称虚无假设,用符号“H0”表示。与此同时实际上存在
第二种假设,“两个总体平均数有差别”,其符号为:“H1:
μ1≠μ2”,称为备择假设。显然,“零假设”与“备择假设”是两个
对立的假设,肯定是此否定彼。
②根据不同条件和样本提供的信息即数据,从零假设出发,代入相
应的公式,计算出零假设的概率。
③作出统计决断,根据“小概率事件实际上不可能性”原理,研究
H0成立的概率。如果H0的概率P > 0.05,表示零假设不是一个小概
率事件,则H0成立,便否定被择假设H1从而确定“μ1=μ2”。如果H0
的概率p≤0.05,表明是个小概率事件H0不成立,就肯定备择假设H1
的成立,从而确定“μ1≠μ2”。
④结论:当P>0.05时差异不显著;当0.01 ≤ p≤0.05时差异显著;
当P≤0.01时差异特别显著。
推断统计(显著性检验)
三、显著性检验的一般步骤:
X = μ或μ1=μ2)
1、建立检验假设(H0:
2、选择和计算统计量(z值或t值)
3、确定P值
4、判断结果:当 P>0.05为差异不显著
接受检验假设
当 0.05≥P>0.01差异显著 拒绝检验假设
当P≤0.01差异特别显著
拒绝检验假设
平均数差异的显著性检验(Z检验)
1、两个独立大样本平均数差异的显著性检验
Z检验是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。
它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的
差异是否显著。
Z检验公式:
z
p
Z<1.96
P>0.05
1.96≤Z<2.58
0.05>p>0.01
检验
差异不显著
差异显著
Z≥2.58
p≤0.01
差异异常显著
例 1987年上海市初中三年级语文教学调查中,对男女生语文测试成绩作
如下统计,试检验男女生语文成绩是否存在显著差异,
总分
性别
人数
男
167
113.74
女
159
118.52
差值
|Z|
平均分 标准差
阅读
写作
平均分
标准差
20.95
71.64
15.11
42.12
9.73
19.09
74.87
14.01
44.43
8.83
2.15
2.00
平均分 标准差
2.27
抽取的两个样本均大于30,属两个独立大样本平均数差异的显著性检验,用Z检验。
平均数差异的显著性检验(Z检验)
检验步骤:
①提出零假设z:H0: μ1=μ2即假定男女写作、阅读及读写总分均无显著差异,
现在的差异是抽样误差所致。
 (x )
②计算统计量,代人Z值公式
X1 - X 2
Z =
S12
S2
+ 2
N1
N2
接受假设区域
0.025
得:
Z写 =
Z读
Z总
42.10 - 44.43
9.732 8.832
+
167
159
71.64 - 74.87
拒绝假设区域
拒绝假设区域
- 2.23
=
= -2.27
1.208
- 3.23
=
=
= -2.00
2
2
1
.
612
15.11
14.01
+
167
159
113.74 - 118.52
- 4.78
=
=
= -2.15
2
2
2
.
218
20.95
19.09
+
167
159
0.95
0.025
0
x
z
p
检验
Z<1.96
P>0.05
差异不显著
1.96≤Z<2.58
0.05>p>0.01
差异显著
Z≥2.58
p≤0.01
差异异常显著
平均数差异的显著性检验(Z检验)
③计算出的Z值与下表进行对照,作出判断:
|Z|
P
差异显著性
>1.96
<0.05
差异显著
>1.96
<0.05
差异显著
>1.96
<0.05
差异显著
 (x)
拒绝假设区域
拒绝假设区域
接受假设区域
0.025
-1.96
0.95
0
0.025
1.96
x
因为|Z写|=2.27,显然, |Z写|>1.96,表
明概率P≤0.05,男女生写作成绩差异显著。
因为|Z读|=2.00,显然,|Z读|>1.96,表
明概率P≤0.05,男女生阅读成绩差异显著。
因为|Z总|=2.15,显然, |Z总|>1.96,表
明概率P≤0.05,男女生语文成绩差异显著。
④结论:当P≤0.05时,拒斥H0,肯定H1,
1987年调查说明上海市初三语文成绩男女生存在
显著差异,女生高于男生。
平均数差异的显著性检验(t检验)
2、小样本与总体均数的差异检验
t检验是用于小样本(样本容量小于30)时的平均值差异程度检验方法。它是
用t分布理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
例 某校初一年级抽出一组20人,对数学自学辅导教材进行试验,期末全年级测
试平均成绩为70分,而这20人的平均分为=77.7,标准差为15,试检验实验效
果。
本例随机抽样样本容量为20人,属小样本,因此适用t检验。所谓检验实验
效果,就是以样本(20人)的平均数与某已知总体平均数μ之间的差异程度的显著
性检验,既检验样本所取自(所代表)的总体的平均数μ与μ0,是否有差异。
X - 0
t检验公式: t =
s
n -1
平均数差异的显著性检验(t检验)
检验步骤:
①提出零假设: H0:μ=μ0,即假定样本所代表的总体平均数与
已知平均数无显著差异,如有差异仅是抽样误差所致。本题μ0=70分
②计算检验统计量t值。用如下公式
t=
X - 0
s
n -1
式中,X =样本平均数77.7;μ0=已知总体平均数70;
s=样本标准差15;n=样本容量20,代人公式得
t=
77.7 - 70
= 2.24
15
20 - 1
平均数差异的显著性检验(t检验)
③作出判断。与正态分布曲线不同,t 分布的曲线形式随自由度大小
而不同。“自由度”记作“df”。作总体平均数的假设检验时,统计
量t的自由度df=n-1。据此,本题的df=20-1=19。查t值表,
得出理论t值为:
t(19)0.05=2.093
再与计算所得t值比较可得:t=2.24>t(19)0.05=2.093
依据《t值与差异显著性关系》表,推断H0发生的概率,作出结论。
t值与差异显著性关系
t
P
差异显著性
<t(df)0.05
>0.05
差异不显著
≥t(df)0.05
≤0.05
差异显著
≥t(df)0.01
≤ 0.01
差异十分显著
因为t=2.31>t(df)0.05,从上表可知,概率P≤0.05时,μ和μ0之间的差异显著。
因此可下结论为:拒斥H0:μ=μ0,而肯定H1:μ≠μ0,又因μ >μ0,故结论表明新教材
实验有成效。
平均数差异的显著性检验(t检验)
3、其它检验公式
对于两个独立的正态总体,如果已知两总体方差相等但未知总体方
差具体数值,从中各抽取一随机样本,两样本平均数之差将服从自由度
为
的t 分布。
其检验统计量的计算公式
如果是按同一组样本不同情况的测试所得的平均值 X 1和 X2
来检验平均值的差异程度,其计算公式为:
t=
D
X1 - X 2
- ( D ) 2 / N
N ( N - 1)
2
式中,D为两次测试中每对分数之差即D=X2-X1。
实验设计简述
实验设计:实验者为了揭示实验中的自变量与因变量的
关系,在实验之前所作的实验计划,通常指实验程序的
计划和安排。而实验程序的计划和安排离不开统计、检
验。
实验设计的内容:包括怎样选择被试(实验对象),
控制那些因素,指出什么假设,观察那些内容,如何
安排实验步骤,采取何种统计方法来处理和分析实验
结果等等。
例:控制变量 指示语
(一)目的:通过把指示语作为自变量,观察被试对反应变量的不同影响,从而了解到不是以指示
语为自变量的实验中控制指示语的重要性。
(二)材料:数学试卷一份,马表。
(三)程序:1按全班被试的数学程度,分为数学能力相同的甲、乙两组。
2主试仅向甲组被试着重指出:你们在运算时必须注意试题
中数字之间的关系,余内容两者相同。
3主试说明实验要求,发给各被试试题一张,覆置桌上。主试发“预备”口令
时,被试把题纸翻转正面,写好姓名等项,主试发“开始”口令时,同时开
动马表,被试答题。
4被试做完题目,立即停笔并问得答题时间,记录在试题纸上。
5全组做完,主试宣布答案,被试加以核对,并记录成绩,以便整理全组结果。
(四)结果:1统计甲乙两组的平均成绩(做对题数和做题的时间)
2检验两组时间(或成绩)差异的显著性
(五)讨论:1在本实验中,你是怎样发现题目的规律的
2指导语在解题中所起作用如何
实验设计简述
附:数学试题如下
姓名——组别——时间——
在下列各数列后的横线上,填写你认为应该填写的数字
(1)2 6 10 14 18 —— ——
(2)3 12 48 192 768 —— ——
(3)8 4 2 1 —— ——
(4)31/4 8 33/4 —— ——
(5)4 5 5 6 6 7 —— ——
(6)3 8 13 18 23 —— ——
(7)1 3 4 6 7 9 —— ——
(8)7 2 5 0 3 -2 —— ——
(9)1 3 4 6 10 12 22—— ——
(10)1 2 2 2 4 2 8 —— ——
第二部分 教育测量学原理简介
第一章 教育测量概述
一 教育测量的含义与特点
二 教育测量发展的历史
三 教育测量的要素和种类
四 教育测量的功能及对教育测量应持的态度
第二章 测验的信度、效度、难度与区分度
一、测验的信度
二、测验的效度
三、测验的难度
四、测验的区分度
第三章
测验的编制与实施
一、确定测验目的
二、教育目标分类
三、编制测验双向细目表
四、试题的编制
五、试题评分 六、试卷的编辑与测验实施
七、试卷分析
第四章
题型编制的一般原理与方法
第一章 教育测量概述
一、教育测量的含义与特点
1、教育测量的含义
测量(Measurement) :通常指人们对客观事物进行某种数量化的测定。
测量是以数量来表述结果的,没有数量来表述的结果不能称为测量。
教育测量(Educational Mcasufement) :就是对学生的
学习能力、学业成绩、兴趣爱好、思想品德以及教育措施上
许多问题的数量化测定。
教育测量主要对学生精神特性的测定。
凡物之存在必有其数量,凡有数量的东西都可以测量,测不准原理。
一、教育测量的含义与特点
测量、测验、考试、评价的联系与区别
测量与测验:测验(Test)是引起某种行为的工具,通常是指运用某些仪器、
试题来引起人们的某种行为,从而测定人们的某种特性。它是进行数量化分析
和科学推断的前提和手段。
测量比测验的含义要广泛,测量不仅包括着运用仪器、试题来进行测定事
物的质量与特性,而且还包括着运用调查、观察等方法来测量事物的质量与特
性,测量既包括对事物的测验,又包含对事物进行数量化的分析,并对测验结
果进行一定的解释和评价。
测验与考试(Examination)也不尽相同。我们平时所说的考试,通常只凭教
师自己的经验去出试题和评分,带有主观随意性。测验是经过较细致的科学分析
才编制出测验的题目,在测验的程序和评分方面也有较严格的要求。考试一般用
于考核学生的学业成绩,测验不仅用于考核学生的学业成绩,还用于心理特性的
测量。
测量与评价(Eval ution)既有联系,也有区别。测量强调的是数量化,评价
则是突出价值观,充分重视对问题的分析与评断。
一、教育测量的含义与特点
2、教育测量的特点
(1)教育测量一般是间接测量
我们只能通过学生对测验题目的反应和一些行为表现运用推理、判断的
方法,来间接的测量出他们的知识水平、智力高低和品德好坏。
(2)教育测量的度量单位是相对的
学生的学业成绩好坏、智力高低和能力大小等,都是就其在所在团体
的整个分数序列、行为序列中的地位来说的,其测量的分数单位,并非绝
对的。
(3)教育测量是为实现教育目的服务的
是为改进教育工作,提高教育质量,更好地实现教育目的服务的。
不能脱离教育目的和教材的要求,随意地制定测验量表,任意地进行
测量。对各种教育测量结果的评价,也都应依据教育目的的要求来进
行。
第一章 教育测量概述
二、教育测量发展的历史
主观经验性考试阶段(1864年以前)
教育测量起源于我国的科举考试制度。
客观标准化测验阶段(1864一1940年)
法国的比纳 、西蒙,美国的推孟 、桑戴克、麦柯尔
比纳被称为智力测量的鼻祖,桑戴克被称为教育测量学的鼻祖
客观测验的深入发展阶段(1940年-)
过去教育测量多为对学生知识的测量,很少测量学生的心理和品德。现在的
教育测量,不仅重视测量学生的知识,而且重视学生的智力和思想品德的测量。
过去教育测量的量表编制多为单一答案的求同式思维,缺乏多种答案的求异
式思维,现在教育测量的量表中,也包括有多种答案的求异式思维题和论文题。
过去教育测量多用于对学生的学习成绩的测量,很少涉及课程设置、教材、
教育改革方案等效益方面的测量,现在在教育工作的各个方面都运用教育测量。
过去教育工作中的客观测验,一般是常模参照测验,现在教育工作中的客观
测验,不仅有“常模参照性测验”,而且有“目标参照性测验”。
第一章 教育测量概述
三、教育测量的要素和种类
1、教育测量的要素
单位
教育测量中的单位不是绝对等价值的
参照点 教育测量的参照点都属于人为设定,从参照点起计算的分数不能
以“倍数”的方式解释
量表 具有单位和参照点的连续体。
教育测量所使用的量表有四种:百分量表、年龄量表、等级量表、T量表
2、教育测量的种类
以测量的对象来分:学业成绩测验、智力测验、人格测验、特殊能力测验
以测量的目的来分:预测测验、形成性测验、总结性测验、诊断性测验、
难度测验、速度测验
以测量的方式来分:个人测验、团体测验
以试题的形式来分:客观性测验、论文式测验、投射测验、情景测验
第一章 教育测量概述
四、教育测量的功能及对教育测量的认识态度
1、教育测量的功能
教育测量是改进教学的良好工具
教育测量是教育管理的重要手段
教育测量是教育研究的重要方法
2、对教育测量应有的认识态度
教育测量是一种工具
教育测量尚需完善
对教育测量应持严肃的态度
教育测量学原理
第二章 测验的信度、效度、难度与区分度
测验的信度、效度、难度与区分度是衡量测量质量的基本标准
作为教育测量的工具——测验,它的编制是一项十分复杂的工作,
它需要懂得一些教育测量基本知识和基本方法的人来完成。一个连信度、
效度、难度和区分度等教育测量基本概念都不甚了解的人是难以编出高
质量的测验的。
从教育测量的理论上来讲,一个良好的测验应该具备以下条件:
测验的试题与测量的目标吻合
测验的试题应具有代表性
测验的试题有恰当的难度和区分度
测验的试题的语言陈述简单、明确
测验的结果有效和可靠(即效度、信度高)
测验的实施符合经济性原则
其中测验的信度、效度、难度和区分度是衡量测验质量的基本指标。
测验的信度、效度、难度与区分度
一、信度 (reliability)
所谓测验的信度是指测验的可靠性或者可靠程度。具体地说,测
验的信度是指同一组学生用同一测验实施两次后所得分数的一致性,
或者同一组学生经过一次测验后,用另一个同质的测验再测一次,这
两次测验所得分数的一致性。
根据统计学的基本原理,刻划测验的信度有三种方法:
①稳定性系数 稳定性系数的求法是:先对某个测验实施一次,
过了一段时间后。再用这个测验实施一次,然后计算学生在前后再次
测验中所得分数的相关系数。这个相关系数就是稳定性系数。
②等值性系数 等值性系数的求法是:等值性系数是以两个等值
(题型、题数、难度、区分度相等)但具体内容不同的量表,在最短
时距内,对相同应试者先后施测两次的两组对应分数的相关系数。
③内部一致性系数
内部一致性系数的求法是:将一个测验分数分为两个相等而独立
的部分(例如奇数题和偶数题),然后求两者的相关系数。对于这个
相关系数,再用斯皮尔曼-布朗公式r信=2r/1+r来校正。其中r是相关
系数,r信就是内部一致性系数。
测验的信度、效度、难度与区分度
在前述三种类型的信度系数中,前两个都要学生接受同一(或同
质)内容的两次测验,这在实际的中小学教育过程中是不现实的。因
此,在中小学教育或从事教育科学研究的过程中,信度系数的计算一
般以内部一致系数为主。
测验的信度是十分重要的,不可靠的测验是没有什么意义的,如用
一杆秤去称肉,第一次称的的重量是1500克,第二次称得的重量是
1000克,那么这种秤还有什么用呢?教育测量也是如此,如用一次去
测量学生的数学学业水平,第一次测验的成绩是92分,第二次测验的
成绩却只有61分,这样就无法确定这个学生的数学学业水平。当然,
这个测验是根本不可靠的。
就测验的内容而言,学业成绩测验要求信度系数在0.9以上,常达
到0.95;智力测验应达到0.85以上;个性测验和兴趣测验稍低,应在
0.7~0.8.
测验的信度、效度、难度与区分度
提高测验信度的方法:①延长测验的长度。量表题目越少,
得分越容易受试题抽样的偶然因素影响,当然测验的信度也越
低。新增加的试题必须与原试题同质(平均难度一样)且不使
被试感到厌倦。②测验的难度要适中,同一测验中的试题难度
水平接近。③施测内容尽量单一。不要妄图在一次测验中测量
被试的所有能力,信度很低。④测验的时间要充分,使被试从
容回答问题。⑤测验的程序要统一。进行多次测验,开始时的
指导语、回答问题方式、分发收回试卷的办法、时间掌握都要
尽量一致。⑥评分要客观。客观性测验,评分标准明确有助于
提高测验的信度。主观性试题,受偶然因素影响大,往往评分
者的“量尺”不统一,信度差。⑦加大应试者之间的差异。因
2
为信度系数的大小与实得分数 σ
成正比,加大被试能力的差异
可提高信度。
测验的信度、效度、难度与区分度
二、效度(Validity)
所谓测验的效度是指一个测验真正能确实测量到它所要测量的东西的程度。它是针对测量的
目的和结果而言的。
根据测量的目的,可以把测验的效度分为内容效度、结构效度和效标关联效度三种。
①内容效度
内容效度是指测验目的代表准备测验的内容和引起的预期反应所达到的程度。如在教育实
验研究的测量中,“准备测量的内容”是指实验自变量的变化,“预期反应”是指实验因变量的
变化。
目前,对测验的内容效度没有恰当的计算方法,尚不能用一个简单数字来刻划它。现在判
断测验的内容效度一般是用逻辑分析法或内容分析法。
②结构效度
测验的结构效度是指测验结果能够说明教育学和心理学理论的某种结构或特征的程度。它
可以理解为测验实际上测量了准备测量的结构特征所达到的程度。
测验的结构效度问题比较复杂。一般在中小学教育和教育科学研究中所使用的自编测验是不考
虑这个问题的。
③效标关联效度
测验的效标关联效度是指测验结果与作为效标的另一个独立的测验结果之间的一致性程度。
这种一致性程度一般是用本测验结果与另一个独立的测验结果之间的相关系数来描述的。
那个独立的测验结果是用来估计本测验效度的标准,所以叫做效标。实际上,效标在一定
程度上用另一个独立测验结果反映本测验准备测量的某些特征。
由于效标是计算测验的效标关联效度的主要依据。因此,效标必须确实能反映某个方面的
特征。只有这样才能成计算测验效标关联效度的依据。
测验的信度、效度、难度与区分度
效度的统计定义:
X =T + E =V + I + E
 X2 =  T2 +  E2 =  V2 +  I2 +  E2
rxy =  V2 /  X2
从某种意义上讲效度比信度更重要
提高效度的方法
①控制系统误差。
②精心编制量表。
③妥善组织测验
④扩充样本的容量和代表性。
⑤合理处理信度和效度的关系。
测验的信度、效度、难度与区分度
三、难度:被试完成题目(item)任务时所遇到的困难程度。
在教育测量中,某测验的难度一般是用正确解答该测验题的人数与参与测验
的学生数的比值来刻划的。用公式表示即 P=R/N 其中,P表示某测验题的难
度,R表示答对该测验题的人数,N表示参加测验的人数。
难度对测验有很大的影响。这种影响主要体现在影响测验成绩的分布,影响
测验成绩的离散程度;影响测验的区分能力等三个方面。
难度计算,常用的以下几个公式:
① P=X/W
其中P表示某测验题的难度,X表示接受测验的学生在该测验题上的平均分
数,W表示该测验题的最高得分。
② P=PH+PL/2
其中P表示某测验题的难度,PH表示接受测验的高分组学生(占总数的
27%)在该测验题的通过率,PL表示接受测验的低分组学生(占总数的27%)
在该测验题的通过率。
③ P=XH+XL-2NL/2N(H-L)
该公式只适宜计算论文式测验题的难度。其中P表示某测验题的难度,XH表
示接受测验的高分级学生的得分总数,XL 表示接受测验的低分级学生的得分总
数,N表示接受测验的学生总数。H表示该测验题的最高可能得分,L表示该测
验题的最低可能得分。
测验的信度、效度、难度与区分度
四、区分度
区分度又叫鉴别力,它是测验对学生实际水平的区分
程度的指标。一个具有良好区分度的测验题,实际水平高
的学生应该得高分,实际水平低的学生应该得低分。
测验的区分度有积极区分度和消极区分度两种。积极
区分是指区分的方向与测验总分的方向一致的区分,区分
的方向与测验部分的方向不一致的区分是消极区分。
测验题的区分度的取值范围在-100至100之间。如果
区分度是负值,则表示该区分是消极区分;如果区分度为
0,则表示该测验题没有区分;如果区分度是正值,则表
示该区分是积极区分。
测验的信度、效度、难度与区分度
四、区分度
测验题的区分度的计算方法很多。在中小学教育和教育科学研究
中使用的测验题的区分度一般用下列公式来计算。
①客观性测验题区分度计算公式
D=PH-PL
其中D表示某测验题的区分度,PH表示测验高分组学生对该测验
题的通过率,PL表示测验低分组学生对该测验题的通过率
②论文式测验题区分度计算公式
D=XH-XL/N(H-L)
其中D表示某测验题的区分度,XH表示接受测验的高分级学生的
得分总数,XL 表示接受测验的低分级学生的得分总数,N表示接受测
验的学生总数。H表示该测验题的最高可能得分,L表示该测验题的最
低可能得分。
测验的信度、效度、难度与区分度
区分度的一般评价标准
0.2以下 应淘汰;
0.2—0.3 合格题目,可能需加以改进;
0.3—0.4 良好;
0.4—1 性能颇佳。
测验题目难度与区分度的关系
题目难度、区分度与测验信、效度之间关系复杂。
测验中题目的总体难度过高或过低,都会导致测验的
总体区分能力降低。所以一般说来,中等难度的题目应占
40—60%。
教育测量学原理
第三章 测验的编制与实施
一、确定测验目的。要编制测验,首先要明确测验的目的。在教育活动中,测验无
论多么重要它也只能是为目的服务的工具,测验的质量如何,关键在于能否有效地促进
教育目标的实现。
把握常模参照性测验与目标参照性测验的区别。
常模参照测验:是指以学生团体测验的平均成绩作为参照标准,说明某一学生在团体中的相对
位置,将学生分类排队。重在个人与个人之间的比较,主要用于选拔或编组、编班,要求试题难度适
中,尽量对所有学生都有较强的鉴别力和区分度。常模参照测验以鉴别学生个别差异为指导思想,目
的是为了测得学生在所处团体中的相对水平。常模实际上即是该团体在测验中的平均成绩,学生成绩
便是以常模为参照标准来确定的。这一测验衡量的是学生的相对水平,故其评分属相对评价范畴。
目标参照测验:是以达到教学目标为标准参照点。它提供的信息是完成教学目标的情况,旨在检
查学生的成绩与教学之间的差异,不比较个人之间成绩的差异。测验试题,必须完全能代表教学目标
要求才能发挥作用,考试成绩就代表学生掌握教学目标要求达到的程度。
二、教育目标分类 。1956年布鲁姆(B.S.Bloom)制定出了教育目标的分类系
统。”认知目标、情感目标、运动目标”三大类,每类目标又分成不同的层次排列成由
低到高的阶梯。1998年霍恩斯坦教育目标分类学是在批判继承布卢姆教育目标分类学
的基础上推出的一个全新的教育目标分类体系.它的主要特点是以建构主义为理论基础,
体现了人的行为的整体性,突出了过程性.它将全部教育目标划分为认知领域、情感领域、
动作技能领域和行为领域4个部分,每个领域包含5个层次的教育目标.它对布卢姆教育目
标分类学的超越主要表现为:适当地减少了教育目标类别的数量、增强了平稳性和可比
性、更适合于指导课堂教学.
测验的编制与实施
教
育
目
标
分
类
六、评价
五、综合
四、分析
三、应用
二、理解
一、知识
布鲁姆认知目标是指与智力活动有关的
教学目标。分为六个层次,每一层次又有若
干小层次形成了由简单到复杂的阶梯,简单
目标在下,复杂目标在上,高层目标包含低
层目标,并在低层目标基础之上发展起来。
霍恩斯坦于1998年推出了一个全新的
教育目标分类,这个分类将全部教育目标
划分为4个领域:认知领域;情感领域;动
作技能领域和行为领域,每个领域包括5个
类别的目标。霍恩斯坦教育目标分类与布
卢姆教育目标分类之间存在一些共同点,
也存在重要的区别,霍恩斯坦教育目标分
类实现了对布卢姆教育目标分类的超越。
测验的编制与实施
三、编制测验双向细目表
测验双向细目表(tabie of specification)具有极大的实用性,无论对
教学还是对测验都有重要作用。它可以帮助我们明确如下问题:教学内容是什
么?如何支配教学时间?教授相应知识的内容目的是什么?如何用测验来测量
相应教学内容的目标实现的程度。
编制测验双向细目表的步骤 (1)列出教材大纲(2)对列出教材大纲赋予权
重(3)对各种教育目标赋予权重(4)编制双向细目表
自然常识测验双向细目表
教学目标
教学内容
知
识
理
解
应
用
分
析
综
合
评
价
合
计
生物世界
资源利用
动力和机械
物质与能量
气象
宇宙
地球
3
2
2
5
2
2
2
5
3
3
6
4
5
2
6
3
4
8
3
4
2
3
1
2
3
2
1
1
2
1
0
2
2
0
1
1
0
1
1
0
0
0
20
10
12
25
13
12
8
18
28
30
13
8
3
100
合 计
测验双向细目表顶端列出了应测验
的认知目标,表的最下端列出了与各
项目标对应的分配权重。表的左端列
出的是测验内容(大纲),表的最右
端列出的是对各项内容的分配权重。
表的主体部分是对认知目标及测验内
容的权重分解,在保证权重分配不太
偏离的情况下,可以灵活调节。
测验的编制与实施
三、编制测验双向细目表
小学数学毕业考试水平测试知识与能力双向细目表
数学能力
计算
能力
思维
能力
空间
观念
数与计算
口算12 笔算7
5
3
比和比例
2
1
题量
问题
解决
权 重
数学知识
1
4
2
8
1
1
2
1
1
4
1(综合)
1
6
46
几何初步知识
6
量与计算
代数初步知识
2
统计初步知识
权
重
23
27
8
9
教育测量学原理
四、试题的编制
以双向细目表为依据编制试题——命题。命题是测验编制中的核
心环节,它包括选择试题类型、编拟试题、确定评分方法、编制测验
说明、搭配并组织试卷等项工作。
(1)试题类型 根据不同的标准,可以把试题分为不同的类型。
客观性试题:选择题(单选、多选)、填空题、配对题、排列题、是非
题、简答题等。客观性试题答案明确,回答简便,评分可靠并可用计
算机评卷,在固定考试时间内包含较多题量等优点。缺点是试题不易
编制,对考生的阅读能力要求高,难以排除被试对试题的猜测。
非客观性试题(主观性试题):作文题、论述题、自由反应性试题等。
优点是易于编制,便于考察被试的书面表达能力。缺点是没有标准答
案,评分困难,且不可靠,在限定时间内不能扩大题量。
(2)试题选择的原则 根据测验目的选择题型、同一测验中试题类型不
易太多、选择题型应考虑经济性原则。
测验的编制与实施
五、试题的评分
评分是教育测量的重要环节,对测验的质量有着及其重要的影响。
1983年全国各地对语文、政治、数学、物理每科五份考卷评分的差异统计
科目
语文
试卷
最高分
最低分
最大差异
政治
A B C D E
45 87 92 85 83
26 55 64 56 50
19 32 28 29 33
数学
A B C D E
85 74 66 84 78
69 51 54 70 63
16 23 12 14 15
物理
A
B C D E
109 119 114 118 114
94 109 103 110 103
15 12 11 8 11
A B C D E
91 80 90 80 69
85 71 77 74 62
6 9 13 6 7
XX省各科不同阅卷组对同一份考卷评分差异
科目
语文
政治
数学
物理
化学
生物
地理
最高分
最低分
85
62
77
70
78
67
58
56
86
79
28.6
18.2
73
69
最大差异
23
7
11
2
7
10.4
4
历史
英语
56.7 59.5
50
58
6.7
注:张厚粲等《标准化考试简介》高等教育出版社1985年版
1.5
测验的编制与实施
五、试题的评分 评分误差产生的原因既有试题编制方面的原因也有评分
者本人的某些特点影响。
评分者知识水平、心理状况、个性倾向、工作态度以及各种效应的影响。
论文试题的评分 相对评分法、分析评分法 分数的调整与控制
客观性试题的评分 分数矫正、注意事项
六、试卷编辑与测验实施
(1)试题审查
(2)试题编辑
(3)编写答题说明
(4)试卷的印刷
(5)测验的实施
测验的编制与实施
七、试卷分析
试卷分析是对教学测试的反思,是对教师教的反思、也是对学生学的反思,试卷分析是
提高命题水平必不可少的一个环节。试卷分析包括:⑴介绍考试基本情况;⑵介绍试卷的特
点;⑶统计学生解答情况;⑷对今后教学的启示;⑸对今后命题的建议。
一、介绍考试类型
试卷分析要说明本次考试是什么类型、什么范围的考试,考试的目的是什么,试题由什
么人命题的。
二、介绍试卷的特点
试卷分析要介绍试卷考查的范围、知识点及分值、试卷结构(题型比例、分值)、命题
特点等。
三、统计数据
试卷分析要统计有关数据,数据来源:全体考生、也可随机抽取样本,样本容量尽可能
大一些。有关数据包括:
⑴各题统计数据(难度、区分度);
①难度
②区分度
⑵试卷统计数据(平均分、标准差、难度比例、区分度比例);
①平均分、最高分、最低分
②分数段
③标准差
测验的编制与实施
七、试卷分析
④变差数 (变异系数)
⑤利用excel软件计算有关数据
打开“excel”/选择存放位置/点击“ ”/点击“统计”/选择“类别”/点击“确定”/选择
数据/点击“确定” 。
类别一:“平均分” 点击统计中的“AVERAGE” (参数算术平均数)
类别二:“最高分” 点击统计中的“MAX”(一组数值中最大值)
类别三:“最低分” 点击统计中的“MIN”(一组数值中最小值)
类别四:“标准差” 点击统计中的“STDEVP”(给定样本总体标准偏差)
类别五:“分数段” 点击统计中的“COUNTTF”(数字参数和合数字的单元格的个数)
也可利用“excel”的计算功能,点击“=”/输入公式来计算。
⑶相关图表
分数段分布图、各题难度分布图、各题区分度分布图、难度比例统计图、区分度比例统计图,
可利用excel软件统计画图,并作必要的文字说明;
四、学生答题情况统计
各题好的解答、错误的解答及原因分析
五、对今后教学的启示
六、对今后命题的建议
教师测验题型编制的一般原理与方法
题目类型及其测量功能
一、选择题特点
选择题优点:
可以测量学生多种层次的学习结果;
评分标准统一、客观,有利于提高评阅的速度;
允许较大的试题容量,可以保障题目的覆盖范围和代表性;
可根据学生对似真选项的选择情况进行诊断。
选择题缺点:
无法了解被试作答时的思维过程;
难以考核被试的综合能力;
具有似真性的干扰选项有时不好编制;
存在猜中答案的几率。
编制原则:
题干意义完整,问题表述明确;
题干及选项的语言应简明,避免滥用否定结构、复杂句式诱答项应具有似真
性;
同一测验中各题目应尽量保持独立,避免相互牵连正确答案不能有明显组型。
教师测验题型编制的一般原理与方法
题目类型及其测量功能
二、填空题特点:
主要用于考察被试对基本知识的记忆和理解能力;
受被试猜测影响小,评分较客观;
无法测量高级的学习结果;
使用过多容易造成被试的死记硬背。
编制原则:
题意要明确,限定要严密,以保证空白处应填答案的唯一性;
题目中空白部分以一处为宜,过多则使题干支离破碎;
所有空白处的线段长度应一致,避免产生暗示作用;
若答案是数字,应指明单位或数字的精确程度。
三、简答题特点:
适合于考察被试对基本知识、概念和原理的掌握、记忆情况;编制简单、灵
活。
编制原则:
问题叙述清楚、明确。
答案要简短具体,使被试可以用简洁的语言来回答,
避免繁琐的计算和长篇大论。
避免只出机械记忆性的题目,应注重知识的应用。
教师测验题型编制的一般原理与方法
题目类型及其测量功能
四、判断题的优点:
设计容易,知识布点方便,考核的知识面宽;
学生做题的速度较快,可以 在较短的时间内考核较多的教学内容。
判断题缺点:
学生凭猜测做题的可能性较大,体现不出思考的过程;
设计不当,会引导学生过于集中学习零碎的事实,着重低层次认知能力和记忆
力的训练。
编制原则:
测题含义必须单一明确,不能有歧义;
答案必须明确,且是无可争议的;
语言叙述简明,减少读题干扰;
避免使用暗示性词语;
避免使用否定词,尤其不用双重否定词;
全部答案对与错的比例应大体相等;
测题次序随机排列,避免学生猜测;
尽量不直录教材原文。
教师测验题型编制的一般原理与方法
题目类型及其测量功能
五、论述题优点:
可以用来对高层次、复杂学习结果的测量。可以用于各学科领域,特别适用于人文、社
会科学领域;
可以增进学生的思考、应用及解决问题的能力,对于被试的学习态度和学习方式可以产
生积极的影响。如可以促使学生注意教材内容的内在联系和对所学知识进行有机的组织;
试题编制相对容易,可以增进被试的写作能力。
论述题缺点:
论述题一般都是大题,因此在一次考试中试题的取样范围比较小,且分布不均匀,难以
做到全面考察;
评分的主观性强。即使有参考答案和评分标准,但因被试的回答自由,回答
问题的方向也不尽相同,评分的主观性仍难以避免;
被试作答和评分阅卷均较为费时。
编制原则:
试题应该用来测量较高层次的学习目标(如分析、综合、评价),特别是那些小型客观
题不易测量的学业成就。如要求学生陈述理由、解释变量间关系,描述与评价资料、推理证
明等。
要明确而系统地陈述问题,使被试能清楚地了解题目的要求。使每道题都能 真实地反
映被试实际能力而不受阅读理解等其他因素干扰。
不同的论述题之间很难做到等值,因此一般不要让被试选择问题回答,否则不同被试的
得分难以比较。
P{ X - S t  / 2 (n - 1)    X + S t  / 2 (n - 1)} = 1 - 
n
n
| X -  |

P
 t  / 2 (n - 1)  = 1 - 
n
S
/


S12 / S22
~ F (n1 - 1, n 2 - 1)
 12 /  22
教学目标
教学内容
知
识
理
解
应
用
分
析
综
合
评
价
合计
生物世界
资源利用
动力和机械
物质与能量
气象
宇宙
地球
3
2
2
5
2
2
2
5
3
3
6
4
5
2
6
3
4
8
3
4
2
3
1
2
3
2
1
1
2
1
0
2
2
0
1
1
0
1
1
0
0
0
20
10
12
25
13
12
8
18
28
30
13
8
3
100
合 计
 /2
 /2
谢谢!