Transcript 课题研究数据整理与分析
课题研究数据整理与分析
---统计理论部分
周海波 湖南师范大学心理系
课程目标、内容
目标:掌握课题研究的一些基本思路、选取
方法、统计分析方法
内容
统计概论
Excel与课题研究
SPSS与课题研究
引言--课题研究
案例1
双手交叉
与性别的关系
与文理科的关系
与性格气质类型的关系
如果描述上述结果?
课题研究一般过程
选择课题
实施方案
实验研究
整理结果
一 统计概论
统计学:是一门关于用科学方法收集、整理、
汇总、描述和分析数据咨询,并在此基础上
进行推断和决策的科学。
统计
统计资料
统计工作
统计学
教育统计学
心理与教育统计学的研究内容
描述统计
心理与教育统计学
推论统计
实验设计
1.1 描述统计
定义:
主要研究如何整理心理与教育科学实验或调查得来的大
量数据,描述一组数据的全貌,表达一件事物的性质.
内容:
数据如何分组:使用统计图表描述
怎样计算一组数据的特征值,从而描述数据全貌
表示一一事物两种或两种以上属性间相互关系的描述及
各种相关系数的计算及应用条件,描述数据分布特征的峰
度偏度系数的计算方法
推论统计
定义:
研究如何通过局部数据所提供的信息,推论总体的情形,
目的在于根据已知的情况,在一定概率的意义上估计、
推测未知的情况。
内容
假设检验,大样本(Z检验);小样本(t检验);计算资料(百分数
检验,X2 检验),变异数分析(F检验),回归分析方法
总体参数特征值估计方法
非参数的统计方法
实验设计
目的:
研究如何更加合理、有效地获得观察资料,如何更正确、
更经济、更有效的达到目的实验目的,以提示实验中各
种变量关系的实验计划。
内容:
选择怎样的抽样方式;
如何计算样本容量;
确定怎样的实验对照形式;
如何实现实验组和对照组的等组化;
如何安排实验因素和如何控制无关因素;
用什么统计方法处理及分析实验结果,
心理与教育统计学基础知识
1、数据类型
计数数据
分类数据
离散型数据
等级数据
测量数据
等距数据
比率数据
连续型数据
变量、随机变量、观测值
变量是可以取不同值的量。统计观察的指标都
是具有变异的指标。当我们用一个量表示这个
指标的观察结果时,这个指标是一个变量。
用来表示随机现象的变量,称为随机变量。一
般用大写的X或Y表示随机变量。
随机变量所取得的值,称为观测值。一个随机
变量可以有许多个观测值。
总体、个体和样本
需要研究的同质对象的全体,称为总体。
每一个具体研究对象,称为一个个体。
从总体中抽出的用以推测总体的部分对象
的集合称为样本。
样本中包含的个体数,称为样本的容量n。
一般把容量n ≥30的样本称为大样本;
而n <30的样本称为小样本。
统计量和参数
统计指标 统计量
参数
μ
平均数
X
标准差
S
σ
相关系数
r
ρ
回归系数
b
β
次数、比率、频率与概率
次数/频数:某一事件在某一类别中出现的数目
比率:两个数的比
频率:某一事件发生的次数被总的事件数目除
概率:某一事件在无限的观测中所能预料的相
对出现的次数,即某一事物或某种情况在某一
总体中出现的比率。
统计误差
误差是测得值与真值之间的差值。
测得值=真值+误差
统计误差归纳起来可分为两类:测量误差与抽样
误差。
由于使用的仪器、测量方法、读数方法等问题造
成的测得值与真值之间的误差,称为测量误差。
由于随机抽样造成的样本统计量与总体参数间的
差别,称为抽样误差。
抽样原理及其方法
原则:
随机化,在进行抽样中,总体中每一个体是否被
抽取,并不由研究者主观决定,而是每一个体按
照概率原理被抽取的可能性是相等
抽样方法
简单随机抽样:抽签法,随机数字法
等距抽样:排序,隔若干个抽取一个
分层随机抽样:将总体分层,每层中随机抽样
两阶段随机抽样:分为两阶段
缺失:指数据不全或缺项未填;例如一份资料中
未回答的问题占10%以上,或者缺少关键性资料。
可疑:指难以辨认或怀疑其真实性的数据;例如,
有的被试填答的问卷全部选同一个选项(如全选A
或全选B);有的被试填答的结果可以看到是一种
规则的排列方式(如A B C D E D B C A B C D
E……)。
失误:指存在明确差错的数据或答案。
对于个别极端数据是否该剔除,应遵循三个标准
差法则。
1.2 统计表
统计表是用来表达研究
变量与被说明的事物之间数
量关系的表格。它可以将大
量数据的分类结果清晰、概
括、一目了然地表达出来,
便于分析、比较和计算。
统计表的构成
表号
标题
表2-1
统计表的格式
横标目的总标目
纵标目
横标目
数字
注:
表注
顶线
标目
表线
底线
例: 表2-2
北京市四街道智力落后患者分布
街道
检查人数
病人数 患病率(‰)
甲
51841
159
3.1
乙
76030
263
3.5
丙
49508
190
3.8
丁
51788
170
3.3
总计
229168
782
3.4
资料来源:见《心理学报》1979年第1期103页,选部分引用
统计表的种类
简单表:只按研究现象(或变量)
的名称、地点、时序等列出数据的
统计表。
分组表:只按一个标志分组的统计
表称为分组表。
复合表:按两个或两个以上标志分
组的统计表称为复合表。
简单表
表2-3 各校学生数一览表
学校
A校
B校
C校
D校
人数
985
762
893
1051
分组表
表2-4 上海市区男幼儿20米跑步用时
年龄组
平均用时
(秒)
3岁~
4岁~
5岁~
6岁~
7.71
7.16
6.04
5.53
资料来源:引自《华东师范大学学报》,1985年第2期第30页
复合表
某年级操行评定结果
表2-5
班别
甲
乙
丙
丁
合计
男
女
男
女
男
女
男
女
一班
6
5
8
8
6
4
2
1
40
二班
5
5
9
10
3
3
1
1
37
三班
7
6
9
8
4
3
0
1
38
合计
18
16
26
26
13
10
3
3
115
例: 表2-6
学习成绩
中学生心理烦恼调查被试分布
好
中
差
未填
女生 男生 女生 男生 女生 男生 女生 男生
合计
初一
18
19
64
54
3
11
2
3
174
初二
12
12
38
40
8
5
0
1
116
初三
10
10
26
31
12
7
10
13
119
高一
4
9
18
15
4
2
3
2
57
高二
17
3
43
24
5
9
7
4
112
高三
1
1
7
3
2
1
0
2
17
合计
62
54
196
167
34
35
22
25
595
1.3、统计图
统计图是整理和呈现数据的另一种
方法,它把研究变量与被说明事物
之间的数量关系用图形表现,直观、
形象地表达出事物的全貌及其数据
的分布特征,使人一目了然,便于
理解和记忆,印象深刻。
统计图的构成
统计图一般由图号、标题、标目、图形、图
注等几部分构成。
统计图中的标目由基线和尺度线构成。对于
有纵、横轴的统计图,一般以基线表示被观
察的现象,而尺度线则表示其数量。
统计图的分类
条形图:用直条的长短来表示统计项目数
值大小的图形,主要是用来比较性质相似
的间断型资料。
圆形图:是用于表示间断型资料比例的图
形。圆形的面积表示一组数据的整体,圆
中扇形的面积表示各组成部分所占的比例。
各部分的比例一般用百分比表示。
单式条形图
60
50
图形
40
人
30
数
20
10
尺度线
0
甲
乙
丙
丁
等级
图2-1
某年级操行评定结果条形图
基线
复式条形图
35
人
数
30
男
25
女
20
15
10
5
0
甲
乙
丙
丁
等级
图2-2 某年级操行评定结果条形图
4.5
初中
高中
大专
本科
4
3.5
3
2.5
2
1.5
1
0.5
0
世卫组织对来本地旅游的警告
例: 图2-3
众的影响
卫生部、本市的新闻发布会
所在单位和住宅区有无患者
三项影响较大的SARS信息对不同文化程度民
圆形图
乙
47%
丙
19%
尺度线
甲
30%
丁
4%
基线
图2-4 某年级操行评定结果圆形图
绘制圆形图的步骤
求出各组成部分所占的百分比
某一成分数量
总数量
求出各部分的中心角度
某一成分数量
360
总数量
以顺时针方向画出扇形
标出不同颜色及百分比
乙
47%
丙
19%
甲
30%
丁
4%
线形图
线形图用来表示连续型资料。它能
表示两个变量之间的函数关系;一
种事物随另一种事物变化的情况;
某种事物随时间推移的发展趋势等。
基于线形图,既可对有关统计变量
进行数量比较,又可分析发展的趋
势。
例如:对有意义的词汇,小学一年级至初中三年级学
生视觉、听觉记忆再现率的情况。
70
视觉记忆
60
听觉记忆
50
40
百
分
比
30
20
10
0
一
二
三
四
五
年
图2-5
六
初一
初二
初三
级
有意义的材料再现率比较线形图
1.4 集中量数
集中趋势:数据分布中大量数据向某方向集
中的程度
算数平均数
中数
众数
加权平均数
几何平均数
调和平均数
差异量数
离中趋势:数据分布中彼此分散的程度,差异量越大,
表明数据越分散、不集中;差异量越小,表明数据越集
中,变动范围越小。
全距
百分位数
四分位数
平均差
方差
标准差
二、平均差
平均差(average deviation 或者
mean deviation)是指一组数据中,
每一个数据与该组数据的平均数离差
的绝对值的算术平均数,通常用AD或
MD表示。
三、方差和标准差
方差(又称为变异数、均方)。是表示一组数
据离散程度的统计指标。一般样本的方差用
2
S
表示,总体的方差用 表示。
2
标准差(standard
deviation)是方差的算
术平方根。一般样本的标准差用 S 表示,总
体的标准差用 表示。
标准差和方差是描述数据离散程度的最常用的
差异量。
52名学生数学成绩方差和标准差计算表
成 表5-1
组中值
F*Xc
F*XC2
计 算
f
频数
Xc
绩
95
97.5
195
19012.5
2
2
2
-
fX
fX
c
c
S2
90
n
n
92.5
185
17112.5
2
2
-
280525 3775
52
85
52
87.5
262.5 22968.75
3
-
124 .5
80
82.5
412.5 34031.25
5
-
S 124.5
75
11.16
77.5
620
48050
8
-
70
72.5
11 797.5 57818.75
-
5.方差和标准差的意义
方差与标准差是表示一组数据离散程度的最好
指标,是统计分析中最常用的差异量。
标准差具备一个良好的差异量应具备的条件,
如:反应灵敏,有公式严密确定,简明易懂,
适合代数运算等等。
应用方差和标准差表示一组数据的离散程度,
须注意必须是同一类数据(即同一种测量工具
的测量结果),而且被比较样本的水平比较接
近。
1.4 标准分数
标准分数(standard score),又
称为基分数或Z分数(Z-score),
是以标准差为单位表示一个原始分数
在团体中所处位置的相对位置量数。
标准分数从分数对平均数的相对地
位、该组分数的离中趋势两个方面来
表示原始分数的地位。
Z分数可以表明原始分数在团体中的
相对位置,因此称为相对位置量数。
把原始分数转换成Z分数,就把单位
不等距的和缺乏明确参照点的分数转
换成以标准差为单位、以平均数为参
照点的分数。
2.标准分数的性质
Z分数无实际单位,是以平均数为参照点、
以标准差为单位的相对量。
一组原始分数得到的Z分数既有正值,也
有负值,所有原始分数的Z分数之和为零。
一组原始数据中,各个Z分数的标准差为
1。
标准正态分布的平均值为0,标准差为1。
3.标准分数的优点
可比性:标准分数以团体的平均数为基准,
以标准差为单位,因而具有可比性。
可加性:标准分数使不同的原始分数具有相
同的参照点,因而具有可加性。
明确性:标准分数较原始分数的意义更为明
确。
合理性:标准分数保证了不同性质的分数在
4、标准分数的应用
用于比较几个分属性质不同的观测值
在各自数据分布中相对位置的高低。
计算不同质的观测值的总和或平均值,
以表示在团体中的相对位置。
当研究需要合成不同质的数据时,如果已
知这些不同质的观测值的次数分布为正态,
这时可采用Z分数来计算不同质的观测值的
总和或平均值。
可以看到,在平均数上
下各三个标准差的范围
内,分布着全部数据的
99.73%,反言之,在三
个标准差之外的数据不
足0.27%,因此常把
“三个标准差”做为判
断可疑值取舍的依据。
2.区间估计
以样本统计量的抽样分布(概率分布)
为理论依据,按一定概率的要求,由
样本统计量的值估计总体参数值的所
在范围,称为总体参数的区间估计。
对总体参数值进行区间估计,就是要
在一定可靠度上求出总体参数的置信
区间的上下限。
⑴要知道与所要估计的参数相对应的样本
统计量的值,以及样本统计量的理论分布;
⑵要求出该种统计量的标准误;
⑶要确定在多大的可靠度上对总体参数作
估计,再通过某种理论概率分布表,找出
与某种可靠度相对应的该分布横轴上记分
的临界值,才能计算出总体参数的置信区
间的上下限。
置信区间
置信度,即置信概率,是作出某种推
断时正确的可能性(概率)。
置信区间,也称置信间距
(confidence interval,CI)是指在某
一置信度时,总体参数所在的区域距
离或区域长度。
显著性水平
对总体平均数进行区间估计时,置信概
率表示做出正确推断的可能性,但这种
估计还是会有犯错误的可能。显著性水
平(significance level)就是指估计总体
参数落在某一区间时,可能犯错误的概
率,用符号α表示。
P=1-α
例题1:某小学10岁全体女
童身高历年来标准差为6.25
厘米,现从该校随机抽27
名10岁女童,测得平均身
高为134.2厘米,试估计该
校10岁全体女童平均身高
解:10岁女童的身高假定是从正态
总体中抽出的随机样本,并已知总
体标准差为σ=6.25。无论样本容量
大小,一切样本平均数的标准分数
呈正态分布。于是可用正态分布来
估计该校10岁女童身高总体平均数
其标准误为
6.25
X
1.2028
n
27
当P=0.95时,Z=±1.96
因此,该校10岁女童平均身高95%的置信区
间为:
X Z 0.05
2
n
X Z 0.05
2
n
6.25
6.25
134.2 1.96
134.2 1.96
27
27
131.842 136.558
当P=0.99时,Z=±2.58
因此,该校10岁女童平均身高99%的置信区
间为:
X Z 0.01
2
n
X Z 0.01
2
n
6.25
6.25
134.2 2.58
134.2 2.58
27
27
131.097 137.303
例题2:从某小学三年级
随机抽取12名学生,其阅读能
力得分为28,32,36,22,
34,30,33,25,31,33,
29,26。试估计该校三年级学
生阅读能力总体平均数95%和
99%的置信区间。
解:12名学生阅读能力的得分假定是从
正态总体中抽出的随机样本,而总体标
准差σ未知,样本的容量较小(n
=12<30),在此条件下,样本平均数与
总体平均数离差统计量服从呈t分布。
于是需用t分布来估计该校三年级学生
阅读能力总体平均数95%和99%的置信
区间。
由原始数据计算出样本统计量为
S 3.926
X 29.917
当P=0.95时,
t11
2.201
0.05
2
因此,该校三年级学生阅读能力得分95%的置信
区间为:
X t11
0.05
2
S
X t11
0.05
n 1
2
S
n 1
3.926
3.926
29.917 2.201
29.917 2.201
12 1
12 1
27.312 32.522
S 3.926
X 29.917
当P=0.99时,
t11
3.106
0.01
2
因此,该校三年级学生阅读能力得分99%的置信区
间为:
X t11
0.01
2
S
X t11
0.01
n 1
2
S
n 1
3.926
3.926
29.917 3.106
29.917 3.106
12 1
12 1
26.240 33.594
1.5 平均数差异检验--
例1:某小学历届毕业生汉语拼音测
验平均分数为66分,标准差为11.7。
现以同样的试题测验应届毕业生(假
定应届与历届毕业生条件基本相同),
并从中随机抽18份试卷,算得平均分
为69分,问该校应届与历届毕业生汉
语拼音测验成绩是否一样?
总体平均数的显著性检验
总体平均数的显著性检验是指对样本
平均数与总体平均数之间的差异进行
的显著性检验。若检验的结果差异显
著,可以认为该样本不是来自当前的
总体,而来自另一个、与当前总体存
在显著差异的总体。即,该样本与当
前的总体不一致。
1.总体平均数显著性检验的原理
检验的思路是:假定研究样本是从平均
数为μ的总体随机抽取的,而目标总体
的平均数为μ0,检验μ与μ0之间是否存
在差异。如果差异显著,可以认为研
究样本的总体不是平均数为μ0的总体,
也就是说,研究样本不是来自平均数
为μ0的总体。
2.总体平均数显著性检验的步骤
一个完整的假设检验过程,一般经过
四个主要步骤:
⑴.提出假设
⑵.选择检验统计量并计算统计量的值
⑶.确定显著性水平
⑷.做出统计结论
检验步骤
⑴.
提出假设
H0:μ=μ0, H1:μ≠μ0
或 H0:μ=66,
H1:μ≠66
⑵.选择检验统计量并计算统计量的值
学生汉语拼音成绩可以假定是从正态总
体中抽出的随机样本。总体标准差已知,
样本统计量的抽样分布服从正态,以Z
为检验统计量
计算
Z
X 0
n
69 66
11.7
18
1.09
⑶.确定显著性水平和检验形式
显著性水平为α=0.05,双侧检验
⑷.做出统计结论
查表得Zα=1.96,而计算得到的Z=1.09
|Z|<Zα,则概率P>0.05
差异不显著,应在0.05显著性水平接受
零假设
结论:该校应届毕业生与历届毕业生汉
语拼音测验成绩一致,没有显著差异。
表10-1
双侧Z检验统计决断规则
∣Z∣与临界值比较
P值
显著性
检验结果
∣Z∣<1.96
P>0.05
不显著
保留H0,拒绝
H1
显著*
在0.05显著性
水平拒绝H0,
接受H1
极其显著*
在0.01显著性
水平拒绝H0,
接受H1
1.96≤∣Z∣<2.58
∣Z∣≥2.58
0.05≥P>
0.01
P≤0.01
*
表10-2
单侧Z检验统计决断规则
∣Z∣与临界值比较
P值
显著性
检验结果
∣Z∣<1.65
P>0.05
不显著
保留H0,拒绝
H1
显著*
在0.05显著性
水平拒绝H0,
接受H1
极其显著*
在0.01显著性
水平拒绝H0,
接受H1
1.65≤∣Z∣<2.33
∣Z∣≥2.33
0.05≥P>
0.01
P≤0.01
*
:从高二年级随机抽取两个小组,在化学
教学中实验组采用启发探究法,对照组采
用传统讲授法教学。后期统一测试,结果
为:实验组10人平均成绩为59.9,标准差
为6.640;对照组9人平均成绩为50.3,标
准差为7.272。问两种教学方法是否有显
著性差异?(根据已有的经验,启发探究
法优于传统讲授法)
解题过程:
1.提出假设
H0:μ1≤μ2
H1: μ1>μ2
2.选择检验统计量并计算
两组化学测验分数假定是从两个正态总
体中随机抽出的独立样本, 两总体标准差未
知,经方差齐性检验两总体方差齐性,两样
本容量小于30。因此平均数之差的抽样分布
服从t分布,应以t为检验统计量,选用公式
(11.7)计算。
计 算
t
X1 X 2
n1 S12 n2 S 22 n1 n2
n1 n2 2
n1 n2
59.9 50.3
10 6.6402 9 7.2722 10 9
10 9 2
10 9
2.835
1.6方差分析
方差分析又称为变异分析(analysis
of variance,ANOVA),是由斯内德
克(George Waddel Snedecor)提出
的一种方法。
方差分析通过对多组平均数的差异进
行显著性检验,分析实验数据中不同来
源的变异对总变异影响的大小。
1.方差分析的逻辑
方差分析作为一种统计方法,是把
实验数据的总变异分解为若干个不
同来源的分量。因而它所依据的基
本原理是变异的可加性。
在统计分析中,一般用方差来描述
变量的变异性。
方差分析是将总平方和分解为
几个不同来源的平方和(实验数据
与平均数离差的平方和)。然后分
别计算不同来源的方差,并计算方
差的比值即F值。根据F值是否显
著对几组数据的差异是否显著作出
判断。
4.方差分析中的几个概念
实验中的自变量称为因素。只有一个自
变量的实验称为单因素实验,两个或两个
以上称为多因素实验。
某一因素的不同情况称为因素的“水
平”。
水平包括量差或质别两类情况,按各个
“水平”条件进行的重复实验称为各种实
验处理。
Fmax检验统计决断规则
Fmax与临界值比
较
Fmax<Fmax(df)0.05
P值
P>0.05
显著性
检验结果
不显著
保留H0,拒绝
H1
Fmax(df)0.05 ≤Fmax<
Fmax(df)0.01
0.05≥P>
0.01
显著*
Fmax≥ Fmax(df)0.01
P≤0.01
极其显著*
*
在0.05显著性
水平拒绝H0,
接受H1
在0.01显著性
水平拒绝H0,
接受H1
2.方差分析的基本过程
⑴.提出假设
⑵.选择检验统计量并计算
①.分解平方和SS
②.分解自由度df
③.计算方差MS
④.计算F值
⑶.作出统计结论并列方差分析表
【例】 某水产研究所为了比较四种不同配合
饲料对鱼的饲喂效果,选取了条件基本相同的鱼
20尾,随机分成四组,投喂不同饲料,经一个
月试验以后,各组鱼的增重结果列于下表。
上一张 下一张 主 页
退 出
表6-2 饲喂不同饲料的鱼的增重
(单位:10g)
上一张 下一张 主 页
退 出
这是一个单因素试验,处理数k=4,重复数
n=5。各项平方和及自由度计算如下:
矫正数
C
2
x..
/ nk 550.8 /(4 5) 15169.03
2
总平方和
SS T x C
2
ij
31.9 27.9 28.5 C
2
2
2
15368 .7 15169 .03 199 .67
上一张 下一张 主 页
退 出
处理间平方和
1
2
SSt xi . C
n
1
2
2
2
2
(155. 9 131.4 123.7 139. 8 ) C
5
15283. 3 15169. 03 114.27
处理内平方和
SS e SS T SS t
199.67 114.27 85.40
处理间自由度
dfT nk 1 5 4 1 19
df t k 1 4 1 3
处理内自由度
df e dfT df t 19 3 16
总自由度
用SSt、SSe分别除以dft和dfe便得到处理间
均方MSt及处理内均方MSe。
MSt SSt / dft 114 .27 / 3 38.09
MSe SSe / dfe 85.40 / 16 5.34
因为方差分析中不涉及总均方的数值,所以
不必计算之。
上一张 下一张 主 页
退 出
对于【例】:
因为
F=MSt/MSe=38.09/5.34=7.13**;
根据 df1 = dft = 3 , df2 = dfe = 16 查附表4,
得F0.01(3,16);
因为
F>F0.01(3,16) =5.29, P<0.01
表明四种不同饲料对鱼的增重效果差异极显著,用不
同的饲料饲喂,增重是不同的。
在方差分析中, 通常将变异来源、平方和、
自由度、均方和F值归纳成一张方差分析表,见
表6-3。
表6-3
表6-2资料方差分析表