课题研究数据整理与分析

Transcript 课题研究数据整理与分析

课题研究数据整理与分析
---统计理论部分
周海波湖南师范大学心理系
课程目标、内容
 目标：掌握课题研究的一些基本思路、选取
方法、统计分析方法
 内容
统计概论
Excel与课题研究
SPSS与课题研究
引言－－课题研究

案例１
双手交叉
 与性别的关系
 与文理科的关系
 与性格气质类型的关系
 如果描述上述结果？

课题研究一般过程
 选择课题
 实施方案
 实验研究
 整理结果
一统计概论
 统计学：是一门关于用科学方法收集、整理、
汇总、描述和分析数据咨询，并在此基础上
进行推断和决策的科学。
 统计
统计资料
统计工作
统计学
 教育统计学
心理与教育统计学的研究内容
描述统计
心理与教育统计学
推论统计
实验设计
1.1 描述统计

定义:
 主要研究如何整理心理与教育科学实验或调查得来的大
量数据,描述一组数据的全貌,表达一件事物的性质.

内容:
 数据如何分组:使用统计图表描述
 怎样计算一组数据的特征值,从而描述数据全貌
 表示一一事物两种或两种以上属性间相互关系的描述及
各种相关系数的计算及应用条件,描述数据分布特征的峰
度偏度系数的计算方法
推论统计

定义:
 研究如何通过局部数据所提供的信息,推论总体的情形，
目的在于根据已知的情况，在一定概率的意义上估计、
推测未知的情况。

内容
 假设检验,大样本(Z检验);小样本(t检验);计算资料(百分数
检验,X2 检验),变异数分析(F检验),回归分析方法
 总体参数特征值估计方法
 非参数的统计方法
实验设计

目的:
 研究如何更加合理、有效地获得观察资料，如何更正确、
更经济、更有效的达到目的实验目的，以提示实验中各
种变量关系的实验计划。

内容：
 选择怎样的抽样方式；
 如何计算样本容量；
 确定怎样的实验对照形式；
 如何实现实验组和对照组的等组化；
 如何安排实验因素和如何控制无关因素；
 用什么统计方法处理及分析实验结果，
心理与教育统计学基础知识
1、数据类型
计数数据
分类数据
离散型数据
等级数据
测量数据
等距数据
比率数据
连续型数据
变量、随机变量、观测值

变量是可以取不同值的量。统计观察的指标都
是具有变异的指标。当我们用一个量表示这个
指标的观察结果时，这个指标是一个变量。

用来表示随机现象的变量，称为随机变量。一
般用大写的Ｘ或Ｙ表示随机变量。

随机变量所取得的值，称为观测值。一个随机
变量可以有许多个观测值。
总体、个体和样本

需要研究的同质对象的全体，称为总体。

每一个具体研究对象，称为一个个体。

从总体中抽出的用以推测总体的部分对象
的集合称为样本。

样本中包含的个体数，称为样本的容量n。
一般把容量n ≥30的样本称为大样本；
而n ＜30的样本称为小样本。
统计量和参数
统计指标统计量
参数
μ
平均数
X
标准差
S
σ
相关系数
r
ρ
回归系数
b
β
次数、比率、频率与概率
 次数/频数：某一事件在某一类别中出现的数目
 比率：两个数的比
 频率：某一事件发生的次数被总的事件数目除
 概率：某一事件在无限的观测中所能预料的相
对出现的次数，即某一事物或某种情况在某一
总体中出现的比率。
统计误差

误差是测得值与真值之间的差值。

测得值＝真值＋误差

统计误差归纳起来可分为两类：测量误差与抽样
误差。

由于使用的仪器、测量方法、读数方法等问题造
成的测得值与真值之间的误差，称为测量误差。

由于随机抽样造成的样本统计量与总体参数间的
差别，称为抽样误差。
抽样原理及其方法
 原则：
随机化，在进行抽样中，总体中每一个体是否被
抽取，并不由研究者主观决定，而是每一个体按
照概率原理被抽取的可能性是相等
 抽样方法
简单随机抽样：抽签法，随机数字法
等距抽样：排序，隔若干个抽取一个
分层随机抽样：将总体分层，每层中随机抽样
两阶段随机抽样：分为两阶段

缺失：指数据不全或缺项未填；例如一份资料中
未回答的问题占10％以上，或者缺少关键性资料。

可疑：指难以辨认或怀疑其真实性的数据；例如，
有的被试填答的问卷全部选同一个选项（如全选A
或全选B）；有的被试填答的结果可以看到是一种
规则的排列方式（如A B C D E D B C A B C D
E……）。

失误：指存在明确差错的数据或答案。

对于个别极端数据是否该剔除，应遵循三个标准
差法则。
1.2 统计表

统计表是用来表达研究
变量与被说明的事物之间数
量关系的表格。它可以将大
量数据的分类结果清晰、概
括、一目了然地表达出来，
便于分析、比较和计算。
统计表的构成
表号
标题
表2－1
统计表的格式
横标目的总标目
纵标目
横标目
数字
注：
表注
顶线
标目
表线
底线
例：表2-2
北京市四街道智力落后患者分布
街道
检查人数
病人数患病率（‰）
甲
51841
159
3.1
乙
76030
263
3.5
丙
49508
190
3.8
丁
51788
170
3.3
总计
229168
782
3.4
资料来源：见《心理学报》1979年第1期103页，选部分引用
统计表的种类
 简单表：只按研究现象（或变量）
的名称、地点、时序等列出数据的
统计表。
 分组表：只按一个标志分组的统计
表称为分组表。
 复合表：按两个或两个以上标志分
组的统计表称为复合表。
简单表
表2-3 各校学生数一览表
学校
Ａ校
Ｂ校
Ｃ校
Ｄ校
人数
985
762
893
1051
分组表

表2-4 上海市区男幼儿20米跑步用时
年龄组
平均用时
(秒)
3岁～
4岁～
5岁～
6岁～
7.71
7.16
6.04
5.53
资料来源：引自《华东师范大学学报》，1985年第2期第30页

复合表
某年级操行评定结果
表2-5
班别
甲
乙
丙
丁
合计
男
女
男
女
男
女
男
女
一班
6
5
8
8
6
4
2
1
40
二班
5
5
9
10
3
3
1
1
37
三班
7
6
9
8
4
3
0
1
38
合计
18
16
26
26
13
10
3
3
115
例: 表2－6
学习成绩
中学生心理烦恼调查被试分布
好
中
差
未填
女生男生女生男生女生男生女生男生
合计
初一
18
19
64
54
3
11
2
3
174
初二
12
12
38
40
8
5
0
1
116
初三
10
10
26
31
12
7
10
13
119
高一
4
9
18
15
4
2
3
2
57
高二
17
3
43
24
5
9
7
4
112
高三
1
1
7
3
2
1
0
2
17
合计
62
54
196
167
34
35
22
25
595
1.3、统计图
 统计图是整理和呈现数据的另一种
方法，它把研究变量与被说明事物
之间的数量关系用图形表现，直观、
形象地表达出事物的全貌及其数据
的分布特征，使人一目了然，便于
理解和记忆，印象深刻。
统计图的构成

统计图一般由图号、标题、标目、图形、图
注等几部分构成。

统计图中的标目由基线和尺度线构成。对于
有纵、横轴的统计图，一般以基线表示被观
察的现象，而尺度线则表示其数量。
统计图的分类
 条形图：用直条的长短来表示统计项目数
值大小的图形，主要是用来比较性质相似
的间断型资料。
 圆形图：是用于表示间断型资料比例的图
形。圆形的面积表示一组数据的整体，圆
中扇形的面积表示各组成部分所占的比例。
各部分的比例一般用百分比表示。
单式条形图
60
50
图形
40
人
30
数
20
10
尺度线
0
甲
乙
丙
丁
等级
图2－1
某年级操行评定结果条形图
基线
复式条形图
35
人
数
30
男
25
女
20
15
10
5
0
甲
乙
丙
丁
等级
图2－2 某年级操行评定结果条形图
4.5
初中
高中
大专
本科
4
3.5
3
2.5
2
1.5
1
0.5
0
世卫组织对来本地旅游的警告
例：图2-3
众的影响
卫生部、本市的新闻发布会
所在单位和住宅区有无患者
三项影响较大的SARS信息对不同文化程度民
圆形图
乙
47%
丙
19%
尺度线
甲
30%
丁
4%
基线
图2－4 某年级操行评定结果圆形图
绘制圆形图的步骤

求出各组成部分所占的百分比
某一成分数量
总数量

求出各部分的中心角度
某一成分数量
 360
总数量

以顺时针方向画出扇形

标出不同颜色及百分比
乙
47%
丙
19%
甲
30%
丁
4%
线形图
 线形图用来表示连续型资料。它能
表示两个变量之间的函数关系；一
种事物随另一种事物变化的情况；
某种事物随时间推移的发展趋势等。
 基于线形图，既可对有关统计变量
进行数量比较，又可分析发展的趋
势。
例如：对有意义的词汇，小学一年级至初中三年级学
生视觉、听觉记忆再现率的情况。
70
视觉记忆
60
听觉记忆
50
40
百
分
比
30
20
10
0
一
二
三
四
五
年
图2－5
六
初一
初二
初三
级
有意义的材料再现率比较线形图
1.4 集中量数
 集中趋势：数据分布中大量数据向某方向集
中的程度
 算数平均数
 中数
 众数
 加权平均数
 几何平均数
 调和平均数
差异量数

离中趋势：数据分布中彼此分散的程度，差异量越大，

表明数据越分散、不集中；差异量越小，表明数据越集
中，变动范围越小。
全距
百分位数
 四分位数
 平均差
 方差
 标准差

二、平均差
平均差（average deviation 或者
mean deviation）是指一组数据中，
每一个数据与该组数据的平均数离差
的绝对值的算术平均数，通常用AD或
MD表示。
三、方差和标准差
方差（又称为变异数、均方）。是表示一组数
据离散程度的统计指标。一般样本的方差用
2
S
表示，总体的方差用表示。
2

标准差（standard
deviation）是方差的算
术平方根。一般样本的标准差用 S 表示，总
体的标准差用表示。
标准差和方差是描述数据离散程度的最常用的

差异量。
52名学生数学成绩方差和标准差计算表
成表5-1
组中值
F*Xc
F*XC2
计算
f
频数
Xc
绩
95
97.5
195
19012.5
2
2
2
－

fX

fX

c
c 
S2 


90
n
 n 
92.5
185
17112.5
2
2
－
280525  3775



52
85
 52 
87.5
262.5 22968.75
3
－
 124 .5
80
82.5
412.5 34031.25
5
－
S  124.5
75
 11.16
77.5
620
48050
8
－
70
72.5
11 797.5 57818.75
－
5．方差和标准差的意义

方差与标准差是表示一组数据离散程度的最好
指标，是统计分析中最常用的差异量。

标准差具备一个良好的差异量应具备的条件，
如：反应灵敏，有公式严密确定，简明易懂，
适合代数运算等等。

应用方差和标准差表示一组数据的离散程度，
须注意必须是同一类数据（即同一种测量工具
的测量结果），而且被比较样本的水平比较接
近。
1.4 标准分数

标准分数（standard score），又
称为基分数或Ｚ分数（Z－score），
是以标准差为单位表示一个原始分数
在团体中所处位置的相对位置量数。

标准分数从分数对平均数的相对地
位、该组分数的离中趋势两个方面来
表示原始分数的地位。
 Ｚ分数可以表明原始分数在团体中的
相对位置，因此称为相对位置量数。
 把原始分数转换成Ｚ分数，就把单位
不等距的和缺乏明确参照点的分数转
换成以标准差为单位、以平均数为参
照点的分数。
2.标准分数的性质
Ｚ分数无实际单位，是以平均数为参照点、
以标准差为单位的相对量。
 一组原始分数得到的Ｚ分数既有正值，也
有负值，所有原始分数的Ｚ分数之和为零。
 一组原始数据中，各个Ｚ分数的标准差为
１。
 标准正态分布的平均值为０，标准差为１。

3.标准分数的优点
 可比性：标准分数以团体的平均数为基准，
以标准差为单位，因而具有可比性。
 可加性：标准分数使不同的原始分数具有相
同的参照点，因而具有可加性。
 明确性：标准分数较原始分数的意义更为明
确。
 合理性：标准分数保证了不同性质的分数在
4、标准分数的应用

用于比较几个分属性质不同的观测值
在各自数据分布中相对位置的高低。

计算不同质的观测值的总和或平均值，
以表示在团体中的相对位置。
当研究需要合成不同质的数据时，如果已
知这些不同质的观测值的次数分布为正态，
这时可采用Ｚ分数来计算不同质的观测值的
总和或平均值。
 可以看到，在平均数上
下各三个标准差的范围
内，分布着全部数据的
99.73%，反言之，在三
个标准差之外的数据不
足0.27%，因此常把
“三个标准差”做为判
断可疑值取舍的依据。
2.区间估计
 以样本统计量的抽样分布（概率分布）
为理论依据，按一定概率的要求，由
样本统计量的值估计总体参数值的所
在范围，称为总体参数的区间估计。
 对总体参数值进行区间估计，就是要
在一定可靠度上求出总体参数的置信
区间的上下限。
 ⑴要知道与所要估计的参数相对应的样本
统计量的值，以及样本统计量的理论分布；
 ⑵要求出该种统计量的标准误；
 ⑶要确定在多大的可靠度上对总体参数作
估计，再通过某种理论概率分布表，找出
与某种可靠度相对应的该分布横轴上记分
的临界值，才能计算出总体参数的置信区
间的上下限。
置信区间
 置信度，即置信概率，是作出某种推
断时正确的可能性（概率）。
 置信区间，也称置信间距
（confidence interval,CI）是指在某
一置信度时，总体参数所在的区域距
离或区域长度。
显著性水平
 对总体平均数进行区间估计时，置信概
率表示做出正确推断的可能性，但这种
估计还是会有犯错误的可能。显著性水
平(significance level)就是指估计总体
参数落在某一区间时，可能犯错误的概
率，用符号α表示。
P＝１-α
 例题1：某小学10岁全体女
童身高历年来标准差为6.25
厘米，现从该校随机抽27
名10岁女童，测得平均身
高为134.2厘米，试估计该
校10岁全体女童平均身高
 解：10岁女童的身高假定是从正态
总体中抽出的随机样本，并已知总
体标准差为σ=6.25。无论样本容量
大小，一切样本平均数的标准分数
呈正态分布。于是可用正态分布来
估计该校10岁女童身高总体平均数
其标准误为

6.25
X 

 1.2028
n
27
当Ｐ＝0.95时，Ｚ＝±1.96
因此，该校10岁女童平均身高95％的置信区
间为：
X  Z 0.05 
2

n
   X  Z 0.05 
2

n
6.25
6.25
134.2  1.96
   134.2  1.96
27
27
131.842    136.558
当Ｐ＝0.99时，Ｚ＝±2.58
因此，该校10岁女童平均身高99％的置信区
间为：
X  Z 0.01 
2

n
   X  Z 0.01 
2

n
6.25
6.25
134.2  2.58
   134.2  2.58
27
27
131.097    137.303
例题2：从某小学三年级
随机抽取12名学生，其阅读能
力得分为28，32，36，22，
34，30，33，25，31，33，
29，26。试估计该校三年级学
生阅读能力总体平均数95％和
99％的置信区间。

 解：12名学生阅读能力的得分假定是从
正态总体中抽出的随机样本，而总体标
准差σ未知，样本的容量较小（ｎ
=12<30），在此条件下，样本平均数与
总体平均数离差统计量服从呈t分布。
 于是需用t分布来估计该校三年级学生
阅读能力总体平均数95％和99％的置信
区间。
由原始数据计算出样本统计量为
S  3.926
X  29.917
当Ｐ＝0.95时，
t11
 2.201
0.05
2
因此，该校三年级学生阅读能力得分95％的置信
区间为：
X  t11

0.05
2
S
   X  t11 
0.05
n 1
2
S
n 1
3.926
3.926
29.917  2.201
   29.917  2.201
12  1
12  1
27.312    32.522
S  3.926
X  29.917
当Ｐ＝0.99时，
t11
 3.106
0.01
2
因此，该校三年级学生阅读能力得分99％的置信区
间为：
X  t11

0.01
2
S
   X  t11 
0.01
n 1
2
S
n 1
3.926
3.926
29.917 3.106
   29.917 3.106
12  1
12  1
26.240    33.594
1.5 平均数差异检验－－
 例１：某小学历届毕业生汉语拼音测
验平均分数为66分，标准差为11.7。
现以同样的试题测验应届毕业生（假
定应届与历届毕业生条件基本相同），
并从中随机抽18份试卷，算得平均分
为69分，问该校应届与历届毕业生汉
语拼音测验成绩是否一样？
总体平均数的显著性检验
 总体平均数的显著性检验是指对样本
平均数与总体平均数之间的差异进行
的显著性检验。若检验的结果差异显
著，可以认为该样本不是来自当前的
总体，而来自另一个、与当前总体存
在显著差异的总体。即，该样本与当
前的总体不一致。
1．总体平均数显著性检验的原理
检验的思路是：假定研究样本是从平均
数为μ的总体随机抽取的，而目标总体
的平均数为μ0，检验μ与μ0之间是否存
在差异。如果差异显著，可以认为研
究样本的总体不是平均数为μ0的总体，
也就是说，研究样本不是来自平均数
为μ0的总体。
2．总体平均数显著性检验的步骤
 一个完整的假设检验过程，一般经过
四个主要步骤：
⑴．提出假设
⑵．选择检验统计量并计算统计量的值
⑶．确定显著性水平
⑷．做出统计结论
检验步骤
 ⑴.
提出假设
H0：μ＝μ0， H1：μ≠μ0
或 H0：μ＝66，
H1：μ≠66
 ⑵.选择检验统计量并计算统计量的值
学生汉语拼音成绩可以假定是从正态总
体中抽出的随机样本。总体标准差已知，
样本统计量的抽样分布服从正态，以Z
为检验统计量
 计算
Z
X  0

n
69  66

11.7
18
 1.09
 ⑶.确定显著性水平和检验形式
显著性水平为α=0.05，双侧检验
 ⑷.做出统计结论
 查表得Zα=1.96，而计算得到的Z=1.09
 |Z|＜Ｚα，则概率P＞0.05
 差异不显著,应在0.05显著性水平接受
零假设
 结论:该校应届毕业生与历届毕业生汉
语拼音测验成绩一致，没有显著差异。
表10－1
双侧Z检验统计决断规则
∣Z∣与临界值比较
P值
显著性
检验结果
∣Z∣＜1.96
P＞0.05
不显著
保留H0，拒绝
H1
显著＊
在0.05显著性
水平拒绝H0，
接受H1
极其显著＊
在0.01显著性
水平拒绝H0，
接受H1
1.96≤∣Z∣＜2.58
∣Z∣≥2.58
0.05≥P＞
0.01
P≤0.01
＊
表10－2
单侧Z检验统计决断规则
∣Z∣与临界值比较
P值
显著性
检验结果
∣Z∣＜1.65
P＞0.05
不显著
保留H0，拒绝
H1
显著＊
在0.05显著性
水平拒绝H0，
接受H1
极其显著＊
在0.01显著性
水平拒绝H0，
接受H1
1.65≤∣Z∣＜2.33
∣Z∣≥2.33
0.05≥P＞
0.01
P≤0.01
＊
 ：从高二年级随机抽取两个小组，在化学
教学中实验组采用启发探究法，对照组采
用传统讲授法教学。后期统一测试，结果
为：实验组10人平均成绩为59.9,标准差
为6.640；对照组9人平均成绩为50.3，标
准差为7.272。问两种教学方法是否有显
著性差异？（根据已有的经验，启发探究
法优于传统讲授法）
解题过程：
1．提出假设
H0:μ1≤μ2
H1: μ1＞μ2
 2．选择检验统计量并计算
两组化学测验分数假定是从两个正态总
体中随机抽出的独立样本, 两总体标准差未
知，经方差齐性检验两总体方差齐性，两样
本容量小于30。因此平均数之差的抽样分布
服从t分布，应以t为检验统计量，选用公式
（11.7）计算。

计算
t

X1  X 2
n1  S12  n2  S 22 n1  n2

n1  n2  2
n1  n2
59.9  50.3
10 6.6402  9  7.2722 10  9

10  9  2
10 9
 2.835
1.6方差分析
方差分析又称为变异分析（analysis
of variance，ANOVA），是由斯内德
克（George Waddel Snedecor）提出
的一种方法。
方差分析通过对多组平均数的差异进
行显著性检验，分析实验数据中不同来
源的变异对总变异影响的大小。
1．方差分析的逻辑
 方差分析作为一种统计方法，是把
实验数据的总变异分解为若干个不
同来源的分量。因而它所依据的基
本原理是变异的可加性。
 在统计分析中，一般用方差来描述
变量的变异性。
方差分析是将总平方和分解为
几个不同来源的平方和（实验数据
与平均数离差的平方和）。然后分
别计算不同来源的方差，并计算方
差的比值即Ｆ值。根据Ｆ值是否显
著对几组数据的差异是否显著作出
判断。

4．方差分析中的几个概念
实验中的自变量称为因素。只有一个自
变量的实验称为单因素实验，两个或两个
以上称为多因素实验。
 某一因素的不同情况称为因素的“水
平”。
 水平包括量差或质别两类情况，按各个
“水平”条件进行的重复实验称为各种实
验处理。

Fmax检验统计决断规则
Fmax与临界值比
较
Fmax＜Fmax(df)0.05
P值
P＞0.05
显著性
检验结果
不显著
保留H0，拒绝
H1
Fmax(df)0.05 ≤Fmax＜
Fmax(df)0.01
0.05≥P＞
0.01
显著＊
Fmax≥ Fmax(df)0.01
P≤0.01
极其显著＊
＊
在0.05显著性
水平拒绝H0，
接受H1
在0.01显著性
水平拒绝H0，
接受H1
2．方差分析的基本过程
 ⑴．提出假设
 ⑵．选择检验统计量并计算
①．分解平方和SS
②．分解自由度df
③．计算方差MS
④．计算F值
 ⑶．作出统计结论并列方差分析表
【例】某水产研究所为了比较四种不同配合
饲料对鱼的饲喂效果，选取了条件基本相同的鱼
20尾，随机分成四组，投喂不同饲料，经一个
月试验以后，各组鱼的增重结果列于下表。
上一张下一张主页
退出
表6-2 饲喂不同饲料的鱼的增重
（单位：10g）
上一张下一张主页
退出
这是一个单因素试验，处理数k=4，重复数
n=5。各项平方和及自由度计算如下：
矫正数
C
2
x..
/ nk  550.8 /(4  5)  15169.03
2
总平方和
SS T    x  C
2
ij
 31.9  27.9    28.5  C
2
2
2
 15368 .7  15169 .03  199 .67
上一张下一张主页
退出
处理间平方和
1
2
SSt   xi .  C
n
1
2
2
2
2
 (155. 9  131.4  123.7  139. 8 )  C
5
 15283. 3  15169. 03  114.27
处理内平方和
SS e  SS T  SS t
 199.67  114.27  85.40
处理间自由度
dfT  nk  1  5  4  1  19
df t  k  1  4  1  3
处理内自由度
df e  dfT  df t  19  3  16
总自由度
用SSt、SSe分别除以dft和dfe便得到处理间
均方MSt及处理内均方MSe。
MSt  SSt / dft  114 .27 / 3  38.09
MSe  SSe / dfe  85.40 / 16  5.34
因为方差分析中不涉及总均方的数值，所以
不必计算之。
上一张下一张主页
退出
对于【例】：
因为
F=MSt/MSe=38.09/5.34=7.13**；
根据 df1 = dft = 3 ， df2 = dfe = 16 查附表4，
得F0.01(3，16)；
因为
F＞F0.01(3，16) =5.29, P＜0.01
表明四种不同饲料对鱼的增重效果差异极显著，用不
同的饲料饲喂，增重是不同的。
在方差分析中，通常将变异来源、平方和、
自由度、均方和F值归纳成一张方差分析表，见
表6-3。
表6-3
表6-2资料方差分析表

课题研究数据整理与分析

Transcript 课题研究数据整理与分析

Directory