课题研究数据整理与分析

Download Report

Transcript 课题研究数据整理与分析

课题研究数据整理与分析
---统计理论部分
周海波 湖南师范大学心理系
课程目标、内容
 目标:掌握课题研究的一些基本思路、选取
方法、统计分析方法
 内容
统计概论
Excel与课题研究
SPSS与课题研究
引言--课题研究

案例1
双手交叉
 与性别的关系
 与文理科的关系
 与性格气质类型的关系
 如果描述上述结果?

课题研究一般过程
 选择课题
 实施方案
 实验研究
 整理结果
一 统计概论
 统计学:是一门关于用科学方法收集、整理、
汇总、描述和分析数据咨询,并在此基础上
进行推断和决策的科学。
 统计
统计资料
统计工作
统计学
 教育统计学
心理与教育统计学的研究内容
描述统计
心理与教育统计学
推论统计
实验设计
1.1 描述统计

定义:
 主要研究如何整理心理与教育科学实验或调查得来的大
量数据,描述一组数据的全貌,表达一件事物的性质.

内容:
 数据如何分组:使用统计图表描述
 怎样计算一组数据的特征值,从而描述数据全貌
 表示一一事物两种或两种以上属性间相互关系的描述及
各种相关系数的计算及应用条件,描述数据分布特征的峰
度偏度系数的计算方法
推论统计

定义:
 研究如何通过局部数据所提供的信息,推论总体的情形,
目的在于根据已知的情况,在一定概率的意义上估计、
推测未知的情况。

内容
 假设检验,大样本(Z检验);小样本(t检验);计算资料(百分数
检验,X2 检验),变异数分析(F检验),回归分析方法
 总体参数特征值估计方法
 非参数的统计方法
实验设计

目的:
 研究如何更加合理、有效地获得观察资料,如何更正确、
更经济、更有效的达到目的实验目的,以提示实验中各
种变量关系的实验计划。

内容:
 选择怎样的抽样方式;
 如何计算样本容量;
 确定怎样的实验对照形式;
 如何实现实验组和对照组的等组化;
 如何安排实验因素和如何控制无关因素;
 用什么统计方法处理及分析实验结果,
心理与教育统计学基础知识
1、数据类型
计数数据
分类数据
离散型数据
等级数据
测量数据
等距数据
比率数据
连续型数据
变量、随机变量、观测值

变量是可以取不同值的量。统计观察的指标都
是具有变异的指标。当我们用一个量表示这个
指标的观察结果时,这个指标是一个变量。

用来表示随机现象的变量,称为随机变量。一
般用大写的X或Y表示随机变量。

随机变量所取得的值,称为观测值。一个随机
变量可以有许多个观测值。
总体、个体和样本

需要研究的同质对象的全体,称为总体。

每一个具体研究对象,称为一个个体。

从总体中抽出的用以推测总体的部分对象
的集合称为样本。

样本中包含的个体数,称为样本的容量n。
一般把容量n ≥30的样本称为大样本;
而n <30的样本称为小样本。
统计量和参数
统计指标 统计量
参数
μ
平均数
X
标准差
S
σ
相关系数
r
ρ
回归系数
b
β
次数、比率、频率与概率
 次数/频数:某一事件在某一类别中出现的数目
 比率:两个数的比
 频率:某一事件发生的次数被总的事件数目除
 概率:某一事件在无限的观测中所能预料的相
对出现的次数,即某一事物或某种情况在某一
总体中出现的比率。
统计误差

误差是测得值与真值之间的差值。

测得值=真值+误差

统计误差归纳起来可分为两类:测量误差与抽样
误差。

由于使用的仪器、测量方法、读数方法等问题造
成的测得值与真值之间的误差,称为测量误差。

由于随机抽样造成的样本统计量与总体参数间的
差别,称为抽样误差。
抽样原理及其方法
 原则:
随机化,在进行抽样中,总体中每一个体是否被
抽取,并不由研究者主观决定,而是每一个体按
照概率原理被抽取的可能性是相等
 抽样方法
简单随机抽样:抽签法,随机数字法
等距抽样:排序,隔若干个抽取一个
分层随机抽样:将总体分层,每层中随机抽样
两阶段随机抽样:分为两阶段

缺失:指数据不全或缺项未填;例如一份资料中
未回答的问题占10%以上,或者缺少关键性资料。

可疑:指难以辨认或怀疑其真实性的数据;例如,
有的被试填答的问卷全部选同一个选项(如全选A
或全选B);有的被试填答的结果可以看到是一种
规则的排列方式(如A B C D E D B C A B C D
E……)。

失误:指存在明确差错的数据或答案。

对于个别极端数据是否该剔除,应遵循三个标准
差法则。
1.2 统计表

统计表是用来表达研究
变量与被说明的事物之间数
量关系的表格。它可以将大
量数据的分类结果清晰、概
括、一目了然地表达出来,
便于分析、比较和计算。
统计表的构成
表号
标题
表2-1
统计表的格式
横标目的总标目
纵标目
横标目
数字
注:
表注
顶线
标目
表线
底线
例: 表2-2
北京市四街道智力落后患者分布
街道
检查人数
病人数 患病率(‰)
甲
51841
159
3.1
乙
76030
263
3.5
丙
49508
190
3.8
丁
51788
170
3.3
总计
229168
782
3.4
资料来源:见《心理学报》1979年第1期103页,选部分引用
统计表的种类
 简单表:只按研究现象(或变量)
的名称、地点、时序等列出数据的
统计表。
 分组表:只按一个标志分组的统计
表称为分组表。
 复合表:按两个或两个以上标志分
组的统计表称为复合表。
简单表
表2-3 各校学生数一览表
学校
A校
B校
C校
D校
人数
985
762
893
1051
分组表

表2-4 上海市区男幼儿20米跑步用时
年龄组
平均用时
(秒)
3岁~
4岁~
5岁~
6岁~
7.71
7.16
6.04
5.53
资料来源:引自《华东师范大学学报》,1985年第2期第30页

复合表
某年级操行评定结果
表2-5
班别
甲
乙
丙
丁
合计
男
女
男
女
男
女
男
女
一班
6
5
8
8
6
4
2
1
40
二班
5
5
9
10
3
3
1
1
37
三班
7
6
9
8
4
3
0
1
38
合计
18
16
26
26
13
10
3
3
115
例: 表2-6
学习成绩
中学生心理烦恼调查被试分布
好
中
差
未填
女生 男生 女生 男生 女生 男生 女生 男生
合计
初一
18
19
64
54
3
11
2
3
174
初二
12
12
38
40
8
5
0
1
116
初三
10
10
26
31
12
7
10
13
119
高一
4
9
18
15
4
2
3
2
57
高二
17
3
43
24
5
9
7
4
112
高三
1
1
7
3
2
1
0
2
17
合计
62
54
196
167
34
35
22
25
595
1.3、统计图
 统计图是整理和呈现数据的另一种
方法,它把研究变量与被说明事物
之间的数量关系用图形表现,直观、
形象地表达出事物的全貌及其数据
的分布特征,使人一目了然,便于
理解和记忆,印象深刻。
统计图的构成

统计图一般由图号、标题、标目、图形、图
注等几部分构成。

统计图中的标目由基线和尺度线构成。对于
有纵、横轴的统计图,一般以基线表示被观
察的现象,而尺度线则表示其数量。
统计图的分类
 条形图:用直条的长短来表示统计项目数
值大小的图形,主要是用来比较性质相似
的间断型资料。
 圆形图:是用于表示间断型资料比例的图
形。圆形的面积表示一组数据的整体,圆
中扇形的面积表示各组成部分所占的比例。
各部分的比例一般用百分比表示。
单式条形图
60
50
图形
40
人
30
数
20
10
尺度线
0
甲
乙
丙
丁
等级
图2-1
某年级操行评定结果条形图
基线
复式条形图
35
人
数
30
男
25
女
20
15
10
5
0
甲
乙
丙
丁
等级
图2-2 某年级操行评定结果条形图
4.5
初中
高中
大专
本科
4
3.5
3
2.5
2
1.5
1
0.5
0
世卫组织对来本地旅游的警告
例: 图2-3
众的影响
卫生部、本市的新闻发布会
所在单位和住宅区有无患者
三项影响较大的SARS信息对不同文化程度民
圆形图
乙
47%
丙
19%
尺度线
甲
30%
丁
4%
基线
图2-4 某年级操行评定结果圆形图
绘制圆形图的步骤

求出各组成部分所占的百分比
某一成分数量
总数量

求出各部分的中心角度
某一成分数量
 360
总数量

以顺时针方向画出扇形

标出不同颜色及百分比
乙
47%
丙
19%
甲
30%
丁
4%
线形图
 线形图用来表示连续型资料。它能
表示两个变量之间的函数关系;一
种事物随另一种事物变化的情况;
某种事物随时间推移的发展趋势等。
 基于线形图,既可对有关统计变量
进行数量比较,又可分析发展的趋
势。
例如:对有意义的词汇,小学一年级至初中三年级学
生视觉、听觉记忆再现率的情况。
70
视觉记忆
60
听觉记忆
50
40
百
分
比
30
20
10
0
一
二
三
四
五
年
图2-5
六
初一
初二
初三
级
有意义的材料再现率比较线形图
1.4 集中量数
 集中趋势:数据分布中大量数据向某方向集
中的程度
 算数平均数
 中数
 众数
 加权平均数
 几何平均数
 调和平均数
差异量数

离中趋势:数据分布中彼此分散的程度,差异量越大,

表明数据越分散、不集中;差异量越小,表明数据越集
中,变动范围越小。
全距
百分位数
 四分位数
 平均差
 方差
 标准差

二、平均差
平均差(average deviation 或者
mean deviation)是指一组数据中,
每一个数据与该组数据的平均数离差
的绝对值的算术平均数,通常用AD或
MD表示。
三、方差和标准差
方差(又称为变异数、均方)。是表示一组数
据离散程度的统计指标。一般样本的方差用
2
S
表示,总体的方差用 表示。
2

标准差(standard
deviation)是方差的算
术平方根。一般样本的标准差用 S 表示,总
体的标准差用 表示。
标准差和方差是描述数据离散程度的最常用的

差异量。
52名学生数学成绩方差和标准差计算表
成 表5-1
组中值
F*Xc
F*XC2
计 算
f
频数
Xc
绩
95
97.5
195
19012.5
2
2
2
-

fX

fX

c
c 
S2 


90
n
 n 
92.5
185
17112.5
2
2
-
280525  3775



52
85
 52 
87.5
262.5 22968.75
3
-
 124 .5
80
82.5
412.5 34031.25
5
-
S  124.5
75
 11.16
77.5
620
48050
8
-
70
72.5
11 797.5 57818.75
-
5.方差和标准差的意义

方差与标准差是表示一组数据离散程度的最好
指标,是统计分析中最常用的差异量。

标准差具备一个良好的差异量应具备的条件,
如:反应灵敏,有公式严密确定,简明易懂,
适合代数运算等等。

应用方差和标准差表示一组数据的离散程度,
须注意必须是同一类数据(即同一种测量工具
的测量结果),而且被比较样本的水平比较接
近。
1.4 标准分数

标准分数(standard score),又
称为基分数或Z分数(Z-score),
是以标准差为单位表示一个原始分数
在团体中所处位置的相对位置量数。

标准分数从分数对平均数的相对地
位、该组分数的离中趋势两个方面来
表示原始分数的地位。
 Z分数可以表明原始分数在团体中的
相对位置,因此称为相对位置量数。
 把原始分数转换成Z分数,就把单位
不等距的和缺乏明确参照点的分数转
换成以标准差为单位、以平均数为参
照点的分数。
2.标准分数的性质
Z分数无实际单位,是以平均数为参照点、
以标准差为单位的相对量。
 一组原始分数得到的Z分数既有正值,也
有负值,所有原始分数的Z分数之和为零。
 一组原始数据中,各个Z分数的标准差为
1。
 标准正态分布的平均值为0,标准差为1。

3.标准分数的优点
 可比性:标准分数以团体的平均数为基准,
以标准差为单位,因而具有可比性。
 可加性:标准分数使不同的原始分数具有相
同的参照点,因而具有可加性。
 明确性:标准分数较原始分数的意义更为明
确。
 合理性:标准分数保证了不同性质的分数在
4、标准分数的应用

用于比较几个分属性质不同的观测值
在各自数据分布中相对位置的高低。

计算不同质的观测值的总和或平均值,
以表示在团体中的相对位置。
当研究需要合成不同质的数据时,如果已
知这些不同质的观测值的次数分布为正态,
这时可采用Z分数来计算不同质的观测值的
总和或平均值。
 可以看到,在平均数上
下各三个标准差的范围
内,分布着全部数据的
99.73%,反言之,在三
个标准差之外的数据不
足0.27%,因此常把
“三个标准差”做为判
断可疑值取舍的依据。
2.区间估计
 以样本统计量的抽样分布(概率分布)
为理论依据,按一定概率的要求,由
样本统计量的值估计总体参数值的所
在范围,称为总体参数的区间估计。
 对总体参数值进行区间估计,就是要
在一定可靠度上求出总体参数的置信
区间的上下限。
 ⑴要知道与所要估计的参数相对应的样本
统计量的值,以及样本统计量的理论分布;
 ⑵要求出该种统计量的标准误;
 ⑶要确定在多大的可靠度上对总体参数作
估计,再通过某种理论概率分布表,找出
与某种可靠度相对应的该分布横轴上记分
的临界值,才能计算出总体参数的置信区
间的上下限。
置信区间
 置信度,即置信概率,是作出某种推
断时正确的可能性(概率)。
 置信区间,也称置信间距
(confidence interval,CI)是指在某
一置信度时,总体参数所在的区域距
离或区域长度。
显著性水平
 对总体平均数进行区间估计时,置信概
率表示做出正确推断的可能性,但这种
估计还是会有犯错误的可能。显著性水
平(significance level)就是指估计总体
参数落在某一区间时,可能犯错误的概
率,用符号α表示。
P=1-α
 例题1:某小学10岁全体女
童身高历年来标准差为6.25
厘米,现从该校随机抽27
名10岁女童,测得平均身
高为134.2厘米,试估计该
校10岁全体女童平均身高
 解:10岁女童的身高假定是从正态
总体中抽出的随机样本,并已知总
体标准差为σ=6.25。无论样本容量
大小,一切样本平均数的标准分数
呈正态分布。于是可用正态分布来
估计该校10岁女童身高总体平均数
其标准误为

6.25
X 

 1.2028
n
27
当P=0.95时,Z=±1.96
因此,该校10岁女童平均身高95%的置信区
间为:
X  Z 0.05 
2

n
   X  Z 0.05 
2

n
6.25
6.25
134.2  1.96
   134.2  1.96
27
27
131.842    136.558
当P=0.99时,Z=±2.58
因此,该校10岁女童平均身高99%的置信区
间为:
X  Z 0.01 
2

n
   X  Z 0.01 
2

n
6.25
6.25
134.2  2.58
   134.2  2.58
27
27
131.097    137.303
例题2:从某小学三年级
随机抽取12名学生,其阅读能
力得分为28,32,36,22,
34,30,33,25,31,33,
29,26。试估计该校三年级学
生阅读能力总体平均数95%和
99%的置信区间。

 解:12名学生阅读能力的得分假定是从
正态总体中抽出的随机样本,而总体标
准差σ未知,样本的容量较小(n
=12<30),在此条件下,样本平均数与
总体平均数离差统计量服从呈t分布。
 于是需用t分布来估计该校三年级学生
阅读能力总体平均数95%和99%的置信
区间。
由原始数据计算出样本统计量为
S  3.926
X  29.917
当P=0.95时,
t11
 2.201
0.05
2
因此,该校三年级学生阅读能力得分95%的置信
区间为:
X  t11

0.05
2
S
   X  t11 
0.05
n 1
2
S
n 1
3.926
3.926
29.917  2.201
   29.917  2.201
12  1
12  1
27.312    32.522
S  3.926
X  29.917
当P=0.99时,
t11
 3.106
0.01
2
因此,该校三年级学生阅读能力得分99%的置信区
间为:
X  t11

0.01
2
S
   X  t11 
0.01
n 1
2
S
n 1
3.926
3.926
29.917 3.106
   29.917 3.106
12  1
12  1
26.240    33.594
1.5 平均数差异检验--
 例1:某小学历届毕业生汉语拼音测
验平均分数为66分,标准差为11.7。
现以同样的试题测验应届毕业生(假
定应届与历届毕业生条件基本相同),
并从中随机抽18份试卷,算得平均分
为69分,问该校应届与历届毕业生汉
语拼音测验成绩是否一样?
总体平均数的显著性检验
 总体平均数的显著性检验是指对样本
平均数与总体平均数之间的差异进行
的显著性检验。若检验的结果差异显
著,可以认为该样本不是来自当前的
总体,而来自另一个、与当前总体存
在显著差异的总体。即,该样本与当
前的总体不一致。
1.总体平均数显著性检验的原理
检验的思路是:假定研究样本是从平均
数为μ的总体随机抽取的,而目标总体
的平均数为μ0,检验μ与μ0之间是否存
在差异。如果差异显著,可以认为研
究样本的总体不是平均数为μ0的总体,
也就是说,研究样本不是来自平均数
为μ0的总体。
2.总体平均数显著性检验的步骤
 一个完整的假设检验过程,一般经过
四个主要步骤:
⑴.提出假设
⑵.选择检验统计量并计算统计量的值
⑶.确定显著性水平
⑷.做出统计结论
检验步骤
 ⑴.
提出假设
H0:μ=μ0, H1:μ≠μ0
或 H0:μ=66,
H1:μ≠66
 ⑵.选择检验统计量并计算统计量的值
学生汉语拼音成绩可以假定是从正态总
体中抽出的随机样本。总体标准差已知,
样本统计量的抽样分布服从正态,以Z
为检验统计量
 计算
Z
X  0

n
69  66

11.7
18
 1.09
 ⑶.确定显著性水平和检验形式
显著性水平为α=0.05,双侧检验
 ⑷.做出统计结论
 查表得Zα=1.96,而计算得到的Z=1.09
 |Z|<Zα,则概率P>0.05
 差异不显著,应在0.05显著性水平接受
零假设
 结论:该校应届毕业生与历届毕业生汉
语拼音测验成绩一致,没有显著差异。
表10-1
双侧Z检验统计决断规则
∣Z∣与临界值比较
P值
显著性
检验结果
∣Z∣<1.96
P>0.05
不显著
保留H0,拒绝
H1
显著*
在0.05显著性
水平拒绝H0,
接受H1
极其显著*
在0.01显著性
水平拒绝H0,
接受H1
1.96≤∣Z∣<2.58
∣Z∣≥2.58
0.05≥P>
0.01
P≤0.01
*
表10-2
单侧Z检验统计决断规则
∣Z∣与临界值比较
P值
显著性
检验结果
∣Z∣<1.65
P>0.05
不显著
保留H0,拒绝
H1
显著*
在0.05显著性
水平拒绝H0,
接受H1
极其显著*
在0.01显著性
水平拒绝H0,
接受H1
1.65≤∣Z∣<2.33
∣Z∣≥2.33
0.05≥P>
0.01
P≤0.01
*
 :从高二年级随机抽取两个小组,在化学
教学中实验组采用启发探究法,对照组采
用传统讲授法教学。后期统一测试,结果
为:实验组10人平均成绩为59.9,标准差
为6.640;对照组9人平均成绩为50.3,标
准差为7.272。问两种教学方法是否有显
著性差异?(根据已有的经验,启发探究
法优于传统讲授法)
解题过程:
1.提出假设
H0:μ1≤μ2
H1: μ1>μ2
 2.选择检验统计量并计算
两组化学测验分数假定是从两个正态总
体中随机抽出的独立样本, 两总体标准差未
知,经方差齐性检验两总体方差齐性,两样
本容量小于30。因此平均数之差的抽样分布
服从t分布,应以t为检验统计量,选用公式
(11.7)计算。

计 算
t

X1  X 2
n1  S12  n2  S 22 n1  n2

n1  n2  2
n1  n2
59.9  50.3
10 6.6402  9  7.2722 10  9

10  9  2
10 9
 2.835
1.6方差分析
方差分析又称为变异分析(analysis
of variance,ANOVA),是由斯内德
克(George Waddel Snedecor)提出
的一种方法。
方差分析通过对多组平均数的差异进
行显著性检验,分析实验数据中不同来
源的变异对总变异影响的大小。
1.方差分析的逻辑
 方差分析作为一种统计方法,是把
实验数据的总变异分解为若干个不
同来源的分量。因而它所依据的基
本原理是变异的可加性。
 在统计分析中,一般用方差来描述
变量的变异性。
方差分析是将总平方和分解为
几个不同来源的平方和(实验数据
与平均数离差的平方和)。然后分
别计算不同来源的方差,并计算方
差的比值即F值。根据F值是否显
著对几组数据的差异是否显著作出
判断。

4.方差分析中的几个概念
实验中的自变量称为因素。只有一个自
变量的实验称为单因素实验,两个或两个
以上称为多因素实验。
 某一因素的不同情况称为因素的“水
平”。
 水平包括量差或质别两类情况,按各个
“水平”条件进行的重复实验称为各种实
验处理。

Fmax检验统计决断规则
Fmax与临界值比
较
Fmax<Fmax(df)0.05
P值
P>0.05
显著性
检验结果
不显著
保留H0,拒绝
H1
Fmax(df)0.05 ≤Fmax<
Fmax(df)0.01
0.05≥P>
0.01
显著*
Fmax≥ Fmax(df)0.01
P≤0.01
极其显著*
*
在0.05显著性
水平拒绝H0,
接受H1
在0.01显著性
水平拒绝H0,
接受H1
2.方差分析的基本过程
 ⑴.提出假设
 ⑵.选择检验统计量并计算
①.分解平方和SS
②.分解自由度df
③.计算方差MS
④.计算F值
 ⑶.作出统计结论并列方差分析表
【例】 某水产研究所为了比较四种不同配合
饲料对鱼的饲喂效果,选取了条件基本相同的鱼
20尾,随机分成四组,投喂不同饲料,经一个
月试验以后,各组鱼的增重结果列于下表。
上一张 下一张 主 页
退 出
表6-2 饲喂不同饲料的鱼的增重
(单位:10g)
上一张 下一张 主 页
退 出
这是一个单因素试验,处理数k=4,重复数
n=5。各项平方和及自由度计算如下:
矫正数
C
2
x..
/ nk  550.8 /(4  5)  15169.03
2
总平方和
SS T    x  C
2
ij
 31.9  27.9    28.5  C
2
2
2
 15368 .7  15169 .03  199 .67
上一张 下一张 主 页
退 出
处理间平方和
1
2
SSt   xi .  C
n
1
2
2
2
2
 (155. 9  131.4  123.7  139. 8 )  C
5
 15283. 3  15169. 03  114.27
处理内平方和
SS e  SS T  SS t
 199.67  114.27  85.40
处理间自由度
dfT  nk  1  5  4  1  19
df t  k  1  4  1  3
处理内自由度
df e  dfT  df t  19  3  16
总自由度
用SSt、SSe分别除以dft和dfe便得到处理间
均方MSt及处理内均方MSe。
MSt  SSt / dft  114 .27 / 3  38.09
MSe  SSe / dfe  85.40 / 16  5.34
因为方差分析中不涉及总均方的数值,所以
不必计算之。
上一张 下一张 主 页
退 出
对于【例】:
因为
F=MSt/MSe=38.09/5.34=7.13**;
根据 df1 = dft = 3 , df2 = dfe = 16 查附表4,
得F0.01(3,16);
因为
F>F0.01(3,16) =5.29, P<0.01
表明四种不同饲料对鱼的增重效果差异极显著,用不
同的饲料饲喂,增重是不同的。
在方差分析中, 通常将变异来源、平方和、
自由度、均方和F值归纳成一张方差分析表,见
表6-3。
表6-3
表6-2资料方差分析表