数理统计基础

Download Report

Transcript 数理统计基础

城市规划研究方法
与SPSS应用
辜智慧
建筑与城市规划学院
课程介绍
规划分析是城市规划过程中重要的
步骤。
它通过对数据信息的处理转化为规
划决策中的理论参考依据
数据—信息
数据:是我们描述状态或行为的数
字、文字、图像或是其他形式的记
录
信息:是我们对数据的解释
课程介绍
研究方法论(Research Methodolody)
包括:定量分析方法,定性分析方
法,概率统计,数据处理,研究方
法设计(Research Design),结构方
程模型(Structural Equation
Models 主要用于城市结构分析),
重力模型(Gravity Model)等
课程介绍
城市规划中研究方法应用
人口分析
基于经济学的分析
土地利用分析
交通分析
人口——Who
人口分析对规划领域的影响:
土地利用规划
交通规划
经济发展
环境规划
住宅规划
公共基础设施规划
可持续发展等基础
经济——What
经济活动是城市活动的主体
劳动力需求
产业规划
发展战略
土地利用——Where
土地适宜性分析
土地利用影响分析
交通——How
交通流量
–基于人口以及经济活动分析
交通影响
–社会、经济以及环境影响
Example:人口数据
Size
Distribution
Composition
Change
……
SIZE
某城市人口统计:
城市人口
男性
1990 2000 净增
28111 42499 14388
净增百分比
51.2
女性
29478 43492 14014
47.5
总数
57589 85991 28402
49.3
Distribution
男性
女性
城市人口年龄结构分布图
城市人口年龄结构变化对比
项
目
第四次人口
普查结果
(1990)
总人口
(万人)
总
人
口
不满周岁儿
学龄前儿童
(1~6 岁)
少年儿童
(7~14 岁)
青
年
(15~25 岁)
兵 源(男)
(18~24 岁)
育龄妇女
(15~49 岁)
劳动力合计
男(16~59 岁)
女(16~54 岁)
男 60,女 55
岁以上老人
(%)
1082.0 100.0
14.3
1.32
第三次人口
普查结果
(1982)
第二次人口
普查结果
(1964)
总人口
(万人)
(%)
总人口
(万人)
(%)
923.0
17.5
100.0
1.90
759.0
26.8
100.0
3.54
96.4
8.91
67.0
7.30
132.9
17.49
107.4
9.93
121.6
13.18
155.4
20.46
209.0
19.32
228.4
24.75
119.4
15.72
81.4
7.52
79.5
8.16
35.4
4.66
304.7
28.16
274.0
29.69
164.0
21.59
717.5
387.9
329.6
66.31
35.86
30.46
606.5
315.4
291.0
65.71
34.18
31.53
369.9
198.4
171.5
48.69
26.12
22.57
136.0
12.57
96.3
10.44
62.2
8.20
Change
AAAC 年平均绝对变化值
(Pop2000-Pop1990)/n
AAPC 年平均变化率
(Pop2000/Pop1990)(1/n)-1
课程介绍
如何利用SPSS软件将数据整理为有
助于决策的信息?
–如何收集数据?
–如何整理数据?
–如何分析数据?
–如何表述数据?
数据收集
普查
抽样调查
实验
解译
引用
数据整理
数据分析
基础统计分析——集中、离散趋势
关系分析——相关分析
回归分析——推断、预测
其他
基础统计分析
SD
关系分析
回归分析
数据显示——表格
数据显示——图
年齡結構圖
35-44
25.5%
45-54
6.1%
55-64
4.0%
25-34
18.7%
>=65
5.0%
0-4
0.7%
5-14
17.2%
15-24
22.8%
课程安排
1.
2.
3.
4.
5.
6.
课程介绍
数据收集
数据编辑
数据统计描述
数据显示
假设检验
7. 方差分析
8. 相关分析(一)
9. 相关分析(二)
10.回归分析(一)
11.回归分析(二)
12.其他分析介绍
课程考核
考勤(20)+论文(80)
论文主题:
–城市规划或城市问题相关内容的数据分析报告(采
用SPSS)
评分标准:
–准确性+难易程度
结果要求:
–报告文档(电子版及打印版)及数据分析文件上传
论文结构
数据收集(20)
–准确性:10;难易程度:10
数据分析(40)
–准确性:30;难易程度:10
数据显示(30)
–准确性:20;难易程度:10
结论讨论(10)
调查问卷
是否愿意将垃圾分类投放
是否知道垃圾分类的意义
是否愿意在家中将垃圾分类收集
是否赞成为保护环境实行生活垃圾收费制度
是否听说过生活垃圾收费制度
购物时是否愿意自带购物袋
是否知道塑料袋的危害
是否知道一次性使用的包装品不利于环境保护
……
不同城市居民对垃圾分类收集政策的认知程度
(表中数字为回答“是”的比例, 下同)
问
题
是否愿意将垃
圾分类投放
是否知道垃圾
分类的意义
是否愿意
在家中将垃圾
分类收集
北京市 深圳市 大连市 西安市 上海市 平均
(%)
(%)
(%)
(%)
(%) (%)
91
84
78
91
80
85
91
79
80
81
90
85
67
62
56
65
57
61
不同城市居民对生活垃圾收费政策的认知程度
问
题
北京市 深圳市 大连市 西安市 上海市 平均
(%)
(%)
(%)
(%)
(%)
(%)
是否赞成为保
护环境实行生
活垃圾收费制
度
76
79
90
86
66
79
是否听说过生
活垃圾收费制
度
62
65
58
53
56
59
不同城市居民对有关购物袋政策的认知程度
问
题
北京市 深圳市 大连市 西安市 上海市 平均
(%)
(%)
(%)
(%)
(%) (%)
购物时是否愿意
自带购物袋
53
15
40
41
26
35
是否知道
塑料袋的危害
96
89
92
93
90
92
是否知道一次性
使用的包装品不
利于环境保护
96
87
88
95
93
92
数据分析
上述结果表明:
虽然平均90%以上的居民对使用塑料袋及一次
性包装品对环境的危害都有清楚的认识,但对
于自带购物袋问题的回答, 各个城市中获得的
调查结果却非常不同, 在深圳只有15%的人表
示愿意自带, 在北京则有53%的人愿意
出现城市居民购物时自带购物袋比例不高的原
因可能有两方面: 其一是自带购物袋比较麻烦,
其二也与没有实行购物袋收费制度有关
数据分析
调查的另外一组结果表明, 如果实行收费制度
将有利于提高自带购物袋居民的比例, 减少白
色污染(见下页图)。如果每个购物袋的价格为
0.05元时, 平均大约有14%的居民愿意自带购物
袋; 但当购物袋价格为0.5元时, 愿意自带购物
袋居民的比例基本超过50%; 当价格为1元时,
比例更高。由此可见, 以适当方式实行购物袋
收费政策, 将会对减少生活垃圾中的包装袋数
量产生积极影响
愿意自带购物袋居民的比例(%)
80
70
60
50
40
30
20
10
0
北京
大连
0.05 元/个
0.1元/个
深圳
0.5元/个
西安
1元/个
不同收费标准下愿意自带购物袋居民的比例
上海
数据分析
对有关包装瓶/盒押金政策的调查结果表明,
80%以上的居民对一次性使用的包装品造成的
危害有所认识。另一项有关退回使用后的包装
瓶/盒的态度的调查结果表明, 随着押金数额的
增加, 愿意退回旧瓶/盒居民数量的比例也不断
增加(见下页图)。如果每个包装瓶/盒的押金为
1元时, 在很多城市90%以上的居民将愿意退回
包装瓶/盒
愿意退回包装瓶的居民的比例(%)
100
80
60
40
20
0
北京
大连
0.1元/个
深圳
0.2元/个
0.5元/个
西安
上海
1元/个
不同押金标准下愿意退回包装瓶/盒的居民的比例
数据分析
通过问卷调查还得出, 目前在世界上很多国家
实行的有利于生活垃圾资源化和减量化的多项
政策, 在中国城市居民中的认知度不尽相同:
对于生活垃圾分类收集政策的认知度最高, 愿
意将生活垃圾进行分类投放的城市居民的比例
已经达到85%; 其次为对生活垃圾收费制度的
认知度, 79%的居民对这项政策持赞成态度。
对废品收购政策和自带购物袋的认知度相对偏
低, 分别平均为60.2%和35%
数据分析
此外, 城市居民中卖废品的比例, 随着家庭人均
收入的增加而迅速降低。这一趋势意味着随着
我国经济的发展, 人民收入水平提高, 卖废品的
城市居民比例将会不断减少, 这也是各发达国
家已经经历过的。因此, 要实现生活垃圾中可
利用物质的有效回收和重复利用, 从长远看, 建
立有效的生活垃圾分类回收体系, 并以有效的
法律制度和辅助措施, 如生活垃圾收费制度等
促进垃圾分类回收, 对促进我国生活垃圾资源
化与减量化管理具有重要的战略意义
结论讨论
首先, 在我国城市广泛开展生活垃圾分类收集, 能
够获得绝大多数城市居民的理解和支持。本项
政策之所以在城市居民中具有较高的认知度,
与近几年来广泛开展的垃圾分类宣传和试点有
很大关系。为居民提供方便的分类投放条件、
做好被分类收集的不同垃圾成分的运输和处理
的后续工作, 是垃圾分类政策能否获得成功的
关键
结论讨论
第二, 生活垃圾收费政策虽然已经在我国很多城
市中开始实行, 也能够被大多数城市居民所接
受。但是由于缺乏宣传, 很多居民对该项政策
极其意义了解不足。为了达到生活垃圾收费政
策所具有的减量化效果, 应该开展广泛的宣传
和教育活动, 同时进一步开展实行生活垃圾按
量收费的试点工作, 以确定适合我国国情的城
市生活垃圾按量收费政策
结论讨论
第三, 鉴于我国居民对自带购物袋和退回包装瓶/
盒的认知度不高的现象, 建议应该尽快实行购
物袋收费政策和包装瓶/盒押金制度, 以减少白
色污染和促进包装品重复利用。根据本研究调
查结果, 每个购物袋的价格和每个包装瓶/盒押
金的数额, 都应该定在0.5元左右或高于0.5元,
才能够收到显著效果
参考书目
张文彤等,《SPSS统计分析基础教程》,高等
教育出版社,2004
王昕浩,Rainer 《城市与区域规划研究方法》
(英文). 清华大学出版社,2007
余建英,何旭宏,《数据统计分析与SPSS应
用》,人民邮电出版社,2003
课件及练习数据下载:
论文及相关文件上传:
ftp://gzh:[email protected]/SPSS-2007/
SPSS简介
SPSS是软件英文名称的首字母缩写,原
意为Statistical Package for the
Social Sciences,即“社会科学统计软
件包”。但是随着SPSS产品服务领域的
扩大和服务深度的增加,SPSS公司已于
2000年正式将英文全称更改为
Statistical Product and Service
Solutions,意为统计产品与服务解决方
案。
SPSS简介-易学易用
SPSS最突出的特点就是操作界面极为友
好,他使用Windows的窗口方式展示各种
管理和分析数据方法的功能,使用对话
框展示出各种功能选择项,只要掌握一
定的Windows操作技能,粗通统计分析原
理,就可以使用该软件为特定的科研工
作服务。
􀁺
非专业统计人员的首选统计软件!!!
SPSS简介-数据接口
SPSS采用类似EXCEL表格的方式输入
与管理数据,数据接口较为通用,
能方便的从其他数据库中读入数据。
存储采用专用的SPO格式,可以转存
为HTML格式和文本格式。
SPSS基本特点
数据自动处理
强大的统计功能
完全的Windows风格
良好的帮助系统合自
学功能
简单的编程
完美的图形处理功能
丰富的数据对接功能
支持DLE与Active技术
内置VBA客户语言
强大的函数功能
SPSS统计功能
样本数据的描述和预
处理;
假设检验(包括参数
检验、非参数检验及
其他检验);
方差分析
相关分析
回归分析
对数线性分析
聚类分析
判别分析
因子分析
对应分析
时间序列分析
生存分析
可靠性分析
SPSS应用领域
广泛的应用于统计、应用数学、经济、市场营
销、心理、卫生统计、生物、企业管理、气象、
环境科学、社会学等领域。
其分析过程包括:调查设计、数据收集、数据
存取和管理、数据分析、数据检验、数据挖掘、
数据展示等。还有一系列附加模块和独立模块
产品以加强它的分析功能。它的图形窗口界面
使其非常简单易用但却具有满足各种分析要求
的数据管理、统计分析功能及各种报表方法。
SPSS安装
ftp://192.168.5.80/专业软件/spss.v13.0iso.bin
1) When setup prompts for serial, enter
anything you like.
2) After install (SPSS or SmartViewer),
overwrite the file "lservrc“ in the
installed program directory with the one
located in \CRACK
3) Enjoy!
SPSS帮助系统
学习向导
–Tutorial
–Statistics Coach
–Result Coach
–Case Studies
帮助菜单
对话框帮助
语法手册
数据获取与SPSS数据输
入
数据分类及特性
数据获取的方法
SPSS数据输入
总体、个体、特征与数据
总体:所研究对象的全体
个体:组成总体的元素
指标或变量:表征个体特征(信息)的量
指标值(变量值)或数据:对个体特征的
具体的描述(可以是数字,也可以是文
字),或者说有关个体的具体信息
数据类型——间隙
离散变量Discrete variable
–当一个变量的任意两个可能取值之间没有其他取值
时,该变量是离散的
连续变量Continuous variable
–当一个变量的任意两个可能取值之间还有其他可能
取值时,该变量是连续的
数据类型——作用
因变量Dependent variable
–如果一个变量由其他变量来描述,该变量
称为因变量或反应变量
自变量Independent variable
–如果一个变量与其他变量一起用于描述因
变量,该变量称为自变量或预测变量
数据类型——测量尺度
定类尺度Nominal Measurement
– 对事物的类别或属性的一种测度,按照事物的某种属性对其进行
分类或分组
定序尺度Ordinal Measurement
– 对事物之间等级或顺序差别的一种测度,可以比较优劣或排序
定距尺度Interval Measurement
– 对事物类别或次序之间间距的测度,其测量结果往往表现为数值
定比尺度Scale Measurement
– 测算两个测度值之间的一种测量尺度,有一固定的绝对“零点”
数据的来源
直接来源
–来源于管理和研究需要而专门组织的调查
–来源于科学试验的数据
间接来源
–来源于公开出版物的数据
–来源于内部调查的数据
获得数据的调查方法
普查 Census
抽样调查 Sampling
– 成本低
– 耗费时间少
– 所收集的个体信息更为详尽和准确
调查步骤
– 明确调查的目的
– 调查的准备阶段
•
•
•
•
•
总体的确定,明确调查的目标量
明确抽样框
收集数据的方法
抽样设计
调查问卷
– 现场测量阶段
– 数据处理阶段
• 数据的验收、编辑
• 估计、分析
– 总结报告
抽样方法
非概率抽样
–典型抽样——分析总体特征的基础上有意识的选择具
有代表性的典型个体,进行深入细致的调查
–便利抽样——按照最方便的方式获得被调查人的抽样,
如街上行人访谈、商场拦截调查等
–滚雪球抽样——在获得第一批被调查对象后,在调查
中请其推荐其他合适的调查对象。
概率抽样
–简单随机抽样——随机抽样过程中,每个个体被抽取
到的机会(概率)均等。
综合抽样方法
分层(分类)抽样Stratified Sampling
– 按照总体中个体的某特征,把总体中的个体分为若干群;然
后对每个群内的个体进行简单随机抽样。(层之间的差异大
于层内部的个体差异)
整群抽样Cluster Sampling
– 将总体中的各个个体,按照某一标志量分为若干群,然后以
群为单位,对群进行简单随机抽样,然后对抽出来的群,进
行普查。(群体之间具有相似性的特征)
系统抽样Systematic Sampling
– 按照某一标志量把总体中的个体排序,然后按照一定间隔抽
取个体
常用调查方法
电话访谈法
邮件访谈法
人员访谈法
电子邮件访谈
其他电子方式的访谈
(网站调查、BBS访谈等)
被访谈者愿意接受访谈的主
要原因
对所调查研究的问题有兴趣
想获得调查的全部或部分结果
可以获得一定的补偿,如礼品或优惠
由于上司行政要求等原因,作为任务来
完成
其他原因,如亲友的要求等
构成问卷的问题类型
开放型问题与封闭型问题
–是否有可供选择的答案
回忆型问题与非回忆型问题
–客观记忆
封闭型问题中的单选问题与多选问题
–答案为排斥的还是相容的
单选问题中的排序型与非排序型
问题类别一览
开放非回忆
型
开放回忆型
封闭型:
建议型
转化为封闭型的难度大
观点型
可转化为封闭型,有难度
感受型
可转化为封闭型,相对容易
过去的事实
可转化为封闭型
单选型
排序型
同一维度的答案空间
非排序型
至少有一个备选答案
分布在不同维度上
多选型
含不同维度的答案空间
问卷设计应注意的问题
1. 问卷问题的设立
1. 从研究的目的出发,分解目标,产生问卷问题
2. 基于对研究问题的思考、猜想,设立问卷问题
3. 通过文献阅读,从专家学者的观点中发现需要证实
/证伪的问题,设立相应问卷问题,收集数据,做
实证研究;
4. 从数据处理的角度,考虑问卷的设立
问卷设计应注意的问题
2. 问卷问题设立的第一原则
——”能够获得诚实的回答”的原则
1. 凡是不能获得诚实回答的问题,都不应当设置在问
卷中
2. 对怀疑得不到诚实回答的问题,应当在不同位置,
设置相同、相近、相反的问题,以求相互验证。
3. 对于得不到诚实回答又必须了解的数据,可以通过
变换问题的提法来获得相应的数据,或者通过了解
相对数据来判断总体的情况
问卷设计应注意的问题
3. 问卷问题的设立与陈述
1. 单选问题的备选答案应当是对一个答案空间的完整
划分(没有交集,没有遗漏)
2. 多选题的备选答案必须是互不排斥的
3. 问题的陈述及备选答案不能有多重含义
4. 问题涉及的用语要含义明确
5. 在问题的陈述中,要对所询问行为的时间、方式、
目的做必要的限定
6. 在问卷问题中,凡是能够限定数量范围的要尽量限
定
问卷设计应注意的问题
4. 问卷设计的整体把握
1. 问卷不能太长,以20~30分钟为宜,商场拦
截类的问卷,以3~5分钟为宜
2. 把相对容易回答的问题、有趣的问题放到
问卷的前面,难的放在后面
3. 问卷设计一定要通过小规模访谈进行修改
数据的信度与效度
变量值=真值+系统偏差+随机误差
测量的信度:
–指测量的结果的稳定性或一致性,指对一个变量重
复测量时表现出来的性质。
测量的效度:
–指测量结果接近所要测量的变量的内涵的程度,实
际上反映了测量误差(系统误差与随机误差)的小
的程度。
测量的信度
重测信度:
– 尽可能在相同的条件下测量两次,用两次结果的相关程度来
表示信度
复本信度:
– 只做两套量表且这两套测量工具必须具有相似性,如果两套
测量结果的相似性程度高,则称前套测量工具具有复本效度
内部一致信度:
– 指用多重子问题(分项)去测量同一个概念,如果各个自问
题之间的一致性高,则称测量这个总问题的量具有好的内部
一致性
评分者信度:
– 如果测量工具本身规范,则没有偏见的不同评价人的评价结
果就会相差很小,评分者的信度就高。
测量的效度
表面效度
– 测量的内容是否能够反映出所要测量的概念
内容效度:
– 量表中的问题是否覆盖了被测量概念的所有方面
准则效度:
– 测量的结果与其他测量准则的结果是否具有一致性
预测效度(与未来的效标)并行效度(与现有的效标)
内在效度与外在效度
– 内容效度、准则效度等好则为内在效度高
– 内在效度高,测量另外的对象效度也高,则为外在效度高
信度与效度的关系
例如,隔着黑幕两次询问一个在喝矿泉
水的人,如果两次都回答说,没有喝水,
那么这个测量就是有信度没有效度的。
要想建立一个测量的效度,就要先评估
这个测量的信度
信度和效度的改进方法
设计问卷的时候,请潜在的应答者
参加
要求访谈调查人员充分理解调查的
内容
在调查的准备阶段,对访谈问题进
行检验
获得数据的试验方法
为了获得特定数据,通过对参与者
类型的恰当限定、对数据产生条件的
恰当限定、对数据产生过程的合理设
计而获得数据的方法。
试验数据的优越性
可以获得在真实状况下用观察(调查)
法无法获得的某些数据
可以在一定程度上直接观察到某些变量
之间的相关关系,甚至因果关系
可以获得在问卷调查中难以获得诚实回
答的数据
试验设计中的几个重要概
念
试验的外部因素:对试验结果有影
响而试验者又不感兴趣的因素
试验的内部因素:对试验结果有影
响同时又是试验者感兴趣的因素
混合因素:在试验中不能分离的两
个以上的条件因素
SPSS数据分析的一般步
骤
􀁺收集整理数据(进入SPSS之前的准备工作)
􀁺建立SPSS数据文件
􀁺定义数据文件结构
􀁺录入、修改、编辑待分析的数据
􀁺分析数据
􀁺统计分析之前的数据预处理
􀁺统计分析和建模
􀁺结果的说明和解释
􀁺数据和分析结果的保存
一、进入SPSS之前的准
备工作
• 资料收集和审查
• 收集数据对数据进行质量控制(排除明显的错误数据)
• 数据编码
• 将收集的数据转换成SPSS接受的数据格式
• 采用合适的编码(如female用1表示,male用2表示)
资料的审查
􀁺资料的完整性审查
􀁺资料的统一性审查
􀁺资料的合格性审查
资料的完整性审查
资料总体的完整性:主要考虑某一研究
收集观测量(实验)的数量、是否有代
表性;
每份资料的完整性:主要考虑每个观测
量所包含的变量的完整性,是否是缺失
值。
资料的统一性审查
每一项观测量是否采用相同的测量方法
检查各变量所使用的单位是否一致。
审查指标的定义和分析的标准是否与自
己的研究分类相一致。
资料的合格性审查
审查提供资料的人是否有足够的收集数据的
技能
审查所提供的资料是否符合逻辑性
–判断检验:依据已知情况来判断是否真实正确。
–逻辑检验:从资料的逻辑关系来检验是否正确。
–计算检验:通过各种数字的运算来检验是否正确。
资料的编码
根据一定的规则将研究资料转换为
可进行统计分析的数码资料的过程。
SPSS支持的变量类型
二、SPSS数据文件的建
立
􀁺数据文件的特点
􀁺结构的定义
􀁺数据的录入与保存
􀁺数据的编辑
􀁺与其他软件数据共享
SPSS数据文件的特点
定义数据文件的结构
[Name]:定义变量名
[Type]:定义变量类型
[Width]:变量长度
[Decimal]:变量小数点位数
[Label]:变量标签
[Value]:变量值标签
[Missing]:缺失值的定义方式
[Column]:变量的显示宽度
[Align]:变量显示的对齐方式
[Scale]:变量的测量尺度
定义数据文件的结构
Cont.
变量名
–变量名是变量存取的唯一标志
变量类型
–注意:显示宽度并不影响数据的存储
变量长度
– 设置数值值变量的长度,当变量为日期型时无效。
变量小数点位数
– 设置数值值变量的小数点位数,当变量为日期型时无效。
变量名标签(Variable label)
–进一步描述变量所表示的意义,特别是当变量名不能充分
描述变量所表述的意义时。
定义数据文件的结构
Cont.
变量值标签(Value label)
–值标签是对变量的每一个可能取值的进一步描述,
当变量是定类或定序变量时,这是非常有用的。单
击[Value]相应单元,在如下对话框中进行设置。
定义数据文件的结构
Cont.
缺失值
–系统缺失值
–用户自定义缺失值
变量显示宽度
变量对齐方式
测量尺度(Measurement)
–Scale: 定距或定比数据
–Ordinal:定序数据
–Nominal:定类数据
数据编辑
数据的直接录入
开放题的录入
单选题的录入(Value Lable)
多选题的录入
–多重二分法
–多重分类法
与其他软件数据共享
ASCII码文件(纯文本文件,*.txt)
Foxpro数据库文件(*.dbf)
Microsoft Access数据库(*.mdb)
Excel文件(*.xls)
SAS文件
读入ASCII 码数据
ASCII文件格式:
–固定格式。对数据文件的每一Case,每一
变量记录在同一记录的相同列位置。
–自由格式。对每一Case,以同一顺序记录
变量,而且不必按相同位置。空格解释为值
间的分界符。
读取ASCII文件实例
Ex02_01.data (固定格式)
92101 M 96.0 96.087.5
92102 F 94.0 97.0 86.5
92103 M .0 86.0 81.5
92104 M 89.0 97.0 69.5
92105 F 82.0 85.0 79.5
92113 F 70.0 85.0 66.0
92115 F 85.0 91.0 72.5
92116 M 84.0 87.0 67.5
92117 F 83.0 91.0 80.5
92106 M 88.0 88.078.0
92108 M 84.0 90.0 69.5
92110 F 92.0 94.0 71.0
Ex02_01.data (自由格式)
92101 M 96.0 96.087.5
92102 F 94.0 97.0 86.5
92103 M .0 86.0 81.5
92104 M 89.0 97.0 69.5
92105 F 82.0 85.0 79.5
92113 F 70.0 85.0 66.0
92115 F 85.0 91.0 72.5
92116 M 84.0 87.0 67.5
92117 F 83.0 91.0 80.5
92106 M 88.0 88.078.0
92108 M 84.0 90.0 69.5
读取Excel电子表格数据
利用ODBC读取Visual
Foxpro数据库中数据
数据库文件:Household
Inventory.DBC
从数据库中读取视图文件的数据
数据保存
主要的保存类型有:
SPSS(*.sav),SPSS 10.0 默认格式;
SPSS7.0(*.sav),SPSS 7.0 格式;
SPSS/PC+(*.sys),SPSS/PC+格式;
Excel(*.xls),Microsoft Excel 格式;
1-2-3 Rel 3.0(*.wk3),Lotus 1-2-3 V3.0
电子表格文件
等等
练习
导入txt数据文件
导入excel数据文件
自定义数据文件
文件拆分
文件合并
本节内容
数据的统计描述
–数据的直观表述
–数据的基本统计量
SPSS基本统计分析
–Frequencies
–Descriptive
–Explorer
数值数据的直观表述
茎叶图
SPSS茎叶图实例
数值数据的直观表述
数值数据制表
原始数据排序:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41,
43, 44, 46, 53, 58
数据范围 Range:58 -12= 46
数据分组: 5 (usually between 5 and 15)
分组间隔 (width): 10 (46/5 then round up)
数据界限 (limits):10, 20, 30, 40, 50
数组中值 Midpoints: 15, 25, 35, 45, 55
分组统计
数值数据制表:
Frequency Distributions
数值数据制图:
Histogram
SPSS直方图示例
数值数据制图:
Frequency Polygon
数值数据制图:
Cumulative Frequency
数值数据制图:Ogive(累
积曲线)
分类数据表述:单变量
Summary Table
分类数据表述:单变量
分类数据表述:多变量
分类数据表述:多变量
数据的基本统计量
集中趋势的描述
Mean:均值
数学平均值
最常用的集中趋势测量参数
但是容易受到极值的影响
Median:中位数
最重要的集中趋势测量参数
对于排序数组,中位数就是位于中间的
数据
–如果是奇数数组,中位数就是中间的数据
–如果是偶数数组,中位数就是中间两个数的平均值
不会受极值的影响
Mode:众数
集中趋势的测量参数之一
出现次数最多的值
不受极值影响
–有可能没有众数,也有可能有很多众数
–既适用与数值型变量也适用于分类型变量
Midrange:中列数
集中趋势测量参数之一
最大值和最小值的平均值
容易受到极值的影响
Quartiles:四分位数
数据分布参数
将排序数据四等分(按个数)
数据的基本统计量
离散趋势的描述
Range:极差
数据变异测量参数
最大值和最小值的差
忽略了数据的分布
Interquartile Range:
四分位数间距
数据变异测量参数
也叫做Midspread: 即在50%的变化宽度
四分之三的分位数和四分之一的分位数的差:
Interquartile Range = Q3-Q1
– 例:11 12 13 16 16 17 17 18 21
– Q3-Q1= 17.5 -12.5 = 5
不受极值的影响
Variance:方差
重要的变异测量参数
用平均值来表示变异程度
对于总体数据
对于样本数据
Standard Deviation:标
准差
重要的变异测量参数
用平均值来表示变异程度
对于总体数据
对于样本数据
Sample Standard
Deviation:
样本标准差
标准差对比
自由度
假设一个样本有两个数值,X1=10,X2=20,我们现在要用这个
样本估计总体的方差,则样本的平均数是:
Xm= X/n=(10+20)/2=15
现在假设我们已知Xm=15,X1=10,根据公式Xm= X/n,则有:
X2=2Xm-X1=2×15-10=20
由此我们可以知道在有两个数据样本中,当平均数的值和其
中一个数据的值已知时,另一个数据的值就不能自由变化
了,因此这个样本的自由度就减少一个,变成了(n-1)。
依此类推:在一组数据中,当其平均数和前面的数据都已
知时,最后一个数据就被固定而不能独立变化了,因此这
个样本能够独立自由变化的数目就是(n-1)个.
标准差对比
Coefficient of Variation
变异系数
相对变异程度的测量参数
是一个百分比的数据
用于比较两个或多个数组
计算公示
Coefficient of Variation
变异系数
Shape:分布描述
数据分布描述
峰度测量
左倾
均衡
右倾
Shape:分布描述
Skewness:偏度
–用于描述变量取值分布形态的统计量
3
–计算公式:
1 n
3


x

n
i 1
i

x /s
注意:偏态的方向是指长尾的方向
Kurtosis:峰度
–用于描述变量取值分布形态陡缓 程度的统计量
4
1 n
–计算公式:
4


x

n
i 1
i

 x /S 3
SPSS实例——基本统计
量
SPSS提供的描述统计过
程
频度分析(FREQUENCES)
描述统计(DESCRIPTIVES)
考查样本(EXPLORE)
频度分析过程:
FREQUENCES
频度分析过程的功能:
–计算单个变量各值的频数、百分数和某些
描述统计量,产生频数表,绘制条形图(离
散变量)和直方图(连续变量)。
频度分析过程的调用:
频度分析过程-对话框:
频度分析过程选项:
Display frequency tables显示频数分
布表
Statistics:选择输出统计量
–(1)Percentile Value:百分位数选项
• 􀁺Quartiles:四分位数,显示25%、50%、75%的百分位数
• 􀁺Cut points for equal groups:将数据分成为指定的
2~100之间相等的等份。如键入4,则被四等分,即计算四
分位数值。
• Percentile(s):由用户定义的百分位数。键入值的范围
在0~100之间。例如输入50,表示显示第50个百分数,它
的值与中值相等,在其下有50%的观测量落入其中。
频度分析过程
FREQUENCES
Statistics:选择输出统计量
–(2)Dispersion:离差
• 􀁺Std. Deviation:标准差
• 􀁺Variance:方差
• 􀁺Range:最大值与最小值之差(即极差)
• 􀁺Minimum:最小值
• 􀁺Maximum:最大值
• 􀁺S.E. mean :均值的标准误差
均值标准误差:它是一种均值变化的判别方法,对
于同一分布的总体来说,由于采样的样本不一样造成样本
的平均值不同。
频度分析过程
FREQUENCES
Statistics:选择输出统计量
–(3)Central Tendency:集中趋势指标
• 􀁺Mean:算术平均值
• 􀁺Medium:中位数
• 􀁺Mode:众数
• 􀁺Sum:算术和
频度分析过程
FREQUENCES
Statistics:选择输出统计量
–(4)Distribution:分布参数
• 􀁺Skewness:偏度,非对称分布指数
• 􀁺Kurtosis:峰度,围绕中心点的扩张程度
􀁺如果Skewness与Kurtosis的值接近0,表示观测量的分布
非常接近正态分布
􀁺如果Skewness> 0,表示为正偏
􀁺如果Kurtosis > 0,表明观测值分布比正态分布具有更尖
锐的峰型。
􀁺如果Skewness> 1,观测值分布与正态分布显著不同。
频度分析过程
FREQUENCES
Chart Type:图形类型
–None:不输出图形
–Bar Chart(s):输出条形图:条形图适合
于类别明确且类别有限的分类数据
–Pie Chart:饼图
–Histogram(s):选择此项要求作出直方图:
频度分析过程
FREQUENCES
重要提示:
–1. 在频数分析中,如果发现平均数与中值
差距很大,说明有极端case出现,在进行分
析时要去掉这些极端case。如下图所示:
频度分析过程
FREQUENCES
频度分析过程
FREQUENCES
重要提示:
–2.如果样本的分布斜歪,可以通过对样本
作一些变换来减少斜歪,如对样本作对数变
换,这样使样本的分布更接近于正态分布。
如下图所示:
频度分析过程
FREQUENCES
描述统计过程
DESCRIPTIVES
标准化变量,并在活动工作数据
文件中保存
描述统计过程
DESCRIPTIVES
DESCRIPTIVES输出统计量
–1.输出平均数、标准差、最大值、最小值
等FREQUENCIES计算的大部分统计量
–不包括中位数和众数
描述统计过程
DESCRIPTIVES
DESCRIPTIVES输出统计量
– 2.标准化所选择的变量(Z分数)
命名规则:在原变量前加z,如变量W所对应的Z分数量名称为ZW。
计算公式:
Z分数具有均值0,标准差为1。
作用:当观测值的单位不同时,Z分数变换把变量标准化到同一
个尺度上
操作:Save standardized values as variable
描述统计过程DESCRIPTIVES
DESCRIPTIVES输出统计量
–2.标准化所选择的变量(Z分数)
–实例
• 1. 以ex02_05.sav为例,对学生身高和体重进行DESCRIPTIVES分
析,并计算身高的Z分数。
• 2.对身高的Z分数作描述统计分析,注意其均值和标准差。
考查数据过程EXPLORE
考查的作用
–检查数据是否有错误
• 过大或多小的数据有可能是奇异数或错误数据
• 要分析过大或过小的原因
• 决定是否从分析中剔除
–了解样本的分布特征
• 如是否符合状态分布、方差是否相等
–对数据的规律的初步观察
• 通过初步观察尽可能的发现内在的一些规律。例如两个变
量之间是否线性相关等。
考查数据过程EXPLORE
考查数据过程EXPLORE选
项
考查数据过程EXPLORE
考察的方法
–1.箱图
–2.茎叶图
考查数据过程EXPLORE
箱图
–矩形框,是箱图的主体,上中下三
条线分别表示变量值的第75、50、
25百分位数。变量的50%的观测值
落在这一区域中。
–触须线,是中间的纵向直线。上截
止横线是变量值本体最大值;下截
止线是变量值本体最小值。本体即
除奇异值和极值以外的变量值称为
本体值。
考查数据过程EXPLORE
箱图
– 奇异值
• 奇异值,使用“0”标记。分大小两种。
箱体上方的用0标记,其变量值超过了第
75百分位点与第25百分位点上的变量差
值的1.5倍。箱体下方的用0标记的点,
其变量值小于第75百分位点与第25百分
位点上的变量差值的1.5倍。
– 极值
• 极值,使用“*”标记。上极值点的变量
值超过了第75百分位点与第25百分位点
上的变量差值的3倍。下极值点的变量值
小于第75百分位点与25百分位点上的变
量差值的3倍。
考查数据过程EXPLORE
输出统计量
–Descriptives:要求输出基本描述统计量。
选择此项将输出平均数、中位数、5%的调整
平均值、标准误、方差、标准差、最大值、
最小值、范围(极差)、等距四分位数、峰
度与偏度以及它们的标准误。
考查数据过程EXPLORE
输出统计量
– Confidence Interval for Mean:均值的置信区
间。95%为默认值。可以选择的范围从1%到99.99%。
均值的置信区间是一种区间估计的方法。
–区间估计粗略地说是用两个估计量θ1,θ2
(θ1<=θ2)所决定的区间[θ1,θ2]作为参数θ
取值范围的估计
–区间[θ1,θ2]不能太大,太大不能说明任何问题;
第二,这个估计必须有一定的可信程度,因此区间
[θ1,θ2]又不能太小,太小难以保证这一要求。
考查数据过程EXPLORE
输出统计量
–Confidence Interval for Mean:均值的置信区间。
在SPSS中通常选用90%,95%,99%三种置信水平,置
信水平越高得到的区间越大(区间越保守)。
–如对ex02_05.sav中的身高进行分析时,当置信水平
为99%时,得到的身高均值的区间估计为[156.8127,
164.4473],而当置信水平为95%时,得到的身高均值
的区间估计为[157.7976, 163.4624]。
考查数据过程EXPLORE
输出统计量
–M-estimators:最大稳健估计量,
最大稳健估计量可以很好的替代平均值和
中位数,它们受奇异值的影响要小
• 数据接近正态分布:Huber方法
• 数据明显不是正态分布:用Andrew, Hampel,
Tukey方法比较合适。
考查数据过程EXPLORE
输出统计量
–M-estimators:最大稳健估计量
之所以称为最大稳健估计量,是因为它们对正态性
偏移不敏感。
不同的Case采用不同的权重,极端值的权重小于均
值附近Case的权重。
它可以替代均值和中位数。
当数据呈带长尾的对称分布或数据含有极端值时,
使用它比均值和中位数更好。
考查数据过程EXPLORE
输出统计量
– Outlie:输出5个最大值与最小值。
– Percentiles:输出5%、10%、25%、50%、
75%、90%以及95%的百分位数。
考查数据过程EXPLORE
输出统计图
–Boxplot:箱图
–Descriptive:描述性图形
–Normality plots with tests:输出正态
概率与离散概率图及正态性检验
考查数据过程EXPLORE
输出结果
箱图
考查数据过程EXPLORE
输出结果
正态概率图
考查数据过程EXPLORE
输出结果
离散正态
概率图
考查数据过程EXPLORE
输出结果
–(3)茎叶图
• 􀁺茎叶图由三部分构成:频数、茎和叶
• 􀁺茎(Stem):表示数值的整数部分
• 􀁺叶(Leaf):表示数值的小数部分
• 􀁺茎叶所代表的数值近似为:(茎+叶)*茎宽
(stem width)
考查数据过程EXPLORE
输出结果
茎叶图
考查数据过程EXPLORE
输出结果
–茎叶图
• 􀁺第一行数据表示有一个极值或奇异值,其数值
小于或等于22
• 􀁺最后两行说明茎宽为10,每个叶子表示一个样
本
• 􀁺如最后一行茎叶图表示频度为3,茎为9,叶子
为118,就说明这一行有3个数值,分别为两个
9.1*10=91和9.8*10=98
考查数据过程EXPLORE
输出结果
–正态性检验
考查数据过程EXPLORE
输出结果
–Kolmogorov- Smirnov:用于检验数据是否成
正态分布
• 当Kolmogorov - Smirnov显著性水平大于0.05时,
接受正态分布的假设
• 当样本数目为50或50以下时,系统还计算Shapiro Wilk统计量
考查数据过程EXPLORE对
缺失值的处理
Option选项
考查数据过程EXPLORE
对缺失值的处理Option选项
–Exclude cases listwise选项:将因变量或分组变
量中含有缺失值的Case,从所有分析中剔除掉
–Exclude cases pairwise选项:剔除本分析中所用
因变量或分组变量中含有缺失值的Case 。
–Report values选项:将分组变量的缺失值单分出
一组进行分析。
本节内容
假设检验
–假设检验的基本思想
–假设检验的基本概念
–假设检验的统计方法
–单样本假设检验
• 基本统计原理
• SPSS应用实例
几个基本常识
统计分析常常采取抽样的研究方法。即从总体
中抽取一定数量的样本进行研究来推论总体的
特征。
由于总体中的每个个体间存在差异,即使严格
遵守随机抽样原则也会有样本统计量与总体参
数之间有所不同。
实验者测量技术的差别或测量仪器精确程度的
差别等也会造成一定的偏差,使样本统计量与
总体参数之间存在差异。
几个基本常识
均值不相等的两个样本不一定来自均值
不同的总体?
(从均值相等的总体里抽样的均值可能不
相等,这是抽样造成的)
两个样本的均值不同,其差异是否具有
统计意义,能否说明总体差异?
(只有样本均值的差异具有统计意义时,
才能推断总体均值有差异)
假设检验的基本思想
小概率事件
–一件事情发生与否的可能性用概率的大小
来表示。发生概率很小,如P=<0.05的事件
称为小概率事件
小概率反证法
–当实验过程中,小概率事件的对立面发生
可能性更大,如果小概率事件发生了,则说
明原假设不能被接受。
假设检验的概念
零假设(或原假设)
备择假设
假设检验的两类错误
显著性水平
单尾检验
双尾检验
零假设(null
hypothesis)
什么是零假设:
零假设代表的意思是“你所研究的
两个变量之间无关联”
The Null Hypothesis
(零假设),H0
零假设代表的意思是“你所研究的
两个变量之间无关联” 。
注意:该假设基于现状的估计
该假设必须包含“=”
该假设只有“拒绝”和“不拒
绝”
例如:
1) 如果我们研究城乡收入差异,我们的零假设可能是“城市人
的收入与农村人的收入无差异”(这暗示着城乡二元体制对收入
分配没有显著影响);
2) 如果我们研究不同的社会阶层在某一方面的社会态度问题,
我们的零假设可能是“私营企业主对经济改革的评价与工人无差
异”(这暗示着阶层地位对人们的社会态度没有显著影响);
3) 如果我们研究人们的受教育机会是否受于家庭出身背景的影
响,我们的零假设可能是“父亲的职业地位对个人的教育机会没
有显著影响”;
4) 如果我们要考查的是高考成绩与大学学习成绩之间是否有关
联(如第一章的例子),我们的零假设可能是“高考分数与大学
第一学年各科成绩总分无相关”。
上述这些零假设例子有一个共同的特征,它们都包含
着这样一个判断陈述:两个事物是相同的(equality)
或无差异,或者相互之间没有关联。
零假设的目的 1
零假设是我们研究的一个始点,因为,当我们对
这个事物没有什么了解或没有获得相关信息时,
它是一个可以接受的对这个事物的基本陈述。
无关联(lack of a relationship)作为研究始
点是假设检验的一个特点,在某种程度上,也通
常是定量研究(采取统计分析技术进行研究)的
一个特点。这也就是说,在你没有拿出证据证明
这两个群体之间存在系统差异时,你只能假定,
你所观查到的差异只是偶然现象或偶然因素的作
用(机遇或偶然chance)。
零假设的目的 2
零假设的第二目的是提供了一个基
准,使我们能够判断是否存在一些
非偶然因素导致了我们所观察的结
果,也就是说,它帮助我们分类了
两类导致差异的因素,一类是偶然
因素,另一类是非偶然因素。
The Alternative Hypothesis
(备择假设),H1
即零假设H0的反面
注意:该假设是对现状的挑战
该假设不能包含“=”
该假设只有“接受”和“不接
受”
假设检验的两类错误
第一类:零假设H0实际上是正确的,但由于抽
样误差的原因,或者说恰好发生了小概率事件
的原因,使得我们错误的拒绝了它,从而犯了
“弃真”的错误。犯第一类错误的概率实际上
就等于检验水平α
第二类:零假设H0实际上不正确,但由于抽样
误差的原因,检验中得到的P值大于检验水准,
使得我们未能拒绝H0,从而犯了“存伪”的错
误。一般用β表示。
α &β的关系
在样本容量N
一定的情况下,
两者是相反的;
要想两类错误
概率都减小,
只有增加样本
容量
显著性水平
零假设为真的情况下,假设检验这种方法形成
结论以及犯错误的概率零假设为伪的情况中,
假设检验形成正确结论的最小概率。
最重要的是,显著性水平是指假设检验这种方
法在各种可能的情况中形成结论的最小概率,
以及犯错误的最大概率
α、β都是指显著性水平,一般认为小于0.01
的错误概率,是具有显著性意义的。
单尾与双尾
单尾:备择假设以单方向形式表述
–如:城市人口收入高于农村人口收入
–新的教学方法优于传统教学法
双尾:检验假设是否发生变化,但
不清楚发生变化或差异的方向
–如:城市人口收入与农村人口收入是否存
在差异
–新的教学方法与传统教学法相比效果如何
假设检验的统计方法
参数估计
–总体分布参数已知,多用于连续变量的统
计推断
非参数估计
–总体分布参数未知,多用于有序分类变量
的统计推断
常见的分布
正态分布
二项分布
其他
正态分布
大量的随机变量都服从或近似服从
正态分布;
正态分布具有可加、可减等性质,
可导出新的分布
正态分布的性质
曲线关于均数对
称;
曲线峰的矮阔与
尖峭与标准差有
关,标准差越小,
个体差异越小,
正态曲线越尖峭
标准正态分布
假定
所以
相当于将分布的位
置参数移动到0,
使曲线沿y轴移动,
并且将分布的尺度
参数固定为1
标准正态分布也称
为z变换
二项分布
当试验结果只有两个,或者事件A发生,
或者事件A不发生,并且每次试验过程中
事件A发生的概率都保持不变,这种试验
所对应的数学模型称为二项分布
当样本数较大(>40),发生概率不接近
0,也不接近1的时候,二项分布非常接
近与正态分布。
二项分布曲线
发生概率等于
0.5时,图形
对称
试验次数增大,
图像逐渐对称
SPSS假设T检验类型
单样本假设检验
独立双样本假设检验
配对双样本假设检验
单样本假设检验
目的:推断样本相应的总体均数是否等
于(或大于小于)某个已知总体均数。
例如:一则统计消息表明,中国人的平
均IQ为100,而我们班的平均IQ为115,
这是否说明我们班同学比一般人要聪明?
One-sample Test:115 and 100?
单样本假设检验
零假设:样本均值等于已知总体均
值
所以,显著性水平数值越小,说明
两者没有差别的可能性越小
单样本假设检验的
基本统计原理
主要内容:
–Z Test for the Mean (σ Known) (Z检验方法,
σ已知)
–t Test of Hypothesis for the Mean (t检验
方法)
–p-Value Approach to Hypothesis Testing(P值检验方法)
Z检验(σ已知)
适用于大样本,已知总体的标准差,求样本均值
与总体均值之间的差异
将样本统计值转化为标准化统计量:
计算Z与α所对应的临界值之间的差异,如果超出,
则拒绝原假设,否则,不拒绝原假设
T检验( σ 未知)
假设总体样本为正态分布
T检验统计量:
由于总体标准差未知,这里用样本标准
差S代替总体标准差进行计算,而相应的
标准化后的统计量也就被称为t统计量。
Z分布与t分布
P-值检验方法
比较样本检验得到的概率与零假设
为真时的概率
If p value ≥α,不拒绝 H0
If p value <α, 拒绝H0
独立双样本假设检验
目的:比较两个(没有关系的)总体均
数是否相等。
例如:两组城市居民收入抽样数据,北
京居民月收入为3500,深圳居民月收入
4000,能否说深圳居民收入就高于北京
的居民收入?
独立双样本假设检验
零假设:两个总体的均数是相等的
所以,显著性水平数值越小,说明
两者没有差别的可能性越小
独立双样本假设检验
—基本原理
主要内容:
–Comparing Two Independent Samples (两
个独立样本的比较):
• Z Test for the Difference in Two Means (Z
检验方法)
• t Test for Difference in Two Means (t检
验方法)
–F Test for Difference in two Variances
(方差相等检验,F检验)
Z检验方法
(总体方差已知)
前提假设:样本随机,并且相互独
立
检验统计量:
t检验方法
(总体方差未知)
假设:两个总体相互独立,并且均为正
态分布
检验统计量:
F检验
检验统计量
F检验的步骤
配对双样本检验
同一受试对象处理前后的数据
同一受试对象两个部位的数据
同一样本用两种方法检验的结果
配对的两个受试对象分别接受两种
处理后的数据
配对双样本假设检验
零假设:配对双样本前后没有区别,
区别为0
所以,显著性水平数值越小,说明
两者没有差别的可能性越小
配对t检验
基本原理:求出每对的差值,如果两种处理没
有差异,则差值的总体均数为0,反之,总体
均数及样本均数应当远离0
统计量为:
实际上,配对T检验就相当于单样本的t检验,
只是考察的不是原始数据,而是差值
配对双样本T检验
注意事项:
仅适用于两个相关的样本进行比较
两组样本的误差假定为正态分布
在t检验之前,可通过差值的分布如
直方图来初步评价其分布
在t检验之前,应首先检验其中异常
值或极值,避免得出错误结论
本节内容
方差分析(一)
– 单因素方差分析基本原理
• 总体变异=组间变异+组内变异
• 组间变异/组内变异符合F分布
– SPSS单因素方差分析实例
•
•
•
•
数的直观表示
方差齐性检验
对比分析
多重比较分析
– 单因素方差分析补充问题
• 方差不齐、样本容量一致
• 方差不齐、样本容量也不一致
方差分析
(Analysis of variation)
所解决的问题:
解决单个或多个因素之下的多个不同水平之
间的关系问题
基本原理:
将总变异分解为由研究因素所造成的部分和
由抽样误差所造成的部分,通过比较来自不
同部分的变异,借助F分布做出统计推断。
单因素方差分析理论基础
解决问题:一个因素下多个不同水平
适用条件:
– 观察对象来自于所研究因素的各个水平之下的独立随机抽样
– 每个水平下的因变量应服从于正态分布
– 各水平下的总体具有相同的方差
适用条件对分析结果的影响
– 独立性:对方差分析的结果影响较大
– 正态性:对方差分析的结果影响不大
– 方差齐性:当个组样本含量相差不太大时,对方差分析的结果会
有少许影响
– 样本含量:其均衡性可在一定程度上弥补正态性或方差齐性不满
足对检验结论的影响
方差分析的假设检验
所有总体的均值相等
总体均值不同或者不全相同
变异分解公式
组间差异(非随机
因素)
组内差异(随机因素)
Total Variation (总变异)
Xij = 第J组第i个样本值
Nj = 第J组的样本个数
N = 所有组的样本个数
C = 组的数目
Among-Group Variation
(组间变异)
Nj = 第 j组数据的样本个数
C = 样本组的个数
第 j组数据平均值
所有数据的平均值
Within-Group Variation
(组内变异)
第 j组样本的第i个观察值
第 j组样本的平均值
One-Way ANOVA
Summary Table
单因素方差分析示例
有三组数据,来
自不同的地区,
请问不同地区,
在0.05的置信水
平上,样本数据
是否存在不同?
散点图
计算过程
总表
=25.60
结论
在
拒绝原假设
结论:
至少有一组平均值与其
他组不同
多重比较法
将每组数据与其他所有组数据进行
比较,称之为多重比较法
多重比较法可进一步比较不同组数
据间的差异
多重比较法可选择以上各两两比较
法进行比较,还可在不满足方差齐
性的条件下进行比较
两两比较法
LSD:最小显著差法(t检验的简单变形)
Sidak:Sidak校正在LSD方法中的应用
Bonferroni :Bonferroni校正在LSD方法中的应用
Scheffe:对多组均数间的线性组合是否为0进行假设
检验,多用于样本含量不等时的比较
Dunnett:用于多个实验组与一个对照组间的比较
S-N-K:利用Studentized Range分布进行假设检验
Tukey:利用Studentized Range分布进行均值比较
Duncan:类似于S-N-K,不过服从于Duncan分布
SPSS单因素方差分析实
例
对不同水平下随机变量的统计
方差齐性检验
平均值图
对比分析
多重比较
SPSS单因素方差分析实
例
为了比较不同年龄的消费者对一种新的DVD影碟机的评
价是否有所不同
原始数据:dvdplayer.sav
步骤一: 直观展示分组数
据差异
•Analyze/Compare Means/One-Way ANOVA...
Means Plot
1.选择DVD评价自变量.
2.选择年龄组作为因素
变量.
3.点击Options.
4.选中Means Plot
Means Plot
步骤一:直观展示分组数
据差异
Graphs/ ErrorBar...
步骤一:直观展示分组数
据差异
1.选择DVD评价作为分
析变量
2.选择年龄组作为分类
变量
3.选择平均值标准误差
作为柱状图的表示
4.设置Multiplier = 1.
5.点击OK.
Error Bar
步骤二:方差齐性检验
Analyze/Compare Means/One-Way ANOVA...
步骤二:方差齐性检验
1. 选择DVD评价作为
自变量.
2. 选择年龄组作为
因素变量.
3. 选择Options.
4. 选择Descriptive
和方差一致性检
验.
5. 选择Continue
6. 选择OK
步骤二:方差齐性检验
Sig远远大于0.1,可见零假设不能拒
绝,即各组的方差相等
步骤三:ANOVA分析
单因素方差分析结果的显著性水平
为0.001,因此必须拒绝不同年龄对
DVD产品的评价没有区别的零假设。
步骤三:ANOVA分析
从Means Plot可以
直观的看到不同组
数据平均值的差别
其中32-45岁对该
DVD的评价比一般高
进一步分析可采用
两两比较或多重比
较
步骤四:对比分析
(Contrasts)
比如:
32-38岁的人和39-45岁的人群之间
是否存在差异?
32岁以下和45岁以上的人群又是否
是一致的
步骤四:对比分析
(Contrasts)
选择DVD评价作为
自变量.
选择年龄组作为
因素变量.
选择Contrasts
步骤四:对比分析
(Contrasts)
第一组对比:32-38岁的人和39-45岁的人群
之间是否存在差异?
只评价第3组(32-38)和第四组(3942),因此其他组的权重设为0
输入0作为第1组数据的权重,点击add
输入0作为第2组数据的权重,点击add
接着添加第3组和第4组数据的权重,
其和加起来应为0
输入-1作为第3组数据的权重,点击
add
输入1作为第4组数据的权重,点击add
输入0作为第5组数据的权重,点击add
输入0作为第6组数据的权重,点击add
步骤四:对比分析
(Contrasts)
第二组对比:32岁以下和45岁以上的人群又是否是
一致的
1. 点击Next,设置第二组对比
2. 这里只比较第1,2组和第5,6组之间是
否有差异,第3、4组不进行比较;输入0
作为第1组数据的权重,点击add
3. 输入0.5作为第1组数据的权重,点击add
4. 输入0.5作为第2组数据的权重,点击add
5. 输入0作为第3组数据的权重,点击add
6. 输入0作为第4组数据的权重,点击add
7. 输入-0.5作为第5组数据的权重,点击
add
8. 输入-0.5作为第6组数据的权重,点击
add
步骤四:对比分析
(Contrasts)
如果32-38和39-45两个年龄组的人
对DVD的评价一致,则两者的差别应
接近于0,所以设置两组的系数分别
为-1和1。
步骤四:对比分析
(Contrasts)
如果32岁以下和45岁以上没有差别,则
32岁以下的人,即18-24和24-31这两个
组的平均值加起来应和46-52以及53-59
这两组的平均值相等;所以分别设其系
数为0.5和-0.5
步骤四:对比分析
(Contrasts)
注意:其结果是分为两种的,第一行为方
差相等的情况下;第二行为方差不相等
的情况下。
这里前面已经证明过方差齐性,所以只用
关注第一行结果
步骤四:对比分析
(Contrasts)
第一组对比结果的sig大于0.1,说明32-38与
39-45两组对DVD的评价一致的可能性较高;
第二组对比结果的sig也大于0.1,说明32以下
与45岁以上的人群对DVD的评价一致的可能性
也比较高;
步骤五:多重比较
最常用的两种比较方法:
步骤五:多重比较
这个表格是两
两进行比较的
结果
Mean
difference 指
两组平均值的
差.
Sig为两组无差
别的可能性,
即显著性水平
95%的置信区间
指两组样本的
差值所在的区
间,如果包含0,
则可能差别不
大。
SPSS单因素方差分析补
充(1)
ANOVA在方差齐性下结果最为可靠.
ANOVA在各组样本个数一致或接近时,
结果也比较可信
所以,如果方差不齐,但各组样本
个数一致或接近,仍然可以用ANOVA
来检验各组数据是否一致.
SPSS单因素方差实例二
培训天数的不同与
表现分数之间是否
存在着联系
原始数据:
saleperformance.s
av
SPSS单因素方差实例二
SPSS单因素方差实例二
一致性检验表明各组数据的方差并
不一致,但由于各组样本数一致,
所以仍然可以用ANOVA来检验
SPSS单因素方差实例二
但是由于方
差不一致,
在两两比较
的方法选择
上应采用其
他方法
SPSS单因素方差实例二
培训一天的结果显然要低于其他组
培训2天和3天的结果区别不大
SPSS单因素方差实例二
方差齐性子集表明,在0.5的显著性水平上,第1组数据是
单独的;而第2组和第3组数据是一组
这表明,第1组数据与第2、3不同,但第2和3组的方差并
没有区别
SPSS单因素方差实例二
从3组数据的标准差来看,尽管培训2天
和3天得到的分数差别不大,但是接受培
训的人之间的差异小了很多。
SPSS单因素方差分析补
充(2)
多重检验的结果依赖于F统计的可靠性.
F统计在方差不等,但样本大小一致或接
近时仍然可以使用,但是如果方差和样
本大小都不一致,则F统计有可能得出错
误的结论
SPSS单因素方差实例三
顾客抱怨在银行
等待的时间过长,
我们想了解不同
地区的银行顾客
等待服务的时间
是否有差别
原始数据:
waittime.sav
SPSS单因素方差实例三
各组样本数
SPSS提供两种F统计可靠性检验
– Brown-Forsythe检验
– Welch统计检验
当样本大小和方差不一致时,Welch检验结果
比Brown-Forsythe检验更为可靠
SPSS单因素方差实例三
一致性检验
可靠性检验
SPSS单因素方差实例三
一致性检验结果表明各组
数据的方差并不一致。
由于其各组样本数目也不
一致,因此需要用到可靠性
检验
尽管相关的ANOVA检验表明显著性水平大于0.05(非常
接近),但由于样本大小并不相等,这个结果未必正确!
SPSS单因素方差实例三
Brown-Forsythe检验表明sig小于0.05
但Welch统计表明sig大于0.5
因为在样本大小和方差均不等的情况下,
Welch统计更为可靠,所以以Welch统计
结果为参考。
SPSS单因素方差实例三
SPSS单因素方差实例三
删除极端值
方法选择策略
一般可以参照如下标准:
如果存在明确的对照组,要进行的是验证性研
究,即计划好的某两个或几个组间(和对照组)
的比较,宜用Bonferroni(LSD)法;
若需要进行的是多个均数间的两两比较(探索
性研究),且各组个案数相等,适宜用Tukey
法;
其它情况宜用Scheffe法和S-N-K法。
本节内容
单因素方法分析
–例二:方差不一致,但样本大小一致
–例三:方差不一致,样本大小也不一致
多因素方差分析
–固定因素方差分析
SPSS单因素方差分析补
充(1)
ANOVA在方差齐性下结果最为可靠.
ANOVA在各组样本个数一致或接近时,
结果也比较可信
所以,如果方差不齐,但各组样本
个数一致或接近,仍然可以用ANOVA
来检验各组数据是否一致.
SPSS单因素方差实例二
培训天数的不同与
表现分数之间是否
存在着联系
原始数据:
saleperformance.s
av
SPSS单因素方差实例二
SPSS单因素方差实例二
一致性检验表明各组数据的方差并
不一致,但由于各组样本数一致,
所以仍然可以用ANOVA来检验
SPSS单因素方差实例二
但是由于方
差不一致,
在两两比较
的方法选择
上应采用其
他方法
SPSS单因素方差实例二
培训一天的结果显然要低于其他组
培训2天和3天的结果区别不大
SPSS单因素方差实例二
方差齐性子集表明,在0.5的显著性水平上,第1组数据是
单独的;而第2组和第3组数据是一组
这表明,第1组数据与第2、3不同,但第2和3组的方差并
没有区别
SPSS单因素方差实例二
从3组数据的标准差来看,尽管培训2天
和3天得到的分数差别不大,但是接受培
训的人之间的差异小了很多。
SPSS单因素方差分析补
充(2)
多重检验的结果依赖于F统计的可靠性.
F统计在方差不等,但样本大小一致或接
近时仍然可以使用,但是如果方差和样
本大小都不一致,则F统计有可能得出错
误的结论
SPSS单因素方差实例三
顾客抱怨在银行
等待的时间过长,
我们想了解不同
地区的银行顾客
等待服务的时间
是否有差别
原始数据:
waittime.sav
SPSS单因素方差实例三
各组样本数
SPSS提供两种F统计可靠性检验
– Brown-Forsythe检验
– Welch统计检验
当样本大小和方差不一致时,Welch检验结果
比Brown-Forsythe检验更为可靠
SPSS单因素方差实例三
一致性检验
可靠性检验
SPSS单因素方差实例三
一致性检验结果表明各组
数据的方差并不一致。
由于其各组样本数目也不
一致,因此需要用到可靠性
检验
尽管相关的ANOVA检验表明显著性水平大于0.05(非常
接近),但由于样本大小并不相等,这个结果未必正确!
SPSS单因素方差实例三
Brown-Forsythe检验表明sig小于0.05
但Welch统计表明sig大于0.05
因为在样本大小和方差均不等的情况下,
Welch统计更为可靠,所以以Welch统计
结果为参考。
SPSS单因素方差实例三
SPSS单因素方差实例三
删除极端值
方法选择策略
一般可以参照如下标准:
如果存在明确的对照组,要进行的是验证性研
究,即计划好的某两个或几个组间(和对照组)
的比较,宜用Bonferroni(LSD)法;
若需要进行的是多个均数间的两两比较(探索
性研究),且各组个案数相等,适宜用Tukey
法;
其它情况宜用Scheffe法和S-N-K法。
多因素方差分析
Two-Way ANOVA
检验两种不同因素或处理下变量在不同
水平下的联系
例如:不同性别不同年级的学生之间对创
业、卫生条件、心理健康、消费习惯等
等的看法
例如:不同时期(平时、假日)不同时间
段地铁接驳站的使用率
固定因素方差分析
Fixed-effects factorsare generally
thought of as variables whose values of
interest are all represented in the data
file.(固定因素指的是该因素在样本中所有
可能的水平都已经出现了。换言之,该因素的
所有可能的水平仅此几种)
固定因素分析实例:要研究三种促销手段的效
果有无差别,所有样本只会是三种促销方式之
一,不存在第四种促销手段的问题,则该因素
就被认为是固定因素。
随机因素方差分析
Random-effects factorsare variables
whose values in the data file can be
considered a random sample from a larger
population of values. They are useful
for explaining excess variability in the
dependent variable. (随机因素指的是该因
素的所有可能的取值没有在样本中都出现,或
不可能都出现)
随机因素实例:如不同时间的交通流量,通常
我们不会全天24小时的进行监测,只能通过选
取几个时间段的数据来推测,因此,它是一个
随机因素。
Two-Way ANOVA适用条
件
正态性
–总体均为正态分布
方差齐性
–总体具有相同的方差
误差独立
–随机误差独立
Two-Way ANOVA变异分
解
Two-Way ANOVA假设检
验
Two-Way ANOVA结果汇
总
SPSS多因素方差分析实
例
杂货连锁店想要调查顾客的消费习惯。了解其
消费总额与消费频率以及性别的关系
原始数据:grocery_1month.sav
操作步骤(1)
Analyze/General Linear Model/Univariate...
操作步骤(2)
——主对话框
选择消费总量作为
自变量.
选择性别和消费类
型作为固定因素.
操作步骤(3)
——Plots对话框
选择类型作为
横轴变量.
选择性别作为
分离线变量.
点击添加及继
续.
操作步骤(4)
——Post hoc对话框
选择类型作为多重比
较的对象
选择Tukey作为方差齐
性条件下的检验方法.
选择Tamhane‘s T2 作
为方差不齐下的检验
方法.
点击继续.
操作步骤(5)
——Option对话框
显示性别*类型的平均值.
选择描述性统计Descriptive
statistics 、方差一致性检
验Homogeneity tests 、影
响评估Estimates of effect
size和方差齐次性检验图
Spread vs. level plot.
点击继续.
OK
结果解释(1)
描述性统计结果表明,消费频率
越高,其消费总额越高。
结果解释(2)
误差方差的齐性检验
检验六组数据的误差是否具有方差一致
性。Sig值为0.330,大于0.1,因此,可
以认为不同组数据在描述统计中存在的
方差差别主要是由于随机样本的影响。
结果解释(3)
各组数据的平均
值与标准偏差之
间的散点图
提供一个直观的
方差齐性检验,
并揭示平均值与
标准偏差之间的
关系
本图中两者之间
的关系并不明显
结果解释(4)
本结果表显示的是处理因素的统计意义。但需要注意
的是,它并不能显示不同处理水平下的统计差异。
除style外,其余各项的Sig均小于0.05,说明除style
外,其余各项对因变量有显著的统计差异影响。
结果解释(5)
多重比较结果表:第一列为不同的比较方法;第二列为不同
处理水平的对比(即不同消费频率下的消费总额对比);第
三列为不同组之间差异的统计变量及其显著性水平。当显著
性水平小于0.05时,说明两组处理具有显著差异。
结果解释(5)
当sig小于0.05时,会自动添加一个星号(*)
本结果表明不同的消费频率对消费总额的影响
并不显著
结果解释(5)
当样本含量不一致的情
况下,Tamhane’s T2方法
比Tukey HSD方法更合适,
一般情况下两者的结果
差别不大
置信区间中Tamhane’s T2得
到的置信区间比Tukey HSD
稍微大一些。由于两者结果
差别不大,因此可进一步探
讨其方差齐性的检验结果
结果解释(6)
一致性检验显
示的是方差齐
性检验结果
它将具有相近
或一致方差的
组放在同一个
subset之中。
注意:
以上结果表明:不同的消费频率对消费总
额并没有显著的差异,也就没有必要采取
吸引消费者提高消费频率的措施了。这个
结论是否成立?
需要注意的是:以上的结果并没有考虑到
消费者性别的影响,而仅仅是针对不同的
消费频率来研究的。因此,需要进一步研
究不同性别在不同消费频率下对消费总额
的影响
结果解释(7)
本表显示的是不同性别在不同消费频率下的消
费平均值及标准误差等
比较性别与消费频率的交叉影响
结果解释(7)
从上表可以看到,男性顾客在weekly和often的消费频率
上,weekly的消费总额要高于often;而女性顾客则刚好
相反,often的消费总额要高于weekly。
可见不同的消费频率上,性别对消费总额的影响具有显
著差异
结果解释(7)
上述结果表明,性别和消费频率上存在着相互
影响。如果没有这个相互影响,那么对于不同
性别的顾客来说,不同的消费频率之间的消费
总额差别应为常数
结果解释(7)
Profile
Plots可以直
观的显示不
同性别下不
同消费频率
的消费总额
的估计边缘
平均数(指
修正后的平
均值)
结果解释(7)
如果不存在交叉
影响,这里两条
线应该是平行的,
这里对男性而言,
趋势向下,而对
女性趋势向上
因此,必须进一
步研究两者的交
叉影响
结果解释(8)
交叉影响的结果表明,其显著性水
平小于0.05,可见这里存在着强烈
的交叉影响
结果解释(8)
Estimates of effects size选项输出计算的
偏Eta(η)平方,它用于表示由该因素所导致
的变异占因变量总变异的比例,等价于回归分
析中的测定系数(R2)
结果解释(8)
Partial Eta Squared的值越大,说明其所导
致的变异程度越大
本例中,各项导致的变异尽管具有统计意义,
但是对消费总额的影响并不大。
总结
本例中,Post Hoc检验并不能揭示不同消费
习惯的顾客在消费总额上的差异;
但estimated marginal means和profile
plots表明两种因素之间存在着相互作用,
其中男性每周消费一次的消费总额要高于经
常来消费的男性,而女性则刚好相反
ANOVA结果进一步验证了两者的相互影响。
本节内容
多因素方差分析
–随机因素方差分析
–协方差分析
随机因素的方差分析
固定因素
方差分析
随机因素
方差分析
SPSS随机因素方差分析
实例
杂货连锁店为考察顾客消费习惯与消费
总额之间的关系。
很多种因素会影响到顾客的消费习惯。
如购买对象、优惠卷的使用等。如果增
加店的位置作为消费习惯调查的一个随
机因素,可以减少不可解释的变异,从
而增加模型的精度。
原始数据:grocery_1month.sav
操作步骤(1)主对话框
(不考虑随机因素)
Analyze/General
Linear
Model/Univariate...
选择消费总额作为自变
量.
选择消费目的和是否使
用优惠卷作为固定因素.
操作步骤(2)Options
(不考虑随机因素)
选择影响因子评
价.
点击Continue.
点击OK
结果分析—方差分析表
(不考虑随机因素)
结果表明,所有因素的Sig均小于0.05,也就是所有因
素对消费总额的影响都是具有统计意义的
那么,考虑店址的随机因素会对模型结果造成什么样
的影响呢?
操作步骤(1)主对话框
(考虑随机因素)
重新打开
Univariate对
话框.
选择店地址作
为随机因素.
构建模型
操作步骤(2)用户自定义
Model
选择自定义模型.
选择消费目的和是否使用优惠
卷,并选中Main effects作为
模型主要考虑因素.
同时还要考虑两者之间的交互
影响,选择消费目的和是否使
用优惠卷,并选中Interaction
作为评价类型.
将店址作为主要因素选择在内.
点击 Continue.
操作步骤(3)Options
(考虑随机因素)
同样,选择影响
评价.
点击Continue.
点击OK
结果分析—方差分析表(1)
(不考虑随机因素与考虑随
机因素)
Store ID的
加入减少了
不可解释的
误差部分。
结果分析—方差分析表(2)
(不考虑随机因素与考虑随
机因素)
此外,还减少了
主要因素对方差
的贡献。这说明
部分方差用店的
地址可以解释得
更好
结果分析—方差分析表(3)
(不考虑随机因素与考虑随
机因素)
最重要的是每个
因素所能解释的
方差百分比相对
增加了。这说明
整个模型的精度
有所提高。
随机因素的方差分析补充
说明
本例中,增加了一个随机因素,也
就增加了对模型的解释度
随机因素的影响通常并不对问题产
生直接影响,需要对问题有一定的
预见性,如考虑到店之间的差异可
能对模型有用,并在数据收集过程
中将其考虑在内。
协方差分析
实验设计的目的之一就是尽力排除非处理因素
的干扰和影响,从而准确地获得处理因素的实
验效应。
然而在实际工作中,某些因素在实验阶段难以
控制(如学生的初始成绩对最终成绩的影响)
为了控制这些因素对因变量的影响,可在统计
阶段利用协方差分析(Analysis of
Covariance),通过统计模型的校正消除这些
因素(又称协变量)的影响。
协方差分析的策略
协方差分析:利用线性回归方法消除混
杂因素的影响后进行的方差分析。
协方差应用实例:如考虑药物对患者的
影响,主要是用方差分析确定药物的有
效性。
混杂因素:
• 患者病程的长短
• 年龄
• 原病情对疗效的影响等。
协方差分析的适用条件
各组协变量与因变量的关系是线性
的;
各组残差正态分布;
各组回归方程的斜率相等,即各组
回归线应是平行的。
平行性假定的检验
方法一:根据散点图来判定两组直
线趋势是否近似
方法二:通过固定因素与协变量的
交互效应来判断,如果交互作用无
统计意见,则可以认为各组的效率
相同。
协方差分析实例
实例:研究镉作业工人
肺活量与接触时间的关
系,考虑年龄可能对肺
活量有影响。
数据文件:
VitalCapacity.sav
– time:1:大于10年
2:不足10年
– age:年龄
– vitalcp:肺活量,单位为升
平行性假定的检验-
基于交互效应方法
方差分析结果表明交互作用无统计学意
义,因此两组的斜率可以认为相同,大
致符合协方差分析的条件
操作步骤——主对话框
选肺活量作为分
析变量
选择时间作为固
定因素
选择年龄作为协
变量
结果解释
结果分析:
由方差分析的结果可以得出结论:肺活量的差异
主要受年龄差异所致。与受试者接触镉粉的时间
是否大于10年无关。
本节内容
非参数检验
–配对双样本
–独立双样本
–多个样本
问题的提出
前面学习了连续型资料两组样本均
数差异的假设检验方法:
–小样本用t检验,条件是变量服从正态分布
和方差齐。
–大样本用Z检验(中心极限定理)。
问题的提出
如果是小样本,变量的分布不清、
已知不服从正态分布或经数学转换
后仍不服从正态分布时,如何检验
两个样本或多个样本均数差异的统
计学意义呢?
需要一种不依赖于分布假定的检验
方法,即非参数检验
基本概念
前面介绍的检验方法首先假定变量服从
特定的已知分布(如正态分布),然后
对分布的参数(如均数)作检验。这类
检验方法称为参数检验。
今天介绍的检验方法不对变量的分布作
严格假定,检验不针对特定的参数,而
是模糊地对变量分布的中心位置或分布
形态作检验。这类检验称非参数检验,
由于其对总体分布不作严格假定,所以
又称任意分布检验。
特点
优点:
–不受总体分布的限制,适用范围广。
–适宜定量模糊的变量和等级变量。
–方法简便易学。
缺点:
–对于适合用参数检验的资料,如用非参数检
验会造成信息的丢失,犯第Ⅱ类错误的概率
增大,造成检验功效下降。
基本思想
例:假设有一组观察值为1.1, 1.3, 1.7,
4.3, 11.4 。
显然这一变量不服从正态分布,观察值间差异
较大,既不对称,标准差也较大。
如果将变量作转换,变成秩变量Y=1,2,3,4,
5,则分布对称了,观察值间的差异也均匀了,
标准差也减小了。
对秩和分布的中心位置(平均秩和)作检验,这
就是秩和检验。
配对样本的符号秩检验
例:研究出生先后的孪生兄弟智力是否存在差异?
对子号
兄的得分
弟的得分
兄弟得分差
秩次
1
86
88
2
3
2
71
77
6
7
3
77
76
-1
-1.5
4
68
64
-4
-4
5
91
96
5
5.5
6
72
72
0
-
7
77
65
-12
-10
8
91
90
-1
-1.5
9
70
65
-5
-5.5
10
71
80
9
9
11
88
81
-7
-8
12
87
72
-15
-11
n=4时所有可能秩和情况和T*的分布
正差数的秩次
负差值的秩次
正秩和T+
负秩和T-
概率P
1,2,3,4
--
10
0
0.0625
2,3,4
1
9
1
0.0625
1,3,4
2
8
2
0.0625
1,2,4
3
7
3
0.1250
3,4
1,2
7
3
1,2,3
4
6
4
2,4
1,3
6
4
1,4
2,3
5
5
2,3
1,4
5
5
1,3
2,4
4
6
4
1,2,3
4
6
1,2
3,4
3
7
3
1,2,4
3
7
2
1,3,4
2
8
0.0625
1
2,3,4
1
9
0.0625
-
1,2,3,4
0
10
0.0625
0.1250
0.1250
0.1250
0.1250
Tips1
两个配对样本的非参数检验,最常
用的是Wilcoxon秩和检验
其基本思想是:若检验假设成立,
则两组的秩和不应相差太大。不仅
考虑了样本配对数据差异的方向,
同时又考虑到差数的顺序
独立双样本的非参数检验
例:厨房的装修成本与主卧室的装
修成本是否存在差异
主卧室
厨房
主卧室
厨房
25200
18000
23000
17800
17400
22900
19700
24600
22800
26400
16900
21000
21900
24800
21800
19700
26900
23600
计算过程
检验原假设:H0:两总体的中位数相等;
编秩和计算秩和:两组由小到大混合编
秩,有相同值求平均秩(同组相同值可不
求平均秩),求例数较少组的秩和(T)。
确定概率,下结论:T值在表中两数值之
间时,p值大于相应界值,T位于区间之
外,P<相应界值。
Tips2
两个独立样本的非参数检验,Mannwhitney U检验是功效最强、应用最
广的非参数检验。其原假设为两者
中心位置一致;
Tips3
对多个独立样本的非参数检验,
SPSS提供了Kruskal-wallis检验和
Median中位数法及JonckheereTerpstra方法(此法的检验效能要
高于Kruskal-wallis检验)
Tips4
多个配对样本的非参数检验,SPSS
提供了Friedman检验和Kendall协和
系数以及Cochran检验方法
本节内容
相关分析
–线性相关分析
–偏相关分析
–距离分析
相关分析
考察两个连续变量之间的关系,并
采用定量的指标来描述这种联系
连续变量的相关指标:Pearson相关
系数/Spearman相关系数
有序变量的相关指标:Gamma /
Kendall’s / 其他
相关系数
考查两个事物(在数据里我们称之
为变量)之间的关联程度
也就是说,当某一个变量发生变化
时,另一个变量会产生什么变化
相关系数是对两个变量之间关系的
量度,或者说两个变量变化的共同
趋势有多少
皮尔逊相关系数I
如果两个变量都是连续变量(如年
龄、身高、收入等),我们采用
Pearson product-moment
correlation来测量。简称皮尔逊相
关系数,其值在-1至+1之间。
皮尔逊相关系数II
如果有两个变量,X、Y
当相关系数为0时,X和Y两变量无关系。
当X的值增大,Y也增大,正相关关系,
相关系数在0.00与1.00之间
当X的值减小,Y也减小,正相关关系,
相关系数在0.00与1.00之间
当X的值增大,Y减小,负相关关系,相
关系数在-1.00与0.00之间
当X的值减小,Y增大,负相关关系,相
关系数在-1.00与0.00之间
皮尔逊相关系数III
相关系数的绝对值越大,相关性越强,
相关系数越接近于1和-1,相关度越强,
相关系数越接近于0,相关度越弱。
通常情况下:
相关系数0.8-1.0为极强相关
0.6-0.8为强相关
0.4-0.6为中等程度相关
0.2-0.4为弱相关
0.0-0.2为极弱相关或无相关
皮尔逊相关系数IV
相关系数公式
r  l xy / l xxl yy
n
l xx   ( xi  x) 2 /(n  1)
i 1
n
l xy   ( xi  x)( yi  y) /(n  1)
i 1
图视相关系数:散点图(scatterplot)
图1:完全相关(相关系数r=1 )
12
10
8
6
4
Y
2
0
0
X
2
4
6
8
10
12
图2:正相关(相关系数r=0.702)
12
10
8
6
Y1
4
2
2
X1
3
4
5
6
7
8
9
10
图3:负相关(相关系数r= - 0.8)
12
10
8
6
4
Y2
2
0
2
X2
3
4
5
6
7
8
9
10
图4 不相关(相关系数r=0.071)
12
10
8
6
4
Y3
2
0
0
X3
2
4
6
8
10
相关系数的检验
原假设:两变量间无直线相关关系
检验方法:t检验。检验相关系数r
是否来自于平均值为0的正态分布总
体。
Pearson相关系数的适用条
件
变量间为线性相关,无法计量曲线
相关等复杂的情形;
样本中存在的极端值对计算结果影
响极大,需慎重考虑
两个变量呈双变量正态分布
Spearman相关系数I
利用两变量的秩次大小作为线性相
关分析,对原始变量的分布不做要
求,属于非参数统计方法。
适用范围较Pearson相关系数要广,
但统计效能要比Pearson相关系数低
一些
Spearman相关系数II
计算公式完全套用Pearson相关系数,
但其中的x,y用其相对应的秩次代替
即可
Kendall相关系数
用于反映分类变量相关性的指标,
适用于两个变量均为有序分类的情
况
SPSS相关分析操作步骤
􀁺建立数据文件
􀁺单击Analyze / Correlate /
Bivariate
􀁺选择分析变量
􀁺提交运行
􀁺输出结果及对其解释
计算积距相关系数,连续
性变量才可采用。
计算Kendall秩相关系数,
适合于定序变量或不满足
正态分布假设的等间隔数
据。
计算Spearman秩相关系数,
适合于定序变量或不满足
正态分布假设的等间隔数
据。
• 不清楚变量之间是正相关
还是负相关时选择此项。
• 清楚变量之间是正相关还
是负相关时可选择此项。
在输出结果中,相关系数
的右上角上有“*”则表
示显著性水平为0.05;右
上角上有“**”则表示
显著性水平为0.01。
对每一个变量
输出均值、标
准差和无缺省
值的观测数。
对每一个变量
输出叉积距阵
和协方差距阵。
计算某个统计量时,在这
一对变量中排除有缺省值
的观测值。
对于任何分析,有缺省值
的观测值都会被排除。
Pearson相关系数计算
数据文件:exercise.sav
步骤一:散点图
步骤二:选项
步骤三:结果分析
相关系数为
-0.899,两
者成负相关,
在0.01的水
平下具有显
著意义。
Spearman相关系数计算
为研究集团迫使个人顺从的效应,一些
研究者用F量表和为测量地位欲而设计的
一种量表对12名大学生进行调查。欲知
道对权威主义的评分之间相关的信息。
分析步骤
1)输入数据,依次单击Analyze—Correlate—
Bivariate,打开BivariateCorrelations对话框
2)选择power和position 变量进入Variables框中。
3)在Correlation Coefficients栏内选择
Spearman选项。
4)在Test of Significance栏选择Two-tailed。
5)选择Flag significant correlation。
6)单击OK。
结果分析
从表中可看出,权威主义和地位欲的相关系数为0.818,
这表明权威主义越高的人地位欲也越高。权威主义与
地位欲不相关的假设检验值为0.001,否定假设,即权
威主义与地位欲是相关的。
Kendall‘s相关系数计算
仍用前例中的数据。操作过程相同,只是在第3)步在
Correlation Coefficients栏内选择Kendall’s选项。结
果如下:
从表中可看出,权威主义和地位欲的相关系数为0.667,
这表明权威主义越高的人地位欲也越高。权威主义与地
位欲不相关的假设检验值为0.003,否定假设,即权威主
义与地位欲是相关的。Kendall相关分析所得到的结果类
似于Spearman分析。
偏相关分析
在研究两个事物或现象之间的关系时,
只有充分考虑到其他事物和现象对两者
之间的影响,才可能将两者真正的联系
显现出来
偏相关分析就是在相关的基础上考虑两
个因素以外的各种作用,或者说在扣除
了其他因素的作用大小后,重新来考察
两个因素间的关联程度
偏相关计算公式
下式为控制了第三个因素的影响所
计算的第一、第二因素之间的偏相
关系数
r12(3) 
r12  r13r23
1 r
2
13
1 r
2
23
偏相关分析的步骤
建立工作数据文件
单击Analyze/ Correlate / Partial...菜单
项,打开Partial Correlations对话框。
指定分析变量和控制变量。
假设检验类型的选择。可以选择单尾检验或者
双尾检验。
选择Options中的选择项。
运行偏相关过程并对结果进行解释。
偏相关的选择项
Statistics:统计量选择项
–Means and standard deviations:均值和标准差
–Zero-order correlations:要求显示零阶相关矩
阵,即Pearson相关矩阵
Missing Values:缺失值处理
–Exclude cases listwise:剔除所有带有缺失值的
观测量。
–Exclude cases pairwise:成对剔除带有缺失值的
观测量
偏相关分析实例
数据为某健康基
金与疾病发生率
之间的关系
相关分析结果
健康基金与疾病发生率之间存在正相关关
系?
偏相关分析及果
加入第三方控制因素:参加
健康基金的人数
结果表明:健康基
金与疾病发生率之
间没有相关性
其他案例
建筑总耗能与家庭年收入、家庭常
住人口之间的相关性
高考生的焦虑水平与多个因素的相
关性
等等
距离分析(Distances)
简单相关和偏相关有一个共同点,那就是对所
分析的数据背景应当有一定程度的了解。在这
种情况下进一步进行积差相关系数的计算,以
在定量的水平上对这种关联予以确认。
但有时会遇到一种情况,在分析前对数据所代
表的专业背景知识认识尚不充分,本身就属于
探索性的研究,这时往往就需要对各个指标或
案例的差异性、相似性程度进行考察,以先对
数据有一个初步的了解。
距离分析(Distances)
距离分析是对观测量之间或变量之
间相似性或不相似性的程度的一种
测度。它是一种广义的距离。
距离分析分为观测量之间的距离和
变量之间距离的分析。
距离分析常与其它统计分析过程先
结合(如因子分析、聚类分析)
距离分析的基本步骤
建立数据文件
单击Analyze/ Correlate /
Distances...,打开距离分析对话框
指定分析变量和标识变量(要求使用字
符型变量标识观测量)
运行并对输出结果进行解释
距离分析的选择项
主对话框中的选择项
–Compute Distances:计算距离选择项
• Between Cases:要求计算观测量间的距离
• Between Variabel:要求计算变量间的距离
–Measure:距离类型的选择
• Dissimilarities:设定距离为不相似性的测度,
系统默认使用欧氏距离性。
• Similarity:设定距离为相似性的测度。采用
Pearson相关进行相似性测度。
距离分析的选择项
Dissimilarity Measure:不相似性测度
–Interval:等间隔变量
• Euclidean distance:欧氏距离。两项之差是两变量值之
差的平方和的平方根。
• Squared Euclidean distance:欧氏距离的平方。
• Chebychev:切贝谢夫距离。两项之间的距离是任意变量
值之间的差的最大绝对值。
• Block:布洛克距离。两项之间的距离是每个变量的两个
值之间差的绝对值之和。
–Count计算变量
距离分析的选择项
Transform Values数值转换
–None:不进行标准化
–Z-score:标准化到Z分数
–Range 0 to 1:标准化到0~1之间
–Range –1 to +1:标准化到-1到+1
–Maximum magnitude of 1:最大值为1
–Mean of 1:标准化到1
–Standard deviation of 1:标准化到标准差为1
距离分析的选择项
Transform Measures:转换测度
Absolute value:对距离取绝对值。当
符号表明的是相关的方向,且仅有对相
关的数值感兴趣时使用这种转换。
Change sign:改变符号。把相似性测度
值转换成不相似性测度值,或相反。
Rescale to 0~1:先减去最小值,然后
除以范围。对已标准化的测度,不再使
用此方法进行转换。
SPSS实例
如在不同的月份,某种
植被的生长量如表所示,
那么能否区分出来植被
的不同生长季呢?
其他可例如一天的交通
流量,是否可区分出来
部分的高峰期和非高峰
期
等等
操作过程
结果分析
从输出结果中可以看出,该植物的生长量在1,2,
3,12四个月中距离小,其生长量小;4,5,10,
11四个月中山柏的生长量较大;6,7,8,9四个
月是中山柏的生长最旺期。
本节内容
简单回归分析
–基本原理
–SPSS实例
多元
回归的含义
回归(Regression,或Linear Regression)和
相关都用来分析两个定距变量间的关系,但回归
有明确的因果关系假设。即要假设一个变量为自
变量,一个为因变量,自变量对因变量的影响就
用回归表示。如年龄对收入的影响。由于回归构
建了变量间因果关系的数学表达,它具有统计预
测功能。
相关与回归
相关分析:分析不同变量之间的相
关程度
回归分析:寻找因变量数值随自变
量变化而变化的线性趋势。
–通过回归方程可以量化两变量之间的关系
–通过回归方程可以进行预测和控制
回归模型的类型
线性回归的统计原理
两个定距变量的回归是用函数
y= f(x)
来分析的。我们最常用的是一元回归方程
y  a  bx
其中x为自变量;y为因变量;a为截距,即常量;b
为回归系数,表明自变量对因变量的影响程度。
工资
440
430
420
410
400
Y=350+20x
390
380
370
360
0
1
2
3
4
工龄 5
在统计学中,这一方程中的系数是靠x与y变量的
大量数据拟合出来的。
Y
Y=a+bx
(x,y)
X
由图中可以看出,回归直线应该是到所有数据点最
短距离的直线。该直线的求得即使用“最小二乘方
法”,使:
y  yˆ 
2
i
i
0
在拟合的回归直线方程中,回归系数:
b


( x i  x )( y

i
(xi  x )
 y)
2
表示x每变化一个单位时,x与y共同变化的程度
(共变异数)。
常数
a  y  bx
比如通过上学年数和工资的关系计算
得出下列的回归公式:
y=472+14.8x
就可知上学年数每增长1年,工资会增
加14.8元;
也可推测,上学年数为15年的人,工
资收入应为472 + 14.8 *15=694元。
简单线性回归
根据观测值,找到一条拟合这些点的直线
适用条件:
–线性趋势:自变量与因变量的关系是线性的
–独立性:可表述为因变量y的取值是相互独立
的,之间没有联系
–正态性:自变量符合正态分布,其任意线性组
合也就服从正态分布
–方差齐性:就自变量的任意线性组合,因变量
y的方差均相同。
回归结果的检验
决定系数
预测标准误差
t检验
F检验
回归方程的变异程度计算
SST 总方差
–计算每个Y值与Y平均值的方差,即Y值本身的变异
程度
SSR 回归方差和
–计算每个Y回归值与Y平均值的方差,即用X变量能
够解释的部分Y变异程度
SSE 误差平方和
–计算每个Y值与Y回归值之间的方差,即是由于其他
(X以外)因素导致的部分Y变异程度
决定系数
又叫拟合优度(goodness of fit),即相关
系数的平方
即由X因素解释的Y变量变异部分占Y变量总体
变异的比例
决定系数主要用于检验拟合模型的线性关系的
显著性程度
2
R 与R示意
决定系数的检验
同相关系数
原假设:相关系数为0
单样本假设t检验:判断该相关系数
是否来自于一个平均值为0的正态分
布总体
接受或拒绝原假设
标准误差检验
标准误差(真实值偏离回归值的误差)的大小也
可作为检验回归模型的拟合精度,模型的拟合
精度决定了预测精度。其计算公式如下:
一般要求变异系数
s
 10 ~ 15%
y
模型检验示例
R:相关系数
R square:决定系数
Adjusted R Square:校正决定系数(考虑自
变量个数后的决定系数)
Std. Error of the Estimate:评估标准误差
t-检验
用来检验回归系数a、b是否具有统计意义,即检验参
数a、b是否在某个显著性水平上为零。因为a为截距,
检验的意义不大;b值如果在显著性水平上为零,则方
程就会变为常数,因而也就失去意义。所以,主要是
对斜率b进行t-检验。
b
t
sˆb
基本假设:b=0
接受:回归方程不能成立
拒绝:在拟定显著性水平下具有
统计意义
F检验
总体相关显著性检验,主要用于检验x与
y之间的线性统计关系是否可以接受
( yˆ  y )

F
1
( y  yˆ )

n  k 1
2
i
i
2
vR
F
2
1 R
2
SS r
 v
SS e
i
对于一元回归方程,F检
验等价于R检验
置信区间
总体置信区
间的含义:
在满足线性
回归的假设
条件下,两
条弧形曲线
所形成的区
域包含真实
总体回归直
线的置信度
(如95%)
置信区间
个体预测
置信区间
的含义:
指当X为某
定值时,
个体Y值得
参考值范
围的波动
范围(如
95%)
SPSS实例
计算耗费时间与所得分数之间的关系
步骤一:散点图
通过散点
图看两者
之间是否
具有线性
关系
步骤二:调用SPSS回归
分析过程
选择线性回归
Linear
Regression
选择自变量
选择因变量
步骤3:显著性检验(1)
F检验结果
第一行:X因素可解释的Y变量方差部分
第二行:随机因素可解释的Y变量方差部分
单因素方差分析表明:由X因素引起的Y变量变异程度远
远大于随机因素的影响,故此回归模型是具有统计意义
的
步骤4:获取线性回归方程
步骤4:获取线性回归方程
标准回归系数是对原变量进行标准化后
计算出的回归模型系数,可方便不同变
量的回归系数比较,多用于多元回归模
型
步骤5:分析模型效果
相关系数0.7表明时间和分数之间存在的比较
显著的相关性;
决定系数0.49表明接近一半的分数变异可以用
时间因素来解释;
补充说明
决定系数高并不意味着预测效果就
会很好,离中心位置越远,预测效
果越差;
曲线相关的情况下,决定系数的高
低不能解释因素与变量之间的关系