Transcript Document

信息素养系列讲座第14讲:
数据统计分析软
件(SPSS)使用
方法
主讲人:杨莉(闵行校区)
信 息 素养
电 话:54344887 62232086
E-mail: [email protected] 系列讲座
微 博:http://weibo.com/ecnulib
人人网:http://page.renren.com/600754796
2013-03-06
大 纲
SPSS简介及其数据录入与管理
描述性统计分析
均值比较与T检验
方差分析
相关分析
回归分析
聚类分析
信 息 素养
系列讲座
SPSS简介
• 世界上最早的统计分析软件,09年被IBM公
司高价收购,目前已更新至22.0版本,更名
为IBM SPSS
• 操作界面友好,输出结果美观便捷
• 组合式软件包,集数据录入、管理、分析
、制图、结果输出于一身
• 操作者门槛较低,简单易学
信 息 素养
系列讲座
SPSS界面的数据录入与管理
• 数据的录入/导入
 通过excel
 通过txt文本
 “数据视图”直接录入
• 变量录入/导入
 通过excel导入,直接生成
 “变量视图”直接录入
信 息 素养
系列讲座
变量名必须以字母、汉字或字符@开头,其他
字符可以是任何字母、数字或_、@、#、$等符
号。
 变量最后一个字符不能是句号。
 变量名总长度不能超过8个字符(即4个汉
字)。
不能使用空白字符或其他特殊字符(如
“!”、“?”等)。
不能有两个相同的变量名
定性变量(姓名)
定序变量(排名)
定距变量(温度)
定比变量(身高)
*变量名、类别、度量标准
大 纲
SPSS简介及其数据录入与管理
描述性统计分析
均值比较与T检验
方差分析
相关分析
回归分析
聚类分析
信 息 素养
系列讲座
描述性统计分析
• 频率、描述
 均值、中位数、众数、四
分位数。。。
 方差、标准差
• P-P图、Q-Q图
 正态性直观判断
信 息 素养
系列讲座
大 纲
SPSS简介及其数据录入与管理
描述性统计分析
均值比较与T检验
方差分析
相关分析
回归分析
聚类分析
信 息 素养
系列讲座
均值比较与T检验—连续变量的统计推断
例1
• 某企业用自动装包机包装物品,标准一包为50kg。为保证装包机每天的正常工作,
每天开工前都需要对装包机进行测算,以防有系统误差。今早用装包机包装了10
袋物品,10袋物品的质量(kg)分别是:50.1;50.2;49.8;50.3;49.7;50.4;
50.2;49.6;49.9;49.5。现在企业希望判断一下,这一自动装包机是否在正常工
作?
例2
• 在教学质量评价中,通常是通过对不同班级的学生成绩进行比较,以分析两个班
级间的学生成绩是否有显著差异。某校两个班级的学生期中考试成绩如下:
• A班:547,619,486,505,523,541,667,559,511,649,601,625,571,523,456,613
• B班:577,601,637,583,523,607,625,661,583,523,649,553,649,541,559,438
例3
• 对于实验研究人员来说,通常运用前后对照试验来研究某一方法或产品是否具有
优良特性。如:医生对10个病人采用了一种新的治疗方法,他分别在治疗前和治
疗后,对病人的血压进行了测量,请问:这种疗法是否有效?
• 治疗前:122,127,144,107,110,115,116,137,128,121
• 治疗后:123,109,120,106,101,99,102,150,105,108
信 息 素养
系列讲座
均值比较与T检验—连续变量的统计推断(续)
• 样本均数与总体均数的比较
 单样本T检验(one-sample T test)→例1
• 两个独立样本均数的比较
 独立样本T检验(Independent-sample T test)→例2
样本来自两个正态分布总体(需考虑到方差齐性问题)
• 配对设计样本均数的比较
 配对样本T检验(Paired-sample T test)→例3
信 息 素养
系列讲座
*样本量、样本的整体分布
例1:单样本T检验
物品的质量(kg) 50.1;50.2;49.8;50.3;49.7;50.4;50.2;49.6;49.9;49.5
信 息 素养
系列讲座
例2:独立样本T检验
A班
547,619,486,505,523,541,667,559,511,649,601,625,571,523,456,613
B班
577,601,637,583,523,607,625,661,583,523,649,553,649,541,559,438
信 息 素养
系列讲座
例3:配对样本T检验
治疗前
122,127,144,107,110,115,116,137,128,121
治疗后
123,109,120,106,101,99,102,150,105,108
信 息 素养
系列讲座
大 纲
SPSS简介及其数据录入与管理
描述性统计分析
均值比较与T检验
方差分析
相关分析
回归分析
聚类分析
信 息 素养
系列讲座
单因素方差分析—连续变量的统计推断
•
方差分析的意义
 例:教育部想了解今年山西、河北、陕西三个省份的考生的高考成绩差异,我们是否
需要用3次T检验来进行分析呢?(犯错的几率)
•
方差分析的用途
 方差分析用于两个以上样本均值差别的显著性检验。方差分析方法在不同领域的各个
分析研究中都得到了广泛的应用。从方差入手的研究方法有助于找到事物的内在规律
性。
 而单因素方差分析,即:在单一因素下(eg. 成绩),比较多个不同水平(或多个组)
的观察值之间是否有显著的差异。
•
方差分析的基本原理
 F
组间变异(SSB)
(SSB :随机误差+处理差异; SSW : 随机误差)
组内变异(SSW)
当SSB 远大于SSW 时,也即F远≥1时,出现显著性差异。
信 息 素养
系列讲座
例 单因素方差分析
某饮料生产企业研制出一种新型饮料,饮料颜色共分为四
种,分别为:橘色、粉色、绿色和咖啡色。除了颜色不同
外,饮料的能量、味道、规格、销售渠道等因素均相同。
我们收集了上一季度饮料5个销售点的销售量,具体数据
如下:
信 息 素养
系列讲座
销售点
橘色
粉色
绿色
咖啡色
1
26.5
31.2
27.9
30.8
2
28.7
28.3
25.1
29.6
3
25.1
30.8
28.5
32.4
4
29.1
27.9
24.2
31.7
5
27.2
29.6
26.5
32.8
单因素方差分析的基本操作步骤
单
因
素
方
差
分
析
的
菜
单
图
信 息 素养
系列讲座
趋势成分分析:考虑将组间偏
差平方和分解为线性、二次、
三次或更高次的趋势成分
常用的系数之和应为0,
因素变量有几个水平就
输入几个系数值,不参
与比较的分组系数应为0
信 息 素养
系列讲座
post hoc均值多重比较对话框
信 息 素养
系列讲座
信 息 素养
系列讲座
选项:输出统计量对话框
检验各组均值
相等,当不能
确定方差齐性
假设时,该统
计量优于F统
计量
信 息 素养
系列讲座
实例分析输出1
描
述
统
计
量
方
差
齐
性
检
验
表
信 息 素养
系列讲座
单
因
素
方
差
分
析
表
实例分析输出2
LSD
Tukey ,Bonferroni
Howell
Games-
法
法,
进
行
均
值法
多
重
比
较
的
结法
果以
及
信 息 素养
系列讲座
其中,有出现“*”,表示在默认的0.05显著性水平时,相
应的两组观察变量的均值存在显著性差异!
实例分析输出3
Turkey
法
进
行
一
致
性
子
集
检
验
信 息 素养
系列讲座
实例分析输出4
均
值
图
信 息 素养
系列讲座
操作
大 纲
SPSS简介及其数据录入与管理
描述性统计分析
均值比较与T检验
方差分析
相关分析
回归分析
聚类分析
信 息 素养
系列讲座
相关分析
• 相关分析?
事物间存在着各种各样的联系
直接的、间接的;正向的、反向的。。。
• 变量要求?
相关分析适用于各种类型的变量(连续的,非连续的)
• 具体方法?
 Pearson相关分析→连续变量
双变量、线性关系,数据接近正态分布
 Spearman等级相关→分类变量
双变量、线性关系
 Kendall等级相关→分类变量
积差相关
(完全负相关)-1  (不相关)
0
(完全正相关)
1
等级相关
双变量、线性关系
样本量的大小需注意
信 息 素养
系列讲座
相关分析操作前提
• 判断是否线性关系
直观方法:散点图
间接方法:以往文献数据
• 选择相关分析方法
Pearson
Spearman
Kendall
信 息 素养
系列讲座
相关分析操作过程
例
• 医生对12个病人的体重和肺部大小进行了测量,他
想分析二者是否具有相关性!数据如下:
体重
41.9,42.1,46.2,46,45.9,50,50.5,50,52,52.2,58,57.9
肺部大小
2.55,2.20,2.75,2.40,2.80,2.72,3.40,3.11,3.45,2.86,3.48,3.05
1. 图中显示2×2方阵。
2. 每个单元格分为3行:
相关系数、P值、样本数。
相关系数“0.766**”、
P=0.004可知体重与肺部
大小显著线性相关,二者
间具十分密切的关系。
信 息 素养
系列讲座
操作
大 纲
SPSS简介及其数据录入与管理
描述性统计分析
均值比较与T检验
方差分析
相关分析
回归分析
聚类分析
信 息 素养
系列讲座
回归分析
• 回归分析?
寻找变量间因果关系的方法,比相关分析能更精确的阐述变量间的关
系
• 回归分析的意义
 寻找变量间的关系
 预测和控制
• 回归方法




信 息 素养
系列讲座
线性回归
Logistic回归
自回归
。。。
回归分析—线性回归
• 应用前提
自变量与因变量具有一定线性相关性
因变量取值独立性
正态性
方差齐性
信 息 素养
系列讲座
回归分析—线性回归操作
例
• 医生对12个病人的体重和肺部大小进行了测量,他想
了解体重如何会影响腹部大小!数据如下:
体重
41.9,42.1,46.2,46,45.9,50,50.5,50,52,52.2,58,57.9
肺部大小
2.55,2.20,2.75,2.40,2.80,2.72,3.40,3.11,3.45,2.86,3.48,3.05
• 数据的初步判断
信 息 素养
系列讲座
回归分析—线性回归操作(续)
信 息 素养
系列讲座
回归分析—线性回归操作结果
4
1
2
信 息 素养
系列讲座
3
回归方程: 肺部大小= -0.071+0.060体重
正态性判断
信 息 素养
系列讲座
操作
大 纲
SPSS简介及其数据录入与管理
描述性统计分析
均值比较与T检验
方差分析
相关分析
回归分析
聚类分析
信 息 素养
系列讲座
聚类分析
• 分类的意义
 更清晰地展现事物的特征
 错综复杂的数据里找到规律
• 分类的方法
 经验分类(五颜六色的球?)
 统计分类方法(聚类)
根据数据本身的结构和特征,对其进行分类,聚类分析尤其是对多个变量的分
类,具有优势;而且根据样本数据特征,进行自动分类。
• 聚类分析(层次聚类、非层次聚类)
按照距离的远近将数据分为若干个类别,使得同类别内数据的“差异”尽可
能的小;类别间的“差异”尽可能的大。(*数据类别、分类方法选择、数据
的标准化)
信 息 素养
系列讲座
聚类分析方法介绍
• 层次聚类(根据观察值或变量之间的亲疏程度)
 Q型聚类
主要是对样本(个案)进行分类;使具有共同特点的样本聚齐在一起
,以便对不同类的样本进行分析。
 R型聚类
是对研究对象的观察变量进行分类;使具有共同特征的变量聚在一起
,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析
变量的个数。
信 息 素养
系列讲座
层次聚类分析操作过程(Q型)
例
• 某班级共有29名同学,在进行了期中期末数学测试后,我
们得到了同学们的两学期成绩,数学教师希望把学生分成
3类,如何分呢?具体数据如下:
学号
信 息 素养
系列讲座
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
数学61
527 557 557 468 453 572 579 564 549 557 572 572 557 572 572 424 586 549 586 446 579 505 527 542 572 557 542 542 557
数学62
562 487 592 517 361 569 606 547 569 577 562 577 577 577 547 510 532 510 606 398 532 465 500 525 569 547 502 510 606
层次聚类分析操作过程(Q型)
信 息 素养
系列讲座
层次聚类分析操作结果(Q型)
1
2
信 息 素养
系列讲座
层次聚类分析操作结果(Q型)
信 息 素养
系列讲座
层次聚类分析操作结果(Q型)
当我们完成最后一步保存
时,发现在数据视图框里,
多了一个变量值:分类数
据(1、2、3)
操作
信 息 素养
系列讲座
R型聚类分析方法操作步骤类似哦
习题重温1
1
• 某企业用自动装包机包装物品,标准一包为50kg。为保证装包机每天的正常工作,
每天开工前都需要对装包机进行测算,以防有系统误差。今早用装包机包装了10
袋物品,10袋物品的质量(kg)分别是:50.1;50.2;49.8;50.3;49.7;50.4;
50.2;49.6;49.9;49.5。现在企业希望判断一下,这一自动装包机是否在正常工
作?
2
• 分析两个班级间的学生成绩是否有显著差异?某校两个班级的学生期中考试成绩
如下:
• A班:547,619,486,505,523,541,667,559,511,649,601,625,571,523,456,613
• B班:577,601,637,583,523,607,625,661,583,523,649,553,649,541,559,438
3
• 医生对10个病人采用了一种新的治疗方法,他分别在治疗前和治疗后,对病人的
血压进行了测量,请问:这种疗法是否有效?
• 治疗前:122,127,144,107,110,115,116,137,128,121
• 治疗后:123,109,120,106,101,99,102,150,105,108
信 息 素养
系列讲座
习题重温2
4、新型饮料颜色共分为四种,分别为:橘色、粉色、绿
色和咖啡色。除了颜色不同外,饮料的能量、味道、规格、
销售渠道等因素均相同。我们收集了上一季度饮料3个销
售点的销售量,请问5种饮料的销量是否有差别?具体数
据如下:
信 息 素养
系列讲座
销售点
橘色
粉色
绿色
咖啡色
1
26.5
31.2
27.9
30.8
2
28.7
28.3
25.1
29.6
3
25.1
30.8
28.5
32.4
习题重温3
5
• 医生对12个病人的体重和肺部大小进行了测量。
• 1、分析二者是否具有相关性?
• 2、二者间具有什么样的关系? 数据如下:
体重
41.9,42.1,46.2,46,45.9,50,50.5,50,52,52.2,58,57.9
肺部大小
2.55,2.20,2.75,2.40,2.80,2.72,3.40,3.11,3.45,2.86,3.48,3.05
6
• 某班级共有25名同学,在进行了期中期末测试后,我们得
到了同学们的两学期成绩,教师希望把学生分成3类,如
何分呢?具体数据如下:
学号
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
期中总成绩
527 557 557 468 453 572 579 564 549 557 572 572 557 572 572 424 586 549 586 446 579 505 527 542 572
信 息 素养
期末总成绩
562 487 592 517 361 569 606 547 569 577 562 577 577 577 547 510 532 510 606 398 532 465 500 525 569
系列讲座
课
华东师范大学图书馆
http://page.renren.com/600754796?checked=true
http://weibo.com/ecnulib
2013-10-8