对元 Eddy DOE & EXCEL, SPSS application

Transcript 对元 Eddy DOE & EXCEL, SPSS application

DOE & EXCEL, SPSS application
艾对元
Eddy
课程目的
 应用统计学,试验设计
 理解统计数据分析主要方法的基本理论
 掌握基本统计方法在实践中的应用
 能熟练运用Excel ,SPSS软件实现数据
分析
 独立运用统计方法解决实际问题
参考书目：
 1.《试验设计与数据处理》，李云雁编，化学工业出版社，
2008
 2.《Excel 2007 在统计分析中的应用》，谢邦昌编著，
清华大学出版社，2008
 3. 《试验设计与SPSS应用》，王颉主编，化学工业出版社
，2006
 4、《统计学：从数据到结论》（第2版）吴喜之著，中国
统计出版社，2006。
 5、《统计分析与SPSS的应用》，薛薇编著，中国人民大
学出版社，2001。
 6、《SPSS统计分析教程》，李志辉等主编，电子工业出
版社，2003。
SPSS软件应用实用网址
1. SPSS网址: http://www.spss.com
2. SPSS中文网址
http://www.spssgz.com.cn
http://www.spss.com.cn
4. SPSS FOR WINDOWS简明教程目录
http://www.fjmu.edu.cn/news/spss/
doc3/index.htm (由福建教育出版社出版，姜
小鹰主编)
5. SPSS for Windows 10.0版教程
http://www.medstatstar.myetang.com/
spss/coach.htm （医学统计之星网站作者：张
文彤）
§ 统计是什么？
统计学（ statistics ）是用
以收集数据，分析数据和由
数据得出结论的一组概念、
原则和方法。
统计软件
 SPSS：这是一个很受欢迎的统计软件；它容易操作，输出
漂亮，功能齐全，价格合理。对于非统计工作者是很好的
选择。
 SAS：这是功能非常齐全的软件；尽管价格不菲，许多公
司还是因为其功能众多和某些美国政府机构认可而使用。
尽管现在已经尽量“傻瓜化”，仍然需要一定的训练才可
以进入。对于基本统计课程则不那么方便。
 STATA: 这是众多统计软件的后起之秀；它操作灵活、简
单、易学易用，同时具有数据管理软件、统计分析软件、
绘图软件、矩阵计算软件和程序语言的特点。占用计算机
系统资源少，绘图漂亮，对有简单编程基础者来讲十分容
易上手，有专门出版的专业刊物。
以上三种软件并称为新的国际三大权威统计软件
统计软件
Excel：它严格说来并不是统计软件，但作
为数据表格软件，必然有一定统计计算功能
。而且凡是有Microsoft Office的计算机
，基本上都装有Excel。但要注意，有时在
装Office时没有装数据分析的功能，那就必
须装了才行。当然，画图功能是都具备的。
对于简单分析，Excel还算方便，但随着问
题的深入，Excel就不那么“傻瓜”，需要
使用函数，甚至根本没有相应的方法了。多
数专门一些的统计推断问题还需要其他专门
的统计软件来处理。
统计软件
S-plus：这是统计学家喜爱的软件。不仅由于
其功能齐全，而且由于其强大的编程功能，使得
研究人员可以编制自己的程序来实现自己的理论
和方法。它也在进行“傻瓜化”以争取顾客。但
仍然以编程方便为顾客所青睐。
R软件：这是一个免费的，由志愿者管理的软件
。其编程语言与S-plus所基于的S语言一样，
很方便。还有不断加入的各个方向统计学家编写
的统计软件包。同时从网上可以不断更新和增加
有关的软件包和程序。这是发展最快的软件，受
到世界上统计师生的欢迎。是用户量增加最快的
统计软件。对于一般非统计工作者来说，主要问
题是它没有“傻瓜化”。
统计软件
 Minitab：这个软件是很方便的功能强大而又齐全的软件
，也已经“傻瓜化”，在我国用的不如SPSS与SAS那么
普遍。
 Statistica：也是功能强大而齐全的“傻瓜化”的软件，
在我国用的也不如SAS与SPSS那么普遍。
 Eviews：这是一个主要处理回归和时间序列的软件。
 GAUSS：这是一个很好用的统计软件，许多搞经济的喜欢
它。主要也是编程功能强大。目前在我国使用的人不多。
 FORTRAN：这是应用于各个领域的历史很长的非常优秀
的编程软件，功能强大，也有一定的统计软件包。计算速
度比这里介绍的都快得多。但需要编程和编译。操作不那
么容易。
 MATLAB：这也是应用于各个领域的以编程为主的软件，
在工程上应用广泛。编程类似于S和R。但是统计方法不多
。
主要内容
1
统计软件SPSS界面概述
2
SPSS统计分析一般步骤
3
正交试验设计
SPSS界面
SPSS简介
SPSS是Statistical Program for Social Sciences 的简称，
即社会科学统计程序，由美国SPSS公司1970年代推出，
迄今已有近30年的历史。是国际著名三大社会科学统计软
件包之一（SAS、SPSS、Statis）。我们现在使用的是
SPSS for Windows 13.0版。
作为统计分析工具，理论严谨、内容丰富，数据管
理、统计分析、趋势研究、制表绘图、文字处理等
优点使用简便，不用编程（SAS需编程）
同excel转换、强大的统计功能等
SPSS的主要窗口和菜单
1 SPSS的3个主要窗口
1-1 数据编辑器窗口（SPSS Data Editor）：用来
编辑和显示数据；在此窗口中的文件名称为*. sav
。
1-2 程序语句编辑器窗口（ SPSS Syntax Editor
）：用来编写各种程序；在此窗口中的文件名称
为*. sps。
1-3 结果观看窗口（ SPSS Viewer）：显示统计
运算结果；在此窗口中的文件名称为*. spo。
2 SPSS 数据编辑器的主要菜单
2-1 File 菜单：文件管理
New；Open；Save；Save as；Exit。
2-2 Edit 菜单：编辑
Undo；Cut；Copy；Paste；Clear；
Find；
2-3 View菜单：视图
Fonts；Grid lines；Value labels。
2-4 Data菜单：数据整理
define variables；Insert variables；Insert
case；
go to case；sort case；select case。
2-5 Transform菜单：数据转换
recode；compute；count。
2-6 Analyze菜单：统计
2-7 Graphs菜单：统计图
2-8 Utilities菜单：工具附件
2-9 Windows菜单：窗口
2-10 Help菜单：帮助
主菜单
1、File：文件管理菜单，有关文件的调入、存储、显示和打印等；
2、Edit：编辑菜单，有关文本内容的选择、拷贝、剪贴、寻找和替换等
；
3、View：视图；
4、Data：数据管理菜单，有关数据变量定义、数据格式选定、观察对
象的选择、排序、加权、数据文件的转换、连接、汇总等；
5、Transform：数据转换处理菜单，有关数值的计算、重新赋值、缺
失值替代等；
6、Analyze：统计菜单，有关一系列统计方法的应用；
7、Graphs：作图菜单，有关统计图和表的制作；
8、Utilities：用户选项菜单，有关命令解释、字体选择、文件信息、
定义输出标题、窗口设计等；
9、Windows：窗口管理菜单，有关窗口的排列、选择、显示等；
10、Help：求助菜单，有关帮助文件的调用、查寻、显示等。
一、统计软件SPSS界面概述
标题栏
菜单栏
工具栏
工作区
建立数据文件、
定义变量、编辑
图表、编写程序
等等。
数据编辑窗
(Data Editor)
SPSS
界面
Text
结果输出窗
(SPSS
Viewer)
数据编辑窗(Data Editor)
Data Editor的两个界面：
Data View界面：是用户进行数据输入、数据编
辑、数据文件整理的界面。
输入数据？
定义变量？
Variable View界面：是用户定义数据文件的变
量界面。
两个界面的切换方法是单击窗口左下角的Data View和Variable
View选项卡，选中的选项卡以高度形式显示。
输入数据的方法（Data View界面）：
定义一个变量就先输入这个变量，这种方法是纵向
输入数据。采用此方法，我们依次输入该变量的各
个数值。
在定义完所有的变量之后，按观测量来输入数据，
即输入完一个观测量以后，再输入第二个观测量，
这种方法是横向进行的。
如何定义一个变量（Variable View界面）：
在Variable View界面上，可以定义变量名、变量的
类型、变量的长度及小数位数、变量标签及其值签、
变量的格式（包含显示的宽度、对齐方式、误差值
标签等）。
在定义SPSS变量时，至少应定义变量名和变量类型，
而其他属性则可以采用默认值。
变量的定义和数据的输入
Name
Type
Width
Decimals
Label
Values
Missing
Columns
Align
变量名
变量类型
变量宽度
小数点
变量标签
变量值标签
缺失值
变量显示宽度
变量对齐方式
定义变量名：单击“Name”所在列的第一行，就
可以输入要定义的第一个变量的变量名称。
定义变量类型：单击“Type”栏，会出现省略号，
再单击省略号，就会出现定义变量类型的对话框。
用户可以在此对话框选择变量类型及更改变量的长
度和小数位数。系统默认为标准数值型变量
Numeric。
定义变量的小数位数：单击“Decimal”，修改所需
的小数位数。
变量要求：
•变量名不能超过8个字符；
•变量名不能以数字开头；
•变量名中不能包含＋，－，×，/、？、＝等运算
和逻辑符号。
•当相邻变量名称上存在顺序且码位相同时，可用
简略方法：
W02 8 W03 9 W04 10.可换为 W02 to W04 8-10.
•当变量值是字符时，在码位后加（a）；如：
W7 12(a)；
•当变量值包含小数时，在码位后加（n），n表示
小数的位数。如：446.79，在录入时要录成
44679，定义时为：W12 12-16(2)；
数据录入
外部式录入
采用DOS、WPS、CCED等软件，按ASCII
码方式录入成文本文件（*.dat；*.txt）。这
种录入方式的特点是，数据之间没有间隔，
录完一个数码后自动后移，录入速度较快。
缺点是容易错位。
内部式录入
采用SPSS数据编辑器（SPSS Data Editor
）录入。其优点是不容易错位，缺点是不能
自动后移，录入速度慢，数据错误不容易修
改。
二、SPSS统计分析一般步骤
数据文件的建立，编辑，整理
在数据编辑窗口中
选择统计分析方法
在【Analyze】菜单中
选择分析变量，设置参数
打开的各级对话框中
查看解释分析结果
在“SPSS Viewer”中
在SPSS中，数据文件的编辑、整理等功能被集中
在了Data和Transform两个菜单项中，这两个菜
单的内容如下所示：
Data菜单项
Transform菜单项
数据的编辑
 数据的打开 File==>Open==>Data/output
 数据的增删、复制、粘贴，insert、cut或clear、copy
 数据的排序，Sort升序或降序
 数据的搜索，Go to Case或Find
 数据的复制，Copy或paste
 数据的编码，对于一些连续变量如年龄等可通过recode等进
行编码
 数据的计算，Compute
 秩和检验中计算秩次，Ranks-Mean
 文件的拆分，Select cases（物理）和split（形式） sex
 文件的合并，add或Merge
 对于频数表资料（2 检验）要进行加权，即Weight
 数据文件的保存，可转换为excel等格式
 奇异数据的发现和检查可用Frequencies或Explore等
SPSS Analyze统计菜单功能介绍
 描述性统计分析－－Descriptive Statistics菜单
 均数间的比较－－Compare Means菜单
 一般线性模型――General Linear Model菜单
 相关分析――Correlate菜单
 多元线性回归与曲线拟合―― Regression菜单
 对数线性模型——Loglinear菜单
 聚类分析与判别分析——Classify菜单
 因子分析与对应分析——Data Reduction菜单
 信度分析与多维尺度分析——Scale菜单
 非参数检验――Nonparametric Tests菜单
 Survival菜单
三、正交试验设计
正交试验设计
结果分析：
基本步骤
直观分析法
方差分析法
与SPSS实现
正交实验设计的基本步骤
1
明确实验
目的，确
定考察指
标，挑因
素，选水
平
2
选择合
适的正
交表
3
进行表
头设计
4
排出实
验方案
正交试验的结果分析——直观分析法
计算Ki值和Ki值
计算各因素列的极差R
根据极差R的大小，进行因素的主次排队
验证试验
选出最优的水平组合
无
正交试验的结果分析——
方差分析法与SPSS实现
须有空列，用
空列来估算实
验误差
3
2
1
无重复正交试
验的方差分析
有重复正交试
验的方差分析
有交互作用正
交试验的方差
分析
无重复正交试验的方差分析
例1 为了考察影响某种化工产品转化率的因素，选择三个有关因
素：反应温度（A）、反应时间（B）、用碱量（C）每个因素取
三种水平，因素水平表见表1，结果见表2：
表1
水平
1
2
3
因素
反应温度(A)
80C ( A1 )
85C ( A2 )
90C ( A3 )
反应时间(B)
90分( B1 )
120分( B2 )
150分( B3 )
用碱量(C)
5%(C1 )
6%(C2 )
7%(C3 )
表2 正交试验结果
列号
A
B
C
D（空列）
转化率
（%）
1
1
1
1
1
31
2
1
2
2
2
54
3
1
3
3
3
38
4
2
1
2
3
53
5
2
2
3
1
49
6
2
3
1
2
42
7
3
1
3
2
57
8
3
2
1
3
62
9
3
3
2
1
64
实验号
SPSS操作步骤如下：
 Step1：将表2数据输入SPSS数据编辑窗口后，依次选择
Analyze→General Linear Model →Univariate…，即可打开【Univariate】
主对话框。
 Step2：将左边“转化率”变量选入右边“Dependent Variable” （因变
量列表），a、b和c项目选入“Fixed Factor(s)”（自变量），“d”因子不
动，用于估算试验误差。
 Step3：选择【Model … 】按钮，打开【 Univariate Model】子对话框。
在此对话框中选择“Custom”（自定义模型），将左边a、b和c项目选入
“Model”中，按【Continue】按钮返回【 Univariate】主对话框。
 Step3：选择【Post Hoc … 】打开【Post Hoc Multiple Comparisons
for … 】对话框，将左边a、b和c项目选入“Post Hoc Tests for”中，选择
“Duncan”，单击【Continue】返回【 Univariate】主对话框。
 Step4：单击【OK】完成。
Bet ween-S ub jects Facto rs
N
A
B
C
1
2
3
1
2
3
1
2
3
3
3
3
3
3
3
3
3
3
由此表可知，因素A、B和C均有3个水平，每个水平没有
重复。
Tests of Between-Subjects Effects
Depen dent Variable : 转化率
Source
Corrected Model
Intercept
A
B
C
Error
T ot al
Corrected Total
T ype III Sum
of Squares
966.000 a
22500.000
618.000
114.000
234.000
18.000
23484.000
984.000
df
6
1
2
2
2
2
9
8
Mean Square
161.000
22500.000
309.000
57.000
117.000
9.000
F
17.889
2500.000
34.333
6.333
13.000
Sig.
.054
.000
.028
.136
.071
a. R Squared = .982 (Adjust ed R Squared = .927)
由此表可知，因素“A”，F=34.333；“B”，F=6.333；“C”
，F=13.000。而只有“A”因素的Sig.值小于0.05，“B”和
“C”的Sig.值均大于0.05，说明“A”因素对试验结果有显著影
响，而“B”因素和“C”因素对试验结果影响差异不显著。
转化率
a,b
Duncan
Subset
A
1
2
3
Sig.
N
3
3
3
1
41.00
48.00
.104
2
61.00
1.000
由此Duncan多重比较表可以看
出，“A”因素三水平最好。
Level-1与Level-2无显著差异；
Level-1， Level-2与Level-3都
有显著差异。差异显著度在sig.
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 9.000.
a. Uses Harmonic Mean Sample Size = 3.000.
b. Alpha = .05.
转化率
a,b
Duncan
B
1
3
2
Sig.
N
3
3
3
Subset
1
47.00
48.00
55.00
.076
由此Duncan多重比较表可以看
出，“B”因素三个水平之间差
异不显著，但以两水平转化率
最高。
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 9.000.
a. Uses Harmonic Mean Sample Size = 3.000.
b. Alpha = .05.
转化率
a,b
Duncan
Subset
C
1
3
2
Sig.
N
3
3
3
1
45.00
48.00
.345
2
由此Duncan多重比较表可以看
出，“C”因素两水平最好。
48.00
57.00
.067
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 9.000.
a. Uses Harmonic Mean Sample Size = 3.000.
b. Alpha = .05.
综合以上可得：
最适宜的试验组合为A3B2C2，对于“B”因素是试验
结果的次要影响因素，且三个处理差异不显著，可
根据操作方便、经济实惠、节省开支等既定条件选
取最好水平。
有重复正交试验的方差分析
例2 为了提高炒青绿茶品质，研究了茶园施肥3要素配合比例
（A）和用量（D），鲜叶处理方法（B）和制茶工艺方法
（C）4个因素对茶叶感官质量的影响，每因素均取3个水平，
选用L9(34) 正交表安排试验，重复2次。试验方案和各处理
的茶叶品质总分如表3所示，试进行试验结果统计分析。
注：不考虑交互作用
表3 绿茶品质分析试验结果
列号
品质评分
实验号 A（配合 B（鲜叶 C（工艺 D（肥料
比例）
处理）
流程）
用量）
Ⅰ
Ⅱ
1
1
1
1
1
78.9
78.1
2
1
2
2
2
77.0
77.0
3
1
3
3
3
77.5
78.5
4
2
1
2
3
80.1
80.9
5
2
2
3
1
77.6
78.4
6
2
3
1
2
78
79
7
3
1
3
2
76.7
76.3
8
3
2
1
3
81.3
82.7
9
3
3
2
1
79.5
78.5
SPSS操作步骤如下：
 Step1：将表2数据输入SPSS数据编辑窗口后，依次选择Analyze→General Linear
Model →Univariate…，即可打开【Univariate】主对话框。
 Step2：将左边“品质”变量选入右边“Dependent Variable” （因变量列表），
“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”项目选入“Fixed
Factor(s)”（自变量。
 Step3：选择【Model … 】按钮，打开【 Univariate Model】子对话框。在此对
话框中选择“Custom”（自定义模型），将左“配合比”、“鲜叶处理”、“工
艺流程”和“肥料用量”项目选入“Model”中，按【Continue】按钮返回
【 Univariate】主对话框。
 Step3：选择【Post Hoc … 】打开【Post Hoc Multiple Comparisons for … 】对
话框，将左边“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”项目选
入“Post Hoc Tests for”中，选择“Duncan”，单击【Continue】返回
【 Univariate】主对话框。
 Step4：单击【OK】完成。
Bet ween-Subjects Facto rs
N
配合
比例
鲜叶
处理
工艺
流程
肥料
用量
1
2
3
1
2
3
1
2
3
1
2
3
6
6
6
6
6
6
6
6
6
6
6
6
由此表可知，因素“配合
比”、“鲜叶处理”、“
工艺流程”和“肥料用量
”均有3个水平，每个水平
有2次重复，每个水平在试
验组合中出现6次。
Tests of Between-Subjects Effects
Depen dent Variable : 品质
Source
Corrected Model
Intercept
配合比例
鲜叶处理
工艺流程
肥料用量
Error
T ot al
Corrected Total
T ype III Sum
of Squares
46.000a
111392.000
6.333
1.000
14.333
24.333
3.520
111441.520
49.520
df
8
1
2
2
2
2
9
18
17
Mean Square
5.750
111392.000
3.167
.500
7.167
12.167
.391
F
14.702
284809.1
8.097
1.278
18.324
31.108
Sig.
.000
.000
.010
.325
.001
.000
a. R Squared = .929 (Adjust ed R Squared = .866)
由此表可知，因素“配合比例”、“工艺流程”和“肥料用量
”的Sig.值均小于0.05，“鲜叶处理”的Sig.值大于0.05，说明“
配合比例”、“工艺流程”和“肥料用量”因素对试验结果有
显著影响，而“鲜叶处理”因素对试验结果影响差异不显著。
品质
a, b
Duncan
Subset
配合比例
1
2
3
Sig.
N
6
6
6
1
77.833
1.000
2
79.000
79.167
.655
由此Duncan多重比较表
可以看出，“配合比例
”因素三水平最好。
Means for groups in homogeneous subsets are displayed.
Based on T ype III Sum of Squares
T he error term is Mean Square(Error) = .391.
a. Uses Harmonic Mean Sample Size = 6.000.
b. Alpha = .05.
品质
a, b
Duncan
鲜叶处理
1
3
2
Sig.
N
6
6
6
Subset
1
78.500
78.500
79.000
.218
由此Duncan多重比较表可以
看出，“鲜叶处理”因素三
个水平之间差异不显著。
Means for groups in homogeneous subsets are displayed.
Based on T ype III Sum of Squares
T he error term is Mean Square(Error) = .391.
a. Uses Harmonic Mean Sample Size = 6.000.
b. Alpha = .05.
品质
a, b
Duncan
工艺流程
3
2
1
Sig.
N
6
6
6
1
77. 500
Subse t
2
3
78. 833
1.000
1.000
79. 667
1.000
Means for groups in homoge neous subse ts are displayed.
Based on Type III Sum of Squares
T he e rror te rm is Mean Square (Error) = .391.
a. Use s Harmonic Mean Sample Size = 6.000.
b. A lpha = .05.
由此Duncan多重比较表可以看出，“工艺流程”因素一
水平最好。
品质
a, b
Duncan
肥料用量
2
1
3
Sig.
N
6
6
6
1
77. 333
Subse t
2
3
78. 500
1.000
1.000
80. 167
1.000
Means for groups in homo ge neo us subse ts are displayed.
Based o n Type III Sum of Squares
T he e rro r te rm is Mean Square (Error) = .391.
a. Use s Harmonic Mean Sample Size = 6.000.
b. A lpha = .05.
由此Duncan多重比较表可以看出，“肥料用量”因素三水平
最好。
综合以上可得：
最适宜的试验组合为A3C1D3，对于“鲜叶处理”因
素是试验结果的次要影响因素，且三个处理差异不
显著，可根据操作方便、经济实惠、节省开支等既
定条件选取最好水平。
有交互作用的正交试验的方差分析
同无重复正交试验和有重复正交试验的方差分析一样，只
是略微更改Step2和Step3，在Step2中将不是考察指标以外
的所有因素均放入“Fixed Factor (s)”栏内，在Step3中将
不是考察指标以外的所有因素项目均选入“Model”中。
在正交设计中，如在spss中分析，如果是无重复试验，就必
须设置空列以备误差估计.而且绝对不能将空列选入Fixed
Factor ；如果是有交互作用分析，就必须将交互作用列严
格按正交表进行排列，并且将交互作用列输入变量数据，
才能进行分析.
正交表的设计可以通过Data---orthogonal design.
Thank you

对元 Eddy DOE &amp; EXCEL, SPSS application

Transcript 对元 Eddy DOE &amp; EXCEL, SPSS application

Directory

对元 Eddy DOE & EXCEL, SPSS application

Transcript 对元 Eddy DOE & EXCEL, SPSS application