对元 Eddy DOE & EXCEL, SPSS application

Download Report

Transcript 对元 Eddy DOE & EXCEL, SPSS application

DOE & EXCEL, SPSS application
艾对元
Eddy
课程目的
 应用统计学,试验设计
 理解统计数据分析主要方法的基本理论
 掌握基本统计方法在实践中的应用
 能熟练运用Excel ,SPSS软件实现数据
分析
 独立运用统计方法解决实际问题
参考书目:
 1.《试验设计与数据处理》,李云雁编,化学工业出版社,
2008
 2.《Excel 2007 在统计分析中的应用》,谢邦昌编著,
清华大学出版社,2008
 3. 《试验设计与SPSS应用》,王颉主编,化学工业出版社
,2006
 4、《统计学:从数据到结论》(第2版)吴喜之著,中国
统计出版社,2006。
 5、《统计分析与SPSS的应用》,薛薇编著,中国人民大
学出版社,2001。
 6、《SPSS统计分析教程》,李志辉等主编,电子工业出
版社,2003。
SPSS软件应用实用网址
1. SPSS网址: http://www.spss.com
2. SPSS中文网址
http://www.spssgz.com.cn
http://www.spss.com.cn
4. SPSS FOR WINDOWS简明教程目录
http://www.fjmu.edu.cn/news/spss/
doc3/index.htm (由福建教育出版社出版,姜
小鹰主编)
5. SPSS for Windows 10.0版教程
http://www.medstatstar.myetang.com/
spss/coach.htm (医学统计之星网站 作者:张
文彤 )
§ 统计是什么?
统 计 学 ( statistics ) 是 用
以收集数据,分析数据和由
数据得出结论的一组概念、
原则和方法。
统计软件
 SPSS:这是一个很受欢迎的统计软件;它容易操作,输出
漂亮,功能齐全,价格合理。对于非统计工作者是很好的
选择。
 SAS:这是功能非常齐全的软件;尽管价格不菲,许多公
司还是因为其功能众多和某些美国政府机构认可而使用。
尽管现在已经尽量“傻瓜化”,仍然需要一定的训练才可
以进入。对于基本统计课程则不那么方便。
 STATA: 这是众多统计软件的后起之秀;它操作灵活、简
单、易学易用,同时具有数据管理软件、统计分析软件、
绘图软件、矩阵计算软件和程序语言的特点。占用计算机
系统资源少,绘图漂亮,对有简单编程基础者来讲十分容
易上手,有专门出版的专业刊物。
以上三种软件并称为新的国际三大权威统计软件
统计软件
Excel:它严格说来并不是统计软件,但作
为数据表格软件,必然有一定统计计算功能
。而且凡是有Microsoft Office的计算机
,基本上都装有Excel。但要注意,有时在
装Office时没有装数据分析的功能,那就必
须装了才行。当然,画图功能是都具备的。
对于简单分析,Excel还算方便,但随着问
题的深入,Excel就不那么“傻瓜”,需要
使用函数,甚至根本没有相应的方法了。多
数专门一些的统计推断问题还需要其他专门
的统计软件来处理。
统计软件
S-plus:这是统计学家喜爱的软件。不仅由于
其功能齐全,而且由于其强大的编程功能,使得
研究人员可以编制自己的程序来实现自己的理论
和方法。它也在进行“傻瓜化”以争取顾客。但
仍然以编程方便为顾客所青睐。
R软件:这是一个免费的,由志愿者管理的软件
。其编程语言与S-plus所基于的S语言一样,
很方便。还有不断加入的各个方向统计学家编写
的统计软件包。同时从网上可以不断更新和增加
有关的软件包和程序。这是发展最快的软件,受
到世界上统计师生的欢迎。是用户量增加最快的
统计软件。对于一般非统计工作者来说,主要问
题是它没有“傻瓜化”。
统计软件
 Minitab:这个软件是很方便的功能强大而又齐全的软件
,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么
普遍。
 Statistica:也是功能强大而齐全的“傻瓜化”的软件,
在我国用的也不如SAS与SPSS那么普遍。
 Eviews:这是一个主要处理回归和时间序列的软件。
 GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢
它。主要也是编程功能强大。目前在我国使用的人不多。
 FORTRAN:这是应用于各个领域的历史很长的非常优秀
的编程软件,功能强大,也有一定的统计软件包。计算速
度比这里介绍的都快得多。但需要编程和编译。操作不那
么容易。
 MATLAB:这也是应用于各个领域的以编程为主的软件,
在工程上应用广泛。编程类似于S和R。但是统计方法不多
。
主要内容
1
统计软件SPSS界面概述
2
SPSS统计分析一般步骤
3
正交试验设计
SPSS界面
SPSS简介
SPSS是Statistical Program for Social Sciences 的简称,
即社会科学统计程序,由美国SPSS公司1970年代推出,
迄今已有近30年的历史。是国际著名三大社会科学统计软
件包之一(SAS、SPSS、Statis)。我们现在使用的是
SPSS for Windows 13.0版。
作为统计分析工具,理论严谨、内容丰富,数据管
理、统计分析、趋势研究、制表绘图、文字处理等
优点 使用简便,不用编程(SAS需编程)
同excel转换、强大的统计功能等
SPSS的主要窗口和菜单
1 SPSS的3个主要窗口
1-1 数据编辑器窗口(SPSS Data Editor):用来
编辑和显示数据;在此窗口中的文件名称为*. sav
。
1-2 程序语句编辑器窗口( SPSS Syntax Editor
):用来编写各种程序;在此窗口中的文件名称
为*. sps。
1-3 结果观看窗口( SPSS Viewer):显示统计
运算结果;在此窗口中的文件名称为*. spo。
2 SPSS 数据编辑器的主要菜单
2-1 File 菜单:文件管理
New;Open;Save;Save as;Exit。
2-2 Edit 菜单:编辑
Undo;Cut;Copy;Paste;Clear;
Find;
2-3 View菜单:视图
Fonts;Grid lines;Value labels。
2-4 Data菜单:数据整理
define variables;Insert variables;Insert
case;
go to case;sort case;select case。
2-5 Transform菜单:数据转换
recode;compute;count。
2-6 Analyze菜单:统计
2-7 Graphs菜单:统计图
2-8 Utilities菜单:工具附件
2-9 Windows菜单:窗口
2-10 Help菜单:帮助
主菜单
1、File:文件管理菜单,有关文件的调入、存储、显示和打印等;
2、Edit:编辑菜单,有关文本内容的选择、拷贝、剪贴、寻找和替换等
;
3、View:视图;
4、Data:数据管理菜单,有关数据变量定义、数据格式选定、观察对
象的选择、排序、加权、数据文件的转换、连接、汇总等;
5、Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺
失值替代等;
6、Analyze:统计菜单,有关一系列统计方法的应用;
7、Graphs:作图菜单,有关统计图和表的制作;
8、Utilities:用户选项菜单,有关命令解释、字体选择、文件信息、
定义输出标题、窗口设计等;
9、Windows:窗口管理菜单,有关窗口的排列、选择、显示等;
10、Help:求助菜单,有关帮助文件的调用、查寻、显示等。
一、统计软件SPSS界面概述
标题栏
菜单栏
工具栏
工作区
建立数据文件、
定义变量、编辑
图表、编写程序
等等。
数据编辑窗
(Data Editor)
SPSS
界面
Text
结果输出窗
(SPSS
Viewer)
数据编辑窗(Data Editor)
Data Editor的两个界面:
Data View界面:是用户进行数据输入、数据编
辑、数据文件整理的界面。
输入数据?
定义变量?
Variable View界面:是用户定义数据文件的变
量界面。
两个界面的切换方法是单击窗口左下角的Data View和Variable
View选项卡,选中的选项卡以高度形式显示。
输入数据的方法(Data View界面):
定义一个变量就先输入这个变量,这种方法是纵向
输入数据。采用此方法,我们依次输入该变量的各
个数值。
在定义完所有的变量之后,按观测量来输入数据,
即输入完一个观测量以后,再输入第二个观测量,
这种方法是横向进行的。
如何定义一个变量(Variable View界面):
在Variable View界面上,可以定义变量名、变量的
类型、变量的长度及小数位数、变量标签及其值签、
变量的格式(包含显示的宽度、对齐方式、误差值
标签等)。
在定义SPSS变量时,至少应定义变量名和变量类型,
而其他属性则可以采用默认值。
变量的定义和数据的输入
Name
Type
Width
Decimals
Label
Values
Missing
Columns
Align
变量名
变量类型
变量宽度
小数点
变量标签
变量值标签
缺失值
变量显示宽度
变量对齐方式
定义变量名:单击“Name”所在列的第一行,就
可以输入要定义的第一个变量的变量名称。
定义变量类型:单击“Type”栏,会出现省略号,
再单击省略号,就会出现定义变量类型的对话框。
用户可以在此对话框选择变量类型及更改变量的长
度和小数位数。系统默认为标准数值型变量
Numeric。
定义变量的小数位数:单击“Decimal”,修改所需
的小数位数。
变量要求:
•变量名不能超过8个字符;
•变量名不能以数字开头;
•变量名中不能包含+,-,×,/、?、=等运算
和逻辑符号。
•当相邻变量名称上存在顺序且码位相同时,可用
简略方法 :
W02 8 W03 9 W04 10.可换为 W02 to W04 8-10.
•当变量值是字符时,在码位后加(a);如:
W7 12(a);
•当变量值包含小数时,在码位后加(n),n表示
小数的位数。如:446.79,在录入时要录成
44679,定义时为:W12 12-16(2);
数据录入
外部式录入
采用DOS、WPS、CCED等软件,按ASCII
码方式录入成文本文件(*.dat;*.txt)。这
种录入方式的特点是,数据之间没有间隔,
录完一个数码后自动后移,录入速度较快。
缺点是容易错位。
内部式录入
采用SPSS数据编辑器(SPSS Data Editor
)录入。其优点是不容易错位,缺点是不能
自动后移,录入速度慢,数据错误不容易修
改。
二、SPSS统计分析一般步骤
数据文件的建立,编辑,整理
在数据编辑窗口中
选择统计分析方法
在【Analyze】菜单中
选择分析变量,设置参数
打开的各级对话框中
查看解释分析结果
在“SPSS Viewer”中
在SPSS中,数据文件的编辑、整理等功能被集中
在了Data和Transform两个菜单项中,这两个菜
单的内容如下所示:
Data菜单项
Transform菜单项
数据的编辑
 数据的打开 File==>Open==>Data/output
 数据的增删、复制、粘贴,insert、cut或clear、copy
 数据的排序,Sort升序或降序
 数据的搜索,Go to Case或Find
 数据的复制,Copy或paste
 数据的编码,对于一些连续变量如年龄等可通过recode等进
行编码
 数据的计算,Compute
 秩和检验中计算秩次,Ranks-Mean
 文件的拆分 ,Select cases(物理) 和split(形式) sex
 文件的合并 ,add或Merge
 对于频数表资料(2 检验 )要进行加权,即Weight
 数据文件的保存, 可转换为excel等格式
 奇异数据的发现和检查 可用Frequencies或Explore等
SPSS Analyze统计菜单功能介绍
 描述性统计分析--Descriptive Statistics菜单
 均数间的比较--Compare Means菜单
 一般线性模型――General Linear Model菜单
 相关分析――Correlate菜单
 多元线性回归与曲线拟合―― Regression菜单
 对数线性模型——Loglinear菜单
 聚类分析与判别分析——Classify菜单
 因子分析与对应分析——Data Reduction菜单
 信度分析与多维尺度分析——Scale菜单
 非参数检验――Nonparametric Tests菜单
 Survival菜单
三、正交试验设计
正交试验设计
结果分析:
基本步骤
直观分析法
方差分析法
与SPSS实现
正交实验设计的基本步骤
1
明确实验
目的,确
定考察指
标,挑因
素,选水
平
2
选择合
适的正
交表
3
进行表
头设计
4
排出实
验方案
正交试验的结果分析——直观分析法
计算Ki值和Ki值
计算各因素列的极差R
根据极差R的大小,进行因素的主次排队
验证试验
选出最优的水平组合
无
正交试验的结果分析——
方差分析法与SPSS实现
须有空列,用
空列来估算实
验误差
3
2
1
无重复正交试
验的方差分析
有重复正交试
验的方差分析
有交互作用正
交试验的方差
分析
无重复正交试验的方差分析
例1 为了考察影响某种化工产品转化率的因素,选择三个有关因
素:反应温度(A)、反应时间(B)、用碱量(C)每个因素取
三种水平,因素水平表见表1,结果见表2:
表1
水平
1
2
3
因素
反应温度(A)
80C ( A1 )
85C ( A2 )
90C ( A3 )
反应时间(B)
90分( B1 )
120分( B2 )
150分( B3 )
用碱量(C)
5%(C1 )
6%(C2 )
7%(C3 )
表2 正交试验结果
列号
A
B
C
D(空列)
转化率
(%)
1
1
1
1
1
31
2
1
2
2
2
54
3
1
3
3
3
38
4
2
1
2
3
53
5
2
2
3
1
49
6
2
3
1
2
42
7
3
1
3
2
57
8
3
2
1
3
62
9
3
3
2
1
64
实验号
SPSS操作步骤如下:
 Step1:将表2数据输入SPSS数据编辑窗口后,依次选择
Analyze→General Linear Model →Univariate…,即可打开【Univariate】
主对话框。
 Step2:将左边“转化率”变量选入右边“Dependent Variable” (因变
量列表),a、b和c项目选入“Fixed Factor(s)”(自变量),“d”因子不
动,用于估算试验误差。
 Step3:选择【Model … 】按钮,打开【 Univariate Model】子对话框。
在此对话框中选择“Custom”(自定义模型),将左边a、b和c项目选入
“Model”中,按【Continue】按钮返回【 Univariate】主对话框。
 Step3:选择【Post Hoc … 】打开【Post Hoc Multiple Comparisons
for … 】对话框,将左边a、b和c项目选入“Post Hoc Tests for”中,选择
“Duncan”,单击【Continue】返回【 Univariate】主对话框。
 Step4:单击【OK】完成。
Bet ween-S ub jects Facto rs
N
A
B
C
1
2
3
1
2
3
1
2
3
3
3
3
3
3
3
3
3
3
由此表可知,因素A、B和C均有3个水平,每个水平没有
重复。
Tests of Between-Subjects Effects
Depen dent Variable : 转 化 率
Source
Corrected Model
Intercept
A
B
C
Error
T ot al
Corrected Total
T ype III Sum
of Squares
966.000 a
22500.000
618.000
114.000
234.000
18.000
23484.000
984.000
df
6
1
2
2
2
2
9
8
Mean Square
161.000
22500.000
309.000
57.000
117.000
9.000
F
17.889
2500.000
34.333
6.333
13.000
Sig.
.054
.000
.028
.136
.071
a. R Squared = .982 (Adjust ed R Squared = .927)
由此表可知,因素“A”,F=34.333;“B”,F=6.333;“C”
,F=13.000。而只有“A”因素的Sig.值小于0.05,“B”和
“C”的Sig.值均大于0.05,说明“A”因素对试验结果有显著影
响,而“B”因素和“C”因素对试验结果影响差异不显著。
转化率
a,b
Duncan
Subset
A
1
2
3
Sig.
N
3
3
3
1
41.00
48.00
.104
2
61.00
1.000
由此Duncan多重比较表可以看
出,“A”因素三水平最好。
Level-1与Level-2无显著差异;
Level-1, Level-2与Level-3都
有显著差异。差异显著度在sig.
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 9.000.
a. Uses Harmonic Mean Sample Size = 3.000.
b. Alpha = .05.
转化率
a,b
Duncan
B
1
3
2
Sig.
N
3
3
3
Subset
1
47.00
48.00
55.00
.076
由此Duncan多重比较表可以看
出,“B”因素三个水平之间差
异不显著,但以两水平转化率
最高。
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 9.000.
a. Uses Harmonic Mean Sample Size = 3.000.
b. Alpha = .05.
转化率
a,b
Duncan
Subset
C
1
3
2
Sig.
N
3
3
3
1
45.00
48.00
.345
2
由此Duncan多重比较表可以看
出,“C”因素两水平最好。
48.00
57.00
.067
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 9.000.
a. Uses Harmonic Mean Sample Size = 3.000.
b. Alpha = .05.
综合以上可得:
最适宜的试验组合为A3B2C2,对于“B”因素是试验
结果的次要影响因素,且三个处理差异不显著,可
根据操作方便、经济实惠、节省开支等既定条件选
取最好水平。
有重复正交试验的方差分析
例2 为了提高炒青绿茶品质,研究了茶园施肥3要素配合比例
(A)和用量(D),鲜叶处理方法(B)和制茶工艺方法
(C)4个因素对茶叶感官质量的影响,每因素均取3个水平,
选用L9(34) 正交表安排试验,重复2次。试验方案和各处理
的茶叶品质总分如表3所示,试进行试验结果统计分析。
注:不考虑交互作用
表3 绿茶品质分析试验结果
列号
品质评分
实验号 A(配合 B(鲜叶 C(工艺 D(肥料
比例)
处理)
流程)
用量)
Ⅰ
Ⅱ
1
1
1
1
1
78.9
78.1
2
1
2
2
2
77.0
77.0
3
1
3
3
3
77.5
78.5
4
2
1
2
3
80.1
80.9
5
2
2
3
1
77.6
78.4
6
2
3
1
2
78
79
7
3
1
3
2
76.7
76.3
8
3
2
1
3
81.3
82.7
9
3
3
2
1
79.5
78.5
SPSS操作步骤如下:
 Step1:将表2数据输入SPSS数据编辑窗口后,依次选择Analyze→General Linear
Model →Univariate…,即可打开【Univariate】主对话框。
 Step2:将左边“品质”变量选入右边“Dependent Variable” (因变量列表),
“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”项目选入“Fixed
Factor(s)”(自变量。
 Step3:选择【Model … 】按钮,打开【 Univariate Model】子对话框。在此对
话框中选择“Custom”(自定义模型),将左“配合比”、“鲜叶处理”、“工
艺流程”和“肥料用量”项目选入“Model”中,按【Continue】按钮返回
【 Univariate】主对话框。
 Step3:选择【Post Hoc … 】打开【Post Hoc Multiple Comparisons for … 】对
话框,将左边“配合比”、“鲜叶处理”、“工艺流程”和“肥料用量”项目选
入“Post Hoc Tests for”中,选择“Duncan”,单击【Continue】返回
【 Univariate】主对话框。
 Step4:单击【OK】完成。
Bet ween-Subjects Facto rs
N
配合
比例
鲜叶
处理
工艺
流程
肥料
用量
1
2
3
1
2
3
1
2
3
1
2
3
6
6
6
6
6
6
6
6
6
6
6
6
由此表可知,因素“配合
比”、“鲜叶处理”、“
工艺流程”和“肥料用量
”均有3个水平,每个水平
有2次重复,每个水平在试
验组合中出现6次。
Tests of Between-Subjects Effects
Depen dent Variable : 品 质
Source
Corrected Model
Intercept
配合比例
鲜叶处理
工艺流程
肥料用量
Error
T ot al
Corrected Total
T ype III Sum
of Squares
46.000a
111392.000
6.333
1.000
14.333
24.333
3.520
111441.520
49.520
df
8
1
2
2
2
2
9
18
17
Mean Square
5.750
111392.000
3.167
.500
7.167
12.167
.391
F
14.702
284809.1
8.097
1.278
18.324
31.108
Sig.
.000
.000
.010
.325
.001
.000
a. R Squared = .929 (Adjust ed R Squared = .866)
由此表可知,因素“配合比例”、“工艺流程”和“肥料用量
”的Sig.值均小于0.05,“鲜叶处理”的Sig.值大于0.05,说明“
配合比例”、“工艺流程”和“肥料用量”因素对试验结果有
显著影响,而“鲜叶处理”因素对试验结果影响差异不显著。
品质
a, b
Duncan
Subset
配合比例
1
2
3
Sig.
N
6
6
6
1
77.833
1.000
2
79.000
79.167
.655
由此Duncan多重比较表
可以看出,“配合比例
”因素三水平最好。
Means for groups in homogeneous subsets are displayed.
Based on T ype III Sum of Squares
T he error term is Mean Square(Error) = .391.
a. Uses Harmonic Mean Sample Size = 6.000.
b. Alpha = .05.
品质
a, b
Duncan
鲜叶处理
1
3
2
Sig.
N
6
6
6
Subset
1
78.500
78.500
79.000
.218
由此Duncan多重比较表可以
看出,“鲜叶处理”因素三
个水平之间差异不显著。
Means for groups in homogeneous subsets are displayed.
Based on T ype III Sum of Squares
T he error term is Mean Square(Error) = .391.
a. Uses Harmonic Mean Sample Size = 6.000.
b. Alpha = .05.
品质
a, b
Duncan
工艺流 程
3
2
1
Sig.
N
6
6
6
1
77. 500
Subse t
2
3
78. 833
1.000
1.000
79. 667
1.000
Means for groups in homoge neous subse ts are displayed.
Based on Type III Sum of Squares
T he e rror te rm is Mean Square (Error) = .391.
a. Use s Harmonic Mean Sample Size = 6.000.
b. A lpha = .05.
由此Duncan多重比较表可以看出,“工艺流程”因素一
水平最好。
品质
a, b
Duncan
肥料用 量
2
1
3
Sig.
N
6
6
6
1
77. 333
Subse t
2
3
78. 500
1.000
1.000
80. 167
1.000
Means for groups in homo ge neo us subse ts are displayed.
Based o n Type III Sum of Squares
T he e rro r te rm is Mean Square (Error) = .391.
a. Use s Harmonic Mean Sample Size = 6.000.
b. A lpha = .05.
由此Duncan多重比较表可以看出,“肥料用量”因素三水平
最好。
综合以上可得:
最适宜的试验组合为A3C1D3,对于“鲜叶处理”因
素是试验结果的次要影响因素,且三个处理差异不
显著,可根据操作方便、经济实惠、节省开支等既
定条件选取最好水平。
有交互作用的正交试验的方差分析
同无重复正交试验和有重复正交试验的方差分析一样,只
是略微更改Step2和Step3, 在Step2中将不是考察指标以外
的所有因素均放入“Fixed Factor (s)”栏内, 在Step3中将
不是考察指标以外的所有因素项目均选入“Model”中。
在正交设计中,如在spss中分析,如果是无重复试验,就必
须设置空列以备误差估计.而且绝对不能将空列选入Fixed
Factor ;如果是有交互作用分析,就必须将交互作用列严
格按正交表进行排列,并且将交互作用列输入变量数据,
才能进行分析.
正交表的设计可以通过Data---orthogonal design.
Thank you