多因素实验设计与方差分析

Download Report

Transcript 多因素实验设计与方差分析

多因素试验设计与方差分析
浙江大学医学院公共卫生系
流行病与卫生统计教研室
沈
毅
浙江大学医学院流行病与卫生统计学教研室
沈毅
实验三要素:
´¦ ÀíÒòËØ
ÊÜÊÔ¶ÔÏó
ʵÑéЧӦ
统计模型:
效应值=总平均效应+处理效应+随机误差效应
效应值-总平均效应=处理效应+随机误差效应
浙江大学医学院流行病与卫生统计学教研室
沈毅
一个简单的例子:
不同药物作用后小白鼠肉瘤的瘤重(g)
A药
B药
C药
0.82
0.65
0.51
0.73
0.54
1.50
0.43
0.34
1.05
0.41
0.21
0.93
0.68
0.43
0.35
浙江大学医学院流行病与卫生统计学教研室
沈毅
效应值-总平均效应=处理效应+随机误差效应
总平均值
(x  )
(x  x)
(x  )
效应值=总平均效应+处理效应+随机误差效应
浙江大学医学院流行病与卫生统计学教研室
沈毅
方差分析的基本思想
方差分析(analysis of variance ANOVA)在一个分类变量(自变量)
不同水平下或是在多个分类变量的水平组合下测量一个连续反应变量
(应变量),将这个反应变量的总效应分解为由分类变量引起的效应
(即主效应,如A,B分别表示由于分类变量A和B的不同水平引起的
变异)或分类变量的组合产生的效应(即交互效应,如A*B表示A和B
的交互作用,或嵌套效应;如B(A)表示B的效应嵌套在A之下),
和随机误差效应;同时将总自由度分解为对应的各部分自由度之和。
方差分析的统计量为F值,F值服从自由度1=k-1,2=N-k的F分布,在
一定的显著水平下,如果F大于F临界值,说明该分类变量有统计学意
义,即由处理引起的效应不为零,这就是方差分析的基本思想。
基本模型:
X ik     i   ik
其中μ为总体均数;表示因素Ai各水平对试验结果的影响大小,
即因素Ai的效应,ik 为随机误差效应,
浙江大学医学院流行病与卫生统计学教研室
沈毅
方差分析中离均差平方和的分解:
总变异=处理间变异+误差
(x  x )   n (x  x )  (x  x )
2
2
ij
i
j
i
i
i
ij
i
ss总  ss处理  ss误差
2
i
j
浙江大学医学院流行病与卫生统计学教研室
沈毅
•
•
•
•
析因设计试验的方差分析
正交设计试验的方差分析
裂区试验设计的方差分析
系统分组(嵌套)设计的方差分析
浙江大学医学院流行病与卫生统计学教研室
沈毅
第一节 析因试验设计的方差分析
• 一、析因试验设计的意义和方差分析模型
1、析因试验的意义
凡同时具有两个或两个以上处理因素,这些因素的各水平又具有
完全组合的实验,统称为析因设计(factorial design)实验。析因试
验设计不仅可以分析作每个因素的主效应,而且可分析因素间的交互
效应,还可以从各因素各水平的全面组合中挑选出最优试验条件或最
优试验条件的方向,能够提供较多的信息,缩小随机误差。
浙江大学医学院流行病与卫生统计学教研室
沈毅
2、方差分析模型
析因设计实验的方差分析可以同时分析这些处理因素的主效应,以及
因素间的交互效应(interaction)。以两因素析因试验设计为例,其数学
模型为:
X ijm     i   j   ij   ijm
(7-1)
 i 为 Ai 的效应; j 为 Bj 的效应;
( )ij
式中,μ 表示总平均值,
为 Ai 和 Bj 的交互
效应,ijm 随机误差效应。在析因试验的方差分析中,根据因素的效应又可将模型可分
为固定效应模型、随机效应模型和混合效应模型。三种模型在平方和、均方的计算上
完全相同,惟一不同的是用来计算 F 值的分母有所不同。
完全随机设计下的两因素析因试验方差分析结果可列成表 7-1 的形式,其中 Ai 为 A 因
素各水平的小计,Bj 为 B 因素各水平的小计,Tk(k=1,2,…,pq)为 A 因素和 B
因素交叉分组的第 k 种组合下的小计。令 QA 
1
1
1
2
2
A
,
Q

B
,
Q

Tk2 ,



i
B
j
AB
qr
pr
r
则其方差分析结果见表 7-1。
浙江大学医学院流行病与卫生统计学教研室
沈毅
方差来
源
A
B
表 7-1
平方和
(SS)
SSA=QA-C
SSB=QB-C
完全随机设计下两因素析因试验的方差分析表
自由度
均方
F值
(DF)
(MS)
固定模型 随机模型
MSA/MSA
p-1
SSA/DFA MSA/MSE
×B
q-1
SSB/DFB
A×B
SSA×B=QAB-C- SSA - SSB (p-1)(q-1) SSC/DFA×B
误差
SSe=SST-SSA- SSB - SSA
pq(r-1)
×B
MSB/MSE
MSA×
B/MSE
混合模型
MSA/MSE
MSB/MSA× MSB/MSA
B
×B
MSA×
B/MSE
MSAB/MSE
SSe/DFe
SST=W-C
pqr-1
总计
备注:混合模型中 A 为随机因素,B 为固定因素。
浙江大学医学院流行病与卫生统计学教研室
沈毅
所谓固定效应模型是指实验者设计时特别选定因素A
的a个水平与因素B的b个水平。试验结果的推论只适
用于因素A与B实际所用的水平。随机效应模型是指所
有因素A的诸水平与因素B的诸水平是从更大总体中随
机选取的,试验结果的推论对于被研究总体的所有水
平都有效。混合模型是指一个为固定因素,另一个为
随机因素,实验结果分别按固定因素、随机因素推论。
在实际工作中,由于固定效应模型是最为多见的,
下节中只给出固定效应模型实例的SAS程序。
浙江大学医学院流行病与卫生统计学教研室
沈毅
二、析因试验设计方差分析的SAS程序
例 7-1 对 12 例缺铁性贫血病人,采用给予两种药物 A 和 B 的四种不同治
疗方法,一个月后观察病人的红细胞增加数(百万/mm3),分析两种药物对红细
胞增加数的影响。
表 7-2 贫血病人治疗后 RBC 增加数(百万/mm3)
甲 药A
不用(A0)
用药(A1)
0.8
0.9
0.7
1.3
1.2
1.1
不用(B0)
乙药 B
0.9
1.1
1.0
2.1
2.2
2.0
用药(B1)
这是一个固定效应模型的 22 析因设计,其 SAS 程序如下:
浙江大学医学院流行病与卫生统计学教研室
沈毅
程序7-1
DATA EX7_1;
DO A=0 TO 1;
DO B=0 TO 1;
DO I=1 TO 3;
INPUT X@@;
OUTPUT;
END;
END;
END;
CARDS;
0.8 0.9 0.7 0.9 1.1 1.0 1.3 1.2
1.1 2.1 2.2 2.0
• ;
PROC ANOVA;
CLASS A B;
MODEL X=A B A* B;
MEANS A B A*B;
RUN;
QUIT;
浙江大学医学院流行病与卫生统计学教研室
沈毅
三、程序说明和结果解释
在数据步中,用三重循环语句建立数据集,第1、2个循环语句为读入A、
B两因素的分类值,第3个循环语句是控制在各水平组合下的重复数(即
每种组合下的样本例数),在过程步中,用ANOVA过程作两因素的方差
分析,CLASS语句指明A、B为分类变量,MODEL语句指明X为因变量,
因素a、b及其一级交互作用a*b为自变量,在 SAS中产生交互作用的因
素之间以“*”号连接,MEANS语句用于求均数及标准差,以便根据均
数大小,寻找最佳试验条件。(如为含区组因素的析因设计,只需在
model语句的等号右侧加上表示区组因素的变量名即可)。
•
输出结果如下:
浙江大学医学院流行病与卫生统计学教研室
沈毅
Dependent Variable: X
Sum of
Source
DF
Squares
Mean Square
F Value
Model
3
2.96250000
0.98750000
98.75
Error
8
0.08000000
0.01000000
Corrected Total
11
3.04250000
R-Square
C.V.
Root MSE
X Mean
0.973706
7.843137
0.100000
1.275000
Pr > F
<.0001
上述结果表明包含A、B两因素及A*B交互作用因素的模型总体上来说有统计学意义
(F=98.75 P<.0.0001)。说明模型有效,R2为0.973706,说明A、B两因素及A*B交互作用
可解释97%的红细胞增加数的变异。
浙江大学医学院流行病与卫生统计学教研室
沈毅
Dependent Variable: X
Source
DF
Anova SS
Mean Square
F Value
A
1
B
A*B
Pr > F
1.68750000
1.68750000
168.75
<.0001
1
0.90750000
0.90750000
90.75
<.0001
1
0.36750000
0.36750000
36.75
0.0003
对自变量检验结果表明,因素 A、B 的主效应及其 A*B 的交互效应均有统计学意义,在析
因设计的方差分析中,主要分析其交互效应,当交互效应有意义时可以不考虑主效应的作用,
本例 A*B 的交互效应有统计意义(F=36.75,P=0.00030)。
浙江大学医学院流行病与卫生统计学教研室
沈毅
Level of
--------------X--------------
A
N
0
6
0.90000000
0.14142136
1
6
1.65000000
0.50099900
Level of
Mean
Std Dev
--------------X--------------
B
N
0
6
1.00000000
0.23664319
1
6
1.55000000
0.60909769
Level of
Mean
Level of
Std Dev
--------------X--------------
A
B
N
Mean
Std Dev
0
0
3
0.80000000
0.10000000
0
1
3
1.00000000
0.10000000
1
0
3
1.20000000
0.10000000
1
1
3
2.10000000
0.10000000
从四种组合的均数来看,显然最大的均数为 2.1,其对应的组合水平为 A=l 且 B=1,即同时
甲、乙两药合并使用时效果最佳,提示 A、B 两药联合治疗缺铁性贫血病人对于红细胞增加
有协同作用,其疗效优于单纯用 A 或 B 药。
浙江大学医学院流行病与卫生统计学教研室
沈毅
此2×2的析因试验设计的SAS程序可推广到多因素、多水平
的析因试验设计,例如某析因设计中涉及三因素A、B、C,并要
判断其两两交互作用是否有意义,只需将MODEL语句改为
MODEL X=A B C A*B A*C B*C;即可。两因素间的交互作用
(如A*B,A*C,B*C)为一级交互作用,三因素及以上因素间交
互作用为二级或高级交互作用;由于因素间二级以上的交互作用
有时在专业意义上难以解释,所以,实际分析中,一般仅考虑一
级交互作用。
浙江大学医学院流行病与卫生统计学教研室
沈毅
第二节 正交试验设计资料的方差分析
一、正交试验设计的基本概念
正交试验设计(orthogonal experimental design)
是利用“正交表”科学地安排多因素试验的一种方法。
正交设计所安排的试验代表性极强,因而,不仅试验
次数少,而且便于分析推断出最佳试验方案,在作正
交设计时,要根据具体情况选择合适的正交表。正交
表是一种特殊的表格,正交表的一般表示方法为Ln
(pr),这里L表示正交表;下标n表示正交表的行数,
也是试验次数;r表示正交表的列数,p表示各因素的
水平数。
浙江大学医学院流行病与卫生统计学教研室
沈毅
正交表的构造有如下特点:
(1)表中任一列,不同数字出现的次数相同,而这些数字代表了因素取的水
平,这就是说任何一列所包含的各种水平数相同。如表L8(27)中不同数
字“1”、“2”在每一列中出现的次数都是4;表L9(34)中的数字“1”、
“2”、“3”在每一列中出现的次数都是3次,这一性质表明了正交表的均衡
性。
(2)表中任何两列同一行的两个数字组成的所有可能数对,其出现的次数相
同。如表L8(27)的任两列中,同一行的所有可能的数对有(1,1)、
(1,2)、(2,1)、(2,2),它们各出现2次。这一性质表明了正交
表的正交性,正因为正交表具有以上两种性质,所以,安排的试验具有均
匀分散、整齐可比的特点。
浙江大学医学院流行病与卫生统计学教研室
沈毅
由于这种均衡设计的特点,使得它只须使用较少的、有代表
性的处理组合数就可达到试验目的,从而节省了总的试验次数。
对于每种组合条件下无重复试验的正交设计,在选取正交表时
至少要空出一列以估计误差。一般正交试验时,正交表的选用
与表头设计详见有关参考书籍,这里不赘述。
正交试验设计方差分析与析因设计的方差分析相同,可参看
表7-1。在多数情况下,正交设计是按固定效应模型来计算F值
的。
浙江大学医学院流行病与卫生统计学教研室
沈毅
二、无重复正交试验设计资料的方差分析
例7-2研究四种因素对钉螺产卵数(Y)的影响,每一因素分为
两水平:温度A(A1=5℃,A2=10℃),含氧量B(B1=0.5,
B2 =5.0),含水量 C(C1 =10%,C2 =30%),pH值D
(D1=6.0,D2=8.0)。
采用L8(27)正交表,数据如下(见表7-3):
浙江大学医学院流行病与卫生统计学教研室
沈毅
1、SAS程序如下:
程序7-2
DATA EX7_2;
INPUT A B C D Y@@;
CARDS;
1 1 1 1 86 1 1 2 2 95 1 2 1 2 91 1 2 2 1 94
2 1 1 2 91 2 1 2 1 96 2 2 1 1 83 2 2 2 2 88
;
PROC ANOVA;
CLASS A B C D;
MODEL Y=A B C D A*B;
MEANS A B C D A*B;
RUN;
QUIT;
浙江大学医学院流行病与卫生统计学教研室
沈毅
2、程序说明与结果解释
在正交设计的程序中,建立 SAS 数据集时,只需输人主效应项,本例中只需输入正交
表第 l、2、4、7 列。程序中方差分析的语句与析因设计完全一样。
输出结果如下:
Source
DF
Anova SS
Mean Square
F Value
Pr > F
A
1
8.00000000
8.00000000
3.20
0.2155
B
1
18.00000000
18.00000000
7.20
0.1153
C
1
60.50000000
60.50000000
24.20
0.0389
D
1
4.50000000
4.50000000
1.80
0.3118
A*B
1
50.00000000
50.00000000
20.00
0.0465
结果表明 C 主效应及 A*B 交互效应有统计学意义。
浙江大学医学院流行病与卫生统计学教研室
沈毅
在如下组合条件下最不利于钉螺产卵,此时 Y 的均值最小:
Level of
Level of
――――――――――Y―――――――――――
A
B
N
Mean
SD
2
2
2
85.5000000
3.53553391
根据本例专业上考虑,取 A2B2C1D1 组合钉螺产卵数最小。需要注意的是当方差分析结果中
最佳组合或最优试验条件并没有出现在本次实验中时,需对最优试验条件下的组合再进行
实验,以验证结果的可靠性。
浙江大学医学院流行病与卫生统计学教研室
沈毅
三、有重复试验正交设计资料的方差分析
例7-3四种药物,每种药物有三水平:A药(A1=2%,
A2=4%,A3=5%),B药(B1=0%,B2=l%,B3=2
%),C药(C1=0%,C2=l%,C3=3%)及 D药(Dl=0
%,D2=l%,D3=3%)。问四种药物对淡色库蚊的50%击
倒时间有无差别?采用正交表L9(34),相同试验条件下均
做4次重复。
浙江大学医学院流行病与卫生统计学教研室
沈毅
•
1、 SAS程序
程序7-3
DATA EX7_3;
INPUT A B C D@@;
DO I=1 TO 4;
INPUT Y@@; OUTPUT;
END;
CARDS;
1
1
1
1
1
2
2
2
1
3
3
3
2
1
2
3
2
2
3
1
2
3
1
2
3
1
3
2
3
2
1
3
3
3
2
1
;
PROC ANOVA;
CLASS A B C D;
MODEL Y=A B C D;
MEANS A B C D;
RUN;
QUIT;
9.41
11.91
10.67
3.87
4.20
4.29
7.62
7.79
8.09
7.19
11.85
10.70
3.18
5.72
3.89
7.01
7.38
8.17
10.73
11.00
10.91
3.80
4.58
3.88
6.83
7.56
8.14
3.73
11.72
10.18
4.85
3.71
4.71
7.41
6.28
7.49
浙江大学医学院流行病与卫生统计学教研室
沈毅
2、程序说明与结果解释
在 DATA 步中第 1 个 INPUT 语句读入、B、C、D 四个因素的分类值,循环语句控制重复次数,第 2 个 INPUT
语句读入观察值(Y)。本程序 ANOVA 过程中的 MODEL 语句只指明主效应。
输出结果如下:
Source
DF
Anova SS
Mean Square
F Value
Pr > F
A
2
201.3095389
100.6547694
77.49
<.0001
B
2
15.9200389
7.9600194
6.13
0.0064
C
2
13.2967722
6.6483861
5.12
0.0130
D
2
5.0206722
2.5103361
1.93
0.1643
――――――-Y――――――
Level of
A
N
Mean
SD
2
12
4.22333333
0.66652877
浙江大学医学院流行病与卫生统计学教研室
沈毅
以上结果表明,A、B、C三种药物的各水平组均数间的差别
有统计学意义。
平均灭蚊时间越短,则效果越好。根据MEANS语句的输出
结果可知,A药第二水平(4%)时,效果最佳。
浙江大学医学院流行病与卫生统计学教研室
沈毅
四、水平数不等的正交试验设计资料
的方差分析
例7-4在啤酒生产中,要大麦不发芽,又要麦粒体内产生
淀粉酶、蛋白酶。所以生产过程与加入能促进酶形成的赤霉
素(G)有关,与能抑制大麦发芽的氨水浓度(N)和吸氨量
(C)有关,与事先将大麦浸湿含水程度(W)有关。四个
因素中,G、N、C都是四个水平,W是两个水平。根据因素
及水平数可选用L16(43×26)正交表作试验。排列及数据如
表7-5所示:
浙江大学医学院流行病与卫生统计学教研室
沈毅
1、 程序7-4
DATA EX7_4;
INPUT G N C W X@@;
CARDS;
1 1 1 1 11 1 2 2 2 11 1 3 3 2 11 1 4 4 1 16
2 1 2 1 9 2 2 1 2 16 2 3 4 2 16 2 4 3 1 21
3 1 3 2 11 3 2 4 1 12 3 3 1 1 10 3 4 2 2 12
4 1 4 2 16 4 2 3 1 13 4 3 2 1 20 4 4 1 2 18
;
PROC ANOVA;
CLASS G N C W;
MODEL X=G N C W;
MEANS G N C W;
RUN;
QUIT;
浙江大学医学院流行病与卫生统计学教研室
沈毅
2、程序说明与结果解释
在 DATA 步中 INPUT 语句读入四个因素的分类值及观察值(Y)。本程序 ANOVA 过程
中的 MODEL 语句只指明主效应。
输出结果如下:
Dependent Variable: X
Sum of
Source
DF
Squares
Mean Square
F Value
Pr > F
Model
10
144.6250000
14.4625000
1.24
0.4296
Error
5
58.3125000
11.6625000
Corrected Total
15
202.9375000
R-Square
Coeff Var
Root MSE
0.712658
24.50253
3.415040
X Mean
13.93750
上述结果表明包含4个主效应因素的模型无统计学意义(F=1.24,P=0.429)。
浙江大学医学院流行病与卫生统计学教研室
沈毅
DF
Source
Anova SS
Mean Square
F Value
Pr > F
G
3
81.68750000
27.22916667
2.33
0.1908
N
3
54.68750000
18.22916667
1.56
0.3085
C
3
8.18750000
2.72916667
0.23
0.8692
0.01
0.9445
W
1
0.06250000
0.06250000
分别对四个因素的检验结果也表明了四种因素对糖化时间的影响没有统计学意义。means 语
句的输出结果略。
浙江大学医学院流行病与卫生统计学教研室
沈毅
第三节 裂区试验设计资料的方差分析
• 一、裂区试验设计的意义和方差分析模型
1、裂区试验的意义
裂区设计(split-plot design)也是一种两因素设计。这种设
计最早应用于农业。在某些田间试验中,首先将选择好的田块分
为几个大区。然后再将每一大区分为若干个小区。在大区水平上
施加处理因素A,在小区水平上施加处理因素B。假如A有 2个水
平:a1、a2,B有3个水平:bl、b2、b3,就可将试验田块分为 2
个大区,分别配置 a1、a2。将每个大区划分为三个小区,配置bl、
b2、b3。这种设计框架如下:
浙江大学医学院流行病与卫生统计学教研室
沈毅
a1
大区A的水平
小区B的水平
b1
b2
a2
b3
b1
b2
b3
从变异的角度分析,在这种设计中,因素B的变异性要小于因素A的
变异性,因为因素A只是在大区上实施的,没有重复。故在配置因素时,
应将主要因素作为B,配置在小区水平上,而重要性相对小一点的因素
作为A,配置在大区水平上。
浙江大学医学院流行病与卫生统计学教研室
沈毅
2、方差分析模型
裂区设计方差分析的数学模型为
X ijk     i   j   ij   k   ik   ijk
(7-2)
i
模型中 Xijk 是应变量的观察值。为常数项,相当于总体平均值,
为因素 A 在 i 水平
上的效应;  j 为因素 B 在 j 水平上的效应; ij 是 A 取 i 水平、B 取 j 水平的交互作用;
 k 为小区内第 k 个观察对象的效应,相当于区组效应; ik 为因素 A 取 i 水平时第 k 个受试
 ijk
对象的效应,是一个随机分量;
为随机误差效应。
则其方差分析见表 7-6。
ss总  ssA  ssB  ssAB  ss区组  ss个体  ss误差
浙江大学医学院流行病与卫生统计学教研室
沈毅
二、裂区试验方差分析的SAS程序
例7-6 将10只家兔随机等分两组,一组注射抗毒素,一组
注射生理盐水作为对照。分组后,每只家兔取甲、乙两部位,
分别注射低浓度毒素和高浓度毒素,观察指标为皮肤受损范
围直径,结果如表7-7所示。试分析试验结果。
本题与嵌套设计类似,但B的各水平不随A水平的变化
而变化,故为裂区设计,根据一级实验单位按照完全随机的
方法分组,可判断为完全随机设计的裂区试验。
浙江大学医学院流行病与卫生统计学教研室
沈毅
SAS程序为
程序7-5
DATA EX7_5;
DO A=1 TO 2;
DO I=1 TO 5;
DO B=1 TO 2;
INPUT X@@;
OUTPUT;
END;
END;
END;
CARDS;
15.75 19.00
15.50 20.75
15.50 18.50
17.00 20.50
16.50 20.00
18.25 22.25
18.50 21.50
19.75 23.50
21.50 24.75
20.75 23.75
;
PROC ANOVA;
CLASS A B I;
MODEL X= A A*I B A*B;
TEST H=A E=A*I;
RUN;
QUIT;
浙江大学医学院流行病与卫生统计学教研室
沈毅
三、程序说明和结果解释
在DATA步中用三重循环语句和INPUT语句来建立
SAS数据集,第1、3循环语句分别读入A因素和B因素的
分类值,第2个循环语句控制重复次数。在ANOVA过程步
中,CLASS语句指明A、B和I为分类变量,MODEL语句
指明了此模型包含了A主效应、A*I交互效应、B主效应及
A*B交互效应,TEST语句指明对A主效应检验时以A*I作
为误差项(见表7-6一级单位F值的分母)。
浙江大学医学院流行病与卫生统计学教研室
沈毅
输出结果如下:
Dependent Variable: X
Sum of
Source
DF
Model
11
Error
Corrected Total
Squares
Mean Square
F Value
Pr > F
144.1375000
13.1034091
52.41
<.0001
8
2.0000000
0.2500000
19
146.1375000
R-Square
Coeff Var
Root MSE
0.986314
2.541296
0.500000
X Mean
19.67500
上述结果表明了包含了A主效应、A*I交互效应、B主效应及A*B交互效应的模型有统计
学意义,R2为0.986314,说明了该模型的有效性较好。
浙江大学医学院流行病与卫生统计学教研室
沈毅
Source
DF
Anova SS
Mean Square
F Value
Pr > F
A
1
63.01250000
63.01250000
252.05
<.0001
A*I
8
18.00000000
2.25000000
9.00
0.0027
B
1
63.01250000
63.01250000
252.05
<.0001
A*B
1
0.11250000
0.11250000
0.45
0.5212
Tests of Hypotheses Using the Anova MS for A*I as an Error Term
Source
DF
A
1
Anova SS
Mean Square
F Value
Pr > F
63.01250000
63.01250000
28.01
0.0007
根据裂区设计,因素 A(注射药物)的 F 检验以 A*I 作为误差项,其 F 值为 28.01
((63.0125/1)/(18/8)),P 值为 0.0007,说明因素 A 的不同水平差异有统计学意义;而 B
因素(毒素浓度)及 A*B 是以 MSe(2/8=0.25) 为误差项,F 值分别为 252.05((63.0125/1)
/(2/8))和 0.45((0.1125/l)/(2/8)),P 值分别为 0.0001 和 0.5212,说明因素 B 的不同水
平的差异也有统计学意义,因素 A 与 B 的交互作用则无统计学意义。
浙江大学医学院流行病与卫生统计学教研室
沈毅
第四节 系统分组(嵌套)设计资料的
方差分析
• 一、系统分组(嵌套)设计资料的方差分析模型
1、系统分组设计的意义
系统分组设计又称嵌套设计(nested design),与析因
设计不同的是,嵌套设计的处理不是按各因素各水平的全面组
合,而是各因素按其隶属关系系统分组,各因素与各水平不形
成交叉分组,分组时先按A的p个水平分成p组,然后不同的组
再按B的水平来分组,一般不同的组的水平也不同,按A,B的
水平分组后,再安排因素C,依此类推。
浙江大学医学院流行病与卫生统计学教研室
沈毅
2、系统分组设计的方差分析模型
三因素系统分组设计的方差分析的数学模型为:
Xijk  i j(i) k(ij) ijkl
(7-3)
在析因试验设计中,各因素是基本平等的,而在系统分组设计中各因素是不平等
的。在作方差分析时,侧重于上一级分组因素,这体现在各因素的离均差平方和的计算上。
以三因素系统分组设计为例,设A,B,C各因素的水平数依次为p,q,s,全部数据的平
方和为甲,校正数为C,整个试验重复次数为r。令Qi(i=A,B,C)为系统分组到第i级
因素时所产生的一个量,它是各小组数据之和的平方之均数,而此时的全部小组数等于
n1…ni,例如分组到B因素时,共有pq个小组,即把B因素的q个水平分别嵌套在A因素p个
水平之下,相当于B因素有pq个水平,但它们所产生的离均差平方和又包括了A因素的作
用,待A因素的作用从其中离析出来后,便得到B因素所产生的变异,则三因素系统分组
设计的方差分析见表7-8。
上表中给出了两种模型下的F值的计算,系统分组设计中,随机效应的因素是比较多的,
有的书中笼统地都按随机模型分析。
浙江大学医学院流行病与卫生统计学教研室
沈毅
二、系统分组设计方差分析的SAS程序
•
例7-6为了试验某种抗菌药,对小白鼠进行试验。对
一批小白鼠没有注射抗菌药(A1),另一批注射了抗菌药
(A2),然后让它们被这种细菌感染,看成活率有无明显
的不同。统计成活率时按小鼠性别分别统计。然后让活的
小白鼠分别在A1和A2内部交配得第一代B1、第二代B2和第
三代B3,按性别统计成活率(%)。得到试验结果如下
(见表7-9):
浙江大学医学院流行病与卫生统计学教研室
沈毅
本例中A是固定效应,B和C是随机效应的混合效应模型,
F值的计算同随机效应模型。SAS程序为
程序7-6
DATA EX7_6;
DO A=1 TO 2; DO B=1 TO 3;
DO C=1 TO 2; DO I=1 TO 2;
INPUT P@@;
Y=ARSIN(SQRT(P/100));
OUTPUT;
END;
END;
END;
END;
CARDS;
28 19 33 27 15 11 26 22 26 20 18 11
56 51 62 60 48 44 66 61 70 65 49 55
;
PROC GLM;
CLASS A B C;
MODEL Y=A B(A) C(A B)/SS1;
TEST H=A E=B(A);
TEST H=B(A) E=C(A B);
RUN;
QUIT;
PROC NESTED;
CLASS A B C;
VAR Y;
RUN;
QUIT;
浙江大学医学院流行病与卫生统计学教研室
沈毅
三、程序说明和结果解释
在DATA步中用四重循环语句建立SAS数据集,DATA步中赋值语句
Y=ARSIN(SQRT(P/100)),是对存活率作数据转换,因为一般认为
率分布近似服从二项分布,故对存活率作平方根反正弦变换以满足方差分
析的条件。GLM过程中MODEL语句Y=A B(A) C(A B)指明了B因素隶
属于A,C因素隶属于A、B,对于系统分组,GLM过程中MODEL语句后
只能选用SS1(计算结果与因素在该语句中顺序有关),不能选用SS3,
两个TEST语句指明了A因素效应检验以B因素作为误差项,B因素效应检
验以C因素作为误差项。
浙江大学医学院流行病与卫生统计学教研室
沈毅
NESTED过程是SAS提供的专门用于系统分组设计的方
差分析,与上述的GLM过程完全等价,且程序的书写和结
果的输出都比GLM过程简单。但NESTED过程仅适用于对
因素已按主次排列(即其数据集必须是事先定义这些效应
的分类变量或CLASS变量排序)的平衡资料的方差分析。
对 于 不 平 衡 资 料,只能用 GLM 过程。 输出结果如下:
(GLM过程的输出结果)
浙江大学医学院流行病与卫生统计学教研室
沈毅
Dependent Variable: Y
Sum of
Source
DF
Squares
Mean Square
F Value
Model
11
1.01753315
0.09250301
44.20
Error
12
0.02511612
0.00209301
Corrected Total
23
1.04264927
R-Square
Coeff Var
Root MSE
0.975911
6.858327
0.045749
Pr > F
<.0001
Y Mean
0.667064
上述结果表明了包含了 A、B(A)、C(A B)三因素的模型有统计学意义,R2 为 0.975911,
说明了该模型的有效性较好。
浙江大学医学院流行病与卫生统计学教研室
沈毅
Source
DF
Type I SS
Mean Square
F Value
Pr > F
A
1
0.88460375
0.88460375
422.65
<.0001
B(A)
4
0.03192890
0.00798223
3.81
0.0317
C(A*B)
6
0.10100049
0.01683342
8.04
0.0012
Tests of Hypotheses Using the Type I MS for B(A) as an Error Term
Source
DF
A
1
Type I SS
0.88460375
Mean Square
F Value
0.88460375
110.82
Pr > F
0.0005
Tests of Hypotheses Using the Type I MS for C(A*B) as an Error Term
Source
DF
B(A)
4
Type I SS
0.03192890
Mean Square
0.00798223
F Value
0.47
Pr > F
0.7547
因素 C 的 F 检验以 MSE 作为误差项,故其 P 值为 0.0012;因素 A 的 F 检验是以 MSB 作为
误差项,其 P 值为 0.0005;因素 B 的 F 检验以 MSC 作为误差项,其 P 值为 0.7547。
浙江大学医学院流行病与卫生统计学教研室
沈毅
NESTED 过程的输出结果为:
Coefficients of Expected Mean Squares
Source
A
B
C
Error
A
12
4
2
1
B
0
4
2
1
C
0
0
2
1
Error
0
0
0
1
Nested Random Effects Analysis of Variance for Variable Y
Variance
Sum of
Source
DF
Squares
Total
23
1.042649
A
1
0.884604
B
4
C
Error
Error
F Value
Pr > F Term
Variance
Percent
Mean Square
Component
of Total
0.045333
0.082515
100.0000
110.82 0.0005 B
0.884604
0.073052
88.5315
0.031929
0.47 0.7547 C
0.007982
-0.002213
0.0000
6
0.101000
8.04 0.0012 Error
0.016833
0.007370
8.9320
12
0.025116
0.002093
0.002093
2.5365
Y Mean
0.66706393
Standard Error of Y Mean
0.19198565
浙江大学医学院流行病与卫生统计学教研室
沈毅
上述结果表明因素A不同水平的差异有统计学意义,
即注射抗菌药后成活率显著地提高了。因素C不同水平
的差异也有统计学意义,即公的和母的对这种细菌的
抵抗能力有显著的差异。因素B的不同水平间差异无统
计学意义,说明这种细菌的感染以及抗菌药的效力均
没有遗传性。
浙江大学医学院流行病与卫生统计学教研室
沈毅
练习题
1、研究高锰酸盐处理后对甘蓝叶核黄素浓度测量结
果的影响,试验分三天进行,每天安排一次22的析因
处理,A因素为试样处理方式,B因素为试样重量,结
果见下表。试进行方差分析。
表 7-9 甘蓝叶核黄素浓度测量结果(g/g)
试验日期
第一天
第二天
第三天
高锰酸盐处理
高锰酸盐不处理
0.25g 试样
1.00g 试样
0.25g 试样
1.00g 试样
27.2
23.2
24.8
24.6
24.2
22.2
39.5
43.1
45.2
38.6
39.5
33.0
浙江大学医学院流行病与卫生统计学教研室
沈毅
2、用有机溶液提取某中药的有效成分,欲寻找浸出率的影响因素和适宜水平。
选取因素及水平如下:
因素A
溶液浓度:A1=70%,A2=80%;
因素B
催化剂的量:B1=0.1%,B2=0.2%;
因素C
溶剂的pH:C1=6.8,C2=7.2;
因素D
温度:D1=80℃,D2=90℃。
采用L8(27)正交表,考虑A与B的交互作用,试验结果如下:试分析四种因
素对浸出率影响
。
浙江大学医学院流行病与卫生统计学教研室
沈毅
表 7-10 四种因素对浸出率影响的实验结果
列
号
试 验 号 1(A) 2(B) 3(A×B) 4(C) 5
6 7(D)
1
2
3
4
5
6
7
8
1
1
1
1
2
2
2
2
1
1
2
2
1
1
2
2
1
1
2
2
2
2
1
1
1
2
1
2
1
2
1
2
1
2
1
2
2
1
2
1
1
2
2
1
1
2
2
1
1
2
2
1
2
1
1
2
yi
82
85
70
75
74
79
80
87
浙江大学医学院流行病与卫生统计学教研室
沈毅
3、在一项培养基-接种试验中,研究者用两种培养基;三种接种
方式观察细菌的干重产量。先将24个试验样品分成四个区组,并
将每个区组中的样品随机分配到两种培养基(一级处理单位),
再将每种培养基中的3个样品随机分配给三种接种方式(二级处
理单位)。实验结果见表7-11,试对实验结果进行分析。
培养基种
类
(B)
a
b
表 7-11 不同培养基与不同接种方式对细菌的培养效果
随机区组(A)
接种方式
(C)
1
2
3
4
1
2
3
1
2
3
27.4
29.7
34.5
29.4
32.5
34.4
28.9
28.7
33.4
28.7
32.4
36.4
28.6
29.7
32.9
27.2
29.1
32.6
26.7
28.9
31.8
26.8
28.6
30.7
浙江大学医学院流行病与卫生统计学教研室
沈毅
4、试验甲、乙、丙三种催化剂在不同温度下对某化合物的转化作用。由于
各催化剂所要求的温度范围不同,将催化剂作为一级实验因素(I=3),
温度作为二级实验因素(J=3),采用嵌套设计,每个处理重复2次
(n=2),试验结果见表11-25,试做方差分析。
表 7-12 化合物的转化率(%)
催化剂
温度(℃)
试
验
结果(X)
70
A
80 90
55
B
65
82
91
85
65
62
56
71
75
85
84
88
83
61
59
60
67
78
89
75
90
C
95
浙江大学医学院流行病与卫生统计学教研室
100
沈毅
表 7-3 四种因素对钉螺产卵的影响
NO
1
(A)
2
(B)
3
(A*B)
4
(C)
1
2
3
4
5
6
7
8
1
1
1
1
2
2
2
2
1
1
2
2
1
1
2
2
1
1
2
2
2
2
1
1
1
2
1
2
1
2
1
2
5
6
(A*C) (B*C)
1
2
1
2
2
1
2
1
1
2
2
1
1
2
2
1
7
(D)
Y
1
2
2
1
2
1
1
2
86
95
91
94
91
96
83
88
返回
浙江大学医学院流行病与卫生统计学教研室
沈毅
试验号
1
2
3
4
5
6
7
8
9
A
1
1
1
2
2
2
3
3
3
表 7-4
B
1
2
3
1
2
3
1
2
3
四种药物对淡色库蚊的 50%击倒时间
C
D
50%击倒时间
1
1
9.41
7.19
10.73
2
2
11.91
11.85
11.00
3
3
10.67
10.70
10.91
2
3
3.87
3.18
3.80
3
1
4.20
5.72
4.58
1
2
4.29
3.89
3.88
3
2
7.62
7.01
6.83
1
3
7.79
7.38
7.56
2
1
8.09
8.17
8.14
3.73
11.72
10.18
4.85
3.71
4.71
7.41
6.28
7.49
返回
浙江大学医学院流行病与卫生统计学教研室
沈毅
试验号
1
2
3
…
16
1(G)
1
1
1
…
4
表 7-5 L16(43×26)正交表及试验结果
列 号
2(N) 3(C)
4
5
6
7
1
1
1
1
1
1
2
2
1
1
2
2
3
3
2
2
1
1
…
…
…
…
…
…
4
1
1
2
1
2
8(W)
1
2
2
…
2
9
1
2
2
…
2
返回
浙江大学医学院流行病与卫生统计学教研室
沈毅
糖化
时间
11
11
11
…
18
• 表7-6 完全随机设计裂区试验的方差分析表
方差来源
一级单位
B(一级)
e1(I×B)
二级单位
C(二级)
B×C
e2
平方和(SS)
SSB=QB- C
SSe1=QI×B- QB
SSC=QC-C
SSB×C= QB×C- QB – QC + C
SSA×B×C=SST-SSA-SSB-SSe1-SSC-SSB×C
自由度(DF)
q-1
I(i-1)
r-1
(q-1)(r-1)
(p-1)(q-1)(r-1)
均方(MS)
SSB /dfB
SSe1 /dfe1
SSC /dfC
SSB×C /dfB×C
SSe2 /dfe2
返回
浙江大学医学院流行病与卫生统计学教研室
F值
MSB/MSe1
MSC/MSe2
MS B×C /MSe2
沈毅
表 7-7 家兔皮肤损伤直径(mm)
注射药物
(A 药物)
家兔编号
毒素浓度(B 因素)
低浓度(b1)
高浓度(b2)
抗毒素(a1)
1
4
6
7
10
15.75
15.50
15.50
17.00
16.50
19.00
20.75
18.50
20.50
20.00
生理盐水(a2)
2
3
5
8
9
18.25
18.50
19.75
21.50
20.75
22.25
21.50
23.50
24.75
23.75
返回
浙江大学医学院流行病与卫生统计学教研室
沈毅
表 7-8 三因素系统分组设计的方差分析表
方差来源
平方和(SS)
自由度(DF)
均方(MS)
A
B(A)
C(B)
误 差
总 和
SSA=QA-C
SSB=QB- QA
SSC=QC- QB
SSE=W- QC
SST=W-C
dfA=p-1
dfB=p(q-1)
dfC=pq(s-1)
dfE=pqs(r-1)
dfT=pqsr-1
MSA=SSA/ dfA
MSB=SSB/ dfB
MSC=SSC/ dfC
MSE=SSE/ dfE
F值
固定模型
MSA/MSE
MSB/MSE
MSC/MSE
随机模型
MSA/MSB
MSB/MSC
MSC/MSE
返回
浙江大学医学院流行病与卫生统计学教研室
沈毅
返回
浙江大学医学院流行病与卫生统计学教研室
沈毅