第6章方差分析 - 卫生统计之家

Download Report

Transcript 第6章方差分析 - 卫生统计之家

第六章 方差分析
(Analysis of Variance,ANOVA)
宇传华
[email protected]
www.hstathome.com
ANOVA 由英国统计
学家R.A.Fisher首创,
为纪念Fisher,以F命
名,故方差分析又称
F 检验 (F test)。
用于推断多个总体均
数有无差异
Contents
§1. One-way analysis of variance
单因素方差分析
§2. Two-way analysis of variance
双因素方差分析
§3. Multiple comparisons in ANOVA
方差分析的多重比较
§4. 2×2 Factorial Analysis of variance
2×2析因设计的方差分析
§5. Test for homogeneity of variances
方差齐性检验
§1. One-way analysis of variance
单因素方差分析
常用数据:
1. 完全随机设计
将个体编号,按随机的方法分配到若干
组中,然后收集各组数据的方法。
2. 现存多组定量数据的比较(如老中青不
同年龄的血脂含量分析)
观察数据
例 某研究者为了了解男性高校教师的血脂水平,随机抽取了不同年龄组男性各 10 名,检测
他们的总胆固醇(TC)含量(mmol/L)结果见表 8-3 所示。问:三个年龄组的总胆固醇平均含
量之间的差别是否具有统计学意义?
表 8-3
总胆固醇(TC)含量(mmol/L)
组别
青年组
中年组
老年组
合计
男性各年龄组总胆固醇含量
5.06
5.18
5.30
4.91
5.19
5.32
4.99
4.95
5.29
5.24
5.26
5.16
5.01
5.05
5.37
4.84
5.20
5.29
5.24
5.22
5.27
4.95
5.04
5.04
5.13
5.22
5.21
5.27
5.31
5.25
ni
Yi
s
10
10
10
5.51
5.16
5.25
1.50
0.11
0.09
30
5.16
0.14
因素也称为处理因素(factor),每一处理因素至少有
两个水平(level) (也称“处理组”) 。
i
方差分析的假定条件
1. 正态性
各处理组(水平)样本是相互独
立的随机样本,其总体服从正态分布;
2. 方差齐性
相互比较的各处理组(水平)样本
对应的总体方差相等,即具有方差齐同
(homogeneity of variance)。
上述条件与两均数比较的t检验的应用条件相同。
例6.1
One-way analysis of variance(completely random design ANOVA)
单因素方差分析(完全随机设计方差分析)
拟探讨枸杞多糖(LBP)对酒精性脂肪肝大鼠GSH谷胱甘肽 (mg/gprot)的影
响,将36只大鼠随机分为甲、乙、丙三组,其中甲(正常对照组)12只,其余24只用乙醇灌
胃10周造成大鼠慢性酒精性脂肪肝模型后,再随机分为2组,乙(LBP治疗组)12只,丙(戒
酒组)12只,8周后测量三组GSH值。试问三种处理方式大鼠的GSH值是否相同?
三组大鼠 GSH 值(mg/gprot)
甲
乙
丙
79.81
87.58
60.29
80.60
70.73
62.63
…
…
…
104.28
80.36
46.56
72.29
56.40
55.23
ni
12
12
12
36
Xi
83.15
75.63
52.27
70.35
Si
12.30
11.07
10.85
17.35
k
ni
SST  ( X ij  X )
i 1 j 1
总变异
2
GSH值(mg/gprot)
例 6.1
合计
120
100
80
60
40
20
k
甲
甲=83.15
乙
乙=75.63
k
ni
SS E   ( X ij  X i )
i 1 j 1
组内变异
丙
丙=52.27
2
总=70.35
SSTR   ni (X i  X ) 2
i 1
组间变异
离均差平方和(sum of
squares,SS)的分解
组间变异
总变异
组内变异
三种“变异”之间的关系
离均差平方和分解:
SS总 = SS 组间 + SS 组内 ,
且
ν总 =ν组间 +ν组内
=n-1
组内变异 SS
组间变异 SS
=k-1
=n-k
:
随机误差
组间:处理因素 + 随机误差
组内
One-Factor ANOVA
Partitions of Total Variation
Total Variation SST
Variation Due to
Treatment SSTR
• Commonly referred to as:
Sum of Squares Among, or
Sum of Squares Between, or
Sum of Squares Model, or
Among Groups Variation
=
+
Variation Due to Random
Sampling SSE
• Commonly referred to as:
Sum of Squares Within, or
Sum of Squares Error, or
Within Groups Variation
均方差,均方(mean square,MS)
变异程度除与离均差平方和的大小有关外,
还与其自由度有关,由于各部分自由度不相等,
因此各部分离均差平方和不能直接比较。须比较均方。将
各部分离均差平方和除以相应自由度,其比值
称为均方差,简称均方(mean square,MS)。组
间均方和组内均方的计算公式为:
MS组间 
SS组间
 组间
MS组内 
SS组内
 组内
F 值与F分布
,

1.4
1.2
  1   2  1 / 2  2 / 2 21 1

F
 1  2
2


f (F ) 
 1  2
1   2 


( 1 F   2 ) 2
 2   2 
f( F )
1  1, 2  5
1.0
0.8
1  5, 2  5
0.6
0.4
1  10, 2  10
0.2
0.0
0
1
2 F
F 分布曲线
3
4
附表4
=FINV(0.05,1,10)
=FDIST(3.74,2,14)
F 分布曲线下面积与概率
Basic idea of ANOVA方差分析基本思想
Basic idea of ANOVA is to compare to variances to test our
hypothesis--hence, analysis of variance
Compare Within-group estimate of variance(MSE) and
Between-group estimate of variance (MSTR). If they are
similar, values in all groups could have come from same
population, means could be the same, cannot reject null
hypothesis. If variance among sample means is much larger than
variance within samples, then sample means are farther apart than
the sampling error of the individual sample means, can reject null
hypothesis, means are different.
单因素方差分析表
变异来源
平方和 SS
均方 MS
F值
 TR  k  1
MS TR  SS TR  TR
F  MSTR MS E
E  nk
MS E  SS E  E
ni
k
SS T    ( X ij  X ) 2
总变异
自由度
i 1 j 1
 T  n 1
= (n  1) S 2
k
处理组间
SS TR   ni ( X i  X ) 2
i 1
k
ni
SS E   ( X ij  X i ) 2
i 1 j 1
组内(误差)
k
=
 (n
i 1
i
 1) S i2
例6.1的方差分析
⒈ 提出检验假设,确定检验水准。
H0: 三个组GSH值的总体均数相同;
H1: 三个组GSH值的总体均数不全相同;
  0.05
⒉ 根据公式计算SS、MS及F值
完全随机设计的方差分析表
平方和 SS
自由度 
总变异
10530.6003
35
处理组间
6223.8752
组内(误差)
4306.7251
变异来源
均方 MS
F值
2
3111.9376
23.85
33
130.5068
得F=23.85> F0.05(2,32)=3.30。P<0.05,差别有统计学意义,
按照0.05的显著性水准,拒绝H0,可认为三种处理方式大鼠的
GSH值不全相同。
Excel计算方法
Excel计算结果
SPSS计算方法
SPSS结果
§2. Two-way analysis of variance
双因素方差分析
数据类型
1. 随机区组设计(randomized block design)数据又称为配
伍组设计数据。
将受试对象按性质相同或相近者组成 m个组,称为区
组或配伍组,每个区组中有k个受试对象,将k个受试
对象随机地分到处理因素的k个水平组的一种设计方法。
2. 现存两种因素资料
数据结构
随机区组设计方差分析的数据结构
B :区组因素
A :处理因素
水平 1
水平 2
…
水平 k
区组 1
X 11
X 21
…
X k1
区组 2
X 12
X 22
…
X k2
…
…
…
…
…
区组 m
X 1m
X 2m
…
X km
方差分析表
随机区组设计的方差分析表
变异来源
平方和 SS
k
均方 MS
F值
m
SS T   ( X ij  X ) 2
总变异
自由度
i 1 j 1
 T  n 1
= (n  1) S 2
 A  k 1
MS A  SS A  A
FA 
MS A
MS E
SS B   k ( X j  X ) 2
 B  m 1
MS B  SS B  B
FB 
MS B
MS E
SS E  SST  SS A  SS B
 E  (k  1)(m  1)
MS E  SS E  E
k
处理组间
SS A   m( X i  X ) 2
i 1
m
区组间
j 1
误差
SST  SS A  SSB  SSE
 T   A  B  E
例6.2 为探讨Rgl对镉诱导大鼠睾丸损伤的保护作用,某研究者将同一窝别的3
只大鼠随机地分到T1、T2、T3三组,进行不同处理, 共观察了10个窝别大鼠
的睾丸MT含量(μg/g)。试问不同处理对大鼠MT含量有无影响?
窝别
三组大鼠 MT 含量值(μg/g)
T1
T2
T3
1
40.6
78.3
116.3
2
44.8
86.0
124.6
…
…
…
…
9
46.8
86.5
128.4
10
44.7
85.3
124.3
MT含量值(mg /g )
例 6.2
170
120
70
20
对照组
总=86.13
Rgl=127.11
氯化镉组
对=45.78
Rgl+氯化镉
氯=85.5
⒈ 提出检验假设,确定检验水准
H 0 ( A) : m1  m 2  m 3 ,即三组大鼠
MT 含量的总体均值相同;
H 1( A) : m1 、 m 2 、 m 3 不全相同,即三组大鼠
H 0 ( B ) :  1   2     10 ,即不同窝别大鼠
H 1( B ) :  1 、  2 、…、  10
MT 含量的总体均值不全相同;
MT 含量的总体均值相同;
不全相同,即不同窝别大鼠 MT 含量的总体均值
不全相同;
 =0.05
⒉ 根据公式计算结果,并整理成方差分析表
随机区组设计的方差分析表
均方 MS
F值
P值
2
16539.3990
341.92
<0.05
1276.9630
9
141.8848
2.93
<0.05
870.7020
18
48.3723
变异来源
平方和 SS
总变异
35226.4630
29
处理组间 A
33078.7980
区组间 B
误差
自由度
3.获得P值下结论
对于 A 因素
F =341.92> F0.05( 2,18) =3.55, 故 P <0.05,差别有统计学意义,可认为三组大鼠
MT 含量的总体均值不全相同,不同处理对大鼠 MT 含量有影响;
对于因素 B
F =2.93 > F0.05(9,18) =2.46 , 故 P <0.05,差别有统计学意义,拒绝 H 0( B ) ,可认
为不同窝别的大鼠 MT 含量的总体均值不全相同。
Tests of Between-Subjects Effects
Dependent Variable: VAR00003
Source
Corrected Model
Intercept
VAR00001
VAR00002
Error
Total
Corrected Total
Type III Sum
of Squares
34355.761a
222551.307
1276.963
33078.798
870.702
257777.770
35226.463
df
11
1
9
2
18
30
29
Mean Square
3123.251
222551.307
141.885
16539.399
48.372
a. R Squared = .975 (Adjusted R Sq uared = .960)
VAR00003
Student-Newman-Keuls
VAR00002
1.00
2.00
3.00
Sig .
N
10
10
10
a,b
1
45.7800
Subset
2
3
85.5000
1.000
1.000
127.1100
1.000
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 48.372.
a. Uses Harmonic Mean Sample Size = 10.000.
b. Alpha = .05.
F
64.567
4600.797
2.933
341.919
Sig .
.000
.000
.025
.000
§3. Multiple comparisons in ANOVA
方差分析的多重比较
第一节 对例6.1 作了完全随机方差分析
F=23.85,F> F0.05(2,32), P<0.05,
差别有统计学意义,拒绝H0,
可认为三种处理方式大鼠的GSH值不全相同
拒绝H 0,接受H 1, 表示总体均数不全相等
哪两两均数相等?
哪两两均数不等?
———>需要进一步作多重比较。
SNK(Student-Newman-Keuls)法
• 最常用方法之一,其检验统计量为q,故
又称为q检验
q
XA  XB
MS E 1
1
(

)
2
n A nB
MS E为误差均方
MS E  S 
2
C
SS E
E
(n1  1) S  (n2  1) S 

(n1  1)  (n2  1) 
2
1
2
2
例6.1三组间两两比较
• 将各组的平均值按由大到小的顺序排列
组别 甲
乙
丙
均数 83.15 75.63 52.27
例数 12
12
12
秩次 1
2
3
• 根据前面方差分析有:MSE=130.5068
对比组
1–2
1–3
2–3
组别
甲 –
甲 –
乙 –
SNK 法两两比较结果表
q值
a值
q 界值(0.05)
乙
2.28
2
2.89
丙
9.36
3
3.49
丙
7.07
2
2.89
P值
>0.05
<0.05
<0.05
例如,第1组与第2组比较
MS E =130.5068 X A =83.15 X B =75.63
q1-2 
XA  XB
MS E  1
1 



2  nA nB 
余类推。

nA =12 nB  12
83.15  75.63
130.5068  1
1 



2
 12 12 
 2.28
其中,a  RA  RB  1,如"1  3" 对比,则a  3
做出推断结论
• 第1组与第2组比较:P>0.05,不拒绝H0,差别无统计学意
义, 尚不能认为甲组与乙组大鼠GSH值总体均数不相同;
• 第1组与第3组比较:P<0.05,拒绝H0,差别有统计学意义,
可认为甲组与丙组大鼠GSH值总体均数不相同;
• 第2组与第3组比较: P <0.05,拒绝 H0,差别有统计学意
义, 可认为乙组与丙组大鼠GSH值总体均数不相同。
第四节
2×2析因设计的方差分析
• 析因设计(factorial design)是将多个
因素的各个水平进行排列组合,在每一
种可能的水平组合下进行试验,以探讨
各因素的效应以及各因素之间的交互效
应,而且通过比较各种组合效应,找出
最佳组合。
2×2析因设计的数据结构
2×2 析因设计的数据结构
B 因素
A 因素
B1
B2
A1
X 111 , X 112 ,…, X 11r
X 121 , X 122 ,…, X 12 r
A2
X 211 , X 212 ,…, X 21r
X 221 , X 222 ,…, X 22 r
2×2析因设计方差分析的目的
• 考察A、B两因素的“主效应”
• 考察A、B两因素间的“交互效应”
表6-11 小鼠BALF中IL-4值(pg/ml)
40只小鼠随机分配到4组
A1B1、A1B2、 A2B1、A2B2
B1
A1
A2
B2
37.43
35.04
32.02
33.3
36.83
36.88
30.58
38.19
36.32
36.6
30.57
36.27
37.76
30.63
35.95
33.95
29.69
36.06
32.44
34.69
37.94
39.21
39.58
39.77
33.63
32.62
43.5
27.41
39.3
46.43
45.11
54.15
51.61
52.45
46.77
47.66
54.99
50.65
42.71
48.6
例 6.4 资料 IL-4 值均数整理表
B 因素
A 因素
均数
B2  B1
B1
B2
A1
35.32
37.94
36.63
2.62
A2
33.80
49.47
41.64
15.67
均数
34.56
43.70
39.13
9.14
A2  A1
-1.52
11.53
5.01
单独效应(simple effect):
指其它因素水平固定在一个水平时,某一因素不同水平之间均数的差别。
例 6.4 资料 IL-4 值均数整理表
B 因素
A 因素
均数
B2  B1
B1
B2
A1
35.32
37.94
36.63
2.62
A2
33.80
49.47
41.64
15.67
均数
34.56
43.70
39.13
9.14
A2  A1
-1.52
11.53
5.01
主效应(main effect):某一因素各个水平间的平均差别。
交互效应(interaction effect):如果一个因素的单独效应随另一因素的
水平变化而变化,而且其变化幅度不能用随机误差解释时,则称这两个因
素间存在交互效应。
按照方差分析基本思想,析因设计中,观测值总变异 SS T 可分
解为以下四个部分: A 因素变异 SS A 、 B 因素变异 SS B 、交互作用
AB 的变异 SS AB 、误差 SS E 。
SST  SS A  SS B  SS AB  SS E
 T   A  B  AB  E
2×2 析因设计方差分析表
变异来
源
平方和 SS
2
2
均方 MS
F值
r
SS T   ( X ijk  X ) 2
总变异
自由度
i 1 j 1 k 1
 T  2  2  r 1
 (2  2  r  1) S 2
2
A 因素
SS A   2r ( X i  X ) 2
i 1
2
B 因素
SS B   2r ( X j  X ) 2
j 1
2
AB 因素
 A  2 1
MS A 
SS A
 B  2 1
MS B 
SS B
 AB  ( 2  1)(2  1)
MS AB 
SS AB
 E  2  2  (r  1)
MS E 
SS E
B
MS A
MS E
FB 
MS B
MS E
FAB 
MS AB
MS E
2
SS AB   r ( X ij  X ) 2
i 1 j 1
 SS A  SS B
误差
A
FA 
SS E  SST  SS A
 SS B  SS AB
 AB
E
例6.4 计算得到方差分析表
2×2 析因设计方差分析表
变异来源
平方和 SS
自由度
总变异
2055.1779
39
A 因素
250.6504
B 因素
均方 MS
F值
1
250.6504
16.63
836.2188
1
836.2188
55.48
AB 因素
425.6910
1
425.6910
28.24
误差
542.6177
36
15.0727
对于 A 因素
 A =1, e =36, F0.05 (1, 36 ) =4.11。 F A =16.63, F A  F0.05 (1, 36 ) ,
故 P < 0.05,按照  = 0.05 的显著性水准,拒绝 H 0 ( A) ,
认为 A1 组与 A2 组 IL-4 值总体均数不相等。
同理,可以得到结论:
B1
组与 B 2 组 IL-4 值总体均数不相等;
A 与B
间存在交互效应。
Tests of Between-Subjects Effects
Dependent Variable: VAR00003
Source
Corrected Model
Intercept
VAR00001
VAR00002
VAR00001 * VAR00002
Error
Total
Corrected Total
Type III Sum
of Squares
1512.560a
61253.320
250.650
836.219
425.691
542.618
63308.498
2055.178
df
3
1
1
1
1
36
40
39
a. R Squared = .736 (Adjusted R Sq uared = .714)
Mean Square
504.187
61253.320
250.650
836.219
425.691
15.073
F
33.450
4063.855
16.629
55.479
28.242
Sig .
.000
.000
.000
.000
.000
方差分析的使用条件
• 各处理组样本来自随机、独立的正态总体------ (W法、 D法、卡方检验推断)
• 各处理组样本的总体方差相等
------ Bartlett检验法 、Levene检验法
第五节 方差齐性检验
(Homogeneity of Variance Test)
• Bartlett检验法:正态分布资料
• Levene检验法:非正态分布资料
Bartlett检验法
Q1
 
Q2
2
k
  k 1
Q1   (ni  1) ln( S c2 S i2 )
i 1
1  k 1
1 
 

Q2  1 

3(k  1)  i 1 ni  1 n  k 
S i2 为第 i 组的方差
S c2 为合并方差,即组内或误差均方 MS E
k 为比较组数, ni 为第 i 组样本例数, n   ni 为总例数
如果 H0 为真,检验统计量服从  k  1 的  分布
2
例6.5
对例6.1中三组资料作方差齐性检验。
1.提出检验假设,确定检验水准。
H 0 :  12 =  22 =.
..=  k2 ,即三个总体方差相等;
H 1 :  12 、  22 、
..
.、  k2 不全相等;

=0.05。
2.计算检验统计量。
本例, k =3, n =12, n =12 , n =12,
1
2
3
n =36
S 2 =11.07, S 3 =10.85, MS E =130.5068。则
k
2
2

(
n

1
)
ln(
S
S
c
i )
Q1  i
i 1
 (12  1) ln
 0.2010
130.5068
130.5068
130.5068

(
12

1
)
ln

(
12

1
)
ln
12.30 2
11.07 2
10.852
, S =12.30,
1
1  k 1
1 
 


Q2  1 
3(k  1)  i 1 ni  1 n  k 
1  1
1
1
1 
 1





3(3  1)  12  1 12  1 12  1 36  3 
 1.0404
Q1 0.2010
 

 0.19
Q2 1.0404
2
,  3  1  2
3.确定 P 值,做出推断结论
2

自由度  2 ,查  界值表, 0.05,2 =5.99。
2
2
2
由于  =0.19,    0.05 ,2 , 故 P  0.05,
2
按照  = 0.05 的显著性水准,不拒绝 H 0 ,
尚不能认为三个总体方差不齐同。
小
结
• 方差分析的基本原理
• 完全随机设计的方差分析
• 区组设计的方差分析
• 多个样本均数间的两两比较----SNK法
• 2×2析因设计的方差分析
• 方差齐性检验