概率论与数理统计第24讲

Download Report

Transcript 概率论与数理统计第24讲

概率论与数理统计第24讲
本讲义可在网址http://math.shekou.com
或
ftp://math.shekou.com
下载
1
第八章
方差分析与回归分析
2
§8.1 单因素试验的方差分析
3
在科学试验, 生产实践和社会生活中, 影
响一个事件的因素往往很多. 例如, 在工
业生产中, 产品的质量往往受到材料, 设
备, 技术及员工素质的影响; 又如, 在工作
中, 影响个人收入的因素也是多方面的,
除了学历, 专业, 工作时间, 性别等方面外,
还受到个人能力, 经历及机遇等偶然因素
的影响. 方差分析就是希望找出对事件的
最终结果有显著影响的因素, 通过建立数
学模型, 鉴别各个因素影响效应.
4
一, 基本概念
在方差分析中, 我们把要考察的对象的某
种特征称为试验指标. 影响试验指标的条
件称为因素. 因素可分为两类, 一类是人
们可以控制的(如原材料, 设备, 学历, 专
业等因素); 另一类是人们无法控制的(如
员工素质及机遇等因素).
5
下面所讨论的都是可控制的因素. 因素所
处的状态, 称为该因素的水平, 如果有一
项试验中只有一个因素在改变, 则称为单
因素试验; 如果有多于一个因素在改变,
则称为多因素试验. 为方便起见, 今后用
大写字母A,B,C,等表示因素, 用大写字母
加下标表示该因素的水平, 如A1,A2,…等.
6
例1 设有三台机器, 用来生产规格相同的
铝合金薄板. 取样, 测量薄板的厚度精确
至千分之一厘米. 得结果如下表:
机器I
机器II
机器III
0.236
0.257
0.258
0.238
0.253
0.264
0.248
0.255
0.259
0.245
0.254
0.267
0.243
0.261
0.262
7
这里, 试验的指标是薄板的厚度, 机器为
因素, 不同的三台机器就是这个因素的三
个不同的水平. 如果假定除机器这一因素
外, 材料的规格, 操作人员的水平等其它
条件都相同, 这就是单因素试验.试验的
目的是为了考察各台机器所生产的薄板
的厚度有无显著差异, 即考察机器这一因
素对厚度有无显著影响. 如果厚度有显著
差异, 就表明机器这一因素对厚度的影响
是显著的.
8
二, 假设前提
设单因素A具有r个水平, 分别记为
A1,A2,…,Ar, 在每个水平Ai(i=1,2,…,r)下,
要考察的指标可以看成一个总体, 故有r
个总体, 并假设:
(1) 每个总体均服从正态分布;
(2) 每个总体的方差相同;
(3) 从每个总体中抽取的样本相互独立.
9
那么, 要比较各个总体的均值是否一致,
就是要检验各个总体的均值是否相等, 设
第i个总体的均值为mi, 则要检验的假设为
H0: m1=m2==mr.
H1: m1,m2,,mr不全相等.
通常备择假设H1可以不写.
10
在水平 Ai(i=1,2,…,r)下, 进行 ni 次独立试验,
得到试验数据为 X i1 , X i 2 , , X ini , 记数据的总
r
个数为 n   ni .
i 1
方差分析的任务:
2
(1) 检验该模型中 r 个总体 N(mi, )
(i=1,2,…,r)的均值是否相等;
2
(2) 作出未知参数m1,m2,…,mr, 的估计.
11
三, 偏差平方和及其分解
定义水平Ai下的数据和为
ni
X i   X ij ,
j 1
其样本均值为
1
Xi 
ni
ni
X
j 1
ij
,
12
所有水平样本总均值为
ni
r
1
1 r
X   X ij   X i
n i 1 j 1
r i 1
定义总偏差平方和ST为
r
ni
ST   ( X ij  X )
2
(1.3)
i 1 j 1
13
定义组间(偏差)平方和SA为
r
S A   ni ( X i  X )
2
i 1
定义组内(偏差)平方和SE为
r
ni
S E   ( X ij  X i )
2
i 1 j 1
可以证明
ST=SA+SE
(1.4)
14
四, SE与SA的统计特性
ST=SA+SE
如果H0成立, 则所有的Xij都服从正态分布
N(m,2), 且相互独立, 可以证明:
(1) ST/2~c2(n1);
(2) SE/2~c2(nr);
(3) SA/2~c2(r1).
(4) SE与SA相互独立.
15
五, 检验方法
如果组内差异比组内差异大得多, 即说明
因素的各水平间有显著差异, r个总体不
能认为是同一个正态总体, 应认为H0不成
立. 此时, 比值
S A /(r  1) (n  r ) S A
F

S E /(n  r ) (r  1) S E
有偏大趋势, 取F为统计量, 当H0为真时,
有F~(r1,nr).
16
S A /(r  1) (n  r ) S A
F

S E /(n  r ) (r  1) S E
F~(r1,nr)
对给定的检验水平a, 查Fa(r1,nr)的值,
(1) 若F>Fa(r1,nr)时, 拒绝H0, 表示因素A
的各水平下的效应有显著差异;
(2) 若F<Fa(r1,nr)时, 则接受H0, 表示因
素A的各水平下的效应无显著差异.
17
单因素方差分析表
方差来源
因素 A
平方和
SA
自由度
均方和
F值
r1
SA
MS A 
r 1
MS A
F
MS E
SE
MS E 
nr
误差 E
SE
nr
总和 T
ST
n1
18
§8.2 双因素试验的方差分析
19
在许多实际问题中, 往往要同时考虑两个因素
对试验指标的影响. 例如, 要同时考虑工人的
技术和机器对产品质量是否有显著影响. 这里
涉及到工人的技术和机器这样两个因素. 多因
素方差分析与单因素方差分析的基本思想是
一致的, 不同之处就在于各个因素不但对试验
指标起作用, 而且各因素不同水平的搭配也对
试验指标起作用. 统计学上把多因素不同水平
的搭配对试验指标的影响称为交互作用.交互
作用的效应只有在有重复的试验中才能分析
出来.
20
一, 无重复试验双因素方差分析
设因素A,B作用于试验指标, 因素A有r个
水平A1,A2,…,Ar, 因素B有s个水平
B1,B2,…,Bs. 对因素A,B的每一个水平的一
对组合(Ai,Bj), (i=1,2,…,r,j=1,2,…,s)只进
行一次试验, 得到rs个试验结果Xij, 列于
下表中
21
因
试
素
验
结
果 B
因素A
B1
B2
…
Bs
A1
X11
X12
…
X1s
A2
X21
X22
…
X2s





Ar
Xr1
Xr2
…
Xrs
22
1. 假设前提
假设前提与单因素方差分析的假设前提
相同, 仍假设:
(1) Xij~N(mij,2), mij, 2未知,
i=1,…,r;j=1,…,s.
(2) 每个总体的方差相同;
(3) 各Xij相互独立, i=1,…,r;j=1,…,s
23
要比较同一因素的各个总体均值是否一
致, 就是要检验各个总体的均值是否相等,
故要检验的假设为
H0A: m1j=m2j=…=mrj
j=1,…,s,
H0B: mi1=mi2=…=mis
i=1,…,r.
H1A: m1j,m2j,…,mrj不全相等.
H1B: mi1,mi2,…,mis不全相等.
24
2.偏差平方和及其分解
记
r
s
1
X   X ij
rs i 1 j 1
s
1
X i   X ij , i  1,
s j 1
1 r
X j   X ij , j  1,
r i 1
, r;
, s;
25
总偏差平方和:
r
s
ST   ( X ij  X )
2
i 1 j 1
r
因素A的偏差平方和: S  s ( X  X ) 2
 i
A
因素B的偏差平方和:
i 1
s
SB  r  ( X j  X )
2
j 1
误差平方和: r s
2
S E   ( X ij  X i  X j  X )
i 1 j 1
可证明ST=SA+SB+SE,
26
可证明当H0A,H0B成立时, 有
(1) ST/2, SA/2, SB/2, SE/2分别服从自由
度依次为rs1, r1, s1, (r1)(s1)的c2分
布.
(2) SA,SB,SE相互独立.
(3)
S A (r  1)
FA 
~ F (r  1,(r  1)( s  1))
S E (r  1)( s  1)
S B ( s  1)
FB 
~ F ( s  1,(r  1)( s  1))
S E (r  1)( s  1)
27
3. 检验方法
对显著性水平a,
H0A的拒绝域为
FAFa(r1,(r1)(s1));
H0B的拒绝域为
FBFa(s1,(r1)(s1));
28
无重复试验双因素方差分析表
方差来源
因素 A
因素 B
平方和
SA
SB
自由度
均方和
F比
r1
SA
SA 
r 1
FA  S A / S E
s1
SB
SB 
s 1
FB  S B / S E
SE
SE 
(r  1)( s  1)
误差
SE
(r1)(s1)
总和
ST
rs1
29
二, 等重复试验双因素方差分析
设因素A,B作用于试验指标. 因素A有r个
水平A1,A2,…,Ar, 因素B有s个水平
B1,B2,…,Bs. 对因素A,B的每一个水平的一
对组合(Ai,Bj), (i=1,2,…,r, j=1,2,…,s)只进
行t(t2)次试验(称为等重复试验), 得到rst
个试验结果
Xijk (i=1,…,r; j=1,…,s; k=1,…,t).
30
假设各Xijk相互独立, 并有Xijk~N(mij,2),
经过一番分析, 可将mij分解表示为
mij=m+ai+bj+gij
(i=1,…,r; j=1,…,s),
其中ai称为水平Ai的效应, bij称为水平Bj
的效应, gij为水平Ai和水平Bj的交互效应.
31
要检验的假设为:
H0A: a1=a2=…=ar=0.
H1A: a1,a2,…,ar不全为零.
H0B: b1=b2=…=bs=0.
H1B: b1,b2,…,bs不全为零.
H0AB: g11=g12=…=grs=0,
H1AB: g11,g12,…,grs不全为零.
32
2. 偏差平方和及其分解
引入记号:
1 r s t
X
X ijk ,

rst i 1 j 1 k 1
t
1
X ij   X ijk , i  1, 2,
t k 1
s
, r , j  1, 2,
t
1
X i   X ijk , i  1, 2,
st j 1 k 1
X
j
, s,
1 r t
  X ijk , j  1, 2,
rt i 1 k 1
, r,
, s.
33
称下列ST为总偏差平方和:
r
s
t
ST   ( X ijk  X )
2
i 1 j 1 k 1
上式可分解为:
ST=SE+SA+SB+SAB
34
其中
r
s
t
2
S E   ( X ijk  X ij )
i 1 j 1 k 1
r
S A  st  ( X i  X )
2
i 1
s
S B  rt  ( X
j 1
r
j
 X)
2
s
S A B  t  ( X ij  X i  X
i 1 j 1
j
 X)
2
35
类似地, 可以证明当H0A,H0B, H0AB成立时,
有
(1) ST/2, SA/2, SB/2, SAB/2,SE/2分别服
从自由度依次为rst1, r1, s1, (r1)(s1),
rs(t1)的c2分布
(2) SA,SB,SAB,SE相互独立.
36
3. 检验方法
当H0A为真时,
S A /(r  1)
FA 
~ F (r  1, rs (t  1));
S E /(rs (t  1))
取显著性水平为a, 得假设H0A的拒绝域
为
FAFa(r1,rs(t1))
37
当H0B为真时,
S B /( s  1)
FB 
~ F ( s  1, rs(t  1));
S E /(rs (t  1))
取显著性水平为a, 得假设H0B的拒绝域
为
FBFa(s1,rs(t1))
38
当H0AB为真时,
FAB
S AB /(r  1)( s  1)

S E /(rs(t  1))
~ F ((r  1)( s  1), rs(t  1));
取显著性水平为a, 得假设H0AB的拒绝域
为
FABFa((r1)(s1),rs(t1))
39
有重复试验双因素方差分析表
方差来源
因素 A
因素 B
交互作用
平方和
SA
SB
SAB
自由度
均方和
F比
r-1
SA
SA 
r 1
SA
FA 
SE
s-1
SB
SB 
s 1
FB 
(r-1)(s-1) S AB
误差
SE
rs(t-1)
总和
ST
rst-1
SB
SE
S A B
S A B
FA B 

SE
(r  1)( s  1)
SE
SE 
rs (t  1)
40
§8.3 一元线性回归
41
变量间的关系可分为确定性和非确定性
的两类.
例如, 人的身高和体重的关系, 人的血压
和年龄的关系, 某产品的广告投入与销售
额之间的关系, 是有关联的, 但它们之间
的关系又不能用普通函数表示. 称这类非
确定性关系为相关关系. 而近似地表示它
们之间的相关关系的函数被称为回归函
数.
42
最简单的情形是由两个变量组成的关系.
表示为
Y=f(x)
但是, 由于两个变量之间不存在确定的函
数关系, 因此必须把随机波动考虑进去,
就有
Y=f(x)+e
其中Y是随机变量, x是普通变量, e是随机
变量(称为随机误差).
43
回归分析就是根据已得的试验结果以及
以往的经验来建立统计模型, 并研究变量
间的相关关系, 建立起变量之间关系的近
似表达式, 即经验公式, 并由此对相应的
变量进行预测和控制等.
本节主要介绍一元线性回归模型的估计,
检验以及相应的预测和控制等问题.
44
一, 引例
为了研究某一化学反应过程中温度x对产
品得率Y的影响. 测得数据如下:
温度xi 100 110 120 130 140 150 160 170 180 190
得率yi 45 51 54 61 66 70 74 78 85 89
将xi作为横坐标, yi作为纵坐标, 在xOy坐
标系中作出散点图
45
温度xi 100 110 120 130 140 150 160 170 180 190
得率yi 45 51 54 61 66 70 74 78 85 89
100
90
80
70
60
50
40
30
20
10
0
90
100
110
120
130
140
150
160
170
180
190
200
46
可见这些点大致散布在某一条直线附近,
即, 该化学反应过程中温度与产品得率之
间大致成线性关系, 这些点与直线的偏离
是由于测试过程中随机因素影响的结果,
故化学反应过程中产品得率与温度的数
据可假设有如下的结构形式:
yi=b0+b1xi+ei,
i=1,2,…,10
其中ei是测试误差, 它反映了变量之间的
不确定关系.
47
二, 一元线性回归模型
一般地, 当随机变量Y与普通变量x之间有
线性关系时, 可设
Y=b0+b1x+e,
(3.3)
e~N(0,2), 其中b0,b1为待定系数.
设(x1,Y1),(x2,Y2),…,(xn,Yn)是取自总体(x,Y)
的一组样本, 而(x1,y1),(x2,y2),…,(xn,yn)是
该样本的观察值.
48
Yi=b0+b1xi+ei, i=1,2,…,n
(3.2)
其中e1,e2,…,en 相互独立. 在线性模型中, 由
假设知
2
Y~N(b0+b1x, ), E(Y)=b0+b1x (3.3)
回归分析就是根据样本观察值寻求b0,b1 的
估计 bˆ , bˆ . 对于给定的 x 值, 取
0
1
Yˆ  bˆ0  bˆ1 x
(3.4)
作为 E(Y)=b0+b1x 的估计, 方程(3.4)称为 Y
关于 x 的线性回归方程或经验公式, 其图像
称为回归直线, bˆ 称为回归系数.
1
49
三, 最小二乘估计
对样本的一组观察值(x1,y1),(x2,y2),…,(xn,yn),
对每个 xi, 由线性回归方程可以确定一回归
值
yˆi  bˆ0  bˆ1 xi ,
这个回归值 yˆi 与实际观察值 yi 之差
y  yˆ  y  bˆ  bˆ x
i
i
i
0
1 i
刻画了 yi 与回归直线 yˆ  bˆ0  bˆ1 x 的偏离度.
50
对所有 xi, 若 yi 与 yˆi 偏离越小, 则认为直线
与所有试验点拟和得越好.
n
令
Q( b 0 , b1 )   ( yi  b 0  b1 xi )
2
i 1
所谓最小二乘法就是寻求 b0 与 b1 的估计
bˆ0 , bˆ1 , 使 Q ( bˆ0 , bˆ1 )  min Q( b 0 , b1 ) . 利 用 微
分的方法, 求 Q 关于b0, b1 的偏导数, 并令
其为零,
51
n
Q( b 0 , b1 )   ( yi  b 0  b1 xi ) 2
i 1
n
 Q
 b  2 ( yi  b 0  b1 xi )  0
i 1
 0

n

Q

 2 ( yi  b 0  b1 xi ) xi  0
 b1
i 1
n

 n 
nb 0    xi  b1   yi
i 1
 i 1 
整理得 
 n
n
n




2

xi  b 0    xi  b1   xi yi


 i 1 
i 1
 i 1 
称此为正规方程组,
52
解正规方程组得
 bˆ0  y  x bˆ1

ˆ  n
 b1    xi yi  nx
 i 1

(3.5)
 
2
2
y    xi  nx 
  i 1

n
其中
n
n
1
1
x   xi , y   yi
n i 1
n i 1
53
若记
def
n
n
i 1
i 1
Lxy   ( xi  x )( yi  y )   xi yi  nx y (3.6)
def
n
n
Lxx   ( xi  x )   x  nx ,
2
i 1
则
i 1
 bˆ0  y  x bˆ1
ˆ
 b1  Lxy Lxx
2
i
2
(3.7)
(3.8)
54
 bˆ0  y  x bˆ1
(3.8)
ˆ
 b1  Lxy Lxx
(3.5)或(3.8)叫做b0,b1的最小二乘估计. 而
Yˆ  bˆ  bˆ x
0
1
为Y关于x的一元经验回归方程.
55
四, 最小二乘估计的性质
定理 1 若 bˆ0 , bˆ1为b0,b1 的最小二乘估计, 则
bˆ , bˆ 分别是b0,b1 的无偏估计, 且
0
1
2




1
x
2
bˆ0 ~ N  b 0 ,  
,

n
L
xx  


2



bˆ1 ~ N  b1 , 
 Lxx 
证明略.
56
五, 回归方程的检验假设
由线性回归模型Y=b0+b1x+e, e~N(0,2)可
知, 当b1=0时, 就认为Y与x之间不存在线
性回归关系, 故需要检验如下假设:
H0:b1=0,
H1:b10.
为了检验假设H0, 先分析样本观察值
y1,y2,…,yn的差异, 可用总偏差平方和来度
量, 记为
n
S 总   ( yi  y )
2
i 1
57
n
S 总   ( yi  y )
2
i 1
令 S 
回
n
 ( yˆ  y ) , S
n
2
i 1
则有S总=S剩+S回
i
剩
  ( yi  yˆ i )
2
i 1
(3.10)
上式称为总偏差平方和分解公式. S回称
为回归平方和, S剩称为剩余平方和.
58
定理 2 在线性模型假设下, 当 H0 成立时, bˆ1
与 S剩 相互独立, 且
S剩 ~c (n2), S回~c (1).
2
2
对 H0 的检验有三种检验方法:
T 检验法, F 检验法, 相关系数检验法.
59
1. T-检验法
2
令
ˆ
  S剩 /(n  2)
可推出当H0成立时, 有
bˆ
T
Lxx ~ t (n  2),
(3.14)
ˆ
因此计算试验数据的T的值t, 当
|t|>ta/2(n2)时, 拒绝H0, 这时回归效果显
著, 否则接受H0, 这时回归效果不显著.
60
2. F-检验法
当H0为真时, 取统计量
S回
F
~ F (1, n  2)
S剩 /(n  2)
(3.15)
由试验数据计算F的值F0, 若F0>Fa(1,n2)
时, 拒绝H0, 表明回归效果显著, 否则接受
H0, 此时回归效果不显著.
61
3. 相关系数检验法
n
令
( xi  x )( yi  y )

i 1
r
n
n
(x  x ) ( y  y)
2
i 1
i
i 1
2
i
当|r|>ra(n2)时, 拒绝H0, 表明回归效果
显著, 否则接受H0, 表明回归效果不显著.
ra(n-2)根据显著性水平查相关系数表获
得.
62
八, 可化为一元线性回归的情形
前面讨论了一元线性回归问题, 但在实际
应用中, 有时会遇到更复杂的回归问题,
但其中有些情形, 可通过适当的变量替换
化为一元线性回归问题来处理.
63
1. Y  b 0 
b1
x
 e , e ~ N (0, ),
2
(3.22)
其中b0,b1,2是与x无关的未知参数.
令x'=1/x, 则可化为下列一元线性回归模
型:
Y'=b0+b1x'+e, e~N(0,2),
64
2. Y=aebxge, lne~N(0,2),
(3.23)
其中a,b,2是与x无关的未知参数.
在Y=aebxge两边取对数得
lnY=lna+bx+lne
令Y'=lnY, b0=lna, b1=b, x'=x, e'=lne, 则
(3.23)可转化为下列一元线性回归模型:
Y'=b0+b1x'+e', e'~N(0,2),
65
3. Y=axbge, lne~N(0,2),
(3.24)
其中a,b,2是与x无关的未知参数.
在Y=axbge两边取对数得
lnY=lna+blnx+lne
令Y'=lnY, b0=lna, b1=b, x'=lnx, e'=lne, 则
(3.24)可转化为下列一元线性回归模型:
Y'=b0+b1x'+e', e'~N(0,2),
66
4. Y=a+bh(x)+e, e~N(0,2),
(3.25)
其中a,b,2是与x无关的未知参数. h(x)是
x的已知函数, 令Y'=Y, b0=a, b1=b, x'=h(x),
则(3.25)式可化为
Y'=b0+b1x'+e, e~N(0,2).
67
全课结束
68