Transcript 幻灯片1

第九章 方差分析与回归分析
本章研究的主要问题:
1. 有关单因素和多因素非简单试验的统计分析方法
多处理的正态总体参数估计和均值比较。
2. 对输入变量与试验指标之间存在的统计因果关系和
协同变异问题进行统计分析的方法
回归分析和相
关分析。
涉及的理论模型:线性模型
所用到主要方法:最小二乘法
Copyright © 2006 NJUFE
第一节 单因素试验的方差分析
术语:试验指标、因素、水平 教材p270
单因素随机试验:只考察一个因素A,试验的水平有
a 个:A1,A2,…Aa 。设Ai的重复数(样本容量)
为ri,i=1,2,…,a 。总试验次数为
a
 r  n,特别,当r  r
i 1
i
1
2
   ra  r,有ar  n。
前提假设:所有试验单元的试验条件一致(无系统
误差)。
方差分析的作用:
1. 通过对试验数据的统计分析,推断造成试验数据
间的差异的原因是试验水平差异还是随机误差的影
响。
Copyright © 2006 NJUFE
2. 推断哪些因素的影响是显著的。
3. 分析出“最佳”的试验水平(固定模型);或估
计总体变量的参数(随机模型)。
方差分析与假设检验的区别:
方差分析能同时检验多个总体的某个参数(如均
值)是否相等,而假设检验每次只能检验两个总体
的某个参数是否相等。
方差分析与回归分析的区别:
1. 回归分析主要是为了得到自变量与因变量之间的定
量关系
回归方程。回归系数显著性讨论的目的,
是把影响不显著的自变量从回归方程中剔除,以提高
回归方程的稳健性,使预测更加精确可靠。
Copyright © 2006 NJUFE
方差分析则是用于区分因素对试验指标影响的显
著程度及影响大小,从而找出“最佳”的试验水平。
2. 回归分析要求因素(输入)变量是定量的,而方差
分析则不要求因素(输入)变量是定量的。
3. 回归分析要求对所有试验水平都进行相应的试验,
而方差分析则只需有选择地对某些试验水平进行试
验(如正交设计)。
一、单因素完全随机等重复试验的方差分析
1. 试验的线性模型
设因素A的a 个试验水平为:A1,A2,…Aa ,每个试
验水平的重复数(样本容量)均为r。
Copyright © 2006 NJUFE
试验目的:
针对固定模型,对A1,A2,…Aa 比较寻优。
设 xij是水平Ai下第j次重复的试验指标观察值,设i
是水平Ai下试验指标的真值, ij 是水平Ai下第j次重复
试验产生的随机误差。
对随机误差的前提假设:
 ij 均服从正态分布;
3. 方差齐性(同质性):D(  ij )=2。
1.
 ij 相互独立;
2.
对随机误差是否满足三条假定的检查及校正:
1. 对随机误差方差齐性的检验:
2. 快速检验随机误差方差齐性的方法:
3. 非正态分布数据的校正:
Copyright © 2006 NJUFE
固定试验模型(见教材p274
公式(1.1))
 xij     i   ij,

a

,a,j  1,
,r.
   i  0, i  1,
 i 1
2

~
N
(
0
,

)

ij

检验假设
H0:i=0,i=1,…,a; HA: i不全为零。
若拒绝H0,则对每对i,j,ij,检验
H0:i= j ; HA: i  j .
Copyright © 2006 NJUFE
2. 参数,i的估计
3. 对效应的显著性检验
1 r
记 xi.   xij,
r j 1
a
1 a r
x..   xij。
ar i 1 j 1
r
称 SST   ( xij  x.. )
2
为总变差,
i 1 j 1
a
r
SS e   ( xij  xi. )
2
为组内变差,
i 1 j 1
a
SS A  r  ( xi.  x.. ) 2
为组间变差。
i 1
计算方法见教材275.
Copyright © 2006 NJUFE
说明:组内变差SSe 反映随机干扰对输出产生的
效应;组间变差SSA 反映不同输入水平对输出产
生的效应。
可以证明: SST= SSe+ SSA ,且
SST的自由度 fT= ar-1 ,SSe的自由度 fe= a(r-1) ,
SSA的自由度 fA= a-1。
此外,在随机误差方差齐性的假设之下,有
E(SSe)= a(r-1) 2。
a
对固定模型,有E ( SS A )  (a  1) 2  r  i2;
i 1
Copyright © 2006 NJUFE
SS e
SS A
a(r  1) SS A
设 FA  (
) /(
)
,
a  1 a(r  1)
a  1 SS e
问题:FA服从什么分布?
结论: FA~F(a-1,a(r-1)) 。
对给定的显著性水平,查F分布表得到临界值
F(a-1,a(r-1)) ,再由样本观察值计算出FA的值,若
FA F(a-1,a(r-1)) ,接受H0;若FA> F(a-1,a(r-1)) ,
拒绝H0 。
参见教材p276-278。
Copyright © 2006 NJUFE
第三节 一元线性回归
社会经济现象中相互影响或相互联系的关系一般可
分为三类:函数关系、相关关系、不确定关系。
相关关系:现象之间存在着数量上的依存关系,但这
种关系间的数值是不确定的。
Copyright © 2006 NJUFE
相关关系的分类:因果关系、平行关系
平行关系:互为因果或由共同的外因所影响(协同变
异)。
统计分析的任务:
1. 对因果关系,建立回归方程,进行预测和控制。
2. 对平行关系,估计相关系数,确定相关程度。
一、回归概念
对因果关系,一般把条件因素(可控制或可观察)作
为自变量x(普通变量) ,将结果作为因变量Y(随机变
量) 。
Copyright © 2006 NJUFE
对确定的x,Y=Y(x)是随机变量,设其期望存在,
记 (x)=E(Y|x),称(x) 为Y(x) 对x的回归函数,
简称回归。回归函数描述了x与Y(x) 的平均值的依
存关系。( E(Y|x)表示对于固定的x, Y(x)的数学
期望。)
估计(x): 求Y(x) 对x的回归问题。
Copyright © 2006 NJUFE
二、直线回归模型
设x与Y(X)之间有因果关系,且直线相关
y=+x
x1
x2
设 (x)=E(Y|x) =+x ,称其为总体回归方程,
称 为回归系数。
Copyright © 2006 NJUFE
由于、是未知的,设想通过样本观察值得出、
的估计值a、b。于是

y  a  bx  E (Y|x)   ( x).
称其为经验回归方程或样本回归方程。
问题:如何估计a、b的值?
三、参数估计
设抽样得到一组样本观察值(x1,y1),….,(xn,yn),
则样本回归方程的值为

yi  a  bxi,yi    xi   i,
i  1,
,n, i 相互独立且 i~N (0,  ).
2
Copyright © 2006 NJUFE
根据最小二乘法的原理,选择a、b使回归值与观
察值的误差平方和达到最小,即
n

2
i

n
min Q  Q(a, b)      ( yi  yi ) .
i 1
2
i 1
Q
Q
 0,
 0,可得(教材p299-300)
由
a
b
b
S xy
S xx
n
,a  y  bx ,其中,S yy   ( yi  y )
n
i 1
n
S xy   ( xi  x )( yi  y ),S xx   ( xi  x ) ,
2
i 1
i 1
Copyright © 2006 NJUFE
2
四、残差分析


n
设ei   i  yi  yi ,则Q   e 。
i 1
2
i
可以证明:(教材p302-303)
Q

2
~ (n  2),故E (
2
Q

2
)  n  2,
Q
即E (
)   2,
n2
2
Q
2
这说明 
是 的无偏估计量
n2
Copyright © 2006 NJUFE
五、参数的统计性质
由于yi    xi   i,
 i 相互独立且 i~N (0,  ),
2
故yi~N (  xi, 2 ),i  1,
,n,
.
由正态分布的性质和a,b的表达式,可得
E (b)  ,D(b)   2 / S xx;
2
1 x
E (a)  ,D(a)  ( 
) 2。从而,
n S xx

2
2
1 x
2
b~N ( , ),a~N (,
( 
) )。
S xx
n S xx
Copyright © 2006 NJUFE
a、b是、的最小方差线性无偏估计,一般称为最
佳线性无偏估计,简记为BLUE。

因 y i  a  bxi,
.
1 ( xi  x )
可得 y i ~N (  xi,
( 
) 2 ),
n
S xx

2
1 ( xi  x )
2
a  bxi   i~N (  xi,
(1  
) )
n
S xx
2
n

称U   ( yi  y ) 为回归离差平方和,
2
i 1
总离差平方和Syy和剩余离差平方和Q、回归离差平
方和U之间有如下关系:Syy=Q+U 。
Copyright © 2006 NJUFE
可以证明:Syy的自由度fT=n-1,Q的自由度
fe=n-2,U的自由度fU=1。
从而, fT= fe+ fU ,且有
E ( S yy )  (n  1) 2   2 S xx,E (U )   2   2 S xx,
E (Q)  (n  2) .
2
结论:1. Q/(n-2)是2的无偏估计;
2. 设H0:=0,H1: 0 .若H0成立,则直线回归不
存在,若H1成立,则存在直线回归。并且,当H0成
立,U与Q相互独立,且
U

Q
2
~ (1), 2 ~ (n  2)
2
2

Copyright © 2006 NJUFE
六、统计推断
由关系式Syy=Q+U 可见,U在Syy中占的比重越大
(即U/Q的值大) ,线性回归的效果越佳。而H0的检验
统计量
U
F
~F (1,n  2),
Q /( n  2)
故当F>F(1,n-2),拒绝H0,即线性回归的效果
显著。
S xy
由于 b=Sxy/Sxx,相关系数
可以证明:
r
S xx S yy
S xx
b
,
S yy
Q  S yy  bS xy,从而可得
U  S yy  Q 
S xy2
S xx
 r S yy,
2
Copyright © 2006 NJUFE
故H0的检验统计量也可写成
r2
F
。
2
(1  r ) /( n  2)
说明:1. 通常的做法是先由获得的样本观察值,计
算出相关系数r,再检验假设H0 ,当拒绝H0后,才
求回归方程。
2. 也可对H0进行t-检验,其效果和F-检验等价。
3. 若拒绝H0,则的置信度为1-的置信区间为
Q
Q
Sb 
,
(b  t (n  2)
)。
(n  2) S xx
(n  2) S xx
2
Sb为b的样本标准差。(教材P305)
Copyright © 2006 NJUFE
系数a的显著性检验:
2
1 x
2
因E (a )  ,D(a )  ( 
) ,
n S xx
2
1 x
Q
a的样本标准差为S a  ( 
)
,
n S xx n  2
若H 0:  0 成立,则检验统计量
t  a / S a~t (n  2)。
若拒绝H 0,则的1  置信区间为
2
1 x
Q
(a  t (n  2) ( 
)
).
n S xx n  2
2
Copyright © 2006 NJUFE
七、预测与控制
对任何给定的x0,理论回归直线(x)=+x的点估
计和1- 置信区间分别为(教材P306)
y0  a  bx0,
Q
1 ( x0  x )
(a  bx0  t (n  2)

)
n2 n
S xx
2
2
由此,可根据不同的研究目的进行预测或控制。
直线回归的进一步分析:
非线性关系的拟线性回归:对一些常用的非线性关
系,可通过变量代换将其变成线性关系用线性回归
的方法得到线性回归方程,再用逆变换变成非线性
回归方程。(具体内容见教材p309-312.)
Copyright © 2006 NJUFE