模型误差独立性诊断

Download Report

Transcript 模型误差独立性诊断

第三章
回归诊断
在前两章讨论一元与多元线性回归问题中,我们作了如下
一些假定:

回归函数的线性假设: E (Y ) 是 x1 , x2 ,  xt 的线性函数;

误差的独立性假设:随机误差  1 ,  2 ,  n 相互独立。

误差方差的齐性假设: E i

误差的正态性假设:  1 ,  2 ,  n 服从正态分布。
 0,Var i   2 ;
• 在实际中这些假定是否合理?如果实际数据与这些假设偏离比较大,那
么前面讨论的有关参数的区间估计,假设检验就不一定成立。如果经过
分析,已经确认对所研究的具体数据,上面的假设不成立,那么我们又
希望探讨对数据作怎样的修正后,能使它们满足或近似满足这些假设。
这些就是回归诊断中所要解决的第一个问题。
• 回归诊断的另一个研究的问题是对数据的诊断,探查对统计推断有较大
影响的样本点,这样的点称为强影响点;以及探查与其它数据不是来自
同一模型的样本点,这样的点称为异常点。
§3.1 残差及残差图
由第二章的讨论可知:

Ee  0,Var (e)   2 ( I  H )

Cov(Yˆ , e)  0

当  ~ N (0,  I n ) 时, e ~ N (0,  ( I  H ))
2
2
我们可以看出普通残差与 H 之间有着密切的关系,为
此进一步讨论 H  (hij ) 的性质如下:
定理 3.1 (1) 0  hii  1 ,且 hii  1 时, hij  0, j  i 。
n
(2)
h
i 1
ii
 t  1 , 其中 t 为自变量个数。
证明:(1)因为 H   H , H  H ,所以有
2
n
hii   hij2  hii2   hij2   hij2  0
j 1
j i
j i
故有: hii  hii2 ,由此可得。
n
(2)
1
1



h

tr
(
H
)

tr
(
X
(
X
X
)
X
)

tr
((
X
X
)
X X )  t  1
 ii
i 1
中心化模型下:
hii 
1
 ( xi  x)' L1 ( xi  x) ,
n
1 ( xi  x )2
对一元线性回归方程来说: hii  
.
n
lxx
通常称 hii 很大的点为高杠杆点。所谓 hii 很大,即
hii 很靠近于 1。但 hii 大到多少所对应的点才是高杠杆
点呢?一般说来很难给出一个处处适用的标准,
Sheather(2009)给出高杠杆点的标准是大于 2(t+1)/n,
其中 t 为自变量个数,n 为样本容量。高杠杆点对回归
拟合的影响很大(可参阅§8.1),在回归诊断中应予以
特别注意。
一般来讲,e1 , e2 ,
, en 是相关的,且它们的方差不等。所以不宜直接用 ei
作比较来判别异常点(第八章会详细介绍)。
引进标准化残差
称:
ei
ri 
1  hii s
(i  1,2, , n)
为标准化残差,其中: hii 为 H 矩阵的第 i 个对角元, s

SSE
。
n  t 1
一般说来, ri 的确切分布由于 ei 与 s 是不独立的所以很
难求得,( ri 的确切分布可见[4])。但在模型假设成立时,
r1 , r2 ,, rn 近似独立,且近似服从 N (0,1) ,可以近似认为
r1 , r2 ,, rn 是来自 N (0,1) 的随机子样。依据标准化残差
r1 , r2 ,, rn 近似服从 N (0,1) 且近似相互独立这一结论,常
用残差图对模型假设的合理性进行检验。
残差图是一种直观的工具,它是以标准化残差 r 或
普通残差 e 为纵坐标,以其它的量为横坐标的散点图。
常用的横坐标有如下三种:

以拟合值 yˆ 为横坐标;

以 xi 为横坐标;

以观测时间或序号为横坐标。
一般残差图均要求 n 个点的散布是无规则的(若是标准
化残差,则还要求 n 个点大致落在 | r | 2 的水平带内)。
当残差图中的点呈现某种规律或趋向时,就可以对模型
的假设提出怀疑。利用残差图上点的散布规律作诊断的
方法是回归分析中对模型的诊断的最有效的方法之一,
下面在各节中将详述。
综合以上所述回归诊断有如下主要
内容:
• 识别、判定和检验异常点。
• 区分出对统计推断影响特别大的点(影响分析)。
• 残差分析和残差图能用于研究既定模型与实际数据是否能
很好拟合。其中包括:模型线性诊断、模型误差方差齐性
诊断、模型误差独立性诊断、模型误差正态性诊断等。
§3.2 回归诊断一(数据的诊
断)
(一)、数据诊断的两个基本概念
(1)异常点
在回归模型中,异常点是指对既定模型
偏离很大的数据点。但究竟偏离达到何种
程度才算是异常,这就必须对模型误差项
的分布有一定的假设(通常假定为正态分
布)。
目前对异常点有以下两种较为流行的看法:
把异常点看成是那些与数据集的主体明显不协
调,使得研究者大感惊讶的数据点。这时,异常
点可解释为所假定的分布中的极端点,即落在分
布的单侧或双侧分位点以外的点,而通常取很小
的值(如:0.05 ),致使观察者对数据中出现如
此极端的点感到意外。
(2)强影响点
数据集中的强影响点是指那些对统计
量的取值有非常大的影响力的点。在考虑
强影响点时,有几个基本问题需要考虑:
首先必须明确“是对哪个统计量的影响?”
例如,线性回归模型所考虑的是对回归系
数的估计量的影响;不是对误差方差的估
计影响;或是对拟合优度统计量的影响等
等。分析目标不同,所考虑的影响亦有所
不同。
• 其次,必须确定“度量影响的尺度是什么?”为了定量
地刻划影响的大小,迄今为止已提出多种尺度,基于置
信域的尺度,基于似然函数的尺度等等。在每一种类型
中又可能有不同的统计量,例如基于影响函数就已提出
多种“距离”来度量影响,有Cook距离、Welsch Kuh距离、Welsch距离等等。每一种度量都是着眼于某
一方面的影响,并在某种具体场合下较为有效。这一方
面反映了度量影响问题的复杂性,另一方面也说明了影
响分析的研究在统计诊断中是一个甚为活跃的方向,还
有大量有待解决的问题。
• 强影响点通常是数据集中更为重要的数据点,它往往能
提供比一般数据点更多的信息,因此需引起特别注意。
• 强影响点和异常点是两个不同的概念,它们之间既有联
系也有区别。强影响点可能同时又是异常点也可能不是;
反之,异常点可能同时又是强影响点也可能不是。
(二)、影响分析
设有模型:
 y i   0   1 xi1     t xit   t i  1,2, n

2
 i ~ N (0,  ), 独立同分布
记: IFi  ˆ (i)  ˆ ,其中: ˆ 为模型的最小二乘估计, ˆ (i) 为剔除
第 i 组数据后由剩下的(n-1)组数据求得的最小二乘估计。 IFi 为度量
数据 xi1 , xi 2 ,, xit , yi 
为经验影响函数。
对回归估计影响大小的一种重要统计量,称
( ˆ (i)  ˆ )M ( ˆ (i)  ˆ )
记: Di ( M , c) 
c
Di (M , c) 越大表明了第 i 组数据被剔除后, ˆ 移动的距离越
大。 Di (M , c) 度量了第 i 组数据对 ˆ 影响的大小。一般称
Di (M , c) 为 Cook 距离。
为了给出 Di (M , c) 进一步的表达式,记:
 1 x11

1 x21

X


 1 xn1
x1t   x1 
  
x2t   x2 
ˆ
,
  
  
xnt   xn 
n
n
j 1
j 1
X X   x j x j , X Y   x j y j ;
剔除第 i 组数据后由剩下的(n-1)组数据得到的相应的系数矩阵及常数项矩阵
为,
n
X (i) X (i)   x j x j  xi xi  X X  xi xi ,
j 1
n
X (i)Y (i)   x j y j  xi yi  X Y  xi yi ;
j 1

 (i )   X (i) X (i)  X (i)Y (i)  X X  xi xi
1

1
 X Y  xi yi 
1
1





X
X
x
x
X
X



1
i i
  X Y  xi yi 
  X X  
1

1  xi  X X  xi 
X X  i

ˆ

1  hii
1
x xˆ
i
  X X  xi yi
1
X X 


1
X X  xi  yˆi  yi  ˆ  X X  xi ei

ˆ


1  hii
1  hii
1
1
xi xi  X X  xi yi
1  hii
1

ˆ  X X 
IFi  ˆ (i)  
1
xi ei
1  hii
进一步,可以把 Cook 距离表示为:
( ˆ (i)  ˆ )M ( ˆ (i)  ˆ )
Di ( M , c) 
c
  X X 1 xi ei  M
 
 
1  hii

 c
  X X 1 xi ei 
 

1  hii


1
1
2  




x
X
X
M
X
X
xi 



ei
s
i 


  
1  hii

 1  hii  s  c 
2
2
s
 ri 2   Pi ( M )
c
进一步,可以把 Cook 距离表示为:
s2
Di ( M , c)  ri
Pi ( M )
c
2

ri2 是第 i 组数据的学生化残差,表示在 xi1 , xi 2 ,, xit , yi 
处拟合的好坏;

s2
是与 i 无关的常数;
c

Pi (M ) 刻划了点 xi1 , xi 2 ,, xit  在自变量空间 R t 中的位
置。
M,c 常用的选择: M  X X , c  (t  1)s 2 ,此时,有:
hii
1
Di ( M , c)  ri
t  1 1  hii 
2
其中: hii 为矩阵 H  X ( X X ) X  的对角线第 i 个元素。
1

Di (M , c) 相对较大的对应点称为强影响点。

hii 较大的点称为高杠杆点。

| ri |较大(大于 2)的点称为异常点。
§3.3 回归诊断二(模型的诊断)
一、
回归函数线性的诊断
(1)模型诊断
诊断回归函数是否是 x1 , x2 ,  xt 的线性函数的主要工具
是以拟合值 yˆ 为横坐标的残差图。t=1 时可用散点图。
例 3.1
I
x
y
yˆ
eˆ
1
80
0.6
1.6625
-1.0625
2
220
6.7
7.75
-1.05
3
140
5.3
4.27143
1.02857
4
120
4
3.40179
0.59821
5
180
6.55
6.01071
0.53929
6
100
2.15
2.53214
-0.38214
7
200
6.6
6.88036
-0.28036
8
160
5.75
5.14107
0.60893
由上述数据,可得 y 关于 x 的一元线性回归方程
yˆ  1.82  0.0435x
回归方程所对应的  的估计值及 x,y 的样本相关系数分别为:
s  0.869
r  0.935
其拟合值及残差见上表。其散点图(a)及残差图(b)如下

从散点图可以看出,x 与 y 之间的关系用线性函数去描述不太
适合,最好看成是 x 的二次函数;

从残差图发现,点的散布是有规律的, yˆ 小的及 yˆ 大的残差
为负,而 yˆ 介于中间的点的残差是正的。
从上述的分析,我们有理由怀疑回归函数线性这一假定是不成
立的。
(2)模型修正
为了修改模型,我们再作以xt为横坐标的残差图
从上图可见, x 较小或较大时,残差小于 0, x 介于中间值时,残
2
差大于 0,从而设想改变回归模型,建立 y 关于 x 、 x 的回归方
程。其基本模型为
yi   0  1 xi   2 xi2   i ,
i  1,2,, n
经计算可得回归方程如下:
yˆ  10.028 0.16424x  0.0040205x 2
其拟合值和残差见表 3.3.2,残差图见图 3.3.3。从残差图可见点的
分布已无规律,说明用二次回归方程是合适的。
模型修改后的预测值及残差
I
yˆ
eˆ
1
0.53542
0.06458
2
6.62292
0.07708
3
5.07649
0.22351
4
3.88482
0.11518
5
6.49375
0.05625
6
2.37113
-0.22113
7
6.71935
-0.11935
8
5.94613
-0.19613
模型修改后的残差图
二、 误差方差齐性诊断
对多元线性回归模型:

 y i   0   1 xi1     t xit   t i  1,2, n

2

 i ~ N (0,  i ),并且独立
要诊断  i2 是否相等。即要检验:
H0 : 12   22 
  n2 。
(1)模型诊断
常用的对误差方差的诊断的方法有:
1. 残差图
误差方差非齐性时,以拟合值 yˆ 为横坐标的残差图一般是
呈现喇叭型或倒喇叭型,
1. 若有重复试验, 可采用如下三种检验方法:

Hartley 检验(最大 F 比检验)要求有相等的重复试验三次或三次以上,统
计量为:
Fmax
max(s12 , s22 , sn2 )
2

,
其中
:
s
i 为组内方差
2
2
2
min(s1 , s2 , sn )
拒绝域为:
W  Fmax  Fmax, (n, m 1),
其中:n 表示不同条件数,m 表示重复次数。

Cochran 检验(最大方差检验)要求有相等的重复试验二次或二次以
上,统计量为
Gmax 
max(s12 , s 22 , s n2 )
n

i 1
, 其中 : si2为组内方差
si2
拒绝域为:
W  Gmax  Gmax, (n, m 1),
其中:n 表示不同条件数,m 表示重复次数。

Bartlett 检验(  2 检验)只要有重复就可以,这是三个检验中要求条件最弱的,
其统计量为:
1

 2   f e ln s 2   (mi  1) ln si2 
c


i
1
1

i m  1 f
i
e
其中: f e   (mi  1) , s 2   (mi  1)si2 / f e , c 
1
3(n  1)
i
i
当 H0 :  12   22     n2 为真时,上述统计量近似服从自由度为 n  1 的  分
2
布,对给定的显著水平  ,其拒绝域为


W   2  1 (n 1)
(1)
模型修正
当模型经检验表明方差非齐性时,常有两种方法可修改模型。
方法一:加权最小二乘估计
若我们可以得到 Var (Y )   G 中 G 的表达式(此时, G 为对
2
角矩阵,对角线上的元素不相等)
,那么,可采用加权最小二乘估计
去求模型的参数估计。
方法二、方差稳定性变换
设 Y 是 一 个 随 机 变 量 , E (Y )   , 这 里  可 能 是 自 变 量
x1 , x2 ,  xt 的函数,又假定 Var (Y )  g ( ) ,其中 g 是一个已知函
数。设
Z  f (Y )
使 Var (Z )  c (其中 c 为常数)
。下面我们要找出 f 表达式。
记 z  f ( y ) ,并在 y   处作泰勒展开,取近似式为:
f ( y)  f ( )  f ( )( y   )
将 y 改为随机变量 Y 则有:
Z  f (Y )  f ( )  f ( )(Y   )
其方差
D(Z )  ( f ( ))2 g ( )
由 Var (Z )  c 知, ( f ( )) g ( )  c ,有
2
f ()  c / g() (这里取算术平方根)
我们得到方差稳定性变换
f ( y )   c / g ( y )dy
常见的方差稳定性变换(忽略常数)
N
g ( )
变换
1
g (  )  a
Z Y
2
g (  )  a (1   )
Z  arcsin Y
3
g ( )  a 2
Z  ln Y
4
g ( )  a 3
Z  1/ Y
5
g ( )  a
Z  Y 1
4
三、误差的独立性诊断
• 在不少有关时间序列问题中,观测值往往
呈相关的趋势。如河流的水位总有一个变
化过程,当一场暴雨使河流水位上涨后往
往需要几天才能使水位降低,因而当我们
逐日测定河流最高水位时,相邻两天的观
测间就不一定独立。
我们考虑相邻观测间存在的一种最简单的相关情况——一阶
自相关。其基本模型为:
 yi   0  1 xi1 

 i 1   i  ui 1
u , iid ~ N (0,1)
 i
  i xit   i
i  1, 2,
i  1, 2,
, n 1
当   0 时,  i ,  2 ,,  n 之间存在一阶自相关。
这时检验误差的独立性就变成了检验假设:
H 0 :   0  H1 :   0
,n
(1)
模型诊断
1. 残差图
对模型独立性的诊断的残差图一般用以序号为横坐标的残差
图。当残差符号的改变非常频繁,大致有正负相间的趋势时,这时
序列是负相关的   0 ;相反,当残差符号具有“集团”性,即有一
段是下号,另一段是负号,然后又有一段全是下号,这时序列是正
相关的   0 。
 0
 0
判断结果?
判断结果?
2.
DW检验
对假设 H 0 :   0  H1 :   0
Durbin与Watson提出了DW检验,其检验用
的统计量为:
n
DW 
2
(
e

e
)
 i i 1
i 2
n
e
i 1
2
i
若记 r 为序列 e1 , e2 ,, en1 与序列 e2 , e3 ,, en 的样本相关系数(把 r 看成  的
一个估计),则可以证明(证明细节可见教材):
DW  2  2r
当 DW  2 过大时,拒绝假设 H 0 :   0  H1 :   0 ,据DW的值
可按下面规则下结论:

DW  d L ,认为  i ,  2 ,,  n 之间存在正相关;

dU  DW  4  dU ,认为  i ,  2 ,,  n 之间不相关;

DW  4  d L ,认为  i ,  2 ,,  n 之间存在负相关;

d L  DW  dU 或 4  dU  DW  4  d L ,对  i ,  2 ,,  n 是
否相关不下结论。
d L , dU 的大小可由附表7查得。
(2) 模型修正
经检验发现模型的随机误差序列是相关时,常可采用下面的方法对
模型进行修正。
方法一:加权最小二乘估计
若我们可以得到 D(Y )   G 中 G 的表达式(此时, G 是一般的
2
正定矩阵,而非对角矩阵)
,那么,可采用加权最小二乘估计去求模型
的参数估计。
方法二:可用差分法
令: y  y
i
i 1
y ,
i
x  x
x ,
i
i 1
i
i  1,2,, n  1
建立 y 关于 x 的回归方程。由此可得:
y   0  1x
对此模型再进行DW检验,若认为 y i 之间是不相关,则可采用下列方程为最
终形式:
yˆ
i 1
 y   0  1 ( x
x )
i
i 1
i
方法三:可用迭代法
其步骤如下:

先建立 y 关于 x 的回归方程,并求出相应各点的残差 e1 , e2 ,
, en ,
经DW检验,若认为存在序列相关,则进行下述各步骤;

利用已求出的残差,求序列 e1 , e2 ,, en1 与序列 e2 , e3 ,, en 的相关
系数,记为 r

(1)
令:  y  y
(1)
i
;
 r (1) y , (1) x  x
 r (1) x , i  1,2,, n  1 ;
i 1
i
i
i 1
i

(1)
先建立  y 关于  x 的回归方程
(1)
(1) y   0  1(1) x ,
(1)
(1)
(1)
并求出相应各点的残差 e1 , e2 ,, en1 ,经DW检验若认为已不存在序列相关,
则把上述方程认为是最终所求方程;若经检验仍存在序列相关,则求出序列
e1(1) , e2(1) ,, en(1)2 与序列 e2(1) , e3(1) ,, en(1)1 的相关系数,记为 r ( 2 ) ;

令

现重新建立回归方程,并进行DW检验,一直对DW检验表明序列不相关为
(2)
止。
(2) (1)
(2)
(1)
(2) (1)
y  yi(1)

r
y
,

x

x

r
xi , i  1, 2,
1
i
i 1
i
i
,n  2 ;
四、误差的正态性诊断
(一)模型诊断
检验总体分布是否为正态的方法有很多。常用的有如下几种:
方法一:在第本章的第二节已讨论过,若 Y ~ N ( X ,  I n ) 时,标准化
2
残差 r1 , r2 ,, rn 可近似看成来自 N (0,1) 的随机子样,从而可粗略地统计
一下 r1 , r2 ,, rn 中正负个数是否则各占一半左右,介于(-1,1)之间的比
例是否约为68%,介于(-2,2)之间的比例是否约为95%,介于(-3,3)之间
的比例是否约为99%.
方法二:正态检验方法。如数理统计中介绍过的柯莫
哥洛夫检验,小样本的夏皮诺和威尔克的W检验,大样
本的D检验等。
(二) 模型修正
当模型的随机误差序列为非正态时,我们希望能找到一个变
换,使变换后有:
 y1   g ( y1 ) 
  

 y 2   g ( y 2 ) 
2

~
N
(
X

,

In )
n
     
  

 y   g ( y ) 
n 
 n 
Box与Cox提出了一类应用较广的Box-Cox变换:
y
( )
 y 1

 
ln y

0
 0
要求变换后
Y ( )
 y1(  ) 
 ( ) 
 y2 
2

~
N
(
X

,

In )
n

  
 y ( ) 
 n 
从上式可以看出,Box-Cox变换不仅在误差非正态场合可用,
而且在回归函数非线性,误差方差非齐性,观测值间不独立
时均可选用,因为通过这个变换,线性回归中四条假定都满
足。
下面分两步来找出参数  ,  ,  的极大似然估计。
2
Y (  ) 的似然函数为:
LL(  ,  2 ,  )  (2 2 )

n
2
 ( )
 1

( )
exp
Y

X

Y

X


2
 2




利用变换的形式可知 Y 的似然函数为:
L(  ,  ,  )  (2 )
2
其中: J 
2
n

i 1

n
2
 ( )
 1
( )
exp
Y  X Y  X
2
 2
n
dyi(  )
  yi 1
dyi
i 1




 J

对固定的  ,可得  ,  2 的极大似然估计(MLE)为:
1
( )
ˆ


  ( X X ) X Y
 1

1
ˆ 2  Y (  ) [1  X ( X X ) 1 X ]Y (  )  SSE ( , y )
n
n
对固定的  ,有:

n
2
Lmax ( )  (2ˆ 2 ) e

n
2
J
若略去常数不计,仍记其值为 Lmax ( ) ,并取对数有:

( )
( ) 
n
n Y
Y

ln Lmax ( )   ln[SSE( , y )]  ln J   ln  1 n [1  X ( X X ) 1 X ] 1 n 
2
2 J
J 


若令: Z
( )

zi
Y ( )
J
( )
1n

,则有:
yi
J
( )
1n
 1
n
 ( )
( yi ) n ,
 yi

i 1

 1
n
(ln y )( y ) n ,
i  i

i 1
0
i  1, 2,
 0
,n
并记: SSE ( , Z )  Z
则:
( )

[1  X ( X X ) 1 X ]Z (  )
n
Lmax ( )   ln[ SSE ( , Z )]
2
为找出  使 Lmax ( ) 达到最大,只要使 SSE( , Z ) 达到最小即可。其
解析解是比较难找的,通常的做法是给出一系列的  值,画出  与
SSE( , Z ) 的曲线,从图上找出使 SSE( , Z ) 达到最小的近似 ˆ 。并
用此 ˆ 作Box-Cox变换并求出回归方程。
回归诊断在SAS上的实现
• 用语句plot r.*p. (r是residual的缩写,p是
predicted的缩写)可以作残差r相对于拟合值
p之间的散点图。如果此散点图在0水平线
上下均匀散布,且对p没有趋向性,则可认
为误差满足方差齐性假设、独立性假设,
和回归函数线性假设合理。
• model y=x/dw r;
选项里加上dw表示计算DW检验的值。
r表示计算学生化残差,并计算Cook距离,
若Cook距离相对较大,则认为是强影响点。
若学生化残差的绝对值大于2,则可认为是
异常点。从学生化残差也可判断误差的正
态性假设是否满足。
• 例子.
给10只大白鼠注射内霉素(30mg/kg)后,测
得每只大鼠红细胞x与血红蛋白含量Y数据
(见下页SAS文件),试对X和Y进行回归分
析。
data mouse;
input x y;
cards;
654 130
786 168
667 143
605 130
761 158
642 129
652 151
706 153
602 151
539 109
;
proc reg;
model y=x;
run;
proc reg;
model y=x/noint dw r cli clm;
plot r.*p.;
run;
注意:开始的时候并没有noint,
分析后才加入noint
残差图
y = 0.2148 x
25
N
10
Rsq
0.9958
AdjRsq
0.9953
RMSE
9.7628
20
15
10
5
0
-5
-10
-15
115
120
125
130
135
140
145
Predicted Value
150
155
160
165
170
误差的独立性诊断
第九个为异常点、强影响点
Output Statistics
Std Error Student
Obs Residual Residual -2-1 0 1 2
1
2
3
4
5
6
7
8
9
10
9.279
9.056
9.259
9.350
9.101
9.297
9.282
9.196
9.354
9.437
-1.129
-0.0913
-0.0288
0.00543
-0.600
-0.957
1.180
0.148
2.319
-0.718
|
|
|
|
|
|
|
|
|
|
**|
|
|
|
|
|
|
|
*|
|
*|
|
|** |
|
|
|**** |
*|
|
Cook's
D
0.136
0.001
0.000
0.000
0.054
0.094
0.148
0.003
0.480
0.036
Sum of Residuals
1.36513
Sum of Squared Residuals
857.80435
Predicted Residual SS (PRESS) 1031.32594