模型误差独立性诊断

Transcript 模型误差独立性诊断

第三章
回归诊断
在前两章讨论一元与多元线性回归问题中，我们作了如下
一些假定：

回归函数的线性假设： E (Y ) 是 x1 , x2 ,  xt 的线性函数；

误差的独立性假设：随机误差  1 ,  2 ,  n 相互独立。

误差方差的齐性假设： E i

误差的正态性假设：  1 ,  2 ,  n 服从正态分布。
 0,Var i   2 ；
• 在实际中这些假定是否合理？如果实际数据与这些假设偏离比较大，那
么前面讨论的有关参数的区间估计，假设检验就不一定成立。如果经过
分析，已经确认对所研究的具体数据，上面的假设不成立，那么我们又
希望探讨对数据作怎样的修正后，能使它们满足或近似满足这些假设。
这些就是回归诊断中所要解决的第一个问题。
• 回归诊断的另一个研究的问题是对数据的诊断，探查对统计推断有较大
影响的样本点，这样的点称为强影响点;以及探查与其它数据不是来自
同一模型的样本点，这样的点称为异常点。
§3.1 残差及残差图
由第二章的讨论可知：

Ee  0,Var (e)   2 ( I  H )

Cov(Yˆ , e)  0

当  ~ N (0,  I n ) 时， e ~ N (0,  ( I  H ))
2
2
我们可以看出普通残差与 H 之间有着密切的关系，为
此进一步讨论 H  (hij ) 的性质如下：
定理 3.1 (1) 0  hii  1 ,且 hii  1 时， hij  0, j  i 。
n
(2)
h
i 1
ii
 t  1 , 其中 t 为自变量个数。
证明：（1）因为 H   H , H  H ，所以有
2
n
hii   hij2  hii2   hij2   hij2  0
j 1
j i
j i
故有： hii  hii2 ，由此可得。
n
（2）
1
1



h

tr
(
H
)

tr
(
X
(
X
X
)
X
)

tr
((
X
X
)
X X )  t  1
 ii
i 1
中心化模型下：
hii 
1
 ( xi  x)' L1 ( xi  x) ,
n
1 ( xi  x )2
对一元线性回归方程来说： hii  
.
n
lxx
通常称 hii 很大的点为高杠杆点。所谓 hii 很大，即
hii 很靠近于 1。但 hii 大到多少所对应的点才是高杠杆
点呢？一般说来很难给出一个处处适用的标准，
Sheather(2009)给出高杠杆点的标准是大于 2(t+1)/n,
其中 t 为自变量个数，n 为样本容量。高杠杆点对回归
拟合的影响很大(可参阅§8.1)，在回归诊断中应予以
特别注意。
一般来讲，e1 , e2 ,
, en 是相关的，且它们的方差不等。所以不宜直接用 ei
作比较来判别异常点(第八章会详细介绍)。
引进标准化残差
称：
ei
ri 
1  hii s
(i  1,2, , n)
为标准化残差，其中： hii 为 H 矩阵的第 i 个对角元， s

SSE
。
n  t 1
一般说来， ri 的确切分布由于 ei 与 s 是不独立的所以很
难求得，（ ri 的确切分布可见[4]）。但在模型假设成立时，
r1 , r2 ,, rn 近似独立，且近似服从 N (0,1) ，可以近似认为
r1 , r2 ,, rn 是来自 N (0,1) 的随机子样。依据标准化残差
r1 , r2 ,, rn 近似服从 N (0,1) 且近似相互独立这一结论，常
用残差图对模型假设的合理性进行检验。
残差图是一种直观的工具，它是以标准化残差 r 或
普通残差 e 为纵坐标，以其它的量为横坐标的散点图。
常用的横坐标有如下三种：

以拟合值 yˆ 为横坐标；

以 xi 为横坐标；

以观测时间或序号为横坐标。
一般残差图均要求 n 个点的散布是无规则的(若是标准
化残差，则还要求 n 个点大致落在 | r | 2 的水平带内)。
当残差图中的点呈现某种规律或趋向时，就可以对模型
的假设提出怀疑。利用残差图上点的散布规律作诊断的
方法是回归分析中对模型的诊断的最有效的方法之一，
下面在各节中将详述。
综合以上所述回归诊断有如下主要
内容：
• 识别、判定和检验异常点。
• 区分出对统计推断影响特别大的点（影响分析）。
• 残差分析和残差图能用于研究既定模型与实际数据是否能
很好拟合。其中包括：模型线性诊断、模型误差方差齐性
诊断、模型误差独立性诊断、模型误差正态性诊断等。
§3.2 回归诊断一（数据的诊
断）
(一)、数据诊断的两个基本概念
（1）异常点
在回归模型中，异常点是指对既定模型
偏离很大的数据点。但究竟偏离达到何种
程度才算是异常，这就必须对模型误差项
的分布有一定的假设（通常假定为正态分
布）。
目前对异常点有以下两种较为流行的看法：
把异常点看成是那些与数据集的主体明显不协
调，使得研究者大感惊讶的数据点。这时，异常
点可解释为所假定的分布中的极端点，即落在分
布的单侧或双侧分位点以外的点，而通常取很小
的值（如：0.05 ），致使观察者对数据中出现如
此极端的点感到意外。
（2）强影响点
数据集中的强影响点是指那些对统计
量的取值有非常大的影响力的点。在考虑
强影响点时，有几个基本问题需要考虑：
首先必须明确“是对哪个统计量的影响？”
例如，线性回归模型所考虑的是对回归系
数的估计量的影响；不是对误差方差的估
计影响；或是对拟合优度统计量的影响等
等。分析目标不同，所考虑的影响亦有所
不同。
• 其次，必须确定“度量影响的尺度是什么？”为了定量
地刻划影响的大小，迄今为止已提出多种尺度，基于置
信域的尺度，基于似然函数的尺度等等。在每一种类型
中又可能有不同的统计量，例如基于影响函数就已提出
多种“距离”来度量影响，有Cook距离、Welsch Kuh距离、Welsch距离等等。每一种度量都是着眼于某
一方面的影响，并在某种具体场合下较为有效。这一方
面反映了度量影响问题的复杂性，另一方面也说明了影
响分析的研究在统计诊断中是一个甚为活跃的方向，还
有大量有待解决的问题。
• 强影响点通常是数据集中更为重要的数据点，它往往能
提供比一般数据点更多的信息，因此需引起特别注意。
• 强影响点和异常点是两个不同的概念，它们之间既有联
系也有区别。强影响点可能同时又是异常点也可能不是；
反之，异常点可能同时又是强影响点也可能不是。
(二)、影响分析
设有模型：
 y i   0   1 xi1     t xit   t i  1,2, n

2
 i ~ N (0,  ), 独立同分布
记： IFi  ˆ (i)  ˆ ，其中： ˆ 为模型的最小二乘估计， ˆ (i) 为剔除
第 i 组数据后由剩下的（n-1)组数据求得的最小二乘估计。 IFi 为度量
数据 xi1 , xi 2 ,, xit , yi 
为经验影响函数。
对回归估计影响大小的一种重要统计量，称
( ˆ (i)  ˆ )M ( ˆ (i)  ˆ )
记： Di ( M , c) 
c
Di (M , c) 越大表明了第 i 组数据被剔除后， ˆ 移动的距离越
大。 Di (M , c) 度量了第 i 组数据对 ˆ 影响的大小。一般称
Di (M , c) 为 Cook 距离。
为了给出 Di (M , c) 进一步的表达式，记：
 1 x11

1 x21

X


 1 xn1
x1t   x1 
  
x2t   x2 
ˆ
,
  
  
xnt   xn 
n
n
j 1
j 1
X X   x j x j ， X Y   x j y j ；
剔除第 i 组数据后由剩下的（n-1)组数据得到的相应的系数矩阵及常数项矩阵
为，
n
X (i) X (i)   x j x j  xi xi  X X  xi xi ，
j 1
n
X (i)Y (i)   x j y j  xi yi  X Y  xi yi ；
j 1

 (i )   X (i) X (i)  X (i)Y (i)  X X  xi xi
1

1
 X Y  xi yi 
1
1





X
X
x
x
X
X



1
i i
  X Y  xi yi 
  X X  
1

1  xi  X X  xi 
X X  i

ˆ

1  hii
1
x xˆ
i
  X X  xi yi
1
X X 


1
X X  xi  yˆi  yi  ˆ  X X  xi ei

ˆ


1  hii
1  hii
1
1
xi xi  X X  xi yi
1  hii
1

ˆ  X X 
IFi  ˆ (i)  
1
xi ei
1  hii
进一步，可以把 Cook 距离表示为：
( ˆ (i)  ˆ )M ( ˆ (i)  ˆ )
Di ( M , c) 
c
  X X 1 xi ei  M
 
 
1  hii

 c
  X X 1 xi ei 
 

1  hii


1
1
2  




x
X
X
M
X
X
xi 



ei
s
i 


  
1  hii

 1  hii  s  c 
2
2
s
 ri 2   Pi ( M )
c
进一步，可以把 Cook 距离表示为：
s2
Di ( M , c)  ri
Pi ( M )
c
2

ri2 是第 i 组数据的学生化残差，表示在 xi1 , xi 2 ,, xit , yi 
处拟合的好坏；

s2
是与 i 无关的常数；
c

Pi (M ) 刻划了点 xi1 , xi 2 ,, xit  在自变量空间 R t 中的位
置。
M，c 常用的选择： M  X X , c  (t  1)s 2 ，此时，有：
hii
1
Di ( M , c)  ri
t  1 1  hii 
2
其中： hii 为矩阵 H  X ( X X ) X  的对角线第 i 个元素。
1

Di (M , c) 相对较大的对应点称为强影响点。

hii 较大的点称为高杠杆点。

| ri |较大(大于 2)的点称为异常点。
§3.3 回归诊断二（模型的诊断）
一、
回归函数线性的诊断
（1）模型诊断
诊断回归函数是否是 x1 , x2 ,  xt 的线性函数的主要工具
是以拟合值 yˆ 为横坐标的残差图。t=1 时可用散点图。
例 3.1
I
x
y
yˆ
eˆ
1
80
0.6
1.6625
-1.0625
2
220
6.7
7.75
-1.05
3
140
5.3
4.27143
1.02857
4
120
4
3.40179
0.59821
5
180
6.55
6.01071
0.53929
6
100
2.15
2.53214
-0.38214
7
200
6.6
6.88036
-0.28036
8
160
5.75
5.14107
0.60893
由上述数据，可得 y 关于 x 的一元线性回归方程
yˆ  1.82  0.0435x
回归方程所对应的  的估计值及 x,y 的样本相关系数分别为：
s  0.869
r  0.935
其拟合值及残差见上表。其散点图(a)及残差图(b)如下

从散点图可以看出，x 与 y 之间的关系用线性函数去描述不太
适合，最好看成是 x 的二次函数；

从残差图发现，点的散布是有规律的， yˆ 小的及 yˆ 大的残差
为负，而 yˆ 介于中间的点的残差是正的。
从上述的分析，我们有理由怀疑回归函数线性这一假定是不成
立的。
（2）模型修正
为了修改模型，我们再作以xt为横坐标的残差图
从上图可见， x 较小或较大时，残差小于 0， x 介于中间值时，残
2
差大于 0，从而设想改变回归模型，建立 y 关于 x 、 x 的回归方
程。其基本模型为
yi   0  1 xi   2 xi2   i ,
i  1,2,, n
经计算可得回归方程如下：
yˆ  10.028 0.16424x  0.0040205x 2
其拟合值和残差见表 3.3.2，残差图见图 3.3.3。从残差图可见点的
分布已无规律，说明用二次回归方程是合适的。
模型修改后的预测值及残差
I
yˆ
eˆ
1
0.53542
0.06458
2
6.62292
0.07708
3
5.07649
0.22351
4
3.88482
0.11518
5
6.49375
0.05625
6
2.37113
-0.22113
7
6.71935
-0.11935
8
5.94613
-0.19613
模型修改后的残差图
二、误差方差齐性诊断
对多元线性回归模型：

 y i   0   1 xi1     t xit   t i  1,2, n

2

 i ~ N (0,  i ),并且独立
要诊断  i2 是否相等。即要检验：
H0 : 12   22 
  n2 。
（1）模型诊断
常用的对误差方差的诊断的方法有：
1．残差图
误差方差非齐性时，以拟合值 yˆ 为横坐标的残差图一般是
呈现喇叭型或倒喇叭型，
1．若有重复试验，可采用如下三种检验方法：

Hartley 检验（最大 F 比检验）要求有相等的重复试验三次或三次以上，统
计量为：
Fmax
max(s12 , s22 , sn2 )
2

,
其中
:
s
i 为组内方差
2
2
2
min(s1 , s2 , sn )
拒绝域为：
W  Fmax  Fmax, (n, m 1)，
其中：n 表示不同条件数，m 表示重复次数。

Cochran 检验（最大方差检验）要求有相等的重复试验二次或二次以
上，统计量为
Gmax 
max(s12 , s 22 , s n2 )
n

i 1
, 其中 : si2为组内方差
si2
拒绝域为：
W  Gmax  Gmax, (n, m 1)，
其中：n 表示不同条件数，m 表示重复次数。

Bartlett 检验（  2 检验）只要有重复就可以，这是三个检验中要求条件最弱的，
其统计量为：
1

 2   f e ln s 2   (mi  1) ln si2 
c


i
1
1

i m  1 f
i
e
其中： f e   (mi  1) ， s 2   (mi  1)si2 / f e ， c 
1
3(n  1)
i
i
当 H0 :  12   22     n2 为真时，上述统计量近似服从自由度为 n  1 的  分
2
布，对给定的显著水平  ，其拒绝域为


W   2  1 (n 1)
（1）
模型修正
当模型经检验表明方差非齐性时，常有两种方法可修改模型。
方法一：加权最小二乘估计
若我们可以得到 Var (Y )   G 中 G 的表达式（此时， G 为对
2
角矩阵，对角线上的元素不相等）
，那么，可采用加权最小二乘估计
去求模型的参数估计。
方法二、方差稳定性变换
设 Y 是一个随机变量， E (Y )   ，这里  可能是自变量
x1 , x2 ,  xt 的函数，又假定 Var (Y )  g ( ) ，其中 g 是一个已知函
数。设
Z  f (Y )
使 Var (Z )  c （其中 c 为常数）
。下面我们要找出 f 表达式。
记 z  f ( y ) ，并在 y   处作泰勒展开，取近似式为：
f ( y)  f ( )  f ( )( y   )
将 y 改为随机变量 Y 则有：
Z  f (Y )  f ( )  f ( )(Y   )
其方差
D(Z )  ( f ( ))2 g ( )
由 Var (Z )  c 知， ( f ( )) g ( )  c ，有
2
f ()  c / g() (这里取算术平方根)
我们得到方差稳定性变换
f ( y )   c / g ( y )dy
常见的方差稳定性变换(忽略常数)
N
g ( )
变换
1
g (  )  a
Z Y
2
g (  )  a (1   )
Z  arcsin Y
3
g ( )  a 2
Z  ln Y
4
g ( )  a 3
Z  1/ Y
5
g ( )  a
Z  Y 1
4
三、误差的独立性诊断
• 在不少有关时间序列问题中，观测值往往
呈相关的趋势。如河流的水位总有一个变
化过程，当一场暴雨使河流水位上涨后往
往需要几天才能使水位降低，因而当我们
逐日测定河流最高水位时，相邻两天的观
测间就不一定独立。
我们考虑相邻观测间存在的一种最简单的相关情况——一阶
自相关。其基本模型为：
 yi   0  1 xi1 

 i 1   i  ui 1
u , iid ~ N (0,1)
 i
  i xit   i
i  1, 2,
i  1, 2,
, n 1
当   0 时，  i ,  2 ,,  n 之间存在一阶自相关。
这时检验误差的独立性就变成了检验假设：
H 0 :   0  H1 :   0
,n
（1）
模型诊断
1．残差图
对模型独立性的诊断的残差图一般用以序号为横坐标的残差
图。当残差符号的改变非常频繁，大致有正负相间的趋势时，这时
序列是负相关的   0 ;相反，当残差符号具有“集团”性，即有一
段是下号，另一段是负号，然后又有一段全是下号，这时序列是正
相关的   0 。
 0
 0
判断结果？
判断结果？
2.
DW检验
对假设 H 0 :   0  H1 :   0
Durbin与Watson提出了DW检验，其检验用
的统计量为：
n
DW 
2
(
e

e
)
 i i 1
i 2
n
e
i 1
2
i
若记 r 为序列 e1 , e2 ,, en1 与序列 e2 , e3 ,, en 的样本相关系数(把 r 看成  的
一个估计)，则可以证明(证明细节可见教材)：
DW  2  2r
当 DW  2 过大时，拒绝假设 H 0 :   0  H1 :   0 ，据DW的值
可按下面规则下结论：

DW  d L ，认为  i ,  2 ,,  n 之间存在正相关；

dU  DW  4  dU ，认为  i ,  2 ,,  n 之间不相关；

DW  4  d L ，认为  i ,  2 ,,  n 之间存在负相关；

d L  DW  dU 或 4  dU  DW  4  d L ，对  i ,  2 ,,  n 是
否相关不下结论。
d L ， dU 的大小可由附表7查得。
（2）模型修正
经检验发现模型的随机误差序列是相关时，常可采用下面的方法对
模型进行修正。
方法一：加权最小二乘估计
若我们可以得到 D(Y )   G 中 G 的表达式（此时， G 是一般的
2
正定矩阵，而非对角矩阵）
，那么，可采用加权最小二乘估计去求模型
的参数估计。
方法二：可用差分法
令： y  y
i
i 1
y ,
i
x  x
x ,
i
i 1
i
i  1,2,, n  1
建立 y 关于 x 的回归方程。由此可得：
y   0  1x
对此模型再进行DW检验，若认为 y i 之间是不相关，则可采用下列方程为最
终形式：
yˆ
i 1
 y   0  1 ( x
x )
i
i 1
i
方法三：可用迭代法
其步骤如下：

先建立 y 关于 x 的回归方程，并求出相应各点的残差 e1 , e2 ,
, en ，
经DW检验，若认为存在序列相关，则进行下述各步骤;

利用已求出的残差，求序列 e1 , e2 ,, en1 与序列 e2 , e3 ,, en 的相关
系数，记为 r

(1)
令：  y  y
(1)
i
；
 r (1) y , (1) x  x
 r (1) x , i  1,2,, n  1 ；
i 1
i
i
i 1
i

(1)
先建立  y 关于  x 的回归方程
(1)
(1) y   0  1(1) x ，
(1)
(1)
(1)
并求出相应各点的残差 e1 , e2 ,, en1 ，经DW检验若认为已不存在序列相关，
则把上述方程认为是最终所求方程；若经检验仍存在序列相关，则求出序列
e1(1) , e2(1) ,, en(1)2 与序列 e2(1) , e3(1) ,, en(1)1 的相关系数，记为 r ( 2 ) ；

令

现重新建立回归方程，并进行DW检验，一直对DW检验表明序列不相关为
(2)
止。
(2) (1)
(2)
(1)
(2) (1)
y  yi(1)

r
y
,

x

x

r
xi , i  1, 2,
1
i
i 1
i
i
,n  2 ；
四、误差的正态性诊断
（一）模型诊断
检验总体分布是否为正态的方法有很多。常用的有如下几种：
方法一：在第本章的第二节已讨论过，若 Y ~ N ( X ,  I n ) 时，标准化
2
残差 r1 , r2 ,, rn 可近似看成来自 N (0,1) 的随机子样，从而可粗略地统计
一下 r1 , r2 ,, rn 中正负个数是否则各占一半左右，介于(-1,1)之间的比
例是否约为68%,介于（-2，2）之间的比例是否约为95%,介于(-3,3)之间
的比例是否约为99%.
方法二：正态检验方法。如数理统计中介绍过的柯莫
哥洛夫检验，小样本的夏皮诺和威尔克的W检验，大样
本的D检验等。
(二) 模型修正
当模型的随机误差序列为非正态时，我们希望能找到一个变
换，使变换后有：
 y1   g ( y1 ) 
  

 y 2   g ( y 2 ) 
2

~
N
(
X

,

In )
n
     
  

 y   g ( y ) 
n 
 n 
Box与Cox提出了一类应用较广的Box-Cox变换：
y
( )
 y 1

 
ln y

0
 0
要求变换后
Y ( )
 y1(  ) 
 ( ) 
 y2 
2

~
N
(
X

,

In )
n

  
 y ( ) 
 n 
从上式可以看出，Box-Cox变换不仅在误差非正态场合可用，
而且在回归函数非线性，误差方差非齐性，观测值间不独立
时均可选用，因为通过这个变换，线性回归中四条假定都满
足。
下面分两步来找出参数  ,  ,  的极大似然估计。
2
Y (  ) 的似然函数为：
LL(  ,  2 ,  )  (2 2 )

n
2
 ( )
 1

( )
exp
Y

X

Y

X


2
 2




利用变换的形式可知 Y 的似然函数为：
L(  ,  ,  )  (2 )
2
其中： J 
2
n

i 1

n
2
 ( )
 1
( )
exp
Y  X Y  X
2
 2
n
dyi(  )
  yi 1
dyi
i 1




 J

对固定的  ，可得  ,  2 的极大似然估计(MLE)为：
1
( )
ˆ


  ( X X ) X Y
 1

1
ˆ 2  Y (  ) [1  X ( X X ) 1 X ]Y (  )  SSE ( , y )
n
n
对固定的  ，有：

n
2
Lmax ( )  (2ˆ 2 ) e

n
2
J
若略去常数不计，仍记其值为 Lmax ( ) ，并取对数有：

( )
( ) 
n
n Y
Y

ln Lmax ( )   ln[SSE( , y )]  ln J   ln  1 n [1  X ( X X ) 1 X ] 1 n 
2
2 J
J 


若令： Z
( )

zi
Y ( )
J
( )
1n

，则有：
yi
J
( )
1n
 1
n
 ( )
( yi ) n ,
 yi

i 1

 1
n
(ln y )( y ) n ,
i  i

i 1
0
i  1, 2,
 0
,n
并记： SSE ( , Z )  Z
则：
( )

[1  X ( X X ) 1 X ]Z (  )
n
Lmax ( )   ln[ SSE ( , Z )]
2
为找出  使 Lmax ( ) 达到最大，只要使 SSE( , Z ) 达到最小即可。其
解析解是比较难找的，通常的做法是给出一系列的  值，画出  与
SSE( , Z ) 的曲线，从图上找出使 SSE( , Z ) 达到最小的近似 ˆ 。并
用此 ˆ 作Box-Cox变换并求出回归方程。
回归诊断在SAS上的实现
• 用语句plot r.*p. (r是residual的缩写，p是
predicted的缩写)可以作残差r相对于拟合值
p之间的散点图。如果此散点图在0水平线
上下均匀散布，且对p没有趋向性，则可认
为误差满足方差齐性假设、独立性假设，
和回归函数线性假设合理。
• model y=x/dw r;
选项里加上dw表示计算DW检验的值。
r表示计算学生化残差，并计算Cook距离，
若Cook距离相对较大,则认为是强影响点。
若学生化残差的绝对值大于2，则可认为是
异常点。从学生化残差也可判断误差的正
态性假设是否满足。
• 例子.
给10只大白鼠注射内霉素(30mg/kg)后，测
得每只大鼠红细胞x与血红蛋白含量Y数据
(见下页SAS文件)，试对X和Y进行回归分
析。
data mouse;
input x y;
cards;
654 130
786 168
667 143
605 130
761 158
642 129
652 151
706 153
602 151
539 109
;
proc reg;
model y=x;
run;
proc reg;
model y=x/noint dw r cli clm;
plot r.*p.;
run;
注意：开始的时候并没有noint，
分析后才加入noint
残差图
y = 0.2148 x
25
N
10
Rsq
0.9958
AdjRsq
0.9953
RMSE
9.7628
20
15
10
5
0
-5
-10
-15
115
120
125
130
135
140
145
Predicted Value
150
155
160
165
170
误差的独立性诊断
第九个为异常点、强影响点
Output Statistics
Std Error Student
Obs Residual Residual -2-1 0 1 2
1
2
3
4
5
6
7
8
9
10
9.279
9.056
9.259
9.350
9.101
9.297
9.282
9.196
9.354
9.437
-1.129
-0.0913
-0.0288
0.00543
-0.600
-0.957
1.180
0.148
2.319
-0.718
|
|
|
|
|
|
|
|
|
|
**|
|
|
|
|
|
|
|
*|
|
*|
|
|** |
|
|
|**** |
*|
|
Cook's
D
0.136
0.001
0.000
0.000
0.054
0.094
0.148
0.003
0.480
0.036
Sum of Residuals
1.36513
Sum of Squared Residuals
857.80435
Predicted Residual SS (PRESS) 1031.32594