Transcript 模型误差独立性诊断
第三章 回归诊断 在前两章讨论一元与多元线性回归问题中,我们作了如下 一些假定: 回归函数的线性假设: E (Y ) 是 x1 , x2 , xt 的线性函数; 误差的独立性假设:随机误差 1 , 2 , n 相互独立。 误差方差的齐性假设: E i 误差的正态性假设: 1 , 2 , n 服从正态分布。 0,Var i 2 ; • 在实际中这些假定是否合理?如果实际数据与这些假设偏离比较大,那 么前面讨论的有关参数的区间估计,假设检验就不一定成立。如果经过 分析,已经确认对所研究的具体数据,上面的假设不成立,那么我们又 希望探讨对数据作怎样的修正后,能使它们满足或近似满足这些假设。 这些就是回归诊断中所要解决的第一个问题。 • 回归诊断的另一个研究的问题是对数据的诊断,探查对统计推断有较大 影响的样本点,这样的点称为强影响点;以及探查与其它数据不是来自 同一模型的样本点,这样的点称为异常点。 §3.1 残差及残差图 由第二章的讨论可知: Ee 0,Var (e) 2 ( I H ) Cov(Yˆ , e) 0 当 ~ N (0, I n ) 时, e ~ N (0, ( I H )) 2 2 我们可以看出普通残差与 H 之间有着密切的关系,为 此进一步讨论 H (hij ) 的性质如下: 定理 3.1 (1) 0 hii 1 ,且 hii 1 时, hij 0, j i 。 n (2) h i 1 ii t 1 , 其中 t 为自变量个数。 证明:(1)因为 H H , H H ,所以有 2 n hii hij2 hii2 hij2 hij2 0 j 1 j i j i 故有: hii hii2 ,由此可得。 n (2) 1 1 h tr ( H ) tr ( X ( X X ) X ) tr (( X X ) X X ) t 1 ii i 1 中心化模型下: hii 1 ( xi x)' L1 ( xi x) , n 1 ( xi x )2 对一元线性回归方程来说: hii . n lxx 通常称 hii 很大的点为高杠杆点。所谓 hii 很大,即 hii 很靠近于 1。但 hii 大到多少所对应的点才是高杠杆 点呢?一般说来很难给出一个处处适用的标准, Sheather(2009)给出高杠杆点的标准是大于 2(t+1)/n, 其中 t 为自变量个数,n 为样本容量。高杠杆点对回归 拟合的影响很大(可参阅§8.1),在回归诊断中应予以 特别注意。 一般来讲,e1 , e2 , , en 是相关的,且它们的方差不等。所以不宜直接用 ei 作比较来判别异常点(第八章会详细介绍)。 引进标准化残差 称: ei ri 1 hii s (i 1,2, , n) 为标准化残差,其中: hii 为 H 矩阵的第 i 个对角元, s SSE 。 n t 1 一般说来, ri 的确切分布由于 ei 与 s 是不独立的所以很 难求得,( ri 的确切分布可见[4])。但在模型假设成立时, r1 , r2 ,, rn 近似独立,且近似服从 N (0,1) ,可以近似认为 r1 , r2 ,, rn 是来自 N (0,1) 的随机子样。依据标准化残差 r1 , r2 ,, rn 近似服从 N (0,1) 且近似相互独立这一结论,常 用残差图对模型假设的合理性进行检验。 残差图是一种直观的工具,它是以标准化残差 r 或 普通残差 e 为纵坐标,以其它的量为横坐标的散点图。 常用的横坐标有如下三种: 以拟合值 yˆ 为横坐标; 以 xi 为横坐标; 以观测时间或序号为横坐标。 一般残差图均要求 n 个点的散布是无规则的(若是标准 化残差,则还要求 n 个点大致落在 | r | 2 的水平带内)。 当残差图中的点呈现某种规律或趋向时,就可以对模型 的假设提出怀疑。利用残差图上点的散布规律作诊断的 方法是回归分析中对模型的诊断的最有效的方法之一, 下面在各节中将详述。 综合以上所述回归诊断有如下主要 内容: • 识别、判定和检验异常点。 • 区分出对统计推断影响特别大的点(影响分析)。 • 残差分析和残差图能用于研究既定模型与实际数据是否能 很好拟合。其中包括:模型线性诊断、模型误差方差齐性 诊断、模型误差独立性诊断、模型误差正态性诊断等。 §3.2 回归诊断一(数据的诊 断) (一)、数据诊断的两个基本概念 (1)异常点 在回归模型中,异常点是指对既定模型 偏离很大的数据点。但究竟偏离达到何种 程度才算是异常,这就必须对模型误差项 的分布有一定的假设(通常假定为正态分 布)。 目前对异常点有以下两种较为流行的看法: 把异常点看成是那些与数据集的主体明显不协 调,使得研究者大感惊讶的数据点。这时,异常 点可解释为所假定的分布中的极端点,即落在分 布的单侧或双侧分位点以外的点,而通常取很小 的值(如:0.05 ),致使观察者对数据中出现如 此极端的点感到意外。 (2)强影响点 数据集中的强影响点是指那些对统计 量的取值有非常大的影响力的点。在考虑 强影响点时,有几个基本问题需要考虑: 首先必须明确“是对哪个统计量的影响?” 例如,线性回归模型所考虑的是对回归系 数的估计量的影响;不是对误差方差的估 计影响;或是对拟合优度统计量的影响等 等。分析目标不同,所考虑的影响亦有所 不同。 • 其次,必须确定“度量影响的尺度是什么?”为了定量 地刻划影响的大小,迄今为止已提出多种尺度,基于置 信域的尺度,基于似然函数的尺度等等。在每一种类型 中又可能有不同的统计量,例如基于影响函数就已提出 多种“距离”来度量影响,有Cook距离、Welsch Kuh距离、Welsch距离等等。每一种度量都是着眼于某 一方面的影响,并在某种具体场合下较为有效。这一方 面反映了度量影响问题的复杂性,另一方面也说明了影 响分析的研究在统计诊断中是一个甚为活跃的方向,还 有大量有待解决的问题。 • 强影响点通常是数据集中更为重要的数据点,它往往能 提供比一般数据点更多的信息,因此需引起特别注意。 • 强影响点和异常点是两个不同的概念,它们之间既有联 系也有区别。强影响点可能同时又是异常点也可能不是; 反之,异常点可能同时又是强影响点也可能不是。 (二)、影响分析 设有模型: y i 0 1 xi1 t xit t i 1,2, n 2 i ~ N (0, ), 独立同分布 记: IFi ˆ (i) ˆ ,其中: ˆ 为模型的最小二乘估计, ˆ (i) 为剔除 第 i 组数据后由剩下的(n-1)组数据求得的最小二乘估计。 IFi 为度量 数据 xi1 , xi 2 ,, xit , yi 为经验影响函数。 对回归估计影响大小的一种重要统计量,称 ( ˆ (i) ˆ )M ( ˆ (i) ˆ ) 记: Di ( M , c) c Di (M , c) 越大表明了第 i 组数据被剔除后, ˆ 移动的距离越 大。 Di (M , c) 度量了第 i 组数据对 ˆ 影响的大小。一般称 Di (M , c) 为 Cook 距离。 为了给出 Di (M , c) 进一步的表达式,记: 1 x11 1 x21 X 1 xn1 x1t x1 x2t x2 ˆ , xnt xn n n j 1 j 1 X X x j x j , X Y x j y j ; 剔除第 i 组数据后由剩下的(n-1)组数据得到的相应的系数矩阵及常数项矩阵 为, n X (i) X (i) x j x j xi xi X X xi xi , j 1 n X (i)Y (i) x j y j xi yi X Y xi yi ; j 1 (i ) X (i) X (i) X (i)Y (i) X X xi xi 1 1 X Y xi yi 1 1 X X x x X X 1 i i X Y xi yi X X 1 1 xi X X xi X X i ˆ 1 hii 1 x xˆ i X X xi yi 1 X X 1 X X xi yˆi yi ˆ X X xi ei ˆ 1 hii 1 hii 1 1 xi xi X X xi yi 1 hii 1 ˆ X X IFi ˆ (i) 1 xi ei 1 hii 进一步,可以把 Cook 距离表示为: ( ˆ (i) ˆ )M ( ˆ (i) ˆ ) Di ( M , c) c X X 1 xi ei M 1 hii c X X 1 xi ei 1 hii 1 1 2 x X X M X X xi ei s i 1 hii 1 hii s c 2 2 s ri 2 Pi ( M ) c 进一步,可以把 Cook 距离表示为: s2 Di ( M , c) ri Pi ( M ) c 2 ri2 是第 i 组数据的学生化残差,表示在 xi1 , xi 2 ,, xit , yi 处拟合的好坏; s2 是与 i 无关的常数; c Pi (M ) 刻划了点 xi1 , xi 2 ,, xit 在自变量空间 R t 中的位 置。 M,c 常用的选择: M X X , c (t 1)s 2 ,此时,有: hii 1 Di ( M , c) ri t 1 1 hii 2 其中: hii 为矩阵 H X ( X X ) X 的对角线第 i 个元素。 1 Di (M , c) 相对较大的对应点称为强影响点。 hii 较大的点称为高杠杆点。 | ri |较大(大于 2)的点称为异常点。 §3.3 回归诊断二(模型的诊断) 一、 回归函数线性的诊断 (1)模型诊断 诊断回归函数是否是 x1 , x2 , xt 的线性函数的主要工具 是以拟合值 yˆ 为横坐标的残差图。t=1 时可用散点图。 例 3.1 I x y yˆ eˆ 1 80 0.6 1.6625 -1.0625 2 220 6.7 7.75 -1.05 3 140 5.3 4.27143 1.02857 4 120 4 3.40179 0.59821 5 180 6.55 6.01071 0.53929 6 100 2.15 2.53214 -0.38214 7 200 6.6 6.88036 -0.28036 8 160 5.75 5.14107 0.60893 由上述数据,可得 y 关于 x 的一元线性回归方程 yˆ 1.82 0.0435x 回归方程所对应的 的估计值及 x,y 的样本相关系数分别为: s 0.869 r 0.935 其拟合值及残差见上表。其散点图(a)及残差图(b)如下 从散点图可以看出,x 与 y 之间的关系用线性函数去描述不太 适合,最好看成是 x 的二次函数; 从残差图发现,点的散布是有规律的, yˆ 小的及 yˆ 大的残差 为负,而 yˆ 介于中间的点的残差是正的。 从上述的分析,我们有理由怀疑回归函数线性这一假定是不成 立的。 (2)模型修正 为了修改模型,我们再作以xt为横坐标的残差图 从上图可见, x 较小或较大时,残差小于 0, x 介于中间值时,残 2 差大于 0,从而设想改变回归模型,建立 y 关于 x 、 x 的回归方 程。其基本模型为 yi 0 1 xi 2 xi2 i , i 1,2,, n 经计算可得回归方程如下: yˆ 10.028 0.16424x 0.0040205x 2 其拟合值和残差见表 3.3.2,残差图见图 3.3.3。从残差图可见点的 分布已无规律,说明用二次回归方程是合适的。 模型修改后的预测值及残差 I yˆ eˆ 1 0.53542 0.06458 2 6.62292 0.07708 3 5.07649 0.22351 4 3.88482 0.11518 5 6.49375 0.05625 6 2.37113 -0.22113 7 6.71935 -0.11935 8 5.94613 -0.19613 模型修改后的残差图 二、 误差方差齐性诊断 对多元线性回归模型: y i 0 1 xi1 t xit t i 1,2, n 2 i ~ N (0, i ),并且独立 要诊断 i2 是否相等。即要检验: H0 : 12 22 n2 。 (1)模型诊断 常用的对误差方差的诊断的方法有: 1. 残差图 误差方差非齐性时,以拟合值 yˆ 为横坐标的残差图一般是 呈现喇叭型或倒喇叭型, 1. 若有重复试验, 可采用如下三种检验方法: Hartley 检验(最大 F 比检验)要求有相等的重复试验三次或三次以上,统 计量为: Fmax max(s12 , s22 , sn2 ) 2 , 其中 : s i 为组内方差 2 2 2 min(s1 , s2 , sn ) 拒绝域为: W Fmax Fmax, (n, m 1), 其中:n 表示不同条件数,m 表示重复次数。 Cochran 检验(最大方差检验)要求有相等的重复试验二次或二次以 上,统计量为 Gmax max(s12 , s 22 , s n2 ) n i 1 , 其中 : si2为组内方差 si2 拒绝域为: W Gmax Gmax, (n, m 1), 其中:n 表示不同条件数,m 表示重复次数。 Bartlett 检验( 2 检验)只要有重复就可以,这是三个检验中要求条件最弱的, 其统计量为: 1 2 f e ln s 2 (mi 1) ln si2 c i 1 1 i m 1 f i e 其中: f e (mi 1) , s 2 (mi 1)si2 / f e , c 1 3(n 1) i i 当 H0 : 12 22 n2 为真时,上述统计量近似服从自由度为 n 1 的 分 2 布,对给定的显著水平 ,其拒绝域为 W 2 1 (n 1) (1) 模型修正 当模型经检验表明方差非齐性时,常有两种方法可修改模型。 方法一:加权最小二乘估计 若我们可以得到 Var (Y ) G 中 G 的表达式(此时, G 为对 2 角矩阵,对角线上的元素不相等) ,那么,可采用加权最小二乘估计 去求模型的参数估计。 方法二、方差稳定性变换 设 Y 是 一 个 随 机 变 量 , E (Y ) , 这 里 可 能 是 自 变 量 x1 , x2 , xt 的函数,又假定 Var (Y ) g ( ) ,其中 g 是一个已知函 数。设 Z f (Y ) 使 Var (Z ) c (其中 c 为常数) 。下面我们要找出 f 表达式。 记 z f ( y ) ,并在 y 处作泰勒展开,取近似式为: f ( y) f ( ) f ( )( y ) 将 y 改为随机变量 Y 则有: Z f (Y ) f ( ) f ( )(Y ) 其方差 D(Z ) ( f ( ))2 g ( ) 由 Var (Z ) c 知, ( f ( )) g ( ) c ,有 2 f () c / g() (这里取算术平方根) 我们得到方差稳定性变换 f ( y ) c / g ( y )dy 常见的方差稳定性变换(忽略常数) N g ( ) 变换 1 g ( ) a Z Y 2 g ( ) a (1 ) Z arcsin Y 3 g ( ) a 2 Z ln Y 4 g ( ) a 3 Z 1/ Y 5 g ( ) a Z Y 1 4 三、误差的独立性诊断 • 在不少有关时间序列问题中,观测值往往 呈相关的趋势。如河流的水位总有一个变 化过程,当一场暴雨使河流水位上涨后往 往需要几天才能使水位降低,因而当我们 逐日测定河流最高水位时,相邻两天的观 测间就不一定独立。 我们考虑相邻观测间存在的一种最简单的相关情况——一阶 自相关。其基本模型为: yi 0 1 xi1 i 1 i ui 1 u , iid ~ N (0,1) i i xit i i 1, 2, i 1, 2, , n 1 当 0 时, i , 2 ,, n 之间存在一阶自相关。 这时检验误差的独立性就变成了检验假设: H 0 : 0 H1 : 0 ,n (1) 模型诊断 1. 残差图 对模型独立性的诊断的残差图一般用以序号为横坐标的残差 图。当残差符号的改变非常频繁,大致有正负相间的趋势时,这时 序列是负相关的 0 ;相反,当残差符号具有“集团”性,即有一 段是下号,另一段是负号,然后又有一段全是下号,这时序列是正 相关的 0 。 0 0 判断结果? 判断结果? 2. DW检验 对假设 H 0 : 0 H1 : 0 Durbin与Watson提出了DW检验,其检验用 的统计量为: n DW 2 ( e e ) i i 1 i 2 n e i 1 2 i 若记 r 为序列 e1 , e2 ,, en1 与序列 e2 , e3 ,, en 的样本相关系数(把 r 看成 的 一个估计),则可以证明(证明细节可见教材): DW 2 2r 当 DW 2 过大时,拒绝假设 H 0 : 0 H1 : 0 ,据DW的值 可按下面规则下结论: DW d L ,认为 i , 2 ,, n 之间存在正相关; dU DW 4 dU ,认为 i , 2 ,, n 之间不相关; DW 4 d L ,认为 i , 2 ,, n 之间存在负相关; d L DW dU 或 4 dU DW 4 d L ,对 i , 2 ,, n 是 否相关不下结论。 d L , dU 的大小可由附表7查得。 (2) 模型修正 经检验发现模型的随机误差序列是相关时,常可采用下面的方法对 模型进行修正。 方法一:加权最小二乘估计 若我们可以得到 D(Y ) G 中 G 的表达式(此时, G 是一般的 2 正定矩阵,而非对角矩阵) ,那么,可采用加权最小二乘估计去求模型 的参数估计。 方法二:可用差分法 令: y y i i 1 y , i x x x , i i 1 i i 1,2,, n 1 建立 y 关于 x 的回归方程。由此可得: y 0 1x 对此模型再进行DW检验,若认为 y i 之间是不相关,则可采用下列方程为最 终形式: yˆ i 1 y 0 1 ( x x ) i i 1 i 方法三:可用迭代法 其步骤如下: 先建立 y 关于 x 的回归方程,并求出相应各点的残差 e1 , e2 , , en , 经DW检验,若认为存在序列相关,则进行下述各步骤; 利用已求出的残差,求序列 e1 , e2 ,, en1 与序列 e2 , e3 ,, en 的相关 系数,记为 r (1) 令: y y (1) i ; r (1) y , (1) x x r (1) x , i 1,2,, n 1 ; i 1 i i i 1 i (1) 先建立 y 关于 x 的回归方程 (1) (1) y 0 1(1) x , (1) (1) (1) 并求出相应各点的残差 e1 , e2 ,, en1 ,经DW检验若认为已不存在序列相关, 则把上述方程认为是最终所求方程;若经检验仍存在序列相关,则求出序列 e1(1) , e2(1) ,, en(1)2 与序列 e2(1) , e3(1) ,, en(1)1 的相关系数,记为 r ( 2 ) ; 令 现重新建立回归方程,并进行DW检验,一直对DW检验表明序列不相关为 (2) 止。 (2) (1) (2) (1) (2) (1) y yi(1) r y , x x r xi , i 1, 2, 1 i i 1 i i ,n 2 ; 四、误差的正态性诊断 (一)模型诊断 检验总体分布是否为正态的方法有很多。常用的有如下几种: 方法一:在第本章的第二节已讨论过,若 Y ~ N ( X , I n ) 时,标准化 2 残差 r1 , r2 ,, rn 可近似看成来自 N (0,1) 的随机子样,从而可粗略地统计 一下 r1 , r2 ,, rn 中正负个数是否则各占一半左右,介于(-1,1)之间的比 例是否约为68%,介于(-2,2)之间的比例是否约为95%,介于(-3,3)之间 的比例是否约为99%. 方法二:正态检验方法。如数理统计中介绍过的柯莫 哥洛夫检验,小样本的夏皮诺和威尔克的W检验,大样 本的D检验等。 (二) 模型修正 当模型的随机误差序列为非正态时,我们希望能找到一个变 换,使变换后有: y1 g ( y1 ) y 2 g ( y 2 ) 2 ~ N ( X , In ) n y g ( y ) n n Box与Cox提出了一类应用较广的Box-Cox变换: y ( ) y 1 ln y 0 0 要求变换后 Y ( ) y1( ) ( ) y2 2 ~ N ( X , In ) n y ( ) n 从上式可以看出,Box-Cox变换不仅在误差非正态场合可用, 而且在回归函数非线性,误差方差非齐性,观测值间不独立 时均可选用,因为通过这个变换,线性回归中四条假定都满 足。 下面分两步来找出参数 , , 的极大似然估计。 2 Y ( ) 的似然函数为: LL( , 2 , ) (2 2 ) n 2 ( ) 1 ( ) exp Y X Y X 2 2 利用变换的形式可知 Y 的似然函数为: L( , , ) (2 ) 2 其中: J 2 n i 1 n 2 ( ) 1 ( ) exp Y X Y X 2 2 n dyi( ) yi 1 dyi i 1 J 对固定的 ,可得 , 2 的极大似然估计(MLE)为: 1 ( ) ˆ ( X X ) X Y 1 1 ˆ 2 Y ( ) [1 X ( X X ) 1 X ]Y ( ) SSE ( , y ) n n 对固定的 ,有: n 2 Lmax ( ) (2ˆ 2 ) e n 2 J 若略去常数不计,仍记其值为 Lmax ( ) ,并取对数有: ( ) ( ) n n Y Y ln Lmax ( ) ln[SSE( , y )] ln J ln 1 n [1 X ( X X ) 1 X ] 1 n 2 2 J J 若令: Z ( ) zi Y ( ) J ( ) 1n ,则有: yi J ( ) 1n 1 n ( ) ( yi ) n , yi i 1 1 n (ln y )( y ) n , i i i 1 0 i 1, 2, 0 ,n 并记: SSE ( , Z ) Z 则: ( ) [1 X ( X X ) 1 X ]Z ( ) n Lmax ( ) ln[ SSE ( , Z )] 2 为找出 使 Lmax ( ) 达到最大,只要使 SSE( , Z ) 达到最小即可。其 解析解是比较难找的,通常的做法是给出一系列的 值,画出 与 SSE( , Z ) 的曲线,从图上找出使 SSE( , Z ) 达到最小的近似 ˆ 。并 用此 ˆ 作Box-Cox变换并求出回归方程。 回归诊断在SAS上的实现 • 用语句plot r.*p. (r是residual的缩写,p是 predicted的缩写)可以作残差r相对于拟合值 p之间的散点图。如果此散点图在0水平线 上下均匀散布,且对p没有趋向性,则可认 为误差满足方差齐性假设、独立性假设, 和回归函数线性假设合理。 • model y=x/dw r; 选项里加上dw表示计算DW检验的值。 r表示计算学生化残差,并计算Cook距离, 若Cook距离相对较大,则认为是强影响点。 若学生化残差的绝对值大于2,则可认为是 异常点。从学生化残差也可判断误差的正 态性假设是否满足。 • 例子. 给10只大白鼠注射内霉素(30mg/kg)后,测 得每只大鼠红细胞x与血红蛋白含量Y数据 (见下页SAS文件),试对X和Y进行回归分 析。 data mouse; input x y; cards; 654 130 786 168 667 143 605 130 761 158 642 129 652 151 706 153 602 151 539 109 ; proc reg; model y=x; run; proc reg; model y=x/noint dw r cli clm; plot r.*p.; run; 注意:开始的时候并没有noint, 分析后才加入noint 残差图 y = 0.2148 x 25 N 10 Rsq 0.9958 AdjRsq 0.9953 RMSE 9.7628 20 15 10 5 0 -5 -10 -15 115 120 125 130 135 140 145 Predicted Value 150 155 160 165 170 误差的独立性诊断 第九个为异常点、强影响点 Output Statistics Std Error Student Obs Residual Residual -2-1 0 1 2 1 2 3 4 5 6 7 8 9 10 9.279 9.056 9.259 9.350 9.101 9.297 9.282 9.196 9.354 9.437 -1.129 -0.0913 -0.0288 0.00543 -0.600 -0.957 1.180 0.148 2.319 -0.718 | | | | | | | | | | **| | | | | | | | *| | *| | |** | | | |**** | *| | Cook's D 0.136 0.001 0.000 0.000 0.054 0.094 0.148 0.003 0.480 0.036 Sum of Residuals 1.36513 Sum of Squared Residuals 857.80435 Predicted Residual SS (PRESS) 1031.32594