第4章多元线性回归分析

Download Report

Transcript 第4章多元线性回归分析

第4章
多元线性回归分析
多元线性回归分析
4.1 多元线性回归模型设定
4.2 多元线性回归模型参数估计
4.2.1 回归系数估计
4.2.2 误差估计—残差
ˆj
4.2.3
的分布
4.3 更多假设下OLS估计量性质
4.4 回归系数检验(t检验)
2
4.5 调整 R 、信息准则和变量选择
2
R
4.5.1调整
4.5.2 信息准则
多元线性回归分析
4.6 回归模型检验(F检验)
4.7 用EViews7.2进行多元线性回归
4.8 假设条件的放松
4.7.1 假设条件的放松(一)—非正态分布
误差项
4.7.2 假设条件的放松(二)—异方差
4.7.3 假设条件的放松(三)—非随机抽样
和序列
相关
4.7.4 假设条件的放松(四)—内生性
4.9 自变量共线性
重要概念
4.1 多元线性回归模型设定
模型设定:
Y  0  1 X1  2 X 2    k X k  u
假设1(零条件均值:zero conditonal
mean)
E(u | X1 , X 2 ,, X k )  0
给定解释变量,误差项条件数学期望为0,即
E(u)  0
Cov(u)  E(uX j )  0, j  1,2,, k
4.1 多元线性回归模型设定
假设2 (无共线性:no colinearity)
解释变量之间不存在线性关系。即不存在
不全
c0 , c1,, ck
0
为零的一组数 c0  c1 X1    X k  使得
若不成立,称自变量间存在完全共线性
(perfect colinearity),此时参数不能被唯一
估计。
4.1 多元线性回归模型设定
对于样本模型,从无共线性的假设得出解释变量
样本值形成的向量之间线性无关。
x1  ( X11 , X12 ,, X1n )
1  (1,1, ,1)
x2  ( X 21 , X 22 ,, X 2n )
xk  ( X k1 , X k 2 ,, …
X kn )
 假设2’(样本无共线性:no colinearity)
c0 , c1,, ck
不存在不全为零的一组数
c0  c1x1    xk  0
使得
4.2 多元线性回归模型参数估计
4.2.1 回归系数估计
4.2.2 误差估计—残差
4.2.3ˆj
的分布
4.2 多元线性回归模型参数估计
4.2.1 回归系数估计
类比原则得样本矩条件
n
1
n
 (Y  ˆ
i 1
i
0
 ˆ1 X i    ˆk X ki )  0
n
n 1  (Yi  ˆ0  ˆ1 X 1i  ˆ2 X 2i    ˆk X ki ) X 1i  0
i 1
n
1
n
 (Y  ˆ
i 1
i
0
 ˆ1 X 1i  ˆ2 X 2i    ˆk X ki ) X 2i  0

n
n 1  (Yi  ˆ0  ˆ1 X 1i  ˆ2 X 2i    ˆk X ki ) X ki  0
i 1
4.2 多元线性回归模型参数估计
4.2.1 回归系数估计
多元回归分析参数估计一般用矩阵表示,
这里
仅给出二元情况下用克莱姆法则解出的解。
ˆ
ˆ
ˆ
0  Y  1 X1  2 X 2
(i1 X 1iYi)i1 X 22i  (i1 X 2iYi)i1 X 1i X 2i
n
ˆ1 
n
n
n
(i1 X  )i1 X   (i1 X 1i X 2i )
n
n
n
n
2
(i1 X 2iYi)i1 X 1i  (i1 X 1iYi)i1 X 1i X 2i
ˆ
2 
2
n
n
n
2
2
(i1 X 1i )i1 X 2i  (i1 X 1i X 2i )
n
2
1i
n
2
2i
n
2
4.2 多元线性回归模型参数估计
4.2.1回归系数估计
结论
结论1: OLS估计的一致性
如果回归模型误差项满足假设1和假设2,OLS估计ˆj
为一致估计,即
p limn ˆ j   j , j  0, 1, 2, , k
结论2: OLS估计的无偏性
如果回归模型误差项满足假设1和假设2,OLS估计
ˆj 为无偏估计:
E(ˆ j )   j , j  0, 1, , k
4.2 多元线性回归模型参数估计
4.2.2 误差估计—残差
结论
结论3:
如果假设1和假设2满足,则回归残差是回归误差的
一致估计:
p
uˆi 
 ui
结论4:
如果假设1和假设2满足,残差形成的向量和自变量
样本值形成的向量正交。
n
 uˆ
i 1
i
 0,
n
 uˆ X
i 1
i
ji
 0, j  1, 2 ,, k
4.2 多元线性回归模型参数估计
4.2.3ˆj
的分布
结论5
如果假设1和假设2满足,样本量n 较大时,OLS估
计 ˆj 近似服从正态分布:
ˆ j ~ ( a ) N ( j ,  2ˆ ), j  0, 1 , , k
其中   Var ( ˆ j )
2
ˆj
j
4.3 更多假设下OLS估计量性质
假设3(同方差:homoskedasticity)
给定解释变量,误差项条件方差为常数,即
Var (ui | X1i , X 2i ,, X ki )   2
假设4(随机抽样: random sample)
(Yi , X1i ,, X ki ), i  1,2,, n
样本
ui , i  1,2,, n
是随机抽样产生的,样本之间相互独立,模型误
差项
之间相互独立。
4.3 更多假设下OLS估计量性质
结论6
如果假设1~假设4满足,则当样本量n 较大时,
OLS估计 ˆj 近似服从结论5中的正态分布,方差计算
公式为
2

  n
,
j

1
,
2
,

,
k
2
2
(
X

X
)
(
1

R
i1 ji j
j)
2
ˆ j
其中 R 2j 为以 X j 为因变量对其余解释变量进行多元线
性回归的拟合优度。
4.3 更多假设下OLS估计量性质
结论7
如果假设1~假设4满足,统计量
2
ˆ
u
i1 i
n
SSR
ˆ 

n  ( k  1) n  ( k  1)
2
2

是误差项方差
的无偏和一致估计,即
E(ˆ 2 )   2 ,
p limn ˆ 2   2
ˆ 为回归标准误,记为 s  ˆ 。
4.3 更多假设下OLS估计量性质
结论8
如果假设1~假设4满足,样本量
量近似服从正态分布
ˆ j   j
t j 
结论9
sˆ
n 较大时,如下统计
~ ( a ) N (0,1), j  1, 2, , k
j
ˆj 为最有效估计:
如果假设1~假设4满足,OLS估计量
在 j 的所有线性无偏估计中,ˆj 的方差最小。这称为
OLS估计的马尔科夫性。
4.3 更多假设下OLS估计量性质
假设5(正态分布: normal
distribution)
u
给定解释变量,误差项
服从正态
2
分布,
u | X1,, X k ~ N (0,  ( X ))
即
 2 ( X )  Var (u | X1 , X 2 ,, X k )
其中
4.3 更多假设下OLS估计量性质
结论10
如果假设1~假设5满足,
(1)ˆj 服从正态分布,ˆ j ~ N ( 0 ,  2 ) , 2ˆ 由上面公式给出;
(2)tj 服从自由度为 n  (k  1) 的t-分布
ˆ j
t j 
ˆ j   j
sˆ
j
~ t (n  (k  1))
j
其中 sj 由上面公式给出,j  1,2, , k 。
4.4 回归系数检验( t 检验)
• 检验的原假设和备选假设为:
H0 :  j  0,
H1 :  j  0
通常取显著水平   0.05 或   0.01
• 假设1~5都成立的情况下,统计量
t j 
ˆ j
sˆ
~ t (n  (k  1))
j
• 样本量较大时(n>35),0.05显著水平下双
边检验临界值接近2,故常用t值是否大于2
判断参数是否显著。
4.5 调整 R 、信息准则和变量选择
2
2
R
4.5.1调整
4.5.2 信息准则
4.5 调整 R 、信息准则和变量选择
2
2
R
4.5.1调整
• 增加解释变量只会减少RSS的值(不受限的
最小化总比受限的最小化来的小),从而
增加 R 2 值。
2
R
• 用自由度来调整
的定义
RSS /(n  (k  1))
R  1
T SS /(n  1)
2
• 关系:
n 1
R  1  (1  R ) 
n  (k  1)
2
2
4.5 调整 R 、信息准则和变量选择
2
4.5.2 信息准则
将模型自变量个数考虑在内的变量选
择标准:AIC,SC,HQ
应用原则是使信息准则值最小的模型
最好。(只对嵌套模型有用)
常用AIC和SC准则,SC准则对增加解释
变量的惩罚更为严厉,因此得出的模型往
往更简洁。
4.6 回归模型检验( F检验)
拟合优度和信息准则均不严格,带
有很
多主观判断,因此要进行严格的模型检验。
原假设:
H0 : 1  2    k  0; H1 : 1, 2 ,, k
至少一个不为0
统计量:
ESS / k
F 
SSR /[n  (k  1)]
4.6 回归模型检验( F检验)
 结论11
如果假设1~假设5满足,上述统计量服从第一自
由度为k、第二自由度为(n-2)的F分布,即:
F ~ F (k , n  2)
实际中,上述F检验拒绝原假设并不意味一
定有
一个参数的t检验要拒绝原假设;反之,即使全部t
检
验都不拒绝原假设,上述F检验也不一定不拒绝原假
设。
4.7 用EViews7.2进行多元线性回归
步骤:
• 与一元线性回归模型类似,先建立Excel数据文件,
再将文件导入EViews
• 用Genr按钮从原始数据生成回归模型中的变量
• 按住Control键,选中回归模型中的变量,点击鼠
标右键,在弹出菜单中点选Open→as Group
• 在数据表格界面点击菜单:Proc→Make Equation,
进入模型估计(Equation Estimation)对话框
4.7 用EViews7.2进行多元线性回归
步骤:
模型设定窗口Equation specification,默认OLS估
计方法
4.7 用EViews7.2进行多元线性回归
步骤:
输出结果
4.7 用EViews7.2进行多元线性回归
步骤:
在输出结果界面点击顶端按钮Resids,将输出残
差图
同样可以在结果界面点击菜单Forecast,保存
拟合值。
4.8 假设条件的放松
4.8.1 假设条件的放松(一)—非正态
分
布误差项
4.8.2 假设条件的放松(二)—异方差
4.8.3 假设条件的放松(三)—非随机
抽
样和序列相关
4.8.4 假设条件的放松(四)—内生性
4.8 假设条件的放松
4.8.1 假设条件的放松(一)—非正态
分
布误差项
• 去掉假设5不影响OLS估计的一致性、无偏性和渐
近正态性。
• 不能采用t-检验来进行参数的显著性检验,也不能
用F检验进行整体模型检验。
• 大样本情况下,t统计量往往服从标准正态分布
(在原假设下)。
4.8 假设条件的放松
4.8.2 假设条件的放松(二)—异方差
Var (ui | X1i ,, X ki )   2 ( X1i ,, X ki )
• 异方差检验原理
u 2   0   1 X1   2 X 2   3 X12   4 X 22   5 X1 X 2  v
uˆi2   0   1 X1i   2 X 2i   3 X12i   4 X 22i   5 X1i X 2i  vi
•
H0 :  1   2     5  0;
H1 :  1 ~  5 至少一个不为0
4.8 假设条件的放松
4.8.3 假设条件的放松(三)—非随机
抽
Cov(us , ut )  E(usut )  0, s  t
样和序列相关
• 序列相关不影响OLS估计的无偏性、一致性
和渐近正态性
• 标准误的计算要用HAC标准误
• 用EViews检验序列相关
4.8 假设条件的放松
4.8.4 假设条件的放松(四)—内生性
假设1’(外生性假设:exogenous
independent variable)
模型误差项和解释变量不相关0,即
Cov(u, X j )  0, j  1,2,, k
结论5’:如果假设1’和假设2满足,
(1)OLS估计 ˆ 是  的一致估计;
(2)当样本量 n 较大时,ˆ j 近似服从正态分布:
j
ˆj ~
j
(a)
N (  j ,  2ˆj )
4.8 假设条件的放松
4.8.4 假设条件的放松(四)—内生性
• 若假设1’都不能满足,则OLS失效,此时应当
采用工具变量估计方法、面板数据估计方法等
其他方法。
4.9 自变量共线性
• 当假设2和假设2’不满足时,存在多重共线
性(multicolinearity),模型无法估计。
• 方差膨胀因子
VIF( ˆ j ) 
1
, j  1,2, , k
2
1 R j
一般认为,当 VIF(ˆ )  10 时,Xj 与其他自变
量存在严重共线性,需进行处理。
j
4.9 自变量共线性
• 存在多重共线性时处理方法
(1)增加样本量。
(2)对变量实施变换。例如对取正值的变
量取自然对数,采用增长率数据而不是原
始数据等。
(3)多重共线性只对有共线关系的自变量
的回归系数OLS估计方差有影响,如果所关
注的自变量不存在严重多重共线性,则不
影响对问题的判断。
重要概念
1、多元线性回归模型的概念和理论大多与一元线性回归模型相同。
由于有多个自变量,为了模型参数可以被估计,除了对模型误
差项给出必要的假设之外,需要假设解释变量之间不存在完全
共线性。
2、在无共线性假设下,设误差项的外生性假设是最基本的假设,
在此假设下,OLS估计具有一致性和渐近正态性。如果同方差假
设和随机抽样假设同时成立,则OLS估计近似服从正态分布,参
数估计的标准误采用(4.18)计算,并采用结论8中的统计量对
参数进行t检验。如果误差项存在异方差,OLS估计近似服从正
态分布,但参数估计的标准误需要采用(4.26)给出的White方
法进行计算,用于回归系数假设检验的t-统计量计算做相应的
调整。如果误差项存在异方差和序列相关,则OLS估计近似服从
正态分布,但参数估计的标准误需要采用Newey-West给出HAC方
法进行计算,用于回归系数假设检验的t-统计量计算做相应的
调整。采用EViews软件进行操作时,在回归选项中根据误差项
假设选择合适的选项可得出稳健的检验结果。
如果外生性假设不满足,不能采用OLS方法估计模型。
重要概念
3. 多元线性回归的因变量总平方和,可以分解为回2
归平方和和残差平方和,由此可以定义拟合优 R
度
。
R2
2
R
会随自变量的增加而增加,以此为标准会
2
R
使模型包含过多的对因变量没有解释能力的自变量。
R2
对 分子分母中的量用各自的自由度调整得出调
整
。信息准则与调整 2
在自变量取舍上
R
具有相同功能。信息准则包括AIC、SC和HQ,使用
的原则是选择使信息准则达到最小的模型。 和
信息准则只能用于嵌套模型的比较。
4. 多元线性回归模型误差项是否有异方差可以通过
White方法进行检验。White方法的做法是对辅助回
uˆ 2
归模型进行检验,辅助回归以原回归模型的OLS回
归残差平方
为因变量以原模型自变量、自变
量平方和自变量的交叉相乘为解释变量的回归,以
回归的F检验结果决定是否存在异方差。
重要概念
5.多元线性回归模型误差项是否有序列相关可以
通过布罗施-葛德福瑞LM检验方法进行检验。
只需要在EViews结果输出界面逐级点击菜单即
可实现误差项的序列相关检验。
6. 与一元线性回归模型不同,多元线性回归模
型自变量之间的多重共线性会影响到回归系数
OLS估计的方差和标准误,从而影响到t-检验。
方差膨胀因子VIF用来衡量共线性的程度。当
存在严重共线性时,可以通过变量变换、增加
样本量减轻影响,但不能轻易将解释变量从模
型中去掉,导致参数OLS估计的不一致性,带
来更严重的后果。