第三章多元线性回归

Download Report

Transcript 第三章多元线性回归

第三章
多元线性回归模型
§ 3.1
多元线性回归模型
§ 3.2
多元线性回归模型的参数估计
§ 3.3
多元线性回归模型的统计检验
§ 3.4
多元线性回归模型的预测
§ 3.5
可线性化的多元非线性回归模型
§ 3.6
受约束回归
§3.1
多元线性回归模型
一、模型形式
二、基本假定
一、模型形式
Yi   0   1 X 1i   2 X 2 i  ...   k X ki   i
k
  0    j X ji   i
j 1

k

j 0
j
i  1, 2,
,n
X ji ( X 0 i  1)
注意:(1)解释变量X的个数:k
回归系数 j的个数:k+1
(2)j:偏回归系数,表示了Xj对Y的净影响
(3)X的第一个下标 j 区分变量(j=1,2,……,k)
第二个下标 i 区分观测(i=1,2,……n)

总体回归函数(PRF)
E(Yi | X 1i , X 2i , X ki )   0  1 X 1i   2 X 2i       k X ki

样本回归函数(SRF)
Yˆi  ˆ 0  ˆ1 X 1i  ˆ 2 X 2i    ˆ ki X ki

样本回归模型(SRM)
Yi  ˆ 0  ˆ1 X 1i  ˆ 2 X 2i    ˆ ki X ki  ei
其中:ei 称为残差 (residuals),可看成是随机误差项 i的近似替代。
总体回归模型的矩阵表示
1、总体回归模型表示了n个随机方程,引入如下矩阵记号:
1
1
X  


1
X 11
X 12

X 1n
X 21
X 22

X 2n
 0 
 
 1
β   2 
μ





  k 
( k  1 ) 1



 1 
 
 2
  
 
  n  n 1
X k1 
X k 2 
 

X kn  n  ( k  1 )
Y1 
Y 
 2
Y  Y3 






Yn 
 n1
2、于是,总体回归模型可以表示为:
Y  X β μ
样本回归模型和函数的矩阵表示
1、同理,采用如下矩阵记号:
ˆ 
Y
1


ˆ
Y2 
ˆ  Y
ˆ 
Y
 3




ˆ

Yn 
 n1
 ˆ 0

ˆ


1
ˆ 
β

 
 ˆ
 k
 e1

 e2
e


e
 n














2、于是,样本回归模型和函数可以表示为:
ˆ e
Y  Xβ
ˆ  Xβ
ˆ
Y
二、多元线性回归模型的基本假设
►假设1:解释变量是非随机的或固定的,且各X之间互不相关(无多重共线
性)。
►假设2:随机误差项具有零均值、同方差和无序列相关性:
E(i)=0
Var
(i)=2
i=1,2, …,N
Cov(i, j)=0
i≠j
1,2, …,N
►假设3:随机误差项与解释变量X之间不相关:
Cov(Xji, i)=0
i=1,2, …,N
►假设4:服从零均值、同方差、零协方差的正态分布
i,j=
基本假设的矩阵表示
假设1: n(k+1)矩阵X是非随机的,且X的秩=k+1,即X列满秩。
假设2:
  1 
 
E (μμ )  E    
  
 n 
 1
 var(  1 )





 cov(  ,  ) 
n
1

 12  1  n 





 
  n   E  
   2 

n 
 n 1

cov(  1 ,  n )    2
 

 
var(  n )   0
假设4: 向量 有一多维正态分布,即
μ~ N (0,  2 I )
0 

    2I
  2 


暗含假设
假设5:样本容量趋于无穷时,各解释变量的方差趋于有界常数,即
n∞时,
1
1
2
x

( X ji  X j ) 2  Q j


ji
n
n
或
1
xx  Q
n
其中:Q为一非奇异固定矩阵,矩阵x是由各解释变量的离差为
元素组成的nk阶矩阵
 x11

x   
x
 1n
假设6:回归模型是正确设定的



x k1 

 
x kn 

§3.2
多元线性回归模型的参数估计
一、普通最小二乘估计
二、参数估计量的性质
三、样本容量问题
参数估计的任务和方法
1、估计目标:回归系数βj、随机误差项方差б2
2、估计方法:OLS、ML或者MM
* OLS:普通最小二乘估计
*
*
ML:最大似然估计
MM:矩估计
一、普通最小二乘估计
•
基本思想:残差平方和最小
•
基于取得最小值的条件获得系数估计)
残差平方和:
n
n
Q   e   (Yi  Yˆi ) 2
i 1
2
i
i 1
n
  (Yi  ( ˆ 0  ˆ1 X 1i  ˆ 2 X 2i    ˆ k X ki ))
i 1
取得最小值的条件:
 
  ˆ
0

 
  ˆ
1

 
 ˆ
  2

 
  ˆ
k

Q  0
Q  0
Q  0

Q  0
2
正规方程组:

 ( ˆ 0  ˆ1 X 1i  ˆ 2 X 2 i    ˆ k X ki )  Yi
 ˆ
ˆ X  ˆ X    ˆ X ) X  Y X

(



0
1 1i
2
2i
k
ki
1i
i 1i

 ˆ
 (  0  ˆ1 X 1i  ˆ 2 i X 2 i    ˆ k X ki ) X 2 i  Yi X 2 i



  ( ˆ 0  ˆ1 X 1i  ˆ 2 X 2 i    ˆ k X ki ) X ki  Yi X ki
解此(k+1)个方程组成的正规方程组,即可求得(k+1)个未知参
数βj 的估计
。
最小二乘估计的矩阵表示
1、正规方程组的矩阵形式
 n

  X 1i
 

 X
ki

X
X

1i
2
1i


X
ki

X 1i

X
X X
 ˆ 0   1
  
ˆ
 X 11
1i
ki   1 
    

   
 X ki2  ˆ k   X k1
ki
ˆ  X Y
(X X) β
2、由于X’X满秩(其逆矩阵存在),故有
1
ˆ

β ( X X) X Y
1
X 12

X k2
1  Y1 
 
 X 1n  Y2 
    
 
 X kn  Yn 

#OLSE的矩阵估计过程
残差平方和的矩阵表示为:
Q   ei2  ee  (Y  X ˆ )(Y  X ˆ )

ˆ ) ( Y  Xβ
ˆ)0
( Y  Xβ
ˆ
 β

ˆ  X Y  Y Xβ
ˆ β
ˆ  X Xβ
ˆ)0
( Y Y  β
ˆ
β

ˆ β
ˆ  X Xβ
ˆ)  0
( Y Y  2 Y Xβ
ˆ
β
ˆ 0
 X Y  X Xβ
ˆ
XY  XXβ
ˆ  ( X X) 1 X Y
β
矩阵有关定理
(AB )  BA
  (  1 ,  2 ,  n ); A  (a1 , a2 , an )
 (  A)
A

 (  B )
 2 B ( B为n  n对 称 阵 )

#参数估计的实例
例3.2.1:在例2.1.1的家庭收入-消费支出例中,
 1
( X ' X )  
 X1
1
X2


1

1  1

X n  

1

X1 

X2   n

    X i

X n 
X
X
i
2
i
  10

  21500
 
21500
53650000
 0.0003 
 0.7226

( XX)  
  0.0003 1.35 E  07 
1
 1
X Y  
 X1
1
X2


 Y1 
 
1  Y2    Yi   15674 




X n      X i Yi   39468400 
 
Y 
 n
 ˆ1   0.7226
 0.0003  15674    103 .172 
ˆ

  

β    
ˆ
  2    0.0003 1.35 E  07  39648400   0.7770 



误差方差2的估计
1、基于OLS下,随机误差项  的方差的无偏估计量为
e
e
'
e

e
e

ˆ 2 

n  k  1 n  k  1 n  ( k  1)
2
i
注意:分母的形式:n-k-1 = n-(k+1)。
k:解释变量X的个数; k+1:回归系数的个数
2、 ˆ  ˆ 2
regression)
称为估计标准误或者回归标准误(S.E of
*最大似然估计*
(Maximum Likelihood Estimate)
1、基本原理:样本观测值出现的概率最大。
2、似然函数:
Yi ~ N ( X i β ,  2 )
ˆ ,  2 )  P (Y1 , Y2 ,  , Yn )
L (β


3、最大似然估计MLE:

1
n
2
( 2 ) 
n

1
n
2
( 2 ) 
e
n
e
1
2 2
1
2 2
 ( Yi  ( ˆ 0  ˆ1 X 1 i  ˆ 2 X 2 i  ˆ k X ki )) 2
ˆ )( Y  Xβ
ˆ)
( Y  Xβ
1
ˆ

β ( X X) X Y
参数的MLE与参数的OLSE相同
*矩估计*
(Moment Method,MM)
1、OLS估计是通过得到一个关于参数估计值的正规方程组
ˆ  X Y
(X X) β
并对它进行求解而完成的。
2、该正规方程组可以从另外一种思路来导出:
Y  Xβ μ
XY  XXβ Xμ
X(Y  Xβ )  Xμ
两侧求期望 :
E(X(Y  Xβ)  0
矩条件
*矩条件和矩估计量*
1、 E(X(Y  Xβ)  0 称为原总体回归方程的一组矩条件,表明了
原总体回归方程所具有的内在特征。
2、如果随机抽出原总体的一个样本,估计出的样本回归方程:
ˆ 能够近似代表总体回归方程的话,则应成立:
ˆ  X
Y
1
ˆ)0
X (Y  Xβ
n
ˆ  X' Y
3、由此得到正规方程组: X' Xβ
解此正规方程组即得参数的MM估计量。
MM估计量与OLS、ML估计量等价。
*关于矩估计*
矩方法是工具变量方法(Instrumental Variables,IV)和广义矩估计方
法(Generalized Moment Method, GMM)的基础
• 在矩方法中关键是利用了:E(X’)=0
• 如果某个解释变量与随机项相关,只要能找到1个工具变量,仍然
可以构成一组矩条件。这就是IV。
• 如果存在>k+1个变量与随机项不相关,可以构成一组包含>k+1
方程的矩条件。这就是GMM。
• OLS只是GMM的一个特例
二、最小二乘估计量的性质
高斯—马尔可夫定理(Gauss-Markov theorem):
在给定经典线性回归的假定下,最小二乘估计量是具有
最小方差的线性无偏估计量,即最佳线性无偏估计量
(BLUE)。
1、线性:
ˆ  ( X X) 1 X Y  CY
β
其中,C=(X’X)-1 X’ 为一仅与固定的X有关的行向量
2、无偏性:
ˆ )  E (( X X ) 1 X Y )
E (β
 E (( X X ) 1 X ( Xβ  μ ))
 β  ( X X ) 1 E ( X μ )
β
这里利用了假设: E(X’)=0
3、有效性:
其中利用了:
ˆ  ( X X ) 1 X Y
β
 ( X X ) 1 X ( Xβ μ)
 β ( X X ) 1 X μ
E (μμ )   2 I
参数估计量的概率分布
1、由参数估计量的上述性质和基本假设,易知:
ˆ  N (  ,  2 ( X X )1 )
• 线性性+基本假设
• 无偏性
为β
→
正态分布
→
期望
• 有效性的证明
→
方差表达
式
2、记 C=(X’X)-1 的第 j 个主对角元素为 Cjj(j=0,1,…,k),则:
ˆj  N (  j ,  2c jj )
三、样本容量问题
•最小样本容量
•满足基本要求的样本容量
1、最小样本容量

所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,
欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。

样本最小容量必须不少于模型中解释变量的数目(包括常数项),
即:n  k+1

因为,无多重共线性要求:秩(X)=k+1
2、基本样本容量
•
从统计检验的角度:
n30 时,Z检验才能应用;
n-k  8时, t分布较为稳定
•
一般经验认为:
当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。
•
模型的良好性质只有在大样本下才能得到理论上的证明
§3.3
多元线性回归模型的统计检验
一、拟合优度检验
二、方程显著性检验
三、变量显著性检验
一、拟合优度检验
• 目的:测定样本回归函数对样本观测值的拟合紧密程度
• 指标:R2、Adj(R2)
可决系数R2
(coefficient of determination)
1、定义:
R2 
ESS
RSS
 1
TSS
TSS
0<R2<1,该统计量越接近于1,模型的拟合优度越高。
2、问题:
•
在模型中增加一个解释变量, R2往往增大
•
但是:增加解释变量个数往往得不偿失,不重要的变量不应引入。
•增加解释变量使得估计参数增加,从而自由度减小。如果引入的变量对减
少残差平方和的作用很小,这将导致误差方差σ2的增大,引起模型精度的
降低。
•
因此:R2需调整。
调整的可决系数Adj(R2)
(adjusted coefficient of determination)
1、调整思路:将残差平方和与总离差平方和分别除以各自的自由度,以
剔除变量个数对拟合优度的影响。
2、自由度:统计量可自由变化的样本观测值的个数,记为df
TSS:df=n-1
注意:
ESS:df= k
RSS:df= n-k-1
3、定义:
R
2
df(TSS)=df(ESS)+df(RSS)
RSS /( n  k  1)
 1
TSS /( n  1)
# Adj(R2)的作用
1、消除拟合优度评价中解释变量的多少对拟合优度的影响
2、对于因变量Y相同,而自变量X个数不同的模型,不能用R2直接比较拟
合优度,而应使用Adj(R2) 。
3、可以通过Adj(R2)的增加变化,决定是否引入一个新的解释变量。
# Adj(R2)与R2的关系
R
2
n 1
 1  (1  R )
n  k 1
2
Adj(R2)<= R2,即:调整可决系数不大于未经调整的可决系数。随着解
释变量的增加,二者的差异越来越大。
*赤池信息准则和施瓦茨准则*
(AIC&SC)

用于比较因变量相同,解释变量个数不同的多元回归模型的拟合优度
※ 赤池信息准则(Akaike information criterion, AIC)
e e 2( k  1)
AIC  ln

n
n
※ 施瓦茨准则(Schwarz criterion,SC)
e e k
AC  ln
 ln n
n n
• 这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模
型中增加该解释变量。
二、方程的显著性检验(F检验)
•目的:检验Y与所有X的线性关系在总体上是否成立
•方法:F检验
1、原假设和备择假设
• 检验模型中的参数j是否至少有一个显著不为0。
Yi=0+1X1i+2X2i+  +kXki+i
• 原假设与备择假设:
H0: 0=1=2=  =k=0
H1: j不全为0
i=1,2,,n
2、检验统计量
ESS / k
F 
RSS /( n  k  1)
可以证明,在原假设H0成立的条件下:
F~ F (k , n-k-1)
其中:k为模型中解释变量个数
3、检验步骤
(1)提出原假设和备择假设:
H0: 0=1=2=  =k=0
H1: j不全为0
(2)在H0成立的条件下,计算检验统计量的值:
ESS / k
F 
RSS /( n  k  1)
(3)给定显著性水平,可得到临界值:F(k,n-k-1)
•
•
右侧检验
(4)如果 F F(k,n-k-1),拒绝原假设,总体线性关系成立
如果 F F(k,n-k-1),接受原假设,总体线性关系不成立
# 拟合优度和方程显著性检验
RSS /( n  k  1)
R  1
TSS /( n  1)
2
R
2
n 1
 1
n  k  1  kF
F 
ESS / k
RSS /( n  k  1)
R2 /k
F 
(1  R 2 ) /(n  k  1)
示例:
•在中国居民人均收入-消费一元模型中,
•在中国居民人均收入-消费二元模型中,
•可见:一个显著的模型并不意味着拟合优度一定很高
• 注意到F检验是一个严格的统计检验,因此实际中要多参考这一检验
的结果。
三、变量的显著性检验(t检验)
•目的:检验Y与某个Xj的线性关系在总体上是否成立或者
说Xj对Y是否存在显著影响
•方法: t检验
1、原假设和备择假设
• 检验模型中Xj对应的系数j是否显著不为0。
Yi=0+1X1i+2X2i+  +jXji + +kXki+i
• 原假设与备择假设:
H0: j=0
H1: j≠0
2、检验统计量
•参数估计量的概率分布:
ˆ j
N (  j , 2c jj ), j  0,1, 2, , k
• 2为随机误差项的方差,在实际计算时,用它的估计量代替:
e
e e
ˆ 

n  k 1 n  k 1
2
2
i
ˆ j   j
t

•可构造t统计量:
Sˆ
j
ˆ j   j
c jj
ee
n k 1
t (n  k  1)
3、检验步骤:
(1)建立原假设和备择假设: H0:βj=0
H1:βj≠0
(2)在原假设成立的条件下计算t统计量的值
t
ˆ j
Sˆ
j
(3)给定显著性水平,可得到临界值t/2(n-k-1)
双侧检验
(4)如果|t| t/2(n-k-1),拒绝原假设,Xj对Y存在显著影响
如果|t| t/2(n-k-1),接受原假设,Xj对Y不存在显著影响
对t检验的说明
1、在一元线性回归模型中,变量的显著性t检验与方程的F检验是一致的
• 一方面,二者检验的假设一致:β1=0
• 另一方面,从检验统计量来看:F=t2
2、在多元线性回归模型中,二者的作用不同,并不等价
3、在多元回归模型中,对各个变量的进行t检验时,显著性水平应该一致
4、t检验未通过,说明在给定的显著性水平下,变量对Y没有显著性影响,
但不要简单的剔除变量,关键仍然是考察变量在经济关系上是否对因变
量有影响以及变量在模型及应用中的作用,显著性检验起到验证的作用
三、参数的置信区间
j (j=0,1,2,……,k)的置信区间
t 
• 在变量的显著性检验中已经知道:
ˆ j   j
sˆ
~ t ( n  k  1)
j
• 给定置信度(1-),对于临界值t/2 (n-2),t值处在(-t/2, t/2)的概
率是1-。表示为:
P( t   t  t  )  1  
2
P ( t  
ˆ j   j
sˆ
2
2
 t )  1  
2
j
P ( ˆ j  t   sˆ   j  ˆ j  t   sˆ )  1  
j
2
j
2
• 于是得到:(1-)的置信度下, j 的置信区间是
( ˆ j  t   sˆ , ˆ j  t   sˆ )
2
j
2
j
§3.4
多元线性回归分析的预测
一、均值E(Y0)的置信区间
二、个值Y0的置信区间
预测的理解
1、预测类型:
点
预
测
2、对于模型
实际个值Y0的点预测
实际个值 Y0的区间预测
条件均值E(Y0)的点预测
条件均值E(Y0)的区间预测
区
间
预
测
ˆ  Xβ
ˆ ,给定样本以外的解释变量的观测值:
Y
X0=(1,X10,X20,…,Xk0),可以得到被解释变量的预测值: Yˆ0
3、它可以是总体均值E(Y0)或个值Y0的点预测。
4、为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信
区间。
1、总体均值E(Y0|X=X0)的置信区间
ˆ )  X 0 E (β
ˆ )  X 0β E (Y0 )
E (Yˆ0 )  E ( X 0β
ˆ  X 0β) 2  E ( X 0 (β
ˆ  β)X 0 (β
ˆ  β))
Var (Yˆ0 )  E ( X 0β
ˆ  β)( β
ˆ  β)X0 )
Var (Yˆ0 )  E ( X 0 (β
ˆ  β)( β
ˆ  β)X0
 X 0 E (β
  2 X 0 ( XX) 1 X 0
容易证明
Yˆ0 ~ N ( X 0β,  2 X 0 (XX) 1 X0 )
Yˆ0  E(Y0 )
ˆ X 0 (X X) 1 X 0
~ t ( n  k  1)
于是,得到(1-)的置信水平下E(Y0)的置信区间:
Yˆ0  t   ˆ X 0 ( X X) 1 X 0  E (Y0 )  Yˆ0  t   ˆ X 0 ( X X) 1 X 0
2
其中,t/2为(1-)的置信水平下的临界值。
2
2、总体个值Y0的置信区间
如果已经知道X=X0处的实际个值Y0,那么预测误差为:
e0  Y0  Yˆ0
容易证明
ˆ)
E ( e 0 )  E ( X 0β  0  X 0β
ˆ  β))
 E (  0  X 0 (β
 E (  0  X 0 ( X X ) 1 X μ)
 0
Var (e0 )  E (e02 )
 E (  0  X 0 ( X X ) 1 X μ) 2
  2 (1  X 0 ( X X ) 1 X 0 )
e0服从正态分布,即:
e0 ~ N (0,  2 (1  X 0 ( XX) 1 X0 ))
ˆ e2  ˆ 2 (1  X 0 ( XX) 1 X0 ))
0
构造t统计量:
Yˆ0  Y0
t 
~ t ( n  k  1)
ˆ e0
可得给定(1-)的置信水平下Y0的置信区间:
Yˆ0  t   ˆ 1  X 0 ( XX) 1 X0  Y0  Yˆ0  t   ˆ 1  X 0 ( XX) 1 X 0
2
2
置信区间宽度:个值>均值
y
yˆ  ˆ 0  ˆ1 x
x
x0
x
#回归分析的预测实例:
中国居民人均收入-消费支出二元模型例中:2001年人均GDP:4033.1元
于是人均居民消费的预测值为
Ŷ2001=120.7+0.2213×4033.1+0.4515×1690.8=1776.8(元)
实测值(90年价)=1782.2元,相对误差:-0.31%
预测的置信区间 :
E(Ŷ2001)的95%的置信区间为:
(1741.8,1811.7)
Ŷ2001的95%的置信区间为:
(1711.1, 1842.4)
§3.5
可线性化的多元非线性回归模型
• 线性模型的本质含义
• 解释变量的非线性——变量代换法
• 回归参数的非线性——函数变换法
实际中的非线性模型
1、恩格尔曲线(Engle curves):消费者的收入与某类商品需求量之间的函数
关系。——幂函数
2、菲利普斯曲线(Pillips cuves):通货膨胀率(货币工资率)与失业率
之间的关系。——双曲线函数
线性模型的本质含义
1、被解释变量Y与解释变量X之间为线性关系
Y
 2Y
 b,
0
2
X
X
2、被解释变量Y与参数β之间为线性关系
Y
 2Y
 c, 2  0


3、更重要的在于后者
1、解释变量的非线性问题——变量代换
• 适用于倒数模型、多项式模型等
例如:拉弗曲线:描述税收与税率关系
S = a + b R + cR2
令:X1 = r,X2 = r2,
c<0
(抛物线)
则原方程变换为:
S = a + b X 1 + c X2
c<0
2、回归参数的非线性问题——函数变换
• 适用于幂函数、指数函数模型等
例如:Cobb-Dauglas生产函数:
Q = AKL(幂函数)
方程两边取对数:
ln Q = ln A +  ln K +  ln L
令:Q*=lnQ,β0=lnA,K*=lnK,L*=lnL
则:
Q*= β0+  K*+  L*
3、复杂函数模型——级数展开
例如:常替代弹性CES生产函数
Q  A( 1 K


 1
  2 L ) e
(1+2=1)
方程两边取对数后,得到:
LnQ  LnA  1 Ln( 1 K     2 L  )  
将式中ln(1K- + 2L-)在=0处展开台劳级数,取关于的线性项,
即得到一个线性近似式。
如取0阶、1阶、2阶项,可得
  K 
1
ln Y  ln A   1 m ln K   2 m ln L   m 1 2  ln  
2
  L 
2