第三章多元线性回归

Transcript 第三章多元线性回归

第三章
多元线性回归模型
§ 3.1
多元线性回归模型
§ 3.2
多元线性回归模型的参数估计
§ 3.3
多元线性回归模型的统计检验
§ 3.4
多元线性回归模型的预测
§ 3.5
可线性化的多元非线性回归模型
§ 3.6
受约束回归
§3.1
多元线性回归模型
一、模型形式
二、基本假定
一、模型形式
Yi   0   1 X 1i   2 X 2 i  ...   k X ki   i
k
  0    j X ji   i
j 1

k

j 0
j
i  1, 2,
,n
X ji ( X 0 i  1)
注意：（1）解释变量X的个数：k
回归系数 j的个数：k＋1
（2）j：偏回归系数，表示了Xj对Y的净影响
（3）X的第一个下标 j 区分变量（j＝1，2，……，k）
第二个下标 i 区分观测（i＝1，2，……n）

总体回归函数（PRF）
E(Yi | X 1i , X 2i , X ki )   0  1 X 1i   2 X 2i       k X ki

样本回归函数（SRF）
Yˆi  ˆ 0  ˆ1 X 1i  ˆ 2 X 2i    ˆ ki X ki

样本回归模型（SRM）
Yi  ˆ 0  ˆ1 X 1i  ˆ 2 X 2i    ˆ ki X ki  ei
其中：ei 称为残差 (residuals)，可看成是随机误差项 i的近似替代。
总体回归模型的矩阵表示
1、总体回归模型表示了n个随机方程，引入如下矩阵记号：
1
1
X  


1
X 11
X 12

X 1n
X 21
X 22

X 2n
 0 
 
 1
β   2 
μ





  k 
( k  1 ) 1



 1 
 
 2
  
 
  n  n 1
X k1 
X k 2 
 

X kn  n  ( k  1 )
Y1 
Y 
 2
Y  Y3 






Yn 
 n1
2、于是，总体回归模型可以表示为：
Y  X β μ
样本回归模型和函数的矩阵表示
1、同理，采用如下矩阵记号：
ˆ 
Y
1


ˆ
Y2 
ˆ  Y
ˆ 
Y
 3




ˆ

Yn 
 n1
 ˆ 0

ˆ


1
ˆ 
β

 
 ˆ
 k
 e1

 e2
e


e
 n














2、于是，样本回归模型和函数可以表示为：
ˆ e
Y  Xβ
ˆ  Xβ
ˆ
Y
二、多元线性回归模型的基本假设
►假设1：解释变量是非随机的或固定的，且各X之间互不相关（无多重共线
性）。
►假设2：随机误差项具有零均值、同方差和无序列相关性：
E(i)=0
Var
(i)=2
i=1,2, …,N
Cov(i, j)=0
i≠j
1,2, …,N
►假设3：随机误差项与解释变量X之间不相关：
Cov(Xji, i)=0
i=1,2, …,N
►假设4：服从零均值、同方差、零协方差的正态分布
i,j=
基本假设的矩阵表示
假设1: n(k+1)矩阵X是非随机的，且X的秩=k+1，即X列满秩。
假设2:
  1 
 
E (μμ )  E    
  
 n 
 1
 var(  1 )





 cov(  ,  ) 
n
1

 12  1  n 





 
  n   E  
   2 

n 
 n 1

cov(  1 ,  n )    2
 

 
var(  n )   0
假设4: 向量 有一多维正态分布，即
μ~ N (0,  2 I )
0 

    2I
  2 


暗含假设
假设5：样本容量趋于无穷时，各解释变量的方差趋于有界常数，即
n∞时，
1
1
2
x

( X ji  X j ) 2  Q j


ji
n
n
或
1
xx  Q
n
其中：Q为一非奇异固定矩阵，矩阵x是由各解释变量的离差为
元素组成的nk阶矩阵
 x11

x   
x
 1n
假设6：回归模型是正确设定的



x k1 

 
x kn 

§3.2
多元线性回归模型的参数估计
一、普通最小二乘估计
二、参数估计量的性质
三、样本容量问题
参数估计的任务和方法
1、估计目标：回归系数βj、随机误差项方差б2
2、估计方法：OLS、ML或者MM
* OLS：普通最小二乘估计
*
*
ML：最大似然估计
MM：矩估计
一、普通最小二乘估计
•
基本思想：残差平方和最小
•
基于取得最小值的条件获得系数估计）
残差平方和：
n
n
Q   e   (Yi  Yˆi ) 2
i 1
2
i
i 1
n
  (Yi  ( ˆ 0  ˆ1 X 1i  ˆ 2 X 2i    ˆ k X ki ))
i 1
取得最小值的条件：
 
  ˆ
0

 
  ˆ
1

 
 ˆ
  2

 
  ˆ
k

Q  0
Q  0
Q  0

Q  0
2
正规方程组：

 ( ˆ 0  ˆ1 X 1i  ˆ 2 X 2 i    ˆ k X ki )  Yi
 ˆ
ˆ X  ˆ X    ˆ X ) X  Y X

(



0
1 1i
2
2i
k
ki
1i
i 1i

 ˆ
 (  0  ˆ1 X 1i  ˆ 2 i X 2 i    ˆ k X ki ) X 2 i  Yi X 2 i



  ( ˆ 0  ˆ1 X 1i  ˆ 2 X 2 i    ˆ k X ki ) X ki  Yi X ki
解此（k＋1）个方程组成的正规方程组，即可求得（k+1)个未知参
数βj 的估计
。
最小二乘估计的矩阵表示
1、正规方程组的矩阵形式
 n

  X 1i
 

 X
ki

X
X

1i
2
1i


X
ki

X 1i

X
X X
 ˆ 0   1
  
ˆ
 X 11
1i
ki   1 
    

   
 X ki2  ˆ k   X k1
ki
ˆ  X Y
(X X) β
2、由于X’X满秩(其逆矩阵存在），故有
1
ˆ

β ( X X) X Y
1
X 12

X k2
1  Y1 
 
 X 1n  Y2 
    
 
 X kn  Yn 

＃OLSE的矩阵估计过程
残差平方和的矩阵表示为：
Q   ei2  ee  (Y  X ˆ )(Y  X ˆ )

ˆ ) ( Y  Xβ
ˆ)0
( Y  Xβ
ˆ
 β

ˆ  X Y  Y Xβ
ˆ β
ˆ  X Xβ
ˆ)0
( Y Y  β
ˆ
β

ˆ β
ˆ  X Xβ
ˆ)  0
( Y Y  2 Y Xβ
ˆ
β
ˆ 0
 X Y  X Xβ
ˆ
XY  XXβ
ˆ  ( X X) 1 X Y
β
矩阵有关定理
（AB )  BA
  (  1 ,  2 ,  n ); A  (a1 , a2 , an )
 (  A)
A

 (  B )
 2 B ( B为n  n对称阵）

#参数估计的实例
例3.2.1：在例2.1.1的家庭收入-消费支出例中，
 1
( X ' X )  
 X1
1
X2


1

1  1

X n  

1

X1 

X2   n

    X i

X n 
X
X
i
2
i
  10

  21500
 
21500
53650000
 0.0003 
 0.7226

( XX)  
  0.0003 1.35 E  07 
1
 1
X Y  
 X1
1
X2


 Y1 
 
1  Y2    Yi   15674 




X n      X i Yi   39468400 
 
Y 
 n
 ˆ1   0.7226
 0.0003  15674    103 .172 
ˆ

  

β    
ˆ
  2    0.0003 1.35 E  07  39648400   0.7770 



误差方差2的估计
1、基于OLS下，随机误差项  的方差的无偏估计量为
e
e
'
e

e
e

ˆ 2 

n  k  1 n  k  1 n  ( k  1)
2
i
注意：分母的形式：n-k-1 = n-(k+1)。
k：解释变量X的个数； k+1：回归系数的个数
2、 ˆ  ˆ 2
regression）
称为估计标准误或者回归标准误（S.E of
*最大似然估计*
（Maximum Likelihood Estimate）
1、基本原理：样本观测值出现的概率最大。
2、似然函数：
Yi ~ N ( X i β ,  2 )
ˆ ,  2 )  P (Y1 , Y2 ,  , Yn )
L (β


3、最大似然估计MLE：

1
n
2
( 2 ) 
n

1
n
2
( 2 ) 
e
n
e
1
2 2
1
2 2
 ( Yi  ( ˆ 0  ˆ1 X 1 i  ˆ 2 X 2 i  ˆ k X ki )) 2
ˆ )( Y  Xβ
ˆ)
( Y  Xβ
1
ˆ

β ( X X) X Y
参数的MLE与参数的OLSE相同
*矩估计*
（Moment Method，MM）
1、OLS估计是通过得到一个关于参数估计值的正规方程组
ˆ  X Y
(X X) β
并对它进行求解而完成的。
2、该正规方程组可以从另外一种思路来导出:
Y  Xβ μ
XY  XXβ Xμ
X(Y  Xβ )  Xμ
两侧求期望 :
E(X(Y  Xβ)  0
矩条件
*矩条件和矩估计量*
1、 E(X(Y  Xβ)  0 称为原总体回归方程的一组矩条件，表明了
原总体回归方程所具有的内在特征。
2、如果随机抽出原总体的一个样本，估计出的样本回归方程：
ˆ 能够近似代表总体回归方程的话，则应成立：
ˆ  X
Y
1
ˆ)0
X (Y  Xβ
n
ˆ  X' Y
3、由此得到正规方程组： X' Xβ
解此正规方程组即得参数的MM估计量。
MM估计量与OLS、ML估计量等价。
*关于矩估计*
矩方法是工具变量方法(Instrumental Variables,IV)和广义矩估计方
法(Generalized Moment Method, GMM)的基础
• 在矩方法中关键是利用了：E(X’)=0
• 如果某个解释变量与随机项相关，只要能找到1个工具变量，仍然
可以构成一组矩条件。这就是IV。
• 如果存在＞k+1个变量与随机项不相关，可以构成一组包含＞k+1
方程的矩条件。这就是GMM。
• OLS只是GMM的一个特例
二、最小二乘估计量的性质
高斯—马尔可夫定理(Gauss-Markov theorem):
在给定经典线性回归的假定下，最小二乘估计量是具有
最小方差的线性无偏估计量，即最佳线性无偏估计量
（BLUE）。
1、线性：
ˆ  ( X X) 1 X Y  CY
β
其中,C=(X’X)-1 X’ 为一仅与固定的X有关的行向量
2、无偏性:
ˆ )  E (( X X ) 1 X Y )
E (β
 E (( X X ) 1 X ( Xβ  μ ))
 β  ( X X ) 1 E ( X μ )
β
这里利用了假设: E(X’)=0
3、有效性:
其中利用了:
ˆ  ( X X ) 1 X Y
β
 ( X X ) 1 X ( Xβ μ)
 β ( X X ) 1 X μ
E (μμ )   2 I
参数估计量的概率分布
1、由参数估计量的上述性质和基本假设，易知：
ˆ  N (  ,  2 ( X X )1 )
• 线性性＋基本假设
• 无偏性
为β
→
正态分布
→
期望
• 有效性的证明
→
方差表达
式
2、记 C=(X’X)-1 的第 j 个主对角元素为 Cjj（j=0,1,…,k)，则：
ˆj  N (  j ,  2c jj )
三、样本容量问题
•最小样本容量
•满足基本要求的样本容量
1、最小样本容量

所谓“最小样本容量”，即从最小二乘原理和最大或然原理出发，
欲得到参数估计量，不管其质量如何，所要求的样本容量的下限。

样本最小容量必须不少于模型中解释变量的数目（包括常数项）,
即：n  k+1

因为，无多重共线性要求：秩(X)=k+1
2、基本样本容量
•
从统计检验的角度：
n30 时，Z检验才能应用；
n-k  8时, t分布较为稳定
•
一般经验认为:
当n30或者至少n3(k+1)时，才能说满足模型估计的基本要求。
•
模型的良好性质只有在大样本下才能得到理论上的证明
§3.3
多元线性回归模型的统计检验
一、拟合优度检验
二、方程显著性检验
三、变量显著性检验
一、拟合优度检验
• 目的：测定样本回归函数对样本观测值的拟合紧密程度
• 指标：R2、Adj(R2)
可决系数R2
(coefficient of determination)
1、定义：
R2 
ESS
RSS
 1
TSS
TSS
0<R2<1，该统计量越接近于1，模型的拟合优度越高。
2、问题：
•
在模型中增加一个解释变量， R2往往增大
•
但是：增加解释变量个数往往得不偿失，不重要的变量不应引入。
•增加解释变量使得估计参数增加，从而自由度减小。如果引入的变量对减
少残差平方和的作用很小，这将导致误差方差σ2的增大，引起模型精度的
降低。
•
因此：R2需调整。
调整的可决系数Adj(R2)
（adjusted coefficient of determination）
1、调整思路:将残差平方和与总离差平方和分别除以各自的自由度，以
剔除变量个数对拟合优度的影响。
2、自由度：统计量可自由变化的样本观测值的个数，记为df
TSS：df＝n－1
注意：
ESS：df＝ k
RSS：df＝ n－k－1
3、定义：
R
2
df（TSS)=df(ESS)+df(RSS)
RSS /( n  k  1)
 1
TSS /( n  1)
# Adj(R2)的作用
1、消除拟合优度评价中解释变量的多少对拟合优度的影响
2、对于因变量Y相同，而自变量X个数不同的模型，不能用R2直接比较拟
合优度，而应使用Adj（R2）。
3、可以通过Adj（R2）的增加变化，决定是否引入一个新的解释变量。
# Adj(R2)与R2的关系
R
2
n 1
 1  (1  R )
n  k 1
2
Adj（R2）<= R2，即：调整可决系数不大于未经调整的可决系数。随着解
释变量的增加，二者的差异越来越大。
*赤池信息准则和施瓦茨准则*
(AIC&SC)

用于比较因变量相同，解释变量个数不同的多元回归模型的拟合优度
※ 赤池信息准则（Akaike information criterion, AIC）
e e 2( k  1)
AIC  ln

n
n
※ 施瓦茨准则（Schwarz criterion，SC）
e e k
AC  ln
 ln n
n n
• 这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模
型中增加该解释变量。
二、方程的显著性检验（F检验）
•目的：检验Y与所有X的线性关系在总体上是否成立
•方法：F检验
1、原假设和备择假设
• 检验模型中的参数j是否至少有一个显著不为0。
Yi=0+1X1i+2X2i+  +kXki+i
• 原假设与备择假设：
H0： 0=1=2=  =k=0
H1： j不全为0
i=1,2,,n
2、检验统计量
ESS / k
F 
RSS /( n  k  1)
可以证明，在原假设H0成立的条件下：
F～ F (k , n-k-1)
其中：k为模型中解释变量个数
3、检验步骤
（1）提出原假设和备择假设：
H0： 0=1=2=  =k=0
H1： j不全为0
（2）在H0成立的条件下，计算检验统计量的值：
ESS / k
F 
RSS /( n  k  1)
（3）给定显著性水平，可得到临界值：F(k,n-k-1)
•
•
右侧检验
（4）如果 F F(k,n-k-1)，拒绝原假设，总体线性关系成立
如果 F F(k,n-k-1)，接受原假设，总体线性关系不成立
＃拟合优度和方程显著性检验
RSS /( n  k  1)
R  1
TSS /( n  1)
2
R
2
n 1
 1
n  k  1  kF
F 
ESS / k
RSS /( n  k  1)
R2 /k
F 
(1  R 2 ) /(n  k  1)
示例：
•在中国居民人均收入-消费一元模型中，
•在中国居民人均收入-消费二元模型中，
•可见：一个显著的模型并不意味着拟合优度一定很高
• 注意到F检验是一个严格的统计检验，因此实际中要多参考这一检验
的结果。
三、变量的显著性检验（t检验）
•目的：检验Y与某个Xj的线性关系在总体上是否成立或者
说Xj对Y是否存在显著影响
•方法： t检验
1、原假设和备择假设
• 检验模型中Xj对应的系数j是否显著不为0。
Yi=0+1X1i+2X2i+  +jXji ＋ +kXki+i
• 原假设与备择假设：
H0： j=0
H1： j≠0
2、检验统计量
•参数估计量的概率分布：
ˆ j
N (  j , 2c jj ), j  0,1, 2, , k
• 2为随机误差项的方差，在实际计算时，用它的估计量代替:
e
e e
ˆ 

n  k 1 n  k 1
2
2
i
ˆ j   j
t

•可构造t统计量:
Sˆ
j
ˆ j   j
c jj
ee
n k 1
t (n  k  1)
3、检验步骤：
（1）建立原假设和备择假设： H0：βj＝0
H1：βj≠0
（2）在原假设成立的条件下计算t统计量的值
t
ˆ j
Sˆ
j
（3）给定显著性水平，可得到临界值t/2(n-k-1)
双侧检验
（4）如果|t| t/2(n-k-1)，拒绝原假设，Xj对Y存在显著影响
如果|t| t/2(n-k-1)，接受原假设，Xj对Y不存在显著影响
对t检验的说明
1、在一元线性回归模型中，变量的显著性t检验与方程的F检验是一致的
• 一方面，二者检验的假设一致：β1＝0
• 另一方面，从检验统计量来看：F＝t2
2、在多元线性回归模型中，二者的作用不同，并不等价
3、在多元回归模型中，对各个变量的进行t检验时，显著性水平应该一致
4、t检验未通过，说明在给定的显著性水平下，变量对Y没有显著性影响，
但不要简单的剔除变量，关键仍然是考察变量在经济关系上是否对因变
量有影响以及变量在模型及应用中的作用，显著性检验起到验证的作用
三、参数的置信区间
j (j=0,1,2,……,k）的置信区间
t 
• 在变量的显著性检验中已经知道：
ˆ j   j
sˆ
~ t ( n  k  1)
j
• 给定置信度（1-），对于临界值t/2 (n-2)，t值处在(-t/2, t/2)的概
率是1-。表示为：
P( t   t  t  )  1  
2
P ( t  
ˆ j   j
sˆ
2
2
 t )  1  
2
j
P ( ˆ j  t   sˆ   j  ˆ j  t   sˆ )  1  
j
2
j
2
• 于是得到:(1-)的置信度下, j 的置信区间是
( ˆ j  t   sˆ , ˆ j  t   sˆ )
2
j
2
j
§3.4
多元线性回归分析的预测
一、均值E(Y0)的置信区间
二、个值Y0的置信区间
预测的理解
1、预测类型：
点
预
测
2、对于模型
实际个值Y0的点预测
实际个值 Y0的区间预测
条件均值E(Y0)的点预测
条件均值E(Y0)的区间预测
区
间
预
测
ˆ  Xβ
ˆ ，给定样本以外的解释变量的观测值：
Y
X0=(1,X10,X20,…,Xk0)，可以得到被解释变量的预测值： Yˆ0
3、它可以是总体均值E(Y0)或个值Y0的点预测。
4、为了进行科学预测，还需求出预测值的置信区间，包括E(Y0)和Y0的置信
区间。
1、总体均值E(Y0|X=X0)的置信区间
ˆ )  X 0 E (β
ˆ )  X 0β E (Y0 )
E (Yˆ0 )  E ( X 0β
ˆ  X 0β) 2  E ( X 0 (β
ˆ  β)X 0 (β
ˆ  β))
Var (Yˆ0 )  E ( X 0β
ˆ  β)( β
ˆ  β)X0 )
Var (Yˆ0 )  E ( X 0 (β
ˆ  β)( β
ˆ  β)X0
 X 0 E (β
  2 X 0 ( XX) 1 X 0
容易证明
Yˆ0 ~ N ( X 0β,  2 X 0 (XX) 1 X0 )
Yˆ0  E(Y0 )
ˆ X 0 (X X) 1 X 0
~ t ( n  k  1)
于是，得到(1-)的置信水平下E(Y0)的置信区间：
Yˆ0  t   ˆ X 0 ( X X) 1 X 0  E (Y0 )  Yˆ0  t   ˆ X 0 ( X X) 1 X 0
2
其中，t/2为(1-)的置信水平下的临界值。
2
2、总体个值Y0的置信区间
如果已经知道X=X0处的实际个值Y0，那么预测误差为：
e0  Y0  Yˆ0
容易证明
ˆ)
E ( e 0 )  E ( X 0β  0  X 0β
ˆ  β))
 E (  0  X 0 (β
 E (  0  X 0 ( X X ) 1 X μ)
 0
Var (e0 )  E (e02 )
 E (  0  X 0 ( X X ) 1 X μ) 2
  2 (1  X 0 ( X X ) 1 X 0 )
e0服从正态分布，即:
e0 ~ N (0,  2 (1  X 0 ( XX) 1 X0 ))
ˆ e2  ˆ 2 (1  X 0 ( XX) 1 X0 ))
0
构造t统计量:
Yˆ0  Y0
t 
~ t ( n  k  1)
ˆ e0
可得给定(1-)的置信水平下Y0的置信区间：
Yˆ0  t   ˆ 1  X 0 ( XX) 1 X0  Y0  Yˆ0  t   ˆ 1  X 0 ( XX) 1 X 0
2
2
置信区间宽度：个值>均值
y
yˆ  ˆ 0  ˆ1 x
x
x0
x
＃回归分析的预测实例：
中国居民人均收入-消费支出二元模型例中：2001年人均GDP：4033.1元
于是人均居民消费的预测值为
Ŷ2001=120.7+0.2213×4033.1+0.4515×1690.8=1776.8（元）
实测值（90年价）=1782.2元，相对误差：-0.31%
预测的置信区间：
E(Ŷ2001）的95%的置信区间为:
（1741.8，1811.7）
Ŷ2001的95%的置信区间为:
（1711.1, 1842.4）
§3.5
可线性化的多元非线性回归模型
• 线性模型的本质含义
• 解释变量的非线性——变量代换法
• 回归参数的非线性——函数变换法
实际中的非线性模型
1、恩格尔曲线(Engle curves)：消费者的收入与某类商品需求量之间的函数
关系。——幂函数
2、菲利普斯曲线（Pillips cuves）：通货膨胀率（货币工资率）与失业率
之间的关系。——双曲线函数
线性模型的本质含义
1、被解释变量Y与解释变量X之间为线性关系
Y
 2Y
 b,
0
2
X
X
2、被解释变量Y与参数β之间为线性关系
Y
 2Y
 c, 2  0


3、更重要的在于后者
1、解释变量的非线性问题——变量代换
• 适用于倒数模型、多项式模型等
例如：拉弗曲线：描述税收与税率关系
S = a + b R + cR2
令：X1 = r，X2 = r2，
c<0
（抛物线）
则原方程变换为：
S = a + b X 1 + c X2
c<0
2、回归参数的非线性问题——函数变换
• 适用于幂函数、指数函数模型等
例如：Cobb-Dauglas生产函数：
Q = AKL（幂函数）
方程两边取对数：
ln Q = ln A +  ln K +  ln L
令：Q*=lnQ，β0＝lnA，K*=lnK，L*=lnL
则：
Q*= β0＋  K*＋  L*
3、复杂函数模型——级数展开
例如：常替代弹性CES生产函数
Q  A( 1 K


 1
  2 L ) e
(1+2=1)
方程两边取对数后，得到：
LnQ  LnA  1 Ln( 1 K     2 L  )  
将式中ln(1K- + 2L-)在=0处展开台劳级数,取关于的线性项，
即得到一个线性近似式。
如取0阶、1阶、2阶项，可得
  K 
1
ln Y  ln A   1 m ln K   2 m ln L   m 1 2  ln  
2
  L 
2

第三章多元线性回归

Transcript 第三章多元线性回归

Directory