Transcript 第三章多元线性回归
第三章
多元线性回归模型
§ 3.1
多元线性回归模型
§ 3.2
多元线性回归模型的参数估计
§ 3.3
多元线性回归模型的统计检验
§ 3.4
多元线性回归模型的预测
§ 3.5
可线性化的多元非线性回归模型
§ 3.6
受约束回归
§3.1
多元线性回归模型
一、模型形式
二、基本假定
一、模型形式
Yi 0 1 X 1i 2 X 2 i ... k X ki i
k
0 j X ji i
j 1
k
j 0
j
i 1, 2,
,n
X ji ( X 0 i 1)
注意:(1)解释变量X的个数:k
回归系数 j的个数:k+1
(2)j:偏回归系数,表示了Xj对Y的净影响
(3)X的第一个下标 j 区分变量(j=1,2,……,k)
第二个下标 i 区分观测(i=1,2,……n)
总体回归函数(PRF)
E(Yi | X 1i , X 2i , X ki ) 0 1 X 1i 2 X 2i k X ki
样本回归函数(SRF)
Yˆi ˆ 0 ˆ1 X 1i ˆ 2 X 2i ˆ ki X ki
样本回归模型(SRM)
Yi ˆ 0 ˆ1 X 1i ˆ 2 X 2i ˆ ki X ki ei
其中:ei 称为残差 (residuals),可看成是随机误差项 i的近似替代。
总体回归模型的矩阵表示
1、总体回归模型表示了n个随机方程,引入如下矩阵记号:
1
1
X
1
X 11
X 12
X 1n
X 21
X 22
X 2n
0
1
β 2
μ
k
( k 1 ) 1
1
2
n n 1
X k1
X k 2
X kn n ( k 1 )
Y1
Y
2
Y Y3
Yn
n1
2、于是,总体回归模型可以表示为:
Y X β μ
样本回归模型和函数的矩阵表示
1、同理,采用如下矩阵记号:
ˆ
Y
1
ˆ
Y2
ˆ Y
ˆ
Y
3
ˆ
Yn
n1
ˆ 0
ˆ
1
ˆ
β
ˆ
k
e1
e2
e
e
n
2、于是,样本回归模型和函数可以表示为:
ˆ e
Y Xβ
ˆ Xβ
ˆ
Y
二、多元线性回归模型的基本假设
►假设1:解释变量是非随机的或固定的,且各X之间互不相关(无多重共线
性)。
►假设2:随机误差项具有零均值、同方差和无序列相关性:
E(i)=0
Var
(i)=2
i=1,2, …,N
Cov(i, j)=0
i≠j
1,2, …,N
►假设3:随机误差项与解释变量X之间不相关:
Cov(Xji, i)=0
i=1,2, …,N
►假设4:服从零均值、同方差、零协方差的正态分布
i,j=
基本假设的矩阵表示
假设1: n(k+1)矩阵X是非随机的,且X的秩=k+1,即X列满秩。
假设2:
1
E (μμ ) E
n
1
var( 1 )
cov( , )
n
1
12 1 n
n E
2
n
n 1
cov( 1 , n ) 2
var( n ) 0
假设4: 向量 有一多维正态分布,即
μ~ N (0, 2 I )
0
2I
2
暗含假设
假设5:样本容量趋于无穷时,各解释变量的方差趋于有界常数,即
n∞时,
1
1
2
x
( X ji X j ) 2 Q j
ji
n
n
或
1
xx Q
n
其中:Q为一非奇异固定矩阵,矩阵x是由各解释变量的离差为
元素组成的nk阶矩阵
x11
x
x
1n
假设6:回归模型是正确设定的
x k1
x kn
§3.2
多元线性回归模型的参数估计
一、普通最小二乘估计
二、参数估计量的性质
三、样本容量问题
参数估计的任务和方法
1、估计目标:回归系数βj、随机误差项方差б2
2、估计方法:OLS、ML或者MM
* OLS:普通最小二乘估计
*
*
ML:最大似然估计
MM:矩估计
一、普通最小二乘估计
•
基本思想:残差平方和最小
•
基于取得最小值的条件获得系数估计)
残差平方和:
n
n
Q e (Yi Yˆi ) 2
i 1
2
i
i 1
n
(Yi ( ˆ 0 ˆ1 X 1i ˆ 2 X 2i ˆ k X ki ))
i 1
取得最小值的条件:
ˆ
0
ˆ
1
ˆ
2
ˆ
k
Q 0
Q 0
Q 0
Q 0
2
正规方程组:
( ˆ 0 ˆ1 X 1i ˆ 2 X 2 i ˆ k X ki ) Yi
ˆ
ˆ X ˆ X ˆ X ) X Y X
(
0
1 1i
2
2i
k
ki
1i
i 1i
ˆ
( 0 ˆ1 X 1i ˆ 2 i X 2 i ˆ k X ki ) X 2 i Yi X 2 i
( ˆ 0 ˆ1 X 1i ˆ 2 X 2 i ˆ k X ki ) X ki Yi X ki
解此(k+1)个方程组成的正规方程组,即可求得(k+1)个未知参
数βj 的估计
。
最小二乘估计的矩阵表示
1、正规方程组的矩阵形式
n
X 1i
X
ki
X
X
1i
2
1i
X
ki
X 1i
X
X X
ˆ 0 1
ˆ
X 11
1i
ki 1
X ki2 ˆ k X k1
ki
ˆ X Y
(X X) β
2、由于X’X满秩(其逆矩阵存在),故有
1
ˆ
β ( X X) X Y
1
X 12
X k2
1 Y1
X 1n Y2
X kn Yn
#OLSE的矩阵估计过程
残差平方和的矩阵表示为:
Q ei2 ee (Y X ˆ )(Y X ˆ )
ˆ ) ( Y Xβ
ˆ)0
( Y Xβ
ˆ
β
ˆ X Y Y Xβ
ˆ β
ˆ X Xβ
ˆ)0
( Y Y β
ˆ
β
ˆ β
ˆ X Xβ
ˆ) 0
( Y Y 2 Y Xβ
ˆ
β
ˆ 0
X Y X Xβ
ˆ
XY XXβ
ˆ ( X X) 1 X Y
β
矩阵有关定理
(AB ) BA
( 1 , 2 , n ); A (a1 , a2 , an )
( A)
A
( B )
2 B ( B为n n对 称 阵 )
#参数估计的实例
例3.2.1:在例2.1.1的家庭收入-消费支出例中,
1
( X ' X )
X1
1
X2
1
1 1
X n
1
X1
X2 n
X i
X n
X
X
i
2
i
10
21500
21500
53650000
0.0003
0.7226
( XX)
0.0003 1.35 E 07
1
1
X Y
X1
1
X2
Y1
1 Y2 Yi 15674
X n X i Yi 39468400
Y
n
ˆ1 0.7226
0.0003 15674 103 .172
ˆ
β
ˆ
2 0.0003 1.35 E 07 39648400 0.7770
误差方差2的估计
1、基于OLS下,随机误差项 的方差的无偏估计量为
e
e
'
e
e
e
ˆ 2
n k 1 n k 1 n ( k 1)
2
i
注意:分母的形式:n-k-1 = n-(k+1)。
k:解释变量X的个数; k+1:回归系数的个数
2、 ˆ ˆ 2
regression)
称为估计标准误或者回归标准误(S.E of
*最大似然估计*
(Maximum Likelihood Estimate)
1、基本原理:样本观测值出现的概率最大。
2、似然函数:
Yi ~ N ( X i β , 2 )
ˆ , 2 ) P (Y1 , Y2 , , Yn )
L (β
3、最大似然估计MLE:
1
n
2
( 2 )
n
1
n
2
( 2 )
e
n
e
1
2 2
1
2 2
( Yi ( ˆ 0 ˆ1 X 1 i ˆ 2 X 2 i ˆ k X ki )) 2
ˆ )( Y Xβ
ˆ)
( Y Xβ
1
ˆ
β ( X X) X Y
参数的MLE与参数的OLSE相同
*矩估计*
(Moment Method,MM)
1、OLS估计是通过得到一个关于参数估计值的正规方程组
ˆ X Y
(X X) β
并对它进行求解而完成的。
2、该正规方程组可以从另外一种思路来导出:
Y Xβ μ
XY XXβ Xμ
X(Y Xβ ) Xμ
两侧求期望 :
E(X(Y Xβ) 0
矩条件
*矩条件和矩估计量*
1、 E(X(Y Xβ) 0 称为原总体回归方程的一组矩条件,表明了
原总体回归方程所具有的内在特征。
2、如果随机抽出原总体的一个样本,估计出的样本回归方程:
ˆ 能够近似代表总体回归方程的话,则应成立:
ˆ X
Y
1
ˆ)0
X (Y Xβ
n
ˆ X' Y
3、由此得到正规方程组: X' Xβ
解此正规方程组即得参数的MM估计量。
MM估计量与OLS、ML估计量等价。
*关于矩估计*
矩方法是工具变量方法(Instrumental Variables,IV)和广义矩估计方
法(Generalized Moment Method, GMM)的基础
• 在矩方法中关键是利用了:E(X’)=0
• 如果某个解释变量与随机项相关,只要能找到1个工具变量,仍然
可以构成一组矩条件。这就是IV。
• 如果存在>k+1个变量与随机项不相关,可以构成一组包含>k+1
方程的矩条件。这就是GMM。
• OLS只是GMM的一个特例
二、最小二乘估计量的性质
高斯—马尔可夫定理(Gauss-Markov theorem):
在给定经典线性回归的假定下,最小二乘估计量是具有
最小方差的线性无偏估计量,即最佳线性无偏估计量
(BLUE)。
1、线性:
ˆ ( X X) 1 X Y CY
β
其中,C=(X’X)-1 X’ 为一仅与固定的X有关的行向量
2、无偏性:
ˆ ) E (( X X ) 1 X Y )
E (β
E (( X X ) 1 X ( Xβ μ ))
β ( X X ) 1 E ( X μ )
β
这里利用了假设: E(X’)=0
3、有效性:
其中利用了:
ˆ ( X X ) 1 X Y
β
( X X ) 1 X ( Xβ μ)
β ( X X ) 1 X μ
E (μμ ) 2 I
参数估计量的概率分布
1、由参数估计量的上述性质和基本假设,易知:
ˆ N ( , 2 ( X X )1 )
• 线性性+基本假设
• 无偏性
为β
→
正态分布
→
期望
• 有效性的证明
→
方差表达
式
2、记 C=(X’X)-1 的第 j 个主对角元素为 Cjj(j=0,1,…,k),则:
ˆj N ( j , 2c jj )
三、样本容量问题
•最小样本容量
•满足基本要求的样本容量
1、最小样本容量
所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,
欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。
样本最小容量必须不少于模型中解释变量的数目(包括常数项),
即:n k+1
因为,无多重共线性要求:秩(X)=k+1
2、基本样本容量
•
从统计检验的角度:
n30 时,Z检验才能应用;
n-k 8时, t分布较为稳定
•
一般经验认为:
当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。
•
模型的良好性质只有在大样本下才能得到理论上的证明
§3.3
多元线性回归模型的统计检验
一、拟合优度检验
二、方程显著性检验
三、变量显著性检验
一、拟合优度检验
• 目的:测定样本回归函数对样本观测值的拟合紧密程度
• 指标:R2、Adj(R2)
可决系数R2
(coefficient of determination)
1、定义:
R2
ESS
RSS
1
TSS
TSS
0<R2<1,该统计量越接近于1,模型的拟合优度越高。
2、问题:
•
在模型中增加一个解释变量, R2往往增大
•
但是:增加解释变量个数往往得不偿失,不重要的变量不应引入。
•增加解释变量使得估计参数增加,从而自由度减小。如果引入的变量对减
少残差平方和的作用很小,这将导致误差方差σ2的增大,引起模型精度的
降低。
•
因此:R2需调整。
调整的可决系数Adj(R2)
(adjusted coefficient of determination)
1、调整思路:将残差平方和与总离差平方和分别除以各自的自由度,以
剔除变量个数对拟合优度的影响。
2、自由度:统计量可自由变化的样本观测值的个数,记为df
TSS:df=n-1
注意:
ESS:df= k
RSS:df= n-k-1
3、定义:
R
2
df(TSS)=df(ESS)+df(RSS)
RSS /( n k 1)
1
TSS /( n 1)
# Adj(R2)的作用
1、消除拟合优度评价中解释变量的多少对拟合优度的影响
2、对于因变量Y相同,而自变量X个数不同的模型,不能用R2直接比较拟
合优度,而应使用Adj(R2) 。
3、可以通过Adj(R2)的增加变化,决定是否引入一个新的解释变量。
# Adj(R2)与R2的关系
R
2
n 1
1 (1 R )
n k 1
2
Adj(R2)<= R2,即:调整可决系数不大于未经调整的可决系数。随着解
释变量的增加,二者的差异越来越大。
*赤池信息准则和施瓦茨准则*
(AIC&SC)
用于比较因变量相同,解释变量个数不同的多元回归模型的拟合优度
※ 赤池信息准则(Akaike information criterion, AIC)
e e 2( k 1)
AIC ln
n
n
※ 施瓦茨准则(Schwarz criterion,SC)
e e k
AC ln
ln n
n n
• 这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模
型中增加该解释变量。
二、方程的显著性检验(F检验)
•目的:检验Y与所有X的线性关系在总体上是否成立
•方法:F检验
1、原假设和备择假设
• 检验模型中的参数j是否至少有一个显著不为0。
Yi=0+1X1i+2X2i+ +kXki+i
• 原假设与备择假设:
H0: 0=1=2= =k=0
H1: j不全为0
i=1,2,,n
2、检验统计量
ESS / k
F
RSS /( n k 1)
可以证明,在原假设H0成立的条件下:
F~ F (k , n-k-1)
其中:k为模型中解释变量个数
3、检验步骤
(1)提出原假设和备择假设:
H0: 0=1=2= =k=0
H1: j不全为0
(2)在H0成立的条件下,计算检验统计量的值:
ESS / k
F
RSS /( n k 1)
(3)给定显著性水平,可得到临界值:F(k,n-k-1)
•
•
右侧检验
(4)如果 F F(k,n-k-1),拒绝原假设,总体线性关系成立
如果 F F(k,n-k-1),接受原假设,总体线性关系不成立
# 拟合优度和方程显著性检验
RSS /( n k 1)
R 1
TSS /( n 1)
2
R
2
n 1
1
n k 1 kF
F
ESS / k
RSS /( n k 1)
R2 /k
F
(1 R 2 ) /(n k 1)
示例:
•在中国居民人均收入-消费一元模型中,
•在中国居民人均收入-消费二元模型中,
•可见:一个显著的模型并不意味着拟合优度一定很高
• 注意到F检验是一个严格的统计检验,因此实际中要多参考这一检验
的结果。
三、变量的显著性检验(t检验)
•目的:检验Y与某个Xj的线性关系在总体上是否成立或者
说Xj对Y是否存在显著影响
•方法: t检验
1、原假设和备择假设
• 检验模型中Xj对应的系数j是否显著不为0。
Yi=0+1X1i+2X2i+ +jXji + +kXki+i
• 原假设与备择假设:
H0: j=0
H1: j≠0
2、检验统计量
•参数估计量的概率分布:
ˆ j
N ( j , 2c jj ), j 0,1, 2, , k
• 2为随机误差项的方差,在实际计算时,用它的估计量代替:
e
e e
ˆ
n k 1 n k 1
2
2
i
ˆ j j
t
•可构造t统计量:
Sˆ
j
ˆ j j
c jj
ee
n k 1
t (n k 1)
3、检验步骤:
(1)建立原假设和备择假设: H0:βj=0
H1:βj≠0
(2)在原假设成立的条件下计算t统计量的值
t
ˆ j
Sˆ
j
(3)给定显著性水平,可得到临界值t/2(n-k-1)
双侧检验
(4)如果|t| t/2(n-k-1),拒绝原假设,Xj对Y存在显著影响
如果|t| t/2(n-k-1),接受原假设,Xj对Y不存在显著影响
对t检验的说明
1、在一元线性回归模型中,变量的显著性t检验与方程的F检验是一致的
• 一方面,二者检验的假设一致:β1=0
• 另一方面,从检验统计量来看:F=t2
2、在多元线性回归模型中,二者的作用不同,并不等价
3、在多元回归模型中,对各个变量的进行t检验时,显著性水平应该一致
4、t检验未通过,说明在给定的显著性水平下,变量对Y没有显著性影响,
但不要简单的剔除变量,关键仍然是考察变量在经济关系上是否对因变
量有影响以及变量在模型及应用中的作用,显著性检验起到验证的作用
三、参数的置信区间
j (j=0,1,2,……,k)的置信区间
t
• 在变量的显著性检验中已经知道:
ˆ j j
sˆ
~ t ( n k 1)
j
• 给定置信度(1-),对于临界值t/2 (n-2),t值处在(-t/2, t/2)的概
率是1-。表示为:
P( t t t ) 1
2
P ( t
ˆ j j
sˆ
2
2
t ) 1
2
j
P ( ˆ j t sˆ j ˆ j t sˆ ) 1
j
2
j
2
• 于是得到:(1-)的置信度下, j 的置信区间是
( ˆ j t sˆ , ˆ j t sˆ )
2
j
2
j
§3.4
多元线性回归分析的预测
一、均值E(Y0)的置信区间
二、个值Y0的置信区间
预测的理解
1、预测类型:
点
预
测
2、对于模型
实际个值Y0的点预测
实际个值 Y0的区间预测
条件均值E(Y0)的点预测
条件均值E(Y0)的区间预测
区
间
预
测
ˆ Xβ
ˆ ,给定样本以外的解释变量的观测值:
Y
X0=(1,X10,X20,…,Xk0),可以得到被解释变量的预测值: Yˆ0
3、它可以是总体均值E(Y0)或个值Y0的点预测。
4、为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信
区间。
1、总体均值E(Y0|X=X0)的置信区间
ˆ ) X 0 E (β
ˆ ) X 0β E (Y0 )
E (Yˆ0 ) E ( X 0β
ˆ X 0β) 2 E ( X 0 (β
ˆ β)X 0 (β
ˆ β))
Var (Yˆ0 ) E ( X 0β
ˆ β)( β
ˆ β)X0 )
Var (Yˆ0 ) E ( X 0 (β
ˆ β)( β
ˆ β)X0
X 0 E (β
2 X 0 ( XX) 1 X 0
容易证明
Yˆ0 ~ N ( X 0β, 2 X 0 (XX) 1 X0 )
Yˆ0 E(Y0 )
ˆ X 0 (X X) 1 X 0
~ t ( n k 1)
于是,得到(1-)的置信水平下E(Y0)的置信区间:
Yˆ0 t ˆ X 0 ( X X) 1 X 0 E (Y0 ) Yˆ0 t ˆ X 0 ( X X) 1 X 0
2
其中,t/2为(1-)的置信水平下的临界值。
2
2、总体个值Y0的置信区间
如果已经知道X=X0处的实际个值Y0,那么预测误差为:
e0 Y0 Yˆ0
容易证明
ˆ)
E ( e 0 ) E ( X 0β 0 X 0β
ˆ β))
E ( 0 X 0 (β
E ( 0 X 0 ( X X ) 1 X μ)
0
Var (e0 ) E (e02 )
E ( 0 X 0 ( X X ) 1 X μ) 2
2 (1 X 0 ( X X ) 1 X 0 )
e0服从正态分布,即:
e0 ~ N (0, 2 (1 X 0 ( XX) 1 X0 ))
ˆ e2 ˆ 2 (1 X 0 ( XX) 1 X0 ))
0
构造t统计量:
Yˆ0 Y0
t
~ t ( n k 1)
ˆ e0
可得给定(1-)的置信水平下Y0的置信区间:
Yˆ0 t ˆ 1 X 0 ( XX) 1 X0 Y0 Yˆ0 t ˆ 1 X 0 ( XX) 1 X 0
2
2
置信区间宽度:个值>均值
y
yˆ ˆ 0 ˆ1 x
x
x0
x
#回归分析的预测实例:
中国居民人均收入-消费支出二元模型例中:2001年人均GDP:4033.1元
于是人均居民消费的预测值为
Ŷ2001=120.7+0.2213×4033.1+0.4515×1690.8=1776.8(元)
实测值(90年价)=1782.2元,相对误差:-0.31%
预测的置信区间 :
E(Ŷ2001)的95%的置信区间为:
(1741.8,1811.7)
Ŷ2001的95%的置信区间为:
(1711.1, 1842.4)
§3.5
可线性化的多元非线性回归模型
• 线性模型的本质含义
• 解释变量的非线性——变量代换法
• 回归参数的非线性——函数变换法
实际中的非线性模型
1、恩格尔曲线(Engle curves):消费者的收入与某类商品需求量之间的函数
关系。——幂函数
2、菲利普斯曲线(Pillips cuves):通货膨胀率(货币工资率)与失业率
之间的关系。——双曲线函数
线性模型的本质含义
1、被解释变量Y与解释变量X之间为线性关系
Y
2Y
b,
0
2
X
X
2、被解释变量Y与参数β之间为线性关系
Y
2Y
c, 2 0
3、更重要的在于后者
1、解释变量的非线性问题——变量代换
• 适用于倒数模型、多项式模型等
例如:拉弗曲线:描述税收与税率关系
S = a + b R + cR2
令:X1 = r,X2 = r2,
c<0
(抛物线)
则原方程变换为:
S = a + b X 1 + c X2
c<0
2、回归参数的非线性问题——函数变换
• 适用于幂函数、指数函数模型等
例如:Cobb-Dauglas生产函数:
Q = AKL(幂函数)
方程两边取对数:
ln Q = ln A + ln K + ln L
令:Q*=lnQ,β0=lnA,K*=lnK,L*=lnL
则:
Q*= β0+ K*+ L*
3、复杂函数模型——级数展开
例如:常替代弹性CES生产函数
Q A( 1 K
1
2 L ) e
(1+2=1)
方程两边取对数后,得到:
LnQ LnA 1 Ln( 1 K 2 L )
将式中ln(1K- + 2L-)在=0处展开台劳级数,取关于的线性项,
即得到一个线性近似式。
如取0阶、1阶、2阶项,可得
K
1
ln Y ln A 1 m ln K 2 m ln L m 1 2 ln
2
L
2