第6章内生性和工具变量估计方法

Download Report

Transcript 第6章内生性和工具变量估计方法

第6章
内生性和工具变量估计方法
内生性和工具变量估计方法
6.1 内生性
6.1.1 OLS估计的不一致性
6.1.2 内生性产生的原因
6.2 工具变量估计方法
6.2.1 工具变量估计法
6.2.2 两阶段最小二乘法:TSLS
6.3 内生性检验
重要概念
6.1 内生性
6.1.1 OLS估计的不一致性
6.1.2 内生性产生的原因
6.1 内生性
6.1.1 OLS估计的不一致性
Y  0  1 X1  2 X 2    k X k  u
模型:
Cov( X r , u) 若0
X r则
为内生自变量。
• 存在内生自变量时,OLS估计不再有一致性
6.1 内生性
6.1.1 OLS估计的不一致性
以一元回归模型为例:Y  0  1 X  u

ˆ
1  1  in1
n
( X i  X )ui
i1 ( X i  X )
2

n
1


n 1
n
( X i  X )ui
Cov(X,u)

0
2
Var( X )
(Xi  X )
i 1
i 1
n
• 多元线性模型下,不仅内生变量前的回归
系数不一致,外生变量前的系数也可能不
一致。
6.1 内生性
6.1.1 OLS估计的不一致性
以不带截距项的二元回归模型为例:
Y  1 X1   X 2  u
Cov( X1, u)  0
Cov( X 2 , u)  0
2
2
2
ˆ
S
S


S
X1 , X 2 X1 ,u
ˆ2   2  X1 X 2 ,u
S X1 S X 2 (1  ˆ X2 1 , X 2 )
6.1 内生性
6.1.1 OLS估计的不一致性
S X2 j  n 1 i1 ( X ji  X j ) 2 ,
n
j  1,2
S X2 j ,u  n 1 i1 ( X ji  X j )ui , j  1,2
n
S X2 1 , X 2  n 1 i1 ( X 1i  X 1 )( X 2i  X 2 )
n
2

X Cov ( X 2 , u )   X , X Cov ( X 1 , u )
ˆ
2  2 
[ X  X (1   X2 , X )]
1
2
1
2
1
1
2
只要  X , X  0 ,ˆ2 不以概率收敛到  2 。
1
2
6.1 内生性
6.1.1 OLS估计的不一致性
结论1:OLS估计的不一致性
(1)线性回归模型内生自变量回归系数的
OLS估计不是一致估计;
(2)如果和内生自变量相关,外生自变量回
归系数的OLS估计不是一致估计
6.1 内生性
6.1.1 OLS估计的不一致性
内生性影响图示:
X
Y
u
dY / dX    du / dX
ˆ 是对   du/ dX 的估计。
6.1 内生性
6.1.2 内生性产生的原因
模型设定错误、测量误差和联立性
• 模型设定错误是导致内生性最常见的原因,模型
设定错误往往表现为相关变量的缺失,缺失变量
成为错误设定模型误差项的一部分,当缺失变量
和模型中其他变量相关时,就会导致这些变量的
内生性。(工资与教育、能力)、
• 不相干变量引入不会影响参数估计的无偏性和一
致性,但是会影响参数估计的有效性。
6.2 工具变量估计方法
6.2.1 工具变量估计法
6.2.2 两阶段最小二乘法:TSLS
6.2 工具变量估计方法
6.2.1 工具变量估计法
工具变量估计法
一元线性回归模型
Y  0  1 X  u
定义1:如果存在变量Z ,满足
(1)与 u 不相关 Cov( Z , u )  0
(2)与 X 相关 Cov(Z , X )  0
称 Z 为 X 的工具变量,也称工具(instrument)。
工具变量估计法
一元线性回归模型
Y  0  1 X  u
总体矩条件:
Cov(Z,u)  E (Zu)  E[(Y  0  1 X )Z ]  0
E(u)  E(Y  0  1 X )  0
类比出样本矩条件:
n
1
n
 (Y
i 1
n
1
i
n
 (Y
i 1
i
 ˆ0  ˆ1 X i ) Z i  0
 ˆ0  ˆ1 X i )  0
工具变量估计法
一元线性回归模型
Y  0  1 X  u
ˆ0 IV  Y  ˆ1IV



n
ˆ1IV
i 1
n
i 1
( Z i  Z )(Yi  Y )
( Z i  Z )( X i  X )
工具变量估计法
一元线性回归模型
Y  0  1 X  u
结论2:工具变量估计的性质
(1)工具变量估计是一致估计
(2)工具变量估计具有渐进正态分布
Z
X
u
Y
工具变量估计法
一元线性回归模型
Y  0  1 X  u
结论3:OLS估计和工具变量估计
一元线性回归模型的自变量为外生时,OLS估
计可看做以自变量本身为工具的工具变量估计。
例子6.1 气温与冷饮消费(续)
Coldr  0  1AirCd  u
用住房面积 House
作为工具变量
工具变量估计法
一元线性回归模型
Y  0  1 X  u
方差估计:若 Var (u | Z )  E(u 2 | Z )   2
S21IV
ˆ 2
 n
2 2
(
X

X
)
ˆ Z , X
i1 i
其中, ˆ 2  1
2
ˆ
u
i1 i
n
n2

n
ˆ Z , X 
i 1
( X i  X )(Z i  Z )
i1 ( X i  X )2
n

uˆi  Yi  ˆ0 IV  ˆ1IV X i
n
2
(
Z

Z
)
i
i 1
工具变量估计法
一元线性回归模型
Y  0  1 X  u
假设检验:
统计量
t 1 
ˆ1IV
S1IV
给定误差项服从正态分布,则 t1 ~ t (n  2)
若没给定分布,大样本情况下服从标准正态分布。
工具变量估计法
一元线性回归模型
例子6.2 已婚女性小时工资
直接OLS:
ln( wage )   0.185  0.109 educ
( 1.000)
( 7.785)
fathedu 作工具变量:
ln( wage )   0.441 0.059 educ
( 0.989)
(1.686)
工具变量估计法
多元线性回归模型
Y  0  1 X1  r X r  r1 X r1   k X k  u
定义2:如果存在变量 Zl ,满足
(1)与 u 不相关 Cov(Zl , u)  0 ,
(2)与 X l 相关 Cov(Zl , X l )  0 ,
称 Zl 为 X l 的工具变量,也称工具 ,l  1,, r 。
工具变量估计法
多元线性回归模型
Y  0  1 X1  r X r  r1 X r1   k X k  u
同一元情形一样,总体矩条件:
Cov( Z l , u )  E(Z l u )  E[Z l (Y   0  1 X 1     k X k )]  0,
l  1,, r
Cov( X m , u )  E( X mu )  E[ X m (Y   0  1 X 1     k X k )]  0,
m  r  1,, k
类比原则得样本矩条件,可解得参数估计。
工具变量估计法
多元线性回归模型
Y  0  1 X1  r X r  r1 X r1   k X k  u
结论4:工具变量估计的性质
p
ˆ



 jIV
(1) jIV
2
ˆ
n
(



)
~
N
(
0
,

)
(2)
jIV
jIV
(a)
ˆ
其中 2ˆ 为 ˆ jIV 的方差,j  0,1,, k 。
jIV
jI V
工具变量估计法
多元线性回归模型
例子6.3 在职男性工资
log(wage)  0  1exper 2exper  3edu  X  
2
由于能力变量的缺失,导致经验和教育
都具内生性,因此Kling用居住地附近是否有四年
edu
制大学(虚拟变量)作为
的工具变量,以年龄
2
exper
exper
和年龄的平方作为
和
的工具变量
工具变量估计法
EViews操作
例子6.2 已婚女性小时工资(续)
log(wage)  0  1exper 2exper2  3edu  u
edu
mothedu
暂时只考虑
的内生性,用
作其
工具变量。
EViews实现步骤:
建立工作文件,组(group)打开相关变量,在数据表格界
面点击Proc→Make Equation进入模型设定对话框并依次输入
因变量和自变量,点击Estimation settings下拉菜单中的TSLSTwo-Stage Least Squares,在弹出对话框中输入工具变量
工具变量估计法
EViews操作
例子6.2 已婚女性小时工资(续)
log(wage)  0  1exper 2exper2  3edu  u
工具变量估计法
EViews操作
例子6.2 已婚女性小时工资(续)
log(wage)  0  1exper 2exper2  3edu  u
点击选择按钮(Options)对参数估计协
方差矩阵的估计方法进行选择,本例采用的是横截
面数据,因此采用怀特异方差一致的协方差矩阵估
计。
6.2 工具变量估计方法
6.2.2 两阶段最小二乘法:TSLS
两阶段最小二乘法:TSLS
一个内生自变量
Y  0  1 X1  2 X 2  3 X 3  u
X 1 为内生变量, X 2 和 X 3 为外生变量,
Z1 、Z 2 为 X 1
的工具变量。
两阶段最小二乘步骤:
第一阶段(first stage):以内生变量为因变量,
所有外生变量为自变量做回归
得拟合值
X1  0  1Z1  2 Z2  3 X 2  4 X 3  v
Xˆ 1  ˆ0  ˆ1Z1  ˆ2 Z2  ˆ3 X 2  ˆ4 X 3
两阶段最小二乘法:TSLS
一个内生自变量
Y  0  1 X1  2 X 2  3 X 3  u
X 1 为内生变量, X 2 和 X 3 为外生变量,
Z1 、Z 2 为 X 1
的工具变量。
两阶段最小二乘步骤:
第二阶段(second stage):将 Xˆ 1 作为 X 1 的工具
变量,对模型 Y  0  1 X1  2 X 2  3 X 3  u
实施工具变量估计
两阶段最小二乘法:TSLS
一个内生自变量
Y  0  1 X1  2 X 2  3 X 3  u
对模型 X1  0  1Z1  2 Z2  3 X 2  4 X 3  v 的参数约束
检验可以验证工具变量的优良性。
原假设:
H :    0
0
1
2
• 用第五章构造的Tr 统计量进行F检验,若
值
Tr
够大,通常大于10则认为相关性足够,可做工具
变量。
• 若接受原假设,则表明工具变量与内生变量相关
两阶段最小二乘法:TSLS
一个内生自变量
EViews实现两阶段最小二乘:
例子6.2 已婚女性小时工资(续)
log(wage)  0  1exper 2exper2  3edu  u
edu
mothedu
的工具变量:
fathedu
husedu
、
、
在EViews的工具变量设定框中输入:
两阶段最小二乘法:TSLS
一个内生自变量
EViews实现两阶段最小二乘:
例子6.2 已婚女性小时工资(续)
log(wage)  0  1exper 2exper2  3edu  u
两阶段最小二乘法:TSLS
一个内生自变量
EViews实现两阶段最小二乘:
例子6.2 已婚女性小时工资(续)
log(wage)  0  1exper 2exper2  3edu  u
估计结果与前面相差很大,检验工具变量与内
生变量的相关性,发现用三个工具变量时相关性
大大提升,故应采用mothedu,fathedu,husedu一
起做工具变量。
• 工具变量的好坏直接影响估计结果,实际应用中,
寻找合适的工具变量是解决问题的关键,也是困
难所在。
两阶段最小二乘法:TSLS
一个内生自变量
例子6.4 中国女性劳动参与率与家庭结构
Hours  ˆ0  3.272withP  0.724 age 0.559kids
(1.374)
( 3.675)
( 0.590)
 0.048 P _ age 4.98 Pensn 5.74 Recp  ˆX
( 0.350)
( 2.607)
( 2.178)
但是Hours和withP 的互相影响导致withP 的
内生性,选用女性是否有存活的兄弟( Z1 )和该
女性在家中排行是否最小( Z 2 )做工具变量。
Hours  ˆ0 IV  18.73withP  0.765age 1.135kids
( 3.77)
( 2.39)
(1.128)
 0.14 P _ age 5.34 Pensn 5.795Recp  ˆIV X
( 0.952)
( 2.73)
( 2.104)
两阶段最小二乘法:TSLS
多个内生自变量
Y  0  1 X1  2 X 2  3 X 3  u
X 1 、X 2 为内生变量,X 3 为外生变量,
Z1 和 Z 2 为 X 1 的
W 为 X 2 的工具变量
工具变量,
两阶段最小二乘估计的步骤:
第一阶段(first stage):
分别以内生变量 X 1 和 X 2 为因变量,以所有外生
变量 Z1 、Z 2 、W 和 X 3 为自变量进行回归,即
X1   0  1Z1   2 Z 2  3W   4 X 3  v
X 2   0   1Z1   2 Z 2   3W   4 X 3  
两阶段最小二乘法:TSLS
多个内生自变量
Y  0  1 X1  2 X 2  3 X 3  u
X 1 、X 2 为内生变量,X 3 为外生变量,
Z1 和 Z 2 为 X 1 的
W 为 X 2 的工具变量
工具变量,
两阶段最小二乘估计的步骤:
得拟合值
Xˆ 1  ˆ 0  ˆ1Z1  ˆ 2 Z 2  ˆ 3 X 2  ˆ 4 X 3
Xˆ 2  ˆ0  ˆ1Z1  ˆ2 Z 2  ˆ3 X 2  ˆ4 X 3
第二阶段(second stage):
两阶段最小二乘法:TSLS
多个内生自变量
Y  0  1 X1  2 X 2  3 X 3  u
X 1 、X 2 为内生变量,X 3 为外生变量,
Z1 和 Z 2 为 X 1 的
W 为 X 2 的工具变量
工具变量,
两阶段最小二乘估计的步骤:
以 Xˆ 1 和 Xˆ 2 代替 X 1 和 X 2 对原模型进行OLS估计,
即对模型
Y  0  1 Xˆ 1  ˆ2 X 2  3 X 3  u
进行OLS估计,得出回归系数的一致估计。
6.3 内生性检验
自变量若内生,OLS估计会不一致;自变量若外生,
盲目用工具变量会降低有效性,故需要检验自变
量是否内生。
Y  0  1 X1  2 X 2  3 X 3  u
X3
X1
X2 和
为外生变量,对
的内生性检验,
的工具变量,将
回归,
X 3 X 1对 X 2、 Z和
Z 设 X为
3
X 3   0   1 X1   2 X 2   3 Z  v
6.3 内生性检验
若有内生性,则是 u 和 v 之间有关系:
u  v  
H0 :   0 ;
H1 :   0
将上述 u 和 v 的关系代入原模型
Y  0  1 X1  2 X 2  3 X 3  v  
v不可观测,用 vˆ 代替(从模型X 3   0  1 X1   2 X 2   3Z  v
中估计而来),即最终估计模型:
Y  0  1 X1  2 X 2  3 X 3  vˆ  
并检验  是否为0。
6.3 内生性检验
例子6.2 已婚女性小时工资(续):
两步回归
重要概念
1. 与模型误差项相关的自变量具有内生性。内生性导致
回归系数OLS估计的不一致性。只要与内生自变量相关,
外生解释变量回归系数的OLS估计也是不一致估计。丢
失相关变量是产生内生性的一个重要原因。具有内生自
变量的模型需要用工具变量估计方法进行估计。
2. 工具变量需要满足两个条件:第一,和模型误差项不
相关(外生性),第二,和要工具的内生变量相关(相
关性)。
3. 工具变量估计是矩估计,具有一致性和渐进正态性。
计算出估计量的方差后,可以构造t-统计量对模型参数
显著性进行检验。
4. OLS估计是一种特殊的工具变量估计。当模型不存在内
生自变量时,OLS估计的方差小于工具变量估计。
重要概念
5. 当工具变量的个数大于被工具的内生变量个数时,
需要采用两阶段最小二乘法估计模型。两阶段最小二
乘法采用所有外生变量合适的线性组合作为内生变量
的工具变量,并在第一阶段通过内生变量对外生变量
的回归拟合值得到工具变量。第一阶段回归的参数约
Tr  10
束检验,可以确定工具变量的有效性:检验统计量
时,认为工具变量与被工具的内生变量充分相关,工
具变量可行。第二阶段,直接用第一阶段得到的回归
拟合值代替内生变量对原模型进行OLS回归。
6. 自变量是否存在内生性决定着是否用OLS估计模型。
在找到合适工具变量的条件下,通过回归可以对模型
自变量的内生性进行检验。