Transcript 多元回归分析
多元回归分析:估计
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论 刘愿
1
3.1 使用多元回归的动因
含有两个自变量的模型
既然exper/avginc与edu/expend相关,为得到b1的无偏估计,
明确将两个变量同时放在模型中是有益的。
计量经济学导论 刘愿
2
y b 0 b1 x1 b 2 x2 u
3.3
b 0为截距;
b1衡量了当其他因素不变时,x1对y的影响;
b 2 衡量了当其他因素不变时,x2 对y的影响;
cons b 0 b1inc b 2inc 2 u
3.4
如何解释上述方程中的参数?保持其他因
素不变的效应在上述方程中是否存在?
计量经济学导论 刘愿
3
cons
consmax
inc
计量经济学导论 刘愿
4
关键的假设是方程3.5中u与x1和x2的关系。
E u x1 , x2 0
计量经济学导论 刘愿
3.5
5
有K个自变量的模型
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论 刘愿
3.6
6
多元回归方程的相关定义及性质
b0 为截距;
b1 到 bk 为斜率参数;
u 仍然为误差项或扰动项;
零条件均值假设: E(u|x1,x2, …,xk) = 0;
残差平方和最小化,可得k+1个一阶条件。
计量经济学导论 刘愿
7
计量经济学导论 刘愿
8
OLS的机制与解释
OLS Estimates结果是
OLS方法选择最小化残差平方和的估计值,即使3.10式
尽可能的小。
计量经济学导论 刘愿
9
SRF
SSR
OLS First Order Condition
10
计量经济学导论 刘愿
OLS回归方程的解释
计量经济学导论 刘愿
11
例子3.1:大学生GPA的决定因素
计量经济学导论 刘愿
12
例子3.2:小时工资方程
计量经济学导论 刘愿
13
在多元回归中保持其他因素不变的含义
多元回归分析的作用是,提供了一个“在其他
因素保持不变”下的解释,尽管我们的数据并
非以这种方式搜集。
计量经济学导论 刘愿
14
同时改变两种以上因素时参数的含义
计量经济学导论 刘愿
15
OLS拟合值与残差项
Normally,
yi yi
计量经济学导论 刘愿
16
OLS拟合值及残差有与单变量回归同样的重要性质:
1. 样本残差均值为零: uˆi 0;
2.每个自变量与OLS残差之样本协方差均为零,
OLS拟合值与残差之样本协方差也为零:
x uˆ
i i
0; yˆi uˆi 0.
3.样本均值点 x1 , x2 ,
y bˆo bˆ1 x1 bˆ2 x2
, xk , y 总是在OLS样本回归线上:
bˆk xk
计量经济学导论 刘愿
17
多元回归参数估计值表达式
在二元回归中,bˆ1具有如下的表达式:
bˆ =
rˆ x rˆ 2
1
i1 i
i1
其中,rˆi1是xi1中与xi 2无关的部分,或者说是
xi 2的效应被排除( par t i al l ed out ) 之后的xi1。
因此,bˆ 衡量了排除了x 的影响后x 与y的关系。
1
2
计量经济学导论 刘愿
1
18
证明:
xi1 xˆi1 rˆi1 ,
n
xˆ uˆ
i 1
n
i1 i
0
xˆi1 rˆi1 yi bˆ0 bˆ1 xi1 bˆ1 xi 2
i 1
n
rˆi1 yi bˆ0 bˆ1 xi1 bˆ1 xi 2
i 1
n
xˆ rˆ 0
ij i1
i 1
n
for all ( j 2,3,
bˆk xik 0
bˆk xik 0
k)
rˆ y bˆ rˆ bˆ xˆ rˆ
rˆ y bˆ rˆ 0
n
rˆi1 yi bˆ1 xi1 rˆij yi bˆ1 xˆi1 rˆi1
i 1
n
i 1
n
i 1
i 1
n
i1
i
1 i1
i1
i
1 i1
1
i 1
i1 i1
n
bˆ1
rˆ y
i 1
n
i1 i
rˆ
i 1
2
i1
计量经济学导论 刘愿
19
简单线性回归于多元线性回归估计值比较
SRF
y b 0 b1 x1
MRF
yˆ bˆ0 bˆ1 x1 bˆ2 x2
以下两种情况简单回归函数和多元回归函数参数估计值相等:
计量经济学导论 刘愿
20
例子3.3 401(K)养老金计划的参与率
计量经济学导论 刘愿
21
拟合优度
计量经济学导论 刘愿
22
例子3.4 大学GPA的决定因素
计量经济学导论 刘愿
23
例子3.5 解释被逮捕的记录
计量经济学导论 刘愿
24
OLS估计的期望值
多元回归的假设:
Assumption MLR.1: 总体参数线性:y = b0 + b1x1 +
b2x2+…+ bkxk+ u
Assumption MLR.2: 随机抽样:从总体随机抽样 获得
一个样本容量为n的样本{(xi1, xi2 ,…, xik, yi): i=1, 2, …,
n}. 样本模型可写为: yi = b0 + b1xi1 + b2xi2+…+
bkxik+ ui
Assumption MLR.3: 零条件均值E(u| x1, x2 ,…, xk) = 0
模型误设: cons = b0 + b1inc + b2inc2+ u
遗漏重要因素;
测量误差.
计量经济学导论 刘愿
25
Assumption MLR.4: 自变量之间不存在完全共
线性:在样本(因而在总体)中,没有任何一
个自变量是常数,自变量之间也不存在严格的
线性关系。
MLR.4 允许自变量之间存在相关性,但不能是
完全相关。
• 一个变量是另一个变量的常数倍。
• 一个自变量恰好可以表达成其他两个或多个自
变量的线性函数。
• 样本容量n相对于被估计的参数个数而言太小。
计量经济学导论 刘愿
26
计量经济学导论 刘愿
27
计量经济学导论 刘愿
28
Proof:
yi b 0 b1 xi1 b 2 xi 2 b k xik ui
rˆi1 yi
ˆ
b1
2
ˆ
r
i1
rˆi1 b 0 b1 xi1 b 2 xi 2 b k xik ui
bˆ1
2
ˆ
r
i1
rˆi1 0, xij rˆi1 0; for all j 2,3, k .
2
ˆ
ˆ
x
r
r
i1 i1 i1
bˆ b rˆ u
rˆ 2
1
1
E bˆ1 | X b1
rˆ E u | X
b
rˆ
i1 i
E ui | X 0
i1
i1
i
2
i1
计量经济学导论 刘愿
1
29
在回归模型中包括了无关变量
在模型设定中包括了无关变量,对参数估计值
没有影响,OLS估计仍然无偏,但对OLS估计
值的方差会有不良影响。(证明见后面)
如果在模型中遗漏了一个应该包括进来的变量,
OLS估计还会保持无偏吗?
计量经济学导论 刘愿
30
遗漏变量偏误
假设真实模型是:y b 0 b1 x1 b 2 x2 u ,
但我们估计了: y b 0 b1 x1 u, 则
xi1 x1 yi
b1
2
xi1 x1
计量经济学导论 刘愿
31
遗漏变量偏误(续)
回忆真实模型yi b0 b1 xi1 b 2 xi 2 ui , 参数估计值分子变为:
xi1 x1 b0 b1xi1 b2 xi 2 ui
b1 xi1 x1 b 2 xi1 x1 xi 2 xi1 x1 ui
2
计量经济学导论 刘愿
32
遗漏变量偏误(续)
b1 b1 b 2
x x x x x u
x x x x
i1
1
i2
i1
1
2
i1
i
2
1
i1
1
既然 E(ui ) 0, 对b1取期望可得:
xi1 x1 xi 2
E b1 b1 b 2
2
xi1 x1
计量经济学导论 刘愿
33
遗漏变量偏误(续)
考虑x2 对x1进行回归:
x2 0 1 x1,则1
E b b
x x x
x x
i1
1
i2
2
i1
1
则 E b1 b1 b 21
1
1
b 21为遗漏变量偏误
如何理解遗漏偏误期望值的表述
计量经济学导论 刘愿
34
遗漏变量偏误总结
偏误等于零的两种情况:
b2 = 0, 即 x2 不应该包括在这个模型中。
在样本中x1 和 x2 是不相关的。
计量经济学导论 刘愿
35
偏误方向总结
Corr(x1, x2) > 0 Corr(x1, x2) < 0
1
0
1
0
b2 > 0
偏误为正
偏误为负
b2 < 0
偏误为负
偏误为正
计量经济学导论 刘愿
36
遗漏变量偏误:更一般的情形
从技术上看,对更一般的情形来说,只有当所
包括的自变量都不相关时,我们才能判定偏误
的符号。
因此,在研究偏误方向时,我们假设x不相关,
并以此作为一个有用的指导,尽管这一假设在
严格意义上来说并成立。
计量经济学导论 刘愿
37
一个一般的结论:
在一个三变量多元回归中,假设遗漏了x3,
且x1与x3相关,但x2与x3无关。
如果x1与x2无关,则对b2的估计是无偏的;
如果x1与x2相关,则对b2的估计是有偏的。
计量经济学导论 刘愿
38
y b 0 b1 x1 b 2 x2 b3 x3 u
y b 0 b1 x1 b 2 x2
xi1 x1 xi 3
E b1 b1 b3
if cov x1 , x2 0
2
xi1 x1
wage b 0 b1educ b 2 exp er b3abil u bˆ1
wage b 0 b1educ b 2 exp er v b1
计量经济学导论 刘愿
39
OLS估计量的方差
我们已知,参数估计值的样本分布以真
实参数为中心。
进一步的,我们希望了解这一分布的分
散程度。
增加一个同方差性假设,即假设:
Var(u|x1, x2,…, xk) = s2
计量经济学导论 刘愿
40
OLS估计量的方差(续)
令 x代表 (x1, x2,…xk),假设 MLR.5: Var(u|x)
= s2 可写成 Var(y| x) = s2
前面4个假设是为了无偏性,加上同方差性假
设即构成横截面数据的高斯-马尔科夫假设。
计量经济学导论 刘愿
41
OLS估计量的方差(续)
定理3.2 (OLS斜率估计量的抽样方差)
在假定MLR.1~MLR.5之下(高斯-马尔科夫假定),
以自变量的样本值为条件,对所哟的j=1,2, ,k,都有
Var bˆ j
s2
SST j 1 R
2
j
,
式中,SST j xij x j 为xj 的总样本变异;
2
R 2j 则为将x j 对所有其他自变量(并包含一个截距项)
进行回归所得到的R 2。
计量经济学导论 刘愿
42
证明:
2
ˆ
b1 b1 rˆi1ui rˆi1
2
ˆ
r
var
u
|
X
i
1
i
ˆ
var b1 | X
2 2
rˆi1
2 2
ˆ
ri1 s
rˆ
2 2
i1
s
2
rˆ
2
i1
s
2
SST1 1 R
2
1
SSR SST 1 R 2
计量经济学导论 刘愿
43
OLS估计值方差的组成
误差方差: s2越大,OLS估计值方差越大。
总样本差异性:SSTj 越大, OLS估计值方差
越小。
自变量之间的线性相关性:Rj2越大,参数估
计值的方差也越大。
计量经济学导论 刘愿
44
自变量相关性与参数估计值方差的关系
R 2j 1, 则Var bˆ j 。两个或多个
Var bˆ1
自变量之间高度(但不完全)相关被
称为多重共线性。
多重共线性并没有违背无偏性的任何
假定,因此并不会导致估计值偏误;
但会增大估计值的方差。
去掉模型中的某个变量,可能减轻自
变量之间的相关性,但却冒遗漏变量
偏误之风险。
R12
1
计量经济学导论 刘愿
45
误设模型
考虑误设模型:y b 0 b1 x1 , 则有Var b1
s2
SST1
因此, Var b1 Var bˆ1 ,除非 x1 与x2无关,两者一致
计量经济学导论 刘愿
46
误设模型(续)
误设模型的参数估计值方差更小,除非b2 = 0 ,
误设模型是有偏误的。
随着样本容量增大(SSTj增大),每个参数估
计值方差收缩至零,使得方差的差异不再重要。
计量经济学导论 刘愿
47
两种权衡选择
当自变量之间存在多重共线性时,参数估计值
之方差将会增大(T值将变小),但可能获得
无偏的估计。
如果将引起多重共线性的其中一个或多个变量
在模型中删掉,则会引起遗漏变量偏误问题。
如果我们关心的是b1,x2与x3之间的相关性无
关重要。
计量经济学导论 刘愿
48
估计误差方差
我们无法知道误差方差s2, 因为我们无法
观测误差ui。
我们能够观测到的是残差ûi。
我们可以使用残差去形成误差方差的估
计。
计量经济学导论 刘愿
49
误差方差估计(续)
sˆ uˆ
n k 1 SSR df
因此 se bˆ sˆ SST 1 R
2
2
i
j
j
2
j
12
df = n – (k + 1), or df = n – k – 1
df (自由度)等于观测数n-估计参数个数k+1.
计量经济学导论 刘愿
50
定理3.3 s 2的无偏估计
在高斯 马尔科夫假定MLR.1 ~ MLR.5下,E sˆ 2 s 2 .
sd bˆ j s SST j 1 R 2j
12
bˆ j的标准差
12
bˆ j的标准误
se bˆ j sˆ SST j 1 R 2j
如果误差表现出异方差性,se bˆ j 并非sd bˆ j 的可靠估计量。
即异方差性尽管不会导致bˆ j的偏误,却能导致Var bˆ j 的公式
偏误,从而使标准误无效。
计量经济学导论 刘愿
51
OLS的有效性:高斯-马尔科夫定理
定理3.4 高斯 马尔科夫定理
在假定MLR.1~MLR.5下,bˆ0,bˆ1, ,bˆk 分别是
b 0,b1, ,b k的最优线性无偏估计量(BLUEs) .
无偏性:E bˆj bj ;
n
线性:bˆ j wij yi , 每个wij 都可以使所有自变量
i 1
样本值的一个函数;
最优:令bˆ0,bˆ1, ,bˆk 表示在假定MLR.1~MLR.5下,
模型3.31的OLS估计量;对任何一个线性无偏估计量bj ,
都有Var bˆ Var b 。
j
j
计量经济学导论 刘愿
52