多元回归分析

Download Report

Transcript 多元回归分析

多元回归分析:估计
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论 刘愿
1
3.1 使用多元回归的动因

含有两个自变量的模型
既然exper/avginc与edu/expend相关,为得到b1的无偏估计,
明确将两个变量同时放在模型中是有益的。
计量经济学导论 刘愿
2
y  b 0  b1 x1  b 2 x2  u
3.3
b 0为截距;
b1衡量了当其他因素不变时,x1对y的影响;
b 2 衡量了当其他因素不变时,x2 对y的影响;
cons  b 0  b1inc  b 2inc 2  u
3.4
如何解释上述方程中的参数?保持其他因
素不变的效应在上述方程中是否存在?
计量经济学导论 刘愿
3
cons
consmax
inc
计量经济学导论 刘愿
4

关键的假设是方程3.5中u与x1和x2的关系。
E  u x1 , x2   0
计量经济学导论 刘愿
3.5
5

有K个自变量的模型
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论 刘愿
3.6
6
多元回归方程的相关定义及性质





b0 为截距;
b1 到 bk 为斜率参数;
u 仍然为误差项或扰动项;
零条件均值假设: E(u|x1,x2, …,xk) = 0;
残差平方和最小化,可得k+1个一阶条件。
计量经济学导论 刘愿
7
计量经济学导论 刘愿
8
OLS的机制与解释

OLS Estimates结果是
OLS方法选择最小化残差平方和的估计值,即使3.10式
尽可能的小。
计量经济学导论 刘愿
9
SRF
SSR
OLS First Order Condition
10
计量经济学导论 刘愿
OLS回归方程的解释
计量经济学导论 刘愿
11

例子3.1:大学生GPA的决定因素
计量经济学导论 刘愿
12

例子3.2:小时工资方程
计量经济学导论 刘愿
13
在多元回归中保持其他因素不变的含义

多元回归分析的作用是,提供了一个“在其他
因素保持不变”下的解释,尽管我们的数据并
非以这种方式搜集。
计量经济学导论 刘愿
14
同时改变两种以上因素时参数的含义
计量经济学导论 刘愿
15
OLS拟合值与残差项
Normally,
yi  yi
计量经济学导论 刘愿
16
OLS拟合值及残差有与单变量回归同样的重要性质:
1. 样本残差均值为零:  uˆi  0;
2.每个自变量与OLS残差之样本协方差均为零,
OLS拟合值与残差之样本协方差也为零:
 x uˆ
i i
 0;  yˆi uˆi  0.
3.样本均值点  x1 , x2 ,
y  bˆo  bˆ1 x1  bˆ2 x2 
, xk , y  总是在OLS样本回归线上:
bˆk xk
计量经济学导论 刘愿
17
多元回归参数估计值表达式
在二元回归中,bˆ1具有如下的表达式:
bˆ =
rˆ x  rˆ 2 
1

i1 i
 
i1
其中,rˆi1是xi1中与xi 2无关的部分,或者说是
xi 2的效应被排除( par t i al l ed out ) 之后的xi1。
因此,bˆ 衡量了排除了x 的影响后x 与y的关系。
1
2
计量经济学导论 刘愿
1
18

证明:
xi1  xˆi1  rˆi1 ,
n
 xˆ uˆ
i 1

n
i1 i
0
   xˆi1  rˆi1  yi  bˆ0  bˆ1 xi1  bˆ1 xi 2 
i 1
n

  rˆi1 yi  bˆ0  bˆ1 xi1  bˆ1 xi 2 
i 1
n
  xˆ rˆ   0
ij i1
i 1
n
for all ( j  2,3,

 bˆk xik  0

 bˆk xik  0
k)


  rˆ  y  bˆ rˆ   bˆ  xˆ rˆ
  rˆ  y  bˆ rˆ   0
n
  rˆi1 yi  bˆ1 xi1   rˆij  yi  bˆ1  xˆi1  rˆi1  
i 1
n
i 1
n
i 1
i 1
n
i1
i
1 i1
i1
i
1 i1
1
i 1
i1 i1
n
 bˆ1 
 rˆ y
i 1
n
i1 i
 rˆ
i 1
2
i1
计量经济学导论 刘愿
19
简单线性回归于多元线性回归估计值比较
SRF
y  b 0  b1 x1
MRF
yˆ  bˆ0  bˆ1 x1  bˆ2 x2
以下两种情况简单回归函数和多元回归函数参数估计值相等:
计量经济学导论 刘愿
20

例子3.3 401(K)养老金计划的参与率
计量经济学导论 刘愿
21
拟合优度
计量经济学导论 刘愿
22

例子3.4 大学GPA的决定因素
计量经济学导论 刘愿
23

例子3.5 解释被逮捕的记录
计量经济学导论 刘愿
24
OLS估计的期望值
多元回归的假设:



Assumption MLR.1: 总体参数线性:y = b0 + b1x1 +
b2x2+…+ bkxk+ u
Assumption MLR.2: 随机抽样:从总体随机抽样 获得
一个样本容量为n的样本{(xi1, xi2 ,…, xik, yi): i=1, 2, …,
n}. 样本模型可写为: yi = b0 + b1xi1 + b2xi2+…+
bkxik+ ui
Assumption MLR.3: 零条件均值E(u| x1, x2 ,…, xk) = 0
模型误设: cons = b0 + b1inc + b2inc2+ u
遗漏重要因素;
测量误差.
计量经济学导论 刘愿
25
Assumption MLR.4: 自变量之间不存在完全共
线性:在样本(因而在总体)中,没有任何一
个自变量是常数,自变量之间也不存在严格的
线性关系。
 MLR.4 允许自变量之间存在相关性,但不能是
完全相关。
• 一个变量是另一个变量的常数倍。
• 一个自变量恰好可以表达成其他两个或多个自
变量的线性函数。
• 样本容量n相对于被估计的参数个数而言太小。

计量经济学导论 刘愿
26
计量经济学导论 刘愿
27
计量经济学导论 刘愿
28

Proof:
yi  b 0  b1 xi1  b 2 xi 2   b k xik  ui
rˆi1 yi

ˆ
b1 
2
ˆ
r
 i1
rˆi1  b 0  b1 xi1  b 2 xi 2   b k xik  ui 

 bˆ1 
2
ˆ
r
 i1
 rˆi1  0,  xij rˆi1  0; for all j  2,3, k .
2
ˆ
ˆ
x
r

r
 i1 i1  i1
 bˆ  b  rˆ u
rˆ 2
1


1

E bˆ1 | X  b1

rˆ E  u | X 


b
 rˆ
i1 i
E  ui | X   0
i1
i1
i
2
i1
计量经济学导论 刘愿
1
29
在回归模型中包括了无关变量

在模型设定中包括了无关变量,对参数估计值
没有影响,OLS估计仍然无偏,但对OLS估计
值的方差会有不良影响。(证明见后面)

如果在模型中遗漏了一个应该包括进来的变量,
OLS估计还会保持无偏吗?
计量经济学导论 刘愿
30
遗漏变量偏误
假设真实模型是:y  b 0  b1 x1  b 2 x2  u ,
但我们估计了: y  b 0  b1 x1  u, 则
 xi1  x1  yi

b1 
2
  xi1  x1 
计量经济学导论 刘愿
31
遗漏变量偏误(续)
回忆真实模型yi  b0  b1 xi1  b 2 xi 2  ui , 参数估计值分子变为:
  xi1  x1  b0  b1xi1  b2 xi 2  ui 
 b1   xi1  x1   b 2   xi1  x1 xi 2    xi1  x1 ui
2
计量经济学导论 刘愿
32
遗漏变量偏误(续)
b1  b1  b 2
 x  x  x   x  x u
  x  x     x  x  
i1
1
i2
i1
1
2
i1
i
2
1
i1
1
既然 E(ui )  0, 对b1取期望可得:
 xi1  x1  xi 2

E b1  b1  b 2
2
  xi1  x1 
 


计量经济学导论 刘愿
33
遗漏变量偏误(续)
考虑x2 对x1进行回归:
x2   0  1 x1,则1
 
E b   b
x  x  x


  x  x  
i1
1
i2
2
i1
1
则 E b1  b1  b 21
1
1
 b 21为遗漏变量偏误
如何理解遗漏偏误期望值的表述
计量经济学导论 刘愿
34
遗漏变量偏误总结

偏误等于零的两种情况:

b2 = 0, 即 x2 不应该包括在这个模型中。

在样本中x1 和 x2 是不相关的。
计量经济学导论 刘愿
35
偏误方向总结
Corr(x1, x2) > 0 Corr(x1, x2) < 0

1
0


1
0

b2 > 0
偏误为正
偏误为负
b2 < 0
偏误为负
偏误为正
计量经济学导论 刘愿
36
遗漏变量偏误:更一般的情形


从技术上看,对更一般的情形来说,只有当所
包括的自变量都不相关时,我们才能判定偏误
的符号。
因此,在研究偏误方向时,我们假设x不相关,
并以此作为一个有用的指导,尽管这一假设在
严格意义上来说并成立。
计量经济学导论 刘愿
37

一个一般的结论:
在一个三变量多元回归中,假设遗漏了x3,
且x1与x3相关,但x2与x3无关。
如果x1与x2无关,则对b2的估计是无偏的;
如果x1与x2相关,则对b2的估计是有偏的。
计量经济学导论 刘愿
38
y  b 0  b1 x1  b 2 x2  b3 x3  u
y  b 0  b1 x1  b 2 x2
 xi1  x1 xi 3

E b1  b1  b3
if cov  x1 , x2   0
2
  xi1  x1 
 
wage  b 0  b1educ  b 2 exp er  b3abil  u  bˆ1
wage  b 0  b1educ  b 2 exp er  v  b1
计量经济学导论 刘愿
39
OLS估计量的方差
我们已知,参数估计值的样本分布以真
实参数为中心。
进一步的,我们希望了解这一分布的分
散程度。
增加一个同方差性假设,即假设:
Var(u|x1, x2,…, xk) = s2
计量经济学导论 刘愿
40
OLS估计量的方差(续)


令 x代表 (x1, x2,…xk),假设 MLR.5: Var(u|x)
= s2 可写成 Var(y| x) = s2
前面4个假设是为了无偏性,加上同方差性假
设即构成横截面数据的高斯-马尔科夫假设。
计量经济学导论 刘愿
41
OLS估计量的方差(续)
定理3.2 (OLS斜率估计量的抽样方差)
在假定MLR.1~MLR.5之下(高斯-马尔科夫假定),
以自变量的样本值为条件,对所哟的j=1,2, ,k,都有
 
Var bˆ j 
s2
SST j 1  R
2
j

,
式中,SST j    xij  x j  为xj 的总样本变异;
2
R 2j 则为将x j 对所有其他自变量(并包含一个截距项)
进行回归所得到的R 2。
计量经济学导论 刘愿
42

证明:
2
ˆ
b1  b1   rˆi1ui  rˆi1
2
ˆ
r
var
u
|
X



i
1
i
ˆ
var b1 | X 
2 2
  rˆi1 




2 2
ˆ
 ri1 s
  rˆ 
2 2
i1

s
2
 rˆ
2
i1

s
2
SST1 1  R
2
1

SSR SST  1  R 2 
计量经济学导论 刘愿
43
OLS估计值方差的组成



误差方差: s2越大,OLS估计值方差越大。
总样本差异性:SSTj 越大, OLS估计值方差
越小。
自变量之间的线性相关性:Rj2越大,参数估
计值的方差也越大。
计量经济学导论 刘愿
44
自变量相关性与参数估计值方差的关系
 
 
R 2j  1, 则Var bˆ j  。两个或多个
Var bˆ1
自变量之间高度(但不完全)相关被
称为多重共线性。
多重共线性并没有违背无偏性的任何
假定,因此并不会导致估计值偏误;
但会增大估计值的方差。
去掉模型中的某个变量,可能减轻自
变量之间的相关性,但却冒遗漏变量
偏误之风险。
R12
1
计量经济学导论 刘愿
45
误设模型
 
考虑误设模型:y  b 0  b1 x1 , 则有Var b1 
 
 
s2
SST1
因此, Var b1  Var bˆ1 ,除非 x1 与x2无关,两者一致
计量经济学导论 刘愿
46
误设模型(续)


误设模型的参数估计值方差更小,除非b2 = 0 ,
误设模型是有偏误的。
随着样本容量增大(SSTj增大),每个参数估
计值方差收缩至零,使得方差的差异不再重要。
计量经济学导论 刘愿
47
两种权衡选择



当自变量之间存在多重共线性时,参数估计值
之方差将会增大(T值将变小),但可能获得
无偏的估计。
如果将引起多重共线性的其中一个或多个变量
在模型中删掉,则会引起遗漏变量偏误问题。
如果我们关心的是b1,x2与x3之间的相关性无
关重要。
计量经济学导论 刘愿
48
估计误差方差
我们无法知道误差方差s2, 因为我们无法
观测误差ui。
我们能够观测到的是残差ûi。
我们可以使用残差去形成误差方差的估
计。
计量经济学导论 刘愿
49
误差方差估计(续)
sˆ    uˆ
  n  k 1  SSR df
因此 se  bˆ   sˆ  SST 1  R 
2
2
i
j


j
2
j
12
df = n – (k + 1), or df = n – k – 1
df (自由度)等于观测数n-估计参数个数k+1.
计量经济学导论 刘愿
50
定理3.3 s 2的无偏估计 
在高斯  马尔科夫假定MLR.1 ~ MLR.5下,E sˆ 2   s 2 .
 
sd bˆ j  s  SST j 1  R 2j  
 
12
 bˆ j的标准差
12
 bˆ j的标准误
se bˆ j  sˆ  SST j 1  R 2j  
 
 
如果误差表现出异方差性,se bˆ j 并非sd bˆ j 的可靠估计量。
 
即异方差性尽管不会导致bˆ j的偏误,却能导致Var bˆ j 的公式
偏误,从而使标准误无效。
计量经济学导论 刘愿
51
OLS的有效性:高斯-马尔科夫定理
定理3.4  高斯  马尔科夫定理 
在假定MLR.1~MLR.5下,bˆ0,bˆ1, ,bˆk 分别是
b 0,b1, ,b k的最优线性无偏估计量(BLUEs) .
 
无偏性:E bˆj  bj ;
n
线性:bˆ j   wij yi , 每个wij 都可以使所有自变量
i 1
样本值的一个函数;
最优:令bˆ0,bˆ1, ,bˆk 表示在假定MLR.1~MLR.5下,
模型3.31的OLS估计量;对任何一个线性无偏估计量bj ,
都有Var bˆ  Var b 。
 
j
 
j
计量经济学导论 刘愿
52