多元回归分析

Transcript 多元回归分析

多元回归分析：估计
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论刘愿
1
3.1 使用多元回归的动因

含有两个自变量的模型
既然exper/avginc与edu/expend相关，为得到b1的无偏估计，
明确将两个变量同时放在模型中是有益的。
计量经济学导论刘愿
2
y  b 0  b1 x1  b 2 x2  u
3.3
b 0为截距；
b1衡量了当其他因素不变时，x1对y的影响；
b 2 衡量了当其他因素不变时，x2 对y的影响；
cons  b 0  b1inc  b 2inc 2  u
3.4
如何解释上述方程中的参数？保持其他因
素不变的效应在上述方程中是否存在？
计量经济学导论刘愿
3
cons
consmax
inc
计量经济学导论刘愿
4

关键的假设是方程3.5中u与x1和x2的关系。
E  u x1 , x2   0
计量经济学导论刘愿
3.5
5

有K个自变量的模型
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论刘愿
3.6
6
多元回归方程的相关定义及性质





b0 为截距；
b1 到 bk 为斜率参数；
u 仍然为误差项或扰动项；
零条件均值假设： E(u|x1,x2, …,xk) = 0；
残差平方和最小化，可得k+1个一阶条件。
计量经济学导论刘愿
7
计量经济学导论刘愿
8
OLS的机制与解释

OLS Estimates结果是
OLS方法选择最小化残差平方和的估计值，即使3.10式
尽可能的小。
计量经济学导论刘愿
9
SRF
SSR
OLS First Order Condition
10
计量经济学导论刘愿
OLS回归方程的解释
计量经济学导论刘愿
11

例子3.1：大学生GPA的决定因素
计量经济学导论刘愿
12

例子3.2：小时工资方程
计量经济学导论刘愿
13
在多元回归中保持其他因素不变的含义

多元回归分析的作用是，提供了一个“在其他
因素保持不变”下的解释，尽管我们的数据并
非以这种方式搜集。
计量经济学导论刘愿
14
同时改变两种以上因素时参数的含义
计量经济学导论刘愿
15
OLS拟合值与残差项
Normally,
yi  yi
计量经济学导论刘愿
16
OLS拟合值及残差有与单变量回归同样的重要性质：
1. 样本残差均值为零:  uî  0;
2.每个自变量与OLS残差之样本协方差均为零，
OLS拟合值与残差之样本协方差也为零：
 x uˆ
i i
 0;  yî uî  0.
3.样本均值点  x1 , x2 ,
y  bô  bˆ1 x1  bˆ2 x2 
, xk , y  总是在OLS样本回归线上：
bˆk xk
计量经济学导论刘愿
17
多元回归参数估计值表达式
在二元回归中，bˆ1具有如下的表达式：
bˆ =
rˆ x  rˆ 2 
1

i1 i
 
i1
其中，rî1是xi1中与xi 2无关的部分，或者说是
xi 2的效应被排除( par t i al l ed out ) 之后的xi1。
因此，bˆ 衡量了排除了x 的影响后x 与y的关系。
1
2
计量经济学导论刘愿
1
18

证明:
xi1  xî1  rî1 ,
n
 xˆ uˆ
i 1

n
i1 i
0
   xî1  rî1  yi  bˆ0  bˆ1 xi1  bˆ1 xi 2 
i 1
n

  rî1 yi  bˆ0  bˆ1 xi1  bˆ1 xi 2 
i 1
n
  xˆ rˆ   0
ij i1
i 1
n
for all ( j  2,3,

 bˆk xik  0

 bˆk xik  0
k)


  rˆ  y  bˆ rˆ   bˆ  xˆ rˆ
  rˆ  y  bˆ rˆ   0
n
  rî1 yi  bˆ1 xi1   rîj  yi  bˆ1  xî1  rî1  
i 1
n
i 1
n
i 1
i 1
n
i1
i
1 i1
i1
i
1 i1
1
i 1
i1 i1
n
 bˆ1 
 rˆ y
i 1
n
i1 i
 rˆ
i 1
2
i1
计量经济学导论刘愿
19
简单线性回归于多元线性回归估计值比较
SRF
y  b 0  b1 x1
MRF
yˆ  bˆ0  bˆ1 x1  bˆ2 x2
以下两种情况简单回归函数和多元回归函数参数估计值相等：
计量经济学导论刘愿
20

例子3.3 401（K）养老金计划的参与率
计量经济学导论刘愿
21
拟合优度
计量经济学导论刘愿
22

例子3.4 大学GPA的决定因素
计量经济学导论刘愿
23

例子3.5 解释被逮捕的记录
计量经济学导论刘愿
24
OLS估计的期望值
多元回归的假设：



Assumption MLR.1: 总体参数线性：y = b0 + b1x1 +
b2x2+…+ bkxk+ u
Assumption MLR.2: 随机抽样：从总体随机抽样获得
一个样本容量为n的样本{(xi1, xi2 ,…, xik, yi): i=1, 2, …,
n}. 样本模型可写为： yi = b0 + b1xi1 + b2xi2+…+
bkxik+ ui
Assumption MLR.3: 零条件均值E(u| x1, x2 ,…, xk) = 0
模型误设： cons = b0 + b1inc + b2inc2+ u
遗漏重要因素;
测量误差.
计量经济学导论刘愿
25
Assumption MLR.4: 自变量之间不存在完全共
线性：在样本（因而在总体）中，没有任何一
个自变量是常数，自变量之间也不存在严格的
线性关系。
 MLR.4 允许自变量之间存在相关性，但不能是
完全相关。
• 一个变量是另一个变量的常数倍。
• 一个自变量恰好可以表达成其他两个或多个自
变量的线性函数。
• 样本容量n相对于被估计的参数个数而言太小。

计量经济学导论刘愿
26
计量经济学导论刘愿
27
计量经济学导论刘愿
28

Proof:
yi  b 0  b1 xi1  b 2 xi 2   b k xik  ui
rî1 yi

ˆ
b1 
2
ˆ
r
 i1
rî1  b 0  b1 xi1  b 2 xi 2   b k xik  ui 

 bˆ1 
2
ˆ
r
 i1
 rî1  0,  xij rî1  0; for all j  2,3, k .
2
ˆ
ˆ
x
r

r
 i1 i1  i1
 bˆ  b  rˆ u
rˆ 2
1


1

E bˆ1 | X  b1

rˆ E  u | X 


b
 rˆ
i1 i
E  ui | X   0
i1
i1
i
2
i1
计量经济学导论刘愿
1
29
在回归模型中包括了无关变量

在模型设定中包括了无关变量，对参数估计值
没有影响，OLS估计仍然无偏，但对OLS估计
值的方差会有不良影响。（证明见后面）

如果在模型中遗漏了一个应该包括进来的变量，
OLS估计还会保持无偏吗？
计量经济学导论刘愿
30
遗漏变量偏误
假设真实模型是：y  b 0  b1 x1  b 2 x2  u ,
但我们估计了: y  b 0  b1 x1  u, 则
 xi1  x1  yi

b1 
2
  xi1  x1 
计量经济学导论刘愿
31
遗漏变量偏误（续）
回忆真实模型yi  b0  b1 xi1  b 2 xi 2  ui , 参数估计值分子变为：
  xi1  x1  b0  b1xi1  b2 xi 2  ui 
 b1   xi1  x1   b 2   xi1  x1 xi 2    xi1  x1 ui
2
计量经济学导论刘愿
32
遗漏变量偏误（续）
b1  b1  b 2
 x  x  x   x  x u
  x  x     x  x  
i1
1
i2
i1
1
2
i1
i
2
1
i1
1
既然 E(ui )  0, 对b1取期望可得：
 xi1  x1  xi 2

E b1  b1  b 2
2
  xi1  x1 
 


计量经济学导论刘愿
33
遗漏变量偏误（续）
考虑x2 对x1进行回归：
x2   0  1 x1，则1
 
E b   b
x  x  x


  x  x  
i1
1
i2
2
i1
1
则 E b1  b1  b 21
1
1
 b 21为遗漏变量偏误
如何理解遗漏偏误期望值的表述
计量经济学导论刘愿
34
遗漏变量偏误总结

偏误等于零的两种情况:

b2 = 0, 即 x2 不应该包括在这个模型中。

在样本中x1 和 x2 是不相关的。
计量经济学导论刘愿
35
偏误方向总结
Corr(x1, x2) > 0 Corr(x1, x2) < 0

1
0


1
0

b2 > 0
偏误为正
偏误为负
b2 < 0
偏误为负
偏误为正
计量经济学导论刘愿
36
遗漏变量偏误：更一般的情形


从技术上看，对更一般的情形来说，只有当所
包括的自变量都不相关时，我们才能判定偏误
的符号。
因此，在研究偏误方向时，我们假设x不相关，
并以此作为一个有用的指导，尽管这一假设在
严格意义上来说并成立。
计量经济学导论刘愿
37

一个一般的结论：
在一个三变量多元回归中，假设遗漏了x3，
且x1与x3相关，但x2与x3无关。
如果x1与x2无关，则对b2的估计是无偏的；
如果x1与x2相关，则对b2的估计是有偏的。
计量经济学导论刘愿
38
y  b 0  b1 x1  b 2 x2  b3 x3  u
y  b 0  b1 x1  b 2 x2
 xi1  x1 xi 3

E b1  b1  b3
if cov  x1 , x2   0
2
  xi1  x1 
 
wage  b 0  b1educ  b 2 exp er  b3abil  u  bˆ1
wage  b 0  b1educ  b 2 exp er  v  b1
计量经济学导论刘愿
39
OLS估计量的方差
我们已知，参数估计值的样本分布以真
实参数为中心。
进一步的，我们希望了解这一分布的分
散程度。
增加一个同方差性假设，即假设：
Var(u|x1, x2,…, xk) = s2
计量经济学导论刘愿
40
OLS估计量的方差（续）


令 x代表 (x1, x2,…xk)，假设 MLR.5: Var(u|x)
= s2 可写成 Var(y| x) = s2
前面4个假设是为了无偏性，加上同方差性假
设即构成横截面数据的高斯-马尔科夫假设。
计量经济学导论刘愿
41
OLS估计量的方差（续）
定理3.2 （OLS斜率估计量的抽样方差）
在假定MLR.1~MLR.5之下（高斯-马尔科夫假定），
以自变量的样本值为条件，对所哟的j=1,2, ,k,都有
 
Var bˆ j 
s2
SST j 1  R
2
j

,
式中，SST j    xij  x j  为xj 的总样本变异；
2
R 2j 则为将x j 对所有其他自变量（并包含一个截距项）
进行回归所得到的R 2。
计量经济学导论刘愿
42

证明：
2
ˆ
b1  b1   rî1ui  rî1
2
ˆ
r
var
u
|
X



i
1
i
ˆ
var b1 | X 
2 2
  rî1 




2 2
ˆ
 ri1 s
  rˆ 
2 2
i1

s
2
 rˆ
2
i1

s
2
SST1 1  R
2
1

SSR SST  1  R 2 
计量经济学导论刘愿
43
OLS估计值方差的组成



误差方差: s2越大，OLS估计值方差越大。
总样本差异性：SSTj 越大， OLS估计值方差
越小。
自变量之间的线性相关性：Rj2越大，参数估
计值的方差也越大。
计量经济学导论刘愿
44
自变量相关性与参数估计值方差的关系
 
 
R 2j  1, 则Var bˆ j  。两个或多个
Var bˆ1
自变量之间高度（但不完全）相关被
称为多重共线性。
多重共线性并没有违背无偏性的任何
假定，因此并不会导致估计值偏误；
但会增大估计值的方差。
去掉模型中的某个变量，可能减轻自
变量之间的相关性，但却冒遗漏变量
偏误之风险。
R12
1
计量经济学导论刘愿
45
误设模型
 
考虑误设模型：y  b 0  b1 x1 , 则有Var b1 
 
 
s2
SST1
因此, Var b1  Var bˆ1 ，除非 x1 与x2无关，两者一致
计量经济学导论刘愿
46
误设模型（续）


误设模型的参数估计值方差更小，除非b2 = 0 ,
误设模型是有偏误的。
随着样本容量增大（SSTj增大），每个参数估
计值方差收缩至零，使得方差的差异不再重要。
计量经济学导论刘愿
47
两种权衡选择



当自变量之间存在多重共线性时，参数估计值
之方差将会增大（T值将变小），但可能获得
无偏的估计。
如果将引起多重共线性的其中一个或多个变量
在模型中删掉，则会引起遗漏变量偏误问题。
如果我们关心的是b1，x2与x3之间的相关性无
关重要。
计量经济学导论刘愿
48
估计误差方差
我们无法知道误差方差s2, 因为我们无法
观测误差ui。
我们能够观测到的是残差ûi。
我们可以使用残差去形成误差方差的估
计。
计量经济学导论刘愿
49
误差方差估计（续）
sˆ    uˆ
  n  k 1  SSR df
因此 se  bˆ   sˆ  SST 1  R 
2
2
i
j


j
2
j
12
df = n – (k + 1), or df = n – k – 1
df (自由度)等于观测数n-估计参数个数k+1.
计量经济学导论刘愿
50
定理3.3 s 2的无偏估计 
在高斯  马尔科夫假定MLR.1 ~ MLR.5下，E sˆ 2   s 2 .
 
sd bˆ j  s  SST j 1  R 2j  
 
12
 bˆ j的标准差
12
 bˆ j的标准误
se bˆ j  sˆ  SST j 1  R 2j  
 
 
如果误差表现出异方差性，se bˆ j 并非sd bˆ j 的可靠估计量。
 
即异方差性尽管不会导致bˆ j的偏误，却能导致Var bˆ j 的公式
偏误，从而使标准误无效。
计量经济学导论刘愿
51
OLS的有效性：高斯-马尔科夫定理
定理3.4  高斯  马尔科夫定理 
在假定MLR.1~MLR.5下，bˆ0，bˆ1，，bˆk 分别是
b 0，b1，，b k的最优线性无偏估计量（BLUEs) .
 
无偏性：E bˆj  bj ;
n
线性：bˆ j   wij yi , 每个wij 都可以使所有自变量
i 1
样本值的一个函数；
最优：令bˆ0，bˆ1，，bˆk 表示在假定MLR.1~MLR.5下，
模型3.31的OLS估计量；对任何一个线性无偏估计量bj ，
都有Var bˆ  Var b 。
 
j
 
j
计量经济学导论刘愿
52

多元回归分析

Transcript 多元回归分析

Directory