二值虚拟变量

Download Report

Transcript 二值虚拟变量

多元回归分析:虚拟变量
y = b0 + b1x1 + b2x2 + . . . bkxk + u
计量经济学导论 刘愿
1
Dummy Variables



A dummy variable is a variable that takes on
the value 1 or 0
Examples: male (= 1 if are male, 0otherwise),
south (= 1 if in the south, 0 otherwise), etc.
Dummy variables are also called binary
variables, for obvious reasons
计量经济学导论 刘愿
2
A Dummy Independent Variable



Consider a simple model with one continuous
variable (x) and one dummy (d)
y = b0 + d0d + b1x + u
This can be interpreted as an intercept shift
If d = 0, then y = b0 + b1x + u
If d = 1, then y = (b0 + d0) + b1x + u
The case of d = 0 is the base/benchmark
group
计量经济学导论 刘愿
3
Example of d0 > 0
y
y = (b0 + d0) + b1x
d=1
{
d0
b0
slope = b1
d=0
y = b0 + b1x
x
计量经济学导论 刘愿
4
wage  b0  b1male  b2 female  b2educ  u
由于female  male  1, 模型同时引入male和female
将产生完全共线性,产生所谓的虚拟变量陷阱。
wage  b1male  b2 female  b2educ  u
将总截距去掉,将每一组的虚拟变量包括进来,
男人的截距是b1,女人的截距是b 2,因为没有总
截距,所以不存在虚拟变量陷阱。但检验截距的
差值更困难,而且对于不含截距项的回归R 2计算
方法没有一致同意的方法。
计量经济学导论 刘愿
5
例7.1 是否存在性别歧视
ˆ  1.57 1.81 female  0.572educ  0.025exp er  0.141tenure
wage
(0.72) (0.26)
(0.049)
(0.021)
(0.012)
n  526, R  0.364
2
是否存在性别歧视?
ˆ  7.10 2.51 female
wage
(0.21) (0.30)
n  526, R2  0.116
均值比较检验
计量经济学导论 刘愿
6
例7.2 拥有计算机 与大学GPA
colGPA  b0  d0 PC  b1hsGPA  b2 ACT  u
ˆ
colGPA
 1.26  0.157 PC  0.447hsGPA  0.008 ACT
(0.33) (0.057)
(0.094)
(0. 0105)
n  141, R2  0.219
tPC  0.157 / 0.57  2.75
计量经济学导论 刘愿
7
例7.3 培训津贴对培训小时数的影响
ˆ  46.67 26.25grant 0.98 log  sales  6.071log  employ 
hrsemp
 43.41 5.59 
 3.54 
 3.88
n  105, R 2  0.237
t grant 4.7
问题的关键是:定性变量所度量的影响是否为因果性?
办法之一是,尽可能控制与虚拟变量及因变量相关的因素。
计量经济学导论 刘愿
8
当因变量为log(y)时对虚拟变量系数的解释

当自变量中有一个或多个虚拟变量时,因变量
以对数形式出现,虚拟变量的系数具有一种百
分比解释。
在保持其他因素不变的情况下,一套殖民地建筑风格的住房的卖价预计高出约5.4%。
计量经济学导论 刘愿
9
当y有较大比例变化时,如何更准确估
计y变化的百分比?
logˆ  wageF   logˆ  wageM   0.297 1
 wageF  wageM  wageM  exp  0.297   1  0.257
这表明,一个女人的工资比一个与他相当的男人
的工资大致低25. 7%。
计量经济学导论 刘愿
10
 log y  log y1  log y0  b 2 x2
y1  y0  y0
y1
 log  log
 b 2 x2
y0
y0
y  y0
 log
 b 2 x2
y0
 y 
 log 
 1  b 2 x2
 y0

y
 exp  b 2 x2   1
y0
计量经济学导论 刘愿
11
Dummies for Multiple Categories




在应用研究中,我们需要使用多个虚拟变量。
在控制性别的基础上,研究婚姻状态的影响;
在区域研究中,往往区分东、中、西部;在省
级面板数据中,甚至会引入n-1个地区虚拟变
量。
虚拟变量可以描述包含序数的信息:信用等级
计量经济学导论 刘愿
12
例7.6 工资方程
估计一个工资对如下四组都不同的模型:已婚男人、已婚女人、单身男人、单
身女人。首先选择基组:单身男人,对剩下的每一组定义一个虚拟变量,并称
之为marrmal,marrfem,和singfem。因此,三个虚拟变量的估计量度量的都是与
单身男人相比,工资的比例差异。
计量经济学导论 刘愿
13

如果要比较特定两组之间工资的差异,可以重
新设定基组进行回归分析。例如,为检验单身
女人和已婚女人之间的估计差异是否显著,以
已婚女人组作为基组重新估计得到:
tsingfem  0.088/ 0.052  1.69

在方程中包括虚拟变量来象征不同组的一般原
则:如果回归模型有g组或g类不同的截距,在
模型中则包含g-1个虚拟变量和一个1截距。
计量经济学导论 刘愿
14
通过虚拟变量来包含序数信息

序数变量:穆迪或标准普尔对地方政府债券的
质量进行了级别评定,假设等级范围从零到四,
零为最低的信用等级,四位最高的信用等级,
记为CR。然而,很难有意义地解释CR变化一
个单位对MBR的影响。
MBR  b0  b1CR  其他因素
计量经济学导论 刘愿
15
可以考虑如下模型,其中,如果CR  1,则CR 1  1,否则CR 1  0;
如果CR  2,则CR 2  1,否则CR 2  0;如此等等。即以等于零的
信用等级作为基组,得到如下方程:
MBR  b0  d1CR1  d 2CR2  d3CR3  d 4CR4  其他因素
d j 系数含义可解释为:保持其他因素不变,信用等级为j
级的城市和信用等级为零级的城市之间在MBR上的差异。
其中,j  1, 2,3, 4。
问题:两种估计方法中,哪种方法更优?
计量经济学导论 刘愿
16
例7.7 相貌吸引力对工资的影响

在劳动力市场中,除了存在性别歧视之外,还
可能存在相貌、身高等歧视。如果将样本相貌
分为三类:一般水平、低于一般水平、高于一
般水平,并以一般水平组作为基组,分别对男
人、女人估计方程得:
计量经济学导论 刘愿
17
如何解释两方程中相貌因素对工资的作用:
对于男人组,那些相貌低于平均水平的人,在其他方面相同
的情况下,预计比相貌处于平均水平的男人约少挣16. 4%,且
t统计量为- 3. 57,表明这个影响在统计上是显著异于零的;类
似地,相貌高于平均水平的男人预计要多挣约1. 6%,尽管这种
影响在统计上并不显著(t<0.5)。
女人组的情况如何?
通过这两个回归方程,你得到什么启示?
计量经济学导论 刘愿
18
例7.8 法学院排名对起薪的影响
定义虚拟变量top10, r11 ~ 25, r 26 ~ 40, r 41 ~ 60, r 61 ~ 100,
并让这些变量在排名落在相应的区间时取值1。以排名在
100名以后的法学院为基组,所估计的方程是:
计量经济学导论 刘愿
19
将式  7.13中的调整R  平方与把排名作为一个单独变量得到
的调整R  平方比较,前者是0.905,后者是0.836。所以,式
 7.13 增加了回归的灵活性。
另外,式  7.13中所有其他变量都变得不显著了,联合显著性
检验给出P值为0.055;当 rank以其原有形式被包括在模型中时,
联合显著性检验的P值在小数点后四位数都是零。
计量经济学导论 刘愿
20
涉及虚拟变量的交互作用

虚拟变量之间的交互作用
例7.6根据婚姻状况和性别定义了四个类别,在模
型中引入三个虚拟变量,以单身男性为基组研究
了不同类别之间的工资差异。除此之外,还有什
么方法?
计量经济学导论 刘愿
21

此外,我们还可以在female和married分别出
现的模型中,增加一个female和married的交
互项,同样可以进行组别工资差异比较。
1 模型的基组是?
 2已婚男性组的截距是?
 3已婚女性组的截距是?
 4  未婚女性组的截距是?
单身男性,截距为0.321.
0. 321+0. 213=0. 534
0. 321- 0. 110+0. 213- 0. 301=0. 123
0. 321- 0. 110=0. 211
计量经济学导论 刘愿
22
例7.9 计算机使用对工资的影响
1 模型的基组是?
 2 相对于基组,工作中使用计算机(但在家里不使用)者估计回报差值是?
 3 相对于基组,在家里使用(但在工作中不使用)计算机者估计回报差值是?
 4  相对于基组,在工作中和家里都使用计算机者估计回报差值是?
本模型以在家里和工作中都不使用计算机者为基组
约等于17.7%;
更精确的估计值是exp 0.177  -1=19.4%
约等于7%;
更精确的估计值是exp  0.07 -1= 7.25%
约等于26.4%;
更精确的估计值是exp  0.264 -1= 30.2%
计量经济学导论 刘愿
23
容许出现不同的斜率


虚拟变量之间的交互项反映的是截距之间的差
异,斜率并未发生变化。含义是:样本回归曲
线是平行的。
虚拟变量与非虚拟变量之间也有交互作用,使
得出现不同的斜率。
female  0, 男性组截距是b0,受教育的斜率是b1;
female  1, 女性组的截距是b0  d 0,受教育的斜率是b1  d1。
计量经济学导论 刘愿
24
计量经济学导论 刘愿
25


我们关心的两个假设:
男性和女性受教育的回报是相同的。
H0:d1  0

受教育水平相同的男性和女性的平均工资相同。
H0:d0  0,d1  0
计量经济学导论 刘愿
26
例7.10 对数小时工资方程
1 方程中男性与女性的教育回报分别是多少?统计显著性如何?
 2  方程中female及其交互项系数t统计量分别为1. 64、0. 42,可以
由此断定没有统计显著的证据拒绝女人在相同的edu,exper和tenure
时得到较低的回报吗?
3 如何解决可能存在的多重共线性问题?
计量经济学导论 刘愿
27
1 男性的教育回报约为8. 2%;
女性的教育回报是0. 082- 0. 0056=0. 0764( 7. 64%) .
 2  female和female edu之间存在多重共线性,导致参数
估计值标准误增大,t统计量显著性下降。实际上,female
的参数值衡量的是当edu  0时男性与女性的工资差异,
但样本中没有一个人具有甚至是接近于零年的受教育水平。
 3 可以考虑在样本的平均受教育水平(12.5)上估计性别
工资差异,即以female  edu - 12.5  取代female edu重新进行
回归。这只会改变female的系数及其标准误。
计量经济学导论 刘愿
28
检验不同组之间回归函数上的差别

现在,我们考察的虚拟假设是:两个总体或两
组具有同一个回归函数;对立假设是,各组间
有一个或多个斜率是不同的。
如何检验这一虚拟假设?
计量经济学导论 刘愿
29
估计去掉female和所有交互项后的受约束模型,R2  0.352
R
 Rr2  / q
0.406  0.352  / 4

F

8
2
1  Rur  / n  k  1 1  0.406 / 366  7  1
2
ur
计量经济学导论 刘愿
30
如何解释男女运动员GPA的差异?
如果只看变量female,结论是:保持其他因素不变,
女性的GPA将比男性少约0. 353. 但这只是假设sat ,
hsper c, t ot hr s都等于零时所得到的估计差异,这
种情况并不是很有意义。
在sat  1100, hsperc  10和t ot hr s=50时,女性与男性之间的
差异为- 0. 353+0. 000751100  0.00055 10   0.00012  50   0.461
计量经济学导论 刘愿
31
一般的检验方法:邹至庄统计量
在含有k 个解释变量和一个截距项的一般模型中,假设有两组,
称为g=1和g=2。我们想检验这两组的截距和所有的斜率都相同。
不受约束模型除了截距项和变量本身外,还有一组虚拟变量和交互项,
其自由度为n- 2 k+1。不受约束模型的残差平方和可通过两个分离的回
归得到。令SSR、
SSR 2 表示第一组、第二组估计所得到的残差平方和,
1
SSR为受约束模型的残差平方和(将两组混合并估计一个方程所得到)。
 SSR   SSR1  SSR2   /  k  1
F
 SSR1  SSR2  /   n  k  1 
计量经济学导论 刘愿
Chow statistic
32
邹至庄检验的步骤:




确立回归的一般模型,明确受约束模型和不受
约束模型的自由度。(约束个数:k+1)
分别将两组进行回归得到SSR1和SSR2。
将两组数据混合并重新估计模型得到受约束模
型的残差平方和SSR.
运用公式计算邹统计量,检验显著性水平。
计量经济学导论 刘愿
33
邹检验有何局限性?
邹检验的虚拟假设要求各组之间不存在任何差异。
一般的F检验可以灵活的检验任意的虚拟假设。例
如,容许组间的截距不同来检验斜率的差别,甚至
可以检验个别变量的斜率差异。
计量经济学导论 刘愿
34
7.5 二值因变量:线性概率模型

迄今为止,我们讨论的因变量均具有定量的含
义。如果用多元回归解释一个定性事件,需引
入二值因变量,即y只取0和1两个值。例如,y
表示一个成年人是否受过高中教育,或一个大
学生在给定年份是否用过非法毒品等。
如何解释b j的含义?
计量经济学导论 刘愿
35
假定零条件均值假定MLR.3成立,即E  u|x1,
E  y | x   b0  b1x1  b2 x2 
xk   0, 则
 bk xk
当y为二值变量时,“ 成功” 的概率P y=1| x   E  y | x 
(即y  1的概率)等于y的期望值总是成立的。则:
P  y  1| x   b0  b1x1  b2 x2 
 bk xk 响应概率
它说明成功的概率p  x  =P  y  1| x  是x j的一个线性函数。
所以这种带有二值因变量的多元线性回归模型有被称为
线性概率模型(LPM)。b j 度量了在保持其他因素不变
时,xj 的变化导致成功概率的变化:
P  y  1| x   b j x j
计量经济学导论 刘愿
36
参与劳动市场概率的影响因素
如何解释各参数的经济含义?
计量经济学导论 刘愿
37
17
nwifeinc  50,exp er  5, age  30, kidslt 6  1, kidsge6  0
计量经济学导论 刘愿
38
线性概率模型的缺点:
1 LPM预测值是概率,必须介于0 1之间,但代入自变量
的值进行预测可能得到小于0或大于1的预测值。但这些异
常的预测值往往只是当x取极端值的时候才会出现,只有极
个别的样本取这些极端值,甚至没有样本取这样的极端值。
 2 当y是二值变量,其以x为条件的方差为:
var  y | x  = p  x  1- p  x   , 其中,p  x   b 0  b1 x1   b k xk .
如果成功的概率与任何一个自变量相关,则线性概率模型
存在异方差性,违背了高斯- 马尔科夫同方差性假定。
计量经济学导论 刘愿
39
线性概率模型常常应用于对自变量取值在样本均值附近。
异方差性不会影响OLS估计量的无偏性,但对通常的t 和F
统计量的正确性至关重要,针对这种异方差性修正标准误。
计量经济学导论 刘愿
40
7.6 对政策分析和项目评价的进一步讨论
——内生性问题

在社会科学研究中,对照组和处理组并不是随
机指定的,因此可能遭遇变量内生性问题。
如果一个企业是否得到培训津贴与一些影响工人生
产力的观测不到的因素有关,则会产生什么问题?
计量经济学导论 刘愿
41
关于种族歧视的检验:贷款许可中的歧视问题
批准贷款取决于许多其他因素,包括收入、财富、
信用等级和偿还贷款的一般能力等,如果这些因
在各种族间存在着系统差异,就必须加以控制。
计量经济学导论 刘愿
42
自选择(self-selection)问题

个人自己选择加入某种行为或项目的事实:参
与并不是随机决定的。
如果E  u | partic  1  E  u | partic  0 ,则意味着总体误差与
自变量有关,解释变量存在内生性,关于b1的简单回归估计
量产生偏误。多元回归分析通过控制与partic相关的因素
 如果能搜集到相关数据的话  在某种程度上缓解自选择问题。
计量经济学导论 刘愿
43

政治面貌是否影响大学生就业?
一般而言,党员在大学生就业市场中具有一定
的优势。那么,用人单位究竟是看中党员这种
政治身份,还是看中党员身后所具备的能力素
质。
yi  b0  b1Partyi  b2GPAi  b3Cardrei  u
计量经济学导论 刘愿
44