多元回归分析

Download Report

Transcript 多元回归分析

第二章
多元回归分析
 在许多经济问题中,一元线性回归只不过是回
归分析中的一种特例,它通常是对影响某种经
济现象的许多因素进行了简化考虑的结果。
 若某公司管理人员要预测来年该公司的销售额y
时,研究认为影响销售额的因素不只是广告宣
传费x1,还有个人可支配收入x2,价格x3,研究与
发展费用x4,各种投资x5,销售费用x6.
 因此我们需要进一步讨论多元回归问题。
 第一节
多元线性回归
 第二节 可化为多元线性回归的问题
 第三节 曲线回归
 第四节 逐步回归
 第五节 岭回归
 推荐阅读
第一节 多元线性回归

Yi= b0+b1x1i+b2x2i+…+bpxpi+ξi
Y1=b0+b1x11+b2x21+…+bpxp1+ ξ1
Y2=b0+b1x12+b2x22+…+bpxp2+ ξ2
…
Yn=b0+b1x1n+b2x2n+…+bpxpn+ ξn


令
Y=
y1
y2
yn
b0
b1
 B= …
bp

则 Y=XB+e
1 x11 x21 … xp1
x= 1 x12 x22 … xp2
1 x1n x2n … xpn
ξ1
ξ2
e= …
ξn
一、多元线性回归模型的基本假定
 解释变量x1,x2,…,xp是确定性变量,不是随机变量,而
且解释变量之间互不相关
 随机误差项具有零均值和同方差
E( ξ i)=0
var(ξ i)=E(ξ i -E(ξ i))2=E(ξ i)2=σ2
 随机误差项在不同样本点之间是相互独立的,不存在
序列相关
cov(ξ i, ξ j)=0 i≠j i,j=1,2,…n
cov(ξ i, ξ j)=E((ξ i -E(ξ i)(ξ j -E(ξ j))
=E(ξ i ξ j)
=E(ξ i )E(ξ j)
=0


 随机误差项与解释变量之间不相关
cov(xi, ξ
i)=0
 随机误差项服从零均值,同方差的正态分布
ξ i~N(0,σ2)
 二、建立回归方程
设
令
ˆ  bˆ  bˆ x  bˆ x    bˆ x
Y
i
0
1 1i
2 2i
p pi

 i  yi  yˆ i  yi  bˆ 0  bˆ 1x1i  bˆ 2 x 2i    bˆ p x pi
Q  
即
2
i
Q
0
ˆ
b



  0


x


x   0
Q
 2 yi  bˆ0  bˆ1 x1i    bˆp x pi
bˆ
0
Q
 2 yi  bˆ0  bˆ1 x1i    bˆp x pi
bˆ

p
 2 i x1i  0
  0
 x  0


 2 i x pi  0
 0
1
Q
 2 yi  bˆ0  bˆ1 x1i    bˆp x pi
bˆ
 2 i  0
1i
i
i 1i
 x
i pi
0
pi
1   2     n  0
1 x11   2 x12     n x1n  0

1 x p1   2 x p 2     n x pn  0
 1
x
 11


 x p1
1

x12



xp2

Y  XB  e
X Y  X XB  X e
1  1   0 

x1n   2   0 
  
   
   
x pn   n   0 
X XB  X Y
ˆ   X X 1 X Y
B
xe  0
三、多元线性回归模型的建模方法
 1.打开文件或新建文件
 2.Analyze
regression
liner
3.建模方法
(1)enter:强迫进入法
(2)stepwise:逐步选择法
(3)remove:强迫消除法
(4)backward:向后剔除法
(5)forward:向前引入法


回归统计量
(1)estimates:显示回归系数及相关的指标
(2)confidence intervals:显示未标准化回归系
数的置信区间
(3)covariance matrix: 未标准化回归系数的
方差—协方差矩阵
(4)model fit:模型检验

回归统计量
(5)R squared change
(6)descriptive:显示变量的均值、标准差等
(7)Part and partial correlations:
(8)collinearity diagnostics:共线性诊断
(9)Durbon_waston:D.w.检验统计量
举例(一)
 根据我国某地区乡镇企业总产值、从业劳动者
人数和固定资产原值的历年资料,求回归方程。
(总产值- y,从业劳动者人数-x1,固定资产原值x2)
 (数据见spssex/例子1)
C o e f f i c i e n t sa
Unstandardized
Coefficients
Model
B
Std. Error
1
(Constant) -1353.546
162.576
X1
.544
.075
X2
1.207
.217
a. Dependent Variable: Y
Standardized
Coefficients
Beta
.577
.443
t
-8.326
7.232
5.555
Sig.
.001
.002
.005
y  1353.546 0.544x1  1.207x2
(8.326)
(7.232)
(5.555)
举例(二)
 卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗
卫生、体育、办公设施等建筑必不可少的卫生
设备。合理地发展卫生陶瓷生产是国民经济的
需要。卫生陶瓷产量y与城镇住宅建筑面积x1,
医疗卫生机构建筑面积x2,办公室建筑面积x3有
关。试根据历史资料建立回归方程。
 (数据见spssex/例子2)
Coefficientsa
Model
1
(Constant)
x1
x2
x3
Unstandardized
Coefficients
B
Std. Error
.488
2.218
.576
.136
4.769
1.983
-2.145
1.016
Standardized
Coefficients
Beta
.803
.470
-.416
t
.220
4.245
2.404
-2.111
Sig .
.829
.001
.029
.051
a. Dependent Variable: y
Y=0.488+0.576x1+4.769x2-2.145x3
(4.245) (2.404) (-2.111)
举例(三)
 在研究国家财政收入时,我们把财政收入按收
入形式分为各项税收收入、企业收入、债务收
入、国家能源交通重点建设基金收入、基本建
设贷款归还收入、国家预算调节基金收入、其
他收入等。为了建立国家财政收入回归模型,
我们以财政收入y为因变量。自变量如下:x1工
业总产值,x2农业总产值,x3建筑业总产值,
x4人口数,x5社会商品零售总额,x6受灾面积
 (数据见spssex/例子3)
Coefficientsa
Model
1
(Constant)
x1
x2
x3
x4
x5
x6
Unstandardized
Coefficients
B
Std. Error
-13534.1
5138.920
.209
.063
-.060
.144
.763
.326
.141
.052
-.855
.292
.227
.088
Standardized
Coefficients
Beta
1.804
-.149
.913
1.062
-2.644
.182
t
-2.634
3.292
-.416
2.341
2.703
-2.932
2.595
Sig .
.039
.017
.692
.058
.035
.026
.041
a. Dependent Variable: y
Y=-13534.1+0.209x1-0.06x2+0.763x3+0.141x4-0.855x5+0.227x6
(3.292) (-0.416) (2.341) (2.703) (-2.932) (2.595)
 五、回归方程的效果的检验
 方程显著性检验
 参数显著性检验
 拟合优度检验(复相关系数、偏相关系数)
 对假设理论的检验

链接
yi  yi   yi  yˆ i    yˆ i  y 
y
2
2
2
ˆ
ˆ






y

y

y

y

y

y
 i i  i i  i  2  yi  yˆ i  yˆ i  y 
  yi  yˆ i  yˆ i  y    ei  yˆ i  y    ei yˆ i   ei y
y  yˆ
yˆ  y


  ei bˆ0  bˆ1 x1i    bˆ p x pi  bˆ0  ei  bˆ1  ei x1i    bˆ p  ei x pi  0
2
2
   yi  yi     yi  yˆ i     yˆ i  y 
2
TSS  RSS  ESS

例2中,方差分析表为:
ANOVAb
Model
1
Reg ression
Residual
Total
Sum of
Squares
803.816
204.734
1008.550
a. Predictors: (Constant), x3, x1, x2
b. Dependent Variable: y
df
3
16
19
Mean Square
267.939
12.796
F
20.939
Sig .
.000a
1.方程显著性检验(F检验)
 F检验是以方差分析为基础,对回归总体线性关系是否
显著的一种假设检验,是解释模型中被解释变量与所有
解释变量之间的线性关系在总体上是否显著的方法
 利用F统计量进行总体线性显著性检验的步骤如下:
(1)提出关于P个总体参数的假设
H0:b0=b1=b2=…=bp=0
(2)构造统计量
ESS/p

F
RSS/n - p - 1
(3)检验 给定显著性水平α,查F分布表
若F>Fα,拒绝H0,表明回归总体有显著性关系.
若F<F α,接受原假设,表明不存在线性关系
2.参数显著性检验
 参数显著性检验,是对每个解释变量进行检验.
 如果解释变量对被解释变量的影响不显著,应从模型中
删除,如果解释变量对被解释变量的影响显著,应保留在
模型中.
 利用t统计量进行参数显著性检验的步骤如下:
(1)对总体参数提出假设:H0:bi=0
2
(2)构造统计量:
b
s y

t
i
sbi
sbi 
2


x

x
 i i
(3)检验
对给定α,若︱t︱>t α /2,说明拒绝原假设
若︱t︱<t α /2,则接受原假设.
 如果一次t检验后,模型中存在多个不重要变量,
一般是将t值最小的变量删除掉,再重新进行检验,
每次只剔除1个变量.
2
i
b aii
Fi 
RSS n  p  1
 aii是(X`X)-1主对角线上第i+1个元素
返回
 六、复相关系数和偏相关系数
 复相关系数R是由ESS和TSS构造的统计量,用
来表示回归方程对原有数据拟合程度的好坏,
衡量作为一个整体的x1,x2,…,xp与y的线性关系
的大小。
ESS
R

TSS
  yˆ  y 
y  y
2
i
2
i
回归方程的拟合优度检验就是要检验样本数据点聚集
在回归直线周围的密集程度,从而评价回归方程对样
本数据的代表程度。由判定系数R2来实现。
 实际中,随着自变量个数的不断增加,必然会使得R2
不断变化,于是出现的问题是,R2变化是由于数学习
性决定的,还是确实是由于引入了好的变量进入方程
而造成的。因此在作拟合优度检验的判定时,一般采
用调整的R2,以消除自变量的个数以及样本量的大小
ESS
RSS
对R2的影响。
2

R 
TSS
 1
TSS
n 1
RSS
2
R  1

n  p  1 TSS
 其它变量被固定后,计算任意两个变量之间的
相关系数,这种相关系数称为偏相关系数。
r12  r1 p
r11
r12  r1 p
r21 r22  r2 p
r21
r22  r2 p r2 y
r11
 
   
rp1 rp 2  rpp
     
rp1 rp 2  rpp rpy
ry1 ry 2  ryp
rij.12i 1i 1 j 1 j 1 p 
ryi.12i 1i 1 p 
r1 y
  iy
 ii  yy
ryy
 ij
ii jj
 简单相关系数只是一种数量表面上的相关系数,
而并非本质的东西。偏相关系数才真正反映两
个变量的本质联系。
 Zero-order:零阶相关系数,计算所有自变量与
因变量间的简单相关系数。
 Part correlation:部分相关,在排除了其他自变量
对xi的影响后,当一个自变量进入模型后,复
相关系数的平方增加量。

返回
回归方程的残差分析
残差序列的正态性分析
 残差序列的随机性分析
 残差序列的独立性分析
 奇异值诊断
 异方差诊断


返回
残差序列的正态性分析:
 通过绘制标准化残差序列的带正态曲线的直方
图或累计概率图来分析,确定残差是否接近正
态
 Analyze->regression->linear
 Plot子对话框中选Histogram或p-p图

返回
残差序列的随机性分析:
 可以绘制残差序列和对应的预测值序列的散点
图。如果残差序列是随机的,那么残差序列应
与预测值序列无关,残差序列点将随机地分布
在经过零的一条直线上下。
 在线性回归Plots对话框中的源变量表中,选择
SRESID(学生氏残差)做Y轴,选ZPRED(标
准化预测值)做X轴

返回
残差序列的独立性分析:
 分析残差序列是否存在后期值与前期值相关的
现象。
 D.W检验

返回
样本奇异值的诊断:
 样本奇异值是样本数据中那些远离均值的样本
数据点。它们会对回归方程的拟合产生较大偏
差影响。
 一般认为,如果某样本点对应的标准化残差的
值超出了-3—+3的范围,就可以判定该样本数
据为奇异值。
 Analyze->regression->statistics->case diagnostics

返回
异方差诊断:
线性回归模型要求残差序列服从等方差的正态分布
 一般通过绘制SRESID与因变量预测值的散点图或计算
SRESID和因变量预测值间的相关系数。
 如果残差序列和预测值的平方根成正比例变化,可以
对因变量作开方处理;如果残差序列与预测值成比例
变化,可以对因变量取对数;如果残差序列与预测值
的平方成比例的变化,可以对因变量求倒数。
 还可以用WLS法消除异方差。


返回
 七、预测和控制
 所谓预测就是给定解释变量x样本外的某一特征
值x0=(1,x10,x20,…,xp0),对因变量的值y0以及
E(y0)进行估计。
yˆ 0  b0  bx0
 1、y0的点预测:
 2、y0的(1-α)的预测区间:
[ yˆ 0  t S yˆ0 , yˆ 0  t S yˆ0 ]
2
2
 例5
继例1,预测从业劳动者为3000万人,固
定资产原值为400亿元时该地区的总产值,并给
出α=0.05时的预测区间.

返回
 例6
中国民航客运量的回归模型.为了研究我国
民航客运量的变化趋势及成因,我们以民航客运
量作为因变量y,以国民收入、消费额、铁路客
运量、民航航线里程、来华旅游入境人数为影
响民航客运量的主要因素。Y-民航客运量(万
人),x1-国民收入(亿元),x2-消费额(亿
元),x3-铁路客运量(万人),x4-民航航线
里程(万公里),x5-来华旅游入境人数
第二节 可化为多元线性回归的问题
在自然科学中,y关于x 的数量关系多数都不
是简单的线性关系,而是各种各样的非线性
关系,于是我们常会遇到非线性回归模型,
在非线性回归模型中,一种类型是可以通过
变量变换化为线性模型,然后按线性模型加
以解决;另一种类型的非线性模型是用任何
变量变换办法都不能或不方便直接化为线性
模型求得参数的估计值。
多项式函数
 Y=β0+ β 1x + β 2x2+… + β pxp
 设τi=xi
 则多项式化为:
Y= β 0+ β 1 τ 1 + β 2 τ 2 +… + β p τ p
 多元幂函数
y=αx1 β 1 x2 β 2… xp β p
lny=ln α + β1ln x1+…+ β pln xp
令z= lny, β 0= ln α,τi= ln xi
z= β 0 + β 1 τ 1 + β 2 τ 2+… + β p τ p

 指数函数
y=a∏e β ixi
㏑y=㏑a+ β 1x1 + β 2x2+… + β pxp
z= ㏑y, β 0= ㏑a,则
z= β 0 + β 1x1 + β 2x2+… + β pxp
 多元对数函数
y=a+ β 1㏑x1 + β 2㏑x2+…+ β p㏑xp
设τi= ㏑xi, 则
y=a+ β 1 τ 1 + β 2 τ 2 +…+ β p τ p

指数函数与幂函数的积
y=aexp{∑β ixi} ∏xibi
㏑y=㏑a+ β 1x1 + β 2x2+… + β pxp
+b1㏑x1 +b2㏑x2+… +bp㏑xp
令z= ㏑y, β 0= ㏑a, τi= ㏑xi
z= β 0 + β 1x1 + β 2x2+… + β pxp +b1 τ 1 +b2 τ 2+… +bp τ p
 例7
某企业在15年中每年的年产量x和总成本y,
试建立y对x,x2和x3的多项式回归方程.(数据见
spssex/例子7)
 如果自变量相邻数值之间大小间隔相等,而且相
邻样本点对应的因变量y的二次差分大致相同,
则该总体可配合二次多项式函数
 如果是三次差分大致相同,则可配合三次多项式
函数
 例8
根据某地1985-1993年间农产品收购额,建立
回归方程.(数据见spssex/例子8)
500.00
y
400.00
300.00
200.00
0
2
4
6
8
10
x
MODEL: MOD_2.
Independent: x
Dependent Mth Rsq d.f.
y
QUA 1.000
F Sigf
b0
b1
b2
6 202698 .000 178.095 5.2238 3.8810

返回
 例9
某制造厂表面处理车间试验将铬后污水同
电解污泥混合,使之生成无毒溶液,效果很好.但
实际排出污水的浓度不完全相同,而且一定浓度
的定量铬后污水只有同定量的电解污泥混合后,
才能反应完全.现通过试验,找出铬后污水用量与
电解污泥用量之比对于铬后污水浓度之间的关
系.(spssex/例子9)
第三节 曲线回归
 Analyze->regression->curve
 Linear:
estimation
y=b0+b1x
 Quadratic: y= b0+b1x+b2x2
 Compound: y=b0b1x
 Growth: y=e(b0+b1x)
 Logarithmic: y= b0+b1lnx
 Cubic: y= b0+b1x+b2x2+b3x3
y=e(b0+b1/x)
 Exponential: y=b0eb1x
 Inverse: y=b0+b1/x
 Power: y=b0xb1
 Logistic: y=1/(1/u+b0b1x))
 S:

返回
第四节 逐步回归

在多元线性回归中,最难的是如何选择自变量的问题,
如果自变量选的太少,则自变量对Y的决定系数太小,
导致过大的偏差,如果把与Y有关的自变量都选入是
不可能的,一般来讲,选的自变量愈多,ESS愈大,
然而多个自变量中有相当一部分对Y影响不显著,反
而会因自由度的减少而增大了误差。另外,多个自变
量间的相关会给回归方程的实际解释上造成麻烦,即
多重共线性的影响。因此我们提出最优方程的概念,
要求进入回归方程的自变量都是显著的,未进入回归
方程的自变量都是不显著的。
 一、“最优”回归方程的选择
 1.回归方程中包含尽量多的信息
 2.回归方程中包含尽量少的变量
 方法:
 逐步剔除的回归分析方法
 逐步引入的回归分析方法
 “有进有出”的回归分析方法(逐步回归分析方
法)
逐步剔除法(backward)
 1、用全部变量建立一个回归方程
 2、对每个变量进行检验,剔除偏回归平方和最
小的变量。
 3、对剩余变量再作回归,再检验……
 直至方程中没有可剔除的变量为止。
逐步引入法(forward)
 1、将所有自变量分别与因变量建立一元线性回
归方程,比较各自的回归平方和,将回归平方
和最大的变量引入回归方程。
 2、再分别将剩余变量与因变量y、及已引入的
变量建立二元线性回归方程,再比较回归平方
和,选择回归平方和最大的变量引入方程。
 直至方程检验不显著为止。
 “逐步剔除”法与“逐步引入”法都有明显的不
足之处:
(1) “逐步剔除”法计算量大,且一旦某个自变量
被剔除,没有机会重新进入方程.
(2)“逐步引入”法一旦引入某个变量,就不再改
变.
逐步回归法(stepwise)
 1、将所有自变量分别与y建立一元线性回归方
程,将偏回归平方和最大及通过显著性检验的
变量引入方程。
 2、将剩余变量再分别与y、及已引入方程的变
量建立二元回归方程,并检验方程,剔除不显
著变量。
 ……
 二、偏回归平方和
 设s回是p个自变量x1,x2,…xp所引起的回归平方和,
si回是p-1个变量 x1,x2,…
x i-1,x i+1,…xp所引起的回归平方和,那么它们的
差 Qi=s回-s i回,Qi称为自变量xi的偏回归平方和
bi2
Qi 
aii
Qi
F 
 F (1, df )
RSS df
 在回归计算的某一步需要引进的变量应该是所
有未进入回归方程的变量中最显著的一个,也
就是偏回归平方和最大的一个。
Qkl 1
F引 
 F (1, n  l  2)
( l 1)
RSS
n  (l  1)  1
 三、逐步回归分析方法的应用
 如果要在回归方程中剔除不显著的变量,则首
先应从已引入的变量中剔除对因变量贡献最小
的,也就是偏回归平方和最小的一个变量。
 设模型中已引入L个自变量, xi的偏回归平方和
为Qi(L),再假设偏回归平方和最小的变量为xk,作
检验为:
Qk(l )
F剔 
 F (1, n  l  1)
l 
RSS n  l  1
举例
 例10
假定某地区某个历史时期对某种消费品
的销售量为y,居民或支配收入为x1,该类消费
品的价格指数x2,社会保有量x3,以及其它消费品
平均价格指数x4.试研究该地区对这种消费品的
需求函数。(数据见spssex/例子10)
 例11 对例6用逐步回归法建模。(取
F剔=F引=2)
第五节 岭回归
E ( Bˆ  B)(Bˆ  B)  E[( X X ) 1 X Y  B][(X X ) 1 X Y  B]
 E[( X X ) 1 X ( XB  e)  B][(X X ) 1 X ( XB  e)  B]
 E[( X X ) 1 X e][(X X ) 1 X e]
 E[( X X ) 1 X eeX (( X X ) 1 )]
 E[( X X ) 1 X eeX ( X X ) 1 ]
  E[( X X ) X X ( X X ) ]
2
1
  2 E ( X X ) 1
1
tr ( X X ) 
tr ( X X )
1

i

1

i
X X    I
( X X )
1

1
I
 一、岭回归的方法原理
 用x`x+kI代替x`x,人为降低均方误差
B( K )  ( X X  KI )1 X Y
 二、一个简单选择K值的方法
U ( X X )U     diag(1 , 2, ..., p )
记  U B  ( 0 ,  1 ,..., P )
ˆ 2 
(Y  XB )(Y  XB )
N P
2
2
ˆ
令K t   max i
则当0  K  K t时, B ( K )  ( X X  KI ) 1 X Y
 三、步骤
1.进行最小二乘估计
2.寻找正交矩阵U,使得U`(X`X)U=∧
3.利用U,对最小二乘估计量进行变换
4.产生方差2
5.令Kt= 2 /maxi2
6.最后利用最小二乘估计量,得到岭估计量.
推荐阅读

财经研究 2002.4

《我国加入WTO后上海浦东新区人才需求预测研究》
摘要:本文分析了我国加入WTO对清东新区经济及其行业影响,
以及浦东新区人才需求与新区经济增长的关系。按照人才需求
总量与经济总量相适应,人才需求结构与经济结构相适应的要
求,运用各种模型和推算方法,给出了2001-2005年浦东新区人
才需求总量和三大产业的人才需求值,同时具体测算了新区各
主要行业的人才需求值,并提出了相应的对策和措施。
关键字:人才需求;逐步回归法;主成分分析法;组合预测法

