第四章线性回归分析

Download Report

Transcript 第四章线性回归分析

数学建模简明教程
国家精品课程
第四章
线性回归分析
 一、引言
 二、回归分析方法
 三、软件实现
目录
上页
下页
返回
结束
一、引言
2004年全国数模竞赛的B题“电力市场的输电
阻塞管理”的第1个问题:
某电网有8台发电机组,6条主要线路,表1和
表2中的方案0给出了各机组的当前出力和各线路
上对应的有功潮流值,方案1~32给出了围绕方案
0的一些实验数据,试用这些数据确定各线路上
有功潮流关于各发电机组出力的近似表达式.
目录
上页
下页
返回
结束
设6条线路上有功潮流为y j ( j  1,2, ,6),8台发电
机组出力为xi (i  1,2,
y j  f j ( x1, x2 ,
,8),该问题一般函数表达式:
, x8 )
( j  1,2,
,6)
(1)
对本问题,我们采用多元线性回归分析,效果很好.
二、回归分析方法
例
如图1是12组儿子身高 y和父亲身高 x 数据
关系的散布点,采用直线拟合的示意图.
目录
上页
下页
返回
结束
图1
平面上散布点的直线拟合示意图
目录
上页
下页
返回
结束
上面的示例中自变量只有一个,属一元回归分析.
如果自变量有多个,则属多元回归分析.如4.1中赛
题,自变量是8台发电机组出力 x1, x2 ,
, x8 ,作回归分析
就属多元回归分析.
1.一元线性回归
模型:
y   x 
(2)
其中  ~ N (0, 2 )
目录
上页
下页
返回
结束
, 
对一组观测值 ( xi , yi )(i  1,2,
, n) ,满足:
yi     xi   i
(3)
其中各  i 相互独立且  i ~ N (0, 2 )(i  1,2,
, n)
找一条最好的直线通过 n 个已知的观测点,实际
上就是寻找满足如下目标的直线参数  , 
目标函数:
n
n
ˆ x ) 2  min ( y  a   x ) 2
ˆ
(
y

a


 i
 i
i
i
i 1
 ,
(4)
i 1
利用高等数学可求解参数  , 
目录
上页
下页
返回
结束
记
则
n
S (a,  )   ( yi  a   xi ) 2
(5)
i 1
n
S
 2 ( yi     xi ) 0

i 1
S
 2 ( yi     xi ) xi 0

i 1
n
有:
nˆ  nx ˆ  ny


n
n

2 ˆ
nxˆ   xi    xi yi 
i 1
i 1

目录
上页
(6)
下页
返回
结束
1 n
1 n
这里,x   xi , y   yi
n i 1
n i 1
则  ˆ  y  ˆ x

n
n

xi yi  nxy  ( xi  x )( yi  y )


(7)
 ˆ i 1
i 1




n
n
2
2
2

x

nx
(
x

x
)
i
 i

i 1
i 1
2

另外一个问题就是对
的无偏估计问题.可以证明,
 2 的无偏估计为: n
2
 yi  ˆ  ˆ xi
ˆ 2  i 1
(8)
n2


目录
上页
下页
返回
结束
( x1 , x2 ,
, xm , y)
2.多元线性回归模型
模型:
y  0  1x1 
  m xm  
(9)
 ~ N (0, 2 ), 0 , 1, ,  m , 2 是未知参数.
设( xi1, xi 2 ,
, xim , yi )(i  1,2,
, n)是( x1, x2 ,
, xm , y )的 n
个观测值,则满足:
yi   0  1xi1   2 xi 2 
  m xim   i(i  1,2,
, n) (10)
其中各 i 相互独立,且  i ~ N (0, )
2
目录
上页
下页
返回
结束
令  ( 0 , 1, ,  m )T  (1,  2 , ,  n )T
Y  ( y1, y2 , , yn )T
x12
x1m 
 1 x11
1 x

x22
x2 m
21


X


1 x

xn 2
xnm 
n1

(11)
(12)
则方程组用矩阵表达为
Y  X 
假定矩阵X 的秩等于 m  1.即列满秩.
X T Y  ( X T X ) ˆ
则
T
1 T
ˆ
解得   ( X X ) X Y
目录
上页
(13)
(14)
下页
返回
结束
 2 的无偏估计
n
m
i 1
j 1
ˆ )2
(
y

x

 i  ij j
ˆ 2 
(15)
n  m 1
当 m  1时,就变成一元回归分析,其参数  的求解
及  的无偏估计与一元回归分析得到的结论是一致的.
2
3.回归模型的假设检验
2

当完成回归模型中参数及回归偏差 的估计后,
还需要对模型进行评价.包括:
目录
上页
下页
返回
结束

Hj1  0( j  1, 2,
, m)
检验采用线性回归是否适合
每一个变量是否对因变量起作用
采用线性回归好坏程度的度量
3.1 回归方程的显著性检验
H 0 : 1   2 
 m  0
H1 : 至少有一个 j  0( j  1,2,
, m)
当原假设 H 0 成立时,说明回归方程不显著.
当备选假设 H1成立时,说明回归方程显著.
目录
上页
下页
返回
结束
1 n
令 Y   Yi ,考虑总离差平方和
n i 1
n
n
2
ST   ( yi  y )    ( yi  yˆi )  yˆi  y ) 
2
i 1
n
i 1
n
i 1
i 1
(16)
2
2
ˆ
ˆ
  ( yi  yi )   ( yi  y )
 Se  S R
n
Se   ( yi  yˆi )2 ,称为剩余残差平方和.
i 1
n
S R   ( yˆi  y ) 2 ,称为回归平方和.
i 1
目录
上页
下页
返回
结束
在 H 0成立的条件下,可以证明
Se /  2 ~ x 2 (n  m  1), S R /  2 ~ x 2 (m)
(17)
且 S e 与 S R 相互独立,则
SR / m
F
~ F (m, n  m  1)
Se /(n  m  1)
(18)
对给定显著水平  ,可查表得F (m, n  m  1),计算
统计量 F 的数值 f
目录
上页
下页
返回
结束
若f  F (m, n  m  1),则拒绝 H 0,即认为各系数不为
零,线性回归方程是显著的.否则接受 H 0,即认为线性
回归方程不显著.
3.2 回归系数的显著性检验
检验假设
H 0 :  j  0  H1 :  j  0( j  1,2,
, m)
当原假设H 0成立时,说明自变量 x j 对 y 不起作
用,在回归模型中可以去掉.
目录
上页
下页
返回
结束
当备选假设 H1成立时,说明自变量 x j 对 y 有作
用,在回归模型中不能去掉.
c jj是C  ( X T X ) 1的主对角
ˆ j ~ N (  j , c jj 2 ),
可以证明,
对角线上的第 j+1 个元素
ˆ j   j
~ N (0,1)
(19)
C jj 2
S
而 e ~ x 2 (n  m  1) ,且 Se 与 ˆ j 独立,则在 H 0成立
2
的条件下,有
ˆ j
ˆ j
Tj 

~ t (n  m  1) (20)
C jj Se /(n  m  1)
C jj ˆ
目录
上页
下页
返回
结束
t  t (n  m  1)
j
 /2
对给定的显著水平 ,查表得 t / 2 (n  m  1),计算
统计量 T j 的数值 t j ,若 t j  t / 2 (n  m  1)则拒绝H 0,即
认为  j显著不为零.若 t j  t / 2 (n  m  1)则接受H 0 ,即
认为  j 等于零.
3.3 复相关系数
对一个因变量和一组自变量和之间线性相关程度,
复相关系数来度量.
定义
Se
SR
R 
 1
ST
ST
2
(21)
目录
上页
下页
返回
结束
0  R 2  1,当 R 2越接近1,表示因变量 y与各自
变量 xi 之间线性相关程度越强.调整的复相关系数
(Adjust R2.其定义如下:
)
Se /( n  m  1)
2
aR  1 
S R /( n  1)
(22)
当 R2 和 aR 2越接近1.表示因变量 y与各自变量
xi 之间线性相关程度越强.
三、软件实现
Matlab,统计
解决线性回归问题的最常用软件有:
软件SPSS和SAS.
目录
上页
下页
返回
结束
1. SAS8求解过程
1). 启动SAS软件,鼠标点击Solutions->
Analysis->Analyst,启动分析员.
2). 在弹出的表中输入数据,结果如图2.其中
1~32行为32组试验数据(方案0未选,后面将作为
测试数据). 8台机组的出力用 x1 , x2 , , x8 表示,6条
线路的潮流值用 y1 , y2 ,
, y6表示.(由于数据较多,可
将数据拷贝到记事本中,然后由SAS直接读入更方便.)
目录
上页
下页
返回
结束
图2
SAS数据输入图
3). 鼠标点击Statistics->Regression->Linear…
在弹出对话框中(见图3),将左边文本框中将8个自变
量 x1 , x2 , , x8 选入Explanatory框中,将因变量 y1 , y2 , , y6
选入Dependent框中.然后点击OK即可执行回归分析.
图3
SAS线性回归对话框
目录
上页
下页
返回
结束
4). SAS进行回归分析结果见下面表3
表.3
SAS回归分析结果表
The REG Procedure
Model: MODEL1
Dependent Variable: Y1
Analysis of Variance
Source
DF Sum of Squares Mean Square F Value Pr > F
Model
8
60.73531
7.59191
5861.52 <.0001
Error
23
0.02979
0.00130
Corrected Total 31
60.76510
Root MSE
0.03599
R-Square 0.9995
Dependent Mean 165.17031 Adj R-Sq 0.9993
Coeff Var
0.02179
Parameter Estimates
Variable DF Parameter Estimate Standard Error t Value Pr > |t|
Intercept 1 110.29651
0.44512
247.79 <.0001
X1
1
0.08284
0.00084653 97.86 <.0001
X2
1
0.04828
0.00191
25.21 <.0001
X3
1
0.05297
0.00064256 82.44 <.0001
X4
1
0.11993
0.00149
80.24 <.0001
X5
1
-0.02544
0.00093315 -27.26 <.0001
X6
1
0.12201
0.00126
96.45 <.0001
X7
1
0.12158
0.00146
82.99 <.0001
X8
1
-0.00123
0.00103
-1.19
0.2450
目录
上页
下页
返回
结束
从表中可以得到,总离差平方和 ST =60.76510,
回归平方和 S R =60.73531,残差平方和 S e=0.02979;
F =5861.52,而概率P{F  5861.52}  0.0001,故不管
取检验水平  0.05或  0.1 都说明回归显著.
回归得到的均方误差 ̂ = 0.03599,复相关系数
R2=0.9995,调整的复相关系数 aR 2=0.9993.
回归方程的系数在表中也可以完全得到.该回归
方程为:
y1  110.29651  0.08284 x1  0.04828 x2  0.05297 x3
0.11993x4  0.02544 x5  0.12201x6  0.12158 x7
0.00123x8
目录
上页
下页
返回
结束
SAS8可以同时完成了6个回归模型参数及各指标
的计算.上面只列出了 y1的回归计算.其他5个回归方程
的计算可同时得到,这里就不一一列出.
2. 线性回归的Matlab实现
回归分析的求解在Matlab中可用函数regress实现.
其使用格式为:
[b,bint,r,rint,stats]=regress(Y,X,alpha)
其中Y为列向量,表达因变量的取值,为2中的(11)式;
X为矩阵,代表自变量的取值,为2中的(12)式.Alpha
为置信水平,缺省时取0.05.
目录
上页
下页
返回
结束
b---参数  的取值,为列向量.
bint---参数  的置信度为(1-alpha)的置信区间.当置
信区间包含0时,说明该参数未通过 T 检验,可认认为0.
r---残差向量,取值为Y-X.b.
rint---残差的置信度为(1-alpha)的置信区间.
stats---回归方程的统计量.stats(1)为复相关系数,
stats(2)为F值,stats为F值对应的概率值.
目录
上页
下页
返回
结束
参考文献
[1] 姜启源,谢金星.数学模型(第三版).北京:高
等教育出版社,2003.
[2] 薛定宇,陈阳泉.高等应用数学问题的MATLAB
求解. 北京:清华大学出版社,2004.
[3] 田铮,肖华勇.随机数学基础.北京:高等教育
出版社,2005.
目录
上页
下页
返回
结束
再见
目录
上页
下页
返回
结束