曲线回归-研究生 - 汕头大学MPH教育中心

Download Report

Transcript 曲线回归-研究生 - 汕头大学MPH教育中心

曲线回归
吴库生
汕头大学医学院预防医学教研室
回归分析的概念


寻求有关联(相关)的变量之间的关系
主要内容:




从一组样本数据出发,确定这些变量间的定量关
系式
对这些关系式的可信度进行各种统计检验
从影响某一变量的诸多变量中,判断哪些变量的
影响显著,哪些不显著
利用求得的关系式进行预测和控制
回归分析的模型
按是否线性分:线性回归模型和非线性回
归模型
 按自变量个数分:简单的一元回归,多元
回归

常见回归分析的模型

在回归种类中包括:
 Liner:线性回归
 Curve
Estimation:曲线估计
 Binary Logistic: 二分变量逻辑回归
 Multinomial Logistic:多分变量逻辑回归
 Ordinal 序回归
 Probit:概率单位回归
 Nonlinear:非线性回归
 Weight Estimation:加权估计
 2-Stage Least squares:二段最小平方法
 Optimal Scaling 最优编码回归
一、曲线拟合
Curve fitting
医学研究中,X与Y两变量的数量关系并非
总是线性的,如
•毒物剂量——动物死亡率
•年龄——身高
•时间——血药物浓度
可用曲线直线化估计(Curve estimation)
或非线性回归(Nonlinear regression) 方法
进行统计学分析。
曲线估计(Curve Estimation)
对于一元回归,若散点图的趋势不呈线
性分布,可以利用曲线估计方式方便地进行
各种方程拟合,如:指数拟合(Exponential)、
二次拟合(Quadratic)、三次拟合(Cubic)等。
采用哪种拟合方式更合理主要取决于各
种拟合模型对数据的充分描述(看校正
Adjusted R2 →1)
不同模型的表示
模型名称
回归方程
Linear(线性)
Y=b0+b1x
Quadratic(二次)
Y=b0+b1x+b2x2
Compound(复合)
Y=b0(b1x)
Ln(Y)=ln(b0)+ln(b1)x
Growth(生长)
Y=eb0+b1x
Ln(Y)=b0+b1x
Logarithmic(对数) Y=b0+b1ln(x)
相应的线性回归方程
模型名称
回归方程
Cubic(三次)
Y=b0+b1x+b2x2+b3x3
S
Y=eb0+b1/x
Exponential(指数) Y=b0 * eb1*x
相应的线性回归方程
Ln(Y)=b0+b1 / x
Ln(Y)=ln(b0)+b1x
Inverse(逆)
Y=b0+b1/x
Power(幂)
Y=b0(xb1 )
Ln(Y)=ln(b0)+b1ln(x)
Logistic(逻辑)
Y=1/(1/u+b0b1x)
Ln(1/Y-1/u)=ln(b0+ln(b1)x)
选择曲线的基本方法
 根据专业知识和过去经验(或文献)选择
曲线类型
 利用算术格纸、半对数格纸等,将实测数
据绘制散点图。根据散点图的特点选择曲
线类型
 先在普通格纸上绘制散点图,再根据各点
分布趋势用试配法来选择曲线类型。
曲线拟合方式
曲线直线化估计
曲线直接拟合
曲线直线化估计的步骤
绘制散点图,根据图形和专业知识选取曲线类
型(可同时选取几类)
按曲线类型,作曲线直线化变换
建立变换数据间的直线回归方程
(假设检验,计算决定系数)
比较决定系数选取“最佳”方程
写出曲线方程
二、常见的几种曲线
Y
b>0
b<0
0
对数曲线
X
及其变换形式
Y
b<0
b>0
0
指数曲线
X
Y
Y = b0 + b1 X + b2 X2
b2>0
b2<0
0
抛物线
X
Y
Y = b0 + b1 X + b2 X2 + b3 X3
X
0
3次多项式曲线
SPSS中曲线模型
SPSS中曲线模型
SPSS回归分析的过程

基本的步骤:利用SPSS得到模型关系式
,是否是我们所要的,要看回归方程的显
著性检验(F 检验)和回归系数b的显著
性检验(t 检验),还要看拟合程度R2 (相关
系数的平方,一元回归用R Square,多元
回归用Adjusted R Square)
常见的曲线回归方程
①幂函数: Yˆ  aX b 或 ln(Yˆ )  ln a  b ln( X )
②对数:
Yˆ  a  b ln( X )
③指数函数: Yˆ  a ebX
④多项式:
或 ln(Yˆ )  ln a  bX
2
n
ˆ
Y  a  b1 X  b2 X    bn X
⑤logistic:ˆ  1 /(1  e  a bX )
或 ln[ ˆ /(1  ˆ )]  a  bX
利用线性回归拟合曲线(例1)
例 上海医科大学微生物学教研室以已知浓度X的免疫球蛋
白A(IgA, μg/ml)作火箭电泳, 测得火箭高度Y(mm)如表1
所示。试拟合Y关于X的非线性回归方程。
编号
X
1
2
3
4
5
6
7
8
合计
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
Y
7.6
12.3
15.7
18.2
18.7
21.4
22.6
23.8
140.3
X'=lnX
-1.6094
-0.9163
-0.5108
-0.2231
0
0.1823
0.3365
0.4700
-2.2708
(一)绘制散点图,决定曲线类型
(二)曲线直线化变换 Yˆ =a+blnX
(三)建立直线回归方程
X
Y X'=lnX
0.2 7.6
0.4 12.3
0.6 15.7
0.8 18.2
1.0 18.7
1.2 21.4
1.4 22.6
1.6 23.8
合计140.3
-1.6094
-0.9163
-0.5108
-0.2231
0
0.1823
0.3365
0.4700
-2.2708
(lnX)2
Y2
2.5902
57.76
0.8396 151.29
0.2609 246.49
0.0498 331.24
0.0000 349.69
0.0332 457.96
0.1132 510.76
0.2209 566.44
4.1078 2671.63
Yˆ  19.7451  7.7771(ln X );
(lnX)Y
-12.2314
-11.2705
-8.0196
-4.0604
0.0000
3.9012
7.6049
11.1860
-12.8898
Yˆ
7.23
12.62
15.77
18.01
19.75
21.16
22.36
23.40
R  0.9922
2
残差平方
0.1380
0.1017
0.0053
0.0361
1.0921
0.0563
0.0566
0.1597
1.6458
(四)比较决定系数,确定“最佳”方
程
y^ = 10.863x + 7.7607
30
25
R
2
y^ = 7.7771Ln(x) + 19.745
25
= 0.9391
R
20
20
15
10
2
= 0.9922
15
10
5
5
0
0
0
0.5
1
y^ = 19.3248 x
30
25
R
2
1.5
0
2
0.5367
30
25
= 0.9823
20
15
10
20
15
10
5
0
5
0
0
0.5
1
0.5
1.5
2
y^ = 8.7302e
R
0
2
1
1.5
2
1.5
2
0.7136x
= 0.8425
0.5
1
SPSS实现过程
Model Summary and Parameter Estimates
Dependent Variable: y
Model Summary
Equation
Linear
R Square
.992
F
763.499
df1
Parameter Estimates
df2
1
Sig.
6
Constant
.000
b1
19.745
The independent variable is lnx.
Yˆ  19.7451  7.7771(ln X );
R  0.9922
2
7.777
利用线性回归拟合曲线(例2)
15名重伤病人的住院天数X与预后指数Y
编
号
1
2
3
X
2
5
7 10 14 19 26 31 34 38 45 52 53 60 65
Y
4
5
6
7
8
9 10 11 12 13 14 15
54 50 45 37 35 25 20 16 18 13
8 11
8
4
6
(一)绘制散点图,决定曲线类型
60
预后指数Y
50
40
30
20
10
0
0
20
40
住院天数X
60
80
(二)曲线直线化变换
预 后 指 数 的 对 数 lnY
5
4
3
2
1
0
0
20
40
住院天数(天)X
60
80
(三)建立线性回归方程
ln Yˆ  4.037-0.038X
回归方程为:
方差分析有统计学意义,P=0.0000,
F=276.38,表明回归方程有贡献。
确定系数为0.9551,表明回归拟合原
资料较好。
转换为原方程的另一种形式:
( 4.0370.038 X )
0.038 X
ˆ
Y e
 56.665e
0.038 X
0.0396 X
ˆ
ˆ
Y  56.665e
; Y  58.6066e
Model Summary and Parameter Estimates
Dependent Variable: lny
Model Summary
Equation
Linear
R Square
.955
The independent variable is x.
F
276.379
df1
Parameter Estimates
df2
1
Sig.
13
.000
Constant
4.037
b1
-.038
0.038 X
0.0396 X
ˆ
ˆ
Y  56.665e
; Y  58.6066e
曲线直线化
非线性最小二乘法
比较两个回归方程可见,对同一份样本
采用不同估计方法得到的结果并不相同。
主要因为曲线直线化以后的回归只对变
换后的Y*(=lnY)负责, 得到的线性方程可
使Y*与其估计值 Yˆ 之间的残差平方和最小
,并不保证原变量Y与其估计值 Yˆ 之间的残
差平方和也是最小。
问题:前一个例子只对自变量作对
数变换的对数曲线拟合,能否保证原
变量Y与其估计值 Yˆ 之间的残差平方
和也是最小?幂函数曲线拟合呢?
Yˆ  a  b  ln( X )
ln(Yˆ )  a  b ln( X )
问题:如何判断哪个曲线拟合方程更佳?
对于前例,几个常见曲线拟合得到的决定
系数R2如下(曲线直线化):
线性(直线)R2:0.8856
(y = 46.4604 -0.7525 x)
幂曲线 R2:0.8293 (y = 159.9297 x-0.7191)
对数曲线 R2:0.9654 (y = 72.2829 -15.9662 Ln(x) )
指数曲线 R2: 0.9551(y = 56.6651 e-0.0380 x)
二项式曲线 R2:0.9812(y = 55.8221- 1.7103 x
+0.0148 x2 )
问题:如何判断那个曲线拟合方程更佳?
对于例2,几个常见曲线拟合得到的决定系
数R2如下(非线性回归——迭代法):
线性(直线)R2:0.8856
(y = 46.4604 -0.7525 x)
幂曲线 R2:0.8413 (y = 88.7890 x-0.4662)
对数曲线 R2:0.9654 (y = 72.2829 -15.9662 Ln(x) )
指数曲线 R2:0.9875(y = 58.6066 e-0.0396 x)
二项式曲线 R2:0.9812(y = 55.8221- 1.7103 x
+0.0148 x2 )
散点图辨析
60
预后指数Y
50
对数曲线
指数曲线
40
30
20
10
0
0
10
20
30
40
病人住院天数X
50
60
70
如果条件允许最好采用非线性回
归(Nonlinear Regression)拟合幂
函数曲线与指数函数曲线
注意绘制散点图,并结合专业知
识解释
非线性回归方程
非线性回归与一般线性回归的求解方法不同在
于:
1. 需要给定参数(a、b)的初始值
2. 采用迭代方法,不断更新估计的参数,直至
稳定在某一值为止。
优点:在需要变换Y时,结果更可靠。
缺点:a.计算复杂;b.初始值不适当时,估计不准确.
采用SPSS进行曲线拟合
曲线直线化
Analyze
Regression
Curve Estimation …
可选Power 、Logarithmic、Exponential、
Quadratic、Cubic 等
非线性回归
Analyze
Regression
Nonlinear …
设置模型: Model Expression
参数赋初值:Parameters…
SPSS曲线拟合实例
一只红铃虫的产卵数与温度有关,下面是
有关数据:
温 度 21 23 25 27 29 32 35
产卵数 7 11 21 24 66 115 325
试找出一种较佳的经验回归函数?
拟合曲线图
全选
方差分析表
Exponential
Model Summary
R
R Square
.993
Adjusted
R Square
.985
Std. Error of
the Es timate
.982
.181
The independent variable is ζÈ.
ANOVA
Sum of
Squares
Regress ion
Mean Square
F
10.931
1
10.931
.164
5
.033
11.094
6
Residual
Total
df
Sig.
333.866
.000
The independent variable is ζÈ.
Coefficients
Unstandardized
Coefficients
B
Standardized
Coefficients
Std. Error
ζÈ
.272
.015
(Constant)
.021
.009
The dependent variable is ln(²úÂÑÊý).
Beta
t
.993
Sig.
18.272
.000
2.415
.060
……
系统给出了所有模型的最优拟合结果,
可以通过比较相关系数的平方值(Rsq)
来比较各模型的优劣。R2越大,则模型
越好。
 此例给出的模型中,复合模型、生长模
型、指数模型和逻辑模型对应的最大,
达到0.985,因此采用这4种模型进行拟合
是最合适的。


注意:拟合结果要结合专业知识进行判
断,对于有背实际规律的模型,尽管拟
合程度可能很高,也要放弃使用。
最小二乘估计
1. 选择最佳拟合曲线的标准
从几何意义上说,样本回归曲线应尽可
能靠近样本数据点。
选择最佳拟合曲线的标准可以确定为:
使总的拟合误差(即总残差)达到最小。
用最小二乘法描述就是:所选择的回归
模型应该使所有观察值的残差平方和达到
最小。
最小二乘估计的基本思路
不同的估计方法可得到不同的样本回归
参数 和 ,所估计的 也不同。
 理想的估计方法应使 和 的差即残差
越小越好。

概
率
密
度
偏倚
⒉最小方差性(有效性)
前提:样本相同、用不同的方法估计参数
,可以找到若干个不同的估计式。
目标:努力寻求其抽样分布具有最小方差
的估计式——最小方差准则,或称最佳性
准则。见下图
既是无偏的同时又具有最小方差的估计
式,称为最佳无偏估计式。
概
率
密
度
⒊一致性
思想:当样本容量较小时,有时很难找到最佳无偏估计,需
要考虑扩大样本容量
(估计方法不变,样本数逐步扩大,分析性质是否改善)
一致性:当样本容量n趋于无穷大时,如果估计式 按概率
收敛于总体参数的真实值,就称这个估计式 是 的一直估
计式。
→
渐进无偏估计式是当样本容量变得足够大时,其偏倚趋于零
的估计式。
见下图
概
率
密
度
曲线拟合的作用

曲线拟合是给定了空间中的一些点(离散
数据),找到一个已知形式未知参数的连
续曲线来最大限度地逼近这些点;

曲线拟合就是离散数据的公式化;

曲线拟合是各种实验和统计问题有关量
的多次观测值的常用处理方法;
曲线拟合的作用

通过曲线拟合得到变量间的拟合函数就
可以对变量间的关系进行分析;

通过拟合函数与观测数据的误差分析干
扰因素;

根据变量间的拟合函数制定优化策略;