Logistic回归分析

Download Report

Transcript Logistic回归分析

Logistic回归分析
汕大医学院预防医学教研室
Logistic regression:
是研究分类变量统计分析的一种重
要方法。研究两水平或多水平反应变
量与其影响因子间关系的回归分析
(线性回归分析: 应变量为连续计量
资料)。
如二项分类,如某种疾病的患病与否
某一治疗结果有效和无效
器官移植后生存或死亡
多项有序分类:某一治疗结果,治愈、显效、
有效、无效;
多项无序分类:肝炎分型 甲、乙、丙、丁、
戊
研究分类反应变量与多个影响因素之间的
相互关系的一种多变量分析方法,进行疾病的
病因分析。
• Logistic回归的分类
Logistic回归 二分类 有序反应变量
多分类
无序反应变量
非条件
1:1配对资料
条件Logistic回归 1:m配对资料
m:n配对资料
Logistic回归模型是一种概率模型,
通常以疾病,死亡等结果发生的概率为因变
量, 影响疾病发生的因素为自变量建立回
归模型。
• 例:为了探讨糖尿病与血压、血脂等因素
的关系,研究者对56例糖尿病病人和65例
对照者进行病例对照研究,收集了性别、
年龄、学历、体重指数、家族史、吸烟、
血压、总胆固醇、甘油三脂、高密度脂蛋
白、低密度脂蛋白11个因素的资料,各因
素的观察结果见表
• 二分类反应变量Y= 1 出现阳性结果
•
0 出现阴性结果
• 对反应变量有影响的因素有n个,称为自变
量X1,X2,….Xn
• 在n个自变量作用下出现阳性结果的条件概
率为P=P(Y=1 (X1,X2,….Xn)
一、Logistic回归方程
Logistic回归的logit模型
P=  1 x1   2 x2     n xn
Logit变换
P转换为ln[P/(1-P)]
logit (P)=  1 x1   2 x2     n xn
ln[P/(1-P)]=  1 x1   2 x2     n xn
• (1)取值问题
• (2)曲线关联
• 反应变量与自变量的关系通常不是直线关
系,而是S型曲线。曲线回归时,往往采用
变量变化,使得曲线直线化,再进行直线
回归方程的拟合。能否考虑对所预测的因
变量加以变换。1970年,COX引入了用于
人口学领域的Logit变换。
1
P
.8
.6
.4
.2
0
-5
-4
-3
-2
-1
0
Z
Z     1 x1   2 x 2 
  n xn
1
2
3
4
5
什么叫Logit变换?通常把出现某种结果的概率与不
出现的概率之比称为比值
Odds=P/1-P,将其纳入对数=Ln(P/1-P)
• 概率P是以0.5为对称点,分布在0~1的范围内的,
而相应的Logit(P)的大小为
P=0 Logit(P)=Ln(0/1)=-无穷大
P=0.5 Logit(P)=Ln(0.5/0.5)=0
P=1 Logit(P)=Ln(1/0)=+无穷大
Logit(P )取值范围扩展为(-,+ -)
• Logit变换
也称对数单位转换
P 

logit P= ln 

 1 P 
(  1 x1   2 x2   n xn )
e
P
(  1 x1   2 x2   n xn )
1 e
1
1 P 
(  1 x1   2 x2   n xn )
1 e
其中,为常数项,为偏回归系数。
二、参数估计
• 建立Logistic回归方程就是求和i
• 意义 常数项是当各种暴露因素为0时,个体发
病与不发病概率之比的自然对数值。
• i意义
• 偏回归系数表示在其它自变量固定的条件下,
• 第n个自变量每改变一个单位时logit的改变量。
它与比数比(优势比)(odds ratio)有对应关
系。
1、回归系数的估计:最大似然估计法 (Maximum
likehood estimate)
根据最大似然原理,似然函数 L 应取最大值。
对似然函数取对数形式:
n
ln L  [Yi ln Pi  (1  Yi )ln(1  Pi )]
i 1
式中为对数似然函数,对其取一阶导数求解参数。对
于参数  j ( j  1, 2,
即
 ln L
0
 j
,
,令 ln L 的一阶导数为 0,
,m )
用
Newton-Raphson 迭代方法解方
程组,
得出参数  j 的估计值 bj 和 bj 的渐进标准误 Sb j 。
最大似然法的基本思想是先建立似然
函数与对数似然函数,再通过使对数
似然函数最大求解相应的参数值(使
得一次抽样中获得现有样本的概率为
最大),所得到的估计值称为参数的
最大似然估计值。
三、参数检验
• 似然比检验(likehood ratio test)
通过比较包含与不包含某一个或
几个待检验观察因素的两个模型的对
数似然函数变化来进行,其统计量为G
(又称Deviance)。
G=-2(ln Lp-ln Lk)
样本量较大时, G近似服从自由
度为待检验因素个数的2分布。
• 比分检验(score test)
以未包含某个或几个变量的模型为基础,
保留模型中参数的估计值,并假设新增加
的参数为零,计算似然函数的一价偏导数
(又称有效比分)及信息距阵,两者相乘
便得比分检验的统计量S 。样本量较大时,
S近似服从自由度为待检验因素个数的
2分布。
• Wald检验( wald test)
即广义的t检验,统计量为u
bi
u=
s bi
u服从正态分布,即为标准正态离差。
Logistic回归系数的区间估计
bi  u  Sbi
上述三种方法中,似然比检验最可靠,
比分检验一般与它相一致,但两者均要求
较大的计算量;而Wald检验未考虑各因素
间的综合作用,在因素间有共线性时结果
不如其它两者可靠。
四、回归系数的意义
单纯从数学上讲,与多元线性回归分析
中回归系数的解释并无不同,亦即bi表示xi改
变一个单位时, logit P的平均变化量。
Variables in the Equation
B
Step
a
1
ÐÔ±ð
ÄêÁä
ѧÀú
ÌåÖØÖ¸Êý
¼Ò×åÊ·
ÎüÑÌ
Ѫѹ
×ܵ¨¹Ì´¼
¸ÊÓÍÈýÖ¬
hdl
ldl
Constant
.263
.085
-.699
1.621
1.634
3.126
1.647
.606
2.312
-.914
.017
-20.207
S.E.
.636
.036
.298
.552
.682
.714
.670
.472
1.042
.432
.416
4.652
Wald
.171
5.521
5.513
8.621
5.744
19.174
6.040
1.647
4.929
4.484
.002
18.866
df
1
1
1
1
1
1
1
1
1
1
1
1
Sig .
.679
.019
.019
.003
.017
.000
.014
.199
.026
.034
.967
.000
Exp(B)
1.301
1.089
.497
5.056
5.124
22.787
5.190
1.832
10.098
.401
1.017
.000
a. Variable(s) entered on step 1: ÐÔ±ð, ÄêÁä, ѧÀú, ÌåÖØÖ¸Êý, ¼Ò×åÊ·, ÎüÑÌ, Ѫѹ, ×ܵ¨¹Ì
´¼, ¸ÊÓÍÈýÖ¬, hdl, ldl.
流行病学中的一些基本概念:
相对危险度(relative risk): RR=P1/P2
比数
比数比
Odds=P/(1-P)
OR=[P1/(1-P1)]/[P2/(1-P2)]
在患病率较小情况下,OR≈RR
设P表示暴露因素X时个体发病的概率,
则发病的概率P与未发病的概率1-P 之
比为优势(odds), logit P就是odds
的对数值。
• 优势比
• 常把出现某种结果的概率与不出现的概率
之比称为比值(odds),即odds=p/1-p。两个
比值之比称为比值比(Odds Ratio),简称
OR。
• Logistic回归中的常数项(b0)表示,
在不接触任何潜在危险/保护因素条
件下,效应指标发生与不发生事件的
概率之比的对数值。
• Logistic回归中的回归系数( bi )表示,
某一因素改变一个单位时,效应指标
发生与不发生事件的概率之比的对数
变化值,即OR的对数值。
 p 
   0
ln
1- p 
 p1 /(1  p1 ) 
ln OR j  ln 

 p 2 /(1  p 2 ) 
ln OR j  ln  j
OR j  exp  j
• 分析因素xi为多分类变量时,为方便起
见,常用1,2,…,k分别表示k个不
同的类别。进行Logistic回归分析前需
将该变量转换成k-1个指示变量或哑变
量(design/dummy variable),这样指
示变量都是一个二分变量,每一个指
示变量均有一个估计系数,即回归系
数,其解释同前。
• 分析因素xi为等级变量时,如果每个等级的
作用相同,可按计量资料处理:如以最小或
最大等级作参考组,并按等级顺序依次取为
0,1,2,…。此时, e(bi) 表示xi增加一个等
级时的优势比, e(k* bi)表示xi增加k个等级时
的优势比。如果每个等级的作用不相同,则
应按多分类资料处理。
• 分析因素xi为连续性变量时, e(bi)表示xi增加
一个计量单位时的优势比。
多因素Logistic回归分析时,对回
归系数的解释都是指在其它所有自变量
固定的情况下的优势比。存在因素间交
互作用时, Logistic回归系数的解释变
得更为复杂,应特别小心。
根据Wald检验,可知Logistic回归
系数bi服从u分布。因此其可信区间为
bi  u  Sbi
进而,优势比e(bi)的可信区间为
e
( bi u Sbi )
五、 Logistic回归分析方法
基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、
后退法和逐步法。在这些方法中,筛选变量
的过程与线性回归过程的完全一样。但其中
所用的统计量不再是线性回归分析中的F统计
量,而是以上介绍的参数检验方法中的三种
统计量之一。
为计算方便,通常向前选取
变量用似然比或比分检验,而向
后剔除变量常用Wald检验。
六、 Logistic回归的应用
• 危险/保健因素的筛选,并确定其作用
大小。
• 预测:预测某种情况下或者某个病例,
某特定事件发生的概率。
影响因素为分类变量时,用列联表形式
卡方检验
存在分类的混杂因素时,用Mantel-Haensze
但存在局限性(1)控制混杂因素,但无法描
述作用大小及方向(2)样本量要求大,单元
格划分太细(3)无法对连续性自变量的影响
进行分析
二分类Logistic对资料的要求
(1)反应变量为二分类的分类变量。(发病
率等存在重复计数的指标不适用
(2)误差项服从二项分布(不是正态分布),
不再使用最小二乘法进行参数估计,而使
用最大似然法来解决方程的估计和检验问
题)
(3)观察对象相互独立
(4)所需样本数为自变量个数的5-10倍。
分析实例
分析糖尿病患者继发肿瘤与否的影响因
素,采用二分类Logistic 回归分析。
步骤是:
程序编辑窗主菜单 Analyze → 选
Regression (回归分析) → 选
Binary Logictic (两分类变量 Logictic
回归分析,出现 Logistic Regression
窗口 → 将 是否肿瘤选入右边
的 Dependent (因变量)窗口中 →
将sex、age 、血脂、血压等均选入右
边的 Covariats(协变量,这里是自变
量) 窗口中,
Forward: LR ( 向前逐步法:似然
比法 likelihood ratio,LR)→ 再
击下方的 Save 钮,将 Predicted
values、 Influence 与 Residuls 窗
口中的预选项全勾选 → Continue
→ 再击下方的 Options 钮,将
Statistics and Plot 小窗口中的选
项全勾选 → Continue → OK 。
• 哑变量
• 自变量为多分类变量,与应变量之间通常不存在
线性关系,须用哑变量方式分析。若K为该变量
的水平数,则系统将自动产生K-1个哑变量。
Categorical子对话框用于此设置。
• 多分类无序自变量
• 多分类有序自变量,要求其等级分组与LogitP呈
线性关系,如不满足条件,则将等级变量当作无
序变量,用哑变量进行分析。
SPSS中 Categorical 按钮实现
Indicator:指标对比 ,参照水平
注意:有实际意义;参照水平有一定频数保
证。
多分类Logistic分析
• 一、有序多分类Logistic回归模型
• 应变量水平数大于2,且水平之间不存在等
级递减或递增的关系时,对这种多分类变
量通过拟合一种广义Logit模型方法。
• 如某项治疗效果分为痊愈、有效、好转、
无效,可通过累积Logit模型。设反应变量
的取值为1,2,3,4,相应取值水平的概
率为1、 2、 3、 4
对n个自变量拟合三个模型
P=  1 x1   2 x2     n xn
Logit变换
P转换为ln[P/(1-P)]
1
1
logit
=logit
 1  1 x1   2 x2     n xn
1- 1
2  3  4
1   2
1   2
logit
=logit
  2  1 x1   2 x2     n xn
1-( 1   2 )
3  4
1   2   3
1   2   3
logit
=logit
  3  1 x1   2 x2     n xn
1-( 1   2   3 )
4
• 实际是依次将反应变量按不同的取值水平
分割呈两个等级,对这两个等级建立反应
变量为二分类的Lgistic回归模型。
• 常数项改变了,偏回归系数不变。OR值是
自变量没改变一个单位,反应变量提高一
个及一个以上等级的比数比。
SPSS操作如下
Analyze → 选 Regression (回归分析)
→ 选 Ordinal
→ Dependent (因
变量)窗口中 → Covariats(连续性变
量自变量),Factor框(分类变量)ok
• 二、无序多分类
Logistic回归模型
1
logit
=1  11 x1  12 x2    1n xn
4
2
logit
  2   21 x1   22 x2     2 n xn
4
3
logit
  3   31 x1   32 x2     3n xn
4
Analyze → 选 Regression (回归分析)
→ 选 Multinomial → Dependent
(因变量)窗口中 → Covariats(连续
性变量自变量),Factor框(分类变
量)-OK
• 假设自变量在各配比组中对结果变量
的作用是相同的,即自变量的回归系
数与配比组无关。
• 配比设计的Logistic回归模型
logit P=b1x1  b2 x2   bk xk
其中不含常数项。
• 可以看出此回归模型与非条件Logistic
回归模型十分相似,只不过这里的参
数估计是根据条件概率得到的,因此
称为条件Logistic回归模型。
• 条件Logistic回归的回归系数检验与分
析,和非条件Logistic回归完全相同。
病例对照研究的类型
• (一)病例与对照不匹配---非条件logistic
回归
• 在设计所规定的病例和对照人群中,分别
抽取一定量的研究对象,一般对照应等于
或多于病例数,此外无其他任何限制。
• (二)病例与对照匹配---条件logistic回归
• 匹配或称配比(matching),即要求对照
在某些因素或特征上与病例保持一致,目
的是对两组比较时排除混杂因素的干扰。
匹配分为成组匹配和个体匹配。
条件logistic回归
病例与对照匹配---条件logistic回归
• 1、成组匹配(category matching):匹配的因
素所占的比例,在对照组和在病例组一致。如病
例组中男女各半,65岁以上者占1/3,则对照组也
是如此。
• 2、个体匹配(individual matching):以病例
和对照的个体为单位进行匹配叫个体匹配。1:1匹
配又叫配对(pair matching), 1:2,┅ ,1:m
匹配时称为匹配。
•
匹配的特征必须是已知的混杂因子,或者有
充分的理由怀疑其为混杂因子,否则不应匹配。
•
在配比研究中,研究者通常不关心层因素的
作用,不需要估计层因素的参数。条件logistic
回归用条件似然函数替代一般似然函数。在构造
条件似然函数时考虑了层因素的影响,使在最后
得到的模型中消去了反映层因素的参数,从而减
少了模型中要估计的参数,降低了对样本含量的
要求。
表 15-7 1: M 匹配资料 logistic 回归的数据格式
危险因素
组内编号 *
匹配组号 i
t
因变量 Y
X1
X2
Xm
1
0
1
X 101
X 102
X10m
1
0
X 111
X 112
X11m
2
0
X 121
X 122
X12m
M
0
X 1M 1
X 1M 2
X1Mm
0
1
X n 01
X n 02
X n0m
1
0
X n11
X n12
X n1m
2
0
X n 21
X n 22
X n 2m
M
0
X nM 1
X nM 2
X nMm
n
*
t =0 为病例,其他为对照
1:3配对的例子
Analyze → 选 Regression (回归分析)
→ 选 Multinomial → Dependent
(因变量)窗口中 → Covariats(连续
性变量自变量),Factor框(分类变
量)-Model:去除Include intercept in
model –continue-OK