第20章Logistic回归分析

Download Report

Transcript 第20章Logistic回归分析

Logistic 回归分析
Logistic Regression Analysis
翟景花
公共卫生学院
复习: 线性回归分析对反应变量的要求
反应变量
y
连续型
服从正态分布
自变量
x
数值型
与Y呈线性关系
年龄
例如: 胆固醇含量
舒张压
2
医学研究中经常遇到分类型变量,例如:
• 二分类变量:
o
o
o
o
生存与死亡
有病与无病
有效与无效
感染与未感染
• 多分类有序变量:
o 疾病程度(轻度、中度、重度)
o 治愈效果(治愈、显效、好转、无效)
• 多分类无序变量:
o 手术方法(A、B、C)
o 就诊医院(甲、乙、丙、丁)
3
医学研究者经常关心的问题诸如:
• 吸烟是否影响肺癌的发病?
• 年龄和糖尿病的发病有无关系?
• 哪些因素导致了手术后有的人感染,而有
的人不感染?
• 哪些因素导致了某种治疗方法出现治愈、
显效、好转、无效等不同的效果?
是回归分析问题吗?
4
这些应该是属于回归分析问题!
• 但是这种回归分析问题不能借助于线性回归
模型,因为反应变量的假设条件遭到破坏
• 能否找到一种其他形式的模型y=f(x)来描述分
类变量y和x之间依存关系呢?
• 因为从数学角度看,使得x取任意值而y仅
取1和0两个值的函数不存在。
NO
5
“转换一个角度来解决这个问题”
不能直接分析
变量y与x的关系
转换为分析
y取某个值的概率
变量p与x的关系
y=f(x)
y=1,0
x任意
p=p(y=1|x)=p(x)
0≤p≤1, x任意
Logistic回归模型
存在
6
主要内容
• Logistic 回归模型的基本概念
• Logistic回归的参数估计及假设检验
• Logistic回归分析的分类
• Logistic回归的应用
7
第一节 Logistic 回归模型的基本概念
• 一、 Logistic 回归的实例
表 20-1 急性心肌梗死(AMI)患者的抢救危险因素资料(n=200)
X1
0
0
0
0
1
1
P=0(在医院抢救成功)
X2
X3
0
0
1
1
0
0
0
1
0
1
0
1
N
X1
35
34
17
19
17
6
0
0
0
0
1
1
P=1(未能抢救成功而死亡)
X2
X3
N
1
1
0
6
1
1
1
1
6
1
X1 表示休克,X2 表示心衰,X3 表示时间超过 12 小时。
0
0
1
1
0
0
0
1
0
1
0
1
4
10
4
15
6
9
1
1
0
1
6
6
8
二、 Logistic 回归模型的基本结构
AMI抢救后死亡率与影响因素关系的回归模型
P      X 1    X 2    X 3
P值大于1或小于0
变量变换
9
• 1970年,Cox引入了Logit变换
Logit ( P )  ln(
P
1 P
)  0  X
• 请注意其右侧仍然可以写成线性的形式!
• 大量实践证明,LogitP往往和自变量呈线性关系。
• 已经成为了分类变量的标准建模方法。
Logistic
回归模型
P 
P 
e
0  X
1 e
  X
或
Logistic
函数
1
1 e
(  X )
10
多变量的Logistic回归模型
P 
e
    X 1    p X
1 e
p
    X 1    p X
p
或
P 
1
1 e
 (     X 1    p X
p
)
11
Logistic 回归概念
• 是分类数据统计分析的一种重要方法,研究多水平
(包括2个水平)的应变量与其影响因子间关系的
回归分析。即用于分析某类事件发生概率与自变量
之间依存关系的回归,即Logistic回归。
• Logistic这个名称来源于它所采用的Logit变换,和
英文单词Logistic的含义(后勤的)一点关系都没
有,与逻辑就更不相干了。
• 自从传入国内以来,Logistic回归就一直采用英文
写法,从没有使用过译名。
12
第二节 Logistic回归的参数估计及假设检验
• 引发的新特点
– 由于反应变量为二分类,所以误差项应当服从
二项分布,而不是正态分布。
• 误差项的分布规律应当和所预测的反应变量相同
– 由于上述原因,最小二乘法也不再适用,
– 最大似然法的优越性和重要性一举凸现出来。
13
一、Logistic回归的参数估计及意义
• 最大似然法(maximum likelihood,ML)的基本思想
是先建立似然函数或对数似然函数,求似然函数
或对数似然函数达到极大时参数的取值,称为参
数的最大似然估计值。
• 计算方法来自于概率分布。
• 似然(L, likelihood):某种结局组合出现的概率,
由于总体率不同L也不同,所以又被称为似然函
数。
14
表 20-2 例 20-1 的参数估计与 wald 检验结果
变量名
ˆ
SE( ˆ )
Wald   值
P值
OR  exp ( ˆ )
常数项
-2.086
0.351
35.263
0.000
0.124
X1
X2
X3
1.110
0.703
0.975
0.348
0.329
0.344
10.142
4.559
8.036
0.001
0.033
0.005
3.034
2.019
2.651
Variables in the Equation
Step
a
1
X1
X2
X3
Constant
B
1.110
.703
.975
-2.086
S.E.
.348
.329
.344
.351
Wald
10.142
4.559
8.036
35.263
df
1
1
1
1
Sig.
.001
.033
.005
.000
Exp(B)
3.034
2.019
2.651
.124
95.0% C.I.for EXP(B)
Lower
Upper
1.532
6.007
1.059
3.850
1.351
5.203
a. Variable(s) entered on step 1: X1, X2, X3.
15
ˆ
表 20-2 例 20-1 的参数估计与 wald 检验结果
变量名
ˆ
SE( ˆ )
Wald   值
P值
OR  exp ( ˆ )
常数项
-2.086
0.351
35.263
0.000
0.124
X1
X2
X3
1.110
0.703
0.975
0.348
0.329
0.344
10.142
4.559
8.036
0.001
0.033
0.005
3.034
2.019
2.651
ln(
p
1 p
)   2 . 086  1 . 110 X 1  0 . 703 X 2  0 . 975 X 3
常数项表示在自变量取值均为0时,死亡优势(比
数)的自然对数值。
exp( ˆ 0 )=0.124是无休克、无心衰和抢救及时组死亡
的优势。
当死亡率很低时,该值近似等于自然死亡率。 16
ˆ
表 20-2 例 20-1 的参数估计与 wald 检验结果
变量名
ˆ
SE( ˆ )
Wald   值
P值
OR  exp ( ˆ )
常数项
-2.086
0.351
35.263
0.000
0.124
X1
X2
X3
1.110
0.703
0.975
0.348
0.329
0.344
10.142
4.559
8.036
0.001
0.033
0.005
3.034
2.019
2.651
ln(
p
1 p
)   2 . 086  1 . 110 X 1  0 . 703 X 2  0 . 975 X 3
β为Logistic回归系数,表示其它自变量取值固定时,
该自变量增加一个单位引起优势比自然对数的变化
量。β=lnOR, OR=eβ或OR=exp(β)
OR表示暴露组的疾病危险是非暴露组的多少倍。
OR>1为危险因素;OR<1为保护因素。
17
logistic回归模型系数β的意义解释:
从 e =OR≈RR,说明当发病率很低时,e近似地
表示了相对危险度,即暴露下的发病率与非暴露下
的发病率之比。
例如,在例20-1中得到 1=1.110,
因此,RR ≈OR= e =3.034,
表明心梗发生后抢救前有休克的死亡危险
是没有休克的3.034 倍。
18
一般地,logistic回归模型系数的意义是:
1)如果X=1、0,则OR近似表示在X=1条件下的
发病率与X=0条件下发病率之比。(见例20-1)
2)如果X是连续变量,则OR近似表示在X相邻两
个单位上的相对危险度。
3)如果X是分类变量,则要将X的哑变量放入模
型,则OR表示两个类之间的相对危险度。
19
二、假设检验和回归系数的区间估计
1.似然比检验(likelihood ratio test)
⑴检验整个模型是否有统计学意义,即检验所有的偏
回归系数是否均为0。检验假设为
– H0:β1=…= βm=0
– H1 :β1,…,βm 不全为0
统计量
– G=- [2lnL (-1,…,-m) ] --2lnL ’
– 其中L是不包含m个自变量的模型的似然函数。
– L’是包含所有自变量的模型似然函数,G反映的是后一
个模型较前一个模型拟和优度提高的程度。
– 大样本, H0成立的条件下,G服从自由度为m的卡方检
验。
20
• ⑵分别检验各个自变量是否有意义,即单个总体回
归系数是否为零。检验假设为
– H0:βi=0
– H1 :βi≠0
统计量
– G=-2lnL-[-2lnL’ (i)]
– 其中L是扣除Xi的模型似然函数,L’是包含Xi的模型的似
然函数。
– 大样本, H0成立的条件下,G服从自由度为1的卡方检验。
21
2.Wald检验
• 常用于回归系数的假设检验,检验假设为
– H0:βi=0
– H1 :βi≠0
统计量


(
ˆ
SE ( ˆ )
2
) 大样本时,服从
X 1的回归系数的


(
1 . 1098

  的  分布。
Wald 统计量为
2
) =10 . 1422
0 . 3485
该检验是通过比较β值来进行的,它是基
于β值服从正态分布的假设。
22
3.优势比的区间估计
总体回归系数的的(1-α)置信区间为
ˆ  z a SE ( ˆ )
Variables in the Equation
Step
a
1
X1
X2
X3
Constant
B
1.110
.703
.975
-2.086
S.E.
.348
.329
.344
.351
Wald
10.142
4.559
8.036
35.263
df
1
1
1
1
Sig.
.001
.033
.005
.000
Exp(B)
3.034
2.019
2.651
.124
95.0% C.I.for EXP(B)
Lower
Upper
1.532
6.007
1.059
3.850
1.351
5.203
a. Variable(s) entered on step 1: X1, X2, X3.
23
第三节 Logistic回归分析的分类
• 按数据的类型:
Logistic回归分析
o 非条件logistic回归分析(成组数据)
o 条件logistic回归分析(配对病例-对照数据)
• 按反应变量取值个数:
o 二值logistic回归分析
o 多值logistic回归分析
★
• 按自变量个数:
o 一元logistic回归分析
o 多元logistic回归分析
对应四格表资料卡方检验
24
条件logistic回归
• 研究中有N个配比组,每组中n个病例配m
个对照者。这时,各个研究对象发生某事
件的概率即为条件概率。
• 适用于
– 配比设计的病例-对照研究
– 精细分层设计的队列研究
25
条件Logistic回归
• 1:1条件Logistic回归及模型
在1:1配对设计的病例-对照研究中,若y=1表
示得病,y=0表示未得病;A表示病例,B为对
照,一对病例和对照中只有1人得病的条件下
恰好是A得病的概率为:
26
条件Logistic回归模型
p ( y A  1 一对中只有一人得病
)
1
1 e
  ( x A  xB )
当有 p 个自变量时:
P (Y A  1 一对中只有 1人得病 ) 
1
1 e
 [  1 ( X 1 A  X 1 B )  ...   p ( X
PA
X
27
PB
)]
第四节 Logistic回归的应用
• 筛选危险因素:如例20-1
• 校正混杂因素
• 预测与判别
28
筛选危险因素
• 病因学研究
– 病例-对照研究
– 队列研究
• 影响因素的研究
– 横断面调查
29
校正混杂因素
• 一般采用Mantel-Haenszel分层分析
• 分层较细或存在格子零频数时,M-H法
无法采用。
• logistic回归分析可综合校正多个混杂因
素的影响
30
预测与判别
• logistic回归模型作为一种概率模型,非条件
logistic回归方程可计算相应的概率预测值,
对个体所属类别作出概率性的判别。但由于
条件logistic回归模型不能估计常数项,不能
用于预测。
31
注意问题
• 个体间的独立性
• 足够的样本量
• 模型评价
• 标准化回归系数
32
注意问题
• 筛选自变量时,临床和流行病学意义和生物学机
制在模型结果解释中占更重要的地位。
• 自变量可以是无序分类变量、有序分类变量和数
值变量。无序分类变量常用多个0-1假(哑)变
量来代替,使结果更容易解释。数值变量可以转
换成等级变量,使参数意义更明确。
• 大多数情况下,不需对常数项做解释和假设检验。
条件Logistic回归模型无常数项,不能用于预测。
33
Logistic回归分析和线性回归分析的异同点
• 相同点:
o 都可以利用模型来筛选危险因子;
o 都可以校正混杂因子的影响;
o 都可以用来做预测。
• 不同点:
o 前者对因变量无分布要求,后者要求因变量是正态
分布变量;
o 前者要求因变量必须是分类型变量,后者要求因变
量必须是连续型数值变量。
o 前者不要求自变量和因变量呈线性关系,后者要求
自变量和因变量呈线性关系;
o 前者是分析因变量取某个值的概率与自变量的关系,
后者是直接分析因变量与自变量的关系。
34
小结
P 
e
     X 1    p X
   X   
Logistic回归为概率型的非线性模型
1 e
反应变量为分类变量,自变量可以是任意类型
一元logistic回归分析对应四格表资料卡方检验
对模型的检验采用的是似然比检验,对单个偏回归
系数的检验可采用似然比检验或Wald卡方检验
回归系数β 表示其它自变量取值固定时,该自变量
增加一个单位引起优势比自然对数的变化量
β=lnOR, OR=eβ
OR表示联系强度


1
35
p
p
X
p
对资料分析结果的正确解释至关重要
Variables in the Equation
Step
a
1
X1
X2
X3
Constant
B
1.110
.703
.975
-2.086
S.E.
.348
.329
.344
.351
Wald
10.142
4.559
8.036
35.263
df
1
1
1
1
Sig.
.001
.033
.005
.000
Exp(B)
3.034
2.019
2.651
.124
95.0% C.I.for EXP(B)
Lower
Upper
1.532
6.007
1.059
3.850
1.351
5.203
a. Variable(s) entered on step 1: X1, X2, X3.
36
37