SAS生存分析

Download Report

Transcript SAS生存分析

生存分析
Survival Analysis
1
生存分析是将事件的结果和
出现这一结果所经历的时间,
结合起来分析的一种统计分
医学研究中,为了了解某种疾病的预后、评价治疗
析方法,它不仅可以从事件
结局的好坏,而且可以从事
方法的优劣或观察预防保健措施的效果等,常需对
件持续时间的长短进行分析
研究对象进行追踪观察,以获得必要的数据,这类
比较,因而能够更为全面地
反映该治疗的效果。
资料都属于随访资料。随访资料是指对一批研究对
何为生存分析
象进行追踪观察所获得的有关其结局以及出现这种
结局所经历的时间等方面的资料。由于随访资料的
分析最初起源于对寿命资料的统计分析,故称为生
存分析,或称为生存时间分析。
2
传统方法在分析随访资料时的困难

时间和生存结局都成为了要关心的因素
•除了生存结局作为判定标准以外,只要能让病人存
活时间延长,这种药物也应当是被认为有效的。即时
间延长也认为有效
•如果将两者均作为应变量拟和多元模型,因为时间分
布不明(一般不呈正态分布,在不同情况下的分布规
律也不同),拟和多元模型极为困难
3
传统方法在分析随访资料时的困难

存在大量失访的资料
•失去联系(病人搬走,电话号码改变)
•无法观察到结局(死于其他原因)
•研究截止
显然,将失访数据无论是算作死亡还是存活似乎
都不大合理
4
第一节
表20-1
生存资料的特点
10年间346例大肠癌患者手术后的生存时间纪录表
编号
性别
年龄
(岁)
dtime
(月)
手术时间
终止时间
结局
生存时间
(月)
1
男
32
10
94.01.23
94.12.24
死亡
11
2
女
48
12
98.02.14
99.01.01
失访
10+
3
女
26
6
92.03.04
95.04.12
死亡
37
4
男
55
3
99.08.20
01.09.21
死于其他
25+
5
女
58
8
01.03.10
01.12.31
存活
9+
…
5
一、起始事件与终点事件
起始事件:反映研究对象生存过程的起始特征的
事件。
终点事件(outcome event):又称死亡事件、失效
事件(failure event),是指研究者所
关心的特定结局。
两者是相对而言的,由研究目的决定,在设计时
就明确规定,不能随意改变。
6
二、生存时间(survival time)
1.定义:广义的生存时间是指从某个起始事件开
始到某个终点事件的发生(出现反应)所经历的时
间,也称失效时间(failure time),用t表示。
2.特点:
(1)分布类型不易确定。一般不服从正态分布,
有时近似服从指数分布、Weibull分布、
Gompertz分布等,多数情况下往往不服从任
何规则的分布类型。
7
(2)生存时间的影响因素多而复杂且不易控制。
(3)根据研究对象的结局,生存时间数据可分两种类
型:①完全数据(complete data):观察对象在观
察期内出现反应(终点事件),这时记录到的时间信息
是完整的,这种生存时间数据称为完全数据。
②截尾数据(截尾值、删失数据,censored data):
尚未观察到研究对象出现反应(终点事件)时,即由于
某种原因停止了随访,这时记录到的时间信息是不完
整的,这种生存时间数据称为不完全数据或截尾值。
常用符号“+”表示。
8
截尾值(Censored value)出现的原因
截尾的原因主要有3种:
①失访:生存但中途失访:包括拒绝访问、失去联
系等。
②退出:中途退出试验、改变治疗方案、死于其它
与研究无关的原因:如肺癌患者死于心机梗塞、
自杀或因车祸死亡,终止随访时间为死亡时间。
③终止:指观察期结束时仍未出现结局。
9
关于截尾或删失
删失的模式图
随访开始
事件
失访
失访
研究截止时仍存活
患者进入期间
研究截止时点
10
三、生存时间资料的整理
对于随访资料,需记录的原始数据包括开始观
察的时点(起始事件发生的时间)、终止观察的
时点、研究对象的结局、考虑的影响因素。生
存时间为反映时间长短的指标,属数值变量:
生存时间( t )= 终止观察的时点–开始观察的
时点;
结局变量(  )反映终点事件是否发生,为二分
类的变量。通常用( t ,  )完整地表示一个观察
对象的随访结果。
11
表 20-2
病例号
1
2
3
4
开始日期
11/29/80
06/13/82
03/02/83
08/04/83
表 20-3
病例号
1
2
3
4
4 例鼻咽癌患者术后随访记录
终止日期
11/04/85
06/08/83
12/31/86
04/10/86
结局
死亡
死亡
失访
死亡
治疗方法
1
1
0
0
性别
F
M
M
F
…
4 例鼻咽癌患者术后生存时间及相关资料整理表
生存时间(天)
结局
治疗方法
性别
t
1800
360
1400+
990

X1
1
1
0
0
X2
F
M
M
F
1
1
0
1
……
12
第二节
生存率的估计
1.生存概率(survival probability):表示某单位时
段开始时存活的个体到该时段结束时仍存活的可能
性大小,用p表示,公式如下:以年为时间单位
p=同年内活满一年人数/某年年初尚存活人数
2.生存率(survival rate):指0时刻存活的个体在t时刻
仍存活的概率,用S(t)表示。
S(t)=t时刻仍存活的观察例数/总观察例数
13
乘积极限法,
即K-M法。
S(t)=p1×p2× … ×pi
生存概率与生存率含义不同,生存概率是针
对单位时间而言的,生存率是针对某个较长
时间段的,它是生存概率的累积结果。
如评价肿瘤预后常用的5年生存率。
14
例20-1 将符合手术治疗适应症的21例乳腺癌患者
随机分为两组,一组10例单纯接受手术治疗,另一
组11例在手术后接受化疗,其生存时间如表20-4,
试估计两种疗法的生存率。
表20-4
21例乳腺癌患者两种疗法的生存时间(月)
手术
6
9
13
15
18 19
19
20
22 24
手术+化疗
10
14
15
16+
19 19
20
20+
24 26
28
15
表20-5
11例乳腺癌患者手术加化疗后的生存率及其标准误
序号
时间
(月)
期初
例数
死亡
人数
生存概率
生存率
生存率
标准误
i
ti
ni
di
pi=(ni-di)/ni
S(t)
SE[S(t)]
(1)
(2)
(3)
(4)
(6)
(7)
(8)
1
10
11
1
0.9091
0.9091
0.0867
2
14
10
1
0.9000
0.8182
0.1163
3
15
9
1
4
16+
8
0
5
19
7
2
6
20
5
1
7
20+
4
0
8
24
3
1
9
26
2
1
0.8889
0.7273
0.1343
1.将生存时间由小到大依次排列,将删
1.0000
0.7273
0.1343
失数据排在完全数据之后;
0.5195
0.7143
0.1569
2.列出各时点开始时的存活数(期初观
0.4156
0.8000
0.1562
察单位数)和死亡例数;
3.计算各时点生存概率;
0.4156
1.0000
0.1562
4.求活过各时点的生存率,等于从开始
0.6667
0.2771
0.1537
观察时点到该时点各生存概率的连乘积。
0.5000
0.1385
0.1245
10
28
1
1
0.0000
0.0000
——
16
3.生存曲线(survival curve):是指将各个时点的生存
率连接在一起的曲线图。
坡度大,曲线陡峭——生存率较低或生存期较短;
坡度小,曲线平缓——生存率较高或生存期较长。
4.中位生存期(median survival time):也称半数生存
期,表示恰好有50%个体活过此时间。
注意:当删失数据超过样本量的50%时,无法估计
中位生存时间。
17
0.5
内插法
19.2
18
5.生存分析对资料的基本要求
(1)样本由随机抽样方法获得,要有一定的数量。死亡
例数不能太少(≥30)
;
(2)完全数据所占的比例不能太少,即截尾值不宜太;
(3)生存时间尽可能精确。因为许多常用的生存分析方
法都在生存时间排序的基础上作统计处理,即使小
小的舍入误差也可能改变生存时间顺序而影响结果;
(4)缺项要尽量补齐。
19
第三节
生存曲线的比较
常用的比较生存曲线的方法为log-rank检验,也
称时序检验,该法不指定生存时间服从特定的某
种分布,属于非参数检验。所比较的是整个生存
时间的分布,而不是比较某个特定时间点的生存
率。
20