Transcript SAS生存分析
生存分析 Survival Analysis 1 生存分析是将事件的结果和 出现这一结果所经历的时间, 结合起来分析的一种统计分 医学研究中,为了了解某种疾病的预后、评价治疗 析方法,它不仅可以从事件 结局的好坏,而且可以从事 方法的优劣或观察预防保健措施的效果等,常需对 件持续时间的长短进行分析 研究对象进行追踪观察,以获得必要的数据,这类 比较,因而能够更为全面地 反映该治疗的效果。 资料都属于随访资料。随访资料是指对一批研究对 何为生存分析 象进行追踪观察所获得的有关其结局以及出现这种 结局所经历的时间等方面的资料。由于随访资料的 分析最初起源于对寿命资料的统计分析,故称为生 存分析,或称为生存时间分析。 2 传统方法在分析随访资料时的困难 时间和生存结局都成为了要关心的因素 •除了生存结局作为判定标准以外,只要能让病人存 活时间延长,这种药物也应当是被认为有效的。即时 间延长也认为有效 •如果将两者均作为应变量拟和多元模型,因为时间分 布不明(一般不呈正态分布,在不同情况下的分布规 律也不同),拟和多元模型极为困难 3 传统方法在分析随访资料时的困难 存在大量失访的资料 •失去联系(病人搬走,电话号码改变) •无法观察到结局(死于其他原因) •研究截止 显然,将失访数据无论是算作死亡还是存活似乎 都不大合理 4 第一节 表20-1 生存资料的特点 10年间346例大肠癌患者手术后的生存时间纪录表 编号 性别 年龄 (岁) dtime (月) 手术时间 终止时间 结局 生存时间 (月) 1 男 32 10 94.01.23 94.12.24 死亡 11 2 女 48 12 98.02.14 99.01.01 失访 10+ 3 女 26 6 92.03.04 95.04.12 死亡 37 4 男 55 3 99.08.20 01.09.21 死于其他 25+ 5 女 58 8 01.03.10 01.12.31 存活 9+ … 5 一、起始事件与终点事件 起始事件:反映研究对象生存过程的起始特征的 事件。 终点事件(outcome event):又称死亡事件、失效 事件(failure event),是指研究者所 关心的特定结局。 两者是相对而言的,由研究目的决定,在设计时 就明确规定,不能随意改变。 6 二、生存时间(survival time) 1.定义:广义的生存时间是指从某个起始事件开 始到某个终点事件的发生(出现反应)所经历的时 间,也称失效时间(failure time),用t表示。 2.特点: (1)分布类型不易确定。一般不服从正态分布, 有时近似服从指数分布、Weibull分布、 Gompertz分布等,多数情况下往往不服从任 何规则的分布类型。 7 (2)生存时间的影响因素多而复杂且不易控制。 (3)根据研究对象的结局,生存时间数据可分两种类 型:①完全数据(complete data):观察对象在观 察期内出现反应(终点事件),这时记录到的时间信息 是完整的,这种生存时间数据称为完全数据。 ②截尾数据(截尾值、删失数据,censored data): 尚未观察到研究对象出现反应(终点事件)时,即由于 某种原因停止了随访,这时记录到的时间信息是不完 整的,这种生存时间数据称为不完全数据或截尾值。 常用符号“+”表示。 8 截尾值(Censored value)出现的原因 截尾的原因主要有3种: ①失访:生存但中途失访:包括拒绝访问、失去联 系等。 ②退出:中途退出试验、改变治疗方案、死于其它 与研究无关的原因:如肺癌患者死于心机梗塞、 自杀或因车祸死亡,终止随访时间为死亡时间。 ③终止:指观察期结束时仍未出现结局。 9 关于截尾或删失 删失的模式图 随访开始 事件 失访 失访 研究截止时仍存活 患者进入期间 研究截止时点 10 三、生存时间资料的整理 对于随访资料,需记录的原始数据包括开始观 察的时点(起始事件发生的时间)、终止观察的 时点、研究对象的结局、考虑的影响因素。生 存时间为反映时间长短的指标,属数值变量: 生存时间( t )= 终止观察的时点–开始观察的 时点; 结局变量( )反映终点事件是否发生,为二分 类的变量。通常用( t , )完整地表示一个观察 对象的随访结果。 11 表 20-2 病例号 1 2 3 4 开始日期 11/29/80 06/13/82 03/02/83 08/04/83 表 20-3 病例号 1 2 3 4 4 例鼻咽癌患者术后随访记录 终止日期 11/04/85 06/08/83 12/31/86 04/10/86 结局 死亡 死亡 失访 死亡 治疗方法 1 1 0 0 性别 F M M F … 4 例鼻咽癌患者术后生存时间及相关资料整理表 生存时间(天) 结局 治疗方法 性别 t 1800 360 1400+ 990 X1 1 1 0 0 X2 F M M F 1 1 0 1 …… 12 第二节 生存率的估计 1.生存概率(survival probability):表示某单位时 段开始时存活的个体到该时段结束时仍存活的可能 性大小,用p表示,公式如下:以年为时间单位 p=同年内活满一年人数/某年年初尚存活人数 2.生存率(survival rate):指0时刻存活的个体在t时刻 仍存活的概率,用S(t)表示。 S(t)=t时刻仍存活的观察例数/总观察例数 13 乘积极限法, 即K-M法。 S(t)=p1×p2× … ×pi 生存概率与生存率含义不同,生存概率是针 对单位时间而言的,生存率是针对某个较长 时间段的,它是生存概率的累积结果。 如评价肿瘤预后常用的5年生存率。 14 例20-1 将符合手术治疗适应症的21例乳腺癌患者 随机分为两组,一组10例单纯接受手术治疗,另一 组11例在手术后接受化疗,其生存时间如表20-4, 试估计两种疗法的生存率。 表20-4 21例乳腺癌患者两种疗法的生存时间(月) 手术 6 9 13 15 18 19 19 20 22 24 手术+化疗 10 14 15 16+ 19 19 20 20+ 24 26 28 15 表20-5 11例乳腺癌患者手术加化疗后的生存率及其标准误 序号 时间 (月) 期初 例数 死亡 人数 生存概率 生存率 生存率 标准误 i ti ni di pi=(ni-di)/ni S(t) SE[S(t)] (1) (2) (3) (4) (6) (7) (8) 1 10 11 1 0.9091 0.9091 0.0867 2 14 10 1 0.9000 0.8182 0.1163 3 15 9 1 4 16+ 8 0 5 19 7 2 6 20 5 1 7 20+ 4 0 8 24 3 1 9 26 2 1 0.8889 0.7273 0.1343 1.将生存时间由小到大依次排列,将删 1.0000 0.7273 0.1343 失数据排在完全数据之后; 0.5195 0.7143 0.1569 2.列出各时点开始时的存活数(期初观 0.4156 0.8000 0.1562 察单位数)和死亡例数; 3.计算各时点生存概率; 0.4156 1.0000 0.1562 4.求活过各时点的生存率,等于从开始 0.6667 0.2771 0.1537 观察时点到该时点各生存概率的连乘积。 0.5000 0.1385 0.1245 10 28 1 1 0.0000 0.0000 —— 16 3.生存曲线(survival curve):是指将各个时点的生存 率连接在一起的曲线图。 坡度大,曲线陡峭——生存率较低或生存期较短; 坡度小,曲线平缓——生存率较高或生存期较长。 4.中位生存期(median survival time):也称半数生存 期,表示恰好有50%个体活过此时间。 注意:当删失数据超过样本量的50%时,无法估计 中位生存时间。 17 0.5 内插法 19.2 18 5.生存分析对资料的基本要求 (1)样本由随机抽样方法获得,要有一定的数量。死亡 例数不能太少(≥30) ; (2)完全数据所占的比例不能太少,即截尾值不宜太; (3)生存时间尽可能精确。因为许多常用的生存分析方 法都在生存时间排序的基础上作统计处理,即使小 小的舍入误差也可能改变生存时间顺序而影响结果; (4)缺项要尽量补齐。 19 第三节 生存曲线的比较 常用的比较生存曲线的方法为log-rank检验,也 称时序检验,该法不指定生存时间服从特定的某 种分布,属于非参数检验。所比较的是整个生存 时间的分布,而不是比较某个特定时间点的生存 率。 20