第十七章:生存分析(理论)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生存率的估计(非参数法)
Kaplan-Meier法 又称:乘积极限法( product-limit,PL法)
从随访开始到生存时间长于t年的生存率为:
P(T>t)=S1S2…St
式中
Si表示已生存ti-1年条件下再生存一年 到达ti年的条件概率。
计算生存率
• 例17-2(P307)
表17-4
甲种手术方式的生存率与标准误
生 存 率
图 平均生存时间示意 (Kaplan-Meier估计)
生存率的估计(非参数法)
寿命表法(lifetable method) 不作要求! • 寿命表法计算生存率的基本原理是将整个随访 时间划分为若干个时间区间,分别计算每个时 间区间开始时的观察个体数、死亡数和失访数, ˆ t t 和 进而计算每个时间区间的条件死亡率 F i i 1 ˆ t t S 条件生存率 i i 1 。根据概率的乘法原理,t ˆ t 为t时刻前各时间区间条件 时刻的生存率 S i 生存率的乘积。
i
生存曲线
• 以生存时间为横轴,生存率为纵轴绘图,即 所谓的Kaplan-Meier生存曲线
补充说明
图 两组手术方式生存概率(Kaplan-Meier)曲线
生存率的可信区间估计(正态近似法)
100(1-)%可信区间为:
ˆ t ) u SE S ˆ t S( i /2 i
一、生存时间
• 是一个广义的概念,生存时间不一定专用于死 与活的情况,生存时间(存活时间)可定义为从 某种起始事件到达某终点事件所经历的时间跨 度。
例如:
急性白血病病人治疗-复发之间的缓解期; 冠心病病人在两次发作之间隔; 已作输卵管结扎的妇女从施行输卵管吻合手术后至受孕的时间间隔; 在流行病学研究中,从开始接触危险因素到发病所经历的时间; 住院到出院之间所花费的医疗费用; 从购买到失效期间某医疗设备被使用的次数; 从购买到第一次维修某车辆所行驶的总里程等。 结婚到离婚 投保(人寿保险)到死亡 开始戒烟(毒)到再次吸烟(毒) 。。。。。。
随访资料的记录--生存分析的数据
结构和要求
包括: (1)开始观察日期,终止观察日期---生存时间 (2)结局(最终观察到的是死亡还是存活) 死于该病---完全数据 存活或死于其他原因---截尾数据 每个生存期数据要用2个变量表示:观察到的 生存时间和是否截尾(如:用0表示截尾,用1 表示死亡;4+ 用4,0表示;4用4,1表示)。 (3)协变量---各种影响生存期长短的因素。
entdate enddate 2004-10-7 2005-8-7 2002-6-29 2002-7-29 2004-8-2 2005-1-1 2004-4-5 2007-2-3 2004-10-1 2004-10-31 2003-12-12 2004-1-11 2003-12-8 2008-9-5 2003-2-14 2003-10-15 2002-1-10 2003-1-10 2002-12-17 2004-7-15
t时刻仍存活的例数 P) (T* t )p k S (t ) p1 * p 2... pi... pk S (tSk(t)1 观察总例数
• 式中pi(i=1,2,...,k)为各时段的生存概率。
五、死亡概率与生存概率
死亡概率(probability of death)
• 死亡概率:表示某单位时段开始时存活的个体, 在该时段内死亡的可能性。
第十七章 生存分析
第一节
•
基本概念
在医学,生物学研究中,常用到生存 分析 (Survival Analysis)方法。例如 对于肿瘤等疾病的疗效及预后的考核,通 常不用治愈率,有效率等表示,而用将 来复发或死亡的时间长短表示,也即生存 时间来表示。 • 所谓生存时间(survival time)是 指从某个标准时刻(如发病,确诊,开始治 疗或进行手术的时间)算起至死亡或复发 为止的时间。
h(t ) lim
t 0
Pr t T t t T t t
ˆ(t ) h
死于区间ti到ti 1内的病人数 在ti时生存的病人数 该区间包含的单位时间数
风险函数图的意义
• 当用t作横坐标,h(t)为纵坐标所绘的曲线, 如递增,则表示条件死亡速率随时间而增加, 如平行于横轴,则表示没有随时间而加速。
三、生存时间图示
1 2 3 4 5 6
起点事件 终点事件 失访
观察起点
观察终点
随访研究示意(完全数据与截尾数据)
四. 生存率(Survival Rate)
• 又称为生存函数,它表示一个病人的生存 时间长于时间t的概率,用S(t) 表示: s(t)=P(Tt) • 如5年生存率: s(5)=P(T5)
q 某时段内死亡人数 该时段初期尚存活的人数
生存概率(probability of survival)
• 生存概率:表示某单位时段开始时存活的个体, 在该时段结束时仍存活的可能性。
P
某时段内存活人数 该时段初期人数
P 1 q
生存概率与生存率?
• 下列关于生存概率和生存率的叙述,正确的是 • A.二者均随时间增加而增大 • B.二者均随时间增加而减小 • C.生存概率是生存率的累积 • D.生存率是生存概率的累积 • E.生存概率一定小于生存率
生存率的计算
• 如无删失数据,则生存率计算公式(17-3)
S (t ) P(T t ) t时刻仍存活的例数 观察总例数
t时刻仍存活的例数 t时刻仍存活的例数 S ( t ) P ( T t ) S (t ) P(T t ) 观察总例数 观察总例数
• 如有删失数据,则生存率计算公式(17-4)
生存分析目的与用途
(1)估计生存函数及其他相关指标。 (2)比较各组的生存函数。
(3)研究影响生存期长短的因素。
(4)预测不同个体的预后。
来自百度文库
第二节
生存分析的统计方法
• 生存过程的描述
非参数方法 参数方法
乘积-极限法 指数分布 (又称Kaplan-Meier法) Weibull分布 寿命表方法 Gamma分布 logistic分布 对数正态分布 。。。
完全数据(complete data)
在随访过程中,观察到了病人的确切结局,也 就知道其具体的存活时间.
删失数据(censored data,截尾数据)
随访工作中,由于某种原因未能观察到病人 的明确结局,这样,就不知道该病人的确切生存 时间,称之为删失数据。
常在生存时间数据后加上符号+表示删失数据。
P310 例17-3
• 不作要求!
• 生存过程的比较
非参数方法
时序(log-rank)检验 分层时序检验 Gehan检验 (广义Wilcoxon检验) Mantel-Haenszel检验
参数方法
分布参数检验
logrank 检验
P311 例17-4
H0: 两组生存过程相同
H1: 两组生存过程不同
平均生存时间
• 由于生存时间的分布总是偏态的,故平 均生存时间常用中位生存时间(median survival time)来计算,其意义是50% 的个体存活且有50%的个体死亡的时间, 也即生存率为50%时在生存曲线中所对 应的生存时间。
• 两种计算方法:图解法和线性内插法 • 图解法(使用spss生存率图编辑来说明 其结果) • 线性内插法:取2个相继生存率,使得一 个大于0.5,一个小于0.5,然后,以表 17-4为例计算甲组中位生存时间。 • (8-10)/(8-百分位数)=(0.56520.4783)/(0.5652-0.50), t=9.50(月)
虽然截尾数据提供的信息是不完全的,但不 能删去,因为这不仅损失了资料,而且会造成偏 性。
3. 生存期的资料一般不服从正态分布。 由于上述原因,常用的统计方法不适用,而 要用特殊的统计方法。 生存分析是指对于生存时间这一指标进行分 析的一系列特殊的统计方法。
例17-1
• 为了估计HIV(人类免疫缺陷病毒)阳性 患者的生存时间,某研究者进行了临床随访研 究。研究对象是于2002年1月1日至2004年12 月31日期间在某市确诊为HIV阳性者,随访这 些对象直至死于AIDS(艾滋病)或其并发症 (status=1为死亡,0为删失),研究截止日 期为2008年12月31日。并记录每个研究对象 的性别(sex=1为男, 0为女)、年龄(age, 岁)、是否用药(drug=1为用药,0为不用)。
生存曲线
• 以生存时间为横轴,生存率为纵轴绘图,即 所谓的Kaplan-Meier生存曲线
生存曲线的绘制
生存曲线的特征
• 它是一条下降的曲线,下降的坡度越陡, 表示生存率越低或生存时间越短,其斜率 表示死亡速率。
常见生存函数的类型示意
六、风险函数(hazard function)
• 风险函数表示一个生存到时间t的个体,在 从t到 t t 这一区间内死亡概率的极限, 也就是一个生存到时间t的个体在时间t的瞬 时死亡率(条件死亡速率)。
表17-1
• • • • • • • • • • • ID 1 2 3 4 5 6 7 8 9 10
100名HIV阳性患者的生存时间(月)及 其影响因素
time sex age drug 10 0 27 1 1 0 47 1 5 1 40 1 34 1 37 0 1 0 33 1 1 0 42 1 57 0 37 0 8 1 32 1 12 0 37 1 19 1 34 0 status 1 0 1 1 1 1 1 1 0 1
常见风险函数的类型示意
风险函数的不同情况:
常数,
下降,
如:死于飞机失事。
如:意外伤害。
先升后降, 如:交通事故。
上升, 如:持续接触危险因素。
澡盆样,
如:人的一生。
平均生存时间
• 由于生存时间的分布总是偏态的,故平 均生存时间常用中位生存时间(median survival time)来计算,其意义是50% 的个体存活且有50%的个体死亡的时间, 也即生存率为50%时在生存曲线中所对 应的生存时间。
例甲、乙两种手术方法生存过程的log-rank检验计算表
ti Time 1 2 3 死亡 4 死亡 甲组 1 5 死亡 甲组 0 6 乙组 2 甲组 1 死亡数 d 期初病例数 合计 甲组 乙组 ni n1i n2i 20 18 17 15 12 12 理论死亡数 甲组 乙组 d*nA/n d*nB/n 1.6047 1.3953 0.5500 0.4500 1.6923 1.3077 . . . . . .
问题1
• 在你学过的统计方法中,对于不能痊愈 的慢性病治疗效果的考核可用什么指标 和统计方法? • (其结局都是死亡)
引出新概念:生存时间
• 不仅要考察结局的好坏,还要考察经历 的时间长短。 • 对于能治愈疾病,看治愈时间的长短, 对于不能治愈的疾病,看延长生存时间 的长短。
问题2
• 采用随访研究可以研究生存时间,但此 时失访问题不可避免,怎么办? • 例如,使用生存率(或有效率)指标,分 子是什么?分母是什么?
以3年生存率为例
• 3年期满的某病生存人数/期初某病观察 总人数 • 3年期满的某病生存人数/3年期满的某病 观察总人数
• 对象在期间失访如何处理?
对上述2个问题的解决办法
应用一类对生存时间进行的统计分 析—生存分析:包括 1. 生存率估计(乘积极限法和寿命表法) 2. 生存率比较(log-rank检验和Breslow 检验) 3. Cox模型
展开你的想象力,专业应用领域很广!
结局(终点事件)的理解
死亡(生存) 复发(白血病、第二次心肌梗死) 痊愈、好转 并发症(糖尿病的视网膜病变等) 长出第一颗乳牙 第一次来月经 动物实验中发生肿瘤等
二、生存时间类型
2种类型,即完全数据和删失数据:
完全数据:提供了病人确切的生存时间,是生存分析的 主要依据; 删失数据:删失数据也提供部分信息,说明病人在某时 刻之前没有死亡,一般用于确定暴露人口.
生存分析数据的三个特点:
1.随访观察获得,同时考虑生存时间和生存结局
2.有截尾数据(censored data) 随访中未能知道病人的确切生存时间,只知 道病人的生存时间大于某时间。 (1)病人失访或因其他原因而死亡---失访 (2)到了研究的终止期病人尚未死亡---终访 截尾数据可记为t+,如: 4+ = 生存时间大于4年。