随访时间资料分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
+为截尾数据
第二节 生存率的估计
小样本资料生存率的Kaplan-Meier估计 当随访的病例数较少时,不需要对病人 的随访时间进行分组,而是直接计算生 存率。生存率的计算常采用乘积极限法 (product-limited method),该法 由Kaplan-Meier于1958年提出,故又 称为Kaplan-Meier法。它利用条件概率 及概率乘法的原理来计算生存率。
死亡密度函数(death density function) 死亡密度函数是死亡概率函数的导数, 表示所有观察对象在t时刻的瞬时死亡率。
P[个体在区间(t , t t )内死亡) f (t ) F (t ) lim t 0 t
'
f(t)为非负,有: f (t )dt 1 。如果无截尾数据时,f(t)可估计如下:
非参数法:乘积限法和寿命表法 参数法:指数分布法、Weibull分布法、 对数正态回归分析法和对数logistic回归 分析法 半参数法:COX模型
生存时间资料的特点
与一般的统计资料相比,其效应变量有两个: 一个是生存时间,另一个是结局 存在截尾数据 分布类型非常复杂:生存资料一般通过随访获 得,因观察时间长且难以控制混杂因素,故其 分布常呈偏态,影响因素较多,规律难以预测。 因此,生存资料不宜简单地计算死亡率或治愈 率,也不能简单地计算生存时间的平均数,必 须将两者结合起来才能准确地反映疗效和预后 的好坏程度,即必须用生存分析统计方法作统 计分析。
风险函数 h(t)定义如下:
h(t ) lim P[在时刻t生存的病人在区间(t , t t)内死亡] t 0 t
如果无截尾数据时,h(t)可估计为:
ˆ(t ) h 在区间内每单位时间死亡的病人数 在时刻t生存的病人数-在区间内死亡的病人数 / 2
生存函数、死亡密度函数和风险 函数的区别
例15-2 在儿童急性淋巴细胞白血病 (ALL)的生存研究中,有21例高危儿童 ALL的临床随访资料。生存时间定义为确 诊日期到病人死亡日期的时间跨度,得 到的生存时间(月),见表15-3第(1) 栏,其中有“+”者是截尾数据,表示 病人仍生存或失访。试计算其生存率与 标准误。
表 15-3 高危 ALL 儿童生存率计算方法
1.000 0.875 0.700 0.550 0.450 0.325 0.225 0.125 0.125 0.075 0.050
ˆ (t ) f
0.025 0.035 0.030 0.020 0.025 0.020 0.020 0.000 0.010 0.005 -
ˆ (t ) h
0.027 0.044 0.048 0.040 0.065 0.072 0.114 0.000 0.100 0.080 -
几种随访研究模式
研究起点相同,多见于队列研究,动物实验 观察对象逐个进入研究,即研究起始时间不同, 多见于临床随访研究
● ● ● ● ● ╳ ○ ╳ ▲ ▲ ● 起始事件 ▲ 终点事件 ╳ 失 ○ 终 访 止 ● ● ● ● ● ▲ ▲ ╳ ○ ○
研究时间 研究起点 图 15-1 队列研究示意 研究终点 研究起点
序号 i 时间(月) t (1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 1 3 4 5 6 8 10 11 12 14 17 18 24 30 31 51 62+ 78+ 88+ 115+ 124+ 死亡人数 d (2) 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 期初观察 人数 n (3) 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 5 5 5 5 条件死亡率 F (4) 0.048 0.050 0.053 0.056 0.059 0.063 0.067 0.071 0.077 0.083 0.091 0.100 0.111 0.125 0.143 0.167 0.000 0.000 0.000 0.000 0.000 条件生存 率 S (5) 0.952 0.950 0.947 0.944 0.941 0.937 0.933 0.929 0.923 0.917 0.909 0.900 0.889 0.875 0.857 0.833 1.000 1.000 1.000 1.000 1.000 0.952 0.905 0.857 0.810 0.762 0.714 0.667 0.619 0.571 0.524 0.476 0.429 0.381 0.333 0.286 0.238 0.238 0.238 0.238 0.238 0.238 0.0465 0.0641 0.0764 0.0857 0.0929 0.0986 0.1029 0.1060 0.1080 0.1090 0.1090 0.1080 0.1060 0.1029 0.0986 0.0929 - - - - - 生存率 P(T>t) (6) 标准误 Sp (7)
01.5.21 02.6.15 01.6.17 03.6.20 01.7.25 02.6.13 01.7.1 01.7.3 01.8.9 01.9.5
什么来自百度文库生存时间资料?
所以疾病预后的好坏或其它因素,不但要看结 局如何,而且要看多长时间出现这种结局 慢性疾病 如恶性肿瘤、糖尿病、高血压、心 血管等疾病疗效的分析,单纯的治愈率或生存 率不能敏感地反映出治疗的效果 有一类资料含有结局和时间两方面的信息,它 源于寿命统计,通过随访收集,特称为随访# 生存时间资料(survival data) 生存时间资料的分析方法简称为生存分析
1.0
累积生存率
.8
.6
.4
.2
0.0 0 10 20 30 40 50 60
生存时间( 天) (月)
SAS程序
二、大样本资料的生存分析
在样本较大时,随访病例的生存时间常 可按年、月或日进行分组,得出具有若 干时间段的频数表。对于分组的生存数 据可按寿命表(life table)法计算生存率, 其基本原理是首先求出研究对象在起始 事件后各个时期的生存概率,然后根据 概率的乘法原理,将各时期生存概率相 乘,即可得到自观察开始到各时点的生 存率。并对生存率或生存分布之间的差
研究时间 研究终点 图 15-2 临床随访研究示意
生存率与死亡概率
生存函数(survival function): 叫累积生存率,简 称生存率。表示具有协变量X的观察对象其生 存时间T大于t时刻的概率,常用S( t, X )=P(T>t, X)表示。在实际工作中,如无截尾数 据是用生存时间大于t的病人数对总病人数的比 例来估计的。 死亡概率:表示观察对象从开始到时间t为止的 死亡概率,是一个随时间上升的函数,常用 F(t)=P(T≤t)。死亡概率与生存率的关系是: S(t)=1-F(t)。当t =0时,死亡概率为0;当观 察期为无穷大时,其死亡概率为1。
第一节 生存分析中基本概念 一、基本概念
生存时间(survival time):是任何两个有联 系事件之间的时间间隔,常用符号t表示。 狭义的生存时间指的是患某种疾病的病 人从发病到死亡所经历的时间跨度;广 义的生存时间定义为从某种起始事件到 终点事件所经历的时间跨度。 要明确规定事件的起点、终点及时间的 测量单位
生存分析(survival analysis)
为什么要引入生存分析方法?
临床上有许多资料在判断治疗效果时, 不能简单地比较治愈率或死亡率大小来 判断疾病愈后好坏 如用甲(手术组)、乙(手术+放疗)两 种疗法治疗肺癌,其生存率均为60%, 能说明两疗法的疗效一致吗?
表 15-1 甲(手术组) 、乙(手术+放疗)两组治疗方案肺癌病人临床随访结果 分组 编号 开始治疗 日 甲 甲 甲 甲 甲 乙 乙 乙 乙 乙 1 2 3 4 5 6 7 8 9 10 期 05.5.15 02.10.15 01.9.15 05.5.15 05.5.15 05.5.15 05.5.15 03.6.13 05.5.15 02.4.11 生 死 死 生 生 生 生 死 生 死 终止日期 结局 生存 日数 1454 120 88 695 1390 1067 1414 710 1376 221 60.0 958 60.0 749 生存率 (%) 平均生 存日数
第十五章 随访时间资料的分析 p253
生存分析(survival analysis)
为什么要引入生存分析方法? 什么是生存(随访)时间资料及相关的基本概念? 临床科研工作中如何收集生存分析资料? 生存分析方法有哪些? 如何估计生存率? 如何作生存曲线(kaplan-meier chart) ? 如何比较不同疗法的疗效(生存曲线log-rank检 验)? 如何进行生存时间的影响因素分析? SAS程序如何编程和结果如何解释? 一个典型的生存分析科研项目演示
失效事件(failure event):指反映治疗效 果特征的事件,又称死亡事件或终点事 件。如肾移植病人因肾功能丧失引起的 死亡、急性白血病患者的复发、癌症患 者的死亡。在研究中必须明确规定。 起始事件(initial event):是反映生存时 间起始特征的事件。如确诊时间、某种 疾病开始治疗时间。
在时刻t开始的区间内死亡的病人数 ˆ f (t ) 病人总数 区间长度
风险函数(hazard function):表示具有协变 量X已生存到时间t的观察对象, 每个观察对 象从生存时间t到t+Δt这一非常小的区间内 死亡的极限概率,即生存时间已达到t的一 群观察对象在t时刻的瞬时死亡率。
表 15-2 40 个肝癌病人的随访资料
时间(月) t 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~ 50~ 40 35 28 22 18 13 9 5 5 3 2 5 7 6 4 5 4 4 0 2 1 2 生存函数 期初例数 期内死亡数 死亡密度函数 风险函数
ˆ (t ) s
临床科研工作中如何收集生存分析资料? 表 2 6 例肝癌随访记录
协变量 序号 姓名 性别 1 2 3 4 5 6 冯 xx 李 xx 黄 xx 吴 xx 马 xx 张 xx 1 0 1 0 1 1 手术 0 1 1 0 1 1 开始日期 终止日期 00-07-08 00-07-10 00-07-16 00-08-18 00-10-10 00-12-01 00-11-27 00-12-15 00-12-31 00-11-22 00-11-22 00-12-31 研究截止日期 00-12-31 00-12-31 00-12-31 00-12-31 00-12-31 00-12-31 结局(死 =1) 0 1 0 1 1 1 原因 失访 复发死亡 研究终止 复发死亡 转移死亡 研究终止 生存天数 142+ 158 168+ 96 33 30+ 观察记录 整理
一般来讲,生存函数、死亡密度函数和风险函数具有以下关系
f (t ) fˆ (5) 0.035 ˆ(5) 0.044 h(t ) ,即 0.04 h s(t ) sˆ(5) 0.875
二、生存分析研究的主要内容
描述生存过程 比较生存过程 影响生存时间的因素分析
三、生存分析的基本方法
生存资料的类型 完全数据:是指在整个随访研究期间能 够观察到终点事件 截尾数据(不完全数据):(censored data)指在随访过程中,由于某种原因 未能观察到病人的明确结局(终点事件) 或称删失、终检。
原因 病人失访:搬迁,拒访; 中途退出:退出研究、其它原因死亡; 病人的生存期超过研究的终止期。
生存曲线
以生存时间为横轴、生存率为纵轴绘制 一条生存曲线,用以描述其生存过程。 这种生存曲线又称为K-M曲线。 中位生存时间(median survival time) 又称为生存时间的中位数,是生存分析 中最常用的概括性统计量,表示刚好有 50%的个体其存活期大于该时间。
图 1 肝癌生存率曲线 图1 甲种手术生存曲线