随访资料的生存分析

合集下载

医学统计学考题(按章节)第6题【05分】__随访资料的生存分析

医学统计学考题(按章节)第6题【05分】__随访资料的生存分析

五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。

记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。

【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。

资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。

3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。

生存分析

生存分析

4
5 6
02-08-25
02-10-01 02-10-04
02-11-29
02-11-28 02-12-28
0
0 1

访
96+
59+ 86
死于车祸 复发死亡
(三)死亡概率


死亡概率(mortality probability) 在单位时段开始时存活的个体在该时段 内死亡的可能性大小。
某年内死亡数 q 某年初观察例数
表14.1 6例乳腺癌患者手术后的随访记录
患者 编号 观察记录 开始日期 终止日期 结局 (死=1,生=0) 原因 生存天 数 t
1 2 3
02-09-03 02-09-10 02-09-14
02-12-29 02-12-08 02-12-31
0 1 0
死于“非典” 转移死亡 研究终止
118+ 90 108+
生存分布比较:似然比检验
Weibull分布
生存分布比较:极大似然估计
对数正态分布
生存分布比较:极大似然估计
非参数法



乘积极限法 寿命表法 对数秩检验 Gehan比分检验
Cox-Mantel检验 Cox的F检验 Mantel-Haenszel检验 Kruskal-Wallis检验
生存分析的主要内容



一、生存分析的主要内容 1、描述生存过程 估计生存率及其标准误、绘制生存曲线 2、比较生存过程 对数秩检验、Gehan比分检验

3、生存过程的影响因素分析 常用的多因素生存分析方法Cox比例风险回 归模型ห้องสมุดไป่ตู้
生存分析的基本方法

随访时间资料分析

随访时间资料分析

00-12-01 00-12-31 00-12-31
1
研究终止
30+
+为截尾数据
第二节 生存率的估计
小样本资料生存率的Kaplan-Meier估计 当随访的病例数较少时,不需要对病人
的随访时间进行分组,而是直接计算生 存率。生存率的计算常采用乘积极限法 (product-limited method),该法 由Kaplan-Meier于1958年提出,故又 称为Kaplan-Meier法。它利用条件概率 及概率乘法的原理来计算生存率。
生存时间区
间(月) ti-1
(1) 0~ 1~ 2~ 3~ 4~ 5~ 6~ 7~ 8~ 9~ 10~ 11~ 12~ 13~ 14~ 15~ 16~ 17~ 18~ 19~ 20~
表 15-5 2238 例肺癌病人生存率及其标准误计算
死亡人数 截尾人数 期初观察 校正观察 死亡概率 生存概率
di
二、大样本资料的生存分析
在样本较大时,随访病例的生存时间常 可按年、月或日进行分组,得出具有若 干时间段的频数表。对于分组的生存数 据可按寿命表(life table)法计算生存率, 其基本原理是首先求出研究对象在起始 事件后各个时期的生存概率,然后根据 概率的乘法原理,将各时期生存概率相 乘,即可得到自观察开始到各时点的生 存率。并对生存率或生存分布之间的差
时间(月)
生存函数 死亡密度函数
期初例数 期内死亡数 sˆ(t)
fˆ (t)
t
0~
40
5
1.000
0.025
5~
35
7
0.875
0.035
10~
28
6
0.700
0.030

生存分析(survivalanalysis)

生存分析(survivalanalysis)

⽣存分析(survivalanalysis)⼀、⽣存分析(survival analysis)的定义 ⽣存分析:对⼀个或多个⾮负随机变量进⾏统计推断,研究⽣存现象和响应时间数据及其统计规律的⼀门学科。

⽣存分析:既考虑结果⼜考虑⽣存时间的⼀种统计⽅法,并可充分利⽤截尾数据所提供的不完全信息,对⽣存时间的分布特征进⾏描述,对影响⽣存时间的主要因素进⾏分析。

⽣存分析不同于其它多因素分析的主要区别点:⽣存分析考虑了每个观测出现某⼀结局的时间长短。

应⽤场景 什么是⽣存?⽣存的意义很⼴泛,它可以指⼈或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常⼯作(相对于失效或故障),甚⾄可是是客户的流失与否等。

在⽣存分析中,研究的主要对象是寿命超过某⼀时间的概率。

还可以描述其他⼀些事情发⽣的概率,例如产品的失效、出狱犯⼈第⼀次犯罪、失业⼈员第⼀次找到⼯作等等。

在某些领域的分析中,常常⽤追踪的⽅式来研究事物的发展规律,⽐如研究某种药物的疗效,⼿术后的存活时间,某件机器的使⽤寿命等。

在医学研究中,常常⽤追踪的⽅式来研究事物发展的规律。

如,了解某药物的疗效,了解⼿术的存活时间,了解某医疗仪器设备使⽤寿命等等。

对⽣存资料的分析称为⽣存分析。

所谓⽣存资料就是描述寿命或者⼀个发⽣时间的数据。

更详细的说⼀个⼈的⽣存时间的长短与许多因素有联系的,研究因素与⽣存时间的联系有⽆及程度⼤⼩,称为⽣存分析。

例如研究病⼈感染了病毒后,多长时间会死亡;⼯作的机器多长时间会发⽣崩溃等。

这⾥“个体的存活”可以推⼴抽象成某些关注的事件。

所以SA就成了研究某⼀事件与它的发⽣时间的联系的⽅法。

这个⽅法⼴泛的⽤在医学、⽣物学等学科上,近年来也越来越多⼈⽤在互联⽹数据挖掘中,例如⽤survival analysis去预测信息在社交⽹络的传播程度,或者去预测⽤户流失的概率。

⽣存分析研究的内容 1.描述⽣存过程 研究⽣存时间的分布特点,估计⽣存率及平均存活时间,绘制⽣存曲线等,根据⽣存时间的长短,可以估算出各个时点的⽣存率,并根据⽣存率来估计中位⽣存时间,也可以根据⽣存曲线分析其⽣存特点,⼀般使⽤Kaplan-Meier法和寿命表法。

医学统计学之生存分析

医学统计学之生存分析
表示。
7
资料仅供参考,不当之处,请联系改正。
截尾值(Censored value)出现的原因
截尾的原因主要有3种: ①失访:生存但中途失访:包括拒绝访问、失去联
系等。 ②退出:中途退出试验、改变治疗方案、死于其它
与研究无关的原因:如肺癌患者死于心机梗塞、 自杀或因车祸死亡,终止随访时间为死亡时间。 ③终止:指观察期结束时仍未出现结局。
生存率(survival rate):指研究对象经历 t 个时段后仍存
活的概率,即生存时间大于等于 t 的概率,用 PT t
表示。
生存率随时间 t 变化而变化,即生存率是相对于时间 t 的
函数,称为生存函数(survival function),记为 S t 。
生存函数在某时点的函数值就是生存率。
8
资料仅供参考,不当之处,请联系改正。
关于截尾或删失
删失的模式图
患者进入期间
随访开始
失访 失访 研究截止时仍存活
事件
研究截止时点
9
资料仅供参考,不当之处,请联系改正。
3.生存时间资料的整理:
对于随访资料,需记录的原始数据包括开始观 察的时点(起始事件发生的时间)、终止观察的 时点、研究对象的结局、考虑的影响因素。生 存时间为反映时间长短的指标,属数值变量:
其研究内容主要包括 3 个方面:① 对生存状况 进行统计描述(生存概率、生存率、中位生存期等); ② 寻找影响生存时间的“危险因素”和“保护因素”; ③ 估计生存率和生存时间长短,进行预后评价。
5
资料仅供参考,不当之处,请联系改正。
一、基本概念
(一)生存时间(survival time): 1.定义:广义的生存时间是指从某个起始事件开

生存分析

生存分析
随访资料的生存分析
内容
一、生存分析的基本概念 二、生存率的Kaplan-Meier 法 三、生存率的Life Table 法
四、Cox 比例风险模型简介
例1
一、生存分析的基本概念 例1 某医师收集了1998年1月到2003年2月5年间用甲、 乙两种手术方法治疗肾上腺肿瘤病人的资料,以了解患者 术后结局及其可能的影响因素。术后记录的内容如下表:

生存分析(survival analysis)
(1) 就是将事件的结果和出现这一结果所 经历的时间结合起来分析的一种统计分析方法, 它不仅可以从事件结局的好坏,如疾病的痊愈 (成功)和死亡(失败),而且可以从事件的 持续时间进行分析比较,如某病经治疗后存活 的时间长短进行分析比较。 (2)能同时分析有结局的完全数据和没有结 局的不完全数据,充分利用了信息。 因而能够更为全面地反映某种治疗的效果。
---------------------------------------------------------------------------------生存 手术 手术 随访终止 时间 病历号 性别 年龄 方法 时间 时间 结局 组织类型 (月) --------------------------------------------------------------------------------------------------217328 男 54 甲 98.02.14 99.01.01 失访 高分化 10+ 225468 女 61 甲 00.08.27 03.02.28 存活 低分化 30+ 227347 男 75 乙 02.04.11 02.08.20 死亡 高分化 4 232435 男 45 乙 99.11.07 02.02.02 死亡 高分化 26 224562 女 52 乙 03.01.25 03.02.28 存活 低分化 1+ . . . ----------------------------------------------------------------------------------------------------

随访资料的生存分析

随访资料的生存分析

生存率是相对于时间t的函数,称为生存函数,记为S(t)。
• 生存函数在某时点的值就是生存率。例如,S(5)=0.1832,习
惯上说5年生存率为18.32%。
生存函数或生存率的计算
①若前t个时段没有删失:
t时段结束时仍存活的人 数 S ( t ) P( T t ) 研究期初观察总人数
例如:
截尾数据(截尾值、删失数据,censored data):
尚未观察到研究对象出现反应(终点事件)时,即由于某种原 因停止了随访,这时记录到的时间信息是不完整的,这种生 存时间数据称为不完全数据或截尾值。截尾值能提供部分信 息,即该研究对象实际的生存时间只会长于观察到的时间。
生存分析中的基本概念
截尾值出现的原因有以下三种: ① 失访:观察期内由于研究对象搬迁、不 配合等原因造成失访; ② 退出:观察期内研究对象意外死亡、死 于其它疾病或改变治疗方案等而中途退 出研究; ③ 终止:观察期结束时仍未出现结局。
若该时段内有删失,则分母用校正人口数: 校正人口数=期初观察人数-删失数/2
生存分析中的基本概念
(三)生存概率、生存率、生存函数
2. 生存率和生存函数:
• 生存率(survival rate) :指研究对象经历t个时段后仍存活的概
率,即生存时间大于等于t的概率,用P(T≥t)表示。
• 生存函数(survival function):生存率随时间t的变化而变化,即
生存分析中的基本概念
(一) 生存时间(survival time):
3、生存时间资料的整理:
对于随访资料,需要记录的原始数据包括开始观察的时点
(起始事件发生的时间)、终止观察的时点、研究对象的结
局、可能的影响因素。生存时间为一反映时间长短的指标,

14-生存分析

14-生存分析

将原始数据录入计算软件,首先对每个备选的自变量作单因素Cox回 归模型,得到表23-9所示结果。由表23-9可见,在水准上,有统计 学意义的因素为年龄和确诊到手术时间。
Cox回归应用中的注意事项
1.Cox回归分析结论的正确性要以科学的设计、有代 表性的抽样为前提。如果样本例数过少(多因素分析 中死亡例数一般应在自变量个数的10倍以上),或者 抽样不随机而使得某些变量在其各个水平上分布极偏, 很难得到真正的结果。有时回归分析得到的相对危险 度与专业知识相悖,并非是什么专业上的新发现,而 是设计上的缺陷造成。通过计算机软件进行模型拟合 只能保证计算上的准确,不合理的设计得到的数据计 算出的结果只能是错得更复杂。另外,虽然它可以利 用删失数据的信息,但过多的删失很可能会带来分析 结果的偏倚。
2. 截尾原因无偏性 例如,老年患者常因不重视随访而失访,由此可能 使估计的生存率偏高。为防止截尾偏性,常需对被截尾者的年龄、 职业和地区等构成情况进行分析。
3. 生存时间尽可能精确 因为多数生存分析方法都是在生存时间排序的 基础上进行的,即使是小小的舍入误差,也可能改变生存时间顺序 而影响结果。对于随访资料,生存时间最好精确到天数。
完全数据
完全数据(complete data):是指从观 察的起始事件一直达到观察的终点事件。 是生存分析最重要的资料,即观察对象 完整的生存时间。
截尾数据
截尾数据(censored data)在随访工作中,由于某种 原因未能观察到病人的明确结局(即终止事件),所 以不知道该病人的确切生存时间,它所提供关于生存 时间的信息是不完全的。
产生截尾现象的原因: ①病人失访 ②病人的生存期超过了研究的终止期
③在动物实验中,达到了事先规定的终止事件

COX模型

COX模型

寿命表法估计生存率计算表
术后年数 期内死 亡人数 期内截 尾人数 期初观 察人数 校正年 初人数 死亡 概率 生存 概率 k年生 存率 标准误
0~ 1~ 2~ 3~ 4~
68 61 38 16 8
8 7 3 1 0
233 157 89 48 31
229.0 153.5 87.5 47.5 31.0
随访资料常见形式示意图
三)生存分析研究的主要内容 1、描述生存过程 2、比较生存过程 3、影响生存时间的因素分析
三、生存分析的基本方法 1、非参数法 非参数法的特点是不论是什么样 的分布形式,只根据样本提供的顺序统计量对生存 率进行估计,常用的方法有乘法极限法和寿命表法。 对于两个及多个生存率的比较,其无效假设只是假 定两组或多组总体生存时间 分布相同,而不对其 具体的分布形式及参数进行推断。 2、参数法 参数的特点是假定生存时间服从特定 的参数分布,然后根据已知分布特点对影响生存的 时间进行分析,常用的方法有指数分布法、 Weibull分布法、对数正态回归分布法和logistic回 归法 3、半参数法
0.2969 0.3974 0.4343 0.3368 0.2581
0.7013 0.6026 0.5657 0.6632 0.7419
0.7013 0.4237 0.2397 0.1589 0.1179
0.0302 0.0332 0.0293 0.0254 0.0226
生存率的比较(log-rank检验) 各组的生存率是由样本资料计算所 得,必然有抽样误差,故需进行假设 检验。 对数秩和检验是以生存时间的对 数为基础推导出来的,其基本相思是 实际死亡数与期望死亡数间比较。它 对各组生存率作整体比较,故应用范 围广。它适用于两组及多组生存率间 比较。这只介绍两组生存率比较。

统计学考题(按章节) 第6题【05分】__随访资料的生存分析

统计学考题(按章节) 第6题【05分】__随访资料的生存分析

五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。

记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。

【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。

资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。

3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。

培训_随访资料的生存分析

培训_随访资料的生存分析
Kaplan-Meier法估计生存率 log-rank检验进行组间生存率比较
2.结果 估计:Kaplan-Meier生存率及生存
曲线。
比较:log-rank检验卡方值及其P值。 因素分析及预测:
变量赋值(数量化方法)表 变量统计描述:
各组病例数和构成比(分类变量) 均数和标准差(数值变量)
列出序号 整理数据
(3) 求年初人数
(4) 求校正年初人数

(5)
计算死亡概率:q =
d/nc (6) 计算生存概率: p =1-q
(7)
计算生存率及其标准
误:利用正态近似法估计总体生
存率的可信区间
3、k年生存率与半数生存期估计
期内 删失 人数
三、对数秩检验(log-rank test) ——非参数检验
检查可能的交互作用项是否显著 (方法:一次引入一个交互作用项, 看其对应的回归系数是否为0)。
模型拟合优度考察:据预后指数PI 分组,比较各组基于Cox模型的生 存 曲 线 与 基 于 kaplan-Meier 法 估 计 的生存曲线,如两组曲线吻合较好, 表明Cox模型拟合较好。
生存率分析:生存曲线不能随意延 长,也不能轻易用于预测预报,经
强调设计的重要性
专业知识角度:选择疾病种类、终 点事件、影响因素及结果的专业解 释等。
统计学角度:样本例数、因素的赋 值、生存时间准确到天数、因素筛 选方法、结果的统计学解释等。
小结(论文报告中应写明)
1.材料与方法 病例来源、起始事件、终点事件、
观察终止时间、截尾情况、随访结 果的获得方法,样本含量、截尾例 数及百分比(%)。 建立数据库方法 统计学处理方法

生存分析知识总结

生存分析知识总结

生存分析知识总结一、生存分析的基本概念生存分析是将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。

研究生存现象和响应时间数据及其统计规律的一门学科。

对一个或多个非负随机变量(生存时间)进行统计分析研究。

对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。

在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计规律的分析与推断方法的学科。

生存时间也叫寿命、存活时间、失效时间等等。

比如:医学上包括疾病发生时间、治疗后疾病复发时间;可靠性工程系为元件或系统失效时间;犯罪学方面是重罪犯人的假释时间;社会学上指首次婚姻持续时间;人口学上包括母乳喂养新生儿断奶时间;经济学包括经济危机爆发时间、发行债券的违约时间;保险精算学包括保险人的索赔时间、保险公司某一索赔中所付保费;汽车工业包括汽车车轮转数;市场学中有报纸和杂志的篇幅和订阅费。

这些也可以说明,生存时间可以不是具体的时间。

二、生存分析的历史生存分析方法最早可上溯至十九世纪的死亡寿命表。

现代的生存分析则开始于二十世纪三十年代工业科学中的相关应用。

二次世界大战时期,武器装备的可靠性研究,这一研究兴趣延续到战后。

此时生存分析都集中在参数模型。

二十世纪六七十年代,医学研究中大量临床试验的出现,要求方法学有新的突破,导致了生存分析的研究开始转向非参数方法。

D.R. Cox在72年提出的比例风险模型为此做出了划时代的贡献。

现在,生存分析方法的在医学领域得到了广泛的应用,而通过医学研究要求的不断提高,这一方法也得到了飞速的发展。

三、生存分析的研究目的,内容和具体方法(一)研究目的主要由以下五个方面1.描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。

统计学教案习题17随访资料的生存分析

统计学教案习题17随访资料的生存分析

第十七章 随访资料的生存分析一、教学大纲要求(一)掌握内容 1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。

2.估计生存率的方法:Kaplan-Meier 法、寿命表法。

(二)熟悉内容1.生存曲线、半数生存期。

2.生存资料的基本要求。

3.两生存曲线的比较的对数秩检验。

(三)了解内容 Cox 回归模型。

二、教学内容精要(一)生存分析中的基本概念1.生存时间(survial time )指观察到的存活时间,如表11-1中t 分别为360,990,1400,1800天。

生存时间有两种类型:(1)完全数据(complete data )指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。

(2)截尾数据(censored data )由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。

从起点至截尾所经历的时间,称为截尾数据,如表11-1中1400天,习惯上记为1400+天。

表11-1 4例鼻咽癌随访记录患者序号性别 (男=1)处理组号开始日期 终止日期 结局 (死=1)存活天数 10 1 11/29/80 11/04/85 1 360 2 1 1 06/13/82 06/08/83 1 990 3 1 0 03/02/83 12/31/86 0 1400+ 4 008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortality probability )指死于某时段内的可能性大小,记为q 。

年死亡概率的计算公式为q =某年年初观察例数某年内死亡数,若年内有截尾,则分母用校正人口数(校正人口数=年初人口数-21截尾例数)。

这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。

医学统计学临床随访研究及分析

医学统计学临床随访研究及分析

医学统计学临床随访研究及分析在医学领域中,统计学的应用日益重要。

特别是在临床随访研究中,统计学的分析对于了解疾病的发展、评估治疗效果以及制定预防措施至关重要。

本文将探讨医学统计学在临床随访研究中的应用以及相应的分析方法。

临床随访研究是一种通过追踪研究对象的状况和结果来观察疾病发展和治疗效果的方法。

这种研究对于确定病因、预测病程以及评估治疗效果非常有价值。

然而,由于研究对象的个体差异以及相关数据的复杂性,仅仅凭经验判断是远远不够的。

这时候,统计学的应用就显得尤为重要。

首先,对于临床随访研究中的数据,常见的统计学方法之一是描述性统计分析。

通过统计数据的均值、标准差、中位数等指标,可以全面了解研究对象的基本情况。

例如,在一项关于某种药物治疗效果的研究中,可以通过描述性统计分析来计算出平均改善率以及患者群体中的变异程度。

然而,仅凭描述性统计分析无法提供深入的认识。

这时候,我们需要运用推断统计学的方法。

推断统计学通过对样本数据的分析来推断总体的特征。

在临床随访研究中,样本数据常常存在一定的偏差,例如,样本量可能较小或者样本对象并不完全代表整个患者群体。

因此,推断统计学的应用可以帮助我们更准确地推断总体的特征。

在推断统计学中,假设检验和置信区间是常用的方法。

假设检验通过对样本数据的比较,判断总体参数是否具有显著差异。

例如,在一项关于两种治疗方法效果比较的研究中,可以利用假设检验来判断两种方法是否存在显著的差异。

而置信区间则是通过对样本数据的范围估计,提供总体参数的区间估计值。

例如,在一项关于某种疾病发病率的研究中,可以利用置信区间来估计总体发病率的范围。

除了假设检验和置信区间,回归分析也是临床随访研究中常用的统计学方法之一。

回归分析可以帮助我们了解不同因素对结果变量的影响程度,并建立预测模型。

例如,在一项关于危险因素与疾病发展的研究中,可以利用回归分析来确定各个危险因素的权重,从而建立预测模型。

此外,在临床随访研究中,生存分析也是重要的统计学方法之一。

生存分析

生存分析

Survival(生存分析)菜单对于急性病的疗效考核,一般可以用治愈率、病死率等指标来评价,但对于肿瘤、结核及其他慢性疾病,其预后不是短期内所能明确判断的,这时可以对病人进行长期随访,统计一定期限后的生存和死亡情况以判断疗效,这就是生存分析。

生存分析是用于以处理生存时间(survival time)为反应变量、含有删失数据一类资料的统计方法。

所谓生存时间,狭义地讲是从某个标准时点起至死亡止,即患者的存活时间。

例如,患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。

广义地说,“死亡”可定义为某研究目的“结果”的发生,如宫内节育器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各“死亡”为失效)。

此类资料的生存时间变量多不符从正态分布,且常含有删失值,故不适于用传统的数据分析方法如t检验或线性回归进行分析。

所谓删失值,就是因各种原因对随访对象的随访可能失访或终检(censoring),如研究对象由于其他原因死亡、研究者与病人失去了联系及直到对资料作总结时随访对象还活着但尚未发生所规定的事件。

这种数据就叫做删失值,也叫做截尾数据。

能处理截尾数据是生存分析的一个优点。

根据不同的研究目的和资料类型,可采用不同的分析方法,如寿命表、Kaplan-Meier法、Cox回归模型等分析方法进行分析。

Survival菜单包括Life Tables过程、Kaplan-Meier过程、Cox Regression过程、Cox w/Time-Dep Cov过程。

本节只介绍Life Tables过程和Kaplan-Meier 过程。

Life Tables过程Life Tables过程用于:1、估计某生存时间的生存率。

2、绘制各种曲线如生存函数、风险函数曲线等。

3、对某一研究因素不同水平的生存时间分布进行比较,控制另一因素后对研究因素不同水平的生存时间分布进行比较,包括从总体上比较和不同水平之间进行两两比较。

COX模型1解读

COX模型1解读
截尾数据:(1)研究结束尚未出现所研究的结局;(2) 失访;(3)死于其他原因。如:患者1、患者3和患者4。 截尾数据提供部分信息。
截尾数据产生原因
(1)失访 (2)死于其他原因 (3)到规定的截止时点尚活着。
随访研究:队列研究
随访研究:临床随访研究
风险函数(hazar function)
h(t,
X
)

h0
(t)
exp(1
X1

2
X
2

...

m
Xห้องสมุดไป่ตู้
m
)
h(t)和h0(t)成比例,比例系数是:
h(t, X ) / h (t) exp( X X ... X )
0
11
22
mm
故COX模型又称比例风险模型
1、COX模型的基本结构
COX模型不直接考察生存时间与各自变量的 关系,而是用风险率作为因变量。COX模型的 基本结构为:
h(t, X ) h (t)exp( X X ... X )
0
11
22
mm
h(t,X):t时点上m个危险因素起作用时的风险 率,即在时间t上的死亡率;
h0(t):某时间t上当m个危险因素为0时的基 准风险率;
h4:U型风险函数;
h5:山峰型风险函数。 生存分析一个重要内容就是估计风险函数,研究风险 函数与危险因素之间的关系。
风险比(harzard ratio)
指同一时点两组的风险函数之比,即为相对危险 度(RR)。
风险比

第一组个体的h 1
第二组个体的h
(t) (t)
2
生存资料分析方法

14--寿命表与随访资料的生存分析

14--寿命表与随访资料的生存分析

87
0
28 53 1 1 1 0 0 120
0
29 32 1 1 1 0 0 120
0
30 46 0 1 0 0 1 120
0
31 43 1 0 1 1 0 120
0
32 44 1 0 1 1 0 120
0
No
X1 X2 X3 X4 X5 X6
t
Y
33 62 0 0 0 1 0 120
0
34 40 1 1 1 0 1 40
实例分析
例3:为探讨某恶性肿瘤的预后,某研究者收集了63 例患者的生存时间、生存结局及影响因素。影响因素 包括病人年龄、性别、组织学类型、治疗方式、淋巴 结转移、肿瘤浸润程度,生存时间以月计算。变量的 赋值和所收集的资料分别见表17-8和表17-9。试用 Cox回归模型进行分析。
表17-9 63名某恶性肿瘤患者的生存时间(月)及影响因素
二、操作过程
2)

水平间的两两比较。
6. 单击Save按钮,弹出保存新变量Save new variables 对话框:
√ √
三、主要输出结果
1. 生存表: 略 2. 两组的中位生存期估计:
3. 绘制生存曲线:
4. 两组生存时间分布的比较:
Company Logo
Cox回归过程
Cox回归过程用于: 1. 多个因素对生存时间的影响作用分析和比较 2. 生存(或死亡)风险预测
(2)采用逐步回归法进行Cox模型分析的结果提示:模型拟合自变量进入和 剔除的检验水准分别为0.05和0.1时,筛选后的最佳模型包含两个协变量, 即X4(治疗方式)和X5(淋巴结是否转移),该拟合模型总体检验提示 具有统计学意义(整体卡方=17.594,P<0.001)。

随访资料的生存分析

随访资料的生存分析

随访资料的⽣存分析对于需要长期观察的病例,如慢性病或恶性肿瘤,原有疗效指标如有效率、治愈率等就不适⽤,还需要考虑出现结局的时间长短。

⽣存分析(survival analysis)是将结局和出现时间结合起来分析的统计分析⽅法。

⽣存分析最常⽤的⽅法有乘积限法和寿命表法、⽣存率⽐较的log-rank检验和Wilcoxon检验以及Cox⽐例风险回归模型。

⽣存分析的基本概念研究⽣存时间需要通过随访完成,随访有两种形式:1. 从所有观察对象在同⼀时间接受统⼀处理后观察到事先规定的时间或⼀定数量观察对象出现特定结局为⽌2. 观察不同时间接受同⼀处理,然后观察到规定时间或⼀定数量出现特定结局(此状况更常见)。

终点事件(endpoint event):⼜称失效事件(failure event),是指研究对象发⽣的研究者关⼼的特定结局。

起始事件:研究对象⽣存特征的起始特征事件。

⽣存时间(survival time):两个有联系的起始事件和终点事件之间的时间。

为了得到准确的⽣存时间,必须明确规定起点事件和终点事件。

需要注意,虽然名词是“⽣存时间”,但事实上不⼀定是说⽣存,只要符合上⾯定义的任何时间段都可以叫⽣存时间。

⽣存时间需要恰当的测度单位(⼩时、⽇、⽉、年等),⼀般测度时间越⼩,准确性越⾼。

删失(censoring):也叫终检,是指没有观察到终点事件,⽆法得知确切⽣存时间。

包含删失数据称为不完全数据(incomplete data)。

右删失(right censoring):从时间轴上看,终点事件发⽣在最后⼀次随访时间的右⽅,真实⽣存时间只能⼤于这个时间。

产⽣右删失原因:1 随访对象失访2 随访结束仍未出现终点事件3 治疗措施改变⽣存率估计与⽣存曲线常⽤的两种⽅法:乘积限法(product-limit method),⽤于⼩样本未分组资料。

寿命表法(life table method),⽤于⼤样本分组资料。

乘积限法:也叫Kaplan-Meier法或K-M法,主要⽤于⼩样本,也可⽤于⼤样本。

生存分析

生存分析

二、资料描述:
1. 死亡率、死亡概率、生存概率:
例:手术治疗60例肺癌病人,术后5年每年死亡数10 例,无删失,求基本的生存分析指标。 (人时)死亡率(mortality rate, death rate):
某单位时间内的死亡强度.人年数常用年平均人口 数代替。年初人口数包含恰好在此时死亡或删失者。
3.数据特点:
(1)因变量有两个,即生存时间和结局。
(2)生存时间存在观察不完全数据。 不能简单地计算死亡率或平均生存时间进行 分析。 生存时间:指观察到的存活时间。 完全数据(complete data):从起点到死亡所经历 的时间。 删失数据(censored data):由于失访、改变治疗 方案、研究结束等使部分病人不能随访到底。也 提供了部分信息。
一、模型结构
优点:适用条件很宽,便于做多因素分析。 用于疾病预后分析及队列研究的病 因探索。 危险率函数h(t):描述已经活过时点t的个体 在时点t后单位时间内死亡的危险性(t时刻 仍存活的病人往后一瞬间的死亡率)。
Cox模型:
h(t)=h0(t)exp(b1x1+b2x2+…+bpxp) h0(t)为基准危险函数,表示所有协变量 均为0时的个体死亡危险率,它是与时间 有关的任意函数。 xi,bi分别是协变量及其回归系数。
对 照 组
2,3,9,10,10,12+,15,15+,16, 18+,24+,30,36+,40+,45+
处 理 组
9,12+,16,19,19+,20+,20+,24+, 24+,30+,31+,34+,42+,44+,53+, 59+,62+,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十五章生存分析第一节生存资料的特点前面有关章节介绍了多种定量资料和定性资料的统计分析方法。

下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。

某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。

试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。

化疗组1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。

临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。

显然,结局为“生存”且存活时间越长,其疗效就越好。

反之,结局为“死亡”且存活时间越短,其疗效就越差。

结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。

从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。

但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。

退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。

因此,不宜采用t检验或方差分析。

秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。

因此,该资料也不适宜采用秩和检验。

那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?如果勉强把带“+”号的患者看作“生存”的话,该资料可转化为二分类(结局为“生存”和“死亡”)的四格表资料:化疗组2人生存,9人死亡;放化疗联合组3人生存,8人死亡。

由于样本含量小(2240n=<),可采用四格表资料确切概率法进行统计分析。

但这种处理有失妥当:一是带“+”号的患者并不都是存活的患者;二是将定量资料转化为定性资料会损失部分信息。

更为重要的是,转化为定性资料后采用四格表资料Fisher确切概率法进行分析,只是比较两种治疗措施的结局(生存率)有无差别,而未比较患者接受两种治疗措施后的生存时间有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。

因此,将该资料转化为定性资料后采用四格表资料确切概率法进行统计分析亦欠妥当。

综上所述,这种类型的资料采用前面章节介绍的定量资料或定性资料的统计分析方法进行统计分析均不合适。

那么,这种类型的资料究竟有些什么特点、适宜采用何种统计方法进行统计分析?在医学科学研究中,与之相类似的资料还有很多。

在这类研究中,研究者不仅关心某事件发生的结局,同时还关心发生这种结局所经历的时间。

如恶性肿瘤、糖尿病、高血压、心血管疾病等慢性病治疗措施的疗效评价,不仅要考虑治愈率或缓解率,还要考虑治愈时间或缓解时间;预防保健措施的效果评价,不仅要考虑使用保健措施的结果(“好”或“坏”),同时还要考虑出现这种结果所经历的时间,如采取健康教育控制青少年吸烟的效果评价,不仅要考虑青少年接受健康教育后是否吸烟,还要考虑从戒烟到复吸的时间长短;疾病预后的影响因素评价,也要同时考虑疾病的结局(“生存”和“死亡”)和出现这种结局所经历的时间,如肾移植患者术后效果的影响因素评价,不仅要考虑患者是否存活,还要考虑其生存时间。

这类资料在统计学上被称为生存资料(survival data),概括起来具有以下几个共同特点:①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止;④常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂,不能简单地套用前面介绍过的统计方法,如t检验、方差分析、2χ检验、四格表资料确切概率法或秩和检验进行分析。

分析生存资料的统计方法称为生存分析(survival analysis),它是将事件的结局和发生这种结局所经历的时间进行综合分析的一大类统计方法。

生存分析是近30多年来逐步发展和完善起来的一种新的数理统计学分支,具有相对独立的理论体系。

随着其理论体系的不断完善和计算机技术的飞速发展,目前已广泛应用于工业、农业、国防和医学等领域。

本章首先介绍生存分析的基本内容及几个基本概念,然后重点介绍未分组资料和分组资料的生存分析,以及生存曲线比较的假设检验方法。

第二节生存分析的基本内容及几个基本概念一、生存分析的基本内容1. 描述生存过程:研究生存时间的分布特点,估计生存率及其标准误、绘制生存曲线等。

例如,根据乳腺癌患者手术后的生存资料,可以估计不同时间点的生存率及其标准误,如1年生存率、3年生存率、5年生存率等,还可以绘制生存曲线,观察乳腺癌患者手术后的生存过程。

常用方法有乘积极限法和寿命表法。

2. 比较生存过程:获得生存率及其标准误的估计值后,可进行两组或多组生存曲线(生存过程)的比较。

例如,比较两种不同治疗措施治疗恶性肿瘤患者的生存曲线,可了解哪种治疗措施较优,从而为临床决策提供依据。

常用方法有对数秩检验。

3. 生存过程的影响因素分析:例如,为了改善鼻咽癌患者的预后,应先了解可能影响患者预后的因素,如年龄、病程、病情、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养状况等,通过随访收集患者术后的生存时间和上述因素的资料,然后采用多因素生存分析方法确定影响患者预后的主要因素,从而为在手术前后进行预防或干预提供参考依据。

常用的多因素生存分析方法有Cox比例风险回归模型(见第十六章)。

二、生存分析中的几个基本概念1. 死亡事件(death event) 又称失效事件(failure event)或终点事件,死亡事件是一个广义概念,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。

一般是在设计阶段根据研究目的来确定,如乳腺癌患者手术后的死亡、白血病患者化疗后的复发、肾移植患者的肾功能衰竭、接受健康教育戒烟后的青少年复吸烟、接受某种健康保险方式后的中途退保等,均可作为死亡事件。

2. 生存时间(survival time) 指观察到的存活时间,可用天、周、月、年等时间单位记录,常用符号t表示。

如表15.1中6个患者的生存时间分别为117,89,108,96,58,85天。

表15.1 6例乳腺癌患者手术后的随访记录患者编号观察记录生存天数t开始日期终止日期结局(死=1,生=0)原因1 2002-09-03 2002-12-29 0 死于肺癌117+2 2002-09-10 2002-12-08 1 转移死亡893 2002-09-14 2002-12-31 0 研究终止108+4 2002-08-25 2002-11-29 0 失访96+5 2002-10-01 2002-11-28 0 死于车祸58+6 2002-10-04 2002-12-28 1 复发死亡85一般情况下,较细的时间单位准确性较高,因为多数生存分析方法都是在生存时间排序的基础上进行统计处理的,即使是较小的舍入误差,也可能改变生存时间顺序而影响分析结果。

但实际工作中有时很难采用较细的时间单位来度量生存时间,如研究者知道某乳腺癌患者在2002年11月间死亡,但可能不知道具体是哪一天,此时只能用较粗的时间单位“月”来度量,或用2002年11月15日作为该患者死亡时间的粗略估计值。

生存时间也是一个广义概念,不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间,如白血病患者化疗后的缓解时间、肾移植患者的存活时间、接受健康教育后青少年的戒烟时间、投保某种健康险至中途退保的时间等。

生存时间根据其不同的特点,可分为以下两种类型:(1) 完全数据(complete data):指从观察起点到发生死亡事件所经历的时间,如表15.1中2和6号患者对应的生存天数89天和85天。

(2) 截尾数据(censored data):简称截尾值(censored value),又称删失值或终检值。

生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored)。

截尾的主要原因有以下三种:①失访(withdrawal):指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;②退出:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;③终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。

从观察起点到截尾时点所经历的生存时间称为截尾数据,习惯上在生存时间右上标注“+”表示,如表15.1中1, 3, 4, 5号患者的生存天数分别记录为117+, 108+, 96+, 58+。

完全数据提供了观察对象确切的生存时间,是生存分析的主要依据;截尾数据仅提供了部分信息,研究者并不知道观察对象确切的生存时间。

因此,截尾数据太多会影响生存分析的效果。

3. 死亡概率与生存概率(1) 死亡概率(mortality probability):记为q ,是指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。

年死亡概率的计算公式为:q =某年内死亡数某年年初观察例数(15.1)若年内有截尾,则分母用校正人口数:截尾例数年初观察例数校正人口数21-= (15.2) (2) 生存概率(survival probability):记为p ,与死亡概率相对立,表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。

某年生存概率的计算公式为:1p q =-=某年活满一年人数某年年初观察例数(15.3)分子即年底尚存人数,若年内有截尾,则分母用校正人口数。

4. 生存率与生存曲线(1) 生存率(survival rate):记为ˆ()kS t ,是指观察对象活过t k 时刻的概率。

生存率也是一个广义概念,研究者定义的死亡事件不同,其含义亦不同,可以是缓解率、有效率等。

如定义白血病化疗的死亡事件为白血病复发,此时生存率即为缓解率;定义预防接种腮腺炎疫苗的死亡事件为接种儿童发生腮腺炎,此时生存率即为疫苗的有效率;定义安置宫内节育器的死亡事件为因带环受孕取出节育器,此时生存率即为节育器的保留率。

相关文档
最新文档