随访资料的生存分析

合集下载

病例随访资料的统计分析方法——生存分析

病例随访资料的统计分析方法——生存分析

假期生活英文作文范文英文:During my holiday, I had a great time doing a lot of fun activities. One of my favorite things to do was to go hiking with my friends. We went to a nearby mountain and enjoyed the beautiful scenery. We also had a picnic on the mountain top and it was so relaxing.Another thing I did was to visit some museums. I went to the art museum and was amazed by the beautiful paintings and sculptures. I also went to the history museum and learned a lot about the local history and culture.Besides that, I also spent some time with my family. We went to the beach and had a great time playing in the water and building sandcastles. We also had a barbecue party in our backyard and invited some friends over.Overall, my holiday was filled with fun and memorableexperiences. I enjoyed spending time with my loved ones and exploring new places.中文:在我的假期里,我做了很多有趣的事情,度过了愉快的时光。

随访资料生存分析的统计学基础

随访资料生存分析的统计学基础
1 1 1 1 1 1 1 1 1 0 1 0 1 0
表3 肿瘤<3.0cm组生存率及标准误的计算
期初病例数 nt
14
截尾数 ct
0
死亡概率 qt
1/14=0.0714
生存概率 pt
0.9286
生存率 S(t)
0.9268
13
0
1/13=0.0769
0.9231
0.8572
12
0
1/12=0.0833
二、寿命表法
适用于分组的生存资料。 ① 实际工作中,随访结果常常没有每个观 察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
例16-2 收集374名某恶性肿瘤患者随访资料,取时间区
间均为1年,结果间下表,试估计生存率及其标准误,中
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察 到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间 2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正 态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
S(t) u /2SE[S(t)]
本例28月总体生存率的95%可信区间:
0.7144 1.960.1207
即膀胱肿瘤<3.0cm患者28月生存率的95%可信区间为47.78% ~95.10%。 生存曲线尾部的生存率不适合于用该法计算总体生存率的可信区间。
中位生存时间

医学统计学考题(按章节)第6题【05分】__随访资料的生存分析

医学统计学考题(按章节)第6题【05分】__随访资料的生存分析

五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。

记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。

【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。

资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。

3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。

随访数据的统计分析方法

随访数据的统计分析方法
浙江大学医学院流行病与卫生统计学教研室 沈毅
2.求 t时刻期初例数n0 本例最后时刻期初人数n5=1,其它 时刻由下往上累计获得,例如,
n03=n04+d3+c3=2+1+0=3,n02=n03+d2+c2=3+2 +0=5(见第5列)
3.求t时刻死亡概率q=d/n0。(见第 6列) 4.求t时刻生存概率p=1-q。(见第7列) 5.计算生存率及其标准(见第8,9列)
S(t)=P(T≥t)=p1p2…pk 式中pj可用校正人数估计,可处理截尾数据。 上例:3年生存率为
S(3)=10/40=0.250 由式(12-5)求得例12-1的3年生存率为
S(3)=p1p2p3=0.750×0.667×0.500=0.250
浙江大学医学院流行病与卫生统计学教研室 沈毅
(2)生存率的标准误:生存率的标准误有不同的估计方法, 其中Greenwood’s法(1926)比较常用,其公式为
生存时间的统计分析方法起源于19世纪对寿命表的研究,在第 二次世界大战期间,由于对武器的可靠性的要求,使这一分析方法 得到了很大的发展,并不断扩展应用的其他研究领域中。近40年来, 在医学研究,特别是在临床随访研究中,也引进了生存分析的方法, 用来分析病人的随访资料。由于临床研究资料的多样性和复杂性, 反过来又进一步推动了生存时间分析技术的发展。到目前为止,生 存分析作为统计学的一个分支,已形成了一套完整的体系,包括参 数法,非参数法以及回归分析方法等。
浙江大学医学院流行病与卫生统计学教研室 沈毅
(二)生存时间数据的类型:
1.完全数据 某个观察对象具有明确的结局时,该观察对象所 提供的关于生存时间的信息是完整的。我们把达到了明确结局 的观察对象的生存时间数据称为完全数据(Complete Data)。

《生存分析》

《生存分析》
3. 生存时间尽可能精确 因为多数生存分析方法都是在生存时间排序的 基础上进行的,即使是小小的舍入误差,也可能改变生存时间顺序 而影响结果。对于随访资料,生存时间最好精确到天数。
.
小样本未分组资料分析
生存率与标准误 生存率曲线 总体生存率的估计
.
生存率及其标准误
小样本资料(通常为不分组资料),直接 采用概率乘法原理估计生存率,称乘积 极限法。又称Kaplan-Meier(KM)法。 是一种非参数法。
.
各种生存数据的表示
×
X
×
o
X
O
1994
1995
×
X
1996
1997
年. 份
1998 1999
各种生存数据的表示
×
X
×
X
×
X
o
X
1994 1995 1996 1997 1998 1999 2000
.
死亡概率
死亡概率(mortality probability)记 为q,是指死于某时段内的可能性的大小。
.
.
.
截尾数据
截尾数据(censored data)在随访工作中,由于某种 原因未能观察到病人的明确结局(即终止事件),所 以不知道该病人的确切生存时间,它所提供关于生存 时间的信息是不完全的。
产生截尾现象的原因: ①病人失访 ②病人的生存期超过了研究的终止期 ③在动物实验中,达到了事先规定的终止事件
0.8
0.6
0.6
0.4
S(132)=0.5
0.4
0.2
0.2
0.0 0
0.0
100 200 300 400 500
0
Md=158

病例随访资料分析

病例随访资料分析

续上表
N t dn q
p
S(t)
10 182+ 0 3 0.0000 1.0000 0.4000
11 209+ 0 2 0.0000 1.0000 0.4000
12 224+ 0 1 0.0000 1.0000 0.4000 上表为单纯手术治疗肝癌,其不同时
间段累计生存率的变化。
用同样的方法可以对手术加放疗 治疗肝癌病人计算不同时刻的生 存率,见表3。
4 0.2500 0.5 0.0000
0.8462 0.8947 0.8621 0.7000 0.7500 1.0000
0.8462 0.7571 0.6527 0.4569 0.3426 0.3426
计算公式 Lx+1=Lx – Wx – Dx
Lx 期初观察人数 Dx 期内死亡人数 Wx 期内失访人数(失访和到期人数)
表4 A和B两方法预期死亡数计算
组 随访 死亡数 存活数 预期死亡
别 天数 A B T A B T A B
A 52 1 0 1 11 11 22 0.52 0.48
组别 A
死亡 1
生存 11
合计 12
0.52
1 23
12
B0 合计 1
11 11 0.48 1 11
22 23
23
组 随访 死亡数 存活数 预期死亡 别 天数 A B T A B T A B A 78 1 0 1 11 11 22 0.50 0.50 B 79 0 1 1 10 11 21 0.48 0.52 A 92 1 0 1 10 10 20 0.50 0.50 B 95 0 1 1 9 10 19 0.47 0.53 A 96 1 0 1 9 9 18 0.50 0.50

随访资料生存分析的统计学基础

随访资料生存分析的统计学基础

2
25 19 19 23 20 29 19 154
3
23 18 16 21 16 26
4
19 18 14 18 16
5
18 18 14 16
6
17 16 13
7
17 16
8
17
120
85
66
46
33
17
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
1 S (t ) SE[ S (t )] S (t ) nt dt
总体生存率的可信区间
假定生存率近似服从正态分布,某时点总体生存率的(1-a)%可 信区间,公式为:
S (t ) u / 2 SE[S (t )]
本例28月总体生存率的95%可信区间:
0.7144 1.96 0.1207
40 20
42 23
44+ 25
45 27
53 + 54 30 34
59 + 37 43 50
表3 肿瘤<3.0cm组生存率及标准误的计算
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1 1 1 1 1 1 1 1 1 0 1 0 1 0
期初病例数 nt
3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法,
用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。

随访时间资料分析

随访时间资料分析

00-12-01 00-12-31 00-12-31
1
研究终止
30+
+为截尾数据
第二节 生存率的估计
小样本资料生存率的Kaplan-Meier估计 当随访的病例数较少时,不需要对病人
的随访时间进行分组,而是直接计算生 存率。生存率的计算常采用乘积极限法 (product-limited method),该法 由Kaplan-Meier于1958年提出,故又 称为Kaplan-Meier法。它利用条件概率 及概率乘法的原理来计算生存率。
生存时间区
间(月) ti-1
(1) 0~ 1~ 2~ 3~ 4~ 5~ 6~ 7~ 8~ 9~ 10~ 11~ 12~ 13~ 14~ 15~ 16~ 17~ 18~ 19~ 20~
表 15-5 2238 例肺癌病人生存率及其标准误计算
死亡人数 截尾人数 期初观察 校正观察 死亡概率 生存概率
di
二、大样本资料的生存分析
在样本较大时,随访病例的生存时间常 可按年、月或日进行分组,得出具有若 干时间段的频数表。对于分组的生存数 据可按寿命表(life table)法计算生存率, 其基本原理是首先求出研究对象在起始 事件后各个时期的生存概率,然后根据 概率的乘法原理,将各时期生存概率相 乘,即可得到自观察开始到各时点的生 存率。并对生存率或生存分布之间的差
时间(月)
生存函数 死亡密度函数
期初例数 期内死亡数 sˆ(t)
fˆ (t)
t
0~
40
5
1.000
0.025
5~
35
7
0.875
0.035
10~
28
6
0.700
0.030

医学统计学之生存分析

医学统计学之生存分析
表示。
7
资料仅供参考,不当之处,请联系改正。
截尾值(Censored value)出现的原因
截尾的原因主要有3种: ①失访:生存但中途失访:包括拒绝访问、失去联
系等。 ②退出:中途退出试验、改变治疗方案、死于其它
与研究无关的原因:如肺癌患者死于心机梗塞、 自杀或因车祸死亡,终止随访时间为死亡时间。 ③终止:指观察期结束时仍未出现结局。
生存率(survival rate):指研究对象经历 t 个时段后仍存
活的概率,即生存时间大于等于 t 的概率,用 PT t
表示。
生存率随时间 t 变化而变化,即生存率是相对于时间 t 的
函数,称为生存函数(survival function),记为 S t 。
生存函数在某时点的函数值就是生存率。
8
资料仅供参考,不当之处,请联系改正。
关于截尾或删失
删失的模式图
患者进入期间
随访开始
失访 失访 研究截止时仍存活
事件
研究截止时点
9
资料仅供参考,不当之处,请联系改正。
3.生存时间资料的整理:
对于随访资料,需记录的原始数据包括开始观 察的时点(起始事件发生的时间)、终止观察的 时点、研究对象的结局、考虑的影响因素。生 存时间为反映时间长短的指标,属数值变量:
其研究内容主要包括 3 个方面:① 对生存状况 进行统计描述(生存概率、生存率、中位生存期等); ② 寻找影响生存时间的“危险因素”和“保护因素”; ③ 估计生存率和生存时间长短,进行预后评价。
5
资料仅供参考,不当之处,请联系改正。
一、基本概念
(一)生存时间(survival time): 1.定义:广义的生存时间是指从某个起始事件开

生存分析

生存分析
随访资料的生存分析
内容
一、生存分析的基本概念 二、生存率的Kaplan-Meier 法 三、生存率的Life Table 法
四、Cox 比例风险模型简介
例1
一、生存分析的基本概念 例1 某医师收集了1998年1月到2003年2月5年间用甲、 乙两种手术方法治疗肾上腺肿瘤病人的资料,以了解患者 术后结局及其可能的影响因素。术后记录的内容如下表:

生存分析(survival analysis)
(1) 就是将事件的结果和出现这一结果所 经历的时间结合起来分析的一种统计分析方法, 它不仅可以从事件结局的好坏,如疾病的痊愈 (成功)和死亡(失败),而且可以从事件的 持续时间进行分析比较,如某病经治疗后存活 的时间长短进行分析比较。 (2)能同时分析有结局的完全数据和没有结 局的不完全数据,充分利用了信息。 因而能够更为全面地反映某种治疗的效果。
---------------------------------------------------------------------------------生存 手术 手术 随访终止 时间 病历号 性别 年龄 方法 时间 时间 结局 组织类型 (月) --------------------------------------------------------------------------------------------------217328 男 54 甲 98.02.14 99.01.01 失访 高分化 10+ 225468 女 61 甲 00.08.27 03.02.28 存活 低分化 30+ 227347 男 75 乙 02.04.11 02.08.20 死亡 高分化 4 232435 男 45 乙 99.11.07 02.02.02 死亡 高分化 26 224562 女 52 乙 03.01.25 03.02.28 存活 低分化 1+ . . . ----------------------------------------------------------------------------------------------------

随访资料的生存分析

随访资料的生存分析

生存率是相对于时间t的函数,称为生存函数,记为S(t)。
• 生存函数在某时点的值就是生存率。例如,S(5)=0.1832,习
惯上说5年生存率为18.32%。
生存函数或生存率的计算
①若前t个时段没有删失:
t时段结束时仍存活的人 数 S ( t ) P( T t ) 研究期初观察总人数
例如:
截尾数据(截尾值、删失数据,censored data):
尚未观察到研究对象出现反应(终点事件)时,即由于某种原 因停止了随访,这时记录到的时间信息是不完整的,这种生 存时间数据称为不完全数据或截尾值。截尾值能提供部分信 息,即该研究对象实际的生存时间只会长于观察到的时间。
生存分析中的基本概念
截尾值出现的原因有以下三种: ① 失访:观察期内由于研究对象搬迁、不 配合等原因造成失访; ② 退出:观察期内研究对象意外死亡、死 于其它疾病或改变治疗方案等而中途退 出研究; ③ 终止:观察期结束时仍未出现结局。
若该时段内有删失,则分母用校正人口数: 校正人口数=期初观察人数-删失数/2
生存分析中的基本概念
(三)生存概率、生存率、生存函数
2. 生存率和生存函数:
• 生存率(survival rate) :指研究对象经历t个时段后仍存活的概
率,即生存时间大于等于t的概率,用P(T≥t)表示。
• 生存函数(survival function):生存率随时间t的变化而变化,即
生存分析中的基本概念
(一) 生存时间(survival time):
3、生存时间资料的整理:
对于随访资料,需要记录的原始数据包括开始观察的时点
(起始事件发生的时间)、终止观察的时点、研究对象的结
局、可能的影响因素。生存时间为一反映时间长短的指标,

随访资料的生存分析

随访资料的生存分析

随访资料的⽣存分析对于需要长期观察的病例,如慢性病或恶性肿瘤,原有疗效指标如有效率、治愈率等就不适⽤,还需要考虑出现结局的时间长短。

⽣存分析(survival analysis)是将结局和出现时间结合起来分析的统计分析⽅法。

⽣存分析最常⽤的⽅法有乘积限法和寿命表法、⽣存率⽐较的log-rank检验和Wilcoxon检验以及Cox⽐例风险回归模型。

⽣存分析的基本概念研究⽣存时间需要通过随访完成,随访有两种形式:1. 从所有观察对象在同⼀时间接受统⼀处理后观察到事先规定的时间或⼀定数量观察对象出现特定结局为⽌2. 观察不同时间接受同⼀处理,然后观察到规定时间或⼀定数量出现特定结局(此状况更常见)。

终点事件(endpoint event):⼜称失效事件(failure event),是指研究对象发⽣的研究者关⼼的特定结局。

起始事件:研究对象⽣存特征的起始特征事件。

⽣存时间(survival time):两个有联系的起始事件和终点事件之间的时间。

为了得到准确的⽣存时间,必须明确规定起点事件和终点事件。

需要注意,虽然名词是“⽣存时间”,但事实上不⼀定是说⽣存,只要符合上⾯定义的任何时间段都可以叫⽣存时间。

⽣存时间需要恰当的测度单位(⼩时、⽇、⽉、年等),⼀般测度时间越⼩,准确性越⾼。

删失(censoring):也叫终检,是指没有观察到终点事件,⽆法得知确切⽣存时间。

包含删失数据称为不完全数据(incomplete data)。

右删失(right censoring):从时间轴上看,终点事件发⽣在最后⼀次随访时间的右⽅,真实⽣存时间只能⼤于这个时间。

产⽣右删失原因:1 随访对象失访2 随访结束仍未出现终点事件3 治疗措施改变⽣存率估计与⽣存曲线常⽤的两种⽅法:乘积限法(product-limit method),⽤于⼩样本未分组资料。

寿命表法(life table method),⽤于⼤样本分组资料。

乘积限法:也叫Kaplan-Meier法或K-M法,主要⽤于⼩样本,也可⽤于⼤样本。

统计学考题(按章节) 第6题【05分】__随访资料的生存分析

统计学考题(按章节) 第6题【05分】__随访资料的生存分析

五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。

记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。

【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。

资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。

3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。

培训_随访资料的生存分析

培训_随访资料的生存分析
Kaplan-Meier法估计生存率 log-rank检验进行组间生存率比较
2.结果 估计:Kaplan-Meier生存率及生存
曲线。
比较:log-rank检验卡方值及其P值。 因素分析及预测:
变量赋值(数量化方法)表 变量统计描述:
各组病例数和构成比(分类变量) 均数和标准差(数值变量)
列出序号 整理数据
(3) 求年初人数
(4) 求校正年初人数

(5)
计算死亡概率:q =
d/nc (6) 计算生存概率: p =1-q
(7)
计算生存率及其标准
误:利用正态近似法估计总体生
存率的可信区间
3、k年生存率与半数生存期估计
期内 删失 人数
三、对数秩检验(log-rank test) ——非参数检验
检查可能的交互作用项是否显著 (方法:一次引入一个交互作用项, 看其对应的回归系数是否为0)。
模型拟合优度考察:据预后指数PI 分组,比较各组基于Cox模型的生 存 曲 线 与 基 于 kaplan-Meier 法 估 计 的生存曲线,如两组曲线吻合较好, 表明Cox模型拟合较好。
生存率分析:生存曲线不能随意延 长,也不能轻易用于预测预报,经
强调设计的重要性
专业知识角度:选择疾病种类、终 点事件、影响因素及结果的专业解 释等。
统计学角度:样本例数、因素的赋 值、生存时间准确到天数、因素筛 选方法、结果的统计学解释等。
小结(论文报告中应写明)
1.材料与方法 病例来源、起始事件、终点事件、
观察终止时间、截尾情况、随访结 果的获得方法,样本含量、截尾例 数及百分比(%)。 建立数据库方法 统计学处理方法

统计学教案习题17随访资料的生存分析

统计学教案习题17随访资料的生存分析

第十七章 随访资料的生存分析一、教学大纲要求(一)掌握内容 1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。

2.估计生存率的方法:Kaplan-Meier 法、寿命表法。

(二)熟悉内容1.生存曲线、半数生存期。

2.生存资料的基本要求。

3.两生存曲线的比较的对数秩检验。

(三)了解内容 Cox 回归模型。

二、教学内容精要(一)生存分析中的基本概念1.生存时间(survial time )指观察到的存活时间,如表11-1中t 分别为360,990,1400,1800天。

生存时间有两种类型:(1)完全数据(complete data )指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。

(2)截尾数据(censored data )由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。

从起点至截尾所经历的时间,称为截尾数据,如表11-1中1400天,习惯上记为1400+天。

表11-1 4例鼻咽癌随访记录患者序号性别 (男=1)处理组号开始日期 终止日期 结局 (死=1)存活天数 10 1 11/29/80 11/04/85 1 360 2 1 1 06/13/82 06/08/83 1 990 3 1 0 03/02/83 12/31/86 0 1400+ 4 008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortality probability )指死于某时段内的可能性大小,记为q 。

年死亡概率的计算公式为q =某年年初观察例数某年内死亡数,若年内有截尾,则分母用校正人口数(校正人口数=年初人口数-21截尾例数)。

这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。

生存分析(第17章)

生存分析(第17章)
又称生存函数。
生存时间 t时 刻 的 观 察 单 位 数 S(t,X) 总观察例数
生存概率针对单位时间;生存率针对某个 较长时间段,它是生存概率的累积结果。 如5年生存率是每一年不同生存概率乘积。
S(5, X) p1 p2 p5
7.风险函数 (hazard function,h(t,X)) 生存时间已达到 t 的一群观测对象在 t 时 刻的瞬时死亡率。
j i
(9)生存率的标准误:
S E S ( t i,X )

p N
j i j
qj
j
2.生存率曲线
1 0.8
© ¨%£ Ê £ æ Â ú ´ É
0.6 0.4 0.2 0 0 5 ú ´ É æ Ê ±¼ ä £ ¨Ä ê £ © 10 15
Ð Ð Ä Ô Ð Ä ½ Ê Í ´ ² ¡ È Ë µ Ä É ú ´ æ Ç ú Ï ß
生存过程 的比较
生存过程 Cox 比例风险模型 的影响因素分析 非比例风险模型 logistic 回归模型
指数回归模型 Weibull 回归模型
第二节 生存率的估计与生存曲线
(生存过程的描述)
一、小样本资料
1.生存率的计算
2.生存率标准误的计算
3.生存曲线
4.中位生存时间
1.生存率的计算 乘积极限法 (product-limited method) 由Kaplan-Meier于1958年提出,又称为 Kaplan-Meier法 利用概率乘法原理计算生存率
例 有人研究了甲种手术方法治疗肾上腺肿瘤 病人23例的生存情况,定义从手术后到病人 死亡的时间为生存时间,得到生存时间(月) 如下(+为截尾数据),试计算其生存率与 标准误。 1,3,5,5,5,6,6,6,7,8,10,10, 14+,17,19 + ,20 + ,22 + ,26 + ,31 + , 34,34 + ,44,59。

14--寿命表与随访资料的生存分析

14--寿命表与随访资料的生存分析

87
0
28 53 1 1 1 0 0 120
0
29 32 1 1 1 0 0 120
0
30 46 0 1 0 0 1 120
0
31 43 1 0 1 1 0 120
0
32 44 1 0 1 1 0 120
0
No
X1 X2 X3 X4 X5 X6
t
Y
33 62 0 0 0 1 0 120
0
34 40 1 1 1 0 1 40
实例分析
例3:为探讨某恶性肿瘤的预后,某研究者收集了63 例患者的生存时间、生存结局及影响因素。影响因素 包括病人年龄、性别、组织学类型、治疗方式、淋巴 结转移、肿瘤浸润程度,生存时间以月计算。变量的 赋值和所收集的资料分别见表17-8和表17-9。试用 Cox回归模型进行分析。
表17-9 63名某恶性肿瘤患者的生存时间(月)及影响因素
二、操作过程
2)

水平间的两两比较。
6. 单击Save按钮,弹出保存新变量Save new variables 对话框:
√ √
三、主要输出结果
1. 生存表: 略 2. 两组的中位生存期估计:
3. 绘制生存曲线:
4. 两组生存时间分布的比较:
Company Logo
Cox回归过程
Cox回归过程用于: 1. 多个因素对生存时间的影响作用分析和比较 2. 生存(或死亡)风险预测
(2)采用逐步回归法进行Cox模型分析的结果提示:模型拟合自变量进入和 剔除的检验水准分别为0.05和0.1时,筛选后的最佳模型包含两个协变量, 即X4(治疗方式)和X5(淋巴结是否转移),该拟合模型总体检验提示 具有统计学意义(整体卡方=17.594,P<0.001)。

病例随访资料分析

病例随访资料分析

2、死亡概率 q 指病人死于某时段 的可能性的大小
q=某年内死亡数/某年年初观察人数
当存在截尾数据时,分母应该用校 正观察人数
校正观察人数
=年初观察人数-1/2截尾人数
3、生存概率 p 是死亡概率的对立 面,指某时段存活的可能性大小 P=1-q
=活满某一年人数 / 某年年初人数
4、生存率(累计生存概率) 直接法:简单但有较大缺点 寿命表法:比较常用(适用于有截 尾数据的生存随访资料)
• 这项研究从2001年1月开始至2002年12月结束, 从例1到例7,病人是逐渐入组的,例7是在 2001年10月入组,仅随访14个月就结束研究了。 例1随访8个月终点,例2随访14个月删失,例3 随访20个月终点,例4……。
1.0
0
时间
病例随访资料的概念及其特点
在医学研究中,大多数慢性疾病的疗效 评价一般都采取病例随访研究。即记录病 人开始观察日期、终止观察日期、随访的 结局(死亡、复发、出现并发症或者失访) 以及有关影响因素,应用专门的统计方法 计算病人某种结局概率并分析相关因素。
例 372例口腔肿瘤手术后 随访存活情况统计表
术后n年 1
2
3
4
5
6
存活人数 339
260
191
165
147
116
满n年者 372
344
288
265
244
206
生存率 91.1
75.6
66.3
62.3
60.3
56.3
(%)
7
8
9
10
11
12
13
95
80
57
33
19
11
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十五章生存分析第一节生存资料的特点前面有关章节介绍了多种定量资料和定性资料的统计分析方法。

下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。

某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。

试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。

化疗组1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。

临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。

显然,结局为“生存”且存活时间越长,其疗效就越好。

反之,结局为“死亡”且存活时间越短,其疗效就越差。

结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。

从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。

但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。

退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。

因此,不宜采用t检验或方差分析。

秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。

因此,该资料也不适宜采用秩和检验。

那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?如果勉强把带“+”号的患者看作“生存”的话,该资料可转化为二分类(结局为“生存”和“死亡”)的四格表资料:化疗组2人生存,9人死亡;放化疗联合组3人生存,8人死亡。

由于样本含量小(2240n=<),可采用四格表资料确切概率法进行统计分析。

但这种处理有失妥当:一是带“+”号的患者并不都是存活的患者;二是将定量资料转化为定性资料会损失部分信息。

更为重要的是,转化为定性资料后采用四格表资料Fisher确切概率法进行分析,只是比较两种治疗措施的结局(生存率)有无差别,而未比较患者接受两种治疗措施后的生存时间有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。

因此,将该资料转化为定性资料后采用四格表资料确切概率法进行统计分析亦欠妥当。

综上所述,这种类型的资料采用前面章节介绍的定量资料或定性资料的统计分析方法进行统计分析均不合适。

那么,这种类型的资料究竟有些什么特点、适宜采用何种统计方法进行统计分析?在医学科学研究中,与之相类似的资料还有很多。

在这类研究中,研究者不仅关心某事件发生的结局,同时还关心发生这种结局所经历的时间。

如恶性肿瘤、糖尿病、高血压、心血管疾病等慢性病治疗措施的疗效评价,不仅要考虑治愈率或缓解率,还要考虑治愈时间或缓解时间;预防保健措施的效果评价,不仅要考虑使用保健措施的结果(“好”或“坏”),同时还要考虑出现这种结果所经历的时间,如采取健康教育控制青少年吸烟的效果评价,不仅要考虑青少年接受健康教育后是否吸烟,还要考虑从戒烟到复吸的时间长短;疾病预后的影响因素评价,也要同时考虑疾病的结局(“生存”和“死亡”)和出现这种结局所经历的时间,如肾移植患者术后效果的影响因素评价,不仅要考虑患者是否存活,还要考虑其生存时间。

这类资料在统计学上被称为生存资料(survival data),概括起来具有以下几个共同特点:①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止;④常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂,不能简单地套用前面介绍过的统计方法,如t检验、方差分析、2χ检验、四格表资料确切概率法或秩和检验进行分析。

分析生存资料的统计方法称为生存分析(survival analysis),它是将事件的结局和发生这种结局所经历的时间进行综合分析的一大类统计方法。

生存分析是近30多年来逐步发展和完善起来的一种新的数理统计学分支,具有相对独立的理论体系。

随着其理论体系的不断完善和计算机技术的飞速发展,目前已广泛应用于工业、农业、国防和医学等领域。

本章首先介绍生存分析的基本内容及几个基本概念,然后重点介绍未分组资料和分组资料的生存分析,以及生存曲线比较的假设检验方法。

第二节生存分析的基本内容及几个基本概念一、生存分析的基本内容1. 描述生存过程:研究生存时间的分布特点,估计生存率及其标准误、绘制生存曲线等。

例如,根据乳腺癌患者手术后的生存资料,可以估计不同时间点的生存率及其标准误,如1年生存率、3年生存率、5年生存率等,还可以绘制生存曲线,观察乳腺癌患者手术后的生存过程。

常用方法有乘积极限法和寿命表法。

2. 比较生存过程:获得生存率及其标准误的估计值后,可进行两组或多组生存曲线(生存过程)的比较。

例如,比较两种不同治疗措施治疗恶性肿瘤患者的生存曲线,可了解哪种治疗措施较优,从而为临床决策提供依据。

常用方法有对数秩检验。

3. 生存过程的影响因素分析:例如,为了改善鼻咽癌患者的预后,应先了解可能影响患者预后的因素,如年龄、病程、病情、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养状况等,通过随访收集患者术后的生存时间和上述因素的资料,然后采用多因素生存分析方法确定影响患者预后的主要因素,从而为在手术前后进行预防或干预提供参考依据。

常用的多因素生存分析方法有Cox比例风险回归模型(见第十六章)。

二、生存分析中的几个基本概念1. 死亡事件(death event) 又称失效事件(failure event)或终点事件,死亡事件是一个广义概念,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。

一般是在设计阶段根据研究目的来确定,如乳腺癌患者手术后的死亡、白血病患者化疗后的复发、肾移植患者的肾功能衰竭、接受健康教育戒烟后的青少年复吸烟、接受某种健康保险方式后的中途退保等,均可作为死亡事件。

2. 生存时间(survival time) 指观察到的存活时间,可用天、周、月、年等时间单位记录,常用符号t表示。

如表15.1中6个患者的生存时间分别为117,89,108,96,58,85天。

表15.1 6例乳腺癌患者手术后的随访记录患者编号观察记录生存天数t开始日期终止日期结局(死=1,生=0)原因1 2002-09-03 2002-12-29 0 死于肺癌117+2 2002-09-10 2002-12-08 1 转移死亡893 2002-09-14 2002-12-31 0 研究终止108+4 2002-08-25 2002-11-29 0 失访96+5 2002-10-01 2002-11-28 0 死于车祸58+6 2002-10-04 2002-12-28 1 复发死亡85一般情况下,较细的时间单位准确性较高,因为多数生存分析方法都是在生存时间排序的基础上进行统计处理的,即使是较小的舍入误差,也可能改变生存时间顺序而影响分析结果。

但实际工作中有时很难采用较细的时间单位来度量生存时间,如研究者知道某乳腺癌患者在2002年11月间死亡,但可能不知道具体是哪一天,此时只能用较粗的时间单位“月”来度量,或用2002年11月15日作为该患者死亡时间的粗略估计值。

生存时间也是一个广义概念,不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间,如白血病患者化疗后的缓解时间、肾移植患者的存活时间、接受健康教育后青少年的戒烟时间、投保某种健康险至中途退保的时间等。

生存时间根据其不同的特点,可分为以下两种类型:(1) 完全数据(complete data):指从观察起点到发生死亡事件所经历的时间,如表15.1中2和6号患者对应的生存天数89天和85天。

(2) 截尾数据(censored data):简称截尾值(censored value),又称删失值或终检值。

生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored)。

截尾的主要原因有以下三种:①失访(withdrawal):指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;②退出:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;③终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。

从观察起点到截尾时点所经历的生存时间称为截尾数据,习惯上在生存时间右上标注“+”表示,如表15.1中1, 3, 4, 5号患者的生存天数分别记录为117+, 108+, 96+, 58+。

完全数据提供了观察对象确切的生存时间,是生存分析的主要依据;截尾数据仅提供了部分信息,研究者并不知道观察对象确切的生存时间。

因此,截尾数据太多会影响生存分析的效果。

3. 死亡概率与生存概率(1) 死亡概率(mortality probability):记为q ,是指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。

年死亡概率的计算公式为:q =某年内死亡数某年年初观察例数(15.1)若年内有截尾,则分母用校正人口数:截尾例数年初观察例数校正人口数21-= (15.2) (2) 生存概率(survival probability):记为p ,与死亡概率相对立,表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。

某年生存概率的计算公式为:1p q =-=某年活满一年人数某年年初观察例数(15.3)分子即年底尚存人数,若年内有截尾,则分母用校正人口数。

4. 生存率与生存曲线(1) 生存率(survival rate):记为ˆ()kS t ,是指观察对象活过t k 时刻的概率。

生存率也是一个广义概念,研究者定义的死亡事件不同,其含义亦不同,可以是缓解率、有效率等。

如定义白血病化疗的死亡事件为白血病复发,此时生存率即为缓解率;定义预防接种腮腺炎疫苗的死亡事件为接种儿童发生腮腺炎,此时生存率即为疫苗的有效率;定义安置宫内节育器的死亡事件为因带环受孕取出节育器,此时生存率即为节育器的保留率。

相关文档
最新文档