随访资料生存分析的统计学基础
病例随访资料的统计分析方法——生存分析
假期生活英文作文范文英文:During my holiday, I had a great time doing a lot of fun activities. One of my favorite things to do was to go hiking with my friends. We went to a nearby mountain and enjoyed the beautiful scenery. We also had a picnic on the mountain top and it was so relaxing.Another thing I did was to visit some museums. I went to the art museum and was amazed by the beautiful paintings and sculptures. I also went to the history museum and learned a lot about the local history and culture.Besides that, I also spent some time with my family. We went to the beach and had a great time playing in the water and building sandcastles. We also had a barbecue party in our backyard and invited some friends over.Overall, my holiday was filled with fun and memorableexperiences. I enjoyed spending time with my loved ones and exploring new places.中文:在我的假期里,我做了很多有趣的事情,度过了愉快的时光。
随访资料的生存分析
随访资料的生存分析对于需要长期观察的病例,如慢性病或恶性肿瘤,原有疗效指标如有效率、治愈率等就不适用,还需要考虑出现结局的时间长短。
生存分析(survival analysis)是将结局和出现时间结合起来分析的统计分析方法。
生存分析最常用的方法有乘积限法和寿命表法、生存率比较的log-rank检验和Wilcoxon检验以及Cox比例风险回归模型。
生存分析的基本概念研究生存时间需要通过随访完成,随访有两种形式:1.从所有观察对象在同一时间接受统一处理后观察到事先规定的时间或一定数量观察对象出现特定结局为止2.观察不同时间接受同一处理,然后观察到规定时间或一定数量出现特定结局(此状况更常见)。
终点事件(endpoint event):又称失效事件(failure event),是指研究对象发生的研究者关心的特定结局。
起始事件:研究对象生存特征的起始特征事件。
生存时间(survival time):两个有联系的起始事件和终点事件之间的时间。
为了得到准确的生存时间,必须明确规定起点事件和终点事件。
需要注意,虽然名词是“生存时间”,但事实上不一定是说生存,只要符合上面定义的任何时间段都可以叫生存时间。
生存时间需要恰当的测度单位(小时、日、月、年等),一般测度时间越小,准确性越高。
删失(censoring):也叫终检,是指没有观察到终点事件,无法得知确切生存时间。
包含删失数据称为不完全数据(incomplete data)。
右删失(right censoring):从时间轴上看,终点事件发生在最后一次随访时间的右方,真实生存时间只能大于这个时间。
产生右删失原因:1 随访对象失访2 随访结束仍未出现终点事件3 治疗措施改变生存率估计与生存曲线常用的两种方法:乘积限法(product-limit method),用于小样本未分组资料。
寿命表法(life table method),用于大样本分组资料。
乘积限法:也叫Kaplan-Meier法或K-M法,主要用于小样本,也可用于大样本。
医学统计学:生存分析(sun)
T T
)
2
组数-1
(14.13)
式中A为实际死亡数,T为理论 死亡数。
用log-rank检验对样本的生存率进行比较 时,要求各组生存曲线不能交叉,生存 曲线的交叉提示存在某种混杂因素,此 时应采用分层的办法或多因素的办法来 校正混杂因素。
第四节 Cox比例风险回归模型
对于生存数据的分析,常见的有生存时间的分位数、 中位生存时间、生存函数估计、log-rank检验等,这些 方法已广泛应用于医学的疗效评价和预后分析。在实 践中,人们发现生存分析资料,尤其是医学临床随访 资料具有一定的特殊性,主要表现在生存时间的分布 种类繁多且难以确定,存在截尾数据,需要考虑多个 协变量的影响等。
Cox模型的注意事项
①注意研究资料的代表性及可靠性,保证研究对象是 总体中的一个随机样本;协变量在研究对象中的分布 要适中,否则会给参数的估计带来困难;应将一切可 能因素都包括在调查分析之中,否则容易造成分析结 果的偏差;②对研究生存时间要有明确的规定,如果 以“发病”作为观察的起点,则要对“发病”有一个 明确的规定,对终止事件也要有一个明确的规定,如 果将“治愈”作为结局的终止事件,则要对“治愈” 有一个明确的规定;③如果研究的变量随时间而发生 变化,可以采用伴时协变量的Cox模型进行分析。④ Cox模型分析时,样本含量不宜过小,一般在40例以上。 随着协变量的增加其样本含量应适当的增加,要求样 本含量为观察协变量的5~20倍。要尽量避免观察对象 的失访,过多的失访容易造成研究结果的偏倚。
四、Cox模型的统计描述
1.回归系数和标准回归系数 Cox模 型在分析时可以给出回归系数和标准回 归系数,回归系数用来反映因素对生存 时间影响的强度,一般而言,回归系数 愈大,则因素对生存时间的影响也愈大。 标准回归系数可以比较不同因素间对生 存时间的影响程度,标准回归系数绝对 值较大的因素对生存时间的影响也较大。
随访资料生存分析的统计学基础
2
25 19 19 23 20 29 19 154
3
23 18 16 21 16 26
4
19 18 14 18 16
5
18 18 14 16
6
17 16 13
7
17 16
8
17
120
85
66
46
33
17
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
1 S (t ) SE[ S (t )] S (t ) nt dt
总体生存率的可信区间
假定生存率近似服从正态分布,某时点总体生存率的(1-a)%可 信区间,公式为:
S (t ) u / 2 SE[S (t )]
本例28月总体生存率的95%可信区间:
0.7144 1.96 0.1207
40 20
42 23
44+ 25
45 27
53 + 54 30 34
59 + 37 43 50
表3 肿瘤<3.0cm组生存率及标准误的计算
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1 1 1 1 1 1 1 1 1 0 1 0 1 0
期初病例数 nt
3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法,
用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
第8讲 随访资料的统计分析1
第一节 生存分析中的基本概念
79780907@
4
Department of Health Statistics, TMMU
一、随访研究与生存分析
在医学研究中,为了了解某种疾病的预后、评价 治疗方法的优劣或观察预防保健措施的效果等, 常需要对研究对象进行追踪观察,以获得必要的 分析数据,这类数据都属于随访资料(follow-up data) 。
79780907@
10
Department of Health Statistics, TMMU
二、常用术语
(二)生存时间
广义
肺癌病人从手术到死亡之间的生存时间 急性白血病病人从治疗开始到复发为止之间的缓解 期 冠心病病人两次发作之间的时间间隔 戒烟开始到复发吸烟之间的时间长短 接触危险因素到发病之间的时间长短
二、常用术语
(四)生存概率与生存率
生存率(survival rate) :也称生存函数S(t)、累计 生存率。是指某观察对象活过 t 时刻的概率,常 用 P(X>t) 表示,其值范围在0~1之间。
若无删失值:P( X
t)
t时刻仍存活的观察例数 总观察例数
若有删失值: P( X t) p1 p2 pt
79780907@
7
Department of Health Statistics, TMMU
二、常用术语
(一)失效事件与起始事件
失效事件(failure event):指研究者所关心的研 究对象的特定结局,是反映治疗处理效果特征的 事件,又称为死亡事件、终点事件。
它是由研究目的所决定,因此必须在设计时明确规定 ,并在研究中严格遵守.
随访资料包括对一批研究对象进行追踪观察所获 得的有关结局以及出现这种结局所经历的时间等 方面的资料。
随访时间资料分析
00-12-01 00-12-31 00-12-31
1
研究终止
30+
+为截尾数据
第二节 生存率的估计
小样本资料生存率的Kaplan-Meier估计 当随访的病例数较少时,不需要对病人
的随访时间进行分组,而是直接计算生 存率。生存率的计算常采用乘积极限法 (product-limited method),该法 由Kaplan-Meier于1958年提出,故又 称为Kaplan-Meier法。它利用条件概率 及概率乘法的原理来计算生存率。
生存时间区
间(月) ti-1
(1) 0~ 1~ 2~ 3~ 4~ 5~ 6~ 7~ 8~ 9~ 10~ 11~ 12~ 13~ 14~ 15~ 16~ 17~ 18~ 19~ 20~
表 15-5 2238 例肺癌病人生存率及其标准误计算
死亡人数 截尾人数 期初观察 校正观察 死亡概率 生存概率
di
二、大样本资料的生存分析
在样本较大时,随访病例的生存时间常 可按年、月或日进行分组,得出具有若 干时间段的频数表。对于分组的生存数 据可按寿命表(life table)法计算生存率, 其基本原理是首先求出研究对象在起始 事件后各个时期的生存概率,然后根据 概率的乘法原理,将各时期生存概率相 乘,即可得到自观察开始到各时点的生 存率。并对生存率或生存分布之间的差
时间(月)
生存函数 死亡密度函数
期初例数 期内死亡数 sˆ(t)
fˆ (t)
t
0~
40
5
1.000
0.025
5~
35
7
0.875
0.035
10~
28
6
0.700
0.030
随访资料的生存分析
生存率是相对于时间t的函数,称为生存函数,记为S(t)。
• 生存函数在某时点的值就是生存率。例如,S(5)=0.1832,习
惯上说5年生存率为18.32%。
生存函数或生存率的计算
①若前t个时段没有删失:
t时段结束时仍存活的人 数 S ( t ) P( T t ) 研究期初观察总人数
例如:
截尾数据(截尾值、删失数据,censored data):
尚未观察到研究对象出现反应(终点事件)时,即由于某种原 因停止了随访,这时记录到的时间信息是不完整的,这种生 存时间数据称为不完全数据或截尾值。截尾值能提供部分信 息,即该研究对象实际的生存时间只会长于观察到的时间。
生存分析中的基本概念
截尾值出现的原因有以下三种: ① 失访:观察期内由于研究对象搬迁、不 配合等原因造成失访; ② 退出:观察期内研究对象意外死亡、死 于其它疾病或改变治疗方案等而中途退 出研究; ③ 终止:观察期结束时仍未出现结局。
若该时段内有删失,则分母用校正人口数: 校正人口数=期初观察人数-删失数/2
生存分析中的基本概念
(三)生存概率、生存率、生存函数
2. 生存率和生存函数:
• 生存率(survival rate) :指研究对象经历t个时段后仍存活的概
率,即生存时间大于等于t的概率,用P(T≥t)表示。
• 生存函数(survival function):生存率随时间t的变化而变化,即
生存分析中的基本概念
(一) 生存时间(survival time):
3、生存时间资料的整理:
对于随访资料,需要记录的原始数据包括开始观察的时点
(起始事件发生的时间)、终止观察的时点、研究对象的结
局、可能的影响因素。生存时间为一反映时间长短的指标,
统计学考题(按章节) 第6题【05分】__随访资料的生存分析
五、其它30分(3~5道题目,每题6~10分)随访资料的生存分析:【06真题】九、某医生从 2002年 1月 1日起对某医院收治的 6名急性心肌梗塞病人进行跟踪观察,2002年 3月 25日结束观察,共 12周。
记录的资料如下:(5分)1、上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2、判断上述随访时间哪些属截尾值?写出观察对象编号。
【05真题、04真题、03真题】四、16例某癌症病人在不同时期经随机化分配到A、B两治疗组,并继续进行随访至1974年5月 31日结束。
资料如下表:(8分)16例某种癌症病人随访资料病人号治疗组分组日期终止日期是否该病死亡截尾值1 A 68.05.12 68.05.30 Y2 B 70.10.18 71.04.16 Y3 B 69.02.12 70.11.06 Y4 A 72.01.30 74.05.31 仍存活5 A 73.11.11 74.01.02 Y6 B 68.03.12 73.03.30 车祸死亡7 A 69.01.06 69.01.04 Y8 A 69.02.08 70.02.08 迁出9 B 71.05.02 71.11.13 Y10 B 68.03.08 68.05.23 Y11 B 73.12.12 74.02.20 Y12 A 74.05.01 74.05.09 Y13 B 72.07.02 72.07.15 Y14 B 68.12.18 74.04.31 失访15 A 69.01.01 74.05.31 仍存活16 B 73.09.02 73.09.20 Y1.上述资料随访时间单位以(日)、(月)、(年)哪个较合适?为什么?2.判断上述随访时间哪些属截尾值,写出观察对象编号。
3.要比较A、B疗法对该种癌症病人的疗效,宜选用何种统计检验方法?4.A、B治疗组随访资料生存时间的特征量(代表值)一般用何指标表示?【答案】jszb0、本资料中,第7号观察对象数据,终止日期竟然早于分组日期,是典型的错误数据,应该排除。
培训_随访资料的生存分析
2.结果 估计:Kaplan-Meier生存率及生存
曲线。
比较:log-rank检验卡方值及其P值。 因素分析及预测:
变量赋值(数量化方法)表 变量统计描述:
各组病例数和构成比(分类变量) 均数和标准差(数值变量)
列出序号 整理数据
(3) 求年初人数
(4) 求校正年初人数
(5)
计算死亡概率:q =
d/nc (6) 计算生存概率: p =1-q
(7)
计算生存率及其标准
误:利用正态近似法估计总体生
存率的可信区间
3、k年生存率与半数生存期估计
期内 删失 人数
三、对数秩检验(log-rank test) ——非参数检验
检查可能的交互作用项是否显著 (方法:一次引入一个交互作用项, 看其对应的回归系数是否为0)。
模型拟合优度考察:据预后指数PI 分组,比较各组基于Cox模型的生 存 曲 线 与 基 于 kaplan-Meier 法 估 计 的生存曲线,如两组曲线吻合较好, 表明Cox模型拟合较好。
生存率分析:生存曲线不能随意延 长,也不能轻易用于预测预报,经
强调设计的重要性
专业知识角度:选择疾病种类、终 点事件、影响因素及结果的专业解 释等。
统计学角度:样本例数、因素的赋 值、生存时间准确到天数、因素筛 选方法、结果的统计学解释等。
小结(论文报告中应写明)
1.材料与方法 病例来源、起始事件、终点事件、
观察终止时间、截尾情况、随访结 果的获得方法,样本含量、截尾例 数及百分比(%)。 建立数据库方法 统计学处理方法
医学随访资料的生存分析
生存分析的应用
估计生存率、生存曲线和中位生存时间 生存率的比较 影响生存率的因素 对不同因素水平的个体进行预测
第一节 概念
生存时间survival time, failure time 完全数据complete data 截尾数据censored data “+” 条件生存概率conditional probability of survival 生存率survival rate 生存曲线survival curve 中位生存期median survival time
数。 4、按公式计算各个生存时间上的理论死亡数。 5、计算两组或多组合计的实际死亡数和理论
死亡数。 6、计算统计量。
趋势检验
Trend test 多组生存率比较时,若分组变量是等级变量 或连续变量等级化分组,经对数秩检验有统计学意义时, 可作趋势检验,分析生存率是否随分组等级存在升高或降 低的趋势。 基本思想:编秩计算统计量x2值。
结束语
渴望梦想的光芒,不要轻易说失望
Write in the end, send a sentence to you, eager to dream of light, don't easily say disappointed
为更好满足学习和使用需求,课件在下载后 可以自由编辑,请根据实际情况进行调整
2 0.5000
生存率
Sˆtk
⑺
0.8571 0.7857 0.6429 0.5714 0.4571 0.2286 0.1143
标准误 ⑻
0.0935 0.1097 0.1281 0.1323 0.1471 0.1359 0.1056
对数秩检验
Log-rand test 用于两组或多组生存率比较的非参数检验
统计学教案习题17随访资料的生存分析
第十七章 随访资料的生存分析一、教学大纲要求(一)掌握内容 1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。
2.估计生存率的方法:Kaplan-Meier 法、寿命表法。
(二)熟悉内容1.生存曲线、半数生存期。
2.生存资料的基本要求。
3.两生存曲线的比较的对数秩检验。
(三)了解内容 Cox 回归模型。
二、教学内容精要(一)生存分析中的基本概念1.生存时间(survial time )指观察到的存活时间,如表11-1中t 分别为360,990,1400,1800天。
生存时间有两种类型:(1)完全数据(complete data )指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。
(2)截尾数据(censored data )由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。
从起点至截尾所经历的时间,称为截尾数据,如表11-1中1400天,习惯上记为1400+天。
表11-1 4例鼻咽癌随访记录患者序号性别 (男=1)处理组号开始日期 终止日期 结局 (死=1)存活天数 10 1 11/29/80 11/04/85 1 360 2 1 1 06/13/82 06/08/83 1 990 3 1 0 03/02/83 12/31/86 0 1400+ 4 008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortality probability )指死于某时段内的可能性大小,记为q 。
年死亡概率的计算公式为q =某年年初观察例数某年内死亡数,若年内有截尾,则分母用校正人口数(校正人口数=年初人口数-21截尾例数)。
这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。
医学统计学临床随访研究及分析
医学统计学临床随访研究及分析在医学领域中,统计学的应用日益重要。
特别是在临床随访研究中,统计学的分析对于了解疾病的发展、评估治疗效果以及制定预防措施至关重要。
本文将探讨医学统计学在临床随访研究中的应用以及相应的分析方法。
临床随访研究是一种通过追踪研究对象的状况和结果来观察疾病发展和治疗效果的方法。
这种研究对于确定病因、预测病程以及评估治疗效果非常有价值。
然而,由于研究对象的个体差异以及相关数据的复杂性,仅仅凭经验判断是远远不够的。
这时候,统计学的应用就显得尤为重要。
首先,对于临床随访研究中的数据,常见的统计学方法之一是描述性统计分析。
通过统计数据的均值、标准差、中位数等指标,可以全面了解研究对象的基本情况。
例如,在一项关于某种药物治疗效果的研究中,可以通过描述性统计分析来计算出平均改善率以及患者群体中的变异程度。
然而,仅凭描述性统计分析无法提供深入的认识。
这时候,我们需要运用推断统计学的方法。
推断统计学通过对样本数据的分析来推断总体的特征。
在临床随访研究中,样本数据常常存在一定的偏差,例如,样本量可能较小或者样本对象并不完全代表整个患者群体。
因此,推断统计学的应用可以帮助我们更准确地推断总体的特征。
在推断统计学中,假设检验和置信区间是常用的方法。
假设检验通过对样本数据的比较,判断总体参数是否具有显著差异。
例如,在一项关于两种治疗方法效果比较的研究中,可以利用假设检验来判断两种方法是否存在显著的差异。
而置信区间则是通过对样本数据的范围估计,提供总体参数的区间估计值。
例如,在一项关于某种疾病发病率的研究中,可以利用置信区间来估计总体发病率的范围。
除了假设检验和置信区间,回归分析也是临床随访研究中常用的统计学方法之一。
回归分析可以帮助我们了解不同因素对结果变量的影响程度,并建立预测模型。
例如,在一项关于危险因素与疾病发展的研究中,可以利用回归分析来确定各个危险因素的权重,从而建立预测模型。
此外,在临床随访研究中,生存分析也是重要的统计学方法之一。
14--寿命表与随访资料的生存分析
87
0
28 53 1 1 1 0 0 120
0
29 32 1 1 1 0 0 120
0
30 46 0 1 0 0 1 120
0
31 43 1 0 1 1 0 120
0
32 44 1 0 1 1 0 120
0
No
X1 X2 X3 X4 X5 X6
t
Y
33 62 0 0 0 1 0 120
0
34 40 1 1 1 0 1 40
实例分析
例3:为探讨某恶性肿瘤的预后,某研究者收集了63 例患者的生存时间、生存结局及影响因素。影响因素 包括病人年龄、性别、组织学类型、治疗方式、淋巴 结转移、肿瘤浸润程度,生存时间以月计算。变量的 赋值和所收集的资料分别见表17-8和表17-9。试用 Cox回归模型进行分析。
表17-9 63名某恶性肿瘤患者的生存时间(月)及影响因素
二、操作过程
2)
√
水平间的两两比较。
6. 单击Save按钮,弹出保存新变量Save new variables 对话框:
√ √
三、主要输出结果
1. 生存表: 略 2. 两组的中位生存期估计:
3. 绘制生存曲线:
4. 两组生存时间分布的比较:
Company Logo
Cox回归过程
Cox回归过程用于: 1. 多个因素对生存时间的影响作用分析和比较 2. 生存(或死亡)风险预测
(2)采用逐步回归法进行Cox模型分析的结果提示:模型拟合自变量进入和 剔除的检验水准分别为0.05和0.1时,筛选后的最佳模型包含两个协变量, 即X4(治疗方式)和X5(淋巴结是否转移),该拟合模型总体检验提示 具有统计学意义(整体卡方=17.594,P<0.001)。
随访数据的统计分析方法
2.求 t时刻期初例数n0 本例最后时刻期初人数n5=1,其它 时刻由下往上累计获得,例如,
n03=n04+d3+c3=2+1+0=3,n02=n03+d2+c2=3+2 +0=5(见第5列)
3.求t时刻死亡概率q=d/n0。(见第 6列) 4.求t时刻生存概率p=1-q。(见第7列) 5.计算生存率及其标准(见第8,9列)
S(t)=P(T≥t)=p1p2…pk 式中pj可用校正人数估计,可处理截尾数据。 上例:3年生存率为
S(3)=10/40=0.250 由式(12-5)求得例12-1的3年生存率为
S(3)=p1p2p3=0.750×0.667×0.500=0.250
浙江大学医学院流行病与卫生统计学教研室 沈毅
(2)生存率的标准误:生存率的标准误有不同的估计方法, 其中Greenwood’s法(1926)比较常用,其公式为
生存时间的统计分析方法起源于19世纪对寿命表的研究,在第 二次世界大战期间,由于对武器的可靠性的要求,使这一分析方法 得到了很大的发展,并不断扩展应用的其他研究领域中。近40年来, 在医学研究,特别是在临床随访研究中,也引进了生存分析的方法, 用来分析病人的随访资料。由于临床研究资料的多样性和复杂性, 反过来又进一步推动了生存时间分析技术的发展。到目前为止,生 存分析作为统计学的一个分支,已形成了一套完整的体系,包括参 数法,非参数法以及回归分析方法等。
浙江大学医学院流行病与卫生统计学教研室 沈毅
(二)生存时间数据的类型:
1.完全数据 某个观察对象具有明确的结局时,该观察对象所 提供的关于生存时间的信息是完整的。我们把达到了明确结局 的观察对象的生存时间数据称为完全数据(Complete Data)。
第14章-医学随访资料的生存分析要点
2 1 12 11 ˆ t ] SE[G ln ln 0.57875 2 12 14 12 12 11 14 exp[ exp(1.42221 1.96 0.57875 )] (0.47243 ,0.92536 )
3.40 19.16 8.33+ 5.67+ 24.5+
二、条件生存概率、生存率
1. 条件生存概率 条件生存概率(conditional probability of survival) 表示某单位时段开始时存活的受试对象,到该时 段结束时仍存活的可能性。
活满该单位时段的人数 pi 某单位时段期初观察例 数
生存率与条件生存概率的区别 条件生存概率是单个生存时段的结果,而生存率实质上 是累积条件生存概率 (cumulative probability of survival) , 是多个时段的累积结果。例如,3 年生存率是指术后 活满 3 年的可能性,而第 3 年生存概率是指术后活满 2 年的人,在第 3 年中存活的可能性。
例141 手术治疗 100 例食管癌患者,术后 1、2、 3 年的死亡数分别为 10、20、30,随访中无截尾 数据,试求各年条件生存概率及逐年生存率。 第 t 年条件生存概率:
p1 100 10 100 10 20 0.9000 p2 0.7778 100 10 100 100 10 20 30 p3 0.5714 100 10 20
t k 时刻仍存活的例数 ˆ S (t k ) P (T t k ) 观察总例数
(14-2)
若含有截尾数据,须分时段计算。假定观察对象 在各个时段的生存事件独立,也可根据概率乘法 定理计算 ˆ (t ) P (T t ) p p p S ˆ (t ) p S k k 1 2 k k 1 k (14-3) pi k i 式中 ( 1,2,…, )表示各生存时点或 时段的条件生存概率。 死亡率=1-生存率,表示受试对象从观察开始, 在整个观察期内死亡的可能性。
大学精品课件:医学随访资料的生存分析115
3年生存率=
活满3年例数 期初观察例数
5年生存率=
活满5年例数 期初观察例数
生存概率和生存率的计算
例:手术治疗100例食管癌患者,术后 1、2、3年的死亡数分别为10、20、 30,若无截尾数据,试求各年生存概 率及生存率。
生存概率的计算
第1年生存概率=
90 100
例如,某肿瘤医院调查了1991-1995年间 经手术治疗的大肠癌患者150例,对可 能影响大肠癌术后生存时间的因素进行
了调查,如性别、年龄、组织学分类、 肿瘤大小、Dure’S分期等。随访截止日 期为2000年12月30日,随访记录见下 表。
大肠癌 手术日期 (月)
随访终止日 随访 生存时间
期
结局 (天)
1 男 45 6 2 男 50 3 3 女 36 12 4 男 52 2 5 女 56 15 6 女 60 10
---
1991.05.20 1992.01.12 1991.10.24 1994.11.02 1994.06.25 1993.12.05
1995.06.04 1998.08.25 1994.03.18 2000.12.30 1995.03.17 1996.08.16
方法作统计分析。
第二节 生存概率、生存率、生存 曲线、生存中位数
生存概率 生存率 生存曲线 生存中位数
生存概率(probability of survival)
表示某单位时段开始时存活的个体,到
该时段结束时仍存活的可能性。 年生存概率表示年初尚存人口存活满1 年的可能性。
活满一年例数 p 年初观察例数
扩展
第一次发病
终点事件
痊愈 死亡 死亡 缓解 复发 第二次发病
费用 次数 总公里数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表3 肿瘤<3.0cm组生存率及标准误的计算
期初病例数 nt
14
截尾数 ct
0
死亡概率 qt
1/14=0.0714
生存概率 pt
0.9286
生存率 S(t)
0.9268
13
0
1/13=0.0769
0.9231
0.8572
12
0
1/12=0.0833
二、寿命表法
适用于分组的生存资料。 ① 实际工作中,随访结果常常没有每个观 察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
例16-2 收集374名某恶性肿瘤患者随访资料,取时间区
间均为1年,结果间下表,试估计生存率及其标准误,中
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察 到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间 2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正 态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
S(t) u /2SE[S(t)]
本例28月总体生存率的95%可信区间:
0.7144 1.960.1207
即膀胱肿瘤<3.0cm患者28月生存率的95%可信区间为47.78% ~95.10%。 生存曲线尾部的生存率不适合于用该法计算总体生存率的可信区间。
中位生存时间
由表3可见,中位生存时间估计在36月。 采用内插法计算:找到与生存率50%相邻的上下两个生存率及 其生 存时间利用线性比例关系求解中位生存时间。
某年内死亡人数 q 某年年初人口数
四、生存概率
生存概率(probability of survival)表示单位时间 段开始存活的个体,到该段时间结束时仍存活 的可能性。符号p表示。
某年活满一年人数 p 某年年初人口数
p 1q
五、生存率
生存率(survival rate, survival function)表示观察 对象经历tk个单位时间段后仍存活的可能性。
第1年生存概率
第2年生存概率
第3年生存概率
0
1
2
3
1年生存率
2年生存率
3年生存率
图1 生存概率与生存率示意图
六、生存曲线
生存曲线(survival curve):生存时间为横轴, 将各时点所对应的生存率连接在一起的曲线图。
图2 生存曲线
生存分析主要内容:
统计描述:计算生存率、绘制生存率曲线、 计算中位生存时间等。
生存分析的应用:
1.临床治疗方案或处理措施的效果评价。如恶 性肿瘤手术或化疗后(转移或死亡前)生存时间、 肾移植术后生存时间、心脏起搏器的保留时间、 种植牙的保留时间等。
2.疾病危险因素分析和疾病预后的影响因素分析。 如肺癌发病危险因素分析、肾移植手术效果的影 响因素分析等。
3.特殊人群卫生保健措施的效果评价。如中老 年糖尿病预防效果评价、青少年控制吸烟的健康 教育干预试验效果评价、食管癌高发区干预措施 的效果评价、不同种类宫内节育器的节育效果评 价(宫内保留时间或有效避孕时间)、某疫苗接种 效果评价(观察抗体滴度了解免疫力持续时间或 某病发病率)等。
二、生存时间
生存时间(survival time)也是一个广义概念,泛 指所关心的某现象的持续时间,即随访观察持 续的时间,常用符号t表示。
表2. 6例乳腺癌患者术后随访记录
患者 编号
1 2 3 4 5 6
开始日期 02-09-03 02-09-10 02-09-14 02-08-25 02-10-01 02-10-04
二、随访方式
1.全部观察对象同时接受处理措施,观察到最后 一例出现结果或事先规定的随访截止时间。
7.0
6.0
5.0
4.0
+
3.0
2.0
+
1.0
36
0.0
99
160
0 30 60 90 120 150 180
图3 随访资料常见形式示意图
2.观察对象在不同时间接受处理措施,完成 一定数量随访病例或按事先规定的时间停止随访。
图4 随访资料常见形式示意图
生存率的估计与生存曲线:
一、乘积极限法 乘积极限法(product-limit estimate)又称KaplanMeier法,适用于未分组生存资料的分析。
例16-1 14例膀胱肿瘤<3.0cm患者和16例膀胱肿瘤≥3.0 患者的生存时间(月)如下,试估计两组各时点生存率 及其标准误、各时点总体生存率的95%可信区间、中位生 存时间,并绘制生存曲线。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
2.随访的结局和终止随访的时间
随访的结局可能有以下几种:
(1) “死亡”:泛指处理措施失败的事件。如肿瘤化 疗后的复发、肾移植因肾衰或与之有关的原因而 死亡等。终止随访时间为“死亡”时间。
统计推断:估计总体生存率的可信区间、 生存率曲线的比较。
影响因素、预测
生存分析基本方法:
1. 非参数法: 特点是不论资料是什么样的分布类型,只根据样本提 供的顺序统计量对生存率进行估计,常用乘积极限法和寿命表法。 2. 参数法: 特点是假定生存时间服从于特定的参数分布,根据已知 分布的特点对影响生存的时间进行分析,常用指数分布法、 Weibull分布法、对数正态回归分析法和对数logistic回归分析法。 3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法, 用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
0.9167
0.7858
11
0
1/11=0.0909
0.9091
0.7144
10
0
1/10=0.1000
0.9000
0.6429
9
0
1/9=0.1111
0.8889
0.5715
8
0
1/8=0.1250
0.8750
0.5001
7
0
1/7=0.1429
0.8571
0.4286
6
0
1/6=0.1667
0.8333
2年生存率=
154 197
100%
78.17%
6年生存率=58.23%
7年生存率=60.00% 8年生存率=58.62%
存在的问题
• 1.n年生存率有时出现后一年大于前一年的 现象。
• 2.某时点生存率不能反映整个生存过程,比 较时可能出现不正确的结论。
生存分析的概念:
分析生存资料的统计方法称为生存分析, (survival analysis),它是将事件的结局和发 生这种结局所经历的时间两个因素综合起 来分析的一种统计方法。它能够处理截尾 数据,并对整个生存过程进行分析或比较
观察记录
终止日期
结局 (死=1,生=0)
原因
02-12-29
0
死于肺癌
生存天数 t
118+
02-12-08
1
转移死亡 90
02-12-31
0
研究终止 108+
02-11-29
0
失访
96+
02-11-28
0
死于车祸 59+
02-12-28
1
复发死亡 86
生存时间分为两种类型:
1.完全数据(complete data):指从观察起点到 发生“死亡”事件所经历的时间。提供了观察 对象确切的生存时间。
若生存率0.5处所对应的曲线与X轴平行,则中位生存 时间不止
一个。 若各时间点生存率均大于50%,则无法估计中位生存时间。
死亡时点生存率, Kaplan-Meier法 生存曲线为阶梯形 曲线。
曲线 高度 &下 降坡 度
拐点的纵坐标值 在下一个台阶
图5 肿瘤<3.0cm组生存曲线
图6 肿瘤<3.0cm组和肿瘤≥3.0cm生存曲线
位生存时间,并绘制生存曲线。
表4 某恶性肿瘤患者随访资料
生存分析的几个概念:
一、终点事件
终点事件 (terminal event)又称失效事件(failure event) 或“死亡”事件(death event) ,泛指标志某种措施 失败或失效的事件,反映治疗效果特征的事件,是 根据研究目的确定的。如乳腺癌术后死亡、白血病 化疗后复发、肾移植术后的肾衰等,均可作为“死 亡”事件。
0 S(t) 1。若无截尾数据,则
S (tk
)
P(T
tk
)
tk时刻仍存活的例数 观察总例数
若有截尾数据,须分时段计算生存概率。假 定观察对象在各个时段的生存事件独立,应用概 率乘法定理:
S(tk ) P(T tk ) p1.p2...pk
pi某时段的生存概率,故生存率又称累积生存概率 (cumulative probabilityof survival)。
0.3571
5
1
0/5=0.0000
1.0000
0.3571
4
0
1/4=0.2500
0.7500
0.2678
3
1
0/3=0.0000