生存分析1(精选)
《生存分析》
2.数据的编码可能会严重地影响结论的可解 释性。对于某些数值型协变量,根据专业上的 考虑转换为等级编码更恰当一些,否则会得到 譬如红细胞每减小一个,患者的死亡率会增加 若干倍的夸大解释;对于无序的多分类协变量, 应设置哑变量进入模型,例如4种血型可转换 为3个0-1型变量拟合模型,并且这3个变量应 作为一个因素整体进出模型,人为地将血型编 码为1,2,3,4会造成回归系数或相对危险度 解释上的困难。
应用条件 除了生存资料的基本要求之外, 还要求各组生存曲线不能交叉。若出现 这种交叉,则提示可能存在混杂因素, 应采用多因素方法来校正混杂作用或分 段作统计分析。
精选ppt
Cox比例风险回归模型
精选ppt
精选ppt
精选ppt
Cox回归实例
346例手术后的大肠癌患者随访资料可以了解 影响术后生存情况的因素。为简单说明问题, 从中抽取30例数据见表23-8。其中术后生存时 间time以月为单位,status表示随访结局(其 值为0表示相应的术后生存时间为删失值)。 三个协变量分别为:性别sex(其值为0表示女 性,1表示男性),年龄age(岁),确诊到进 行手术治疗的时间dtime(月)。试对此数据 作Cox回归分析。
若有截尾数据,则分母用校正例数。
精选ppt
生存率
生存率(survival rate):记为S(tk),是指 观察对象经历tk个时间单位后仍存活的概率。
S(tk)
P(T
tk
)
tk时刻仍存活的例数 观察总例数
若有截尾数据,则分母必须用分时段的校正例 数。
精选ppt
生存率与生存概率的关系
S ( tk ) P ( T tk ) p 1 p 2 p k
精选ppt
生存分析_精品文档
生存分析
有结局和生存时间两个因变量; 生存时间分布不正态—非负且右偏; 可能含有删失数据(censor)。
寿命表法
寿命表法
①
②
③
④
寿命表法曲线为折线。 该法只估计时段右端点的生存率,省略了时段内的生存率估计。
恶性肿瘤患者确诊后5 年内生存率下降较快,5 年后下降较平缓,说明确诊5年内该恶性肿瘤患者的死亡威胁较大。
中位生存期
【电脑实现】 —SPSS
1.数据录入:频数形式
生存分析—寿命表法
【Time 】 生存时间(年) 【 Status 】0:删失数据 1:完全数据(死亡) 【 Freq 】频数
处理删失/截尾数据时两种错误的做法: 错误1:只考虑确切数据,丢弃截尾数据(损失信息); 错误2:将截尾数据当作确切数据处理(低估了生存时间的平均水平)。
在处理正偏态分布数据时两种错误的做法: 错误1:采用平均生存时间而不是采用中位生存时间来表示生存时间的平均水平。 错误2:采用常规 t 检验或方差分析进行组间比较。(应采用log-rank检验比较几组生存时间 )
针对单位时间的
⑴ 死亡概率(probability of death):表示某单位时段开始存活的个体,在该时段内死亡的可能性;如年死亡概率。
注意:如果年内有删失,则分母用校正人口数: 校正人口数 = 年初人口数—删失例数/2
末人口数:n-k
初人口数:n
期间死亡人数:k
⑵ 生存概率(probability of survival) :单位时段开始 时存活的个体,到该时段结束时仍然存活的可能性。
讲稿生存分析
生存分析与临床应用一.概述在医学科研中,我们常常对观察对象作追踪观察,并记录各个时点某事件的发生状况。
对这种资料进行分析时,不仅应该考虑某事件发生的频率,还要考虑从试验开始到该事件发生的时间。
因为即使事件发生的频率相同,但若某事件的发生与时间有关,则仍可提示各个试验组存在差异。
因此,对于随访研究资料而言,仅仅考虑随访的结果是不够的,还应该考虑随访的时间。
生存分析(survival analysis)就是将随访结果与随访时间(times to event)结合起来对资料进行分析的一类统计方法,它充分地利用了研究中所得到的信息,能够更加全面地、准确地分析随访资料。
生存分析中的观察结果可以是任何事件,如死亡、痊愈、发病等,故生存分析可广泛用于医学科研工作中。
生存分析的主要内容包括了生存率的计算、两组或多组生存率的比较,以及多因素的生存分析方法,如Cox回归模型、Logistic回归。
二.生存分析中的常用术语(1)“死亡”事件,或称失败事件(failure event)在生存分析中,用以反映处理因素失败的特征事件,它可以是任何事件,如死亡、痊愈、发病等。
一般来说,做生存分析最好的资料是全部观察对象都已产生特征事件的资料,也就是说截尾值越少越好,而截尾值太多的资料,其分析结果的可靠性较差。
(2)截尾值(终检值,censored value)由于各种原因无法得到观察对象明确的结局事件,不知道观察对象的确切生存时间,属于信息不完整的数据。
如研究者常遇到如下情况:①直到研究结束时点,观察对象尚未发生某事件(未死亡、未缓解等)。
②观察对象死于其他疾病或因某种原因中断了治疗;③观察对象搬迁到其它地区,中断了联系。
这时,无论把这些观察对象归为发生或归为未发生某个事件都不合理,包含有这些情况的资料都不能提供分析所需要的完整信息。
因此,将其数值称为终检值(截尾值,censored value),有终检值的数据称为终检数据(截尾数据,censored data)。
收藏可能是网上最全的生存分析资料
收藏可能是网上最全的生存分析资料1、生存分析的概念生存分析(survival analysis)是对生存时间进行分析的统计技术总称。
既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。
生存分析的基本目的就是刻画生存时间的分布。
生存分析相较于其它多因素分析的主要区别点:生存分析考虑到了每个研究对象出现某一结局所经历的时间长短。
(一)基本概念:1.起始事件(initial event):反应生存时间起始特征的事件,如疾病确诊、某种疾病治疗开始等。
2.失效事件(failure event):在生存分析随访研究过程中,一部分研究对象可观察到死亡,可以得到准确的生存时间,它提供的信息是完全的,这种事件称为失效事件,也称之为死亡事件、终点事件。
3.生存时间(survival time):从规定的观察起点到某一特定终点事件出现的时间长短。
其中根据研究对象的结局,生存时间数据可分为两种类型:1)完全数据:在规定的观察期内,对某些观察对象观察到了终点事件发生,从起点到终点事件所经历的时间,称为生存时间的完全数据(complete data)。
用符号“ t ”表示。
2)删失数据(截尾数据):规定的观察期内,对某些观察对象,由于某种原因未能观察到病人的终点事件发生,并不知道其确切的生存时间,如病人生存时间在未达到规定的终点就被截尾一样,称为生存时间的删失数据,又称截尾数据,用符号“ t+ ”表示。
产生删失数据的常见原因有:1)研究结束时终点事件尚未发生;2)失访;3)死于其它原因;4)由于严重药物反应而终止观察或改变治疗措施。
4.死亡概率(probability of death):表示某单位时段开始存活的个体,在该时段内死亡的可能性;如年死亡概率。
注意:如果年内有删失,则分母用校正人口数(有效数目):校正人口数 = 年初人口数—删失例数/25.生存概率(probability of survival):单位时段开始时存活的个体,到该时段结束时仍然存活的可能性。
生存分析
生存率计算
0.72=0.8*0.9,0.51=0.70833*0.72………
生存率计算
注意出现截尾数据后,下个区间的生存概率情况,截尾数据属于丢失了,可以有失访但最好是随机的,而不是有方向性的。
生存率的标准误(Greenwood估计)
SE S ( t i ) S ( t i )
n (n
研究指标
4 风险比(hazard ratio)
=相对危险度(RR)
第一组的h1 (t ) 风险比= 第二组的h2 (t )
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 A1 A2 B1 + B2 B1
B2 A1 B1
比例风险图示(1)注:比值不随时间变化而变化
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 B1 + B2
(n s
j 1 j
i
dj
j
)
SAS 数据格式
编号 分组变量
观察时间
事件是否 发生
SAS
Kaplan-Meier法
PROC LIFETEST data = a.km METHOD=PL PLOTS=(s); TIME time*p(1); strata group; RUN;
数据汇总
生存时间的比较
a. Dependent Variabl e: ti me
score检验
变量筛选
后退法
前进法
一般选择
逐步法
事件发生时间相同时
RR CI
• RISKLIMITS -RL
比例风险假设的检验
• log{-log[S(t)]}=log{-log[S0(t)]}+bx • 以时间t为横坐标,LML为纵坐标 两条线基本平行说
生存分析
28
5
1
3 0.2000 0.8000
32
1
1
0 1.000 0.0000
生存率
S(ti) (8) 0.9500 0.9000 0.8471 0.7412 0.6795 0.6177 0.5491 0.4804 0.4004 0.3203 0.0000
总体生存率的区间估计
K-M法计算的样本生存率是总体生存率的点估计
区间估计:
exp( exp(ln( ln(S(ti
))
u
/2
SE[S(ti )] )) S(ti ) ln(S(ti ))
SE是标准误
生存曲线及中位生存期
生存曲线 survival curve:以随访时间为横坐标, 生存率为纵坐标绘制的曲线
中位生存期 median survival time:半数生存时间/ 平均生存时间,恰好由50%个体存活s(t)=0.5的时间
活过该时间区间人数 p 某时间区间初期尚存活人数
生存分析的基本概念---终检
终检 censoring:删失值,在终点事件发生前, 由于某种原因被观察对象的观测过程终止了
右删失:终点事件发生在最后一次观察的右方
特点:不完全信息(不知道确切生存时间),但可知真 实的生存时间不会短于现在观察到的时间。
结局
死亡 失访 死亡 死于其他 存活
生存 时间
11 10+ 37 25+ 9+
2 3
1
1992.03.04 4
5 2001.12.31
生存分析的基本概念---终点事件/起始事件
终点事件outcome event:失效事件 failure event, 指研究者所关心的特定事件,如死亡、复发、出牙;
生存分析(1)
00-07-16 00-12-31 00-08-18 00-11-22 00-10-10 00-11-12
7.0 No. 56.0 45.0 14.0 23.0 32.0 1.0 0.0
168+ 96 33
+ +
+ + 33 96 60 90 120 150 158 180
c
(3) 0 0 0 0 0
n0 n=no-d/2
(4) 60 50 40 30 20 (5) 55 45 35 25 15
m=d/n q=d/n0 (n0-d)/n0 (n0-d)/N
(6) . 181 . 222 . 286 . 400 . 667 (7) . 167 . 200 . 250 . 333 . 500 (8) . 833 . 800 . 750 . 667 . 500 (9) . 833 . 667 . 500 . 333 . 167
;
1 . 死亡率、死亡概率、生存概率 (1) 死亡率 (mortality rate,death rate)
表示某单位时间内的死亡强度。
年内死亡人数 年死亡率m 1000 0 00 年平均人口数
年平均人口数=(年初人口数+年末人 口数)/2
(2) 死亡概率 ( mortality probability )
[例1] 手术治疗60例肺癌病人,术后每年死亡10
例,无删失。试求基本生存分析指标。N=60
术后 年内 年内 年初 年 数 死亡 截尾 观察 例数 例数 例数 年 平均 例数
死亡 率
死亡 概率
生存 概率 p=1-q
(t+1)年 生存率
生存分析
第1章基本概念第1节生存资料的特点生存资料(Survival Data)或失效时间资料(Failure-time Data)与多元线性回归资料很相似,只不过因变量(或反应变量)通常为观测对象生存的时间,常用t来表示。
当然,生存时间是广义的,可以指在通常意义下生物体的生存时间、也可以指所关心的某现象(如疾病治愈后、合格品使用后)持续的时间。
若生存时间是准确观测到的,则称为完全数据。
生存资料的一个明显特点是:所收集的资料中常常包含不完全数据,也称为截尾数据、删失数据、终检数据(Censored Data)。
包括删失数据的资料,称为删失资料。
对于删失数据,既不能简单地弃之,踊能像对待完全数据那样给予充分的信任,需要采取一些技术处理。
专门处理这种资料的统计方法,称为生存分析(Survival Analysis)。
导致数据删失有多种原因,最常见的有:失访(病人因搬家、随访信件丢失、车祸等原因,导致医生对他们的随访观察中断)和研究截止。
由随机因素引起的,称为随机删失;若事先就定了截止日期,则称为定时删失(也称Ⅰ型删失);若事先就定了观察完多少例就截止研究,则称为Ⅱ型删失(也称为定数删失)。
在表达删失数据时,常在其右上角放一个“+”号;而用SAS软件分析时,常在其前放一个“-”号或产生1个指示变量(如:C=0表示删失数据、C=1表示完全数据,反过来也可以),便于计算时区别对待。
为了使数据的表达与计算在形式上统一起来,本篇一律用负数表示删失数据,因生存时间不可能为负值,故不会产生混淆。
第2节生存时间函数描述生存时间规律的函数很多,统称为生存时间函数。
其中最主要的有生存函数、死亡概率函数、概率密度函数和危险率函数。
1.生存函数(Survival Function)生存函数也称为生存概率或累积生存率,常用S(t)表示,它表示一个体生存时间长于t的概率。
在具体问题中,该函数在t时刻的取值可用式(5.1.1)来估计∶S(t)≈生存时间长于t的病人数/病人总数(5.1.1)2.死亡概率函数(Failure Probability Function)死亡概率函数简称为死亡概率,常用F(t)表示,它表示一个体从开始观察起到时刻t为止的死亡概率。
统计学-生存分析
t(Ô ) Â
乘积极限法估计的缓解曲线,可见分辨度较好
检验假设
H0:两总体缓解曲线相同。 H1:两总体缓解曲线不同。 α=0.05
Log-rank检验(时序检验):该法不指
定生存时间服从特定的某种分布,属于非参数 检验。
2 L
( a j e j )2 v2 j
将两组非删失时间混合从小到大排序,得多个 四格表,aj和ej分别为第j个四格表中某组复发 数的实际频数和理论频数, vj为aj的方差。 对照 处理 1 0 2月 复发 14 17 未复发
一、模型结构
优点:适用条件很宽,便于做多因素分析。 用于疾病预后分析及队列研究的病因探索。
危险率函数h(t,x):描述已经活过时点t的 个体在时点t后单位时间内死亡的危险性 (t时刻仍存活的病人往后一瞬间的死亡 率)。
Cox模型:
h(t,x)=h0(t)exp(b1x1+b2x2+…+bpxp)
在H0成立的条件下,该统计量服从自由 度为1的卡方分布。 本例结果为5.60,P=0.0179,按α=0.05 水准拒绝H0,接受H1,可认为附加放疗 有助于病人的缓解。
Breslow检验:
2 B
( N j a j N j e j )2 N 2v 2 j j
在H0成立的条件下,该统计量服从自由度 为1的卡方分布。 本例结果为5.338,P=0.0209,按α=0.05 水准拒绝H0,接受H1,可认为附加放疗有 助于病人的缓解。
死亡概率 q=d/nc 0.2969 0.3974
生存概率 p=1-q 0.7031 0.6026
t+1年 生存率 S(t+1) 0.7031 0.4237
生存分析概述及实例分析
实例演示:选择一个具体的实例如癌症患者的 生存分析演示整个操作流程和结果分析
软件使用技巧和注意事项
选择合适的软件:根据数据特点和 需求选择合适的生存分析软件如 SPSS、R、SS等。
数据预处理:确保数据质量进行数 据清洗、缺失值处理等。
模型选择:根据研究目的和数据 特点选择合适的生存分析模型如 Kpln-Meier法、Cox比例风险模 型等。
实例选择:选择具有代表性的实例 进行分析如癌症患者生存率分析、 心脏病患者生存率分析等
数据类型:包括患者的年龄、性别、 疾病类型、治疗方式、生存时间等
添加标题
添加标题
添加标题
添加标题
数据来源:数据来源包括医院、科 研机构、政府机构等确保数据的准 确性和可靠性
数据处理:对数据进行清洗、整理、 转换等操作确保数据的可用性和可 分析性
生存函数的估计方法
非参数法:Kpln-Meier法、 Nelson-len法等
半参数法:Cox-Snell法、lenJohnsen法等
添加标题
添加标题
参数法:Cox比例风险模型、 Fine-Gry模型等
添加标题
添加标题
贝叶斯方法:Byesin生存分析、 Byesin网络模型等
生存函数的比较方法
非参数法:Kpln-Meier法、Nelson-len 法等
生存函数的概念
添加 标题
生存函数:描述个体生存概率随时间变化的 函数
添加 标题
生存函数形式:S(t) = P(T>t)其中S(t)表示 生存函数P(T>t)表示在t时刻仍然存活的概率
添加 标题
生存函数的特点:非负、单调不减、在t=0 时等于1
添加 标题
生存函数的应用:用于估计个体的生存概率分 析影响生存时间的因素预测个体的生存时间等
生存分析入门
生存分析入门生存分析是一种统计方法,用于研究个体在给定时间内生存或发生特定事件的概率。
它可以帮助我们理解和预测个体在不同条件下的生存状况,对于医学、生物学、社会科学等领域的研究具有重要意义。
本文将介绍生存分析的基本概念、常用方法和应用领域。
一、生存分析的基本概念1. 生存时间:生存时间是指个体从某一起始时间点到达终止时间点的时间间隔。
在生存分析中,生存时间可以是任意单位,如天、月、年等。
2. 生存状态:生存状态是指个体在某一时间点是否发生了特定事件。
常见的生存状态包括生存、死亡、复发等。
3. 生存函数:生存函数描述了个体在给定时间内生存下来的概率。
生存函数通常用Kaplan-Meier曲线表示,可以直观地展示个体的生存状况。
4. 风险函数:风险函数描述了个体在给定时间点发生特定事件的概率。
风险函数通常用Cox比例风险模型进行估计。
二、生存分析的常用方法1. Kaplan-Meier方法:Kaplan-Meier方法是一种非参数方法,用于估计生存函数。
它假设个体之间的生存时间是相互独立的,不受其他因素的影响。
Kaplan-Meier曲线可以根据不同的因素进行分组比较,以评估其对生存时间的影响。
2. Cox比例风险模型:Cox比例风险模型是一种半参数方法,用于估计风险函数。
它可以同时考虑多个因素对生存时间的影响,并估计各个因素的风险比值。
Cox比例风险模型可以用于预测个体的生存概率,并评估不同因素对生存的相对重要性。
3. Log-rank检验:Log-rank检验是一种常用的统计检验方法,用于比较两个或多个生存曲线之间的差异。
它基于Kaplan-Meier曲线,通过计算观察到的事件数与期望事件数之间的差异来判断差异是否显著。
三、生存分析的应用领域1. 医学研究:生存分析在医学研究中广泛应用于评估治疗效果、预测疾病进展和生存期等。
通过分析患者的生存时间和生存状态,可以帮助医生制定个体化的治疗方案,提高治疗效果。
生存分析
2013-7-27
安徽医科大学流统系王静制作
36
Hazard Function
2.0
1.5
1.0
.5
GROUP
四期
Cum Hazard
0.0
四期-censored 三期
-.5 -100 0 100 200 300 400
三期-censored
TIME
2013-7-27
安徽医科大学流统系王静制作
37
Cox比例风险模型
2、生存过程的比较
3、影响因素的分析
2013-7-27
安徽医科大学流统系王静制作
24
生存分析对资料中应变量的要求:
2013-7-27
安徽医科大学流统系王静制作
25
1、达到终点的例数所占的比例不能太少,即完全 数据占大部分,截尾值所占的比例要<10%;
2、截尾原因无偏性;
3、生存时间尽可能精确。
2013-7-27
安徽医科大学流统系王静制作
7
生存分析方法的用途:
用于随访研究
(即:观察结果并非在短期内能够确定, 而需做长期随访观察,如对一些慢性病或恶 性肿瘤的预后及远期疗效观察等)。
2013-7-27
安徽医科大学流统系王静制作
8
随访研究的特点
医学随访研究:
1、队列研究——所有被观察对象同时进入研究;
2013-7-27
安徽医科大学流统系王静制作
21
2013-7-27
安徽医科大学流统系王静制作
22
生存分析的主要内容 及研究方法
2013-7-27
安徽医科大学流统系王静制作
23
主要内容
研究方法
1、生存过程的描述
第章 生存分析(“生存”相关文档)共95张
标准误
SE[S(tk)]
(8) 0.0798 0.1076 0.1250 0.1361 0.1423 0.1423 0.1558 0.1520 0.1417 0.1417 0.1348 0.1348
1. 生存率及其标准误的计算
——本例以月为时间单位,并将t月当
作一个时点看待。
第(1)栏:序号
第(2)栏:将样本生存时间t由小到大顺次 排列,如遇非截尾值和截尾值相同时, 将截尾值排在后面;
1-1/2
12 38+
0
1
0/1
1-0/1
生存率
S(tk)
(7) 0.9167 0.8333 0.7500 0.6667 0.5833 0.5833 0.4861 0.3889 0.2917 0.2917 0.1458 0.1458
标准误
SE[S(tk)]
(8) 0.0798 0.1076 0.1250 0.1361 0.1423 0.1423 0.1558 0.1520 0.1417 0.1417 0.1348 0.1348
生存分析
To be or not to be is only a part of the question. The question also includes how long to be.
生存资料(survival data)
蕴涵有结局和时间两个方面的信息; 结局为两分类互斥事件; 一般是通过随访收集得到 ;
常因失访等原因造成某些研究对象的生存时间数据不完整, 分布类型复杂。
不能简单地套用前面介绍过的统计方法进行分析!
生存资料的分类:
未分组资料:例数较少,有每个观察对 象确切的生存时间;
分组资料:例数较多时,常常按随访时 间分组,没有每个观察对象确切的生存 时间。
《生存分析之一》PPT课件_OK
• 第三讲 • 生存分析
1
生存资料统计分析 (第一讲)
• 作者与讲授:胡良平
• 单位:军事医学科学院生物医学 统计咨询中心
2
说明
• 为《中华耳鼻咽喉科》杂志 编辑委员会举办的全国培训 班讲科研设计与统计分析课 程;
• 本讲为“生存资料统计分析 的第一讲”。
3
讲授提纲
• 一、生存资料的概念、特点 及描述
25
3、生存率的合理计算方法
• 还有一种比较合理的计算方法 叫做“寿命表法”,此法需将 生存时间按“区间”的形式来 划分,只有在大样本时其结论 才不会受到影响,因此,此法 在小样本时不宜选用。
26
4、用PL法估计生存率 及其标准误
• 让t1t2…tk代表离散的失效(死 亡或复发等)时间,设ni为第i个 时刻开始之前生存的个体数目, 即危险集的大小(i=1,2,…,k), 再设di是在时刻ti失效的个体数目、 si=ni-di。
1、生存率的概念
• 同理,可以定义“3年生存率”、 “5年生存率”、“10年生存率”、 、“n年生存率”,如“n年生 存率”定义为:
n年生存率
治疗或手术后活过 n年的患者数 治疗或手术后观察满 n年的患者总人数
公式(4) 18
2、生存率计算中 可能存在的问题
• 根据常理可知:“n年生存率” 应小于“(n-1)年生存率”,然 而,由上述计算“n年生存率” 的定义式中不难发现,当出现下 列两种情况或其中的一种情况时, 可能会出现5年生存率大于3年生 存率的不合理现象,即:
34
1、两时点生存率的比较
u | p1 p2 |
S2 p1
S
2 p2
(7)
解释公式(7)中各符号的含义
生存分析
2.2 生存曲线
以时间t为横座标,生存率S(t)为纵座标所作的曲线称为生
存曲线。随时间的增加生存曲线呈下降趋势,其斜率表示
死亡速率,曲线下降的坡度越陡,表示生存率下降低越快, 意味着生存率较低或生存时间短。
在进行生存率时,单击图9-2 Life Tables对话框中的按钮, 进入图9-11 Life Tables: Plots 对话框,选择Survival function,即可在结果中增加生存曲线。
乘积极限法生存率计算与比较的SAS程序
DATA eg9_1; do group=1 to 2; input n; do i=1 to n; input x censor @@; output; end; end; cards; 18 1 0 2 0 3 0 4 0 5 0 7 0 8 0 9 0 10 0 11 0 13 0 14 0 15 0 18 0 19 1 20 1 21 1 23 0 25 1 0 2 0 3 0 4 0 5 0 7 0 8 0 9 0 10 0 11 0 13 0 14 0 15 0 18 0 19 0 20 1 21 0 23 0 26 0 28 0 31 0 37 0 66 0 73 0 124 1 ; proc lifetest data=eg9_1 method=pl; time x*censor(1); strata group; run;
前者主要用于观察例数较少; 后者适用于观察例数较多的资料,通常按时间区间分组。
2.1.1 乘积极限法
例1 某研究者收集了两组急性淋巴细胞白血病患者治疗后的随访资 料,淋巴细胞浸润组(LA)18人,无淋巴细胞浸润组(NLA)25 人,生存时间数据如下,不带“+”者表示已经死亡,即完全数 据,带“+”者表示尚存活,即删失数据。试作生存分析。生存 时间单位为月。
生存分析首医大研究生2010
大肠癌患者的随访记录
编号 性别 年龄 … 手术日期 随访终止日期 随访结局 生存时间(天)
1 男 45 …1991.05.20 1995.06.04 死亡 1476
2 男 50 …1992.01.12 1998.08.25 死亡 2417
3 女 36 …1991.10.24 1994.03.18 失访
/2
如果间隔时期很短,即 t 0 时,死 亡概率/t 为t时刻的瞬时死亡概率,或称 为风险函数(hazard function, h(t)), 其意义为刚刚活过t时刻的个体在t时刻死 亡的概率。
生存概率(survival probability)
表示在某单位时段开始时存活的个 体到该时段结束时仍存活的可能性大 小,记为p。年生存概率计算公式为:
▪ 预测: Cox回归模型预测生存率。
截尾数据的处理
因为不太好处理截尾数据,很 多临床研究工作者常常将失访或中 止等原因造成的截尾数据在分析时 抛弃。截尾数据提供的信息虽然是 不完全的,但也很有价值,不应随 便删掉它。
例在对资料进行描述时: 5名癌症患者存活时间(月) 6 10 14 20 20 n=5 平均生存时间,
• 观察起点和终点(年、月、日)
•
生存时间
•
生存结局
▪ 样本含量:非截尾例数至少是可能影响因素 的10倍。
▪ (二)搜集资料 ▪ 可能的影响因素: ▪ 从病历获得。 ▪ 生存时间及结局:
• 短期可观察到的结局可从病历获得;
• 长期结局一般不能从病历直接获得,通过 信访、电话等得到。
生存资料基本要求
预测:具有不同因素水平的个体生存预测, 如根据脑瘤病人的年龄、性别、病程、肿 瘤分期、治疗方案等预测该病人t年(月) 生存率。
生存分析——精选推荐
⽣存分析⽣存分析本数据资料主要探讨不同处理对⽣存时间的影响,数据中,treat为连续变量,num2_treat为⼆分类变量,num3_treat为三分类等级变量。
共纳⼊病⼈200例,进⾏⽣存分析步骤如下:1.⽣存资料的定义:命令:stset[时间变量] [截尾变量]对应本数据为:stset time mortality结果:1)其中time指随访时间,即产⽣预期结果或者截尾时的时间减去纳⼊随访时的初始时间得到的天数。
2)Mortality为截尾变量,Stata视变量mortality不等于0的⾮缺失值为出现预期结果。
3)Stata会同时产⽣4个新的变量:_st代表:数据中该条记录是否被定义为⽣存资料。
_d 代表:数据中该条记录是否出现预期结果。
_t 代表:数据中观察对象被随访的时间。
_t0 代表:数据中观察对象第⼀次被观察到的时间(开始过程的时间为0)2.⽣存资料的描述。
1)计算中位⽣存时间的命令:stsum[if 表达式] ,[by(分组变量)选择项]对应本数据:stsum,by(num2_treat)结果:由于两组中截尾数据出现的较早,故25%、50%和75%⽣存时间⽆法估计,Stata⽤缺失值表⽰。
4)stci命令可以⽤来计算中位⽣存时间、平均⽣存时间、⽣存时间的百分数及其可信区间。
命令:stci [if 表达式],[by(分组变量) 选择项]其中选择项有:median(计算中位⽣存时间);rmean(计算平均⽣存时间)P(#)(⽣存时间的百分数);level(#)(可信区间的可信度)对应本数据:stci,by(num2_treat) median结果:同样由于两组中截尾数据出现的较早,故中位⽣存时间⽆法估计,Stata⽤缺失值表⽰。
stci,by(num2_treat) rmean结果:num2_treat=0组的平均⽣存时间⼤于num2_treat=1组。
对于观察队列中最后⼀例为截尾者,平均⽣存时间的估计值偏低,Stata在相应数值后加“*”表⽰。