医学统计学--生存分析
卫生统计学:生存分析
条件生存概率和生存率的计算
例:手术治疗100例食管癌患者,术后1、 2、3年的死亡数分别为10、20、30,若无 截尾数据,试求各年条件生存概率及逐年 生存率。 生存率计算方法:
直接法 概率乘法定理
由例子可看出,生存率与条件生存概 率不同。条件生存概率是单个时段的 结果,而生存率实质上是累积条件生 存概率(cumulative probability of survival),是多个时段的累积结果。 例如,3年生存率是第1年存活,第2年 也存活,第3年还存活的可能性。
42 42 45+
Survival Functions
1.0
.8
.6
.4
组别
乙疗法组
.2
乙疗法组-censored
甲疗法组
0.0
甲疗法组-censored
0
10
20
30
40
50
生存时间
三、中位生存期
中位生存期(median survival time) 又称半数生存期,表示恰好有50%的 个体尚存活的时间。 中位生存期越长,表示疾病的预后越
比较:对不同处理组生存率进行比较,如 比较不同疗法治疗脑瘤的生存率,以了解 哪种治疗方案较优。
影响因素分析:目的是为了探索和了解影 响生存时间长短的因素,或平衡某些因素 影响后,研究某个或某些因素对生存率的 影响。如为改善脑瘤病人的预后,应了解 影响病人预后的主要因素,包括病人的年 龄、性别、病程、肿瘤分期、治疗方案等。
量化值
X1
性别
女=0
男=1
X2 年龄(岁) <40=1
40-60=2
≥60=3
X3 组织学分类
医学统计学--生存分析
随访记录
终止 是否 生存 日期 死亡 时间 98/11/29 Y 140 98/12/29 Y 160 98/11/29 失访 99 98/11/25车祸死亡 36
随访研究资料
• 随访资料: • 随访观察某事件出现“某结局”和“结局 出现的时间”的资料统称为随访资料,评价 该资料的统计学方法为生存分析。 • 生存分析是将“结局”与“时间”两个因素 结合一起研究的统计分析方法
起点 起点 死亡
死亡
失访
起点
起点
起点
90年 91年 92年
93年
存活 存活
(研究结束)
(三)生存分析主要研究的内容
• 1.统计描述:用统计指标描述生存过程, 计算不同时间点(t)的生存率
• 2.统计推断:统计检验不同处理方式的生 存过程有无差别
• 3.自变量(x)与时间(t)的关系:影响 生存时间的危险因素分析
•
• 甲药 • 乙药
• 疗效除了应评价“结局”的好坏,结 局所经历的时间长短也是评价疗效重 要的指标。
• 例:收集生存数据和影响预后的因素 。
•
•
• • • • • • • 病例 号 1 2 3 4
某病用不同药后随访记录(天)
预后因素
性别 处理 组 1 A药 2 B药 1 A药 2 B药 开始 日期 98/07/12 98/07/01 98/08/22 98/10/20
讲义例:17-1
• 某人研究手术方法治疗23位肾上腺肿瘤病人的 生存时间(月)如下: • 1,3,5(3),6(3),7,8,10(2),14+, 17,,19+,20+,22+,26+,31+,34,34+,44, 59 • 注:( )括号内的数为相同时间点的人数 • 数据特点: • 1.生存时间的分布为偏态分布, • 2.有截尾值 • 3.每个值包含两个含义,即“t”和状态“死亡 与否”
医学统计学生存分析
5 59 2
1
0 07/20/1996 06/21/1998 23 1
死亡
6 59 1
1
1 08/19/1996 09/10/1999 37 1
死亡
1. 完全数据 (complete data) 按随访结局,2 号、5 号和 6 号患者
2. 删失数据 (censored data) 未能观察到终点事件发生,生存时间未知
例 21-1 374 名某恶性肿瘤患者随访资料
表 21-3 寿命表法估计生存率计算表
序 号
确诊 后 年数
期内 死亡 数
期内 删失 数
期初 病例 数
期初 有效 例数
死亡 概率
生存 概率
i
ti
di
ci
ni
ni
ni1 di1 ci1 ni 0.5ci
(1) (2)
(3)
(4)
(5)
生存率 标准误
SSˆ (ti )
(10) 0.0221 0.0257 0.0255 0.0248 0.0239 0.0235 0.0233 0.0233 0.0232 0.0232
生存曲线(survival curve) 以生存时间为横轴,生存率为纵轴,将各个时间点所 对应的生存率连接在一起的曲线
Sˆ (t k
)
P(T
tk
)
tk时刻仍存活的例数 观察总例数
若有删失数据,须分时段 (0,t1),(t1,t2 ),...,(tk 1,tk ) 计算生存 概率各时段上的 P1, P2,..., Pk
Sˆ(tk ) P(T tk ) p1 p2 pk Sˆ(tk1) pk
pi
医学统计学--生存分析
肾移植术后生存时间、心脏起搏器的保留时间、
种植牙的保留时间等。 2.疾病危险因素分析和疾病预后的影响因素分析。 如肺癌发病危险因素分析、肾移植手术效果的影 响因素分析等。
3.特殊人群卫生保健措施的效果评价。如中老 年糖尿病预防效果评价、青少年控制吸烟的健康 教育干预试验效果评价、食管癌高发区干预措施 的效果评价、不同种类宫内节育器的节育效果评 价(宫内保留时间或有效避孕时间)、某疫苗接种 效果评价(观察抗体滴度了解免疫力持续时间或
生存概率 pt
0.9286 0.9231 0.9167 0.9091 0.9000 0.8889 0.8750 0.8571 0.8333 1.0000 0.7500 1.0000 0.5000 1.0000
生存率 S(t)
0.9268 0.8572 0.7858 0.7144 0.6429 0.5715 0.5001 0.4286 0.3571 0.3571 0.2678 0.2678 0.1339 0.1339
生存率(survival rate, survival function)表示 观察对象经历tk个单位时间段后仍存活的可能性。
0 S (t ) 1 。若无截尾数据,则
tk时刻仍存活的例数 S (tk ) P(T tk ) 观察总例数
若有截尾数据,须分时段计算生存概率。假 定观察对象在各个时段的生存事件独立,应用概 率乘法定理:
2. 某时点生存率不能反映整个生存过程,比较时可 能出现不正确的结论。
分析生存资料的统计方法称为生存分析 (survival analysis)。它是将事件的结局和发生 这种结局所经历的时间两个因素综合起来分析 的一种统计方法。它能够处理截尾数据, 并对整个生存过程进行分析或比较。
医学统计学-生存分析课件
PPT学习交流
26
【例2】某医院对100例胰腺癌切除术后的患者进行随 访,得资料如下。试分析其生存过程。
PPT学习交流
27
• (7)=(6)-(5)/2
• (8)=(4)/(7)
• (9)= 1-(8)
PPT学习交流
28
PPT学习交流
29
SPSS软件操作
• 第一步:建立变量。
PPT学习交流
30
医学统计学 (11)
PPT学习交流
1
•第一部分
•生存分析
•第二部分
•Meta分析
PPT学习交流
2
•第一部分
•生存分析
PPT学习交流
3
在医学研究中,常常用追踪的方式来研究事 物发展的规律。如:了解某药物的疗效,了解手 术的存活时间,了解某医疗仪器设备使用寿命等 等。
PPT学习交流
4
生存资料的特点
如:急性白血病病人从治疗开始到复发为止之间的缓解期, 冠心病病人两次发作之间的时间间隔,戒烟开始到重新吸烟 之间的时间间隔,接触危险因素到发病的时间间隔等。
生存分析中最基本的问题就是计算生存时间,要明确规定事 件的起点、终点及时间的测度单位,否则就无法分析比较。
PPT学习交流
8
中位生存时间是指寿命中位数,表示有且只有 50%的观察对象还可以活这么长时间。由于截尾 数据的存在,中位生存期的计算不同于普通的中 位数,它可以利用生存函数公式或生存曲线图, 令生存率为50%时,推算出生存时间。
21
• 第三步:生存分析(2)
PPT学习交流
22
• 第三步:生存分析(3)
PPT学习交流
23
• 第四步:结果解读(1)
医学统计学生存分析
pi
(8) 0.7594 0.7324 0.7548 0.8344 0.8298 0.9227 0.9463 0.9845 0.9496 0.9612
生存率
Sˆ(ti )
(9) 0.7594 0.7594×0.7324=0.5562 0.5562×0.7548=0.4198 0.4198×0.8344=0.3503 0.3503×0.8298=0.2907 0.2907×0.9227=0.2682 0.2682×0.9463=0.2538 0.2538×0.9845=0.2499 0.2499×0.9496=0.2373 0.2373×0.9612=0.2281
0.4286×0.8333=0.3571 0.1281
0.3571×1.0000=0.3571 0.1281
0.3571×0.7500=0.2678 0.1233
0.2678×1.0000=0.2678 0.1233
0.2678×0.5000=0.1339 0.1130
0.1339×1.0000=0.1339 0.1130
25
12
157 151.0
5 4~
20
5
120 117.5
6 5~
7
9
95
90.5
7 6~
4
9
79
74.5
8 7~
1
3
66
64.5
9 8~
3
5
62
59.5
10 9~10
2
5
54 51.5
注:生存时间长于 10 年者 47 例。
qi
(7) 90/374.0=0.2406 76/284.0=0.2676 51/208.0=0.2452 25/151.0=0.1656 20/117.5=0.1702 7/90.5=0.0773 4/74.5=0.0537 1/64.5=0.0155 3/59.5=0.0504 2/51.5=0.0388
生存分析(survivalanalysis)
⽣存分析(survivalanalysis)⼀、⽣存分析(survival analysis)的定义 ⽣存分析:对⼀个或多个⾮负随机变量进⾏统计推断,研究⽣存现象和响应时间数据及其统计规律的⼀门学科。
⽣存分析:既考虑结果⼜考虑⽣存时间的⼀种统计⽅法,并可充分利⽤截尾数据所提供的不完全信息,对⽣存时间的分布特征进⾏描述,对影响⽣存时间的主要因素进⾏分析。
⽣存分析不同于其它多因素分析的主要区别点:⽣存分析考虑了每个观测出现某⼀结局的时间长短。
应⽤场景 什么是⽣存?⽣存的意义很⼴泛,它可以指⼈或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常⼯作(相对于失效或故障),甚⾄可是是客户的流失与否等。
在⽣存分析中,研究的主要对象是寿命超过某⼀时间的概率。
还可以描述其他⼀些事情发⽣的概率,例如产品的失效、出狱犯⼈第⼀次犯罪、失业⼈员第⼀次找到⼯作等等。
在某些领域的分析中,常常⽤追踪的⽅式来研究事物的发展规律,⽐如研究某种药物的疗效,⼿术后的存活时间,某件机器的使⽤寿命等。
在医学研究中,常常⽤追踪的⽅式来研究事物发展的规律。
如,了解某药物的疗效,了解⼿术的存活时间,了解某医疗仪器设备使⽤寿命等等。
对⽣存资料的分析称为⽣存分析。
所谓⽣存资料就是描述寿命或者⼀个发⽣时间的数据。
更详细的说⼀个⼈的⽣存时间的长短与许多因素有联系的,研究因素与⽣存时间的联系有⽆及程度⼤⼩,称为⽣存分析。
例如研究病⼈感染了病毒后,多长时间会死亡;⼯作的机器多长时间会发⽣崩溃等。
这⾥“个体的存活”可以推⼴抽象成某些关注的事件。
所以SA就成了研究某⼀事件与它的发⽣时间的联系的⽅法。
这个⽅法⼴泛的⽤在医学、⽣物学等学科上,近年来也越来越多⼈⽤在互联⽹数据挖掘中,例如⽤survival analysis去预测信息在社交⽹络的传播程度,或者去预测⽤户流失的概率。
⽣存分析研究的内容 1.描述⽣存过程 研究⽣存时间的分布特点,估计⽣存率及平均存活时间,绘制⽣存曲线等,根据⽣存时间的长短,可以估算出各个时点的⽣存率,并根据⽣存率来估计中位⽣存时间,也可以根据⽣存曲线分析其⽣存特点,⼀般使⽤Kaplan-Meier法和寿命表法。
医学统计学之生存分析
7
资料仅供参考,不当之处,请联系改正。
截尾值(Censored value)出现的原因
截尾的原因主要有3种: ①失访:生存但中途失访:包括拒绝访问、失去联
系等。 ②退出:中途退出试验、改变治疗方案、死于其它
与研究无关的原因:如肺癌患者死于心机梗塞、 自杀或因车祸死亡,终止随访时间为死亡时间。 ③终止:指观察期结束时仍未出现结局。
生存率(survival rate):指研究对象经历 t 个时段后仍存
活的概率,即生存时间大于等于 t 的概率,用 PT t
表示。
生存率随时间 t 变化而变化,即生存率是相对于时间 t 的
函数,称为生存函数(survival function),记为 S t 。
生存函数在某时点的函数值就是生存率。
8
资料仅供参考,不当之处,请联系改正。
关于截尾或删失
删失的模式图
患者进入期间
随访开始
失访 失访 研究截止时仍存活
事件
研究截止时点
9
资料仅供参考,不当之处,请联系改正。
3.生存时间资料的整理:
对于随访资料,需记录的原始数据包括开始观 察的时点(起始事件发生的时间)、终止观察的 时点、研究对象的结局、考虑的影响因素。生 存时间为反映时间长短的指标,属数值变量:
其研究内容主要包括 3 个方面:① 对生存状况 进行统计描述(生存概率、生存率、中位生存期等); ② 寻找影响生存时间的“危险因素”和“保护因素”; ③ 估计生存率和生存时间长短,进行预后评价。
5
资料仅供参考,不当之处,请联系改正。
一、基本概念
(一)生存时间(survival time): 1.定义:广义的生存时间是指从某个起始事件开
医学统计学中的生存分析方法
医学统计学中的生存分析方法一、引言在医学领域中,了解疾病的生存状况对于预测患者的预后、制定治疗方案以及评估新药疗效至关重要。
为了帮助我们更好地理解疾病的生存情况,医学统计学中的生存分析方法应运而生。
本文将介绍生存分析的基本概念、常用的生存分析方法以及其在医学研究中的应用。
二、生存分析的基本概念生存分析是一种用于研究事件发生时间的统计方法,常用于分析疾病的生存状况。
其核心概念是生存时间(Survival Time)、生存状态(Survival Status)以及危险比(Hazard Ratio)。
生存时间是指从一个特定事件(例如诊断疾病)发生到另一个特定事件(例如死亡或复发)发生的时间间隔。
生存状态是指在某个特定时间点上,观察的个体是否存活。
危险比是比较两组生存时间的风险差异,通常用来评估不同因素对生存时间的影响。
三、常用的生存分析方法1. Kaplan-Meier曲线Kaplan-Meier曲线是一种常用的生存分析方法,它可以估计在不同时间点上的生存概率。
通过绘制Kaplan-Meier曲线,我们可以直观地观察到不同组别、不同变量对生存时间的影响。
2. Log-Rank检验Log-Rank检验是一种常用的假设检验方法,用于比较两组或多组生存曲线之间是否有差异。
通过计算观察到的生存时间与预期生存时间之间的差异,可以判断不同因素对生存时间的影响是否显著。
3. Cox比例风险回归模型Cox比例风险回归模型是一种常用的多变量生存分析方法,用于评估多个因素对生存时间的影响。
该模型可以控制其他潜在影响因素,并计算危险比,从而确定不同因素对生存时间的相对危险性。
四、生存分析方法在医学研究中的应用生存分析方法在医学研究中有着广泛的应用,以下是其中一些典型的例子:1. 癌症研究生存分析方法可以用于评估不同治疗方法对癌症患者生存时间的影响,帮助医生制定个体化的治疗方案。
此外,生存分析还可以确定某种基因突变是否与癌症预后相关,从而为基因治疗提供依据。
【卫生统计学】生存分析
14
寿命表法步骤:
1、计算各组段期初观察例数 ni 公式:ni= ni`- ci/2 2、计算各时间区间上的死亡概率qi和 生存概率pi 公式: qi= di/ ni` 3、计算生存率
S(ti) P(T ti) p1 p2 pi
15
图21-2 某恶性肿瘤生存曲线(寿命表法)
16
2.Kaplan-meier法,又称乘积极限法 (Product-Limit Method,简称PL法), 由Kaplan-Meier在1958年提出,适用于样 本量较小,难以将生存时间按组段划分, 此时是利用tk时刻之前各时点上生存概率 的乘积来估计在时刻tk的生存率,不需要 对被估计的资料分布作任何假设。
5
2、 生存时间(完全数据、截尾数据)
• 生存时间(survival time):是指观察到的存活时间。 • 完全数据(complete data):指从起点至死亡所经历的时间,即
死者的存活时间 • 截尾数据(censored data):由于失访、改变防治方案、研究工作
结束时事件尚未发生等情况,使部分病人不能随访到底,称为 截尾。从起点到截尾点所经历的时间,称为截尾数据。
tA
治疗结束
药物B:治愈率 80% 治疗开始
tB
治疗结束
如果 tA=tB,何者最优?如果 tA>tB,何者最优?
生存分析有两个反应变量:①事件发生 ②时间经历长度
事件(失败): 死亡, 发病, 疾病复发, 康复,… 时间的测量单位: 年,月,周或天,等
4
1. 生存时间资料的结构
(1). 记录: 开始时间, 结束时间, 结局, 协变量
死亡概率 生存概率 生存率
qi
pi
S(ti)
统计学-生存分析
t(Ô ) Â
乘积极限法估计的缓解曲线,可见分辨度较好
检验假设
H0:两总体缓解曲线相同。 H1:两总体缓解曲线不同。 α=0.05
Log-rank检验(时序检验):该法不指
定生存时间服从特定的某种分布,属于非参数 检验。
2 L
( a j e j )2 v2 j
将两组非删失时间混合从小到大排序,得多个 四格表,aj和ej分别为第j个四格表中某组复发 数的实际频数和理论频数, vj为aj的方差。 对照 处理 1 0 2月 复发 14 17 未复发
一、模型结构
优点:适用条件很宽,便于做多因素分析。 用于疾病预后分析及队列研究的病因探索。
危险率函数h(t,x):描述已经活过时点t的 个体在时点t后单位时间内死亡的危险性 (t时刻仍存活的病人往后一瞬间的死亡 率)。
Cox模型:
h(t,x)=h0(t)exp(b1x1+b2x2+…+bpxp)
在H0成立的条件下,该统计量服从自由 度为1的卡方分布。 本例结果为5.60,P=0.0179,按α=0.05 水准拒绝H0,接受H1,可认为附加放疗 有助于病人的缓解。
Breslow检验:
2 B
( N j a j N j e j )2 N 2v 2 j j
在H0成立的条件下,该统计量服从自由度 为1的卡方分布。 本例结果为5.338,P=0.0209,按α=0.05 水准拒绝H0,接受H1,可认为附加放疗有 助于病人的缓解。
死亡概率 q=d/nc 0.2969 0.3974
生存概率 p=1-q 0.7031 0.6026
t+1年 生存率 S(t+1) 0.7031 0.4237
医学统计学第16章生存分析
终点事件(死亡事件、失效事件):反映研究
对象生存过程特定结局的事件
3、 生存资料的类型
完全数据:对研究对象观察到死亡, 得到准 确的生存时间
不完全数据:对失访、研究结束时 仍存活等
截尾的主要原因有三种:
(1)失访:指失去联系; (2)退出:是指退出研究,如死于其它
表 16-1 甲(手术组)、乙(手术+放疗)两组治疗方案肺癌病人临床随访结果
分组 编号 开始治疗 日期
终止日期
结局
生存 日数
生存率 (%)
平均生存日 数
甲
1
01.5.21
05.5.15
生
1454
甲
2
02.6.15 02.10.15
死
120
甲
3
01.6.17
01.9.15
死
88
60.0
749
甲
4
03.6.20
05.5.15
生
695
甲
5
01.7.25
05.5.15
生
1390
乙
6
02.6.13
05.5.15
生
1067
乙7
01.7.1
05.5.15
生
1414
60.0
958
乙8
01.7.3
03.6.13
死
710
乙9
01.8.9
05.5.15
生
1376
乙 10
01.9.5
02.4.11
死
221
第一节 生存分析的基本概念 一、基 本 概 念
医学统计学:生存分析(sun)
临床试验及其随访资料的特点是:一部分研究 对象可观察到死亡,从而得到准确的生存时间, 所提供的信息是完全的,称为完全数据;但往 往另有一部分病人,或中途失访,或到观察结 束时仍存活,对这部分病人无法知道准确的生 存时间,只知道其生存时间比观察到的时间要 长,它提供不完全的信息,称为不完全数据 (截尾数据)。
生存分析法不仅能分析完全数据的资料,同时 也可以分析包含不完全数据的资料。
生存分析是将事件发生的结果和随访时间两个 因素结合在一起进行分析的一种统计分析方法, 它能充分利用所得到的研究信息,更加准确地 评价和比较随访资料。
第一节 生存分析中的基本概念
一、基本概念
(一)生存时间(survival time) 任何两个有联系事件之间的时间间隔。狭义的生存时间是指患有某中疾 病的人从发病到死亡所经历的时间跨度。广义上为从某中起始事件到终 点事件所经历的时间跨度,可用小时、天、周、月、年等时间单位记录, 常用符号t表示。
2.相对危险度 假定第i个变量的取值 为0和1,其对应的回归系数为bi,且具有 统计学意义.该因素取值l与取值为0相比 其对应的相对危险度的估计为
RR的1-α可信区间为
3.个体预后指数
从Cox模型可以看出,病人的风险率与该 病人具有的危险因素及各因素对应的回 归系数有关。对各变量进行标准转换后 进行模型配合,可得到各因素对应的标 准回归系数,此时定义个体预后指数 (personal prognosis index)为
Cox模型的注意事项
①注意研究资料的代表性及可靠性,保证研究对象是 总体中的一个随机样本;协变量在研究对象中的分布 要适中,否则会给参数的估计带来困难;应将一切可 能因素都包括在调查分析之中,否则容易造成分析结 果的偏差;②对研究生存时间要有明确的规定,如果 以“发病”作为观察的起点,则要对“发病”有一个 明确的规定,对终止事件也要有一个明确的规定,如 果将“治愈”作为结局的终止事件,则要对“治愈” 有一个明确的规定;③如果研究的变量随时间而发生 变化,可以采用伴时协变量的Cox模型进行分析。④ Cox模型分析时,样本含量不宜过小,一般在40例以上。 随着协变量的增加其样本含量应适当的增加,要求样 本含量为观察协变量的5~20倍。要尽量避免观察对象 的失访,过多的失访容易造成研究结果的偏倚。
医学统计学课件:13 生存分析
生存资料的特点
因变量有两个:结局和时间两方面的信息;
一般通过随访收集得到,从某统一时间点开 始,观察到规定时间点截止,常因失访等造 成数据不完整,分布类型复杂。
1、生存时间
♦ Survival time:泛指研究者所关心的某现象的持 续时间,即从某起始事件到某终点事件所经历的 事件跨度。常用符号 t来表示。
如: 白血病患者化疗后的复发时间; 肾移植患者肾移植后的肾功能衰竭时间; 接受健康教育戒烟后的青少年复吸烟时间;
2、死亡事件与起始事件
♦死亡事件:即失效事件、终点事件,泛指 种处理措施失败或失效的特征事件。一般 计阶段根据研究目的确定。
N of Cumulative
医学统计学
生存分析
公共卫生学院预防医学教研室
生存分析(survival analysis):是将事件发生 的结局和发生这种结局所经历的时间综合起来分 析的一种统计分析方法。 能够充分利用所得的研究信息,更加准确的评价 和比较随访资料。包括统计描述和统计推断。
主要内容
♦ 生存分析概述 ♦ 生存率的估计-乘积极限法和寿命表法 ♦ 生存曲线比较的假设检验-Logrank检验 ♦ Cox比例风险回归模型
总体生存率的区间估计:
S (tk ) ± uα / 2 SE[S (tk )]
SE[S (tk )] = S (tk )
k
dj
n (n
j =1 j j
d j)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n2i
20
d 2i
2
T2i
合计
ni d i
1.395 43 3 按两组合计 死亡率计算 各组理论频 数
di 3 T1i n1i 23 1.605 ni 43 di 3 T2i n2i 20 1.395 ni 43
• 如H0成立: χ2统计量的P>0.05
第一节
生存分析的基本概念
一、基本概念
1. 生存时间(t)=结局事件日期 -起始事件日期。 t的单位:可用年、月、周表示。
起始事件(事 件的特征)
如诊断、用 药、手术等
时间(t)
结局事件(结 局出现的特征)
如疾病 的死 亡、复发等
2.截尾数据:
• 观察过程因其他原因未观察到明确 的结局称为截尾( censored )数据。原 因有:①失访,②退出研究,如其他原 因死亡。③研究时间结束,未出现结局 事件。 • 截尾值(censored value):其生存时间 = 截尾事件日期 -起始事件日期, 记为 t+ 。 (例:10+月)
3.生存数据的特点
1.完全观察的随访数据:研究对象在规定的研究 期间提供确切的“时间”。其生存时间记为 “t”。 2.截尾数据:截尾数据(t+)虽然提供的信息不完 全,但提供了部分信息,如 t=10+年>9年。 3.生存数据的结果变量(Y )有两个: 1)“时间(t)值” ,(t)>0 2)结局状态=“ 如死亡或截尾值”。
讲义例:17-1
• 某人研究手术方法治疗23位肾上腺肿瘤病人的 生存时间(月)如下: • 1,3,5(3),6(3),7,8,10(2),14+, 17,,19+,20+,22+,26+,31+,34,34+,44, 59 • 注:( )括号内的数为相同时间点的人数 • 数据特点: • 1.生存时间的分布为偏态分布, • 2.有截尾值 • 3.每个值包含两个含义,即“t”和状态“死亡 与否”
第三节 生存曲线的统计检验
• 目的:将生存率为整体进行曲线与曲线的 比较 • 方法:时序检验(Log-Rank),为非参 数法检验,可对两组或多组做比较. • 检验假设:H0:两总体的生存率相同 • H1:两总体的生存率不同 • 检验水准α=0.05,如P≤α,拒绝H0
Log-rank检验
• 检验统计量
(二)随访的方式
• 1.全体观察对象同时接受某处理 • 随访方式:多见于动物实验(见图 17-1,a) • 2.观察对象在不同时间接受处理因素 • 随访方式:多见于临床试验研究 (见图17-1,b)
×为死亡
O 为截尾 × O O × × 0 起始事件时间 如给药
t
研究结 束时间
一批病人不同时间进入研究的随访资料
(17-1)
例:某病病人生存率
• 生存 期初 死亡 生存 • (年) 人数 人数 人数 • 0-1 100 10 90 • 2 90 10 80 • 3 80 20 60 死亡 概率 0.1 0.11 0.25 生存 生存率 概率 p( X t ) 0.9 0.90 0.89 0.80 0.75 0.60
表17-1资料甲手术描述指标(SPSS 软件)
Survival Time Standard error 95% Confidence Interval
Mean: 24.23 Median: 10.00
•
4.99 6.96 StandFra bibliotekrd Err 1.18 2.98
( 14.44, 34.01 ) (.00, 23.63 ) 95% Confidenc Interval ( 5.50, 10.10 ) ( .16, 11.84 )
起点 起点 死亡
死亡
失访
起点
起点
起点
90年 91年 92年
93年
存活 存活
(研究结束)
(三)生存分析主要研究的内容
• 1.统计描述:用统计指标描述生存过程, 计算不同时间点(t)的生存率
• 2.统计推断:统计检验不同处理方式的生 存过程有无差别
• 3.自变量(x)与时间(t)的关系:影响 生存时间的危险因素分析
S (2) p1 p2 0.9 0.89 0.8
• 条件死亡概率、条件生存概率(275页) • 条件死亡概率(F):某时间段开始存活的个体 到该时间段结束时,死于某时段内的可能性。
某时间段内的死亡数 d F 某时间段初的观察数 n
• 生存概率(S=1-F): • 指某时间段开始存活的个体到该时间段结 束时仍存活的概率。 •
( Ai Ti ) Ti
2
2
• 该χ2服从的自由度=(比较组数-1)
• Ai为某组各时间点实际死亡数(di)之和. • Ti为某组各时间点的期望死亡数(Ti)合计 • i 表示比较组,i=1,2,…k组
表17-4
Log-rank检验的基本思想
乙法手术组
时间 甲法手术组 1i T t n1i d1i 1 23 1 1.605
例17-3 • 表17-3 2418例男性心绞痛病人生存率情况 • 术后 死亡 截尾 期初 校正 生存 生存率 • 年数 人数 人数 人数 人数 概率 (t+1) • 0456 0 2418 2418 0.8114 0.8114 • 1226 39 1962 1942.5 0.8837 0.717 • 2- 152 22 1697 1686 0.9098 0.6524 • 校正人数=1962-39/2=1942.5
• 其他统计方法不能处理该资料
二.资料的收集
• (一)随访内容 • 1.明确起始事件的特征和时间,如手 术日期等。 • 2.明确随访结局:结局的特征事件, 如死亡或截尾事件。 • 3.明确研究结束时间。 • 4.记录影响“时间”的其他自变量。
• 例:收集生存数据和影响预后的因素 。 •
•
• • • • • • • 病例 号 1 2 3 4
第二节 生存率的估计与生存曲线
• (一)描述生存资料的几个指标 (见讲义275-278页) • 1.生存率 ,记为p(X≥t) • 2.生存曲线 • 3.平均生存时间(中位生存时间) • 反映不同时间(t)的结局(生存) 出现(生存)率
生存率的概念和计算公式
记为S(t)或P(X≥t)。 • P(X≥t) :指某观察对象从起始事件(如 手术时间为0点)开始,经历了t=1,2..n (年或月)个单位时间后仍存活的概率。
寿命表法与PL的区别
• 1.计算在 (ti 1,ti ) 时间段的生存率。 • 如0-1年、1-2年,时间段组距相等。 • 2.寿命表方法计算死亡(生存)概率,假定有 截尾事件的人在各时间组内平均生存为1/2时间。
•校正观察人数=期初观察人数-截尾人数/2 • 死亡概率=某时间组内死亡人数/校正观察人数
t
“t”表示从研究起点到结局出现时间
• 2.生存曲线:(survival curve) • 指各时点(t)为横轴,生存率S(t)为 纵轴,连接一起的曲线图。描述该组病人 各时点的生存过程。(277页)
• 3.半数生存期(中位数生存时间) • 生存率为0.5时对应的时间(t),表示 50%的个体可生存的时间,常作为生存 数据的平均指标。(278页)
• 生存时间(t,月),其中“+”者为截尾数据 • 1,3,5(3),6(3),7,8,10 (2) • ,14+,17,19+,20+,22+,26+, • 31+,34,34+,44,59 • 计算生存率s(t)和生存曲线
表17-1 甲种手术后病人生存率的计算方法
时间(月) • T • 1 • 3 • 5 • 6 • 7 • 8 • 10 • 14+ 死亡 人数 1 1 3 3 1 1 2 0 期初 人数 23 22 21 18 15 14 13 11 死亡 概率 0.043 0.045 0.143 0.167 0.067 0.071 0.154 0.000 生存 生存率 p( X t ) 概率 0.957 0.957 0.955 0.914 0.857 0.783 0.833 0.652 0.933 0. 609 0.929 0.565 0.846 0.478 1.000 0.478
• 条件死亡概率F(t=1)=0.1,在1年内死亡的概率.
p( X 2) 80 / 100 0.8
直接法 概率乘积法
• p( X 2) 0.9 0.89 0.8
生存时间数据分析时整理示意图
•
• •
失访
死亡 失访 死亡
死亡 死亡 • 0 2 4 6 8 10 12 14 16 18 20 年
Survival Functions
1.2
1.0
甲手术
.8
.6
乙手术
.4
.2
0.0
-.2 0 10 20 30 40 50 60
图17-2 两种手术治疗方式术后病人生存曲线的比较
(二)生存率估计的统计方法 (非参数方法)
• 1.小样本数据生存率计算。
•
用 kaplan-Meier的乘积极限法 (product-limit method,PL法)
表17-2资料乙手术描述指标
• Survival Time Mean 7.80 Median 6.00
Survival Functions
1.2
1.0
.8
甲手术 乙手术
.6
.4
.2
0.0
-.2 0 10 20 30 40 50 60
月
图17-2 两种手术治疗方式术后病人生存曲线的比较
2.大样本资料的生存分析方法—寿命 表法(Life-table method)