生存分析统计学PPT
合集下载
预后的统计学评价方法(生存分析)
在设计时必须明确规定并在研究中严格遵守 !
生存分析中的基本概念(2)
❖ 截尾值 (censored value)
随访中由于某种原因未观察到病人的明确结局 (即终点事件), 无法得知该病人的确切生存时间,这些对象的观察值称为截尾值, 又称删失值
它提供的生存时间的信息不完全 常用符号“ + ”表示,如140+天
生存资料的数据特征
➢ 完全数据:已知事件发生的起始时间和结束时间,能获得 完整信息的数据。
➢ 不完全数据(截尾数据):只能获得事件发生的起始时间 或结束时间,得到的部分信息的数据。一般在数据后面加 “+”用以表示。
1 资料收集-随访
2 几个基本概念 3 生存分析的内容和基本方法
随访内容
➢ 明确开始随访的时间 ➢ 随访的结局和终止随访的时间 ➢ 记录影响生存时间的有关因素
多组间的生存率比较方法
(方法选择途径)
“Options”对话框 “Compare Factors”对话框
SPSS操作步骤(K-M法)
Analyze Survival Kaplan-Meier Time框 选入时间变量time Status框 选入结局变量outcome Define Event 按钮 Single value 框输入 1 Continue Optionns 按钮 勾选 Survivla tables 、Mean and median survial、
➢ 截尾原因无偏性; ➢ 生存时间尽可能精确。
Life table
Kaplan-Meiຫໍສະໝຸດ r共同点非参数分析方法、一般用于单因素分析
适用条件 大样本资料
大样本、小样本资料
分组生存资料
未分组生存资料
生存分析中的基本概念(2)
❖ 截尾值 (censored value)
随访中由于某种原因未观察到病人的明确结局 (即终点事件), 无法得知该病人的确切生存时间,这些对象的观察值称为截尾值, 又称删失值
它提供的生存时间的信息不完全 常用符号“ + ”表示,如140+天
生存资料的数据特征
➢ 完全数据:已知事件发生的起始时间和结束时间,能获得 完整信息的数据。
➢ 不完全数据(截尾数据):只能获得事件发生的起始时间 或结束时间,得到的部分信息的数据。一般在数据后面加 “+”用以表示。
1 资料收集-随访
2 几个基本概念 3 生存分析的内容和基本方法
随访内容
➢ 明确开始随访的时间 ➢ 随访的结局和终止随访的时间 ➢ 记录影响生存时间的有关因素
多组间的生存率比较方法
(方法选择途径)
“Options”对话框 “Compare Factors”对话框
SPSS操作步骤(K-M法)
Analyze Survival Kaplan-Meier Time框 选入时间变量time Status框 选入结局变量outcome Define Event 按钮 Single value 框输入 1 Continue Optionns 按钮 勾选 Survivla tables 、Mean and median survial、
➢ 截尾原因无偏性; ➢ 生存时间尽可能精确。
Life table
Kaplan-Meiຫໍສະໝຸດ r共同点非参数分析方法、一般用于单因素分析
适用条件 大样本资料
大样本、小样本资料
分组生存资料
未分组生存资料
13. 生存分析
28
表18.3 淋巴结远端转移胃癌病例生存率计算
序 时间 号 (月) i t
1 2 3 7 11 13
死亡 人数 d
1 1 1
期初 人数 n
22 21 20
条件 死亡率 q
0.046 0.048 0.050
条件 生存率 p
0.954 0.952 0.950
生存率 标准误 S (t) Sp
0.9554 0.908 0.863 0.0445 0.0611 0.0734
内出现终点事件,所记录时间信息是完整的。
不完全数据(censored data) :又称截尾数据/删
失数据,由于某种原因停止了随访,未观察到研
究对象出现终点事件,所记录的时间信息是不完 整的。
13
二、生存分析基本概念
删失的主要原因
1. 失访:观察对象失去联系,如信访无回信、 未继续就诊、搬离原地址等。 2. 退出:指退出研究,如意外死亡、死于其他 疾病,医生改变治疗方案而中途退出研究。
生存时间 (年、月、日、小时等)
存在不完全数据(截尾数据) 生存时间的分布一般呈非正态分布
6
对生存资料的错误处理
两个效应变量
错误1:忽略结局,采用多元线性回归分 析生存时间与各Xi 的关系。 错误2:忽略生存时间,采用logistic回归 分析死亡与否与各Xi 的关系。
7
对生存资料的错误处理
1.00
0.75
0.50
0.25
0.00 0 10 20 30 t STRATA: g=1 Censored g=1 g=2 40 50 60
补图2 两种手术治疗方法术后病人生存曲线的比较
35
第三节 生存曲线的比较
表18.3 淋巴结远端转移胃癌病例生存率计算
序 时间 号 (月) i t
1 2 3 7 11 13
死亡 人数 d
1 1 1
期初 人数 n
22 21 20
条件 死亡率 q
0.046 0.048 0.050
条件 生存率 p
0.954 0.952 0.950
生存率 标准误 S (t) Sp
0.9554 0.908 0.863 0.0445 0.0611 0.0734
内出现终点事件,所记录时间信息是完整的。
不完全数据(censored data) :又称截尾数据/删
失数据,由于某种原因停止了随访,未观察到研
究对象出现终点事件,所记录的时间信息是不完 整的。
13
二、生存分析基本概念
删失的主要原因
1. 失访:观察对象失去联系,如信访无回信、 未继续就诊、搬离原地址等。 2. 退出:指退出研究,如意外死亡、死于其他 疾病,医生改变治疗方案而中途退出研究。
生存时间 (年、月、日、小时等)
存在不完全数据(截尾数据) 生存时间的分布一般呈非正态分布
6
对生存资料的错误处理
两个效应变量
错误1:忽略结局,采用多元线性回归分 析生存时间与各Xi 的关系。 错误2:忽略生存时间,采用logistic回归 分析死亡与否与各Xi 的关系。
7
对生存资料的错误处理
1.00
0.75
0.50
0.25
0.00 0 10 20 30 t STRATA: g=1 Censored g=1 g=2 40 50 60
补图2 两种手术治疗方法术后病人生存曲线的比较
35
第三节 生存曲线的比较
生存数据分析 ppt课件
2020/11/13
14
参数法可求出一个方程表示生存函数S(t)和时间t的 关系,画出的生存曲线是光滑的下降曲线。
非参数法只能得到某几个时间点上的生存函数, 再用直线联起来,画出的生存曲线是呈梯型的。
t(年)
s(t)
0
1
1
0.67
2
0.45
3
0.3
4
0.2
5
0.14
6
0.09
7
0.06
2020/11/13
8
第二节 描述生存时间分布规律的函数
• 一. 生存率(Survival Rate)
• 又称为生存概率或生存函数,它表示一个 病人的生存时间长于时间t的概率,用S(t) 表 示: s(t)=P(Tt)
• 如5年生存率: s(5)=P(T5)
• 以时间t为横坐标,S(t)为纵坐标所作的曲 线称为生存率曲线, 它是一条下降的曲线,下 降的坡度越陡,表示生存率越低或生存时间越 短,其斜率表示死亡速率。
15
一. 乘积极限法(Product-Limit Method)
• 简称为积限法或PL法,它是由统计学家Kaplan和Meier 于1958年首先提出的, 因此又称为Kaplan-Meier法, 是利用条件概率及概率的乘法原理计算生存率及其标 准误的。
•
设S(t)表示t年的生存率,s(ti/ti-1)表示活过ti-
2020/11/13
10
• §1.3 风险函数(Hazard Function)
• 用h(t)表示,其定义为:
• h(t)=lim(在时间t生存的病人死于区间 (t,△t)的概率/△t)
• 由于计算h(t)时,用到了生存到时间t,这
生存分析与Cox回归ppt课件
.Cox回归
9
1. 基本概念
生存时间(survival time)或失效时间(failure time) 生存时间指观察到的存活时间 常用符号 t 表示 生存时间是生存分析中的重要信息,必须准确 明确规定起始事件、终点事件 时间的测度单位(年、月、日)
.Cox回归
10
1. 基本概念
整个研究的观察时间 研究开始到研究结束的时间 因为有起始事件发生时间、终点事件发生时间、观察 开始时间、观察结束时间,生存资料数据分为完全数 据(complete data)和截尾数据(censored data)
1
eb1
Lp eb1b2 e0 eb2 eb1 e0 eb2 eb1 eb1
Cox 回归结构与原理示意图 (4 例肺癌)
1. Cox回归模型的一般形式
比值 h(t | x1, x2 ,..., x p ) h(t | x1, x2 ,..., xp )
RR h0(t) exp( x1, x2 ,..., x p ) h0(t) exp( x1, x2 ,..., xp )
.Cox回归
60
2. 回归系数的解释
相对危险度 RR: 两个风险函数(率)之比 (风险比) 当Xi为有无某危险因素时(0-1变量)
R R h h ( (tt,,X X 1 0 ) )h h 0 0 ( (tt) )e e x x p p ( ( 1 0 ) ) e x p ()
.Cox回归
8
1. 基本概念
举例 说明下列研究的起始事件与终点事件 ① 急性白血病患者进行骨髓移植后以是否复发来评价骨
髓移植效果 ② 职业性铅中毒的危险因素(开始职业性接触至出现铅
中毒症状) ③ 冠心病患者两次发病的时间间隔 ④ 大肠癌患者手术后存活情况(手术、死亡) ⑤ 接受健康教育对青少年戒烟到复吸的影响因素分析 ⑥ 接受某种保险方式后的中途退保分析
生存分析 统计学
a23
…
…
a1p
a2p
3
… n
Y3
… Yn
a31
… an1
a32
… an2
a33
… an3
…
… …
a3p
… anp
5
其中:Y取值是二值或多项分类
表2. 肺癌与危险因素的调查分析
例号 1 2 3 … 30 是否患病 0 0 1 … 1 性别 1 0 0 … 0 吸烟 0 1 0 … 0 年龄 30 46 35 … 26 地区 0 1 1 … 1
0
始点
a
随访方式
0
始点 终点 t
时间
• 全体观察对象在不同时间接 受治疗处理,完成一定数量 随访病例后决定随访截止时 间,或按事先规定的时间停 止随访
• 这是临床试验最常见的形式
图中‚×‛表示‚死亡‛,‚o‛ 表示失访、退出研究或死于与本 研究无关的其它原因
b
影响生存时间的有关因素(协变量)
• 如患者的年龄、病程、术前健康 状况、经济、文化、职业等 • 以便分析这些因素对生存时间的 影响
随访方式
时间 终点 t
• 全体观察对象同时接受 处理措施,观察到最后 一例出现结果,或者事 先规定的随访截止时间
图中‚×‛表示‚死亡‛, ‚o‛表示失访、退出研究 或死于与本研究无关的其 它原因
因素(或保护因子)的数量关系
1. Logistic回归模型的数据结构
• 设资料中有一个因变量Y、p个自变量X1,
X2,…,Xp,对每个实验对象共有n次观测结
果,可将原始资料列成表1形式。
表1. Logistic回归模型的数据结构
…
…
a1p
a2p
3
… n
Y3
… Yn
a31
… an1
a32
… an2
a33
… an3
…
… …
a3p
… anp
5
其中:Y取值是二值或多项分类
表2. 肺癌与危险因素的调查分析
例号 1 2 3 … 30 是否患病 0 0 1 … 1 性别 1 0 0 … 0 吸烟 0 1 0 … 0 年龄 30 46 35 … 26 地区 0 1 1 … 1
0
始点
a
随访方式
0
始点 终点 t
时间
• 全体观察对象在不同时间接 受治疗处理,完成一定数量 随访病例后决定随访截止时 间,或按事先规定的时间停 止随访
• 这是临床试验最常见的形式
图中‚×‛表示‚死亡‛,‚o‛ 表示失访、退出研究或死于与本 研究无关的其它原因
b
影响生存时间的有关因素(协变量)
• 如患者的年龄、病程、术前健康 状况、经济、文化、职业等 • 以便分析这些因素对生存时间的 影响
随访方式
时间 终点 t
• 全体观察对象同时接受 处理措施,观察到最后 一例出现结果,或者事 先规定的随访截止时间
图中‚×‛表示‚死亡‛, ‚o‛表示失访、退出研究 或死于与本研究无关的其 它原因
因素(或保护因子)的数量关系
1. Logistic回归模型的数据结构
• 设资料中有一个因变量Y、p个自变量X1,
X2,…,Xp,对每个实验对象共有n次观测结
果,可将原始资料列成表1形式。
表1. Logistic回归模型的数据结构
【统计学】生存分析和COX回归
H 对风险函数作图。横、纵坐标分别为t,H(t)。只适用于寿命 表法
小样本资料的乘积极限法 (Kaplan-Meier法 )
例14-4 某医师对11例脑瘤患者用甲法治疗,另9例脑瘤患者用 乙法治疗试估计两法的生存率,并比较两种疗法的生存率有无 差别。
甲法组:5 7* 13 13 23 30 30* 38 42 42 45*
乙法组:1 3 3 7 10 15 15 23 30
2020/11/19 Thursday
10
data ex14_1; do group='A','B'; input n; do i=1 to n; input t ; if t<0 then censor=0; else censor=1; t=abs(t); output; end; end; cards;
Stratum 1: group = A
Product-Limit Survival Estimates
t Survival 生存时间 生存率
数据为删失数据、截尾数据、终检数据(censored data)
2020/11/19 Thursday
。
1
❖生存率(survival rate) 又称累积生存概率,即个体活过时点t 的概率,用S(t)表示。
❖
如果没有删失数据,生存率可以直接估计。
S (t )
t时刻存活的观察例数 期初总观察例数
如果有删失数据,则要分时段估计每个时段的生存概率pi(i=1,2,…,t),然后 根据概率乘法原理估计累积生存概率。
[ freq <变量名>;] /*指定频数变量名 */
PROC过程[选项]
1.method=方法 /*指定估计生存率所用的方法:*/
小样本资料的乘积极限法 (Kaplan-Meier法 )
例14-4 某医师对11例脑瘤患者用甲法治疗,另9例脑瘤患者用 乙法治疗试估计两法的生存率,并比较两种疗法的生存率有无 差别。
甲法组:5 7* 13 13 23 30 30* 38 42 42 45*
乙法组:1 3 3 7 10 15 15 23 30
2020/11/19 Thursday
10
data ex14_1; do group='A','B'; input n; do i=1 to n; input t ; if t<0 then censor=0; else censor=1; t=abs(t); output; end; end; cards;
Stratum 1: group = A
Product-Limit Survival Estimates
t Survival 生存时间 生存率
数据为删失数据、截尾数据、终检数据(censored data)
2020/11/19 Thursday
。
1
❖生存率(survival rate) 又称累积生存概率,即个体活过时点t 的概率,用S(t)表示。
❖
如果没有删失数据,生存率可以直接估计。
S (t )
t时刻存活的观察例数 期初总观察例数
如果有删失数据,则要分时段估计每个时段的生存概率pi(i=1,2,…,t),然后 根据概率乘法原理估计累积生存概率。
[ freq <变量名>;] /*指定频数变量名 */
PROC过程[选项]
1.method=方法 /*指定估计生存率所用的方法:*/
《生存分析SPSS单因素和多因素对生存率的可能分析》PPT模板课件
1
51 48 1 0 0 1 0 120
0
52 72 0 1 0 1 0 24
1
53 42 0 0 0 1 0
2
1
54 63 1 0 1 1 0 120
0
55 55 0 1 1 0 0 12
1
56 39 0 0 0 1 0
5
1
57 44 0 0 0 1 0 120
0
58 42 1 1 1 0 0 120
生存分析SPSS单因素和多因素对生存率的 可能分析
(Excellent handout training template)
生存分析的理论复习
1. 何为生存分析?
生存分析(survival analysis)是将事件的结果(终点事件)和 出现结果经历的时间结合起来分析的一种统计分析方法。
2. 生存分析的目的:
.0%
100.0%
2-1.模型检验(全变量模型)
模 型 系 数 的 综 合 a , b测 试
倍对整 数体 (得分 从) 上一步骤开始 从更 上改 一块开始更改
似然值 卡方 df Sig.卡方 df Sig.卡方 df Sig.
.02 50 2.174
6.02 01 3.942
6.02 01 1.942
o
g
o
Kaplan-Meier 过程
Kaplan-Meier过程用于(尤其小样本资料): 1. 估计各生存时间的生存率以及中位生存时间。 2. 绘制各种曲线:如生存函数、风险函数曲线等。 3. 比较某研究因素不同水平的生存时间有无差异。 4. 控制某个分层因素后对研究因素不同水平的生存时间
分布进行比较。 5. 对多组生存时间分布进行两两比较。 (各总体分布比较采用Log-rank等非参数方法)
生存分析(2012年)推荐课件
✓ 终点事件可以是某种疾病发生、某种处理的反应、 疾病的复发或死亡等。
合格的 研究对象
试验组 对照组
出现结果 尚未出现结果 失访、脱落
伴随因素 干扰因素
随访研究(follow-up study)示意图
【例题】
某医院泌尿外科医师选择1996-2000年间经手术 治疗的膀胱肿瘤患者,对可能影响膀胱肿瘤术后 生存的因素进行了调查,随访截止日期为2000年 12月30日。
➢ 1 有2个效应变量:(1)生存时间(天数),(2) 结局(死亡与否、是否阳性等)
➢ 2 截尾数据:如表21-1中的1号、 3号和4号病人 未观察到底,不知他们究竟能活多长时间。 处理截尾数据时两种错误的做法:
✓ 错误1:丢弃截尾数据,只考虑确切数据。(损失 了信息)
✓ 错误2:将截尾数据当作确切数据处理。(低估了 生存时间的平均水平)。
生存时间资料的特点
➢ 3. 分布类型复杂:生存时间常呈正偏态分布。 在处理正偏态分布数据时两种错误的做法: 错误1:采用平均生存时间而不是采用中位生存时
间来表示生存时间的平均水平。
错误2:采用常规t检验或方差分析进行组间比较。
(应采用log-rank检验比较几组生存时间 )
二、生存分析的统计描述指标
h(t)h0(t)exp(1x1 ...pxp)
h0(t)为t时刻的风险函数。
Cox回归模型的模型假定:任两个个体风险之比不 随时间的变化而变化。
Assumption of proportional hazard( PH假定)
R Rh h0 0tte ex x 1 p 1 p X Xji1 1 2 2X Xij2 2 ............
生存分析 Survival Analysis
合格的 研究对象
试验组 对照组
出现结果 尚未出现结果 失访、脱落
伴随因素 干扰因素
随访研究(follow-up study)示意图
【例题】
某医院泌尿外科医师选择1996-2000年间经手术 治疗的膀胱肿瘤患者,对可能影响膀胱肿瘤术后 生存的因素进行了调查,随访截止日期为2000年 12月30日。
➢ 1 有2个效应变量:(1)生存时间(天数),(2) 结局(死亡与否、是否阳性等)
➢ 2 截尾数据:如表21-1中的1号、 3号和4号病人 未观察到底,不知他们究竟能活多长时间。 处理截尾数据时两种错误的做法:
✓ 错误1:丢弃截尾数据,只考虑确切数据。(损失 了信息)
✓ 错误2:将截尾数据当作确切数据处理。(低估了 生存时间的平均水平)。
生存时间资料的特点
➢ 3. 分布类型复杂:生存时间常呈正偏态分布。 在处理正偏态分布数据时两种错误的做法: 错误1:采用平均生存时间而不是采用中位生存时
间来表示生存时间的平均水平。
错误2:采用常规t检验或方差分析进行组间比较。
(应采用log-rank检验比较几组生存时间 )
二、生存分析的统计描述指标
h(t)h0(t)exp(1x1 ...pxp)
h0(t)为t时刻的风险函数。
Cox回归模型的模型假定:任两个个体风险之比不 随时间的变化而变化。
Assumption of proportional hazard( PH假定)
R Rh h0 0tte ex x 1 p 1 p X Xji1 1 2 2X Xij2 2 ............
生存分析 Survival Analysis
医学统计学课件--生存分析第十七章
某病不同药后随访记录(天)
预后因素
随访记录
病例 性别 处理 开始 终止 是否
号
组 日期 日期 死亡
1 1 A药 98/07/12 98/11/29
1
2 2 B药 98/07/01 98/12/29
1
3 1 A药 98/08/22 98/11/29
0
生存 时间 140 160 99
4 2 B药 98/10/20 98/11/25 车祸死亡 36
2019/8/29
医学统计学
28
表17-1 甲种手术后病人生存率的计算方法
时间(月) 死亡
ti
人数
1
1
3
1
5
3
6
3
7
1
8
1
10 2
14+ 0 2019/8/29
期初 人数
23 22 21 18 15 14 13 11
死亡 概率
0.043 0.045 0.t143 0.167 0.067 0.071 0.154 医学0统.0计学00
*要求掌握概念、方法、用途。
2019/8/29
医学统计学
2
概述
• 临床上疗效、预后的评价常用疾病 的结局指标:如有效率、治愈率、 死亡率比较。对于短期内能明确治 疗效果的疾病是适用的。但对于远 期疗效,上述指标的评价不全面。
2019/8/29
医学统计学
3
例
甲药 乙药
某病的疗效比较
治愈率(%) 平均治愈时间(月)
×为死亡
×
O 为截尾
O O
× ×
0
起始事件时间
2019/8/29
如给药
医学统计学
[课件]医学统计学--生存分析PPT
1974
1975 1976 1977
29
26 24 32
28
24 21 27
25
19 19 23
23
18 16 21
19
18 14 18
18
18 14 16
17
16 13
17
16
17
1978
1979 1980 1981 合计
25
36 25 46 243
23
31 23 36 213
20
29 19 154
医学统计学--生存分析
生存分析的意义与应用
无论观察性研究,还是实验(试验)性研究,有时需对研究
对象进行追踪观察,不仅了解某事件发生的结局,同时
还了解发生这种结局所经历的时间。
例如临床治疗措施效果评价:白血病化疗缓解持续时间 和缓解率、乳腺癌术后生存时间和生存率、肾移植术后 生存时间和生存率等。
上述生存资料若按通常的方法进行分 析,有两方面的问题:
1.n年生存率有时出现后一年大于前一年的现象。
活 满 n 年 的 人 数 n 年 生 存 率 = 1 0 0 % 观 察 满 n 年 的 人 数
表1 某地1974—1981年胃癌根治术后随访记录 年份 例数 生存年数 1 2 3 4 5 6 7 8
二.生存时间
生存时间(survival time)也是一个广义概念, 泛指所关心的某现象的持续时间,即随访观察 持续的时间,常用符号t表示。
表2
患者 编号
6例乳腺癌患者术后随访记录
观察记录 生存天数 t
开始日期
终止日期
结局 (死=1,生=0)
原因
1
2
医学统计学第16-章生存分析-PPT幻灯片
0.0199
20 25 0.0787 10.0000 2.6517 0.0250 0.0105 0.064516 0.028475
25 30 0.0741 8.1250 2.2535 0.0200 0.00949 0.072727 0.035758
30 35 0.0660 11.2500 3.7500 0.0200 0.00949 0.114286 0.054761
n data li16_1; n input count c time; n cards; n 510 n 715 n 6 1 10 n 4 1 15 n 5 1 20 n 4 1 25 n 4 1 30 n 0 1 35 n 2 1 40 n 1 1 45 n 2 1 50 n; n proc lifetest plots=(s) method=life n width=5; time time*c(0); n freq count; n run;
生存时间资料常通过随访获得,因观 察时间长且难以控制混杂因素,再加上存 在截尾数据,规律难以估计,一般为正偏 态分布。
6、生存率(survival rate)与 死亡概率
①生存率:又叫累积生存率或生存函数。
表示观察对象其生存时间T大于t时刻的概 率,常用S(t,X)=P(T>t,X)表示。在实际工
data ex16_2; input month censor@@; cards; 1 0 3 0 4 0 5 0 6 0 8 0 10 0 11 0 12 0 14 0 17 0 18 0 24 0 30 0 31 0 51 0 62 1 78 1 88 1 115 1 124 1 ; proc lifetest plots=(s); time month*censor(1); run;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二. 寿命表法(Life Table Method)
适用于随访的病例数较多, 将资料按生存
期进行分组,在分组的基础上计算生存率 ,本
法也能用于不分组的资料,此时计算结果与积
限法相同。
22
某医院1946年1月1日到1951年12月31日收治的126 例胃癌病例,生存情况如表2,试用寿命表法估计生存率 。
19
一、乘积极限法
一. 乘积极限法(Product-Limit Method)
例1
用某中药加化疗(中药组)和化疗(对照组)两种疗法治疗白 血病后, 随访记录各患者的生存时间,不带"+"号者表示已死亡, 即完全数据,带"+" 号者表示尚存活,即截尾数据,试作生存分析。 时间单位为月。 中药组 10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24
12
生存分析的基本概念 如急性白血病病人从治疗开始到复发为止之间的
缓解期,冠心病病人两次发作之间的时间间隔,戒
烟开始到重新吸烟之间的时间间隔,接触危险因素
到发病的时间间隔等。生存分析中最基本的问题就
是计算生存时间,要明确规定事件的起点、终点及 时间的测度单位,否则就无法分析比较。
13
生存分析的基本概念 生存分析这个统计技术可以同时分析有结局的生
3
生存分析的基本概念
2、截尾数据(Censored
data) 但往往有一部分人或中途失防,或到观 察结束时仍存活,对这些人无法知道准确的 生存时间,对于这样的观测值,只知道其生 存时间大于T,而不知道其准确的生存时间。 这种数据称为截尾数据(Censored data)。 它提供不完全信息。
4
表2 126例胃癌患者寿命表法估计生存率
───────────────────────────────────────────────────── 时间(年) 期初例数 死亡例数 失访例数 截尾例数 有效例数 条件生存率 累积生存率 di ∑di/ni(ni-di)累积生存 ti n'i di ui wi ni ^S(ti/ti-1) ^S(ti) ni(ni-di) 率标准误 ⑴ ⑵ ⑶ ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾=⑻√⑽ ───────────────────────────────────────────────────── 0126 47 4 15 116.5 0.5966 0.5966 5.805×10-3 5.805×10-3 0.0455 160 5 6 11 51.5 0.9029 0.5386 2.088×10-3 7.893×10-3 0.0479 238 2 0 15 30.5 0.9344 0.5033 2.301×10-3 0.0102 0.0508 321 2 2 7 16.5 0.8788 0.4423 8.359×10-3 0.0186 0.0602 410 0 0 6 7.0 1.0000 0.4423 0 0.0186 0.0602 54 0 0 4 2.0 1.0000 0.4423 0 0.0186 0.0602 ─────────────────────────────────────────────────────
生存分析的基本概念
治疗 组 A B B A A B A A B
25例病人原始资料及参加试验日期
终止日期 1968.05.20 1971.04.16 1970.11.06 1974.05.31 1974.01.02 1974.04.30 1969.08.14 1973.11.09 1971.11.13 是否该 病死亡 Y Y Y 仍存活 Y
Y
Y Y Y
76
70 8 23
A
B A
1970.10.11
1969.11.17 1969.02.08
1974.05.31
1973.06.05 1970.02.08
仍存活
Y 迁出
1328
1296 365 5
生存分析的基本概念
生产截尾值的原因:1)病人失访;2)
病人的生存期超过了研究的终止期;3)在动
11
生存分析的基本概念 3)风险函数
风险函数(Hazard Function) 用h(t)表示,其定义为: h(t)=lim(在时间t生存的病人死于区间(t,△t)的概率/△t) 由于计算 h(t) 时 , 用到了生存到时间 t, 这一条件 , 故上 式极限式中分子部分是一个条件概率。可将h(t)称为生存到 时间t的病人在时间t的瞬时死亡率或条件死亡速率或年龄别 死亡速率。当用t 作横坐标 ,h(t) 为纵坐标所绘的曲线 , 如递 增,则表示条件死亡速率随时间而增加 ,如平行于横轴 ,则表 示没有随时间而加速(或减少)死亡的情况。
存数据和没有结局的截尾数据,能较充分地利用资料
信息。
如果改变出生/死亡的含义,可使生存分析得到
更广泛的应用。如以开始暴露于某病的危险因素代替 出生,以发生此病代替死亡可用生存分析来研究暴露
于危险因子后在多少月或年内发病概率。再比如,以
某病治疗代替出生,以死于该病作为死亡,生存分析
来研究某病治疗后的生存时间,如此等等。
车祸死亡
分组日期 1968.05.12 1970.10.18 1969.02.12 1972.01.30 1973.11.11 1968.08.12 1969.0106 1973.0907 1971.05.02
参加试 验日数 8 180 632 852 52 2240 230 63 195
治疗 组 B B A B B A A B A
中位生存时间(Median survival time)是指
寿命中位数,表示有且只有50%的观察对象还可以
活这么长时间。由于截尾数据的存在,中位生存期
的计算不同于普通的中位数,它可以利用生存函数 公式或生存曲线图,令生存率为50%时,推算出生 存时间
8
生存分析的基本概念 5、生存时间函数
1)生存函数
的分组寿命表法的计算结果亦会不同,当分组资料中
每一个分组区间中最多只有 1个观察值时,寿命表法
的计算结果与乘积极限法完全相同。
18
第三节
非参数生存分析方法
一. 乘积极限法(Product-Limit Method)
简称为积限法或PL法,它是由统计学家Kaplan和Meier 于1958年首先提出的, 因此又称为Kaplan-Meier法, 是 利用条件概率及概率的乘法原理计算生存率及其标准误 的。 设S(t)表示t年的生存率,s(ti/ti-1)表示活过ti-1 年又活过 ti年的条件概率,例如s(1),s(2)分别表示一 年,二年的生存率,而s(2/1)表示活过一年者,再活一年 的条件概率,据概率的乘法定律有: S(2)=S(1)S(2/1), 一般地有 S(ti)=S(ti-1)S(ti/ti-1)
分组日期 1972.07.02 1968.12.18 1969.01.01 1973.09.02 1979.02.11 1970.11.12 1968.05.19 1973.07.18 1969.03.12
终止日期 1972.07.15 1974.05.31 1974.05.31 1973.09.20 1972.01.12 1974.05.31 1972.05.19 1974.02.13 1969.05.14
14
资料收集
二、资料收集 一)随访内容 1、明确开始随访的时间 如住院时间、确诊时间、开始治 疗时间等。 2、随访结局和终止随防的时间 3、记录影响生存时间的有关因素 二)随访方式 1、全体观察对象同时接受处理措施,观察到最后一例出现 结果,或事先规定的随访截止时间。 2、全体观察对象在不同时间接受治疗,完成一定数量随访 病例后决定随访截止时间,可按事先规定的时间停止随访。
生存分析
第一节 第二节 引言 生存分析的基本概念
第三节
第四节 第五节
非参数生存分析
Cox模型 实例分析与计算机实现
1
第一节 引言 在医学研究中,常常用追踪的方式来研究事物 发展的规律。如,了解某药物的疗效,了解手术的 存活时间,了解某医疗仪器设备使用寿命等等。 对生存资料的分析称为生存分析。所谓生存资 料就是描述寿命或者一个发生时间的数据。更详细 的说一个人的生存时间的长短与许多因素有联系的, 研究因素与生存时间的联系有无及程度大小,称为 生存分析。 生存分析在医学科学研究中具有广泛而重要的 应用价值,它对人群寿命的研究,各种慢性疾病的 现场追踪研究,临床疗效试验和动物试验等研究中 随访资料的处理起着举足轻重的作用。
念 2)死亡函数
概率密度函数 (Probability Density Function) 简称为密度函数,记为f(t),其定义为: f(t)=lim (一个病人在区间(t,t+△t)内死亡概率/△t) 它表示死亡速率的大小。如以t为横坐,f(t) 为纵坐标 作出的曲线称为密度曲线,由曲线上可看出不同时间的死亡 速率及死亡高峰时间。纵坐标越大,其死亡速率越高,如曲线 呈现单调下降,则死亡速率越来越小,如呈现峰值,则为死亡 高峰。
2
第二节
一、基本概念
生存分析基本概念
1、失效事件与起始时间 在生存分析随防研究过程中,一部分研究对象 可观察到死亡,可以得到准确的生存时间,它提供 的信息是完全;这种事件称为失效事件(failure event)也称之为死亡事件、终点事件。
起始事件(initial event)是反映生存时间 起始特征的事件,如疾病确诊、某种疾病治疗开始、 接触毒物等。 。
对照组
2+,13,7+,11+,6,1,11,3,17,7
20
资料中药组积限法计算生存率