医学统计:生存分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h2 t 的曲线为下降趋势,表示危险率逐渐减小,如意
外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;
h3 t 为一种稳定的危险率函数,如某些慢性病患者在
稳定期,其危险率基本不变。
图 16-1 三种不同形式的危险率函数曲线
二、生存分析对资料的基本要求
1. 样本由随机抽样方法获得,要有一定的数量。死亡 例数和比例不能太少。
一、基本概念
(一)死亡事件
死亡事件又称失效事件,不单指通常意义下 的生物体的死亡,而是泛指标志某种处理措 施失败或失效的特征事件。
(二)生存时间(survival time):
1.定义:广义的生存时间是指从某个起始事件开 始到某个终点事件的发生(出现反应)所经历的 时间。也称失效时间(failure time)。
3
03/02/83
12/31/86 失访
0
M
4
08/04/83
04/10/86 死亡
0
F
表 16-2 4 例鼻咽癌患者术后生存时间及相关资料整理表
病例号
1 2 3 4
生存时间(天)
t 1800 360 1400+ 990
结局
1 1 0 1
治疗方法
X1 1 1 0 0
性别
X2 F M M F
……
(二)死亡概率、死亡率:
生存分析的历史与应用
17、18世纪:寿命表的提出及其应用。 1926年:Greenwood提出评价生存函数的误差的方法—
Greenwood公式。 1958年:生存函数的计算方法—Kaplan-Meier法(乘积极
限法product-limit)的提出。 1960年代中叶:生存时间的组间比较方法的开发—广义
危险率函数是生存分析的基本函数,它反映研究对象
在某时点的死亡风险大小。生存函数与危险率函数的
t
关系可表示为: S(t) exp h(t)dt
0
风险函数与生存函数的关系
h1 t 是一种上升的曲线,危险率随时间变化而增加,如
急性白血病患者治疗无效时其危险率随时间呈增加趋势;
ti 时点各生存概率的连乘积。
(5)按下式计算生存率的标准误:
SESti Sti
1 S(ti ) ni di
(6)绘制生存率曲线。常绘制成阶梯形的曲线,方法是 将各非截尾值及其对应的生存率标在直角坐标纸上, 然后将各点垂直向下再水平向右连成阶梯形。
(7)必要时可按正态近似法估计总体生存率的可信区间。
2.特点: (1)分布类型不易确定。一般不服从正态分布,
有时近似服从指数分布、Weibull分布、 Gompertz分布等,多数情况下往往不服从 任 何规则的分布类型。
(2)生存时间的影响因素多而复杂且不易控制。
(3)根据研究对象的结局,生存时间数据可分两种 类型:
①完全数据(complete data):观察对象在观察 期内出现反应(终点事件),这时记录到的时间信息 是完整的,这种生存时间数据称为完全数据。
也称半数生存期,即生存时间的中位数, 表示生存率等于 50%时的时间。 反映生存时间的平均水平。
(七)危险率函数(hazard function):
指 t 时刻尚存活的研究对象死于 t 时刻后一瞬间的概率,
为条件概率。即活到了 t 时刻的条件下在 t ~ t t 这一
微时段内死亡的概率,用 ht 表示。
(五)生存率曲线(survival curve): 是指以时间为横轴、生存率为纵轴,将各个 时点的生存率连接在一起的曲线图。曲线形 状分为两种: 1、阶梯形:小样本资料用直接法估计的生
存曲线; 2、折线形:大样本资料用频数表法估计的
生存曲线。
(六)中位生存期(median survival time):
某时点ti的总体生存率 1 % 的可信区间为: Sti u 2SESti
用某中药+化疗(中药组)和化疗(对照组)两种 疗法治疗白血病后,随访记录患者死前存活月数, 结果如下。试分别估计两组的生存率并绘制生存率 曲线。 中药组:10 2+ 12+ 13 18 6+ 19+ 26 9+ 8+
P(t T t t T t)
h(t) lim
t 0
t
n(t) n(t t) lim
t0 n(t) t
T 为观察对象的生存时间, nt 为 t 时刻的生存人数, nt t 为 t+t 时刻的生存人数。
危险率函数也称为死亡力(force of mortality)、瞬时死 亡率(instantaneous failure rate)等。
表 16-3 中药组生存率计算
期初 病例
数
死亡 人数
死亡概 率
生存概 率
ni
d
q
p
(3) (4) (5) (6)
16
0 0.0000 1.0000
15
1 0.0667 0.9333
14
0 0.0000 1.0000
13
0 0.0000 1.0000
12
0 0.0000 1.0000
11
1 0.0909 0.9191
三、生存分析的主要内容和基本方法
(一)生存分析的主要内容 1、描述生存过程:研究生存时间的分布特点、
估计生存率及其标准误、绘制生存率曲线等。 2、比较生存过程:可进行两组或多组生存曲
线的比较。 3、分析影响生存过程的因素
(二)生存分析的基本方法
1.非参数法:其特点是不论资料是什么样的分布形式, 只根据样本提供的顺序统计量对生存率进行估计,常 用的方法有乘积极限法和寿命表法。
第二节 生存率估计的非参数法
一、乘积极限法
乘积极限法(product-limit method)是由 Kaplan 和 Meier 在 1958 年首先提出,故又称 Kaplan-Meier 法(K-M 法)。 主要适用于样本含量较小的资料。步骤如下:
(1)将含量为 n 的样本观察值(生存时间 t )由小到大依
时点;
结局变量( )反映终点事件是否发生,为二分 类的变量。通常用( t , )完整地表示一个观察
对象的随访结果。
表 16-1 4 例鼻咽癌患者术后随访记录
病例号 开始日期
终止日期 结局 治疗方法 性别 …
1
11/29/80
11/04/85 死亡
1
F
2
06/13/82
06/08/83 死亡
1
M
②截尾数据(截尾值、删失数据,censored data): 尚未观察到研究对象出现反应(终点事件)时,即由 于某种原因停止了随访,这时记录到的时间信息是 不完整的,这种生存时间数据称为不完全数据或截 尾值。
截尾的原因主要有3种: ①失访:失去联系 ②退出:死于非研究因素或其他非处理因
素、改变治疗方案等导致退出研究。 ③终止:指观察研究期限结束时仍未出现结
若该时段内有删失,则分母用校正人口数。
(四)生存率、生存函数、生存率曲线:
生存率(survival rate):指研究对象经历 t 个
时段后仍存活的概率,即生存时间大于等
于 t 的概率,用 PT t 表示。
生存率随时间 t 变化而变化,即生存率是相 对于时间 t 的函数,称为生存函数(survival
S(t) p1 p2 p3......pt p j t j t
故生存函数又称累积生存概率(cumulative Probability of survival),即将时刻 t 尚存活看
成是前 t 个时段一直存活的累计结果。
如: n年生存率 1p0 1 p11 p2 ......1 pn1 。
生存分析survival analysis
孙秀彬
何为生存分析
医学研究中,为了了解某种疾病的预后、评价治疗 方法的优劣或观察预防保健措施的效果等,常需对 研究对象进行追踪观察,以获得必要的数据,这类 资料都属于随访资料。随访资料是指对一批研究对 象进行追踪观察所获得的有关其结局以及出现这种 结局所经历的时间等方面的资料。由于随访资料的 分析最初起源于对寿命资料的统计分析,故称为生 存分析,或称为生存时间分析。
10
0 0.0000 1.0000
死亡概率(mortality probability):是指某单位时 段期初的观察对象在该单位时段内死亡的可能 性大小。
某单位时段内死亡数 q 该时段期初观察人数 若该时段内有删失,则分母用校正人口数: 校正人口数 期初观察人数 1 删失数
2
死亡率(mortality rate):指单位时间内研究 对象的死亡频率或强度,即平均每千人(或 万人、百人等)中的死亡人数。
6+ 43+ 9 4 31 24 对照组:2+ 13 7+ 11+ 6 1 11 3 17 7
用 Kaplan-Meier 法分别计算两组的生存率。
秩次
观察 月数
i
(1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
t
(2)
2+ 4 6+ 6+ 8+ 9 9+ 10 12+ 13 18 19+ 24 26 31 43+
第一节 概述
生存分析的方法已被广泛应用到医学研究领域, 如现场追踪研究、临床疗效试验、疾病预后分析等, 生存时间的涵义也随之扩展到更广义的范围,又称 为时间-效应分析(time-effect analysis)。
其研究内容主要包括 3 个方面:① 对生存状况 进行统计描述(生存概率、生存率、中位生存期等); ② 寻找影响生存时间的“危险因素”和“保护因素”; ③ 估计生存率和生存时间长短,进行预后评价。
某单位时段内死亡数 m 该时段平均人口数
1000 ‰
平均人口数= 1 (该时段期初人口数+期末人口数) 2
(三)生存概率: 生存概率(survival probability):表示某 单位时段开始时存活的个体到该时段
结束时仍存活的可能性大小,用 p 表示,
公式如下:
活满某时段的人数 p 该时段期初观察人数 1- q
局。
关于截尾或删失
删失的模式图
患者进入期间
随访开始
失访 失访 研究截止时仍存活
事件
研究截止时点
3.生存时间资料的整理:
对于随访资料,需记录的原始数据包括开始观 察的时点(起始事件发生的时间)、终止观察的 时点、研究对象的结局、考虑的影响因素。生 存时间为反映时间长短的指标,属数值变量:
生存时间( t )= 终止观察的时点–开始观察的
2.参数法:参数法的特点是假定生存时间服从于特定的 参数分布,根据已知分布的特点对影响生存的时间进 行分析,常用的方法有指数分布法、Weibull 分布法、 对数正态回归分析法和对数 logistic 回归分析法等。
3.半参数法:半参数法兼有非参数法和参数法的特点, 主要用于分析影响生存时间和生存率的因素,属多因 素分析方法,典型方法为 Cox 模型分析法。
function),记为 S t 。
生存函数在某时点的函数值就是生存率。
生存函数或生存率计算如下:
①若前 t 个时段没有删失:
S (t )
P(T
t)
t时段结束时仍存活的人 研究期初观察总人数
数Leabharlann Baidu
如: n年生存率
活满n年的人数 研究期初观察人数
100 % 。
生存函数或生存率计算如下:
②若观察期内有删失:假定观察对象在各个 单位时段内是否生存的事件是相互独立的, 其生存概率分别为 p1, p2 , p3 , , pt , 则根 据概率乘法原理得
次排列,秩次 i 1,2, , n 。如遇非截尾值与截尾值
相同时,将非截尾值排在前面。 (2)列出各时点(实为一短的时间单位)开始时的存活数,
即期初观察单位数 ni 。 (3)计算各时点死亡概率 q 及生存概率 p ( p =1-q)。
(4)求活过各时点的生存率 Sti ,等于从开始观察时点到
Wilcoxon秩和检验(Gehan,1965年);对数秩检验(logrank test)又称时序检验(Mantel,1966年)。 1970年:将协变量的影响模型化—参数模型:假设生存 时间服从Weibull分布、对数正态分布等;半参数模型: 比例风险模型(Cox,1972年),又称Cox回归模型。
2. 完全数据所占的比例不能太少,即截尾值不宜太多。 3. 截尾值出现的原因无偏性。为防止偏性,常需对被
截尾的研究对象的年龄、职业、地区、病情轻重等 情况进行分析。 4. 生存时间尽可能精确。因为许多常用的生存分析方 法都在生存时间排序的基础上作统计处理,即使小 小的舍入误差也可能改变生存时间顺序而影响结果。 5. 缺项要尽量补齐。
外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;
h3 t 为一种稳定的危险率函数,如某些慢性病患者在
稳定期,其危险率基本不变。
图 16-1 三种不同形式的危险率函数曲线
二、生存分析对资料的基本要求
1. 样本由随机抽样方法获得,要有一定的数量。死亡 例数和比例不能太少。
一、基本概念
(一)死亡事件
死亡事件又称失效事件,不单指通常意义下 的生物体的死亡,而是泛指标志某种处理措 施失败或失效的特征事件。
(二)生存时间(survival time):
1.定义:广义的生存时间是指从某个起始事件开 始到某个终点事件的发生(出现反应)所经历的 时间。也称失效时间(failure time)。
3
03/02/83
12/31/86 失访
0
M
4
08/04/83
04/10/86 死亡
0
F
表 16-2 4 例鼻咽癌患者术后生存时间及相关资料整理表
病例号
1 2 3 4
生存时间(天)
t 1800 360 1400+ 990
结局
1 1 0 1
治疗方法
X1 1 1 0 0
性别
X2 F M M F
……
(二)死亡概率、死亡率:
生存分析的历史与应用
17、18世纪:寿命表的提出及其应用。 1926年:Greenwood提出评价生存函数的误差的方法—
Greenwood公式。 1958年:生存函数的计算方法—Kaplan-Meier法(乘积极
限法product-limit)的提出。 1960年代中叶:生存时间的组间比较方法的开发—广义
危险率函数是生存分析的基本函数,它反映研究对象
在某时点的死亡风险大小。生存函数与危险率函数的
t
关系可表示为: S(t) exp h(t)dt
0
风险函数与生存函数的关系
h1 t 是一种上升的曲线,危险率随时间变化而增加,如
急性白血病患者治疗无效时其危险率随时间呈增加趋势;
ti 时点各生存概率的连乘积。
(5)按下式计算生存率的标准误:
SESti Sti
1 S(ti ) ni di
(6)绘制生存率曲线。常绘制成阶梯形的曲线,方法是 将各非截尾值及其对应的生存率标在直角坐标纸上, 然后将各点垂直向下再水平向右连成阶梯形。
(7)必要时可按正态近似法估计总体生存率的可信区间。
2.特点: (1)分布类型不易确定。一般不服从正态分布,
有时近似服从指数分布、Weibull分布、 Gompertz分布等,多数情况下往往不服从 任 何规则的分布类型。
(2)生存时间的影响因素多而复杂且不易控制。
(3)根据研究对象的结局,生存时间数据可分两种 类型:
①完全数据(complete data):观察对象在观察 期内出现反应(终点事件),这时记录到的时间信息 是完整的,这种生存时间数据称为完全数据。
也称半数生存期,即生存时间的中位数, 表示生存率等于 50%时的时间。 反映生存时间的平均水平。
(七)危险率函数(hazard function):
指 t 时刻尚存活的研究对象死于 t 时刻后一瞬间的概率,
为条件概率。即活到了 t 时刻的条件下在 t ~ t t 这一
微时段内死亡的概率,用 ht 表示。
(五)生存率曲线(survival curve): 是指以时间为横轴、生存率为纵轴,将各个 时点的生存率连接在一起的曲线图。曲线形 状分为两种: 1、阶梯形:小样本资料用直接法估计的生
存曲线; 2、折线形:大样本资料用频数表法估计的
生存曲线。
(六)中位生存期(median survival time):
某时点ti的总体生存率 1 % 的可信区间为: Sti u 2SESti
用某中药+化疗(中药组)和化疗(对照组)两种 疗法治疗白血病后,随访记录患者死前存活月数, 结果如下。试分别估计两组的生存率并绘制生存率 曲线。 中药组:10 2+ 12+ 13 18 6+ 19+ 26 9+ 8+
P(t T t t T t)
h(t) lim
t 0
t
n(t) n(t t) lim
t0 n(t) t
T 为观察对象的生存时间, nt 为 t 时刻的生存人数, nt t 为 t+t 时刻的生存人数。
危险率函数也称为死亡力(force of mortality)、瞬时死 亡率(instantaneous failure rate)等。
表 16-3 中药组生存率计算
期初 病例
数
死亡 人数
死亡概 率
生存概 率
ni
d
q
p
(3) (4) (5) (6)
16
0 0.0000 1.0000
15
1 0.0667 0.9333
14
0 0.0000 1.0000
13
0 0.0000 1.0000
12
0 0.0000 1.0000
11
1 0.0909 0.9191
三、生存分析的主要内容和基本方法
(一)生存分析的主要内容 1、描述生存过程:研究生存时间的分布特点、
估计生存率及其标准误、绘制生存率曲线等。 2、比较生存过程:可进行两组或多组生存曲
线的比较。 3、分析影响生存过程的因素
(二)生存分析的基本方法
1.非参数法:其特点是不论资料是什么样的分布形式, 只根据样本提供的顺序统计量对生存率进行估计,常 用的方法有乘积极限法和寿命表法。
第二节 生存率估计的非参数法
一、乘积极限法
乘积极限法(product-limit method)是由 Kaplan 和 Meier 在 1958 年首先提出,故又称 Kaplan-Meier 法(K-M 法)。 主要适用于样本含量较小的资料。步骤如下:
(1)将含量为 n 的样本观察值(生存时间 t )由小到大依
时点;
结局变量( )反映终点事件是否发生,为二分 类的变量。通常用( t , )完整地表示一个观察
对象的随访结果。
表 16-1 4 例鼻咽癌患者术后随访记录
病例号 开始日期
终止日期 结局 治疗方法 性别 …
1
11/29/80
11/04/85 死亡
1
F
2
06/13/82
06/08/83 死亡
1
M
②截尾数据(截尾值、删失数据,censored data): 尚未观察到研究对象出现反应(终点事件)时,即由 于某种原因停止了随访,这时记录到的时间信息是 不完整的,这种生存时间数据称为不完全数据或截 尾值。
截尾的原因主要有3种: ①失访:失去联系 ②退出:死于非研究因素或其他非处理因
素、改变治疗方案等导致退出研究。 ③终止:指观察研究期限结束时仍未出现结
若该时段内有删失,则分母用校正人口数。
(四)生存率、生存函数、生存率曲线:
生存率(survival rate):指研究对象经历 t 个
时段后仍存活的概率,即生存时间大于等
于 t 的概率,用 PT t 表示。
生存率随时间 t 变化而变化,即生存率是相 对于时间 t 的函数,称为生存函数(survival
S(t) p1 p2 p3......pt p j t j t
故生存函数又称累积生存概率(cumulative Probability of survival),即将时刻 t 尚存活看
成是前 t 个时段一直存活的累计结果。
如: n年生存率 1p0 1 p11 p2 ......1 pn1 。
生存分析survival analysis
孙秀彬
何为生存分析
医学研究中,为了了解某种疾病的预后、评价治疗 方法的优劣或观察预防保健措施的效果等,常需对 研究对象进行追踪观察,以获得必要的数据,这类 资料都属于随访资料。随访资料是指对一批研究对 象进行追踪观察所获得的有关其结局以及出现这种 结局所经历的时间等方面的资料。由于随访资料的 分析最初起源于对寿命资料的统计分析,故称为生 存分析,或称为生存时间分析。
10
0 0.0000 1.0000
死亡概率(mortality probability):是指某单位时 段期初的观察对象在该单位时段内死亡的可能 性大小。
某单位时段内死亡数 q 该时段期初观察人数 若该时段内有删失,则分母用校正人口数: 校正人口数 期初观察人数 1 删失数
2
死亡率(mortality rate):指单位时间内研究 对象的死亡频率或强度,即平均每千人(或 万人、百人等)中的死亡人数。
6+ 43+ 9 4 31 24 对照组:2+ 13 7+ 11+ 6 1 11 3 17 7
用 Kaplan-Meier 法分别计算两组的生存率。
秩次
观察 月数
i
(1)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
t
(2)
2+ 4 6+ 6+ 8+ 9 9+ 10 12+ 13 18 19+ 24 26 31 43+
第一节 概述
生存分析的方法已被广泛应用到医学研究领域, 如现场追踪研究、临床疗效试验、疾病预后分析等, 生存时间的涵义也随之扩展到更广义的范围,又称 为时间-效应分析(time-effect analysis)。
其研究内容主要包括 3 个方面:① 对生存状况 进行统计描述(生存概率、生存率、中位生存期等); ② 寻找影响生存时间的“危险因素”和“保护因素”; ③ 估计生存率和生存时间长短,进行预后评价。
某单位时段内死亡数 m 该时段平均人口数
1000 ‰
平均人口数= 1 (该时段期初人口数+期末人口数) 2
(三)生存概率: 生存概率(survival probability):表示某 单位时段开始时存活的个体到该时段
结束时仍存活的可能性大小,用 p 表示,
公式如下:
活满某时段的人数 p 该时段期初观察人数 1- q
局。
关于截尾或删失
删失的模式图
患者进入期间
随访开始
失访 失访 研究截止时仍存活
事件
研究截止时点
3.生存时间资料的整理:
对于随访资料,需记录的原始数据包括开始观 察的时点(起始事件发生的时间)、终止观察的 时点、研究对象的结局、考虑的影响因素。生 存时间为反映时间长短的指标,属数值变量:
生存时间( t )= 终止观察的时点–开始观察的
2.参数法:参数法的特点是假定生存时间服从于特定的 参数分布,根据已知分布的特点对影响生存的时间进 行分析,常用的方法有指数分布法、Weibull 分布法、 对数正态回归分析法和对数 logistic 回归分析法等。
3.半参数法:半参数法兼有非参数法和参数法的特点, 主要用于分析影响生存时间和生存率的因素,属多因 素分析方法,典型方法为 Cox 模型分析法。
function),记为 S t 。
生存函数在某时点的函数值就是生存率。
生存函数或生存率计算如下:
①若前 t 个时段没有删失:
S (t )
P(T
t)
t时段结束时仍存活的人 研究期初观察总人数
数Leabharlann Baidu
如: n年生存率
活满n年的人数 研究期初观察人数
100 % 。
生存函数或生存率计算如下:
②若观察期内有删失:假定观察对象在各个 单位时段内是否生存的事件是相互独立的, 其生存概率分别为 p1, p2 , p3 , , pt , 则根 据概率乘法原理得
次排列,秩次 i 1,2, , n 。如遇非截尾值与截尾值
相同时,将非截尾值排在前面。 (2)列出各时点(实为一短的时间单位)开始时的存活数,
即期初观察单位数 ni 。 (3)计算各时点死亡概率 q 及生存概率 p ( p =1-q)。
(4)求活过各时点的生存率 Sti ,等于从开始观察时点到
Wilcoxon秩和检验(Gehan,1965年);对数秩检验(logrank test)又称时序检验(Mantel,1966年)。 1970年:将协变量的影响模型化—参数模型:假设生存 时间服从Weibull分布、对数正态分布等;半参数模型: 比例风险模型(Cox,1972年),又称Cox回归模型。
2. 完全数据所占的比例不能太少,即截尾值不宜太多。 3. 截尾值出现的原因无偏性。为防止偏性,常需对被
截尾的研究对象的年龄、职业、地区、病情轻重等 情况进行分析。 4. 生存时间尽可能精确。因为许多常用的生存分析方 法都在生存时间排序的基础上作统计处理,即使小 小的舍入误差也可能改变生存时间顺序而影响结果。 5. 缺项要尽量补齐。