第十五章 生存分析第一节生存资料的特点
生存分析
4
5 6
02-08-25
02-10-01 02-10-04
02-11-29
02-11-28 02-12-28
0
0 1
失
访
96+
59+ 86
死于车祸 复发死亡
(三)死亡概率
死亡概率(mortality probability) 在单位时段开始时存活的个体在该时段 内死亡的可能性大小。
某年内死亡数 q 某年初观察例数
表14.1 6例乳腺癌患者手术后的随访记录
患者 编号 观察记录 开始日期 终止日期 结局 (死=1,生=0) 原因 生存天 数 t
1 2 3
02-09-03 02-09-10 02-09-14
02-12-29 02-12-08 02-12-31
0 1 0
死于“非典” 转移死亡 研究终止
118+ 90 108+
生存分布比较:似然比检验
Weibull分布
生存分布比较:极大似然估计
对数正态分布
生存分布比较:极大似然估计
非参数法
乘积极限法 寿命表法 对数秩检验 Gehan比分检验
Cox-Mantel检验 Cox的F检验 Mantel-Haenszel检验 Kruskal-Wallis检验
生存分析的主要内容
一、生存分析的主要内容 1、描述生存过程 估计生存率及其标准误、绘制生存曲线 2、比较生存过程 对数秩检验、Gehan比分检验
3、生存过程的影响因素分析 常用的多因素生存分析方法Cox比例风险回 归模型ห้องสมุดไป่ตู้
生存分析的基本方法
生存分析
始特征的事件。
生存时间举例
起始事件 服药 手术切除 染毒 化疗 缓解
终点事件 痊愈 死亡 死亡 缓解 复发
终点事件和起始事件是相对而言的, 它们都由研究目的决定,须在设计时 明确规定,并在研究期间严格遵守, 不能随意改变。
样本由随机抽样方法获得,要有一定的数量。 死亡例数不能太少。 截尾比例不能太大。 生存时间尽可能准确。因为常用的生存分析
方法都在生存时间排序的基础上作统计处理, 即使是小小的舍入误差,也可能改变生存时 间顺序而影响结果。 缺项应尽量补齐。
(四)分析资料
估计: Kaplan- Meier法,寿命表法 比较: log-rank检验 影响因素分析:Cox比例风险回归模型
比较:对不同处理组生存率进行比较,如 比较不同疗法治疗脑瘤的生存率,以了解 哪种治疗方案较优。
影响因素分析:目的是为了探索和了解影 响生存时间长短的因素,或平衡某些因素 影响后,研究某个或某些因素对生存率的 影响。如为改善脑瘤病人的预后,应了解 影响病人预后的主要因素,包括病人的年 龄、性别、病程、肿瘤分期、治疗方案等。
活满一年例数 p 年初观察例数
生存率: (survival rate, survival function ) 指观察对象经历t个单位时段后仍存活的 可能性。
3年生存率=期活初满观3年察例例数数
5年生存率=期活初满观5年察例例数数
条件生存概率和生存率的计算
例:手术治疗100例食管癌患者,术后1、 2、3年的死亡数分别为10、20、30,若无 截尾数据,试求各年条件生存概率及逐年 生存率。 生存率计算方法:
《生存分析》
.
小样本未分组资料分析
生存率与标准误 生存率曲线 总体生存率的估计
.
生存率及其标准误
小样本资料(通常为不分组资料),直接 采用概率乘法原理估计生存率,称乘积 极限法。又称Kaplan-Meier(KM)法。 是一种非参数法。
.
各种生存数据的表示
×
X
×
o
X
O
1994
1995
×
X
1996
1997
年. 份
1998 1999
各种生存数据的表示
×
X
×
X
×
X
o
X
1994 1995 1996 1997 1998 1999 2000
.
死亡概率
死亡概率(mortality probability)记 为q,是指死于某时段内的可能性的大小。
.
.
.
截尾数据
截尾数据(censored data)在随访工作中,由于某种 原因未能观察到病人的明确结局(即终止事件),所 以不知道该病人的确切生存时间,它所提供关于生存 时间的信息是不完全的。
产生截尾现象的原因: ①病人失访 ②病人的生存期超过了研究的终止期 ③在动物实验中,达到了事先规定的终止事件
0.8
0.6
0.6
0.4
S(132)=0.5
0.4
0.2
0.2
0.0 0
0.0
100 200 300 400 500
0
Md=158
生存分析知识总结
生存分析知识总结一、生存分析的基本概念生存分析是将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。
研究生存现象和响应时间数据及其统计规律的一门学科。
对一个或多个非负随机变量(生存时间)进行统计分析研究。
对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。
在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计规律的分析与推断方法的学科。
生存时间也叫寿命、存活时间、失效时间等等。
比如:医学上包括疾病发生时间、治疗后疾病复发时间;可靠性工程系为元件或系统失效时间;犯罪学方面是重罪犯人的假释时间;社会学上指首次婚姻持续时间;人口学上包括母乳喂养新生儿断奶时间;经济学包括经济危机爆发时间、发行债券的违约时间;保险精算学包括保险人的索赔时间、保险公司某一索赔中所付保费;汽车工业包括汽车车轮转数;市场学中有报纸和杂志的篇幅和订阅费。
这些也可以说明,生存时间可以不是具体的时间。
二、生存分析的历史生存分析方法最早可上溯至十九世纪的死亡寿命表。
现代的生存分析则开始于二十世纪三十年代工业科学中的相关应用。
二次世界大战时期,武器装备的可靠性研究,这一研究兴趣延续到战后。
此时生存分析都集中在参数模型。
二十世纪六七十年代,医学研究中大量临床试验的出现,要求方法学有新的突破,导致了生存分析的研究开始转向非参数方法。
D.R. Cox在72年提出的比例风险模型为此做出了划时代的贡献。
现在,生存分析方法的在医学领域得到了广泛的应用,而通过医学研究要求的不断提高,这一方法也得到了飞速的发展。
三、生存分析的研究目的,内容和具体方法(一)研究目的主要由以下五个方面1.描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。
生存分析
生存率计算
0.72=0.8*0.9,0.51=0.70833*0.72………
生存率计算
注意出现截尾数据后,下个区间的生存概率情况,截尾数据属于丢失了,可以有失访但最好是随机的,而不是有方向性的。
生存率的标准误(Greenwood估计)
SE S ( t i ) S ( t i )
n (n
研究指标
4 风险比(hazard ratio)
=相对危险度(RR)
第一组的h1 (t ) 风险比= 第二组的h2 (t )
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 A1 A2 B1 + B2 B1
B2 A1 B1
比例风险图示(1)注:比值不随时间变化而变化
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 B1 + B2
(n s
j 1 j
i
dj
j
)
SAS 数据格式
编号 分组变量
观察时间
事件是否 发生
SAS
Kaplan-Meier法
PROC LIFETEST data = a.km METHOD=PL PLOTS=(s); TIME time*p(1); strata group; RUN;
数据汇总
生存时间的比较
a. Dependent Variabl e: ti me
score检验
变量筛选
后退法
前进法
一般选择
逐步法
事件发生时间相同时
RR CI
• RISKLIMITS -RL
比例风险假设的检验
• log{-log[S(t)]}=log{-log[S0(t)]}+bx • 以时间t为横坐标,LML为纵坐标 两条线基本平行说
生存分析
第1章基本概念第1节生存资料的特点生存资料(Survival Data)或失效时间资料(Failure-time Data)与多元线性回归资料很相似,只不过因变量(或反应变量)通常为观测对象生存的时间,常用t来表示。
当然,生存时间是广义的,可以指在通常意义下生物体的生存时间、也可以指所关心的某现象(如疾病治愈后、合格品使用后)持续的时间。
若生存时间是准确观测到的,则称为完全数据。
生存资料的一个明显特点是:所收集的资料中常常包含不完全数据,也称为截尾数据、删失数据、终检数据(Censored Data)。
包括删失数据的资料,称为删失资料。
对于删失数据,既不能简单地弃之,踊能像对待完全数据那样给予充分的信任,需要采取一些技术处理。
专门处理这种资料的统计方法,称为生存分析(Survival Analysis)。
导致数据删失有多种原因,最常见的有:失访(病人因搬家、随访信件丢失、车祸等原因,导致医生对他们的随访观察中断)和研究截止。
由随机因素引起的,称为随机删失;若事先就定了截止日期,则称为定时删失(也称Ⅰ型删失);若事先就定了观察完多少例就截止研究,则称为Ⅱ型删失(也称为定数删失)。
在表达删失数据时,常在其右上角放一个“+”号;而用SAS软件分析时,常在其前放一个“-”号或产生1个指示变量(如:C=0表示删失数据、C=1表示完全数据,反过来也可以),便于计算时区别对待。
为了使数据的表达与计算在形式上统一起来,本篇一律用负数表示删失数据,因生存时间不可能为负值,故不会产生混淆。
第2节生存时间函数描述生存时间规律的函数很多,统称为生存时间函数。
其中最主要的有生存函数、死亡概率函数、概率密度函数和危险率函数。
1.生存函数(Survival Function)生存函数也称为生存概率或累积生存率,常用S(t)表示,它表示一个体生存时间长于t的概率。
在具体问题中,该函数在t时刻的取值可用式(5.1.1)来估计∶S(t)≈生存时间长于t的病人数/病人总数(5.1.1)2.死亡概率函数(Failure Probability Function)死亡概率函数简称为死亡概率,常用F(t)表示,它表示一个体从开始观察起到时刻t为止的死亡概率。
生存分析
在某些领域的分析中,常常用追踪的方式来研究事物的发展规律,比如研究某种药物的疗效,手术后的存活时间,某件机器的使用寿命等。
这种分析的特点是追踪研究的对象都要经过一段时间,而且经常会碰到出于某种原因无法继续追踪的情况。
生存分析就是用来研究这段追踪时间的分布规律以及相关因素的一种统计分析方法。
一、生存分析的一些概念1.观察起点是指由研究者确定的研究开始时的时间2.终点事件是指由研究者确定的某种发生的事件,这种事件必须明确定义,而且并不一定是消极事件3.生存时间是指从观察起点到终点事件发生时所经历的时间跨度,这个时间也未必是通常意义上的时间,也可以是和时间相关的变量。
比如距离等,具体要根据研究目的而定义。
4.删失数据由于经常会碰到出于某种原因无法继续追踪的情况,导致终点事件分为两种:一种是完整数据,用t表示,它准确的度量了从观察起点到终点事件发生的完整时间,提供的生存时间的信息是全面准确的。
另一种是删失数据,用t+表示,由于某种原因没有追踪到终点事件的发生,它提供的生存时间信息是不完整的。
造成删失数据的原因主要有失访、终点事件的发生并不是由于预定义的原因造成、研究结束时终点事件并未发生等。
5.死亡概率表示某时段开始存货的个体,在该时段内死亡的可能性,如年死亡概率q=某年内死亡人数/某年年初人口数,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/26.生存概率某时段开始时存活的个体,到该时段结束时让然存活的可能性p=某年存活满一年的人数/某年年初人口数=1-q,如果年内存在删失数据,需要对分母进行校正,校正人口数=年初人口数-删失例数/27.生存函数也称为生存率或累积生存概率,是随着时间的变化而变化的,是关于时间的函数,是指0时刻存活的个体经历t个时段之后仍然存活的可能性,或者说个体的生存时间T大于某时刻t的概率,t=0时,生存函数取值为1,随着t增大,生存函数值逐渐减小如果存在删失数据,则需要分段计算生存概率,在应用概率的乘法定理将分段概率相乘,注意:生存概率是针对单位时段而言的,生存函数是生存概率的累积结果。
SPSS教程第十五课生存分析
SPSS教程第十五课:生存分析信息来源:本站原创更新时间:2004-7-12 21:11:00在临床诊疗工作的评价中,慢性疾病的预后一般不适合用治愈率、病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗效果。
这就是生存分析。
第一节 Life Tables过程14.1.1主要功能调用此过程时,系统将采用即寿命表分析法,完成对病例随访资料在任意指定时点的生存状况评价。
14.1.2实例操作[例14-1]用中药+化疗(中药组,16例)和单纯化疗(对照组,10例)两种疗法治疗白血病患者后,随访记录存活情况如下所示,试比较两组的生存率。
14.1.2.1 数据准备激活数据管理窗口,定义变量名:随访月数的变量名为TIME,是否死亡的变量名为DEATH,分组(即中药组与对照组)的变量名为GROUP。
输入原始数据:随访月数按原数值;是否死亡的,是为1,否为0;分组的,中药组为1,对照组为2。
14.1.2.2 统计分析激活Statistics菜单选Survival中的Life Tables...项,弹出Life Tables 对话框(图14.1)。
从对话框左侧的变量列表中选time,点击 钮使之进入time框;在Display Time Intervals栏中定义需要显示生存率的时点,本例要求从0个月显示至48个月,间隔为2个月,故在0 through框中输入48,在by 框中输入2。
选death,点击 钮使之进入Status框,点击Define Event...钮弹出Life Tables:Define Event for Status Variable对话框,在Single value栏中输入1,表明death = 1为发生死亡事件者;点击Continue钮返回Life Tables 对话框。
选group,点击 钮使之进入Factor框,点击Define Range...钮,弹出Life Tables:Define Range for Factor Variable对话框,定义分组的范围,在Mininum框中输入1,在Maxinum框中输入2,点击Continue钮返回Life Tables对话框。
生存分析基础知识
生存分析基础知识生存分析是一种统计方法,用于研究个体或群体在特定时间段内生存的概率和影响因素。
它广泛应用于医学、生物学、社会科学等领域,帮助研究人员了解疾病发展、生物进化、社会现象等方面的规律。
本文将介绍生存分析的基础知识,包括生存函数、生存率、危险比等概念和方法。
一、生存函数生存函数是生存分析的核心概念之一,用于描述个体或群体在不同时间点上存活的概率。
生存函数通常用S(t)表示,其中t表示时间。
生存函数的定义如下:S(t) = P(T > t)其中,T表示个体或群体的生存时间,P(T > t)表示生存时间大于t的概率。
生存函数的取值范围为0到1,随着时间的增加,生存函数逐渐减小。
二、生存率生存率是生存函数的导数,表示在某一时间点上存活的概率密度。
生存率通常用s(t)表示,其定义如下:s(t) = dS(t)/dt生存率的取值范围为0到1,随着时间的增加,生存率逐渐减小。
生存率可以用来比较不同时间点上的生存概率,从而了解个体或群体的生存状况。
三、危险比危险比是生存分析中常用的比较指标,用于比较两组个体或群体的生存风险。
危险比通常用HR表示,其定义如下:HR(t) = h1(t)/h0(t)其中,h1(t)表示第一组个体或群体在时间t的危险函数,h0(t)表示第二组个体或群体在时间t的危险函数。
危险函数描述了在给定时间点上个体或群体发生事件的风险。
危险比大于1表示第一组个体或群体的生存风险高于第二组,危险比小于1表示第一组个体或群体的生存风险低于第二组,危险比等于1表示两组个体或群体的生存风险相等。
四、生存分析方法生存分析方法包括Kaplan-Meier方法、Cox比例风险模型等。
Kaplan-Meier方法用于估计生存函数,通过计算观测到的生存时间和事件发生情况,得到生存函数的估计值。
Cox比例风险模型用于分析生存时间与多个危险因素之间的关系,通过估计危险比来评估不同因素对生存的影响。
医学统计学-生存分析
时间间隔,常用t表示。狭义的生存时间指患某疾病的病
人从发病到死亡所经历的时间跨度,广义的生存时间定义 为从某种起始事件到终点事件所经历的时间跨度。 如:急性白血病病人从治疗开始到复发为止之间的缓解期, 冠心病病人两次发作之间的时间间隔,戒烟开始到重新吸烟 之间的时间间隔,接触危险因素到发病的时间间隔等。 生存分析中最基本的问题就是计算生存时间,要明确规定事
COX比例风险回归模型
在医学研究中,观察对象生存时间往往受多种因 素的影响,如胃癌手术后的生存时间,除了与治疗 方案有关外,还可能与患者年龄、体质、病情轻重、 病理类型、用药等情况有关。统计学上将这些因素 称为协变量。 由于生存时间资料常存在截尾值,生存时间t往往 不能满足正态分布和方差齐性的要求,一般不适宜 用参数方法(如多元线性回归等)来分析生存时间与 各协变量之间的关系。 为解决这类问题,英国生物统计学家 D. R Cox 于 1972 年提出比例风险回归模型用于分析带有协 变量的生存时间资料。
• 第三步:生存分析(3)
• 第四步:结果解读(1)
结果解读:生存表基本描述
• 第四步:结果解读(2)
结果解读:生存表统计描述 中位生存时间及95%CI
• 第四步:结果解读(3)
结果解读:生存函数图
【例2】某医院对100例胰腺癌切除术后的患者 进行随访,得资料如下。试分析其生存过程。
• (7)=(6)-(5)/2 • ( 8 ) = ( 4 ) /( 7) • (9)= 1-(8)
结果解读:生存表统计描述 中位生存时间及95%CI
• 第四步:结果解读(4)
结果解读:组间比较的Log Rank 检验
• 第四步:结果解读(5)
结果解读:生存曲线
【例4】20例肺癌患者随机分为放疗组和放疗加中 药联合治疗组,从缓解出院日开始随访,随访时 间如下。试分析两种治疗方案的效果有无差别?
SPSS15-生存分析-课件PPT
therapy b 1=standard
Frequenc y 69
(1) a 1
2=tes t
cell b
1=squ am ous
68
0
35
0
2=sm all
48
1
3=adeno
27
0
prior b
4=large 0=treat
27
0
97
1
1=unt reat
40
0
a. The (0,1) v ariable has been recoded, so its coef f ic ients will not be the same as f or indicator (0,1) coding.
Cox Regression
返回 24
Cox 回归分析主对话框
返回 25
Cox模型定义分类协变量对话框
返回 26
Cox模型图形对话框
返回 27
Cox模型保存新变量对话框
返回 28
Cox模型选择项对话框
返回 29
数据文件中的变量
变量名
含义
值
id
患者编号
age
年龄
diagtime 诊断到治疗的 时间
第15章 生存分析
返回 1
目
录
基本概念
生存函数 Cox回归模型
生命表分析
生命表分析过程 生命表的实例分析
Kaplan-Meier分析
Kaplan-Meier分析过程 Kaplan-Meier实例分析
Cox Regression风险比例模型分析
Cox Regression分析过程 Cox Regression实例分析
生存分析-cox_回归与sas应用总结
---------------------------------------------------------指标 回归系数 -0.7169 -1.0077 P值 0.0469 0.0068 相对危险度 0.488 0.365 ---------------------------------------------------------肿瘤部位中段 肿瘤部位下段
run;
The PHREG Procedure
Data Set: aa Dependent Variable: DAYS Censoring Variable: CENSOR Censoring Value(s): 1 Ties Handling: BRESLOW
数据集名称 应变量名 截尾指示变量 截尾值 BRESLOW 法处理相等的数据
X1,X2,••••,Xm是协变量 1 ,2,••••••,m是回归系数,由样本估计而得。
Байду номын сангаас
COX回归用于研究各种因素(称为协变量,或伴随变量等)对于生存期长短 的关系,进行多因素分析。
I >0表示该协变量是危险因素,越大使生存时间越短
I <0表示该协变量是保护因素,越大使生存时间越长 h0(t)为基础风险函数,它是全部协变量X1,X2,••••,Xm都为0或标准状 态下的风险函数,一般是未知的。
当Xi为二值变量时,如转移(1=转移,0=不转移) exp(bi)为转移相对于不转移对于死亡的相对危险度(或比数比)
COX回归的应用:
(3)比较各因素对于生存期长短的相对重要性
比较各标准化偏回归系数bi’ 绝对值的大小,绝对值大的对生存期长 短的作用也大。
(4) 考察因素之间的交互作用
第十五章生存分析第一节生存资料的特点
第十五章生存分析第一节生存资料的特点第十五章生存分析第一节生存资料的特点前面有关章节介绍了多种定量资料和定性资料的统计分析方法。
下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。
某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。
试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。
化疗组1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。
临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。
显然,结局为“生存”且存活时间越长,其疗效就越好。
反之,结局为“死亡”且存活时间越短,其疗效就越差。
结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。
从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。
但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。
退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。
因此,不宜采用t检验或方差分析。
秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
生存分析-cox 回归与sas应用总结
描述 -生存时间 生存率 风险率 • 非参数法 -KM法 、寿命表 (LIFETEST) • 参数法- 指数模型、Weibull模型、Gompertz模型 ( LIFEREG) • 半参数法- COX回归 (PHREG)
Cox 回归分析是生存分析的一种半参数分析方法。 优点: 多因素分析方法 不考虑生存时间分布 利用截尾数据
SELECTION=自变量筛选方法 FORWARD/F: 按规定的P值SLE从无到有依次选择变量进入模型 BACKWARD/B: 按规定的P值SLS从含有全部变量的模型开始,依次剔除变量
STEPWISE/S:按SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准 剔除不显著的变量 SCORE 采用最优子集选择法
成比例风险模型检验:((最大似然法迭代 )(似然比
模型参数的检验:似然比、比分检验和Wald检验
PHREG过程的语法格式如下: PROC PRREG [过程选项]; MODEL <生存时间变量*截尾指示变量(数值)>=<自变量名> /[模型选项]; STRATA <分层变量名列>; FREQ <变量名列>; BY <分组变量名列>; RUN;
0.989726 0.52355
3.57363
0.0587
2.690
4.112210 1.13854
13.04529
0.0003
61.082
对自变量的检验结果用Waldχ2检验,P值分别为0.0587,0.0003。 COX回归方程:h(t,x)=h0(t)*e0.989726group+4.112210renal 相对危险度分别为2.690,61.082,说明B组死亡的危险为A组的2.690倍,而伴肾功能 损 害的死亡的危险为无肾功能损害61.082倍。
(2021年整理)生存分析知识点总结
(完整)生存分析知识点总结编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整)生存分析知识点总结)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为(完整)生存分析知识点总结的全部内容。
生存分析知识点总结09统计(经济分析1班)周姗琪 32009121215一、基本概念1、生存分析:将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。
研究生存现象和响应时间数据及其统计规律的一门学科.对一个或多个非负随机变量(生存时间)进行统计分析研究.对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法.2、生存时间:生存时间也叫寿命、存活时间、失效时间等等3、研究目的:①描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线.统计方法包括K-M法、寿命表法。
②比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。
统计方法log-rank检验等。
③影响因素分析:研究某个或某些因素对生存率或生存时间的影响作用.如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等.统计方法Cox比例风险回归模型等。
④预测:建立Cox回归预测模型.4、研究内容:描述生存过程和对生存过程影响因素分析及结局预测。
5、主要分析方法:参数法方法、非参数方法、半参数方法。
二、生存分析数据类型1、完全数据:每个个体确切的生产时间都是知道的。
这样的数据称为完全数据。
但在实际的生存分析中,数据在很多情况下是很难完全观察到的。
2、删失:在研究结束时,无法获得某些个体确切的生存时间。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十五章生存分析第一节生存资料的特点前面有关章节介绍了多种定量资料和定性资料的统计分析方法。
下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。
某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。
试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。
化疗组1,2,3,5,6,9+,11,13,16,26,37+放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。
临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。
显然,结局为“生存”且存活时间越长,其疗效就越好。
反之,结局为“死亡”且存活时间越短,其疗效就越差。
结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。
从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。
但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。
退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。
因此,不宜采用t检验或方差分析。
秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
因此,该资料也不适宜采用秩和检验。
那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?如果勉强把带“+”号的患者看作“生存”的话,该资料可转化为二分类(结局为“生存”和“死亡”)的四格表资料:化疗组2人生存,9人死亡;放化疗联合组3人生存,8人死亡。
由于样本含量小(2240n=<),可采用四格表资料确切概率法进行统计分析。
但这种处理有失妥当:一是带“+”号的患者并不都是存活的患者;二是将定量资料转化为定性资料会损失部分信息。
更为重要的是,转化为定性资料后采用四格表资料Fisher确切概率法进行分析,只是比较两种治疗措施的结局(生存率)有无差别,而未比较患者接受两种治疗措施后的生存时间有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。
因此,将该资料转化为定性资料后采用四格表资料确切概率法进行统计分析亦欠妥当。
综上所述,这种类型的资料采用前面章节介绍的定量资料或定性资料的统计分析方法进行统计分析均不合适。
那么,这种类型的资料究竟有些什么特点、适宜采用何种统计方法进行统计分析?在医学科学研究中,与之相类似的资料还有很多。
在这类研究中,研究者不仅关心某事件发生的结局,同时还关心发生这种结局所经历的时间。
如恶性肿瘤、糖尿病、高血压、心血管疾病等慢性病治疗措施的疗效评价,不仅要考虑治愈率或缓解率,还要考虑治愈时间或缓解时间;预防保健措施的效果评价,不仅要考虑使用保健措施的结果(“好”或“坏”),同时还要考虑出现这种结果所经历的时间,如采取健康教育控制青少年吸烟的效果评价,不仅要考虑青少年接受健康教育后是否吸烟,还要考虑从戒烟到复吸的时间长短;疾病预后的影响因素评价,也要同时考虑疾病的结局(“生存”和“死亡”)和出现这种结局所经历的时间,如肾移植患者术后效果的影响因素评价,不仅要考虑患者是否存活,还要考虑其生存时间。
这类资料在统计学上被称为生存资料(survival data),概括起来具有以下几个共同特点:①蕴涵有结局和时间两个方面的信息;②结局为两分类互斥事件;③一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止;④常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂,不能简单地套用前面介绍过的统计方法,如t检验、方差分析、2χ检验、四格表资料确切概率法或秩和检验进行分析。
分析生存资料的统计方法称为生存分析(survival analysis),它是将事件的结局和发生这种结局所经历的时间进行综合分析的一大类统计方法。
生存分析是近30多年来逐步发展和完善起来的一种新的数理统计学分支,具有相对独立的理论体系。
随着其理论体系的不断完善和计算机技术的飞速发展,目前已广泛应用于工业、农业、国防和医学等领域。
本章首先介绍生存分析的基本内容及几个基本概念,然后重点介绍未分组资料和分组资料的生存分析,以及生存曲线比较的假设检验方法。
第二节生存分析的基本内容及几个基本概念一、生存分析的基本内容1. 描述生存过程:研究生存时间的分布特点,估计生存率及其标准误、绘制生存曲线等。
例如,根据乳腺癌患者手术后的生存资料,可以估计不同时间点的生存率及其标准误,如1年生存率、3年生存率、5年生存率等,还可以绘制生存曲线,观察乳腺癌患者手术后的生存过程。
常用方法有乘积极限法和寿命表法。
2. 比较生存过程:获得生存率及其标准误的估计值后,可进行两组或多组生存曲线(生存过程)的比较。
例如,比较两种不同治疗措施治疗恶性肿瘤患者的生存曲线,可了解哪种治疗措施较优,从而为临床决策提供依据。
常用方法有对数秩检验。
3. 生存过程的影响因素分析:例如,为了改善鼻咽癌患者的预后,应先了解可能影响患者预后的因素,如年龄、病程、病情、术前健康状况、有无淋巴结转移、术后有无感染、辅助治疗措施、营养状况等,通过随访收集患者术后的生存时间和上述因素的资料,然后采用多因素生存分析方法确定影响患者预后的主要因素,从而为在手术前后进行预防或干预提供参考依据。
常用的多因素生存分析方法有Cox比例风险回归模型(见第十六章)。
二、生存分析中的几个基本概念1. 死亡事件(death event) 又称失效事件(failure event)或终点事件,死亡事件是一个广义概念,不单是指通常意义下的生物体死亡,而是泛指标志某种处理措施失败或失效的特征事件。
一般是在设计阶段根据研究目的来确定,如乳腺癌患者手术后的死亡、白血病患者化疗后的复发、肾移植患者的肾功能衰竭、接受健康教育戒烟后的青少年复吸烟、接受某种健康保险方式后的中途退保等,均可作为死亡事件。
2. 生存时间(survival time) 指观察到的存活时间,可用天、周、月、年等时间单位记录,常用符号t表示。
如表15.1中6个患者的生存时间分别为117,89,108,96,58,85天。
表15.1 6例乳腺癌患者手术后的随访记录患者编号观察记录生存天数t开始日期终止日期结局(死=1,生=0)原因1 2002-09-03 2002-12-29 0 死于肺癌117+2 2002-09-10 2002-12-08 1 转移死亡893 2002-09-14 2002-12-31 0 研究终止108+4 2002-08-25 2002-11-29 0 失访96+5 2002-10-01 2002-11-28 0 死于车祸58+6 2002-10-04 2002-12-28 1 复发死亡85一般情况下,较细的时间单位准确性较高,因为多数生存分析方法都是在生存时间排序的基础上进行统计处理的,即使是较小的舍入误差,也可能改变生存时间顺序而影响分析结果。
但实际工作中有时很难采用较细的时间单位来度量生存时间,如研究者知道某乳腺癌患者在2002年11月间死亡,但可能不知道具体是哪一天,此时只能用较粗的时间单位“月”来度量,或用2002年11月15日作为该患者死亡时间的粗略估计值。
生存时间也是一个广义概念,不单是指通常意义下生物体的存活时间,而是泛指研究者所关心的某现象的持续时间,如白血病患者化疗后的缓解时间、肾移植患者的存活时间、接受健康教育后青少年的戒烟时间、投保某种健康险至中途退保的时间等。
生存时间根据其不同的特点,可分为以下两种类型:(1) 完全数据(complete data):指从观察起点到发生死亡事件所经历的时间,如表15.1中2和6号患者对应的生存天数89天和85天。
(2) 截尾数据(censored data):简称截尾值(censored value),又称删失值或终检值。
生存时间观察过程的截止不是由于死亡事件,而是由于其他原因引起的,称为截尾(censored)。
截尾的主要原因有以下三种:①失访(withdrawal):指失去联系,如信访无回音、电话采访不应答、上门采访找不到人、搬迁没留地址等;②退出:指死于非研究因素或非处理因素而退出研究,如死于车祸等意外事件、死于其它疾病等;③终止:指设计时规定的研究时限已到而终止观察,但研究对象仍然存活。
从观察起点到截尾时点所经历的生存时间称为截尾数据,习惯上在生存时间右上标注“+”表示,如表15.1中1, 3, 4, 5号患者的生存天数分别记录为117+, 108+, 96+, 58+。
完全数据提供了观察对象确切的生存时间,是生存分析的主要依据;截尾数据仅提供了部分信息,研究者并不知道观察对象确切的生存时间。
因此,截尾数据太多会影响生存分析的效果。
3. 死亡概率与生存概率(1) 死亡概率(mortality probability):记为q ,是指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。
年死亡概率的计算公式为:q =某年内死亡数某年年初观察例数(15.1)若年内有截尾,则分母用校正人口数:截尾例数年初观察例数校正人口数21-= (15.2) (2) 生存概率(survival probability):记为p ,与死亡概率相对立,表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。
某年生存概率的计算公式为:1p q =-=某年活满一年人数某年年初观察例数(15.3)分子即年底尚存人数,若年内有截尾,则分母用校正人口数。
4. 生存率与生存曲线(1) 生存率(survival rate):记为ˆ()kS t ,是指观察对象活过t k 时刻的概率。
生存率也是一个广义概念,研究者定义的死亡事件不同,其含义亦不同,可以是缓解率、有效率等。
如定义白血病化疗的死亡事件为白血病复发,此时生存率即为缓解率;定义预防接种腮腺炎疫苗的死亡事件为接种儿童发生腮腺炎,此时生存率即为疫苗的有效率;定义安置宫内节育器的死亡事件为因带环受孕取出节育器,此时生存率即为节育器的保留率。