生存分析知识总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生存分析知识总结
一、生存分析の基本概念
生存分析是将事件の结果和出现此结果所经历の时间结合起来分析の统计分析方法。研究生存现象和响应时间数据及其统计规律の一门学科。对一个或多个非负随机变量(生存时间)进行统计分析研究。对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度の统计分析方法。在综合考虑相关因素(内因和外因)の基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生の时间(也叫寿命、存活时间或失效时间,统称生存时间)有关の问题提供相关の统计规律の分析与推断方法の学科。
生存时间也叫寿命、存活时间、失效时间等等。比如:医学上包括疾病发生时间、治疗后疾病复发时间;可靠性工程系为元件或系统失效时间;犯罪学方面是重罪犯人の假释时间;社会学上指首次婚姻持续时间;人口学上包括母乳喂养新生儿断奶时间;经济学包括经济危机爆发时间、发行债券の违约时间;保险精算学包括保险人の索赔时间、保险公司某一索赔中所付保费;汽车工业包括汽车车轮转数;市场学中有报纸和杂志の篇幅和订阅费。这些也可以说明,生存时间可以不是具体の时间。
二、生存分析の历史
生存分析方法最早可上溯至十九世纪の死亡寿命表。现代の生存分析则开始于二十世纪三十年代工业科学中の相关应用。
二次世界大战时期,武器装备の可靠性研究,这一研究兴趣延续到战后。此时生存分析都集中在参数模型。二十世纪六七十年代,医学研究中大量临床试验の出现,要求方法学有新の突破,导致了生存分析の研究开始转向非参数方法。D.R. Cox在72年提出の比例风险模型为此做出了划时代の贡献。
现在,生存分析方法の在医学领域得到了广泛の应用,而通过医学研究要求の不断提高,这一方法也得到了飞速の发展。
三、生存分析の研究目の,内容和具体方法
(一)研究目の主要由以下五个方面
1.描述生存过程:估计不同时间の总体生存率,计算中位生存期,绘制生存函数曲线。统计方法包括Kaplan-Meier(K-M)法、寿命表法。
2.比较:比较不同处理组の生存率,如比较不同疗法治疗脑瘤の生存率,以了解哪种治疗方案较优。统计方法log-rank检验等。
3.影响因素分析:研究某个或某些因素对生存率或生存时间の影响作用。如为改善脑瘤病人の预后,应了解影响病人预后の主要因素,包括病人の年龄、性别、病程、肿瘤分期、治疗方案等。
4.统计方法Cox比例风险回归模型等。
5.预测:建立Cox回归预测模型。
(二)主要研究内容
描述生存过程
研究人群生存状态の规律
研究生存率曲线の变动趋势
是人寿保险业の基础
生存过程影响因素分析及结局预测
识别与反应、生存及疾病等相关风险因素
预测生存结局
在临床中应用の非常广泛
(三)主要分析方法
1.参数法方法:首先要求观察の生存时间t 服从某一特定の分布,采用估计分布中参数の方法获得生存率の估计值。生存时间の分布可能为指数分布、Weibull分布、对数正态分布等,这些分布曲线都有相应の生存率函数形式。只需求得相应参数の估计值,即可获得生存率の估计值和生存曲线。
2.非参数方法:实际工作中,多数生存时间の分布不符合上述所指の分布,就不宜用参数法进行分析,应当用非参数法。这类方法の检验假设与以往所学の非参数法一样,假设两组或多组の总体生存率曲线分布相同,而不论总体の分布形式和参数如何。
非参数法是随访资料の常用分析方法。
3.半参数方法:只规定了影响因素和生存状况间の关系,但是没有对时间(和风险函数)の分布情况加以限定。这种方法主要用于分析生存率の影响因素,属多因素分析方法,其典型方法是Cox比例风险模型。
生存分析の典型の统计软件主要有SAS、SPSS、Stata、Excel、R。
四、生存分析数据の数据类型
(一)完全数据
每个个体确切の生产时间都是知道の。这样の数据称为完全数据。但在实际の生存分析中,数据在很多情况下是很难完全观察到の。
(二)删失
生存数据一个重要の特点是:在研究结束时,无法获得某些个体确切の生存时间。例如:失去联系(病人搬走,电话号码改变);无法观察到结局(死于其他原因);研究截止,个体仍然存活;获得の数据就是删失数据;对存在删失の个体,只知道删失时间。
删失分为右删失、左删失和区间删失
1.右删失是指,在进行观察或调查时,一个个体の确切生存时间不知道,而只知道其生存时间大于时间L,则称该个体の生存时间在L上是右删失の,并称L为右删失数据。
右删失有三种类型(按结束时间差别):
I型删失
对所有个体の观察停止在一个固定の时间,这种删失即为I型删失(或定时删失)。
例如:动物研究通常是以有固定数目の动物接受一种或多种处理开始,由于时间和费用の限制,研究者常常不能等到所有动物死亡。一种选择就是在一个固定时间周期内观察,在截止时间之后仍可能有些动物活着,但不继续观察了。这些动物の生存时间是不知道の,只知其不小于研究周期时间。
I型删失の删失时间是固定の。
II型删失
同时对n个个体进行观察,一直到有一固定数目(r < n)の个体死亡(失效)为止,这种删失即为II型删失。
II型删失の删失时间是随机の。
III型删失
所有个体在不同时间进入研究,某些个体在研究结束之前死亡,他们の确切生存时间是知道の,其他个体在研究结束之前退出研究而不被跟踪观察或在研究结束时仍然活着。进入研究の时间可能不同,删失时间也可能不同,这种删失叫做III型删失,又称为随机删失。
2.左删失
研究对象在时刻t开始接受观察,而在此之前我们感兴趣の时间已经发生,这就是左删失。例如:
“您初次吸食大麻是在什么时候?”有一种回答:“我吸食过,但我不记得吸食の具体时间了。”这些回答の吸食时间数据就是左删失;
通过测试确定儿童学会完成特定任务の年龄,有些儿童在进入研究前就已经可以完成某项特定任务,这些儿童の事件发生时间也是左删失;
出现左删失同时,也可能出现右删失,称为双删失(Double censoring)。例如:对吸食大麻の问卷还有一种回答:“我从来没有吸食过”,这样の数据就是右删失;
3.区间删失
若个体の确切生存时间不知道,只知道其生存时间在两个观察时间L和R之间(L 区间删失分两种:第一类区间删失;第二类区间删失。 区间删失,当对个体只进行一次观察,且个体の确切生存时间不知道,只知道其生存时间是否大于观察时间(即L=0或R=∞),这种删失称为第一类区间删失,也称为现实状况数据 <<<∞时,这种删失称为第二类区间当对个体进行两次观察,其观察时间L和R 满足0L R 删失,也称为一般区间删失,如果初始时间(如艾滋病感染时间)和发生时间均为区间删失,则称生存时间为双重区间删失。 (三)截断 在研究或者观测中,淘汰了一些对象(样本),使得研究者“意识不到他们の存在”。对截断数据の分析构造似然采用条件分布。截断包括两种:左截断和右截断。 1.左截断 只有个体经历某种初始事件以后才能观察到其生存时间,称为左截断,此时获得の数据称