生存分析知识点总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生存分析知识点总结
09统计(经济分析1班)周姗琪 32009121215
一、基本概念
1、生存分析:将事件的结果和出现此结果所经历的时间结合起来分析的统计
分析方法。研究生存现象和响应时间数据及其统计规律的一门学科。对一个或多个非负随机变量(生存时间)进行统计分析研究。对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。
2、生存时间:生存时间也叫寿命、存活时间、失效时间等等
3、研究目的:
①描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函
数曲线。统计方法包括K-M法、寿命表法。
②比较:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了
解哪种治疗方案较优。统计方法log-rank检验等。
③影响因素分析:研究某个或某些因素对生存率或生存时间的影响作用。如为
改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。统计方法Cox比例风险回归模型等。
④预测:建立Cox回归预测模型。
4、研究内容:描述生存过程和对生存过程影响因素分析及结局预测。
5、主要分析方法:参数法方法、非参数方法、半参数方法。
二、生存分析数据类型
1、完全数据:每个个体确切的生产时间都是知道的。这样的数据称为完全数
据。但在实际的生存分析中,数据在很多情况下是很难完全观察到的。
2、删失:在研究结束时,无法获得某些个体确切的生存时间。
①右删失:在进行观察或调查时,一个个体的确切生存时间不知道,而只知道
其生存时间大于时间L,则称该个体的生存时间在L上是右删失的,并称L
为右删失数据。
②左删失:研究对象在时刻Ct开始接受观察,而在此之前我们感兴趣的时间
已经发生,这就是左删失。
③区间删失:若个体的确切生存时间不知道,只知道其生存时间在两个观察时
间L和R之间(L 3、截断:在研究或者观测中,淘汰了一些对象(样本),使得研究者“意识不 到他们的存在”。 ①左截断:只有个体经历某种初始事件以后才能观察到其生存时间,称为左截断,此时获得的数据称为左截断数据. ②右截断:只有经历了某种终止事件才能观察到生存时间(将要经历该事件的 个体不包含在实验样本中),称为右截断,此时获得的数据称为右截断数据。 三、基本函数 1、生存函数:描述生存时间统计特征的基本函数,也叫生存率:设T 表示生存时间,F (t )为T 分布函数,生存函数定义为:∞<<-=>=t t F t T P t S 0),(1)()(; 当T 连续:⎰∞ =-=>=t du u f t F t T P t S )()(1)()(,dt t dS t S t f ) ()()(- ='-= 2、危险率函数:描述观察个体在某时刻存活条件下,在以后的单位时间内死亡的概率:h t T h t T P t h ) (lim )(0 ≥+<=+ →λ; 当T 连续:dt t S d t S t f t /)](ln[)(/)()(-==λ; 当T 离散,取值为⋯<<21a a 且⋯===,2,1)()(i a T P a f i i ,则i a 处的危险率: ⋯ =-=-== ≥==----,2,1,) () (1)()()()()()(1111i a S a S a S a S a S a S a f a T a T P i i i i i i i i i i λ∏∏≤≤--==t a i t a i i i i a S a S t S )1()(/)()(1λ 3、累积危险率函数:⎰=Λt du u t 0 )()(λ; 当T 连续:])(exp[)](exp[)(0 ⎰-=Λ-=t du u t t S λ,)](ln[)(t S t -=Λ; 当T 离散时,危险率函数有两种定义形式:∑≤= Λt a i i i t λ )(;∑≤-= Λt a i i i t )1ln()(λ 4、平均剩余寿命函数:) ()()()()(t S ds s f t s t T t T E t r t ⎰∞ -=>-=,)0(r 为平均寿命 5、中位寿命 四、 常用的参数模型 1、指数分布: (1) 生存函数形式为:0,0),exp()(>>-=t t t s λλ (2) 密度函数为:)exp()(t t f λλ-= (3) 危险率函数为:λλ=)(t (4) 指数分布的一个重要性质:无记忆性,即)()(h T P t T h t T P ≥=≥+≥ 2、威布尔分布: (1) 生存函数形式为:0,0],)(ex p[)(>>-=αλλαt t s (2) 危险率函数为:1)()(-=αλλαλt t 3、伽马分布: 生存函数:0,0),(/])exp([1)(0 1>>Γ--=⎰-βλβλβt du u u t s , 其中du u u )exp()(0 1-=Γ⎰∞ -ββ称为伽马函数 4、对数罗吉斯蒂(logistic )分布 5、对数正太分布 五、 生存分析的非参数方法 1、生存函数的估计 (1) 在无删失条件下:个体总数的个数生存时间t )(ˆ>=t S (2) 存在右删失下:D i Y d Y t T t T P i i i i i ,⋯=-=≥>,2,1,)(ˆ (3) 左截断右删失数据生存函数的估计:]1[)(~ i i t t Y d t S i -∏=≤ (4) 左删失数据生存函数估计:)()(t X P t X P -<=>-ττ (5) 同时存在左、右删失情况:)()0(ττ≤-<=≥>X t X P R t R P (6) 生存函数点估计的置信区间:))()(ˆ),()(ˆ(2/12/1t Z t S t Z t S s s σσαα--+- 2、乘积限估计:⎪⎩⎪⎨⎧ ≥-∏<=≤11),1(,1)(ˆt t Y d t t t S i i t t i 3、累积死亡率的估计 (1) 无删失条件下危险率函数的估计: 区间宽度 存活着的个体数在时间数 开始的区间中死亡的个在时间⨯=t t t )(ˆλ (2) 有删失条件下累计死亡率估计: ①直接利用累积死亡率与生存函数的关系:)](ln[)(t S t -=Λ