第十四章生存分析的SAS实现

合集下载

SAS的生存分析(正式)

SAS的生存分析(正式)

风险函数
• 它表示已存活到时刻t的观察对象在时刻t的
瞬时死亡率,又称危险函数,常用h(t)表示

Pr ob(t T t t T h(t) lim
t)

f (t)
t
S (t )
• 该函数表示一个已存活到时刻t的观察对象死 于(t,t+△t)小区间内的概率的极限,它实际 上是一个条件瞬时死亡率。 在具体问题中,
• 半常数法不需要对生存时间的分布作出假定,但 却可以通过一个模型来分析生存时间的分布规律 ,以及危险因素对生存时间的影响。这种方法的 代表是Cox比例风险回归分析法,它兼有非常数法 和参数法的优点,是生存分析中最重要的模型分 析法。它在表达形式上与参数模型相似,但在对 模型中各参数进行估计时又不依赖于特定分布的 假设,所以又称其为半参数模型。
生存数据
• 对于截尾数据,既不能简单地弃之,需要采取一 些技术处理。专门处理这种资料的统计方法,称 为生存分析。应为抛弃截尾数据不仅损失了样本 量,最重要的是在这些截尾数据中,特别是右截 尾数据大部分是生存时间较长者的数据,损失掉 这一部分观察对象的信息,分析结果一定是片面 或不稳定的。
• 截尾数据的存在是生存数据与普通数据的根本区 别。处理截尾数据是生存分析的一个重要特点, 本章介绍的生存分析主要处理右截尾数据。
• 半数生存期,指寿命的中位数,表示有且只有50% 的观察对象可以活这么长时间。由于截尾数据的 存在,半数生存期的计算不同于普通的中位数, 它可应用生存函数曲线图或生存函数公式,令生 存率等于50%,然后推算生存时间。
均数、中位数和半数生存期
• 总之,生存分析主要包括四个方面的内容 :①描述生存过程,即研究生存时间的分 布规律;②比较生存过程,即研究两组或 多组生存时间的分布规律,并进行比较; ③分析危险因素,即研究危险因素对生存 过程的影响;④建立数学模型,即将生存 时间与相关危险因素的依存关系用一个数 学式子表示出来。

生存分析的SAS编程操作

生存分析的SAS编程操作
当设置了“plots=”选项时,禁止将删失值显示在图形中。当选择寿命表法进行计算时,无需设置 此选项。
指定一系列时间点,从而在结果中针对这些时间点显示相应的Kaplan-Meier估计值,该时间点在 输出结果中所在的列以“_TIME_”为标识。
指定生存时间四分位数间距可信区间的置信水平(须在0.0001~0.9999之间),默认设置为 “alpha=0.05”。
指定寿命表区间的个数,此选项可被“width=”和“intervals=”所覆盖。当设置“ninterval=”选项 时,lifetest过程将根据所设置的区间个数划分寿命表的区间,但区间端点将会作适当的调整,使 其以整数的形式出现。因此,最终划分的区间数不一定与设置的区间数完全相符。默认设置为 “ninterval=10”。
半参数法:Cox模型分析方法。
B
3
生存分析方法的SAS过程
非参数法:lifetest过程; 参数法:lifereg过程; 半参数法:phreg过程。
B
4
生存分析的非参数方法
B
5
非参数法生存分析示例1
45例乳腺癌患者中,免疫过氧化物酶检测结果 显示9例阳性、36例阴性,比较其生存时间分 布的SAS程序如下。
run;
B
19
phreg过程
phreg过程针对生存数据执行基于Cox比例风 险模型(Cox proportional hazards model)的 回归分析;
可以检验有关回归参数的线性假设; 针对配对病例-对照研究执行条件logistic回归
分析过程; 创建包含有关统计量的输出数据集等。
proc lifetest plots=(s); time time*censor(1); strata immuno;

11.生存分析与SAS程序

11.生存分析与SAS程序

第十一章生存分析与SAS程序在医学研究中,考察研究因素对研究对象的效应,经典的研究设计方法只观察其所出现的结局或结果。

但是在一些诸如癌症等险恶疾病和慢性病的随访研究中,只观察其结局就不够全面,还需要考察研究对象出现某种结局所经历的时间,这段时间称为生存时间(survival time)。

生存分析是用来分析生存时间资料的统计方法,是近几十年来产生且发展甚为迅速的一门应用统计的分支。

到目前为止,生存分析已形成一套完整的体系,包括描述生存规律和进行组间比较的参数和非参数方法以及分析影响生存期因素的回归模型等。

本章主要介绍描述生存规律的寿命表和乘积限估计法,用于组间比较的logrank检验和作预后因素分析的Cox回归模型以及相应的SAS过程。

11.1生存分析的基本概念11.1.1生存时间在医学研究中,对于肿瘤、心血管等慢性疾病,要考察其治疗方法优劣,疾病预后的好坏以及影响疾病预后的因素,通常采用随访研究的方法。

对某一疾病作随访研究时,一般是从某一时间开始,观察到某一规定时间截止,而研究对象是始点以后陆续进入观察。

随访中要规定一个事件作为随访结局,例如:病人死于研究疾病。

如果病人的随访结果是规定的结局,则称为失效或死亡(Failure),那么病人从进入观察随访到规定的结局出现,其间所经历的这段时间称为生存时间或失效时间(Survival time, Failure time, Waiting time)。

通常用Ti表示(i=1,2,…,n, n为观察个体数)。

在随访中,由于客观条件限制,不能也不可能将全部观察对象都观察到规定的结局(Failure)。

在观察截止时,一组观察对象除了出现规定的结局外,还有三种结果:(1)死于其他疾病;(2)由于迁移等原因失去联系(失访);(3)随访截止时尚未出现规定的结局。

这三种结果虽原因不一,但提供的信息是一致的,这类病人不能获得确切的生存时间,而只知道其生存期比随访观察到的时间长的信息。

生存分析SAS实现

生存分析SAS实现
虽然这三种检验方法都属于非参数检验法,对生存时间的分布没 有要求,但当生存时间的分布为威布尔分布或属于比例危险模型 时,Log-rank检验效率较高;当生存时间的分布为近似对数正态 分布时,Wilconxon检验效率较高;当生存时间的分布近似呈指 数分布时likelihood ratio检验效率较高。因此在选择这三种检验方 法生存曲线时,最好对生存时间的分布有个大概的了解。可通过 绘图下面两个图形来确定生存时间的分布。
time x*censor(1);
strata group;
run;
2. 寿命表法
当随访的样本量较大,可将随访资料按生存时间进行分组, 在分组资料的基础上应用寿命表的原理计算生存率。由于 样本量大,计算的生存率比较稳定。
寿命表法时间区间分组不同计算结果也会不同。
例10-2 某医院1946年1月1日到1951年12月31日收治的126例 胃癌病例生存情况见下表,试用寿命表法计算生存率。
生存分析方法的分类
用于生存分析的方法可分为3类:
(1)生存指标的描述:包括估计生存时间的分位数(包括中位生存时 间)、平均数、生存函数,生存时间分布的作图等。
(2)生存指标的假设检验:即检验各水平的生存指标是否一致,常用 方法有对数秩检验(Log-rank test)、威尔科克森检验(Wilcoxon test) 和似然比检验(Likelihood ratio test).
25
1 0 2 0 3 0 4 0 5 0 7 0 8 0 9 0 10 0 11 0 13 0 14 0 15 0 18 0 19 0 20 1 21 0 23 0 26 0 28 0 31 0 37 0 66 0 73 0 124 1
;
proc lifetest data=eg9_1 method=pl;

第十四章生存分析的SAS实现

第十四章生存分析的SAS实现

第十四章生存分析的SAS实现例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。

分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。

SAS分析程序SAS软件输出结果SAS软件输出结果解释该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。

其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。

最后是生存曲线图。

教材中的说明现用Kaplan-Meier法计算生存率,步骤如下:(1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。

(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。

(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。

例如生存时间为32天时,死亡概率为1/170.058824q ==。

(4)计算各t 时刻的生存概率1p q =-(第(7)列)。

例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。

(5)计算各t 时刻的生存率12()i i S t p p p =(第(8)列)。

SAS的生存分析(正式)

SAS的生存分析(正式)

均数、中位数和半数生存期
• 除了上述的生存时间函数外,均数、中位数、半 数生存期等也反映一组生存时间平均水平常用的 统计指标。由于生存资料多呈正偏态分布,更适 宜选用百分位数,包括中位数指标。
• 半数生存期,指寿命的中位数,表示有且只有 50%的观察对象可以活这么长时间。由于截尾数 据的存在,半数生存期的计算不同于普通的中位 数,它可应用生存函数曲线图或生存函数公式, 令生存率等于50%,然后推算生存时间。
• METHOD=方法:指定估计生存率所用的方法; ①PL,要求用乘积极限法(即Kaplam-Meier法) 估计生存率并计算中位生存时间等,为缺省方法 。②LT,要求用寿命表法估计生存率等。③ INTERVALS=(初值 TO 终值 BY 步长) 只能在指 定分析方法为寿命表法时使用。用寿命表法分析 时,程序会自动给定生存时间的区间。如果人为 规定生存时间的分组区间,则需用该选项指定。 步长的缺省值为1。
非参数分析方法 SAS程序
• NOTABLE:指令不输出生存函数估计结果 ,只输出生存时间的截尾数据和完全数据 的个数以及散点图和检验结果。
• TIME语句用于定义生存时间和截尾指示变 量。对截尾指示变量可以指定发生失效事 件的数值,默认失效事件用0来表示,截尾 事件用1来表示。
非参数分析方法 SAS程序
• 非常数法可以用来完成:①估计生存函数 ;②比较两组或多组生存函数;③分析危 险因素对生存时间的影响。缺点是不能建 立生存时间与危险因素之间的数量依存关 系的数学模型。常用的方法有乘积极限法 (PL法)和寿命表法(LT法)。
半参数模型回归分析
• 在特定的假设之下,建立生存时间随多个危险因 素变化的回归方程。
• 生存时间经常服从的分布有指数分布、Weibull分布、 对数正态分布、对数Logistic回归和Gamma分布。

SAS统计分析(第九讲)

SAS统计分析(第九讲)

2020/3/3
8
▪ 半参数法 不知生存时间分布确切类型,用模型的方法对 模型的部分参数作统计描述与推断。常用的是Cox模型。 相应的SAS过程为:phreg。
注:半参数法与参数法可用来研究多个因素对生存时间 的影响,非参数法难以实施多因素生存分析。
非参数法的lifetest过程
❖ 语法格式: proc lifetest [选项];
Test
Chi-Square DF Chi-Square
Log-Rank 时序检验 7.6283 1 0.0057
Wilcoxon Breslow检验 6.5472 1 0.0105
-2Log(LR) 似然比检验 5.0557 1 0.0245
2020/3/3
17
2020/3/3
18
❖ 大样本资料的寿命表法
2020/3/3
13
Summary Statistics for Time Variable t
Point 95% Confidence Interval
Quantile Estimate [Lower, Upper)
四分位数 点估计
95%可信区间
75% 42.0000 30.0000 .
50% 38.0000 13.0000 42.0000
Mean Standard Error 11.8889 3.2806
Summary of the Number of Censored and Uncensored Values
Stratum group
Percent Total Failed Censored Censored
1
A
11
8
3
27.27

生存分析的SAS编程操作

生存分析的SAS编程操作
提供两种秩检验方法和一种似然比检验方法来 检验多组生存函数的同一性,两种秩检验方法 为包括广义Savage(指数得分)检验(即logrank检验)和Wilcoxon检验。
lifetest过程可包含的语句
proc lifetest < options > ; time variable < *censor(list) > ; by variables ; freq variable ; id variables ; strata variable < (list) > < ... variable < (list) > > ; survival options ; test variables ; run ;
proc lifetest data=valung method=lt; time survtime*censor(1); strata cell;
run;
lifetest过程
用以对右侧删失类型的时间数据进行时间分布 的描述以及多组间时间分布的比较(检验两个 或多个样本是否来自具有同一个生存函数的总 体);
intervals=选项的设置方法
端点值间以空格分隔,如“intervals=10 30 50 70”;
端点之间以逗号分隔,如 “intervals=10,30,50,70”;
“a to b”的形式,如“inter,如“intervals=1 to 7 by
当设置了“plots=”选项时,禁止将删失值显示在图形中。当选择寿命表法进行计算时,无需设置 此选项。
指定一系列时间点,从而在结果中针对这些时间点显示相应的Kaplan-Meier估计值,该时间点在 输出结果中所在的列以“_TIME_”为标识。

第14章生存分析实现

第14章生存分析实现

第十四章生存分析本章使用的STATA命令:例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。

分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。

现用Kaplan-Meier法计算生存率。

解:STATA数据为:STATA命令为:stset time,failure(d=1) sts liststs graph结果为:例14-3下面是来自于Berkson & Gage(1950)的一个研究队列。

为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。

共有374名患者进入研究队列。

表14-3 寿命表法计算生存率的计算用表(1) (2) (3) (4) (5) (6) (7) (8) (9)序号术后生存年数期初观察例数期内死亡期内截尾人数校正期初人数死亡概率生存概率生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t)1 0~374 90 0 374 0.2406 0.7594 0.75942 1~284 76 0 284 0.2676 0.7324 0.55613 2~208 51 0 208 0.2452 0.7548 0.41984 3~157 25 12 151 0.1656 0.8344 0.35035 4~120 20 5 117.5 0.1702 0.8298 0.29076 5~957 9 90.5 0.0773 0.9227 0.26827 6~79 4 9 74.5 0.0537 0.9463 0.25388 7~66 1 3 64.5 0.0155 0.9845 0.24989 8~62 3 5 59.5 0.0504 0.9496 0.237210 9~54 2 5 51.5 0.0388 0.9612 0.228011 10+47 21 26 34 0.6176 0.3824 0.0872解:STATA数据为:time w d1 90 12 76 13 51 14 25 15 20 16 7 17 4 18 1 19 3 110 2 111 21 11 0 02 0 03 0 04 12 05 5 06 9 07 9 08 3 09 5 010 5 011 26 0STA TA命令为:stset time [weight=w],failure(d=1) ltable time d [weight=w],graph 结果为:例14-4在例14-3中介绍了McKelvey et al收集了19名3期淋巴瘤病人的生存资料,该研究者还同时收集了4期淋巴瘤病人的生存数据共61例:4,6,10,11,11,11,13,17,20,20,21,22,24,24,29,30,30,31,33,34,35,39,40,41+,43+,45,46,50,56,61+,61+,63,68,82,85,88,89,90,93,104,110,134,137,160+,169,171,173,175,184,201,222,235+,247+,260+,284+,290+,291+,302+,304+,341+,345+。

生存分析的SAS编程操作

生存分析的SAS编程操作

lifetest过程可包含的语句
proc lifetest < options > ; time variable < *censor(list) > ; by variables ; freq variable ; id variables ; strata variable < (list) > < ... variable < (list) > > ; survival options ; test variables ; run ;
proc phreg语句
proc phreg语句为调用phreg过程的开始,语 句中可设置的语句选项较少,其设置方法及功 能详见下表.
proc phreg语句选项
生存分析的非参数方法
非参数法生存分析示例1
45例乳腺癌患者中,免疫过氧化物酶检测结果 显示9例阳性,36例阴性,比较其生存时间分 布的SAS程序如下.
proc lifetest plots=(s); time time*censor(1); strata immuno; run;
非参数法生存分析示例2
proc lifetest语句
proc lifetest语句为调用lifetest过程的开始,其 主要语句选项及其可执行的功能见下表.
proc lifetest语句的主要选项
选 项 method= 功能和用法 设置用以计算生存函数估计值的方法.此选项可设置的值及其含义如下:"pl"(或"km")—— 乘积极限法(或Kaplan-Meier法);"act"(或"life"或"lt")——寿命表法.默认设置为 "method=pl". 指定用以计算寿命表的区间端点.区间端点必须为非负数,无论指定的区间端点中有无0,寿命表 的计算总是以0为第一个区间的起点,而每一个区间只具有下端点而无上端点(即为半开半闭区 间). 指定寿命表区间的个数,此选项可被"width="和"intervals="所覆盖.当设置"ninterval="选项 时,lifetest过程将根据所设置的区间个数划分寿命表的区间,但区间端点将会作适当的调整,使 其以整数的形式出现.因此,最终划分的区间数不一定与设置的区间数完全相符.默认设置为 "ninterval=10". 以寿命表法计算生存函数估计值时,指定寿命表的区间宽度.此选项可被"intervals="所覆盖. 为生存函数估计值或删失值绘制图形.其完整设置形式应为"PLOTS= ( type <(NAME=name)> <, ..., type <(NAME=name)> > )",其中"type"代表绘图的类型,"NAME=name"表示将所绘图 形以指定的名称存储为SAS目录的条目(entry),其中"NAME"为关键字(可为小写), "name"为用户指定的条目名称.关于绘图类型详见"plots="选项的绘图类型. 当设置了"plots="选项时,禁止将删失值显示在图形中.当选择寿命表法进行计算时,无需设置 此选项. 指定一系列时间点,从而在结果中针对这些时间点显示相应的Kaplan-Meier估计值,该时间点在 输出结果中所在的列以"_TIME_"为标识. 指定生存时间四分位数间距可信区间的置信水平(须在0.0001~0.9999之间),默认设置为 "alpha=0.05".

生存分析参数回归模型拟合及其SAS实现

生存分析参数回归模型拟合及其SAS实现

graphical methods and likelihood—ratio tests.Then prediction of median survival times,survival
rates,and data
hazard function
curves
according to the selected model could be made.If the survival
癌病人从手术治疗开始到死亡的时间等。从上述例子可以看出,生存时间不仅仅指病人从
确诊或治疗开始到死亡所经历的时间,只要按照研究目的规定了观察起点和终点事件,从
ቤተ መጻሕፍቲ ባይዱ
起点到终点事件发生的时间间隔都是生存时间,都可按生存分析方法处理。
1.2概率密度函数
生存时间f的概率密度函数(Probability Density Function)f(t)的定义是
s(D=尸(丁>,)=生≤妻鬻×・。。%
SO)=Pl×P2…×Pk=S(‘一1)×Pk
Rate)。
c・.2,
若含有截尾数据,需分段计算不同单位时间的生存概率P。(i.1,2,…,t),然后利 用概率乘法原理将P.相乘得到f时刻生存率,即 (1-3)
用各种数学模型来描述和表达数据资料的特点及其分布规律。最初即为参数模型,在生存
分析领域中占有非常重要的地位。生存时间的分布往往是偏态的,如指数分布、Weibull分 布、对数正态分布及Gamma分布等,所以生存资料的分析不适合于采用基于正态分布理 论上的统计方法。参数回归模型是在各种生存时间的分布概率模型基础上建立的,它可以 估计出影响因素对风险函数的影响及各时点的生存率。然而,它要求生存时间服从某一特 定的分布类型,而临床试验和随访研究资料中生存时间的分布往往很难确定,加上理论及 当时实际操作上的复杂性,限制了它们在实际中的应用【l。31。

生存分析SAS

生存分析SAS

---------------------------------------------------------------
The LIFETEST Procedure Testing Homogeneity of Survival Curves for t over Strata Rank Statistics group A B group A B group A B Log-Rank -6.5181 6.5181 A 5.78930 -5.78930 A 2250.17 -2250.17 Wilcoxon -131.00 131.00 B -5.78930 5.78930 B -2250.17 2250.17 Pr > Test Log-Rank Wilcoxon -2Log(LR) Chi-Square 7.3386 7.6265 3.8084 DF 1 1 1 Chi-Square 0.0067 0.0058 0.0510
The LIFETEST Procedure Stratum 2: group = B Product-Limit Survival Estimates Survival Standard t 0.0000 6.0000 7.0000 9.0000 10.0000 11.0000 12.0000 12.0000 20.0000 23.0000 25.0000 27.0000 30.0000 34.0000 37.0000 43.0000 50.0000 Survival 1.0000 0.9375 0.8750 0.8125 0.7500 0.6875 . 0.5625 0.5000 0.4375 0.3750 0.3125 0.2500 0.1875 0.1250 0.0625 0 Failure 0 0.0625 0.1250 0.1875 0.2500 0.3125 . 0.4375 0.5000 0.5625 0.6250 0.6875 0.7500 0.8125 0.8750 0.9375 1.0000 Error 0 0.0605 0.0827 0.0976 0.1083 0.1159 . 0.1240 0.1250 0.1240 0.1210 0.1159 0.1083 0.0976 0.0827 0.0605 0 Number Failed 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Number Left 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0

生存分析.SAS

生存分析.SAS
0 1 1 2 x
生存资料的参数拟和---LIFEREG过程

需明确生存函数的分布,从而采用合适的 分布模型:常用的分布如威布尔分布 、 指数分布、logistic分布等
SAS语句
Proc lifereg; Model 时间变量*删失变量(删失值)=自变量列表/[操作选项]; [Class 变量名;] /*如果变量为分类变量,需用class语句说明,以自 动产生哑变量进行参数估计*/ Run; Model语句的操作选项--- Dist=分布类型:关于模型的选项,可选 的分布类型有 • Weibull 威布尔分布 • Exponential 指数分布 • Gamma gamma分布 • Logistic logistic分布 • Llogistic 对数logistic分布 • Lnormal 对数正态分布 默认分布为weibull分布
例15-3 采用15-2的数据 程序3: data cox1; set life2; proc phreg; model days*censor(1)=group renal; run;

结果



模型总的检验有统计学意义,各个回归系 数的P<0.05 根据参数估计的结果,可写出cox 回归方 程: h ( t ) h ( t ) exp( x x ) 比例风险模型有效性检验:在模型中加入 与时间的交互作用项,检验各个因素与时 间是否存在交互作用。
SAS 过程 LIFETEST PHREG LIFEREG
生存资料的非参数检验--- LIFETEST过 程
Proc lifetest [options]; Time 时间变量*删失变量名(删失值);/*指定时间变量和删失值*/ [strata 变量名;] /*分层分析,并进行层间齐性检验*/ [by 变量名;] /*分组分析,类似 strata,但不能进行跨层的齐性检验*/ [test 协变量名;] /*要检验的协变量*/ [freq 变量名;] /*指定频数变量*/ run;

生存分析-cox 回归与sas应用总结

生存分析-cox 回归与sas应用总结

2021/10/10
17
2021/10/10
12
三. Cox 回归 sas 过程
PHREG过程的语法格式如下: PROC PRREG [过程选项]; MODEL <生存时间变量*截尾指示变量(数值)>=<自变量名> /[模型选项]; STRATA <分层变量名列>; FREQ <变量名列>; BY <分组变量名列>; RUN;
指标
回归系数
P值
相对危险度
----------------------------------------------------------
肿瘤部位中段
-0.7169
0.0469
0.488
肿瘤部位下段
-1.0077
0.0068
0.365
深度
0.3585
0.0007
1.431
TNM分期
0.1603
0.0003
2021/10/10
6
二. COX回归的应用
COX回归的应用:
(1)因素分析 分析哪些因素(协变量)对生存期的长短有显著作用。 对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影
响后,该 因素与生存期的长短有显著关系。
(2)求各因素在排除其它因素的影响后,对于死亡的相对危险度(或比 数比)
2.【模型选项】 ENTRYTIME=变量名,规定一个替代左截断时间的变量名。
SELECTION=自变量筛选方法 FORWARD/F: 按规定的P值SLE从无到有依次选择变量进入模型 BACKWARD/B: 按规定的P值SLS从含有全部变量的模型开始,依次剔除变量
STEPWISE/S:按SLE的标准依次选入变量,同时对模型中现有的变量按SLS的标准 剔除不显著的变量 SCORE 采DF (p=0.0010) Wald检验

SPSS(7)生存分析

SPSS(7)生存分析

第十四章生存分析在临床诊疗工作的评价中,慢性疾病的预后一般不适合用治愈率、病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗效果。

这就是生存分析。

第一节Life Tables过程14.1.1 主要功能调用此过程时,系统将采用即寿命表分析法,完成对病例随访资料在任意指定时点的生存状况评价。

14.1.2 实例操作[例14-1]用中药+化疗(中药组,16例)和单纯化疗(对照组,10例)两种疗法治疗白血病患者后,随访记录存活情况如下所示,试比较两组的生存率。

中药组对照组随访月数是否死亡随访月数是否死亡10 21213 18 6 19 26 9 8 6 43 9 4 31 24 否是是否否是是否是是是是否否21371161113177是否是是否否否否否14.1.2.1 数据准备激活数据管理窗口,定义变量名:随访月数的变量名为TIME,是否死亡的变量名为DEATH,分组(即中药组与对照组)的变量名为GROUP。

输入原始数据:随访月数按原数值;是否死亡的,是为1,否为0;分组的,中药组为1,对照组为2。

14.1.2.2 统计分析激活Statistics菜单选Survival中的Life Tables...项,弹出Life Tables对话框(图14.1)。

从对话框左侧的变量列表中选time,点击 钮使之进入time框;在Display Time Intervals栏中定义需要显示生存率的时点,本例要求从0个月显示至48个月,间隔为2个月,故在0 through框中输入48,在by框中输入2。

选death,点击 钮使之进入Status框,点击Define Event...钮弹出Life Tables:Define Event for Status Variable对话框,在Single value栏中输入1,表明death = 1为发生死亡事件者;点击Continue钮返回Life Tables对话框。

SAS的生存分析(正式)

SAS的生存分析(正式)

均数、中位数和半数生存期
• 除了上述的生存时间函数外,均数、中位数、半 数生存期等也反映一组生存时间平均水平常用的 统计指标。由于生存资料多呈正偏态分布,更适 宜选用百分位数,包括中位数指标。 • 半数生存期,指寿命的中位数,表示有且只有 50%的观察对象可以活这么长时间。由于截尾数 据的存在,半数生存期的计算不同于普通的中位 数,它可应用生存函数曲线图或生存函数公式, 令生存率等于50%,然后推算生存时间。
• 该函数表示一个已存活到时刻t的观察对象死 于(t,t+△t)小区间内的概率的极限,它实际上 是一个条件瞬时死亡率。 在具体问题中,该 函数在t时刻的取值可用下式来估计: f (t ) 观察对象在时间区间 [t,t t ]内的死亡人数 • h(t )
S (t )
t时间生存者人数 [t,t t ]时间区间所包含的单位 时间数
死亡函数
• 观察对象的生存时间T不大于某时刻t的概 率称为死亡函数,又称为死亡概率函数简 称为死亡概率,它表示一个体从开始观察 起到时刻t为止的死亡概率,常用F(t)表示 :
F (t ) Pr ob(T t )
• 显然,F(t)是一个随时间增加而上升的函数 ,它表示观察对象随访到t时刻的累积死亡 率。
生存数据
• 一般地,截尾数据可分为右截尾、左截尾、区间 截尾等不同类型。右截尾数据表示观察对象至少 存活到时刻t,即生存时间的上界是未知的。右截 尾数据一般出现在随访过程中某些观察对象失访 或死于其它原因,或在规定的研究过程结束时观 察对象的终止事件还未发生。左截尾数据表示观 察对象至多存活到时刻t,即生存时间的上界是已 知的,但确切的生存时间是未知的。区间截尾数 据表示观察对象至少存活到t1时刻且至多存活到 t2时刻。

生存分析-cox_回归与sas应用总结

生存分析-cox_回归与sas应用总结

---------------------------------------------------------指标 回归系数 -0.7169 -1.0077 P值 0.0469 0.0068 相对危险度 0.488 0.365 ---------------------------------------------------------肿瘤部位中段 肿瘤部位下段
run;
The PHREG Procedure
Data Set: aa Dependent Variable: DAYS Censoring Variable: CENSOR Censoring Value(s): 1 Ties Handling: BRESLOW
数据集名称 应变量名 截尾指示变量 截尾值 BRESLOW 法处理相等的数据
X1,X2,••••,Xm是协变量 1 ,2,••••••,m是回归系数,由样本估计而得。
Байду номын сангаас
COX回归用于研究各种因素(称为协变量,或伴随变量等)对于生存期长短 的关系,进行多因素分析。
I >0表示该协变量是危险因素,越大使生存时间越短
I <0表示该协变量是保护因素,越大使生存时间越长 h0(t)为基础风险函数,它是全部协变量X1,X2,••••,Xm都为0或标准状 态下的风险函数,一般是未知的。
当Xi为二值变量时,如转移(1=转移,0=不转移) exp(bi)为转移相对于不转移对于死亡的相对危险度(或比数比)
COX回归的应用:
(3)比较各因素对于生存期长短的相对重要性
比较各标准化偏回归系数bi’ 绝对值的大小,绝对值大的对生存期长 短的作用也大。
(4) 考察因素之间的交互作用
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第十四章生存分析的SAS实现例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。

分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。

SAS分析程序SAS软件输出结果SAS软件输出结果解释该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。

其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。

最后是生存曲线图。

教材中的说明现用Kaplan-Meier法计算生存率,步骤如下:(1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。

(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。

(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。

例如生存时间为32天时,死亡概率为1/170.058824q ==。

(4)计算各t 时刻的生存概率1p q =-(第(7)列)。

例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。

(5)计算各t 时刻的生存率12()i i S t p p p = (第(8)列)。

例如生存时间为32天时,生存率为18171616(32)0.94117619181719S =⨯⨯==,由此验证了在没有截尾数据的情况下,式(14-4)与式(14-5)是相同的。

(6)以时间t 为横指标,生存率为纵指标,作生存曲线图(图14-1)。

表14-2 Kaplan-Meier 法计算生存率的计算用表(1) (2)(3)(4)(5)(6) (7) (8) 序号 生存 天数 t 时刻前的例数n t 时刻死亡数d t 时刻后截尾人数c死亡 概率q 生存 概率p 生存率 S (t ) 1 6 19 1 0 0.052632 0.947368 0.947368 2 19 18 1 0 0.055556 0.944444 0.894737 3 32 17 1 0 0.058824 0.941176 0.842105 4 42 16 2 0 0.125000 0.875000 0.736842 6 43 14 0 1 0.000000 1.000000 0.736842 7 94 13 1 0 0.076923 0.923077 0.680162 8 126 12 0 1 0.000000 1.000000 0.680162 9 169 11 0 1 0.000000 1.000000 0.680162 10 207 10 1 0 0.100000 0.900000 0.612146 11 211 9 0 1 0.000000 1.000000 0.612146 12 227 8 0 1 0.000000 1.000000 0.612146 13 253 7 1 0 0.142857 0.857143 0.524696 14 255 6 0 1 0.000000 1.000000 0.524696 15 270 5 0 1 0.000000 1.000000 0.524696 16 310 4 0 1 0.000000 1.000000 0.524696 17 316 3 0 1 0.000000 1.000000 0.524696 18 335 2 0 1 0.000000 1.000000 0.524696 19 3461 0 10.0000001.0000000.524696图14-1 例14-2的生存曲线图例14-3下面是来自于Berkson & Gage(1950)的一个研究队列。

为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。

共有374名患者进入研究队列。

表14-3 寿命表法计算生存率的计算用表(1) (2) (3) (4) (5) (6) (7) (8) (9)序号术后生存年数期初观察例数期内死亡期内截尾人数校正期初人数死亡概率生存概率生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t)1 0~374 90 0 374 0.2406 0.7594 0.75942 1~284 76 0 284 0.2676 0.7324 0.55613 2~208 51 0 208 0.2452 0.7548 0.41984 3~157 25 12 151 0.1656 0.8344 0.35035 4~120 20 5 117.5 0.1702 0.8298 0.29076 5~957 9 90.5 0.0773 0.9227 0.26827 6~79 4 9 74.5 0.0537 0.9463 0.25388 7~66 1 3 64.5 0.0155 0.9845 0.24989 8~62 3 5 59.5 0.0504 0.9496 0.237210 9~54 2 5 51.5 0.0388 0.9612 0.228011 10+47 21 26 34 0.6176 0.3824 0.0872 SAS分析程序SAS软件输出结果本例结果主要包含三个部分:第一部分给出了时间区间的下限和上限,死亡例数(Number Failed),截尾例数(Number Censored),期初观察人数(Effective Sample Size),生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error)等;第二部分列出了完整数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。

最后是生存曲线图。

教材中的说明根据表14-3的生存率估计,则以生存时间为横坐标,生存率为纵坐标,各个点的生存率用折线连接,构成寿命表法的生存率曲线(图14-2)。

图14-2 例14-3的生存曲线图生存率估计同样存在抽样误差,往往需要估计标准误和95%可信区间。

对于上述两种生存率计算方法均可以用Greenwood (1926)提出方法计算标准误tj [S ]SE S =例如3~4年这一段的生存率的标准误为:t4[S ]SE 0.0248==Kalbfleisch & Prentice,1980提出对生存率进行ln(ln(()))S t -转换后估计生存率的95%可信区间可以保证可信区间的范围在(0,1)内,所以被广泛使用,具体计算公式如下:exp( 1.96)()s S t ±,其中()/(ln )t t t s SE S S S = (14-7) 例如对于3~4年这一组段的95%可信区间计算为0.0248/(0.3503ln(0.3503))0.0675S =⨯-=-,则95%可信区间为exp( 1.960.0675)(32)S ⨯ (0.302,0.399)=。

两种方法的比较:①.寿命表法适用于大样本或无法准确得知研究结果出现时间的资料,Kaplan-Meier 法可以用于小样本,也可以用于大样本,但要求每个观察对象都有确切的死亡时间和截尾时间。

②.寿命表法是按照指定的时段来分段,估计的是时间区间右端点上的生存率;Kaplan-Meier法是根据死亡时点分段,逐个估计死亡时点的生存率。

③.寿命表法没有确切的死亡时间和失访时间,假定在每个时间段中的“死亡发生时间”和“失访发生的时间”分别呈均匀分布,因此在每个时间段中的生存率呈线性变化,故各个组段间的生存率用直线相连接,Kaplan-Meier法的生存曲线是右连续的阶梯型曲线。

当样本量较大及死亡时点较多时,阶梯形就不明显了。

例14-4 在例14-3中介绍了McKelvey et al收集了19名3期淋巴瘤病人的生存资料,该研究者还同时收集了4期淋巴瘤病人的生存数据共61例:4,6,10,11,11,11,13,17,20,20,21,22,24,24,29,30,30,31,33,34,35,39,40,41+,43+,45,46,50,56,61+,61+,63,68,82,85,88,89,90,93,104,110,134,137,160+,169,171,173,175,184,201,222,235+,247+,260+,284+,290+,291+,302+,304+,341+,345+。

要比较3期淋巴瘤患者和4期淋巴瘤患者的生存率是否有差异。

SAS分析程序SAS软件输出结果解释SAS软件输出结果解释这里只给出了两个(c=1,2)总体生存率之间是否有差异的检验结果,其他的输出结果与前面类似,不再列出了。

由结果可以发现两组的Log-Rank秩统计量分别为-8.6870和8.6870,检验的2χ统计量为6.7097,p值= 0.0096,所以在α=0.05水准上,拒绝H0,接受H1。

,可认为两个(c=1,2)总体生存率之间存在差异。

图形为两个样本的生存曲线图。

教材中的说明由于检验统计量220.05,13.84χχ>=, P< 0.05, 所以在α=0.05水准上,拒绝H,接受H1。

基于两个样本的生存曲线图,可认为3期淋巴瘤病人人群的生存率高于4期淋巴瘤病人人群的生存率。

图14-5 3期和4期淋巴瘤的病人生存曲线Logrank检验是一种非参数的检验方法,对资料的分布基本没有要求,但要求每组均含有失效事件发生的观察对象资料,可以证明:Logrank检验的检验效能仅与发生失效事件的人数有关。

另外在Logrank检验的时候,一般要求各组生存曲线不能交叉,否则需采用分段分析或者采用多因素方法来分析。

例14-5某医生研究手术是否可以延长晚期胰腺癌患者的生存期。

收集到符合入组条件的80名保守治疗和124名手术治疗的晚期胰腺癌患者,这些患者的生存资料如表14-6所示,请分析两种治疗方案的生存情况。

相关文档
最新文档