第13章:生存分析

第13章:生存分析
第13章:生存分析

第13章生存分析

生存分析(Survival analysis)是研究特定人群生存过程的统计分析方法。对急性病的疗效考核,一般可用治愈率或病死率等,但对肿瘤、结核等慢性病,其预后不是短期内能明确判断的,帮上述指标不适用。为评价慢性病的疗效,通常可对慢性病病人进行长期随防,统计一定期限后的生存、死亡情况,然后用生存分柝方法作统计推断。

生存分析中用生存时间的长短评价慢性病的疗效。所谓生存时间,狭义地讲是从某个标准时点起至死亡止,即患者的存活时间。例如,患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。广义地讲,“死亡”可定义为某研究目的的“结果”的发生,例如宫内节育器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各种“死亡”为失效)。相应的“生存”时间为,放节育器到节育器失落所经历的时间,接受某治闻开始到治俞所经历的时间,从女孩出生到月经初潮到来所经历的时间。不论是广义定义还狭义定义,生存时间均有三个要素:起点、终点和时间尺度(天,周,月,年等)。

理想的生存时间资料是对每个被研究对象,研究者兼掌握其生存时间的起点,又掌握其生存时间的终点(即研究目的的“结果”发生的时间),也就是研究者掌握每个研究对象的“生存时间”的全部信息。但实际工作中难以得到每个研究对象的这种“完全”的生存时间资料。有时,研究者没有掌握研究对象生存时间的起点,也有的是丢失生存过程中间的某段时间的信息,或缺少终点的信息,无论发生三种情况中的哪一,所得的数据资料均是不完全的,生存分析中称这种资料为不完全数据资料(censord data)。能处理不完全数据资料是生存分析的一个优点。

医学随访资料可能出现这些情况:被防对象因搬迁等原因而失去联系(失访);被访者死于其他疾病或非本病的其他原因;或者被访者直到研究者总结工作时仍活着。对这些对象,观察到的生存时间只有起点,没有终点,所得的资料是上述三种不完全数据资料中的第三种。生存分析中,称这种不完全数据为截尾数据。

生存时间是一个随机变量。例如,研究患某病的病人从确诊到死亡所经历的时间T,显然T的取值因人而异,即T是一个变量,而且T的变化不能预先确定(即使性别、年龄、体质等有关因素均已知的情况下,其取值也不能预先确定),这表明T不是一个普通的变量,而是一个随机变量。

在生存分析中,常用生存率(或称生存函数),风险率(或称危险率、风险函数),生存时间T的分布函数或密度函数描述生存过程。

T的分布函数F(t)为生存时间T不超过时点t的概率,即F(t)=Pr(T<=t)。生存时间的密度函数f(t)是F(t)的导数,f(t)=F’(t), f(t)描述所有个体在时点单位时间内死亡的危险性。生存率S(t)是指生存时间T超过时点t的概率,即S(t)=Pr(T>t)=1-F(t)。

例如5年生存率是指生存时间T超过5年的概率,记为S(5)。风险率h(t)是密度函数与生存率的比,即h(t)=f(t)/s(t),风险率h(t)描述已活过时点t的个体在时点t后单位时间内死亡的危险性。

实际工作中,得不到所有患者的生存时间资料,就不可能得到T的总体分布,只能利用样本资料近似地描述T的分布,对T的分布作出有关的推断。若有大样本的完全数据资料,则可以借助频数分布表近似描述T的分布。

例设有100名某病患者生存时间数据资料

这是一组完全资料,据此资料,可估计得生存时间不超过时点t i的概率为F(t i),在j时点t i后单位时间内死亡的危险性为f(t i)。例如,估计该病患者生存时间不超过2年的概率F(2)=0.15;估计该病患者在时点2(年)死亡的危险性f(2)=0.20;估计生存时间超过2年的概率,即估计2年生存率S(2)=1-0.15=0.85;在时点2(年)的风险率,即估计活过2年者在接下去的时刻死亡的危险率h(2)=0.20/0.85=0.24。

一般,生存资料中包含截尾数据,且我们的目的往往不仅是描述某特定人群的生存时间分布,还要研究影响生存时间的因素,故相应的统计方法较复杂。生存分析方法一般可分为参数、非参数和半参数三大类。如果生存时间的分布符合某一特定分布类型,如对数正态分布、Weibull分布、指数分布等,则可利用特定的分布函数来分析,这称之为参数法;若不知道生存时间的颁类型,而对分布或其某此特征作推断,就只能用半参数法或非参数法。如用寿命表估计期望寿命;用Kaplan-Meier法求生存率,作出生存曲线;用Logrank检验(或Gehan检验)等作不同组别生存过程差异的显著性检验,均属非参数法。非参数无法分析多个危险因素对生存时间的影响。本系统提供多因素生存分析方法,主要有半参数法的比例风险模型(Cox model),参数法的指数分布模型和Weibull分布模型。

生存分析资料的形式。生存分析用于多因素影响的时间-反应数据。要求每个观察个体除了有考察影响因素的资料外,还须有表明生存时间(或观察时间)长短和表明结局(“失效”与否)的资料。

第1节未分组资料

未分组资料生存率的估计主要是用乘积极限法(Product-limit estimates),又称Kaplan-Meier法,主要适用于观察例数不多时,是一种非参数方法。

生存率曲线: 未分组资料的生存率曲线也称Kaplan-Meier曲线,它是以时间t为横轴,生存率p(X>t)为纵轴,水平横线的长短代表一个t时点到下一个t时点的距离,从而表示时间与自下而上率关系的曲线。由图可直观地比较各样本的自下而上率曲线,也可对某一病例任意时刻的生存率作出估计,反之亦可由任意生存率估计生存时间。一般将生存率0.5所对应的生存时间称为中位生存时间,它可用内插法求得.

中位生存时间常用于比较随访资料,可以直接从Kaplan-Meier曲线上查得。但结果并不一定准确,原因是: 若生存率为0.5处所对应的曲线刚好与X轴平等,那么中位生存时间的值就不止一个; 若Kaplan-Meier曲线上生存率全都大于0.5,则中位生存时间则无法估计。只有在观察对象较多,而且都发生失败事件时,用Kaplan-Meier曲线估计中位生存时间才是比较恰当的方法。另外生存时间常具有截尾值,而且分布一般不呈正态分布,所以也不宜使用平均生存时间来描述和比较随访资料。

总体生存率可信区间的估计用正态近似原理估计某时点总体生存率的可信区间,公式

为P(X>t)±u S p(x>t)。注意:对于生存率曲线末端尾部的生存率,不适合用该方法计算总体生存率的可信区间,因为例数较少时误差较大,会出现一些不合理的现象。

现对未分组资料生存分析,在DPS上按如下格式编辑、定义数据块。

将上述数据定义成数据块,DPS系统支持下进行分析,得到如下计算结果:

时间死亡数期初病例条件死亡概率条件生存概率生存率标准误

1 1 11 0.090900 0.909100 0.909091 0.086678

2 1 10 0.100000 0.900000 0.818182 0.116291

3 1 9 0.111100 0.888900 0.727273 0.134282

5 1 8 0.125000 0.875000 0.636364 0.145041

6 1

7 0.142900 0.857100 0.545455 0.150131

9 0 6 0.000000 1.000000 0.545455 0.150131

11 1 5 0.200000 0.800000 0.436364 0.163802

13 1 4 0.250000 0.750000 0.327273 0.154978

16 1 3 0.333300 0.666700 0.218182 0.136413

26 1 2 0.500000 0.500000 0.109091 0.102969

37 0 1 0.000000 1.000000 0.109091 0.102969

第2节分组资料

当随访资料的例数较多(如n>50)时,可选将原始资料分组再进行分析。另外有很多随访研究设计的随访时间是一年或一个月一次,随访结果只有该年或该月期间的若干观察人数、发生失败事件人数和截尾人数,没有各个病例的确切观察时间,所获得的资料只能视为分组资料。分组资料的生存率估计使用用寿命表(life table)法,又称清算法,这也是一种非参数统计方法。下面结合实例说明该方法的应用。

例如某医院对100例原发性肝癌患者确诊后进行随访,得资料如表中第(1)栏至第(3)栏, 根据此资料说明分组资料自下而上率和标准误的计算。

表中各栏的意义:

第(1)栏:确诊后月数X 。“0”表示从确诊日起不满一月,“1”表示确诊后1月至不满2月,依次类推。

第(2)栏:期内失访人数W x 。泛指具有截尾数据的人数。表示随访已满X 月,但未满X +1月期间失访的人数。如W 3=2表示随访时间满3月而未满4月期间失访的人数为2例。

第(3)栏:期内死亡人数D x ,指期内死于肝癌的人数,如D 0=17,表示确诊后吉林省满1月时死于肝癌的有17例。D 3=15表示随访时间满3月而未满4月时死于肝癌的有15例。

对上表数据进行分组生存率曲线分析,得到结果如下:

时 失访 死亡 期初 校正 条件死 条件生 生存 标准 间 人数 数 病例 人数 亡概率 存概率 率 误 0 2 17 100 99.0 0.1717 0.8283 0.828283 0.037903 1 1 26 81 80.5 0.3230 0.6770 0.560763 0.050220 2 3 27 54 52.5 0.5143 0.4857 0.272371 0.045729 3 2 15 24 23.0 0.6522 0.3478 0.094738 0.031379 4 0 2 7 7.00 0.2857 0.7143 0.067670 0.027641 5 1 2 5 4.50 0.4444 0.5556 0.037594 0.022070 6 0 0 2 2.00 0.0000 1.0000 0.037594 0.022070 7 1 0 2 1.50 0.0000 1.0000 0.037594 0.022070 8 0 1 1 1.00 1.0000 0.0000 0.000000 0.000000

以确诊后生存月数X 为横轴,n 月生存率n p 0为纵轴,可作出生存率曲线图。与未分组资料不同之处在于生存率的各点在各组段的上限处,用折线连接各点,如“3”月组的生存率4p 0=0.0947点在确诊后月数X 为4处。

估计总体生存率的可信区间 采用正态近似原理,用n p 0±u αs n p 0估计。如3月生存率

的95%可信区间

下限为:0.2724-1.96?0.0457=0.1828 上限为:0.2724+1.96?0.0457=0.3620

所以原发性肝癌确诊后3月生存率的95%可信区间为18.28%~36.20%。

由于总体生存率可信区间的估计也采用了正态近似原理,故该法的注意事项同未分组资料,对于接近尾部末端的生存率,由于期初观察人数较少,不宜用该法计算可信区间。

第3节 两样本生存率曲线比较

DPS 数据处理系统采用对数秩检验(log-rank test )方法进行两样本生存曲线比较。其基本思想是如果无效假设成立,即两总体自下而上曲线无差别时,根据不同日期两种处理的期初人数和残废人数,计算各种处理在各个时期的理论残废数。如无效假设成立,则实际死亡数与理论死亡数不会相差太大,否则应认为无效假设不可能成立,两条生存率曲线差异有统计学意义。对数秩检验的公式如下:

式中A 为实际死亡数,T 为理论死亡数。当有T 小于5时,用下述公式计算校正χ2

值。

根据χ2

临界值,得P 值。按所取检验水准α做出推断结论。下面结合实例说明其应用,重点是理论死亡数的计算。

如有22例III 期非小细胞肺癌患者在不同日期经随机化分配到放疗组和放化疗联合组,从缓解出院日开始随防,随防时间(月)如下,试比较施疗和放化疗联合两种治疗方案的生

1

)

(2

2

-=-=

组数υT

T A X

--=

T

T A 2

2

)

5.0(χ

存率曲线有无差别。

甲组:放疗组1,2,3,5,6,9+,11,13,16,26,37+

乙组:放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+

对上述数据整理成如下形式,以在DPS数据处理系统中进行分析:

在分析之前,建立检验假设和确定检验水准

H0:单放疗与放化疗联合两治疗方案的生存率曲线分布相同

H1:单放疗与放化疗联合两治疗方案的生存率曲线分布不同。

在将上述数据定义成数据块,分析后得到结果如下:

理论死亡数:

组别时间死亡数期初组1 期初组2 期初合计组1 组2

1 1 1 11 11 2

2 0.500000 0.500000

1 2 1 10 11 21 0.476200 0.523800

1 3 1 9 11 20 0.450000 0.550000

1 5 1 8 11 19 0.421100 0.578900

1 6 1 7 11 18 0.388900 0.611100

1 9 0 6 11 17 0.000000 0.000000

2 10 1 5 11 16 0.312500 0.687500

1 11 1 5 10 15 0.333300 0.666700

2 11 0 4 10 14 0.000000 0.000000

1 13 1 4 9 13 0.307700 0.692300

2 14 1

3 9 12 0.250000 0.750000

1 16 1 3 8 11 0.272700 0.727300

2 18 1 2 8 10 0.200000 0.800000

2 22 2 2 7 9 0.444400 1.555600

12 26 2 2 5 7 0.571400 1.428600

2 32 1 1 4 5 0.200000 0.800000

1 37 0 1 3 4 0.000000 0.000000

2 38 1 0

3 3 0.000000 1.000000

2 40 0 0 2 2 0.000000 0.000000

2 42 0 0 1 1 0.000000 0.000000

合计 5.128300 11.87170

卡方值=4.1858 v=1

求出的卡方值的显著水平P<0.05,按 =0.05水准拒绝H0,接受H1,故可以认为单独放疗与放化疗联合治疗III期非小细胞肺癌的生存率曲线分布不同,放化疗联合治疗的效果较

好。

第4节比例风险模型-COX回归

模型假定风险率是由两个部份组成的,一个是基准风险率h o(t),另一个是含有协

exp),两者相乘,得到在协变量作用下的风险率H(t,X)=h o(t)exp(Xβ1)。其中,X为协变量向量,β为协变量的系数向量,β=(β1,β2,?,βp),X=(x1,x2,?x p),β’是β的转置向量。h o(t)为基准风险率,表示所有协变量取0时(即风险因素为基值时)的个体死亡风险率。记RH(t)=h(t,X)/h0(t),则RH(t)表示在时间t、协变量向量X下,个体风险率相对基准水平的风险率之比。

且RH(t)=exp(Xβ’)=exp(β1x1+β2x2+…+βp x p)

可见RH(t)不随时间t的变化而变化。所以模型H(t,X)=h o(t)exp(Xβ1)又称为比例风险模型(proportional hazard model)。

模型中参数的意义: 在不同协变量向量X1,X2,下的风险比(Hazard ratio)为h(t,X1)/h0(t,X2)=exp(X1-X2).

例如假设某病受吸烟(x1)和饮酒(x2)的影响。相应的二因子Cox model为h(t,X)=h0(t)exp(β1x1+β2x2)

据样本资料得到β1,β2的估计:β1=0.8755,β2=0.5108代入模型表达式得h(t,X)=h o(t)exp(0.8755x1+0.5108x2); RH(t)=exp(0.8755x1+0.5108x2)。其中基准风险率h o(t)表示不吸烟也不饮酒者(即x1=0 x2=0者)在时点t的发病风险率。由此可估计得:

(1) 吸烟,不饮酒者(即x1=1 x2=0者)相对于不吸涸也不饮酒者发病的风险比为

exp(β1(1-0)+β2(1-0))=exp(β1)=exp(0.8755)=2.40

(2) 不吸烟,饮酒者(即x1=0 x2=1者)相对于不吸烟也不饮酒者发病的风险比为

exp(β1(0-0)+β2(1-0))=exp(β2)=exp(0.8755)=2.40

(3)吸烟又饮酒者(即x1=1 x2=1者)相对于不吸烟也不饮酒发病的风险比为

exp(β1(1-0)+β2(1-0))

=exp(β1+β2)=exp(0.8755+0.5108)

=4.00

一般地,模型h(t,X)=h o(t)exp(β1x1+…+βp x p)中参数βi的指数exp(βi)表示x1,…,x i-1,x i+1,x p不变时,x i变动一个单位引起的风险率变动的倍数。

例:为研究某种药物是否会改进急性白血病人的预后,延长其缓解时间。将确诊病人随机给予不同的治疗。一组为用药组(传统治疗加某药),另一组为对照组(传统治疗)。治疗前检测病人白细胞计数(wbc),经一定时间随访,白血病病人的缓解时间见表,试作统计分析。

表不同治疗组急性白血病病人的缓解时间(周)和wbc计数

计算结果

输出结果中,似然比卡方值描述对H0:β1=?=βp=0检验的结果,本例p=2,据此结果卡方=46.24935,Prob=0.00000,故可拒绝H0;

方程系数描述协变量的作用在总变异中的比例;列出协变量的系数的估计,本例变量x1的系数β1估计为-1.3288,x2的系数β2估计为1.7234;

各个系数的卡方值描述协变量系数的检验结果,其后的值为显著水平。

由以上结果,可得h(t,X)=h o(t)exp(-1.3288x1+1.7234x2)

且治疗前病人的白细胞计数与治疗方法对病人的预后均有影响。平衡治疗前病人的白细胞计数后,加药治疗相对于传统疗法的风险比为

exp(β1)=exp(-1.3288)=0.2648

即加药治疗相对于传统疗法发生“结束缓解”的风险小,前者是后者的0.2648倍,或者说前者是后者的26.5%,这说明前者不容易发生“结束缓解”,即此药物能延长缓解时间,改进急性白血病人的预后。

第5节指数模型

若生存时间服从指数分布,则带协变量的生存分析可用多因子指数分布模型

f(t,X)=λ(X)exp(-λ(X)t)表达。其中:X是暴露因素向量(协变量向量),X=(1,x1,?,x p),λ(X)=exp(Xβ’)=exp(β0+β1+…+βp),β=(β0,β1,…,βp)是参数向量。

可以证明其分布函数为F(t,X)=1-exp(-λ(X)t),生存函数为S(t,X)=exp(-λ(X)t),相应的风险率函数为h(t,X)=exp(Xβ’)=exp(β0+β1+…+βp)。

由风险率函数表达式可发现,风险率的大小与生存时间t无关,即风险率不随生存时间变化,这是指数分布的特点,可利用此特点识别某生存时间分布是否服从指数分布。

若某生存时间服从指数分布,则其平均生存时间E(T)=1/(λ(X))。

模型中参数的意义: 由模型可知,不同的暴露善有不同的生存时间分布及不同的风险率函数。基准状态,即各协变量均为0时的风险率为,这表明参数β0的指数exp(β0)描述了基准状态的风险率。

参数βi的意义与Cox模型中一样,exp(βi)描述当x1,…,x i-1,x i+1,…,x p不变时x i变动一个单位引起的风险率变动的倍数。

例: 考察40例严重肺癌患者的生存时间及其影响因素,现列表如下:

表中:

x 1:患者在诊断时的身体状况,用0~100间的整数表示(取值愈大,状况愈好); x 2:患者的年龄(岁);

x 3:患者从诊断到进入治疗所经历的时间(月); x 4,x 5,x 6,描述癌细胞的种类: x 4=1 x 5=0 x 6=0癌细胞是偏平的 x 4=0 x 5=1 x 6=0癌细胞是小的 x 4=0 x 5=0 x 6=1癌细胞是腺样的 x 4=0 x 5=1 x 6=0癌细胞是大的

x 7:治疗方法,x 7=1表示标准方法,x 7=0表示用新试验的方法。

在DPS 数据处理平台上,执行指数模型分析,输出计算结果如下:

方程系数 标准误 t 值

显著水平 95%置信区间 β1 -0.052106 0.009556 -5.452917 0.000005 -0.071570 -0.032642 β2 -0.020501 0.019348 -1.059603 0.297237 -0.059912 0.018909 β3 -0.000994 0.011762 -0.084494 0.932628 -0.024953 0.022965 β4 -0.103971 0.440891 -0.235821 0.814976 -1.002026 0.794083 β5 0.320940 0.479073 0.669919 0.507656 -0.654887 1.296767 β6 1.166124 0.584500 1.995080 0.054606 -0.02445 2.356698 β7 0.503663 0.363723 1.384745 0.175699 -0.23721 1.244533 β

0 -0.944073 1.329553 -0.710068 0.482743 -3.652252 1.764105

对数似然度L =-204.4900,似然比卡方=11179.02,显著水平p =0.000000。

输出结果中:似然比卡方描述对H o :β1=…=βp =0检验的结果,本例p =7,据此结果似然比卡方=38.991,即相应P 值等于0.0000,故可拒绝H o 。

方程系数列出协变量的系数的估计,本例变量x 1的系数β1估计为-0.0521,x 2的系数β2估

计为-0.0205,…, β7估计为0.5037,β0估计为-0.9441。

各个系数的t 描述协变量系数的检验结果,其后的值为显著水平, 95%置信区间 。 有统计意义的两个协变量是x 1(患者在诊断时的身体状况),x 6(癌细胞是否是腺样的)。相应的参数估计β1=-0.052, β6=1.166。这表明在其他因素保持不变时,x 1增加1个单位,即病人在诊断时身体状况好1分,病人死亡的风险率将缩为原来的exp(-0.0521)=0.949倍。在其他因素不变时,癌细胞是腺样的患者的风险率是大癌细胞患者的风险率的exp(1.166)=3.209倍。

据上述输出结果还可以估计在某暴露x 下,患者的平均生存时间。例如,某患者在诊断时身体状况x 1=50,年龄x 2=60,从诊断到进入治闻所经时间x 3=5(月),癌细胞是大的(即x 4= x 5= x 6=0),用新试验方法治疗(x 7=0),则其相应的X 1=(50,60,5,0,0,0,0),估计这种暴露患者的平均生存时间为

1/[exp(-0.944+(-0.052?50)+( -0.021?60)+(-0.001?5)+0.104?0+0.321?0+1.166?0+0.504?0)] =1/exp(-4.809)=1/0.008=122.609(月)

若暴露X 2=(50,60,5,0,0,1,0),估计相应的平均生存时间为

1/[exp(-0.944+(-0.052?50)+( -0.021?60)+(-0.001?5)+(-0.104?0+0.321?0+1.166?1+0.504?0)] =1/exp(-3.643)=1/0.026=38.206(月)

暴露X 1与暴露X 2的区别仅在于前者的癌细胞是大的,后者的癌细胞是腺样的。腺样癌细胞患者的死亡风险率是大癌细胞患者的3.209倍,平均生存时间是前者的(38.206/122.609)=31.16%,(即是前者的3.209分之一)。

第6节 weibull 模型

Weibull 分布模型结构为F (t ,X )=(λ(X )(1/δ))t

(1/δ)-1

exp(-λ(X )t

(1/δ)

),其中X =(x 1,…,x p )

是协变量向量, λ(X )=exp(βo +β1x 1+…+βp x p ), β=(βo ,β1,…,βp )是与协变量有关的参数向量,σ是形

状参数。可以证明:

分布函数为F(t,X)=1-exp[-λ(X)t (1/δ)

]

生存函数为S(t,X)=exp[-λ(X)t (1/δ)

]

风险率函数为h(t,X)=(-λ(X))(1/δ)t

(1/δ)-1

模型中参数的意义: 模型中共有P+2个参数,其中δ是形状参数,描述分布的形状,且决定风险率随时间的变化速度,δ<1时,风险率随时间递增,δ>1时,风险率随时间递减。模型中参数βi的意义与指数分布模型相同。

应用指数模型例子的资料,数据整理和数据块定义方式均和拟合指数模型相同。在DPS 数据处理系统下,拟合Weibull分布模型,结果如下:

方程系数标准误t值显著水平95%置信区间

β1 -0.059155 0.010921 -5.416595 0.000007 -0.081429 -0.036882

β2 -0.024556 0.019962 -1.230143 0.227882 -0.065267 0.016156

β3 -0.001718 0.011926 -0.144016 0.886258 -0.026041 0.022606

β4 -0.149728 0.447473 -0.334607 0.740069 -1.062344 0.762889

β5 0.370248 0.483237 0.766184 0.449327 -0.615308 1.355804

β6 1.341312 0.609757 2.199748 0.035406 0.097719 2.584904

β7 0.574010 0.372463 1.541120 0.133427 -0.185624 1.333645

β0 -1.042564 1.346571 -0.774236 0.444604 -3.788880 1.703752

δ0.877918 0.356291 2.464048 0.000000 0.151266 1.604569

对数似然度L= -204.0339,似然比卡方=25506.97,显著水平p=0.000000。

输出结果中似然比卡方描述对H o:β1=…=βp=0检验的结果,本例p=7,似然比卡方=25506.97,即相应P值等于0.0000,故可拒绝H o;

方程系数描述协变量的作用在总变异中的比例,列出协变量的系数的估计,本例变量x1的系数β1估计为-0.0592,x2的系数β2估计为-0.0246,…,β7估计为0.5740,β0估计为-1.0426;

各个系数的t描述协变量系数的检验结果,其后的值为显著水平,95%置信区间。本例仅2个P值均小于0.05,故仅2个协变量(x1,x6)在α=0.05水平有统计意义。

有统计意义的2个协变量是(患者在诊断时的身体状况),x6(癌细胞是否是腺样的)。相应的参数估计β1=-0.0592, β6=1.3413。这表明在其他因素保持不变时,x1增加1个单位,即病人在诊断时身体状好1分,病人死亡的风险率将缩为原来的exp(-0.0592)=0.943倍。在其他因素不变时,癌细胞是腺样的患者的风险率是大癌细胞患者的风险率的exp(1.3413)=3.824倍。

由输出结果表的最后一个参数δ=0.878,根据估计形状参数δ<1,说明随时间的增加,死亡的危险也增加。

第十四章spss之生存分析2张文彤

第十四章活着--Survival菜单详解(下) (医学统计之星:董伟) 上次更新日期: 13.1 Life Tables过程 13.1.1 界面说明 13.1.2 结果解释 13.2 Kaplan-Meier过程 13.2.1 界面说明 13.2.2 结果解释 13.3 Cox Regression过程 13.3.1 界面说明 13.3.2 结果解释 13.4 Cox w/Time-Dep Cov过程 13.4.1 界面说明 13.4.2 结果解释 §13.3 Cox Regression过程上面给大家介绍的是两种生存分析方法,但它们只能研究一至两个因素对生存时间的影响,当对生存时间的影响因素有多个时,它们就无能为力了,下面我给大家介绍Cox Regression过程,这是一种专门用于生存时间的多变量分析的统计方法。 Cox Regression过程主要用于:

1、用以描述多个变量对生存时间的影响。此时可控制一个或几个因素,考察其他因素对生存时间的影响,及各因素之间的交互作用。 例13.3 40名肺癌患者的生存资料(详见胡克震主编的《医学随访统计方法》1993,77页) 生存时间状态生活能力评分年龄诊断到研究时间鳞癌小细胞癌腺癌疗法癌症类别411 1 70 64 5 1 0 0 1 1.00 126 1 60 63 9 1 0 0 1 1.00 118 1 70 65 11 1 0 0 1 1.00 注:原数据库是用亚变量定义肺癌分类:0,0,0为其它癌;1,0,0为鳞癌;0,1,0为小细胞癌;0,0,1为腺癌。表中的最后一个变量是我加上去的癌症类别,1为鳞癌;2为小细胞癌;3为腺癌;4为其它癌。实践表明结果与用亚变量计算一样。 13.3.1 界面说明 图9 Cox回归主对话框

第19章 生存分析思考与练习参考答案

第19章生存分析 思考与练习参考答案 一、最佳选择题 1. 下列有关生存时间的定义中正确的是( E )。 A.流行病学研究中,从开始接触某危险因素至某病发病所经历的时间 B.乳腺增生症妇女治疗后阳性体征消失至首次复发的时间 C.肺癌患者从手术治疗开始到死亡的时间 D.急性白血病患者从治疗开始到缓解的时间 E.以上均正确 2. 教材表19-18表是急性白血病患者药物诱导后缓解至首次复发的随访记录。 教材表19-18 急性白血病患者药物诱导后缓解至首次复发的随访记录编号缓解日期终止观察日期结局生存时间/天 1 2000.04.01 2000.09.06 复发158 2 2001.11.05 2002.02.05 死亡91 3 2000.07.15 2000.12.10 复发147 4 2001.05.20 2001.08.2 5 失访96 5 2002.09.03 2002.12.31 缓解119 …………… 生存时间属删失数据的有(C)。 A.1号和3号B.1号和2号C.2号、4号和5号 D.2号、3号和4号E.1号、2号和3号 3. 下列有关log-rank检验的描述中正确的是(A)。 A.log-rank检验是各组生存率的整体比较 B.log-rank检验是各组生存率某时间点的比较 C.log-rank检验属生存曲线比较的参数法 D.log-rank检验中,各组实际死亡数必等于理论死亡数 E.log-rank检验的自由度为1 4. Log-rank检验与Breslow检验相比,( B )。 A.log-rank检验对组间死亡近期差异敏感

B.log-rank检验对组间死亡远期差异敏感 C.Breslow检验对组间死亡远期差异敏感 D.两者对组间死亡远期差异同样敏感 E.两者对组间死亡近期差异同样敏感 5. Cox回归模型要求两个不同个体在不同时刻t的风险函数之比(D)。 A.随时间增加而增加 B.随时间增加而减小 C.开始随时间增加而增加,后来随时间增加而减小 D.不随时间改变 E.视具体情况而定 二、思考题 1. 生存分析的主要用途及其统计学方法有哪些? 答:生存分析在生物医学领域主要解决如下问题。 估计:即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。如根据白血病化疗后的缓解时间资料,估计不同时间的缓解率、缓解率曲线以及半数生存期。估计生存率常用寿命表法和Kaplan-Meier(K-M)法。 比较:即比较不同受试对象生存数据的相应指标是否有差别。最常见的是比较各组的生存率是否有差别,如比较不同方案治疗白血病的缓解率曲线,以了解哪种治疗方案较优。生存曲线比较常用log-rank检验和Breslow检验。 影响因素分析:其目的是为了研究影响生存时间长短的因素,或在排除一些因素影响的情况下,研究某个或某些因素对生存率的影响。例如,为改善白血病患者的预后,应了解影响患者预后的主要因素,包括患者的年龄、病程、白细胞数、化疗方案等。影响因素分析常用Cox回归。 生存预测:具有不同因素水平的个体生存预测估计,如根据白血病患者的年龄、病程、白细胞数等预测该患者k年(月)生存率。生存预测常用Cox回归。 2. 生存率估计的K-M法和寿命表法是如何利用删失数据的? 答:常见的右删失数据表示真实的生存时间未知,只知道比观察到的删失时间要长。因此,生存率估计的K-M法和寿命表法计算期初例数时,都利用了删失数据提供的这部分信息。

生存分析

生存分析 本数据资料主要探讨不同处理对生存时间的影响,数据中,treat为连续变量,num2_treat为二分类变量,num3_treat为三分类等级变量。共纳入病人200例,进行生存分析步骤如下: 1.生存资料的定义: 命令:stset[时间变量] [截尾变量] 对应本数据为:stset time mortality 结果: 1)其中time指随访时间,即产生预期结果或者截尾时的时间减去纳入随访时的初始时间得到的天数。 2)Mortality为截尾变量,Stata视变量mortality不等于0的非缺失值为出现预期结果。3)Stata会同时产生4个新的变量: _st代表:数据中该条记录是否被定义为生存资料。 _d 代表:数据中该条记录是否出现预期结果。 _t 代表:数据中观察对象被随访的时间。 _t0 代表:数据中观察对象第一次被观察到的时间(开始过程的时间为0) 2.生存资料的描述。 1)计算中位生存时间的命令: stsum[if 表达式] ,[by(分组变量)选择项] 对应本数据:stsum,by(num2_treat) 结果:

由于两组中截尾数据出现的较早,故25%、50%和75%生存时间无法估计,Stata用缺失值表示。 4)stci命令可以用来计算中位生存时间、平均生存时间、生存时间的百分数及其可信区间。 命令:stci [if 表达式],[by(分组变量) 选择项] 其中选择项有:median(计算中位生存时间);rmean(计算平均生存时间) P(#)(生存时间的百分数);level(#)(可信区间的可信度)对应本数据:stci,by(num2_treat) median 结果: 同样由于两组中截尾数据出现的较早,故中位生存时间无法估计,Stata用缺失值表示。 stci,by(num2_treat) rmean 结果:

第十五章 生存分析第一节生存资料的特点

第十五章生存分析 第一节生存资料的特点 前面有关章节介绍了多种定量资料和定性资料的统计分析方法。下面是一个临床实例,请思考该资料的特点,应选用何种统计方法进行统计分析较为合适。 某医生将22例肺癌患者随机分为两组,分别采用化疗和放化疗联合治疗,从缓解出院日开始随访,随访时间(月)如下(带“+”号的数据表示患者至少存活了多少个月)。试比较化疗和放化疗联合治疗肺癌的疗效是否有差别。 化疗组1,2,3,5,6,9+,11,13,16,26,37+ 放化疗联合组10,11+,14,18,22,22,26,32,38,40+,42+ 该医生的研究目的是评价化疗和放化疗联合治疗两种临床治疗措施的疗效。临床治疗措施的疗效评价,一方面要看治疗措施所引起的“结局”(该资料中,即为“生存”或“死亡”),另一方面还要看得到这种结局所经历的时间长短(该资料中,即为患者接受化疗或放化疗联合治疗后存活多长时间,或患者接受化疗或放化疗联合治疗后多长时间发生死亡)。显然,结局为“生存”且存活时间越长,其疗效就越好。反之,结局为“死亡”且存活时间越短,其疗效就越差。结局虽然都是“死亡”,但能够使患者生存时间越长的临床治疗措施的疗效就越好。 从前面几个章节所学习的内容来看,可以考虑的方法有t检验、方差分析或秩和检验。但t检验和方差分析都要求所比较的两个样本来自正态分布总体,而该资料两个组中均有带“+”号的数据,其提供的信息不完整,如“9+”表示该患者至少存活了9个月,但准确死亡时间不清楚,这就导致两个样本的总体分布不明确,不满足t检验和方差分析的应用条件。退一步说,即使该资料满足t检验和方差分析的应用条件,但由于这两种方法均只是比较患者接受化疗和放化疗联合治疗后的生存时间有无差别,并未分析两种治疗措施的结局有无差别,因而达不到综合评价这两种治疗措施疗效的目的。因此,不宜采用t检验或方差分析。秩和检验虽不对样本所来自的总体作严格限定,但它也只能比较患者接受两种治疗措施后的生存时间有无差别,并不能分析两种治疗措施的结局有无差别,因而也达不到综合评价这两种治疗措施疗效的目的。因此,该资料也不适宜采用秩和检验。 那么,能否将其转变为定性资料后采用定性资料的统计分析方法进行分析?

第14章 创新

思考题 1.什么是创新?创新具有哪些原则? 答:组织在经济活动过程中,为达到目标,对各种资源进行新的、更有效的整合的行为过程。创新不仅包括创造新技术、新产品、新材料、新工艺,也包括创造新市场、新的管理制度和管理方法等。 4.什么是技术创新?具有什么特点?包括哪些方面? 答:技术创新是创新的重要组成部分,是创新活动中最重要的因素。从广义上说,技术创新是在科学技术上的新发现、新发明转化为社会生产力全过程的活动;从狭义上说或,技术创新是指在生产技术或服务技术方面改进或革新的一系列活动。技术创新包括以下几个方面:(1)产品创新。对一个企业而言,生产的产品是企业生存与发展的根本,企业的产品在市场上的受欢迎程度是企业市场竞争成败的主要原因。产品创新包括老产品的改造与新产品的开发。这种改造与开发是指对产品的结构、性能、材质、技术特征等一方面或几方面的改进或发明。它可以是利用新发明、新技术开发出一种全新的产品;也可以是在原有产品基础上部分采用新技术生产出来的满足新需要的换代型产品。 (2)工艺创新。工艺创新是指生产工艺的改革与操作方法的改进。生产工艺是企业生产产品的总体流程与方法,包括工艺过程、工艺参数和工艺配方等。生产工艺改进的典型案例为汽车生产方式的改变,汽车生产由传统的手工生产模式转向现在的流水线生产模式,极大地提高了汽车企业的生产率。操作方法是指劳动者利用生产设备在

个体生产环节对原材料、零部件或半成品进行加工的方法。 (3)材料创新。材料是企业产品和生产手段的基础,也是生产工艺和加工方法作用的对象。材料创新一方面是指寻找和发现现有材料的新用途,生产出新的产品以满足社会的需要,另一方面是指利用新技术与新知识制造新的合成材料。材料创新有着广泛的应用前景,如在制造业中广泛采用的各种新型材料就是材料创新的成功典范。(4)手段创新。手段创新主要是指企业生产的物质条件的改造与更新。企业应当注意生产手段的创新,以生产优质、低成本的产品占领市场。生产手段的创新主要包括两个方面:一方面是将先进的科学技术用于改进或革新现有的设备;另一方面是用更先进、更经济的生产手段取代现有的陈旧的、效率低下的生产手段。 6.技术创新的基本战略是什么? 答:(1)自主创新。所谓自主创新,是指企业主要依靠着自身的技术力量进行研究开发,并在此基础上,实现科技成果的商品化,最终获得市场的认可。自主创新具有率先性,因为一种新技术或者一种新产品的率先创新者只有一家,而其他采用这项技术、生产这种产品的企业都是创新的跟随者或模仿者,“北大方正”推出电子出版系统便是一个自主创新的典型实例。自主创新要求企业有雄厚的研究开发实力和研究成果积累,处于技术的领先地位,否则是做不到率先创新的。 (2)模仿创新。所谓模仿创新,是指在率先创新的示范影响和利益诱导之下,企业通过合法手段(如通过购买专有技术或专利许可的方式)引进技术,并在率先者技术的基础上进行改进的一种创新形

生存分析的cox回归模型案例

一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distribution function) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。 下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:

生存分析

Chapter7 Survival Models Our?nal chapter concerns models for the analysis of data which have three main characteristics:(1)the dependent variable or response is the waiting time until the occurrence of a well-de?ned event,(2)observations are cen-sored,in the sense that for some units the event of interest has not occurred at the time the data are analyzed,and(3)there are predictors or explanatory variables whose e?ect on the waiting time we wish to assess or control.We start with some basic de?nitions. 7.1The Hazard and Survival Functions Let T be a non-negative random variable representing the waiting time until the occurrence of an event.For simplicity we will adopt the terminology of survival analysis,referring to the event of interest as‘death’and to the waiting time as‘survival’time,but the techniques to be studied have much wider applicability.They can be used,for example,to study age at marriage, the duration of marriage,the intervals between successive births to a woman, the duration of stay in a city(or in a job),and the length of life.The observant demographer will have noticed that these examples include the ?elds of fertility,mortality and migration. 7.1.1The Survival Function We will assume for now that T is a continuous random variable with prob-ability density function(p.d.f.)f(t)and cumulative distribution function (c.d.f.)F(t)=Pr{T≤t},giving the probability that the event has oc-curred by duration t. G.Rodr′?guez.Revised September,2007

第十四章 生存分析

第十四章生存分析的Stata实现 本章使用的STATA命令: 结局变量为1表示失效事件发生 例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。现用Kaplan-Meier法计算生存率。

Stata命令为: stset time,failure(d) sts list sts graph 结果为:

例14-3 下面是来自于Berkson & Gage(1950)的一个研究队列。为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。共有374名患者进入研究队列。 表14-3 寿命表法计算生存率的计算用表 (1) (2) (3) (4) (5) (6) (7) (8) (9) 序号术后生存 年数 期初观察 例数 期内 死亡 期内截尾 人数 校正期初 人数 死亡 概率 生存 概率 生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t) 1 0~374 90 0 374 0.2406 0.7594 0.7594 2 1~284 76 0 284 0.2676 0.7324 0.5561 3 2~208 51 0 208 0.2452 0.7548 0.4198 4 3~157 2 5 12 151 0.165 6 0.8344 0.3503 5 4~120 20 5 117.5 0.1702 0.8298 0.2907 6 5~95 7 9 90.5 0.0773 0.9227 0.2682 7 6~79 4 9 74.5 0.0537 0.9463 0.2538 8 7~66 1 3 64.5 0.0155 0.9845 0.2498 9 8~62 3 5 59.5 0.0504 0.9496 0.2372 10 9~54 2 5 51.5 0.0388 0.9612 0.2280 11 10+47 21 26 34 0.6176 0.3824 0.0872 Stata数据格式为:

第9章生存分析思考与练习参考答案

! 第19章生存分析 思考与练习参考答案 一、最佳选择题 1. 下列有关生存时间的定义中正确的是( E )。 A.流行病学研究中,从开始接触某危险因素至某病发病所经历的时间 B.乳腺增生症妇女治疗后阳性体征消失至首次复发的时间 C.肺癌患者从手术治疗开始到死亡的时间 D.急性白血病患者从治疗开始到缓解的时间 ! E.以上均正确 2. 教材表19-18表是急性白血病患者药物诱导后缓解至首次复发的随访记录。 教材表19-18 急性白血病患者药物诱导后缓解至首次复发的随访记录编号缓解日期终止观察日期结局生存时间/天 1 复发 158 2 死亡 91 3 复发 147 4 失访 96 : 5 缓解 119 …………… 生存时间属删失数据的有(C)。 A.1号和3号 B.1号和2号 C.2号、4号和5号 D.2号、3号和4号 E.1号、2号和3号 3. 下列有关log-rank检验的描述中正确的是(A)。 A.log-rank检验是各组生存率的整体比较 B.log-rank检验是各组生存率某时间点的比较 : C.log-rank检验属生存曲线比较的参数法 D.log-rank检验中,各组实际死亡数必等于理论死亡数

E.log-rank检验的自由度为1 4. Log-rank检验与Breslow检验相比,( B )。 A.log-rank检验对组间死亡近期差异敏感 B.log-rank检验对组间死亡远期差异敏感 C.Breslow检验对组间死亡远期差异敏感 D.两者对组间死亡远期差异同样敏感 — E.两者对组间死亡近期差异同样敏感 5. Cox回归模型要求两个不同个体在不同时刻t的风险函数之比(D)。 A.随时间增加而增加 B.随时间增加而减小 C.开始随时间增加而增加,后来随时间增加而减小 D.不随时间改变 E.视具体情况而定 二、思考题 。 1. 生存分析的主要用途及其统计学方法有哪些 答:生存分析在生物医学领域主要解决如下问题。 估计:即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。如根据白血病化疗后的缓解时间资料,估计不同时间的缓解率、缓解率曲线以及半数生存期。估计生存率常用寿命表法和Kaplan-Meier(K-M)法。 比较:即比较不同受试对象生存数据的相应指标是否有差别。最常见的是比较各组的生存率是否有差别,如比较不同方案治疗白血病的缓解率曲线,以了解哪种治疗方案较优。生存曲线比较常用log-rank检验和Breslow检验。 影响因素分析:其目的是为了研究影响生存时间长短的因素,或在排除一些因素影响的情况下,研究某个或某些因素对生存率的影响。例如,为改善白血病患者的预后,应了解影响患者预后的主要因素,包括患者的年龄、病程、白细胞数、化疗方案等。影响因素分析常用Cox回归。

第十四章生存分析的SAS实现

第十四章生存分析的SAS实现 例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。 SAS分析程序 SAS软件输出结果

SAS软件输出结果解释 该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。最后是生存曲线图。 教材中的说明 现用Kaplan-Meier法计算生存率,步骤如下: (1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。 (2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。

(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。例如生存时间为32天时,死亡概率为1/170.058824q ==。 (4)计算各t 时刻的生存概率1p q =-(第(7)列)。例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。 (5)计算各t 时刻的生存率12()i i S t p p p = (第(8)列)。例如生存时间为32天时,生存率为18171616 (32)0.94117619181719 S = ??==,由此验证了在没有截尾数据的情况下,式(14-4)与式(14-5)是相同的。 (6)以时间t 为横指标,生存率为纵指标,作生存曲线图(图14-1)。 表14-2 Kaplan-Meier 法计算生存率的计算用表 (1) (2) (3) (4) (5) (6) (7) (8) 序号 生存 天数 t 时刻前 的例数n t 时刻 死亡数d t 时刻后 截尾人数c 死亡 概率q 生存 概率p 生存率 S (t ) 1 6 19 1 0 0.052632 0.947368 0.947368 2 19 18 1 0 0.055556 0.944444 0.894737 3 32 17 1 0 0.058824 0.941176 0.842105 4 42 16 2 0 0.125000 0.875000 0.736842 6 43 14 0 1 0.000000 1.000000 0.736842 7 94 13 1 0 0.076923 0.923077 0.680162 8 126 12 0 1 0.000000 1.000000 0.680162 9 169 11 0 1 0.000000 1.000000 0.680162 10 207 10 1 0 0.100000 0.900000 0.612146 11 211 9 0 1 0.000000 1.000000 0.612146 12 227 8 0 1 0.000000 1.000000 0.612146 13 253 7 1 0 0.142857 0.857143 0.524696 14 255 6 0 1 0.000000 1.000000 0.524696 15 270 5 0 1 0.000000 1.000000 0.524696 16 310 4 0 1 0.000000 1.000000 0.524696 17 316 3 0 1 0.000000 1.000000 0.524696 18 335 2 0 1 0.000000 1.000000 0.524696 19 346 1 0 1 0.000000 1.000000 0.524696

生存分析及COX回归

第十二章生存分析及COX回归 在临床医学中, 对病人治疗效果的考查. 一方面可以看治疗结局的好坏,另一方面还可以通过治疗时间的长短来衡量。例如某种疾病治愈的时间, 某癌症病人手术后的存活时间等, 把这类与时间有关的资料统称为生存资料。生存资料一般通过随访收集,从某标准时刻(发病、手术或出院等)开始,按某种相等或不等时间间隔,对观察对象定期观察预定项目所得的资料,它的结局是死亡,治愈、复发、阳性等。但在临床上,往往由于各种原因:(1)因迁移原因失去联系;(2)死于其他原因而造成失访;(3)预定终止结果迟迟不发生,致使在一定时期内,一部分病例得不到确切的生存期,但它们提供了其生存期长于观察期的信息,这种数据称为删失数据,也称截尾数据或终检值(censored data),包含终检值的数据即为不完全数据。处理这类数据的统计分析方法称为生存分析。它包括三个方面的内容1)生存过程的描述,主要是生存率的估计;2)生存过程的比较;3)影响因素的分析。 §12.1 生存率的估计 生存率估计常用的有两种方法乘积极限法和寿命表法。 1乘积极限法 又称Kaplan-Meier 法适用于小样本资料。基本思想:将生存时间由小到大依次排列,在每个死亡点上,计算其期初人数、死亡人数、死亡概率、生存概率和生存率。 CHISS实现:点击重复测量→生存分析→乘积极限法 应用举例: 例12-1某疗法治疗白血病后的存活月数为: 2+,13,7+,11+,6,1,11,3,17,7。试估计其生存率。带“+”为存活终检值。 解步骤:1 进入数据模块此数据库已建立在CHISS\data文件夹中,文件名为:a9_0生存分析.DBF。打开数据库 点击数据→文件→打开数据库表 找到文件名为:a9_0生存分析.DBF →确认 2 进入统计模块进行统计计算 点击重复测量→生存分析→乘积极限法 时间变量: time 终检值指标:censor→确认 3 进入结果模块查看结果 点击结果 乘积限估计法生存分析, 数据来自文件: C:\CHISS\Data\a9_0生存分析.DBF 数据过滤条件:

生存分析的cox回归模型案例——spss

生存分析的cox回归模型案例——spss

————————————————————————————————作者: ————————————————————————————————日期: ?

一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survivaltime) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distributionfunction) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。? 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。 下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:

第十四章 生存分析

第十四章生存分析 第一节 Life Tables过程 14.1.1 主要功能 14.1.2 实例操作 第二节 Kaplan-Meier过程 14.2.1 主要功能 14.2.2 实例操作 第三节 Cox Regression过程 14.3.1 主要功能 14.3.2 实例操作 在临床诊疗工作的评价中,慢性疾病的预后一般不适合用治愈率、病死率等指标来考核,因为其无法在短时间内明确判断预后情况,为此,只能对患者进行长期随访,统计一定时期后的生存或死亡情况以判断诊疗效果。这就是生存分析。 第一节Life Tables过程 14.1.1主要功能 调用此过程时,系统将采用即寿命表分析法,完成对病例随访资料在任意指定时点的生存状况评价。 14.1.2实例操作 [例14-1]用中药+化疗(中药组,16例)和单纯化疗(对照组,10例)两种疗法治疗白血病患者后,随访记录存活情况如下所示,试比较两组的生存率。

14.1.2.1数据准备 激活数据管理窗口,定义变量名:随访月数的变量名为TIME,是否死亡的变量名为DEATH,分组(即中药组与对照组)的变量名为GROUP。输入原始数据:随访月数按原数值;是否死亡的,是为1,否为0;分组的,中药组为1,对照组为2。 14.1.2.2统计分析 激活Statistics菜单选Survival中的Life Tables...项,弹出Life Tables对话框(图14.1)。从对话框左侧的变量列表中选time,点击 钮使之进入time框;在Display Time Intervals栏中定义需要显示生存率的时点,本例要求从0个月显示至48个月,间隔为2个月,故在0 through框中输入48,在by框中输入2。选death,点击 钮使之进入Status框,点击Define Event...钮弹出Life Tables:Define Event for Status Variable对话框,在Single value栏中输入1,表明death = 1为发生死亡事件者;点击Continue钮返回Life Tables对话框。选group,点击 钮使之进入Factor框,点击Define Range...钮,弹出Life Tables:Define Range for Factor Variable对话框,定义分组的范围,在Mininum框中输入1,在Maxinum框中输入2,点击Continue钮返回Life Tables对话框。

第14章生存分析实现

第十四章生存分析 本章使用的STATA命令: 例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。现用Kaplan-Meier法计算生存率。 解:STATA数据为: STATA命令为:

stset time,failure(d=1) sts list sts graph 结果为:

例14-3下面是来自于Berkson & Gage(1950)的一个研究队列。为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。共有374名患者进入研究队列。 表14-3 寿命表法计算生存率的计算用表 (1) (2) (3) (4) (5) (6) (7) (8) (9) 序号术后生存 年数 期初观察 例数 期内 死亡 期内截尾 人数 校正期初 人数 死亡 概率 生存 概率 生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t) 1 0~374 90 0 374 0.2406 0.7594 0.7594 2 1~284 76 0 284 0.2676 0.7324 0.5561 3 2~208 51 0 208 0.2452 0.7548 0.4198 4 3~157 2 5 12 151 0.165 6 0.8344 0.3503 5 4~120 20 5 117.5 0.1702 0.8298 0.2907 6 5~95 7 9 90.5 0.0773 0.9227 0.2682 7 6~79 4 9 74.5 0.0537 0.9463 0.2538 8 7~66 1 3 64.5 0.0155 0.9845 0.2498 9 8~62 3 5 59.5 0.0504 0.9496 0.2372 10 9~54 2 5 51.5 0.0388 0.9612 0.2280 11 10+47 21 26 34 0.6176 0.3824 0.0872 解:STATA数据为: time w d 1 90 1 2 76 1 3 51 1

第十六章 生存分析习题

第十六章生存分析习题 一、选择题: 1.研究某种死因对居民生命的影响,最优方法是: A 计算死因别死亡率 B 计算年龄组死因死亡率 C 计算年龄组病死率 D 编制去死因寿命表 E 计算标准化死因死亡率 2.在人口分析和人口预测时,经常需要确定人口的死亡率。但是,由于死亡率受社会、经济、文化及医疗卫生条件等诸因素的影响,存在一定的波动。同时,在一些人口资料不完整或人口数量太少的地区,也得不到有关的资料。这时,可以借助一些数理统计的方法,将世界各地的大量的寿命表汇集起来,进行分析,归纳出几种死亡模式,对各种模式按照其不同的平均预期寿命水平编制出一组寿命表,供人们参考,这种寿命表是: A 队列寿命表 B 现时寿命表 C 简略寿命表 D 去死因寿命表 E 模型寿命表 3.在寿命表中,用于评价居民健康水平的最优指标是: A 生存人年总数 B 生存人年数 C 预期寿命 D 死亡概率 E 尚存人数4.寿命表的用途,不包括下列哪一项: A 评价国家或地区居民健康水面 B 描述疾病的时间分布特征 C 进行人口预测 D 研究人口再生产状况 E 研究人群的生育、发育及疾病发展规律5.生存分析中的生存时间为 A.确诊至死亡的时间 B.出院至失访的时间 C.手术至死亡的时间 D.观察开始至观察终止的时间 E.观察开始至失访的时间 6.关于肝癌治疗的随访资料作生存分析,可当作截尾值处理的是 A.死于肝癌 B.死于意外死亡 C.死于其它肿瘤 D.a.c 都是 E.b.c 都是二、问答题: 1、生存资料中,截尾数据的含义及其出现的原因是什么? 2、Cox 回归模型中,偏回归系数i β的意义是什么? 3、Cox 回归模型与logistic 回归模型相比有何不同?三、计算题: 1、为研究急性淋巴细胞性白血病病人的生存时间与其预后因素的关系,某研究者测得 50例急性淋巴细胞性白血病病人的生存时间(单位)及有关预后因素资料,1x 为入院时白细胞数(L /109 ?),2x 为淋巴结浸润度(分为0、1、2三级),3x 为缓解出院后的巩固治疗(有巩固治疗时3x =1,否则3x =0),随访的终点事件是死于白血

Cox回归分析—非常详细的SPSS操作介绍

患者生存状态的影响因素分析 ——生存资料的COX回归分析1、问题与数据 某研究者拟观察某新药的抗肿瘤效果,将70名肺癌患者随机分为两组,分别采用该新药和常规药物进行治疗,观察两组肺癌患者的生存情况,共随访2年。研究以死亡为结局,两种治疗方式为主要研究因素,同时考虑调整年龄和性别的影响,比较两种疗法对肺癌患者生存的影响是否有差异。变量的赋值和部分原始数据见表1和表2。 表1. 某恶性肿瘤的影响因素与赋值 表2. 两组患者的生存情况 group gender age time survival 0 1 0 22 1 0 1 1 10 1 0 1 1 64 1 0 1 1 12 1 0 1 0 17 1 1 0 0 19 1 1 1 1 4 1 1 0 1 1 2 0 1 0 0 5 0 1 1 1 27 0 2、对数据结构的分析 该研究以死亡为结局,治疗方式为主要研究因素,每个研究对象都有生存时

间(随访开始到死亡、失访或随访结束的时间),同时考虑调整年龄和性别的影响。欲了解两种疗法对肺癌患者生存的影响是否有差异,可以用Cox比例风险模型(Cox proportional-hazards model,也称为Cox回归)进行分析。 实际上,Cox回归的结局不一定是死亡,也可以是发病、妊娠、再入院等。其共同特点是,不仅考察结局是否发生,还考察结局发生的时间。 在进行Cox回归分析前,如果样本不多而变量较多,建议先通过单变量分析(KM法绘制生存曲线、Logrank检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。 单因素分析后,应当考虑应该将哪些自变量纳入Cox回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。 3、SPSS分析方法 (1)数据录入SPSS

cox回归结果解析

筛选变量的方法:第一步,结合临床,临床认为有关的变量均筛选出来。第二步.应用双变量的相关分析,把显著相关的变量筛选出来,保留临床意义更大的那个。第三步,应用Kaplan-Meier法对每个危险因素的两个暴露水平做生存曲线,若曲线存在交叉,则不能应用Cox生存分析(Cox生存分析也称比例风险回归,它包含一个假定,即在随访期间暴露于预后因素与非暴露的风险比例维持恒定),这类变量需应用更复杂的非比例风险回归模型,这里将不详述了。第四步,单因素分析。可应用COX生存分析的第0步结果作为单因素分析的结果。可在SPSS的Cox回归里选择任何一种前进法,在Option中选择at each step,取因子筛选第0步的Score检验结果作为单因子Cox回归分析的结果。也有文章的单因素分析对于离散型变量应用卡方检验和连续型变量应用t检验,等级资料应用双变量相关分析。 最后,将进行Cox回归分析。应用SPSS中analysis-survival-cox regression.在time一栏中选择生存时间;在state一栏中选择数据状态(在数据编码中已经介绍),在激活的define event一栏中设定single value为1。这里要强调几个小问题:1,SPSS可以支持研究者做两个或以上的变量的共同效应,需在主对话框中同时选中需研究的变量两个或两个以上,这样协变量框中的>a*b>才会被激活。2,分类变量,在这里被称为哑变量,需单击categorical,然后将分类变量选入对话框。 最后得到的结果,B为协变量的系数,Exp(B)为相对危险度。可得到比例风险模型:h(t,x)=h0(t)exp(Σβ ixi)公式1-1 预后指数也称预后得分,PI(prognostic index)= (Σβ ixi) PI=0代表危险率处于平均水平,PI<0,代表危险率低于平均水平;PI>0,代表危险率高于平均水平。由公式1-1可以求得全部病人的预后指数。将所有的预后指数做等级变换,例如分组的界点PI=-1,0,1,以PI为分类变量做COX回归,并估计生存率,便获得预后指数分类生存率,若样本量很大,或代表性比较好,可用内插法分别估计不同预后指数水平的人群的k年生存率,以及中数生存期,编制成参照表,便可用于临床,根据每个病人的PI值,预测其存活k年的概率,以及期望的生存年数。最后一段摘自方积乾主编的第二版《医学统计学与电脑试验》。如果我们能够象国外一样做大规模多中心前瞻的研究,我一定要做到最后一步。 其实这个问题关键还是在你自己,就是你为何要定义分类变量如果变量是连续变量或者是具有等级关系的,那么一般是不定义为分类变量的,比如年龄,身高,体重等等。如果变量的数值之间没有等级关系,比如组别,我们用1表示A组,2表示B性,3表现C组,这个在分析的时候是需要定义为分类变量的,因为这个数值的大小是没有意义的。所以关键怎么选择,还是需要看楼主这几个变量所代表的具体意义。 COX回归时如果需要分析的自变量中为有序多分类,为保证结果的准确性,应将其指定为亚变量进行分析(严格的讲,两分类变量也应进行指定,但不指定时的分析结果是等价的),所以您定义为categorical后的计算结果是可信的 the final multivariate Cox regression model, xx was identified as an independent prognostic factor with an adjusted hazard ratio of (95% confidence interval –”,而有的文章则是这样描述“Cox regression indicated that ING4 expression is an independent prognostic factor for overall 5-year survival (Relative risk = , 95% confidence interval = –, P = ”请问这两种描述有什么区别hazard ratio 与relative risk又有什么不同谢谢大家!

相关文档
最新文档