生存分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生存分析
本数据资料主要探讨不同处理对生存时间的影响,数据中,treat为连续变量,num2_treat为二分类变量,num3_treat为三分类等级变量。共纳入病人200例,进行生存分析步骤如下:
1.生存资料的定义:
命令:stset[时间变量] [截尾变量]
对应本数据为:stset time mortality
结果:
1)其中time指随访时间,即产生预期结果或者截尾时的时间减去纳入随访时的初始时间得到的天数。
2)Mortality为截尾变量,Stata视变量mortality不等于0的非缺失值为出现预期结果。3)Stata会同时产生4个新的变量:
_st代表:数据中该条记录是否被定义为生存资料。
_d 代表:数据中该条记录是否出现预期结果。
_t 代表:数据中观察对象被随访的时间。
_t0 代表:数据中观察对象第一次被观察到的时间(开始过程的时间为0)
2.生存资料的描述。
1)计算中位生存时间的命令:
stsum[if 表达式] ,[by(分组变量)选择项]
对应本数据:stsum,by(num2_treat)
结果:
由于两组中截尾数据出现的较早,故25%、50%和75%生存时间无法估计,Stata用缺失值表示。
4)stci命令可以用来计算中位生存时间、平均生存时间、生存时间的百分数及其可信区间。
命令:stci [if 表达式],[by(分组变量) 选择项]
其中选择项有:median(计算中位生存时间);rmean(计算平均生存时间)
P(#)(生存时间的百分数);level(#)(可信区间的可信度)对应本数据:stci,by(num2_treat) median
结果:
同样由于两组中截尾数据出现的较早,故中位生存时间无法估计,Stata用缺失值表示。
stci,by(num2_treat) rmean
结果:
num2_treat=0组的平均生存时间大于num2_treat=1组。对于观察队列中最后一例为截尾者,平均生存时间的估计值偏低,Stata在相应数值后加“*”表示。
stci,by(num2_treat)p(25)
结果:
同样由于两组中截尾数据出现的较早,第25%位生存时间也无法估计,Stata用缺失值表示。
3.生存率的估计:
1)Kaplan-Meier生存曲线:
命令:sts graph,[by(分组变量) 绘图命令选择项]
其中主要选项有:failure(指定绘制“死亡曲线”,与生存曲线相反)
gwood(绘制生存曲线的可信区间)
lost(在曲线上标出该时间点的截尾值例数)
对应本数据:sts graph , by(num2_treat)gwoodlostplotregion(style(none)) scheme(s1color ) xscal(range(0 650)) xlabel( 0 200 400 600 ) yscal(range(0.5 1)) ylabel( 0.5 0.6 0.7 0.8 0.9
1 )
结果:
由sts list命令可以算出,num2_treat=0组的生存率,从1随随访时间下降到0.909,而num2_treat=1组的生存率从1随随访时间的延长下降到0.752,并且两条曲线没有交叉,num2_treat=1组的生存率明显比num2_treat=0组低。
2)Nelson-Aalen累积风险函数曲线:
命令:sts graph,[by(分组变量)na绘图命令选择项]
对应本数据:sts graph , by(num2_treat) na
结果:
同样,由sts list命令可以算出,num2_treat=0组的累积风险,从0随随访时间增长到0.095,而num2_treat=1组的生存率从0随随访时间的延长增长到0.280,并且两条曲线没有交叉,num2_treat=1组的死亡风险明显比num2_treat=0组高。
5)输出生存率、生存率的标准误等统计量:
命令:sts list [if 表达式],[by(分组变量) 选择项]
对应本数据:stslist,by(num2_treat)
结果:略
具体给出生存率的变化过程及每个随访时间所对应的生存率、生存率的标准误和置信区间。可用于解决“5年生存率及其可信区间”的求算问题。
6)输出累积风险比及其的标准误等统计量:
命令:sts list [if 表达式],[by(分组变量) 选择项] na
对应本数据:stslist,by(num2_treat) na
结果:略。
7)生存率的比较:
检验两组或多组生存率是否相同一般采用Log-rank检验。
命令:sts test [分组变量],[选择项]
主要选择项有:logrank(进行Log-rank检验)
trend(检验生存率是否随分组变量取值水平的增高的变化趋势是否有意义)对应本数据:sts test num2_treat,logrank
结果:
Logrank检验结果P值为:0.0101,按照a=005的检验水准认为两组病人的生存率不同。
Trend趋势检验要求分组变量有3组及3组以上才可运算。
sts test num3_treat,trend
结果:
根据结果,P值为0.0014,根据a=0.05水平,可以认为随着ALT浓度的增大患者生存率的变化趋势具有统计学意义。
4.Cox比例风险模型:(对应数据中,treat或num2_treat或num3_treat为研究变量,age sex smoking HT DM Stroke Cr TC hscrp为混杂变量)。
设是影响生存时间t的k个危险因素。设hi(t)为第i名受试者在时刻t的风险率即t时刻外后一瞬间的死亡速率。又设h0(t)表示不受危险因素x的影响下在时刻t的风险率,又称为基准风险率或基准函数。其模型的具体形式为:
hi(t)/h0(t)=exp(β1xi1+β2xi2+…+βmxim)
式中hi(t)/h0(t)为相对于基准风险,受试者在t时刻后的相对瞬时死亡风险。
X=(xi1,xi2,…,xim)'是可能与生存时间有关的m个危险因素所构成的向量。
命令:stcox[协变量],[选择项]
用法与Logistic相似。
1)基准生存率和基准累积风险的计算:
“基准”是指所有X变量等于0的情况,所以需要对所有变量进行对中,以便使他们的0值具有实际意义。对于分类变量,0值已具有实际意义,不再进行对中,对于连续变量,以0代表其最小值。
查看连续变量的最小值:
sum age Cr TC hscrp
结果: