生存分析-随机森林实验与代码

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

随机森林模型在生存分析中的应用

【摘要】目的:本文探讨随机森林方法用于高维度、强相关、小样本的生 存资料分析时,可以起到变量筛选的作用。方法:以乳腺癌数据集构建乳腺癌转 移风险评估模型为实例进行实证分析, 使用随机森林模型进行变量选择,然后拟 合cox 回归模型。 结果:随机森林模型通过对变量的选择,有效的解决数据维 度高且强相关的情况,得到了较高的 AUC 值。

一、数据说明

该乳腺癌数据集来自于NCBI ,有77个观测值以及22286个基因变量。通过 筛选选取454个基因变量。将数据随机分为训练集合测试集,其中2/3为训练集, 1/3为测试集。绘制K-M 曲线图:

二、随机森林模型

随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,

因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随 机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最 多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器, 并且其 输出的类别是由个别树输出的类别的众数而定

使用randomForestSRC 包得到的随机森林模型具有以下性质:

Kaplan-Meker estlmaie wHh 95% conndence bounds

S

?2 S

Number of deaths: 27

Number of trees: 800

Mini mum term inal node size: 3

Average no. of term inal no des: 14.4275

No. of variables tried at each split: 3

Total no. of variables: 452

Analysis: RSF

Family: surv

Splitting rule: logrank

Error rate: 19.87%

发现直接使用随机森林得到的模型,预测误差很大,达到了19.8%进一步考虑使用随机森林模型进行变量选择,结果如下:

> our.rf$rfsrc.refit.obj

Sample size: 52

Number of deaths: 19

Number of trees: 500

Minimum terminal node size: 2

Average no. of term inal no des: 11.554

No. of variables tried at each split: 3

Total no. of variables: 9

Analysis: RSF

Family: surv

Splitting rule: logrank *random*

Number of random split points: 10

Error rate: 11.4%

> our.rf$topvars

[1] "213821_s_at" "219778_at" "204690_at" "220788_s_at" "202202_s_at"

[6] "211603_s_at" "213055_at" "219336_s_at" "37892_at"

一共选取了9个变量,同时误差只有11.4%

接下来,使用这些变量做cox回归,剔除模型中不显著(>0.01 )的变量,最终

参与模型建立的变量共有4个。模型结果如下:

exp(coef) exp(-coef) lower .95 upper .95

'218150_at' 1.6541 0.6046 0.11086 24.6800

'200914_x_at' 0.9915 1.0086 0.34094 2.8833

'220788_s_at' 0.2649 3.7750 0.05944 1.1805

'201398_s_at' 1.7457 0.5729 0.33109 9.2038

'201719 s at' 2.4708 0.4047 0.93808 6.5081

'202945_at' 0.4118 2.4284 0.03990 4.2499

'203261_at' 3.1502 0.3174 0.33641 29.4983

'203757_s_at' 0.7861 1.2720 0.61656 1.0024

'205068 s at' 0.1073 9.3180 0.02223 0.5181

最后选取六个变量拟合生存模型,绘制生存曲线如下:

Cox Model

0 2 4 6 8 10 12

Time

下面绘制ROC曲线,分别在训练集和测试集上绘制ROC曲线,结果如下: 训练集:

Time-dependent ROC curve

00

o

0.0 0.2 04 0.6 0B 1.0

False Positive Rate

测试集:

o

由于测试集上的样本过少,所以得到的AUC 值波动大,考虑使用bootstrap 多次 计算训练集上的AUC 值并求平均来测试模型的效果:

AUC at 1 year : 0.8039456

AUC at 3 year : 0.6956907

AUC at 5 year : 0.7024846

由此可以看到,随机森林通过删除贡献较低的变量, 完成变量选择的工作,在测 试集上具有较高的AUC 值,但是比lasso-cox 模型得到的AUC 略低。

附录:

load("~/R/brea.rda") library(survival) set.seed(10) iv-sample(1:77,52) trai n<-dat[i,] test<-dat[-i,] library(ra ndomForestSRC) disease.rfv-rfsrc(Surv(time,status)~.,data = train,

ntree = 800,mtry = 3, no desize = 3,splitrule = "logra nk")

Time-dependent ROC curve

a 0.0 0.2 0.6 0 8 1.0 False Positive Rate

00 * o o 810

3>一一而

」0.4

相关文档
最新文档