基于Cox-nnet的弥漫性大B细胞淋巴瘤预后预测模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于Cox-nnet 的弥漫性大B 细胞淋巴瘤预后预测模型*
郑楚楚"张岩波"王蕾"黄雪倩"余红梅阳桢寰"
邢蒙"范双龙"赵志强罗艳虹心
【提要】目的基于一种新的神经网络架构Cox-nnet 构建弥漫性大B 细胞淋巴瘤的预后预测模型,及早发现高 危和低危患者,为进一步的临床治疗提供参考。方法 首先构建两种常用的低维生存数据的Cox-nnet 和Cox 模型,验证 Cox-nnet 是否适用于低维的生存数据,然后通过单因素Cox 回归和参考相关文献筛选用于构建弥漫性大B 细胞淋巴瘤 (diffuse large B-cell lymphoma ,DLBCL )模型的协变量,分别构建DLBCL 的Cox-nnet 和Cox 模型。结果 最终选入构建 DLBCL 预后预测模型的协变量有25个,Cox-nnet 的一致性指数(0. 724)比Cox (0.685)提升了 5.7%。肝硬化数据的 Cox-nnet 一致性指数(0. 818)比 Cox(0. 804)提升了 1. 7%,乳腺癌数据的 Cox-nnet 一致性指数(0. 660)比 Cox(0. 600)提 升了 10%。结论Cox-nnet 适用于低维的生存数据,基于Cox-nnet 构建的弥漫性大B 细胞淋巴瘤预后预测模型性能与 传统的Cox 回归相比较有较大提升。
【关键词】 弥漫性大B 细胞淋巴瘤Cox-nnet 预后预测Cox 生存分析【中图分类号】R195. 1 【文献标识码】A DOI 10. 3969/j. issn. 1002 -3674.2021.01.031
弥漫性大B 细胞淋巴瘤(diffuse large B-cell
lymphoma ,DLBCL )是非霍奇金淋巴瘤(non-hodgkin lymphoma ,NHL )中常见的一种侵袭性B 细胞淋巴瘤,
约占非霍奇金淋巴瘤的30%左右,其可侵及各个年龄
段的患者,且临床表现各异[1一*
123]。联合免疫化学疗法 R-CHOP (利妥昔单抗、环磷酰胺、阿霉素、长春新碱、
泼尼松)是目前DLBCL 最常用的前期治疗方法,约
50% ~60%的患者被治愈⑷。R-CHOP 疗法显著改 善DLBCL 患者的预后,使其生存率达到60% ~
90%。但是不同患者对治疗的反应各异,对于那些 对R-CHOP 疗法耐药或者病情缓解后复发的患者来
说,预后较差[5-6]。因此对DLBCL 患者进行预后分
析可以及早发现高危和低危患者,从而进一步为临 床医生制定DLBCL 患者个性化治疗方案提供参考。
*基金项目:国家自然科学基金青年科学基金(81502897);山西医科大 学博士启动基金(BS2017029);国家自然科学基金(81973154)
1. 山西医科大学公共卫生学院卫生统计教研室(030001)
2. 重大疾病风险评估山西省重点实验室
3. 山西省肿瘤医院血液科
△通信作者:罗 艳虹,Email : lifearena @ 163. com ;赵 志强,Email :
zqzhao69@ 163. com
Cox 比例风险回归模型是预后分析中最常用的模
型。但是Cox 比例风险回归模型受线性基线的影响, 需满足等比例风险和协变量之间相互独立这两个假
设,实际数据往往难以满足这些假设[7],例如影响疾 病预后的因素错综复杂,很难满足这两个假设。人工
神经网络(artificial neural network , ANN )是一种基于 生物神经网络结构和功能建立的计算模型,具有类似
于人脑的信息处理、学习和存储功能⑷。ANN 对数据 分布无任何要求,可以处理复杂非线性关系[9],近年
来ANN 也被广泛应用于疾病的预后分析中,并表现
出了较优的预测性能,但是ANN 将生存分析问题简
化为分类问题进行分析预测[10 -14],这在一定程度上会
导致预测精度的下降。
Travers Ching 等人提出了一种新的神经网络架构
Cox-nnet [15],该神经网络架构没有将预后分析作为分
类处理,而是将神经网络和Cox 回归相结合,该方法 对于高通量组学数据有较高的预测准确度。本研究旨
在探讨对于低维的生存数据,Cox-nnet 的预测性能是 否优于Cox 回归,并构建DLBCL 患者预后预测模型, 从而为临床医生预测患者死亡风险并指导临床治疗提
供参考。
资料与方法
1.资料获取
本研究收集了某医院355例2013 -2017年确诊
为弥漫性大B 细胞淋巴瘤患者的临床随访数据,随访
截止时间为2018年1月,将死亡作为研究终点,删失比
例为67%。我们还分别从Github 网站(https ://
github. com/traverse/cox-nnet/tree/gh-pages/examples/ PBC)和R 软件中获取两种低维生存数据,分别为:
PBC(肝硬化数据)和WPBC(乳腺癌数据),具体数据
特征及来源见表1。
表1两种低维生存数据的描述
数据名
样本量协变量数删失率(%)数据来源
PBC 410756GitHub WPBC
194
32
76
TH. data
2. 方法及原理
(1)单因素Cox 回归筛选变量
根据单因素Cox 回归分析结果并参考B-Cell Lymphomas , Version 3.2019 Featured Updates to the
NCCN Guidelines(2019年3月修订版)及相关文献[16-24],最终筛选出25个变量用于构建DLBCL患者预后预测模型。具体变量及赋值见表2。本研究中使用SPSS22.0进行单因素Cox回归筛选变量,检验水准a=0.05。本研究中GCB、CD3、CD5、CD20、CD21、CD10、BCL6、BCL2、MUM1、CMYC、p53是否阳性这些因素有较重要的临床意义,无论其有无统计学意义均选入模型。
(2)Cox比例风险回归
传统Cox比例风险回归模型(Cox proportional hazards regression model)是生存分析中使用最广泛的预测模型,是一种半参数模型,可用于生存时间分布未知且含有删失数据的资料[25]。具体的模型表达式为:
"(11x i)=仏(t)exp(x j S)
X i为个体的协变量11X i)为具有协变量X i的个体在时刻t的风险函数;仏(t)为基准风险函数,即协变量X i全部为0的条件下t时刻的风险函数;0为各协变量所对应的偏回归系数,解释了个体的相对风险比。由模型表达式可知Cox比例风险回归模型假设协变量与风险函数之间是线性组合的关系。本研究使用R软件中Survival包中的coxph函数拟合Cox回归模型。
(3)Cox-nnet
Cox-nnet是由Travers Ching等人提出的一种新的人工神经网络模型。该人工神经网络模型将人工神经网络与Cox回归相结合,包括输入层、隐藏层、Cox回归层,Cox回归层输出结果为预后指数,具体的Cox-nnet神经网络结构见图1。该模型表达式为:
0,=G(WX i+”)丁0
其中x,为隐藏层的输入,W为输入层与隐藏层的权重系数矩阵,”为输入层对于每个隐藏层节点的偏置项,G是tanh激活函数:
G(7)=ex P(z)-exp(-z)
exp(z)+exp(-z)
Cox-nnet中使用偏似然对数作为损失函数:
Cost(0,W)=pl(0,W)+A(II0II2+||W)
使用Dropout正则化[26]防止过拟合并使用5折交叉验证来寻找最优正则化参数,一致性指数作为交叉验证性能评价指标。本研究使用Python软件中的Cox-nnet包拟合Cox-nnet模型,具体参数设置为:隐藏层节点数为输入层特征数的平方根的整数部分;交叉验证的正则化参数范围为(-6.5,-0.5);使用Nesterov梯度下降法[27]训练模型;学习率为0.01;衰减率为0.9 ;停止阈值为0.995;最大迭代次数1000次。
表2355例DLBCL患者临床特征及赋值
变量赋值例数(%)确诊年龄1M60周岁171(48.2)
0<60周岁184(51.8)疾病等级1=1级54(15.2)
2=1级112(31.5)
3=皿级69(19.5)
4=W级120(33.8) IPI得分0=0分104(29.3)
1=1分63(17.7)
2=2分67(18.9)
3=3分66(18.6)
4=4分35(9.9)
5=5分20(5.6) LDH是否升高1=是164(46.2)
0=否191(53.8)肿瘤长径1<3cm181(51.0)
2=3-6cm96(27.1)
3=6-9cm47(13.2)
4=9-12cm20(5.6)
5三12cm11(3-1) 02-MG是否升高1=是93(26.2)
0=否262(73.8) ESR是否升高1=是190(53.5)
0=否165(46.5)是否使用CHOP1=是121(34.1)
0=否234(65.9) KPS得分1<80分134(37.7)
0三80分221(62.3)是否GCB1=是203(57.2)
0=否152(42.8) CD31=阳性60(16.9)
0=阴性295(83.1) CD51=阳性10(2.8)
0=阴性345(97.2) CD201=阳性328(92.4)
0=阴性27(7.6) CD211=阳性14(3.9)
0=阴性341(96.1) CD101=阳性59(16.6)
0=阴性296(83.4) BCL61=阳性170(47.9)
0=阴性185(52.1) BCL21=阳性107(30.1)
0=阴性248(69.9) MUM11=阳性166(46.8)
0=阴性189(53.2) CMYC1=阳性12(3.4)
0=阴性343(96.6) p531=阳性4(1.1)
0=阴性351(98.9) Ki-671>80%162(45.6)
0W80%193(54.4) LCA1=阳性37(10.4)
0=阴性318(89.6) Vim1=阳性26(7.3)
0=阴性329(92.7)是否原发胃肿瘤1=是41(11.5)
0=否314(88.5)是否使用利妥昔单抗1=是213(60)
0=否142(40)