基于SEER数据库的结直肠癌预后因素探讨及预后模型构建

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于SEER数据库的结直肠癌预后因素探讨及预后模型构建辛世超;赵玉虹
【摘要】The factors influencing the prognosis of colorectal cancer were studied after its characteristic variables were screened by stepwise logistic regression analysis, Bayesian model averaging analysis, and LASSO regression a-nalysis respectively. A model of colorectal cancer prognosis was established according to the artificial neural net-work classification algorithm for the assessment of colorectal cancer. The highest accuracy was detected in the model of colorectal cancer prognosis established by Bayesian model averaging analysis combined with artificial neural net-work classification algorithm.%分别使用logistic逐步回归法、贝叶斯模型平均法和LASSO回归进行特征变量筛选,分析美国SEER数据库的预后数据,探讨影响结直肠癌预后的相关因素,并应用人工神经网络分类算法构建预后模型,指导结直肠癌预后评价.结果证明,贝叶斯模型平均法结合人工神经网络的混合算法所构建的预后模型准确率最高.
【期刊名称】《中华医学图书情报杂志》
【年(卷),期】2017(026)011
【总页数】7页(P7-13)
【关键词】结直肠癌;预后模型;特征选择;logistic逐步回归法;LASSO回归;贝叶斯模型平均法
【作者】辛世超;赵玉虹
【作者单位】中国医科大学医学信息学院,辽宁沈阳 110122;中国医科大学医学信息学院,辽宁沈阳 110122;中国医科大学附属盛京医院,辽宁沈阳 110004
【正文语种】中文
【中图分类】G35;R730.7
结直肠癌包括结肠癌和直肠癌，是胃肠道中常见的恶性肿瘤。

在2015年中国癌症统计和2017年美国癌症统计中，结直肠癌的发病率和死亡率在所有恶性肿瘤中均处在前5位[1-2]。

根据美国SEER(Surveillance，Epidemiology and End Results)数据库的最新统计显示，结直肠癌患者5年生存率仅为64.5%，中国结直肠癌患者5年生存率比美国和欧洲更低[3]。

因此，建立结直肠癌预后模型，对制
定临床决策和改善结直肠癌预后具有重要意义。

近年来，随着机器学习的发展，越来越多的机器学习方法应用于医学模型的构建当。

如2015年Kang J等[4]探讨了逻辑回归、支持向量机、人工神经网络等3种方法在预测放射治疗结果中的应用，Bunjira Makond等[5]应用贝叶斯网络方法对肺
癌脑转移患者的短期生存能力进行预测，2016年Su Jili等[6]应用支持向量机和
基因函数聚类构建喉癌复发模型，曹文哲[7]基于3种机器学习算法建立了前列腺
癌诊断模型。

在预后模型构建过程中，特征选择是非常重要的一步，也通常被视作数据挖掘的第一步。

通过特征选择可以去除大量冗余信息和不相关特征的干扰，降低分析成本，提高准确率，提升模型性能[8]。

因此，本文应用人工神经网络(Artificial Neural Network，ANN)分类算法，通过3种不同的变量筛选方法进行特征选择，分别建立结直肠癌预后模型，并进行进一步的比较分析。

1 三种特征选择方法简述
1.1 Logistic回归
Logistic回归中自变量选择的常用方法为逐步选择法。

该法按照选入变量的顺序不同分为前进法(forward selection)、后退法(backward elimination)和逐步回归法(stepwise regression)，其共同特点是每一步只引入或剔除一个自变量Xj，决定其取舍则基于对偏回归平方和的F检验，即
(1)
式(1)中，p为进行到第l步时方程中自变量的个数，为第l步时Xj的偏回归平方和，为第l步时的残差平方和。

对给定的检验水准α，若是方程外自变量，当
F≥Fα，(1,n-p-1)时可决定引入；若是方程内自变量，当F<Fα，(1,n-p-1)，可决定剔除[9]。

1.2 贝叶斯模型平均法
在标准统计研究中，数据分析者通常从某些类别的诸多模型中选择一个模型，然后进行实验研究。

这种模型选择方法忽略了模型的不确定性，会导致过度的推论和决定[10]。

同样，如果只是针对一种或者少数几种模型进行特征选择，结果也是不准确的。

而贝叶斯模型平均法(Bayesian Model Averaging，BMA)则弥补了这一不足，通过the fast leaps和bounds算法可遍历模型空间中的每一个模型[11]。

假设研究感兴趣的变量为Δ，可能存在的所有模型为M={M1，M2，…，MK}(如果有p个自变量，即特征变量，那么可能存在的模型将会达到2p个)。

在给定数据集D的情况下，Δ的后验分布为：
(2)
式(2)中，Mk后验模型概率为：
(3)
公式(3)中，p(D|Mk)是模型Mk的边际似然概率，可由公式(4)得出：
(4)
公式(4)中，θk是模型Mk的所有参数向量。

由公式(2)、公式(3)、公式(4)可以得出Δ的后验分布，从而可以选择最优模型及其所包含的特征向量。

1.3 LASSO回归
Least Absolute Shrinkage and Selection Operator(LASSO)回归的基本思想是
通过构造一个惩罚函数压缩一些系数，同时使绝对值较小的系数为0，从而对特征变量进行筛选并且有效降低模型复杂度。

LASSO回归模型的系数估计值可表示为：
(5)
公式(5)中，参数λ表示LASSO回归模型的复杂度，λ越大则惩罚力度越大，纳入模型的变量越少。

LASSO回归克服了logistic回归逐步选择法的局限，并且保留
了岭回归和子集回归的优点[12]。

2 模型构建
2.1 数据收集与预处理
从SEER数据库的Custom Data中提取被确诊为结直肠癌的患者信息。

纳入标准为：肿瘤部位为结直肠且不含阑尾，确诊年份为2004-2009年；排除标准为：原位癌，信息缺失记录。

最终共纳入65 145名患者信息，涉及24个预后变量。

变
量的详细信息见表1。

24个预后变量中有19个为分类型变量、5个为连续型变量。

其中，19个分类型
变量又包括6个二分类变量(性别、远处转移情况、淋巴结移除情况、是否化疗、
是否为首要恶性肿瘤、机构类型)、有序多分类变量2个(肿瘤分期、组织分级)、
11个无序多分类变量(种族、居住地、发病部位、病理类型、浸润程度、淋巴受累程度、手术类型、放疗顺序、放疗类型、婚姻状况、保险情况)。

为避免因哑变量过多造成自由度变高而引发维数灾难以及变量的多重共线性等问题，在保证结果准确度的情况下，二分类变量和有序多分类变量无须设置哑变量，只对11个无序多分类变量设置哑变量即可。

表1 结直肠癌预后变量信息变量类型变量名称SEER字段变量简称类数/数值范围分类变量种族Race recoderace3性别Sexsex2居住地Statestate8肿瘤分期Derived AJCC Stage Group,6th edstage4发病部位Primary Site - labeledsite9组织分级Gradegrade4病理类型ICD-O-3
Hist/behav,malignanthistology3浸润程度CS extensionextension6淋巴受累程度CS lymph nodesnodes4远处转移情况CS mets at dxmets2手术类型RX Summ--Surg Prim Sitesurg3淋巴结移除情况RX Summ--Scope Reg LN Surscope2放疗顺序Radiation sequence with surgeryradseq4放疗类型Radiation recoderadiation3是否化疗Chemotherapy recodechemotherapy2是否为首要恶性肿瘤First malignant primary indicatorfirst2婚姻状况Marital status at diagnosismarital3机构类型Type of Reporting Sourcesource2保险情况Insurance Recodeinsurance4连续变量年龄Age at diagnosisage15-110肿瘤大小CS tumor sizesize1-995受检淋巴结数量Regional nodes examinedexamined1-90阳性淋巴结数量Regional nodes positivepositive0-90肿瘤个数Total number of in situ/malignant tumors for patienttotal1-14 模型的结局变量为生存状态(survive)，将生存期大于等于60个月的患者视为生存(编码为1)，不足60个月的患者视为死亡(编码为0)。

其中，生存人数与死亡人数的比值为36841∶28304，比值接近1∶1，可视为平衡数据。

2.2 特征变量筛选
将数据集按7:3分为训练集和测试集，在训练集内分别用logistic回归、BMA和LASSO回归3种方法对特征变量进行筛选。

2.2.1 logistic筛选回归特征变量
本文设定了α=0.05，作为Logistic回归逐步选择法的纳入标准，一共纳入种族、性别、年龄、居住地、组织分级、病理类型、浸润程度、淋巴受累程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、肿瘤个数、婚姻状况和保险情况等18个特征变量。

Logistic回归、BMA、LASSO回归的结果信息见表2。

表2 Logistic回归、BMA、LASSO回归结果信息变量简称
Logisti cBMALASSOrace√√√sex√√√age√√√state√√√stage√site√grade√√√histology√√sizeextension√√√nodes√√mets√√√examined√√√positive√√√surg√√√scope√√√radseqradiationchemotherapy:√√√first√√√total√√marit al√√√sourceinsurance√√√
2.2.2 采用贝叶斯模型平均法筛选特征变量
贝叶斯模型平均法可遍历模型空间中的每一个模型。

本文共有24个特征变量，可能存在的模型个数将达到16 777 216个。

因此，选取后验概率最高的Model1作为最佳模型，Model1内共包含16个特征变量：种族、性别、年龄、居住地、组织分级、浸润程度、淋巴受累程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、婚姻状况和保险情况。

为便于理解Model1，对其进行可视化(图1)。

图1中每一行对应一个变量(哑变量)，每一列对应一个模型(本文只纳入了后验概率最高的model1)，红色矩形对应的变量(哑变量)与结局变量呈正相关，蓝色矩形对应的变量(哑变量)与结局变量呈
负相关，白色矩形对应的变量(哑变量)未被纳入对应的模型中。

图1 BMA可视化
2.2.3 采用LASSO筛选回归特征变量
构建模型之前需要对自变量进行进一步的矩阵化处理，并设定响应变量为二分类变量。

结果见图2。

图中每一条线代表一个变量(哑变量)，左侧坐标轴为变量(哑变量)的系数，上侧坐标轴为变量(哑变量)个数，底部坐标轴为参数λ的对数值。

由图2可知，λ作为LASSO回归中一个非常重要的参数，可以调节模型内自变量的数目，因此确定一个最优的λ值极为重要。

本文通过十折交叉验证方法确定的
最优λ值见图3。

图2 LASSO回归
图3 十折交叉验证
由图3可以看出，不同的λ值(对数值)对应着不同的自变量数目和模型误差。

最优的λ值(对数值)应该对应最低的模型误差，即红色曲线的最低点，这时可以得到最优λ值为0.0003656017。

模型共纳入48个变量(哑变量)，对应图3左侧的
虚线。

此外，该算法还提供了在其一倍标准误内更简洁的模型，即图3中右侧的虚线所
对应的模型，并且两个λ值对应的模型误差变化不大。

因此最终选取λ值为
0.004106892，这时共纳入30个变量(哑变量)。

30个变量(哑变量)可对应为19个特征变量：种族、性别、年龄、居住地、肿瘤分期、发病部位、组织分级、病理类型、浸润程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、肿瘤个数、婚姻状况和保险情况。

2.2.4 特征变量系数
Logistic逐步回归法、贝叶斯模型平均法和LASSO回归3种特征变量筛选方法的共同变量(哑变量)的系数见表3。

2.3 模型构建
基于3种不同的特征变量筛选方法，应用人工神经网络分类算法建立了3个预后模型，分别为logit_ANN、bma_ANN、lasso_ANN。

此外，还构建了未进行特征选择的原始数据集基线模型(ANN)。

上述各个模型的参数均相同。

同时通过准确率、ROC曲线下面积等指标对模型性进行评价的详细结果见表4，ROC曲线见图4。

表3 特征变量系数变量(哑变量)Logistic逐步回归BMALASSO回归
Intercept3.860e+004.314e+004.045754272race2-1.974e-01-1.936e-01-0.164109546sex1.971e-012.007e-010.128401419age-4.477e-02-4.472e-02-0.041865154state2-3.147e-01-3.100e-01-0.149304374state3-2.420e-01-2.422e-01-0.075453573state4-2.470e-01-2.536e-01-0.056941795grade-1.549e-01-1.602e-01-0.129300892extension2-1.165e-01-1.308e-
010.051740022extension4-5.053e-01-5.731e-01-0.067165023extension5-1.044e+00-1.102e+00-0.536346822extension6-9.609e-01-1.019e+00-
0.516693835mets-2.102e+00-2.181e+00-1.648096170examined1.570e-021.590e-020.013440495positive-1.234e-01-1.223e-01-0.115680129surg3-3.211e-01-3.651e-01-0.263701467scope3.199e-013.243e-
010.215191343chemotherapy-5.147e-01-4.883e-01-0.406460966first-
2.902e-01-
3.480e-01-0.264586558marital2-
4.286e-01-4.314e-01-
0.355468298marital3-2.726e-01-2.759e-01-0.221251990insurance24.218e-014.216e-010.264678933insurance33.051e-013.064e-010.110205920
表4 各分类器性能比较模型类型准确率灵敏度特异度F值AUC预测正确例数ANN70.78%45.81%89.90%0.580.67915820logit_ANN66.45%28.28%95.67% 0.420.62014430bma_ANN72.96%59.65%83.14%0.660.71415843lasso_ANN
72.88%59.63%83.02%0.660.71315826bma_op_ANN73.18%59.64%83.54%0. 660.71615890
图4 ROC曲线
由表4可知，bma_ANN模型的性能最好。

进一步优化bma_ANN模型，设定隐藏层个数为5，初始随机数权值为0.1，权值衰减参数为5e-4，最大迭代次数为200，可得到表4中的bma_op_ANN模型。

3 结果分析
3.1 结直肠癌预后相关因素的筛选
Logistic逐步回归、贝叶斯模型平均法和LASSO回归3种方法筛选出的预后影响因素各不相同，相同预后影响因素共有15个：种族、性别、年龄、居住地、组织分级、浸润程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴转移情况、是否化疗、是否为恶性肿瘤、婚姻状况和保险情况。

上述15个因素被3种特征选择方法均纳入模型中，说明这些因素很大程度上会影响结直肠癌的预后，是决定结直肠癌患者5年生存状态的关键因素。

3种特征选择方法均排除的变量有4个：肿瘤大小、放疗顺序、放疗类型和机构类型，说明肿瘤的大小、放疗与手术的先后顺序、采取何种放疗方法以及患者的就诊机构对结直肠癌患者5年生存状态的影响甚微，作用几乎可以忽略。

剩余的肿瘤分期、发病部位、淋巴受累程度、病理类型和肿瘤个数等5个特征变量因变量筛选方法的不同而被纳入不同的模型。

通过表3进一步研究特征变量对结局变量的作用方向。

由表3可知，虽然3种特征变量筛选方法所筛出的共同变量(哑变量)在各自模型内的系数互不相同，但是同一变量(哑变量)在3种筛选方法内的系数的正负情况却基本一致(除哑变量extension2外)。

系数为正值的变量(哑变量)与结直肠癌患者5年生存状态呈正相关关系，系数为负值的变量(哑变量)与其呈负相关关系(这种关系阐释多用于连续
型变量和有序分类型变量)。

由此可以区分预后危险因素和预后保护因素。

变量
age属于预后危险因素，说明年龄越大患者5年生存概率越小；而变量scope则
属于预后保护因素，说明一定程度上移除淋巴结数量的增多有利于改善患者的5
年生存状态。

3.2 特征变量选择方法与模型性能的关系
根据表2和表4可知，ANN、logit_ANN、bma_ANN和lasso_ANN模型纳入
的特征变量的个数分别为24个、18个、16个和19个，4个模型对应的准确率
分别为70.78%、66.45%、72.96%和72.88%。

特征变量个数排名为
ANN>lasso_ANN>logit_ANN>bma_ANN,而准确率排名为
bma_ANN>lasso_ANN>ANN> logit_ANN。

因此，模型准确率与其纳入的特征变量个数并无直接关系，并不是特征变量越多越全，就可以得到很高的模型准确率。

此外，不考虑数据集的类型以及建模所用方法的特点，直接对数据集进行Logistic 回归并通过逐步选择筛选特征变量的做法并不可取。

针对本文所用的结直肠癌患者预后信息数据集，应用人工神经网络构建预后模型，Logistic逐步回归法反而导致了基线模型准确率的下降，而另外两种变量筛选方法则对基线模型的准确率有一定的提升。

所以，应该根据不同的数据类型、建模方法和研究目的，选择更为合适的特征变量筛选方法，而不是不考虑实际情况，贸然使用最为常见的Logistic逐步
回归法。

3.3 提升预后模型准确率的意义
基线模型的准确率为70.78%，最后获得的最优模型bma_op_ANN的准确率为73.18%。

从数值上看，准确率只提升了2.4%，但是鉴于医学数据的复杂性且基
数庞大，提升2.4%具有一定的实际意义。

基线模型预测正确的例数为15 820例，而bma_op_ANN模型预测正确的例数为15 890例，多出70位患者的5年生存状态被正确预测，可节约大量的医疗资源。

我国结直肠癌每年新发病例高达30万，
并且每年增加4%[13]。

因此，在实际应用中，结直肠癌预后模型准确率每提升1%，就相当于多成功预测3 000名结直肠癌患者的5年生存状态，对节省医疗开支和促进医疗资源的合理利用有一定的积极作用。

4 结语
本文详细阐述了3种特征变量筛选方法的原理与特点，通过其筛出的变量探讨了影响结直肠癌预后的相关因素，并根据其所构建模型效能的不同对3种方法进行了进一步的比较分析，最终选择表现最佳的贝叶斯模型平均法进行变量筛选，应用人工神经网络分类算法构建的结直肠癌患者预后模型，可为医生制定临床决策提供辅助支持。

【参考文献】
【相关文献】
[1] Siegel RL,Miller KD,Jemal A.Cancer Statistics,2017 [J].CA: A cancer journal for clinicians,2017,67(1):7-30.
[2] Chen W,Zheng R,Baade PD,et al.Cancer statistics in China,2015 [J].CA: A cancer journal for clinicians,2016,66(2):115-132.
[3] 詹天成，张大奎，彭亦凡，等.国内单中心1321例结直肠癌预后的临床分析[J].实用肿瘤杂志，2016，31(4):353-356.
[4] Kang J,Schwartz R,Flickinger J,et al.Machine learning approaches for predicting radiation therapy outcomes: A clinician＇s perspective[J].International Journal of Radiation Oncology Biology Physics,2015,93(5):1127-1135.
[5] Bunjira M,Kung-Jeng W,Kung-Min W.Probabilistic modeling of short survivability in patients with brain metastasis from lung cancer[J].Computer Methods & Programs in Biomedicine,2015,119(3):142-162.
[6] Su J,Zhang Y,Su H,et al.A recurrence model for laryngeal cancer based on SVM and gene function clustering[J].Acta Oto-laryngologica,2017,137(5):557-562.
[7] 曹文哲，应俊，张亚慧，等.基于机器学习算法的前列腺癌诊断模型研究[J].中国医疗设备，2016，31(4)：30-35.
[8] 刘峤，秦志光，罗旭成，等.统计机器学习中的特征选择方法综述[C]//中国计算机学会.2009中国计算机大会论文集，2009.
[9] 孙振球,徐勇勇.医学统计学[M].4版.北京：人民卫生出版社，2015.
[10] Hoeting JA,Madigan D,Raftery AE,et al.Bayesian model averaging: A
tutorial[J].Statistical Science,1999,14(4):382-401.
[11] Raftery AE,Painter IS,Volinsky CT.BMA: An R package for Bayesian Model Averaging [J].The Newsletter of the R Project,2005,5(2):2-8.
[12] 韩耀风，覃文峰，陈炜，等.Adaptive LASSO logistic回归模型应用于老年人养老意愿影响因素研究的探讨[J].中国卫生统计，2017，34(1):18-22.
[13] 佚名.大肠癌发病率升高[J].中国肿瘤临床与康复，2016，24(2):222.。