基于XGBoost的乳腺癌预测模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第32卷第1期 2 0 19年2月
青岛大学学报(自然科学版)
JO U R N A L OF Q INGDAO U N IV E R S IT Y(N atural Science E d itio n)
Vol. 32 No. 1
Feb. 2 0 19
文章编号 1006 - 1037(2019)01 - 0095 -06
dot :10.3969$.issii.1006 - 1037.2019.02.18
基于XGBoott的乳腺癌预测模型
沈倩倩,邵峰晶,孙仁诚
(青岛大学计算机科学技术学院,青岛266071)
摘要:针对现有乳腺癌预测模型虽然准确率较高,但是存在过拟合现象且在用于计算机辅助
诊断(C om puterA id edD iagn osis,CAD)过程中不能很好的降低漏诊率和误诊率的问题,提
出了一种基于X G B oost算法构建的乳腺癌预测模型。在实验中采用细针穿刺细胞病理学
检查所获得的检验数据进行实验并对比基于X G B oost的乳腺癌预测模型与已有预测模型
的预测准确率,结果显示,基于X G B o o st算法的乳腺癌预测模型预测准确率达到了
97. 86%,R O C曲线下方面积(A U C)的大小达到了99. 59%,该模型的准确率优于已有乳腺
癌预测模型的准确率,且获得了较高的A U C值,通过基于X G B oost的乳腺癌预测模型可以
进一步优化乳腺癌的诊断技术。
关键词:乳腺癌;辅助诊断;实时预测;XGBoost
中图分类号:T P391文献标志码:A
在女性中癌症发病率最高的乳腺癌亦是全球发病位居首位的恶性肿瘤。曾倩等[1]的调查结果显示全球在2013年新增的乳腺癌患者大约有180万例,世界卫生组织(W H O)所公布的数据显示每年全球有超过100万人被确诊为乳腺癌,2017年中国乳腺癌的新增发病例数已经达到了27. 24万,国际医疗团队还警告乳腺癌的发病率在逐年上升。为了达到更好的治疗效果,乳腺癌的早期诊断尤为重要。在传统的诊断过程中,医生通常依靠视觉信息来分析组织影像从而确定病灶的恶性程度,不仅耗费时间,且极有可能发生误诊,因 此在提高诊断模型的准确率的同时,尽可能提高模型灵敏度和特异性显得极为重要。在医学保健领域,借助机器学习模型用于计算机辅助诊断的过程,在出现症状之前对患有某些疾病或有患病风险的病人提早预测,从而可以改善治疗。对于乳腺癌的诊断来说,其诊断方法包括临床触诊、影像学检查中的乳腺钼靶X线和超声检查、核磁共振成像以及细针穿刺细胞病理学检查等。然而,传统的诊断方法容易受到图像质量、诊断医生视觉疲劳造成的疏忽的影响,容易发生漏诊和误诊的现象。基于机器学习的计算机辅助诊断技术的发
展为正确鉴别诊断从而减少主观因素所造成的对患者的误诊和漏诊提供了可能。应用机器学习的分类算法辅助乳腺癌的诊断过程已成为当前研究的热点问题。H am ilto n等%]运用规则推导的方法判别乳腺癌样本数据通过10折交叉验证,预测准确率达96%;W atk in s等[3]提出了一种免疫启发的监督学习的算法,并将其应用到美国W isconsin医院W illiam H.W olb erg博士提供的乳腺癌数据样本中,通过10折交叉验证,预测的准确率达到了97% ;Setiono[4]提出了一种通过从训练的神经网络中提取分类规则的算法,并将其应用到乳腺癌的预测模型中;P o la t5&提出了采用最小二乘支持向量机(LS-SV M)的分类算法用于乳腺癌的诊断过程。但是,现有的关于乳腺癌诊断的相关模型研究中,大多仅以模型的准确率作为衡量模型预性能的指标,忽略了医疗领域对模型的确诊以及排除能力的重视。灵敏度(Sensitivity)作为避免假阴性的量化指标,以此来衡量模型的漏诊率高低,而特异度(Specificity)作为避免假阳性的量化指标,用来衡量模型误诊率的高低。通常灵敏度越高,模型的漏诊率越低,特异性越高,模型的误诊率越低。但是任何预测模型,都需要在灵敏度及特异度之间进行权衡取舍,而受试者工作特性(R O C,receiveroperatingcharacteristic curve)曲线下方面积(A U C,A reau n d er th e C u rv e)大小可以作为综合评价模型灵敏度和特异性的重要指标。基于XGBoost 收稿日期#018-08-15
基金项目:山东省高等学校科技计划项目(批准号J18K A393)资助。
通讯作者:邵峰晶,女,博士,教授,主要研究方向为数据挖掘、复杂网络等。
96青岛大学学报(自然科学版)第32卷
的乳腺癌预测模型在提高模型预测准确率的同时具有较高的R O C下方曲面积A U C值,这使得乳腺癌的诊断结果具有的可信度。
数据集介绍及缺失值处理
实验过程中采用的数据集是由美国W isconsin医院的W illiam H.W o lb erg博士贡献在U C I上的临床案例数据集[6],数据集中包含的属性特征是从病人乳房肿块的细针穿刺(F N A)的数字图像中计算得到的。该数据集总共包含699个样本,经过医疗领域的专家诊断结
果将样本了划分,数据集中前9列记录了每个样本对应
的属性,最后一列即为专家诊断的结果。原始数$
据集中用 2 良性肿瘤,用 4 恶性肿瘤,实验时修改了■ Malignant(恶性)类别标签,处理后的数据集中用标签1代表恶性(M alig- 好:
nant),标签0表示良性(Benign)。结果显示,在数据集
中有458个样本被诊断为良性,剩下的241个样本被诊断为
恶性,诊断结果中两个类别所如图1所示。据g
样本诊断结果中良性和恶性样本所占比例集样本的特征属性如表1。
表1样本包含的特征属性及其含义
号性性号性性-
0Clump Thickness肿块的密虔5BareN uclei裸核
1Uniformity of Cell Size细胞大小均匀性6Bland Chromatin微受激染色质
2Uniformity of Cell Shape细胞形状均匀性7normal nuclei正常核
3Marginal Adhesion边界粘连8it'ses有丝分裂
4Single Epithelial Cell Size单个上大小
数据集样本中裸核(B areN uclei)特征属性存在16个缺失值,在实验前对含有缺失值的样本处理采用划分良性和恶性的方法通过各自的裸核这一性的分填充。对缺失填的数据集绘性的密度图,其结果如图2所示。