机器学习在乳腺癌诊断中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息通信

INFORMATION & COMMUNICATIONS

2019年第7期(总第199期)

2019

(Sum. No 199)

机器学习在乳腺癌诊断中的应用

孔徳锋

(湖北工业大学电气与电子工程学院,湖北武汉430070)

摘要:大数据时代,海量的乳腺癌检测数据给机器学习训练带来可能,机器学习作为及其重要的数据挖掘手段,可在乳腺

癌的医疗诊断中更加精确快速的检测出疑似患者。基于机器学习经典的逻辑回归、决策树、KNN 、支持向量机等算法,对

数据样本进行分类训练,实验结果发现KNN 的表现优异,准确率高达96.6%。该应用在改善乳腺癌诊断中过度依赖医 生经验上有较大帮助。

关键词:数据挖掘;机器学习;分类算法;乳腺癌中图分类号:TP391.41

文献标识码:A

文章编号:1673-1131( 2019)07-0018-04

0引盲

机器学习m 是人工智能领域及其重要的分支,随着技术的 不断革新其在医疗方面的应用也日趋广泛和深入。本文针对 当前人眼判别的不稳定性和经验上的不足问题,提出运用机

器学习的方法,通过对乳腺癌各种属性数据进行训练,让乳腺 癌诊断系统可以自动诊断出恶性乳腺癌患者,减少人的操作

存在时间和经验上的影响。

1乳腺癌诊断研究背景

1.1国内外传统诊断方法

据世界卫生组织的统计,乳腺癌已经是女性最常罹患的

癌症叭乳腺癌最好的处理方法是早发现早治疗,由于很多人

不知道如何诊断该疾病,因此常常耽误了最佳的治疗时间,影

响了治疗效果。传统上确诊乳腺癌的具体方式主要有B 超扫 描、超声检查、X 线检查、CT 扫描、透照法、近红外线扫描、肿 瘤标记物测定、热图像检查等八种方法相对来说比较有效。传

统的诊断方法一般比较复杂,而且需要专门的设备和专职的

医生。

1.2删研卿I 状

此前不久,谷歌公司与Verily 公司的研究人员合作开发了 一款能用来诊断乳腺癌的人工智能系统。该系统在与人类乳 腺癌医生的病理分析竞赛中以高出15.2%的准确度而获得胜 利。但是该团队也指出,虽然机器学习系统在效率和准确率

上超越了人类专家,但是这并不代表病理学家将被人工智能 取代。因此近期对人工智能的研究目的主要是想让AI 成为 病理学家的辅助工具,帮助提高诊断的效率和可靠度。与此

同时,英特尔公司的服务器提供全CPU 统一架构处理,此架构 支持优化Math Kernel Library 数学核心计算库和深度学习框 架,英特尔公司利用自身先进的技术开发出"人工智能乳腺全

周期健康管理系统"。此系统可以参与乳腺影像识别,辅助医

生进行临床决策。另外,中国腾讯公司也研发出一款乳腺肿瘤 筛査AI 系统"觅影AI 影像",该系统在检测病灶的核心指标方 面有着优异的表现,比如检测乳腺钙化和恶性肿块的敏感度

分别达到了 99%和90.2%,对乳腺肿瘤的良恶性判别敏感度和

特异度达到了 87%和96%。

1-3本文主要工作

实践中发现,目前为止没有任何一种分类方法,在所有的 数据类型和领域中证明比其它分类方法更优越叫因此,在不

同的领域具体问题必须具体分析,即使是在同一领域,不同特

点的数据类型在同一分类模型中的效果也不一样。分析实际 的样本数据可知,这种从确定的属性指标以及确定的诊断结

果数据中进行机器学习属于典型的分类范畴叫虽然此领域吸

引了众多国内外学者进行研究,但是并没有得出一般性的结

论。

结合当前人工智能在医疗诊断方面的应用,特别是在乳

腺癌检测方面的突出进展,本文尝试应用经典机器学习模型

对乳腺癌诊断数据进行训练,寻找更适合且实用的机器学习

模型。通过运用逻辑回归、决策树、KNN 、支持向量机等算法 进行建模,对数据进行有效的预处理,不断调整参数并多次仿 真验证数据集,从而得出科学的结论。以此建立可信度高的

乳腺癌检测模型,在肿瘤的良性与恶性判断上,给出理论和实 践依据。

2乳腺癌数据集介绍

本实验采用William? H. Wolberg 博士提供的真实乳腺癌 数据样本。样本中每一个案例都有11个属性,其中第一个属

性为患者ID 编号,无实际意义,实际测试时候可以省去不用«

第二到第十个属性是检测指标,每个属性都有一个1到10范 围的整数值,数值越大表示越不正常。最后一个指标是分类

属性,该属性只有两个值,-1表示良性肿瘤,1表示恶性肿瘤。

各属性含义如下表1。

表1

病人ID

Sample code number

肿块厚度

ClumpJThickness integer [1, 10]

细胞大小的均匀性Cell_Si ^e_ln.i forrai ty i nteger[l, 10]

细胞形状的均匀性

Cell_Shape_Unifonnityinteger [1, 30]边缘粘性

Marginal_Adhesion integer!1,10]

单上皮细胞的大小

Single Epi^CelLSize integer [1,10]裸核

Bare_Nuclei integer[l, 10]

乏味染色体Bland_Chromatin integer [1, 10]正常核

Norraal_Nucleoli integer [1,10]

有丝.分裂

Mitoses integer[1»10]肿瘤性质

C 1 ass (benign., ma 1 ignant }

3机器学习算法

3.1逻辑回归

逻辑回归算法虽然是线性回归,但是其与其它线性回归

算法又有所不同,逻辑回归的预测结果只有两种,即应⑴和

&lse(0)o 因此,逻辑回归尽管它的名字是回归,其实是一个

用于分类的线性模型而不是用于回归。所以,逻辑回归算法 往往适用于数据的分类。那么要想将数据的拟合结果映射到

I 和0上,就需要构造一个函数,使得该函数的结果只有0、1。 事实上,逻辑回归算法的拟合函数称为Sigmond 函数,该函数 的输出值只有0、1,而且是一个平滑的函数。我们又称该函数

为逻辑函数。该函数的表达式如下:

18

相关文档
最新文档