一种基于树搜索的层次多标签乳腺疾病分类诊断方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第10卷㊀第2期Vol.10No.2㊀㊀
智㊀能㊀计㊀算㊀机㊀与㊀应㊀用
IntelligentComputerandApplications

㊀2020年2月㊀
Feb.2020
㊀㊀㊀㊀㊀㊀
文章编号:2095-2163(2020)02-0034-06
中图分类号:TP181
文献标志码:A
一种基于树搜索的层次多标签乳腺疾病分类诊断方法
金程笑1,潘㊀乔1,张敬谊2,俞春儒1
(1东华大学计算机科学与技术学院,上海201620;2万达信息股份有限公司,上海201112)
摘㊀要:随着医疗信息化的快速发展,医疗机构在临床诊断的过程中产生了大量的原始电子病历数据,存在着大量的可挖掘信息,作为临床的辅助诊断㊂由于乳腺疾病患者的患病情况较为复杂,同一位患者可能会患有多种相关疾病,每个大类疾病分类下可能会存在很多的小类疾病,而小类疾病分类下又可能存在更细粒度的疾病类别㊂传统的分类问题(如二分类和多标签分类)往往会忽略各标签之间存在的依赖关系并且分类算法输出数目呈指数级,占用空间过大,造成预测性能不佳㊂因此本文提出了一种基于树搜索的层次多标签乳腺疾病分类诊断方法,利用树结构可以充分考虑到标签集之间的层次结构的依赖关系,规范化诊断结论㊂按诊断结果之间的层次关系构建了层次多标签树,通过对标签树的路径搜索,最终实现乳腺疾病的多标签分类㊂
关键词:乳腺疾病;树搜索;层次多标签;规范化
Classificationandpredictionmethodof
hierarchicalmulti-labelbreastdiseasebasedontreesearch
JINChengxiao1,PANQiao1,ZHANGJingyi2,YUChunru1
(1SchoolofComputerScienceandTechnology,DonghuaUniversity,Shanghai201620,China;
2WondersInformationCo.,Ltd.,Shanghai201112,China)
ʌAbstractɔWiththerapiddevelopmentofmedicalinformatization,medicalinstitutionsgeneratealargeamountoforiginalelectronicmedicalrecorddataduringtheclinicaldiagnosisprocess,andthereisalargeamountofinformationthatcanbeminedforclinicalauxiliarydiagnosis.Becausetheprevalenceofpatientswithbreastdiseaseismorecomplicated,thesamepatientmaysufferfrommultiplerelateddiseases.Theremaybemanysmalldiseasesundereachmajordiseaseclassification,andtheremaybemoredetaileddiseasescategoriesunderthesmalldiseaseclassification.Inthetraditionalclassificationproblems(suchasbinaryclassificationandmulti-labelclassification),thedependenciesbetweenthelabelsaretendedtobeignoredandthenumberofclassificationalgorithmoutputsisexponential,takinguptoomuchspace,resultinginpoorpredictionperformance.Therefore,ahierarchicalmulti-labelbreastdiseaseclassificationdiagnosismethodbasedontreesearchisproposedinthispaper.Thetreestructurecanfullyconsiderthehierarchicalrelationshipbetweenlabelsetsandstandardizethediagnosisconclusion.Accordingtothehierarchicalrelationshipbetweenthediagnosisresults,ahierarchicalmulti-labeltreeisconstructed.Bysearchingthepathofthelabeltree,themulti-labelclassificationofbreastdiseasesisfinallyrealized.ʌKeywordsɔbreastdisease;treesearch;hierarchicalmulti-label;normalize
哈尔滨工业大学主办学术研究与应用
●基金项目:上海市经信委人工智能创新发展专项资金(RX-RJJC-08-16-0483,2017-RGZN-01004)㊂
作者简介:金程笑(1996-),女,硕士研究生,主要研究方向:医疗大数据㊁人工智能;潘㊀乔(1977-),男,博士,副教授,硕士生导师,主要研究
方向:数据挖掘㊁网络性能分析;张敬谊(1974-),女,博士,教授级高级工程师,主要研究方向:级联式体系架构㊁异构异质数据采集㊁大数据分析㊂
收稿日期:2019-12-18
0㊀引㊀言
近年来,乳腺疾病的发病率正在逐渐上升,严重影响了妇女和少数男性的生命安全和生活质量,据统计,全球每年查出患乳腺癌的人数约有120万,其中50万人死于乳腺癌[1-2]㊂所以,积极寻找有效的乳腺疾病诊断方法,尽早对诊断结果作出预防,提高乳腺病患的治愈率在目前的研究中尤为重要㊂随着现代化临床医疗信息系统的快速发展,电子病历系统中积累了越来越多的医疗数据,其中乳腺疾病数据占据了一定的比例,对乳腺疾病的诊断㊁预测和治
疗等有着重要的研究价值[3]㊂
人工智能中常用的预测方法一般都归结为二分
类或多分类问题,对于疾病的预测方法有例如甲状腺良恶性的预测方法,阿尔兹海默症的多分类诊断方法等[4]㊂但是在实际的临床上,患者的患病情况较为复杂,同一名患者可能会有3 4种疾病,例如患有乳腺肿瘤疾病的患者,可能还伴随转移㊁高血压以及骨质疏松等疾病,各个大类疾病分类下会存在很多的小类疾病分类,小类疾病分类下可能还会有更细粒度的疾病类别标签存在,例如,乳腺良性肿瘤
这一大类会分类为纤维瘤㊁脂肪瘤㊁乳头状瘤这三个小类㊂但是,传统的分类问题往往会忽略各标签之间存在的依赖关系,并且分类算法输出数目呈指数级,占用空间过大,造成预测性能不佳,因此,多标签分类成为解决该类问题的主要方法[5-6]㊂
多标签分类指的是一个样本可能同时属于多个类别(即有多个标签),并且这些类别之间可能存在一定的相关性[7]㊂针对同一个样本进行多标签分类相较于单标签分类要复杂得多,而在实际生活中存在较多的多标签分类的问题[8],例如电影分类㊁图书分类和疾病分类等㊂
多标签分类算法通常分为2个类别㊂一类是通过数据集分解,将多标签分类问题分解为多个单标签分类问题处理㊂给定n个元素的标签集合L=(L1,L2, ,Ln),将L中的任意2个标签Ln,Lm组合病构建一个分类器,该分类器中只含有对应标签Ln,Lm的类别的数据㊂如果将L中所有标签进行组合会有n∗(n-1)/2个分类器㊂因此,多标签分类问题可以转化为通过构建n∗(n-1)/2个二分类问题进行处理,如Goldstein等人[9]在i2b22008数据上实验,使用一对一策略将肥胖症及其他15种并发症进行多标记分类问题转换为多个二元分类问题;另一类是通过基于单个优化的多标签分类算法,如耿丽娟[10]提出基于域数的加权KNN算法,针对9980篇的医疗相关文本进行多分类,构建内㊁外层体系结构分别通过KNN算法进行分类,该算法的优点是不需要更改数据集的结构,根据近邻域数进行选择性文本加权,保留了标签之间的依赖,有效地提高了分类精度㊂
上述两类算法的问题在于基于数据集分解的算法无法保证类别之间存在的依赖性,而基于单个优化的算法虽然保留了标签之间的依赖,但是又因为多标签分类问题的输出空间过大会出现计算效率较低的问题㊂因此,一些研究者根据多标签问题的2个主要缺点提出了层次多标签分类算法,如Clare等人[11]利用分层多标签分析微生物突变表型生长实验的数据,以预测新的基因功能,使得准确率超过80%㊂该算法通过将数据集分层可以保证类别间的依赖关系,通过将标签分层在训练时可以将数据集进行分类,减少输出空间,很好地提高计算性能㊂本文提出了一种基于树搜索的层次多标签乳腺疾病分类预测方法㊂按诊断结果之间的层次关系构建了层次多标签树,通过对标签树的路径搜索,最终实现乳腺疾病的多标签分类㊂该方法的特点是利用树结构可以充分考虑到标签集之间的层次结构的依赖关系,达到规范化诊断结论的目的㊂
1㊀具体方法
本文提出的基于树搜索的层次多标签分类诊断方法的总体流程如图1所示㊂首先,通过对所要预测的诊断疾病进行层次标签树构建㊂然后,对每个层次标签树的非叶子节点进行基分类器的训练㊂最后,对层次标签树的路径进行打分,选取高于某设定阈值的路径进行反馈,实现对乳腺电子病历的层次多标签分类诊断㊂
图1㊀基于树搜索的层次多标签分类诊断算法的流程图
Fig.1㊀Flowchartofhierarchicalmulti-labelclassificationanddiagnosisalgorithmbasedontreesearch
1.1㊀构建层次标签树
1.1.1㊀获取实体标签集
本文的实验数据均来自上海某三甲医院提供的真实的乳腺电子病历数据,主要采用电子病历中的出院小结和首次病程记录作为研究对象㊂根据i2b2(2010)电子病历标注规范中5类实体的描述对乳腺电子病历进行标注,实体名称及其标注见表1[12]㊂采用了乳腺电子病历的实体和关系联合抽取模型,对乳腺电子病历进行建模,同时完成乳腺电子病历实体识别与关系抽取,获得了最终的实体标签集[13-15]㊂
表1㊀实体名称及其标注
Tab.1㊀Entitynameanditslabel
实体名称实体标注
疾病实体DIS
症状实体SYN
检查实体TES
治疗实体TRE
其他O1.1.2㊀疾病实体分类
在乳腺电子病历中,患者的患病情况较为复杂,同一名患者可能会有3 4种疾病,例如患有乳腺肿瘤疾病的患者,可能还伴随转移㊁高血压以及骨质疏松等疾病,各个大类疾病分类下会存在很多的小类疾病分类,小类疾病分类下可能还会有更细粒度的
53
第2期金程笑,等:一种基于树搜索的层次多标签乳腺疾病分类诊断方法
疾病类别标签存在,例如,乳腺良性肿瘤这一大类会分类为纤维瘤㊁脂肪瘤㊁乳头状瘤这三个小类㊂疾病的划分见表2㊂
表2㊀疾病类别
Tab.2㊀Diseasecategory
疾病类别标签疾病从属标签
疾病总类别乳腺肿瘤㊁其他疾病
乳腺肿瘤乳腺良性肿瘤㊁乳腺恶性肿瘤
乳腺良性肿瘤纤维瘤㊁脂肪瘤㊁乳头状瘤
乳腺恶性肿瘤浸润性导管瘤㊁血管肉瘤
浸润性导管㊁血管肉瘤淋巴转移㊁肺转移㊁肝转移㊁腹腔转移㊁骨转移其他疾病高血压㊁糖尿病㊁其他乳腺疾病
其他乳腺疾病乳腺增生㊁乳腺结节1.1.3㊀构建层次标签树
通过表2可以发现这些标签(疾病)之间存在树形层次结构关系,将上表划分的疾病构建为层次标签树,疾病关系层次结构映射如图2所示,标签树包括非叶子节点和叶子节点两类㊂非叶子节点作为疾病大类一般包含多个子类标签,即疾病子类,在标签树上从根节点至叶子节点,也表示了从大的疾病分类逐渐缩小到疾病小类的过程㊂
图2㊀疾病层次多标签树结构体
Fig.2㊀Diseaselevelmulti-tagtreestructure1.2㊀基分类器训练
1.2.1㊀训练集筛选
由于在层次多标签树中,每个非叶子节点对应作为一个分类器对其所对应的孩子节点进行分类㊂每一个分类器ci的训练集分为2个部分㊂一部分由对应距离非叶子节点ci最近一层的子节点sub+(ci)组成,记为train+(ci),用于训练属于节点ci的分类器;另一部分由不含有ci子节点的所有标签组成,用于训练完全不属于ci节点的分类结果,记为train-(ci)㊂若ci没有兄弟节点,则在层次标签树中向上搜索,找到离ci最近的含有兄弟节点的非叶子节点bro(parent(ci)),并且将这个节点不包含ci的样本加入train-(ci)㊂
例如,当前节点y为乳腺良性肿瘤,则ci这个节点的训练集由正样本训练集ci下所有包含子节点的样本组成,同时,负样本由乳腺恶性肿瘤这个节点的样本组成且负样本中不含有ci的节点和ci的子节点㊂
1.2.2㊀基分类器训练
模型的训练算法描述如算法1所示㊂
算法1㊀乳腺电子病历层次多标签分类训练算法
输入:乳腺电子病历未标注数据集U,疾病分类标签Y
输出:学习模型L
initialize:U'ɪU
/∗训练集初始化,进行标注∗/
LabelTree=createTree(UJ')
/∗创建层次多标签树∗/
ForciinLabelTree:
㊀㊀Ifciisnotleafnode
㊀㊀/∗判断节点ci是否为叶子节点∗/
㊀㊀㊀㊀train+=train+.add(sub+(ci))/∗把ci最近的子节点加入train+集合中∗/㊀㊀㊀㊀Ifcihasbrothernode/∗如果ci有兄弟节点∗/
㊀㊀㊀㊀㊀㊀train-=train-.add(sub-(ci))/∗把ci兄弟节点最近的子节点加入train-集合中∗/㊀㊀㊀㊀Else
㊀㊀㊀㊀㊀㊀train-=train-.add(bro(parent(ci)))
/∗找到离ci最近的含有兄弟节点的非叶子节点bro(parent(ci)),并且将这个节点不包含ci的样本加入train-(ci)∗/
㊀㊀㊀㊀EndIf
㊀㊀modelL=train(train+ɣtrain-)
㊀㊀/∗训练学习器∗/
㊀㊀EndIf
EndFor
returnL
算法1是根据乳腺电子病历的特点,先通过表2的分类构建层次多标签分类树,再将训练集按照树中的每一个非叶子节点的标签进行分类,最后形成乳腺电子病历层次多标签分类训练算法框架㊂该框架也可根据数据的实际需要更换合理的基分类器
63智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第10卷㊀
进行训练㊁分类㊂
1.3㊀多标签分类诊断
层次标签树中一条路径的得分是通过每个非叶子节点上基分类器的预测结果进行加权求和获得的㊂层次标签树中的权值如式(1)所示:
w(ci)=maxlayer-layer(ci)+1
maxlayer+1,(1)㊀㊀式(1)的主要作用是反映路径中层次对于节点的影响,即越靠近根节点的非叶子节点的分类准确性对整个分类起到的影响更大㊂如果高层的节点出现分类错误,则对整个路径上的分类会出现较大的影响,产生的错误损失也会越大㊂
非叶子节点标签yi的高度由level(y)表示,层次标签树中树的最大高度通过maxlayer表示㊂层次标签树中的每条路径的得分通过式(2)来计算:
si=ðmi=1w(ci)∗p(ci|x).(2)㊀㊀路径得分si计算流程是:给定第i条路径,节点个数为m,首先计算每一个基分类器所预测概率p,然后再与每一层的权值w(ci)进行加权,最后通过计算预测概率的加权和㊂计算路径得分如算法2所示㊂
算法2㊀乳腺电子病历层次多标签分类算法
输入:乳腺电子病历测试数据集U,疾病分类标签Y,基分类器Classifier阈值σ
输出:预测标签集Labels
initialize:U'ɪU
/∗训练集初始化,进行标注∗/
LabelTree=createTree(UJ')
/∗创建层次多标签树∗/
ForciinLabelTree:
㊀㊀Ifciisnotleafnode/∗判断节点ci是否为叶子节点∗/
㊀㊀㊀㊀p(ci)=classifier(ci)/∗计算非叶子节点ci的预测概率∗/㊀㊀
w(ci)=maxlayer-layer(ci)+1
maxlayer+1
㊀㊀/∗计算ci所在层次节点的权值∗/㊀
si=ðmi=1w(ci)∗p(ci|x)
/∗计算ci节点的得分∗/
㊀㊀EndIf
EndFor
Forsinscore:
㊀㊀scoreTree=SumTree(s)
㊀㊀Ifs>=σ:
㊀㊀㊀㊀Labels.add(ci)
㊀㊀EndIf
EndFor
returnLabels
算法2首先计算了每一个节点的概率和节点所在层的权重,再通过式(2)计算该路径的得分,比较选取不同的阈值s对结果的验证㊁比较,将得分大于阈值的路径中的节点加入分类结果的集合中,作为最终结果返回,每个返回节点对应的标签则为最终的预测标签集合㊂
2㊀实验
2.1㊀实验数据
为了对本文提出的层次多标签方法进行有效性评估,首先将电子病历原始数据经过上述的实体识别与关系抽取,得到同时含有TeAS(因症状而采取检查)和TeRD(检查发现某种疾病)这两种关系的乳腺电子病历数据作为训练数据集,然后将含有症状的电子病历语句筛选出作为输入数据,将疾病作为对应的结果集㊂数据集中部分数据见表3㊂除了乳腺电子病历入院简要病史数据外,还额外加入体检摘要和生命体征指标共同作为特征,作为基分类器的输入㊂症状为乳腺电子病历实体识别后提取的结构化数据,体检摘要为患者进行B超㊁MRI等检查的报告,生命体征为患者检查过程中各项指标的记录,对疾病的诊断同样有重要的参考意义,所以把体检摘要㊁生命体征和症状集合的数据一并加入作为特征㊂在此基础上,可得设计研发内容分述如下㊂
表3㊀乳腺电子病历数据
Tab.3㊀Breastelectronicmedicalrecorddata数据分项内容
症状肿块㊁发热㊁乳头溢液㊁淋巴结㊁橘皮样变
体检摘要双乳对称,乳头无内陷及歪斜,双侧乳头位于同一水平面㊂左乳内上触及4cm肿块,质韧,边界欠清,活
动度一般㊂右乳未见明显异常,双腋下及锁骨上淋巴
结阴性㊂
腹部B超:肝内脂肪浸润,胆囊胰体脾肾未见明显异
常㊂
双乳MR:左乳内上多发团块
生命体征血红蛋白:119前白蛋白:249尿素:4.2
肌酐:64谷丙转氨酶:12碱性磷酸酶:88诊断纤维瘤㊁高血压
㊀㊀(1)词语编码㊂首先,将症状中的词语映射为
73
第2期金程笑,等:一种基于树搜索的层次多标签乳腺疾病分类诊断方法
一个数字,当输入至基分类器时,这个词语对应的数字和词语所在词向量表lookuptable中对应的向量将会共同作为基分类器的输入,词语的编号由词语在句子中的起始位置决定㊂
(2)标签编码㊂给定大小为n的疾病的多标签分类集合为L=(L1,L2,...,Ln),当某样本x含有Li时,则Li=1,否则Li=0㊂在本文中,标签的总数为19,标签集合编码顺序则按从上到下,从左到右进行排列㊂如果样本x包含乳腺纤维瘤和高血压这两类疾病,则x在L中会对应5个标签,对应的多标签分类的集合对应的诊断属性见表4㊂
表4㊀乳腺电子病历结构化数据编码
Tab.4㊀Structureddataencodingforelectronicbreastmedicalrecords
数据分项对应数据编码
症状(12,16,20,29,35,42)
生命体征(119,249,4.2,64,12,88)
诊断(1,1,1,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0)2.2㊀实验评价标准
给定大小为n的标签集合Y=(y1,y2, ,yn),集合中yi表示某样本含有第i个标签,分别用1和0表示样本含有标签yi和不含有yi㊂本文中,yi表示目标集合,yiᶄ表示预测集合㊂这里,对研究中选用的设计评价指标将做阐释表述如下㊂(1)预测标签在子集中的准确率(subsetaccuracy)㊂表示测试集中预测的标签集合完全正确的样本占全部样本的比例,如式(3)所示:
subsetaccuracy=1NðNi=1(yi=yi'),(3)㊀㊀(2)准确率(accuracy)㊂如式(4)所示:
accuracy=1pðpi=1|yiɘyiᶄ|
|yiɣyiᶄ|,(4)㊀㊀(3)精度(precision)㊂如式(5)所示:
precision=1pðpi=1|yiɘyiᶄ|
|yiᶄ|,(5)
㊀㊀(4)召回率(recall)㊂如式(6)所示:
recall=1pðpi=1|yiɘyiᶄ|
|yiᶄ|,(6)
㊀㊀(5)F1值㊂如式(7)所示:
F1=2∗precision∗recall
precision+recall.(7)2.3㊀多模型实验对比
子集准确率(subsetaccuracy)判断为真需要满足算法预测的标签集合等于目标集合㊂由于多标签
分类的输出空间较大,完全准确地预测每一个集合中的标签并不容易,所以子集准确率通常提升不明显㊂首先,通过本文层次标签树多分类方法,这项指标提升至70.3%㊂同时,由标签树的分层结构,保留标签之间的依赖关系,可以对训练数据集进行有效划分,从而减少计算性能㊂通过对比逻辑回归模型和KNN模型分别提高了16%和8%,所以使用标签树有效避免了传统多标签分类样本空间过大导致分类效果欠佳的问题㊂准确率㊁精度㊁召回率和F1四类指标同样也作为算法常规的评价标准,层次多标签与其他模型进行比较的结果见表5㊂
表5㊀多模型实验对比结果
Tab.5㊀Multi-modelexperimentcomparisonresults模型subsetaccuracyaccuracyprecisionrecallF1
LR53.861.365.362.763.9
KNN62.768.472.270.971.4层次多标签70.373.778.677.878.12.4㊀多分类器实验对比
本节通过实验来对比多种基分类器对基于层次多标签分类算法的效果,并选择性能最优的基分类器来测试本文的方法㊂根据4种不同的分类方法来比较不同的分类器对该层次多标签分类算法的性能㊂使用4种常见的方法作为基分类器㊂见表6㊂
表6㊀多分类器结果对比
Tab.6㊀Comparisonofmultipleclassifierresults模型subsetaccuracyaccuracyprecisionrecallF1
LR60.763.768.466.267.3LSTM+LR65.669.373.771.672.6
KNN63.668.971.470.270.7层次Bi-LSTM[16]70.373.778.677.878.1㊀㊀通过实验的对比,将4种基分类器应用于层次多标签分类方法,在训练数据的维度都为300维时,LSTM+LR对比KNN算法在相同输入的情况下,效果略好于KNN,各项指标普遍提升约2%㊂层次Bi-LSTM模型对比LSTM+LR与KNN模型的精确度提升明显,准确度高出约5%㊂层次Bi-LSTM算法的分层提取特征的特点,将一个较长维度的输入进行分层特征提取,有效地降维㊂通过实验对比,本文选择层次Bi-LSTM作为最终的基分类器㊂
2.5㊀多阈值σ实验对比
本节中通过模型简化测试方法对多阈值σ条件下模型的训练效果和性能进行定量分析㊂采用逐步增加阈值的数量检验模型的分类能力通过汉明损失进行对比,如式(8)所示:
83智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第10卷㊀
HamLoss=1


ðp
i=1
yiᶄΔyi|.
(8)
㊀㊀对比各算法输出的汉明损失,汉明损失表示多标签分类模型精度,首先计算每个样本中标签对预测错误的个数,计算yiΔyiᶄ,Δ为异或操作,再与对应预测标签yiᶄ的预测概率相乘,最后计算每个预测标签乘积和的均值㊂
如图3所示,当选取词向量作为网络输入时,通过逐步增加阈值使得各算法最终输出的路径得分超过所设定的阈值㊂通过实验对比发现,当阈值设定在0.50 0.70之间汉明损失趋势总体呈现逐步下降,而当阈值大于0.70时,accuracy的趋势稳定或者呈现出略微上升的趋势㊂接下来,通过十折交叉验证进行试验,经过LSTM进行初步语义特征提取的逻辑回归算法比LR逻辑回归算法的汉明损失降低0.2,而LSTM+LR算法与树层次标签算法普遍相差0.1㊂
当阈值为0.65时,LSTM+LR算法的汉明损失最小,多标签分类的效果较好㊂当阈值为0.7时,层次多标签算法的分类效果最为显著,整体汉明损失低于前述2种算法㊂
1.61.51.41.31.21.11.00.90.80.70.6
0.500.550.600.650.700.750.800.85
L R L S T M +L R T R E E
阈值σ
H a m L o s s
图3㊀不同大小阈值在层次多标签算法的汉明损失对比Fig.3㊀ComparisonofHamminglossofhierarchicalmulti-label
algorithmwithdifferentthresholds
3㊀结束语
本文提出了一种基于树搜索的层次多标签乳腺疾病分类诊断方法,实验数据是来自上海某三甲医院提供的真实的乳腺电子病历数据,通过引用实体和关系联合抽取方法提取出的疾病实体作为实体标签集㊂首先介绍了层次多标签分类总体流程,然后对疾病的类别进行详尽分类,并阐述了根据分类结果构建层次标签树的过程,提出了基于树搜索的多标签分类诊断的计算方法,最后进行实验对比㊂
通过在真实数据集上进行对比实验,使用准确率㊁召回率等多组评价指标对模型结果进行评估,证明了对已有模型的改进并且有效地提高了电子病历
实体识别以及关系抽取的准确性㊂通过多模型和多个基分类器进行对比,证明了基于树搜索的层次多标签乳腺疾病分类诊断方法的有效性㊂
接下来的研究工作可以从这2个方面展开㊂首先,使用网络上的公开训练集作为实验数据,为后续多标签预测提供更准确的训练集做模型训练㊂其次,将电子病历中的其他因素作为特征进行多标签分类,从而提高辅助诊断的真实性与全面性㊂参考文献
[1]JOCHENK,JÖRGD,MIENAA,etal.Cognitiveperformance
andpsychologicaldistressinbreastcancerpatientsatdiseaseonset[J].Frontiersinpsychology,2019.[2]李玉阳.山东省乳腺疾病调查报告与乳腺癌危险因素分析[D].济南:山东大学,2011.
[3]张晓雅,肖宝菊.电子病历的现状与发展趋势[J].电子技术与软件工程,2018(8):176.
[4]LIUJin,LIMin,LANWei,etal.ClassificationofAlzheimer's
diseaseusingwholebrainhierarchicalnetwork[J].IEEE/ACM
transactionsoncomputationalbiologyandbioinformatics,2018,15(2):624.
[5]李思男,李宁,李战怀.多标签数据挖掘技术:研究综述[J].计算机科学,2013,40(4):14.
[6]CAIZhiling,ZHUW.Featureselectionformulti-labelclassificationusingneighborhoodpreservation[J].IEEE/CAAJournalofAutomaticaSinica,2018,5(1):320.[7]冯雪东.多标签分类问题综述[J].信息系统工程,2016(3):137.
[8]马鸿超,张坤丽,赵悦淑,等.基于特征融合的产科多标记辅助诊断研究[J].中文信息学报,2018,32(5):128.[9]GOLDSTEINI,UZUNORÖ.Specializingforpredictingobesity
anditsco-morbidities[J].JournalofBiomedicalInformatics,2009,42(5):873.
[10]耿丽娟.基于健康医疗大数据的KNN分类算法研究[J].通讯世界,2017(20):265.
[11]CLAREA,KINGRD.Knowledgediscoveryinmulti-label
phenotypedata[J].LectureNotesinComputerScience,2001,2168(2168):42.[12]DeBRUIJNB,CHERRYC,KIRITCHENKOS,etal.Machine-
learnedsolutionsforthreestagesofclinicalinformationextraction:Thestateoftheartati2b22010[J].JournaloftheAmerican
MedicalInformaticsAssociationJamia,2011,18(5):557.
[13]PANQiao,YUChunru,CHENDehua,etal.Jointextractionof
entitiesandrelationsofbreastultrasoundreportbasedondeeplearning[C]//The20thIEEEInternationalConferenceonHighPerformance
Computing
and
Communications(HPCC).
Guangzhou:IEEESociety,2018.
[14]QAMASGKS,尹继泽,潘丽敏,等.基于深度神经网络的命名
实体识别方法研究[J].信息网络安全,2017(10):29.
[15]GRIDACHM.Character-levelneuralnetworkforbiomedical
namedentityrecognition[J].JournalofBiomedicalInformatics,
2017,70:85.
[16]BAKERS,KORHONENA.Initializingneuralnetworksfor
hierarchicalmulti-labeltextclassification[C]//BioNLP2017.
Vancouver,Canada:AssociationforComputationalLinguistics,
2017:307.

3第2期金程笑,等:一种基于树搜索的层次多标签乳腺疾病分类诊断方法。

相关文档
最新文档