一种基于树搜索的层次多标签乳腺疾病分类诊断方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第１０卷㊀第２期Ｖｏｌ．１０Ｎｏ．２㊀㊀
智㊀能㊀计㊀算㊀机㊀与㊀应㊀用
ＩｎｔｅｌｌｉｇｅｎｔＣｏｍｐｕｔｅｒａｎｄＡｐｐｌｉｃａｔｉｏｎｓ
㊀
㊀２０２０年２月㊀
Ｆｅｂ．２０２０
㊀㊀㊀㊀㊀㊀
文章编号：２０９５－２１６３（２０２０）０２－００３４－０６
中图分类号：ＴＰ１８１
文献标志码：Ａ
一种基于树搜索的层次多标签乳腺疾病分类诊断方法
金程笑１，潘㊀乔１，张敬谊２，俞春儒１
（１东华大学计算机科学与技术学院，上海２０１６２０；２万达信息股份有限公司，上海２０１１１２）
摘㊀要：随着医疗信息化的快速发展，医疗机构在临床诊断的过程中产生了大量的原始电子病历数据，存在着大量的可挖掘信息，作为临床的辅助诊断㊂由于乳腺疾病患者的患病情况较为复杂，同一位患者可能会患有多种相关疾病，每个大类疾病分类下可能会存在很多的小类疾病，而小类疾病分类下又可能存在更细粒度的疾病类别㊂传统的分类问题（如二分类和多标签分类）往往会忽略各标签之间存在的依赖关系并且分类算法输出数目呈指数级，占用空间过大，造成预测性能不佳㊂因此本文提出了一种基于树搜索的层次多标签乳腺疾病分类诊断方法，利用树结构可以充分考虑到标签集之间的层次结构的依赖关系，规范化诊断结论㊂按诊断结果之间的层次关系构建了层次多标签树，通过对标签树的路径搜索，最终实现乳腺疾病的多标签分类㊂
关键词：乳腺疾病；树搜索；层次多标签；规范化
Ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｐｒｅｄｉｃｔｉｏｎｍｅｔｈｏｄｏｆ
ｈｉｅｒａｒｃｈｉｃａｌｍｕｌｔｉ－ｌａｂｅｌｂｒｅａｓｔｄｉｓｅａｓｅｂａｓｅｄｏｎｔｒｅｅｓｅａｒｃｈ
ＪＩＮＣｈｅｎｇｘｉａｏ１，ＰＡＮＱｉａｏ１，ＺＨＡＮＧＪｉｎｇｙｉ２，ＹＵＣｈｕｎｒｕ１
（１ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＤｏｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２０１６２０，Ｃｈｉｎａ；
２ＷｏｎｄｅｒｓＩｎｆｏｒｍａｔｉｏｎＣｏ．，Ｌｔｄ．，Ｓｈａｎｇｈａｉ２０１１１２，Ｃｈｉｎａ）
ʌＡｂｓｔｒａｃｔɔＷｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｍｅｄｉｃａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎ，ｍｅｄｉｃａｌｉｎｓｔｉｔｕｔｉｏｎｓｇｅｎｅｒａｔｅａｌａｒｇｅａｍｏｕｎｔｏｆｏｒｉｇｉｎａｌｅｌｅｃｔｒｏｎｉｃｍｅｄｉｃａｌｒｅｃｏｒｄｄａｔａｄｕｒｉｎｇｔｈｅｃｌｉｎｉｃａｌｄｉａｇｎｏｓｉｓｐｒｏｃｅｓｓ，ａｎｄｔｈｅｒｅｉｓａｌａｒｇｅａｍｏｕｎｔｏｆｉｎｆｏｒｍａｔｉｏｎｔｈａｔｃａｎｂｅｍｉｎｅｄｆｏｒｃｌｉｎｉｃａｌａｕｘｉｌｉａｒｙｄｉａｇｎｏｓｉｓ．Ｂｅｃａｕｓｅｔｈｅｐｒｅｖａｌｅｎｃｅｏｆｐａｔｉｅｎｔｓｗｉｔｈｂｒｅａｓｔｄｉｓｅａｓｅｉｓｍｏｒｅｃｏｍｐｌｉｃａｔｅｄ，ｔｈｅｓａｍｅｐａｔｉｅｎｔｍａｙｓｕｆｆｅｒｆｒｏｍｍｕｌｔｉｐｌｅｒｅｌａｔｅｄｄｉｓｅａｓｅｓ．Ｔｈｅｒｅｍａｙｂｅｍａｎｙｓｍａｌｌｄｉｓｅａｓｅｓｕｎｄｅｒｅａｃｈｍａｊｏｒｄｉｓｅａｓｅｃｌａｓｓｉｆｉｃａｔｉｏｎ，ａｎｄｔｈｅｒｅｍａｙｂｅｍｏｒｅｄｅｔａｉｌｅｄｄｉｓｅａｓｅｓｃａｔｅｇｏｒｉｅｓｕｎｄｅｒｔｈｅｓｍａｌｌｄｉｓｅａｓｅｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｉｎｔｈｅｔｒａｄｉｔｉｏｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍｓ（ｓｕｃｈａｓｂｉｎａｒｙｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｍｕｌｔｉ－ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ），ｔｈｅｄｅｐｅｎｄｅｎｃｉｅｓｂｅｔｗｅｅｎｔｈｅｌａｂｅｌｓａｒｅｔｅｎｄｅｄｔｏｂｅｉｇｎｏｒｅｄａｎｄｔｈｅｎｕｍｂｅｒｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｏｕｔｐｕｔｓｉｓｅｘｐｏｎｅｎｔｉａｌ，ｔａｋｉｎｇｕｐｔｏｏｍｕｃｈｓｐａｃｅ，ｒｅｓｕｌｔｉｎｇｉｎｐｏｏｒｐｒｅｄｉｃｔｉｏｎｐｅｒｆｏｒｍａｎｃｅ．Ｔｈｅｒｅｆｏｒｅ，ａｈｉｅｒａｒｃｈｉｃａｌｍｕｌｔｉ－ｌａｂｅｌｂｒｅａｓｔｄｉｓｅａｓｅｃｌａｓｓｉｆｉｃａｔｉｏｎｄｉａｇｎｏｓｉｓｍｅｔｈｏｄｂａｓｅｄｏｎｔｒｅｅｓｅａｒｃｈｉｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ．Ｔｈｅｔｒｅｅｓｔｒｕｃｔｕｒｅｃａｎｆｕｌｌｙｃｏｎｓｉｄｅｒｔｈｅｈｉｅｒａｒｃｈｉｃａｌｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌａｂｅｌｓｅｔｓａｎｄｓｔａｎｄａｒｄｉｚｅｔｈｅｄｉａｇｎｏｓｉｓｃｏｎｃｌｕｓｉｏｎ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｈｉｅｒａｒｃｈｉｃａｌｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅｄｉａｇｎｏｓｉｓｒｅｓｕｌｔｓ，ａｈｉｅｒａｒｃｈｉｃａｌｍｕｌｔｉ－ｌａｂｅｌｔｒｅｅｉｓｃｏｎｓｔｒｕｃｔｅｄ．Ｂｙｓｅａｒｃｈｉｎｇｔｈｅｐａｔｈｏｆｔｈｅｌａｂｅｌｔｒｅｅ，ｔｈｅｍｕｌｔｉ－ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｂｒｅａｓｔｄｉｓｅａｓｅｓｉｓｆｉｎａｌｌｙｒｅａｌｉｚｅｄ．ʌＫｅｙｗｏｒｄｓɔｂｒｅａｓｔｄｉｓｅａｓｅ；ｔｒｅｅｓｅａｒｃｈ；ｈｉｅｒａｒｃｈｉｃａｌｍｕｌｔｉ－ｌａｂｅｌ；ｎｏｒｍａｌｉｚｅ
哈尔滨工业大学主办学术研究与应用
●基金项目：上海市经信委人工智能创新发展专项资金（ＲＸ－ＲＪＪＣ－０８－１６－０４８３，２０１７－ＲＧＺＮ－０１００４）㊂
作者简介：金程笑（１９９６－），女，硕士研究生，主要研究方向：医疗大数据㊁人工智能；潘㊀乔（１９７７－），男，博士，副教授，硕士生导师，主要研究
方向：数据挖掘㊁网络性能分析；张敬谊（１９７４－），女，博士，教授级高级工程师，主要研究方向：级联式体系架构㊁异构异质数据采集㊁大数据分析㊂
收稿日期：２０１９－１２－１８
０㊀引㊀言
近年来，乳腺疾病的发病率正在逐渐上升，严重影响了妇女和少数男性的生命安全和生活质量，据统计，全球每年查出患乳腺癌的人数约有１２０万，其中５０万人死于乳腺癌［１－２］㊂所以，积极寻找有效的乳腺疾病诊断方法，尽早对诊断结果作出预防，提高乳腺病患的治愈率在目前的研究中尤为重要㊂随着现代化临床医疗信息系统的快速发展，电子病历系统中积累了越来越多的医疗数据，其中乳腺疾病数据占据了一定的比例，对乳腺疾病的诊断㊁预测和治
疗等有着重要的研究价值［３］㊂
人工智能中常用的预测方法一般都归结为二分
类或多分类问题，对于疾病的预测方法有例如甲状腺良恶性的预测方法，阿尔兹海默症的多分类诊断方法等［４］㊂但是在实际的临床上，患者的患病情况较为复杂，同一名患者可能会有３４种疾病，例如患有乳腺肿瘤疾病的患者，可能还伴随转移㊁高血压以及骨质疏松等疾病，各个大类疾病分类下会存在很多的小类疾病分类，小类疾病分类下可能还会有更细粒度的疾病类别标签存在，例如，乳腺良性肿瘤
这一大类会分类为纤维瘤㊁脂肪瘤㊁乳头状瘤这三个小类㊂但是，传统的分类问题往往会忽略各标签之间存在的依赖关系，并且分类算法输出数目呈指数级，占用空间过大，造成预测性能不佳，因此，多标签分类成为解决该类问题的主要方法［５－６］㊂
多标签分类指的是一个样本可能同时属于多个类别（即有多个标签），并且这些类别之间可能存在一定的相关性［７］㊂针对同一个样本进行多标签分类相较于单标签分类要复杂得多，而在实际生活中存在较多的多标签分类的问题［８］，例如电影分类㊁图书分类和疾病分类等㊂
多标签分类算法通常分为２个类别㊂一类是通过数据集分解，将多标签分类问题分解为多个单标签分类问题处理㊂给定ｎ个元素的标签集合Ｌ＝（Ｌ１，Ｌ２，，Ｌｎ），将Ｌ中的任意２个标签Ｌｎ，Ｌｍ组合病构建一个分类器，该分类器中只含有对应标签Ｌｎ，Ｌｍ的类别的数据㊂如果将Ｌ中所有标签进行组合会有ｎ∗（ｎ－１）／２个分类器㊂因此，多标签分类问题可以转化为通过构建ｎ∗（ｎ－１）／２个二分类问题进行处理，如Ｇｏｌｄｓｔｅｉｎ等人［９］在ｉ２ｂ２２００８数据上实验，使用一对一策略将肥胖症及其他１５种并发症进行多标记分类问题转换为多个二元分类问题；另一类是通过基于单个优化的多标签分类算法，如耿丽娟［１０］提出基于域数的加权ＫＮＮ算法，针对９９８０篇的医疗相关文本进行多分类，构建内㊁外层体系结构分别通过ＫＮＮ算法进行分类，该算法的优点是不需要更改数据集的结构，根据近邻域数进行选择性文本加权，保留了标签之间的依赖，有效地提高了分类精度㊂
上述两类算法的问题在于基于数据集分解的算法无法保证类别之间存在的依赖性，而基于单个优化的算法虽然保留了标签之间的依赖，但是又因为多标签分类问题的输出空间过大会出现计算效率较低的问题㊂因此，一些研究者根据多标签问题的２个主要缺点提出了层次多标签分类算法，如Ｃｌａｒｅ等人［１１］利用分层多标签分析微生物突变表型生长实验的数据，以预测新的基因功能，使得准确率超过８０％㊂该算法通过将数据集分层可以保证类别间的依赖关系，通过将标签分层在训练时可以将数据集进行分类，减少输出空间，很好地提高计算性能㊂本文提出了一种基于树搜索的层次多标签乳腺疾病分类预测方法㊂按诊断结果之间的层次关系构建了层次多标签树，通过对标签树的路径搜索，最终实现乳腺疾病的多标签分类㊂该方法的特点是利用树结构可以充分考虑到标签集之间的层次结构的依赖关系，达到规范化诊断结论的目的㊂
１㊀具体方法
本文提出的基于树搜索的层次多标签分类诊断方法的总体流程如图１所示㊂首先，通过对所要预测的诊断疾病进行层次标签树构建㊂然后，对每个层次标签树的非叶子节点进行基分类器的训练㊂最后，对层次标签树的路径进行打分，选取高于某设定阈值的路径进行反馈，实现对乳腺电子病历的层次多标签分类诊断㊂
图１㊀基于树搜索的层次多标签分类诊断算法的流程图
Ｆｉｇ．１㊀Ｆｌｏｗｃｈａｒｔｏｆｈｉｅｒａｒｃｈｉｃａｌｍｕｌｔｉ－ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｄｉａｇｎｏｓｉｓａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｔｒｅｅｓｅａｒｃｈ
１．１㊀构建层次标签树
１．１．１㊀获取实体标签集
本文的实验数据均来自上海某三甲医院提供的真实的乳腺电子病历数据，主要采用电子病历中的出院小结和首次病程记录作为研究对象㊂根据ｉ２ｂ２（２０１０）电子病历标注规范中５类实体的描述对乳腺电子病历进行标注，实体名称及其标注见表１［１２］㊂采用了乳腺电子病历的实体和关系联合抽取模型，对乳腺电子病历进行建模，同时完成乳腺电子病历实体识别与关系抽取，获得了最终的实体标签集［１３－１５］㊂
表１㊀实体名称及其标注
Ｔａｂ．１㊀Ｅｎｔｉｔｙｎａｍｅａｎｄｉｔｓｌａｂｅｌ
实体名称实体标注
疾病实体ＤＩＳ
症状实体ＳＹＮ
检查实体ＴＥＳ
治疗实体ＴＲＥ
其他Ｏ１．１．２㊀疾病实体分类
在乳腺电子病历中，患者的患病情况较为复杂，同一名患者可能会有３４种疾病，例如患有乳腺肿瘤疾病的患者，可能还伴随转移㊁高血压以及骨质疏松等疾病，各个大类疾病分类下会存在很多的小类疾病分类，小类疾病分类下可能还会有更细粒度的
５３
第２期金程笑，等：一种基于树搜索的层次多标签乳腺疾病分类诊断方法
疾病类别标签存在，例如，乳腺良性肿瘤这一大类会分类为纤维瘤㊁脂肪瘤㊁乳头状瘤这三个小类㊂疾病的划分见表２㊂
表２㊀疾病类别
Ｔａｂ．２㊀Ｄｉｓｅａｓｅｃａｔｅｇｏｒｙ
疾病类别标签疾病从属标签
疾病总类别乳腺肿瘤㊁其他疾病
乳腺肿瘤乳腺良性肿瘤㊁乳腺恶性肿瘤
乳腺良性肿瘤纤维瘤㊁脂肪瘤㊁乳头状瘤
乳腺恶性肿瘤浸润性导管瘤㊁血管肉瘤
浸润性导管㊁血管肉瘤淋巴转移㊁肺转移㊁肝转移㊁腹腔转移㊁骨转移其他疾病高血压㊁糖尿病㊁其他乳腺疾病
其他乳腺疾病乳腺增生㊁乳腺结节１．１．３㊀构建层次标签树
通过表２可以发现这些标签（疾病）之间存在树形层次结构关系，将上表划分的疾病构建为层次标签树，疾病关系层次结构映射如图２所示，标签树包括非叶子节点和叶子节点两类㊂非叶子节点作为疾病大类一般包含多个子类标签，即疾病子类，在标签树上从根节点至叶子节点，也表示了从大的疾病分类逐渐缩小到疾病小类的过程㊂
图２㊀疾病层次多标签树结构体
Ｆｉｇ．２㊀Ｄｉｓｅａｓｅｌｅｖｅｌｍｕｌｔｉ－ｔａｇｔｒｅｅｓｔｒｕｃｔｕｒｅ１．２㊀基分类器训练
１．２．１㊀训练集筛选
由于在层次多标签树中，每个非叶子节点对应作为一个分类器对其所对应的孩子节点进行分类㊂每一个分类器ｃｉ的训练集分为２个部分㊂一部分由对应距离非叶子节点ｃｉ最近一层的子节点ｓｕｂ＋（ｃｉ）组成，记为ｔｒａｉｎ＋（ｃｉ），用于训练属于节点ｃｉ的分类器；另一部分由不含有ｃｉ子节点的所有标签组成，用于训练完全不属于ｃｉ节点的分类结果，记为ｔｒａｉｎ－（ｃｉ）㊂若ｃｉ没有兄弟节点，则在层次标签树中向上搜索，找到离ｃｉ最近的含有兄弟节点的非叶子节点ｂｒｏ（ｐａｒｅｎｔ（ｃｉ）），并且将这个节点不包含ｃｉ的样本加入ｔｒａｉｎ－（ｃｉ）㊂
例如，当前节点ｙ为乳腺良性肿瘤，则ｃｉ这个节点的训练集由正样本训练集ｃｉ下所有包含子节点的样本组成，同时，负样本由乳腺恶性肿瘤这个节点的样本组成且负样本中不含有ｃｉ的节点和ｃｉ的子节点㊂
１．２．２㊀基分类器训练
模型的训练算法描述如算法１所示㊂
算法１㊀乳腺电子病历层次多标签分类训练算法
输入：乳腺电子病历未标注数据集Ｕ，疾病分类标签Ｙ
输出：学习模型Ｌ
ｉｎｉｔｉａｌｉｚｅ：Ｕ＇ɪＵ
／∗训练集初始化，进行标注∗／
ＬａｂｅｌＴｒｅｅ＝ｃｒｅａｔｅＴｒｅｅ（ＵＪ＇）
／∗创建层次多标签树∗／
ＦｏｒｃｉｉｎＬａｂｅｌＴｒｅｅ：
㊀㊀Ｉｆｃｉｉｓｎｏｔｌｅａｆｎｏｄｅ
㊀㊀／∗判断节点ｃｉ是否为叶子节点∗／
㊀㊀㊀㊀ｔｒａｉｎ＋＝ｔｒａｉｎ＋．ａｄｄ（ｓｕｂ＋（ｃｉ））／∗把ｃｉ最近的子节点加入ｔｒａｉｎ＋集合中∗／㊀㊀㊀㊀Ｉｆｃｉｈａｓｂｒｏｔｈｅｒｎｏｄｅ／∗如果ｃｉ有兄弟节点∗／
㊀㊀㊀㊀㊀㊀ｔｒａｉｎ－＝ｔｒａｉｎ－．ａｄｄ（ｓｕｂ－（ｃｉ））／∗把ｃｉ兄弟节点最近的子节点加入ｔｒａｉｎ－集合中∗／㊀㊀㊀㊀Ｅｌｓｅ
㊀㊀㊀㊀㊀㊀ｔｒａｉｎ－＝ｔｒａｉｎ－．ａｄｄ（ｂｒｏ（ｐａｒｅｎｔ（ｃｉ）））
／∗找到离ｃｉ最近的含有兄弟节点的非叶子节点ｂｒｏ（ｐａｒｅｎｔ（ｃｉ）），并且将这个节点不包含ｃｉ的样本加入ｔｒａｉｎ－（ｃｉ）∗／
㊀㊀㊀㊀ＥｎｄＩｆ
㊀㊀ｍｏｄｅｌＬ＝ｔｒａｉｎ（ｔｒａｉｎ＋ɣｔｒａｉｎ－）
㊀㊀／∗训练学习器∗／
㊀㊀ＥｎｄＩｆ
ＥｎｄＦｏｒ
ｒｅｔｕｒｎＬ
算法１是根据乳腺电子病历的特点，先通过表２的分类构建层次多标签分类树，再将训练集按照树中的每一个非叶子节点的标签进行分类，最后形成乳腺电子病历层次多标签分类训练算法框架㊂该框架也可根据数据的实际需要更换合理的基分类器
６３智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第１０卷㊀
进行训练㊁分类㊂
１．３㊀多标签分类诊断
层次标签树中一条路径的得分是通过每个非叶子节点上基分类器的预测结果进行加权求和获得的㊂层次标签树中的权值如式（１）所示：
ｗ（ｃｉ）＝ｍａｘｌａｙｅｒ－ｌａｙｅｒ（ｃｉ）＋１
ｍａｘｌａｙｅｒ＋１，（１）㊀㊀式（１）的主要作用是反映路径中层次对于节点的影响，即越靠近根节点的非叶子节点的分类准确性对整个分类起到的影响更大㊂如果高层的节点出现分类错误，则对整个路径上的分类会出现较大的影响，产生的错误损失也会越大㊂
非叶子节点标签ｙｉ的高度由ｌｅｖｅｌ（ｙ）表示，层次标签树中树的最大高度通过ｍａｘｌａｙｅｒ表示㊂层次标签树中的每条路径的得分通过式（２）来计算：
ｓｉ＝ðｍｉ＝１ｗ（ｃｉ）∗ｐ（ｃｉ｜ｘ）．（２）㊀㊀路径得分ｓｉ计算流程是：给定第ｉ条路径，节点个数为ｍ，首先计算每一个基分类器所预测概率ｐ，然后再与每一层的权值ｗ（ｃｉ）进行加权，最后通过计算预测概率的加权和㊂计算路径得分如算法２所示㊂
算法２㊀乳腺电子病历层次多标签分类算法
输入：乳腺电子病历测试数据集Ｕ，疾病分类标签Ｙ，基分类器Ｃｌａｓｓｉｆｉｅｒ阈值σ
输出：预测标签集Ｌａｂｅｌｓ
ｉｎｉｔｉａｌｉｚｅ：Ｕ＇ɪＵ
／∗训练集初始化，进行标注∗／
ＬａｂｅｌＴｒｅｅ＝ｃｒｅａｔｅＴｒｅｅ（ＵＪ＇）
／∗创建层次多标签树∗／
ＦｏｒｃｉｉｎＬａｂｅｌＴｒｅｅ：
㊀㊀Ｉｆｃｉｉｓｎｏｔｌｅａｆｎｏｄｅ／∗判断节点ｃｉ是否为叶子节点∗／
㊀㊀㊀㊀ｐ（ｃｉ）＝ｃｌａｓｓｉｆｉｅｒ（ｃｉ）／∗计算非叶子节点ｃｉ的预测概率∗／㊀㊀
ｗ（ｃｉ）＝ｍａｘｌａｙｅｒ－ｌａｙｅｒ（ｃｉ）＋１
ｍａｘｌａｙｅｒ＋１
㊀㊀／∗计算ｃｉ所在层次节点的权值∗／㊀
ｓｉ＝ðｍｉ＝１ｗ（ｃｉ）∗ｐ（ｃｉ｜ｘ）
／∗计算ｃｉ节点的得分∗／
㊀㊀ＥｎｄＩｆ
ＥｎｄＦｏｒ
Ｆｏｒｓｉｎｓｃｏｒｅ：
㊀㊀ｓｃｏｒｅＴｒｅｅ＝ＳｕｍＴｒｅｅ（ｓ）
㊀㊀Ｉｆｓ＞＝σ：
㊀㊀㊀㊀Ｌａｂｅｌｓ．ａｄｄ（ｃｉ）
㊀㊀ＥｎｄＩｆ
ＥｎｄＦｏｒ
ｒｅｔｕｒｎＬａｂｅｌｓ
算法２首先计算了每一个节点的概率和节点所在层的权重，再通过式（２）计算该路径的得分，比较选取不同的阈值s对结果的验证㊁比较，将得分大于阈值的路径中的节点加入分类结果的集合中，作为最终结果返回，每个返回节点对应的标签则为最终的预测标签集合㊂
２㊀实验
２．１㊀实验数据
为了对本文提出的层次多标签方法进行有效性评估，首先将电子病历原始数据经过上述的实体识别与关系抽取，得到同时含有ＴｅＡＳ（因症状而采取检查）和ＴｅＲＤ（检查发现某种疾病）这两种关系的乳腺电子病历数据作为训练数据集，然后将含有症状的电子病历语句筛选出作为输入数据，将疾病作为对应的结果集㊂数据集中部分数据见表３㊂除了乳腺电子病历入院简要病史数据外，还额外加入体检摘要和生命体征指标共同作为特征，作为基分类器的输入㊂症状为乳腺电子病历实体识别后提取的结构化数据，体检摘要为患者进行Ｂ超㊁ＭＲＩ等检查的报告，生命体征为患者检查过程中各项指标的记录，对疾病的诊断同样有重要的参考意义，所以把体检摘要㊁生命体征和症状集合的数据一并加入作为特征㊂在此基础上，可得设计研发内容分述如下㊂
表３㊀乳腺电子病历数据
Ｔａｂ．３㊀Ｂｒｅａｓｔｅｌｅｃｔｒｏｎｉｃｍｅｄｉｃａｌｒｅｃｏｒｄｄａｔａ数据分项内容
症状肿块㊁发热㊁乳头溢液㊁淋巴结㊁橘皮样变
体检摘要双乳对称，乳头无内陷及歪斜，双侧乳头位于同一水平面㊂左乳内上触及４ｃｍ肿块，质韧，边界欠清，活
动度一般㊂右乳未见明显异常，双腋下及锁骨上淋巴
结阴性㊂
腹部Ｂ超：肝内脂肪浸润，胆囊胰体脾肾未见明显异
常㊂
双乳ＭＲ：左乳内上多发团块
生命体征血红蛋白：１１９前白蛋白：２４９尿素：４．２
肌酐：６４谷丙转氨酶：１２碱性磷酸酶：８８诊断纤维瘤㊁高血压
㊀㊀（１）词语编码㊂首先，将症状中的词语映射为
７３
第２期金程笑，等：一种基于树搜索的层次多标签乳腺疾病分类诊断方法
一个数字，当输入至基分类器时，这个词语对应的数字和词语所在词向量表ｌｏｏｋｕｐｔａｂｌｅ中对应的向量将会共同作为基分类器的输入，词语的编号由词语在句子中的起始位置决定㊂
（２）标签编码㊂给定大小为ｎ的疾病的多标签分类集合为Ｌ＝（Ｌ１，Ｌ２，．．．，Ｌｎ），当某样本ｘ含有Ｌｉ时，则Ｌｉ＝１，否则Ｌｉ＝０㊂在本文中，标签的总数为１９，标签集合编码顺序则按从上到下，从左到右进行排列㊂如果样本ｘ包含乳腺纤维瘤和高血压这两类疾病，则ｘ在Ｌ中会对应５个标签，对应的多标签分类的集合对应的诊断属性见表４㊂
表４㊀乳腺电子病历结构化数据编码
Ｔａｂ．４㊀Ｓｔｒｕｃｔｕｒｅｄｄａｔａｅｎｃｏｄｉｎｇｆｏｒｅｌｅｃｔｒｏｎｉｃｂｒｅａｓｔｍｅｄｉｃａｌｒｅｃｏｒｄｓ
数据分项对应数据编码
症状（１２，１６，２０，２９，３５，４２）
生命体征（１１９，２４９，４．２，６４，１２，８８）
诊断（１，１，１，０，１，０，０，１，０，０，０，０，０，０，０，０，０，０，０）２．２㊀实验评价标准
给定大小为ｎ的标签集合Ｙ＝（ｙ１，ｙ２，，ｙｎ），集合中ｙｉ表示某样本含有第ｉ个标签，分别用１和０表示样本含有标签ｙｉ和不含有ｙｉ㊂本文中，ｙｉ表示目标集合，ｙｉᶄ表示预测集合㊂这里，对研究中选用的设计评价指标将做阐释表述如下㊂（１）预测标签在子集中的准确率（ｓｕｂｓｅｔａｃｃｕｒａｃｙ）㊂表示测试集中预测的标签集合完全正确的样本占全部样本的比例，如式（３）所示：
ｓｕｂｓｅｔａｃｃｕｒａｃｙ＝１ＮðＮｉ＝１（ｙｉ＝ｙｉ＇），（３）㊀㊀（２）准确率（ａｃｃｕｒａｃｙ）㊂如式（４）所示：
ａｃｃｕｒａｃｙ＝１ｐðｐｉ＝１｜ｙｉɘｙｉᶄ｜
｜ｙｉɣｙｉᶄ｜，（４）㊀㊀（３）精度（ｐｒｅｃｉｓｉｏｎ）㊂如式（５）所示：
ｐｒｅｃｉｓｉｏｎ＝１ｐðｐｉ＝１｜ｙｉɘｙｉᶄ｜
｜ｙｉᶄ｜，（５）
㊀㊀（４）召回率（ｒｅｃａｌｌ）㊂如式（６）所示：
ｒｅｃａｌｌ＝１ｐðｐｉ＝１｜ｙｉɘｙｉᶄ｜
｜ｙｉᶄ｜，（６）
㊀㊀（５）Ｆ１值㊂如式（７）所示：
Ｆ１＝２∗ｐｒｅｃｉｓｉｏｎ∗ｒｅｃａｌｌ
ｐｒｅｃｉｓｉｏｎ＋ｒｅｃａｌｌ．（７）２．３㊀多模型实验对比
子集准确率（ｓｕｂｓｅｔａｃｃｕｒａｃｙ）判断为真需要满足算法预测的标签集合等于目标集合㊂由于多标签
分类的输出空间较大，完全准确地预测每一个集合中的标签并不容易，所以子集准确率通常提升不明显㊂首先，通过本文层次标签树多分类方法，这项指标提升至７０．３％㊂同时，由标签树的分层结构，保留标签之间的依赖关系，可以对训练数据集进行有效划分，从而减少计算性能㊂通过对比逻辑回归模型和ＫＮＮ模型分别提高了１６％和８％，所以使用标签树有效避免了传统多标签分类样本空间过大导致分类效果欠佳的问题㊂准确率㊁精度㊁召回率和Ｆ１四类指标同样也作为算法常规的评价标准，层次多标签与其他模型进行比较的结果见表５㊂
表５㊀多模型实验对比结果
Ｔａｂ．５㊀Ｍｕｌｔｉ－ｍｏｄｅｌｅｘｐｅｒｉｍｅｎｔｃｏｍｐａｒｉｓｏｎｒｅｓｕｌｔｓ模型ｓｕｂｓｅｔａｃｃｕｒａｃｙａｃｃｕｒａｃｙｐｒｅｃｉｓｉｏｎｒｅｃａｌｌＦ１
ＬＲ５３．８６１．３６５．３６２．７６３．９
ＫＮＮ６２．７６８．４７２．２７０．９７１．４层次多标签７０．３７３．７７８．６７７．８７８．１２．４㊀多分类器实验对比
本节通过实验来对比多种基分类器对基于层次多标签分类算法的效果，并选择性能最优的基分类器来测试本文的方法㊂根据４种不同的分类方法来比较不同的分类器对该层次多标签分类算法的性能㊂使用４种常见的方法作为基分类器㊂见表６㊂
表６㊀多分类器结果对比
Ｔａｂ．６㊀Ｃｏｍｐａｒｉｓｏｎｏｆｍｕｌｔｉｐｌｅｃｌａｓｓｉｆｉｅｒｒｅｓｕｌｔｓ模型ｓｕｂｓｅｔａｃｃｕｒａｃｙａｃｃｕｒａｃｙｐｒｅｃｉｓｉｏｎｒｅｃａｌｌＦ１
ＬＲ６０．７６３．７６８．４６６．２６７．３ＬＳＴＭ＋ＬＲ６５．６６９．３７３．７７１．６７２．６
ＫＮＮ６３．６６８．９７１．４７０．２７０．７层次Ｂｉ－ＬＳＴＭ［１６］７０．３７３．７７８．６７７．８７８．１㊀㊀通过实验的对比，将４种基分类器应用于层次多标签分类方法，在训练数据的维度都为３００维时，ＬＳＴＭ＋ＬＲ对比ＫＮＮ算法在相同输入的情况下，效果略好于ＫＮＮ，各项指标普遍提升约２％㊂层次Ｂｉ－ＬＳＴＭ模型对比ＬＳＴＭ＋ＬＲ与ＫＮＮ模型的精确度提升明显，准确度高出约５％㊂层次Ｂｉ－ＬＳＴＭ算法的分层提取特征的特点，将一个较长维度的输入进行分层特征提取，有效地降维㊂通过实验对比，本文选择层次Ｂｉ－ＬＳＴＭ作为最终的基分类器㊂
２．５㊀多阈值σ实验对比
本节中通过模型简化测试方法对多阈值σ条件下模型的训练效果和性能进行定量分析㊂采用逐步增加阈值的数量检验模型的分类能力通过汉明损失进行对比，如式（８）所示：
８３智㊀能㊀计㊀算㊀机㊀与㊀应㊀用㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀第１０卷㊀
ＨａｍＬｏｓｓ＝１
ｐ
｜
ðｐ
ｉ＝１
ｙｉᶄΔｙｉ｜．
（８）
㊀㊀对比各算法输出的汉明损失，汉明损失表示多标签分类模型精度，首先计算每个样本中标签对预测错误的个数，计算ｙｉΔｙｉᶄ，Δ为异或操作，再与对应预测标签ｙｉᶄ的预测概率相乘，最后计算每个预测标签乘积和的均值㊂
如图３所示，当选取词向量作为网络输入时，通过逐步增加阈值使得各算法最终输出的路径得分超过所设定的阈值㊂通过实验对比发现，当阈值设定在０．５００．７０之间汉明损失趋势总体呈现逐步下降，而当阈值大于０．７０时，ａｃｃｕｒａｃｙ的趋势稳定或者呈现出略微上升的趋势㊂接下来，通过十折交叉验证进行试验，经过ＬＳＴＭ进行初步语义特征提取的逻辑回归算法比ＬＲ逻辑回归算法的汉明损失降低０．２，而ＬＳＴＭ＋ＬＲ算法与树层次标签算法普遍相差０．１㊂
当阈值为０．６５时，ＬＳＴＭ＋ＬＲ算法的汉明损失最小，多标签分类的效果较好㊂当阈值为０．７时，层次多标签算法的分类效果最为显著，整体汉明损失低于前述２种算法㊂
1.61.51.41.31.21.11.00.90.80.70.6
0.500.550.600.650.700.750.800.85
L R L S T M +L R T R E E
阈值σ
H a m L o s s
图３㊀不同大小阈值在层次多标签算法的汉明损失对比Ｆｉｇ．３㊀ＣｏｍｐａｒｉｓｏｎｏｆＨａｍｍｉｎｇｌｏｓｓｏｆｈｉｅｒａｒｃｈｉｃａｌｍｕｌｔｉ－ｌａｂｅｌ
ａｌｇｏｒｉｔｈｍｗｉｔｈｄｉｆｆｅｒｅｎｔｔｈｒｅｓｈｏｌｄｓ
３㊀结束语
本文提出了一种基于树搜索的层次多标签乳腺疾病分类诊断方法，实验数据是来自上海某三甲医院提供的真实的乳腺电子病历数据，通过引用实体和关系联合抽取方法提取出的疾病实体作为实体标签集㊂首先介绍了层次多标签分类总体流程，然后对疾病的类别进行详尽分类，并阐述了根据分类结果构建层次标签树的过程，提出了基于树搜索的多标签分类诊断的计算方法，最后进行实验对比㊂
通过在真实数据集上进行对比实验，使用准确率㊁召回率等多组评价指标对模型结果进行评估，证明了对已有模型的改进并且有效地提高了电子病历
实体识别以及关系抽取的准确性㊂通过多模型和多个基分类器进行对比，证明了基于树搜索的层次多标签乳腺疾病分类诊断方法的有效性㊂
接下来的研究工作可以从这２个方面展开㊂首先，使用网络上的公开训练集作为实验数据，为后续多标签预测提供更准确的训练集做模型训练㊂其次，将电子病历中的其他因素作为特征进行多标签分类，从而提高辅助诊断的真实性与全面性㊂参考文献
［１］ＪＯＣＨＥＮＫ，ＪÖＲＧＤ，ＭＩＥＮＡＡ，ｅｔａｌ．Ｃｏｇｎｉｔｉｖｅｐｅｒｆｏｒｍａｎｃｅ
ａｎｄｐｓｙｃｈｏｌｏｇｉｃａｌｄｉｓｔｒｅｓｓｉｎｂｒｅａｓｔｃａｎｃｅｒｐａｔｉｅｎｔｓａｔｄｉｓｅａｓｅｏｎｓｅｔ［Ｊ］．Ｆｒｏｎｔｉｅｒｓｉｎｐｓｙｃｈｏｌｏｇｙ，２０１９．［２］李玉阳．山东省乳腺疾病调查报告与乳腺癌危险因素分析［Ｄ］．济南：山东大学，２０１１．
［３］张晓雅，肖宝菊．电子病历的现状与发展趋势［Ｊ］．电子技术与软件工程，２０１８（８）：１７６．
［４］ＬＩＵＪｉｎ，ＬＩＭｉｎ，ＬＡＮＷｅｉ，ｅｔａｌ．ＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＡｌｚｈｅｉｍｅｒ＇ｓ
ｄｉｓｅａｓｅｕｓｉｎｇｗｈｏｌｅｂｒａｉｎｈｉｅｒａｒｃｈｉｃａｌｎｅｔｗｏｒｋ［Ｊ］．ＩＥＥＥ／ＡＣＭ
ｔｒａｎｓａｃｔｉｏｎｓｏｎｃｏｍｐｕｔａｔｉｏｎａｌｂｉｏｌｏｇｙａｎｄｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２０１８，１５（２）：６２４．
［５］李思男，李宁，李战怀．多标签数据挖掘技术：研究综述［Ｊ］．计算机科学，２０１３，４０（４）：１４．
［６］ＣＡＩＺｈｉｌｉｎｇ，ＺＨＵＷ．Ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎｆｏｒｍｕｌｔｉ－ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｎｅｉｇｈｂｏｒｈｏｏｄｐｒｅｓｅｒｖａｔｉｏｎ［Ｊ］．ＩＥＥＥ／ＣＡＡＪｏｕｒｎａｌｏｆＡｕｔｏｍａｔｉｃａＳｉｎｉｃａ，２０１８，５（１）：３２０．［７］冯雪东．多标签分类问题综述［Ｊ］．信息系统工程，２０１６（３）：１３７．
［８］马鸿超，张坤丽，赵悦淑，等．基于特征融合的产科多标记辅助诊断研究［Ｊ］．中文信息学报，２０１８，３２（５）：１２８．［９］ＧＯＬＤＳＴＥＩＮＩ，ＵＺＵＮＯＲÖ．Ｓｐｅｃｉａｌｉｚｉｎｇｆｏｒｐｒｅｄｉｃｔｉｎｇｏｂｅｓｉｔｙ
ａｎｄｉｔｓｃｏ－ｍｏｒｂｉｄｉｔｉｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＢｉｏｍｅｄｉｃａｌＩｎｆｏｒｍａｔｉｃｓ，２００９，４２（５）：８７３．
［１０］耿丽娟．基于健康医疗大数据的ＫＮＮ分类算法研究［Ｊ］．通讯世界，２０１７（２０）：２６５．
［１１］ＣＬＡＲＥＡ，ＫＩＮＧＲＤ．Ｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙｉｎｍｕｌｔｉ－ｌａｂｅｌ
ｐｈｅｎｏｔｙｐｅｄａｔａ［Ｊ］．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２００１，２１６８（２１６８）：４２．［１２］ＤｅＢＲＵＩＪＮＢ，ＣＨＥＲＲＹＣ，ＫＩＲＩＴＣＨＥＮＫＯＳ，ｅｔａｌ．Ｍａｃｈｉｎｅ－
ｌｅａｒｎｅｄｓｏｌｕｔｉｏｎｓｆｏｒｔｈｒｅｅｓｔａｇｅｓｏｆｃｌｉｎｉｃａｌｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ：Ｔｈｅｓｔａｔｅｏｆｔｈｅａｒｔａｔｉ２ｂ２２０１０［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎ
ＭｅｄｉｃａｌＩｎｆｏｒｍａｔｉｃｓＡｓｓｏｃｉａｔｉｏｎＪａｍｉａ，２０１１，１８（５）：５５７．
［１３］ＰＡＮＱｉａｏ，ＹＵＣｈｕｎｒｕ，ＣＨＥＮＤｅｈｕａ，ｅｔａｌ．Ｊｏｉｎｔｅｘｔｒａｃｔｉｏｎｏｆ
ｅｎｔｉｔｉｅｓａｎｄｒｅｌａｔｉｏｎｓｏｆｂｒｅａｓｔｕｌｔｒａｓｏｕｎｄｒｅｐｏｒｔｂａｓｅｄｏｎｄｅｅｐｌｅａｒｎｉｎｇ［Ｃ］／／Ｔｈｅ２０ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＰｅｒｆｏｒｍａｎｃｅ
Ｃｏｍｐｕｔｉｎｇ
ａｎｄ
Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ（ＨＰＣＣ）．
Ｇｕａｎｇｚｈｏｕ：ＩＥＥＥＳｏｃｉｅｔｙ，２０１８．
［１４］ＱＡＭＡＳＧＫＳ，尹继泽，潘丽敏，等．基于深度神经网络的命名
实体识别方法研究［Ｊ］．信息网络安全，２０１７（１０）：２９．
［１５］ＧＲＩＤＡＣＨＭ．Ｃｈａｒａｃｔｅｒ－ｌｅｖｅｌｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｂｉｏｍｅｄｉｃａｌ
ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＢｉｏｍｅｄｉｃａｌＩｎｆｏｒｍａｔｉｃｓ，
２０１７，７０：８５．
［１６］ＢＡＫＥＲＳ，ＫＯＲＨＯＮＥＮＡ．Ｉｎｉｔｉａｌｉｚｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒ
ｈｉｅｒａｒｃｈｉｃａｌｍｕｌｔｉ－ｌａｂｅｌｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／ＢｉｏＮＬＰ２０１７．
Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ：ＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，
２０１７：３０７．
９
３第２期金程笑，等：一种基于树搜索的层次多标签乳腺疾病分类诊断方法。