中文电子病历多层次信息抽取方法的探索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文电子病历多层次信息抽取方法的探索
探索新的多层次信息抽取模式,以改进当前以“医学词典”和“正则表达式”为主的电子病历信息抽取技术。通过“文书类别预测模块”和“分类模型”,对不同病历文书及章节内容进行区分;并在此基础上,利用“规则+深度学习模型”,根据不同文本信息特点搭建相应的信息抽取模型,对不同实体及其语义关系进行识别和建立。通过对文书类别、章节以及实体属性的归纳识别、分层建模,实现了对医疗文本中各种信息的多维解析与分类存储。多层次信息抽取方法为实现电子病历智能化应用奠定了坚实基础,对于优化诊疗模式、辅助临床决策、促进知识共享等具有实际意义。
前言
电子病历(Electronic Medical Record,EMR)囊括了患者从入院到出院疾病发生、发展、治疗和转归的全过程,是医务人员和科研工作者深入了解疾病特征、用药情况、治疗方式以及预后结局等信息的重要数据来源。电子病历中超过80%的内容为非结构化的自由文本信息,无法被计算机直接识别和利用。需要借助自然语言处理领域的信息抽取技术,从自由文本中识别出特定的概念和事件,并将隐藏的医疗信息和知识进行结构化表示。总体来讲,电子病历信息抽取主要包括命名实体识别和实体关系抽取两项任务。随着大量应用向智能化方向发展,对文本中更深层次的信息获取需求不断增加,以命名实体识别为
基础的实体关系识别和实体属性抽取等研究逐渐成为知识挖掘、智能检索、辅助诊断等任务的重要基础工作,越来越受到关注。
方法
电子病历文本中命名实体主要涉及患者接受诊治的记录中表示特定意义的实体,如疾病名、症状、药品名、检查名、医疗手段等。命名实体识别任务就是自动识别出病历文本中在医疗上表达独立意义的各类命名实体,包含:识别命名实体边界;确定命名实体类型,实体间不重叠、不嵌套。目前,对于电子病历命名实体的识别及抽取大多采用词典匹配和正则表达式方法,可以输出自由文本中简单的逻辑关系。但现实中,医学的表达逻辑相对复杂,如咳嗽与咳痰,按照医学词典匹配,两者均为症状,而实际上咳嗽是咳痰的前提,有咳痰肯定有咳嗽,反之则不然。另外,通过词典匹配和正则表达式,也无法解决一些词语属性的归类问题,如肿瘤患者化疗后会出现恶心、呕吐、腹泻等症状,如仅通过词典匹配,会造成抽取结果偏差,无法满足医生对自由文本处理的需求。针对上述问题,基于词典匹配与正则表达式,本文探索建立了多层次实体关系抽取方案。
词典匹配即建立不同属性的词典。在医疗领域,大量词典以受控术语的形式维护,如:ICD-10、UMLS和SNOMED CT等。可以通过词典中词语的具体属性来确定文本中词语的类型。如“流行性感冒”是一个疾病词语,通过疾病词典匹配,计算机可以知道它是疾病范畴的词语,进而做出正确分词。
正则表达式通过建立不同的类,并分析与类相关的字节,使相应字节成为该类的属性。如医学文本中的“双肺可及湿啰音”,表达的是医生通过听诊可在患者肺部听到“湿啰音”,正则的输出结果“湿啰音”这个类的部位属性为“肺部”,标志位的属性为“是”。多层次实体关系抽取方案通过“文书类别预测->章节拆分->信息抽取->逻辑校验与标注”,在各个环节扩大信息抽取的维度,提高系统的自动化能力,使电子病历数据转化成高质量的后结构化数据。文书类别预测患者就诊期间,在不同诊疗阶段会产生不同类型的医疗文档,包括:入院记录、首次病程记录、日常病程记录、手术记录以及出院记录等。不同类型的医疗文档内容差别很大,信息抽取时的侧重点也会有所不同,这就需要对文书类别进行有效标识。基于此,在信息抽取系统中设计了文书类别预测模块,使其能够根据病历文书特点,自动识别出所属类别,并据此建立相应的信息抽取模型,一定程度上减少了信息抽取的难度。章节拆分根据电子病历书写规范要求,不同类别的病历文书还会根据相应的行文规律被分为不同章节。例如,入院记录中包含主诉、现病史、既往史、个人史、婚育史、家族史等。每一章节所蕴含的疾病信息维度也不相同,以现病史为例,它是以时间为主线,按先后顺序对疾病进行描述。为进一步提高对不同章节文本信息抽取的效率和准确性,系统采用了“分类模型”方式,通过对医疗文档中各章节行文特点进行归纳、总结,构建适合的信息抽取模型,减少因章节分割错误导致的信息抽取丢失情况,保证数据的完整性和多维性。信息抽取首先,对文书中各章节进行错别
字检验,并将错误数据替换,保证抽取数据的准确。如:真实病历中“1性糖尿病3年”,表达的应该是“1型糖尿病”,通过该步骤可从病历中检测出来并予以修正。其次,采用“规则+深度学习模型”,对病历文书内容进行信息抽取。通过中文分词算法和深度学习序列标注算法,对病历的章节信息进行分词和命名实体识别,标注出重点关注的实体类别,如:疾病、症状、手术、检查、检验、药品、时间等实体。对标注好的命名实体结果,采用规则方式,在不同实体间建立联系,完成相同实体及不同实体语义关系的建立。逻辑校验与标
注对抽取结果进行语义逻辑校验,并将存在语义逻辑错误和常规逻辑问题的数据用特定的抽取字段进行标识。如:“高血压3年……,否认高血压、疟疾、结核等”,对其中存在前后逻辑矛盾的信息进行抽取结果校验,并对存在语义矛盾的数据予以溯源和修正。最终,完成病历信息抽取。
结果
实体关系抽取可以从电子病历中抽取出疾病、症状、检查和治疗这几类实体间的关系,包括:疾病和治疗的关系、症状与治疗的关系、疾病和检查的关系,以及症状和检查的关系;疾病和症状的关系(疾病导致了症状)、疾病和疾病的关系(疾病导致了另一个疾病),以及症状和症状的关系(症状伴随另一个症状)。多层次实体关系抽取方案可以自动、高效地抽取这几类实体间的关系。以某患者入院记录中的现病史部分为例,鉴于现病史是“以时间为主线”进行记录的特点,在进行后结构化处理时,首先按照时间节点对其进行切分,切分
标志为“时间值”。如图1所示,包含了2个时间节点内容:“入院前10年”和“之后”,两个时间节点之间的内容全部归属到开始的时间节点,后一个时间节点包含到文本结尾。由此,首先依据主要时间节点将文本切分为两大部分,在每一部分中再通过标注了颜色的方框来对应不同实体类别,如:症状、时间值、性质、程度等;不同实体间的关系用箭头线标识,如:症状实体“闷痛”,身体部位实体“胸骨下段”,实体关系为“症状部位”。分别对以时间节点划分的两大部分的每个实体间不同维度的关联进行提取,最终形成结构化数据存储。可见,通过多层次实体关系抽取方案,可以在保留原文本信息不丢失的前提下,尽可能多维度地提取到结构化的数据结果,确保疾病信息的完整和准确。
图1 多层次病历文本信息抽取示例
结论
电子病历是典型的知识密集型文本,如何从中抽取医疗知识,为临床、科研、管理等提供服务,是非常有价值的研究。由于电子病历文本特