医学语言处理技术及应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
医学语言处理技术及应用
李昊旻① 段会龙① 吕旭东① 李莹①
基金项目:中国高技术研究发展(863)计划资助项目(2006AA02Z348)
①浙江大学生物医学工程与仪器科学学院 生物医学工程教育部重点实验室,310027,浙江大学玉泉校区新生仪大楼
关键字 医学语言处理 概念提取 信息理解 知识挖掘
摘 要 由于临床信息的复杂性和灵活性,病历以一种自然语言叙述性的方式来记录,这样的记录方式已经长期存在并将继续存在,病历具有丰富的信息资源可以服务于临床实践、临床研究以及临床质量管理等许多方面;爆炸式增长的生物医学知识普遍存在于自然语言形式的医学文献中,这些知识中建立关联可以服务于新知识的发现。叙述性文本信息的自动利用需要自然语言处理技术,因而医学语言处理已经成为了医学临床实践和转化医学最为核心的信息技术挑战,研究和应用医学语言处理技术特别是中文环境下的医学语言处理技术对于我国医疗信息化具有重要意义。
1 引言
传统上病历中信息主要形式是自然语言,这包括了临床医生书写的住院志、病程记录、会诊记录、手术记录以及各种医技科室发出的放射、超声、内镜、心电、病历检查报告,这些叙述性病历信息构成了绝大多数的病历内容。医疗信息化和电子病历的发展虽然长久以来试图推动病历信息的结构化,但是由于临床信息的复杂性和灵活性,现有结构化实现技术无法满足临床对于病历信息表示的要求,因而临床医生依然并将继续使用叙述性文本作为主要的形式来记录临床信息。 每年投入在生物医学基础研究上数百亿计的资金,其中绝大多数的产出仅仅是文献,当科学分工越来越细,不同领域之间的沟通不足成为新知识发现的障碍,利用这些生物医学文献进行挖掘可以发现一些模式和规则来启发或者引导新的发现。
无论是叙述性病历还是医学文献,其中具有宝贵价值的信息以自然语言的形式捆绑在一起,在医疗实践和研究中利用计算机来处理这类信息的需求越来越大。
2 医学语言处理和应用
自然语言技术诞生于20世纪60年代,尽管当时的计算机所具有的能力还很弱,但计算语言学家已经瞄准了利用计算机来进行文本处理和理解,该技术随人工智能、文本处理、信息提取、问答系统、对话理解、文档分类、机器翻译等应用的发展而成长起来。研究者建立了两套体系:基于语法及句法的符号学方法和基于
语料库的统计学方法,然而自然语言的复杂远远超出了最初的想象,20世纪80年代后研究者认识到领域无关自然语言处理技术很难取得理想的结果,转而寻求在特定领域的语言处理,医学语言处理就是在这种背景下诞生的,很快医学语言处理就被认为是自然语言处理最合适的领域,其原因包括:
医学语言是一种科学语言,它较日常交流用语更为规范;
医学语言具有一定的通用性,可以涵盖一半的自然语言;
医学实践中使用大量的自由文本形式的文档,包含了绝大多数临床信息,而这些信息的计算机利用缺乏有效手段;
文档的录入、管理、获取等工作相当繁重,占据了临床医护人员许多时间,迫切需要计算机来帮助解决;
生物医学基础研究产生的大量的医学文献无法被充分的利用。
医学语言处理技术随着医疗信息化以及电子病历的推广而逐渐成为医学信息学研究的重要环节,从简单的病历信息提取、报告自动编码到较复杂的信息理解甚至新知识的发现,相关的研究和应用越来越多。然而国内相关研究的开展和研究者还比较少,直接影响到我国医学信息学基础研究的发展,以及高层次医疗信息化,本文希望通过介绍医学语言处理技术及其应用来推动更多的研究者关注和参与到这个领域的研究中。
2.1医学语言处理和概念提取 即使限制在医学领域,自然语言依然是一个复杂的信息体,因而比较可行的医学语言处理技术应用首先从较简单的概念提取开始。概念提取是从叙述性医学文档中提取部分信息并映射到标准术语编码,这些编码信息可以方便信息的获取和利用。这其中最成功和最知名的研究是MedLEE (Medical Language Extraction and Encoding system),该系统从医学文档中提取UMLS(United Medical Language System)概念的查全率和查准率已分别达到83%和89%[ ]。其他的研究还有MetaMap[ ]和IndexFinder[ ]等,该类研究的通常做法是处理文本信息并影射其中概念到统一的概念编码,基于这些编码可以建立索引方便对具有海量文本的信息库的查询和获取,或者根据这些编码来自动分类文档进行更高效的管理。目前广泛应用的在线医学文献库建设中也普遍采取了这样的信息检索技术,但病历文档同一般文档还具有一定的差异,经常需要对某些概念进行否定性质的描述,比如“未发现”“否认”“未触及”等描述是普遍的病历描述方式,因而要在病历中单纯的依赖文中有没有出现术语来作为信息检索的依据并不能取得好的结果,因此在病历文档中进行概念提取往往还需要进一步判断概念是否具有否定的上下文环境,相关的否定检出算法研究已有报道[ , ],这些技术已经实际应用于病历文档的管理和利用,比如在面向问题的病历系统中自动生成问题列表[ ]、临床报告系统中自动进行报告编码和分类索引[ ]等。
虽然国外相关研究已经开展多年,国内相应的研究未见报道,一方面由于中文自然语言同英文自然语言之间本身存在较大的差异,相应的中文语言处理技术基础
研究不足;另一方面国内的中文医学术语标准化进程不足,没有应用的标准化环境;最重要的是国内医疗信息化早期不重视临床信息的利用,随着这两年对于电子病历的关注以及一些病历的计算机解决方案和管理系统的出现,如何充分利用这些不断积累的具有丰富临床价值的信息已经成为一个课题。针对中文病历环境下实现术语提取和否定检出研究显示中文语言处理虽然面临额外的分词过程,但是在否定检出过程中表现出更好的特性[ ]。
2.2医学语言处理和信息理解 医学语言处理的进一步利用是实现对于蕴含在文本中的信息进行计算机理解,由于许多信息并不是简单的概念可以表示的,而是涉及多个概念以及概念间关系,比如家族史中蕴含的遗传学信息,这些信息的计算机利用具有重大意义。首先,计算机信息理解有利于信息的分类和获取,减少原来人工查阅、分类以及获取的工作量;其次,计算机信息理解可以服务于计算机辅助临床决策支持应用,由于病历中蕴含了丰富的临床信息,而传统的临床决策支持应用中往往面临无结构化数据可用的局面不得不让临床人员重复录入结构化信息,因而基于医学语言处理技术自动从病历中获取所需信息将使得计算机辅助临床决策支持获得更好的临床适用性,将临床决策支持功能集成到日常临床工作中。
Naomi Sager是最早进行医学语言处理研究的,被称为医学语言处理之母,由她主持的MLP(Medical Language Processor)通过维护起来的一个庞大的具有语义说明的词典可以对病历中的所有词语进行语义标注[ ],由于自然语言信息表示的灵活性,这样的标注并不能解决信息的获取问题。目前还没有成熟的通用的信息获取方法,但是针对某个单一问题的信息理解的研究已经广泛开展,2006年i2b2(Information for Integrating Biology & the Bedside)组织了一次通过自然语言处理技术来自动确认病历中患者吸烟状态的竞赛,共有11只队伍参加了这次竞赛提交了23份运行结果,其中12个系统的微平均F值在0.84以上 。吸烟状态对于研究某些呼吸系统疾病,比如哮喘,具有重要意义,传统的信息获取通过人工从病历中判读吸烟状态,分析发现人工也会错误的判断患者的吸烟状态,即使在竞赛中两个专家共同做出的判断在最后判决中也会存在争议,因而这些系统可以取得这样的表现已经是相当不错。而类似吸烟状态这些的信息理解在临床中还有广泛的需求,而吸烟状态的确认只是其中较为简单的,在进一步的信息理解可能会涉及各种症状体征的确认,从复杂信息中理解信息需要人工智能技术,目前常规的方式都是基于机器学习的方式利用神经网络、支持向量机等方式通过大量数据训练作为信息理解销歧的主要手段。
2.3医学语言处理和知识发现 生物医学研究的飞速发展带来知识的不断积累以及专业分工的细化,某个方向的研究成果也许可以用来解决另外一个方向的问题,而在缺乏沟通的情况下也许两个方向都不会注意到这些关联。尤其是以基因组学、蛋白组学为代表的生物医学基础研究同临床实践和临床研究之间的联系和沟通越来越少,在投入大量资金和技术到基础研究的同时临床获得的实际成果却