电子病历中应用自然语言生成结构化数据的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要:本文主要讨论在电子科技发展的今天,计算机技术与病历系统相结合,通过自然语言录入系统,转化为结构化数据的方法,形成电子病历。研究这些方法在电子病历系统应用中会出现的一些技术难点。
关键词:自然语言;结构化数据;db2 pure xml;电子病历
中图分类号:tp274 文献标识码:a 文章编号:1007-9599 (2011) 05-0000-03 electronic medical record application of natural language generation structured data rese arch
wang wei
(network center,wuhan no.1 hospital,wuhan 430022,china)
abstract:this article focuses on the development of electronic technology today,computer technology combined with the medical system through natural language input system,into a structured data approach,the formation of electronic medical records.these methods in the electronic medical record system application will appear in a number of technical diffi culties.
keywords:natural language;structured data;db2 pure xml;electronic medical records
一、概述
电子病历是科技化社会推进过程中的必然发展,其有助于各医院科室间对数据的交流和共享;并成为保存人一生的病历记录的最佳载体,它以时间发展顺序,逐条记录一个人从出生到死亡的所有临床诊断、检验结果和治疗信息情况;其真实客观的记录,也是医学研究最佳的分析资料。
目前,我国的电子病历发展经历了三个阶段,概括来说,第一阶段为电子文档的阶段,将纸质的病历录入为电子文档形式,第二阶段为表格化的电子病历,第三个阶段为半结构化阶段。对于电子病历的内容录入,目前较多的采用的还是结构化的表单输入,规定好各种模板,然后通过下拉列表等方式构成一个医学病历录入系统。这种方式,使得数据在录入初始,就是半结构化的,但是,它不符合一般人的信息表述方式,而且不够灵活,使用习惯上,也无法得到认同,医生还是更习惯使用自然语言进行录入。但同时,对于计算机进行数据分析,保存和分享来说,结构化数据才是最合适的,松散的自然语言,计算机并不认识,所以业界认为还是以结构化数据为研究核心,但是未来的发展方向是通过自然语言录入,转化为结构化数据。
二、业务分析
电子病历是以记录人一生的医疗数据为目标的,其记录的内容可以包括:就医诊断结果,过敏史,药物使用记录,还有许多诊断技术生成的影像和信号,如x线检查、ct 扫描、磁共振成像、内镜检查、病理学、超声波、心电图、脑电图、肌电图等等。在未来,他的记录除了医生,护士,还可以包括普通药店等所有与医药相关的工作人员。
由于电子病历的录入者,并非专业的计算机人员,甚至还包括许多不会计算机的老医师,故而,它的录入方式需要以简单,容易上手,不改变业务使用人员的操作习惯为目标。
一般来说,人从出生开始,就应该建立一个电子病历档案,该档案为全系统通用的,可以进行共享,读取,保存等操作,人在就医的时候,由医生录入其病历资料,扫描保存各种诊断的多媒体资料,由护士录入临床的各种护理操作,甚至药物使用等各种相关信息,并且系统忠实记录录入时间和每次的修改时间。而计算机则对这些信息进行分析处理,形成结构化数据进行保存。
医院可以对这些数据进行管理,清楚的知道患者的整个医疗过程,对这些数据进行分析,获得宝贵的医学资料,提高医学质量。
三、技术分析
(一)自然语言数据录入
概述中,已经讨论了,目前的电子病历录入方式,最佳的是通过自然语言录入,在转化为结构化数据进行存储分析。
自然语言数据录入——nlp,它是人工智能领域的子集,使用户在输入记录的时候,不必改变使用习惯,当病历录入计算机系统后,由系统分析,将自然语言转化为结构化数据。因为,计算机是不懂得人类的自然语言的,只用转化为结构化数据后,它才能够进行识别、理解和处理,有助于日后的数据分析和搜索。而其中关键的就是对录入的自然语言句子进行分析,处理其中包含的各种医学信息,如图1。
结构化数据存储
医学术语库
计算机分析处理
录入自然语言
图1、自然语言处理过程
自然语言的计算机处理是一个关系到计算机科学,语言学,逻辑学,心理学,人工智能等领域的综合性研究。
(二)难点分析
首先,我们已经明确,在电子病历系统中,能够用来分析,存储,管理的数据应该是结构化数据,而最佳输入则为,自然语言输入。所以,如何将自然语言通过计算机分析处理转化为结构化数据成为我们要解决的技术问题。
对于自然语言,它显然的不同与计算机语言,本身的发展,又是先于计算机语言的,故而,要将这样一种复杂的符号系统转化为计算机可以理解的结构化数据,是有一定难度的。
而且自然语言表达的意思,是具有极大的不确定性,和受语义环境影响的,尤其是中文字符的意思,更加复杂了,举个最简单的例子,“意思意思”这个4个字的理解,就可以是多样化的,更遑论,中文断句造成的不同表述:“我想起来了”,可以断成:“我”“想起”“来了”,也可以断成:“我想”“起来了”,这就是完全不同的两种意思。
另外,在现代社会,自然语言的发展是迅速的,天天都有不同的新词汇出现,那么资料库的更新也必须及时。
当然,由于电子病历应用的特定场合,使得在这个几方面的难度没有普通自然语言转化和维护那么大。
首先,电子病历应用中的语言录入,较多的运用到了医学术语,而对于医学术语,我们应该是要建立一个健全的医学术语资料库,并对其进行定期维护更新的,所以对于这方面的顾虑就可以减少很多。
再次,病历的语言结构是比较固定的,其语义环境不像平常交谈中的那么多变,所以,我们的语义规则库的建立会缩减很多。
当然,对于电子病历的语义转化技术,还是需要有数学模型,算法,规则等来组成的,其复杂程度是一点都没有减少的。
(三)语言分析
电子病历语义化技术,就是将以自然语言为载体的临床记录,加工成计算机可以直接处理和计算的语义数据,也就是我们进行语言分析的目标,它包括语义标注技术和术语加工平台。假定我们已经建立了表述模型,术语体系和标注规则,那么,实际的语义标注过程可以理解为:
1.通过语义识别技术,将自然语言录入的临床表述识别为语义化的临床表述。
2.通过术语标注技术,用标准临床术语体系中的概念和关系表示临床表述中的词汇,而此处需要通过定位连接,建立好语义化数据与自然语言临床表述的联系。
而术语加工平台的存在,就是为了对医学术语资料库进行维护管理的,它利用一系列工具对此加以维护,使之不断扩充更新,为临床术语标注技术提供数据基础,同时根据不同的术语体系,建立相应的标注规则。
通常,一段临床表述中,会有一个核心概念,并且由一些修饰关系来修饰那个核心概念。例如,阵发性前额隐痛。这个自然语言表述,可以分析为:
核心概念是隐痛,修饰关系有两个:阵发性,前额。阵发性修饰其发作情况,前额修饰其病症位置,转述为临床术语体系就是: