基于lucene检索引擎的电子病历全文检索系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
整个系统设计为 4 个功能模块:数据预处理模块、索引 建立模块、全文检索模块和用户界面模块。 各个模块的基本 功能和模块之间的逻辑和数据关系如图 1 所示。
电子病历原始数据 A
数据预处理模块 A
XML 电子病历库
全文索引库
C
B
索引建立模块
全文检索模块 C
用户界面模块
C B
D 用户
图 1 基于 Lucene 的电子病历全文检索系统流程图
[参考文献]
[1] 王 晓 ,罗 二 平 ,张 健. 基 于 语 义 的 电 子 病 历 智 能 全 文 检 索[J]. 医 疗 卫 生 装 备 ,2008,2ຫໍສະໝຸດ Baidu(4):45-46.
[2] 薛 万 国. XML 与 电 子 病 历[J]. 国 外 医 学 :医 院 管 理 分 册 , 2002 (1):33-34.
1 前言 随着医院信息化建设的进行, 电子病历作为临床医疗
信息的基础和医院信息系统的核心构成了业务管理、 医疗 卫生决策系统的基础。 但国内目前各大医院通常并不把电 子病历管理视为一个独立的单元, 电子病历管理系统一般 都是作为医院信息系统的一个模块存在。 目前,对于病历信 息的查询浏览也只能通过查询患者的一些结构化的数据库 信 息 得 到 该 患 者 的 ID 号 ,然 后 通 过 病 历 的 存 储 规 则 来 找 到 相应的病历。 每次得到的信息都是个别的,而且无法实现全 文检索, 存在于病历文本中的大量非结构化的信息不能作 为检索条件,因而这些信息也不能为医疗工作者所利用。 因 此, 目前电子病历管理系统的检索查询机制迫切需要向满 足医生需求、科研辅助和采用全文检索的方向转变,为以后 电子病历管理正式成为医院管理的一个独立分支打下良好 的 基 础[1]。 基 于 此 ,我 们 提 出 了 基 于 Lucene 检 索 引 擎 建 立 电 子病历全文检索系统, 它以基于关键字的全文检索技术为 基础,能够提供方便快捷的方式为临床医疗、医学科研工作 及病历管理提供支持。 2 电子病历的前期预处理
从测试结果可以看出系统满足设计要求, 符合功能需 要。 但是仅仅基于关键字检索显然是不够的,下一步要实现 “智能” 全文检索还需要对系统进行基于语义的检索功能扩 展,使检索结果不仅仅满足于与用户提交的关键字进行字面 上的匹配,而是检索出与此概念有关的、用户真正想要的信 息 ,以 进 一 步 提 高 查 全 率 [3]。
的 继 承 信 息 ;而 从 传 统 的 HIS 每 个 子 系 统 来 看 ,患 者 信 息 却 是局部的、分散的。 所以要对电子病历进行全文检索,首先要 建立一个规范的、合乎要求的电子病历描述模型,将分散于 HIS 系统中的电子病历信息读出并转换为统一形式的文件存 储于电子病历库中。 XML(eXtensible Markup Language,即扩 展标记语言)就是建立并实现该模型的一个有效手段。
使用 XML 描述病历内容,要先定义病历内容的结构。 在 此基础上实现以数据库形式存储的患者信息到病历结构的 转换,从而实现由以支持日常业务管理为目的的数据库描述 到以患者为中心的描述。 形成的 XML 文件是病历存 储 管 理 的基本单位。 3 全文检索引擎 Lucene 简介
Lucene 是 Apache 软 件 基 金 会 Jakarta 项 目 组 的 一 个 子 项目,是一个开放源代码的全文检索引擎工具包,作为一个 优秀的全文检索引擎, 其系统结构具有强烈的面向对象特 征。 首先是定义了一个与平台无关的索引文件格式;其次通 过抽象将系统的核心组成部分设计为抽象类,具体的平台实 现部分设计为抽象类的实现;此外,与具体平台相关的部分 (比如文件存储) 也封装为类, 经过层层的面向对象式的处 理,最终达成了一个低耦合高效率、容易二次开发的检索引 擎系统。 因此,Lucene 得到了非常广泛的应用。 4 系统的设计与实现
Lucene-based Full-text Retrieval System of Electronic Care Record
WANG Xiao, ZHANG Jian (Tangdu Hospital, the Fourth Military Medical University, Xi'an, 710038, China) Abstract Objective To research a more effective method of full-text retrieval of electronic care record (ECR), which avails clinical work, medical research and ECR management. Methods Based on full -text retrieval by keyword, by changing the form of ECR with XML,a full-text retrieval system of ECR based on Lucene was built. Results The system testing showed that the precision ratio of ECR retrieval was raised. Conclusion The full-text retrieval system of ECR meets the design requirements and the function needs.[Chinese Medical Equipment Journal,2008,29(12):43-44] Key words ECR; full-text retrieval; XML
表 1 系统测试结果
关键词 肥胖 腹痛 恶心
检索文档数 319
3 977 4 385
P@30 28 30 29
查准率/% 93.33 100 96.67
注:P@30 指前 30 个检索结果中符合条件的文档数
由于测试数据集过大(共约 26 000 多篇),很难通过人工 方式确定全部文档集中符合条件的文档数,所以无法有效地 计算查全率;检索出的命中文档数量也比较多,但和搜索引 擎 一 样 ,通 常 只 有 “First Page”的 结 果 会 被 用 户 关 注 ,因 此 我 们计算的查准率只基于前 30 个检索结果。 通 过 上 表 可 以 看 出,本系统的查准率较高,基本达到了系统设计的性能要求。 6 小结
病历是患者在医院诊断治疗全过程的原始记录,贯穿于 患者在医院就诊的各个环节中。 由于目前病历信息的电子化 大都附属于传统的 HIS 系统,但 HIS 系统并不等于电子病历 系统, 因为从电子病历的角度看患者信息应该是完整的、集 成的,电子病历系统应该能够以统一的视图向用户提供患者
收稿日期:2008-06-24 修回日期:2008-08-10 作 者 简 介 :王 晓 (1981-),女 ,陕 西 安 康 人 ,硕 士 研 究 生 ,助 理 工 程 师 , 主要从事医院信息化方面的工作。
依图 1 中的序号,整个系统的信息处理流程为: A.数据预处 理 模 块 读 入 电 子 病 历 的 原 始 数 据 (一 般 以 数 据库表的形式储存在 HIS 系统中), 将原始电子病 历 加 工 为 XML 文件,然后储存于 XML 电子病历库中; B.索引建立模块读入 XML 电子病历库中储存的 XML 文 件,把建立好的全文索引储存于全文索引库中; C.用 户 通 过 用 户 界 面 模 块 提 出 检 索 请 求 ,用 户 界 面 模 块 调用全文检索模块使用电子病历的全文索引进行检索,将得 到的检索结果返回给用户; D. 用户 查 看 了 检 索 结 果 中 电 子 病 历 的 摘 要 后 如 果 需 要 进一步查看电子病历的全文,可以通过用户界面模块直接根 据检索结果中的文档 ID 从 XML 电子病历库中获取全文。 5 系统测试和评价 5.1 测试环境
全 文 检 索 开 发 库 :Apache Lucene 2.2;Web 服 务 器 :Apache Tomcat 6.0;开发工具:IBM Eclipse 3.2.0。 4.2 总体架构
电子病历全文检索系统主要实现对电子病历的表示、存 储、组织和访问,即根据用户的查询要求,从电子病历库中检 索出相关信息资料。 其中心环节是电子病历内容的表达、信 息查询的获得以及相关信息的匹配。
Hospital Digitalization 医院数字化
基于 Lucene 检索引擎的电子病历全文检索系统
王 晓,张 健 (第四军医大学 唐都医院,西安 710038)
[摘要] 目的:研究更高效的电子病历检索方法,提供方便快捷的方式为临床医疗、医学科研工作及病历管理提供支 持。 方法:以基于关键字的全文检索技术为基础,通过使用 XML 转换电子病历,基于 Lucene 检索引擎建立电子病历 全文检索系统。 结果:系统测试表明,检索查准率较高。 结论:系统满足设计要求,符合功能需要。 [关键词] 电子病历;全文检索;XML [中图分类号] G354.49 [文献标志码] A [文章编号] 1003-8868(2008)12-0043-02
[3] 高少琛. 基于查询拓展和聚类技术的资源检索系统的研 究 与 应 用[D]. 上海:上海交通大学硕士学位论文,2007:10-11.
《现代医用电子仪器原理与维修》一书出版发行
该书详细介绍了常见医用电子仪器的原理、结构、使用及维护, 对各类医用电子仪器的故障维修思路及方法作了详细介绍,并给出 大量的故障检修实例, 有利于读者系统地学习医用电子仪器的原 理,掌握维修理论及方法,积累维修经验。 本书系统地介绍了常用医 用电子仪器的原理、结构和维修知识,全书共分七章。 第一章概述; 第二章生物医学传感器;第三章心电图机;第四章脑电图机;第五章 肌电图机;第六章医用参数监护仪;第七章医用电子仪器的电气安 全问题。
(1)软 件 环 境 测 试 环 境 采 用 Sun 公 司 的 JDK1.5.0,操 作 系 统 采 用 的 是 微软的 Windows XP SP2。 数据库服务器采用的是 Oracle8i 及 其自带的 JDBC 驱动。 (2)硬 件 环 境 运 行 服 务 器 采 用 的 CPU 为 Inter Pentium 3.0E, 内 存 2 GB,硬盘 160 GB。 5.2 测试结果 测试过程中一共选取了 3 个和疾病症状有关的关键词 “肥 胖 ”、“腹 痛 ”和 “恶 心 ”作 为 测 试 检 索 条 件 数 据 ,测 试 结 果 经过进一步分析计算后可以得到的数据见表 1。
该书由多年从事医用电子仪器教学与维修工作的专家编写, 原理清楚,机型先进,内容丰富,具有先进、系统、实用的特点。 既可 以作为大专院校生物医学工程专业的教材, 也可作为医学工程技 术人员的技术培训教材及参考用书。
该书由电子工业出版社出版, 采用国际标准大16开本, 共计 328页,售价45元 (含 包 装 挂 号 邮 寄 费 ),欲 购 者 请 与 本 社 发 行 部 联 系 ,地 址 :天 津 市 河 东 区 万 东 路 106号 ,邮 编 :300161,电 话 :(022) 84656825。
XML 是 一 种 结 构 化 描 述 语 言 ,其 优 势 在 于 ,它 不 仅 是 一 种标识语言, 更是一种可以定义描述对象结构的元语言。 XML 采 用 了 层 次 化 的 面 向 对 象 的 结 构 描 述 方 法 , 非 常 适 合 于描述病历这样复杂的内容, 在表达能力方面优于关系数 据 库[2]。
43 医疗卫生装备·2008 年 12 月第 29 卷第 12 期
Chinese Medical Equipment Journal·Vol.29 No.12 December 2008
医院数字化 Hospital Digitalization
4.1 平台和开发环境简介 本系统的平台和开发环境为: 操 作 系 统 :Windows NT/2000/XP; 开 发 语 言 :Java,JSP;
电子病历原始数据 A
数据预处理模块 A
XML 电子病历库
全文索引库
C
B
索引建立模块
全文检索模块 C
用户界面模块
C B
D 用户
图 1 基于 Lucene 的电子病历全文检索系统流程图
[参考文献]
[1] 王 晓 ,罗 二 平 ,张 健. 基 于 语 义 的 电 子 病 历 智 能 全 文 检 索[J]. 医 疗 卫 生 装 备 ,2008,2ຫໍສະໝຸດ Baidu(4):45-46.
[2] 薛 万 国. XML 与 电 子 病 历[J]. 国 外 医 学 :医 院 管 理 分 册 , 2002 (1):33-34.
1 前言 随着医院信息化建设的进行, 电子病历作为临床医疗
信息的基础和医院信息系统的核心构成了业务管理、 医疗 卫生决策系统的基础。 但国内目前各大医院通常并不把电 子病历管理视为一个独立的单元, 电子病历管理系统一般 都是作为医院信息系统的一个模块存在。 目前,对于病历信 息的查询浏览也只能通过查询患者的一些结构化的数据库 信 息 得 到 该 患 者 的 ID 号 ,然 后 通 过 病 历 的 存 储 规 则 来 找 到 相应的病历。 每次得到的信息都是个别的,而且无法实现全 文检索, 存在于病历文本中的大量非结构化的信息不能作 为检索条件,因而这些信息也不能为医疗工作者所利用。 因 此, 目前电子病历管理系统的检索查询机制迫切需要向满 足医生需求、科研辅助和采用全文检索的方向转变,为以后 电子病历管理正式成为医院管理的一个独立分支打下良好 的 基 础[1]。 基 于 此 ,我 们 提 出 了 基 于 Lucene 检 索 引 擎 建 立 电 子病历全文检索系统, 它以基于关键字的全文检索技术为 基础,能够提供方便快捷的方式为临床医疗、医学科研工作 及病历管理提供支持。 2 电子病历的前期预处理
从测试结果可以看出系统满足设计要求, 符合功能需 要。 但是仅仅基于关键字检索显然是不够的,下一步要实现 “智能” 全文检索还需要对系统进行基于语义的检索功能扩 展,使检索结果不仅仅满足于与用户提交的关键字进行字面 上的匹配,而是检索出与此概念有关的、用户真正想要的信 息 ,以 进 一 步 提 高 查 全 率 [3]。
的 继 承 信 息 ;而 从 传 统 的 HIS 每 个 子 系 统 来 看 ,患 者 信 息 却 是局部的、分散的。 所以要对电子病历进行全文检索,首先要 建立一个规范的、合乎要求的电子病历描述模型,将分散于 HIS 系统中的电子病历信息读出并转换为统一形式的文件存 储于电子病历库中。 XML(eXtensible Markup Language,即扩 展标记语言)就是建立并实现该模型的一个有效手段。
使用 XML 描述病历内容,要先定义病历内容的结构。 在 此基础上实现以数据库形式存储的患者信息到病历结构的 转换,从而实现由以支持日常业务管理为目的的数据库描述 到以患者为中心的描述。 形成的 XML 文件是病历存 储 管 理 的基本单位。 3 全文检索引擎 Lucene 简介
Lucene 是 Apache 软 件 基 金 会 Jakarta 项 目 组 的 一 个 子 项目,是一个开放源代码的全文检索引擎工具包,作为一个 优秀的全文检索引擎, 其系统结构具有强烈的面向对象特 征。 首先是定义了一个与平台无关的索引文件格式;其次通 过抽象将系统的核心组成部分设计为抽象类,具体的平台实 现部分设计为抽象类的实现;此外,与具体平台相关的部分 (比如文件存储) 也封装为类, 经过层层的面向对象式的处 理,最终达成了一个低耦合高效率、容易二次开发的检索引 擎系统。 因此,Lucene 得到了非常广泛的应用。 4 系统的设计与实现
Lucene-based Full-text Retrieval System of Electronic Care Record
WANG Xiao, ZHANG Jian (Tangdu Hospital, the Fourth Military Medical University, Xi'an, 710038, China) Abstract Objective To research a more effective method of full-text retrieval of electronic care record (ECR), which avails clinical work, medical research and ECR management. Methods Based on full -text retrieval by keyword, by changing the form of ECR with XML,a full-text retrieval system of ECR based on Lucene was built. Results The system testing showed that the precision ratio of ECR retrieval was raised. Conclusion The full-text retrieval system of ECR meets the design requirements and the function needs.[Chinese Medical Equipment Journal,2008,29(12):43-44] Key words ECR; full-text retrieval; XML
表 1 系统测试结果
关键词 肥胖 腹痛 恶心
检索文档数 319
3 977 4 385
P@30 28 30 29
查准率/% 93.33 100 96.67
注:P@30 指前 30 个检索结果中符合条件的文档数
由于测试数据集过大(共约 26 000 多篇),很难通过人工 方式确定全部文档集中符合条件的文档数,所以无法有效地 计算查全率;检索出的命中文档数量也比较多,但和搜索引 擎 一 样 ,通 常 只 有 “First Page”的 结 果 会 被 用 户 关 注 ,因 此 我 们计算的查准率只基于前 30 个检索结果。 通 过 上 表 可 以 看 出,本系统的查准率较高,基本达到了系统设计的性能要求。 6 小结
病历是患者在医院诊断治疗全过程的原始记录,贯穿于 患者在医院就诊的各个环节中。 由于目前病历信息的电子化 大都附属于传统的 HIS 系统,但 HIS 系统并不等于电子病历 系统, 因为从电子病历的角度看患者信息应该是完整的、集 成的,电子病历系统应该能够以统一的视图向用户提供患者
收稿日期:2008-06-24 修回日期:2008-08-10 作 者 简 介 :王 晓 (1981-),女 ,陕 西 安 康 人 ,硕 士 研 究 生 ,助 理 工 程 师 , 主要从事医院信息化方面的工作。
依图 1 中的序号,整个系统的信息处理流程为: A.数据预处 理 模 块 读 入 电 子 病 历 的 原 始 数 据 (一 般 以 数 据库表的形式储存在 HIS 系统中), 将原始电子病 历 加 工 为 XML 文件,然后储存于 XML 电子病历库中; B.索引建立模块读入 XML 电子病历库中储存的 XML 文 件,把建立好的全文索引储存于全文索引库中; C.用 户 通 过 用 户 界 面 模 块 提 出 检 索 请 求 ,用 户 界 面 模 块 调用全文检索模块使用电子病历的全文索引进行检索,将得 到的检索结果返回给用户; D. 用户 查 看 了 检 索 结 果 中 电 子 病 历 的 摘 要 后 如 果 需 要 进一步查看电子病历的全文,可以通过用户界面模块直接根 据检索结果中的文档 ID 从 XML 电子病历库中获取全文。 5 系统测试和评价 5.1 测试环境
全 文 检 索 开 发 库 :Apache Lucene 2.2;Web 服 务 器 :Apache Tomcat 6.0;开发工具:IBM Eclipse 3.2.0。 4.2 总体架构
电子病历全文检索系统主要实现对电子病历的表示、存 储、组织和访问,即根据用户的查询要求,从电子病历库中检 索出相关信息资料。 其中心环节是电子病历内容的表达、信 息查询的获得以及相关信息的匹配。
Hospital Digitalization 医院数字化
基于 Lucene 检索引擎的电子病历全文检索系统
王 晓,张 健 (第四军医大学 唐都医院,西安 710038)
[摘要] 目的:研究更高效的电子病历检索方法,提供方便快捷的方式为临床医疗、医学科研工作及病历管理提供支 持。 方法:以基于关键字的全文检索技术为基础,通过使用 XML 转换电子病历,基于 Lucene 检索引擎建立电子病历 全文检索系统。 结果:系统测试表明,检索查准率较高。 结论:系统满足设计要求,符合功能需要。 [关键词] 电子病历;全文检索;XML [中图分类号] G354.49 [文献标志码] A [文章编号] 1003-8868(2008)12-0043-02
[3] 高少琛. 基于查询拓展和聚类技术的资源检索系统的研 究 与 应 用[D]. 上海:上海交通大学硕士学位论文,2007:10-11.
《现代医用电子仪器原理与维修》一书出版发行
该书详细介绍了常见医用电子仪器的原理、结构、使用及维护, 对各类医用电子仪器的故障维修思路及方法作了详细介绍,并给出 大量的故障检修实例, 有利于读者系统地学习医用电子仪器的原 理,掌握维修理论及方法,积累维修经验。 本书系统地介绍了常用医 用电子仪器的原理、结构和维修知识,全书共分七章。 第一章概述; 第二章生物医学传感器;第三章心电图机;第四章脑电图机;第五章 肌电图机;第六章医用参数监护仪;第七章医用电子仪器的电气安 全问题。
(1)软 件 环 境 测 试 环 境 采 用 Sun 公 司 的 JDK1.5.0,操 作 系 统 采 用 的 是 微软的 Windows XP SP2。 数据库服务器采用的是 Oracle8i 及 其自带的 JDBC 驱动。 (2)硬 件 环 境 运 行 服 务 器 采 用 的 CPU 为 Inter Pentium 3.0E, 内 存 2 GB,硬盘 160 GB。 5.2 测试结果 测试过程中一共选取了 3 个和疾病症状有关的关键词 “肥 胖 ”、“腹 痛 ”和 “恶 心 ”作 为 测 试 检 索 条 件 数 据 ,测 试 结 果 经过进一步分析计算后可以得到的数据见表 1。
该书由多年从事医用电子仪器教学与维修工作的专家编写, 原理清楚,机型先进,内容丰富,具有先进、系统、实用的特点。 既可 以作为大专院校生物医学工程专业的教材, 也可作为医学工程技 术人员的技术培训教材及参考用书。
该书由电子工业出版社出版, 采用国际标准大16开本, 共计 328页,售价45元 (含 包 装 挂 号 邮 寄 费 ),欲 购 者 请 与 本 社 发 行 部 联 系 ,地 址 :天 津 市 河 东 区 万 东 路 106号 ,邮 编 :300161,电 话 :(022) 84656825。
XML 是 一 种 结 构 化 描 述 语 言 ,其 优 势 在 于 ,它 不 仅 是 一 种标识语言, 更是一种可以定义描述对象结构的元语言。 XML 采 用 了 层 次 化 的 面 向 对 象 的 结 构 描 述 方 法 , 非 常 适 合 于描述病历这样复杂的内容, 在表达能力方面优于关系数 据 库[2]。
43 医疗卫生装备·2008 年 12 月第 29 卷第 12 期
Chinese Medical Equipment Journal·Vol.29 No.12 December 2008
医院数字化 Hospital Digitalization
4.1 平台和开发环境简介 本系统的平台和开发环境为: 操 作 系 统 :Windows NT/2000/XP; 开 发 语 言 :Java,JSP;