基于Lucene的医学文献检索系统

合集下载

基于Lucene全文检索系统的研究与实现

基于Lucene全文检索系统的研究与实现

基于Lucene全文检索系统的研究与实现[摘要] lucene是一个开放源代码的全文检索引擎工具包,利用它可以快速地开发一个全文检索系统。

利用lucene开发了一个全文检索系统,通过其特殊的索引结构,实现了传统数据库不擅长的全文索引机制,提供了对非结构化信息的检索能力。

[关键词] lucene 信息检索全文检索索引一、引言计算机技术及网络技术的迅速发展,使得internet成为人类有史以来资源最多、品种最全、规模最大的信息资源库。

如何在这海量的信息里面快速、全面、准确地查找所需要的资料信息已经成了人们关注的焦点,也成了研究领域内的一个热门课题。

这些信息基本上可以分做两类:结构化数据和非结构化数据(如文本文档、word 文档、pdf文档、html文档等)。

现有的数据库检索,是以结构化数据为检索的主要目标,实现相对简单。

但对于非结构化数据,即全文数据,由于复杂的数据事务操作以及低效的高层接口,导致检索效率低下。

随着人们对信息检索的要求也越来越高,而全文检索因为检索速度快、准确性高而日益受到广大用户的欢迎, lucene是一个用java写的全文检索引擎工具包,可以方便地嵌入到各种应用中实现针对应用的全文索引和检索功能。

这个开源项目的推出及发展,为任何应用提供了对非结构化信息的检索能力。

二、全文检索策略通常比较厚的书籍后面常常附关键词索引表(比如,北京:12,34页,上海:3,77页……),它能够帮助读者比较快地找到相关内容的页码。

而数据库索引能够大大提高查询的速度原理也是一样,由于数据库索引不是为全文索引设计的,因此,使用like “%keyword%”时,数据库索引是不起作用的,在使用like查询时,搜索过程又变成类似于一页页翻书的遍历过程了,所以对于含有模糊查询的数据库服务来说,like对性能的危害是极大的。

如果是需要对多个关键词进行模糊匹配:like“%keyword1%”and like “%keyword2%”……其效率也就可想而知了。

基于Lucene的全文检索系统研究

基于Lucene的全文检索系统研究
科 学 论坛
—■I
基 于 L cn u e e的全文检 索 系统 研究
薛 萍
天津 30 8 ) 0 3 7 ( 津师 范大 学计 算机 与信 息工 程学 院 天 [ 摘 要 ] 息时代 的 到来, 信 使数据 不 仅在 数量 还是 多样 性 有 了很 大 变化 。而 L c n 全 文检 索就 是, 代信 息 检索 领域 中被 广泛 应用 的 重要 技术 之一 。所 ue e 现 以本文 首先 介 绍全文 检 索及 系统 的概 念 , 次是 L c n 其 u e e的系统 结构 和 实现 机制 。最后 讨 论使 用 L c n u e e工 具包 开发 系 统的 实 际应用 问题 。 [ 关键 词] 全文 检 索 l c n 索 引 uee 中 图分类 号 :P 9 T 3 文 献标 识码 : A 文章编 号 :09 94 (0 0 3— 4 9O 10 — 1X 2 1) 30 l l
2全文 检 素与 全 文检 索系 统 全文 搜索 就是 以文 本数据 为主 要处 理对 象, 基于全 文表 引, 使用 自然 语言 进 行检 索 的技术 。也就 是通 过计 算机 索 引程序 扫描 和分析 文 章 中的每 一个字 或 者词 , 对其相 应 的建立 一个 索 引, 来指 明它 所 出现 的 次数和 位 置 当用户查 询时, 就可 以根据 建 立好 的索 引进行 查找, 并将 结果 反馈 给用 户 的方式 。 全文搜 索是 现代信 息检索技 术 的重要分支 之一, 它是处 理非 结构化数 据 的 强大工 具, 也是搜 索 引擎 的核 心技 术之 一 全文检 索 系统是 按照 全文检 索 理论建 立起 来 的用于提 供 全文检 索服 务 的 软 件系 统。 全文检 索 系统 需要具 备建 立索 引和 提供 查询 的基 本功 能外 , 需要 还 方 便的用 户 接 口, 向万 维 网 的开发 接 口和二 次应 用 开发 接 口等等 。 面 全文 检 索系 统 的核 心 功 能具 有 建立 索 引 、处理 查 询 返 回结 果集 、增加 索 引 、优 化索 引结 构 等等 功 能 , 围则 由各种 不 同的应 用 系 统 组成 。 外

基于Lucene的二次全文检索系统设计与实现的开题报告

基于Lucene的二次全文检索系统设计与实现的开题报告

基于Lucene的二次全文检索系统设计与实现的开题报告一、选题背景和意义随着信息技术的飞速发展,互联网已经成为人们获取各种信息的主要渠道。

因此,如何快速、高效地从大量的文本数据中获取所需信息,成为一个亟待解决的问题。

全文检索系统由此应运而生,它能够对文本数据进行网页搜索、信息检索、自然语言处理等操作,是信息检索领域的核心技术之一。

在实际应用中,全文检索系统被广泛应用于搜索引擎、社交媒体、电子商务等领域,为人们提供了快捷、精准的信息服务。

本文将基于Lucene全文检索引擎,设计并实现一个二次全文检索系统。

全文检索系统可以寻找到所有文本中与某个关键词相关的信息,而二次检索系统则对全文检索的结果再次进行筛选和排序,以提高所需信息的准确性和相关性,从而提高信息检索的效率。

本文旨在研究二次全文检索系统的设计和实现,探究Lucene引擎在信息检索中的应用。

二、研究内容和方法2.1 研究内容(1)了解全文检索系统和二次全文检索系统的概念、特点和应用场景;(2)基于Lucene全文检索引擎,设计并实现一个二次全文检索系统;(3)构建文本语料库,实现数据的导入和索引;(4)研究相关算法,设计二次检索策略,提高信息筛选和排序的准确性和相关性;(5)对系统进行性能测试、优化和调试,并分析检索效果。

2.2 研究方法本研究采用的研究方法主要包括如下几点:(1)文献综述:对全文检索算法、Lucene引擎技术和二次检索策略进行深入学习和研究,了解国内外相关研究现状和最新进展。

(2)系统设计:通过对全文检索系统和二次检索系统的原理和特点进行分析,设计系统结构和算法流程。

(3)数据处理:构建文本语料库,实现数据的导入、处理和索引,保证数据能够准确、高效地被检索。

(4)算法实现:研究相关算法,设计二次检索策略,提高信息的筛选和排序准确性和相关性。

(5)系统测试:对系统进行测试、优化和调试,分析系统检索效果。

三、预期结果及意义3.1 预期结果(1)设计并实现基于Lucene的二次全文检索系统;(2)构建文本语料库,实现数据的导入和索引;(3)研究相关算法,设计二次检索策略,提高信息筛选和排序的准确性和相关性;(4)对系统进行性能测试、优化和调试,并分析检索效果。

用Lucene引擎构建非结构化电子病历检索系统

用Lucene引擎构建非结构化电子病历检索系统
t o p e r f o r m i n d e x i n g o f EMR i n o r d e r t o r e a l i z e t h e f u 1 1 一 t e x t r e t i r e v a 1 .R∞ I l 】 拓 No n— s t r u c t u r e d EMR w a s f l e x i b l e a n d s c a l a b l e 。 a n d w a s f r e e o f t h e i n l f u e n c e f r o m E MR.t  ̄n du a i o a T h e s y s t e m c a n r e t r i e v e t h e n o n — s t r u c t r u e d E MR e f i c i e n t l y
【 关键词】 L u c e n e ; 搜 索引擎; 全文检 索 ; 非结构化 ; 电子病历
[ 中 国 图书 资 料 分 类 号 】 R 3 1 8 ; T P 3 1 1 . 1 3 [ 文 献标 志码 】 A [ 文 章 编 号】 1 0 0 3 - 8 8 6 8 ( 2 0 1 3 ) 0 7 — 0 0 4 3 — 0 3
【 摘 要】 目的 : 构建非结构化 电子病历检 索系统 。方法 : 以L u c e n e为搜 索引擎 , 通过前期对 电子病历文件的索引处理 ,
实现 电子 病 历 的 全 文 检 索。 结 果 : 该 技 术 强 调 对 非 结 构 电子 病 历 的 处 理 , 使 其 不 依 赖 于 电子 病 历 系统本 身 , 更加灵活 , 易于 扩 展 。 结 论 : 使 用非 结构 化 电子 病 历 检 索 系统 , 可 以 有 效 地 改善 检 索条 件 的局 限 , 提 高 电 子病 历 的利 用率 。

基于lucence的信息检索系统x

基于lucence的信息检索系统x

基于lucence的信息检索系统设计与实现1.系统介绍信息检索系统是利用信息检索技术(如全文检索等)帮助用户查找特定信息的一种工具。

它能够对信息进行正确的表示、存储和组织,同时还提供对于信息的访问方式。

在这里,信息的概念很宽泛,,它可以是一篇文章,一段文本,一个网页,一封邮件,一张照片,甚至是一些虚拟信息的集合。

2.系统平台设计本系统采用的是IDEA13 + MySQL5.1 + Tomcat5.5的开发环境。

此外,本系统所应用到的其它开源工具为:spring MVC, Mybatis,网络爬虫Heritrix1.14.3,网页解析工具HtmlParser2.0,全文检索工具包Lucene3.0,中文分词软件IKAnalyzer3.0。

3.系统的组成结构整个系统由三个部分组成:网页采集分析模块、索引与数据库模块、web搜索界面模块。

其中网页采集与分析分别由开源工具网络爬虫Heritrix和网页解析器HtmlParser 完成;由Lucene完成索引系统,并将索引与数据库关联;web查询界面基于SSH框架设计完成。

模块组成结构如图3.1所示。

图3.1 系统模块结构图4.网页抓取分析模块设计4.1.站点选择从技术角度看,选择网站的主要依据有:(1)网站能够被Heritrix爬虫抓取。

因为有的网站使用了反爬虫技术,防止未经授权的爬虫对面页进行抓取。

(2)网站的信息不是用javaScript动态生成的。

这种动态生成的内容需要在浏览器中运行生成,是爬虫无法获取到的。

(3)网站的面页结构不应该经常变化,最好是使用一种模版动态生成的。

这样有利于在分析面页时,使用较为简单的方式从网页中解析数据。

除了上述3点技术方面的因素,在选择网站时,也应当尽量选择那些访问量较大、产品信息比较齐全的网站。

这样,有利于数据完整性。

基于上述各因素的考虑,4.2.网页解析工具HtmlParser对于抓取到的网页,需要经过解析,提取出需要的信息以便更好的建立索引和创建数据库。

基于Lucene的全文检索系统的研究与实现

基于Lucene的全文检索系统的研究与实现
e tb ih n u l t x ere a y t m ,t e n r d c e c n e to l— e t ere a y tm d a ay e t e sr c u e o c n y tm sa l i g f l— e t t v l se s r i s h n i t u e t o c p ff l t x t v s se a l z tu t r fLu e e s se o h u r i l n n h a d t e i lme tt n o e me h im .Fi al n mp e n a o ft c a s h i h n n y,g v e i l me t t n p o e so l- e t ere a y tm r m e s se d sg l i et mp e n a o r c s ff l t x tiv s se fo t y t m e i n, h i u r l h h e te t c n,t e i d x e t bi h n d t e e e u v n e e r h wi r c ia p ia i n.Pr c c h wst a h y tm ’ t e t x x a to r i h n e s l me ta x c t e i d x s a c t ap a t l a pl t a s n h i h c c o a d e s o t e s se h t
等 均达 到 了设 计要求 。 关 键词 : 文检 索 ; 引 ; 息检索 全 索 信 中图分类 号 : P l . T 3 15 文献 标识 码 : A 文章 编号 :6 3 6 9 2 1 )7 0
Re e r h a m p e e t to o l- x s a c nd I l m n a i n fFu l Te t

基于Lucene2.0的电子文献全文检索系统

基于Lucene2.0的电子文献全文检索系统

a o lo sa l h n n e r h n n e . i e tgv sa f l a ay i fs me k y tc n q e p i t b u c n n lz r s ato fe tb i i g a d s a c i g id x Th stx ie u l n lsso o e e h i u on sa o tLu e e a a y e, s
i b e t re i t l k n s o u l tx n e n e r hn ,I h a iu o o e t fs a c n i e sa l o me g n oal id ft l- e tid x a d s ac ig n te v ro sc mp n n so e r h e gn ,Lu e e p a si oe e n ly t r l s
序 就 根 据 事 先 建 立 的索 引进 行 查 找 。 将 查 找 的 结 果 并
反 馈 给 用 户 的 检 索 方 式 这 个 过 程 类 似 于 通 过 字 典 中 的 检 索 字 表 查 字 的 过 程
22全 文 检 索 系统 .
全 文 检 索 系 统 是 按 照 全 文 检 索 理 论 建 立 起 来 的
维普资讯


本 栏 目责任编 辑 :闻翔 军
数 拊 库 及 信 息 管 . .
基于 Lc n 20的 电子文献全文检 索系统 ue e .
周 珍 娟 , 字 平 , 玲 张 陆
( 东华理 工 大 学 信 息 工 程 学 院 , 西 抚 州 3 40) 江 4 0( )
L cn 20的 电 子 文 献 全 文 检 索 系 统 的 实 现 uee .
关 键 词 : u e e .; 文捡 索 : L cn 2( 全 ) 中文 分 词

基于Lucene的全文检索系统的设计与实现

基于Lucene的全文检索系统的设计与实现

基于Lucene的全文检索系统的设计与实现作者:张盼聂刚来源:《电脑知识与技术》2010年第01期摘要:Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中来增加索引和搜索功能。

该文分析了Lucene的索引机制,探讨了Heritrix 的结构框架,最后结合实际实例对基于Lucene的全文检索的应用进行深入研究。

关键词:Lucene;全文检索;Heritrix中图分类号:TP393.07 文献标识码:A 文章编号:1009-3044(2010)01-9-03Design and Implementation of Full-Text Searching System Based on LuceneZHANG Pan1, NIE Gang2(1.College of Information Engineering, Wuhan University of Science & Technology Branch, Wuhan 430073,China;2.College of Computer Science, Wuhan University of Science & Engineer, Wuhan 430073,China)Abstract: Lucene is an information retrieval library written in Java with its high performance and easy to scale. It can easily add indexing and searching capabilities to applications. The indexing mechanisms of Lucene were analysis and the frameworks of Heritrix were discussed in this paper. And finally, we developed an application to make a deep study to realize the full text searching based on Lucene.Key words: Lucene; full text search; Heritrix互联网搜索的使用水平可以反映全民的信息处理能力,几年前有研究发现美国用户比欧洲用户的互联网使用水平领先半年左右,主要是根据谁搜索时平均使用的关键词的个数多。

基于Lucene.Net的知识检索系统的设计与实现

基于Lucene.Net的知识检索系统的设计与实现
L cn .e 的 系 统 由基 础 结 构 封 装 、索 引 核 心 、 ue eN t
对外 接 口三 大部分组 成 中直接操作 索引文件 的索 其
引 核 心 又 是 系 统 的 重 点 L cn .e 将 所 有 源 码 分 为 ue e t N 了 7个 模 块 .各 个 模 块 所 属 的 系 统 部 分 如 图 1 示 . 所
2 检 索 系统 的 设 计 和 实 现
21 系统 总 体 设 计 .

系 统 的 基 本 原 理 是 首 先 收 集 大 量 的 关 于 特 定 主
其 代 题 的 知 识 的 文 本 文 件 到 一 个 文 件 夹 . 次 抽 取 文 本 内 u eeN t 计 容 并 利 用 L cn .e 对 该 文 件 夹 的 所 有 文 件 进 行 分
基 于 L c n .e 的知识检 索 系统 u e eN t 的设计 与实现
陈烨 彬 . 黄 琳
(. 南 师 范 大 学 增 城 学 院 , 州 5 16 ;2 桂 林 l 学 院 , 林 5 10 ) I华 广 13 3 . T 桂 4 0 4

要 :在 L cn . t 基 础 上 ,设 计 并 实 现 了 一 种 知 识 检 索 系统 — — 基 于 奥 运 知 识 库 的 检 索 ue eNe 的 系 统 . 系 统 对 L c n . t的 中 文 分 词 功 能 进 行 了改 进 . 采 用双 字 哈 希 机 制 的 中 文 分 该 uee Ne 即 词 器 , 高 了对 中 文 分 词 的 支 持 度 , 增 加 了 新 增 生 词 的 功 能 , 提 高 检 索 的 准 确 度 。 提 并 能
图 1L c n . t 系 统 结 构 与 源 码 组 织 图 u eeNe 的

基于Clucene的电子病历全文检索系统研究与设计

基于Clucene的电子病历全文检索系统研究与设计

c o r d , E MR) 作为 医 院信 息 系统 中 的核 心 业 务 管 理 与 医疗信 息 决策 系统 的基 础 , 越来 越 受 到重 视 。对
于 当前 医院 电子 病 历 系 统 的病 历 只 能 通 过 对 一 些
总第 2 9 3 期 2 0 1 4 年第 3 期
计算 机 与 数 字 工 程
C o mp u t e r& D i g i t a l E n g i n e e r i n g
Vo 1 . 4 2 No . 3
5 21
基于 C l u c e n e的 电子 病 历 全 文检 索 系统 研 究 与设 计
擎的结构原理进行二次开发 , 针对 XML的 电子病历文档进行 全文检索 。 目的是给 E MR系统提供一种 高效快速 的临床 病 历全文检索方法 。与传统 的病 历检索系统相 比, 该 系统在病历检索的效率与精度上有 了很 大提升与改进 。
关键词 全 文 检 索 ;C L u c e n e ;可 扩 展 标 记 语 言 ; 电 子 病 历 系 统 TP 3 9 1 D OI : 1 0 . 3 9 6 9 / j . i s s n 1 6 7 2 — 9 7 2 2 . 2 0 1 4 . 0 3 . 0 4 0
K e y Wo r d s f u l l — t e x t s e a r c h,Cl u c e n e,XM L,E M R s y s t e m Cl a s s Nu mb e r TP3 9 】
1 引 言
随着信 息技 术 的发展 , 计 算机 技 术越 来 越 多地 应用 到 医疗 领域 , 对 医 院信 息 化要 求 的程 度 越来 越 高口 ] 。电 子 病 历 系 统 ( E l e c t r o n i c Me d i c a l Re —

基于Lucene的全文检索系统设计研究

基于Lucene的全文检索系统设计研究

L u c e n e的 校 内 资 源 搜 索 引擎 系 统 进 行 了 设 计 与实现, 以期 为 此 类 研 究 与应 用 提供 有 益参 考 。
据,尽可能减少系统在磁盘操作上的消耗。此
外 ,在 I o c方 面 ,在 需 要 效 率 的 地 方 应 该 考 虑
参考文献
[ 1 ] 陈立. 全 丈检 素 i l 擎 的设 计 研 究 … . 现
通 过 比 对 线 程 数 的 效 率 , 测 试 结 果 显
示 查询速 度 快,但 也存 在一 一 定 的 问题 ,比如
L u c e n e 对 索 引 做 了 大 量 的 优 化 和 改 善 , 但 涉
功能实现上 ,应着 眼于效率 问题 。本文就基于
9 4 ・电子技 术与 软件 工程
E l e c t r o n i c T e c h n o l o g y &S o f t w a r e E n g i n e e r i n g
4 系 统 性 能测 试
4 . 1测 试 环 境 ( L )主 要 硬 件 环 境 :I n t e l P e n t i u m D 2 . 8 G
wi t h 2 Co r e s :2 G DDR 2
及 到磁 盘操 作 仍 是 整 个 系 统 最 慢 的环 节 , 因此 , 在运用 L u c e n e的 时 候 , 应 该 尽 可 能 的 首 先 将 索 引 写 到 内 存 中 , 然 后 再 写 到磁 盘 上 , 其 次 , 在 写 磁 盘 的 时 候 , 应 该 尽 可 能 一 次 性 写 大 量 数
不 需 要 太 多 效 率 的 地 方 应 该 考 虑 使 用 这 些 依 赖
注入框架。

基于Lucene的分布式医疗搜索引擎的研究与实现的开题报告

基于Lucene的分布式医疗搜索引擎的研究与实现的开题报告

基于Lucene的分布式医疗搜索引擎的研究与实现的开题报告一、研究背景随着互联网技术的不断发展,医疗信息化建设也越来越重要。

在医疗领域,搜索引擎已成为获取健康资讯和查询疾病信息的重要手段。

然而,传统的搜索引擎由于信息量太大,查询效率低下和搜索结果不准确等问题,提高了医疗领域中医生和患者的查询成本和时间花费,不能满足现代医疗信息化建设的需求。

因此,高效、精准、智能的医疗搜索引擎研发成为了迫切需要解决的问题。

Lucene是一种全文检索引擎,一般应用于局域网搜索或单机搜索。

Lucene的特点是速度快,内存占用低,并且支持复杂的检索操作。

然而,普通的Lucene架构对于大规模的分布式搜索和索引来说显得力不足。

因此,研究和实现基于Lucene的分布式医疗搜索引擎具有重要的理论和实用价值。

二、研究内容与目标本文旨在研究和实现基于Lucene的分布式医疗搜索引擎,具体包括以下内容:1. 分析当前医疗搜索引擎的不足和存在问题,在此基础上确定研发方案。

2. 研究Lucene的原理和机制,在此基础上设计基于Lucene的分布式搜索引擎架构。

3. 结合医疗领域的数据特点和用户需求,对搜索引擎所需索引和搜索算法进行优化。

4. 设计并实现分布式索引、分布式搜索和分布式排序等核心功能。

5. 针对搜索引擎的性能测试和优化,评估实现效果和效率。

研究的目标是开发出具有高效、精准、智能等特点的分布式医疗搜索引擎,为医生和患者提供全面的医疗健康资讯查询服务。

三、研究方法本研究采用实证分析和研究实践相结合的方法,具体包括以下步骤:1. 收集和整理医疗领域的数据集和检索需求,进行问题分析,确定研发方案。

2. 学习Lucene的基础原理和机制,了解分布式搜索引擎的相关技术和架构,进行设计和实现。

3. 对搜索引擎的性能进行测试和调优,评估实现效果和效率。

四、研究意义本文研究和实现的基于Lucene的分布式医疗搜索引擎具有以下意义:1. 提高医生和患者的查询效率和准确率,降低医疗查询成本。

基于Lucene.net痹证医药文献全文检索系统的研制

基于Lucene.net痹证医药文献全文检索系统的研制

随着信 息技 术 的快 速 发 展 , 全 文 检 索技 术 已从
最初 的 字 符 串 匹 配 程 序 演 进 到 能 对 超 大 文 本 、 语
与 整个 数 据 库 中 每 条 记 录 的字 符 进 行 匹配 。 在 海 量 内容 中查 询 时 , 其检索速度会 急剧降低 , 且 在 进 行 较 复杂语 义查 询时 , 查询 语句 构造 较繁 琐 u 。 1 . 2 使用通 用 数据库 系统 提供 的全 文检 索功 能
Z HAO Xi n g - g u a n,S HE N Li
( L i b r a r y o f Z h e j i a n g U n i v e r s i t y o f T r a d i i t o n a l C h i n e s e Me d i c i n e , Ha n g z h o u 3 1 0 0 5 3, Z h e j i a n g P r o v i n c e , C h i n a )

6 4・
中华 医学 图书情报杂志 2 0 1 3年 5月 第 2 2卷第 5期
C h i n J M e d L i b r I n f S c i , V o 1 . 2 2 N o . 5 Ma y , 2 0 1 3
D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 6 7 1 - 3 9 8 2 . 2 0 1 3 . 0 5 . 0 1 5
・ 科 技 查新 与 文献 检 索 ・
基于 L u c e n e . n e t 痹 证 医药 文 献 全 文 检 索 系统 的研 制
赵兴官。 申 力
[ 摘要 】 选取 对比了几种 常用全 文检 索技术 , 在 深入研 究全文检 索引擎 L u c e n e . n e t 架构 的基 础上提 出了基 于 L u c e n e . n e t 痹证

基于Lucene的电子文献全文检索系统的研究

基于Lucene的电子文献全文检索系统的研究

基于Lucene的电子文献全文检索系统的研究【摘要】:实现了中文单字切分模块,并在LuceneAPI基础上建立支持中英文混合检索的全文数据库。

在电子文献全文检索系统项目中作为全文检索工具。

中文全文数据库的主要性能和功能包括:支持中英文混合检索;可以不关机动态添加或删除一篇文档索引;采用多线程设计,能承受大量的访问请求;支持跨平台运行;提供命令行直接查询方式和基于WEB的查询方式;易学通用的检索表达式;系统可扩展性强。

【关键词】:中文信息处理;全文数据库;全文检索Lucene中国分类号:TP3 文献标识码:A 文章编号:1002-6908(2007)0220078-011.Lucene简介Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能。

Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能。

Lucene可以对任何的数据做索引和搜索,不管是MS word、Html 、pdf还是其他什么形式的文件只要你可以从中抽取出文字形式的内容就可以被Lucene所用,你就可以用Lucene对它们进行索引以及搜索。

它不仅能用来构建具体的全文检索应用,而且可被集成到各种系统软件中构建Web 等多种应用。

例如,某些商业软件也采用了Lucene作为其内部全文检索子系统的核心。

2.Lucene检索原理Lucene的检索算法属于索引检索,即用空间来换取时间,对需要检索的文件、字符流进行全文索引,在检索的时候对索引进行快速的检索,得到检索位置,这个位置记录检索词出现的文件路径或者某个关键词。

在使用数据库的项目中,一般不使用数据库进行检索,其主要原因是数据库在非精确查询的时候使用查询语言”like%keyword%”,对数据库进行查询是对所有记录遍历,并对字段进行”%keyword%”匹配,在数据库的数据庞大以及某个字段存储的数据量庞大的时候,这种遍历是低效的,它需要对所有的记录进行匹配查询。

基于lucene检索引擎的电子病历全文检索系统

基于lucene检索引擎的电子病历全文检索系统

的 继 承 信 息 ;而 从 传 统 的 HIS 每 个 子 系 统 来 看 ,患 者 信 息 却 是局部的、分散的。 所以要对电子病历进行全文检索,首先要 建立一个规范的、合乎要求的电子病历描述模型,将分散于 HIS 系统中的电子病历信息读出并转换为统一形式的文件存 储于电子病历库中。 XML(eXtensible Markup Language,即扩 展标记语言)就是建立并实现该模型的一个有效手段。
依图 1 中的序号,整个系统的信息处理流程为: A.数据预处 理 模 块 读 入 电 子 病 历 的 原 始 数 据 (一 般 以 数 据库表的形式储存在 HIS 系统中), 将原始电子病 历 加 工 为 XML 文件,然后储存于 XML 电子病历库中; B.索引建立模块读入 XML 电子病历库中储存的 XML 文 件,把建立好的全文索引储存于全文索引库中; C.用 户 通 过 用 户 界 面 模 块 提 出 检 索 请 求 ,用 户 界 面 模 块 调用全文检索模块使用电子病历的全文索引进行检索,将得 到的检索结果返回给用户; D. 用户 查 看 了 检 索 结 果 中 电 子 病 历 的 摘 要 后 如 果 需 要 进一步查看电子病历的全文,可以通过用户界面模块直接根 据检索结果中的文档 ID 从 XML 电子病历库中获取全文。 5 系统测试和评价 5.1 测试环境
全 文 检 索 开 发 库 :Apache Lucene 2.2;Web 服 务 器 :Apache Tomcat 6.0;开发工具:IBM Eclipse 3.2.0。 4.2 总体架构
电子病历全文检索系统主要实现对电子病历的表示、存 储、组织和访问,即根据用户的查询要求,从电子病历库中检 索出相关信息资料。 其中心环节是电子病历内容的表达、信 息查询的获得以及相关信息的匹配。

一种基于Lucene的中文全文检索系统

一种基于Lucene的中文全文检索系统

一种基于Lucene的中文全文检索系统
苏潭英;郭宪勇;金鑫
【期刊名称】《计算机工程》
【年(卷),期】2007(033)023
【摘要】在开源全文索引引擎Lucene的基础上,设计了一个中文全文检索系统模型,该模型系统由7个模块组成,索引模块、检索模块是其中的核心部分.论述了模型的整体结构,分析设计了索引及检索模块,通过具体的索引技术和检索技术来提高整个系统的检索效率.该系统增加了加密模块,实现对建立的全文索引进行加密处理,增强了信息的安全性.
【总页数】3页(P94-96)
【作者】苏潭英;郭宪勇;金鑫
【作者单位】解放军信息工程大学电子技术学院,郑州,450004;北京飞燕技术公司,北京,100072;解放军通信指挥学院,武汉,430010
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于Lucene的文献资料全文检索系统的设计与实现 [J], 胡宏伟;虞萍;周南;乔军
2.基于lucene的站群全文检索系统设计与实现 [J], 刘全飞;周相兵
3.基于Lucene全文检索系统的设计与实现 [J], 周敬才;胡华平;岳虹
4.基于Lucene的中文全文检索系统的研究与设计 [J], 索红光;孙鑫
5.一种基于Lucene的Web全文信息检索系统的设计与实现 [J], 张晓卫;朱巧明
因版权原因,仅展示原文概要,查看原文内容请购买。

基于Lucene2.0的电子文献全文检索系统

基于Lucene2.0的电子文献全文检索系统

基于Lucene2.0的电子文献全文检索系统
周珍娟;张字平;陆玲
【期刊名称】《电脑知识与技术》
【年(卷),期】2007(004)023
【摘要】Lucene2.0是一个高性能的、可扩展的、开源的全文检索工具库,它可以方便地融入到各种应用系统中实现全文索引和搜索功能:在搜索引擎中,Lucene是
充当索引的建立工具和索引的查找工具的角色.文章详细分析了Lucene分析器、
索引包、搜索包以及Lucene中评分排序、中文分词、索引优化等关键技术点,然
后将其引入具体应用,给出了一个基于Lucene2.0的电子文献全文检索系统的实现、【总页数】5页(P1219-1223)
【作者】周珍娟;张字平;陆玲
【作者单位】东华理工大学,信息工程学院,江西,抚州,344000;东华理工大学,信息工程学院,江西,抚州,344000;东华理工大学,信息工程学院,江西,抚州,344000
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于Xunsearch的特色文献库全文检索系统构建研究——以东北大学张学良文
献库为例 [J], 姚天泓
2.基于Lucene的文献资料全文检索系统的设计与实现 [J], 胡宏伟;虞萍;周南;乔军
3.基于Lucene的文献资料全文检索系统的设计与实现 [J], 胡宏伟;虞萍;周南;乔军;
4.基于Lucene2.0的电子文献全文检索系统 [J], 周珍娟;张字平;陆玲
5.基于Lucene2.0的电子文献全文检索系统 [J], 周珍娟;张字平;陆玲
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[ 基金项目 ] 国家科技支撑计划项目保密项目。 [ 作者单位 ] 解放军医学图书馆 , 北京 100039
[ 作者简介 ] 李 焱 ( 1968 - ), 男 , 北京市人 , 硕士 , 助理研究 员 , 发表 论文 8篇 , 获军队科技进步奖 6 项。
中华医学图书情报杂 志 2010 年 9 月 第 19 卷第 9 期
[ 3]
建立 Lucene 索引文件。索引建立时 , 将数据库中的 记录 I D 号一并保存于 Lucene 的索引文件中, 通过 记录 I D 号 , 实现 L ucene 和数据库中记录的关联。
。它不是维护一个索引文件,
而是在扩展索引时不断创建新的索引文件, 然后定 期把这些新的小索引文件合并到原先的大索引中, 通 过与原有索引的合并, 达到优化的目的。合并参数 可以设定, 对批次的大小进行调整, 实现不同的策略。 可以说, L ucene 最核心的特征是通过特殊的索引结构 实现了传统数据库不擅长的全文索引机制, 并提供 了扩展接口, 以方便针对不同应用的定制。 Lucene 内置了根据相关度排序的功能 , 其排序 的参数可以动态指定。如我们可以对 各个网站进 行评分 , 把从专业网站搜索 来的文章排到 前面, 从 而提高检出文献的用户满意度, 这是普通数据库所 不具备的。此外, Lucene 可以通过 setS lop( ) 设置一 个称为 坡度 !的变量, 以确定关键字之间是否允许 和允许多少个无关词汇的出现。如当坡度为 2时, 检 索 张军 !时, 可以同时检索出 张军 !、 张海军 !。这 对于人名、 地名的检索有特殊意义, 可以提高检全率。 数据库在事物管理、 数据存储、 数据安全、 用户 管理等方面有成熟可靠的机制 , 而这些是 Lucene 所 不具备的。如果把所有数据都保存在 Lucene 中 , 会 带来索引膨胀过快问题。 2 . 2 系统结构设计 将 Lucene 和 数据库结合起来 , 借助 Lucene 强 大的全文检索功能, 一方面可以减轻对数据库的压 力 , 同时支持更多的用户; 另一方面, 发挥数据库在 数据存储和管理上的优势, 以弥补 Lucene 在这方面 的不足。通过优势互补 , 可以使系统开发的效果更 佳。系统结构如图 1 所示。 网上存在大量免费医学文献, 对其加以利用可 有效弥补图书馆经费Байду номын сангаас 不足。网络爬 虫根据一定 的策略从网上采集信息 , 并对各种文档加以筛选和 整理, 将符合要求的数据存储于数据库中。索引模 块则将要进行检索的数据项 , 如文章的题目、 作者、 文摘、 关键词等取出, 调用 Lucene 的索引创建模块 , 在缺省情况下 , 与搜索引擎的检索方式完全一 致。当用户输入 现代医学 !进行检索时 , 可以不必 确定是在题目还是在期刊名或是在文摘中查询 , 系 统会自动在所有的检索字段, 如题名、 作者、 文摘等 多个字段中进行查询 , 并把查询 的结果进行合并、 过滤后, 返回给用户。同时, 以空格表示 或 !操作 , 如输入为 现代 医学 !则查出包含 现代 !或 医学 ! 的文献。这与网上搜索引擎的使用完全一致。 当用户勾选 二次检索 !时 , 则在上一次检索的 结果中进行再次检索, 从而逐步得到用户想要的精 确结果。当用户明确其检索的 内容对应的检 索项 时, 可以从前面的下拉框中选择要检索的字段。 这样一个简单的查询界面 , 可以满足用户的各 种检索需求。 3 . 4 检索功能的实现 检索功能是文献检索的中心环节。使用 Lucne
[ Ab stract] A fter a brie f descriptio n of the basic funct io ns and characteristics o f L ucence , the advantages and disadvantages of Lucence and other genera l databases w ere ana ly zed . A Lucence- based m ed ica l literature retrieva l system w as designed w ith Lucence as its bottom layer retrieval interface com bin edw ith databases concern ing th e appli ca tio n of m edical literature retrieval system. T he key techn iques used in develop in g th is system, espec ially th e ad vantages and disadvantages of Ch in ese standard ana lyzer techniques , w ere discussed . [ Key w ord s] fu ll- text retrieva; l Lucence ; retrieva l syste m; w ord d ivision 1 Lucene简介 Lucene 是目前 已经被广泛应用于全文检索的 项目。值得注意的是 , Lucene 并不是一个完整的全 文检索引擎 , 而是一个全文检索引擎的架构。它可 以方便地引入项目中, 在目标系统中实现完整的全 文检索功能
[ 1]
传统倒排索引的基础上 , 实现了分块 索引, 能 够针 对新的文件建立小文件索引 , 提升索引速度。然后 通过与原 有索引的合并 , 达到优化 的目的。第三 , 面向对象的优秀系统架构 , 降低了 Lucene 扩展的学 习难度, 方便扩充新功能。 笔者以 L ucene. Net为例 , 对其结构模块进行介 绍。 Lucene . Net提供了十分全面的索引创建、 分析、 查询等模块, 各模块的功能如表 1 所示。 Lucene 功能强大。但从根本上说, 一是对需要 索引的内容进行分词后建立索引文件; 二是查询功 能, 即对索引进行检索, 选出符合条件的记录。相关 的 Lucene功能库主要有分词、 索引管理和检索管理, 对应的程 序集为 Lucene . N e. t Analysis、 Lucene . Ne. t Index 、 Lucene . Ne. t Search 。由于代码是开源的 , 也可 以对其功能进行扩展, 开发适用的搜索引擎。 2 Lucene 的特点和系统设计 针对网络医学文献资源, 采用 Lucene 和数据库 相结合的方法 , 可以开发高效的文献检索系统。
54
中华医学图书情报杂志 2010 年 9 月 第 19 卷第 9 期
Ch in JM ed L ibr Inf Sc,i V o. l 19 N o . 9
Sep. , 2010
提供的检索 接口, 充分 发挥 L ucene 全文 检索的优 势 , 是检索设计和实现的最大难点。检索模块的数 据流图 3 所示。
以单字或二个汉 字为一组进行切 分。也可以 采用 三元切分或多元切分, 但其精细度不如一元或二元 切分。采用此方法不需要对词表进行维护, 成本较 低, 适合于一般的中小型系统。 本系统采用单汉字切分的一元切分算法, 主要 是考虑其用于全 文检索具有如下 优点。一是 单字 的组配非常灵活, 任何新词都可以通过字的组配获 得, 这是一般词典法所不及的。单汉字标引全文检 索又被称为 无标引检索 !。由于无须建立词典, 打 破了不同学科领域词典的分割 , 用一个单字索引库 即可快速完成 全文 检索, 适用 的学科 领域 比较 宽 广。二是采用单汉字索引的检 索命中率较高 这也 许是最重要的, 因为 准确性、 相 关性都是以命 中率。三是单汉字 分词相比二元分词 , 实现容易 , 索引效率较高, 并且 其数据的膨胀率较低, 索引文件为原文件的 50 %左 右。而二元分词会造成很大的冗余 , 切出很多无意 义的词, 索引文件膨胀率较大 5 结束语 L ucene 是一款优秀的开源软件 , 适用于各种需 要全文检索的系统 , 许多优秀的商业软件也采用其 进行系统搜索。同时 Lucene 丰富的 AP I 接口和开 源特性, 为程序的扩 展提供了广大的 空间, 极 大地 推动了全文检索技术在各行业或领域中的应用。
图 2 用户查询输入简图 图 1 系统结构图
检索时先使用 Lucene 的查询接口在 其索引文 件中检出符合条件的记录 ID 号, 然后通过 ID 号把 记录的详细信息 从数据库中调出。这样既可 获得 较快的查询速度, 又不会因为把所有信息都存储于 L ucene 的文件中而造成索引文件膨胀过快的问题。 3 . 3 检索界面的设计 方便用户检 索是每一个查 询系统需要考 虑的 问题。因此, 我们把传统的文献检索和现今流行的网 络搜索引擎相结合 , 设计简单易用的检索界面 (如图 2所示 ), 符合文献检索的要求和用户使用习惯。
∀参考文献 #
[ 1] [ 2] 赵 汀 , 孟祥武 . 基于 LU CEN E A PI 的中文全文数据库设计与
[ 4]
图 3 检索模块数据流图
QueryParsers和 Search 是 Lucene 提供的检索接 口。用户输入要查询的关键词后, 系统对关键词进 行切分, 根据 QueryParser 的语法, 调用其 AP I 设计 具体的检索器, 包括默认域、 索引库位置的指定 , 以 及将关键词通过布尔逻辑运算符连接 起来形成复 杂的查询语句。随后 将正确解析的检 索表达式传 递给 Search, 系统通过检索器对索引文件执行查询 操作, 然后进行去重、 合并检索结 果集, 排 序, 最后 将检索结果集提交给用户。 4 分词系统的比较 分词是全 文检索的前提 和核心。 Lucene 中分 词的工作由 Ana lyzer的扩展类来实现。 Lucene 自带 了 StandardAnalyzer 类, 可以支持中文, 我们也可参 照该类的实现写出自己的切分词分析器。 英文各词之间有 空格分隔, 分词不是 大问题。 而汉字之间没有分隔符 , 词与词之间的关系完全靠 上下文判断。一个词可能就是一个字 , 也可能由两 个或多个字组成。汉语分词技术虽有很大的发展 , 但仍有很多有待克服的问题 , 如专有名词与复合词 的切分 , 同形异义字的区分等。 如何在切分紧密 相连的词时最大 限度地保持 其原意 , Lucene 大体提供两类方法。第一, 通过词 表法进行切分 , 即根据语言 的习惯, 建 立一个完备 的词库 , 依据词库中的词对文本进行切分。其优点 是关键词清晰 , 索引效率高 , 数据膨胀 率较低。但 词表的维护成本较高, 适 用于需要复杂 检索规则、 较多高级检索要求的大型特殊系统。第二 , 通过算 法进行切分。 Lucene 采用一元切分或二元切分 , 即 (上接第 44页 )
相关文档
最新文档