基于Lucene的海量数据库全文检索的设计与实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
徐叶强 ,朱艳辉 ,栗春 亮 ,王文华
( 湖南1 业大学 计算机 与通信学院 ,湖南 株洲 4 2 0 1 0 8)
摘 要 :基 于 L c n u e. e实现 了一 个海量数 据库全 文检 索的原 型。把 关系数 据库 引入 了本 系统 ,可针 对不 同类型 的源数据 库灵 活配 置 , 比采 用 配置文件 更加 灵活 ;采 用 多线程 ,通过 动 态机 制 来 实现 不 同类 型 源数 据库 中记 录 的抽 取 、转换 、建立 索 引;提 供 定 时 自动 更新 索 引的功 能 ;提供 多种检 索方 式。 关键 词 :L c n ;关 系数据 库 ;全文检 索 u ee 中图分类号 : P 9 T 31 文献标志码 : A 文章编号 : 6 3 93 (0 1 2 0 8 —4 17 — 832 1) — 0 10 0
第2 卷 第 2 5 期
21 年 3 01 月
湖
南
l I
业大学Fra bibliotek学报
Vo- l25No. 2 M a . 201 r l
J r l u anU n v r i ofTec ol y ou na H n i e st of y hn og
基于 L cn u e e的海量数据库全 文检 索的设计与实现
0 引 言
随着互联 网的飞速 发展 ,数 据量 与 日俱增 ,越
国内外 相继 出现 了一 些全 文检 索产 品 ,国 内比 较有 代表性 的如 易宝北 信信 息技 术有 限公 司设 计 和 开发 的全 文信息检索 和管理 系统 T S等 ,而 国外 比 R 较 著名的有 I M 公司研发 的关 系型数据库 DB 其 中 B 2 的 T x E t dr O al公 司的 O al T x, c sf et xe e, rc n e rc et Mi oot e r 公 司开发 的 s L S re Q ev r和开源 的 L c n … u e e 全文检索 工具 包 。利用 大型关 系数 据库 本身 提供 的检索服 务 还有较多不足 ,所 以不适合作 为开发平台。而 L cn ue e
Th sg n m p e e tto fM a sv aa a e e De i n a d I l m n a i n o s i eD tb s
Fu lTe t tiv l s do c n l— x re a Re Ba e nLu e e
XuY e in q a g, Zh n u , Li u Ya h i Chu l n ni g, W a gW e h a a n n u
( c o l f mp tr n mmu iain,Hu a iest o Teh oo y,Z u h uHu a 2 0 ,Chn S h o Co ue dCo o a nc t o n nUnv ri f c n lg y h z o n n41 0 8 ia)
Absr t : P o o e aa a e f l—e t ere a o e a e nLu e e Ai i g a if r n o r ed tb s s tac r p s sa d t b s u lt x tiv l r m d l s d o c n . m n td fe e ts u c a a a e b c n i u ain,h aa a e uso z d v ar lto aa s smo efe i l h n c so z dv ac n g r t nfl . o fg r to t ed tb s sc t mi e i eain d tba ei r x bet a u t mi e i o f u a i e The l i o i
的解决 途径 。
收 稿 日期 :2 1- 2 1 0 0 1— 7
是一 个 纯 J v a a编 写 的开 放 源代码 的全 文检索 工 具 包。作为一个开放源代码项 目,L cn u e e自问世之后 ,
是 A ah 软件基金会 Jk r 项 目组 的一个子项 目, p ce a at a
来越 多 的大型 企业或 集 团的核心 业务 数据 都存储 在 关 系数据库 管理 系统 ( DB R MS)中。但传 统的关系 数据 库缺乏 对存 储在库 中字 段 的 内容进 行检 索和 分 析 的核心 功能 ,解决 这个 问题 的关键是 建立 一条 有 效 的包含数 据整合 、高速查 询 、信息分 析 的 、将数 据转化 为信 息 的途 径 。从 目前信 息科学 技术 的发 展 来看 ,海量 信息 的全文 检索技 术是 最先进 、最 适合
s p o tt i d f aa a ef re ta t g e c a g n d id xn a e ntr a s r g a mi ga d p l m op s a e u p r k n so tb s o x r ci , x h n i ga n e i gb s do e d o r m o d n n h p n o y r him r n i p e e td. ef n to fp ro i d x n p aea dk n so u r e uie e t r r v d d. m lm n e Th u ci no ei dci e i gu d t n i d fq ey rq r m n saep o i e n Ke ywo d r s:Lu e e rlto a aa a e f l—e t ere a c n ; eai n l tb s ;u ltx tiv l d r
( 湖南1 业大学 计算机 与通信学院 ,湖南 株洲 4 2 0 1 0 8)
摘 要 :基 于 L c n u e. e实现 了一 个海量数 据库全 文检 索的原 型。把 关系数 据库 引入 了本 系统 ,可针 对不 同类型 的源数据 库灵 活配 置 , 比采 用 配置文件 更加 灵活 ;采 用 多线程 ,通过 动 态机 制 来 实现 不 同类 型 源数 据库 中记 录 的抽 取 、转换 、建立 索 引;提 供 定 时 自动 更新 索 引的功 能 ;提供 多种检 索方 式。 关键 词 :L c n ;关 系数据 库 ;全文检 索 u ee 中图分类号 : P 9 T 31 文献标志码 : A 文章编号 : 6 3 93 (0 1 2 0 8 —4 17 — 832 1) — 0 10 0
第2 卷 第 2 5 期
21 年 3 01 月
湖
南
l I
业大学Fra bibliotek学报
Vo- l25No. 2 M a . 201 r l
J r l u anU n v r i ofTec ol y ou na H n i e st of y hn og
基于 L cn u e e的海量数据库全 文检 索的设计与实现
0 引 言
随着互联 网的飞速 发展 ,数 据量 与 日俱增 ,越
国内外 相继 出现 了一 些全 文检 索产 品 ,国 内比 较有 代表性 的如 易宝北 信信 息技 术有 限公 司设 计 和 开发 的全 文信息检索 和管理 系统 T S等 ,而 国外 比 R 较 著名的有 I M 公司研发 的关 系型数据库 DB 其 中 B 2 的 T x E t dr O al公 司的 O al T x, c sf et xe e, rc n e rc et Mi oot e r 公 司开发 的 s L S re Q ev r和开源 的 L c n … u e e 全文检索 工具 包 。利用 大型关 系数 据库 本身 提供 的检索服 务 还有较多不足 ,所 以不适合作 为开发平台。而 L cn ue e
Th sg n m p e e tto fM a sv aa a e e De i n a d I l m n a i n o s i eD tb s
Fu lTe t tiv l s do c n l— x re a Re Ba e nLu e e
XuY e in q a g, Zh n u , Li u Ya h i Chu l n ni g, W a gW e h a a n n u
( c o l f mp tr n mmu iain,Hu a iest o Teh oo y,Z u h uHu a 2 0 ,Chn S h o Co ue dCo o a nc t o n nUnv ri f c n lg y h z o n n41 0 8 ia)
Absr t : P o o e aa a e f l—e t ere a o e a e nLu e e Ai i g a if r n o r ed tb s s tac r p s sa d t b s u lt x tiv l r m d l s d o c n . m n td fe e ts u c a a a e b c n i u ain,h aa a e uso z d v ar lto aa s smo efe i l h n c so z dv ac n g r t nfl . o fg r to t ed tb s sc t mi e i eain d tba ei r x bet a u t mi e i o f u a i e The l i o i
的解决 途径 。
收 稿 日期 :2 1- 2 1 0 0 1— 7
是一 个 纯 J v a a编 写 的开 放 源代码 的全 文检索 工 具 包。作为一个开放源代码项 目,L cn u e e自问世之后 ,
是 A ah 软件基金会 Jk r 项 目组 的一个子项 目, p ce a at a
来越 多 的大型 企业或 集 团的核心 业务 数据 都存储 在 关 系数据库 管理 系统 ( DB R MS)中。但传 统的关系 数据 库缺乏 对存 储在库 中字 段 的 内容进 行检 索和 分 析 的核心 功能 ,解决 这个 问题 的关键是 建立 一条 有 效 的包含数 据整合 、高速查 询 、信息分 析 的 、将数 据转化 为信 息 的途 径 。从 目前信 息科学 技术 的发 展 来看 ,海量 信息 的全文 检索技 术是 最先进 、最 适合
s p o tt i d f aa a ef re ta t g e c a g n d id xn a e ntr a s r g a mi ga d p l m op s a e u p r k n so tb s o x r ci , x h n i ga n e i gb s do e d o r m o d n n h p n o y r him r n i p e e td. ef n to fp ro i d x n p aea dk n so u r e uie e t r r v d d. m lm n e Th u ci no ei dci e i gu d t n i d fq ey rq r m n saep o i e n Ke ywo d r s:Lu e e rlto a aa a e f l—e t ere a c n ; eai n l tb s ;u ltx tiv l d r