基于Lucene全文检索引擎技术的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
随着 计算 机 技术 的发 展 以及社 会 信息 化程 度 大
通 常 将 全文 搜 索 引 擎模 型分 成 两 大 功能 模 块 :
大提高 , 信息 化建 设 方面 有 了 比较 深 入 的发展 , 取 索 引 处 理 (n eig rcs ) 查 询 处 理 ( ey 抽 Id xn P oe s 和 Qu r rc s) 出对其 有 价值 的 、 潜在 的信 息 , 之能 有效 地被 应用 P o es 。索 引 处 理 的 主要 任 务 是 针 对 指 定 资源 , 使 在 管理 和决策 中给予 了越 来越 多 的关 注 。信息 检 索 如 互 联 网上 的网 页或 其 他类 型 的文 档 , 据 这些 资 根 技 术 帮助 用户 从 海量 的信 息 中提 取 出他们 所需 要 的 源 的具体 内容 建 立一 个 可 进 行后 期 查 询 的数 据 库 。
语义分析 , 并利用句法信息和语义信息来处理歧义 现象。常用 的基于理解 的分词方法有专家系统方法 和神经元网络方法n 。 ( ) 于统计 的分词 方法 3基
从 形式 上看 , 是稳 定 的字 的组 合 , 词 因此 在 上下 文 中 , 邻 的字 同时 出现 的次数 越 多 , 越有 可 能构 相 就 成 一个 词 。 因此字 与字 相邻 共 现 的频率 或 概率 能够 较 好 的反 映成 词 的可信 度 。可 以对 语料 中相邻 共现 的各 个 字 的组 合 的频 度进 行 统 计 , 算 它 们 的互 现 计
( RMM ) 和双 向最 大 匹配法 ( DMM ) 。
基 于字 符 串匹 配 的分 词 方 法 相对 简 单 , 于 实 易 ( kn Sra 。最 后 由索 引创 建 模 块 负 责 对 返 现 ; 匹 配速 度 比较慢 , 且存 在交 集 型和 组合 型歧 Toe t m) e 但 并 回的字符 串流 中的每 一个 字符 串进行 倒排 处 理后 添 义 切 分 问题 , 没有 统一 标 准 的词 集 , 缺乏 智 能学 习 的
XU u fn Ch ne g,W ANG n h n,YE Qig Ya c u n
( olg f mp tr c n eC a g h nUnv ri c n e n c n lg ,c a g h n1 0 2 ) C l eo e Co ue i c h n c u ies yo S i c dTeh o y h n c u 3 0 2 S e t f e a o
有 用信 息 , 省 了用户 的 时 间 , 高 了用户 的工 作效 这个 库并 不是 我们 通 常所 说 的能用 结构 化查 询 语言 节 提 率 。搜 索 引擎 正 是 这 些 技术 的基 础 和平 台 , 决定 它
着 这些 技术 的开发 和应 用 。 本 文 是 基 于对 全文 搜 索 引 擎 模 型 的基 本 原 理 、 ( QL) S 进行 查询 的数 据库 , 种数 据库 就是 索 引库 , 这
术之 一。本 文首先从全文搜 索引擎模 型入手 ,对其基 本工作原理和流程进行 深入研 究 ,并结合这些知识研 究开源检 索引 擎
包L cn 的 架构原理及其 开发应 用方法。然后介 绍 中文分词和基 本算法7. u ee u ee 2L cn 的相关技 术。
关键 词 :全 文 检 索 ; L cn ; 中文 分词 u ee
1 全 文 搜 索 引 擎
收 稿 日期 :2 1-0 -1 01 8 7 作 者 简 介 :徐 春 风 (9 7 ,女 ,硕 士 1 7一)
,
完成 。之后将结果交由文本转换器处理 。文本转换
讲师 ,主要从事计算机程序设计方面的研究。
lO 5
长春理工大学学报 ( 自然科 学版)
模 块 负 责 从 原 始 文件 中提 取 有 用 的纯 文 本 内 容 , 进 要 有 正 向 最 大 匹 配 法 ( )、 向 最 大 匹 配 法 MM 逆 行 内容 的分 词并 过 滤 掉 常 见 的无 意义 的停 用词 , 有 必 要 时 还 要 进 行 词 干 提 取 , 最 终 返 回 字 符 串 流 并
尤其是指倒排索引库 。而查询处理则是在建立好索 引库 的前 提 下 , 据 用户 的查 询条 件 进 行 检 索并 生 根 核 心技 术 和 流程 的研究 , 用 Ap c e 件基 金 会提 成一 个具 有优 先 级 的文档 列表 以合 理 的布 局显示 给 应 ah 软 供 的全 文 检 索 引擎 工 具包 L cn , u e e 建立 一 个 能 对 常 用户 。
第 3 卷 第4 4 期 2 1 年 1 月 01 2
长春理工大学学报 ( 自然 科 学 版 )
J u n l f h n c u ie s y o ce c n e h oo y ( t r l ce c dt n o r a C a g h nUnv ri fS i ea d T c n l g Naua in eE ii ) o t n S o
-
加到索引库 中, 此外还包括文档的统计 、 权值计算 、 特性。 索 引优 化 等 。有 的 时候 , 要 将 被 抓 回 的文 档 存储 需 ( )基 于 理解 的分 词方法 2 到本 地 , 么这 时 候 就 需要 创 建 一 个 文档 数 据 库将 那 基 于理 解 的分 词方 法模 拟 人在 理解 句 子 的基础
一
”
、
可 以最 大化 匹配 , 可 以最 小 化 匹 配 。但 最 小化 匹 也
∞
国
配 可能 识别 不 了一 些常 见 的如 “ 到成 功 ” “ 崖勒 马 、悬
马” 之类 的成语 , 致在 检 索 的时候 准确 率会 有 所下 导 降 。本 小节 将 实现 基 于正 向最 大 匹配 和基 于逆 向最
大 匹 配 的分 词算 法 。
正 向最 大 匹配 法 的基本 思想 如下 :
这 些 文档存 储 起来 。索 引处 理 的流程 如 图 l 所示 。
上 进 行 分词 。这 种 方 法在 分 词 的 同时还 进 行 句 法 、
Байду номын сангаас
~
图 1 全 文 搜 索 引擎 的 索 引处 理 流 程
Fg 1 Th r e so l t x e r h i. e poc s f ul e t a c f — s
从 图2 不难 看 出 , 询 处理 涉 及用 户 交 互 、 引 查 索 查 询 和结果 排 序 等模块 。首先 用户 通 过用 户交 互模
块 提 交 查 询关 键 字 , 索查 询 模 块 根据 关 键 字 建立 检
信息 。但这种方法也有一定 的局限性 , 会经常抽 出 些 共 现频 度 高 、 并 不 是 词 的 常用 字 组 , 如 “ 但 例 这
t o f r e l g o l o d ai wi n t c u e d t , b t lo n o h an te m e h o o y f s a c e g n sTh s p p r s a s n t u sr tr d aa h u u as o e f t e m is r a t c n l g o e r h n i e . i a e t r t fo r m su y n h r i g p i c l s a d p o e s f s a c e g n o e n e t t d ig t e wo k n r i e n r c s o e h n i e m d l d p h, a d t l s a o t Lu e e c ie t r n p r i n ak b u c n a h t cu e Sr wi rvo s k o e g n o t u e t p i i u n wld e a d h w o s Lu e e Fia l man y o r s m e b sc l o i ms f c ie e e me t t n a d h cn . n l y, i l f o a i ag r h o hn s s g n ai t o n r lv n e r n i g,we s t u c n -b s d f l e t d c me t r tiv l s se b p l i g t e e t c o o is ee a c a kn e p a Lu e e a e u l x o u n e r a y t m y a py n h s e h l g e . -t e n K y wo d e r s: f l e t r tiv l l c n u l x ere a ; u e e;c i e e s g n a in -t h n s e me tto
Vo .4 NO4 13 . De .0l c2 1
基于 L c n 全 文检 索引擎技术 的研究 ue e
徐春凤 ,王艳春 ,叶青
( 长春理工 大学 计算机科学技术 学院 ,长 春 10 2 ) 3 0 2
摘
要 :全 文检 索作为现代信 息检 索技术的一 个重要 分支 ,不仅是 处理 非结构化 数据的重要工具 ,也是搜 索引擎的主流技
Ab t t As rl mp ra t b a c o d m no main rtiv ltc n lg sr : ac a i otn rn h f mo e ifr t er a e h oo y. fl e t s ac s n t o l n i o a t o e u l x e rh i o ny a mp r n —t t
一
“ 之一 ” “ 的” “ 的” “ 多 的” , 、有 、我 、许 等 并且 对 常 查 询 语 句 , 后 利 用 该查 询 语 句 到 索 引库 中查 询并 用 词 的识别 精度 差 , 然 时空 开销 大 。 返 回相 关 的文 档 记 录 , 进 行 文 档相 关 度 排 序 后 又 在 22 中文 分词 的算 法 实现 . 通 过用 户交 互 将结 果显 示 给用 户 。整体 查 询类 似 于 在 中文 分 词基 本 算 法 中 , 于字 符 串 匹 配 的分 基 数 据 库 的查 询 。此 外 , 可 以增 加一 些 系统 评 价功 还 词 算 法 是最 简 单 的 。通 常情 况 下 , 于 字 符 串匹 配 基 能 以 帮助进 一 步优 化 系统 。
中图分 类号 :T 3 30 P 9 .2
文献标识码 :A
文章编号 :1 7-9 7 (0 1 4 0 4~ 4 6 2 8 0 2 1 )O— 19 0
TheRe e rh fF l e t e r y tm s d o c ne s a c o u l x a c S se Ba e n Lu e -t S h
见 文 档 进 行 全文 检 索 的 电子文 档 全 文 检索 系 统 , 并
索 引处 理 的核 心 主要 包 括 文本 采 集 、 文本 转 换
在 此 系统 的基 础 上研 究如 何 提高全 文 搜索 引擎 的精 和索 引创 建 等模 块 。文本 采集 负 责从指 定 位置 如互 度 、 能 和用 户体 验 , 性 尤其 是 对 中文分 词 等方 面进 行 联 网 中发现 并获 取可 进行 索 引处 理 的资源 , 网页 、 如 深人 的研 究并 做适 当的改 进 。 电子邮件 、 新闻等文档, 这部分功能通常由爬 网程序