基于Lucene的全文搜索引擎的设计与实现

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
器。
L cn 的 检 索算 法 属 于 索 引 检 索 , 用 空 间 来 换 取 时 间 , ue e 即 对需 要 检 索 的文 件 、 符 流 进 行 全 文 索 引 , 检 索 的 时 候 对 索 字 在 引 进 行快 速 的检 索 , 到 检 索 位 置 , 个 位 置 记 录 检 索 词 出 现 得 这 的文 件路 径 或 者 某个 关 键 词 [ 4。 3】 , 在 使用 数 据 库 的 项 目 中 , 般 不 使 用 数 据 库 进 一 行 检 索 , 主 要原 因是 数 据 库 在 非 精 确 查 询 的 时候 其 使用 查 询语 言 “ie%k y r %” 对 数 据 库 进 行 查 l k ewod , 询是 对 所 有记 录 遍 历 , 对 字 段 进 行 “ ew r %” 并 %k y od 匹配 , 数 据 库 的 数 据 庞 大 以及 某 个 字 段 存 储 的 数 在 据量 庞 大 的时 候 , 种 遍历 是 低 效 的 , 需 要 对 所 有 这 它 的记 录进 行 匹 配 查 询 。而 L cn u ee刚 好 弥 补 了 这 方 面 的缺 陷 , 主 要适 用 于 文 档集 的全文 检 索 , 它 以及 海 量数 据 库 的模 糊 检 索 , 别 是 对 数 据 库 的 x 或 者 特 ml 大数 据 的 字符 类 型 的 字段 进 行 检索 更 显示 出它 的 高
效性。Βιβλιοθήκη Baidu
图 1 L cn u e e系 统 的 结 构 组 织 图
2 Lue e的 系统 结 构 分析 cn
2 2 og aah . cn .i e 索 引 包 是 整 个 系 统 核 心 , . r .p c e [ e e n x u d 主 要提 供 库 的读 写 接 口 , 过 该 包 可 以创 建 库 . 加 删 除 记 录 及 通 添 读 取 记 录等 。 全文 检索 的根 本 就 为 每 个 切 出来 的词 建 立 索 引 , 查 询 时 只需 要遍 历 索 引 , 不 需 要 遍 历 整 个 正 文 , 而 极 大 地 而 从 提 高 了检 索 效率 , 引 创 建 的 质 量 直 接 关 系 整 个 系统 的 质 量 。 索 L cn 的索 引 树 是 非 常 优 质 高 效 的 , 这 个 包 中 , 要 有 I . ue e 在 主 n
摘 要
L cn 是 一 个 用 Jv uee aa写 的 全 文搜 索 引 擎 工 具 包 , 支持 多用 户访 问 , 问 索 引速 度 快 , 以跨 平 台使 用 。 分析 访 可
了 L cn 的 索 引 原 理 , 据 L cn ue e 根 u e e的 系统 结 构 详 细 分 析 了 L cn u e e分 析 器 、 引 包 、 档 等 结 构 , 现 了 一 个 基 于 索 文 实
维普资讯 http://www.cqvip.com
基于Lc e ue 的坌文搜索引擎的设计与实坝 n
Th s a c fLu e e S a c e Re e r h o c n e r h

何 伟 薛 素 静 孔 梦 荣。 杨 正 党3
( . 州 大学 成 教 学 院 ;. 北 水 利 水 电学 院信 息 工 程 系 ;. 1郑 2华 3 中原 工 学 院计 科 系 )
查 询结 果 。 图 1是 L cn ue e系 统 的结 构 组 织 图 。 2. 分析 器 An lzr 分 析 器 主 要 用 于 切 词 , 段 文 档 输 入 1 ay e 一
以后 , 过 A a zr 输 出 时 只剩 下 有 用 的 部 分 , 他部 分 被 剔 经 n l e, y 其 除 。 分析 器提 供 了抽 象 的接 口 , 因此 语 言 分 析( n l ) A a  ̄r 是可 以 y 定 制 的 。因 为 L cn 缺 省 提 供 了 2个 比较 通 用 的 分 析 器 S ue e i m. p A a s 和 Sa dr A a sr 这 2个 分 析 器 缺 省 都 不 支持 中 l e le n y r tn ad n l e, y 文 , 以 要加 入 对 中 文 语 言 的 切 分 规 则 , 要 修 改 这 2个 分 析 所 需
L cn uee的 中文 诗 词 全 文 搜 索应 用 实例 。
关 键 词 查 询 分析 器 读 索 引 写 索 引 L cn uee
L cn 是 一 个信 息 检 索 的 函 数 库 ( i ay , 户可 以 基 于 uee Lb r)用 r
它 开 发 出各 种 全 文搜 索 的 应用 _ 2 它是 一 个 全 文 检 索 引 擎 的 l -。 J 架 构 , 供 了 完整 的查 询 引 擎 、 引 引 擎 及 部 分 文 本 分 析 引 擎 提 索 ( 文 与德 文 两 种西 方 语 言) 英 。作 为 一 个 开 放 源 代 码 项 目 , L cn 从 问世 之 后 , 发 了 开 放 源 代 码 社 群 的 巨 大 反 响 , 不 u ee 引 它 仅 能用 来 构建 具 体 的 全文 检 索 应用 , 且 可 被 集 成 到 各 种 系统 而 软件 中构建 We b等 多 种 应 用 。 例 如 , 些 商 业 软 件 也 采 用 了 某 L cn 作 为 其 内部 全 文 检 索子 系统 的核 心 。 uee
1 Lue e检 索原 理 cn
台相 关 的部 分 比如 文 件存 储 也 封 装 为 类 , 过 层 层 的面 向对 象 经 式 的 处理 , 终 达 成 了一 个 低 耦 合 高 效 率 , 易 二 次 开 发 的 检 最 容 索 引擎 系 统 。L c e的 系 统 结 构 主 要 有 两 条 主 线 : 一 , 析 ue n 第 分 器对 被索 引 文件 进 行 切词 , 然后 通 过 索 引 核 心 对 切 词 后 的数 据 建 立 索 引 。第 二 , r . p c e L cn , e r og a a h . ue e Sac h通 过 检 索 条 件 或 og a ah . cn .u rP r r 成 的查 询 语 句 进 行 查 询 并 返 回 r .pc e [ e e q e a e 生 u y s
相关文档
最新文档