一种基于LUCENE的中文分词算法研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


种基于 L C N U E E的中文分词算法研究
戴 洪 , 蒋 静 , 樊 程 ,于 雪丽
( 岛大 学信 息 工程 学 院 ,山 东 青 岛 2 6 7 ) 青 6 0 1
摘 要 :由于 L cn u e e自带 的 C ie e aye 和 C KAn lzr 种 中文分 析器 不能 够满 hn sAn lzr J ay e 两 足全 文检 索 系统 的应用 , 本文 给 出 了一 种 新 的 中文 分 词 算法 , 于改 进 L cn 用 u e e中文 分析
* 收稿 日期 :2 l - 72 O 10 3
基 金 项 目 :国 家 支 撑 计 划项 目(0 6 A1 1 0 ) 2 0 B 1B 7
作者简介 : 戴
洪 ( 9 8) 男 , 士 研 究 生 , 要研 究 方 向 : 布 式计 算 。 18 , 硕 主 分
5 4
青 岛 大 学 学 报 (自 然 科 学 版 )
了改进 , 出 了一个 新 的中文 分词算 法 , 以构建 高效 的 中文分 析 器 。改进后 的分 析 器提 高 了中文信 息处 理 提 用
能力 。
1 相关 技 术研 究
I cn 是一 个免 费 开 放源 码 的全 文 检索 引 擎工 具 包 l ] 来 源 于 Ap c e J k ra项 目组 开发 的 J ee u 3 , ah 下 a at A—
V AP 接 口。它不是 一个 完 整 的全文 检 索 引擎 , A I 而是 一 个 面 向全 文 检 索 的 引擎 架 构 , 开 发 基 于 L cn 要 ue e
的全文 检索 系统 , 需要 在其 基础 上 进行 二 次 开 发 。L cn ] u e e主 要 提供 了索 引 引擎 、 索 引 擎 和存 储 管 理 接 检 口等模 块 。它为 开发 人员 提供 了一个 简 单易 用 的全文 检 索类 包 , 以方 便 地嵌 入 到 各种 应 用 中以实 现 全 文 可
中 图 分 类 号 :T 3 1 P 9 文 献 标 志 码 :A
全 文 检索 是 以各 种计 算 机数据 诸 如文字 、 音 、 声 图像 等 为处 理对 象 , 供按 照数 据 资料 的 内容 而不 是 外 提 在特 征来 实现 的信 息检 索手 段 。L cn u e e作 为实 现 全 文检 索 的组 件之 一 , 然 已经被 广 泛 地应 用 , 是 国 虽 但 内对 L cn u e e的研究 和应 用 多数 是将 L cn u e e直 接 应用 到 全 文 检索 系统 中 , u cn L n e e自带 的语 言分 析 器 只 能对汉 字 进行单 字 切分 和双 字切分 , 能很 好 的对 中文 信 息进 行 处理 。本 文 针 对 L n e e的这 一不 足 进 行 不 u cn
检 索功 能 。
1 1 L C N 系 统 架 构 . U E E
L cn u e e系统 架构有 着 明显 的 面向对 象特 点 , 将 系统 核 心 功 能部 分 设 计 为抽 象 类 , 体 的实 现 部 分设 它 具 计 为抽 象类 的实 现 , 计一 种 与平 台无关 的索 引格 式类 , 设 与平 台相关 操 作也 设 计 为抽 象 类 , 过层 层 面 向对 通 象设 计 , L c n 成 为一 个 高 内聚 、 使 uee 低耦 合 、 易 进 行 二次 开 发 的检索 引擎 。L cn 系 统 架 构 主要 由基本 容 ue e 封装 结构 、 引核 心 和外部 接 口三部 分组 成 , 中索引核 心是 L cn 架 构 的关键 部 分 。L cn 索 其 uee u e e系统 架 构如
Vo . 4 NO 3 12 .
A ug 2 0 1 1 .
文 章 编 号 : 0 6 0 7 2 1 ) 3— 0 3—0 1 0 —1 3 ( 0 1 0 0 5 6
di1 . 9 9ji n 10 o : 0 3 6 /.s . 0 6—1 3 . 0 1 0 . 1 s 0721.802
器 。该算 法基 于字 符 串匹 配原 理 , 现 了正 向 和逆 向相 结 合 的最 大 增 字 匹配 分 词 算 法 。 实 通过 实验 仿真 , 比较 改进 后 的分 析器 与 L cn u e e自带 的两 种分 析器 在分 词效 果 和效率 上 的 差异 。结 果显示 , 进后 的分 析器 分词 效 果 明显 优 于 L cn 改 u e e自带 的 两种 分 析 器 , 高 了 提 全文 检索 系统 的 中文处 理能 力 , 系统 的查 全率 和查 准率都 达 到用 户 的需 求 。 关键 词 :全文 检 索 ;L cn ;中文分 词 u ee
第 2 4Fra Baidu bibliotek
图 1 L cn u e e系 统 架 构
1 2 L C N 索 引 结 构 . U E E
L cn 采 用倒 排 索 引结 构 , ue e 即以词 作 为 索 引基 本单 位 , 过 词来 建 立 词一 文 档 映射 关 系 。根据 这 种 索 通
图 1所示 ( r. p c e L cn 简 写为 L cn ) o g a ah . u e e ue e。
通过 图 1 u e e L cn 系统 架构 可见 , u e e系统结 构 清晰 , L cn 每个 包分 工 明确 , 用来 完成 特 定 的功 能 。每 个功 能模 块都 设计 为抽 象类 , 于维 护和 扩展 [ 。 便 6 ]
第2 @ 第 3 4 期 2 1 8 1 年 月 0
青 岛 大 学 学 报 (自 然 科 学 版 ) J R A F Q N D I E ST ( trl ce c dt n OU N L O I G AO UN V R I Y Nau a S i eE io ) n i
相关文档
最新文档