词典与统计相结合的中文分词算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
要 : 于对算 法的时间复杂度和分词精度的综合考虑 , 出了一种分词词 典和统计 分析相结 合的解决 方 基 提
案 。该算法采用统计和机械分词相结合 的策略 , 合理解决 了歧 义词和未登 录词两 大难题 , 实验证 明分词效果
比较 理 想 。
关键词 : 分词 词 典 ; 计 分 析 ;未 登 录 词 ; 义 词 统 歧
De . 0l c2 0
文 章 编 号 :07—14 2 1 )6— 9 7— 3 10 4 X(0 0 0 0 0 0
文献标志码 : A
词 典 与统 计 相 结合 的 中文分 词 算 法 研 究
李宏 波
( 武汉理工大学 计算机科学与技术学 院, 湖北 武汉 4 0 7 3 00)
摘
笔 者所 描述 的 系统是 基 于统计 和词 典相 结合 的一种 解决 方 案 。通 过 两 种 方 法 的有 机结 合 , 有 效 地弥 补 了对方 的缺 点 , 系统 在 分 词 精度 和效 使
率 上有 比较 良好 的表 现 。系统 主要 架构 图如 1 所
示 圳 ] 。
的词条分 离 出来 。基 于字符 串 匹配 的算 法 以分 词
好 句子层 面 的问 题 , 一 定要 先 解 决 好 词 层 面上 就 展, 但是 , 歧义 处理 和未 登录词 识别 仍然 是 中文分 词 的两大难 题 … 。传 统 的 分 词 策 略 首 先 利 用 机 械分 词 的方 法完 成 基 本 的分 词处 理 , 别 出词 典 识 中包 含 的词 条 , 根据 基 于统 计 的方 法解 决 未 被 再 识别 出 的词 条 、 含 歧 义 字 段 和未 登 录词 。事 实 包 证明, 只有 将机 械分 词和 统计 方法结 合起 来 , 才能 开发 出 比较 完善 的分 词 系统 IJ 4。笔 者从 分词 效
第3 卷 第6期 2
21 1 00年 2月
武 汉 理 工 大 学 学 报 ・信 息 与 管 理 工 程 版
J U N LO U (N O M TO O R A FW T IF R A IN& M N G M N N IE RN ) A A E E TE GN E IG
Vo . 2 No 6 13 .
从形 式上 看 , 是 字 的 稳定 组 合 。文 本 中如 词 果两 个字 或多 个字 同时 出现 的频 率 达到一 定程 度 时, 就可 以认 为 这 种 组合 是 一 个 词 。字 与字 相 邻 出现 频率 能够 反 映 成 词 的 可信 度 , 就 是 基 于 统 这
计 中文分 词方 法 的核心 思想 。该 方法 只需 对语料 这 、之一 ” 。 等
2 统 计 与 词 典 相 结 合 的 分 词 方 法
2 1 系统架 构 图 .
配 。无论 是何 种 匹 配 算法 , 核 心 思 想 均 是将 待 其
分 析 串和词典 中的词 条 进 行 匹 配 , 词 典 中存 在 将
词典 为 核 心 , 法 简 单 , 易 实 现 。 由 于 汉 语 语 算 容 法、 词法 的复杂 性 , 使得基 于 字符 串匹 配的分 词算 法有 先天 劣势 , 的词条不 断 出现 , 新 对这 些词 典 中 并不存 在 的词条 , 能识别 ; 不 中文分 词 中的另 外一
( ) 待 分 词 文 档 进 行 预 处 理 , 掉 文 档 中 1对 去
献。机械分词有其 自身的优点 , 只要是 词典 中存
在 的词条 , 法 的分词 准确 率 、 算 分全 率等分 词 精度 指标 表 现 良好 , 词 效 率 也 比较 高 。但 是纯 粹 的 分
机械 分词 并不 能 解 决 中文 分 词 中 的两 大 难 题 , 歧 义识 别 和未登 录词 的识 别 1 2 基 于统计 的分 词 方法 . 。
武汉理工大学学报 ・ 信息 与管理工程版
21 0 0年 1 2月
为 临时词典 和核 心词典 。
{
预 处 理
其 中, 临时词 典并 不是分 词 的依据 , 存储在 该
词 典 中的是 一些 备 选 词 汇 , 些 词 汇 中并不 是 所 这 有 的都 能够 进入 核 心 词典 , 只有 满 足 设计 要 求 的 词 汇才会 被 移动 到核心 词典 。核心 词典 是 中文 分 词 的 唯一依据 , 初 始 化状 态 包 含 了法定 的常 用 其 词汇 , 随着分 词系统 的经 验不 断增加 , 心词典 中 核 会 自动加 入更 多 的词 汇 , 以保 证 分 词 的效 果 是 动 态 的 , 且朝 着更好 的方 向发 展 。 并 根据 对现 代汉 语 构 词 特点 的统 计 发 现 , 字 单 词 、 字 词 、 字 词 、多 字 词 的 概 率 分 别 为 两 3
1 传统的基于词典和基于统计的分词方法
1 1 基 于词 典 的分词 方法 .
传 统 的基于词 典 的分词 指 的是基 于 字符 串匹
配 的方 法 。按照 待分 文本 的扫 描方 向和 匹配词 条 的长短 可将机 械 分词 的方 法 分 为 4种 : 向最 大 正 匹配 、 向最小 匹 配 、 向最 大 匹配和 逆 向最小 匹 正 逆
率 和分 词精 度两 方 面考虑 提 出一种 词典 与统计 相 结 合 的 中文 分词算 法 。
中 的字组 合 频 度 进 行 统 计 , 需 要 切 分 词 典 。 不
纯 粹 的基 于统计 的分 词 是 有 局 限性 的 , 然 这 种 虽 方 法 在一定 程 度 上解 决 了歧 义 和 未 登 录 词 问题 , 但 该算 法经 常会 抽 取 出一 些 组 合 频 度 相 当 大 , 却
中图 分 类 号 :K 1 T 9 D I1.9 3 ji n 10 O :0 3 6/.s .0 7—14 .0 00 . 1 s 4 X 2 1 .6 0 3
中文 分词 是 中文信 息处理 系统 中非 常重 要 的
一
个难 题 , 即歧 义 问题 , 械分 词也 不 能做 出任何 贡 机
部分 , 在汉语 中词 是最 小 的语 言单 位 , 要想 处理 的问题 。虽 然 中 文 分 词 技 术 已 经 有 了较 大 的发
的标 点 、 英文 字母 等非 汉字 信息 , 自定 义分 隔符 用
收 稿 日期 :00— 5—2 . 21 0 2
作 者 简 介 : 宏 波 (9 4一) 男 , 津 蓟 县 人 , 汉 理 工 大 学计 算 机科 学 与技 术 学 院 硕 士研 究 生 李 18 , 天 武
98 0
待分 词文档