中文分词词典机制的研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这 种 方 法 又 叫 做 机 械 分词 方 法 或 基 于 词 典 的分 词 方 法 . 它 并 且 对 常用 词 的 识别 精 度 差 。 空 开销 大 。 时
妥 协 . 要求 分 词 尽 量 准 确 , 要求 我 们 的词 长 不 能太 长 。尽 管 既 又 词 是 最 小 的能 够 独 立 活动 的 有 意义 的 语 言成 分 . 中文 词 与 我 们 可能 找 到这 样 一 个 比较优 化 的字 长值 使 两 者都 达 到 比较满 词 之 间没 有 明 显 的 分割 标 志 中文 分 词是 中文 信 息处 理 的 前提 . 足 的状 态 。但是 毕 竟 不 管 我们 怎么 设 定 .总会 有 些 太 长 词 分 出


引言
广 泛 应 用 于 中 文 全 文信 息 检 索 、 索 引 擎 、 器 翻 译 ( )语 音 来 . 者 带来 效 率 问 题 搜 机 MT 、 或 合成 、 自动 分类 、 自动摘 要 、 自动 校对 等 等 。 中文 自动 分词 的现 有 的分 词算 法 可 分 为 三大 类 : 于 字 符 串 匹配 的 分 词 方 法 、 于 理 基 基 ( ) 率低 2效 效 率 低是 最 大 匹配 法 分 词 必 然会 带 来 的 问题 即使 我 们可
4 2




21 0 0年第 3 期
中文分词词典机 制的研究
, r

华 .刘

(1德 州职业技术学院计算机信息技术工程 系 山东 德州 2 3 3 2 青岛科技 大学信. 科学技 术学院 山东 青岛 26 6 、 504 、 O . - 6 0 1) 【 要 】 中文分词是 中文信息处理 的前提 , 摘 : 本文研 究了已有的分词算法、 分词词典机制 , 出了一种新 的词典机制一 提 一 带词 长整 词 -  ̄ i 典 。 方 法通 过 改 进 词典 机制 , 高 了 中文分 词 最 大 匹配 算 法 的 匹 配速 度 以 及 分词 的效 率 。文 章最 后 对 新 , - j 该 提 的机 制 和 已有 的机 制进 行 了 比较 和 实验 分 析 。 【 关键词 】 中文分词 词典机制 带词 长整词二分词典 :
解 的 分词 方 法 和 基 于统 计 的 分词 方 法 【 】 1。 以将 字 长 设 成 相 当短 , 如 5 然 而 当我 们 的 词 长 为 2时 。 少 例 , 至 其 中 基 于字 符 串匹 配 的分 词方 法 又 叫做 基 于词 典 的 分 词 方 有 3次 的匹 配算 法 是 浪 费掉 的 .词 的 匹 配 是通 过 逐 字 比较来 实 法 . 最 大 匹 配法 又 是 该方 法 常 用 的解 决 方 案 。 分 词算 法 需 要 现 的 。 而 该 构 造 一个 分 词 词 典 词 典 的 构造 与 词 典 查 找 方法 对 于 基 于 词 典 的 分 词算 法 是 相 当重 要 的 现 有 词典 机制 有 三种 : 于整 词 二 分 基
2 基于 理解 的分 词 方 法 、
这 种 分 词方 法 是 通 过 让计 算 机 模 拟 人 对句 子 的 理 解 .达 到
的分词词典机制 、 于 T I 基 R E索 引 树 的分 词 词 典 机 制 、 于 逐 字 识 别词 的效果 。 基本 思想 就 是 在 分词 的同 时进 行 句 法 、 基 其 语义 分 二 分 的分 词 词 典机 制 分 词词 典 是 汉 语 自动 分词 系统 的 一 个 基 析 , 利用 句 法 信 息 和语 义 信 息来 处 理 歧 义现 象 。 于汉 语 语 言知 由 本 组 成部 分 。 2 自动分 词 系 统所 需 要 的各 类 应 用信 息 ( 【】 知识 ) 都 识 的笼 统 、 杂性 , 以将 各 种 语 言 信 息组 织 成 机 器 可 直接 读 取 复 难 要 从 分词 词 典 中 获取 .分 词词 典 的 查 询 速度 直接 影 响 到 分 词 系 的形 式 . 因此 目前 基 于 理 解 的 分 词 系统 还处 在 试 验 阶段 。 统 的 速度 。而 现实 应 用 ( 因 特 网上 的中 文 文 本 检索 、 字 与汉 如 汉 3 基 于 统计 的分 词 方法 、 语 语 音 识 别 系 统 的 后 处 理 以 及 中 文 文 语 转 换 系 统 的前 处 理 等1
从 形式 上 看 . 是 稳 定 的 字 的 组 合 , 词 因此 在 上下 文 中 . 邻 相
均 对 分词 速度 提 出 了迫 切要 求 . 此建 立 高 效 快 速 的 分 词 词典 的字 同时 出现 的 次数 越 多 , 因 就越 有 可 能 构成 一 个 词 。 因此 字与 字 机 制 势在 必 行 本 文 首 先 简单 描 述 了 已有 的 分词 算 法 、 词 词典 相 邻 共 现 的频 率 或概 率 能 够 较 好 的 反 映成 词 的 可 信 度 。 可 以对 分 机 制 .接 着 介 绍 了我 们 提 出 的新 的 词典 机 制一 带 词 长 整 词 二 分 语 料 中相 邻共 现 的 各个 字 的组 合 的 频 度进 行 统 计 .计算 它们 的 词 典 . 过改 进 词 典 机制 提 高最 大 匹 配 速 度 . 后 对 新 的 机 制和 互 现 信 息 。 种 方法 只需 对 语 料 中 的字 组频 度 进 行 统计 。 通 最 这 不需 要 已有 的机 制进 行 了 比较 和 实验 分 析 切分词典. 因而 又 叫做 无 词典 分 词 法或 统 计 取 词 方法 。 这 种 方 但 法也 有 一定 的局 限性 , 经 常抽 出一 些 共 现频 度 高 、 会 但并 不是 词 二 词 算 法简 介 分 1基 于字 符 串 匹配 的分 词方 法 、 的 常用 字 组 , 如 ” 一 ”” 一 ” ” 的 ”” 的 ”” 多 的 ” 。 例 这 、之 、有 、我 、许 等
相关文档
最新文档