中文分词算法之最大匹配算法的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t 2匹配 。 果 找 不 到 , 如 则认 为 t 是 一 个 词 . t 后 1不 把 l最 的 一 个 字 先 去 掉 , 为 t,在 词 典 中 匹 配 t , 果 找 到 取 1, 1 如 t 1 是 一 个 词 .如 果 找 不 到 匹 配 则 去 掉 t 的最 后 一 就 1
研 究 与开 发
中文分词算法之最大 匹配算法的研究
张 玉 茹
( 庆市农业学校 , 肇 肇庆 5 6 7 ) 2 0 0
摘
要 :对 '前 中 文分 词 算 法 中的 最 大 匹配 算 法进 行 研 究 , 细 分 析 用 该算 法的 长 词优 先 原 则进 行 3 - 详
分 词切 分 , 析 最 大 匹配 算 法 的 分 类 和 用 简单 的例 子 阐 明算 法思 想 , 同 时指 出 最 大 匹 配 分 并
现 代 计 算机
2 1 .8 0 10
!三
当 词 库 中 的词 长过 长 时 . 配 的 效 率 就 会 下 降 . 匹 毕 竟 一 般 搜 索 输 入 的关 键 字 只 有 三 几 个 词 .如 果 词 典 中
词 的 最 大 长 度 为 1 .那 大 多 数 的 匹 配 过 程 都 要进 行 八 2
算 法所 存 在 的缺 点 . 出优 化 设 想 。 提
关键 词 :中 文分 词 ;最 大 匹配 ;缺 点 ;优 化
0 引 言
最 大 匹 配 算 法 是 一 种有 着 广泛 应 用 的机 械 分 词 方 法 .该 方 法 依 据 一个 分 词 词 表 和一 个 基 本 的 切 分 评 估
原 则 . 长 词 优 先 ” 则 . 进 行 分 词 。这 种 评 估 原 则 即“ 原 来
配 当 t> L N 时 . t l=E 取 l的前 面 L N长 度 个 数 的字 作 E 为 匹 配 字 串 .在 词 库 中 进 行 匹 配 找 到 .则 从 t 第 l的 L N个 字 开 始 取 L N个 字 组 成 匹 配字 串 . 词 库 中 进 E E 在
是 “ 京 奥 运 会欢 迎 您 , 迎 您来 到北 京 ” 首 先 经过 预 北 欢 。
处 理 文 段 被 分 为 “ 京 奥 运 会 欢 迎 您 ” “ 迎 您 来 到 北 和 欢 北 京 ” 由于 “ 京 奥 运会 欢 迎 您 ” 长 度 大 于 L N, , 北 的 E 则
词表 , 不需 要任何词法 、 法 、 句 语义 知识 )程序实 现简 , 单. 开发周期 短 。 是一个 简单实用 的方法 。最大匹配算
1 算 法 思 想
首 先 是 建 立 词 库 . 已经 确 定 的 词存 放 到字 典 中 , 把 并 获取 词 库 长 度 最 大 的 词 的 长 度 L N.设 待 匹配 的文 E
本 为 T. 过 预处 理 ( 照 标点 符 号 把 T切 分 成 一个 个 T经 按 中文 字 串 ) 为 Tห้องสมุดไป่ตู้=tt 中 文字 串l取 t , 果 t< E 成 1 { l= ii , 1如 lL N 直 接 在 词 典 中查 找 t , 1 如果 找 到 . t 是 一 个 词 , 则 l就 取
/ / /
( ) 理 歧 义 2处
完 整 的 词 。而且 能 实 现从 字 往 上 回溯 .直 到 找 到 根 结 点 。因 此 在 每个 节 点里 都 保 存 了父 节 点 的指 针 , 样 也 这 浪 费 了一 部 分 的存 储 空 间 为 了实 现 消 除歧 义 .采 用 了 与 最 大 匹 配 算 法 完 全 不 同 的 理 念 .将 词 库 中存 在 的 词 全 部 编 人 新 的词 库并 有 重 叠 例 如 “ 国人 民解 放 军 ” 由于 词 库 里 存 在 “ 中 . 中
方 案 . 很 明显 它 存 在 很 多 缺 点 . 但 这些 缺 点 限 制 了最 大 匹 配法 在 大 型搜 索 系 统 中的 使 用 频 率 。 最大 匹 配法 存
在 的缺 点 有 以下几 点 :
( ) 长 限制 1词
个字 。 后再匹 配 。 果 当 t 剩下第一个字时 , t 然 如 1只 则 l
的第 一个 字 是 一 个 词 , 匹配 完 成 ,l t一 一 个 字 . 匹 t= l 第 再
收 稿 日期 :0 1 0 -1 21-7 4 修 稿 日期 :0 1 0 —1 2 1— 8 4
作 者 简介 : 玉茹 (9 0 )女 , 东肇 庆 人 , 师 , 科 , 究 方向 为课 件 制 作 、 真 软 件 制 作 、 文分 词 算 法等 张 18 - , 广 讲 本 研 仿 中
行匹配 , 到 T 直 1结 束 . 整 个 匹 配 过 程完 成 。 则
虽 然 在 大 多 数情 况 下是 合理 的 ,但 也 会 引 发 一 些 切 分 错 误 。这 种 切分 方法 , 要 最 少 的语 言 资 源 ( 需 一 个 需 仅
例如 : 词库长度最长的词长 L N 6 待检测的文段 E=。
测 字 串按 上 面 规 则 进行 匹 配如 果 一 直 没 有 发 现 匹 配 的
词 , 么第 一 个 字 “ ” 就 当 作 一 个 独 立 的 词 , 开 始 那 欢 , 再
新 的 匹 配 . 到 文 段结 束 直
2 最大 匹配 算 法 的缺 点
尽 管 最 大 匹配 法 分 词 是 常 用 解决 中 文分 词 算 法 的
法 包 括 正 向最 大 匹配 算 法 、逆 向最 大 匹 配算 法 和 双 向 最 大 匹配 算 法 。 以下 对 最 大 匹 配 算 法 的 思 想 进行 详 细 的 分 析 .并 研 究 这 种 算 法 存 在 的 缺 点 和 提 出优 化 的 方
法
先 取 L N个 长 度 的字 串 “ 京 奥 运会 欢 ” 在 词 库 中 匹 E 北 . 配 “ 京 奥运会欢 ” 看是不 是一 个词 , 典没有 , 北 看 词 把
“ 京 奥 运 会 欢 ” 的 最 后 一 个 字 去 掉 得 到 “ 京 奥 运 北 北 会 ” 在 词 库 中匹 配 “ 国 奥运 会 ” 词 库 中找 到 这 个 词 。 , 中 , 则 认 为 “ 京 奥 运 会 ” 为 一 个 词 . 后 从 “ 京 奥 运 北 成 然 北 会 ” 第 一 个 字 “ ” 始 再 取 L N 长 度 个 字 组 成 待 检 后 欢 开 E
研 究 与开 发
中文分词算法之最大 匹配算法的研究
张 玉 茹
( 庆市农业学校 , 肇 肇庆 5 6 7 ) 2 0 0
摘
要 :对 '前 中 文分 词 算 法 中的 最 大 匹配 算 法进 行 研 究 , 细 分 析 用 该算 法的 长 词优 先 原 则进 行 3 - 详
分 词切 分 , 析 最 大 匹配 算 法 的 分 类 和 用 简单 的例 子 阐 明算 法思 想 , 同 时指 出 最 大 匹 配 分 并
现 代 计 算机
2 1 .8 0 10
!三
当 词 库 中 的词 长过 长 时 . 配 的 效 率 就 会 下 降 . 匹 毕 竟 一 般 搜 索 输 入 的关 键 字 只 有 三 几 个 词 .如 果 词 典 中
词 的 最 大 长 度 为 1 .那 大 多 数 的 匹 配 过 程 都 要进 行 八 2
算 法所 存 在 的缺 点 . 出优 化 设 想 。 提
关键 词 :中 文分 词 ;最 大 匹配 ;缺 点 ;优 化
0 引 言
最 大 匹 配 算 法 是 一 种有 着 广泛 应 用 的机 械 分 词 方 法 .该 方 法 依 据 一个 分 词 词 表 和一 个 基 本 的 切 分 评 估
原 则 . 长 词 优 先 ” 则 . 进 行 分 词 。这 种 评 估 原 则 即“ 原 来
配 当 t> L N 时 . t l=E 取 l的前 面 L N长 度 个 数 的字 作 E 为 匹 配 字 串 .在 词 库 中 进 行 匹 配 找 到 .则 从 t 第 l的 L N个 字 开 始 取 L N个 字 组 成 匹 配字 串 . 词 库 中 进 E E 在
是 “ 京 奥 运 会欢 迎 您 , 迎 您来 到北 京 ” 首 先 经过 预 北 欢 。
处 理 文 段 被 分 为 “ 京 奥 运 会 欢 迎 您 ” “ 迎 您 来 到 北 和 欢 北 京 ” 由于 “ 京 奥 运会 欢 迎 您 ” 长 度 大 于 L N, , 北 的 E 则
词表 , 不需 要任何词法 、 法 、 句 语义 知识 )程序实 现简 , 单. 开发周期 短 。 是一个 简单实用 的方法 。最大匹配算
1 算 法 思 想
首 先 是 建 立 词 库 . 已经 确 定 的 词存 放 到字 典 中 , 把 并 获取 词 库 长 度 最 大 的 词 的 长 度 L N.设 待 匹配 的文 E
本 为 T. 过 预处 理 ( 照 标点 符 号 把 T切 分 成 一个 个 T经 按 中文 字 串 ) 为 Tห้องสมุดไป่ตู้=tt 中 文字 串l取 t , 果 t< E 成 1 { l= ii , 1如 lL N 直 接 在 词 典 中查 找 t , 1 如果 找 到 . t 是 一 个 词 , 则 l就 取
/ / /
( ) 理 歧 义 2处
完 整 的 词 。而且 能 实 现从 字 往 上 回溯 .直 到 找 到 根 结 点 。因 此 在 每个 节 点里 都 保 存 了父 节 点 的指 针 , 样 也 这 浪 费 了一 部 分 的存 储 空 间 为 了实 现 消 除歧 义 .采 用 了 与 最 大 匹 配 算 法 完 全 不 同 的 理 念 .将 词 库 中存 在 的 词 全 部 编 人 新 的词 库并 有 重 叠 例 如 “ 国人 民解 放 军 ” 由于 词 库 里 存 在 “ 中 . 中
方 案 . 很 明显 它 存 在 很 多 缺 点 . 但 这些 缺 点 限 制 了最 大 匹 配法 在 大 型搜 索 系 统 中的 使 用 频 率 。 最大 匹 配法 存
在 的缺 点 有 以下几 点 :
( ) 长 限制 1词
个字 。 后再匹 配 。 果 当 t 剩下第一个字时 , t 然 如 1只 则 l
的第 一个 字 是 一 个 词 , 匹配 完 成 ,l t一 一 个 字 . 匹 t= l 第 再
收 稿 日期 :0 1 0 -1 21-7 4 修 稿 日期 :0 1 0 —1 2 1— 8 4
作 者 简介 : 玉茹 (9 0 )女 , 东肇 庆 人 , 师 , 科 , 究 方向 为课 件 制 作 、 真 软 件 制 作 、 文分 词 算 法等 张 18 - , 广 讲 本 研 仿 中
行匹配 , 到 T 直 1结 束 . 整 个 匹 配 过 程完 成 。 则
虽 然 在 大 多 数情 况 下是 合理 的 ,但 也 会 引 发 一 些 切 分 错 误 。这 种 切分 方法 , 要 最 少 的语 言 资 源 ( 需 一 个 需 仅
例如 : 词库长度最长的词长 L N 6 待检测的文段 E=。
测 字 串按 上 面 规 则 进行 匹 配如 果 一 直 没 有 发 现 匹 配 的
词 , 么第 一 个 字 “ ” 就 当 作 一 个 独 立 的 词 , 开 始 那 欢 , 再
新 的 匹 配 . 到 文 段结 束 直
2 最大 匹配 算 法 的缺 点
尽 管 最 大 匹配 法 分 词 是 常 用 解决 中 文分 词 算 法 的
法 包 括 正 向最 大 匹配 算 法 、逆 向最 大 匹 配算 法 和 双 向 最 大 匹配 算 法 。 以下 对 最 大 匹 配 算 法 的 思 想 进行 详 细 的 分 析 .并 研 究 这 种 算 法 存 在 的 缺 点 和 提 出优 化 的 方
法
先 取 L N个 长 度 的字 串 “ 京 奥 运会 欢 ” 在 词 库 中 匹 E 北 . 配 “ 京 奥运会欢 ” 看是不 是一 个词 , 典没有 , 北 看 词 把
“ 京 奥 运 会 欢 ” 的 最 后 一 个 字 去 掉 得 到 “ 京 奥 运 北 北 会 ” 在 词 库 中匹 配 “ 国 奥运 会 ” 词 库 中找 到 这 个 词 。 , 中 , 则 认 为 “ 京 奥 运 会 ” 为 一 个 词 . 后 从 “ 京 奥 运 北 成 然 北 会 ” 第 一 个 字 “ ” 始 再 取 L N 长 度 个 字 组 成 待 检 后 欢 开 E