中文分词技术综述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
描是 指从 待切 分语 句 的末尾 开始 扫描 。双 向扫 描 是正 向扫描 和 逆 向扫描 的组合 。匹配原 则主要 有
分 ¨ 。在 中文 中 , 与 词 之 间不 存 在 分 隔 符 , 词 词
本 身也 缺乏 明显 的形 态标 记 , 因此 , 中文 信息处 理
的特有 问题 就是如何 将汉语 的字 串分 割 为合理 的 词 语序列 , 即中文分 词 , 因而分词 是 中文 自然语 言 处 理 的第 一步 , 是不 同于 其他 语 言 的 自然语 言 这 处 理系统 的重 要特 点 , 是 影 响 自然 语 言 处理 在 也
的时 间代价 。
2 汉 语 词 法 分 析 技 术
中文 分词 分 为人 工 分 词 与 机 器 自动 分 词 两
种 J 。人工分 词存 在 分 词 不 一 致 和 处 理 速 度 慢
的缺 陷 。对 此 , 们尝试 用计 算机 代替 人工 分词 , 人 称为 自动分 词 。 目前 , 汉语 自动 字 , 政 : 张 中文 分 词 技 术 综 述
5 5
解 决 未登 陆词 识 别 问题 的最原 始 的办 法就 是调 用 人工 干预 模块 处 理 , 此 解 决 方 案 总 是 不 能 令 人 但 满意 。为此 , 已有 很 多 人 致 力 于未 登 陆 词 识 别 的
的分词 方 法 的 优 点 是 : 1 不 受 待 处 理 文本 的 领 () 域 限制 ; 2 不需 要 一 个 机 器 可读 词 典 。缺 点是 : () () 1 需要 大 量 的训练 文 本 , 以建 立 模 型 的参 数 ; 用 ( ) 方法 的计 算量 都非 常 大 ; 3 分 词 精度 与 训 2该 () 练 文本 的选 择 有关 。
5 4
安 阳 师 范学 院学 报
21 0 0钽
中 文 分 词技 术 综 述
周 宏宇, 张 政
( 阳 师范 学 院 , 南 安 阳 4 50 ) 安 河 5 0 0
[ 摘
要] 中文分词 是中文信 息处理 的基础 , 分词 系统也是 中文信息 处理 中的一个 主要组成部分 , 中文 文本 的分 对
去 掉 , 下 的字符 串作 为新 的 匹配 字段 , 剩 进行再 次
匹 配 。重 复 以 上 过 程 , 到 切 分 出所 有 词 为 止 。 直 最小 匹配 法 的基本 思想 是使 待切 分语句 分词后 得 到 的词最 少 。逐词 匹 配法是 指把词 典 中的词按 由 长 到短 的顺序 在 待 切 分语 句 中进 行搜 索 和 匹 配 , 直到 把所 有 的词 都 切分 出来 为止 。最佳 匹配法 的 基本 思想是 词典 中的词条 按 照词频 的大4, 序 排 " ̄ J l b 列, 以求 缩短 分词 词典 的检 索 时间 , 而降低 分词 从
词 处 理 目前 已经 应 用 到 了 中 文 自然 语 言 理解 、 献 检 索 、 索 引擎 以及 文 本 挖 掘 系 统 等 领 域 。本 文对 现有 的 中 文 分 词 技 文 搜
术进行 了综述 , 分析 了现有分词方法 的技术特点 , 指出 了部分分词方法存在 的优缺 点。 [ 键词] 关 分词 ; 中文信息处理 ; 分词方法 [ 中图分 类号 ] P 9 . T 311 [ 文献标识 号] A [ 文章编号] 6 1— 30 2 1 )2— 0 4— 3 17 5 3 (0 0 0 0 5 0
和混合方 法 。 2 1 基 于词典 的 中文分词 方法 .
[ 收稿 日期 ]0 9— 1— 6 2 0 0 2
词典 中没 有登 录这 些词 , 引起 自动切词 的 困难 。 会
[ 作者简介 ] 周宏宇 (9 O )河南 安阳人 , 阳师范学院助教 , 18 一 , 安 主要从事科学工程计算 与计算机模 拟。
最大 匹配 、 最小 匹配 、 逐词 匹配 和最佳 匹配 。最 大 匹配法 的基 本思 想是 : 待切 分 语 句 的 m 个 汉字 取 作 为 匹配字 段 , 中 m为 机 器 可读 词典 中最 长词 其 条 的汉 字 个 数 ; 找 机 器 可 读 词 典 并 进 行 匹配 。 查 若 能 匹配 , 则将 这个 匹配 字 段 作 为一 个 词 切分 出 来; 若不 能 匹配 , 将 这个 匹配字 段 的最后一个 字 则
1 中文 分 词 的 必 要性
词是最 小 的能够独 立活 动 的有意义 的语 言成
基 于词 典 的 中文 分词 方法 的三个要 素 为分词 词典 、 本扫 描 顺 序 和 匹 配原 则 J 文 。文 本 的扫 描
顺 序有 正 向扫 描 、 向扫 描 和双 向扫 描 。正 向扫 逆 描 是指从 待 切分 语 句 的 开 头开 始 扫 描 , 而逆 向扫
2 3 中文 分词 混合 方 法 .
三大类 的方法 : 于词典 的方法 、 于统 计 的方法 基 基
当使 用 基于词 典 的 中文 分词 方法进 行 中文信
息 处理 时不得 不考 虑 未登 录词 的处理 。未登 录词
指词 典 中没有 登 录过 的 人名 、 名 、 构名 、 名 地 机 译
及新 词语 等 。当 采 用 匹 配 的办 法 来 切词 时 , 由于
中文信息 处理 中应用 的重要 因素 。分 词 系统是 中
文信 息处 理 中的一 个 主要 组 成 部 分 , 中文 自然 是 语 言理解 、 文献检 索 、 索引 擎 以及 文 本挖掘 系统 搜
中最基 本 的一部分 。汉 字 的简体/ 繁体 转换 、 信息
检 索 和信息抽 取 、 索 引擎 、 b文本 挖 掘 、 本 搜 We 文 分类 、 文本校 对 等 中文 信息 处 理 系 统 都 首先 需 要 分 词作 为其 最基 本 的模 块 , 因而 对 汉 语词 法 分 析 技 术 的研 究 就显得 至关重 要 。
分 ¨ 。在 中文 中 , 与 词 之 间不 存 在 分 隔 符 , 词 词
本 身也 缺乏 明显 的形 态标 记 , 因此 , 中文 信息处 理
的特有 问题 就是如何 将汉语 的字 串分 割 为合理 的 词 语序列 , 即中文分 词 , 因而分词 是 中文 自然语 言 处 理 的第 一步 , 是不 同于 其他 语 言 的 自然语 言 这 处 理系统 的重 要特 点 , 是 影 响 自然 语 言 处理 在 也
的时 间代价 。
2 汉 语 词 法 分 析 技 术
中文 分词 分 为人 工 分 词 与 机 器 自动 分 词 两
种 J 。人工分 词存 在 分 词 不 一 致 和 处 理 速 度 慢
的缺 陷 。对 此 , 们尝试 用计 算机 代替 人工 分词 , 人 称为 自动分 词 。 目前 , 汉语 自动 字 , 政 : 张 中文 分 词 技 术 综 述
5 5
解 决 未登 陆词 识 别 问题 的最原 始 的办 法就 是调 用 人工 干预 模块 处 理 , 此 解 决 方 案 总 是 不 能 令 人 但 满意 。为此 , 已有 很 多 人 致 力 于未 登 陆 词 识 别 的
的分词 方 法 的 优 点 是 : 1 不 受 待 处 理 文本 的 领 () 域 限制 ; 2 不需 要 一 个 机 器 可读 词 典 。缺 点是 : () () 1 需要 大 量 的训练 文 本 , 以建 立 模 型 的参 数 ; 用 ( ) 方法 的计 算量 都非 常 大 ; 3 分 词 精度 与 训 2该 () 练 文本 的选 择 有关 。
5 4
安 阳 师 范学 院学 报
21 0 0钽
中 文 分 词技 术 综 述
周 宏宇, 张 政
( 阳 师范 学 院 , 南 安 阳 4 50 ) 安 河 5 0 0
[ 摘
要] 中文分词 是中文信 息处理 的基础 , 分词 系统也是 中文信息 处理 中的一个 主要组成部分 , 中文 文本 的分 对
去 掉 , 下 的字符 串作 为新 的 匹配 字段 , 剩 进行再 次
匹 配 。重 复 以 上 过 程 , 到 切 分 出所 有 词 为 止 。 直 最小 匹配 法 的基本 思想 是使 待切 分语句 分词后 得 到 的词最 少 。逐词 匹 配法是 指把词 典 中的词按 由 长 到短 的顺序 在 待 切 分语 句 中进 行搜 索 和 匹 配 , 直到 把所 有 的词 都 切分 出来 为止 。最佳 匹配法 的 基本 思想是 词典 中的词条 按 照词频 的大4, 序 排 " ̄ J l b 列, 以求 缩短 分词 词典 的检 索 时间 , 而降低 分词 从
词 处 理 目前 已经 应 用 到 了 中 文 自然 语 言 理解 、 献 检 索 、 索 引擎 以及 文 本 挖 掘 系 统 等 领 域 。本 文对 现有 的 中 文 分 词 技 文 搜
术进行 了综述 , 分析 了现有分词方法 的技术特点 , 指出 了部分分词方法存在 的优缺 点。 [ 键词] 关 分词 ; 中文信息处理 ; 分词方法 [ 中图分 类号 ] P 9 . T 311 [ 文献标识 号] A [ 文章编号] 6 1— 30 2 1 )2— 0 4— 3 17 5 3 (0 0 0 0 5 0
和混合方 法 。 2 1 基 于词典 的 中文分词 方法 .
[ 收稿 日期 ]0 9— 1— 6 2 0 0 2
词典 中没 有登 录这 些词 , 引起 自动切词 的 困难 。 会
[ 作者简介 ] 周宏宇 (9 O )河南 安阳人 , 阳师范学院助教 , 18 一 , 安 主要从事科学工程计算 与计算机模 拟。
最大 匹配 、 最小 匹配 、 逐词 匹配 和最佳 匹配 。最 大 匹配法 的基 本思 想是 : 待切 分 语 句 的 m 个 汉字 取 作 为 匹配字 段 , 中 m为 机 器 可读 词典 中最 长词 其 条 的汉 字 个 数 ; 找 机 器 可 读 词 典 并 进 行 匹配 。 查 若 能 匹配 , 则将 这个 匹配 字 段 作 为一 个 词 切分 出 来; 若不 能 匹配 , 将 这个 匹配字 段 的最后一个 字 则
1 中文 分 词 的 必 要性
词是最 小 的能够独 立活 动 的有意义 的语 言成
基 于词 典 的 中文 分词 方法 的三个要 素 为分词 词典 、 本扫 描 顺 序 和 匹 配原 则 J 文 。文 本 的扫 描
顺 序有 正 向扫 描 、 向扫 描 和双 向扫 描 。正 向扫 逆 描 是指从 待 切分 语 句 的 开 头开 始 扫 描 , 而逆 向扫
2 3 中文 分词 混合 方 法 .
三大类 的方法 : 于词典 的方法 、 于统 计 的方法 基 基
当使 用 基于词 典 的 中文 分词 方法进 行 中文信
息 处理 时不得 不考 虑 未登 录词 的处理 。未登 录词
指词 典 中没有 登 录过 的 人名 、 名 、 构名 、 名 地 机 译
及新 词语 等 。当 采 用 匹 配 的办 法 来 切词 时 , 由于
中文信息 处理 中应用 的重要 因素 。分 词 系统是 中
文信 息处 理 中的一 个 主要 组 成 部 分 , 中文 自然 是 语 言理解 、 文献检 索 、 索引 擎 以及 文 本挖掘 系统 搜
中最基 本 的一部分 。汉 字 的简体/ 繁体 转换 、 信息
检 索 和信息抽 取 、 索 引擎 、 b文本 挖 掘 、 本 搜 We 文 分类 、 文本校 对 等 中文 信息 处 理 系 统 都 首先 需 要 分 词作 为其 最基 本 的模 块 , 因而 对 汉 语词 法 分 析 技 术 的研 究 就显得 至关重 要 。