浅析中文分词方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中的“ 东西” 这个词 , 它 由两个单字“ 东” 、 “ 西” 组成 , 每个单字
都可 以成为一个词 , 两个单字组合在一起也可 以成为一个词。
这 种 在 实 际 分 词 工 作 中 词 边 界 的模 糊 性 给 中文 文 本 分 词 工 作 带 来 了极 大 的 困难 。
基 于 统 计 与模 型 的方 法 虽然 起 源 较 晚 ,但 是 在 中 文 分 词 上 却 能 够 比基 于 词 典 的方 法 更 胜 一 筹 ,这 是 因为 基 于 统 计 与
统计与模型 的分词方法 。 这两类方法都有优点 , 也各 有不 足。
基 于 词 典与 规 则 的分 词 方 法 简 单 易 懂 , 只 需要 一 部 词 典加 上
自己设立 的规则 , 便可进行分词工作 , 缺点是分词精度往往不
高, 而且对未登录 词不 能进行处理 , 只能切分 词典 中已经有 的 词 。基于统计与模型 的分词方法要 比基于词典与规则 的分词 方法有更 高的分词精度 , 而且 能够对未登陆词进行处理, 大大 提 高词语切分 的精度 ,但是基于统计与模型的分 词系 统往往 比较复杂, 除 了建立模 型之 外, 还需要有大量的已经切 分好 的 中文语料来对模型进行训练 。
摘要 : 中文分词是在 中文信 息处理 系统 中的 关键步骤 , 文章探讨 了常见 的几种 中文分词方法, , 2 7 L 他 们的优 点和缺 点, 并 指 出了在 中文分词 工作 中的 困难 。
关键 词: 中文分词 ; 分词 算法 中图分类号 : T P 3 9 1 . 1 文献标识码 : A 文章编号 : 1 6 7 3 . 1 1 3 1 ( 2 0 1 5 ) 0 3 — 0 0 9 2 . 0 2 作 。具有代表性 的分词方法有正向最大匹配 法、反 向最大 匹
算机不能够理解整个句子的意思,那么要想让计算机完全识 别 出中文文本中的词, 并进行正确区分, 是非常难 的。暂且不 说这两种方法的可行性,从逻 辑上来看似乎走入 了一个先有
配法等 。
中文分词是对 中文信息进行处理的第一步,是进 行中文 信 息处 理的基础 。一个分词系统的好坏直接决定 着这个中文 信 息处理系统 的好坏 。然而 ,中文文本并非像英 语一样是 由
一
正 向最大匹配法和反 向最大匹配法 的分 词原 则都是将句 子 中的一小段从句子 的开始或者末尾切 出,然后将这 一小段 字符逐个从字典 中扫描 ,如果这一小段 字符 与字 典中的词 语 相 匹配 , 那么就将 这个词语记录下来 , 如果这 一小段字 符串并 不存在 于词 典之 中, 就将字符 串的最后或者末尾一个字去掉 , 继续与词典 中的词匹配 , 直 到匹配到为止 。 这样 的匹配办法 虽然机械 的, 但是简单可行 , 这种 方法 的
缺 陷在 于 未 登 陆词 的识 别 性 能 不 高 。有 关 结 果 表 明 未 登 录 词
个个 单词组成 的,每个单词之间都有空格来隔开。在汉 语
中的每 一句话都是用每个单独 的汉字组成的,在 一句话的中 间停顿 或者 结尾处辅 以标 点,那么怎样才能从这样的一句 话
中将中文中的 “ 词” 拆 出来 获 取 有 效 的 词 语 信 息 , 这 就 是 中 文
模型的中文分词方法在处理未登录词 的效果上面 比基于词典 的分词方法更胜一筹。 比较常见的基于统计与模 型的分词方法有互信息模型 、 N
2 词汇 切分理 论
从 最 近 的十 年 来 看 ,中 文 分 词 方法 的主 流 思想 可 以分 为 两大类 , 第 一 类 是 基于 词典 与 规 则 的分 词 方 法 , 另 一类 是基 于
Leabharlann Baidu
2 . 2基 于统 计 与模 型 的分 词方法
基 于统计与模型 的方法认为词是在所有的文章 中都是具 有稳定组合的字 串, 因此在文本 中, 这种字串出现 的次数越 多, 他们的结合也就越 紧密 ,依照这样 的思想来判断这个字串是
否是一个词。
表示一定意义的 , 是独立 的, 是最小的单位等 。在实 际的分词 工作 中, 词 的概念与词 的边界往往又是模糊的, 比如说在汉语
用的有意义的语言单位。 川 ” 我 们 可 以从 以上 描述 中认 识 到词 的~ 些 特 征 , 比如 说 , 是
造 成的分词精度 失落至少 比分词歧义大五倍 以上 。一些只
需 要提 取词 典 内信 息 的分 词 系 统 通 常 都 可 以使 用 这 种 方法 来
达到预期的效果,但是对于需要分词精度 比较高的中文处理 系统来 说, 则不能使用这种方法 。
元统计模型、 隐马尔科夫模型、 最大熵模型等 。
3词 汇切 分 的困难
3 . 1分 词 与理解 的先 后 问题 要使得计算机能够理解文本 的前提条件是计算机能够识 别 出词 ,并从每个词的意思以及词 的排列组合 中来探取整个
句子的意思, 从这个角度来说, 计 算 机 对 文 本 进 行 处 理 时 应 该 是 先 进 行 分 词 后 进 行 处 理 。但 从 另 外一 个 方 面 来 看 ,如 果 计
分词系统需要进行 的工作 。
1词 的概念
需要对 中文文本进 行分词 ,第一个任务就是确定什么是 词, 但是至今 没有 一个 公认 的对词 的定义 , 国内如此 , 国际上 也是如此。不过我们 可以从如 下描述 中来认识词 的概念 ,比 如说:“ 词是一种建筑语言的单位 ,也就是造句的时候能够 自 由运用的最小单位。 ” “ 词是代表一定意义、 具有 固定的语音形 式 。可 以独立运用的最小结构单位 。 ”“ 词是最小 的能独立运
2 0 1 5 年 第 3 期 ( 总第 1 4 7期)
信 息 通 信
1 NF ORM ATI ON & COM M UNI C AT1 0NS
2O1 5
( S u m .N o 1 4 7 )
浅析 中文分词方法
彭 琦, 俞舂强
( 广 西师 范大学 网络 中心 , 广西 桂林 5 4 ] . 0 0 4)