中文分词技术研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 1卷 第 5P 7 1 , l 21 0 0年 l 0月
J URN AL OF DONGGU AN O UN I VERS TY I 0F TECHNo L0G Y
东 莞 理 T 学 院 学 报
Vo 1 No5 l 来自百度文库7
Oc 2 l t O O
中 文 分 词 技 术 研 究
于 洪 波
(牡 丹 江 大 学 信 息 与 电 气 T 程 系 ,黑 龙 江 牡 丹 江 1 7 01 5 1)
摘 要 : 随着 网络 信息 资源 呈指数级 增 长,我们 已经进入 了信 息化 时代 ,信 息技 术 已渗透到我 们社会 生活的方方 面面。 中文文本分词技 术作 为 中文信息 处理 中的重要环 节 ,其作 用就 显得 越 来越 重要 对 中文 分 词的必要性 、存在的 困难进行 了综述 ,并分析 了几种 分词方 法的原理 、特 点和 算法 实现 。 关键 词 : 中文分词 ;分词 方法 ;算法
第5 期
于 洪 波 :巾 文分 词技 术研 究
41
2 中 文分 词 的 几 种 算 法
近几 年来 ,人们 对 中文 分词 技 术 有 了 一定 的研 究 ,先 后 提 m 了多 种有 效 的分 词算 法 。这 些算 法 主
要 分 为 _大 类 :基于 字符 串匹 配 的分 词 方法 、基 于统 计 的分词 方法 和 基于 知识 理 解 的分词 方法 二 。
2 1 基 于字 符 串 匹配 的分 词 算 法 .
基 于 字符 串 配 的分 词 方 法 也 称 为 机 械 切分 方 法 。它 是 基 于 规 则 的切 分 方 法 ,按 照 一 定 的策 略 将 待分 析 的字 符 串与 充 分 大 的机 器 词 典 中 的词 条 进 行 匹 配 ,若 在 词 典 中找 到某 个 字 符 串 ,则 配 成
1 中文 分 词 的 必 要 性
分词只是 中文信息处理 的一部分 ,分词本身并不是 目的 ,而是后续处理过程 的必要 阶段 ,是中 文信 息处理的基础技术 。中文分词技术 的产生是中文搜索质量提高 的至关重要 的因素。众所周知 , 中文文本与英文文本 的表示方法有所不 同 ,英文文本 中词与词中间都 由空格或标点符号隔开 ,因而 词与词之间的界 限很 明显 ,可以很容易地获取关键词 ,而 中文文本是 以字为单位 ,所有的字连起来 才能捕述一个意思 ,而对于词 则没有一个形式上的分界符 ,词与词无 明显 的界 限,这就影响 了关键 词 的获取和 匹配…。所 以中文 分词 比英 文分词 要 复杂得 多 ,困难 得 多 。例 如 ,英 文句 子 I m a a t ce,用 中文则为 : “ e hr a 我是一名教师 ”。计算机可 以很简单通过空格知道 t c e 是一个单词 ,但 e hr a 是不能很容易明白 “ 教” 、 “ 师”两个字合起来才表示一个 词。把 中文的汉字序列切分成有意义的 词 ,就是 中文分词 ,也称为切词 。 “ 我是一名教师”的分词结果 是 : “ 是\ 我\ 一名\ 教师 ”。 由于中
文 和英 文 在语 法 规 则 、词 的结 构 上都 不 一 样 ,因此 针 对 中文 分词 的算 法 就 不 能 简 单 地 套 用英 文 的 分
词算法 ,必须根据中文词本 身的特点重新设计 。中文 自动分词是中文信息处理的关键所在,因为在中 文信 息 处理 中 ,只要 是涉 及 句法 、语 义 等 的研 究 ( 如机 器翻译 、 自然 语 言 处理 、搜索 引擎 、信 息检 索 等 ),都要 以词 为基本 单位 。所 以 良好 的 中文分词将 对众 多相关 学 科领 域 的发展 有很 大 的推动作 用 。
息库 ,已成为人们 获取信息的最主要手段 。由于网络上 的信息资源有着海 量 、动态 、异构 、半结构 化等特点 ,且缺乏统一 的组织和管理 ,所 以如何快速 、准确地从海 量的信 息资源 中寻找到 自己所需 的信息已经成为网络用户需要迫切解决的一大难题 。由于计算机无法直接从 大量的信息 中根 据关键 词找到对应的文本及信息 ,从而无法完成对汉语信息的收集 、分类 等T作 ,只有 实现 了中文分词技 术 ,计算机才可能具有这些能力。
功 ,切 出 该 词 ,否 则 进 行 其 他 相 关 处 理 。按 照 扫 描 方 向的 不 同 ,字 符 串 配 可 以分 为 正 向 配 和逆 向 匹配 ;按 照 不 同 长 度 优 先 配 的情 况 ,可 以分 为 最 大 配 和 最 小 匹 配 ;按 照 与词 性 标 注 过 程是 否
因此 ,进行 中文信息过滤 ,首先就要对 文本预处理 ,进行 中文分词 ,将其表示成可计算和推理 的模型。中文 自动分词是对 中文文本进行 自动分类 的第一步 ,也是中文文本处理 的重要环节。中文
分词就是将连续 的字序列按照一定的规范重新组合成词序列的过程。其主要任务就是通过计算机 自 动 完成 对 中文句 子 的切分 ,识 别 独 立 的词 ,并在 词 与词 之 间用 空 格 分 割 开 。
中 图 分 类 号 :T 3 11 P9. 文 献 标 识 码 :A 文 章 编 号 : 10 ~0 1 ( 0 0 0 —0 4 -0 09 3 2 2 l) 5 0 0 5
随 着科 学技 术 的飞速 发 展 ,我 们 已经进 入 了数 字 信息 化 时代 。Itre 作 为 当今 世 界上 最 大 的信 nen t
譬如 ,对于搜索引擎来说 ,最重要 的并不是找到所有结果 ,而是把最相关最有价值的结果排在最前 面,这也称为相关度排序 。中文分词的准确与否 ,会直接影响到对搜索结果 的相关度排序。
收 稿 日期 :01 — 0 — 2 2 0 7 9
作 者 简 介 : 洪 波 ( 9 9 ) ,女 ,黑 龙 江牡 丹 江 人 ,讲 师 ,硕 二 ,主 要 从 事wE 信息 处 理 和计 算 机 语 i 于 17 一 i : B p学研 究 。
J URN AL OF DONGGU AN O UN I VERS TY I 0F TECHNo L0G Y
东 莞 理 T 学 院 学 报
Vo 1 No5 l 来自百度文库7
Oc 2 l t O O
中 文 分 词 技 术 研 究
于 洪 波
(牡 丹 江 大 学 信 息 与 电 气 T 程 系 ,黑 龙 江 牡 丹 江 1 7 01 5 1)
摘 要 : 随着 网络 信息 资源 呈指数级 增 长,我们 已经进入 了信 息化 时代 ,信 息技 术 已渗透到我 们社会 生活的方方 面面。 中文文本分词技 术作 为 中文信息 处理 中的重要环 节 ,其作 用就 显得 越 来越 重要 对 中文 分 词的必要性 、存在的 困难进行 了综述 ,并分析 了几种 分词方 法的原理 、特 点和 算法 实现 。 关键 词 : 中文分词 ;分词 方法 ;算法
第5 期
于 洪 波 :巾 文分 词技 术研 究
41
2 中 文分 词 的 几 种 算 法
近几 年来 ,人们 对 中文 分词 技 术 有 了 一定 的研 究 ,先 后 提 m 了多 种有 效 的分 词算 法 。这 些算 法 主
要 分 为 _大 类 :基于 字符 串匹 配 的分 词 方法 、基 于统 计 的分词 方法 和 基于 知识 理 解 的分词 方法 二 。
2 1 基 于字 符 串 匹配 的分 词 算 法 .
基 于 字符 串 配 的分 词 方 法 也 称 为 机 械 切分 方 法 。它 是 基 于 规 则 的切 分 方 法 ,按 照 一 定 的策 略 将 待分 析 的字 符 串与 充 分 大 的机 器 词 典 中 的词 条 进 行 匹 配 ,若 在 词 典 中找 到某 个 字 符 串 ,则 配 成
1 中文 分 词 的 必 要 性
分词只是 中文信息处理 的一部分 ,分词本身并不是 目的 ,而是后续处理过程 的必要 阶段 ,是中 文信 息处理的基础技术 。中文分词技术 的产生是中文搜索质量提高 的至关重要 的因素。众所周知 , 中文文本与英文文本 的表示方法有所不 同 ,英文文本 中词与词中间都 由空格或标点符号隔开 ,因而 词与词之间的界 限很 明显 ,可以很容易地获取关键词 ,而 中文文本是 以字为单位 ,所有的字连起来 才能捕述一个意思 ,而对于词 则没有一个形式上的分界符 ,词与词无 明显 的界 限,这就影响 了关键 词 的获取和 匹配…。所 以中文 分词 比英 文分词 要 复杂得 多 ,困难 得 多 。例 如 ,英 文句 子 I m a a t ce,用 中文则为 : “ e hr a 我是一名教师 ”。计算机可 以很简单通过空格知道 t c e 是一个单词 ,但 e hr a 是不能很容易明白 “ 教” 、 “ 师”两个字合起来才表示一个 词。把 中文的汉字序列切分成有意义的 词 ,就是 中文分词 ,也称为切词 。 “ 我是一名教师”的分词结果 是 : “ 是\ 我\ 一名\ 教师 ”。 由于中
文 和英 文 在语 法 规 则 、词 的结 构 上都 不 一 样 ,因此 针 对 中文 分词 的算 法 就 不 能 简 单 地 套 用英 文 的 分
词算法 ,必须根据中文词本 身的特点重新设计 。中文 自动分词是中文信息处理的关键所在,因为在中 文信 息 处理 中 ,只要 是涉 及 句法 、语 义 等 的研 究 ( 如机 器翻译 、 自然 语 言 处理 、搜索 引擎 、信 息检 索 等 ),都要 以词 为基本 单位 。所 以 良好 的 中文分词将 对众 多相关 学 科领 域 的发展 有很 大 的推动作 用 。
息库 ,已成为人们 获取信息的最主要手段 。由于网络上 的信息资源有着海 量 、动态 、异构 、半结构 化等特点 ,且缺乏统一 的组织和管理 ,所 以如何快速 、准确地从海 量的信 息资源 中寻找到 自己所需 的信息已经成为网络用户需要迫切解决的一大难题 。由于计算机无法直接从 大量的信息 中根 据关键 词找到对应的文本及信息 ,从而无法完成对汉语信息的收集 、分类 等T作 ,只有 实现 了中文分词技 术 ,计算机才可能具有这些能力。
功 ,切 出 该 词 ,否 则 进 行 其 他 相 关 处 理 。按 照 扫 描 方 向的 不 同 ,字 符 串 配 可 以分 为 正 向 配 和逆 向 匹配 ;按 照 不 同 长 度 优 先 配 的情 况 ,可 以分 为 最 大 配 和 最 小 匹 配 ;按 照 与词 性 标 注 过 程是 否
因此 ,进行 中文信息过滤 ,首先就要对 文本预处理 ,进行 中文分词 ,将其表示成可计算和推理 的模型。中文 自动分词是对 中文文本进行 自动分类 的第一步 ,也是中文文本处理 的重要环节。中文
分词就是将连续 的字序列按照一定的规范重新组合成词序列的过程。其主要任务就是通过计算机 自 动 完成 对 中文句 子 的切分 ,识 别 独 立 的词 ,并在 词 与词 之 间用 空 格 分 割 开 。
中 图 分 类 号 :T 3 11 P9. 文 献 标 识 码 :A 文 章 编 号 : 10 ~0 1 ( 0 0 0 —0 4 -0 09 3 2 2 l) 5 0 0 5
随 着科 学技 术 的飞速 发 展 ,我 们 已经进 入 了数 字 信息 化 时代 。Itre 作 为 当今 世 界上 最 大 的信 nen t
譬如 ,对于搜索引擎来说 ,最重要 的并不是找到所有结果 ,而是把最相关最有价值的结果排在最前 面,这也称为相关度排序 。中文分词的准确与否 ,会直接影响到对搜索结果 的相关度排序。
收 稿 日期 :01 — 0 — 2 2 0 7 9
作 者 简 介 : 洪 波 ( 9 9 ) ,女 ,黑 龙 江牡 丹 江 人 ,讲 师 ,硕 二 ,主 要 从 事wE 信息 处 理 和计 算 机 语 i 于 17 一 i : B p学研 究 。