词位标注汉语分词技术详解
基于三词位的字标注汉语分词
自行定义, 如X u e 在文献[ 8 ] 中使用了四词位标 注集, 而黄昌宁等在文献 [ 9 ] 中使用六词位标注 集, 于江德等在文献[ 1 0 ] 进一步研究 了基于四词
位标 注集 的汉语 分词 。
1 三 词 位 字 标 注 汉 语分 词建 模
1 . 1 三词 位汉 语分词 基本 思想
( S t - I , S t , o  ̄ t ) = { : 满 足 条 件 ( 3 )
C R F模 型通 过特 征 函数 能够 整合 任何 特 征 , 包括可 观察序列 O在时刻 t 时 由当前 字及其 上下 文组成 的字 串序 列 特征 , 以及 上 下文 中 隐含词 位
的转移 特征 S —s , A 。 A 是 一个训练 过程 中需 从训 练语料 中学 习的参 数 , 表示 的是 相 应 的特征 函数 s 川, s , O , t )的权 重 , 其取 值范围可 以是 一 O 0到 +∞ 。 对于 一个 由公 式 ( 1 )给定 的条 件 随机
汉语 句子是 字 的 序列 , 词 语 之 间没有 明显 的 分 割符 , 因此汉 语 分 词 的基本 任 务 就是 要将 一个
条件 随机场 ( C o n d i t i o n a l R a n d o m F i e l d s , 简
称C R Leabharlann s ) 是一种用于序列数据标注的条件概率模
情况 下 , 对 于一个 特定 的特 征模板 , 要 减少条件 随
深 入 的研 究
和 广 泛 的 应 用 . 7 _ , 并 逐 渐 成 为
当前分词 的 主流技术 。基 于字 的词 位标 注汉语 分 词 技术 的核 心 思 想是 对 汉 语 句 子 中 的 “ 字” 按 其 在 词 中出现 的位置 进 行 分类 , 即为 字 序列 中 的每
中文分词与词性标注技术研究与应用
中文分词与词性标注技术研究与应用中文分词和词性标注是自然语言处理中常用的技术方法,它们对于理解和处理中文文本具有重要的作用。
本文将对中文分词和词性标注的技术原理、研究进展以及在实际应用中的应用场景进行综述。
一、中文分词技术研究与应用中文分词是将连续的中文文本切割成具有一定语义的词语序列的过程。
中文具有词汇没有明确的边界,因此分词是中文自然语言处理的基础工作。
中文分词技术主要有基于规则的方法、基于词典的方法和基于机器学习的方法。
1.基于规则的方法基于规则的中文分词方法是根据语法规则和语言学知识设计规则,进行分词操作。
例如,按照《现代汉语词典》等标准词典进行分词,但这种方法无法处理新词、歧义和未登录词的问题,因此应用受到一定的限制。
2.基于词典的方法基于词典的中文分词方法是利用已有的大规模词典进行切分,通过查找词典中的词语来确定分词的边界。
这种方法可以处理新词的问题,但对未登录词的处理能力有所限制。
3.基于机器学习的方法基于机器学习的中文分词方法是利用机器学习算法来自动学习分词模型,将分词任务转化为一个分类问题。
常用的机器学习算法有最大熵模型、条件随机场和神经网络等。
这种方法具有较好的泛化能力,能够处理未登录词和歧义问题。
中文分词技术在很多自然语言处理任务中都起到了重要的作用。
例如,在机器翻译中,分词可以提高对齐和翻译的质量;在文本挖掘中,分词可以提取关键词和构建文本特征;在信息检索中,分词可以改善检索效果。
二、词性标注技术研究与应用词性标注是给分好词的文本中的每个词语确定一个词性的过程。
中文的词性标注涉及到名词、动词、形容词、副词等多个词性类别。
词性标注的目标是为后续的自然语言处理任务提供更精确的上下文信息。
1.基于规则的方法基于规则的词性标注方法是根据语法规则和语境信息,确定每个词语的词性。
例如,根据词语周围的上下文信息和词语的词义来判断词性。
这种方法需要大量的人工制定规则,并且对于新词的处理能力较差。
汉语自动分词与词性标注
– :主词位 – 对于任意一个字,如果它在某个词位上的能产度高于0.5,称这个词 位是它的主词位。
– MSRA2005语料中具有主词位的字量分布:
33
由字构词方法的构词法基础(2)
• 自由字
– 并不是每个字都有主词位,没有主词位的字叫做自由字。
– 除去76.16%拥有主词位的字,仅有大约23.84%的字是自 由的。这是基于词位分类的分词操作得以有效进行的基 础之一。
• 随着n和N的增加,计算复杂度增加太快, 张华平给出了一种基于统计信息的粗分模 型。 • 粗分的目标就是确定P(W)最大的N种切分结 果
P(W ) = P (w )
i i =1 m
7.2.3 基于HMM的分词方法
• 我们可以将汉语自动分词与词性标注统一 考虑,建立基于HMM的分词与词性标注一 体化处理系统。 • 详见第六章举例。 • 有了HMM参数以后,对于任何一个给定的 观察值序列(单词串),总可以通过viterbi算 法很快地可以得到一个可能性最大的状态 值序列(词性串)。算法的复杂度与观察值序 列的长度(句子中的单词个数)成正比。
歧义切分问题 交集型切分歧义 组合型切分歧义 多义组合型切分歧义
• 交集型歧义切分
中国人为了实现自己的梦想 中国/ 人为/ 了/ 实现/ 自己/ 的/ 梦想 中国人/ 为了/ 实现/ 自己/ 的/ 梦想
中/ 国人/ 为了/ 实现/ 自己/ 的/ 梦想 例如:中国产品质量、部分居民生活水 平
• 新的探索: A.Wu尝试将分词与句法分析融合为一体的 方法,用整个句子的句法结构来消除不正 确的歧义,对组合型歧义释放有效(组合型 歧义少数,交集型歧义较多)。 同时,句法分析本身就有很多歧义,对于 某些句子,反而产生误导。(王爱民)
中文分词相关技术简介
中文分词相关技术简介目前对汉语分词方法的研究主要有三个方面:基于规则的分词方法、基于统计的分词方法和基于理解的分词方法。
基于规则的分词方法基于规则的分词方法,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
常用的方法:最小匹配算法(Minimum Matching),正向(逆向)最大匹配法(Maximum Matching),逐字匹配算法,神经网络法、联想一回溯法,基于N-最短路径分词算法,以及可以相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。
目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。
◆最小匹配算法在所有的分词算法中,最早研究的是最小匹配算法(Minimum Matching),该算法从待比较字符串左边开始比较,先取前两个字符组成的字段与词典中的词进行比较,如果词典中有该词,则分出此词,继续从第三个字符开始取两个字符组成的字段进行比较,如果没有匹配到,则取前3个字符串组成的字段进行比较,依次类推,直到取的字符串的长度等于预先设定的阈值,如果还没有匹配成功,则从待处理字串的第二个字符开始比较,如此循环。
例如,"如果还没有匹配成功",取出左边两个字组成的字段与词典进行比较,分出"如果";再从"还"开始,取"还没",字典中没有此词,继续取"还没有",依次取到字段"还没有匹配"(假设阈值为5),然后从"没"开始,取"没有",如此循环直到字符串末尾为止。
这种方法的优点是速度快,但是准确率却不是很高,比如待处理字符串为"中华人民共和国",此匹配算法分出的结果为:中华、人民、共和国,因此该方法基本上已经不被采用。
现代汉语语料库加工-词语切分与词性标注规范与手册
现代汉语语料库加工——词语切分与词性标注规范与手册俞士汶主编北京大学计算语言学研究所1999年4月目录●现代汉语语料库加工规范——词语切分与词性标注⒈前言 (1)⒉切分规范 (3)⒊切分和标注相结合的规范 (10)⒋标注规范 (14)⒌后记 (19)●现代汉语语料库加工手册——词语切分与词性标注⒈语料库加工的标记集及其说明 (20)⒉加工好的样例 (20)⒊若干个常用多类词的处理 (24)⒋词语切分和词性标注中的典型错例及分析 (28)⒌准谓宾动词示例 (41)⒍机器自动加工的样例及后校正注意事项 (42)⒎后记 (46)●附录:⒈按代码的字母顺序排列的标记集 (47)⒉按名称的汉语拼音顺序排列的标记集 (48)⒊参考文献 (49)现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。
第一步是对原始语料进行切分和词性标注。
1994年制订了《现代汉语文本切分与词性标注规范V1.0》。
几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。
在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。
为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。
因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
制订《现代汉语语料库加工规范》的基本思路如下:⑴词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”(以下简称为“分词规范”)保持一致。
由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。
中文文本自动分词与标注汉语词义自动标注技术
– 大量同音字、同音詞語,化成書面多可消除 歧義。
– 單字多義項者占53.6%(如「打」字之義項數
為26) ;詞組/合成詞多義項者僅占0.46%。
2020/5/30
6
漢字字義組合結構
• 向心性字組 Vs. 離心性字組
– 冰山,青山,火山,高山(核心字在後) Vs. 山峰,山城,山溝, 山村(核心字在前)
多義詞 義項號 搭配類別(L/R)
頻次
註:頻次表示在本次標注語料中該搭配出現的次數
– 根據統計數據自動調整學習進度,逐漸增加上下窗口 長度來學到儘可能多的搭配。
– 打-B01:毆打,攻打→打倒∣打擊∣打架∣… ∣打手 – 打-B02:用手或器具撞擊物體→打鼓∣打火∣… ∣敲
鑼打鼓 –鼓-A01:打擊樂器→鼓板∣鼓槌∣打鼓∣…∣重振旗鼓 –鼓-A02:發動,激起→鼓動∣鼓舞∣… ∣鼓足幹勁
2020/5/30
11
自組織的漢語詞義排歧方法-步驟1
• 以<現代漢語辭海>提供的搭配實例作為多義詞的 初始搭配知識庫,無需人工標注初始語料,用適當 的統計和自組織方法做訓練並自動擴大搭配集。
• 建立基於語義類的語言模型,為語音識別、手寫體 識別和音字轉換提供幫助。
2020/5/30
3
詞義自動標注 ( Word Sense Tagging )
• 也稱為詞義自動排歧 ( Word Sense Disambiguation )
– 計算機運用邏輯運算與推理機制,對出現在一定上下 文中詞語的語義進行正確的判斷,自動確定其正確的 義項並加以標注的過程。
– 語義編碼:是用符號代表語義,關注的是語言 所能表達的意義,每種語言都有自己的語義系 統。漢語和英語屬於不同的語系,前者屬於漢藏語系,
中文分词技术
一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。
Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。
除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。
二、中文分词技术的分类我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。
第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。
这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。
第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。
下面简要介绍几种常用方法:1).逐词遍历法。
逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。
也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。
这种方法效率比较低,大一点的系统一般都不使用。
2).基于字典、词库匹配的分词方法(机械分词法)这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。
识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。
根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。
根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
常用的方法如下:(一)最大正向匹配法 (MaximumMatchingMethod)通常简称为MM法。
其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。
词位标注汉语分词技术详解
[收稿日期]2010-06-26[基金项目]河南省教育厅高等学校青年骨干教师项目(2009G GJS -108)。
[作者简介]于江德(1971-),男,博士,副教授,主要从事自然语言处理、信息抽取、文本数据挖掘等。
①可以从以下地址下载:http ://cr fpp .so ur cefo rg e .net[汉语词法·甲骨文]汉语词法分析是中文信息处理的首要任务,主要包括分词、词性标注、命名实体识别三项子任务,它是句法分析与语义分析的基础,其性能将直接影响到中文信息处理的后续应用。
安阳师范学院计算机与信息工程学院依托河南省高等学校“甲骨文信息处理”重点实验室培育基地,“中文信息处理”校级重点实验室“计算语言学”校级研究所等平台。
对汉语词法分析中的这三项子任务、甲骨文进行了较深入的研究,取得了部分研究成果,现借学报这个平台展示给各位同仁,敬请各位专家学者指正。
词位标注汉语分词技术详解于江德,王希杰(安阳师范学院计算机与信息工程学院,河南安阳455002)[摘 要]近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。
本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF ++0.53工具包实现字串序列词位标注进行了详解。
最后在Bakeo ff2006的评测语料上进行了封闭测试。
[关键词]汉语分词;条件随机场;词位标注;特征模板[中图分类号]T P391 [文献标识码]A [文章编号]1671-5330(2010)05-0001-05 在中文信息处理领域,词是最小的能够独立运用的有意义的语言单位。
但汉语书写时却以字为基本的书写单位,词语之间不存在明显的分隔标记,因此,中文信息处理领域的一项基础性研究课题是如何将汉语的字串切分为合理的词语序列,即汉语分词。
词位标注汉语分词中上下文有效范围定量分析
中 图分 类 号 : P 9 . T 311 文献标志码 : A
Qu n i t ea ayi o e t er n eo o tx a t ai n ls f f ci a g fc ne t n t v s e v i
ae 1 otb tn o eo —ot ti getrta bv — net( )s eo fa r idw i lec g tesg et r:( )cnr ui fbl cn x s ra n aoec t ; 2 i f et ewn o n uni h em n i o w e e h o x z u f n
中选择一组特征模板集 , B ko 20 在 aef 0 5评测语 料上进行 了分 f
组对 比实验 , 据实验 结果对影 响分词性 能的上下 文有效 范 根 围进行 了定量分析 。
语 自动分词是 中文信息 处理领域 中的一项 基础性研 究课题 ,
是句法分析 、 语义 分析 、 篇章 理解 等深 层 中文信 息处理 的基
C ODE YIDU NJ I
ht:/ w .oac t / w w jc.n p
d i1. 74 S ..0 7 2 1 . 14 o:0 3 2/ P J 18 .0 2 0 30
词 位 标 注 汉 语分 词 中上 下 文有 效 范 围定 量 分 析
王希 杰
( 安阳师范学 院 计算 机与信息工程学院 , 河南 安 阳 4 50 ) 5 00
0 引言
词是最小 的能够独立运 用 的有 意义的语 言单位 , 但汉语
词位标注汉语分词技术详解
的成果 [ ] 3 。其 中 , 于字 的词 位标 注 汉 语 分 词 “ 基 技术( 也称为 基 于字标 注的汉语 分词或 由字构词 )
得 到 了广泛 关注 , 可 比的评 测 中性 能 领 先 的 系 在
统几 乎 无 一 例 外 都 应 用 了类 似 的标 注 思 想 . 。 5 ]
的 , 如 ,天 空 ” “ 天 ” 两个 字 组 成 的 词 语 , 例 “ 、今 是
一 : ’
O1 02 O3
“ 异想 天开” 四字 词 , 天 ” 是 “ 是单 宁 词 。而构 成 词 语 的每 个汉字 在一个 特定 的 词语 中都 占据着 一个 确定的构 词位 置 , 即词 位 。本 文 中我 们 规定 字 只
问题 , 助 于 优 秀 的序 列 标 注 模 型 , 于 字 的 词 位 标 注 汉语 分词 方法 逐 渐 成 为 分词 的 主要 技 术 路 线 。本 文 简 要 介 绍 了词 借 基
位 标 注汉 语 分 词 的 基 本 思 想 , 析 了基 于条 件 随机 场 实 现 词 位 标 注 汉 语 分 词 的 机 理 , 对 采 用 四词 位 标 注集 , 用 C F 探 并 使 R
S 1 S 2 S3 S nJ Sn
注 的相 关 技 术 细 节 进 行 了讲 解 。最 后 给 出 了在
B k of0 6的 两 种 评 测 语 料 的 实 验 结 果 。 aef 0 2
1 词位 标 注 汉 语 分 词 的 基 本 思 想
汉 语 中的每个 词语是 由一个 字或 多个 字组成
基 于字 的词位 标 注汉语 分词将 分词看作 序列 数据
词位标注汉语分词中特征模板定量研究
词位标注汉语分词中特征模板定量研究
近年来,随着由汉语自动处理技术的发展,计算机对汉语自然语言的语法分析、语义分析和其他过程变得越来越有效。
其中,有一种特殊的语法分析方法,叫做“词位标注”(Part-of-speech Tagging),这种方法主要用来分类汉语中不同种类的语言成份。
在传统汉语分词中,词位标注是通过先验知识和机械学习进行标记,而且受到时间和成本限制,以至于难以获得令人满意的结果。
为此,研究者们提出了一种新颖的方法——“特征模板法”(Feature Templates Method),旨在定量研究不同的词位标注模板及其模式在实际运用中的效率。
特征模板法是利用特征模板(有词项模板、条件模板和句法模板)进行词位标注,允许用户定制有特殊功能的特征模板,并通过定量的测定,研究特征模板及其模式与汉语词位标注,以获得有效的结果。
针对特征模板定量研究,在其语言范畴和任务类型中,收集语料库,并分析其特性分布情况,了解模板的表达形式和标注要求,以期洞察分类器、评估器和特征模板的差异,使得词位标注的效果最为有效。
针对特征模板定量研究,还可以构建评估系统,根据特征模板的设计思路和实际需求,采用异类评估标准,进行定量分析,以最大限度地检测特征模板定量研究的误差和不足之处,最终实现更加智能,有效且全面的词位标注效果。
因此,本文通过阐述特征模板定量研究的研究背景、分析原理和实现方法,综述了特征模板在汉语词位标注中的定量研究状况。
本研究旨在为特征模板法在汉语词位标注中的应用提供一定的理论基础,在实践中为其应用提供有效指导。
词位标注汉语分词中特征模板定量研究
2 co l f mp trSi c n c n lg , e igIsi t f eh oo y B in 0 0 1 C ia .S h o oC o ue c n ea dTeh oo y B in nt ueo c n l , e ig1 0 8 , hn ) e j t T g j
t g i g Ch n s r e m e t to a g n i e e wo d s g n a i n
YU i gd J n -e ,WANG ii ,F a X- e j AN ioz o g X a —h n 。
( .S h o fCo p tra d I fr to gn e ig,An a g No a iest 1 c o lo m u e n no ma in En ie rn yn r l m Unv ri y,An a g 4 5 0 y n 5 0 2,Chn ia;
Ab t a t sr c :Th e f r a c f i e e wo d s g n a i n i g e t e p ro m n e o n s r e me t t r a l i r v d b r - o i o - a e p r a h si e e ty a s Ch o s y mp o e ywo d p st n b s d a p o c e r c n e r . i n Th sa p o c r a sCh n s r e me t t n a r - o iin t g i g p o lm.Fe t r e lt ee to r ca h s i p r a h te t i e ewo d s g n a i sa wo d p st a g n r b e o o a u e t mp a e s l c in i c u il n t i s i m eh d,i r e O d e t r u n ia i ea ay i n f a u et mp a e o r - o iin b s d t g i g C i e ewo d s g e t — to n o d rt ob te ,q a tt t n l sso e t r e l t sf rwo d p st - a e a gn h n s r e m n a v o to S i l me t d i n i mp e n e .Cl s d e a u to s a e p ro e n PKU n S o e v l a in r e f r d o m a d M RA o p s fo t e s c n n e n t n lC i e e wo d c r u r m h e o d it r a i a h n s r o s g e t t n B k o f2 0 e m n a i a e f- 0 5,a d c mp r tv x e i e t r e f r d o ifr n e t r e p a e . Ex e i e t l r s l o n o a a ie e p r m n s a e p ro me n dfe e t f a u e tm l t s p r n a e u t m s s o t ef l wig c n l s n :u d r t e s me c n iin ,t e t an d mo e sz s p o r in l t h u h w h o l n o cu i s n e h a o dto s h r i e d l ie i r p t a h t en mb ro e t r s o o o o wi e f fa u e . Th u en mb ro e t r sb ifr n i g ec a a t rfa u et mp a ei s me e ff a u e y d f e tsn l h r c e e t r e lt a .Th s e lt s c n r u in i mu h s l rt a e s e e t mp a e " o ti t c ma l h n b o s e t e d u l- h r c e e t r e p a e h o b e c a a t rf a u e tm l t .W ih i c e sn h f a u et mp a e h r i i g t r a l c e s d,a d s eo h t r a i g t eB e t r e lt ,t et an n i g e ty i r a e n me n n i f e z t
分词技术说明书
分词技术文档说明一.基本介绍1.分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。
2.数据处理我们要理解分词技术先要理解一个概念。
那就是查询处理,当用户向搜索引擎提交查询后,搜索引擎接收到用户的信息要做一系列的处理。
步骤如下所示:(1).首先是到数据库里面索引相关的信息,这就是查询处理。
那么查询处理又是如何工作的呢?很简单,把用户提交的字符串没有超过3个的中文字,就会直接到数据库索引词汇。
超过4个中文字的,首先用分隔符比如空格,标点符号,将查询串分割成若干子查询串。
举个例子。
“什么是百度分词技术”我们就会把这个词分割成“什么是,百度,分词技术。
”这种分词方法叫做反向匹配法。
(2).然后再看用户提供的这个词有没有重复词汇如果有的话,会丢弃掉,默认为一个词汇。
接下来检查用户提交的字符串,有没有字母和数字。
如果有的话,就把字母和数字认为一个词。
这就是搜索引擎的查询处理。
3.分词原理(1).正向最大匹配法就是把一个词从左至右来分词。
举个例子:”不知道你在说什么”这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”。
(2).反向最大匹配法"不知道你在说什么"反向最大匹配法来分上面这段是如何分的。
“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
(3).就是最短路径分词法。
就是说一段话里面要求切出的词数是最少的。
“不知道你在说什么”最短路径分词法就是指,把上面那句话分成的词要是最少的。
“不知道,你在,说什么”,这就是最短路径分词法,分出来就只有3个词了。
(4).双向最大匹配法。
而有一种特殊的情况,就是关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,百度会进行正反向同时进行分词匹配。
二.技术说明Lucene是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式。
中文分词的三种方法
中文分词的三种方法
中文分词是对汉字序列进行切分和标注的过程,是许多中文文本处理任务的基础。
目前常用的中文分词方法主要有基于词典的方法、基于统计的方法和基于深度学习的方法。
基于词典的方法是根据预先构建的词典对文本进行分词。
该方法将文本与词典中的词进行匹配,从而得到分词结果。
优点是准确率较高,但缺点是对新词或专业术语的处理效果不佳。
基于统计的方法是通过建立语言模型来实现分词。
该方法使用大量的标注语料训练模型,通过统计词语之间的频率和概率来确定分词结果。
优点是对新词的处理有一定的鲁棒性,但缺点是对歧义性词语的处理效果有限。
基于深度学习的方法是利用神经网络模型进行分词。
该方法通过训练模型学习词语与其上下文之间的依赖关系,从而实现分词。
优点是对新词的处理效果较好,且具有较强的泛化能力,但缺点是需要大量的训练数据和计算资源。
综上所述,中文分词的三种方法各自具有不同的优缺点。
在实际应用中,可以根据任务需求和资源条件选择合适的方法进行处理。
例如,在自然语言处理领域,基于深度学习的方法在大规模数据集的训练下可以取得较好的效果,可以应用于机器翻译、文本分类等任务。
而基于词典的方法可以适用于某些特定领域的文本,如医药领
域或法律领域,因为这些领域往往有丰富的专业词汇和术语。
基于统计的方法则可以在较为通用的文本处理任务中使用,如情感分析、信息抽取等。
总之,中文分词方法的选择应根据具体任务和数据特点进行灵活调整,以期获得更好的处理效果。
中文分词介绍
中文分词介绍中文分词是中文自然语言处理的核心技术之一,它将一段中文文本拆分成一个一个常见语言单元,从而便于计算机对文本内容的理解和处理。
下面就让我们一步步地介绍中文分词技术。
第一步,中文分词的基本概念。
中文分词是将一个中文句子或段落分成若干个词语的过程。
词语是中文的基本组成单元,不同的词语有着不同的意义和作用。
中文分词技术的目的是准确地将一段文本拆分成一个个完整的词语,以便计算机进行自然语言处理。
第二步,中文分词的算法。
中文分词基本算法有两种,一种是基于规则的算法,另一种是基于统计的算法。
基于规则的算法是根据一些事先定义的规则来进行分词,这种算法比较容易实现,但是对于复杂的语言结构和多义词的处理比较困难。
基于统计的算法则是利用大量的语言模型和统计分析方法来对文本进行分词,这种算法精度较高,但是对于生僻词汇和新词的处理还需要不断地积累数据和模型的训练。
第三步,中文分词的关键技术。
中文分词技术的关键在于如何辨认出汉字之间的词边界。
为了解决这个问题,中文分词技术通常需要应用到中文词典、语料库和机器学习等技术。
其中,中文词典是中文分词技术的基础,它可以提供丰富的词汇和词语信息。
语料库则是对于大规模中文文本进行统计分析的必要手段,通过对语料库的分析可以发现词汇的相关性和使用频率等信息。
机器学习技术则是对于大量文本进行分析和训练的必要手段,通过对机器学习算法的调整和优化,可以提高分词的精准度和效率。
第四步,中文分词的应用场景。
中文分词技术在很多领域都有着广泛的应用,比如搜索引擎、机器翻译、文本分类、情感分析、智能客服等。
其中,最重要的应用场景之一是搜索引擎,中文分词可以帮助搜索引擎快速准确地理解用户的搜索意图,从而提供更加精准的搜索结果。
另外,中文分词还可以应用在智能客服中,通过对用户的输入进行实时分词和语言理解,可以实现对话语义的深入交互和理解,从而提高客户体验和满意度。
总之,中文分词技术是中文自然语言处理不可或缺的一部分,它可以对中文文本进行高效准确的处理和理解。
中文分词入门之字标注法
B 142 I 144榫 B 2觚 B 1萋 B 2 I 8钮 B 4 I 7…msr_ngram 则是标记本身 之间的共现频率,形式如B 2368391I 168205617383686918B B 1027319I B 1254154B 86017I I 427001B I 1255055B 86918I 90186918…注 由于没 尖括 在Wordpress 中被 蔽, 内容 误,谢谢读者bflout的提醒, msr_ngram:1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 B 2368391I 1682056<START> 173836<END> 86918B B 1027319I B 1254154B <END> 86017I I 427001B I 1255055<START> B 86918I <END> 901<START> <START> 86918B I B 1039293B B B 408801I I <END> 285B B <END> 18403B I I 215146<START> B I 60460I I B 214861./Character2word.pl -i msr_test.hmmtagging.utf8 -o msr_test.hmmseg.utf8 msr_test.hmmseg.utf8既是最 的 词结果, 形式如帆 东做 中 合 的先行希腊的经济结构较特 沔…当然, 个 标注中文 词的结果好坏 需要利用SIGHAN Bakeoff的score 行评../icwb2-data/scripts/score ../icwb2-data/gold/msr_training_words.utf 8 msr_test_gold.utf8 msr_test.hmmseg.utf8 > msr_hmmseg.score最 的评 结果在msr_hmmseg.score中,总的评 如…=== SUMMARY:=== TOTAL INSERTIONS: 10304=== TOTAL DELETIONS: 7030=== TOTAL SUBSTITUTIONS: 30727=== TOTAL NCHANGE: 48061=== TOTAL TRUE WORD COUNT: 106873=== TOTAL TEST WORD COUNT: 110147=== TOTAL TRUE WORDS RECALL: 0.647=== TOTAL TEST WORDS PRECISION: 0.627=== F MEASURE: 0.637=== OOV Rate: 0.026=== OOV Recall Rate: 0.181=== IV Recall Rate: 0.659### msr_test.hmmseg.utf8 10304 7030 30727 48061 106873 110147 0.647 0.627 0.637 0.026 0.181 0.659结果 忍睹, 过没关系, 要的是思想,当你明白了如何 行 标注中文 词的 计和操 之 ,可 做得改 很多,譬如增 标记集,修改 Citar中 合适的未登录词处理方法,甚 采用 他模型等等等等沔 ,52nlp 在合适的时候 绍一 最大熵模型和条件随机场在中文 词中的 用, 迎继续关注本博 !23 24 25 26 27 print "Please use: python character_split.py input output"sys.exit()input_file = sys.argv[1]output_file = sys.argv[2]character_split(input_file, output_file)执行毐py吧h欢次 化ha严a化吧优严_否p速i吧.py i化太b该-data/testing/msr_test.utf8 造否严_吧优否吧.否p速i吧.吨吧伙8毑即可得到可用于标注测试的测试语料msr_test.split.utf8, 例如1 2 3 4 5 6 7 8 9 10 帆 东 做 中 合 的 先 行希 腊 的 经 济 结 构 较 特 沔 海 业 雄 踞 全 球 之 首 , 按 计 占 世 界 总 数 的 7 % 沔 外 旅 游 沓 侨 汇 是 经 济 收 入 的 要 部 , 制 业 规 模 相 对 较 小 沔 多 来 , 中 希 贸 易 始 处 于 较 的 水 , 希 腊 几 乎 没 在 中 投 资 沔 十 几 来 , 改 革 开 放 的 中 经 济 高 发 展 , 东 在 崛 起 沔 瓦 西 的 船 只 中 4 % 驶 向 东 , 个 几 乎 都 条 船 停 靠 中 港 口 沔 他 感 到 了 中 经 济 发 展 的 大 潮 沔 他 要 中 人 合 沔他 来 到 中 , 第 一 个 华 的 大 船 沔现在执行最大熵标注脚本即可得到 标注结果./maxent-master/example/postagger/maxent_tagger.py -m msr_tagger.model msr_test.split.utf8 > msr_test.split.tag.utf8msr_test.split.tag.utf8即是标注结果, 例如1 2 3 4 5 6 7 8 9 10 /B 帆/M /M 东/M 做/E /S 中/B /E 合/B /E 的/S 先/B 行/E希/B 腊/E 的/S 经/B 济/E 结/B 构/E 较/S 特/B /E 沔/S海/B /M 业/E 雄/B 踞/E 全/B 球/E 之/S 首/S ,/S 按/S /B /E 计/B 占/E 世/B 界/E 总/B 数/E 的/S /B 7/M %/E 沔/S/B 外/E 旅/B 游/E 沓/S 侨/B 汇/E /B 是/E 经/B 济/E 收/B 入/E 的/S /B 要/E /B /M 部/M /E ,/S 制/B /M 业/E 规/B 模/E 相/B 对/E 较/B 小/E 沔/S 多/B /E 来/S ,/S 中/S 希/S 贸/B 易/E 始/B /E 处/B 于/E 较/B /E 的/S 水/B /E ,/S 希/B 腊/E 几/B 乎/E 没/B /E 在/S 中/B /E 投/B 资/E 沔/S十/B 几/M /E 来/S ,/S 改/B 革/M 开/M 放/E 的/S 中/B /E 经/B 济/E 高/B /E 发/B 展/E ,/S /B 东/E 在/S 崛/B 起/E 沔/S瓦/B 西/M /M /E 的/S 船/B 只/E 中/S /S 4/B /M %/E 驶/S 向/S /B 东/E ,/S /B 个/M /E 几/B 乎/E 都/S /S /S /S 条/S 船/S 停/S 靠/S 中/B /M 港/M 口/E 沔/S他/S 感/B /E 到/S 了/S 中/B /E 经/B 济/E 发/B 展/E 的/S 大/B 潮/E 沔/S38 39output_file = sys.argv[2]character_2_word(input_file, output_file)执行毐py吧h欢次 化ha严a化吧优严_该_太欢严北.py 造否严_吧优否吧.否p速i吧.吧a会.吨吧伙8 造否严_吧优否吧.否p速i吧.吧a会该太欢严北.吨吧伙8毑 即可得到合并 的 词结果msr_test.split.tag2word.utf8, 例如1 2 3 4 5 6 7 8 9 10 帆 东做 中 合 的先行希腊的经济结构较特 沔海 业雄踞全球之首,按 计占世界总数的 7%沔外旅游沓侨汇 是经济收入的 要 部 ,制 业规模相对较小沔多 来,中希贸易始 处于较 的水 ,希腊几乎没 在中 投资沔十几 来,改革开放的中 经济高 发展, 东在崛起沔瓦西 的船只中 4 %驶向 东, 个 几乎都 条船停靠中 港口沔他感 到了中 经济发展的大潮沔他要 中 人合 沔他来到中 , 第一个 华的大船 沔了 个 标注 词结果, 们就可 利用backoff2005的测试脚本来测一 词的效果了./icwb2-data/scripts/score ./icwb2-data/gold/msr_training_words.utf8 ./icwb2-data/gold/msr_test_gold.utf8 msr_test.split.tag2word.utf8 > msr_maxent_segment.score结果如=== SUMMARY:=== TOTAL INSERTIONS: 5343=== TOTAL DELETIONS: 4549=== TOTAL SUBSTITUTIONS: 12661=== TOTAL NCHANGE: 22553=== TOTAL TRUE WORD COUNT: 106873=== TOTAL TEST WORD COUNT: 107667=== TOTAL TRUE WORDS RECALL: 0.839=== TOTAL TEST WORDS PRECISION: 0.833=== F MEASURE: 0.836=== OOV Rate: 0.026=== OOV Recall Rate: 0.565=== IV Recall Rate: 0.846### msr_test.split.tag2word.utf8 5343 4549 12661 22553 106873 107667 0.839 0.833 0.836 0.026 0.565 0.846了 4个文件, 们可 做得 情就 较简单,只要按测试集,训 集的格式准备数据就可 了,特征模板和执行脚本可 套用, 过 简单解读一 几个CRF++文件沔首先来看训 集1 2 3 4 5 6 7 8 9 10 k B日 k Ik I聞 k I社 k I特 k B別 k I顧 k B問 k I4 n B第一列是待 词的日文 ,第 列暂且认 是词性标记,第 列是 标注中的2-tag(B, I)标记, 个很 要,对于 们需要准备的训 集, 要是把 一列的标记做好, 过需要注意的是, 断 是靠空行来完 的沔再来看测试集的格式1 2 3 4 5 6 7 8 9 10 よ h Iっ h Iて h I私 k Bた h Bち h Iの h B世 k Bk Iが h B3列,第一列是日文 ,第 列第 列 面是相似的, 过在测试集 第 列 要是占 用沔 实 ,CRF++对于训 集和测试集文件格式 的要求是 较灵活的,首先需要多列,但 能 一 ,既在一个文件 的行是 列, 的行是 列 第一列 表的是需要标注的毐 或词毑,最 一列是输出 毑标记吧a会毑,如果 额外的特征,例如词性什 的,可 到中间列 ,所 训 集或者测试集的文件最少要 列沔接 们再来 的 析一 特征模板文件1 2 3 4 # UnigramU00:%x[-2,0]U01:%x[-1,0]U02:%x[0,0]CRF++ 将特征 种类型,一种是Unigram 的,毐月毑起头, 外一种是Bigram 的,毐B毑起头沔对于Unigram 的特征,假如一个特征模板是毑月代令闭还x后-令,代成毐, CRF++ 自动的生 一 特征函数进伙吨次化令 … 伙吨次化N远 集合:1 2 3 4 5 func1 = if (output = B and feature="U01:日") return 1 else return 0func2 = if (output = I and feature="U01:日") return 1 else return 0....funcXX = if (output = B and feature="U01:問") return 1 else return 0funcXY = if (output = I and feature="U01:問") return 1 else return 0生 的特征函数的数目 = (L * N), 中L 是输出的类型的个数, 是B ,I 个tag ,N 是通过模板扩展出来的所 单个 符串(特征 的个数, 指的是在 描所 训 集的过程中找到的日文 特征 沔而Bigram 特征 要是当前的token 和前面一个 置token 的自动 合生 的bigram 特征集合沔最 需要注意的是U01和U02 标 志 , 特征token 合到一起 要是区 毐月代令闭問毑和毐月代该闭問毑 类特征,虽然抽 的日文毑 毑特征是一 的,但是在CRF++中 是 区别 的特征沔最 们再来看一 执行脚本1 2 3 4 5 6 7 #!/bin/sh../../crf_learn -f 3 -c 4.0 template train.data model../../crf_test -m model test.data../../crf_learn -a MIRA -f 3 template train.data model../../crf_test -m model test.datarm -f model执行脚本告诉了 们如何训 一个CRF 模型, 如何利用 个模型来 行测试,执行 个脚本之 ,对于输入的测试集,输出结果多了一列1 2 3 4 5 6 7 8 9 10 よ h I Bっ h I Iて h I B私 k B Bた h B Bち h I Iの h B B世 k B Bk I Iが h B B15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 word_list = line.strip().split()for word in word_list:if len(word) == 1:output_data.write(word + "\tS\n")else:output_data.write(word[0] + "\tB\n")for w in word[1:len(word)-1]:output_data.write(w + "\tM\n")output_data.write(word[len(word)-1] + "\tE\n")output_data.write("\n")input_data.close()output_data.close()if __name__ == '__main__':if len(sys.argv) != 3:print "pls use: python make_crf_train_data.py input output"sys.exit()input_file = sys.argv[1]output_file = sys.argv[2]character_tagging(input_file, output_file)只需要执行毐py吧h欢次make_crf_train_data.py ./icwb2-data/training/msr_training.utf8 造否严_吧严ai次i次会.吧a会会i次会4化严伙.吨吧伙8毑 即可得到CRF++要求的格式的训 文件msr_training.tagging4crf.utf8, 例如1 2 3 4 5 6 7 8 9 10 11 “ S人 B们 E常 S说 S生 B活 E是 S一 S部 S...了 份训 语料,就可 利用crf 的训 工 crf_learn 来训 模型了,执行如 命 即可crf_learn -f 3 -c 4.0 template msr_training.tagging4crf.utf8 crf_model 训 的时间稍微 长,在 的4G 内 的mac pro 跑了将 700 ,大 2个小时,最 训 的crf_model 51M 沔 了模型,现在 们需要做得 是7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38import codecsimport sysdef character_2_word(input_file, output_file):input_data = codecs.open(input_file, 'r', 'utf-8')output_data = codecs.open(output_file, 'w', 'utf-8')for line in input_data.readlines():if line == "\n":output_data.write("\n")else:char_tag_pair = line.strip().split('\t')char = char_tag_pair[0]tag = char_tag_pair[2]if tag == 'B':output_data.write(' ' + char)elif tag == 'M':output_data.write(char)elif tag == 'E':output_data.write(char + ' ')else: # tag == 'S'output_data.write(' ' + char + ' ')input_data.close()output_data.close()if __name__ == '__main__':if len(sys.argv) != 3:print "pls use: python crf_data_2_word.py input output"sys.exit()input_file = sys.argv[1]output_file = sys.argv[2]character_2_word(input_file, output_file)只需执行毐py吧h欢次 化严伙_北a吧a_该_太欢严北.py 造否严_吧优否吧4化严伙.吧a会.吨吧伙8造否严_吧优否吧4化严伙.吧a会该太欢严北.吨吧伙8毑 即可得到合并 的 词结果文件msr_test4crf.tag2word.utf8, 例如1 2 3 4 5 6 7 帆 东 做 中 合 的 先行希腊 的 经济 结构 较 特 沔海 业 雄踞 全球 之 首 , 按 计 占 世界 总数 的 7% 沔 外 旅游 沓 侨汇 是 经济 收入 的 要 部 , 制 业 规模 相对 较小 沔多 来 , 中 希 贸易 始 处于 较 的 水 , 希腊 几乎 没 在 中 投资 沔7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 # 4 tags for character tagging: B(Begin), E(End), M(Middle), S(Single)import codecsimport sysimport CRFPPdef crf_segmenter(input_file, output_file, tagger):input_data = codecs.open(input_file, 'r', 'utf-8')output_data = codecs.open(output_file, 'w', 'utf-8')for line in input_data.readlines():tagger.clear()for word in line.strip():word = word.strip()if word:tagger.add((word + "\to\tB").encode('utf-8'))tagger.parse()size = tagger.size()xsize = tagger.xsize()for i in range(0, size):for j in range(0, xsize):char = tagger.x(i, j).decode('utf-8')tag = tagger.y2(i)if tag == 'B':output_data.write(' ' + char)elif tag == 'M':output_data.write(char)elif tag == 'E':output_data.write(char + ' ')else: # tag == 'S'output_data.write(' ' + char + ' ')output_data.write('\n')input_data.close()output_data.close()if __name__ == '__main__':if len(sys.argv) != 4:print "pls use: python crf_segmenter.py model input output"sys.exit()crf_model = sys.argv[1]input_file = sys.argv[2]output_file = sys.argv[3]tagger = CRFPP.Tagger("-m " + crf_model)crf_segmenter(input_file, output_file, tagger)。
词位标注汉语分词技术详解
词位标注汉语分词技术详解
于江德;王希杰
【期刊名称】《安阳师范学院学报》
【年(卷),期】2010(000)005
【摘要】近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线.本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF++0.53工具包实现字串序列词位标注进行了详解.最后在Bakeoff2006的评测语料上进行了封闭测试.
【总页数】5页(P1-5)
【作者】于江德;王希杰
【作者单位】安阳师范学院,计算机与信息工程学院,河南,安阳,455002;安阳师范学院,计算机与信息工程学院,河南,安阳,455002
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于三词位的字标注汉语分词 [J], 王希杰;黄勇杰
2.词位标注汉语分词中特征模板定量研究 [J], 于江德;王希杰;樊孝忠
3.词位标注汉语分词中上下文有效范围定量分析 [J], 王希杰
4.基于最大熵模型的词位标注汉语分词 [J], 于江德;王希杰;樊孝忠
5.初中英语复习课中网络信息技术的运用——以Unit 8方位词复习课为例 [J], 高筱婉; 庄海滨
因版权原因,仅展示原文概要,查看原文内容请购买。
词位标注汉语分词中上下文有效范围定量分析
词位标注汉语分词中上下文有效范围定量分析王希杰【摘要】在利用条件随机场进行基于词位标注的汉语分词时,特征窗口的宽度是决定条件随机场学习效果的重要参数.针对特征窗口最佳宽度的选择问题,设计了一组特征模板,并选取Bakeoff2005中的测试语料,使用CRF++0.53工具包进行了对比实验,定量分析了影响分词效果的有效上下文范文.通过实验得出以下结论:下文对分词性能贡献要大于上文;影响分词性能的特征窗口的宽度不超过五,以四字或五字窗口为宜.%In Chinese word segmentation with Conditional Random Field (CRF), the size of feature window plays a crucial role in corpus training. To find the proper size of feature window, a group of feature templates were selected for the comparative tests performed on Bakeoff2005 with toolkit CRF + + 0. 53 considering the effective range of context. The results are: (1) contribution of below-context is greater than above-context; (2) size of feature window influencing the segment performance is no larger than 5, the proper size is four or five.【期刊名称】《计算机应用》【年(卷),期】2012(032)005【总页数】4页(P1340-1342,1346)【关键词】汉语分词;条件随机场;上下文;特征窗口;特征模板【作者】王希杰【作者单位】安阳师范学院计算机与信息工程学院,河南安阳455000【正文语种】中文【中图分类】TP391.10 引言词是最小的能够独立运用的有意义的语言单位,但汉语中词之间没有自然分割,也不存在明显的形态标记,因此,汉语自动分词是中文信息处理领域中的一项基础性研究课题,是句法分析、语义分析、篇章理解等深层中文信息处理的基础,也是机器翻译、自动问答系统、信息检索和信息抽取等应用技术进一步发展的关键[1-2]。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[收稿日期]2010-06-26[基金项目]河南省教育厅高等学校青年骨干教师项目(2009G GJS -108)。
[作者简介]于江德(1971-),男,博士,副教授,主要从事自然语言处理、信息抽取、文本数据挖掘等。
①可以从以下地址下载:http ://cr fpp .so ur cefo rg e .net[汉语词法·甲骨文]汉语词法分析是中文信息处理的首要任务,主要包括分词、词性标注、命名实体识别三项子任务,它是句法分析与语义分析的基础,其性能将直接影响到中文信息处理的后续应用。
安阳师范学院计算机与信息工程学院依托河南省高等学校“甲骨文信息处理”重点实验室培育基地,“中文信息处理”校级重点实验室“计算语言学”校级研究所等平台。
对汉语词法分析中的这三项子任务、甲骨文进行了较深入的研究,取得了部分研究成果,现借学报这个平台展示给各位同仁,敬请各位专家学者指正。
词位标注汉语分词技术详解于江德,王希杰(安阳师范学院计算机与信息工程学院,河南安阳455002)[摘 要]近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。
本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF ++0.53工具包实现字串序列词位标注进行了详解。
最后在Bakeo ff2006的评测语料上进行了封闭测试。
[关键词]汉语分词;条件随机场;词位标注;特征模板[中图分类号]T P391 [文献标识码]A [文章编号]1671-5330(2010)05-0001-05 在中文信息处理领域,词是最小的能够独立运用的有意义的语言单位。
但汉语书写时却以字为基本的书写单位,词语之间不存在明显的分隔标记,因此,中文信息处理领域的一项基础性研究课题是如何将汉语的字串切分为合理的词语序列,即汉语分词。
它不仅是句法分析、语义分析、篇章理解等深层中文信息处理的基础,也是机器翻译、自动问答系统、信息检索和信息抽取等应用的关键环节[1,2]。
近年来,尤其是2003年7月首届国际中文分词评测活动Bakeo ff 开展以来,汉语分词技术取得了可喜的进步,该领域的研究取得了令人振奋的成果[3,4]。
其中,基于字的词位标注汉语分词技术(也称为基于字标注的汉语分词或由字构词)得到了广泛关注,在可比的评测中性能领先的系统几乎无一例外都应用了类似的标注思想[3,5]。
基于字的词位标注汉语分词将分词看作序列数据的标注问题,使用序列数据标注模型实现,例如,可采用条件随机场(Co nditional Random Fields ,简称CRFs )实现。
CRFs 是Lafferty 等[6]于2001年提出的一种用于序列数据标注的条件概率模型。
本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用B 、M 、E 、S 四词位标注集,使12010年 安阳师范学院学报用CRF ++0.53工具包①实现字串序列词位标注的相关技术细节进行了讲解。
最后给出了在Bakeo ff2006的两种评测语料上的实验结果。
1 词位标注汉语分词的基本思想汉语中的每个词语是由一个字或多个字组成的,例如,“天空”、“今天”是两个字组成的词语,“异想天开”是四字词,“天”是单字词。
而构成词语的每个汉字在一个特定的词语中都占据着一个确定的构词位置,即词位。
本文中我们规定字只有四种词位:B (词首)、M (词中)、E (词尾)和S (单字成词)。
由此,四字词“异想天开”标注每个字的词位后就是:“异/B 想/M 天/M 开/E ”。
并且同一个汉字在不同的词语中可以占据不同的词位,例如,汉字“天”在上面的四个词语中的词位依次是:词首B 、词尾E 、词中M 、单字词S 。
词位标注汉语分词技术就是把分词过程看做每个字的词位标注问题。
如果一个汉语字串中每个字的词位都确定了,那么该字串的词语切分也就完成了。
例如:要对字串“当希望工程救助的百万儿童成长起来。
”进行分词,只需求出该字串的词位标注结果(1),根据词位标注汉语分词的基本思想,由词位标注结果就很容易得到相应的分词结果(2)了。
(1)词位标注结果:当/S 希/B 望/M 工/M 程/E 救/B 助/E 的/S 百/B 万/E 儿/B 童/E 成/B 长/E 起/B 来/E 。
/S(2)分词结果:当 希望工程 救助 的 百万 儿童 成长 起来 。
需要注意的是,由于汉语真实文本中还包含少量的非汉字字符,所以基于字的词位标注中所说的字不仅仅指汉字,而且还包括标点符号、西文字母、数字等其他非汉字字符。
2 基于条件随机场的词位标注汉语分词词位标注汉语分词技术的实质是将汉语分词转化为字序列的词位标注问题,该问题可使用序列数据标注模型之一的条件随机场来实现。
本小节重点解析条件随机场如何对字序列到词位序列进行建模,以及建模过程中需要注意的关键问题。
2.1条件随机场简介条件随机场是一种以给定的输入结点值为条件来预测输出结点值概率的条件概率模型。
用于模拟序列数据标注的C RFs 是一个简单的链图或线图(如图1所示),它是一种最简单也最重要的CRFs ,称为线链C RFs (linear -chain C RFs )。
图1 线链CRFs 的图形结构设O ={o 1,o 2,……,o T }表示被观察的输入数据序列,例如有待标注词位的字序列。
S ={s 1,s 2,……,s T }表示被预测的词位标记序列。
这样,在一个输入字串序列给定的情况下,参数为Λ={λ1,λ2,…,λK }的线链C RFs ,其词位序列的条件概率为:P Λ(S O )=1Z Oex p (∑T t =1∑Kk =1λk f k (s t -1,s t ,o ,t ))(1)其中,Z O 是归一化因子,它确保所有可能的词位序列的条件概率之和为1,即它是所有可能的词位序列的“得分”的和:Z O =∑S exp (∑Tt =1∑Kk =1λk f k (s t -1,s t ,o ,t ))(2)f k (s t -1,s t ,o ,t )是一个任意的特征函数,用于表达上下文可能的语言特征。
条件随机场模型通过特征函数能够整合任何特征,包括可观察字序列O 在时刻t 的所有特征,即当前字及其上下文所组成字串序列的特征,以及隐变量词位的转移特征s t -1→s t 。
一般来说,特征函数定义在一个加氏集O ×S 上,其中,O 是可能的上下文或者任意的预定义条件的集合,S 是一组可选的标注集。
特征函数通常是一个二值表征函数,表示如下:f k (s t -1,s t ,o ,t )=1,如果满足条件0,否则(3)λk 是一个需要从训练语料中学习的参数,是相应的特征函数f k (s t -1,s t ,o ,t )的权重,取值范围可以是-∞到+∞。
给定一个由公式(1)定义的条件随机场模型,在已知输入的字串序列O 的情况下,最可能的词位标记序列可以由下式求出:S*=arg max SP Λ(S O )(4)最可能的词位标记序列可以由上式通过类似于H MM 中的韦特比算法动态规划求出。
建立从字序列到词位标记序列的CRFs 模型还有两个关键问题:参数估计和特征选择。
参数估计是从训练数据集学习每一个特征的权重参2安阳师范学院学报 2010年数,即求解向量Λ={λ1,λ2,…,λK}的过程。
而特征选择是筛选出对C RFs模型有表征意义的特征,结合本文所采用的CRF++0.53工具包,其关键在于根据具体的任务设定一组合适的特征模板。
C RFs模型进行序列数据标注时需要使用大量的上下文特征,习惯上,我们把这些上下文特征按照共同的属性分为若干组,称之为特征模板。
2.2 CRF++中特征模板的设定在具体使用C RF++0.53工具包进行词位标注汉语分词的时候,设定的特征模板有两大类: (1)Unig ram(一元)特征模板,这类特征模板在模板文件中以大写字母“U”开头;(2)Big ram(二元)特征模板,这类特征模板以大写字母“B”开头。
特别需要注意的是,这里的“一元”、“二元”是对特征中出现的词位标记个数而言的,而不是对特征中的字的个数而言。
从这个意义上讲,这里的“一元”、“二元”不同于大多数已有文献中的含义。
对于基于字的词位标注汉语分词这一任务而言,可供选择的特征非常少,主要需要考虑的是字特征[3]。
字特征是指当前字本身及其上下文构成的特征,根据文献[3]中“使用前后各两个字是比较理想的”结论,则这一具体任务的字特征是指当前字本身、以及当前字前后各两个字所组成的特征。
结合采用的CRF++这一工具包,参考文献[3],根据和当前字的字距不同将所有字特征抽象为10类,对应10个特征模板,这些特征模板属于Unigram(一元)特征模板。
表1给出了这些特征模板的所属类型、一般表示形式、C RF++工具包模板文件中的形式、模板表征的意义等。
在CRFs模型进行训练的时候,这些特征模板将会扩展出数以千万计的特征,并且每个特征都对应一组特征函数,这些特征函数对CRFs模型的学习至关重要。
从表1可以看到,第二类:Big ram (二元)特征模板仅仅包含一个特征模板:B,该模板用于表征上下文中相邻两个字的词位转移特征。
训练中该模板扩展出的特征是有限的,对四词位标注汉语分词而言,可以扩展出16个(词位转移)特征。
表1 特征模板列表模板类型特征模板CRF++中模板的形式模板表征的意义U nig ram(一元)C-2U00:%x[-2,0]当前字的前面第二个字C-1U01:%x[-1,0]当前字的前一个字C0U02:%x[0,0]当前字C1U03:%x[1,0]当前字的后一个字C2U04:%x[2,0]当前字的后面第二个字C-2C-1U05:%x[-2,0]/%x[-1,0]当前字的前面两个字组成的字串C-1C0U06:%x[-1,0]/%x[0,0]当前字前一个字和当前字组成的字串C0C1U07:%x[0,0]/%x[1,0]当前字及其后一个字组成的字串C1C2U08:%x[1,0]/%x[2,0]当前字的后面两个字组成的字串C-1C1U09:%x[-1,0]/%x[1,0]当前字的前一个字和后一个字Big ram(二元)T-1T0B相邻两个字的词位转移特征3 实验结果为验证本文采用B、M、E、S四词位,使用条件随机场作为词位标注建模工具,并使用表1中的11个特征模板进行汉语分词的方法,我们在Bakeo ff2006的两种简体中文评测语料上分别进行了训练和评测。