基于条件随机场的中文分词方法_迟呈英
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
×Pecall Recall
3. 2 CRF 对歧义词和未登陆词的处理实验 中文分词任
务的难点在于分词边界的歧义处理和未登陆词的识别问题 。
我们从分词歧义情况的处理和未登陆词的识别两个方面 ,来 分析条件随机场的分词处理方法 、效果及其在分词任务中仍
待解决的方面 。
3. 2. 1 歧义词的处理实验 。在这里 ,我们首先考察 、分 析条件随机场解决中文分词词边界的消歧能力 。因为歧义片
D = ( X , Y) ,观测数据 X = { X1 , X2 , …, XN } ,标记数据 Y = { Y1 , Y2 , …, YN } 。
在中文分词系统中 , 条件随机场的训练就是通过训练语
料来学习最恰当的模型参数 ,来使得某种规则标准最大 。在这
里 ,基于最大似然原则 ( maximum - likelihood principle) 对条
迟呈英 于长远 战学刚
(辽宁科技大学 鞍山 114051)
摘 要 提出了一种基于条件随机场 (Conditional Random Fields ,简称 CRF) 的中文分词方法 。CRF 模型利用词的上 下文信息 ,对歧义词和未登陆词进行分词统计处理取得了理想的效果 。以 SIGHAN2006 Chinese Language Processing Bakeoff 提供的数据作为实验数据 。实验数据表明 ,基于 CRF 的中文分词方法取得了很好的效果 ,在 Uppen ,Msra 两 种语料的封闭测试中准确率分别达到了 95. 8 %和 95. 9 %。 关键词 条件随机场 中文分词 歧义词 未登陆词
从式 (1) 可以看到 ,在条件随机场的分布函数 , 归一化因
子完全独立于标记序列 。所以 , 给定模型参数条件下 , 求得最
可能的标记序列可以表示为 :
6 Y 3 = arg max y P ( Y | X) = arg max y exp ( λkf k ( yi - 1 , i, k
6 yi , x) + λ′kf ′k ( yi , x) )
条件随机场模型是新近提出的一个基于统计的序列标记 和分割的方法 。CRF 是一个在给定输入节点条件下计算输 出节点的条件概率的无向图模型 。它没有隐马尔可夫模型 ( Hidden Markov Model) ( L . R. Rabiner. 1989) 那样严格的独 立假设 ,同时克服了最大熵马尔可夫模型 ( Maximum Entropy Markov Model , MEMM) ( Andrew McCallum ,2000) 和其他非 生成的有向图模型 (non - generative directed graphical models) 所固有的“标记偏置”[2 ] (label - bias) (John Lafferty ,2001) 的 缺点 。
1 条件随机场模型理论
1. 1 条件随机场模型的定义 CRF 是无向图模型 ,其最 简单的形式是链式 CRF ,也就是模型中的各个节点构成了链 式分布 ,根据中文分词的特点 ,本文采取的就是链式 CRF 。
在链式 CRF 中 ,无向图中的所有标记结点形成一个链 。在一 阶链式条件随机场中 , 全连通子图集合就是所有的含有当前 标记 yi 、前一个标记 yi - 1 和包含观测序列 x 的任何子集的最 大连通子图 。例如 ,在图 1 中 ,结点集合{ Y2 , Y3 , X} 就为一个 最大连通子图 。其形式如图 1 所示 :
语料 Uppen Msra
准确率 95. 8 % 95. 9 %
召回率 91 % 94. 5 %
F值 92. 9 % 95. 2 %
切分准确率 ( Precision)
=
正确切分的数量 总的切分数量
召回率 ( Recall)
=
正确切分的数量 测试集中实有切分的数量
F
值 ( Fscore)
=
2
×Precision Precision +
f k ( yi - 1 , yi , x) 是针对边 、捕获标记转移特征的状态特征函
K′
6 数 。exp ( λ′kf ′k ( yi - 1 , yi , x) ) 是针对每个结点的非负因子 。 k =1
f′k ( yi , x) 是针对结点 、捕获当前标记特征函数 。λ和λ′都是
待学习的Байду номын сангаас型参数 ,表示特征函数的权重 。
词典词 ,根本不会考虑上下文的信息 。所以 ,该歧义片断会被 错误地切分为“外交部 长”。而使用条件随机场进行分词 ,条 件随机场模型可以通过当前字的上下文的位置信息来进行判
断 ,比如 ,在“外交部长”的片断中 ,虽然“外交部”是词典词 ,但 条件随机场模型会从该片断序列整体考虑出发 ,进行统计判 断 。在训练语料中 “, 外交部”一词后面从来没有出现过“长” 字 。而且“外交 部长”这个切词片断在训练语料中出现了 22 次 。这些统计信息都将作为条件随机场的重要特征 ,使得歧 义片断“外交部长”能够被正确切分 。
1. 2 条件随机场的训练 在序列标注任务中 , 给定训练
作者简介 :迟呈英 ,女 ,1963 年生 ,教授 ,硕士 ,研究方向为数据库技术 、自然语言理解 ;于长远 ,男 ,1981 年生 ,硕士研究生 ,研究为自然语言理解 ; 战学刚 ,男 ,1962 年生 ,教授 ,博士 ,研究方向为自然语言理解 、信息检索 、网络安全 。
动态规划是最优化原理中的一种重要方法 。在解决一个大的
问题中包含有很多重叠的子问题情况的最优解是有效的 , 它
将问题重新组合成子问题 。为了避免多次解决这些子问题 ,计
算过程中会将中间结果保存以备后用 , 直至整个大的问题被
解决 。
2 自动分词模型
在本文中 , 根据中文分词的特点及条件随机场所使用的 特征[4~5 ] ,即 CRF 能够同时使用中心词的前 n 个词和后 m 个 词作为该词的上下文信息 。这样 ,中心词的词性不仅与它前面 的词有关 , 还与它后面的词有关 , 更加符合实际情况 。在本文 中 ,使用了中心词本身 、中心词的前两个词和中心词后两个 词 ,以及它们之间的结构特征 ,我们所采用的特征模板如下 :
在我们实验中 ,如果字符是阿拉伯数字 ,那么 T ( . ) 为 1 ; 如果字符是‘年’‘、月’或‘日’, 那么 T ( . ) 为 2 ; 如果字符是 ‘分’或‘秒’那么 T ( . ) 为 3 ; 如果字符是文字数字形式 ( 如 ‘一’‘、二’等) ,那么 T ( . ) 为 4 ; 如果字符是英文字符 , 那么 T ( . ) 为 5 ;如果字符是其他情况 , T ( . ) 为 6 。特征模板 (a) 和 (c) 都是单个序列元素的特征 ; 特征模板 ( b) 和 (d) 都是元素 序列的组合特征 。同样 , 实验中也针对多字词的情况实验过 C- 1 C0 C1 等长词特征 ,但实验效果并不理想 。
79
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
情报杂志 2008 年第 5 期 J o u r n al of Inf o r m a ti o n N o . 5 ,2008
J o ur n al of Inf o r m a ti o n N o . 5 ,2008 情报杂志 2008 年第 5 期
基于条件随机场的中文分词方法
A Chinese Word Segmentation Approach Using Conditional Random Fields
中文分词是自然语言理解中很重要的内容之一 ,也是当 前智能信息处理技术的基础 。分词的效果将影响到后续分析 的难易程度 ,如句法分析 、语义分析等 。现阶段人们提出了许 多中文分词的算法 ,主要可以分成以下三类 :a. 基于字符串匹 配的分词方法 :待分析的中文字符串与一定规模的词典中的 词条进行匹配 ,若在词典中找到某个字符串 ,则匹配成功 (识 别出一个词) 。按照扫描方向的不同 ,串匹配分词方法又可分 为正向和逆向匹配 ;按照优先匹配的原则 ,可分为最大和最小 匹配 。b. 基于理解的分词方法 :这种分词方法是通过让计算 机模拟人对句子的理解 ,达到识别词的效果 ,也称人工智能 法 。c. 基于统计的分词方法 :这种方法只需对语料中的字组 频率进行统计 ,而不需要切分词典 ,因而又叫作无词典分词法 或统计取词方法 ,其主要包括基于引马尔可夫模型 、基于最大 熵模型 、基于条件随机场模型的方法等[1 ] 。
(4)
i,k
在当前序列位置为 i 、当前标记为 y 的时候 , Viterbi 算法
可以求得至当前位置的最优标记序列的未归一化概率值 。其
递归形式为 :
Φ( i , y)
=
max y′Φ( i
-
1 , y′) 3
6 e
λkf k ( x , y , y′, i)
k
(5)
Viterbi 算法属于动态规划算法 ( dynamic programming) 。
i,k
+
λ′kf ′k ( yi , x ) )
i, k
(1)
Zx 是 只 依 赖 于 观 测 序 列 的 归 一 化 函 数 (normalizing
factor)
6 6 Z ( x) = exp (
λkf k ( C , Yi , X) )
(2)
ik
K
6 其中 ,exp ( λkf k ( yi - 1 , yi , x) ) 是 针 对 边 的 非 负 因 子 。 k =1
3 试验结果和分析
3. 1 CRF 分词实验结果 本次实验使用的所有数据都来 自于 SIGHAN2006 Chinese Language Processing Bakeoff[6 ] 提 供的数据 ,进行的是分词封闭性测试 。分词测试结果如下 :
表 1 条件随机场在 SIGHAN2006 中文分词语料上的分词结果
件随机 场 进 行 训 练 , 使 得 条 件 概 率 的 log 似 然 值 (log -
likelihood) [3 ] 最大 :
6 L (λ) =
log pλ( y | x)
(3)
( x , y) ∈D
1. 3 条件随机场的推理 条件随机场的推理是指在给定
一个观测序列 X = { X1 , X2 , …, XN } 的条件下 , 找到一个对 应于最可能的标记序列 Y = { Y1 , Y2 , …, YN } 。
(a) Cn ( n = - 2 , - 1 ,0 ,1 ,2) ( b) CnCn+1 ( n = - 2 , - 1 , 0 , 1 , 2) (c) Pu ( C0) ( d) T ( C- 2) T ( C- 1) T ( C0) T ( C1) T ( C2) 其中 , C 代表着中文字符 ; C0 代表着当前字符 ; n 是相对于当前字符所处的位置 。 比如 , 在序列“辽宁科技大学的学生”中 , 假如当前字符是 ‘的’,那么 C0 表示‘的’; C- 1 表示‘学’; C2 表示‘生’。Pu ( C0) 是针对分词语料在中存在的标点符号 (预先搜集 , 比如‘。’、 ‘ ?’等) 而设置的特征 ; T ( Cn) 是针对分词语料中实体名词而 设置的特征 。这主要针对诸如日期 、时间等和数字符号相关的 词类 。
图 1 链式条件随机场
在序列标注任务中 ,随机变量 X = { X1 , …, X n} 表示可 观测序列 ; 随机变量 Y = { Y1 , Y2 , …, Y n} 表示观测序列对 应的标记序列 ,随机变量 Y 的链式条件概率分布为 :
6 6 P( y |
x)
=
Z
1 ( x)
exp
(
λkf k ( yi - 1 , yi , x )
断很难确定 ,所以我们目前只是简单地通过正向匹配分词和 逆向匹配分词法对测试语料进行分词 ,然后通过双向比对来 确定歧义片断 。通过此法 ,在 Upenn 语料中得到共有 2046 处歧义片断 。得到这些歧义片断含有只有通过简单的字组合
匹配可能的词典词 。
比如 ,歧义片断“外交部长”等 。其中的词典词有“外交 部”“、外交”和“部长”。最大匹配只是机械地匹配字数最长的