基于条件随机场CRFs的中文词性标注方法_洪铭材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(1)
i
其中 i 遍历输入数据 序列的 所有 位置 , f (y , x , i)表示 在 i 位
置时各个特征 组成 的特 征向 量 。 于 是 , C RFs 定 义的 条 件概
率分布为
p λ(Y
,
X)=ex p[
λ· F(Y , Z λ(X)
X )]
(2)
其中
Z λ(X)=∑ ex p[ λ· F(y , x)] y
s(y , x , i)=s(y i , x , i)
t(y , x , i)=
t(yi -1 , yi , x , i) 0
i >1 i =0
来表示所有的状态特征 s 和转移特征 t 。
对于输入数据序列 x 和标 注结 果序列 y , 条件 随机 场 C
的全局特征表示为
F(y , x)∑ f(y , x , i)
y
比解码(Viterbi decoding)方法来得到最佳的标注结果序列 。
CRF s 具有很强的推理能力 , 并且 能够使 用复杂 、有 重叠
性和非独立的特征进 行训练 和推理 , 能够 充分地 利用上 下文
信息作为特征 , 还可以任意地添加其他外部特征 , 使得模型能
够获取的信 息非 常丰 富 。 同 时 , CRFs 解决 了最 大熵 模型 中
词性是词 的句 法功 能类 别 。 在各 种 自然 语言 处 理过 程
与它前面的 n 个词有关 , 而与 它后面 的词无 关 。 这个假 设在 中 , 几乎都有一个词性标注的阶段 。 因此 , 词性标注的正确率
词性标注任务中并不 符合 实际 。 最 大熵 模型(M EM M )能够 充分利用词的上下文信息 , 但是存在着“ label bia s”[ 1] 的弱点 。
上下文信息来 确定 该词 在句 子中 的唯 一词 性 。 对于 未 登录 和实验分析 ;最后是对本文的概括以及对未来工作的展望 。
词 , 能够获取关于该词的信息相对较少 , 可以根据词的上下文 信息以及词的 构词 特点 来确 定其 词性 。 在 基于 隐马 尔 可夫
2 相关工作
(H M M)模 型的词性标 注方 法中 , 通 常假 设中 心词 的词 性只
确定 。每个 局部特征可能是一个状 态特征 s(y , x , i), 也可能
是一个转移特征 t(y , y′, x , i), 其中 , y , y′是标 注的结果 标签 ,
x 是一个输入数据序列 , i 是输入序列的某个位置 。 为了表示
统一 , 用
s(y , y′,Hale Waihona Puke Baidux , i)=s(y′, x , i)
· 148 ·
行文本标注时 , 先对文本进行初始标注 , 然后按照规则获取的 次序应用规则进行标注 。 该方法在英文词性标注上取得了很 好的效果 。 其主要问题是学习规则的时间过长 。 针对这一问 题 , 周明等提出一个快速学习算法 , 使训练速度大大提高[ 2] 。
③基于统计的方法 。 基于统计的方法是目前应用最广泛 的词性标注方法 。 白栓虎提出基于统计的汉语词性自动标注 方法 , 使用二元语法模型 和动态 规划的 方法进 行汉语 的词性 标注 。当前 大部分汉语词性系统采用基于二元语法模型或三 元语法模型的隐马尔可夫模型 , 通过 EM 训练的方法 , 给每个 词和词性标签对分配一个 联合概率 , 通 过维特 比解码 的动态 规划方法来获取一个句子对应的最佳的词性标注序列 。 隐马 尔可夫模型的缺点是假设词的词性只与 词本身和它 前面的 n 个词有关 , 而与该词后 面的词 没有关 系 。 这个假 设与实 际情 况并不吻合 。 基于最大熵模 型的词 性标注 方法 , 有效地 利用 了上下文信息 , 在一定的 约束条 件下可 以得到 与训练 数据一 致的概率分布 , 得到了 很好标 注效果 。 但 是最大 熵模型 存在 一种称为“ label bias” 问题 的弱点[ 1] , 在 某些 训练 集上得 到的 模型可能会得到很差的标注效果 。 常见的基于统计的方法还 有神经元网络 、决策树 、线性分离网络标注模型等 。
(3)
给定一个输入数 据序列 x, 标 注的 目标就 是找 出其对 应
的最可能的标注结果序 列y, 即
y =a rgmax pλ(y x) y
(4)
由于 Z λ(X)不依 赖于 y , 因 此 有 y =arg max pλ(y x)= y
a rgmaxλ· F(y , x)。 与隐马尔可夫模型相似 , CRFs 使用 维特
了广泛的应用并取得了很好的效果 。
文章的组织结构如 下 :第 2 节介 绍中文 词性标 注的相 关
在基于统计方法的词性 标注中 , 对兼 类词和 未登录 词的 工作 ;第 3 节阐述 CRF s 理论 及其训 练方法 ;使用 CRFs 进行
标注是两个需要解决的 问题 。 对于 兼类词 , 可以 根据该 词的 中文词性 标注的方 法将在第 4 节中介绍 ;第 5 节是实验 结果
大致可以分为 3 类 : ①基于规则的方法 。 基于规则的方法 是最早提出的词性
进行序列数据 的标 注 。 与最 大熵 模型 一样 , C RF s 是 指 数形 标注方法 , 它手工编制包含繁杂的语法和/ 或语义信息的词典
式的模型 , 具有很强的 推理能 力 , 并 且能够 使用复 杂 、有 重叠 和规则系统 。 这种方法 不仅费 时费力 , 而且 带有很 大的主 观
的“ label bias” 问题 。C RF s 与最大熵模型的本质区别是 :最大
熵模型在每个状态都 有一个 概率模型 , 在 每个状 态转移 时都
要进行归一化 。 如果某 个状态 只有一 个后续 状态 , 那么该 状
态到后续状态 的跳 转概率 即为 1。 这 样 , 不管 输入为 任何 内
容 , 它都 向该后 续状态跳 转 。 而 C RFs 是 在所有 的状态 上建
征信息 。 同时根据汉语的构 词特点 , 使用 词的后 缀信息 作为 每个词最可能的词性标记 , 然后用该标记标注训练语料库 , 称
特征 , 在标注未登录词时起到了很好的效果 。
为初始标注 , 然后通过规 则学习 的方法 获取新 的规则 。 在 进
洪铭材 硕士生 , 研究方向为信息抽取 、信息检索 ;张 阔 博士生 , 研究方向为信息抽取 、语义网络 ;唐 杰 博士生 , 研究方向为信息 抽取 、语 义网络 、信息集成 ;李涓子 副教授 , 研究方向为自然语言处理 、语义网络 。
spectively . Keywords P art-of-speech tag ging , Co nditional r andom fields (CRFs), Viterbi decoding
1 引言
本文使 用 PF R《 人 民 日 报》 标 注 语料 库 作为 实 验 数据 。 实验结果表明 , 基于 CRFs 的中文 词性 标注方 法取 得了很 好
wo rds a re exploited , but also a re new statistical features adopted fo r multiple-categ ory and o ut-o f-vocabulary wo rds. Closed a nd open tests conducted o n Peo ple Daily da ta set obtain PO S tag ging accuracies o f 98 .56 % and 96 .60 %, re-
使用词的上下文信息的同时 , 针对兼类词 和未登录词添加了新 的统计 特征 。 在《 人民 日报》 1 月份 语料库 上进行 的封 闭测试和开放测试中 , 该方法的标注准确 率分别为 98 .56%和 96.60 %。
关键词 词性标注 , 条件随机场 , 维特比解码
A Chinese Part-of-speech Tagging Approach Using Conditional Random Fields
H ON G Ming-Cai Z HA NG K uo T A N G Jie L I Juan-Zi
(K now ledge Engineering Lab , D CS T , Tsin ghua U ni v ., Bei ji ng 100084)
Abstract T his paper presents a new appr oach to par t-of-speech (PO S)tagg ing fo r Chinese tex ts using conditional r andom fields (CRFs).T o take adv antag e of the ability of using a rbitra ry features as input in CRFs , no t o nly contex ts o f
构 。 一个线性 的 C RF s 对 应于一个 有限状 态机 , 它非 常适合
于进行线性数据序列的标 注 。 下面 , 如果 不加说 明 , C RF s 均
指线性的 CRFs 。 用 x =(x1 , x 2 , … , x n)表示要进 行标注的 数据序列 , y =(y1 , y 2 , … , yn)表 示对应的结果序列 , 并且假 设 x, y 的 长 度相 同 。 例 如 , x 可 以 表示 一 个 中 文 句 子 x =
(彭 , 楚政 , 再 , 获 , 全国 , 民族 , 团结 , 进步 , 模范 , 称 号
。), y 则表示 该句子中每 个词的词 性序列 y =(nr, nr, d , v ,
n, n, a, v , n, n, w)。
对于(X , Y), C 由 局部特征 向量 f 和对 应的权 重向 量 λ
性和非独立 的特 征 进行 训练 和 推理 。 目 前 CRFs 在 信息 抽 性 , 难以保证规则的一致性 。 更大的问题是处理歧义长句 、生
取 、命名实体识别 、词组识别 、语 音句子边 界识别 等领域 都表 词 、不规范句子的能力非常脆弱 , 词性标注准确率不高 。
现出很好 的性能 。 本 文利用 CRF s 的特点 , 在 进行词 性标注
②基于变换的方 法 。 该方 法由 Eric Bill 提 出 , 用于标 注
时不但利用了词的上下文 信息作为 特征 , 而且 充分利 用了训 英语的词性 , 其基本思想是 利用一 个带词 性标注 的语料 库来
练集的统计信息作为特征 , 为兼 类词的 标注提 供了更 多的特 例示实现设计好的模 板 , 从 一个已 标注词 性的语 料库中 统计
词性标注是自然语言处 理的重 要内容 之一 , 是其他 信息 的标注正确率 , 其封 闭测 试和开 放测 试的 准确率 分别 为 98.
处理技术的基础 , 被广 泛地应 用于机 器翻译 、文字 识别 、语音 56%和 96.60 %, 兼类 词和未 登录 词的 标注 也取 得了 很好 的
识别 、信息检索等领域 。 目前基 于统计的 词性标 注方法 得到 结果 。
将直接影响到后续 的分析 处理结 果 。 基于其 很高的 重要性 , 词性标注一直是自然语言处理的 重要内容 。 词性标注的方法
本 文 使 用 条 件 随 机 场 (Co nditional Rando m Fields , C RFs)[ 1] 进行中文的 词性标 注 。 CRF s 通过 建立 概率模 型来
计算机科学 2006V ol.33 №.10
基于条件随机场(CRFs)的中文词性标注方法
洪铭材 张 阔 唐 杰 李涓子
(清华大学计算机系知识工程组 北京 100084)
摘 要 本文提出一种基于 CRF s 模型的中文词性标 注方法 。 该 方法利 用 C RF s 模型 能够添 加任意 特征的 优点 , 在
3 CRFs 理论及其训练方法
3.1 CRFs 的定义
给定数据序列随机变量 X , CRF s C 定义了标注结果序列
随机变量 Y 的条件概率 分布 p(Y X), 它 通过训 练的方 法来
使得条件概率 p(Y X)最大 。C RFs 是无向图 模型 , 其最简单
的形式是线性的 CRFs , 即 模型 中各 个节 点之 间构 成线 性结