基于主动学习的中文依存句法分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2期
车 万 翔 Biblioteka Baidu :基 于 主 动 学 习 的 中 文 依 存 句 法 分 析
19
低 ,说 明 学 习 器 尚 不 能 很 好 区 分 此 样 本 ,即 学 习 器 缺 乏此样本含有的信息。此时将该样本进行人工标注 并加入训练集会对学习器精度的提升有很大帮助。 对 于 分 类 置 信 度 高 的 样 本 ,不 再 人 工 标 注 ,从 而 免 除 了在冗余样本上耗费人力。这类学习算法的重点是 构造一种合理有效 的 不 确 定 性 度 量 机 制,以 此 来 指 导样本选择。
(哈尔滨工业大学 计算机学院 社会计算与信息检索研究中心,黑龙江 哈尔滨 150001) 摘 要 :目 前 依 存 句 法 分 析 仍 主 要 采 用 有 指 导 的 机 器 学 习 方 法 ,即 需 要 大 规 模 高 质 量 的 树 库 作 为 训 练 语 料 ,而 现 阶 段中文依存树库资源相对较少,树库标注又是一件 费 时 费 力 的 工 作。 面 对 大 量 未 标 注 语 料,该 文 将 主 动 学 习 应 用 到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。该文提 出 并 比 较 了 多 种 衡 量 依 存 句 法 模 型预测可信度的准则。实验表明,一方面,与随机选 择 标 注 实 例 相 比,当 使 用 相 同 数 目 训 练 实 例 时,主 动 学 习 使 中 文依存分析性能最高提升0.8%;另一方面,主动学习使依 存 分 析 达 到 相 同 准 确 率 时 只 需 标 注 更 少 量 实 例 ,人 工 标 注 量 最 多 可 减 少 30% 。 关 键 词 :主 动 学 习 ;依 存 句 法 ;不 确 定 性 度 量 ;委 员 会 投 票 中 图 分 类 号 :TP391 文 献 标 识 码 :A
基于委员会投票的样本选择需要构建一组分类 器,这 些 分 类 器 可 以 是 用 不 同 的 训 练 算 法 得 到 (SVM、MaxEnt等 ),也 可 以 是 用 同 种 训 练 算 法 对 样 本从不 同 的 特 征 角 度 训 练 得 到 (Multi-view active learning[3])。基于委员会投票的方法优先 选 择 各 分 类器投票结果最不一致的样本进行人工标注。投票 熵 (Vote Entropy,Dagan and Engelson,1995)和 相 对熵 (KL divergence to the mean,Pereira et al., 1993)是两 种 最 常 用 的 度 量 投 票 结 果 差 异 的 方 法。 熵 值 越 高 ,说 明 投 票 差 异 越 大 ,该 样 本 越 应 该 加 入 到 训练集 。 [4]
Abstract:It is necessary to have a large annotated Treebank to build a statistical dependency parser.Acquisition of such a Treebank is time consuming,tedious and expensive.This paper presents a method to reduce this demand via active learning,which selects the most uncertain samples for annotation instead of the whole training corpus. Experiments are carried out on the HIT-CIR-CDT,our results show that the parsing accuracy rises about 0.8 percent by active learning when using the same amount of training samples.In other words,for about the same parsing accuracy,we only need to annotate 70% of the samples as compared to the usual random selection method. Key words:active learning;dependency parsing;uncertainty-based sampling;query-by-committee
本文 内 容 组 织 为,第 二 部 分 介 绍 依 存 句 法 分 析 相关概念和基于图 的 依 存 分 析 算 法;第 三 部 分 介 绍
主动学习的算法流 程,其 中 详 细 讨 论 了 如 何 衡 量 依 存 句 法 模 型 的 预 测 可 信 度 ;第 四 部 分 是 实 验 ;第 五 部 分给出结论和下一步工作。
Active Learning for Chinese Dependency Parsing
CHE Wanxiang,ZHANG Meishan,LIU Ting (Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology,Harbin,Heilongjiang 150001,China)
国外学者已经将主动学习应用到诸多自然语言 处理相 关 的 任 务 中,比 如 信 息 抽 取 (Thompson et al.,1999)、文本 分 类 (McCallum and Nigam,1998) 和 基 于 短 语 结 构 的 句 法 分 析 (Thompson et al., 1999;Hwa,2000)[5-6]等。 在 国 内,清 华 大 学 覃 刚 力、北京理工大学宋 鑫 颖 等 将 主 动 学 习 应 用 到 文 本 分类上[7-8];中国科 技 大 学 冯 冲、上 海 交 通 大 学 陈 霄 分别用最大熵模型和支持向量机模型将主动学习应 用到组织机 构 名 识 别 中,并 取 得 了 一 定 效 果 。 [9] 就 作者所掌握的文献,目 前 还 没 有 将 主 动 学 习 和 中 文 依存句法的训练过程相结合的研究。在应用最大熵 或者支持向量机模型进行预测的自然语言处理任务 中 ,前 者 可 以 得 到 每 个 样 本 属 于 某 一 类 别 的 概 率 ,后 者可以得到每个样本到分类超平面的距离。这些预 测任务的置 信 度 比 较 容 易 获 得,比 如 基 于 SVM 的 文本分类中距离分类超平面最近的样本置信度就比 较低等。基于短语结构的句法分析可以根据每个产 生式的概率计算最 终 生 成 的 短 语 结 构 树 的 概 率,并 利用此概率值进行 各 种 可 信 度 计 算;而 依 存 句 法 通 过 Online算法训练权值,最终求一棵权值最大的 生 成 树 ,很 难 得 到 生 成 树 的 概 率 ,原 有 的 基 于 短 语 结 构 的可信度 度 量 方 法 也 就 不 能 直 接 应 用 到 依 存 分 析 上 。 因 此 ,本 文 尝 试 将 主 动 学 习 应 用 到 依 存 分 析 上 , 并尝试了多种衡量依存句法模型预测可信度的准则。
标注,然后加入 训 练 集 重 新 训 练。 由 于 优 先 选 择 的 是最具训练效用的 样 本,所 以 减 少 了 那 些 对 提 高 学 习器精度帮助不大 的 冗 余 样 本 的 标 注,因 而 学 习 器 只需更少的样本便能获得相同精度 。 [1-2]
目前最广泛使用的主动学习方法有基于不确定 性度 量 (Uncertainty-based Sampling)和 基 于 委 员 会投票(Query-by-committee)两种 。 [1]
1 引 言
在统 计 学 习 的 模 型 训 练 过 程 中,按 照 对 训 练 实 例的处理方式,可 将 学 习 过 程 分 为 两 类:主 动 学 习 和被动学习。被动 学 习 是 随 机 地 选 择 训 练 实 例,被 动地接受 这 些 样 本 信 息。 主 动 学 习 与 被 动 学 习 不 同,它是迭代地从未 标 注 语 料 中 优 先 选 择 最 富 含 有 效 信 息 的 实 例 (即 当 前 模 型 预 测 最 不 准 的 )交 由 人 工
第 26 卷 第 2 期 2012 年 3 月
中文信息学报 JOURNAL OF CHINESE INFORMATION PROCESSING
文 章 编 号 :1003-0077(2012)02-0018-05
Vol.26,No.2 Mar.,2012
基于主动学习的中文依存句法分析
车万翔,张梅山,刘 挺
基于图的依存分析算法是目前性能最高的依存 分析方法之一。
3 基 于 主 动 学 习 的 中 文 依 存 句 法 分 析
本文将主动学习应用到基于图的依存句法训练 过 程 中 ,具 体 的 算 法 流 程 如 下 。
L:人 工 标 注 后 的 实 例 (句 法 依 存 树 库 )
U:未 标 注 的 实 例 (已 经 过 分 词 和 词 性 标 注 的 句 子 ) C:当前已标注实例训练得 到 的 模 型(基 于 图 的 依 存 分
基于不确定性度量的样本选择根据学习器对未 标注样本的分类置信度来进行。样本分类置信度越
收 稿 日 期 :2011-09-20 定 稿 日 期 :2011-12-21 基金项目:国 家 自 然 科 学 基 金 重 点 项 目 (61133012);国 家 自 然 科 学 基 金 资 助 项 目 (60803093);国 家 863 重 大 项 目 (2011AA01A207);核高基重大专项(2011ZX01042-001-001);哈尔 滨 工 业 大 学 科 研 创 新 基 金 (HIT.NSRIF.2009069);中 央 高 校 基 本 科 研 业 务 费 专 项 资 金 (HIT.KLOF.2010064) 作者简介:车万翔(1980—),男,讲师,主要研究方向为自然语言处理;张梅山(1983—),男,博士研 究 生,主 要 研 究 方 向 为 自 然 语 言 处 理 ;刘 挺 (1972— ),男 ,教 授 ,主 要 研 究 方 向 为 自 然 语 言 处 理 ,信 息 检 索 。
析器训练) Φ:衡 量 实 例 可 信 度 的 函 数 Batch-Size:每 轮 主 动 学 习 挑 选 实 例 的 个 数 初始化:
Eisner算 法 以 span 为 解 码 的 基 本 单 位,span 表示输入句子的一个片段对应的子树。与组块不同 的是,span 中 的 核 心 词 只 能 位 于 片 段 首 或 尾,即 span只包 括 了 这 个 词 左 边 或 者 右 边 的 子 孙 节 点。 另外,除核心词外的 另 外 一 个 片 段 首 或 尾 词 的 修 饰 成分可以是不完整的,即span可以不包括这个 词左 边的子孙节点或者右边的子孙节点。对于其他词, span包括它们 所 有 的 子 孙 节 点。span 的 这 种 特 性 使得解码算法独立地确定一个词左边的修饰成分和 右边的修饰成分,从而降低算法的复杂度 。 [10]
2 中 文 依 存 句 法 分 析
主动学习需要事先在小数据集上训练一个依存 句法分析器,用 来 对 未 知 样 本 进 行 可 信 度 预 测。 本 文采用基于图的依存分析算法来训练依存分析器, 以下简要介绍基于图的依存句法分析。
2.1 基 于 图 的 中 文 依 存 句 法 分 析
McDonald首先提出 将 依 存 分 析 问 题 归 结 为 在 一 个 有 向 图 中 寻 找 最 大 生 成 树 (Maximum Spanning Tree)的问题。边权使用 Online Learning 算法学习获得,解码使用 Eisner算法[11]。