基于多通道卷积神经网的实体关系抽取

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表征能力的问题, 提出多通道卷积神经网模型。 首先使用不同的词向量将输入语句进行映射, 作为模型不同通道的输入; 然后使用卷积神经网自动提取特征;最后通过 softmax 分类器输出关系类型,完成关系抽取任务。和其他模型相比,该 模型可以获取输入语句更丰富的语义信息,自动学习出更具有区分度的特征。在 SemEval-2010 Task 8 数据集上的实验 结果表明提出的多通道卷积神经网模型较使用单一词向量的模型更适合处理关系抽取任务。 关键词:关系抽取;卷积神经网;深度学习;多通道 中图分类号:TP183
务提出分段排序结构,代替卷积神经网输出层常用的 softmax 作为最后的分类器,取得了当时最好的分类性能;刘扬等人在 EMNLP 2015 提出的方法[9], 使用循环神经网建模语句的依存句 法树,使用卷积神经网建模语句的最短依存路径,将语法分析 融入到深度学习框架中。通过分析这些方法可以看出,深度学 习在关系抽取任务中取得了显著的成就,加入传统分析方法作 为先验知识,则表现出更大的潜力。 使用深度学习进行关系抽取的方法都使用特定的单一词向 量作为模型输入, 其性能依赖于词向量对自然语言的表征能力, 然而,单一词向量只能表征自然语言的一部分语义信息,这就 限制了总的输入信息量。针对这一问题,本文提出了多通道卷 积神经网模型,使用多个通道表征输入语句的更多语义信息, 从而令网络学习出区分度更强的特征,对自然语言具有更强的 表征能力。本文首先介绍了词向量模型,该模型将自然语言映 射为适合深度学习处理的向量形式,然后重点介绍了提出的多 通道卷积神经网模型,最后通过实验证明了方法的有效性。
1
词向量模型
词向量(word vector) ,也称为词嵌入(word embedding) ,
是一种词的分布式表示,将每个词表示成一个连续实数值的向 量。并且通过训练的方法,使得向量空间的相似度可以用来表 示文本语义的相似度
[11] [10]
。和其他常用的文本表示方法,如
one-hot、隐语义分析和概率主题模型等相比,词向量模型包含 的语义信息更丰富 。 另外, 词向量的维度通常是 25 维到 1000 维,这种形式更适合作为深度学习的输入,目前大部分使用深 度学习进行自然语言处理的方法, 都用词向量作为网络的输入。 下面介绍本文中用到的两种词向量模型 word2vec 和 GloVe: 1.1 Word2vec Word2vec 是 Google 在 2013 年开源的词向量训练工具,其 训练模型是 Mikvolov 在 2013 年提出的 CBOW 和 Skip-gram[11]。 其中,CBOW 使用目标词上下文的词作为输入,在映射层做加 权处理后预测目标单词。Skip-gram 则根据当前词预测上下文。 这两者的核心思想都是如果两个词的上下文相似,那么这两个 词的表示也应该相似。Word2vec 官网上公开了训练好的词向量
---------------------------基金项目:国家自然科学基金资助项目(61331017,41501485)
作者简介:肜博辉(1992-) ,男,河南南阳人,硕士研究生,主要研究方向为自然语言处理、数据挖掘(rbh0503@gmail.com) ;付琨(1974-) ,男,研究员, 博导,博士,主要研究方向为地理空间数据挖掘与可视化、计算机视觉与遥感图像理解;黄宇(1981-) ,男,副研究员,博士,主要研究方向为地理空间信 息挖掘与可视化技术;王洋(1984-) ,女,助理研究员,博士,主要研究方向为模式识别,数据挖掘应用.
优先出版
计 算 机 应 用 研 究
第 33 卷
下问题:a)这些基础工具都存在错误,使用多个工具会造成错 误的累积,影响最终的分类性能;b)特征集的选择依靠经验和 专家知识,需要花费大量时间去设计和验证;c)有些语言没有 完善的基础处理工具,此时,传统的方法不再适用。 深度学习可以较好地解决以上问题。在深度学习中,特征 的学习是自动进行的,网络的每层都可以视为学习到的特征, 高层特征是低层特征的抽象组合。这种方法在不使用基础自然 语言处理工具的情况下,在多个自然语言处理任务中取得了超 过传统方法的性能[6]。近年来,深度学习和神经网络模型已经 成为研究关系抽取的重要方法。曾道建等人发表在 COLLING 2014 上的论文[7],使用卷积神经网和词向量,加入了位置特征, 的文章[8],针对关系分类任 在不需要提取复杂特征的情况下,取得了超过传统方法的分类 性能;Santos 等人发表在 ACL 2015
网络出版时间:2016-06-14 11:25:51 网络出版地址:http://www.cnki.net/kcms/detail/51.1196.TP.20160614.1125.028.html
优先出版 计 算 机 应 用 研 究 第 33 卷
基于多通道卷积神经网的实体关系抽取
肜博辉 1, 2, 3,付
Βιβλιοθήκη Baidu
供研究者使用。 1.2 GloVe(GlobalVectorsforWordRepresentation) 另外一个常用的词向量模型是由斯坦福大学的 Jeffrey 和 Socher 提出的 GloVe[12], 与 word2vec 仅使用局部上下文的方法 不同,这种模型构造了一个全局的词共现矩阵,从而可以利用 全局统计信息。GloVe 结合了全局矩阵分解方法和局部窗方法, 融合了文本的全局信息和局部上下文信息。实验结果表明, GloVe 在 词 的 类 比 、 命 名 实 体 识 别 等 任 务 中 表 现 出 了 比 word2vec 更好的性能[12]。 这两种词向量模型有各自的优点,word2vec 是基于预测的 方法,较好地刻画了局部信息;GloVe 是基于计数的方法,更 多地考虑了全局信息。融合这两种词向量,使得文本的输入带 有更多更丰富的语义信息,是本文的出发点。
2
用于实体关系分类的多通道卷积神经网
2.1 深度学习和卷积神经网 深度学习是多层人工神经网络的训练方法,这种方法的一 个主要优点是可以自动地学习特征, 通过深层非线性网络结构, 实现复杂函数的逼近,从而表征输入数据的分布式表示。目前, 深度学习在图像识别、语音识别等领域已经取得了突破性的进 展。 卷积神经网是深度学习中重要的模型,其每层网络都由一 个卷积层和其后的下采样层组成。卷积层使用卷积核对上层网 络的输出进行卷积操作。相比较全连接的方法,这种结构更符 合生物神经元的工作方式,而且减少了网络参数,从而抑制了 过拟合,加快了训练速度;下采样对卷积结果进行统计计算, 能够使获得的特征具有一定的平移不变性和旋转不变性。 卷积神经网在实体关系抽取任务中得到了广泛的应用,这 种模型应用于关系抽取有以下优点:一、关系抽取的目的是通 过语句的整体语义信息,判断出两个实体之间的关系,并不关 心每个词的情况,卷积结构能更好地利用整条语句的上下文信 息[7]。二、下采样的结构能很好地处理自然语句的变长问题[13]。 不管输入语句的长度怎样变化,经过最大池化后得到的特征向 量维度都是卷积核的个数。 2.2 多通道卷积神经网模型 将词向量应用于自然语言处理领域,一般有两种方法,一是 针对特定任务和特定数据集,训练词向量[14];二是直接将训练 好的词向量作为模型的输入[6,8]。这些方法都只使用特定的单一 词向量,然而因为训练词向量的模型不同,不同的词向量表征 了不同的语义信息,只使用一种词向量就限制了输入的总信息 量。针对这个问题,本文提出多通道卷积神经网模型,融合了 不同的词向量,从而使网络具有更强的表征能力。模型的结构 如图 1 所示。
0
引言
信息的爆炸式增长,使人们淹没在数据中,却难以获得想
要的知识。在这种背景下,使用计算机从非结构化的文本数据 中自动抽取出结构化的信息,即信息抽取技术,受到了广泛的 关注。信息抽取包括三个方面:实体抽取,实体关系抽取,事 件抽取。实体关系抽取是其中的核心任务,其问题定义为:输 入文本和实体,输出实体之间的语义关系。目前的研究集中在 抽取一条自然语句中两个实体之间的语义关系。 近年来,在实际需求的推动下,关系抽取技术取得了较大 进步,其研究方法从基于知识工程的方法发展到基于统计学习
Relation extraction based on multi-channel convolutional neural network
Rong Bohui1, 2, 3, Fu Kun1, 2, Huang Yu1, 2, Wang Yang1, 2
(1. CAS Key Laboratory of Spatial Information Processing & Applied System Technology, Beijing 100190, China; 2. Institute of Electronics, Chinese Academy of Sciences, Beijing 100190, China; 3. University of Chinese Academy of sciences, Beijing 100190, China) Abstract: In the task of relation extraction, traditional statistical methods have difficulties in getting perfect features manually, while deep learning methods strongly depend on the representational capacity of single word vector. To solve the problems mentioned above, this paper proposed a novel model called multi-channel convolutional neural network (CNN). Firstly, the model used different word vectors to represent sentence as input for different channels. Secondly, it extracted features automatically through CNN. Finally, it obtained relation types by classifier using softmax. The proposed model can capture more semantic information thus learn more distinctive features automatically comparing to other models. The experiment results on SemEval-2010 Task 8 datasets show that our model is more suitable for relation extraction task than normal models which only utilize single word vector. Key Words: relation extraction; convolutional neural network; deep learning; multi-channel 的方法,应用领域从特定领域扩展到开放领域[1][2]。随着可获取 数据量的增加和计算能力的提高,基于统计学习的方法得到了 更广泛的应用,这种方法分为有监督、半监督和无监督三大类。 本文重点研究有监督方法,这类方法将实体关系抽取视为 一个分类问题,将句子中实体之间的关系划分到预先定义好的 类别中,从而完成关系抽取任务。这类方法有两个主流研究方 向:a)人工提取特征,如词性、语义角色、依存句法树等,然 后使用支持向量机或者最大熵等分类器进行分类[3][4];b)基于核 函数的方法,计算输入字符的核函数,根据核函数的相似度来 判定关系类型[5]。这些方法的分类性能很大程度上依赖于基础 自然语言处理工具,如词性标注、语法分析等,这就带来了以
3.中国科学院大学,北京 100190) 摘
*
琨 1, 2,黄
宇 1, 2,王
洋 1, 2
(1.中国科学院空间信息处理与应用系统技术重点实验室,北京 100190;2.中国科学院电子学研究所,北京 100190;
要:针对实体关系抽取任务中,传统基于统计学习的方法构建特征费时费力、现有深度学习方法依赖单一词向量的
相关文档
最新文档