基于多通道卷积神经网的实体关系抽取

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

表征能力的问题，提出多通道卷积神经网模型。首先使用不同的词向量将输入语句进行映射，作为模型不同通道的输入；然后使用卷积神经网自动提取特征；最后通过 softmax 分类器输出关系类型，完成关系抽取任务。和其他模型相比，该模型可以获取输入语句更丰富的语义信息，自动学习出更具有区分度的特征。在 SemEval-2010 Task 8 数据集上的实验结果表明提出的多通道卷积神经网模型较使用单一词向量的模型更适合处理关系抽取任务。关键词：关系抽取；卷积神经网；深度学习；多通道中图分类号：TP183
务提出分段排序结构，代替卷积神经网输出层常用的 softmax 作为最后的分类器，取得了当时最好的分类性能；刘扬等人在 EMNLP 2015 提出的方法[9]，使用循环神经网建模语句的依存句法树，使用卷积神经网建模语句的最短依存路径，将语法分析融入到深度学习框架中。通过分析这些方法可以看出，深度学习在关系抽取任务中取得了显著的成就，加入传统分析方法作为先验知识，则表现出更大的潜力。使用深度学习进行关系抽取的方法都使用特定的单一词向量作为模型输入，其性能依赖于词向量对自然语言的表征能力，然而，单一词向量只能表征自然语言的一部分语义信息，这就限制了总的输入信息量。针对这一问题，本文提出了多通道卷积神经网模型，使用多个通道表征输入语句的更多语义信息，从而令网络学习出区分度更强的特征，对自然语言具有更强的表征能力。本文首先介绍了词向量模型，该模型将自然语言映射为适合深度学习处理的向量形式，然后重点介绍了提出的多通道卷积神经网模型，最后通过实验证明了方法的有效性。
1
词向量模型
词向量（word vector），也称为词嵌入（word embedding），
是一种词的分布式表示，将每个词表示成一个连续实数值的向量。并且通过训练的方法，使得向量空间的相似度可以用来表示文本语义的相似度
[11] [10]
。和其他常用的文本表示方法，如
one-hot、隐语义分析和概率主题模型等相比，词向量模型包含的语义信息更丰富。另外，词向量的维度通常是 25 维到 1000 维，这种形式更适合作为深度学习的输入，目前大部分使用深度学习进行自然语言处理的方法，都用词向量作为网络的输入。下面介绍本文中用到的两种词向量模型 word2vec 和 GloVe： 1.1 Word2vec Word2vec 是 Google 在 2013 年开源的词向量训练工具，其训练模型是 Mikvolov 在 2013 年提出的 CBOW 和 Skip-gram[11]。其中，CBOW 使用目标词上下文的词作为输入，在映射层做加权处理后预测目标单词。Skip-gram 则根据当前词预测上下文。这两者的核心思想都是如果两个词的上下文相似，那么这两个词的表示也应该相似。Word2vec 官网上公开了训练好的词向量
---------------------------基金项目：国家自然科学基金资助项目（61331017，41501485）
作者简介：肜博辉（1992-），男，河南南阳人，硕士研究生，主要研究方向为自然语言处理、数据挖掘（rbh0503@gmail.com）；付琨（1974-），男，研究员，博导，博士，主要研究方向为地理空间数据挖掘与可视化、计算机视觉与遥感图像理解；黄宇（1981-），男，副研究员，博士，主要研究方向为地理空间信息挖掘与可视化技术；王洋（1984-），女，助理研究员，博士，主要研究方向为模式识别，数据挖掘应用．
优先出版
计算机应用研究
第 33 卷
下问题：a)这些基础工具都存在错误，使用多个工具会造成错误的累积，影响最终的分类性能；b)特征集的选择依靠经验和专家知识，需要花费大量时间去设计和验证；c)有些语言没有完善的基础处理工具，此时，传统的方法不再适用。深度学习可以较好地解决以上问题。在深度学习中，特征的学习是自动进行的，网络的每层都可以视为学习到的特征，高层特征是低层特征的抽象组合。这种方法在不使用基础自然语言处理工具的情况下，在多个自然语言处理任务中取得了超过传统方法的性能[6]。近年来，深度学习和神经网络模型已经成为研究关系抽取的重要方法。曾道建等人发表在 COLLING 2014 上的论文[7]，使用卷积神经网和词向量，加入了位置特征，的文章[8]，针对关系分类任在不需要提取复杂特征的情况下，取得了超过传统方法的分类性能；Santos 等人发表在 ACL 2015
网络出版时间：2016-06-14 11:25:51 网络出版地址：http://www.cnki.net/kcms/detail/51.1196.TP.20160614.1125.028.html
优先出版计算机应用研究第 33 卷
基于多通道卷积神经网的实体关系抽取
肜博辉 1, 2, 3，付
Βιβλιοθήκη Baidu
供研究者使用。 1.2 GloVe（GlobalVectorsforWordRepresentation）另外一个常用的词向量模型是由斯坦福大学的 Jeffrey 和 Socher 提出的 GloVe[12]，与 word2vec 仅使用局部上下文的方法不同，这种模型构造了一个全局的词共现矩阵，从而可以利用全局统计信息。GloVe 结合了全局矩阵分解方法和局部窗方法，融合了文本的全局信息和局部上下文信息。实验结果表明， GloVe 在词的类比、命名实体识别等任务中表现出了比 word2vec 更好的性能[12]。这两种词向量模型有各自的优点，word2vec 是基于预测的方法，较好地刻画了局部信息；GloVe 是基于计数的方法，更多地考虑了全局信息。融合这两种词向量，使得文本的输入带有更多更丰富的语义信息，是本文的出发点。
2
用于实体关系分类的多通道卷积神经网
2.1 深度学习和卷积神经网深度学习是多层人工神经网络的训练方法，这种方法的一个主要优点是可以自动地学习特征，通过深层非线性网络结构，实现复杂函数的逼近，从而表征输入数据的分布式表示。目前，深度学习在图像识别、语音识别等领域已经取得了突破性的进展。卷积神经网是深度学习中重要的模型，其每层网络都由一个卷积层和其后的下采样层组成。卷积层使用卷积核对上层网络的输出进行卷积操作。相比较全连接的方法，这种结构更符合生物神经元的工作方式，而且减少了网络参数，从而抑制了过拟合，加快了训练速度；下采样对卷积结果进行统计计算，能够使获得的特征具有一定的平移不变性和旋转不变性。卷积神经网在实体关系抽取任务中得到了广泛的应用，这种模型应用于关系抽取有以下优点：一、关系抽取的目的是通过语句的整体语义信息，判断出两个实体之间的关系，并不关心每个词的情况，卷积结构能更好地利用整条语句的上下文信息[7]。二、下采样的结构能很好地处理自然语句的变长问题[13]。不管输入语句的长度怎样变化，经过最大池化后得到的特征向量维度都是卷积核的个数。 2.2 多通道卷积神经网模型将词向量应用于自然语言处理领域，一般有两种方法,一是针对特定任务和特定数据集，训练词向量[14]；二是直接将训练好的词向量作为模型的输入[6,8]。这些方法都只使用特定的单一词向量，然而因为训练词向量的模型不同，不同的词向量表征了不同的语义信息，只使用一种词向量就限制了输入的总信息量。针对这个问题，本文提出多通道卷积神经网模型，融合了不同的词向量，从而使网络具有更强的表征能力。模型的结构如图 1 所示。
0
引言
信息的爆炸式增长，使人们淹没在数据中，却难以获得想
要的知识。在这种背景下，使用计算机从非结构化的文本数据中自动抽取出结构化的信息，即信息抽取技术，受到了广泛的关注。信息抽取包括三个方面：实体抽取，实体关系抽取，事件抽取。实体关系抽取是其中的核心任务，其问题定义为：输入文本和实体，输出实体之间的语义关系。目前的研究集中在抽取一条自然语句中两个实体之间的语义关系。近年来，在实际需求的推动下，关系抽取技术取得了较大进步，其研究方法从基于知识工程的方法发展到基于统计学习
Relation extraction based on multi-channel convolutional neural network
Rong Bohui1, 2, 3, Fu Kun1, 2, Huang Yu1, 2, Wang Yang1, 2
(1. CAS Key Laboratory of Spatial Information Processing & Applied System Technology, Beijing 100190, China; 2. Institute of Electronics, Chinese Academy of Sciences, Beijing 100190, China; 3. University of Chinese Academy of sciences, Beijing 100190, China) Abstract: In the task of relation extraction, traditional statistical methods have difficulties in getting perfect features manually, while deep learning methods strongly depend on the representational capacity of single word vector. To solve the problems mentioned above, this paper proposed a novel model called multi-channel convolutional neural network (CNN). Firstly, the model used different word vectors to represent sentence as input for different channels. Secondly, it extracted features automatically through CNN. Finally, it obtained relation types by classifier using softmax. The proposed model can capture more semantic information thus learn more distinctive features automatically comparing to other models. The experiment results on SemEval-2010 Task 8 datasets show that our model is more suitable for relation extraction task than normal models which only utilize single word vector. Key Words: relation extraction; convolutional neural network; deep learning; multi-channel 的方法，应用领域从特定领域扩展到开放领域[1][2]。随着可获取数据量的增加和计算能力的提高，基于统计学习的方法得到了更广泛的应用，这种方法分为有监督、半监督和无监督三大类。本文重点研究有监督方法，这类方法将实体关系抽取视为一个分类问题，将句子中实体之间的关系划分到预先定义好的类别中，从而完成关系抽取任务。这类方法有两个主流研究方向：a)人工提取特征，如词性、语义角色、依存句法树等，然后使用支持向量机或者最大熵等分类器进行分类[3][4]；b)基于核函数的方法，计算输入字符的核函数，根据核函数的相似度来判定关系类型[5]。这些方法的分类性能很大程度上依赖于基础自然语言处理工具，如词性标注、语法分析等，这就带来了以
3．中国科学院大学，北京 100190) 摘
*
琨 1, 2，黄
宇 1, 2，王
洋 1, 2
(1．中国科学院空间信息处理与应用系统技术重点实验室，北京 100190；2．中国科学院电子学研究所，北京 100190；
要：针对实体关系抽取任务中，传统基于统计学习的方法构建特征费时费力、现有深度学习方法依赖单一词向量的