基于Attention机制的卷积神经网络文本分类模型

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第37卷第4期2019年7月

应用科学学报

JOURNAL OF APPLIED SCIENCES—Electronics and Information Engineering

Vol.37No.4

Jul.2019

DOI:10.3969/j.issn.0255-8297.2019.04.011

基于Attention机制的卷积神经网络文本分类模型

赵云山，段友祥

中国石油大学(华东)计算机与通信工程学院，山东青岛266580

摘要：文本分类是自然语言处理的重要内容，而有效提取文本全局语义是成功完成分类任务的关键.为了体现卷积神经网络提取特征的非局部重要性，在模型中引入Attention机制并建立了包含4个Attention CNN层的A-CNN文本分类模型.其中，Attention CNN层中普通卷积层用于提取局部特征，Attention机制用于生成非局部相关度特征.最后，使用A-CNN模型分别在情感分析、问题分类、问题答案选择等数据集上进行了实验和对比分析.结果表明：相比于其他对比模型，A-CNN模型完成上述3个文本分类任务时的最高精度分别提高了1.9%、4.3%、0.6%，可见A-CNN模型在文本分类任务中具有较高的精度和较强的通用性.

关键词：文本分类；卷积神经网络；Attention机制；非局部相关度

中图分类号：TP391.1文章编号：0255-8297(2019)04-0541-10

Convolutional Neural Networks Text Classification Model Based on Attention Mechanism

ZHAO Yunshan,DUAN Youxiang

College of Computer&Communication Engineering,China University of Petroleum,

Qingdao266580,Shandong Province,China

Abstract:Text categorization is an important part of natural language processing.Effec-tive extraction of global semantics is the key to the success of text categorization.In order to emphasize the non-local importance of the extracting feature of convolutional neural networks,an A-CNN text classification model including four Attention CNN layers is es-tablished by using Attention mechanism.In the A-CNN model,the general convolution of the Attention CNN layer is used to extract local features,and the Attention mechanism is used to generate feature non-local correlation.Finally,the A-CNN model is experimentally used for the analysis on data sets such as sentiment analysis,problem classification,and question answer pared with other models,the A-CNN model improves the classification precision of the three above tasks by1.9%,4.3%,and0.6%,respectively.The A-CNN model performs higher accuracy in text classification tasks and stronger versatility.

Keywords:text categorization,convolutional neural network(CNN),Attention mecha-nism,non-local correlation

收稿日期：2018-09-14；修订日期：2018-10-29

基金项目：国家科技重大专项基金（No.2017ZX05009001-09）资助

通信作者：段友祥，教授，研究方向：人工智能、图形图像处理、理论计算机科学，E-mail:yxduan@

542应用科学学报第37卷

随着文本分类研究的深入，涌现出了支持向量机、朴素贝叶斯等诸多方法.这些方法因以单词或者词组作为分类特征而导致特征孤立，不但丢弃了文本序列上下文信息，而且也没考虑序列中词组之间的相互影响.然而，文本是一个由有序单词和符号组成的序列，与分类相关的重要信息可以出现在句子的任何位置，且序列中的特征普遍存在长程依赖现象，因此利用特征上下文信息可以更加准确地理解单词或词组在句子中的含义，从而提高分类精度.

近年来，深度学习和神经网络语言模型迅速发展[1-3]，递归神经网络（recurrent neural network,RNN）和卷积神经网络（convolutional neural network,CNN）[4]成了处理自然语言任务的两种主要模型，而之前人们普遍认为RNN是一种较好的序列建模解决方案.如

今，CNN一是因为在计算机视觉和自然语言处理方面都取得了成功，二是因为拥有比RNN更好的并行性、更强大的局部特征提取能力，也就更容易将已训练的模型扩展到数据规模更大的应用环境中[5]，所以本文主要研究并对比基于卷积神经网络的文本分类模型.根据文本分类输入特征粒度的不同，可以将文本分类的卷积神经网络模型分为词级卷积神经网络模型和字符级卷积神经网络模型.

在以词向量作为输入的卷积神经网络方面，文献[6]用词向量作为模型输入，训练了三层卷积神经网络用于问题分类和情感分类[7]，大大提高了分类精度；文献[8]在卷积神经网络中引入动态K最大池化机制并提取全局句子特征；文献[9]将卷积神经网络和长短期记忆(long short-term memory,LSTM)网络结合，用卷积神经网络并行提取短语级特征，以LSTM得到可用于文本分类的句子表示；文献[10]将多个版本的词向量作为模型输入并提出了多通道的文本分类模型.

在以字符向量作为模型输入的文本分类卷积神经网络模型方面，文献[11-12]以字符向量作为卷积网络模型的输入训练了基于字符卷积的神经网络模型，并在多个自然语言处理任务上取得了成功，但这类卷积模型需要大量的数据进行模型训练，且模型的复杂度更高，只适用于大数据集建模.文献[13]证明了基于单词的卷积神经网络比基于字符的卷积神经网络更有优势，且训练速度更快.

以上基于词向量和字符向量的卷积神经网络模型与传统的机器学习方法相比，大幅提升了文本分类任务的分类效果，但是仍然存在不足之处.因为卷积神经网络本身只能提取局部特征，所以这类模型只是以少数几个词级特征表示整个序列，而没有考虑特征之间的联系.此外，上述模型通常就单一任务进行实验验证，其通用性也得不到保证.

为了让提取局部特征的卷积神经网络能够关注到非局部特征之间的依赖，本文在CNN神经网络的基础上引入Attention机制[14-16]，建立了基于Attention机制的卷积神经网络文本分类模型.只要借助Attention机制，传统的卷积神经网络也能计算当前局部特征与非局部特征之间的依赖关系，为提取句子级分类特征提供有效保证.此外，本文就多个文本分类任务验证了模型的通用性.

1数据准备与建模

1.1数据准备

文本序列是不同长度单词的组合，而卷积神经网络只接收固定长度的输入，于是需要对所有输入样本进行填充或者截断处理，从而将不定长的样本转换成固定长度为S的文本.处理方式包括长度不足时填充和长度超出时截断两种方式.截断方式是只将样本序列的前S个字符输入模型参与训练和分类的方式；填充方式是在填充样本长度小于S时再次向序列的尾部重复填充原序列直至被截断的方式，这种方式可以增加序列中的有用序列特征.