Attention 机制在文本分类中的应用

合集下载

《Document Modeling with Gated Recurrent Neural Network for Sentiment Classification. Duyu Tang, Bing Qin , Ting Liu. In EMNLP, 2015》

文章提出了一种层次神经网络的结构做篇章级别的情感分析（文本分类）：

首先是词语到句子级别的，利用词向量，通过CNN或者LSTM，对一句话中的词抽取特征，生成句子表示（句向量）；

∙然后是句子到文章级别的，一篇文章有多个句子，把它们看成是一个时间序列。在句向量的基础上，通过双向LSTM生成文本向量；

∙最后，用Softmax做分类。

用LSTM将下一级的信息汇总到上一级有两种方法：

（a）中把LSTM最后时刻的输出认为是高一级的表示；

（b）中把各个时候的输出求平均的结果认为是高一级的表示；

但它们分别存在缺点：

∙以RNN最后一个输出作为Sentence Representation的话，就丢弃了前面输出的信息。

∙以RNN所有输出的平均值作为Sentence Representation的话，就有可能犯平均主义的错误。不同时刻的重要度可能不同。

最理想的方式是加权平均。那么权重如何求？

《Hierarchical Attention Networks for Document Classification. Zichao Yang1, Diyi Yang1, Chris Dyer and et al. In NAACL-HLT, 2016》

第二篇论文在第一篇论文的基础上，加上Uw和Us两个变量，可以用于评估当前这个时刻输出的重要性。然后求出一个归一化的权值。最终实现对不同时刻的加权不平均。

附上论文中的实验结果：