Attention 机制在文本分类中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Attention 机制在文本分类中的应用
《Document Modeling with Gated Recurrent Neural Network for Sentiment Classification. Duyu Tang, Bing Qin , Ting Liu. In EMNLP, 2015》
文章提出了一种层次神经网络的结构做篇章级别的情感分析(文本分类):
首先是词语到句子级别的,利用词向量,通过CNN或者LSTM,对一句话中的词抽取特征,生成句子表示(句向量);
∙然后是句子到文章级别的,一篇文章有多个句子,把它们看成是一个时间序列。在句向量的基础上,通过双向LSTM生成文本向量;
∙最后,用Softmax做分类。
用LSTM将下一级的信息汇总到上一级有两种方法:
(a)中把LSTM最后时刻的输出认为是高一级的表示;
(b)中把各个时候的输出求平均的结果认为是高一级的表示;
但它们分别存在缺点:
∙以RNN最后一个输出作为Sentence Representation的话,就丢弃了前面输出的信息。
∙以RNN所有输出的平均值作为Sentence Representation的话,就有可能犯平均主义的错误。不同时刻的重要度可能不同。
最理想的方式是加权平均。那么权重如何求?
《Hierarchical Attention Networks for Document Classification. Zichao Yang1, Diyi Yang1, Chris Dyer and et al. In NAACL-HLT, 2016》
第二篇论文在第一篇论文的基础上,加上Uw和Us两个变量,可以用于评估当前这个时刻输出的重要性。然后求出一个归一化的权值。最终实现对不同时刻的加权不平均。
附上论文中的实验结果: