深度学习中attention注意力机制

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• Reasoning about Entailment with Neural Attention, 2016
Attention应用
• 3. Attention在语音识别上的应用
给定一个英文的语音片段作为输入,输出对应的音素序列。 Attention机制被用于对输出序列的每个音素和输入语音序列中一些特定帧进行关联。
dot对于global注意力机制比较有效,而general对于local注意力机制比较有效
有没有其他可能? ¥30
• 如果decoder需要encoder的所有内容,但是又想避免过长 的跨度带来的计算量,怎么办?
• ¥30
Self Attention也经常被称为intra Attention,比如Google的机器翻译模型内部大量采 用了Self Attention模型。
RNN
N: M
将c当做每一步的输入
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation 机器翻译 (Encoder-Decoder就是在机器翻译领域最先提出的)。 文本摘要:输入是一段文本序列,输出是这段文本序列的摘要序列。 阅读理解:将输入的文章和问题分别编码,再对其进行解码得到问题的答案。 语音识别:输入是语音信号序列,输出是文字序列。
Attention机制通过在每个时间输入不同的c来解决这个问题。相比于encoderdecoder模型,attention模型最大的区别就在于它不在要求编码器将所有输入信息都 编码进一个固定长度的向量之中。
相反,此时编码器需要将输入编码成一个向量的序列,而在解码的时候,每一 步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样,在产生每一个 输出的时候,都能够做到充分利用输入序列携带的信息。
语序问题? ¥20~40 • A Neural Attention Model for Abstractive Sentence Summarization, 2015
Attention应用
• 1. At源自文库ention在图片描述上的应用
基于序列生成的attention机制可以应用在计算机视觉相关的任务上,帮助卷积神经网 络重点关注图片的一些局部信息来生成相应的序列,典型的任务就是对一张图片进行文本 描述。
给定一张图片作为输入,输出对应的英文文本描述。Attention机制被用在输出输出序 列的每个词时会专注考虑图片中不同的局部信息。
传统Encoder-Decoder局限性
¥20 可多人
Encoder-Decoder局限性
Encoder-Decoder最大的局限性就在于编码和解码之间的唯一联系就是一 个固定长度的语义向量C。编码器要将整个序列的信息压缩进一个固定长 度的向量中去。但是这样做有两个弊端: 一、语义向量无法完全表示整个序列的信息; 二、先输入的内容携带的信息会被后输入的信息稀释掉。输入序列越长, 这个现象就越严重。
RNN
N: M (N != M) 例如:机器翻译 Encoder-Decoder模型,也称之为Seq2Seq模型
(1)Encoder-Decoder结构将输入数据编 码成一个上下文向量c (2)将c当做之前的初始状态h0输入到 Decoder中
Sequence to Sequence Learning with Neural Networks
• self attention模型中没有decoder模块。所以,self attention中的分配系数矩阵指示了
上下文中各个特征之间的关联。
• 引入Self Attention后会更容易捕获句子中长距离的相互依赖的特征,因为如果是RNN
或者LSTM,需要依次序序列计算,对于远距离的相互依赖的特征,要经过若干时间步 步骤的信息累积才能将两者联系起来,而距离越远,有效捕获的可能性越小
Attention
2014年Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio发表的论文 《Neural Machine Translation by Jointly Learning to Align and Translate》中首次 提出Attention机制。
• Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, 2016
Attention应用
• 2. Attention在语义蕴涵 (Entailment) 中的应用
给定一个用英文描述的前提和假设作为输入,输出假设与前提是否矛盾、是否相关或 者是否成立。 • 前提:在一个婚礼派对上拍照 • 假设:有人结婚了 • 该例子中的假设是成立的。
文本序列与频谱序列长度差异问题? $20~40 • Attention-Based Models for Speech Recognition, 2015.
Attention应用
• 4. Attention在文本摘要上的应用
给定一篇英文文章作为输入序列,输出一个对应的摘要序列。 Attention机制被用于关联输出摘要中的每个词和输入中的一些特定词。
Self Attention可以捕获同一个句子中单词之间的一些句法特征(比如左图展示的有一定距离的 短语结构)或者语义特征(比如右图展示的its的指代对象Law)。
(1)ht经过一个全连接层,得到输出ut (2)ut和一个可训练的用来表示上下文信息的参数矩阵u(随机初始化)进
行比较以得到分配系数(alignment coefficient) (3)softmax归一化 (4)最后得到的聚焦化的向量s
RNN
序列性问题:自然语言处理问题,语音处理等。
计算视频中每一帧的分类标签; 语音的每一帧标签; 输入为字符,输出为下一个字符的概率(Char RNN) 缺陷:输入和输出序列必须等长。
输入输出非等长 1: N
RNN
从图像生成文字; 从类别生成语音或音乐等。
输入输出非等长 N: 1
RNN
序列分类问题
Local Attention融合两种方法,其解码器每次只集中关注一个固定大小2D+1窗 口中的编码器的状态。
Neural Machine Translation by Jointly Learning to Align and Translate,2014 (Bahdanau ) Effective Approaches to Attention-based Neural Machine Translation,2015 (Luong)
Hard Attention,每次仅选择一个相关的source进行计算,这种方法的缺点是不 可微,没有办法进行反向传播,只能借助强化学习、蒙特卡洛采样等手段进行训练。 这部分内容可以参考论文:Show, Attend and Tell: Neural Image Caption Generation with Visual Attention。
¥30
t-1 :Bahdanau Attention t :Luong Attention
eij : si−1 hj eij : si hj
• attention + CNN • ¥40
Global注意力机制是一种soft注意力机制,即每一时刻解码器需要对所有编码 器隐含状态都权衡一遍,这对于长序列代价太高,也许也是没有必要的。
相关文档
最新文档