注意力机制

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

注意力机制的计算可以分为两步:一是在所有输入信息上计算注意力分布,二是根据注意力分布来计算输入信息的加权平均。

我们采用一种“软性(概率)”的信息选择机制

如何对结果进行汇总,加权平均----期望

注意力机制的应用:

注意力机制主要是用来做信息筛选

注意力机制可以分为两步:一是计算注意力分布α,二是根据α来计算输入信息的加权平均。我们可以只利用注意力机制中的第一步,将注意力分布作为一个软性的指针来指出相关信息的位置

变长序列编码,长距离依赖关系

注意力模型可以作为神经网络中的一层来使用,既可以用来替换卷积层和循环层,也可以和它们一起交替使用(比如X 可以是卷积层或循环层的输出)。自注意力模型计算的权重αij 只依赖q i 和

k j 的相关性,而忽略了输入信息的位置信息。因此在单独使用时,自注意

力模型一般需要加入位置编码信息来进行修正。

长期记忆可以类比于人工神经网络中的权重参数,而短期记忆可以类比于人工神经网络中的隐状态。

外部记忆可以存储更多的信息,并且不直接参与计算,通过读写接口来进行操作

将和任务相关的短期记忆保存在记忆中,需要时再进行读取。这种装备外部记忆的神经网络也称为记忆网络(Memory Network,MN)或记忆增强神经网络(Memory Augmented Neural Network,MANN),神经网络还可以作为一种记忆的存储和检索模型

相关文档
最新文档