LSTM学习介绍,各种门介绍

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一种特别的递归神经网络，能够学习长久依靠关系，记着信息很长一段时间几乎是它们固有的行为，而不是努力去学习，全部的递归神经网络都拥有一连串重复神经网络模块的形式。

在标准的RNNs中，这类重复模块有一种特别简单的构造，比方单个tanh层。

LSTMs相同也有这类链状的构造，可是重复模块有着不一样的构造。

它有四层神经网络层以特别的方式互相作用，而不是单个神经网络层。

在上边的图中，每条线表示一个完好向量，从一个节点的输出到其余节点的输入。

粉红色圆圈代表逐点操作，比方向量加法，而黄色框框表示的是已学习的神经网络层。

线条归并表示串连，线条分叉表示内容复制并输入到不一样地方。

LSTMs中心理念：
LSTMs的重点点是单元状态，就是穿过图中的水平线。

LSTM有能力向单元状态中移除或增添信息，经过构造来认真管理称为门限。

门限是有选择地让信息经过。

它们由一个sigmoid神经网络层和逐点乘法运算构成。

sigmoid层输出0到1之间的数字，描绘了每个成分应当经过门限的程度。

0表
示“不让任何成分经过”，而1表示“让全部成分经过！”。

LSTM有三种这样的门限，来保护和控制单元状态。

一步一步解析LSTM
LSTM中第一步是决定哪些信息需要从单元状态中扔掉。

这项决议是由一个称为“忘记门限层”的sigmoid层决定的。

它接收和，而后为单元状态中的每个数字计算一个0到1之间的数字。

1表示“完好保存”，而0则表示“完好扔掉”。

：我们往返首一下那个语言模型的例子，试图依据前方全部的词语来展望下
一个词。

在这类问题中，单元状态可能包括目前主语的性别，因此能够使用正确的
代词。

当遇到一个新的主语时，我们希望它能够忘掉旧主语的性别。

接下来我们需要决定在单元状态中需要储存哪些新信息。

这分为两个部分。

第一，一个叫做“输入门限层”的sigmoid层决定哪些值需要更新。

接下来，一个tanh层创立一个向量，包括新候选值，这些值能够增添到这个状态中。

下一步我们将会联合这二者来创立一个状态更新。

在语言模型的例子中，我们希望在单元状态中增添新主语的性别，来替代我们忘掉的旧主语性别。

此刻来更新旧单元状态了，输入到新单元状态。

以前的步骤已经决定了需要做哪些事情，我们只要要实现这些事情就行了。

我们在旧状态上乘以，忘掉以前决定需要忘掉的。

而后我们加上，这就是新的候选值，它的规模取决于我们决定每个状态值需要更新多少。

在语言模型的例子中，这里就是我们实质扔掉旧主语性别信息，依据以前步骤增添
新信息的地方。

最后，我们需要决定需要输出什么。

这个输出将会成立在单元状态的基础上，可是个过滤版本。

第一，我们运转一个sigmoid层来决定单元状态中哪些部分需要输出。

而后我们将单元状态输入到tanh函数（将值变换成-1到1之间）中，而后乘以输出的sigmoid门限值，因此我们只输出了我们想要输出的那部分。

关于语言模型例子来说，由于它只看到了一个主语，它可能想输出与动词有关的信
息，为接下来出现的词做准备。

比方，它可能输出主语是单数仍是复数，那么我们
知道接下来修饰动词的应当成对。

长短期记忆变体
一种流行的LSTM变种，由提出，加入了“窥视孔连结”（peepholeconnections）。

这意味着门限层也将单元状态作为输入。

上图中，全部的门限中都加入了窥视孔，可是很多论文都只使用部分窥视孔。

另一个变种就是使用耦合忘记和输入门限。

我们不独自决定忘记哪些、增添哪些新
信息，而是一同做出决定。

在输入的时候才进行忘记。

在忘记某些旧信息时才将新
值增添到状态中。

略微有戏剧性的LSTM变种是门限递归单元或GRU，由提出。

它将忘记和输入门限
联合输入到单个“更新门限”中。

相同还将单元状态和隐蔽状态归并，并做出一些
其余变化。

所得模型比标准LSTM模型要简单，这类做法愈来愈流行。

提出的深度门限RNNs（DepthGatedRNNs）。

自然还有其余解决长短期依靠关系问题的方法，比方提出的ClockworkRNNs。