长短时记忆神经网络模型(LSTM)简介

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

有细胞作为输入：。
最终输出门的输出为：

= ∑=1 + ∑=1

= (
)
（5-7）
（5-8）
（5）记忆细胞（）输出的计算
记忆细胞输出的计算，即将输出门和记忆细胞做乘积即可。
最终记忆细胞输出的输出为：

=
ℎ( )
（5-9）
对应的权重，图 5- 3 标识了 LSTM 的单个记忆单元中需要更新的权重：、、
、。
（2）记忆细胞输出的梯度
首先计算每个样本输出的梯度：

=
ℒ(,)

(− ∑
=

′ =1 ′

ln ′ )

= −
（5-10）
即每一个样本输出的梯度仅和其预测值和真实值相关，这样对于记忆细胞输
5.1 长短时记忆网络模型（LSTM）
对于公共自行车出行需求预测的研究，很多研究还是停留在传统的四阶段法
或者应用小样本量建立 logit 模型来预测整个系统的公共自行车总需求量，较少
应用基于深度学习的机器学习模型来进行公共自行车需求预测。本文借助南京公
共自行车智能 IC 卡数据，结合第四章的研究内容，将公共自行车出行链数据转
网络的总称。RNN 在处理时间序列上距离较远的节点时会发生梯度膨胀和梯度
消失的问题，为了解决 RNN 的这个问题，研究人员提出基于门限的 RNN（Gated
RNN），而 LSTM 就是门限 RNN 中应用最广泛的一种，LSTM 通过增加输入门
（Input Gate），输出门（Ouput Gate）和遗忘门（Forget Gate），使得神经网络的
门的梯度，应用梯度下降原则训练 LSTM 网络模型，求解过程如图 5- 3 所示：
图 5- 3 LSTM 的反向传播算法流程图
（1）权重的更新
对于神经网络中的每一个权重，都需要找到对应的梯度，从而通过不断地用
训练样本进行随机梯度下降找到全局最优解。一般层次分明的神经网络有输入层、
隐含层和输出层，层与层之间的权重比较直观；但在 LSTM 中通过公式才能找到
了安卓手机和其他设备中语音识别的能力，之后谷歌使用 LSTM 的范围更加广
泛，它可以自动回复电子邮件，生成图像字幕，同时显著地提高了谷歌翻译的质
量；苹果的 iPhone 也在 QucikType 和 Siri 中使用了 LSTM；微软不仅将 LSTM
用于语音识别，还将这一技术用于虚拟对话形象生成和编写程序代码等等[56]。
[58]，一个基础的 LSTM 结构示例如图 5- 1 所示：
图 5- 1 LSTM 的基础结构[58]
一个记忆细胞只能产出一个标量值，一个记忆单元能产出一个向量。LSTM
的算法包括两个部分：1. LSTM 的前向传播（Forward Pass），用于解决已知 LSTM
输入如何得到输出的问题；2. LSTM 的反向传播（Backward Pass），用于更新 LSTM
LSTM 算法全称为 Long short-term memory，最早由 Sepp Hochreiter 和 Jü
rgen Schmidhuber 于 1997 年提出[57]，是一种特定形式的循环神经网络（RNN，
Recurrent neural network，），而循环神经网络是一系列能够处理序列数据的神经
权重能够自我更新，在网络模型参数固定的情况下，不同时刻的权重尺度可以动
态改变，从而能够避免梯度消失或者梯度膨胀的问题。LSTM 的结构中每个时刻
的隐层包含了多个记忆单元（Memory Blocks），每个单元（Block）包含了多个记
忆细胞（Memory Cell），每个记忆细胞包含一个细胞（Cell）和三个门（Gate）
中每个权重的梯度，解决 LSTM 的训练问题。
5.1.2 LSTM 的前向传播算法
本文应用最基础的 LSTM 结构来进行公共自行车出行链出行目的需求预测，
该模型每个时刻的隐含层只包括一个记忆单元，每个记忆单元只包含一个记忆细
胞。LSTM 的前向传播算法从输入开始，逐个求解输入门、遗忘门、细胞门和输
出门，求解过程如图 5- 2 所示：
（5-2）
（2）遗忘门（）的计算
遗忘门接受两个输入：1. 当前时刻的输入：；2. 上一时刻同一单元内所
有细胞作为输入：−1 。
最终输入门的输出为：

= ∑=1 + ∑=1 −1

= (
)
（3）记忆细胞（）的计算
（5-3）
（5-4）
至此，整个记忆单元从输入到输出整个前向传播算法已经结束，其中涉及三
个门和中间记忆细胞的计算，其中三个门使用的激活函数是，而输入的激活函
数是、记忆细胞输出的激活函数是ℎ。
5.1.3 LSTM 的反向传播算法
LSTM 的反向传播算法，利用链式求导求解整个 LSTM 中每个权重的梯度。
LSTM 的反向传播算法从求解输出门梯度开始，逐个求解细胞门、遗忘门和输入
化为公共自行车站点不同出行目的的需求数据，提出基于深度学习的长短时记忆
网络模型（LSTM）来实现公共自行车站点的出行需求预测。
5.1.1 LSTM 模型概述
长短时记忆网络是一种深度学习方法，目前是机器学习领域中应用最广泛的
模型，并在科技领域有了众多应用。在 2015 年，谷歌通过 LSTM 模型大幅提升
记忆细胞的计算稍有些复杂，接受两个输入：1. 输入门和输入的乘积；2. 遗
忘门和上一时刻对应记忆细胞输出的乘积。
最终记忆细胞的输出为：
= ∑=1
= −1 + ( )
（5-5）
（5-6）
（4）输出门（）的计算
遗忘门接受两个输入：1. 当前时刻的输入：；2. 当前时刻同一单元内所
图 5- 2 LSTM 的前向传播算法流程图
（1）输入门（）的计算
输入门接受两个输入：1. 当前时刻的输入：；2. 上一时刻同一单元内所
有细胞作为输入：−1 。
最终输入门的输出为：
= ∑=1 + ∑=1 −1
wk.baidu.com
（5-1）
= ( )
出的梯度则可以通过链式求导法则推导出来：