长短时记忆神经网络模型(LSTM)简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
有细胞作为输入: 。
最终输出门的输出为:
= ∑=1 + ∑=1
= (
)
(5-7)
(5-8)
(5)记忆细胞()输出的计算
记忆细胞输出的计算,即将输出门和记忆细胞做乘积即可。
最终记忆细胞输出的输出为:
=
ℎ( )
(5-9)
对应的权重,图 5- 3 标识了 LSTM 的单个记忆单元中需要更新的权重: 、 、
、 。
(2)记忆细胞输出的梯度
首先计算每个样本输出的梯度:
=
ℒ(,)
(− ∑
=
′ =1 ′
ln ′ )
= −
(5-10)
即每一个样本输出的梯度仅和其预测值和真实值相关,这样对于记忆细胞输
5.1 长短时记忆网络模型(LSTM)
对于公共自行车出行需求预测的研究,很多研究还是停留在传统的四阶段法
或者应用小样本量建立 logit 模型来预测整个系统的公共自行车总需求量,较少
应用基于深度学习的机器学习模型来进行公共自行车需求预测。本文借助南京公
共自行车智能 IC 卡数据,结合第四章的研究内容,将公共自行车出行链数据转
网络的总称。RNN 在处理时间序列上距离较远的节点时会发生梯度膨胀和梯度
消失的问题,为了解决 RNN 的这个问题,研究人员提出基于门限的 RNN(Gated
RNN),而 LSTM 就是门限 RNN 中应用最广泛的一种,LSTM 通过增加输入门
(Input Gate),输出门(Ouput Gate)和遗忘门(Forget Gate),使得神经网络的
门的梯度,应用梯度下降原则训练 LSTM 网络模型,求解过程如图 5- 3 所示:
图 5- 3 LSTM 的反向传播算法流程图
(1)权重的更新
对于神经网络中的每一个权重,都需要找到对应的梯度,从而通过不断地用
训练样本进行随机梯度下降找到全局最优解。一般层次分明的神经网络有输入层、
隐含层和输出层,层与层之间的权重比较直观;但在 LSTM 中通过公式才能找到
了安卓手机和其他设备中语音识别的能力,之后谷歌使用 LSTM 的范围更加广
泛,它可以自动回复电子邮件,生成图像字幕,同时显著地提高了谷歌翻译的质
量;苹果的 iPhone 也在 QucikType 和 Siri 中使用了 LSTM;微软不仅将 LSTM
用于语音识别,还将这一技术用于虚拟对话形象生成和编写程序代码等等[56]。
[58],一个基础的 LSTM 结构示例如图 5- 1 所示:
图 5- 1 LSTM 的基础结构[58]
一个记忆细胞只能产出一个标量值,一个记忆单元能产出一个向量。LSTM
的算法包括两个部分:1. LSTM 的前向传播(Forward Pass),用于解决已知 LSTM
输入如何得到输出的问题;2. LSTM 的反向传播(Backward Pass),用于更新 LSTM
LSTM 算法全称为 Long short-term memory,最早由 Sepp Hochreiter 和 Jü
rgen Schmidhuber 于 1997 年提出[57],是一种特定形式的循环神经网络(RNN,
Recurrent neural network,),而循环神经网络是一系列能够处理序列数据的神经
权重能够自我更新,在网络模型参数固定的情况下,不同时刻的权重尺度可以动
态改变,从而能够避免梯度消失或者梯度膨胀的问题。LSTM 的结构中每个时刻
的隐层包含了多个记忆单元(Memory Blocks),每个单元(Block)包含了多个记
忆细胞(Memory Cell),每个记忆细胞包含一个细胞(Cell)和三个门(Gate)
中每个权重的梯度,解决 LSTM 的训练问题。
5.1.2 LSTM 的前向传播算法
本文应用最基础的 LSTM 结构来进行公共自行车出行链出行目的需求预测,
该模型每个时刻的隐含层只包括一个记忆单元,每个记忆单元只包含一个记忆细
胞。LSTM 的前向传播算法从输入开始,逐个求解输入门、遗忘门、细胞门和输
出门,求解过程如图 5- 2 所示:
(5-2)
(2)遗忘门()的计算
遗忘门接受两个输入:1. 当前时刻的输入: ;2. 上一时刻同一单元内所
有细胞作为输入:−1 。
最终输入门的输出为:
= ∑=1 + ∑=1 −1
= (
)
(3)记忆细胞()的计算
(5-3)
(5-4)
至此,整个记忆单元从输入到输出整个前向传播算法已经结束,其中涉及三
个门和中间记忆细胞的计算,其中三个门使用的激活函数是,而输入的激活函
数是、记忆细胞输出的激活函数是ℎ。
5.1.3 LSTM 的反向传播算法
LSTM 的反向传播算法,利用链式求导求解整个 LSTM 中每个权重的梯度。
LSTM 的反向传播算法从求解输出门梯度开始,逐个求解细胞门、遗忘门和输入
化为公共自行车站点不同出行目的的需求数据,提出基于深度学习的长短时记忆
网络模型(LSTM)来实现公共自行车站点的出行需求预测。
5.1.1 LSTM 模型概述
长短时记忆网络是一种深度学习方法,目前是机器学习领域中应用最广泛的
模型,并在科技领域有了众多应用。在 2015 年,谷歌通过 LSTM 模型大幅提升
记忆细胞的计算稍有些复杂,接受两个输入:1. 输入门和输入的乘积;2. 遗
忘门和上一时刻对应记忆细胞输出的乘积。
最终记忆细胞的输出为:
= ∑=1
= −1 + ( )
(5-5)
(5-6)
(4)输出门()的计算
遗忘门接受两个输入:1. 当前时刻的输入: ;2. 当前时刻同一单元内所
图 5- 2 LSTM 的前向传播算法流程图
(1)输入门()的计算
输入门接受两个输入:1. 当前时刻的输入: ;2. 上一时刻同一单元内所
有细胞作为输入:−1 。
最终输入门的输出为:
= ∑=1 + ∑=1 −1
wk.baidu.com
(5-1)
= ( )
出的梯度则可以通过链式求导法则推导出来:
最终输出门的输出为:
= ∑=1 + ∑=1
= (
)
(5-7)
(5-8)
(5)记忆细胞()输出的计算
记忆细胞输出的计算,即将输出门和记忆细胞做乘积即可。
最终记忆细胞输出的输出为:
=
ℎ( )
(5-9)
对应的权重,图 5- 3 标识了 LSTM 的单个记忆单元中需要更新的权重: 、 、
、 。
(2)记忆细胞输出的梯度
首先计算每个样本输出的梯度:
=
ℒ(,)
(− ∑
=
′ =1 ′
ln ′ )
= −
(5-10)
即每一个样本输出的梯度仅和其预测值和真实值相关,这样对于记忆细胞输
5.1 长短时记忆网络模型(LSTM)
对于公共自行车出行需求预测的研究,很多研究还是停留在传统的四阶段法
或者应用小样本量建立 logit 模型来预测整个系统的公共自行车总需求量,较少
应用基于深度学习的机器学习模型来进行公共自行车需求预测。本文借助南京公
共自行车智能 IC 卡数据,结合第四章的研究内容,将公共自行车出行链数据转
网络的总称。RNN 在处理时间序列上距离较远的节点时会发生梯度膨胀和梯度
消失的问题,为了解决 RNN 的这个问题,研究人员提出基于门限的 RNN(Gated
RNN),而 LSTM 就是门限 RNN 中应用最广泛的一种,LSTM 通过增加输入门
(Input Gate),输出门(Ouput Gate)和遗忘门(Forget Gate),使得神经网络的
门的梯度,应用梯度下降原则训练 LSTM 网络模型,求解过程如图 5- 3 所示:
图 5- 3 LSTM 的反向传播算法流程图
(1)权重的更新
对于神经网络中的每一个权重,都需要找到对应的梯度,从而通过不断地用
训练样本进行随机梯度下降找到全局最优解。一般层次分明的神经网络有输入层、
隐含层和输出层,层与层之间的权重比较直观;但在 LSTM 中通过公式才能找到
了安卓手机和其他设备中语音识别的能力,之后谷歌使用 LSTM 的范围更加广
泛,它可以自动回复电子邮件,生成图像字幕,同时显著地提高了谷歌翻译的质
量;苹果的 iPhone 也在 QucikType 和 Siri 中使用了 LSTM;微软不仅将 LSTM
用于语音识别,还将这一技术用于虚拟对话形象生成和编写程序代码等等[56]。
[58],一个基础的 LSTM 结构示例如图 5- 1 所示:
图 5- 1 LSTM 的基础结构[58]
一个记忆细胞只能产出一个标量值,一个记忆单元能产出一个向量。LSTM
的算法包括两个部分:1. LSTM 的前向传播(Forward Pass),用于解决已知 LSTM
输入如何得到输出的问题;2. LSTM 的反向传播(Backward Pass),用于更新 LSTM
LSTM 算法全称为 Long short-term memory,最早由 Sepp Hochreiter 和 Jü
rgen Schmidhuber 于 1997 年提出[57],是一种特定形式的循环神经网络(RNN,
Recurrent neural network,),而循环神经网络是一系列能够处理序列数据的神经
权重能够自我更新,在网络模型参数固定的情况下,不同时刻的权重尺度可以动
态改变,从而能够避免梯度消失或者梯度膨胀的问题。LSTM 的结构中每个时刻
的隐层包含了多个记忆单元(Memory Blocks),每个单元(Block)包含了多个记
忆细胞(Memory Cell),每个记忆细胞包含一个细胞(Cell)和三个门(Gate)
中每个权重的梯度,解决 LSTM 的训练问题。
5.1.2 LSTM 的前向传播算法
本文应用最基础的 LSTM 结构来进行公共自行车出行链出行目的需求预测,
该模型每个时刻的隐含层只包括一个记忆单元,每个记忆单元只包含一个记忆细
胞。LSTM 的前向传播算法从输入开始,逐个求解输入门、遗忘门、细胞门和输
出门,求解过程如图 5- 2 所示:
(5-2)
(2)遗忘门()的计算
遗忘门接受两个输入:1. 当前时刻的输入: ;2. 上一时刻同一单元内所
有细胞作为输入:−1 。
最终输入门的输出为:
= ∑=1 + ∑=1 −1
= (
)
(3)记忆细胞()的计算
(5-3)
(5-4)
至此,整个记忆单元从输入到输出整个前向传播算法已经结束,其中涉及三
个门和中间记忆细胞的计算,其中三个门使用的激活函数是,而输入的激活函
数是、记忆细胞输出的激活函数是ℎ。
5.1.3 LSTM 的反向传播算法
LSTM 的反向传播算法,利用链式求导求解整个 LSTM 中每个权重的梯度。
LSTM 的反向传播算法从求解输出门梯度开始,逐个求解细胞门、遗忘门和输入
化为公共自行车站点不同出行目的的需求数据,提出基于深度学习的长短时记忆
网络模型(LSTM)来实现公共自行车站点的出行需求预测。
5.1.1 LSTM 模型概述
长短时记忆网络是一种深度学习方法,目前是机器学习领域中应用最广泛的
模型,并在科技领域有了众多应用。在 2015 年,谷歌通过 LSTM 模型大幅提升
记忆细胞的计算稍有些复杂,接受两个输入:1. 输入门和输入的乘积;2. 遗
忘门和上一时刻对应记忆细胞输出的乘积。
最终记忆细胞的输出为:
= ∑=1
= −1 + ( )
(5-5)
(5-6)
(4)输出门()的计算
遗忘门接受两个输入:1. 当前时刻的输入: ;2. 当前时刻同一单元内所
图 5- 2 LSTM 的前向传播算法流程图
(1)输入门()的计算
输入门接受两个输入:1. 当前时刻的输入: ;2. 上一时刻同一单元内所
有细胞作为输入:−1 。
最终输入门的输出为:
= ∑=1 + ∑=1 −1
wk.baidu.com
(5-1)
= ( )
出的梯度则可以通过链式求导法则推导出来: