LossFunction一般形式及数学概念深度学习梯度优化方法深度学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3/25
火龙果·整理
uml.org.cn
DL训练过程
深度学习的基本思想: 对于Deep Learning,需要自动地学习特征,假设有一堆输 入I,输出是O,设计一个系统S(有n层),形象地表示为: I =>S1=>S2=>.....=>Sn => O,通过调整系统中参数,使得它 的输出仍然是输入 I ,那么就可以自动地获取得到输入 I 的一 系列层次特征,即S1,..., Sn。 用自下而上的无监督学习 1)逐层构建单层神经元。 2)每层采用wake-sleep算法进行调优。每次仅调整一层, 逐层调整。
7/25
火龙果·整理
uml.org.cn
稀疏自动编码器
2、稀疏自动编码器(Sparse AutoEncoder) AutoEncoder的基础上加上L1的Regularity限制(L1主要是约 束每一层中的节点中大部分都要为0,只有少数不为0), 就可以得到Sparse AutoEncoder法。
14/25
火龙果·整理
uml.org.cn
数学概念
1、梯度(一阶导数)
某一点的梯度方向是在该点坡度最陡的方向,而 梯度的大小告诉我们坡度到底有多陡;
对于一个含有 n 个变量的标量函数,即函数输入 一个 n 维 的向量,输出一个数值,梯度可以定 义为:
15/25
火龙果·整理
uml.org.cn
数学概念
2、Hesse 矩阵(二阶导数)
Hesse 矩阵常被应用于牛顿法解决的大规模优化问题,主 要形式如下:
当 f(x) 是下列形式: 其中 x为列向量,A 是 n 阶对称矩阵,b 是 n 维列向量, c 是常数。f(x) 梯度是 Ax+b, Hesse 矩阵等于 A。
16/25
火龙果·整理
核心思想:局部感受野、权值共享以及时间或空间子采样这 三种结构思想结合起来获得某种程度的位移、尺度、形变不 变性。
12/25
火龙果·整理
uml.org.cn
Loss Function一般形式
13/25
火龙果·整理
uml.org.cn
LLeabharlann Baiduss Function一般形式
回归函数及目标函数
以均方误差作为目标函数(损失函数),目的是 使其值最小化,用于优化上式。
火龙果·整理
uml.org.cn
深度学习(Deep Learning)及其优化方法
胡海根
1/25
火龙果·整理
uml.org.cn
Outline
深度学习基本介绍
Loss Function一般形式及数学概念
深度学习梯度优化方法
深度学习优化方法
2/25
火龙果·整理
uml.org.cn
深度学习的概念
什么是deep learning? 深度学习:一种基于 无监督特征学习和特征层 次结构的学习方法。 本质:通过构建多隐 层的模型和海量训练数据, 来学习更有用的特征,从 而最终提升分类或预测的 准确性。 含多隐层的多层感知器 就是一种深度学习结构。
9/25
火龙果·整理
uml.org.cn
RBM
给定隐层h的基础上,可视层的概率确定:
(可视层节点之间是条件独立的) 给定可视层v的基础上,隐层的概率确定: 给定一个满足独立同分布的样本集:D={v(1), v(2),…, v(N)}, 我们需要学习参数θ={W,a,b}。 最大似然估计: 对最大对数似然函数求导,就可以得到L最大时对应的参数 W了。
17/25
火龙果·整理
uml.org.cn
优化方法
1、Gradient Descent
Gradient descent(steepest descent),也叫批量梯度下降 法Batch Gradient Descent,BSD,利用一阶的梯度信息找 到函数局部最优解的一种方法,主要迭代公式如下:
10/25
火龙果·整理
uml.org.cn
DBN
DBNs由多个限制玻尔兹曼机(RBM)层组成,一个典型的 神经网络类型如下图所示。
11/25
火龙果·整理
uml.org.cn
CNN 5、卷积神经网络(Convolutional Neural Networks) 卷积神经网络是一个多层的神经网络,每层由多个二维平面 组成,而每个平面由多个独立神经元组成。CNNs是第一个 真正成功训练多层网络结构的学习算法。
如上图,其实就是限制每次得到的表达code尽量稀疏。因 为稀疏的表达往往比其他的表达要有效。
8/25
火龙果·整理
uml.org.cn
RBM
3、限制波尔兹曼机(RBM) 定义:假设有一个二部图,同层节点之间没有链接,一 层是可视层,即输入数据层(v),一层是隐藏层(h),如果 假设所有的节点都是随机二值(0,1)变量节点,同时假设 全概率分布p(v,h)满足Boltzmann分布,称这个模型是RBM。
uml.org.cn
数学概念
3、Jacobian 矩阵
Jacobian 矩阵实际上是向量值函数的梯度矩阵,假设 F:Rn→Rm 是一个从n维欧氏空间转换到m维欧氏空间的函 数。这个函数由m个实函数组成:
这些函数的偏导数(如果存在)可以组成一个m行n列的矩 阵(m by n),这就是所谓的雅可比矩阵:
6/25
火龙果·整理
uml.org.cn
自动编码器
1、自动编码器( AutoEncoder ) 通过调整encoder和decoder的参数,使得重构误差最小, 就得到了输入input信号的第一个表示了,也就是编码 code了。
因为是无标签数据,所以误差的来源就是直接重构后与 原输入相比得到。
4/25
火龙果·整理
uml.org.cn
DL训练过程
第二步:自顶向下的监督学习 这一步是在第一步学习获得各层参数进的基础上,在最 顶的编码层添加一个分类器(如,SVM等),而后通过带 标签数据的监督学习,利用梯度下降法去微调整个网络参数。
5/25
火龙果·整理
uml.org.cn
DL训练过程
深度学习的具体模型及方法: 1、自动编码器( AutoEncoder ) 2、稀疏自动编码器(Sparse AutoEncoder) 3、限制波尔兹曼机(Restricted Boltzmann Machine) 4、深信度网络(Deep Belief Networks) 5、卷积神经网络(Convolutional Neural Networks)
火龙果·整理
uml.org.cn
DL训练过程
深度学习的基本思想: 对于Deep Learning,需要自动地学习特征,假设有一堆输 入I,输出是O,设计一个系统S(有n层),形象地表示为: I =>S1=>S2=>.....=>Sn => O,通过调整系统中参数,使得它 的输出仍然是输入 I ,那么就可以自动地获取得到输入 I 的一 系列层次特征,即S1,..., Sn。 用自下而上的无监督学习 1)逐层构建单层神经元。 2)每层采用wake-sleep算法进行调优。每次仅调整一层, 逐层调整。
7/25
火龙果·整理
uml.org.cn
稀疏自动编码器
2、稀疏自动编码器(Sparse AutoEncoder) AutoEncoder的基础上加上L1的Regularity限制(L1主要是约 束每一层中的节点中大部分都要为0,只有少数不为0), 就可以得到Sparse AutoEncoder法。
14/25
火龙果·整理
uml.org.cn
数学概念
1、梯度(一阶导数)
某一点的梯度方向是在该点坡度最陡的方向,而 梯度的大小告诉我们坡度到底有多陡;
对于一个含有 n 个变量的标量函数,即函数输入 一个 n 维 的向量,输出一个数值,梯度可以定 义为:
15/25
火龙果·整理
uml.org.cn
数学概念
2、Hesse 矩阵(二阶导数)
Hesse 矩阵常被应用于牛顿法解决的大规模优化问题,主 要形式如下:
当 f(x) 是下列形式: 其中 x为列向量,A 是 n 阶对称矩阵,b 是 n 维列向量, c 是常数。f(x) 梯度是 Ax+b, Hesse 矩阵等于 A。
16/25
火龙果·整理
核心思想:局部感受野、权值共享以及时间或空间子采样这 三种结构思想结合起来获得某种程度的位移、尺度、形变不 变性。
12/25
火龙果·整理
uml.org.cn
Loss Function一般形式
13/25
火龙果·整理
uml.org.cn
LLeabharlann Baiduss Function一般形式
回归函数及目标函数
以均方误差作为目标函数(损失函数),目的是 使其值最小化,用于优化上式。
火龙果·整理
uml.org.cn
深度学习(Deep Learning)及其优化方法
胡海根
1/25
火龙果·整理
uml.org.cn
Outline
深度学习基本介绍
Loss Function一般形式及数学概念
深度学习梯度优化方法
深度学习优化方法
2/25
火龙果·整理
uml.org.cn
深度学习的概念
什么是deep learning? 深度学习:一种基于 无监督特征学习和特征层 次结构的学习方法。 本质:通过构建多隐 层的模型和海量训练数据, 来学习更有用的特征,从 而最终提升分类或预测的 准确性。 含多隐层的多层感知器 就是一种深度学习结构。
9/25
火龙果·整理
uml.org.cn
RBM
给定隐层h的基础上,可视层的概率确定:
(可视层节点之间是条件独立的) 给定可视层v的基础上,隐层的概率确定: 给定一个满足独立同分布的样本集:D={v(1), v(2),…, v(N)}, 我们需要学习参数θ={W,a,b}。 最大似然估计: 对最大对数似然函数求导,就可以得到L最大时对应的参数 W了。
17/25
火龙果·整理
uml.org.cn
优化方法
1、Gradient Descent
Gradient descent(steepest descent),也叫批量梯度下降 法Batch Gradient Descent,BSD,利用一阶的梯度信息找 到函数局部最优解的一种方法,主要迭代公式如下:
10/25
火龙果·整理
uml.org.cn
DBN
DBNs由多个限制玻尔兹曼机(RBM)层组成,一个典型的 神经网络类型如下图所示。
11/25
火龙果·整理
uml.org.cn
CNN 5、卷积神经网络(Convolutional Neural Networks) 卷积神经网络是一个多层的神经网络,每层由多个二维平面 组成,而每个平面由多个独立神经元组成。CNNs是第一个 真正成功训练多层网络结构的学习算法。
如上图,其实就是限制每次得到的表达code尽量稀疏。因 为稀疏的表达往往比其他的表达要有效。
8/25
火龙果·整理
uml.org.cn
RBM
3、限制波尔兹曼机(RBM) 定义:假设有一个二部图,同层节点之间没有链接,一 层是可视层,即输入数据层(v),一层是隐藏层(h),如果 假设所有的节点都是随机二值(0,1)变量节点,同时假设 全概率分布p(v,h)满足Boltzmann分布,称这个模型是RBM。
uml.org.cn
数学概念
3、Jacobian 矩阵
Jacobian 矩阵实际上是向量值函数的梯度矩阵,假设 F:Rn→Rm 是一个从n维欧氏空间转换到m维欧氏空间的函 数。这个函数由m个实函数组成:
这些函数的偏导数(如果存在)可以组成一个m行n列的矩 阵(m by n),这就是所谓的雅可比矩阵:
6/25
火龙果·整理
uml.org.cn
自动编码器
1、自动编码器( AutoEncoder ) 通过调整encoder和decoder的参数,使得重构误差最小, 就得到了输入input信号的第一个表示了,也就是编码 code了。
因为是无标签数据,所以误差的来源就是直接重构后与 原输入相比得到。
4/25
火龙果·整理
uml.org.cn
DL训练过程
第二步:自顶向下的监督学习 这一步是在第一步学习获得各层参数进的基础上,在最 顶的编码层添加一个分类器(如,SVM等),而后通过带 标签数据的监督学习,利用梯度下降法去微调整个网络参数。
5/25
火龙果·整理
uml.org.cn
DL训练过程
深度学习的具体模型及方法: 1、自动编码器( AutoEncoder ) 2、稀疏自动编码器(Sparse AutoEncoder) 3、限制波尔兹曼机(Restricted Boltzmann Machine) 4、深信度网络(Deep Belief Networks) 5、卷积神经网络(Convolutional Neural Networks)