机器学习及应用 第11章 深度学习初步
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
稀疏编码这种表示的简洁性以及计算的高效性使其很快成为特征表示的一 种常用方法,并在自然图像建模、语音分类、自然语言处理等方面实现了 成功的应用;
在无向概率图模型中,玻尔兹曼分布是一类马尔可夫随机场的特殊形式; 受限玻尔兹曼机,RBM能够很好地消除explaining away现象,得到了广泛
深度学习别名,叫做非监督的特征学习。 深度学习的学习过程可以简要概括为:首先逐层无监督地预训练单层学习模
块,然后每次都将上一层的输出结果作为下一层训练模块的输入,最后训练 完所有层后利用有监督的方式微调整个网络。在无监督预训练阶段,希望输 入数据经过整个深层网络后得到的输出结果仍然等于输入;
用于堆叠的单层学习模块主要分为两类。一类是以受限玻尔兹曼机为代表的概率 模型构建模块,另一类是以自动编码器及其变形为代表的神经网络构建模块。
11.2 表示问题
在深度学习模型中,前者被解释成描述某种概率图模型,隐藏单元被视 为隐随机变量;后者则被解释成描述某种计算图,隐藏单元被视为计算 结点。
Hinton双向的wake-sleep算法对深层网络进行优化。各层之间采用双向的 权值,自底而上的称作认知权值,自上而下的称作生成权值。算法分为 wake阶段和sleep阶段。在wake阶段,自底而上利用每层的输入和认知权 值逐层生成抽象特征,并且用梯度下降算法不断修改生成权值;在sleep阶 段,自顶而下利用学习到的特征以及生成权值逐层生成低层输入,并不断 修改认知权值。
第11章 深度学习初步
学习目标
自编码器模型 受限玻尔兹曼机模型
学习目标
卷积神经网络模型 TensorFlow的基本使用
11.1 引言
2006年,Geoffrey Hinton在《Science》上提出了深度学习的概念;在 语音识别和信号处理、图像目标识别以及自然语言处理等研究方向, 深度学习的应用都带来了具有突破性的结果。深度学习的提出,引发 了机器学习研究者们在表示、学习、优化、认知等方面的进一步思考。
的应用,包括图像分类、运动和空间变换、协同过滤以及自然图像建模。
11.3 学习问题
在深度学习提出以前,先将输入数据进行预处理,然后进行特征提取、特征 选择,最后进行推理、预测或识别;
选取特征的过程也就是特征表示的过程,这也是对算法的性能起到决定性作 用的阶段。
有相当一部分算法利用人工设计的特征取得了良好的效果,手工选取特征不 仅需要相当的专业领域知识,并且合适的特征设计是一件十分费力的事情。
SAE引入了一种稀疏正则化的形式,表示的稀疏性可以通过惩罚隐藏单元 的偏置项获得;
11.3 学习问题
稀疏编码与自动编码器结合的另一类有效的变形是PSD,PSD在 识别阶段通过一个快速非迭代的近似替代原本高成本且高度非线 性的编码步骤,并应用在图像、视频与音频中的目标识别中。
DAE对含有人工噪声的数据进行降噪,通过降噪处理,学习模型 能够获得与RBM特征相当或者更优的特征并且提高分类的性能;
从 参数的编码路径方面讲,概率模型利用推理和训练方案直接参数化生 成路径,也就是解码过程;而基于神经网络的模型直接参数化编码路径。
有向图模型经常会导致explaining away的问题;
Hale Waihona Puke Baidu
11.2 表示问题
许多经典的特征表示方法都能够赋予概率模型的解释,主成分分析PCA以 及稀疏编码能够与有向图模型分别参数化似然度和先验概率来构建联合分 布相对应;
11.3 学习问题
深度学习的过程就是获得在给定观察数据条件下隐藏变量的概率分布。可 以分为以稀疏编码为代表的有向图模型以及以受限玻尔兹曼机为代表的无 向图模型。
另一种非概率特征学习的模型是基于神经网络的模型。这类模型的主要思 想是将自动编码器堆叠起来,建立一种深层的架构。也可以用一些正则化 的自动编码器替换标准的自动编码器,获得一些改进的版本。现有的模型 主要包括稀疏自动编码器(Sparse AutoEncoders,SAE)、降噪自动编码 器(Denoising AutoEncoders,DAE)、收缩自动编码器(Contractive Auto-Encoders,CAE);
进行优化经常会陷入局部极小值而使得训练变得异常困难。 2006年,Hinton提出了优化深层神经网络的有效方法
• 首先,从网络的输入层开始,自底而上逐层地进行非监督训练网络权值。 • 其次,当无监督训练完所有层之后,利用自顶向下的监督学习对整个网络权值
进行微调,利用无监督初始化参数的过程,能使得网络的权值更加接近于全局 最优,这就保证了后续优化工作的顺利进行。
CAE强调学习一种更加收缩的编码器,即使得编码器的导数尽可 能的小。这样带来的好处是能降低表示的有效自由度,使得特征 对于输入空间的无穷小变形具有很好的鲁棒性。
11.4 优化问题
传统的神经网络模型利用反向传播BP算法来优化多层网络的权值。 当面临深度学习所需要的深层网络时,继续随机初始化网络后采用BP算法
11.2 表示问题
深度学习可以通过一种深层的非线性网络实现对复杂函数的无限逼近。这就解决 了浅层学习在有限数量的样本和计算单元情况下对复杂函数表示能力有限的问题。 简言之,深度学习多层表示的好处就是能够用较少的参数表征十分复杂的函数。
深层表示方式的优势:一方面深度结构能够逐渐学习出更加抽象的特征,另一方 面深度结构可以提供一种更具表现力的分布式表示方式,在深度学习采用的多层 表示中,如果深度不够将会带来一定的问题。与此同时,如何决定深层表示的层 数以及需要多少计算资源才能够训练出足够好的深层网络模型都是研究表示时值 得探究的问题。
11.5 认知问题
人工智能、机器学习等学科通过模拟或实现人类认知规律,解析其内在 机理,并用机器来实现,以此开发智能化的信息处理模式。
支持深度学习最强有力的证据是人脑具有一个深层次(即深度)的结构。
大脑皮层结构示意图
11.5 认知问题
人脑的深度结构决定了人类认知过程的逐层进行; 深度学习从某种程度上模拟了人类逐层进行、逐步抽象的认知过程。 认知具有感知、识别、学习、联想、记忆、推理等功能,是人类最基本的
在无向概率图模型中,玻尔兹曼分布是一类马尔可夫随机场的特殊形式; 受限玻尔兹曼机,RBM能够很好地消除explaining away现象,得到了广泛
深度学习别名,叫做非监督的特征学习。 深度学习的学习过程可以简要概括为:首先逐层无监督地预训练单层学习模
块,然后每次都将上一层的输出结果作为下一层训练模块的输入,最后训练 完所有层后利用有监督的方式微调整个网络。在无监督预训练阶段,希望输 入数据经过整个深层网络后得到的输出结果仍然等于输入;
用于堆叠的单层学习模块主要分为两类。一类是以受限玻尔兹曼机为代表的概率 模型构建模块,另一类是以自动编码器及其变形为代表的神经网络构建模块。
11.2 表示问题
在深度学习模型中,前者被解释成描述某种概率图模型,隐藏单元被视 为隐随机变量;后者则被解释成描述某种计算图,隐藏单元被视为计算 结点。
Hinton双向的wake-sleep算法对深层网络进行优化。各层之间采用双向的 权值,自底而上的称作认知权值,自上而下的称作生成权值。算法分为 wake阶段和sleep阶段。在wake阶段,自底而上利用每层的输入和认知权 值逐层生成抽象特征,并且用梯度下降算法不断修改生成权值;在sleep阶 段,自顶而下利用学习到的特征以及生成权值逐层生成低层输入,并不断 修改认知权值。
第11章 深度学习初步
学习目标
自编码器模型 受限玻尔兹曼机模型
学习目标
卷积神经网络模型 TensorFlow的基本使用
11.1 引言
2006年,Geoffrey Hinton在《Science》上提出了深度学习的概念;在 语音识别和信号处理、图像目标识别以及自然语言处理等研究方向, 深度学习的应用都带来了具有突破性的结果。深度学习的提出,引发 了机器学习研究者们在表示、学习、优化、认知等方面的进一步思考。
的应用,包括图像分类、运动和空间变换、协同过滤以及自然图像建模。
11.3 学习问题
在深度学习提出以前,先将输入数据进行预处理,然后进行特征提取、特征 选择,最后进行推理、预测或识别;
选取特征的过程也就是特征表示的过程,这也是对算法的性能起到决定性作 用的阶段。
有相当一部分算法利用人工设计的特征取得了良好的效果,手工选取特征不 仅需要相当的专业领域知识,并且合适的特征设计是一件十分费力的事情。
SAE引入了一种稀疏正则化的形式,表示的稀疏性可以通过惩罚隐藏单元 的偏置项获得;
11.3 学习问题
稀疏编码与自动编码器结合的另一类有效的变形是PSD,PSD在 识别阶段通过一个快速非迭代的近似替代原本高成本且高度非线 性的编码步骤,并应用在图像、视频与音频中的目标识别中。
DAE对含有人工噪声的数据进行降噪,通过降噪处理,学习模型 能够获得与RBM特征相当或者更优的特征并且提高分类的性能;
从 参数的编码路径方面讲,概率模型利用推理和训练方案直接参数化生 成路径,也就是解码过程;而基于神经网络的模型直接参数化编码路径。
有向图模型经常会导致explaining away的问题;
Hale Waihona Puke Baidu
11.2 表示问题
许多经典的特征表示方法都能够赋予概率模型的解释,主成分分析PCA以 及稀疏编码能够与有向图模型分别参数化似然度和先验概率来构建联合分 布相对应;
11.3 学习问题
深度学习的过程就是获得在给定观察数据条件下隐藏变量的概率分布。可 以分为以稀疏编码为代表的有向图模型以及以受限玻尔兹曼机为代表的无 向图模型。
另一种非概率特征学习的模型是基于神经网络的模型。这类模型的主要思 想是将自动编码器堆叠起来,建立一种深层的架构。也可以用一些正则化 的自动编码器替换标准的自动编码器,获得一些改进的版本。现有的模型 主要包括稀疏自动编码器(Sparse AutoEncoders,SAE)、降噪自动编码 器(Denoising AutoEncoders,DAE)、收缩自动编码器(Contractive Auto-Encoders,CAE);
进行优化经常会陷入局部极小值而使得训练变得异常困难。 2006年,Hinton提出了优化深层神经网络的有效方法
• 首先,从网络的输入层开始,自底而上逐层地进行非监督训练网络权值。 • 其次,当无监督训练完所有层之后,利用自顶向下的监督学习对整个网络权值
进行微调,利用无监督初始化参数的过程,能使得网络的权值更加接近于全局 最优,这就保证了后续优化工作的顺利进行。
CAE强调学习一种更加收缩的编码器,即使得编码器的导数尽可 能的小。这样带来的好处是能降低表示的有效自由度,使得特征 对于输入空间的无穷小变形具有很好的鲁棒性。
11.4 优化问题
传统的神经网络模型利用反向传播BP算法来优化多层网络的权值。 当面临深度学习所需要的深层网络时,继续随机初始化网络后采用BP算法
11.2 表示问题
深度学习可以通过一种深层的非线性网络实现对复杂函数的无限逼近。这就解决 了浅层学习在有限数量的样本和计算单元情况下对复杂函数表示能力有限的问题。 简言之,深度学习多层表示的好处就是能够用较少的参数表征十分复杂的函数。
深层表示方式的优势:一方面深度结构能够逐渐学习出更加抽象的特征,另一方 面深度结构可以提供一种更具表现力的分布式表示方式,在深度学习采用的多层 表示中,如果深度不够将会带来一定的问题。与此同时,如何决定深层表示的层 数以及需要多少计算资源才能够训练出足够好的深层网络模型都是研究表示时值 得探究的问题。
11.5 认知问题
人工智能、机器学习等学科通过模拟或实现人类认知规律,解析其内在 机理,并用机器来实现,以此开发智能化的信息处理模式。
支持深度学习最强有力的证据是人脑具有一个深层次(即深度)的结构。
大脑皮层结构示意图
11.5 认知问题
人脑的深度结构决定了人类认知过程的逐层进行; 深度学习从某种程度上模拟了人类逐层进行、逐步抽象的认知过程。 认知具有感知、识别、学习、联想、记忆、推理等功能,是人类最基本的