基于神经网络的深度学习

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三.复兴时期。开始于Hopfield的突破性研究论文,结束于1986年Rumelhart和Mcclelland 领导的研究小组发表的《并行分布式处理》(ParallelDistributedProcessing)一书。 四.第一次浪潮。1980年代末期,用于人工神经网络的反向传播算法(也叫 BackPropagation算法或者BP算法)的发明,给机器学习带来了希望,掀起了基于统计模 型的机器学习热潮。---浅层学习 五.第二次浪潮。2006年,加拿大多伦多大学教授、机器学习领域泰斗—— GeoffreyHinton和他的学生RuslanSalakhutdinov在顶尖学术刊物《科学》上发表了一篇 文章,开启了深度学习在学术界和工业界的浪潮。---深度学习
深度学习 DeepLearning
组员:
先从一个例子讲起
X(1)面部特征 X(2)代表人的身高特征 X(3)代表人的体形特征 X(4)代表人的声音特征 W(1)W(2)W(3)W(4)分别代表四种特征的链接权重 Y=X(1)*W(1)+X(2)*W(2)+X(3)*W(3)+X(4)*W(4) (Y要和一个门槛值(设为Θ)进行比较) 如果Y>Q,那么电脑就判定这个人是张三;否则判定不是 张三.
AutoEncoder自动编码器
具体过程简单的说明如下: 1)给定无标签数据,用非监督学习学习特征; 2)通过编码器产生特征,然后训练下一层,这样 逐层训练; 3)有监督微调。
AutoEncoder自动编码器 1)给定无标签数据,用非监督学习学习特征
有标签
无标签
在我们之前的神经网络中,输入的样本是有标签的,即 (input, target),根据当前输出和target(label)之间 的差去改变前面各层的参数,直到收敛。但现在只有无标签 数据,误差?
Deep Learning的常用模型或者方法--AutoEncoder自 动编码器
Deep Learning最简单的一种方法是利用人工神经网络的 特点,人工神经网络(ANN)本身就是具有层次结构的系 统,如果给定一个神经网络,我们假设其输出与输入是相 同的,然后训练调整其参数,得到每一层中的权重。自然 地,我们就得到了输入I的几种不同表示(每一层代表一 种表示),这些表示就是特征。自动编码器就是一种尽可 能复现输入信号的神经网络。为了实现这种复现,自动编 码器就必须捕捉可以代表输入数据的最重要的因素,就像 PCA那样,找到可以代表原信息的主要成分。
2,神经网络的原理※
2,神经网络的原理※
科学家们还发现,不 仅图像存在这个规律, 声音也存在。他们从 未标注的声音中发现 了20种基本的声音结 构,其余的声音可以 由这20种基本结构合 成。
2,神经网络的原理※
传统神经网络的训练方法为什么不能用在深度神经网BP算法作为传统训 练多层网络的典型算法,实际上对仅含几层网络,该训练方法就已经很 不理想。深度结构(涉及多个非线性处理单元层)非凸目标代价函数中 普遍存在的局部最小是训练困难的主要来源。 BP算法存在的问题: (1)梯度越来越稀疏:从顶层越往下,误差校正信号越来越小; (2)收敛到局部最小值:尤其是从远离最优区域开始的时候(随机值初始 化会导致这种情况的发生); (3)一般,我们只能用有标签的数据来训练:但大部分的数据是没标签的, 而大脑可以从没有标签的的数据中学习;
3,Deep Learnning的训练过程 传统的神经网络就是采用迭代的算法来训练整个网 络,随机设定初值,计算当前网络的输出,然后根 据当前输出和label之间的差去改变前面各层的参数, 直到收敛(整体是一个梯度下降法)。而 deeplearning整体上是一个layer-wise的训练机制。 这样做的原因是因为,如果采用backpropagation 的机制,对于一个deepnetwork(7层以上),残 差传播到最前面的层已经变得太小,出现所谓的 gradientdiffusion(梯度扩散)。
传统的神经网络就是采用迭代的算法来训练整个网络,随机设定 初值,计算当前网络的输出,然后根据当前输出和label之间的差去 改变前面各层的参数,直到收敛(整体是一个梯度下降法)。而 deeplearning整体上是一个layer-wise的训练机制。这样做的原因是 因为,如果采用backpropagation的机制,对于一个deepnetwork(7 层以上),残差传播到最前面的层已经变得太小,出现所谓的 gradientdiffusion(梯度扩散)。这个问题我们接下来讨论。
2,神经网络的原理※
1995年前后,BrunoOlshausen和DavidField两位学者任职Cornell University,他们试图同时用生理学和计算机的手段,双管齐下,研究视觉 问题。
收集很多黑白照片,从中提取出400个小碎片,每个照片碎片的尺寸均为 16x16像素,把这400个碎片标记为S[i],i=0,..399。再从这些黑白风景照片 中,随机提取另一个碎片,尺寸也是16x16像素,把这个碎片标记为T。提出 问题,如何从这400个碎片中,选取一组碎片,S[k],通过叠加的办法,合成 出一个新的碎片,而这个新的碎片,与随机选择的目标碎片T,尽可能相似, 同时,S[k]的数量尽可能少。
O= a1×Φ1+a2×Φ2+…+an×Φn,Φi是基,ai是系数, 我们可以得到这样一个优化问题: Min|I–O| 其中I表示输入,O表示输出)
通过求解这个最优化式子,我们可以求得系数ai和 基Φi,这些系数和基就是输入X的另外一种近似表达。 k 即可得:
X ii
i 1
稀疏编码基本概念
(1)固定字典Φ[k],然后调整a[k],使得上式, 即目标函数最小(即解LASSO问题)。
(2)然后固定住a [k],调整Φ[k],使得上式,即 目标函数最小。 不断迭代,直至收敛。这样就可以得到一组可以良 好表示这一系列样本图片X的基Φ[k],也就是字典。
Sum_k(a[k]*S[k])-->T,其中 a[k]是在叠加碎片S[k]时的 权重系数。
稀疏编码: 1)选择一组S[k],然后调整a[k], 使得Sum_k(a[k]*S[k])最接近T。 2)固定住a[k],在400个碎片中, 选择其它更合适的碎片S’[k],替 代原先的S[k],使得 Sum_k(a[k]*S'[k])最接近T。
AutoEncoder自动编码器
3)有监督微调
经过以上几步得到多层原始输入的不同的表达, 然后在AutoEncoder的最顶的编码层添加一个分类 器,通过标准的多层神经网络的监督训练方法去训 练,将最后层的特征code输入到最后的分类器,通 过有标签样本,通过监督学习进行微调,微调分为 只调整分类器和调整个系统。一旦监督训练完成, 这个网络就可以用来分类了。
这个发现激发了人们对于神经系统的进一步思考。神经-中枢-大脑 的工作过程,或许是一个不断迭代不断抽象的过程。
2,神经网络的原理※
从低级的V1区提取边缘特征,再到V2区的形状或者目标的部 分等,再到更高层,整个目标、目标的行为等。也就是说高 层的特征是低层特征的组合,从低层到高层的特征表示越来 越抽象,越来越能表现语义或者意图。而抽象层面越高,存 在的可能猜测就越少,就越利于分类。
一.启蒙时期。开始于1890年美国著名心理学家W.James关于人脑结构与功能的研究,结束 于1969年Minsky和Papert发表《感知器》(Perceptron)一书。
二.低潮时期。开始于1969年,因为Minsky和Papert指出单层系统的局限性,并表达了对 多层系统的悲观看法,在20世纪70年代人们对ANN的研究兴趣减弱,直到1982年Hopfield 发表著名的文章《神经网络和物理系统》(NeuralNetworkandPhysicalSystem)。
由于第一次计算电脑没有经验,所以结果是随机的.一般我们设定是正确的,因为 我们输入张三的身体数据啊.
神经网络
1,神经网络的发展 2,神经网络的原理(语音/图像识别) 3,Deep Learnning的训练过程 4,Deep Learning的常用模型或者方法(需要大家 做的部分)
1,神经网络的发展

因此,上述式子可以用来表达输入I,这个过程 也是自动学习得到的。如果我们在上式上加上L1 的Regularity限制,可得到: Min|I–O|+u×(|a1|+|a2|+…+|an|)
以上这种重新表达输入I的方法就被成为稀疏 编码,通俗的说,就是将一个信号表示为一组基的 线性组合,而且要求用尽可能少的几个基就可以将 信号表示出来。
稀疏编码的训练阶段 稀疏编码分为两个部分:训练阶段和编码阶段。
训练阶段:给定一系列的样本图片[x1,x2, …],我们 需要学习得到一组基[Φ1,Φ2, …],也就是字典。 训练过程就是一个重复迭代的过程,通过交替的更 改a和Φ使得下面这个目标函数最小。
训练(Training)阶段 每次迭代分两步:
2,神经网络的原理
(1)单个神经元细胞解剖 图
(2)神经元结构模型
(3)典型的人工神 经网络
元、辅音在多维 空间中的示意图
对元音和辅音模式分类
元辅音模式的模式分布图
ຫໍສະໝຸດ Baidu
2,神经网络的原理
视觉神经
1981年的诺贝尔医学奖,颁发给了DavidHubel(出生于加拿大的美国 神经生物学家)和TorstenWiesel,以及RogerSperry。前两位的主要 贡献,是“发现了视觉系统的信息处理”:可视皮层是分级的。
稀疏编码基本概念
“稀疏性”含义:只有很少的几个非零元素或只有 很少的几个远大于零的元素。
要求系数 ai具有稀疏性即对于一组输入向量, 我们只想有尽可能少的几个系数远大于零。
稀疏编码基本概念 稀疏编码算法是一种无监督学习方法,它用来寻 找一组“超完备”基向量(基向量的个数比输入 向量的维数要大)来更高效地表示样本数据。其 目的就是找到一组基向量 ϕi,使得我们能将输入 向量X表示为这些基向量的线性组合。 超完备基的好处是它们能更有效地找出隐含在输 入数据内部的结构与模式。然而,对于超完备基 来说,系数ai不再由输入向量唯一确定。因此, 在稀疏编码算法中,我们另加了一个评判标准 “稀疏性”来解决因超完备而导致的退化 (degeneracy)问题。
AutoEncoder自动编码器
2)通过编码器产生特征,然后训练下一层,这样逐层训 练
第1)步得到第一层的code,重构误差最小让我们相信这 个code就是原输入信号的良好表达了,或者牵强点说,它 和原信号是一模一样的,那第二层和第一层的训练方式就 没有差别了,我们将第一层输出的code当成第二层的输入 信号,同样最小化重构误差,就会得到第二层的参数,并 且得到第二层输入的code,也就是原输入信息的第二个表 达了。其他层就同样的方法炮制就行了。
①只调整分类器
②调整整个系统
Autoencoder是多层神经网络,其中输入层 和输出层表示相同的含义,具有相同的节 点数,Autoencode学习的是一个输入输出 相同的“恒等函数”。
简单来说Autoencoder是一个压缩编码器
稀疏编码(Sparse Coding)基本概念
如果我们把输出必须和输入相等的限制放松,同时利 用线性代数中基的概念,即令:
AutoEncoder自动编码器
Input:数据的输入; Encoder:编码器; Code:输入的一个表示; Decoder:解码器; Reconstrection:input的重建; Error:重建数据和input的误差。
将input输入一个encoder编码器,得到一个code,这 个code也就是输入的一个表示,加一个decoder解码 器,这时decoder就会输出一个信息,那么如果输出 的这个信息和一开始的输入信号input是很像的(理 想情况下就是一样的),那很明显,就有理由相信这 个code是靠谱的。所以,就通过调整encoder和 decoder的参数,使得重构误差最小,这时候我们就 得到了输入input信号的第一个表示了,也就是编码 code了。因为是无标签数据,所以误差的来源就是 直接重构后与原输入相比得到
相关文档
最新文档