深度学习简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x1 x2 a1 x3 x4 x5 a2 b2 b1
a3 +1
b3 +1
x6
+1
Train parameters so that subject to bi’s being sparse.
,
21
深度稀疏自编码
x1
x2 a1 x3 x4 x5 a2 b2 b1
a3 +1
b3 +1
x6
New representation for input.
Audio
TIMIT Speaker identification
Prior art (Reynolds, 1995)
Accuracy 99.7%
Stanford Feature learning
80.3%
Stanford Feature learning
100.0%
Images
CIFAR Object classification
30
深度学习应用
Convolutional DBN on face images
object models
object parts (combination of edges)
edges
pixels
Note: Sparsity important for these results.
32
Learning of object parts
Accuracy 47% 50%
Multimodal (audio/video) AVLetters Lip reading
Prior art (Zhao et al., 2009) Stanford Feature learning
Accuracy 58.9% 63.1% 36
进一步解释
深度学习:稀疏性
Examples of learned object parts from object categories
Faces Cars Elephants Chairs
33
Training on multiple objects
Trained on 4 classes (cars, faces, motorbikes, airplanes). Second layer: Shared-features and object-specific features. Third layer: More specific features. Plot of H(class|neuron active)
• 解决的方法——逐层贪婪算法
– 每次只训练网络中的一层:首先训练一个只含一个隐 藏层的网络,然后训练一个有两个隐藏层的网络,以 此类推。 – 每一层的训练可以是有监督的(例如,将每一步的分 类误差作为目标函数),但更通常使用无监督方法( 如自动编码器)。这些各层单独训练所得到的权重被 用来初始化最终(或者说全部)的深度网络的权重, 然后对整个网络进行“微调”(即把所有层放在一起 来优化有标签训练集上的训练误差)
34
Hierarchical probabilistic inference
Generating posterior samples from faces by “filling in” experiments (cf. Lee and Mumford, 2003). Combine bottom-up and top-down inference.
Input images
Samples from feedforward Inference (control)
Samples from Full posterior inference
35
TIMIT Phone classification Accuracy 深度学习应用
Prior art (Clarkson et al.,1999) 79.6%
服从玻尔兹曼联合分布(马尔科夫随机场分布)
给定 x, 极大似然估计:
26
RBM
27
RBM
a1 a2 a3
隐层 [a1, a2, a3]
x1
x2
x3
x4
输入 [x1, x2, x3, x4]
Gibbs采样推理:
[xiaj]obs :固定x, 由P(a|x)采样得到a. [xiaj]prior : 持续采样直至收敛得到x和a. 约束ai的稀疏性可以提高性能.
11
理论基础: 深度的有效性解释
结论的解释:因子化
12
理论基础: 深度的有效性解释
• 因子化在图像处理中的解释:
– 第一层可以学习如何将图像中的像素组合在一起来检 测边缘 – 第二层可以将边缘组合起来检测更长的轮廓或者简单 的“目标的部件” – 在更深的层次上,可以将这些轮廓进一步组合起来以 检测更为复杂的特征
Stanford Feature learning
Accuracy
75.5%
NORB Object classification
Stanford Feature learning
Accuracy
96.2%
Prior art (Yu and Zhang, 2010) 74.5%
Prior art (Ranzato et al., 2009) 94.4%
28
深度信念网
RBMDBN
第4层 [c1, c2, c3]
第3层 [b1, b2, b3]
第2层 [a1, a2, a3]
输入 [x1, x2, x3, x4]
29
深度学习式神经网络
• 逐层贪婪算法优点
– 数据获取(自学习方法使用无标签样本来学习特征) – 更好的局部极值(使用逐层训练好的权值作为网络初值)
• 深度学习:限制生成特征为(稀疏)分布表示.
–特征的分布表示意味着每一个特征都包含尽可能多的 信息,因此生成的特征之间相对于原样本不是互斥的. –特征的分布表示意味着信息的非局部性和容错性 –特征的稀疏分布表示体现在可以使用很少的(稀疏)特 征来组合生成目标 –深度学习的生物基础:大脑的运作方式中体现稀疏性, 每次只有大约1-4%的神经元激活
• 深度学习可以学习幅变比较大的函数
41
局部和非局部算法的泛化能力
• 当流形曲率很高时需要k值很小,这可能会影响流形算法 的准确率
42
谢谢观赏
17
深度学习式神经网络
• 深度稀疏自编码(Deep sparse autoencoders ) • 深度信念网(Deep Belief Network (DBN) )
18
深度稀疏自编码
无标签数据 参数 学习目标 限制: (1) 隐层维数(降维) (2) 隐层表示稀疏性
x1 x2 x3 x4 x1 x2
13
理论基础: 深度的有效性解释
14
深度学习式神经网络
深度学习式神经网络
• 深度网络的简洁性和较强的表达能力
• 训练深度网络有一些困难(主要指BP算法)
– 数据获取问题(需要的样本过多) – 局部极值问题(太多的局部极值) – 梯度弥散问题(BP算法对前面层次的训练效果较差)
16
深度学习式神经网络
对图像像素进行分析,提取边缘 特征并分割 分析边缘特征,生成局部形状特 征和人体局部部位特征 分析局部部位特征,生成人体 部位特征 分析部位特征,完成图像语义 识别
5
背景
无监督特征提取:
• Hinton, G. E., Osindero, S. and Teh, Y., A fast learning algorithm for deep belief nets.Neural Computation 18:1527-1554, 2006 (基于Restricted Boltzmann Machine (RBM)的Deep Belief Networks (DBN),采用逐层学习特征的无监督特征提取算法) • Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006), pp. 153-160, MIT Press, 2007 (比较了RBM和Auto-encoder) • Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun. Efficient Learning of Sparse Representations with an Energy-Based Model, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007 (将稀疏自编码用于卷积结构)
深度学习简介
翟岩慧
山西大学计算机与信息技术学院
目录
背景 理论基础 深度学习式神经网络 深度学习应用 进一步解释
深度学习背景
背景
• 为了让机器自动学习,需要提取特征,而特征提取
一般由人工进行,并且非常困难
• 特征的有效性对学习算法可能有决定性的作用
4
背景
要描述右图中的图像,需要
6
背景
深度学习应用:
– – – – – 分类 回归 维数约简 纹理建模 行动建模
– – – – –
对象分割 信息获取 机器人 自然语言处理 协同过滤
7
背景:深度学习
• 深度学习:可以进行自动特征提取,并生成具有层 次结构特征集合组.
–深度的意义体现在特征的层次结构上,目前的学习基本 上都是浅层学习,如SVM(2),线性回归和逻辑回归(1), –深度学习的生物基础:大脑的运作方式是深度模式.如, 视觉系统(5-10)...
8
背景:深度学习
9
理论基础
理论基础: 深度的有效性
• 多层神经网络中,层次更少的神经网络近似某一函数 会比层数较多的神经网络需要更多的(指数阶)参数.
–逻辑门问题:2层逻辑门可以表示任意布尔函数. –已经证明,某些需要多项式个逻辑单元的k层电路来表示的 函数需要指数个逻辑单元的k-1层电路才能表示.
+1
22
深度稀疏自编码
x1 x2 a1 x3 x4 a2 b2 c2 b1 c1
x5
x6
a3 +1
b3 +1
c3 +1
New representation for input.
+1
Use [c1, c3, c3] as representation to feed to learning algorithm.
38
深度学习:稀疏性
39
深度学习:稀疏性
40
局部和非局部算法的泛化能力
• 局部化方法的光滑性假设
–k-SVM,KPCA,基于核函数的非参半监督算法,高斯过程 的分类和回归,非参数分类算法,Parzen窗,KNN,流形, 谱聚类...
• 局部化方法不能用于幅变比较大的函数
–需要指数阶的样本数来提高准确率
Video UCF activity classification
Prior art (Kalser et al., 2008) Stanford Feature learning
Accuracy 86% 87%
Hollywood2 classification
Prior art (Laptev, 2004) Stanford Feature learning
23
深度稀疏自编码
已标注训练集 • 两种表示方式:
– 替代表示 – 级联表示
24
深度信念网
• 由RBM(Restricted Boltzmann Machine )栈式 组合而成 • 生成模型
25
百度文库BM
a1 a2 a3
隐层 [a1, a2, a3]
x1
x2
x3
x4
输入 [x1, x2, x3, x4]
a1
a2 a3
+1
x3 x4
x5
x5
x6
x6
+1
Layer 2
Layer 3
Layer 1 19
深度稀疏自编码
x1
x2 a1 x3 x4 x5 x6 a2 a3 +1
+1
Layer 2
Layer 1
Reconstruction error term
L1 sparsity term
20
深度稀疏自编码
相关文档
最新文档