深度学习--人脸识别-PPT文档资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Min |I – O|,其中I表示输入,O表示输出。 通过求解这个最优化式子,我们可以求得系数ai和基 Φi,这些系数和基就是输入的另外一种近似表达。
因此,它们可以用来表达输入I,这个过程也是自动 学习得到的。如果我们在上述式子上加上L1的Regularity 限制,得到:
Min |I – O| + u*(|a1| + |a2| + … + |an |)
[M. Turk & A. Pentland, JCN91]
本征特征(eigenfeature)方法
利用PCA分析眼、鼻、嘴等局部特征,即本征特征方法
[R. Brunelli & T. Poggio, TPAMI93]
[A. Pentland et al., CVPR94]
这实际上相当于:为若干重要的特征建立本征空间,然后将多个 本征空间集成起来
…….
“深度模型”是手段, “特征学习”是目的!
深度学习
1.什么是深度学习? 2.深度学习的基本思想
3.深度学习的常用方法
1)自动编码机(AutoEncoder) 2)稀疏编码(Sparse Coding) 3)受限波尔兹曼机(Restrict Boltzmann Machine , RBM)
什么是深度学习?
深度学习的实质,是通过构建具有很多隐层的机
器学习模型和海量的训练数据,来学习更有用的特征,
从而最终提升分类或预测的准确性。
深度学习的基本思想
假设我们有一个系统S,它有n层(S1,…Sn),它的输入是 I,输出是O,形象地表示为: I =>S1=>S2=>…..=>Sn => O,如 果输出O等于输入I,即输入I经过这个系统变化之后没有任何的信 息损失。
• 稀疏自动编码器(Sparse AutoEncoder)
Input Patch
Filters
Features
Sparse Coding
2.稀疏编码(Sparse Coding)
如果我们把输出必须和输入相等的限制放松,同时 利用线性代数中基的概念,即O = a1*Φ1 + a2*Φ2+….+ an*Φn, Φi是基,ai是系数,我们可以得到这样一个优化 问题:
深度学习的常用方法:
1.自动编码机(AutoEncoder) Deep Learning最简单的一种方法是利用人工神经网络
的特点,自动编码器就是一种尽可能复现输入信号的神经网 络。为了实现这种复现,自动编码器就必须捕捉可以代表输 入数据的最重要的因素,就像PCA那样,找到可以代表原信 息的主要成分。
深度信念网络( Deep Belief Networks )
3.受限波尔兹曼机RBM
假设有一个二部图(二分图),每一层的节点之间没有链接,一 层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所 有的节点都是随机二值变量节点(只能取0或者1值),同时假设 全 概 率 分 布 p(v,h) 满 足 Boltzmann 分 布 , 我 们 称 这 个 模 型 是 Restricted BoltzmannMachine (RBM)。
Deep Learning Identity-Preserving Face Space
●Related works for feature learning
1. Learning-based descriptors 2. Deep models
● Network Architecture
Xianhao Gan
2019年,加拿大多伦多大学教授、机器学习领域的 泰斗Geoffrey Hinton和他的学生RuslanSalakhutdinov在 《科学》上发表了一篇文章,开启了深度学习在学术界 和工业界的浪潮。
深度学习是机器学习研究中的一个新的领域,其动 机在于建立、模拟人脑进行分析学习的神经网络,它模 仿人脑的机制来解释数据,例如图像,声音和文本,它 是无监督学习的一种。
(2)
(3)
(4)
由于嘴部受表情影响 很严重,因此未考虑 嘴部特征
(1)
难题——能否自动确定: 该用哪些特征?(眼睛?鼻子?嘴?……) 特征的确切位置在哪儿?(从哪儿到哪儿算眼睛?……)
深度模型(Deep models)
●受限波尔兹曼机RBM ●深度信念网络DBN ●卷积受限波尔兹曼机CRBM ●混合神经网络-受限波尔兹曼机CNN-RBM
用PCA将2维数据降到1维的例子,绿色点表示二维 数据,PCA的目标就是找到这样一条直线,使得所 有点在这条直线上的投影点之间的平均距离最大。 也就是最大化地保留了原数据的差异性。
wenku.baidu.com
本征脸方法
如果将本征向量恢复成图像,这些图像很像人脸, 因此称为“本征脸”。
本征脸法认为图像的全局结构信息对于识别最重要, 将图像看做矩阵,计算本征值和对应的本征向量作为代数特 征进行识别,具有无需提取眼、嘴、鼻等几何特征的优点,但 在单样本时识别率不高,且在人脸模式数较大时计算量大。
本征脸 vs 本征特征
本征脸利用全局特征,本征特征利用局部特征,二者各有优势
待识别图像
本征脸识别结果
本征特征识别结果
[A. Pentland et al., CVPR94]
本征脸 vs 本征特征
将二者结合,可以得到更好的识别效果
同样,这实际上相当于:为若干重要的特征建立本征空间,然 后将多个本征空间集成起来
1)给定无标签数据,用非监督学习学习特征
2)通过编码器产生特征,然后训练下一层。这样逐层训练:
稀疏自动编码器( Sparse AutoEncoder ):
如果在AutoEncoder的基础上加上L1的Regularity限 制(L1主要是约束每一层中的节点中大部分都要为0, 只有少数不为0,这就是Sparse名字的来源),我们就 可以得到Sparse AutoEncoder法。
本征脸(eigenface)方法
是人脸识别的基准技术,并已成为事实上的工业标准, 该方法基于主成分分析(PCA)
PCA是将分散在一组变量上的信息集中到某几个综合指 标(主成分)上的数学方法,实际上起着数据降维的作 用,并保证降维过程最大化保留原数据的差异。
这对最大化类间差异(即不同人之间的差异)并最小化类内差异 (即同一人的不同图像间的差异)很有效
相关文档
最新文档