基于低秩矩阵恢复与协同表征的人脸识别算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于低秩矩阵恢复与协同表征的人脸识别算法
作者:何林知赵建民朱信忠吴建斌杨凡郑忠龙
来源:《计算机应用》2015年第03期
摘要针对人脸图像不完备的问题和人脸图像在不同视角、光照和噪声下所造成训练样本污损的问题,提出了一种快速的人脸识别算法——RPCA_CRC。
首先,将人脸训练样本对应的矩阵D0分解为类间低秩矩阵D 和稀疏误差矩阵E ;其次,以低秩矩阵D 为基础,得到测试样本的协同表征;最后,通过重构误差进行分类。
相对于基于稀疏表征的分类(SRC方法,所提算法运行速度平均提高25倍;且在训练样本数不完备的情况下,识别率平均提升30%。
实验证明该算法快速有效,识别率高。
关键词低秩;稀疏;人脸识别;协同表征;误差矩阵
中图分类号 TP391.4; TP18
文献标志码 A
0引言
人脸识别技术作为生物识别技术的一个重要领域,近年来取得了显著发展,已广泛用于政府、军队、银行、社会福利保障、电子商务、安全防务等领域,具有巨大的潜在应用前景。
现实自然图像能被大量冗余的结构元素所稀疏编码[1],由于l0范数和l1范数理论的发展[2-4],稀疏编码和稀疏表征成为解决各类图像恢复及有关逆问题的有效工具之一[5-6]。
2009年,Wright等发表一项引人注目的工作,将稀疏表征应用于人脸识别领域(Sparse Representation based Classification, SRC[7],并取得了极大成功。
该方法具有良好的鲁棒性,即使人脸图像被噪声和误差干扰,也能获得良好的效果。
但由于SRC本身算法的限制,使得其计算开销过大;同时SRC算法用于稀疏表征的训练字典中的观测样本随着视角不同、光照强弱、噪声干扰和数量限制,使得训练字典类间特征模糊且不完备。
Yang等[8]结合稀疏编码和线性空间金字塔匹配技术,应用于人脸识别领域。
Gao等[9]提出核稀疏表征,Yang等[10]提出Gabor特性来减少SRC的计算开销。
另一些关于稀疏表征的应用也应运而生[11]。
近年来,Candes等[12]提出了一种低秩矩阵恢复理论,并利用凸优化求解得到了的良好结果。
在工程和现实生活中,一个矩阵的值通常会被噪声或者误差所破坏,甚至某些值会直接丢失。
假设观测到的矩阵D0是人脸图像组成的训练集,它是通过对真实的训练集矩阵D进行一系列的线性操作并遭受噪声和严重破损矩阵η的结果,即D0=L(D+η。
低秩理论能很好地恢
复得到描述人脸图像原始低秩矩阵和其遭受的噪声、破坏的误差矩阵。
基于此低秩矩阵,对测试样本进行协同表征,再计算出其重构误差,完成分类识别任务。
1低秩矩阵恢复
1.1低秩矩阵恢复模型
主成分分析(Principal Component Analysis, PCA常用于对高维数据进行处理、分析、压缩、可视化等。
从很大程度上说,PCA的目标是有效、精确地估计出相对应的低维子空间。
假设将给定的数据排列成观测矩阵D0的每一列,D0∈Rm×n。
于是建立式(1这个数学模型,来找到对应的低维子空间的低秩矩阵D及误差矩阵E。
模型如下:
minD,E‖E‖F; rank(D≤γ,D0=D+E(1
在现实中,给定的图像数据不可能是在R2上的连续函数。
通常而言,图像数据的值是在Z2上的有限离散函数。
而试图计算得到的低秩矩阵D的秩应该远远小于观测矩阵的范围。
即:
rank(Dmin{m,n}
在式(1中,‖·‖F是Frobenius范数,用来估算观测数据遭受独立同分布高斯噪声的影响。
解决这个问题的常用方法是:先计算出D0的奇异值分解,再把D0的列投影到由D0的γ个左奇异值向量张成的子空间中。
传统PCA适用的最佳假设条件为图像被独立同分布的高斯噪声所污损,因此对于遭受独立同分布高斯噪声的数据图像而言,它能取得良好的效果,如图1(a所示。
但是当图像数据遭受的是任意随机的噪声时,即使这个任意随机的噪声量级很小,也会给传统的PCA带来较大的干扰。
此时从D0中恢复得到的D与真正的D将产生严重的偏差,如图1(b所示。
然而在数学模型D0=D+E中,误差矩阵E通常是随机任意的。
近些年,Wright等[13]提出,只要误差矩阵相对于矩阵D足够地稀疏,那么以上的问题就可以通过式(2得到解决。
minD,E‖D‖*+λ‖E‖1; D0=D+E(2
其中‖·‖*表示一个矩阵的核范数,即奇异值之和。
‖·‖1表示一个矩阵非零项的数值绝对值之和,λ是正数权重参数。
即使数据中存在着稀疏的异值点,这个模型也能够正确恢复数据中的低秩结构,因此这个模型被称为鲁棒性主成分分析(Robust PCA, RPCA方法。
1.2低秩矩阵恢复算法
式(2可以看作是一个一般的凸优化问题,许多现成的方法能够解决此问题,如内点法(Interior Point Solver, IPS。
虽然该类方法进行少量迭代就能得到收敛结果,但是它不能处理
巨大的矩阵,因为它的计算开销为m6(假设矩阵的大小为m×m。
对于普通个人电脑而言,此类方法不能处理维度大于m=102的矩阵。
在现实应用中,所涉及图像的维度是m=104~105。
而在网络或者生物的应用中,维度则达到m=106。
因此IPS的使用会受到限制。
为了克服IPS 的不足,迭代阈值算法应运而生。
鉴于RPCA既涉及l1范数,又涉及核范数,运用迭代阈值算法求解RPCA虽然能够得到相似的收敛结果,但是收敛速度很慢[13]。
以至于对于一个维度为m=800的矩阵而言,在普通个人电脑需要运行8h。
针对提高迭代阈值算法的收敛速率,Lin 等[14]提出了两种新的算法(APG(Accelerated Proximal Gradient algorithm和gradientascent algorithm来解决式(2的问题,它们相对于迭代阈值算法,提升速度明显。
在本文中,将采用增广拉格朗日乘子(Augmented Lagrange Multiplier, ALM算法求解凸优化问题。
相关实验证明,ALM相对于APG而言,不仅计算开销更少,而且能够更加精确地计算出误差矩阵E。
关于ALM算法,首先需要考虑下面形式的抽象凸优化问题:
minX f(X; A(X=b(3
其中
f是一个凸函数,A是一个线性函数,b是一个恰当维度的向量。
拉格朗日乘子算法的基本思想就是将上述约束的最优化问题转化为一个有相同最优解的无约束的最优化问题。
对于上述式(3,定义拉格朗日乘子函数如下:
Lμ(X,Y=f(X+〈Y,b-A(X〉+μ2‖b-A(X‖22(4
其中
Y是恰当维度的拉格朗日乘子向量,‖·‖2表示二范数,以及μ>0表示惩罚因子。
ALM方法同时最小化拉格朗日函数和计算出合适的拉格朗日乘子。
2004年,Bertsekas等[15]提出经典的ALM迭代算法如下
Xk+1=arg minX Lμk(X,Yk
Yk+1=Yk+μk(b-A(Xk
μk+1=ρ·μk(5
其中
{μk}是自动增长正数序列。
因此,可将原来最优化问题式(3转化为无约束凸优化程序序列。
在ALM算法的基础上,结合交替方向方法(Alternating Direction Method, ADM求解RPCA。
对于给定的式(2,它所对应的拉格朗日乘子方程为:
L(D,E,Y,μ=‖D‖*+λ‖E‖1+〈Y,D0-D-E〉+μ2‖D0-D-E‖2F(6
其中
μ>0,Y是拉格朗日乘子矩阵,〈·,·〉表示矩阵内积。
根据前面所讨论的内容,经典的ALM迭代算法如下:
(Dk,Ek=arg minD,E Lμk(D,E,Yk-1
Yk=Yk-1+μk-1(D0-D-E
μk=ρkμ0;μ0>0且ρ>1
对于经典的ALM而言,同时最小化所有的变量D,E使得计算开销很大。
此时最关心的问题是如何更加有效地解决第一步迭代计算。
采用ADM可以近似取得良好的效果,即每次只最小化一个相关变量。
Dk+1=arg minD,E Lμk(D,Ek,Yk
Ek+1=arg minD,E Lμk(Dk+1,E,Yk(7
解决式(2RPCA的具体算法,如算法1所示。
算法1基于ADM的RPCA算法。
程序前
输入
测试矩阵D0∈Rm×n,λ。
输出
(Dk,Ek。
初始化:Y0=D0max(‖D0‖2,λ-1‖D0‖∞,μ0>0,ρ>1,k=0;
While not converged do//若没有收敛,继续迭代
//第4~5行计算Dk+1=arg minD,E Lμk(D,Ek,Yk
(U,S,V=svd(D0-Ek+μ-1kYk;
Dk+1=USμ-1k[S]VT;
//第七行,计算Ek+1=arg minD,E Lμk(Dk+1,E,Yk
Ek+1=Sλμ-1k[D0-Dk+1+μ-1kYk];
Yk+1=Yk+μk(D0-Dk+1-Ek+1;
μk+1=ρk+1μ0;
k=k+1;
end while
程序后
通过如上算法,便能顺利解决式(2,从观测样本数据中计算恢复得到低秩数据矩阵,并剥离由于各种因素造成的误差矩阵。
2人脸识别技术
2.1协同表征
对于稀疏表征的人脸识别技术而言,希望训练样本所给定的每一类人脸都是过完备的。
但不幸的是,人脸识别的典型问题是缺少训练样本。
首先每类的人脸图像本身稀少,其次假设训练样本完备,也会提高算法的计算开销。
假设有n类人脸图像组成一个训练样本D0∈Rm×n,D0=[X1,X2,X3,…,Xi,…,Xn,],Xi=[x1,x2,x3,…,xi,…,xk]。
在现实中,Xi是不完备的,如果用Xi来表示测试样本y,即使y属于Xi的类,也可能产生很大的表征误差。
因此,用SRC算法的残差或者稀疏表征向量的稀疏性来进行分类,将产生不稳定的效果。
鉴于每类训练样本的不完备性,不可能用更多i类的人脸图像来稀疏表示测试样本y。
Zhang等[16]475提出用j类的人脸图像来辅助表示属于i类的人脸图像的测试样本y。
即用整个测试样本D0来协同表征(Collaborative Representation, CR测试样本y,区别于SRC以稀疏表示为约束条件,并进行分类。
相对于SRC的数学模型如式(8所示:
=arg minα‖α‖1;‖y-D0α‖
去掉它的稀疏约束条件,充分发挥训练数据相互近似表示的优势,再进行分类,协同表征CR的数学模型,如式(9:
=arg minα‖y-D0α‖22(9
如图2所示,得到测试样本y垂直投影到训练样本所张成空间所对应的协同表征
y^=∑ni=1Xii。
而重构误差为:
‖ei‖22=‖y-Xii‖22=‖y-y^‖22+‖y^-Xii‖22(10
从式(10中可以看出,真正起到分类作用的是e*i=‖y^-Xii‖22。
图片
图2观测数据所张成的空间
从图2中,可以看到关于e*i的几何信息:
‖y^‖22sin2(,ω=e*isin2(y^,ω(11
最终,表征误差函数可以表示为式(12:
e*i=‖y^‖22×sin2(y^,ωsin2,ω(12
通过式(12表明,判断测试样本y是否属于i类,不仅需要满足y^,ω之间的角尽可能地小,而且需要同时满足
,ω之间的角尽可能地大,如此双重的判断,使得分类的效果更加稳定、有效[17]。
2.2基于低秩矩阵恢复的协同表征
上述分析可见,SRC致力于观测数据中的某类人脸图像来表征测试图像,而其他类的人脸图像尽量不起表征作用,最终实现稀疏表示。
一方面,由于客观条件,训练数据不可能具备完备性;另一方面,由于训练数据中的人脸图像存在部分差异特征,也存在相同的特征,且伴随有噪声和误差的污损。
这两方面使得稀疏表征在某些情况下产生严重的误差,影响人脸识别效果。
CR解决了第一个问题,使用观测数据中所有的人脸图像联合协同表征测试图像。
然而,即使提出了更好的重构误差计算方法,但还是无法改变观测样本本身存在的先天问题。
本文提出低秩矩阵恢复联合协同表征的人脸识别方法(RPCA_CRC,将低秩矩阵恢复的理论运用于人脸图像识别中。
首先从观测样本矩阵D0中恢复类间特征明显的低秩矩阵D,同时剥离出稀疏误差矩阵E。
低秩矩阵D表示干净的人脸图像集合,同时类间区分更突出,符合低秩子空间结构。
稀疏误差矩阵E表示观测样本的阴影、遮挡、破损和反光的部分,如图3所示。
因此,可以推导出RPCA_CRC的数学模型如下:
minD,E‖D‖*+λ‖E‖1;D0=D+E
=arg minα{‖y-Dα‖22+λ‖α‖22}(13
其中
λ是正则项系数。
算法联合RPCA和CRC,使得训练样本不影响识别速率,保持各自优势,如算法2所示。
算法2RPCA_CRC。
程序前
输入
训练样本矩阵D0∈Rm×n,λ,y。
输出
min{ei}。
//算法1中,RPCA算法。
[D,E]=RCPA(D0;
//用D来协同表征y。
=(DTD+λ·I-1DTy
//计算残差。
ei=‖y-Dii‖2/‖i‖2
程序后
3仿真
3.1人脸识别率
本文引用的是PIE人脸数据库C27子集中的人脸图像,共有68个人,每人约有49张图像(实验统一选取每人前46张,根据4种表情动作、13种姿态、43种光照条件拍摄而成,每一张人脸图像大小为64×64像素。
本文分别选择每人所有人脸图像中的前5,10,15张构成训练样本,剩下的依次作为测试样本;且相应特征维数依次选择20,30,50,60,70,90进行比较,其中特征维数就是PCA 降维的维数,如表1所示。
实验表明当训练样本为每人前5张,前10张时,RPCA_CRC识别率优胜于CRC,当训练样本为每人前15张时,RPCA_CRC识别率略优胜于CRC。
表格(有表名
实验表明,当训练样本数量较少时,即在训练字典不完备的条件下,RPCA_CRC的识别率相对于SRC、CRC高很多。
这在某种意义上更加贴近现实情况,客观条件下不允许采集大量的观察数据,且不允许任意提高特征维数。
另外,若保证以上两个条件,SRC将会得到良好的识别效果,但同时伴随而来的是高昂的计算开销,如表2所示。
3.2计算开销
由于RPCA_CRC在人脸识别阶段主要采用最小二乘法进行计算,因此其计算开销相对于SRC的计算开销更低。
设定使特征维度为300,在Extended Yale B和AR人脸数据库中进行比较[16]477。
实验室结果表明CRC在保持较高识别率的情况,相对于SRC,能够明显地降低计算开销。
而RPCA_CRC主要的计算开销在于训练观测样本,因此一旦观测样本训练完毕,将与CRC保持一致的计算开销,并可以提高识别率。
4结语
虽然稀疏表征在人脸识别领域取得了良好的效果和应用,但是它的运行原理尚未明确,有一些学者对其提出了疑问[17-18]。
本文采用协同表征的思想在一定意义上解决了由于训练样本不足造成的字典不完备的问题,并提高了识别效率。
在人脸图像库中,由于背景、姿态、光照等外界因素极其相近,使得协同表征呈现出相对良好的效果。
但是由于阴影、遮挡、视角、反光等外界因素使训练样本遭受污损,对协同表征产生干扰。
本文提出RPCA_CRC方法,对训练样本进行事前处理,恢复得到“干净无暇”的低秩矩阵,剥离噪声和污损。
重新计算得到的字典,能够更好地排除协同表征干扰,提高识别率。
参考文献
[1]
OLSHAUSEN B, FIELD D. Sparse coding with an overcomplete basis set
a strategy employed by V1 [J]. Vision Research, 1997,37(23
3311-3325.
[2]
TIBSHIRANI R. Regression shrinkage and selection via the LASSO [J]. Journal of the Royal Statistical Society B, 1996 58(1
267-288.
[3]
DONOHO D. For most large underdetermined systems of linear equations the minimal l1norm solution is also the sparsest solution [J]. Communications on Pure and Applied Mathematics,2006,59(6
797-829.
[4]
TROPP J A, WRIGHT S J. Computational methods for sparse solution of linear inverse problems [J]. Proceedings of the IEEE, 2010,98(6
948-958.
[5]
AHARON M, ELAD M, BRUCKSTEIN A M. The KSVD
an algorithm for designing of overcomplete dictionaries for sparse representation [J]. IEEE Transactions on Signal Processing, 2006,54(11
4311-4322.
[6]
MAIRAL J, BACH F, PONCE J. Nonlocal sparse models for image restoration [C]// Proceedings of 12th International Conference on Computer Vision. Piscataway
IEEE, 2009
2272-2279.
[7]
WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,31(2
210-227.
[8]
YANG J, YU K, GONG Y, et al. Linear spatial pyramid matching using sparse coding for image classification [C] // Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway
IEEE, 2009
1794-1801.
[9]
GAO S, TSANG I WH, CHIA LT. Kernel sparse representation for image classification and face recognition [C]// Proceedings of the 11th European Conference on Computer Vision. Berlin
Springer, 2010
1-14.
[10]
YANG M, ZHANG L. Gabor feature based sparse representation for face recognition with Gabor occlusion dictionary [C]// Proceedings of the 11th European Conference on Computer Vision. Berlin
Springer, 2010
448-461.。