人脸识别综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人脸识别综述
1 引言
人脸识别技术的研究始于20世纪50年代,当时的研究人员主要涉及的是社会心理学领域;最早AFR(Auto Face Recognition)的研究论文见于1965 年陈(Chan)和布莱索(Bledsoe)在Panoramic Research Inc.发表的技术报告。近年来,人脸识别研究得到了诸多研究人员的青睐,涌现出了诸多技术方法。尤其是1990 年以来,人脸识别更得到了长足的发展。几乎所有知名的理工科大学和主要IT产业公司都有研究组在从事相关研究。
人脸识别研究的发展可分为以下三个阶段:
第一阶段(1964 年~1990年)。这一阶段人脸识别通常只是作为一个一般性的模式识别问题来研究,所采用的主要技术方案是基于人脸几何结构特征(Geometric feature based)的方法。
第二阶段(1991 年~1997年)。这一阶段尽管时间相对短暂,但却是人脸识别研究的高潮期,可谓硕果累累:不但诞生了若干代表性的人脸识别算法,美国军方还组织了著名的FERET 人脸识别算法测试,并出现了若干商业化运作的人脸识别系统,比如最为著名的Visionics(现为Identix)的FaceIt 系统。美国麻省理工学院(MIT)媒体实验室的特克(Turk)和潘特(Pentland)提出的“特征脸”方法无疑是这一时期内最负盛名的人脸识别方法。
第三阶段(1998 年~现在)。FERET’96 人脸识别算法评估表明:主流的人脸识别技术对光照、姿态等由于非理想采集条件或者对象不配合造成的变化鲁棒性比较差。因此,光照、姿态、表情、遮挡问题逐渐成为研究热点。
人脸识别是一项既有科学研究价值,又有广泛应用前景的研究课题。国际上大量研究人员几十年的研究取得了丰硕的研究成果,自动人脸识别技术已经在某些限定条件下得到了成功应用,人脸识别技术的研究对模式识别,人工智能,计
算机视觉,图像处理等领域的发展有巨大的推动作用。
人脸识别问题可以定义成: 输入(查询)场景中的静止图像或者视频,使用人脸数据库识别或验证场景中的一个人或者多个人。基于静止图像的人脸识别通常是指输入(查询)一幅静止的图像,使用人脸数据库进行识别或验证图像中的人脸。而基于视频的人脸识别是指输入(查询)一段视频,使用人脸数据库进行识别或验证视频中的人脸。如不考虑视频的时间连续信息,问题也可以变成采用多幅图像(时间上不一定连续)作为输入(查询)进行识别或验证。
人脸自动识别系统包括三个主要模块[1]:首先是图像预处理模块,由于实际成像系统多少存在不完善的地方以及外界光照条件等因素的影响,在一定程度上增加了图像的噪声,使图像变得模糊、对比度低、区域灰度不平衡等。为了提高图像的质量,保证提取特征的有有效性,进而提高识别系统的识别率,在提取特征之前,有必要对图像进行预处理操作;其次人脸的检测和定位模块,即从预处理的图像中,利用人类检测器(目前人脸检测方法主要以Adaboost算法为主,OPENCV在这方面做的比较好)找出人脸及人脸所在的位置,并将人脸从背景中分割出来,对库中所有的人脸图像大小和各器官的位置归一化;最后是对归一化的人脸图像进行特征提取(提取局部特征已逐渐成为主流),建立特征描述子,将图像之间的特征进行匹配进而完成识别。
2概述
人脸识别方法大致分为以下几种:基于几何特征、基于代数特征[2]、基于神经网络模型以及基于三维模型。
(1)基于几何特征
基于几何特征的人脸识别方法是在抽取人脸图像上显著特征的相对位置及其参数的基础上进行识别。最早的人脸识别是用手工的方法确定人脸特征点的位
置并将其输入计算机中。识别工作的流程大体如下:首先检测出面部特征点,通过测量这些关键点之间的相对距离(欧式距离、马氏距离等),得到描述每个脸的特征矢量,比如眼睛、鼻子和嘴的位置和宽度,眉毛的厚度和弯曲程度等,以及这些特征之间的关系,用这些特征来表示人脸。比较未知脸和库中已知脸中的这些特征矢量,来决定最佳匹配[3]。基于小模板匹配的方法属于几何特征识别,是已知一个小模板,在人脸的大图像中进行匹配,如果匹配成功,就可以确定其坐标位置[4]。
基于几何特征的缺点显而易见,对获得的图像要求很高,特征点的定位非常重要,通常人脸特征点的定位会存在误差,这种方法对正面人脸可以取得一定识别效果,如果人脸姿态存在一定的偏转或有遮挡都会很大程度上影响识别的准确性。
(2)基于代数特征
基于代数特征的人脸识别方法具有代表性的是PCA(主元分析法)[5]、K-L (卡胡南-列夫)[6]变换和SVD(奇异值分解)[7]等方法。其主要思想:对于一副由N个象素组成的图像,可以看作是一个N维矢量空间,采用不同的变换方法,能够有效的提取主分量,通过对人脸样本集的自相关矩阵的特征矢量的选取,构成一个正交的低维人脸空间,从而达到降低冗余、提高识别率的目的。
利用主元分析法(Principle Component Analysis简称PCA)进行识别是由Anderson和Kohonen提出的。PCA方法最早由Sirovitch和Kirb[8,9]引入人脸识别领域,并因为它的有效很快流行起来。简单地说,它的原理就是将一高维的向量,通过一个特殊的特征向量矩阵,投影到一个低维的向量空间中,表征为一个低维向量,并不会损失任何有用信息。也就是说,通过低维表征的向量和这个特征向量矩阵,可以完全重构出所对应的原来的高维向量。
K-L变换与SVD分解的思想同PCA都差不多,降维到低维向量空间后要运算的分量大大地减少了。
采用代数特征识别人脸具有以下的特征:良好的稳定性;位移不变性;特征向量与图像的高度成比例变化;转置不变性等。但是代数特征对表情不能很好地
描述,难以用于表情分析和表情识别。
(3)基于神经网络模型
神经网络由许多并行运算的功能简单的单元组成,是一个非线性动力学系统,其特色在于信息的分布式存储的并行协同处理,具有良好的容错能力。神经网络主要的应用是对已经提取主特征的特征值进行分类。比较成熟的是PCA+ANN(主元分析+人工神经网络),用K-L+ANN(K-L变换+人工神经网络)[10]、SVD+ANN(奇异值分解+人工神经网络),也有直接用NN+NN(神经网络+神经网络)进行人脸识别的,不过这样所要计算的分量太大了,训练与工作的时间要长很多。
有代表性的神经网络模型有:BP网络、RBF网络、Hopfield模型等。如图所示的是PCA+BP神经网络的例子,其中输入层结点的个数与主元分析后低维
向量的个数相等输入到BP神经网络的输入层结点中,隐层结点的个数在构造BP网络时就已经定义好了,输出层结点的个数与样本的数量有关,要能达到分类的目的。
基于神经网络的方法,结构上类似于人脑,但由于原始灰度图像数据量十分庞大,神经元数目通常很多,训练时间很长,而基于冯诺伊曼结构也受到了限制。
(4)基于三维模型
三维人脸识别[11]最初是从几何方法发展来的,出发点是希望利用三维的人脸识别处理技术,解决传统二维照片识别中因为人脸的姿态、光照等对识别造成的干扰问题,在三维的基础上进行特征的提取和识别将有更为丰富灵活详尽的信息可以利用。三维数据获取已经成为可能(如三维激光扫描技术、CT成像技术、