人脸的层次化描述模型及识别研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第36卷第12期
1999年12月计算机研究与发展JOURNA L OF COM PU TER RESEARCH &DEVELOPM ENT V ol.36,No.12Dec.1999
原稿收到日期:1998-12-24;修改稿收到日期:1999-08-30.本课题得到浙江省公安厅的资助.章高清,女,1972年12月生,博士研究生,主要研究领域为多媒体/超媒体系统、数字图像处理及人工智能.王申康,男,1945年2月生,教授,博士生导师,主要研究领域为机器学习、知识获取和专家系统、多媒体/超媒体技术等.
人脸的层次化描述模型及识别研究
章高清 王申康
(浙江大学计算机科学系 杭州 310027)
摘 要 人脸自动识别是一个困难但有重要意义的工作.文中提出了一种基于人脸层次化描述的识别方法.该方法首先对人脸进行快速准确的特征定位及标准化,然后采用主元分析神经网络分别对定位的人脸及其特征区域进行最佳特征提取,从而得到人脸在低分辨率和较高分辨率上的两层特征描述用以识别,具有识别率高、特征数据量适中、可用于大量人像识别等特点.此方法在1300幅人像上进行了测试,结果表明其在人脸转动、表情变化或人脸未经训练等情况下仍可以很好地识别.
关键词 人脸标准化,主元分析,层次化描述,积分投影
中图法分类号 T P 391.4
THE LAYERED FACE REPRESENTATION MODEL AND
FACE RECOGNITION
ZHANG Gao -Qing and W ANG Shen-Kang
(De p ar tment of Comp uter S cience ,Z he j iang Univ ersity ,H angz hou 310027)
Abstract A utom atic hum an face r ecognitio n is a difficult but significant problem.A novel metho d for face recog nition based on lay er ed face representatio n is put for ward in this paper .T he metho d first locates the face and key facial featur es including eyes ,nose ,and mo uth in image quickly,and then normalizes that face depending on the center lo cation o f eyes.T hen PCA neural netw ork is used to ex tract character istics of the located faces and facial features.T his can be viewed as a lay er ed representatio n of faces :w her e a coarse and lo w -r esolutio n description o f the w ho le head is augm ented by additio nal hig h -resolutio n details in ter ms of salient facial featur es .
This method has been tested on 1300facial imag es and show s better perform ance than traditional PCA for face reco gnition,especially w hen head po ses and expressio ns are chang ed.
Key words face norm alization,principal com ponents analy sis (PCA ),lay ered representation,
integral pr ojectio n
1 引 言
人脸是人类独一无二的特征,即使一对双胞胎其脸部也存在某方面的差异.虽然人类在表情、年龄或发型等发生巨大变化的情况下仍可毫无困难地检测和识别出人脸,但要建立一个能够完全自动完成识别任务的系统却是非常困难的,它涉及到以下几个问题: 把一种模式检测为人脸; 脸部表情分析; 基于特征的分类.由于能够实现上述功能的系统具有广泛应用前景,如嫌疑犯照片识别、丢失儿童信息检索、建立安全系
统、信用卡确认等,在过去20年中,人脸自动识别领域吸引了众多的研究者,但目前能完全有效解决上述问题的系统尚未推出.
现有的人脸识别方法基本可分为两类[1,2]:一是分离的、基于局部特征的识别技术;二是整体的、基于全局特征的识别技术.前者分析人脸的各个组成部分,抽取离散的局部特征作为人脸的索引,然后用它们作为度量采用标准模式识别技术来识别.后者则从整体上捕捉和描绘人脸的特征,将整个人脸作为一个全局的描述.由于这些方法只注重局部特征或整体特征某一方面的描述,一般要求人脸变化不能太大,在人脸转动、表情变化时往往不能达到令人满意的效果.针对上述问题,本文在采用主元分析神经网络的基础上,将上述两类方法进行结合,构造出人脸的层次化描述模型用以识别,从而提高在人脸发生一定变化时系统识别的准确率.
在对人脸进行快速准确的特征定位和标准化之后,本文采用主元分析(PCA )神经网络对定位的人脸区域和特征区域分别进行特征抽取,得到相应的人脸全局特征描述层和局部特征描述层,这样,低分辨率上整个人脸的粗糙描述和较高分辨率上脸部突出特征的详细描述就构成了人脸的层次化描述模型.基于层次化描述模型的人脸识别方法克服了典型PCA 算法[3,4]的一些缺点,如 会被人脸转动、表情变化等所欺骗; 对没有训练过的人脸的识别能力较差等.同时,由于PCA 算法具有抽取特征数据量少的特点,所以用于表示人脸层次化模型的特征数据量适中,这样,更能适应大量人像的识别.本文假定:图像中只有一个人脸,且背景较为简单.
2 人脸标准化及特征定位
人脸标准化和人脸局部特征的定位是人脸识别任务的前提和基础,直接影响最后的识别效果.因此,快速准确的标准化和特征定位是十分必要的.
2.1 人脸标准化
本文在人脸标准化的同时也完成了人脸及眼睛的自动定位,其基本思想是基于一个简单的事实:对所有的人脸图像,头发和眼睛都很容易与脸颊明显分开,因此只要人脸图像能被很好地分割,就可将眼睛准确检测出来,并同时完成人脸的定位,这样,标准化问题便可得到容易解决.被标准化后的图像大小为128×192像素,人脸中两眼在同一水平位置.
2.1.1 域值分割
由上所述,首先需对人脸图像I (x ,y )进行域值分割,使头发、眼睛与脸颊明显分开.由于假定图像中只存在一个人脸,分割问题变得相对简单.图1(b)是人脸图像的典型直方图,其中两个明显的峰值分别对应于人脸的暗部(头发、眼睛、眉毛、嘴等)和亮部(额头、脸颊等).而且第一个峰值应对应人脸暗部,因为一般背景总比人脸的暗部亮,这样,我们只需找到前两个峰值,在其间取一个灰度值作为域值即可.由于存在多个可选域值,可通过自动域值调整使图像的二值化过程非常可靠
.
图1 原始图像的域值分割
直方图中常会因图像本身的灰度分布及噪声干扰等因素影响而出现一些类似峰点的随机干扰点,它们的存在会导致对峰点的误判,从而影响域值的选取.因此在自动检测峰点之前,需对直方图进行移动平均平滑预处理:144912期章高清等:人脸的层次化描述模型及识别研究
G i=1
n
(g i+g i-1+g i-2+…+g i-n+1)
=1
n
(g i-1+g i-2+g i-3+…+g i-n)+
1
n
g i-
1
n
g i-n
=G i-1+1
n
(g i-g i-n)
式中G i表示灰度值为j点的移动平均值,g i表示直方图中灰度值为i的像素出现的频数,n为每次移动地求算术平均值采用的灰度级个数.移动平均其实质是对离散数列加以平滑处理来消除随机扰动点.若一次移动平均仍不能满足需要可对G i(n取相同值)数列作二次或三次移动平均,方法类似.一般进行二次移动平均即可达到满意效果.图1(c)是对图1(b)作二次移动平均后的结果.可见其整体上与原直方图无明显改变,但许多干扰点被消除了.
所以,通过对原始图像直方图作二次移动平均,可准确检测出前两个峰值,得到可靠的域值进行分割,使头发、眼睛与脸颊明显分开.图1(d)是域值分割后的二值图像B(x,y).
2.1.2 眼睛定位
一般眼睛定位采用模板匹配方法[1,2].但单一模板匹配很难适应人脸大小不同的情况,而由Yille等人[5]提出、Xie等人[6]改进的基于弹性模板匹配的脸部特征抽取方法虽然稳定可靠,仍存在着计算量大、能量函数很难适应一般情况等缺点.本文则提出了一种称之为面积法的眼睛定位方法,此方法基于域值分割后的二值图像B(x,y),利用人脸的一些简单先验知识,可以快速而准确地定位眼睛,而且,同时完成人脸定位(见图2).下面是眼睛定位的主要步骤:
(1)通过第一次扫描二值图像B(x,y)定位头发
在扫描B(x,y)的过程中按照八连通原则,采用相邻点标记算法标记出各个1值块.一般来说,在背景较为简单的条件下,面积最大的一块即为头发块,这个假设通常是成立的,即使对光头或白发人来说,其头部灰度也是比较小的,因此用自动域值调整发法也能将头部找出来.
(2)通过对头发块的处理,定位头发内边界,生成人脸内轮廓图I′(x,y)
在定位头发块后,再作一次从上到下的局部扫描,可以得到头发块的下边界曲线,针对头发块中可能出现0值斑点,我们用平均值方法进行修正,观察这条曲线,我们发现在左右两边各有一个极小值(即在鬓角的部位人的头发延伸到下方).找出这两个点,可再生成一个人脸内轮廓图I′(x,y),该图顶端为头发下边界曲
线的最高点,左右两端为找到的两个极小值点位置,底端为顶端加上左右端间距的1.5倍与整幅图像上2
3
分
界的较小值.
(3)对人脸内轮廓图I′(x,y)应用拉普拉斯算子,做第二次扫描,定位双眼
使I′(x,y)中的每点灰度乘以以下矩阵:
-1-1-1
-18-1
-1-1-1
图2 变形的二阶微分模板
图3 眼睛定位示例
经过上述处理的图像是边界敏感的,同样对它做域值分割,然后进行全图扫描,方法与定位头发块相同,此次找出面积最大的10个块,做分对处理,标记出可能为双眼的成对块,经过下面规则判别出最有可能成为眼睛的一对,然后取出这一对块中最黑的点作为眼睛中心点.
判别眼睛对所用的主要规则:
(1)眼睛块宽度(w idth)、高度(heig ht)及面积(area)应满足:
1450计算机研究与发展1999年
w idth >heig ht and area >0.5
(2)眼睛块I ′
(x ,y )到上边界的距离d 1与其到I ′(x ,y )下边界距离d 2应满足:
d 1<d 2(眼睛应在人脸的上半部)
2.1.3 标准化
首先利用眼睛中心点对人脸姿态进行标准化:将图像I ′(x ,y )随着两眼中心点连线l 旋转至l 达到水平
位置,生成图像I ″(x ,y );然后对I ″(x ,y )进行缩放变换,使最后图像I norm (x ,y )尺寸为128×192像素,完成人脸大小的标准化.一般图像I norm (x ,y )的顶端在眉毛的上边界,底端在下唇至下颏间(因人而异),左右两端均在颧骨附近(见图4),这样使脸部关键区域凸现出来,图像识别的范围大大缩小了
.图4 人脸图像标准化示例
2.2 特征定位
眼睛定位后,鼻子、嘴等其它人脸局部特征可通过区域内积分投影[7]的方法方便定位.
由于已求得眼睛的具体位置,脸部中心线也随之确定,鼻子和嘴巴恰好在这条中心线上,并在眼睛下方(因为标准化时对头部倾斜的人像已经以双眼为标准作了旋转,所以无需考虑头部旋转情况),则根据人体测量标准,鼻子和嘴巴的垂直位置可初步确定.
鼻子的精确位置可以通过寻找垂直梯度图的水平投影的峰值确定,而嘴的位置由原图的水平投影的谷值确定(嘴唇之间的线是区域中最黑的部分).峰值和谷值用它们的突出性来评价,具有最高评价值的即作为鼻子和嘴巴的垂直位置.获得精确的垂直位置后,搜索可进一步限制在更小的窗口内
.
图5 特征定位示例
鼻子的水平定界在新的搜索窗内进行,在
其水平梯度图的垂直积分投影上寻找高于搜
索窗内平均值的峰值,最左和最右的峰值处分
别为鼻子的左右边界.嘴的高度可由相同方法
在垂直梯度图上得到,而嘴的水平位置则通过
以平均值分割其水平梯度图的垂直投影,然后
在上面寻找两个跳变点即可确定,特征定位结
果如图5所示.得到人脸及其局部特征的位置
后,就可进行识别了.3 人脸识别人脸识别基于主元分析法(PCA)进行.人脸图像可以看作一个矢量:如果图像的高度和宽度分别为h 和1451
12期章高清等:人脸的层次化描述模型及识别研究
w ,则对应的矢量维数为w ×h .人脸矢量属于一个空间,称为图像空间,由所有维数为w ×h 像素的图像组成.由于所有人脸极为相似,所有人脸矢量都聚集在图像空间的一个狭窄的区域内.所以,整个图像空间不是人脸描述的一个优化空间.主元分析法的任务就是构造一个能更好描述人脸的人脸空间,降低空间维数,使新的人脸空间的基向量(称为主元)能更好地描述典型的人脸模式.
3.1 主元分析神经网络
主元分析法虽然是在统计学领域发展起来的,但后来在人工神经网络中重新定义并得到广泛应用.基于Widro w -Hoff 规则的线性自相关矩阵存储器(LAM M )[8]可看做一种主元分析神经网络,它的目的是产生一个最接近于输入键的已存储键的反应,在此键可认为是一张人脸.LAM M 由一个神经网络层构成,每个神经元与人脸矢量中的一个元素相对应,每层包含w ×h 个神经元,且每个神经元与所有其它神经元相连,如图6所示
.
图6 线性自相关记忆的结构LAM M 在训练过程中采用Widrow -Hoff 规则不断改变权值使
误差达到最小:
w ij (t +1)=w t + ×(x j -o j )×x i (1)
其中,x i 为输入人脸矢量的第i 个元素,o j 为第j 个输出神经元,
w ij 为第i 和j 个神经元之间的权值, 为学习因子.对LAAM 而言,
期望的输出神经元o j 就是它的输入x j ,即如果权值产生的结果与预
期不同,则需改变.
设I =w ×h 为人脸像素个数,亦为人脸矢量维数,K 是训练集中人脸总数,X =[x ij ]是维数为I ×K 的训练集矩阵,其中第k 列向量x k 对应训练集中第k 个人脸且被归一化,W =[w ij ]为维数I ×I 的权值矩阵.那么学习规则(1)又可写为
W (t +1)=W (t )+ ×(X -W (t )×X )×X T
(2) 由式(2)则可说明此规则的收敛性.
矩阵X 可写为X =P × ×Q T .其中,P 为矩阵X ×X T 的特征向量矩阵,Q 为矩阵X T ×X 的特征向量
矩阵, =
, 是包含矩阵X ×X T 特征值的对角矩阵.由定义,P ×P T =I ,Q ×Q T =I ,I 为单位矩阵,则根
据式(2)可得:W (0)=0
W (1)= ×X ×X T = ×P × ×Q T ×Q ×P T = ×P × ×P
T W (2)= ×P × ×P T
+ (P × ×Q T - ×P × ×P T ×P × ×Q T )×Q × ×P T = ×P × ×P T + ×P × ×Q T ×Q × ×P T - 2×P × 2×P
T =P ×( × + × - 2× 2)×P
T =P ×(I -(I -( × )2))×P
T 所以,规则式(2)可写为
W (t )=P ×(I -(I -( × )t ))×P
T 若取:0< <2!max ,2!max
为矩阵X ×X T 的最大特征值,则lim (I - × )′t →∞.所以,当学习过程结束时,权值矩阵为W (t )=P ×P T ,输出为O =W (t )×X =P ×P T ×X
.图7 表示中间形式的神经网络结构输出又可看成由y =P T ×x 和o =P ×y 两部分组成,其中x 为一人脸矢量,o 为输出人脸,y 是中间形式,即矩阵P 把人脸矢量x 从图像空间转换到人脸空间中的矢量
y ,矩阵P 的列矢量就是人脸空间的基,称作主元.表示中间形式的
神经网络如图7所示,其中,r ank (X ×X T
)=m in(w ×h ,K ),通常K
小于w ×h ,所以新构成的人脸空间维数较图像空间的维数减少了.
3.2 主元提取
由上述分析可知,人脸空间的维数已少于图像空间维数,但为
了进一步真正降低特征空间维数,许多只携带少量数据信息的主元1452计算机研究与发展1999年
都可被忽略.
设!i 和e i ,(i =1,2,…,K )分别为X ×X T 的特征值和归一化特征矢量,则a i (t )=e i (t )T ×X (t )为X 的第
i 个主元,若X 用m 个主元来估计,其估计值X ⌒=∑m
i =1e i a i ,均方误差∀m =E [(X -X ⌒)2]=∑K
i =m +1!i
.显然,当m 个特征值较大而其它较小时,均方误差达到最小,满足最小均方误差准则.所以,如果特征值按降序排列,则前m 个特征值对应的特征矢量已能很好描述人脸空间,而后面一些特征值及对应的特征矢量由于只解释了很少的数据信息可被舍弃.
人脸空间的维数虽不是确定的,但根据实验测试可知特征值是以指数方式递减的,当考虑到在指数序列的尾部所有特征值几乎是相同的:
!N =!N +1=!N +2=…=!K ,1<N <K
即这些主元与它们的特征值已不相关,可以被舍弃,那么N 就是人脸空间的维数.由于前N 个特征值对应的特征矢量是定义在图像空间,它们可被看成图像,而事实上这些图像也的确与人脸相似,所以称之为特征脸(eigenfaces ).
3.3 识 别
特征脸的技术很容易扩展到对人脸局部特征的描述和编码,从而产生特征眼(eig eney es )、特征鼻(eigenno ses)、特征嘴(eig enmo uths)等.研究表明这些特殊的人脸特征是人像的重要标志,特别是在某一特定识别任务中尤为重要.所以,为了进一步提高识别性能,本文又增加了一层对人脸的描述:人脸局部特征描述层,这就是人脸的模块化(mo dular)或层次化(layered)描述模型:低分辨率上对整个人脸的粗糙描述附加较高分辨率上对突出脸部特征的详细描述.系统识别正是建立在此层次化人脸特征描述模型之上,最后采用
N 邻域法确定最相近的人脸.识别流程如图8所示,其中w 0,w 1,w 2,w 3分别为使用特征脸、
特征眼、特征鼻及特征嘴进行识别时的相关识别权值
.
图8 识别流程
4 实验结果
测试实验建立在一个人脸数据库FACEDB 之上.FACEDB 收集了来自公安专科学校和本系一部分学生共260个人的人脸图像,图像的获取通过数字相机完成.每个人有5张不同的人脸图像,其中3张是不同表情的正面图像,另两张则是不同姿态(分别向左、向右倾斜)的图像,如图9所示.所以,FACEDB 中共有145312期章高清等:人脸的层次化描述模型及识别研究
1300张人脸图像,这1300张人脸图像分成两个互不相交的集合:样本集和测试集.样本集由250个人的两张正面图像(一般选取表情较平和、光线较均匀的人脸图像)组成,作为已知人脸图像数据库;测试集则包括其它所有人脸图像,作为未知待测图像库
.
图9 数据库中人脸
示例
图10 测试结果比较图 由于人脸表情的不同使嘴的形状变化较大,因此这个特
征在识别中其识别权值置得很小.图10表明了在不同相关识
别权值下以特征矢量数目为自变量的识别率函数.在特征矢
量数目达到10时,它们都达到了较好的识别率,特别在两种
表示相结合的情况下,识别率高达97.6%,高于单独用人脸
局部特征的识别率(92%)和人脸全局特征的识别率(93%).
这同时也表明虽然增加了人脸局部特征描述层,但表示人脸
的特征数据量不会过于庞大,因而此方法亦适用于大量人像
的特征抽取和识别.
5 总 结
主元分析神经网络具有非线性特性和联想记忆功能,可有效地进行人脸最佳特征提取,而采用主元分析法得到人脸在低分辨率及较高分辨率上的两层特征描述,把它们结合进行识别的方法,可有效克服原PCA 算法存在的缺点,提高了识别的准确率,但识别速度还有待进一步提高.
今后,我们将在下列两方面作进一步的工作: 尝试其它如特征曲线等快速方法抽取人脸全局特征,以进一步提高识别速度和识别率; 取消对背景的限制,以适应更复杂的场景.
参
考文献1
Chellappa R,W ils on C L,Siroh ey S.Human and machin e recognition of faces:A s urvey.Proc of the IEEE.1995,83(5):705~7402
Samal A,Iyen gar P A .Automatic recognition an d analysis of human faces and facial express ions:A survey.Pattern Recognition,1992,25(1):65~773
Erkk i Oja .Prin cipal components ,minor components ,an d linear neur al network .Neural Netw ork ,1992,5:927~9354
Tu rk M ,Pentland A.Eigenfaces for recog nition.J ou rnal of Cognitive Neu roscience,1991,3(1):71~865
Yuille A L,C on en D S ,Halinan P W.Feature extraction from faces us ing defor mab le templates.Pattern Recogn ition ,1996,21(1):143~1576
Xie X ,Sudh akar R ,Zhuang H .On improving eye feature extraction us ing defor mab le templates .Pattern Recogn ition ,1994,27(6):791~7997
Brunelli R,Poggio T.Face recognition:Featu res versus templates.IE EE Trans Pattern Analys is M achine Intelligence,1993,15(4):1042~10528Kohonen T.S elf-organization and associative memory.Berlin :S ringer -Verlag,19891454计算机研究与发展1999年。