人脸识别与人脸检测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 绪论
1.1人脸表情识别研究的目的和意义
人脸是人最重要的外貌特征,由于脸部信息可以通过非接触的方式(如摄像头)取得,所以非常适合于作为身份鉴别的依据。

人脸识别就是对于输入的人脸图像或者视频,首先判断其中是否存在人脸,如果存在人脸,则进一步确定每张人脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每张人脸中所蕴含的身份特征,并将其与已知人脸库中的人脸进行对比,从而识别每张人脸所代表的个人。

人脸识别是一个交叉学科,它的研究内容涉及计算机视觉、模式识别、计算机图形学、图像处理、生理学、心理学、认知科学等。

人脸识别技术可采用非接触式的、连续的和实时的方式,在国家安全、军事安全和公安、司法、民政、金融、民航、海关、边境、口岸、保险及民用等领域实际应用具有极广阔的前景。

这一技术典型应用如下:
(1)身份鉴定(一对多的搜索):在鉴定模式下,确定一个人的身份,该技术可以快速地计算出实时采集到的面纹数据与面像数据库中已知人员的面纹数据之间的相似度,给出一个按相似度递减排列的可能的人员列表,或简单地返回鉴定结果(相似度最高的)和相对应的可信度。

(2)身份确认(一对一的比对):在确认模式下,待确认人已知的面纹数据可以存储在智能卡中或数码记录中,该技术只需要简单地将实时的面纹数据与存储的数据相比对,如果可信度超过一个指定的阀值,则比对成功,身份得到确认。

(3)监视:可以在监控范围内发现人脸,而不论其远近和位置,能连续地跟踪该人脸图像并将其从背景中分离出来,将面像与监控列表进行比对。

整个过程完全是无需干预的,连续的和实时的。

(4)面像数据压缩:能将面纹数据压缩到84字节以便用于智能卡、条形码或其他仅含有有限存储空间的设备中。

(5)多通道的人机交互界面:可以把跟踪得到的人脸表情作为一种人机交互的手段。

为使用者提供一个个性化、智能、便捷的工作环境,这也是智能计算机研究的重要内容。

人脸表情识别研究的主要目的在于:
(1)在人机接口中实现计算机对人脸面部表情的自动识别;
(2)在视频片段检索中实现面部表情的跟踪与识别;
(3)研究人脸表情编码模型,解决低带宽的脸部数据传输、多媒体中的脸部图像压缩等问题。

进行这项研究的意义在于:
(1)作为情感计算研究的重要组成部分,可以有效地促进人机交互系统的发展和计算机图像理解的研究;
(2)对实现人体语言与自然语言的融合,以及语言与表情连接模型的建立与实现具有重要意义;
(3)可以为表情合成、与表情无关的人脸检测与跟踪、人脸识别等领域的研究提供理论基础;
这些年表情识别技术发展相当迅速,北京奥运将首次使用人脸识别综合报警系统,这里我们简单介绍一下在2008年北京奥运会使用的人脸识别系统的主要功能:
(1)对所有进出机场、海关、火车站、奥运场馆的人通过摄像机自动识别;人员通行考勤、外人登记、生物特征人脸识别验证真伪。

(2)对于危险人摄像机自动识别,向网络报警中心报警。

(3)对不受欢迎的人,一经录入,自动识别防止进入。

(4)各种工人、后勤、食品运送人员自动人脸识别,未经登记授权限制进入。

(5)对于恐怖行危险人员、情绪偏激不稳定人员、牵连到奥运场馆和奥运活动区域群体事件的问题人员和等影响社会稳定人员,自动识别人脸,防止进入奥运区;并且根据人脸等生物特征智能查询进出纪录。

(6)对于奥运场馆和奥运活动区域内各种服务实现不用带卡的自动人脸识别安全服务和优质服务。

(7)对于党和政府的领导通过联网自动人脸识别掌握奥运活动区域准确人员管理情况、预估风险实现远程管理和控制。

人脸表情识别和理解(Face Recognition)的研究范围广义上大致包括以下5个方面的内容:
(1)人脸检测(Face Detection):即从各种不同的场景中检测出人脸的存在并确定其位置。

这一任务主要受光照、噪声、面部倾斜度以及各种各样遮挡的影响。

(2)人脸表征(Face Representation):即采取某种表示方式表示检测出的人脸和数据库中的已知人脸。

通常的表示法包括几何特征(如欧氏距离、曲率、角度)、代数特征〔如矩阵特征矢量)、固定特征模板、特征脸等。

(3)人脸识别(Face Identification):即将待识别的人脸与数据库中的已知人脸比较,得出相关信息。

这一过程的核心是选择适当的人脸的表征方式与匹配策略,系统的构造与人脸的表征方式密切相关。

(4)表情/姿态分析(Expression/Gesture Analysis):即对待识别人脸的表情或姿态信息进行分析,并对其加以归类。

(5)生理分类(Physical Classification) 即对待识别人脸的生理特征进行,得出其年龄、性别等
相关信息。

1.2表情识别的现状
现阶段的研究当中,完整的人脸识别系统至少包括三个主要环节。

首先在输入图像中找到人脸的位置,将人脸从背景中分割出来;其次,将分割后的人脸图像进行特征提取和定,最后根据提取的特征进行人脸识别。

如图1.1所示:
图1.1 识别过程简图
Fig1.1 Identify process simple diagram
1.2.1人脸图像检测方法现状
人脸图像检测与定位就是在输入图像中找到人脸确切的位置,它是人脸表情识别的第一步。

人脸检测的基本思想是用知识或统计的方法对人脸建模,比较待检测对象与所建的人脸模型的匹配程度,从而得到可能存在人脸的区域。

根据思想的不同基本上分为下面两种检测方法:
(1)基于统计的人脸检测
是将人脸图像视为一个高维向量,将人脸检测问题转化为高维空间中分布信号的检测问题。

(2) 基于知识的人脸检测
是利用人的知识建立若干规则,从而将人脸检测问题转化为假设→验证问题。

1.2.2基于统计的人脸检测方法
(1)样本学习:将人脸检测视为从非人脸样本中识别人脸样本的模式分类问题,通过比较人脸样本和非人脸样本来提取各自的特征,进行学习来产生分类器。

目前国际上普遍采用的是人工神经网络。

(2)模板法:模板法是把测试样本与参考模板进行比较,由阈值大小来判断测试样本是否是人脸。

阈值一般是通过对大量的模板进行统计得来的,并不是一个固定的值。

(3)子空间方法:Pentland 将KL 变换引入了人脸检测,利用主元子空间(特征脸) ,而人脸检测利用的是次元子空间(特征脸空间的补空间) 。

用待检测区域在次元子空间上的投影能量,也即待检测区域到特征脸子空间的距离作为检测统计量,距离越小,表明越像人脸。

子空间方法的特点在于简便易行,但由于没有利用反例样本信息,对与人脸类似的物体辨别能力不足。

1.2.3基于知识建模的人脸检测方法
(1)人脸规则:人脸规则是人脸遵循的一些几乎是普遍适用的空间相关性。

它包括: ①灰度分布规则。

如五官的空间位置分布大致符合“三停五眼”等,人脸不同区域的明暗关系不变,眼睛的灰度总是比前额和颧骨低,鼻梁的灰度一般比两侧亮等。

②轮廓规则。

人脸的轮廓可以简单地看成一个近似椭圆,而人脸检测可以通过椭圆检测来完成。

③运动规则。

通常相对背景人总是在运动的,利用运动信息可以简单有效地将人从任意复杂背景中分割出来。

(2)颜色、纹理信息:同一种族人的面部肤色在颜色空间中的分布相对比较集中,颜色信息在一定程度上可以将人脸从大部分背景区分开来。

(3)对称性:人脸具有一定的轴对称性,各器官也具有一定的对称性。

Reisfeld 提出广义对称变换方法[1]检测局部对称性强的点来进行人脸器官定位。

1.3本文的结构
本文的章节做如下安排。

第一章绪论介绍量表情识别研究的目的意义和现状;第二章对人脸检测与定位方法、脸部特征定位方法、人脸识别方法作了综述;第三章在上述方法的基础上,重点叙述了毕业设计采用的方法,并用VB开发了一个人脸表情识别系统;第四章对面部表情识别技术以后的发展方向和工作重点做了总结。

2 相关技术综述
2.1引言
情绪使人产生生理和行为的显著变化,面部表情是情绪的外显行为的一个重要方面。

眼、眉、嘴、鼻、脸色等的变化最能表示一个人的情绪。

如两眼闪光之惊喜,眼泪汪汪之悲哀委屈,眉毛紧锁之忧愁,扬眉之得意,双目圆睁之愤怒,嗤之以鼻之厌恶,脸色苍白之惊恐等。

这是由于人的各种情绪同脸部肌肉和血管等的变化有关,故而脸部肌肉和血管的变化能表示一定的情绪状态。

例如,喜悦与颧肌有关,痛苦与皱眉肌有关,忧伤与三角肌有关,羞愧因血管舒张而脸红,恐怖因血管收缩而苍白。

本文就是通过对人面部表情进行识别来达到对人的情绪的判断。

人们做出各种表情,正是表情肌肉运动的结果[2]。

2.2人脸模式的特征
人脸模式的特征包括肤色特征和灰度特征。

2.2.1肤色特征
肤色是人脸的重要信息,不依赖于面部的细节特征,对于人脸表情发生的任何变化情况都能适用,具有相对的稳定性并且和大多数背景物体的颜色相区别。

因此肤色特征在人脸检测中是最常用的一种特征。

肤色特征主要由肤色模型描述,常用的肤色模型有高斯模型、混合高斯模型和直方图模型。

2.2.2灰度特征
灰度特征包括人脸轮廓特征、人脸灰度分布特征(镶嵌图特征、直方图特征等)、器官特征(对称性等)、模板特征等。

本文所采取的人脸识别方法就是基于灰度特征,具体的识别方法将在下文叙述。

2.3面部表情的分类
由于表情产生的原因、表情表现得程度、人们对表情的控制能力和表情的倾向等多方面的原因,使得表情的变化细微而复杂,对表情的概括也变得更为复杂。

例如,恐惧表情可能同时伴随着悲伤、生气、厌恶的产生。

一中混合的表情也就表现出来了。

最经常的是恐惧和惊奇的混合表现即惊恐。

关于情绪的类别,长期以来说法不一。

我国古代有喜、怒、忧、思、悲、恐、惊的七情说;美国心理学家普拉切克(Plutchik)提出了八种基本情绪:悲痛、恐惧、惊奇、接受、狂喜、狂怒、警惕、
表2.1 表情特征
Table2.1 expression characteristic
憎恨;汤姆金也列出八种基本情绪:兴趣、快乐、惊奇、痛苦、恐惧、愤怒、羞怯、轻蔑;还有的心理学家提出了九种类别。

虽然类别很多,但一般认为有四种基本情绪,即快乐、愤怒、恐惧和悲
哀。

针对表情广义性,表2.1中总结出了每种表情的特点及其在生成过程中所涉及到的重点表情区域的动作。

由表2.1我们可以看出,样本表情必须非常典型,而且有点夸张。

因此要求采集的样本在做出各种表情时,各个重点位置的表情必须符合表2-1的动作,这样才能正确的辨别样本表情。

2.4人脸检测与定位方法
近年来,人脸和面部表情识别已经吸引了更多科研人员的注意。

任何人脸处理系统的第一步都是检测人脸在图像中的位置。

但是,从一幅图像中检测人脸是一项极具挑战性的任务,因为其尺度、位置、方向和位姿都是变化的,面部表情、遮挡和光照条件也是变化的。

人脸检测(Face Detection)是指在输入图像中确定所有人脸(如果存在) 的位置、大小和位姿的过程。

人脸检测作为人脸信息处理中的一项关键技术,近年来已成为模式识别与计算机视觉领域内一项受到普遍重视,研究十分活跃的课题。

人脸识别或辨认、人脸定位以及人脸追踪等都与人脸检测密切相关。

人脸定位的目的是确定图像中人脸的位置。

假设一幅图像中只存在一张脸,则面部特征检测的目的是检测特征的存在和位置,如眼睛、鼻子(鼻孔)、眉毛、嘴(嘴唇)、耳朵等。

人脸识别或辨认是将输入图像与数据库中的图像比对,如果存在,报告匹配结果。

人脸识别的目的是检验输入图像中的个体的身份,而人脸追踪方法是实时地、连续地估计在图像序列中的人脸的位置和可能的方向。

而面部表情识别涉及识别人类的情感状态(高兴、悲伤、厌恶,惊恐等)。

很明显,在任何解决上述问题的自动识别系统中,人脸检测是第一步。

在第一章中我们给出了人脸检测两种基本方法,这只是粗略的分类方法,在这里我们把从一幅图像中检测人脸的方法可以分为以下四种[3]:
(1)基于知识的方法(Knowledge - based Methods):它将典型的人脸形成规则库对人脸进行编码。

通常,通过面部特征之间的关系进行人脸定位。

(2)特征不变方法(Feature Invariant Approaches):该算法的目的是在姿态、视角或光照条件改变的情况下找到存在的结构特征,然后使用这些特征确定人脸。

(3)模板匹配方法(Template Matching Methods):存储几种标准的人脸模式,用来分别描述整个人脸和面部特征;计算输入图像和存储的模式间的相互关系并用于检测。

(4)基于外观的方法(Appearance - based Methods):与模板匹配方法相反,从训练图像集中进行学习从而获得模型(或模板) ,并将这些模型用于检测。

2.4.1基于知识的方法
基于知识的方法实质是基于规则的人脸检测方法,而这种规则来源于研究者关于人脸的先验知识。

一般比较容易提出简单的规则来描述人脸特征和它们的相互关系,如在一幅图像中出现的人脸,通常具有互相对称的两只眼睛、一个鼻子和一张嘴。

特征之间的相互关系可以通过它们的相对距离和位置来描述。

在输入图像中首先提取面部特征,确定基于规则的人脸候选区域。

这种方法存在的问题是很难将人类知识转换为明确定义的规则。

如果规则是严格的,由于输入图像很可能不能通过所有的规则检测而导致失败;相反,如果规则太简单,可能会有较高的错误接收率,输入许多错误图像。

此外,很难将这种方法扩展到在不同的情况下检测人脸,因为列举所有的情况是一项很困难的工作。

许多表情识别方面的专家通过研究,提出了一些克服这些缺点的方法。

Yang和Huang使用分层的基于知识的人脸检测方法[4],他们的系统由三级规则组成。

在最高级,通过扫描输入图像的窗口和应用每个位置的规则集找到所有可能的人脸候选区。

较高级的规则通常描述人脸看起来像什么,而较低级的规则依赖于面部特征的细节。

多分辨率的分层图像通过平均和二次采样生成,如图2.1所示。

编码规则通常在较低的分辨率下确定人脸的候选区,包括人脸的中心部分(图2.2中较浅的阴影部分),其中有四个基本上相同的灰度单元。

图2.1 分层图像
Fig.2.1 Layering picture
图2.2 人脸侯选区
Fig2.1 Face District
在人脸的上层周围部分具有相同的灰度。

人脸的中心部分和上层周围的灰度不同。

最低分辨率的(Lever1)图像用于搜索人脸的候选区并在后面较精细的分辨率下作进一步处理。

在Lever2完成人脸候选区的局部直方图均衡化,并进行边缘检测,以缩小后选区。

继续存在的候选区在Lever3用其他的人脸特征,如眼睛、嘴等对应的规则进行检查。

这种方法的特点是用从粗到细的策略来减少所需要的计算,虽然它没有很高的检测率,但采用多分辨率分层的思想和指导搜索的规则已经用到后面的人脸
检测工作中[5]。

Kotropoulos 和Pitas [5]提出了一种基于规则的定位方法。

用投影方法确定面部特征,I(x,y)是m×n 图像中(x,y)位置的灰度值,图像的水平和垂直投影定义为∑-=n y y x I x HI 1),()(和∑==m
y y x I y VI 1),()(。


过对投影曲线的分析可知。

整个曲线看起来会有两个较大的凹槽和凸起,人脸的眼睛和嘴的位置正好对应曲线的这两个谷值区域,即在这条曲线上找到一个具有最大剃度值的点和一个具有最小剃度值的点,由此可以粗略的检测出眼睛和嘴的位置。

2.4.2基于特征的方法
基于特征的方法不仅可以从已有的面部特征而且可以利用面部特征点的几何关系进行人脸检测。

这种方法是寻找人脸的不变特征用于人脸检测,这与基于知识的方法正好相反。

人们已经提出了许多先检测人脸面部特征,后推断人脸是否存在的方法。

面部特征,如眉毛、眼睛、鼻子、嘴和发际,一般利用边缘检测器提取,根据提取的特征,通过与统计模型比较来确定人脸是否存在。

基于特征的算法存在的问题是,由于光照、噪声和遮挡等使图像特征被严重地破坏,人脸的特征边界被弱化,阴影可能引起很强的边缘,而这些边缘可能使得算法难以使用。

Sirohey 提出了从复杂的背景中分割人脸进行人脸识别的定位方法[6]。

它使用边缘图和启发式算法来去除和组织边缘,而只保存一个边缘轮廓,然后用一个椭圆拟合头部区域和背景间的边界。

Graf 等人提出定位灰度图像的面部特征和人脸的检测方法[7]。

在滤波以后,用形态学的方法增强具有高亮度、含有某些形状(如眼睛)的区域。

Leung 等人提出一种基于局部特征检测器和任意图匹配的概率方法,在复杂场景中定位人脸[8]。

其目标是找到确定的面部特征的排列。

典型的人脸用五个特征(两只眼睛、两个鼻孔和鼻子与嘴唇的连接处)来描述。

Yow 和Cipolla 提出了一种基于特征的方法[9][10]。

在第一阶段,应用了二阶微分Gaussian 滤波器,在滤波器响应的局部最大点检测感兴趣的点,指出人脸特征可能的位置;第二阶段,检查感兴趣点周围的边缘并将它们组成区域。

这种方法的优点是可以在不同的方向和位姿上检测人脸[11]。

Han 等人提出了一种基于形态学的技术进行眼部分割进而实现人脸检测的方法[12] 。

他们认为眼睛和眼眉是人脸最突出和稳定的特征,特别适合人脸检测。

彭进业等人提出了一种在图像的反对称双正交小波分解数据域中,实现多尺度对称变换的方法,并将它应用于脸部图像中主要特征点的定位[13]。

王延江等人提出了一种快速的彩色图像中复杂背景下人脸检测方法[14]。

其方法首先计算对彩色图像中与人的肤色相似的像素进行聚类和区域分割,然后利用小波分解对每一个候选区域进行人脸特征分析,如所检测到的区域特征分布与某一预先定义的人脸模型相似,则确认该区域代表人脸。

皮肤颜色通常不能独自进行人脸检测和追踪。

近年来,人们已经提出几种使用形状分析、颜色分割和运动信息结合的模块化系统在图像序列中用于定位和追踪头部和人脸的方法。

2.4.3模板匹配方法
Sakai等人使用眼睛、鼻子、嘴和人脸轮廓等子模板建模,检测照片中的正面人脸[15]。

每一个子模板按照线分割定义。

基于最大梯度变化提取输入图像的线,然后与子模板匹配。

计算子图像和轮廓模板之间的相互关系去检测人脸的候选区域,完成用其他子模板在候选区域的匹配。

Craw等人提出了一种基于正面人脸的形状模板(也就是人脸的外形)定位方法[16]。

用Sobel滤波器提取边缘,将边缘组织在一起,根据几个约束条件去搜索人脸模板。

在头轮廓定位以后,用相同的过程以不同的尺度重复定位眼睛、眼眉和嘴唇等特征。

Miao 等人提出了用于人脸检测的层次模板匹配方法[17]。

在第一阶段,为了处理旋转图像,输入图像从- 20°~20°旋转,每次旋转5°。

多分辨率图像层次形成和边缘提取使用Lapla2cian操作符。

人脸模板通过六个人脸成分产生的边缘组成:两个眼眉、两只眼睛、一个鼻子和一张嘴。

最后,应用启发式确定人脸的存在。

实验结果表明在图像含有单个人脸要比图像中含有多个人脸的结果好。

2.4.4基于外观的方法
模板匹配中的模板是由专家预定义的,与模板匹配中的方法不同,基于外观方法中的―模板‖是从图像中的样本学习的。

通常,基于外观的方法依靠统计分析和机器学习技术找到相应的人脸和非人脸图像的特征。

学习的特征由分布模型或判别函数形成,用于人脸检测,同时,由于计算效率和检测有效性的原因通常需要降维。

这种方法中最常用的是用贝也斯(Bayesian)分类器或最大自然函数将一个候选图像位置分类为人脸或非人脸;另外,隐藏Markov 模型(Hidden Markov Model,HMM)和支持向量机(SupportVector Machines,SVMs)方法也比较常用。

在这里我们就不做介绍了。

2.5脸部特征定位方法分类
近年来,国内外学者们已提出了许多种脸部特征定位方法。

根据定位所依据的基本信息的类型,以将现有方法分为基于先验规则、基于几何形状信息、基于色彩信息、基于外观信息和基于关联信息等5类:
(1)基于先验规则
根据脸部特征的一般特点总结出一些经验规则,搜索前,先对输人图像作变换使目标特征得到强化,而后根据上述规则从图中筛选出候选点或区域。

(2)基于几何形状信息
根据脸部特征的形状特点构造一个带可变参数的几何模型,并设定一个评价函数量度被检测区域与模型的匹配度。

搜索时不断调整参数使评价函数最小化,从而使模型收敛于待定位的脸部特征。

(3)基于色彩信息
使用统计方法建立起脸部特征的色彩模型,搜索时遍历候选区域,根据被测点的色彩与模型的匹配度筛选出候选点。

(4)基于外观信息
将脸部特征附近一定区域(窗口)内的子图像作为一个整体,映射为高维空间中的一个点,这样,同类脸部特征就可以用高维空间中的点集来描述,并可以使用统计方法得到其分布模型。

在搜索中,通过计算待测区域与模型的匹配度即可判定其是否包含目标脸部特征。

(5)基于关联信息
在局部信息的基础上,引人脸部特征之间的相对位置信息,以缩小候选点范围,从运算量、准确率与鲁棒性(包括图像质量需求和姿态表情光照等影响)3个方面对各类方法的性能作了粗略的比较。

2.5.1先验规则
先验规则是关于脸部特征一般特点的经验描述,人脸图像有一些明显的基本特征,如脸部区域通常包括双眼、鼻和嘴等脸部特征,其亮度一般低于周边区域;双眼大致对称,鼻、嘴分布在对称轴上等。

为了利用这些基本特征进行脸部特征定位,一般要先对输人图像作变换,使所要使用的特征得到强化,而后根据规则从图中筛选出候选点或区域.此类方法的难点在于,如何将人们的直观印象精确地表述为可应用的代码化规则,以及如何处理规则的精确性与适用性之间的矛盾。

(1)镶嵌图
镶嵌图[18]方法是先将图像划分成一组相同大小的方格,每个方格中像素灰度的平均值作为这个方格的灰度值,根据一组规则确定可能为人脸的区域;确定人脸的区域之后再将方格的边长减半,重新构建新的镶嵌图,并根据一组规则分别定位出眼、鼻、嘴等脸部特征;最后,将前两步所得到的脸部区域二值化,并使用边缘检测装置最终确定脸部特征的位置,为了实现尺寸无关性,对所有可能的方格尺寸都作了测试,因此算法的运算量很大,准确率也不高但是这种由粗到精的搜索策略对后来的研究有很大的影响。

使用长宽比可变的矩形单元代替方格田,以便更好地拟合人脸。

为了设定矩形单元的长宽比,利用灰度值在x和y方向上的投影确定眼、鼻、嘴和脸颊边界的位置,从而确定出脸部的大致范围,据此设定矩形单元的长宽比.这样缩小了搜索的范围,也避免了循环测试,不但使运算量大幅减少,。

相关文档
最新文档