(完整版)人脸识别学士毕业设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章概述
随着多媒体技术的发展,人脸图像在各种领域中具有越来越重要的作用,如人机交互系统、视频监测系统、人脸图像数据库管理系统、人脸检测与识别系统等。
在各种人脸图像的应用系统中,人脸特征定位是重要组成部分之一。
例如在安全监控应用中,银行部门的监控和安保部门的监控,需要对人的各项特征进行有针对性的监视。
对于监控对象的身高,衣着等特征,可以在较模糊图像中获得,但是对人脸部分特征,却必须要清晰的图像才能获得[1]。
如果可以对人脸进行针对性的监视,就可以使得应用安全监控的部门获得更多的安全保证。
而人脸自动定位是这一监控方法的第一步,它的性能如何直接决定了监控的效果。
简单的说,所谓的人脸定位,就是在静态图像或动态图像中标出人脸所在的位置,把人脸选取出来[2]。
而人脸的识别就是把选取出来得人脸与数据库中已有的人脸进行比较,找出匹配的档案来。
有的文献也把人脸的定位和识别统称为人脸识别,定位和识别则是两个主要的步骤。
完整的人脸识别系统涉及到决定静态图像或动态图像中无人脸、计数、定位,然后根据数据库识别出个人,可能的话还要识别表情,以及根据脸的图像做出描述;或者反过来根据描述挑选匹配的人脸图像[3]。
而说道快速的人脸特征定位,就不得不提及人脸检测技术。
人脸检测是人脸特征定位的前提,在整个过程中起着不可忽视的作用。
人脸检测问题最初作为自动人脸识别系统的定位环节被提出,近年来由于其在安全访问控制、视觉监测、基于内容的检索和新一代人机界面等领域的应用价值,开始作为一个独立的课题受到研究者的普遍重视。
下面我将对人脸检测的相关知识做一下简单的介绍。
1.1 人脸检测的基本概念
人脸检测是指在输入图像中确定所有人脸(如果存在)的位置、大小和姿态的过程。
人脸检测系统输入的是可能包含人脸的图像,输出的是图像中是否存在人脸和人
脸数目、位置、尺度等信息的参数化描述。
人脸检测任务的完成涉及从复杂的背景中分割、抽取、验证人脸区域和可能用到的人脸特征(如眼睛、唇色等)。
成功的人脸检测系统应能处理实际存在的光线、人脸方向和距照相机远近变化等各种情况。
1.2 人脸检测问题的分类和挑战性
1. 2.1 人脸检测问题的分类
人脸检测问题可以从不同角度来进行分类。
从人脸姿态的角度,可以分为正面人脸检测、多姿态人脸检测(包括侧面,俯仰、旋转等);从人脸个数的角度,可以分为单人人脸检测、未知人脸个数的检测。
从图像背景复杂程度的角度[10],分为简单背景人脸检测(指无背景或背景的特征被严格约束,在该条件下只利用人脸的轮廓、颜色、运动等少量特征,就能进行准确检测)、复杂背景人脸检测(指背景的类型和特征不受约束,某些区域可能色彩、纹理等特征与人脸相似,必须利用较多的人脸特征才能做到准确检测);从图片是否包含色彩信息的角度,可以分为彩色图片人脸检测和灰度图片人脸检测;从图片是否动态的角度,可以分为静止图像中的人脸检测、视频图像序列中人脸的检测与跟踪。
1. 2.2 人脸检测问题的挑战性
人脸是一类具有相当复杂细节变化的自然结构目标,受以下因素的影响,实际中的人脸检测极具挑战性[11]:①人脸本质上是三维的非刚性可变的物体,人脸由于姿态、外貌、表情、肤色等不同,具有模式的可变性;②一般意义下的人脸上,可能存在眼镜、胡须等附属物;③三维体的人脸的影像不可避免地受到由光照产生的阴影的影响;④图像的质量不一,由于成像的条件和手段不同,图像可能受噪声的干扰,前景目标模糊不清,比如人脸与背景区别不大造成人脸分割的困难,人脸被某些物体遮挡造成人脸特征的提取困难,光源色温不同造成的肤色分割困难等。
因此,如果能够找到解决这些问题的方法,成功的构造出人脸检测系统,将为解决其它类似的复杂模
式的检测问题提供重要的启示。
1. 3 人脸检测算法
视频序列的人脸检测还涉及到人脸跟踪的问题,因此,本文主要讨论静止图像的人脸检测。
经过了几十年的研究发展,人脸检测算法形成以下几类主要的方法[13]。
1. 3.1 基于统计的方法
1)基于事例学习的方法:将人脸检测看作区分人脸样本和非人脸样本这两类模式的分类问题,通过对人脸样本集和非人脸样本集进行训练得到人脸分类器,然后利用学习出来的分类器对图像中区域进行检测,代表性的方法有基于神经网络的方法,基于支持向量机的方法。
2)基于子空间的方法:将主分量分析应用到人脸检测中,对人脸训练样本集进行主分量分析得到特征脸子空间,将图像区域投影到特征脸子空间,并计算到特征脸子空间的距离,以此作为标准检测人脸。
3)基于隐马尔可夫模型的方法:把人脸模式看作参数化的随机过程,把人面部的额头、眼睛、鼻子、嘴巴和下巴等器官所在部位看作随机过程的状态,通过对符合人脸各器官分布的状态的随机过程的检测来实现对人脸检测[15]。
1. 3.2 基于模板匹配的方法
1)预定模板匹配法:根据人脸的先验知识确定出人脸轮廓模板以及各个器官特征的子模板,先通过计算图像中区域和人脸轮廓模板的相关值来检测出人脸候选区域,然后利用器官特征子模板验证上一步检测出的人脸候选区域是否包含人脸,这种方法的缺点在于不能有效处理尺度、姿态和形状的变化。
2)变形模板法:其主要思想是定义一个可变形的参数模板和一个能量函数来描述特征,通过一个非线性最优化方法求得能使能量函数最小的参数模板,此模板即被认为是所求特征的描述。
这种方法充分考虑到人脸是变形体的特点,稳定可靠,而且与姿态和光照无关,但仍然存在能量函数的系数难以适应一般情况和计算量巨大的问题。
1. 3.3 基于知识匹配的方法
1) 轮廓规则。
人脸的轮廓可近似地被看成一个椭圆,则人脸检测可以通过检测椭圆来完成。
科学家把人脸抽象为三段轮廓线:头顶轮廓线、左侧脸轮和右侧脸轮。
对任意一幅图像,首先进行边缘检
测,并对细化后的边缘提取曲线特征,然后计算各曲线组合成人脸的评估函数检测人脸。
2) 器官分布规则。
虽然人脸因人而异,但都遵循一些普遍适用的规则,即五官分布的几何规则。
检测图像中是否有人脸,即是否存在满足这些规则的图像块。
这种方法一般是先对人脸的器官或器官的组合建立模板,如双眼模板、双眼与下巴模板,然后检测图像中几个器官可能分布的位置,对这些位置点分别组合,用器官分布的集合关系准则对其进行筛选,从而找到可能存在的人脸[16]。
3) 肤色、纹理规则。
人脸肤色聚类在颜色空间中一个较小的区域,因此可利用肤色模型有效地检测出图像中的人脸。
Lee等设计出由肤色模型来表征人脸颜色,利用感光模型进行复杂背景下人脸及器官的检测与分割。
Dale利用空间灰度共生矩阵纹理信息作为特征进行低分辨率的人脸检测。
Saber等则将颜色、形状结合在一起进行人脸检测。
与其它检测方法相比,利用这些方法检测出的人脸区域可能不够准确,但如果在整个系统实现中作为人脸检测的粗定位环节,它具有直观、实现简单、快速等特点,可以为后面进一步进行精确定位创造良好的条件,以达到最优的系统性能。
并且用色度表示人脸特征还有一个最突出的特点,就是具有姿态不变性。
4) 对称性规则。
人脸具有一定的轴对称性,各器官也具有一定的对称性。
Zabrodsky[13]提出连续对称性检测方法,检测一个圆形区域的对称性,从而确定是否为人脸。
Riesfield[14]提出广义对称变换方法检测局部对称性强的点来进行人脸器官定位。
5) 运动规则。
若输入图像为动态图像序列,则可以利用与人脸或人脸的器官相对于背景的运动来检测人脸,比如利用眨眼或说话的方法实现人脸与背景的分离。
在运
动目标的检测中,帧相减是最简单的检测运动人脸的方法。
但是当目标受遮挡或背景光照变化以及有多个运动目标时,这种方法会失效。
这时可考虑用光流或基于光流场的不连续性等方法,此类方法的瓶颈在于光流的可靠计算。
Marqués[17]使用连接算子和分割投影分别实现基于动态图像序列的人脸分割和跟踪,并在实验中对MPEG24 和MPEG27 格式的图像序列测试,取得比较满意的结果。
由于图像序列的计算远比静止图像的计算复杂和耗时,基于动态图像序列的人脸识别方法是随着计算机的高速发展和视频监控等应用的需要在近几年才逐渐成为一个研究热点。
1. 4 人脸检测技术的发展
人脸检测问题来源于20 世纪60、70 年代的人脸识别的研究,但早期的人脸识别研究主要针对有较强约束的人脸图像(如无背景图像),并往往假设人脸位置很容易获得,因此人脸检测问题并没有受到重视。
近年来,由于人脸作为人体的代表性特征,具有直观自然的特点,以人脸信息
为内容的人机交互方式受到了广泛的重视[12]。
从对目前人脸检测算法的回顾可看出,人脸检测算法大多是基于灰度图像的,而现实中灰度图像只能有限描述信息,已经不能适应很多场合的需要,因此对彩色图像的人脸检测研究将是今后的一个重点。
另外,在复杂背景图像中的人脸检测大多针对正面端正的人脸。
多姿态的人脸检测(特别是侧面人脸检测)还存在很大困难,这方面的研究也将是一个重点。
总之,由于人脸检测问题的复杂性,实现通用的人脸检测方法还不实际,因此解决特定约束条件下或某种应用背景下的人脸检测问题将是该领域研究的主要课题[18]。
人脸检测技术的研究涉及到人脸信息研究的各个方面,如人脸识别,人脸跟踪,姿态估计,性别识别和表情识别等,这些研究在出入安全检查、视频监视、智能人机接口、基于内容的图像检索和视频编码中都有广泛的应用价值。
1. 5 人脸特征定位简介
1. 5.1 人脸特征定位的概念
在模式识别领域中, 与人脸相关的技术, 如人脸识别、检测、跟踪、特征定位等, 因其难度大、应用面广, 一直是近年来的研究热点。
脸部特征定位作为其中的一个重要部分, 也正受到越来越多的重视。
脸部特征定位, 即在图像或图像序列的给定区域内搜索部分或所有人脸特征(如眼、鼻、嘴、耳等) 的位置、关键点或轮廓线。
这3 种信息都有十分广泛的应用, 例如, 脸部特征的位置信息既可以在人脸检测中用于定位人脸、验证人脸检测的结果以及精确指明人脸位置, 也可在人脸识别中用于人脸对齐, 或作为识别的依据之一, 在姿态识别中, 它更是识别的重要依据之一; 关键点信息可用于头部(Talking Head) 图像的压缩和重构、脸部动画等领域, 轮廓线信息则可用于图像的分割等。
1. 5.2 人脸特征定位的基本方法
评价一个算法的首要标准是其定位准确率, 即被正确定位的特征数与待定位的特征总数之比; 其次, 算法应该有较强的鲁棒性, 能够最大限度地适应人脸的各种变化, 以提高算法的鲁棒性, 这些变化包括: 各种肤色和种族的差异, 各个方向上的转动, 尺寸、表情和光照条件上的变化, 遮挡, 某些特征如胡须、眉毛、眼镜等的出现或缺失等; 此外, 算法的计算量大小也是一个重要的评价标准, 它影响到算法的可应用范围。
人脸特征定位是近年来图像处理领域的热点问题之一,很多学者已经提出各种各样的定位算法,主要有常用的三类方法[5]:第一类方法是基于整体人脸的灰度模板匹配的方法,这种方法运算量太大,且受亮度变化影响太大。
第二类方法是人工神经网络方法,通过大量样本的训练,最后对图像各区域进行判决。
该方法在理论上十分可行,但是训练样本的选择和网络收敛均非易事。
第三类方法是肤色检测的方法,这种方法利用了数字图像的彩色信息,大大提高了检测的速度,基本能做到实时检测并且不受人脸旋转或人侧转的影响,但由于肤色空间和其他颜色空间的交叉性,已有的方法只能限制在简单的背景,在复杂的背景图像中误检率非常高。
而近年来, 也有些国内外学者们根据定位所依据的基本信息的类型,将现有的脸
部特征定位方法分为基于先验规则、基于几何形状信息、基于色彩信息、基于外观信息和基于关联信息等5 大类 [4]。
1) 基于先验规则先验规则是关于脸部特征一般特点的经验描述。
人脸图像有一些明显的基本特征, 如脸部区域通常包括双眼、鼻和嘴等脸部特征, 其亮度一般低于周边区域; 双眼大致对称, 鼻、嘴分布在对称轴上等。
为了利用这些基本特征进行脸部特征定位, 一般要先对输入图像作变换, 使所要使用的特征得到强化, 而后
根据规则从图中筛选出候选点或区域。
此类方法的难点在于, 如何将人们的直观印象精确地表述为可应用的代码化规则, 以及如何处理规则的精确性与普适性之间的
矛盾。
2) 基于几何形状信息几何形状信息, 即目标对象的几何形状特征, 具有很好的直观性, 易于理解和应用, 因而很早就在模式识别领域得到广泛的使用。
基于几何形状信息类方法的一般思路是:根据脸部特征的形状特点构造一个带可变参数的几何模型, 并设定一个相应的评价函数以量度被检测区域与模型的匹配度, 搜索时,不断调整参数使能量函数最小化, 使模型逐渐收敛于待定位的脸部特征。
3) 基于色彩信息色彩信息类方法的基本思想是用统计方法对目标对象的色彩建模, 在搜索中根据被测点的色彩与模型的匹配度, 筛选出待测特征的可能位置。
色彩信息在人脸检测中有广泛的应用, 而在脸部特征定位方面的应用则相对较少,
这是因为, 肤色在色彩空间中具有聚合性, 而脸部特征的色彩信息较为复杂, 如眼
与嘴, 以及眼睛的瞳孔与眼白的色彩有显著区别,这给统一建模造成了一定的难度。
4) 基于外观信息与几何信息类方法和色彩信息类方法不同的是, 外观信息类方法不再面向像素级判断, 而是将一定区域(窗口) 内的图像整体视作一个随机变量, 并映射为高维空间中的一个点。
这样,同一类型的脸部特征就可以描述为高维空间中的一个点集, 可以用统计方法对其分布规律建模, 在搜索中, 通过计算待测区域与
模型的匹配度即可判定其是否包含目标脸部特征。
这类方法对图像质量、环境条件和目标对象状态等方面的变化有较好的适应能力, 近年来引起研究者们的广泛关注。
5) 基于关联信息上述方法大多从局部着眼, 试图依据像素本身(色彩信息类方法) 或邻近像素之间的相互关系(几何、外观类方法) 来做出判断, 但局部信息的区分度有限, 在不受限制的条件下往往存在着大量的相似点, 这就增大了后期处理的难度。
为了解决这个问题, 研究者们引入了关联信息, 试图利用脸部特征之间存在着的较稳定的相对位置关系来缩小候选点范围。
与前面提到的先验知识不同的是, 这些方法所使用的关联信息都是通过统计学习得到的。
表1.1 从运算量、准确率与鲁棒性(包括图象质量需求和姿态表情光照等影响) 3 个方面对各类方法的性能作了粗略的比较。
表1.1 脸部特征定位方法分类
而上述无论哪种人脸定位算法都具有运算量太大或者误检率太高的确定,这点并不符合图像领域应用的实际应用情况。
由于在实际应用中,各帧图像之间具有很强的时域连续性,完全可以在准确定位人脸后利用跟踪算法在后续序列中找到人脸,因此该应用对漏检率的要求并不严格,但对误检率却要求比较高。
根据上述情况,清华大学研究生阮鹏等人提出了一种将肤色检测和特征部位几何分布模板匹配相结合的方法,该方法在检测速度上大大高于上述提到的神经网络和模板匹配方法,误检率远低于肤色检测的方法,为在监控系统中应用提供了可能。
整个系统总体由3个部分组成,第一部分首先利用肤色检测的方法在图像中圈定一个大致的人脸的可能区域,这一模块大大缩小了后续部分的搜索范围,降低了系统的运算量。
第二部分在肤色检测圈定的区域中找出可能的特征部位点(主要包括双眼,双眉,鼻基线和嘴),这一模块将全区域的模板搜索转变成了若干个点中的搜索匹配,进一步降低了运算量。
第三部分在第二步的结果中利用人脸特征部位几何分布知识搜索人脸特征部位,准确定位人脸。
图1.1 系统总体结构
图1.2 部分人脸定位结果
该方法的处理速度,正确率等参数指标以及和其他方法的比较如表2所示:
表1.2 实验结果比较
由此可见,在结合了图像应用领域应用的实际情况,保证了尽量低的误检率的前提下,此方法实现了很快的人脸定位速度,非常适用在实际中使用,也可以进一步降低漏检率。
第二章设计方案
2. 1 引言
在社会的发展中,各个方面对快速有效的自动身份验证的要求日益迫切。
利用人脸特征进行身份验证是最自然直接的手段。
人脸识别系统与其他人体生物特征识别系统相比,更加直接、友好,使用者无任何心理障碍。
并且通过人脸的表情/姿态分析,还能获得其他识别系统难以获得的一些信息,具有十分广泛的应用前景。
门禁系统的身份证识别、视频监控中的目标识别、可视电话、电视会议等,都与人脸的识别密不可分。
经研究后发现,眼睛的灰度值在人脸所有的五官中是最高的,且具有一定的面积。
而且两眼间距受光照或表情变化的影响最小,所以常被用于几何特征或图像尺寸的归一化标准。
常用的人眼定位方法中,大多都是基于人脸检测,例如模板匹配和hough 变换,利用阈值自动将人眼与人脸其它部分和背景分离,但是这些算法对人脸图像的要求比较高[9]。
我们针对人脸各器官的几何结构特征,结合眼睛灰度信息提出了一种新的眼睛定位算法:通过对灰度图像进行垂直和水平灰度投影后,能够对人脸初步定位,然后用一个相当于瞳孔大小的方形框去搜索整张脸,当落在这个框内的黑色像素的个数达到最大时,这个框的位置就是眼睛的位置。
通过实验,这种算法定位准确且定位时间短。
本次毕业设计的研究方向是在传统的图像识别的基础上加以改进,来更为深入地对人脸图像学进行探索与研究。
而研究内容则是在复杂背景中快速地对人脸进行识别并进行人脸的特征中的眼睛定位。
2. 2 快速的人脸特征定位的应用
快速的人脸特征定位近年来一直是计算机学科研究的热门课题之一,为实现人脸识别重要的前提条件。
影响准确识别的因素较多,如成像的角度、图像的清晰度、图像曝光不足或不均等,所以准确地识别首先取决于准确的定位。
而眼睛是人脸的关键性特征部位,不仅具有一定的面积,且灰度值相对集中,因此大多数方法都采用首先进行眼睛定位,然后再实现脸部的识别。
但是眼球在眼眶中的位置是多样性的,所获取的图像中眼眶部分又极易受到各种因素的影响,同时,眼睑灰影对眼球的定位也有很
强的干扰性,这些问题无疑都增加了眼睛定位的难度,也在应用与实践上提出了挑战。
2. 2.1 人脸图像的相关要求
为能够准确定位人眼和提高人脸识别效率,有必要对人脸图像的拍摄加以合理约束和限制,拍摄的照片中只含一张正面人脸[19]。
拍摄时:光照可以是自然光,也可以是室内日光灯或白炽灯灯光;背景可以较复杂以便适于在各种较复杂场所的拍摄;人脸在照片中应完整,并且所占面积适中,不过大也不过小。
(如在160×120像素的图像中人脸所占面积约在20%-40%之间);允许人脸在15o以内的姿态变化(指人脸在图像平面内向两侧的倾斜角度和人脸在图像深度方向上的旋转角度);眼睛最好凝视摄像镜头,脸部光照较均匀,在图像中双眼部位应较清晰,且不与其它暗部(如鬓发、眉毛)相连;可以戴非黑边框的眼镜,镜片透明,应尽量避免镜片的反光,否则会严重影响眼睛部位的清晰度。
满足以上条件拍摄的人脸图像称为准正面人脸图像。
我们所使用的图像摄入设备是通过USB接口与计算机连接的CMOS摄像头(又称为电子网眼)。
摄入的每幅图像大小设置为160×120 像素,摄入图像可以是每像素24bit 的RGB真彩色图像,也可以是每像素8bit(256灰度级)的灰度图像,人脸在图像中双眼中心距应保持在20-50像素之间。
2. 3 人眼位置的判定前提
人眼位置的判定是根据眼睛在二值化人脸图像中的几何位置确定的,主要有以下准则[19]:
1)双眼中心距应在某个范围内。
假设图像尺寸为160×120,考虑到人脸在图像中大小的变化,双眼中心距变化大约在20-50个像素距离范围内。
2)双眼的下方一定距离内不能有其它黑块。
双眼的下方一定距离内没有其它器官。
因此,在二值化图像中不能有其它黑块,这一特点也是区分眉毛与眼睛的重要判据。
3)双眼的中心位置上下相差不超过一定距离。
由于人脸在图像中可能向两侧倾斜,双眼的中心位置常常不在水平线上。
作为判据,允许人脸在一定程度上向两侧。