视频监控中人脸识别现状与关键技术课题_尹萍

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、引言

随着我国平安城市建设的发展，利用视频监控快速准确的获取个体信息成为当务之急。到目前为止，我国已初步建成视频监控网。据统计，视频监控镜头已经超过2000万个。利用视频监控进行人脸识别，越来越受到有关部门的重视。与传统的基于静态图像的人脸识别相比，视频监控中的人脸识别面临更复杂的环境，具有较大的难度。

人脸识别属于生物特征识别研究领域，对于鉴别人物具有重要作用。随着视频监控系统逐年增加和逐步普及，基于视频监控的人脸识别需求变得越来越迫切，因此，近年来视频监控中的人脸识别逐渐成为研究的热点。与基于静态图像的人脸认证不同，在视频监控中，人脸不会主动朝向摄像头，同时，环境光照也不十分理想。因此，导致目前视频监控人脸识别性能还无法达到应用要求。基于视

频监控的人脸识别在各行各业都显得十分重要，如黑名单查询、有效的门禁系统、智能交通中的驾驶员信息获取、城市安保安防等领域，视频监控中的人脸识别已经成为亟需解决的重点课题。图1 为视频监控中人脸识别的应用场景模式。图2为北京2008年奥运会人脸识别门禁系统应用场景。

由于视频监控中人脸分辨率较低、经常快速移动、尺度变化范围大、光照和姿态等变化不定等因素的影响，视频监控人脸识别面临更多的困难和更大的挑战。由美国NIST 举办的生物特征识别领域颇具权威的FRVT 测试(Face Recognition Vendor Test 2002) 分别进行了人脸识别技术在静态图像和视频中的识别性能测试。测试样本包含63 个人物在不同表情下的说话视频。结果表明商业识别系统在视频人脸识别测试中的性能相比静态图像人脸识别大大下降。另一个公开的大规模视频人脸识别测试MBGC (Multiple Biometric Grand Challenge) 主要测试视频中人脸在光照、姿态等变化及运动等非受控情况下的识别性能，测试视频包含高清和标清两种。测试结果表明，最好的商业算法在高清和标清上的认证性能分别只有70%和40%。

近年来，研究者针对如何有效利用视频的多帧信息进行了新的尝试，基于视频的时域连续信息的识别技术得到[3]了迅速发展。Zhou 等提出了一种在贝叶斯框架下同时人脸识别和跟踪的方法。通过序贯重要性采样（Sequential Importance Sampling，SIS）将人脸的身份变量加入到跟踪的状态向量中，并不断更新运动和身份变量的联合后验概率

二、视频监控中的人脸识别现状

尹萍赵亚丽1. 公安部第一研究所 2. 清华大学

视频监控中

人脸识别现状与关键技术课题*

*基金项目：国家863高技术研究发展计划项目（编号：2012AA011004）；国家科技支撑计划项目（编号：2013BAK02B04）。

摘要：针对视频监控中的人脸识别问题，介绍了视频监控中的人脸识别研究和应用现状，并结合人脸识别中的人脸图像采

集、人脸检测、姿态估计和光照处理、特征提取、人脸识别等五个主要部分分析了视频图像人脸识别系统的构成。通过分析当前视频监控人脸识别需要解决的技术课题，重点论述了视频图像人脸识别中的姿态、分辨率、光照以及年龄等几个影响人脸识别性能的关键技术课题，明确了今后视频监控中的人脸识别所需要关注的重点内容。关键词：

人脸识别姿态估计光照处理特征提取视频监控

分布，最后提取出身份变量从而实现人脸识别。Zhou 等

[4]

进一步改进了方法对姿态变化的鲁棒性，采用基于粒子

[1-滤波的自适应运动模型来对视频人脸的表观更新。Lee 等2]

从视频序列中学习相邻帧的姿态转移概率矩阵，并结合姿

态子空间和其转移概率来最大化后验概率，有效地挖掘了人脸姿态的运动时序信息。其他使用的运动模型还包括隐马尔科夫模型（Hidden Markov Model,HMM）和ARMA 模型（Auto-Regressive and Moving Average）。在利用时序信息方面，HMM 模型的性能一般要优于多数投票的方法，但是要受限于视频长短。建立ARMA 模型的机制相似，使用的相似性度量可以是子空间的夹角。总的来说，基于运动时序信息的方法比基于时空信息的方法有更强的适应性，但是计算复杂度也往往更高，而且一般需要对齐的人脸而限制了实际应用。

视频监控中的人脸识别系统如图3所示。系统主要由

5个主要部分组成，另有3个辅助部分。5个主要组成部分

是：人脸图像采集、人脸检测、归一化及光照处理、特征提取、人脸识别；3个辅助部分由光照模型、三维模型、人脸模板所构成。

人脸图像采集部分包含传感器（摄像头）。通常，采用基于可见光传感器的网络摄像头。对从摄像头传输来的图像数据进行记录并形成视频流；人脸检测部分主要完成对视频中的图像进行人脸检测，要求在光照、姿态、表情、尺度变化较大的条件下仍然能有高准确率、低虚警率；归一化及光照处理部分对检测到的人脸进行姿态估计，获取连续人脸图像中较为正面的人脸图像予以保留，并进行归一化和光照处理，同时将姿态信息送给三维模型。三维模型完成人脸虚图像的生成；特征提取部分对人脸图像的特征进行提取，并按降维规则对人脸图像的高维特征进行降维，获取最有鉴别力的特征；人脸识别部分对来自视频的人脸图像特征和人脸模板图像（含人脸虚图像）的特征进行比对。当分类器确认为某个人的身份鉴别特征（ID）时，输出该人物的身份ID。

作为辅助部分的光照模型部分，提供光照处理的处理算法；三维模型部分根据姿态估计的结果，将三维模型进行相应姿态的投影，生成二维人脸虚图像；人脸模板部分对生成的人脸虚图像进行特征提取，形成比对模板。

当前，较好的人脸检测算法主要采用基于AdaBoost的人脸检测算法。该算法实时性好，并且在相对环境较好的

三、视频监控人脸识别系统基本构成

条件下，人脸检测性能能够达到实用需要，是人脸检测系统采用较多的一种有效算法。姿态估计方法有基于图像统计学习的方法，也有基于人脸关键点检测的方法。特征提取方法目前传统的有Gabor滤波器方法、HOG方法、LBP方法。人脸识别传统的有基于主成分分析方法（PCA），线性鉴别分析法（LDA）等方法。近两年，基于深度学习和深度神经网络的方法成为人脸识别的热点，并且在最新的报告中，在LFW库上获得了正确率超过99%的优异性能。

不同于证件照等静态图像人脸识别的应用环境，视频监控中的人脸识别由于其多样复杂的环境，导致其技术难度加大。其中存在诸多亟需攻克的技术课题。针对上述存在的视频监控中人脸识别所面临的挑战，我们需要在系统设计、硬件选择、算法软件三个方面加大研究和开发的力度。系统设计主要解决监控摄像头安装位置；硬件选择主要解决提高分辨率和光照平衡；算法软件主要解决姿态、光照、表情、清晰度和年龄问题。下面对视频监控人脸识别需要解决的这些重点技术课题具体叙述。

用于人脸识别的摄像机位置应该使人脸在图像中基本保持正面姿态，可识别时的两眼间距离一般大于64个像素。因此，视频监控人脸识别用的摄像头应该设在行人通道的附近，并且不是太高的位置上。目前，全国安防标委会人体生物特征分技术委员会（TC100/SC2）正在制定行业标准“安防视频监控人脸图像提取技术要求”。技术要求中对视频监控人脸识别图像提取的人脸检测、人脸跟踪、人脸选取、以及性能测试都制定了相应的标准。图4是视频监控中人脸图像提取单元基本构成框图。

四、视频监控人脸识别中的关键技术课题

（一）系统设计