基于SIFT特征的视频内头部姿态估计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第33卷 第1期

2011年1月武 汉 理 工 大 学 学 报JOURNAL OF WUHAN UNIVERSIT Y OF TECHN OLOG Y Vol.33 No.1 J an.2011DOI :10.3963/j.issn.167124431.2011.01.033

基于SIFT 特征的视频内头部姿态估计

孙玉芬,刘 钢

(武汉理工大学计算机科学与技术学院,武汉430063)

摘 要: 基于对头部左右转动时脸部图像上点之间距离变化特性的分析,提出基于SIFT 特征的单摄像头近距离视频图像序列内头部姿态估计算法。该方法首先在脸部图像上提取SIF T 特征点,然后对两幅图像进行SIF T 特征匹配,基于匹配的特征点之间距离的变化性质判断两幅图像内头部的相对转向与转动程度,得到头部姿态估计结果。在人脸库和视频图像上的实验表明,该方法使用简单,且具有较高的正确度。

关键词: 头部姿态估计; SIFT 特征; 透视投影

中图分类号: TP 391文献标识码: A 文章编号:167124431(2011)0120146205

SIFT Features B ased H ead Pose Estimation from Monocular

Video Sequences

S U N Yu 2f en ,L I U Gang

(School of Computer Science &Technology ,Wuhan University of Technology ,Wuhan 430063,China )

Abstract : The change of the distances between points on face images is distinctive when the face yaws.A head pose estimation algorithm using SIF T features is proposed based on this distinctive change pattern.The algorithm first com 2putes SIFT features in face images.Then the features in two images are matched.The head pose in one image is estimated based on the change pattern of the distances between these feature points and the head pose in the other image.The ex 2periments on face database and monocular video sequences show that the algorithm is easy to use and it has a high accura 2cy.

K ey w ords : 

head pose estimation ; SIFT feature ; perspective projection 收稿日期:2010210209.

基金项目:国家自然科学基金(60974094),水路公路交通安全与装备教育部工程研究中心开放基金(W HU TERCTS2010A04)和中央高校基本科研业务费专项资金(20102Ⅳ2085).

作者简介:孙玉芬(19772),女,博士,讲师.E 2mail :yufen @

头部姿态估计指从二维人脸图像中自动估计头部在三维空间中的姿态,可用于安全辅助驾驶、人机交互、增强现实等多个应用领域。现有头部姿态估计方法通常可分为基于模型(model 2based )的方法和基于表观(appearance based )的方法[1]。其中,基于模型的方法使用若干脸部特征点为人脸构建三维模型或其他几何模型,基于头部转动时模型的几何变化判断头部姿态[123]。其优点在于实现简单,计算高效、准确,方法易于理解。但是,在使用时可能由于噪音、遮挡、光照、尺度、表情等对图像的影响而不能稳定抽取所需的脸部特征点。基于表观的方法通过学习直接在图像与头部姿态之间建立映射关系[425]。相关研究主要集中在子空间方法[627]和基于图像特征的学习方法[829]。此类方法具有较高的鲁棒性和估计精确度,但是由于需要大量合适的训练数据,并且需要对训练数据进行精确的图像配准,在实际使用时工作量较大。考虑结合两类方

法的优点,基于图像特征在头部姿态变化时的几何属性变化估计头部姿态。与具有一定高层含义的脸部特征点不同,图像特征点完全基于图像的像素值信息生成,因此更容易由计算机自动抽取。SIF T (Scale Invar 2iant Feat ure Transform )特征[10]是优秀的图像局部特征,能从存在旋转变化和部分遮挡的图像中稳定提取。现有的将SIF T 特征用于头部姿态估计的方法需要使用立体相机获取特征点的三维坐标信息[11]。提出直接使用多个二维SIF T 特征点在头部姿态变化时的距离变化模式估计头部姿态。此方法适用于安全辅助驾驶、人机交互等多个应用场合获取的近距离视频图像序列,具有较高的可用性,其优点在于:1)能稳定抽取可用的特征点;2)不需要训练,能直接使用;3)不受人脸的不同长相影响;4)只需要大致的头部区域,不需要图像配准;5)具有较高的鲁棒性。

1 基于SIFT 特征的头部姿态估计方法

如图1所示,设正面人脸与图像平面平行,空间坐标系的原点O 在投影中心(center of projection ),Z 轴为光轴,X 轴为水平轴,Y 轴为垂直轴,X 轴与Y 轴构成的平面与图像平面平行。可引起人脸上某点在图像中的坐标产生变化的基本运动有:1)人脸在平行于图像平面的平面内左右平移(即平行于X 轴的移动)、上下平移(即平行于Y 轴的移动)、旋转(即绕Z 轴的平行线旋转);2)人脸与摄像头间的距离发生改变(即沿Z 轴移动);3)人脸产生俯仰(即绕X 轴的平行线旋转);4)人脸左右转头(即绕Y 轴的平行线旋转)。这些运动引起的人脸上点的坐标变化的特点定性分析如下:

1)人脸在平行于图像平面的平面内平移或旋转时,人脸上位于此平面内的任意两点之间的距离不变,但是深度不同的两点之间的距离会发生缓慢改变。人脸上两点位移相同时,深度大的点在图像平面上的像点的坐标改变比深度小的点小。

2)人脸沿垂直于图像平面方向移动时,位于与图像平面平行的同一平面内任意两点之间的距离与另外两点之间的距离之比不变,但深度不同的两点之间的距离的改变与两点与图像平面的距离以及两点与光轴所成的角度相关,变化复杂。

3)人脸俯仰时,点间的垂直距离减小。

4)人脸左右转头时,左右两边脸上的点的深度发生相反的改变。对于深度不同的两点,旋转可能会减小透视缩短效应,增加两点之间的距离,也可能会加重透视缩短效应,缩小两点之间的距离。

由以上分析可见,人脸沿X 、Y 、Z 3个坐标轴的平移与绕X 、Y 、Z 3个坐标轴平行线的旋转对图像中两点间距离的影响非常复杂,但是也有部分规律可循。考虑头部左右转动,即人脸绕Y 轴平行线旋转的情况。前面假设正面人脸与图像平面平行,由人脸立体形状可知,此时人脸左侧脸与右侧脸近似与图像平面垂直。人脸侧脸上任意一点与同一水平面上人脸正脸上任意一点的连线与图像平面夹角较大,透视缩短效应严重。当人脸向右转动时,左侧脸与图像平面之间的夹角减小,透视缩短效应减小,点间距离增加;右侧脸与正脸右半部分在被完全遮挡之前与图像平面之间的夹角增大,透视缩短效应增加,点间距离减小。当人脸向左转动时,情况则完全相反。在其他类型的运动中,只有当人脸沿X 轴平移时,深度不同的点之间的距离会发生类似的改变。但是在近距离摄像条件下,人脸的移动范围有限,平移导致的两点间距离改变的程度远小于由透视缩短效应导致的距离改变。实验也证实了这一点。算法YawDetec (Yaw Detection )基于这个特点检测两幅人脸图像间的相对转头。算法中人脸图像使用的坐标系如图2所示。

算法YawDetec :

输入:参数ε,近距离人脸图像i m old 与i m new

输出:相对转头Yaw ∈{左转,右转,无转动}

1)计算i m old 中的SIF T 特征点集合f 1;

2)计算i m new 中的SIF T 特征点集合f 2;

3)匹配f 1与f 2中的SIF T 特征点,得到特征点集合

m f 1,m f 1

4)检查m f 1中特征点的X 轴坐标与Y 轴坐标在m f 2中是否保序,删除匹配错误的点;

5)找出m f 1中特征点在X 轴上的最小值x min1,最大值x max1,和与直线x =(x min1+x max1)/2最靠近的特征点的x 轴坐标值x mean1,以及m f 2中与这些特征点匹配的点的X 轴坐标值X min2、x max2与x mean2。若“(x mean2

741第33卷 第1期 孙玉芬,刘:钢基于SIFT 特征的视频内头部姿态估计

相关文档
最新文档