多视角下结合形状和运动信息的三维人体姿态估计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第33卷第11期电子与信息学报Vol.33No.11 2011年11月 Journal of Electronics & Information Technology Nov. 2011
多视角下结合形状和运动信息的三维人体姿态估计
沈建锋*杨文明廖庆敏
(清华大学电子工程系北京 100084)
摘 要:该文以多视角同步视频为输入,提出综合利用形状和运动信息的3维人体姿态估计方法。该方法将人体分为头、躯干和四肢等3部分,每部分利用运动信息来预测当前的状态,并以形状信息作为检测器来确定姿态。这种在姿态估计中使用互补信息的方式极大地解决了漂移和收敛到局部极小的问题,也使系统能自动初始化和失败后重初始化。同时,多视角数据的使用也解决了自遮挡问题和运动歧义性。在包含多种运动类型的序列上的测试结果说明了该方法的有效性,对比实验结果也优于Condensation算法和退火粒子滤波。
关键词:人体姿态估计;体素数据;形状特征;运动信息
中图分类号:TP391.4 文献标识码:A 文章编号:1009-5896(2011)11-2658-07 DOI: 10.3724/SP.J.1146.2011.00208
Multiview 3D Human Pose Estimation
with Shape and Motion Information
Shen Jian-feng Yang Wen-ming Liao Qing-min
(Department of Electronic Engineering, Tsinghua University, Beijing 100084, China)
Abstract: This paper presents a method for 3D human pose estimation using shape and motion information from multiple synchronized video streams. It separates the whole human body into head, torso and limbs. The state of each part in current frame is predicted by motion information, and the shape information is used as detector for the pose. The use of complementary cues in the system alleviates the twin problem of drift and convergence to local minima, and it also makes the system automatically initialize and recover from failures. Meantime, the use of multiple data also allows us to deal with the problems due to self-occlusion and kinematic singularity. The experimental results on sequences with different kinds of motion illustrate the effectiveness of the approach, and the performance is better than the Condensation algorithm and annealing particle filter.
Key words: Human pose estimation; Voxel data; Shape feature; Motion information
1 引言
基于视频的人体姿态估计在许多领域具有相当广泛的应用前景:首先,人体姿态估计可用于监控,此类应用是用抽取的姿态去自动监控和理解人的行为;另一类应用是控制,它是指用获取的运动提供控制功能。这可被用于游戏接口、虚拟现实或动画制作等;此外,人体姿态估计还可用于运动分析,例如诊断骨科病人或进行体育分析,提高运动员训练水平等。
正是由于广泛的应用需求的驱动,很多研究者都进行了或正在进行着基于视频的人体姿态估计研究。然而,即使是从最新的研究结果来看,从视频中直接自动获取人体运动数据仍面临着诸多的难
2011-03-10收到,2011-07-08改回
国家自然科学基金青年基金(61007004)和深圳市建设国家级信息科学与技术重点实验室基金(010301)资助课题
*通信作者:沈建锋 shenjf07@ 题,其中的主要困难来自于人体自身及其运动的高度复杂性和摄像机成像过程固有的信息丢失。此外,视频中人体可能频繁地被遮挡和自遮挡,用于获取视频的摄像机其时间和空间上的分辨率都是有限的等客观存在的因素也使得从视频序列中跟踪和获取人体运动至今仍是一个艰难的技术挑战。目前的研究成果还很难满足实际应用所提出的实时性、鲁棒性和准确性的要求,因此人体姿态估计研究正得到越来越多研究者的关注。根据不同的应用需求,部分研究者使用单视角数据[14]−,但其结果往往比较模糊,特别是在基于目标剪影的方法中,由于多个姿态对应同一个剪影而使系统陷入局部极小。为解决这个问题,其余的研究者采用了多视角数据[512]
−。这方面的最新研究进展可见文献[13,14]的综述。
多视角下的人体姿态估计可被分为基于形状和基于运动两类[8]。基于形状的方法使用2D形状线索如剪影[57]−或3D形状如体素[810]
−。由于实际的人体
第11期沈建锋等:多视角下结合形状和运动信息的三维人体姿态估计 2659
姿态是在3D 空间中,同2D特征相比,体素数据能够避免将模型重复投影到2D平面,而且使用体素数据也克服了图像尺度的缩放问题。基于形状一类方法的主要特点是依靠从当前帧提取的形状线索来估计姿态,很少使用时域信息。它们将人体模型作为启发式知识指导对体素数据进行的分析和标记,以获得姿态参数。这类方法由于不注重时域信息的使用,不存在像基于运动的一类方法中会因误差累积而不能跟踪长序列的不足,同时也无需已知第1帧姿态。相对于基于运动一类方法,此类算法比较适合多摄像机的演播室场所(受环境影响较小,便于特征提取),能够估计比较复杂的人体运动,甚至是无约束运动(快速且难以预测的运动)。然而,由于不可能在每一帧中都能提取到可靠的形状线索,此类方法会因过度依赖绝对线索而失败。同时,这类方法在最小化目标函数(测量估计姿态的误差)过程中易于陷入局部极小,特别是在基于体素数据的方法中由于前景分割或体素重构错误而导致身体部件丢失或邻近部件错误合并的情况。基于运动的方法使用运动模型预测当前帧姿态,并用时域一致性假设跟踪人体运动[11,12]。相对于基于形状的一类方法,此类方法可以得到更加稳定的结果,但不可避免地受到漂移问题的影响。同时,目前这类方法仅限于一些简单的、有规律的、有周期的动作,而对于复杂运动或无约束运动,由于难以建立相应的运动模型而无法准确预测下一帧姿态。
从以上的分析可以看出,形状和运动信息是互补性的,如果能结合两者就可以弥补各自不足,消除单个使用方法中的失败,提高算法鲁棒性和精度。因此,本文提出了一个综合利用形状和运动信息的人体姿态估计系统。该系统利用形状和时域信息对部分身体部件进行检测,在此基础上获得的信息与时域约束相结合以完成对剩余部件的跟踪。
2 姿态估计
本文的系统主要包括3D体素重构、头和躯干检测以及四肢跟踪等3部分,见图1。首先进行3D 体素重构,得到表示人体形状的体素数据;其次,根据前一帧姿态确定当前帧中头部和躯干的位置范围,并结合部件形状尺寸等先验知识用模板拟合进行精确定位;最后,预测四肢姿态并进行自适应优化来跟踪四肢运动,其优化范围通过评估帧间四肢的运动变化程度来确定。
2.1 体素重构
3D体素重构以多视角同步视频为输入,计算用体素表达的目标形状。为重构体素,输入图像先通
图1 算法流程
过前景分割算法[15]来获得目标剪影。然后,对于感兴趣空间中的每个体素,判断其是否属于目标体素:将其投影到输入图像平面上,如果每个图像上的投影点都属于目标剪影,则这个体素被分配为目标体素,否则为非目标体素[9]。
2.2 人体模型
本文使用的骨架模型是由分层的骨架和关节组成的树型结构,其根关节位于骨盆,见图2。每个关节具有不同个数的自由度,表示这个关节可绕多少个方向旋转,于是所有的自由度就组成了这个人体的姿态表达。模型的全局运动由描述骨盆关节位置的3个平移矢量和表示全局朝向的3个旋转参数组成。为消除歧义性,必须除去3个自由度的关节[16],于是一个自由度从最复杂的关节(肩和臀)转移到了简单关节(肘和膝)。这唯一的不足是修改了模型的语义表达,导致图2中的关节自由度表达不再符合人体生理形态。
在关节的参数化方面,本文选用了指数映射[17]。指数映射是一种非冗余的表达形式,如它在参数表达中集成了大多数的人体运动的物理约束,另外它也简化了模型参数和关节位置间的转换计算。在实际的关节参数化时,运动学约束以角度范围约束的形式插入到参数化模型中,见表1,其中θ−表示角
图2 人体骨架模型