基于单目视频序列的真实人体姿态三维重建

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于单目视频序列的真实人体姿态三维重建

摘要本文提出了一种基于视频的三维人体姿态重建技术，制定了基于视频的关键帧的重建框架。本文还利用牛顿物理学，关节点的生物运动约束等同时对人体姿态进行三维重建。并验证了该算法的可行性和精度。

关键词视频序列；交互式姿态跟踪；计算机视觉

0 引言

本文提出了基于单目非标定视频的人体动作捕捉及三维重建方法，同时利用计算机视觉和基于真实物理运动学原理。本文基于图像的关键帧技术对视频进行处理：首先对关键帧进行交互式三维重建，然后进行基于图像的姿态插值，同时利用牛顿力学原理和生物约束集对重建结果进行修改和优化。

1 算法概述

首先基于用户交互式方法估计三维特征点集合和人体骨骼大小，同时用牛顿力学原理和生物约束集对重建的姿态进行评估和优化。

1.1 基于关键帧的交互式三维建模

此环节利用一种高效的算法来估计关键帧中的三维姿态，同时估计相机参数和人体骨架大小。

1.2 基于图像的三维关键帧插值

本文提出一种高效的算法自动跟踪二维图像中的特征点集，并利用图像测量技术对关键帧进行插值操作，同时可以修改并优化重建后的模型。

2基于关键帧的交互式三维建模

本文将人体分为17个刚体部分，主要包括头、颈、躯干、左右锁骨、肱骨、桡骨、胯骨、股骨、胫骨和跖骨。用关节坐标集q描述人体全部姿态，q ∈R37 。向量l表示17段刚体部分的长度集合，l = [l1 , ..., l17]T ，lb, b = 1, ..., 17 表示第b段关节的长度。

利用以上参数可以估计k幅关键帧的三维姿态(q1 , ..., qK )以及人体骨架大小（l）。

2.1摄像头参数估计

对于移动摄像头拍摄的视频利用MatchMover [2008]估计摄像头的内参数和

外参数=（tx,ty,tz,θx,θy,θz, f），（tx,ty,tz）, （θx, θy, θz）和f分别表示相机坐标、方向和相机焦距。对于固定摄像头拍摄的视频用3.2中提出的算法自动估计以上参数值。

2.2交互式三维关键帧建模

本文定义了能量方程和成本方程来估计和消除二义性问题。具体来说，通过计算以下能量方程的最小值来估计人体骨架大小l和三维姿态q1,...,qk

（1）

Ep代表骨骼投影约束，Es表示对称约束，保证重建后的三维骨架的对称部分是等长的。Er为对称约束，Ec则保证在某些视频中保证部分特征点的相对坐标保持不变，Ed可消除重建过程中出现的二义性。

本文用表示每段关节的内关节点和外关节点的深度信息，同时对方程式（1）进行初始化和优化操作。对于前者采用解析式的雅可比公式，对于后者则用Levmar library [Lourakis 2009]中的Levenberg-Marquardt 算法进行优化。

3 基于图像的三维关键帧插值技术

3.1 基于多关节的二维关键帧插值

下肢(包括股骨、胫骨和跖骨)的姿态可用表示，表示在2维图像中对应的关节点坐标，待估参数为，。

第t帧某区域内特征向量（2）

h（et）和hm（et）分别表示在特征空间内的当前目标模型和第个密度空间。

假设任意中间帧的模板模型可参数化：

Hm（βt）= βt hm（e1）+（1-βt）hm（eT）, m=1, ..., M（3）

将Hm (βt )和h（et）进行匹配估计骨骼姿态参数值，用巴特查利亚距离度量匹配距离：

用洛仑兹函数作为衡量的成本方程,通过计算以下目标函数的最小值来获得最优解：

（4）

3.2 三维姿态插值

分别表示关节点姿态、关节点运动速度和其加速度。分别为关节点的惯性矩阵、离心力、中立。向量u,fc分别为关节点力矩和触点压力。雅可比公式在触点处将关节速度转化为世界坐标内的速度。规定摩擦极限约束函数fg为fg （w1,...,wm），为环境摩擦极限函数，则通过求解以下目标函数可得出关节姿态向量q，关节力矩u，以及触点压力fg(w)和fe：

（5）

4 试验结果

我们通过对各种人体姿态进行建模来评估本系统的精度值和鲁棒性，包括行走、高低杠运动、跳跃、举重等行为。下面是实验数据：

序列帧数相机类型关键帧数每帧跟踪

多关节点数Refinement A Refinement B

高低杠 150 pan-tilt-zoom 10 10 0 7

体操585 static 9 10 2 0

举重310 pan-tilt-zoom 13 11 3 4

从以上表格中我们可以看出，本系统可以用最少的用户交互来获得最佳的人体姿态三维重建结果。

5 结论

本文对通过论证对人体姿态的三维重建技术，提出了一种新的方法，该方法利用单目摄像头拍摄的视频序列，避免了双目视觉视场小、立体匹配困难、空间、光照等局限性，在计算机视觉领域有着重要的实际应用价值。

参考文献

[1]MATCHMOVER, 2008./.

[2]LOURAKIS, M.I.A.2009.levmar: Levenberg marquardt nonlinear least squares[3]algorithms in c/c++.In http://www.ics.forth.gr/lourakis/levmar/.