三维动画综述报告资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Real-Time Human Pose and Shape Estimation for Virtual Try-On Using a Single Commodity Depth Camera
使用单目深度相机进行虚拟试穿的实时人体姿态与形状模拟
1.摘要
我们展示的这个系统可以给用户虚拟试穿衣服,该系统使用深度照相机捕获用户得到3D模型。
该系统基于实时模板的方法从而达到将用户的姿态和形体变化合理的结合。
接下来将得到的结果用来驱动现实衣服仿真,即将合成的衣服覆盖到输入的图像上。
我们面对的主要挑战是解决数据丢失和处理模糊的效果,问题出现的来源主要是单目设置的效果,因为该设置只捕捉到不到人体一半的图像。
我们的解决方案是在姿态跟踪时自动将形体变化和和异常的约束合并。
最后我们用几个实例展示了该系统的效果。
关键词—人体姿态仿真,人体形态建模,虚拟试衣,深度传感器
2.概论
深度摄像机如微软公司的Kinect,在学术与工业领域已经名声大噪。
由于可以捕获三维的动态场景,大量的研究人员和开发者正在准备研究新的应用,涉及的领域从电子产品到娱乐,健康医疗以及机器人学。
我们展示了深度摄像机怎样用来提高虚拟试穿系统的真实性,该系统可以让用户在一个虚拟的系统里面穿上不同的衣服。
由于具有巨大的商业潜力,虚拟试穿的概念之前早已被研究过。
其主要的理念在于跟踪用户的二位或者三维动作,从而将其与覆盖到用户图像合成[52, 43, 14]。
由于人体动作的复杂性以及试衣仿真的计算成本,
不同的系统有不同的优缺点。
一些处理过的虚拟试衣如纹理化,过度简化了用户与衣服的交互。
而一些需要预处理的图片,要么过度粗糙或者难以匹配用户动作与形状的。
理想的虚拟试衣系统应该可以真实以及有效的对虚拟试衣进行仿真,并且可以及时的对用户的姿态形体做出检测。
这点对用户尤为关键,因为可以让他们知道不同的衣服试穿上去是怎样的效果,从而可以提高他们对这种系统的接受程度。
不幸的是,至今还没有系统满足这些条件。
利用深度相机获取的数据用于试衣仿真自然成为解决这一问题的方案。
事实上使用深度贴图来处理衣服与人体碰撞是一个已经研究深透的图形处理器,基于技术[23, 28, 20].但是这种已捕获的深度贴图充满了噪声而且不完整,因为硬件的原因,帧率受限。
一个可行的解决方案是使用多孔摄像机,但是摄像合成又成为了一个挑战,因为没有深度摄像机支持内置摄像合成。
虚拟试穿系统包含两个主要部分:姿态跟踪以及形体匹配和衣物仿真。
在该部分我们简要的回顾最近的话题以及对虚拟试穿应用的研究方法。
人体姿态模拟的研究已经进行了几十年。
大多数传统方法依赖于对视角设置,而最近的研究方法有一些在使用单一深度传感器进行跟踪。
最典型的的方法是由Shotton et al.提出的,其使用收集的大量数据训练随机分类器然后使用一种聚集技术来估计联动的姿态。
这种方法使得速度慢以外,其精度也需要提高。
更重要的是与其他典型方法
一样,该方法不能保持时间的一致性,也不能得到完整的人体形状,而这是对虚拟试穿应用很重要的一点。
Ganapathi et al. [18]使用动态贝叶斯网络来对动态的状态建模(DBN)然而其模型大小是固定的,不能对人体大小变化做出改变。
他们最近的工作部分针对该问题是可以小范围的改变长度,而且他们利用自由空间约束来引导跟踪器。
可是为了达到实们时的效果他们使用了一个过度简化的圆柱体咬合模型,这样就不能真实的捕捉观察到的表面机构而且会导致试衣仿真时产生有形噪点
一些研究者结合了以上两种方法的优点。
Ye et al. [50] and Baak et al. [2]都使用了一种混合方法,但是需要在运行期间使用数据库。
Helten et al. [24] 基于SCAPE模型对个性化的形体模拟进行了拓展。
Wei et al. [48] 将DBN模型和身体检测结合从而提高了精度和鲁棒性。
虽然我们的跟踪公式与[24]类似,但是我们设置了跟踪器的约束条件从而可以更有效的引导跟踪器,而且精度更高。
结果与[24],[48]相比,我们并不需要分辨检测器而且[36, 50, 2, 48, 24] 中的分辨检测器会出现部分观察不匹配的问题,如身体的部分出现在视角之外。
相比之下我们的跟踪器在设置约束条件的条件下能有效的解决这种出现的问题。
虽然差分方法解决了身体大小的变化问题生成性方法需要考虑到模板与主体的身体大小的变化。
一些方法提出一种合适的模板其大小和身体尺寸差不多如[18],或者直接从主体上扫描,如[17, 44, 11];而另一些使用参数模型进行匹配如[24].这种混合方法通常需要
依赖差分元件来处理此类问题如[50, 48], 但是应用性不足因此我们没有采用事先假定目标的身体大小显得不够自然。
最后我们提出基于Straka et al[38]提出的以不同骨骼为坐标的身体尺寸匹配方法。
除了身体尺寸大小变化,模型的外表结构通常没有精确匹配目标的身体形状。
因此为了捕捉到目标的外表结构,外表模拟通常针对姿势模拟,一种选择是使用一个或多个传感器对目标的身体形状进行一次静态扫描[42]。
对于动态场景的几何结构估计,通常在多视角或单视角中使用轮廓法[17,11, 44, 37, 38] 。
与[49, 16]类似, 我们几何了深度和边缘信息来动态估计外表的几何结构。
但是我们的方法在[17]中遵循线性公式,使用约束来处理单目数据。
基于身体的衣服仿真的最近研究获得了不少的仿真方法[4, 9, 6, 26] 其有效性和真实性也提高了不少。
调查报告[25, 8, 33] 总结了最近的发展状况。
在众多的方法中我们的工作与两种仿真技术尤为相关。
数据驱动型,第一种包含了数据驱动技术,既包括了合成的或捕捉的基于仿真的身体数据。
王和其同事开发出了衣物皱纹数据库并使用人的姿态引导合成合适的纹理用于衣服动画。
与之相反的是De Aguiar与其研究人员忽略了身体模型并提出纯粹的数据驱动模型并且可以有效的产生皱褶细节。
Feng和其同事[13], 以及Kavan 与他的同事[27], 提出了数据驱动模型其能够丰富衣服仿真的细节。
而我们的数据展现的是一个人体而非衣服,当然这些技术通过综合合成的和捕捉的数据在未来也能为我们所服务。
第二种方法通过合成的深度贴图处理衣服和身体碰撞。
由于其对标准的图像通道兼容,这些技术[23, 28, 20] 可以通过图像硬件加速,而且经常在基于GPU的衣服仿真系统中使用。
如果想要更精确的碰撞检测,可以通过GPU加速有效构造三维距离场景,见Sud et al. [40]和Morvan et al. [31] . 由于这些技术将深度贴图(距离场景)作为已知身体形状的代表,便可以从输入的咬合模型构建多维深度贴图,而且可以提供外表信息从而提高碰撞精度。
相比以上的两个问题,虚拟试穿和个性化三维衣服设计显得简单多了。
大多数现存的系统将虚拟穿衣作为静态的纹理补丁处理的,并且基于图像的透视技术从而虚拟的实现穿上衣服[21].很多方法依靠预捕捉人体多样姿势的数据库来寻找到最佳匹配和实现局部细化[12, 41, 52, 22]. 但是这些方法很大程度上忽略了用户和衣服的交互。
一些研究者开拓了该领域通过将原始的数据与基于衣服的身体仿真结合。
在虚拟试穿系统中有两种策略来刻画虚拟穿衣。
一种直接而粗糙的方式是构造一个和人体形状一样的图片,然后再虚拟的给其穿上衣服。
而身体大小可以通过用户输入[32, 15, 43]或者使用深度传感器[39]
来改变。
虽然这些技术可以精确的给一个静态的身体虚拟穿上衣服,但是当身体变化动作时就做不到了。
triMirror系统[43]对动图进行虚拟穿衣,其动作由用户的骨骼姿态控制,然而结果显示他们的系统看上去是一个已定义好的图片,这样不能精确匹配用户额身形。
较优的选择是从深度数据中获取身形。
一个典型的例子就是Fitnect [14] 系统,其成功的通过身体动作实现了部分穿衣的动图,而其他的部分
缺失静止的。
另外其仅将衣服作为用户身体前面的一个部分处理。
而且让衣服跟随身体动作还不够精确。
3.研究现状
虚拟试衣技术在国外的研究比较成熟,代表性的有瑞士MIRALab实验室[3]开发的MIRACloth系统,德国弗劳恩霍夫学会开发的虚拟试衣软件,加拿大PAD公司的跨平台系统、法国力克公司的E-Design系统,美国Gerber公司与Browzwear公司合作研发的AccuMarkV-Stitcher系统,以及俄罗斯AR Door公司将计算机游戏硬件与Xbox360控制器相结合研发出“虚拟试衣间”。
试衣网站主要有My Virtual Model和,My Virtual Model与世界上几家著名的服装零售巨头(如H&M、Land's End、Sears Adidas、Speedo)都有合作,采用尺码推荐技术向消费者推荐适合其体型的服装尺码,提供给顾客更多的服装信息,促进了网上服装的销售。
国内对虚拟试衣系统的研究还在探索阶段,大部分是将服装二维图粘贴到模特身上来完成试衣。
杭州森动数码科技[4]发布的“3D互动虚拟试衣间”于2011年成功落户海宁皮革城。
另外,国内的高校如东华大学、浙江理工大学、北京服装学院等都在这个领域展开研究并取得了一定的成果。
国内的试衣网站主要有face72、41go及okbig,其中以“和炫试衣”为主要代表。
这些网站有不同体型的模特供消费者选择,消费者只需要输入自己的身体数据,就能找到符合自己体型的模特,然后就可以试穿服装了。
3.1虚拟试衣系统的相关技术及关键模型
3.1.1三维人体模型的建立
三维人体测量
人体测量技术包括接触式人体测量技术和非接触式人体测量技术。
接触式人体测量分为马丁法、滑动量规法、复模法,这些方法具有简单、直观的优点,但耗时久、精度低并且无法提供三维人体数据。
非接触式三维测量方法以速度快、精度高、大大减少人的劳动等优点日益受到人们的关注,其代表有摄影照相法、莫尔图法、着装变形测试法和3D人体扫描系统。
3D人体扫描仪由于操作简单,效率高,广泛用于CAD系统进行服装生产,代表有美国[TC]2(美国纺织技术中心)的三维人体扫描系统,其过程(图1)主要分为三个阶段:首先被测试者被光源照亮并由白光或激光扫描;然后CCD相机探测到被测试者反射光,通过反射光的表现形式可以计算与CCD相机之间的距离;最后,使用软件将距离转化为3D的表现形式[5]。
三维人体建模
对三维人体测量数据进行均值处理,得出中间体的3D数据点,模拟出中间体的3D形态,实现三维虚拟人台的建立。
一般来说,三维人体建模方法主要包括线框建模、实体建模、曲面建模,以及基于物理的建模四种方法[6]。
1)线框建模。
线框建模用于早期CAD中形体模型的构架,该技术利用人体表面的点、直线、圆弧、样条曲线等来勾画出人体轮廓,过程简单、修改快捷,但无法进行剖面操作,也不能确定地表示出三维人体模型,真实感较差。
2)实体建模。
实体建模利用体素等基本图元,通过简单形体(长方体、圆柱体、球体等)的交、并、差等几何运算来表示复杂的几何形体。
该技术可以无二义性地描述三维人体、储存物体几何和拓扑信息支持人体形体的消隐与显示。
实体建模对人体的表达方式有体素分解法、构造实体几何法、多面体建模法
3)曲面建模。
曲面建模利用点、边和表面三种几何元素及它们之间的拓扑关系(比线框建模更完备)将复杂三维人体分成不同的曲面,最后通过曲面的拼接得出三维人体模型。
该方法具有消隐线消除及人体模型的真实显示的特点,但无具体的实体部分,所以不能直接表示模型的内部构造。
曲面建模主要包括三角曲面法、B样条曲面法、散乱点插值法
4)基于物理的建模。
基于物理的建模技术将人体的物理因素及其外部环境因素和时间因素综合运用到建模过程,可以进行网格划分和受力分析,得到比较真实的动态模拟校果,但微分方程的求解比较复杂。
除了上述的线框、实体、曲面建模及基于物理的建模四大方法外,还有综合Open GL和3DS技术的方法[7],Matlab方法等[7],它们都各有优缺点,适用于一定的领域。
3.1.2面料仿真技术
几何法
早期的织物模拟方法主要是建立几何模型,代表有J Weil模型、T Agui模型[10]、B K Hinds模型[11]、H N Ng模型[12]。
几何法模拟织物变形集中于织物外观(悬垂性与褶皱性)的仿真,主要关注织物变形之后的形状,没有涉及复杂的数值求解过程,所以模拟速度比较快。
但是这种方法不考虑织物本身的物理特性,逼真性差,目前主要用于与物理模型的混合应用。
物理法
近年来,物理法成为面料仿真的主流方法,物理法侧重于组成面料各质点间的物理关系,采用动力学理论建立微分方程组来表示质点的动态运动规律,得到比较逼真的织物仿真模型。
物理法根据介质的不同可以分为离散质点模型和连续介质模型。
1)离散质点模型是将织物比拟成大量离散质点的集合,从织物的受力和能量角度对质点进行分析和研究。
Feynman等[13]提出质点网格模型,适用于静态模拟,计算速度快;Breen提出粒子模型[14],适用于静态模拟,计算速度慢:这两种模型都是利用能量最小化原理来确定织物的最终形变。
Provot[15]提出了经典的质子-弹簧模型,采用牛顿运动定律和反演动力学来模拟织物的受力形变和修正织物的超弹性失真,但是由于不能真实模拟织物的物理特性,精确性差,当织物大规模仿真时计算效率低。
2)连续介质模型是将织物看作连续介质的集合,忽略介质之间的相互作用,认为介质与整个连续体有着相同的力学行为,然后
将研究连续体的力学方法运用于织物的受力分析。
Terzopoulos等[16]将质子-弹簧模型等同于连续系统,采用拉格朗日运动学方程来动态模拟通用的弹性体形变,达到和连续系统同样的模拟效果,可以运用于静动态模拟,但是计算量大,非一般所能胜任;Haumann[17]运用弹性理论和Alembert原理进行织物的褶皱模拟,使用范围有限,运行速度中等;LiLing等[18]运用空气动力学和Terzopoulous混合型算式进行流场织物模拟,存在着计算量大,运行速度慢的问题;Eischen 等[19]提出运用有限元方法,该方法采用分片近似,无限逼近整体的研究思想从本质上分析织物的变形,模型相对简单,计算效率高,但是仅能模拟织物外部形变,忽略了织物编制方式等内部结构,适用于静态线性仿真。
混合法
混合法结合织物的几何特性和物理特性,首先用几何法构造织物的大致轮廓,然后利用物理法精确定义织物中的网格结构,从而获得逼真快速的模拟效果。
代表有Kunii模型[20]、Taillefer模型[21]、Tsopelas模型[22]、Rudomin模型[23]。
在三大方法的基础上许多研究者提出了改进措施,达到了一定的效果。
还有一些新的织物仿真方法先后被提出,Zeller[24]运用verlet 算法在GPU上进行织物仿真,Lee等[25]提出自适应网格法,J Holland[26]的遗传算法等也取得了一些成绩。
3.1.3碰撞检测
碰撞检测法主要分为空间分解算法和层次包围盒方法。
空间分解算法认为虚拟空间是由许多体积相等的单元格组成,碰撞测试只在同一单元格或相邻单元格的物体间进行,代表有八叉树法[27]和二叉空间剖分法[28-31]。
该方法提出较早,但是数据量大、灵活性较差。
层次包围盒法主要思想是利用相对简单的包围盒近似模拟复杂的几何形体,当对两个物体进行碰撞检测时,首先检测两者对应的包围盒是否相交,只有在包围盒相交时才认为两物体发生了碰撞,然后对两物体进行深入检测。
由于包围盒的复杂度远低于物体的复杂度,因此求包围盒相交要比求物体的相交简单得多,代表有球形包围盒检测法[32]、坐标轴的轴向包围盒(AABB)检测法[33]、带方向的包围盒(OBB)检测法[34]、散方向多面体(k-DOP)检测法[35]和固定方向凸包(FDH)检测法等[36]。
1)球形包围盒法。
球形包围盒法是最基本的层次包围盒检测方法,它利用球形来近似地表示物体或物体的一部分,然后通过测试两个球体中心的距离与它们半径和的关系即可判断物体是否相交。
该方法紧密性差,易于实现,检测速度快,但精度差,常用于精度要求低的场合或复杂检测的预检测阶段。
2)AABB包围盒检测法。
AABB(axis-aligned bounding boxes)法的核心思想是构建一个包含碰撞物体且边平行于坐标轴的最小六面体,然后通过六个标量描述一个物体。
AABB树之间的碰撞检测是一个双重递归遍历的过程。
对树A和B,若发现树A的根节点的包围盒与树B内部节点的包围盒不相交,则停止向下遍历。
如果遍历能
达到树B的叶节点,再用该叶节点遍历树A;如果能到达树A的叶节点,则进一步进行基本几何元素之间的相交测试。
该方法紧密性较差,检测简单,检测精度一般,应用范围较广。
3)OBB检测法。
OBB(oriented bounding box)的主要思想是构建一个包含碰撞对象且相对于坐标轴方向任意的正六面体,OBB 方向的任意性使得其计算相对AABB和包围球模型更加复杂,紧密度更好,其关键是寻找最佳方向,并确定在该方向上包围对象的包围盒的最小尺寸。
该方法检测速度一般,主要用于对检测精度要求较高的场合。
4)k-DOP检测法。
k-DOP检测法由Kay 和Kajiya提出,假设景物都尽可能紧密地包裹在各层次包围盒中。
k-DOP检测法根据物体的实际形状选取若干组不同方向的平行平面来包裹一个物体或一组物体。
这些平行平面组成一个凸体,称之为平行2K 面体,然后用超过3对的平行平面来近似模拟物体[26]。
该方法紧密性好,精度高,检测速度较快,检测难度中等。
5)FDH检测法。
FDH(fixed direction hulls)法的主要是思想通过有效地遍历两个对象各自的FDH树,判断两个对象是否发生碰撞。
该方法紧密性好,检测精度高,但运行速度慢,不易实施。
5总结和展望
虚拟试衣系统作为服装CAD系统的一部分,主要应用于服装新产品开发和试样、服装的线上线下虚拟体验等领域,但现阶段虚拟试衣技术还不成熟,需要人们在现有技术的基础上提出新的方法和技
术。
现阶段虚拟试衣技术还不能模拟到服装面料的质感和穿着后的舒适性等要素,本文在虚拟试衣系统技术研究的基础上,对虚拟试衣系统提出了一些展望。
1)提出更好的方法和算法,构建更加精确的布料模型并获取其模型参数,可以考虑将湿度、迟滞等影响因素对模型精确性的影响。
2)建立快速反应机制,解决服装和人体三维重建耗费时间长的问题,所以系统计算时间是一个亟待解决的问题,随着高性能GPU 的发展,基于CUPA的快速服装模拟或将成为可能。
3)注重人性化设计,可以引入专家系统来实现服装搭配功能,或是增加人机互动功能使消费者可以个性化完善自己的人体模型。
6参考文献
[1] D. Anguelov, P. Srinivasan, D. Koller, S. Thrun, J. Rodgers, and J. Davis.Scape: shape completion and animation of people. In ACM Trans.Graph., (Proc. of SIGGRAPH), pages 408–416. ACM, 2005.
[2] A. Baak, M. M¨uller, G. Bharaj, H.-P. Seidel, and C. Theobalt. A data driven approach for real-time full body pose reconstruction from a depth camera. In Int. Conf. on Comput. Vision. IEEE, Nov. 2011.
[3] L. Ballan and G. M. Cortelazzo. Marker-less motion capture of skinned models in a four camera set-up using optical flow and silhouettes. In 3DPVT, Atlanta, GA, USA, June 2008.
[4] D. Bara and A. Witkin. Large steps in cloth simulation. In ACM Trans.Graph., (Proc. of SIGGRAPH), pages 43–54. ACM, 1998.
[5] C. Bregler, J. Malik, and K. Pullen. Twist based acquisition and tracking of animal and human kinematics. Int. J. Comput. Vision,
56(3):179–194,Feb. 2004.
[6] R. Bridson, R. Fedkiw, and J. Anderson. Robust treatment of collisions,contact and friction for cloth animation. In E. Fiume, editor, Proc. Of ACM SIGGRAPH 2002, volume 21, pages 594–603, 2002.
[7] R. Bridson, S. Marino, and R. Fedkiw. Simulation of clothing with folds and wrinkles. In Proc. of SCA, pages 28–36, 2003.
[8] K. Choi and H. Ko. Research problems in clothing simulation. Computer Aided Design, 37:585–592, 2005.
[9] K.-J. Choi and H.-S. Ko. Stable but responsive cloth. ACM Transactions on Graphics (SIGGRAPH), 21(3):604–611, July 2002.
[10] E. de Aguiar, L. Sigal, A. Treuille, and J. K. Hodgins. Stable spaces for real-time clothing. ACM Trans. Graph., (Proc. of SIGGRAPH),
29(4):106:1–106:9, July 2010. [11] E. de Aguiar, C. Stoll, C. Theobalt, N. Ahmed, H.-P. Seidel, and S. Thrun. Performance capture from sparse multi-view video. ACM ToG, 2008.
[12] J. Ehara and H. Saito. Texture overlay for virtual clothing based on pca of silhouettes. In Mixed and Augmented Reality, 2006. ISMAR 2006.IEEE/ACM International Symposium on, pages 139–142, 2006.
[13] W.-W. Feng, Y. Yu, and B.-U. Kim. A deformation transformer for realtime cloth animation. ACM ToG (SIGGRAPH), 29(4), July 2010.
[14] Fitnect. Fitnect. , 2013.
[15] Fits.Me. Fits.Me. http://fits.me, 2012.
[16] J. Gall, A. Fossati, and L. Van Gool. Functional categorization of objects using real-time markerless motion capture. In IEEE Conf. on Comput. Vision and Patt. Recog., 2011.
[17] J. Gall, C. Stoll, E. de Aguiar, C. Theobalt, B. Rosenhahn, and
H.-P. Seidel.Motion capture using joint skeleton tracking and surface estimation.In IEEE Conf. on Comput. Vision and Patt. Recog., pages 1746–1753.IEEE, 2009.
[18] V. Ganapathi, C. Plagemann, D. Koller, and S. Thrun. Real time motion capture using a single time-of-flight camera. In IEEE Conf. on Comput.Vision and Patt. Recog., 2010.
[19] V. Ganapathi, C. Plagemann, D. Koller, and S. Thrun.
Real-time human pose tracking from range data. In European Conf. on Comput. Vision,2012.
[20] N. K. Govindaraju, S. Redon, M. C. Lin, and D. Manocha. Cullide: interactive collision detection between complex models in large environments using graphics hardware. In Proc. of SGP, pages 25–32, 2003.
[21] S. Hauswiesner, M. Straka, and G. Reitmayr. Temporal coherence in image-based visual hull rendering. IEEE Transactions on Visualization and Computer Graphics, 19(10):1758–1767, 2013.
[22] S. Hauswiesner, M. Straka, and G. Reitmayr. Virtual try-on through image-based rendering. Visualization and Computer Graphics, IEEE Transactions on, 19(9):1552–1565, 2013.
[23] B. Heidelberger, M. Teschner, and M. Gross. Realtime volumetric intersections of deforming objects. In Proc. of Vision, Modeling and Visualization, pages 461–468, 2003.
[24] T. Helten, A. Baak, G. Bharaj, M. M¨uller, H.-P. Seidel, and C. Theobalt. Personalization and evaluation of a real-time depth-based full body tracker. In Proc. of the 3rd joint 3DIM/3DPVT Conference (3DV), 2013.。