开题报告清华大学2016自动化系开题报告

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于相位的双目转多目虚拟视图

生成方法研究

系别：自动化系

专业：自动化

姓名：戴威

指导老师：索津莉

1课题背景及选题意义

《阿凡达》的火爆热映、世界杯的3D播出使人们感受到了立体影视的巨大魅力，如今3D电视的热潮几乎涵盖了所有的家电厂商，三星、LG、索尼、海信、创维、TCL等国内外主流厂家都推出了各自搭载3D技术的电视新产品。3D电视画面固然震撼，但是电视节目在全世界范围内仅停留在策划、筹备的阶段，立体片源的匮乏以及制作立体片源的困难成为3D电视发展的瓶颈。

图1.1 立体电视

目前3D电视显示技术主要分为两类：眼镜式3D电视和裸眼式3D电视，目前在家用消费领域，大多数3D显示设备需要配合3D眼镜使用，但是使用时间过长会产生疲劳甚至晕眩的感觉。裸眼3D目前主要应用在公共商务、大型会展等场合，将来还会应用到手机等便携式设备上，具有广泛的应用前景。

裸眼显示技术主要有两种：视差障壁式和柱状透镜式，视差障壁式裸眼3D 技术是利用特定算法，将影像交互排列，通过设置显示器背光源和液晶面板之间的视差屏障，将左右眼可视画面分开，由于左右眼观看屏幕角度不同，利用这一角度差遮住光线就可将图像分配给左眼或右眼，经过用户大脑将这两幅图片合成具有深度信息的立体图像。柱状透镜式裸眼3D技术则是在LCD面板的最表层添加一层密集的柱状透镜组，这样每个柱透镜下面的图像的像素被分成几个子像素，透镜就能以不同的方向投影每个子像素，于是双眼从不同角度观看屏幕就看到不同的图像。

图1.2 视差障壁式和柱透镜式显示原理

目前获取多视角片源的方法主要有多视点采集以及2D转3D技术对现有平面素材进行渲染。多视点采集具有数据量与成本控制，相机联合标定、同步等问题，而利用平面图片推测三维空间信息需要利用许多先验信息例如时域一致性，空域一致性等等。如果用2路相机采集得到双目图像则可以真实并且完全的反应物体三维信息，而且相对于多视点采集一般几十个相机的成本有了很大的降低。因此根据双目视频进行虚拟视图合成的技术具有非常广阔的研究前景。

2 研究现状及分析

虚拟视图生成的算法是双目转多目视频的关键，目前虚拟视图的生成方法主要有两大类，基于模型的渲染(MBR)和基于图像的渲染(IBR)。MBR技术通过使用模型可以充分细节化，可以解决遮挡问题，渲染质量较好，但是MBR建模的复杂度和场景成正比，数据量较大。IBR与MBR相比不需要进行三维立体架构，绘制速度更快并且产生的虚拟视点图像真实感更强。基于图像的视图生成的方法主要有以下几类：基于图像空间域变形（IDW）的方法、基于全光函数的方法、基于深度图像绘制（DIBR）、基于相位图像绘制、基于非线性视差映射的方法。目前发展比较迅速、研究比较成熟的是基于深度图像绘制的方法。

2.1基于图像空间域变形的方法调研

图像空间域变形仅依靠双目图像空域信息进行新视角图像的合成，Farre等人在2011年设计了能量最小值函数对应变形函数，输入的视频通过稀疏深度匹配、垂直边缘检测、显著性标注得到的信息进行变形计算，能量函数表达式如下：

W C C f f t t h h E E E E E λλλλ=+++ （1）

其中C λ、f λ、t λ、h λ是权重系数，C E 是保形约束项，f E 是视差约束项，t E 是时域一致性约束项，h E 是垂直边缘保持项。该方法在理论上有着重要的指导作用，但是实际实现过程中等式的极值求取非常困难，复杂度过高，因此并不能投入实际应用。

2.2基于深度的方法调研

基于深度的方法根据视差与深度的换算关系（bf d Z =

），通过立体匹配获得像素间的对应关系，计算对应点的视差，进而对深度进行估计，通过平移和插值生成新的视图。因此立体匹配和虚拟视图生成时基于深度的渲染的关键。

图2.1 视差与深度关系图

HOSNI 等在2013年提出了通过fast cost-volume filtering 实现视差图的实时绘制，并且图像质量超过Middlebury 立体标准的所有其他快速算法， Smolic 等在2008年提出将图像分为前景边缘层、背景边缘层和主要层（main layer ）来进行渲染，通过层抽取、按层投影，空洞填补及滤波操作生成新的视图。

2.3基于相位的方法调研

Didyk等在2013年提出虚拟视图生成类似于细微的运动放大，Wadhwa等在2013年提出了基于相位的运动处理技术，提出运动在复域可控金字塔分解中被编码为变差系数的理论。这种方法不需要运动计算并且相比Eularian的方法能够处理更大的偏置。根据傅里叶变换平移的理论，空域的平移等效于频域相位的改变，因此在相位域进行插值处理等效于在频域进行相位插值处理。Didyk利用可控金字塔分解将图像分解到不同频带处理，在不同频带进行线性插值，对于异常数据进行修正，由于金字塔分解和重构是可逆的，因此图像恢复只需将经过相位处理的图像逐级进行金字塔分解的逆过程即可恢复。Didyk提出该方法具有很强的鲁棒性，能够利用频率域的滤波处理防止空域的混叠，还能够对散焦模糊、运动模糊、透明物体以及镜面反射有着较好的处理效果，而这些是基于深度等空域操作无法处理的。

3 研究内容和初步方案

本课题主要是对双目转多目视频中虚拟视图生成的技术进行研究，通过调研文献发现空域处理往往存在空洞、裂缝、高频毛刺以及横向长毛刺等缺陷，因此主要是尝试实现Didyk基于相位进行联合视角膨胀和滤波算法，利用Gaussian算子、Laplacian算子、gabor算子等进行频域金字塔分解并比较效果，在频域处理中加入人体舒适度模型处理（例如非线性函数映射等）以提高重建效果。另外尝试加入场景切换的判断使得算法在进行邻近帧一致性滤波去混叠操作时避免将不同场景融合在一起造成错误的结果。

初步方案流程图

4 工作计划

参考文献

[1] FARRE, M., W ANG, O., L ANG, M., S TEFANOSKI, N., H ORNUNG, A., AND SMOLIC, A. 2011. Automatic content creation for multiview autostereoscopic displays using image domain warping. In IEEE International Conference on Multimedia and Expo.

[2] SMOLIC, A., M ULLER, K., D IX, K., M ERKLE, P., K AUFF, P., AND WIEGAND , T. 2008. Intermediate view interpolation based on multiview video plus depth for advanced 3d video systems. In IEEE International Conference on Image Processing, 2448–2451.

[3] HOSNI, A., R HEMANN, C., B LEYER, M., ROTHER, C., AND GELAUTZ, M. 2013. Fast cost-volume filtering for visual correspondence and beyond. IEEE Transactions on Pattern Analysis and dMachine Intelligence 35, 2, 504 – 511.

[4] Didyk, P., Sitthi-Amorn, P., Freeman, W., Durand, F., Matusik, W. 2013. Joint View Expansion and Filtering for Automultiscopic 3D Displays. ACM Trans. Graph. 32, 6, Article 221 (November 2013), 8 pages.

[5 ] WADHWA, N., RUBINSTEIN, M., G UTTAG, J., D URAND, F., AND FREEMAN, W. T. 2013. Phase-based video motion processing. ACM Trans. Graph. (Proc. SIGGRAPH) 32, 4, 80:1–80:10]