多视点视频的编码技术综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

多视点视频的编码技术综述

摘要：阐述了多视点视频（MVC）的几种编码技术，包括其发展过程和主要原理并且比较这几种方法的优劣，以及提出了MVC在未来的可能的发展方向和研究思路。

关键词：综述；多视点视频编码；算法；3d场景；时间相关性;视点间相关性；视差估计；运动估计

1 引言：

多视点视频指的是由不同视点的多个摄像机从不同视角拍摄同一场景得到的一组视频信号，是一种有效的3D视频表示方法，能够更加生动地再现场景，提供立体感和交互功能。多视点视频可广泛应用于任意视点视频、二维电视、交融式会议电视、远程医学诊疗、虚拟现实以及视频监视系统等多种正在兴起的多媒体业务。[1]

与单视点视频相比，多视点视频的数据量随着摄像机的数目增加而线性增加。巨大的数据量己成为制约其广泛应用的瓶颈，为此，ITU-T和MPEG的联合视频组(JVT, joint video team)提出了多视点视频编码(MVC, multiview videocoding)的概念。MVC主要致力于多视点视频的高效压缩编码，是未来视频通信领域中的一项关键技术，也是国际视频标准化组织，在研究的热点问题。[1] 多视点视频最为显著的特点在于视间的相关性。在传统的单视点视频编码中，通常采用去除时间相关性和空间相关性的混合编码方式，运动估计(Motion Estimation)/运动补偿(Motion Compensation}、帧内预测、帧间PB预测、多参考帧(Multi-reference frames)预测,DCT或DWT变换等是最为常用的编码技术，这些技术也被众多视频编码国际标准如H.26X[11]/ MPEG-X所采用。MVC除采用传

统的单视点视频混合编码技术之外，进一步采用视差估计(Disparity Estimation)/视差补偿(Disparity Compersation)[8]、深度图技术(Depth Image)等来提高多视点视频的压缩效率。此外，多视点视频分布式编码、多视点视频的码率控制技术等也被应用到多视点视频编码之中。总之，要想多视点视频系统在实际生活中得到广泛的应用，仅通过提高网络带宽和扩大存储容量是远远不够的，还必须提高系统的整体编码性能。[6]

基于H.264架构的编码框图[5]

2.国内外研究现状

2.1视频编码技术概况[2,3,5]

原始视频的数据量虽然巨大，但它们在时域、空域、以及统计上都存在大量的信息亢余。从20世纪中期以来，由于数据压缩技术的发展和完善，极大的推动了视频编码技术的前进。一些经典的视频编码技术随之出现，主要技术分为以下几个方面:

(1)预测编码

预测编码就是利用像素的相关性计算预测值，并对实际值和预测值之间的差异进行编码。预测编码按预测方法可以分为线性预测编码和非线性预测编码。[17] (2)变换编码

变换编码[16]就是将空域图像信号变换到另一个正交矢量空间中，然后对转换后的系数进行量化和编码。在目前所有的变换算法中，以Ahmed等人[6]于1974年提出的离散余弦变换(Discrete Cosine Transform, DCT)对视频编码算法最为重要。随着1977年Chen等人[5]以及1987年Hou等人[2]提出了针对DCT的一些快速算法，DCT很快被各种视频编码标准所采用。

(3)熵编码

嫡编码是利用信源的统计特性进行数据压缩，它是一种无损压缩编码技术。常用的嫡编码有霍夫曼编码、算术编码和游程编码。

2.2多视点视频编码技术特点[13,20]：(1)预测结构;(2)运动跳过模式及其改进算法;(3)亮度和色度补偿技术;(4)视差合成预测.

3.多视点视频编码的关键技术及主要研究内容

3..1 MVC预测技术

为了在多视点视频系统中提高编码效率以及随机访问性能，需要设计合理的预测结构，并采用多种预测技术来减少编码帧在时间和和空间上的相关性。[7] 3.2 DMVC的边信息生成技术

DMVC的关键技术就是如何准确估计边信息。分布式视频编码中的边信息用于接收端的信道解码和重建视频，是对当前WZ帧的预测，相当于传统编码中对P帧或B帧的预测，只是预测是在解码端进行的，因此DMV将编码端的计算复杂度移到了解码端。预测精度越高，说明边信息与WZ帧越接近，经过信道解码

后误码率就越低，依据边信息重建的视频效果越好。[10]

多视点分布式视频编码的边信息，可以利用同一视点视频序列的时间边信息和不同视点视频序列的视间边信息共同生成，或将从不同视点视频图像进行融合得到更加准确的边信息。[7]

3.3深度图像高效编码

深度图像表示场景中对象的深度信息，其统计特性有别于传统的2D图像，同时其在解码端不是为了显示，而是为了辅助合成任意视点，因此在设计编码方法时就要充分考虑到深度图像的特性。

在[5,9,14,17,19,20]中都提出了相应的保护图像对象边缘信息的编码技术，主要有一下几种：

①基于小板(platelet)的深度图像编码方法

②基于形状自适应小波变换的深度图的编码方法

③基于几何学的块划分方法

④基于稀疏二值模式的深度图像编码方法

3.4深度辅助的多视点视频编码

在自由视点视频编码中，深度图像还可以辅助提高对应视点的编码效率。深度图像不仅可以提供准确的视差信息从而可设计更精确的视间预测技术，还可以利用其反映的场景中物体离摄像机的距离信息来设计更高效的编码方式。[13] 自由视点视频包含多个视点，一种直接的编码思路是采用视差估计方法来去除视点间的相关性。然而这种思路在自由视点视频编码中存在以下问题:首先，自由视点视频系统中通常使用较为稀疏的摄像机阵列，相邻摄像机的基线距离比较大，视点间的相关性较小，相邻视点间还可能会产生遮挡等情况，严重影响了

视差估计的效率;其次，由于同一时刻的相邻视点间物体的运动并不是线性运动，采用类似运动估计的方法来进行视间估计并不准确。针对以上问题，2006年，Emin Martinian首次提出了基于视点合成预测(VSP)的多视点视频编码方法[14,7]。该方法在编码当前视点图像的时候，利用深度信息采用3D warping技术[15]合成一个虚拟视图用作当前编码图像的参考图像。该虚拟视图由于比视点间参考图像更接近于当前编码图像，增强了视间预测效率，从而提高了多视点视频的编码效率。2007年，Sehoon Yea在此基础上建立了基于VSP的率失真框架[12]，用于指导多视点编码。2010年，Kirai，将VSP技术用于视差矢量预测[13]，提高了视差矢量的预测精度。

4 结束语

多视点及深度视频可广泛应用于自由视点电视等多种新兴的多媒体业务，其广阔的应用前景对当前的编码和传输技术提出了很大的挑战。目前MVD编码主要是基于传统的视频编码框架而设计的，如何在提高编码效率的同时增强合成视点的图像质量是该领域研究的核心问题。未来可以从以下方面开展研究:一是研究更高效的编码技术，深度图像所表征的信息仍有待发掘和利用，深度视频与纹理视频间仍存在大量的冗余信息;二是研究结合人眼视觉特性的编码方式，以人眼的感知特性来指导多视点及深度视频的压缩。综上所述，为推动自由电视的研究和应用，多视点及深度视频编码尚有很多值得深入研究的问题，需要大家共同探索。

参考文献：