三维视频编码技术的发展与挑战

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract: The key technologies of 3D video coding were introduced. Firstly, the developing directions and challenges of video-only format and depth-enhancement format 3D videos were elaborated. The depth estimation and view synthesis technologies were analyzed in detail. Subsequently, the process of standardizing the current 3DV / FTV standard of MPEG was summarized. The conclusion and prospect were given at last.
多视点视频是由多台相邻摄像机从不同角度对同一场景 进行拍摄得到的多路视频序列[15]。多视点视频的数据量巨 大,相邻视点间的交叉冗余信息比双通道立体视频大得多,为 了最大限度地提高压缩率,在编码时采用一种基于分层 B 帧 ( Hierarchical B Pictures,HBP) 的视点—时间金字塔型预测结 构[16 - 18],如图 2 所示。该结构被 MVC 的官方测试模型 JMVC 采纳[19]。
纯视频格式三维视频由多路具有细微视角差异的视频组 成,由两台( 或多台) 相邻摄像机从不同角度同时对同一场景进 行拍摄得到,这些视频可以直接在三维立体显示设备上播放。 1. 1. 1 立体视频编码
最直接的双通道立体视频编码方式是采用 Simulcast 方
法直接对左右视点数据进行独立压缩,如图 1( a) 所示,但是 左右视点间的相关性没有得到利用,编码效率较低[10]。早在 十几年前,MPEG-2 Multiview Profile 就提出结合左右视点之 间的交叉相关性和同一视点内部的时空相关性来提高立体视 频编 码 效 率[11 - 12]。 近 年 来,立 体 补 充 增 强 信 息 ( Stereo Supplemental Enhancement Information,Stereo SEI) 和帧组合补 充 增 强 信 息 ( Frame Packing Arrangement SEI ) 被 纳 入 到 H. 264 / AVC 中[13]。根据 Stereo SEI,在编码前将左右视点以 左右 / 上下方式交错排列成一段视频,然后通过场间预测来消 除视点间的交叉冗余,在解码端通过反交错将立体视频还原 成两段独立视点,如图1( b) 所示。该方式与原有的 H. 264 编 解码器完美兼容,不需要改变原有硬件结构。2009 年 7 月, 国际运动图像专家组( Moving Picture Expert Group,MPEG) 颁 布了 MPEG-4 AVC Stereo High Profile,作为多视点视频编码 ( Multiview Video Coding,MVC) 标准的一个子集[14]。然而, Stereo High Profile 只适用于逐行和隔行扫描的双通道立体视 频序列,不支持临场感更强的多视点视频和自由视点视频。 1. 1. 2 多视点视频编码
1 三维视频编码技术
根据传输形式不同将三维视频分为两大类: 1) 纯视频格 式,需要传输所有视角的数据[8]; 2) 深度增强格式,传输有限 个单目视频及其深度序列,在解码端利用视点合成技术生成 虚拟视点[9]。这两 类 三 维 视 频 由 于 传 输 形 式 不 同 而 采 用 不 同的编码方式。 1. 1 纯视频格式三维视频
采用深度增强三维视频格式,只需要传输有限个角度的 单目视频及其深度序列,就能获得扩展性非常强的三维立体 显示效果。然而,高保真度的三维画面质量必须依靠高效的 深度估计和视点合成这两项关键技术来实现[35]。
1. 2. 1 深度估计技术 与彩色视频相比,编码深度序列只需要 10% ~
20% 的比特信息,大大节省了传输带宽。由于现有的 深度传感器获得深度图的空间分辨率和深度范围都有 限,无法得到 高 质 量 的 三 维 图 像,实 际 应 用 中 很 少 采 用[36]。目前,采用高效的深度估计算法获得二维视频 的深度图,实现二维到三维视频的转换是学术领域内 的研究热点[37 - 38]。
2009 年 1 月,国际联合视频小组( Joint Video Team,JVT)
收稿日期: 2011 - 03 - 16; 修回日期: 2011 - 05 - 09。 基金项目: 国家自然科学基金资助项目( 30970780) ; 北京市自然科学基金及教委重点科技项目( KZ200910005005) 。 作者简介: 邓智玭( 1983 - ) ,女,湖南邵阳人,博士研究生,主要研究方向: 视频编码; 贾克斌( 1962 - ) ,男,北京人,教授,博士生导师,主 要研究方向: 多媒体技术; 陈锐霖( 1971 - ) ,男,香港人,教授,博士生导师,主要研究方向: 视频技术; 伏长虹( 1981 - ) ,男,香港人,副教授, 主要研究方向: 视频编码; 萧允治( 1954 - ) ,男,香港人,教授,博士生导师,主要研究方向: 视频编码。
基于小板的深度信息估计方法和基于形状自适应 小波的编码方法能有效保持深度图的边缘,但是对视 点间相关性的利用率低,在低纹理、遮挡区域,以及复
杂场景变化区域易造成三维视频图像过分割现象, 最终导致编码的低效和绘制图像的低质量。基于 图割的深度估计算法得到的深度信息空间准确度 不高,同一静止物体在不同时刻的深度估计结果不 一致,其性能不能完全满足实际需求[39 - 40]。文献 [41]利用平均亮度—梯度联合匹配测度函数代替 单像素亮度匹配,考虑了深度图的空间、时间特征, 可以在一定程度上提高深度图的准确度。
图 1 立体视频编码方式
图 2 多视点视频 HB来自百度文库 编码结构
1. 1. 3 纯视频格式三维视频面临的挑战 虽然纯视频格式的三维视频能够给用户带来立体视觉感
受,但是,由于每个视点都是由固定位置的摄像机事先拍摄好 的,多摄像机之间的同步、校准以及不同角度视频内容之间的 颜色均衡问题是需要克服的难点[21 - 22]。另外,场景的深度信 息不能根据显示设备的类型和尺寸来调整,三维视频的景深 效果不具备 尺 度 伸 缩 性。 并 且,解 码 端 输 出 的 视 点 数 量 有 限,无法提供自由视点视频的“环视”效果[23]。虽然 MVC 算 法可以大大提高编码效率,压缩之后的数据量比 Simulcast 方法少很多,但是 MVC 算法的压缩率实际上是与视点的数 量成正比的,视点数目越多,压缩率越高; 而在实际应用中传 输无限多个无缝连接的多路视频序列势必会给带宽造成巨 大压力[24]。 1. 2 深度增强格式三维视频
深度增强三 维 视 频 形 式 多 样,如 单 路 视 频 及 其 深 度 序 列、多视点视频及其深度序列,以及分层深度视频等[25 - 26]。 深度序列是一组只包含深度信息的灰度图像序列,是用来合 成虚拟视点的中间数据,而不是供终端用户观看的视频。深 度图中像素点灰度 值 范 围 为[0 ,255 ],灰 度 值 越 大 表 示 该 点 离摄像机越近[27 - 28]。
三维视频编码技术的发展与挑战
邓智玭1,2 ,贾克斌1 ,陈锐霖2 ,伏长虹2 ,萧允治2
( 1. 北京工业大学 电子信息与控制工程学院,北京 100124; 2. 香港理工大学 电子资讯工程系,香港 九龙) ( zhipindeng@ gmail. com; kebinj@ bjut. edu. cn)
Key words: 3D video; multiview video; stereoscopic video; video coding; depth map
0 引言
近二十年来,视频广播技术发生了重大变革,从 20 世纪 的模拟电视到 数 字 电 视、高 清 数 字 电 视,乃 至 现 在 的 三 维 电 视,视频技术随着人们生活水平的提高不断发展进步[1 - 2]。 当今世界,人们已经不再满足于传统的单目视频带来的视觉 感受,具有临场感和交互性的三维立体视频以其独特的景深 效果给用户 带 来 前 所 未 有 的 奇 妙 体 验[3]。 随 着 好 莱 坞 推 出 《阿凡达》等立体电影,三维视频技术逐渐成为多媒体信息产 业的热门话题[4 - 6]。与传统的单目视频相比,三维视频包含 的数据量成倍增加[7]。为了避免信道中数据量激增,必须对 其进行有效的编码压缩。近年来,全球各大研究机构都投入 大量精力对三维视频编码技术进行深入研究。
New trend and challenges in 3D video coding
DENG Zhi-pin1,2 , JIA Ke-bin1 , CHAN Yui-lam2 , FU Chang-hong2 , SIU Wan-chi2
( 1. College of Electronic Information and Control Engineering, Beijing University of Technology, Beijing 100124, China; 2. Department of Electronic and Information Engineering, The Hong Kong Polytechnic University, Kowloon Hongkong, China)
摘 要: 介绍了三维视频编码的核心技术。首先比较了纯视频格式和深度增强格式三维视频编码技术的发展方 向及面临的挑战,其中重点分析了深度估计技术和视点合成技术的研究思路; 然后概括了国际 3DV / FTV 标准的制定 现状; 最后对三维视频编码技术进行了总结和展望。
关键词: 三维视频; 多视点视频; 立体视频; 视频编码; 深度图 中图分类号: TN919. 81 文献标志码: A
2454
计算机应用
第 31 卷
发布了 MVC 标准[20],将其作为 H. 264 / AVC High Profile 的扩 展部分,并且与 ISO / IEC 14496-10 ( Annex H) 第五版相结合。 2009 年 12 月推出的三维立体视频蓝光碟就是采用 MVC 标 准来进行编码的。MVC 标准定义了目前编码效率最高的多 视点视频编码方式,支持随机访问功能。JMVC 编码器采用 与 H. 264 / AVC High Profile 相同的编码工具来进行视点间 / 视 点内预测,通过多参考帧管理类来实现视点间参考帧的引用, MVC 并不支持隔行扫描的视频序列。与 Stereo SEI 不同,为 了保证 MVC 的后向兼容性,多视点视频的基本视点 ( 主视 点) 采用与 H. 264 / AVC 单路视频相同的编码结构和方式,任 何与 H. 264 / AVC 兼容的解码器都能直接用来对多视点视频 进行解码。
第 31 卷第 9 期 2011 年 9 月
计算机应用 Journal of Computer Applications
Vol. 31 No. 9 Sep. 2011
文章编号: 1001 - 9081( 2011) 09 - 2453 - 04
doi: 10. 3724 / SP. J. 1087. 2011. 02453
深度增强三维视频的系统流程如图 3 所示。首先,采用 多视点摄像机( 或双目摄像机) 和深度摄像机从不同角度拍 摄同一场景得到 N 路视频数据及其深度序列,其中,深度序列 可以由深度摄像机直接获取或采用深度估计算法由二维视频
图像变换得到[29]。将 K( K ≤ N) 路视频及其深度序列送入多 视点视频编码器 JMVC 直接进行编码压缩。压缩后的码流通 过信道传输到接收端,解码器根据不同显示设备的参数和用 户的观看需求对视频进行解码及视点合成等后处理。例如,利 用解码后的 K 路视频及其深度图,结合视点合成技术得到虚 拟视图,最终获得 M( K ≤ N < M,N ≥ 1) 个视点的数据,用户 可以选择观看不同角度的三维立体视频[30 。 -34]
相关文档
最新文档