视频编码技术前沿与方向

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
下一代视频编码标准
❖ MPEG HVC, 2009年2月需求文档w10361
– 两大应用前景
✓ 需要支持HD甚至UHD应用的家庭影院、数字相机等 ✓ 移动终端应用
– 压缩效率比现有技术有显著提高 – 图像分辨率支持4Kx2K,甚至高达8Kx4K – 支持采样格式 YCbCr4:2:0, YCbCr/RGB 4:4:4,采样精度
❖ 注意编码:基于注意模型的感兴趣区域表达、编码及码流优 化截取方法
空域 可伸缩
时域 可伸缩
质量 可伸缩
注意 可伸缩 动态 范围 可伸缩
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
Spatial upsampling
reconstructed
and upsampled L0* L0* L0* L0* L0* L0* L0* L0* L0* L0* L0* L0*
sequence
Base Layer Prediction
temporal subband pictures
Spatial Enhancement Layer (Layer 1)
立体视编码
❖ 深度信息编码
– 基于模型的编码,通过编码模型参数来表示深度信息 – 对相邻帧间深度信息进行差分预测、量化编码 – 编码过程中的率失真优化
纹理图
深度图
分块模型
立体电视示范系统
多视点 立体视频 采集装置
深度图 生成平台
多视点 立体视频 编码器
现有 视频节目
自动立体 显示器
分时立体
… 显示器
最高达14bit – 典型帧率支持24~60fps,支持灵活帧率 – 复杂度/性能较好的折中
下一代视频编码标准
❖ VCEG, H.NGC, Geneva, 27 January - 6 February 2009
– 编码码率比H.264/AVC再降低50% – 编码复杂度低于3倍的H.264/AVC – 复杂度增加50%时应能提供25%的码率降低 – 较好的容错性能 – 支持8-bit 4:2:0到12-bit 4:4:4编码 – 分辨率支持8K x 4K,帧率23.976 Hz甚至更高
运动矢量
基于对象
预测
的可分级 编码
高精度运 动补偿
多视 编码
视频编码标准发展历程
❖ ISO/IEC MPEG
– MPEG-1, MPEG-2, MPEG-4, MPEG-4 AVC/H.264, MPEG HVC
❖ ITU-T VCEG
– H.261, H.262(MPEG-2), H.263, H.264, VCEG H.NGC
❖ 符合人眼特性的图像/视频质量评价标准
– 块效应、模糊效应、振铃效应的模型表示
图像/视频库
主观质量评价 视觉失真测度模型
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
传统可伸缩编码
❖ 中国 AVS
– AVS-P2, AVS-S
❖ 下一代标准?
– 方向、技术?
下一代标准
AVS
MPEG-4 AVC/H.264
MPEG-4
MPEG-2
MPEG-1
1989 1993 1997 2001 2005 2009 2013 2017 年代
问题分析:客观指标与主观 感知的差异?
峰值信噪比=5.98
联合解码器
Ry
Y
RY H(X,Y) H(Y) H(Y|X)
无错误恢复 X和Y
A
长序列信号错误
B
趋近于0
0
H(X|Y)
H(X) H(X,Y) RX
[1] Slepian-Wolf, Noiseless coding of correlated information sources, IEEE trans. on Inf. Theory, 1973. [2] Wyner-Ziv, Recent results in the Shannon theory, IEEE trans on Inf. Theory, 1974.
I
B
P
B
P
B
Spatial upsampling
H20
H10
L20
H10
H20
H10
H21
H11
L21
H11
H21
H11
H22 H00 H12 H00 L22 H00 H12 H00 H22 H00 H12 H00
H23 H01 H13 H01 L23 H01 H13 H01 H23 H01 H13 H01
分布式编码原理
❖ Slepian-Wolf理论
– 独立编码信源X,Y也可达到联合熵下界 – 独立编码相关信源X,Y可在解码端通过联合解码进行重建
✓ 满足条件约束 Rx Ry H (X ,Y )
信源信号X 信源信号Y
编码器X 编码器Y
Rx H (X |Y ) Ry H (Y | X )
Rx X
群组编码

视觉注意
稀稀疏疏编编码码 视觉机理
感知图
运动感知

[Guo03, ICCV]
基于视感知的压缩 (~200倍)
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
基于视觉特性的视频编码
直播点播服务器
网络
显示 适配器
解码 绘制 终端
立体视编码
❖ 韩国立体电视广播示范系统
– 2002 FIFA World Cup Korea/Japan (5 games)
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
基于视觉特性的视频编码
❖ 技术3:视觉感知机理与编码
– “像素-基元/纹理-对象-场景” 层次模型 – S. Zhu, UCLA
视觉表示模型 物理世界模型
场景
世界
对象 基元、纹理 像素
感知 物质 图获

原子/分子
结构 电子 感知
原始 图像
纹理 区域 估计
合成 纹理
合成 图像
基于视觉特性的视频编码
– 熵编码提高增益的路也不宽
差分预测 变换编码 编码调制
DCT
宏块 P帧
基于位平面的 可伸缩编码 B帧 视频
对象
一般的 B帧
1950
~1985
1999
专利可免费使用 专利可免费使用
基于上下文 的算术编码
分布式 编码
2014
哈夫曼 编码
混合编码 块运动估计
场景自适 应编码
隔行编码
容错
高级的去块
效率虑波
视频编码技术前沿与方向
北京大学数字媒体研究所
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
– 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
数字视频应用
传统视频编码技术原理
❖ 传统视频编码方法
– 从信号处理层面入手,以像 素、块为表示基础
多视编码
❖ 多视采集系统
– 线阵排列
多视编码
❖ 多视采集系统
– 弧形排列
多视编码
❖ 采集系统
– 面阵排列
多视编码
❖ 多视点预测编码—H.264 MVC
– 视内预测 – 视间预测:消除视间的冗余
多视编码
❖ H.264 MVC 编码效率
立体视频编码
❖ 立体感的产生
– 视差原理
立体视频编码
❖ 立体电视与自由视点电视
峰值信噪比=6.24
一般认为:峰值信噪比与图像质量近似成正比关系。
结论:1、峰值信噪比度量与人的视觉感知并不完全一致!
2、需要寻求更加符合人类视觉感知的客观度量方法以 及相应的编码理论和方法。
可能突破方向:借鉴视觉感知 机理
❖对视觉感知机理的认识逐渐深入,用于视 频编码的潜力很大
视频编码
JPEG (~14倍) JPEG (~50倍)
– 基于香农信息论,采用混合 编码框架:变换 + 预测 + 熵 编码
❖ 视频编码的极限
– 数学极限 — 熵
– 差别感知能力 — Weber定律, 心理学模型
时间冗余 空间冗余
t
t+1 DCT 感知冗余
视频编码技术发展历程
❖ 编码效率进一步提高已很艰难
– 色彩空间和变换编码已接近最优
– 用计算复杂度换取预测增益的空间越来越小
人类“眼脑”视觉信 系统处理息基本流程
视网膜
侧膝体
视觉信息表示的 基本粒子结构
光学刺激
像素
图像块
视频编码 理论基础
信息论
下颞叶皮质区
局部特征 部件/物体
视觉信息论
视频编码 框架与方法
基于数字信号处理的 框架与方法
基于视觉模型的 框架与方法
基于视觉特性的视频编码
❖ 视觉信息论 —— 从像素到基元(熵) ❖ 质量评价方法 —— 与主观感知一致 ❖ 编码方法 —— 多维度感知编码、分布式视觉编码
香农信息熵 H(X)
像素集
扩展
视觉熵
H(F)
基元词典
基于视觉特性的视频编码
❖ 技术1:纹理分析合成编码*
*Thomas Wiegand: New Techniques for Improved Video Coding
基于视觉特性的视频编码
❖ 纹理分析合成编码*
– 实验结果对比
*Thomas Wiegand: New Techniques for Improved Video Coding
时域可分级
Layer 0: QCIF, 7.5 Hz, 64 kbit/s Layer 1: QCIF, 15 Hz, 128 kbit/s
空域可分级
Layer 2: CIF, 15 Hz, 256 kbit/s
质量可分级 时域可分级
质量可分级
Layer 3: CIF, 15 Hz, 512 kbit/s Layer 4: CIF, 30 Hz, 1024 kbit/s Layer 5: CIF, 30 Hz, 2048 kbit/s
立体视频编码
❖ 立体显示
– 戴眼镜观看:互补色、时分立体电视 – 不戴眼镜即可观看:三维显示器
立体视编码
❖ 多视预测编码 ❖ 深度信息获取
– 立体摄像机直接获取:成本高 – 双目立体匹配方法:匹配点不唯
一问题,遮挡问题 – 单目单图示线索方法 :可利用
图示信息较少,提取深度不准确 – 其他研究:单目多图示线索方法
{MP}1,2 {MP}0
Fra Baidu bibliotek
传统可伸缩编码 GOP boundaries
❖ HM.C2TF6e4nhSanVceCment
L3
H1
H2
H1
H3
H1
H2
H1
L3
– Hilearyaerrchical Picture编码, 完全可兼容AVC的SVC编
码方案, 通过层次预测实现时域可分级编码
AVC Main Profile
✓ 低复杂度边信息编码 ✓ 高复杂度边信息解码
分布式编码应用
❖ 独立、低复杂度编码
– 适合分布式监控、无线传感网络等应用 – 上行:Wyner-Ziv编码器编码码流传送到级站 – 下行:级站进行转码,用通用编码器编码,终端采用通用
低复杂度解码器解码
提纲
❖ 视频编码技术现状简介 ❖ 视频编码技术前沿与方向
A
B3
B2
B3
B1
B3
B2
B3
A
compatible base layer
传统可伸缩编码
❖ H.264 SVC
– SNR可分级:层间预测
Spatial Base Layer
(Layer 0)
reconstructed sequence
L0 L0 L0 L0 L0 L0 L0 L0 L0 L0 L0 L0
基于视觉特性的视频编码
❖ 技术2:基于Inpainting技术的视频编码*
– 码率节省达18%
*D. Liu; X. Sun; F. Wu; S. Li; Y. Zhang, Image Compression With Edge-Based Inpainting, IEEE-TCSVT, Vol. 17, No. 10, Oct. 2007 pp. 1273–1287.
分布式编码系统
❖ Standford DVC编码器
– 以常规方法编码信源Y(Key frame) – 以Wyner-Ziv 编码信源X, 通过Slephian-Wolf Coder传送校验

分布式编码系统
❖ Berkeley DVC编码器
– PRISM (Power-efficient Robust hIgh-compression Syndromebased Multimedia coding):将高效的预测编码模式和帧内预 测编码模式有效的结合起来,相应地需要:
H1 H1 H1 H1 H1 L1 H1 H1 H1 H1 H1 H1
Reconstruction
reconstructed sequence
L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1
多维度可伸缩视频编码
❖ 可伸缩编码框架:融合时域、空域、质量、注意、动态范围 等的多维度可伸缩编码方法
相关文档
最新文档