视频编码技术前沿与方向 ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1989
MPEG-1
1993
1997
2001
2005
2009
2013
2017 年代
15
问题分析:客观指标与主观 感知的差异?
峰值信噪比=5.98
峰值信噪比=6.24
一般认为:峰值信噪比与图像质量近似成正比关系。 结论:1、峰值信噪比度量与人的视觉感知并不完全一致! 2、需要寻求更加符合人类视觉感知的客观度量方法以 及相应的编码理论和方法。
可伸缩编码框架:融合时域、空域、质量、注意、动态范围
等的多维度可伸缩编码方法 注意编码:基于注意模型的感兴趣区域表达、编码及码流优 化截取方法
空域 可伸缩 时域 可伸缩 质量 可伸缩 注意 可伸缩 动态 范围 可伸缩
30
提纲
视频编码技术现状简介
视频编码技术前沿与方向 – 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
Engineering: Fundamentals, Algorithms, and Standards. (Second Edition) by Yun Q. Shi, Huifang Sun. 视频理解方向:Image Processing, Analysis and Machine Vision by (Third Edition) by Milan Sonka, Vaclav Hlavac, Roger Boyle. (Second Edition 有影印版和中文译本) 4
H1 H1 H1 H1 H1 L1 H1 H1 H1 H1 H1 H1
Reconstruction
Spatial Enhancement Layer (Layer 1)
reconstructed sequence
L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1
29
多维度可伸缩视频编码
H1
H2
H1
L3
码方案, 通过层次预测实现时域可分级编码
AVC Main Profile compatible base layer
A
B3
B2
B3
B1
B3
B2
B3
A
28
传统可伸缩编码
H.264 SVC
– SNR可分级:层间预测
reconstructed sequence
L0 L0 L0 L0 L0 L0 L0 L0 L0 L0 L0 L0
视频编码技术前沿与方向 – 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
18
基于视觉特性的视频编码
人类“眼脑”视觉信 系统处理基本流程 息
视网膜 侧膝体
下颞叶皮质区
视觉信息表示的 基本粒子结构
光学刺激
像素
图像块
局部特征 部件/物体
视频编码 理论基础
Spatial upsampling
Spatial Base Layer
(Layer 0)
reconstructed and upsampled sequence
L0* L0* L0* L0* L0* L0* L0* L0* L0* L0* L0* L0*
Base Layer Prediction
temporal subband pictures
二、视频编码技术前沿与方向
10
提纲
视频编码技术现状简介
视频编码技术前沿与方向 – 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
11
数字视频应用
12
传统视频编码技术原理
传统视频编码方法 – 从信号处理层面入手,以像 素、块为表示基础 – 基于香农信息论,采用混合 编码框架:变换 + 预测 + 熵 编码 视频编码的极限 – 数学极限 — 熵 – 差别感知能力 — Weber定律, 心理学模型
信息论
视觉信息论
视频编码 框架与方法
基于数字信号处理的 框架与方法
基于视觉模型的 框架与方法
19
基于视觉特性的视频编码
视觉信息论 —— 从像素到基元(熵)
质量评价方法 —— 与主观感知一致
编码方法 —— 多维度感知编码、分布式视觉编码
香农信息熵 H (X )
像素集 扩展
视觉熵 H (F )
6
考核方法
1、课堂记录与讨论(20%)
2、课程设计(50%)
3、专题报告 (30%)
– 就课程覆盖的高级论题或自选论题(须经教师认可)撰写综述报告,
主要考察文献综述是否比较齐全、报告是否抓住了主要思想及其发展 脉络、能否对未来发展提出独特的思路、报告内容及其组织方式的独 特性。
7
授课教师的构成情况
符合人眼特性的图像/视频质量评价标准
– 块效应、模糊效应、振铃效应的模型表示
图像/视频库
主观质量评价 视觉失真测度模型
25
提纲
视频编码技术现状简介
视频编码技术前沿与方向 – 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
26
传统可伸缩编码
31
多视编码
多视采集系统 – 线阵排列
32
多视编码
多视采集系统 – 弧形排列
33
多视编码
采集系统 – 面阵排列
34
多视编码
多视点预测编码—H.264 MVC – 视内预测 – 视间预测:消除视间的冗余
35
多视编码
H.264 MVC 编码效率
23
基于视觉特性的视频编码
技术3:视觉感知机理与编码 – “像素-基元/纹理-对象-场景” 层次模型 – S. Zhu, UCLA
视觉表示模型 场景 对象 基元、纹理 物理世界模型 世界 物质 原子/分子
原始 图像
感知 图获 取 结构 感知 纹理 区域 估计 合成 纹理
像素
电子
合成 图像
24
基于视觉特性的视频编码
16
可能突破方向:借鉴视觉感知 机理
对视觉感知机理的认识逐渐深入,用于视
频编码的潜力很大
视频编码
JPEG (~14倍) JPEG (~50倍)
群组编码 视觉注意
感知图
运动感知
基于视感知的压缩 (~200倍)
…
[Guo03, ICCV]
稀疏编码 稀疏编码 视觉机理
…
17
提纲
视频编码技术现状简介
课程内容(一)
概论
– 第1讲:视频编码技术前沿与方向
– 第2讲:视频理解技术前沿与方向 – 第3-4讲:数字媒体标准概述
视频编码 – 第5-9讲:视频编码技术 – 第10、11讲:课程论文报告 – 第12讲:三维电视与多视编码 – 第13讲:视频芯片 – 第14讲:视频编码课程设计
5
课程内容(二)
视频分析
– 第15讲:计算机视觉 – 第16讲:计算机动画生成 – 第17讲:模式识别 – 第18讲:机器学习
– 第19讲:多媒体分析与检索
– 第20讲:媒体安全与版权保护 – 第21讲:多媒体检索课程设计 – 第22-23讲:课程论文报告
综合部分
– 第24讲:最新研究报告(外请专家:李卫平、陈长汶、芮勇、杨强等)
基元词典
20
基于视觉特性的视频编码
技术1:纹理分析合成编码*
*Thomas Wiegand: New Techniques for Improved Video Coding
21
基于视觉特性的视频编码
纹理分析合成编码* – 实验结果对比
*Thomas Wiegand: New Techniques for Improved Video Coding
H23 H01 H13 H01 L23 H01 H13 H01 H23 H01 H13 H01
27
传统可伸缩编码
H.264 SVC MCTF enhancement
L3 H1 H2 H1 H3
GOP boundaries
layer – Hierarchical Picture编码, 完全可兼容AVC的SVC编
时间冗余 t
t+1 空间冗余
DCT
感知冗余
13
视频编码技术发展历程
编码效率进一步提高已很艰难 – 色彩空间和变换编码已接近最优 – 用计算复杂度换取预测增益的空间越来越小 – 熵编码提高增益的路也不宽
差分预测 编码调制 变换编码 DCT P帧 宏块 B帧 基于位平面的 可伸缩编码 视频 对象 一般的 B帧
黄铁军博士 (数字版权管理) 王亦洲博士 (计算机视觉)
主讲教师 高文教授
田永鸿博士 (统计学习、媒体 分析与检索)
马思伟博士 (视频编码)
张楠博士 (三维电视) 殷海兵博士 段凌宇博士 (芯片设计)(媒体分析与检索)
ቤተ መጻሕፍቲ ባይዱ
8
联系人
主讲教师:高文
wgao@pku.edu.cn http://www.idm.pku.edu.cn/staff/gaowen.aspx http://www.jdl.ac.cn/htm-gaowen/ 62758602 理科2号楼2641
质量可分级
时域可分级
Layer 3: CIF, 15 Hz, 512 kbit/s
H21
H11
L21
H11
H21
H11
Layer 4: CIF, 30 Hz, 1024 kbit/s
H22 H00 H12 H00 L22 H00 H12 H00 H22 H00 H12 H00
{MP}0
质量可分级
Layer 5: CIF, 30 Hz, 2048 kbit/s
开展更深入的专题科学研究
课程内容
– 视频编码:最新技术、应用前景、学科发展方向。
– 视频分析:计算机视觉、模式识别、媒体分析与检索、媒体安全与版
权保护 – 最新报告:视频编码、媒体分析与检索、数字版权管理、计算机视觉 等
先修课程:本科生课程《数字媒体技术基础》
– 没修过的同学可以旁听本学期课程(周二3-4节,三教407) – 或者从媒体所网站下载去年的讲稿(解压密码62758116)
助讲教师:田永鸿/马思伟
yhtian@pku.edu.cn/ swma@jdl.ac.cn http://idm.pku.edu.cn, http://www.jdl.ac.cn/ 62754541/ 理科2号楼2641
助教:王振宇(zywang@jdl.ac.cn) Office Hours by Appointment 9
基于上下文 的算术编码 分布式 编码
1950
混合编码 哈夫曼 编码 块运动估计
~1985
1999
容错 高级的去块 效率虑波
高精度运 动补偿
2014
多视 编码
专利可免费使用 专利可免费使用
场景自适 应编码
隔行编码
运动矢量 预测
基于对象 的可分级 编码
14
视频编码标准发展历程
ISO/IEC MPEG – MPEG-1, MPEG-2, MPEG-4, MPEG-4 AVC/H.264, MPEG HVC ITU-T VCEG – H.261, H.262(MPEG-2), H.263, H.264, VCEG H.NGC 中国 AVS – AVS-P2, AVS-S 下一代标准? – 方向、技术? 下一代标准 AVS MPEG-4 AVC/H.264 MPEG-4 MPEG-2
22
基于视觉特性的视频编码
技术2:基于Inpainting技术的视频编码* – 码率节省达18%
*D. Liu; X. Sun; F. Wu; S. Li; Y. Zhang, Image Compression With Edge-Based Inpainting, IEEE-TCSVT, Vol. 17, No. 10, Oct. 2007 pp. 1273–1287.
3
课程资料
课程网站
– http://idm.pku.edu.cn/jiaoxue-VCU/index.html – 下载资料、上载作业等
。
参考书目
– 主要是教师提供的资料 – 较为系统的参考教材 视频编码方向:Image and Video Compression for Multimedia
Layer 0: QCIF, 7.5 Hz, 64 kbit/s Layer 1: QCIF, 15 Hz, 128 kbit/s
I
B
P
B
P
B
Spatial upsampling
时域可分级 空域可分级
Layer 2: CIF, 15 Hz, 256 kbit/s
H20
H10
L20
H10
H20
H10
{MP}1,2
《视频编码与理解》课程
第一讲
视频编码技术前沿与方向
北京大学数字媒体研究所 http://www.idm.pku.edu.cn/tutorial/FMM.htm
1
一、课程概要
2
课程概要
授课目的
– 掌握数字媒体所涉及的基本原理和技术,培养解决实际问题的能力 – 深入理解数字媒体技术的前沿研究进展和发展方向,从而引导同学们
MPEG-1
1993
1997
2001
2005
2009
2013
2017 年代
15
问题分析:客观指标与主观 感知的差异?
峰值信噪比=5.98
峰值信噪比=6.24
一般认为:峰值信噪比与图像质量近似成正比关系。 结论:1、峰值信噪比度量与人的视觉感知并不完全一致! 2、需要寻求更加符合人类视觉感知的客观度量方法以 及相应的编码理论和方法。
可伸缩编码框架:融合时域、空域、质量、注意、动态范围
等的多维度可伸缩编码方法 注意编码:基于注意模型的感兴趣区域表达、编码及码流优 化截取方法
空域 可伸缩 时域 可伸缩 质量 可伸缩 注意 可伸缩 动态 范围 可伸缩
30
提纲
视频编码技术现状简介
视频编码技术前沿与方向 – 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
Engineering: Fundamentals, Algorithms, and Standards. (Second Edition) by Yun Q. Shi, Huifang Sun. 视频理解方向:Image Processing, Analysis and Machine Vision by (Third Edition) by Milan Sonka, Vaclav Hlavac, Roger Boyle. (Second Edition 有影印版和中文译本) 4
H1 H1 H1 H1 H1 L1 H1 H1 H1 H1 H1 H1
Reconstruction
Spatial Enhancement Layer (Layer 1)
reconstructed sequence
L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1 L1
29
多维度可伸缩视频编码
H1
H2
H1
L3
码方案, 通过层次预测实现时域可分级编码
AVC Main Profile compatible base layer
A
B3
B2
B3
B1
B3
B2
B3
A
28
传统可伸缩编码
H.264 SVC
– SNR可分级:层间预测
reconstructed sequence
L0 L0 L0 L0 L0 L0 L0 L0 L0 L0 L0 L0
视频编码技术前沿与方向 – 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
18
基于视觉特性的视频编码
人类“眼脑”视觉信 系统处理基本流程 息
视网膜 侧膝体
下颞叶皮质区
视觉信息表示的 基本粒子结构
光学刺激
像素
图像块
局部特征 部件/物体
视频编码 理论基础
Spatial upsampling
Spatial Base Layer
(Layer 0)
reconstructed and upsampled sequence
L0* L0* L0* L0* L0* L0* L0* L0* L0* L0* L0* L0*
Base Layer Prediction
temporal subband pictures
二、视频编码技术前沿与方向
10
提纲
视频编码技术现状简介
视频编码技术前沿与方向 – 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
11
数字视频应用
12
传统视频编码技术原理
传统视频编码方法 – 从信号处理层面入手,以像 素、块为表示基础 – 基于香农信息论,采用混合 编码框架:变换 + 预测 + 熵 编码 视频编码的极限 – 数学极限 — 熵 – 差别感知能力 — Weber定律, 心理学模型
信息论
视觉信息论
视频编码 框架与方法
基于数字信号处理的 框架与方法
基于视觉模型的 框架与方法
19
基于视觉特性的视频编码
视觉信息论 —— 从像素到基元(熵)
质量评价方法 —— 与主观感知一致
编码方法 —— 多维度感知编码、分布式视觉编码
香农信息熵 H (X )
像素集 扩展
视觉熵 H (F )
6
考核方法
1、课堂记录与讨论(20%)
2、课程设计(50%)
3、专题报告 (30%)
– 就课程覆盖的高级论题或自选论题(须经教师认可)撰写综述报告,
主要考察文献综述是否比较齐全、报告是否抓住了主要思想及其发展 脉络、能否对未来发展提出独特的思路、报告内容及其组织方式的独 特性。
7
授课教师的构成情况
符合人眼特性的图像/视频质量评价标准
– 块效应、模糊效应、振铃效应的模型表示
图像/视频库
主观质量评价 视觉失真测度模型
25
提纲
视频编码技术现状简介
视频编码技术前沿与方向 – 基于视觉特性的编码 – 多维度可伸缩编码 – 多视/立体视编码 – 分布式编码 – 下一代视频编码标准
26
传统可伸缩编码
31
多视编码
多视采集系统 – 线阵排列
32
多视编码
多视采集系统 – 弧形排列
33
多视编码
采集系统 – 面阵排列
34
多视编码
多视点预测编码—H.264 MVC – 视内预测 – 视间预测:消除视间的冗余
35
多视编码
H.264 MVC 编码效率
23
基于视觉特性的视频编码
技术3:视觉感知机理与编码 – “像素-基元/纹理-对象-场景” 层次模型 – S. Zhu, UCLA
视觉表示模型 场景 对象 基元、纹理 物理世界模型 世界 物质 原子/分子
原始 图像
感知 图获 取 结构 感知 纹理 区域 估计 合成 纹理
像素
电子
合成 图像
24
基于视觉特性的视频编码
16
可能突破方向:借鉴视觉感知 机理
对视觉感知机理的认识逐渐深入,用于视
频编码的潜力很大
视频编码
JPEG (~14倍) JPEG (~50倍)
群组编码 视觉注意
感知图
运动感知
基于视感知的压缩 (~200倍)
…
[Guo03, ICCV]
稀疏编码 稀疏编码 视觉机理
…
17
提纲
视频编码技术现状简介
课程内容(一)
概论
– 第1讲:视频编码技术前沿与方向
– 第2讲:视频理解技术前沿与方向 – 第3-4讲:数字媒体标准概述
视频编码 – 第5-9讲:视频编码技术 – 第10、11讲:课程论文报告 – 第12讲:三维电视与多视编码 – 第13讲:视频芯片 – 第14讲:视频编码课程设计
5
课程内容(二)
视频分析
– 第15讲:计算机视觉 – 第16讲:计算机动画生成 – 第17讲:模式识别 – 第18讲:机器学习
– 第19讲:多媒体分析与检索
– 第20讲:媒体安全与版权保护 – 第21讲:多媒体检索课程设计 – 第22-23讲:课程论文报告
综合部分
– 第24讲:最新研究报告(外请专家:李卫平、陈长汶、芮勇、杨强等)
基元词典
20
基于视觉特性的视频编码
技术1:纹理分析合成编码*
*Thomas Wiegand: New Techniques for Improved Video Coding
21
基于视觉特性的视频编码
纹理分析合成编码* – 实验结果对比
*Thomas Wiegand: New Techniques for Improved Video Coding
H23 H01 H13 H01 L23 H01 H13 H01 H23 H01 H13 H01
27
传统可伸缩编码
H.264 SVC MCTF enhancement
L3 H1 H2 H1 H3
GOP boundaries
layer – Hierarchical Picture编码, 完全可兼容AVC的SVC编
时间冗余 t
t+1 空间冗余
DCT
感知冗余
13
视频编码技术发展历程
编码效率进一步提高已很艰难 – 色彩空间和变换编码已接近最优 – 用计算复杂度换取预测增益的空间越来越小 – 熵编码提高增益的路也不宽
差分预测 编码调制 变换编码 DCT P帧 宏块 B帧 基于位平面的 可伸缩编码 视频 对象 一般的 B帧
黄铁军博士 (数字版权管理) 王亦洲博士 (计算机视觉)
主讲教师 高文教授
田永鸿博士 (统计学习、媒体 分析与检索)
马思伟博士 (视频编码)
张楠博士 (三维电视) 殷海兵博士 段凌宇博士 (芯片设计)(媒体分析与检索)
ቤተ መጻሕፍቲ ባይዱ
8
联系人
主讲教师:高文
wgao@pku.edu.cn http://www.idm.pku.edu.cn/staff/gaowen.aspx http://www.jdl.ac.cn/htm-gaowen/ 62758602 理科2号楼2641
质量可分级
时域可分级
Layer 3: CIF, 15 Hz, 512 kbit/s
H21
H11
L21
H11
H21
H11
Layer 4: CIF, 30 Hz, 1024 kbit/s
H22 H00 H12 H00 L22 H00 H12 H00 H22 H00 H12 H00
{MP}0
质量可分级
Layer 5: CIF, 30 Hz, 2048 kbit/s
开展更深入的专题科学研究
课程内容
– 视频编码:最新技术、应用前景、学科发展方向。
– 视频分析:计算机视觉、模式识别、媒体分析与检索、媒体安全与版
权保护 – 最新报告:视频编码、媒体分析与检索、数字版权管理、计算机视觉 等
先修课程:本科生课程《数字媒体技术基础》
– 没修过的同学可以旁听本学期课程(周二3-4节,三教407) – 或者从媒体所网站下载去年的讲稿(解压密码62758116)
助讲教师:田永鸿/马思伟
yhtian@pku.edu.cn/ swma@jdl.ac.cn http://idm.pku.edu.cn, http://www.jdl.ac.cn/ 62754541/ 理科2号楼2641
助教:王振宇(zywang@jdl.ac.cn) Office Hours by Appointment 9
基于上下文 的算术编码 分布式 编码
1950
混合编码 哈夫曼 编码 块运动估计
~1985
1999
容错 高级的去块 效率虑波
高精度运 动补偿
2014
多视 编码
专利可免费使用 专利可免费使用
场景自适 应编码
隔行编码
运动矢量 预测
基于对象 的可分级 编码
14
视频编码标准发展历程
ISO/IEC MPEG – MPEG-1, MPEG-2, MPEG-4, MPEG-4 AVC/H.264, MPEG HVC ITU-T VCEG – H.261, H.262(MPEG-2), H.263, H.264, VCEG H.NGC 中国 AVS – AVS-P2, AVS-S 下一代标准? – 方向、技术? 下一代标准 AVS MPEG-4 AVC/H.264 MPEG-4 MPEG-2
22
基于视觉特性的视频编码
技术2:基于Inpainting技术的视频编码* – 码率节省达18%
*D. Liu; X. Sun; F. Wu; S. Li; Y. Zhang, Image Compression With Edge-Based Inpainting, IEEE-TCSVT, Vol. 17, No. 10, Oct. 2007 pp. 1273–1287.
3
课程资料
课程网站
– http://idm.pku.edu.cn/jiaoxue-VCU/index.html – 下载资料、上载作业等
。
参考书目
– 主要是教师提供的资料 – 较为系统的参考教材 视频编码方向:Image and Video Compression for Multimedia
Layer 0: QCIF, 7.5 Hz, 64 kbit/s Layer 1: QCIF, 15 Hz, 128 kbit/s
I
B
P
B
P
B
Spatial upsampling
时域可分级 空域可分级
Layer 2: CIF, 15 Hz, 256 kbit/s
H20
H10
L20
H10
H20
H10
{MP}1,2
《视频编码与理解》课程
第一讲
视频编码技术前沿与方向
北京大学数字媒体研究所 http://www.idm.pku.edu.cn/tutorial/FMM.htm
1
一、课程概要
2
课程概要
授课目的
– 掌握数字媒体所涉及的基本原理和技术,培养解决实际问题的能力 – 深入理解数字媒体技术的前沿研究进展和发展方向,从而引导同学们