电子学会:视频编码技术进展与发展趋势
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
视频编码技术发展报告
马思伟王诗淇张贤国张新峰余琴高文
1引言
数字图像/视频自上世纪50年代随着信息的数字化发展而出现并兴起,但随之而来的问题是数字化后的图像/视频其数据量急剧增加,远远超过了存储空间和传输带宽的承受能力,给数字视频应用带来了很大的限制。
因此,视频压缩成为数字视频领域的核心问题之一,几十年来学术界和工业界都对其进行了长期而又深入的研究,并取得重要进展。
数字视频由在空间和时间上连续采样的离散信号组成,由于采样数据存在着大量的冗余,为压缩提供了可能性。
一般将这些冗余归纳为空域冗余、时域冗余和统计冗余三大类。
早期的视频压缩技术由于在硬件上受到计算和存储资源的限制,主要是通过统计编码的办法降低数据的统计冗余,比如哈夫曼码、哥伦布码等编码方法。
上世纪60年代后期,出现了变换编码技术,即通过将信号从空域变换到频域消除数据在空间上的相关性,从而降低冗余达到压缩的目的,如富立叶变换、哈达码变换等。
对于时域冗余,一般使用基于预测的编码方法,亦即预测编码。
最早的预测编码系统模型是1952年贝尔实验室Culter[Cult er 52]等人实现的差值脉冲编码调制DPCM(Differential Pulse Code Modulation)系统,其基本思想是不直接对信号进行编码,而是用前一信号对当前信号做出预测,对当前信号与预测值的差值进行编码传送。
同年Oliver[Oliver 52]和Harrison[Harrison
52]将DPCM技术应用到视频编码中进行空域的相邻像素预测编码。
1969年,运动补偿预测技术使得预测编码性能获得极大的改进,至70年代中期,预测编码开始与变换编码结合起来使用,到80年代已形成了经典的预测/变换混合编码框架,这一编码框架后来广泛应用于MPEG和H.26x系列编码标准,直至今天的新一代HEVC/H.265国际标准也是基于这一框架。
预测/变换编码技术主要是从信号处理的角度对视频信号进行去相关去冗余处理,以峰值信噪比和码率节省等客观指标衡量压缩效率,而人作为观看者会给出最直接也是最终的视频质量评价。
在人观看视频的过程中,人眼的视觉特性是影响视频质量评价的决定性因素。
基于这一点,研究者在进行信号处理压
缩研究的同时提出了基于视觉特性的视频压缩方法,比如早在1959年,Schreibe r等提出一种称为“Synthetic Highs”的编码方法[Schreiber 59],即在编码时将图像内容分为纹理和边缘两类,针对纹理采用统计的方法进行编码,而对边缘信息采用视觉模型编码方法。
这方面的后续研究还有基于轮廓或分割的编码、基于对象的编码、纹理分析合成编码、视觉编码等等,一般可以统一归类为广义上的基于模型的编码。
在本报告的第二节中我们将对以上两种类型编码技术的发展历程进行简单介绍,并针对预测/变换编码框架介绍国际/国内标准的情况,此外还对与应用密切相关的编码技术,如多视/立体视频编码、可伸缩编码、分布式编码、容错编码等,进行了简单介绍。
本报告的第三节主要是对视频编码技术的近期进展进行介绍,包括以HEVC/H.265为代表的混合框架编码技术,3DV立体视频编码技术,基于视觉特性的编码,以及监控视频压缩、屏幕视频压缩等新兴应用相关的视频编码技术。
2视频编码技术发展历程
2.1.基于预测/变换框架的传统编码技术
图1给出了视频编码关键技术出现的历史顺序,C. Reader在其论述“History of MPEG”中对以往视频编码技术的发展历程进行了很好的归纳和总结[Reader 02]。
这些技术在发展过程中逐渐融合,形成了以块为单位的预测/变换的混合
编码框架,成为当今国际、国内编码标准普遍采用的技术框架,主要包括预测、变换、熵编码等关键技术,下面简要介绍其发展历程。
图1. 视频编码技术发展时间轴[Reader 02]
2.1.1.预测编码
预测编码即利用信号间的相关性,用前面一个或多个信号作为当前信号的
预测值,对当前信号的实际值与预测值的差进行编码。
预测技术在视频编码中有着重要的应用,在现代视频编码中包括帧内预测技术和帧间预测技术两种,分别用于消除空域冗余及时域冗余。
Harrison在1952年首先对帧内预测技术进行了研究,其方法是用已编码像素的加权和作为当前像素的预测值[Harrison
52],研究中比较了一维(同一行内像素)DPCM技术及二维(多行内的相邻像素)D PCM技术的性能。
在现代视频编码中,采用了基于块的帧内预测技术,这主要是考虑到与基于块的变换量化技术的统一以及实现代价。
基于块的帧内预测技术在现代视频编码标准中的应用有MPEG-4标准中相邻块的频域系数预测,如D C预测及AC预测,H.264/A VC以及A VS标准中的多方向空间预测技术。
Seyler在1962年发表的关于帧间预测编码的研究论文[Seyler
62]奠定了现代帧间预测编码的基础。
他提出视频序列相邻帧间存在很强的相关性,因此对视频序列编码只需编码相邻帧间的差异,并指出相邻帧间的差异是由于物体的移动、摄像机镜头的摇动及场景切换等造成的。
在此之后,帧间预测技术的发展经历了条件更新(Conditional Replenishment)[Mounts 69]、3D-DPCM[Candy 71]、基于像素的运动补偿[Netravali 79]等几个阶段,最终从有效性及可实现性两方面综合考虑,确定了基于块的运动补偿[Koga
81]方案。
现代视频编码系统都采用了基于块运动补偿的帧间预测技术,用于消除时域冗余。
为了提高帧间预测的精度,基于块的运动补偿方案又从多个方面进行了完善。
在MPEG-1标准制定过程中发展出了双向预测技术[Thomas
87],即当前帧的预测值可以同时从前向参考帧和后向参考帧获得。
双向预测技术可以解决新出现区域的有效预测问题,并能够通过前后向预测值的平均来有效去除帧间噪声。
在H.264/A VC标准中,可支持的帧间预测结构更加灵活,如
层次B帧(Hierarchical B-picture)预测结构[Reichel 04] [Flierl 03],在此结构下,可以根据参考帧的层级关系来进行更优的比特分配,从而提高整体编码效率。
在预测精度上,从整像素预测到1/2像素预测以及1/4像素预测,编码效率分别提高了2dB以及1dB左右。
在预测块尺寸及预测模式上,16×16
块的整体预测演进为H.264/A VC标准中出现的最小块为4×4的可变块大小预测技术[Wiegand
03],预测模式也更加多样来处理不同的帧间运动情况,如跳过模式(skip mode) [Wiegand 03]、直接模式(direct mode)[Tourapis 05] [Ji 04a] [Ji 04b]和对称模式[Ji 04b]等。
在多参考方面,出现了重叠块运动补偿(Overlapped Block Motion Compensation, OBMC)技术[Orchard 94],多参考帧预测技术[Wiegand 03]以及更一般化的多假设预测技术[Flierl
02],这些技术都进一步提高了预测效率。
2.1.2.变换编码
变换是图像或视频编码中最有效的技术之一,首先对图像进行正交变换以去除空间像素之间的相关性,也就是变换后的频域系数是图像信息更加紧凑的表示,这有利于编码压缩。
另一方面,正交变换使得原先分布在每个像素上的能量集中到频域的少数几个低频系数上,这代表了图像的大部分信息,而高频系数值较小是与大多数图像的高频信息较少相一致的。
根据变换的这一特点,有选择的编码部分显著的频域信号,丢弃不显著的频域信号,可以达到提高压缩效率的目的。
能够满足以上两个特性的最佳变换是K-L变换,但最佳K-L变换的设计依赖输入信号的统计特性。
针对特定的输入信号,得到其最佳K-L变换
矩阵需要较高的计算量,这限制了其在实际编码系统中的应用。
K-L变换的较
好近似是DCT变换[Ahmed
74]。
DCT变换不依赖于输入信号的统计特性,且DCT变换有快速算法,因此D CT变换得到了广泛应用。
考虑到实现的复杂性,不是对整幅图像直接进行DCT 变换,而是把图像分成不重叠的固定大小块,对每个图像块进行DCT变换。
MP EG-2、H.263以及MPEG-4都采用了8×8
DCT变换。
这些标准中的DCT变换技术采用了浮点DCT来实现,浮点计算会引入较高的运算量,同时如果浮点精度不作规定的话,解码器会出现“误差漂移”。
Bjontegaard提出了用整数变换技术[Bjontegaard
97]来解决这个问题,同时整数变换只需加法和移位操作即可实现,计算复杂度低。
最新的H.264/A VC及A VS标准都采用了整数DCT变换技术[Malvar 03] [Ma 06]。
DCT变换技术的另一个重要进展是H.264/A VC标准制定过程中出现了自适应块大小变换技术(Adaptive Block-size Transforms, ABT)[Wien
03]。
ABT的主要思想是用与预测块相同尺寸的变换矩阵对预测残差去相关,这样不同块尺寸的预测残差系数的相关性都可以被充分地利用到。
ABT技术可带来1dB的编码效率提高。
变换技术的另一个重要进展是离散小波变换(Discrete Wavelet Transform, DWT)[Mallat 89a] [Mallat 89b]技术,DWT具有多分辨率多频率时频分析的特性,信号经DWT分解为不同频率的子带后更易于编码,并且采用适当的熵编码技术编码码流自然地具有嵌入式特性。
JPEG2000图像编码标准建立在DWT技术之上,MPEG-4标准也采用DWT技术对纹理信息进行编码[Sodagar
99]。
此外,采用DWT技术的视频编码方案也进行了深入研究[Taubman 94] [Ohm 94] [Choi 99] [Chen 02]。
2.1.
3.熵编码
熵编码技术是视频编码系统中的基础性关键技术之一,熵编码的目标是去除信源符号在信息表达上的表示冗余,也称为信息熵冗余或者编码冗余。
1971年,Tasto和Wintz首次将熵编码应用到图像编码中[Tasto
71]。
在他们的方案中,对量化后的每个系数进行变长编码。
1976年,Tescher在他的自适应变换编码[Tescher
76]方案中首次提出了DCT系数的高效组织方式即zig-zag扫描。
Chen在1981年利用Huffman码构造了两个变长码表[Chen
81],分别用于扫描产生的非零系数和连续零系数游程的编码。
1986年Chen又采用变长码联合编码非零系数与零系数游程,这一方法被称为2D-VLC。
这是利用联合熵提高熵编码效率的一个实例,这一技术被应用到H.261、MPEG-1及MPE G-2标准中。
在H.263及MPEG-4标准中,采用了3D-VLC,联合编码非零系数、零系数游程以及是否是最后一个非零系数的信息。
算术编码是另一类重要的熵编码方法。
算术编码的思想在香农的信息论中就已经提出,1979年Rissanen和L angdon提出了可实际应用的算术编码方法[Rissanen 76][Rissanen 79]。
算术编码在平均意义上可为单个符号分配码长小于1的码字,通常算术编码具有比变长编码更高的编码效率。
为进一步提高熵编码效率,发展了基于上下文的熵编码。
基于上下文的熵编码由上下文建模与编码两个技术模块构成。
编码可通过变长编码或算术编码来实现。
上下文建模挖掘了高阶条件熵,因此提高了编码效率。
一些较典型的
基于上下文的熵编码方法包括,无损图像编码中的LOCO-I [Weinberger 00]与CALIC(Context-Based Adaptive Lossless Image Coding)[Wu 97],JPEG2000标准中的EBCOT(Embedded Block Coding with Optimized Truncation)[Taubman 00],A VS视频编码标准中的C2DVLC(Context-based Two Dimension Variable Length Coding)[Wang 06]与CBAC(Context-based Binary Arithmetic Coding)[Zhang 07],H.264/A VC标准中的CA VLC(Context-based Adaptive Variable Length Coding)[Bjontegaard 02]与CABAC(Context-based Adaptive Binary Arithmetic Coding)[Marpe 03]等。
2.2.基于模型的编码
基于预测/变换框架的编码技术主要是从信号处理的角度对视频数据进行去冗余处理,主要是消除前面提到的空间、时间冗余以及统计冗余,此外还有一种特殊的冗余称谓知识冗余,即图像中所包含的某些信息与人们的一些先验知识有关。
例如人脸的图像有固定的结构,五官间的相互位置信息就是一些常识。
这类规律性的结构可由先验知识和背景知识得到,根据已有的知识,可以构造某些图像中所包含的物体的基本模型,并创建对应各种特征的图像库,这样,图像的存储只需要保存一些特征参数,从而可以大大减少数据量,这就是基于模型的编码。
许多早期的研究[Forchheimer 84] [Welsh 87] [Aizawa 88] [Aizawa 89]提出使用语义上的人脸和头肩模型辅助编码过程。
直到Musmann在文献[Mus mann
89]中提出打破基于分块的编码转而以对象为单位编码形状、颜色信息和预测残差。
在此基础上,[Wang 94] [Chai 97] [Martins 98]进一步专门为监控视频设计了这种面向对象的方法。
伴随着MPEG-4[Richards on
03]面向对象标准的制定,继承了基于背景建模和背景剪除的更准确对象检测、跟踪、识别、分割的最新成果后[Toyama 99],[Haritaoglu 00] [Elgammal 02] [Elgammal 00] [Heikh 05] [Cheng 11] [Suhr 10] [Ding 10], Francois等提出了一种基于准确区域分割的面向对象的视频编码方法[Francois 97]。
针对监控视频,为了实现更高效的存储,[Vetro
03]开始关注于对对象的分割,并且忽略监控视频中的背景。
为了保证背景质量
不至于太差,[Babu 06][Hakeem 05]提出在混合编码框架下编码背景残差,并且将前景残差和前景表示残差一起进行编码
2.3.多视点/立体视频编码
对于自然视频表示的多视点视频,直接利用现存的基于块匹配的混合编码框架是非常合适的一个选择。
MPEG-2标准的多视点编码档次(Multiview Profile, MVP)和MPEG-4的多重辅助组件(Multiple Auxiliary Components, MAC)就是两种多视点编码框架。
这两种框架是标准兼容的,既保证了时域方
向的压缩效率,又利用了视间的视差补偿技术提高了压缩效率。
从2001年开始,MPEG组织一直在进行三维音视频的标准化实验工作。
2005年针对多点视频编码进行的提案征集,引起了广泛的关注。
此后的多数提案是基于H.264/AVC 的编码框架,因此,MPEG和VCEG组织决定一起制定多视点视频编码,将其作为H.264/AVC的一个增补工作,即H.264 MVC[Vetro 08]。
传统的立体视频技术通过显示两路视频形成立体感,这种立体视频表示格式的虚拟视点合成能力较差,并不适合于交互式浏览的应用。
基于“纹理+深度”的表示格式,通过视点合成技术可以支持连续交互的立体视频应用,这里的纹理指彩色二维视频,而深度数据可以看作是只包含亮度分量的单色视频信号,如图2所示,图中展示了一幅纹理图像和相应的深度图。
深度范围限制在Z near和Z far之间,这两个端点分别对应于场景的最近和最远深度,深度范围用8位灰度图表示,最近距离点对应255,而最远距离点对应0。
这样,具有时域关系的深度图序列可以当作视频信号被任何一种视频编码方法进行压缩。
图2. 基于“纹理+深度”的三维视频表示格式(Breakdancers序列)
基于“纹理+深度”表示的立体视频首先要通过深度提取来形成深度图。
深度图的生成目前主要通过两种方法得到:一种方法是通过立体摄像头直接采集场景深度,如以色列3DV
Systems公司生产的深度立体摄像头Zcam为代表的深度获取设备,但因其有较
严格的拍摄条件(比如拍摄距离在2.5米之内等),大大限制了该类设备的广泛使用;另一种方法是通过算法从采集到的普通二维视频中生成深度图[Tam
06],可分为针对多路摄像机和单路摄像机的处理方法[Stoykova
07],主要是通过立体视计算的方法,包括校正、分割、视差匹配等计算得到深度图,其算法复杂度较高[Fehn
06][Zitnick04]。
深度图的生成是一个比较复杂的视觉处理问题,由于遮挡、亮度差异以及采集失真等影响,很难得到真实的三维深度图,研究人员还在积极寻求高效的深度获取方法。
2.4.可伸缩编码
随着80年代后网络通信的发展及普及,基于网络的音视频应用日益深入和广泛。
在这一新的应用环境下,如何应对网络带宽波动、网络异构等问题,给编码提出了新的技术要求,可伸缩编码(Scalable Video Coding, SVC)技术应运而生。
可伸缩编码的目标是在完成传统编码功能的前提下生成嵌入式码流。
嵌入式的码流组织方式是图像/视频编码系统提供质量、分辨率等可伸缩特性的必要技术手段。
嵌入式码流根据对解码图像质量贡献的大小对编码比特进行组织,将对解码质量贡献大的比特放在码流前端,并且支持码流的任意截断,即抽取部分码流可支持低质量的解码,随着更多比特送到解码器解码质量可连续增加。
可伸缩熵编码主要分为两类:一类是FGS(Fine Granularity Scalability)/PFGS(Progressive Fine Granularity Scalability)编码系统中DCT系数的位平面熵编码方法,如MPEG-4标准采用的位平面编码[Li 98] [Ling
99]等;另一类是小波编码系统中的小波子带系数熵编码方法,如EZW(Embedde
d Zerotre
e Wavelet)[Shapiro 93]、SPIHT(Set Partitioning In Hierarchical Trees)[Said
96]和EBCOT等。
H.264/A VC标准制定后也开展了可伸缩编码标准的制定工作,并最终制定了H.264 SVC扩展部分标准,最近HEVC也正在制定HEVC
SVC扩展部分的标准。
2.5.分布式编码
在现有的MPEG及H.26x系列视频编码标准中,编码器的计算复杂度一般是解码器的5到10倍[Girod
05],这种编码结构适用于对视频内容进行一次压缩和多次解码的应用,例如广播、视频点播等。
然而,随着无线传感器、手机、数字摄像机、PDA等无线和移动设备的普及,人们对信息的获取和处理更多地存在于一种分布式的环境中,上述的视频编码标准已不能满足需求。
因而,迫切需要一种与分布式环境相适应的视频编码技术。
Slepian-Wolf理论[Slepian
73]证明,如果两个相关信源在编码端独立编码而在解码端联合解码,那么可以达到与联合编码联合解码相同的压缩效率。
分布式视频编码技术把开销最大的运动估计与补偿模块移至解码器端实现,从而颠覆了现有编解码器的复杂度分配,实现了低复杂度的编码系统[Girod
05]。
除此之外,分布式编码技术的另一个优势是其固有的容错性能[Girod
05][Puri 02][Puri 03a][Puri 03b] [Puri 07]。
在传统的混合式编码中,编码器对预测残差进行编码,因而要求编解码器获得完全一致的预测图像作为辅助信息(side
information)。
在传输信道不稳定的情况下,一旦出现丢失信息包或丢失信息帧的现象,解码器将无法获得预期的辅助信息,从而导致解码的视频质量受到极大影响,而且解码的错误影响会在之后的多个帧累积直至下一个关键帧(帧内预测编码帧)。
而在分布式编码中,信源信号独立于相关的辅助信息进行编码,这样就极大地降低了对于编解码器预测信息必须一致的限制,使分布式编码生成的码流对于信道传输中的错误拥有了很好的鲁棒性。
实际的分布式视频编码系统是由斯坦福大学和加州大学伯克利分校首先提出的[Girod 05][Puri 02][Puri 03a][Puri 03b][Puri 07],他们分别提出两种不同的分布式视频编码框架。
斯坦福大学的Girod等人
提出的视频编码系统[Girod
05]以每一个视频帧为单位进行编码,基于速率兼容收缩卷积码(Rate-Compatible Punctured Code, RCPC)实现[Hagenauer 88],码率的自适应需要借助解码器到编码器的反馈信道来控制。
这一系统存在以下两方面的问题,首先基于整帧的编码忽略了每个块不同的相关性,因此编码不够精确,对信道不稳定造成的信息丢失处理不够灵活。
此外,控制码率自适应的反馈信道加重了网络的负担和不必要的延迟等待,而且解码器必须在线解码,这在很多应用中都难以实现。
而Puri等提出的系统[Puri
02]则以每个视频块为单位进行编码,估计每个块的相关性,采用与之相适应的特征编码,解码器进行运动估计,对于每一个可能的辅助信息块进行一次解码,通过循环冗余校验比特进行校验。
这一系统去除了反馈信道,消除了编解码器同步的负担,可以更广泛地应用于实际的视频应用环境中,但是编码效率不如Girod等提出的系统。
在无法获得精确辅助信息的情况下,如何在编码器端准确地估计相关性是一个至关重要的问题,也是分布式视频编码中的难点。
同时,当搜索过程中的解码结果超出循环冗余校验码的校验能力时,如何辨别错误的辅助信息块从而避免解码视频中的失真,是这一编码框架需要解决的一个关键问题。
此后几年,研究人员对分布式编码进行了大量的研究,但目前其编码效率相比于混合框架编码技术依然较低。
2.6.容错编码
容错编码的目标是使码流具有一定的抗误码能力,可以通过多种手段来实现,其中一种方法是构造具有抗误码能力的码字,如可逆变长码(Reversible VLC, RVLC)[Takishima 95] [Wen 97]、SSVLC (Self-synchronizing VLC)[Ferguson 84]、FLC(Fixed-length Entropy Coding)[Bernaus 98]等。
另一种方法是对编码后码流进行处理,典型的有EREC(Error Resilient Entropy Coding)方法[Redmill 96]。
抗误码算术编码也有相应的研究成果,如可逆算术码[Chuang
00]、自纠错算术码[Grangetto 03]等。
2.7.视频编码标准
在视频技术发展的过程中,国内外标准化工作组织在过去几十年中相继制
定了多种视频编码标准。
国际上主要有两大国际组织专门进行视频编码标准的制定工作,即ISO/IEC下的MPEG组织与ITU-T的VCEG(Video Coding Experts Group)组织。
成立于1986年的运动图像专家组MPEG专门负责制定多媒体领域
内的相关标准,主要应用于存储、广播电视、因特网或无线网上的流媒体等。
国际电信联盟ITU则主要制定面向实时视频通信领域的视频编码标准,如视频
电话、视频会议等应用。
中国于2002年6月成立的A VS工作组负责为国内多媒体工业界制定相应的数字音视频编码标准。
图3列出了到目前为止由国内外各组织已经制定的编码标准。
MPEG组织在1992制定了面向VCD(Video Compact Disk)应用的MPEG-1标准(启动于1988年,是ITU
H.261的一个超集),数据速率在1.5Mbps左右;1994年发布了面向DVD,数字视频广播等应用的MPEG-2标准(启动于1990年),适用于1.5-60Mbps甚至更高码率;1998年制定了面向低码率传输的MPEG-4标准(于1993年启动,以MPEG-2,H. 263为基础)。
国际电信联盟ITU基本上与MPEG的发展同步,也制定了一系列的H.26x标准。
开始于1984年的H.261标准是MPEG-1标准的前驱,于1989年基本完成,主要是为了在ISDN上实现可视电话、视频会议而制定的。
在H.261的基础上,996年ITU-T制定了H.263编码标准(启动于1992年),相继又推出了H.263+,
H.263++等。
2001年ITU-T和MPEG联合成立了JVT(Joint Video Team)工作组制定了一个新的视频编码标准,标准在ISO中称为MPEG-4标准的第10部分(MPEG-4 Part10 A VC),在ITU中称为H.264标准。
H.264/A VC标准的编码效率比以往任何标准都大大提高。
随着研究的不断深入,两大标准组织采用了类似H.264/A VC的研究模式,
进行合作开发,成立了称为JCT-VC (Joint Collaborative Team on Video Coding)的联合组织进行下一代视频编码的开发,并将下一代编码标准也统一改称为HEVC(High Efficiency Video Coding),并于2013年1月正式颁布为国际标准。
A VS工作组于2003年开始启动拥有自主知识产权的A VS标准,并于2006年成为正式国家标准。
2007年,A VS标准被接受国际电信联盟远程通信标准化组
织焦点组(ITU-TFG
IPTV)采纳为交互式网络电视(IPTV)的解决方案之一。
2009年,在集成了面向不同应用档次(移动、监控、加强)的编码技术后,形成了A VS1-P2标准修订版第一版,2012年面向广播电视应用的A VS+(A VS1-P16)成为广播电视行
业标准。
2012年在定义了面向立体、广播、监控加强等应用的技术后,形成了A VS1-P2修订版第二版。
近来,国内标准组织A VS也在积极参与新一代视频编码标准的制定与国际合作,已经开始制定A VS 2.0标准,截止第44次A VS会议,已经取得相比于A VS1.0 40%左右的码率节省。
图3. 视频压缩标准的发展历程
3视频编码技术近期进展
3.1.HEVC视频编码技术
本节将从预测、变换、量化、扫描、熵编码五个方面,通过比较H.264,A VS,HEVC的主要区别来介绍HEVC标准。
1)编码、预测、变换的基本单元:在H.264/A VC中,一个16×16的宏块可划分成从16×16到4×4共7种不同帧间预测尺寸模式和16×16,8×8,4×4三种帧内预测尺寸模式。
这种灵活、细微的宏块预测划分,可以更切合图像中的不同运动物体的形状。
A VS去掉了小于8×8大小块的帧间预测模式,保留了8×8大小的帧内预测模式和4x4大小的帧内预测模式。
因为使用小于8×8大小的块运动估计时,对高分辨率图像编码性能影响较小,而且仅适用8×8的帧内预测也可以在低复杂度下不明显降低编码性能。
而在HEVC中,编码的基本单元的大小从H.264与A VS的16×16(宏块)扩展到了64×64(编码树单元,Coding Tree Unit,CTU),的超大宏块以便于高分辨率视频的压缩。
为了更有效的进行数据的压缩,,HEVC对编码单元采用了更加灵活的方式对CTU进行的表示:编码。