H264视频压缩标准的研究和实现

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

电子科技大学硕士学位论文
们仅在制定Ｈ２６２／ＭＰＥＧ一２标准时有过合作。

但在上世纪９０年代末期，ＩＴＵ～Ｔ和ＩＳＯ／ＩＥＣＪＴＣｌ决定合作开发由ＩＴＵ—Ｔ率先提出的Ｈ２６４协议标准。

图ｌ＿２直观反映了两大组织发展各自标准以及合作的情况。

目前，Ｈ２６１主要用于视频电视会议的视频编码；Ｈ２６３主要用于模拟电话线路传输视频会议和连接到Ｉｎｔｅｒｎｅｔ的桌面和移动终端；ＭＰＥＧｌ主要用于ｃＤ、卡拉ＯＫ机、一些数字便携式摄像机和Ｉｎｔｅｒｎｅｔ上的消费视频；ＭＰＥＧ２主要用于广播和ＤＶＤ数字视频存储，它还被选择为美国ＨＤＴＶ广播系统的视频编码器；分离的音频物体（包括自然的和合成的）的编码在ＭＰＥＧ４中被标准化。

图１．２．Ｈ．２６ｘ和ＭＰＥＧ系列标准制定进程
ＩＴＵ—Ｔ视频编码专家组（ＶＣＥＧ）在１９９７年率先开始了Ｈ２６４算法的研究工作，到２００１年底，应用Ｈ２６４算法的一些软件所表现出来的压缩质量己经超过了现存的应用ＭＰＥＧ一４算法的软件，不但吸引了各方面的注意，同时，ＩＳＯ／ＩＥＣ的ＭＰＥＧ小组也加入到ＩＴＵ—Ｔ的ＶＣＥＧ小组中，组成了一个联合视频小组ｊｖｃ（ＪｏｉｎｔＶｉｄｅｏＴｅａｍ）。

ｊｖｃ的目标是制定一个新的视频编码标准作为ＩＴＵ—Ｔ新的系列标准以及ＩＳＯ、ＩＥＣ的ＭＰＥＧ系列标准之一，这就是Ｈ２６４。

Ｈ２６４于２００３年３月进行官方发布。

应该说，Ｈ２６４的颁布是视频压缩编码学科发展中的一件大事，它的优越的压缩性能也将在数字电视广播、视频实时通信、网络视频媒体传递以及多媒体短信等各个方面发挥重要作用。

１．３Ｈ２６４视频压缩标准的特点及应用
在上一节中，作者就目前各种视频标准发展的现状进行了介绍，在本节中将
４
电子科技大学硕士学位论文
运动预测模式
参考帧、运动
矢量
图３—１３帧间预测编码流程
３．４．１基于更高像素精度的运动搜索
图像的搜索精度对于图像的更好匹配有着很大的影响，好的运动补偿将大大节省编码码率。

ＩＴＵ—Ｔ在Ｈ２６３标准中提出了半像素精度的自适应运动搜索，这一技术的应用相对于以前的整像素运动搜索使图像质量有了很大提高。

Ｈ２６４在Ｈ２６３半像素精度的基础上，进一步提出了１／４像素精度的运动搜索，更好的保证了图像的搜索质量。

但是１／８像素精度相对于１／４像素精度的编码效率除了在高码率情况外并没有明显的提高，反而］／８像素精度的内插公式更为复杂，因此在Ｈ２６４制定过程中，１／８像素精度的运动矢量模型逐渐被取消，而只采用１／４像素精度的运动矢量模型。

要进行１／４像素精度的搜索，必须对图像高、宽方向上分别进行两次插值，先得至ｌｊｌ／２像素点，再次内插得至ｌＪｌ／４像素点。

如图３一１４、３一１５所示。

因此，图像搜索精度的提高同时也将使图像数据量增大，增加了计算复杂程度和运算速度。

搜索精度越高，其附加参考数量和运行时间也就越多。

图３—１４亮度半像素位置内插
第三章新一代视频压缩标准Ｈ２６４
如图，半像素点（如ｂ，ｈ，ｍ）通过相应整数像素点进行６抽头滤波得到，权重为（１／３２，一５／３２，５／８，５／８，一５／３２，１／３２）。

如ｂ计算如下：
ｂ＝ｒｏｕｎｄ（（Ｅ－５Ｆ＋２０Ｇ＋２０Ｈ一５Ｉ＋Ｊ）／３２）
１／４像素点经过再次内插得到，如图３～１５。

图３一１５亮度１／４内插
如图所示，ａ＝ｒｏｕｎｄ（（Ｇ＋ｂ）／２）。

３．４．２多预测帧搜索
对于大部分的图像序列，使用多个参考帧进行运动预测表示允许编码器在宏块级上选择运动搜索参考帧，以达到提高编码效率的目的。

为支持多参考帧，编码器和解码器都要增加内存来储存己编码的图像，同时运动搜索时计算的复杂程度也会大幅增加。

在目前Ｈ２６４的算法中，采用了简单的滑动窗口的方法来选择参考帧，即：编码器从最近的５个参考帧中选择最好的一个作为实际使用的参考帧。

一般来说，采用多个参考帧所带来的性能提升与测试序列的内容有很大关系，也就是说与图像内容紧密相关。

通常，采用多参考帧所带来的码率节省在５％～７％之间，但有些序列比特率的节省可高达２０％，考虑到因采用多参考帧所带来的时间消耗和编、解码时的所要求的内存增加，故我们在采用多参考帧时如果能设计一个自适应算法，
根据图像内容来决定是否采用多个预测帧将有可能大大提高编码效率，并避免不必要的编码延时和内存开销。

３．４．３多尺寸和形状的运动搜索块
Ｈ２６４中对１６×１６像素的宏块可以按４种方式进行分割：１个１６×１６，２个１８ｘ８，２个８×１６，４个８×８。

其运动补偿相应有４种。

而８×８模式的每个子宏块还可以进一步以４种方式进行分割：１个８×８，２个４×８，２个８×４，４个４×４。

如图３—１６所示。

这些分割和子宏块大大提高了各宏块之间的关联性。

这种分割下的运动补偿称为树状结构运动补偿。

一般而言，搜索块越小，运动搜索结果就越精确，特别是对那些细节较多的图像，但是需要更大的编码延时和传输更多的运动矢量。

算法所支持的不同大小搜索块类型越多，编、解码器的复杂度就越大。

电子科技大学硕士学位论文
４．４８×８整型ＤＯＴ与浮点ＤＯＴ的结果比较
计算８×８整型ＤＣＴ按照上述方法进行行列分离运算可以得到结果。

相比于浮点ＤＣＴ，整型ＤＣＴ至少有两个优点。

第一，整型ＤＣＴ不需要做浮点乘法。

提升过程替代了浮点乘法，而提升过程仅仅只需要做整数操作和移位。

因为整数操作比起浮点乘法的实现更简单，更便宜（节省能量），所以在移动设备上显得极为重要。

第二，如果有足够的字长来表征整型ＤＣＴ的中间数据，那么截断误差能够完全被消除。

此外，我们能近似一个整数到整数并且可逆的ＤＣＴ变换，当然我们在近似一个三角函数时，截断误差是一直存在的。

因此ＤＣＴ是不能用来做无损图像压缩的。

但是，整型ＤＣＴ是一种新的变换，它的性能（比如说去相关性）依然需要提出疑问，并且需要做更多的实验。

一般说来，整型ＤＣＴ的性能与所用提升乘法器的位数有关。

在我们的算法中，它等效于用见Ｂ（ａ，）或ＲＢ（１／ａ，）来近似的口．或１／ａ．的准确性。

我们在准确性和性能上很难给出一个理论的分析。

结果比较：源图像采用２５６＊２５６大小的灰度Ｌｅｎａ图像，经过变换以后的图像与源图像相比较，在肉眼上看不出差别，相当逼真。

实际的ＰＳＮＲ测试，两幅图像的相似度在５２曲。

图４．２（ａ）源图像（ｂ）经过整型ＤＣＴ／ＩＤＣＴ变换的结果。