H264标准及其在视频会议中的应用

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ｈ．２６４标准及其在视讯会议系统中的应用　

刘志勇刘晓红史德年泰尔实验室有线终端通信部【摘要】本文主要介绍了视讯会议系统的基本概念及其对新的视频编解码技术提出的要求，分析了Ｈ．２６４编码标准的特点和技术优势，并介绍了Ｈ．２６４在Ｈ．３２３系统中的实现方法。

【关键词】Ｈ．２６４Ｈ．３２３图像片宏块预测

一、引言

视讯会议系统是一种可以在两点或多点间实时传送视频、音频和应用数据等多种信息、具有会议功能的多媒体通信系统。近年来，伴随着我国通信网络基础设施的快速建设和经济的飞速发展，视讯业务由于可以为处于两点或多点的与会者提供视音频和数据等多种信息，使用方便，可以节省大量费用，提高工作效率，因而发展迅速，并有望成为下一代网络（ＮＧＮ）的主要业务。Ｈ．２６４是由ＩＴＵ－Ｔ和ＩＳＯ两个组织的专家为实现视频的更高压缩比，更好的图像质量和良好的网络适应性而提出的新的视频编解码标准。事实证明，Ｈ．２６４编码具有比其他的Ｈ系列视频压缩标准更加节省码流，并且比ＭＰＥＧ－４算法简单的特点。Ｈ．２６４的良好网络适应性和内在的抗丢包能力、抗误码机制，使它不仅适于ＩＰ传输方式，也非常适合丢包严重、时延和抖动复杂的无线信道。Ｈ．２６４有望成为多媒体通信中首选的视频编解码标准。　

二、视讯会议系统对视频编解码的要求　

视讯会议系统从产生至今，ＩＴＵ－Ｔ制定了多种适合于各类通信网络的标准，目前通信网上传输多媒体信息的系统主要有Ｈ．３２０（基于ＩＳＤＮ）、Ｈ．３２４（包括Ｈ．３２４Ｉ、Ｈ．３２４Ｐ和Ｈ．３２４Ｍ）、Ｈ．３１０（基于ＡＴＭ）和Ｈ．３２３（基于ＬＡＮ）四类系统。ＩＰ技术的开放性特点使得它非常适合承载多种业务，伴随着ＩＰ的一些问题（安全和Ｑｏｓ问题）的逐步解决，以ＩＰ作为承载网的优势将更加明显，下一代网络也将采用ＩＰ技术作为承载网技术，因此，本文以适用于在ＩＰ网上提供多媒体业务的Ｈ．３２３系统为主进行阐述。　

那么，视讯会议系统对视频编解码标准又有什么样的具体要求呢？　

(1) 由于目前ＩＰ网络接入方式有ＬＡＮ接入，Ｅｔｈｅｒｎｅｔ，ｘＤＳＬ等多种方式，一些接入

方式如ｘＤＳＬ可提供的带宽有限，除去音频、数据占用的带宽，传输视频的可用

带宽就更少，这就要求视频编解码高效，压缩率高，这样就可以在同样带宽下

增加视频通道数量，并在一定的比特率下具有更好的图像质量，尤其是低比特率

传输时。　

(2) 网络适应性好，便于视频流在网络中传输。　

(3) 抗丢包性能和抗误码性能好，适应各种网络环境，包括丢包和误码严重的无线

网络。

三、Ｈ．２６４编码的技术优势　

由于Ｈ．２６４在制定时就充分考虑了多媒体通信对视频编解码的各种要求，并借鉴了Ｈ系列和ＭＰＥＧ系列视频标准的研究成果，因而具有明显的优势。结合视讯会议系统对视频编解码技术的要求，Ｈ．２６４的优势表现在以下三个方面：　

1．压缩率和图像质量方面：

Ｈ．２６４通过对传统的帧内预测、帧间预测、变换编码和熵编码等算法的改进来进一步提高编码效率和图像质量。　

(1) 块的大小可变：帧间预测时可以灵活选择块的大小。在宏块（ＭＢ）划分上Ｈ．２６４

采用了１６×１６，１６×８，８×１６，８×８四种模式；当划分为８×８模式时，又可

进一步采用８×４，４×８，４×４三种子宏块划分模式（如图１所示）进一步划分，

这样可以使运动物体的划分更加精确，减小帧间预测误差，从而减少经变换和

量化后的非０比特数，提高编码效率。　

帧内预测一般采取两种亮度预测模式：Intra_4×４和Ｉｎｔｒａ＿１６×１６。Intra_4

×４适合图像中细节丰富的区域。H.264的帧内预测是在空域进行的。当采取

Intra_4×４模式时，宏块首先被划分成１６个４×４块，每个４×４块都基于其上

侧和左侧的１３个最接近的像素进行预测。Ｉｎｔｒａ＿１６×１６模式更适合粗糙的图

像区域，在这种模式下，一次性完成对整个宏块的预测。　

图1 运动补偿时宏块的划分

(2) １／４像素精度的运动估值：在Ｈ．２６４中亮度信号运动补偿预测的精度是１／４像素。

如果运动矢量指向参考图像的整像素位置，预测值就是该位置上参考图像像素

的值；否则使用插值的方法得到１／２或１／４像素位置的预测值。１／２像素位置的

预测值是通过６阶ＦＩＲ滤波器的线性内插获得的，当１／２像素值获得后，通过

取整数像素位置和１／２像素位置像素值均值的方式获得１／４像素位置的值。显

然采用高精度运动估计会进一步减小帧间预测误差。　

(3) 多参考帧运动估值：每一个M ×Ｎ亮度块都要经过运动补偿预测得到运动矢量

和参考图像索引，子宏块（ｓｕｂ－ｍａｃｒｏｂｌｏｃｋ）中的每个子宏块划分

（ｓｕｂ－ｍａｃｒｏｂｌｏｃｋ　ｐａｒｔｉｔｉｏｎ）都会有不同的运动矢量。选择参考图像过程是在

子宏块层次上进行的，因而一个子宏块中的多个子宏块划分在预测时使用相同

的参考图像，而同一个ｓｌｉｃｅ的多个子宏块之间的选择的参考图像可以不同，

参考图像甚至可以是采用双向预测编码方式的图像，这就是多参考帧运动估值。　

(4) 参考图像的选取与其编码方式无关：这就允许选取与当前图像更加匹配的图像

为参考图像进行预测，从而可以减小预测误差，提高编码效率。　

(5) 加权预测：允许编码器以一定的系数对运动补偿预测值进行加权，从而在一定

的场景下可以提高图像质量。

(6) 循环内的消除块效应滤波器：为消除在预测和变换过程中引入的块效应，Ｈ．２６４

也采用了消除块效应滤波器，但与以往标准不同的是，Ｈ．２６４的消除块效应滤波

器位于运动估计循环内部，因而可以利用消除块效应以后的图像去预测其它图

像的运动，从而进一步提高预测精度。　

(7) 更好的熵编码算法ＣＡＶＬＣ和ＣＡＢＡＣ。

２．　网络适应性方面：　

为了方便地在各种系统中灵活有效的应用Ｈ．２６４，Ｈ．２６４编解码系统定义了视频

编码层ＶＣＬ和网络提取层ＮＡＬ。其中ＶＣＬ用于视频编解码，包括运动补偿，变换编

码和熵编码等单元，ＮＡＬ用于采用统一的格式对ＶＣＬ视频数据的进行封装打包。H.264

编解码器的层结构如下图所示。