H264标准及其在视频会议中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

H.264标准及其在视讯会议系统中的应用 

刘志勇刘晓红史德年泰尔实验室有线终端通信部【摘要】本文主要介绍了视讯会议系统的基本概念及其对新的视频编解码技术提出的要求,分析了H.264编码标准的特点和技术优势,并介绍了H.264在H.323系统中的实现方法。

【关键词】H.264 H.323 图像 片 宏块 预测

一、引言

视讯会议系统是一种可以在两点或多点间实时传送视频、音频和应用数据等多种信息、具有会议功能的多媒体通信系统。近年来,伴随着我国通信网络基础设施的快速建设和经济的飞速发展,视讯业务由于可以为处于两点或多点的与会者提供视音频和数据等多种信息,使用方便,可以节省大量费用,提高工作效率,因而发展迅速,并有望成为下一代网络(NGN)的主要业务。H.264是由ITU-T和ISO两个组织的专家为实现视频的更高压缩比,更好的图像质量和良好的网络适应性而提出的新的视频编解码标准。事实证明,H.264编码具有比其他的H系列视频压缩标准更加节省码流,并且比MPEG-4算法简单的特点。H.264的良好网络适应性和内在的抗丢包能力、抗误码机制,使它不仅适于IP传输方式,也非常适合丢包严重、时延和抖动复杂的无线信道。H.264有望成为多媒体通信中首选的视频编解码标准。 

二、视讯会议系统对视频编解码的要求 

视讯会议系统从产生至今,ITU-T制定了多种适合于各类通信网络的标准,目前通信网上传输多媒体信息的系统主要有H.320(基于ISDN)、H.324(包括H.324I、H.324P和H.324M)、H.310(基于ATM)和H.323(基于LAN)四类系统。IP技术的开放性特点使得它非常适合承载多种业务,伴随着IP的一些问题(安全和Qos问题)的逐步解决,以IP作为承载网的优势将更加明显,下一代网络也将采用IP技术作为承载网技术,因此,本文以适用于在IP网上提供多媒体业务的H.323系统为主进行阐述。 

那么,视讯会议系统对视频编解码标准又有什么样的具体要求呢? 

(1) 由于目前IP网络接入方式有LAN接入,Ethernet,xDSL等多种方式,一些接入

方式如xDSL可提供的带宽有限,除去音频、数据占用的带宽,传输视频的可用

带宽就更少,这就要求视频编解码高效,压缩率高,这样就可以在同样带宽下

增加视频通道数量,并在一定的比特率下具有更好的图像质量,尤其是低比特率

传输时。 

(2) 网络适应性好,便于视频流在网络中传输。 

(3) 抗丢包性能和抗误码性能好,适应各种网络环境,包括丢包和误码严重的无线

网络。

三、H.264编码的技术优势 

由于H.264在制定时就充分考虑了多媒体通信对视频编解码的各种要求,并借鉴了H系列和MPEG系列视频标准的研究成果,因而具有明显的优势。结合视讯会议系统对视频编解码技术的要求,H.264的优势表现在以下三个方面: 

1.压缩率和图像质量方面:

H.264通过对传统的帧内预测、帧间预测、变换编码和熵编码等算法的改进来进一步提高编码效率和图像质量。 

(1) 块的大小可变:帧间预测时可以灵活选择块的大小。在宏块(MB)划分上H.264

采用了16×16,16×8,8×16,8×8四种模式;当划分为8×8模式时,又可

进一步采用8×4,4×8,4×4三种子宏块划分模式(如图1所示)进一步划分,

这样可以使运动物体的划分更加精确,减小帧间预测误差,从而减少经变换和

量化后的非0比特数,提高编码效率。 

帧内预测一般采取两种亮度预测模式:Intra_4×4和Intra_16×16。Intra_4

×4适合图像中细节丰富的区域。H.264的帧内预测是在空域进行的。当采取

Intra_4×4模式时,宏块首先被划分成16个4×4块,每个4×4块都基于其上

侧和左侧的13个最接近的像素进行预测。Intra_16×16模式更适合粗糙的图

像区域,在这种模式下,一次性完成对整个宏块的预测。 

图1 运动补偿时宏块的划分

(2) 1/4像素精度的运动估值:在H.264中亮度信号运动补偿预测的精度是1/4像素。

如果运动矢量指向参考图像的整像素位置,预测值就是该位置上参考图像像素

的值;否则使用插值的方法得到1/2或1/4像素位置的预测值。1/2像素位置的

预测值是通过6阶FIR滤波器的线性内插获得的,当1/2像素值获得后,通过

取整数像素位置和1/2像素位置像素值均值的方式获得1/4像素位置的值。显

然采用高精度运动估计会进一步减小帧间预测误差。 

(3) 多参考帧运动估值:每一个M ×N亮度块都要经过运动补偿预测得到运动矢量

和参考图像索引,子宏块(sub-macroblock)中的每个子宏块划分

(sub-macroblock partition)都会有不同的运动矢量。选择参考图像过程是在

子宏块层次上进行的,因而一个子宏块中的多个子宏块划分在预测时使用相同

的参考图像,而同一个slice的多个子宏块之间的选择的参考图像可以不同,

参考图像甚至可以是采用双向预测编码方式的图像,这就是多参考帧运动估值。 

(4) 参考图像的选取与其编码方式无关:这就允许选取与当前图像更加匹配的图像

为参考图像进行预测,从而可以减小预测误差,提高编码效率。 

(5) 加权预测:允许编码器以一定的系数对运动补偿预测值进行加权,从而在一定

的场景下可以提高图像质量。

(6) 循环内的消除块效应滤波器:为消除在预测和变换过程中引入的块效应,H.264

也采用了消除块效应滤波器,但与以往标准不同的是,H.264的消除块效应滤波

器位于运动估计循环内部,因而可以利用消除块效应以后的图像去预测其它图

像的运动,从而进一步提高预测精度。 

(7) 更好的熵编码算法CAVLC和CABAC。

2. 网络适应性方面: 

为了方便地在各种系统中灵活有效的应用H.264,H.264编解码系统定义了视频

编码层VCL和网络提取层NAL。其中VCL用于视频编解码,包括运动补偿,变换编

码和熵编码等单元,NAL用于采用统一的格式对VCL视频数据的进行封装打包。H.264

编解码器的层结构如下图所示。 

相关文档
最新文档