基于SVM的跳帧转码快速帧间编码算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于SVM的跳帧转码快速帧间编码算法
吕卓逸;贾克斌;萧允治
【摘要】为降低H.264跳帧转码运算复杂度,在帧间模式选择中引入支持向量机(support vector machine,SVM)技术,提出一种SKIP模式提前判决算法,具体讨论了关键的特征向量与核函数的选择方法.同时,利用宏块时域相关性缩减预测模式数量,实现率失真优化提前终止.其次,通过定义宏块运动程度参数,针对不同运动程度的视频序列自适应地选择运动矢量合成算法和运动搜索策略,有效减少在已获得最佳运动矢量后仍进行运动搜索的运算冗余.实验证明,此算法极大降低了算法复杂度(平均84％)的同时保证了较高的视频质量,与现有算法相比,具有更强的鲁棒性和更广泛的适用性.%In order to reduce the computational complexity of H.264 frame-skipping transcoding,an support vector machine (SVM) technology is employed in inter mode decision process,and a SKIP mode decision algorithm is proposed.Meanwhile,an early-termination strategy is used based on the temporal correlation between macro-blocks,and improbable candidate modes can be eliminated.In addition,an adaptive motion vector reconstruction and motion compensation algorithm is applied for sequences with different motions by measuring the motion activity of macroblocks,and the computational redundancy can be removed in case that the best matching motion vector can be found before motion search.Experimental results show that the coding time is reduced by an average of 84 % dramatically while maintains the video image of high pared with the existing approaches,this algorithm is more robust and applicable.
【期刊名称】《系统工程与电子技术》
【年(卷),期】2012(034)006
【总页数】6页(P1266-1271)
【关键词】H.264跳帧转码;帧间模式选择;支持向量机;时域相关性;运动矢量合成【作者】吕卓逸;贾克斌;萧允治
【作者单位】北京工业大学电子信息与控制工程学院,北京100124;香港理工大学
电子信息工程学院,香港九龙999077;北京工业大学电子信息与控制工程学院,北京100124;香港理工大学电子信息工程学院,香港九龙999077
【正文语种】中文
【中图分类】TP391
0 引言
随着网络技术和视频编码技术的发展，多媒体通信已广泛融入到社会生活的各个方面［1］。

视频转码技术是为提高视频码流在不同应用环境之间的兼容性而引入的，以适应多样的网络环境和终端设备，以及不同编码标准等应用环境。

其中的跳帧转码是将原始码流转换成目标码率码流的降码率转码方法，解决数据传输速率限制的问题，节省网络带宽［2］。

H．264／AVC可获得比其他视频编码标准更高的压缩比，同时作为面向未来IP
和无线网络传输环境下的视频压缩标准［2］，具有更好的传输可靠性。

基于H．264的视频转码是影响数字多媒体应用发展的关键技术，一直是国内外研究的热点问题。

H．264标准中的帧间预测和运动估计技术可极大提高压缩率，但由于
运算复杂，限制了算法的实时应用［2］。

为提高转码速度，早期提出的前向主向量选择法和活动性主向量选择法仍然是目前常用的运动矢量合成算法。

最新的研究成果包括：基于离线模型的帧间模式选择和运动矢量合成方法［3］，基于运动复杂度的跳帧转码运动矢量修正策略［4］等。

但针对不同运动程度的视频序列，目前算法的适用性仍然有限，应用效果不十分理想。

本文提出一种跳帧转码快速帧间编码算法，首先通过支持向量机（support vector machine，SVM）方法进行SKIP模式预判，并利用宏块时域相关性减少
预测模式数量，实现率失真优化的提前终止。

其次，基于宏块运动特征，提出自适应的运动矢量合成算法和运动搜索策略。

本文首次将SVM技术引入到跳帧转码研究中，对特征向量选取和核函数选择两个关键技术提出具体解决方法。

针对不同运动程度的视频序列，本算法可实现在保证转码后的视频质量同时，有效减少运算量。

1 帧间模式选择
1．1 H．264帧间预测算法分析
H．264／AVC帧间预测包括7种尺寸的预测模式［5］。

首先，宏块被分割成
16×16，16×8，8×16，8×8进行预测，再进一步被分割成8×8，8×4，4×8，
4×4进行预测。

另外，帧间编码还采用SKIP模式，帧内预测模式intra 16×16和intra 4×4。

H．264的帧间模式选择流程如下：
（1）利用式（1）对每个宏块计算大块模式16×16，16×8和8×16的率失真代
价（rate distortion optimal，RDO）J为
式中，D为残差；R为码率；λ为Lagrange系数，调节残差与码率间的权重；（2）计算8×8，8×4，4×8和4×4四个小块模式的RDO，选择RDO值最小的
作为P8×8的最佳模式；
（3）计算SKIP模式的RDO值；
（4）计算帧内模式intra 16×16和intra 4×4的RDO；
（5）选择RDO值最小的作为当前宏块的最终编码模式。

H．264对每个宏块通过计算所有候选模式的率失真代价进行模式选择，造成计算量庞大，编码速度下降。

为此，本文利用SVM和宏块时域相关性来缩减预测模式数量，提前终止率失真优化算法，实现了低复杂度的跳帧转码框架。

1．2 基于支持向量机的SKIP模式预判
为降低H．264／AVC帧间预测的运算复杂度，本文引入了人工智能机器学习方法。

SVM方法是以结构风险最小原理和统计学习理论 VC维（Vapnik Chervonenkis dimension）［6］为理论基础提出的。

假设有训练样本集（x1，
y1），……，（xl，yl）∈RN×｛±1｝，yl 代表编码模式类别，xl 是从输入码流
中提取出的N维特征向量。

SVM力求寻找到能够正确分开两类样本，同时使得两类样本间距离最大的分类线，即最优分类线。

SVM利用映射函数Φ将非线性问题转换为高维特征空间中线性问题来处理非线性可分情况。

高维特征空间最优分类面求解函数中的内积运算用核函数K（xi，xj）替代，得到如下二次规划函数：
鉴于SVM在模式识别等领域，尤其在解决复杂分类问题方面表现出来的优越性，本文提出一种基于SVM的SKIP模式预判算法。

1．2．1 特征向量选取
特征向量的选取对SVM分类器的预测准确度起着决定性作用［7］，是构建SVM 模型需考虑的关键因素。

特征选取应与模式表征紧密相关，据此原则本文联合宏块时空域特征选取的特征向量FV包含如下属性：
其中，SKIP标识当前宏块是否采用SKIP模式，若为SKIP模式，SKIP为1，否则，SKIP为0。

根据时域相关原理，对于运动平缓的视频序列，当前帧与前一帧中对
应宏块同时采用SKIP模式的概率较高。

表1为在前一帧宏块采用SKIP模式的条件下，当前帧对应宏块也采用SKIP模式的概率值。

可以看出，对于运动较缓慢的Mother－Daughter序列此概率可达到97．83%，平均值为93．5%。

表1 条件概率 %CIF Foreman Paris Mother－Daughter Silent概率 88．61 95．82 96．30 97．69 QCIF Foreman Mobile Mother－Daughter Salesman 概率90．06 85．22 97．83 96．32
sum衡量宏块的时域稳定性，由式（3）定义，其中mvh和mvv分别为宏块在水平和垂直方向上的运动矢量。

若sum值较大，则表明宏块运动较剧烈；反之宏块运动平缓。

通常情况下，纹理细节较丰富的宏块产生的残差值较大，而位于背景等分布较均匀区域内宏块的残差相对较小。

因此，通过预测残差可以判断出宏块纹理的强弱。

鉴于残差块不为零的离散余弦度换（discrete cosine transform，DCT）系数个数nzDCT与残差值的紧密联系，且提取方法简单，无需进行DCT逆变换，因此选为SVM分类器的特征向量，作为评价宏块空域特性的参数。

表2为利用上述特征向量训练SVM模式，并对宏块编码模式进行分类得到的统计结果。

可以看出，预测准确度平均为76%，最高可达到91．22%，预测效果较为理想。

表2 预测准确度 %QCIF Foreman Mobile Mother－Daughter Salesman准确度 59．08 56．59 80．62 91．22 CIF Foreman Paris Mother－Daughter Silent准确度67．78 84．81 81．01 87．14
1．2．2 核函数选择
核函数是SVM中的重要概念，它与映射函数和特征空间是一一对应的关系，影响着样本数据子空间分布的复杂程度［8］。

本文中定义了核函数性能参数J，来选择最优核函数。

为保证分类的准确性，应尽量使两类训练样本集合均衡，因此本文选取相同数量的样本集。

设类别C1中的样本为（x1，x2，…，xl），类别 C2 中的样本为（xl＋1，xl＋2，…，x2l），l为样本数量。

在特征空间中计算两类样本集的中心点：
用核函数K（xi，xj）替代映射函数Φ，计算类中心的二次范数：
由式（6）计算各类紧凑度参数和：
类别间中心距为
核函数性能参数J可表示为
式中，分母表示同类样本的聚集度；分子代表两类样本的可分度；J的值越大核函数的性能越好。

实验采用4种核函数训练SVM分类器，并分别计算其J值，以QCIF格式Salesman作为测试序列计算预测准确度。

由表3看出，J值最大的是径向基函数（radial basis function，RBF），它获得的预测准确度也是最高的，本文选择RBF为最优核函数。

表3 核函数J值及预测准确度参数 linear Polynomial RBF Sigmoid J 0．199 0．200 0．298 0．165准确度／% 90．99 90．99 91．22 87．65
1．3 基于时域相关性的模式预测
为减少率失真代价的计算，避免对不必要的模式进行运动估计和预测，本文提出基于宏块时域相关性的快速帧间模式选择算法。

视频序列中纹理分布较均匀和时域变化缓慢的区域，如背景区域通常采用SKIP模式或16×16模式，而纹理细节丰富和变化剧烈的部分通常采用小块分割模式。

以时域相邻帧间具有强相关性为理论依据，本文提出算法的思想如下：当前宏块编码模式Mod的选择可参考相应帧（第n帧）中宏块MBn的编码模式Moden，及
前一帧（第n－1帧）中主导块的编码模式Moden－1。

由此可实现率失真优化算法的提前终止，提高跳帧转码的编码速度。

本文定义主导块为当前帧中的宏块对应参考帧中所覆盖的4个相邻宏块中覆盖面
积最大的宏块。

如图1所示，宏块1即为MBn的主导块。

图1 主导块定义
对于被SVM划分为非SKIP模式的宏块。

首先，计算模式Moden和Moden－1的率失真代价，分别为Cn和Cn－1。

然后，将Cn和Cn－1与阈值Threshold
进行比较。

若满足式（8），选择 Moden 作为最优编码模式；若满足式（9），
选择Moden－1作为最优编码模式；否则，遍历预测其他帧间编码模式。

实验证明，在大多数情况下，此方法可实现率失真优化算法的提前终止。

2 运动矢量合成算法
运动估计是视频转码中的关键技术之一，在分析当前已有的运动矢量合成方法基础上，本文针对具有不同运动特征的宏块，提出了自适应的运动矢量合成算法。

2．1 算法分析
以跳一帧为例，为避免转码中运动重估计带来的运算负担，新运动矢量的计算应充分考虑输入码流中的编码信息。

如图2所示，mv（n）表示第n帧宏块MBn的
运动矢量。

由于丢弃第n－1帧，所需计算的新运动矢量为MBn所指向第n－2
帧宏块MBn－2的mv（SKIP）。

由于当前帧宏块的运动矢量所指向的参考帧被
丢弃，宏块MBn－1的运动矢量mv（n－1）无法被读取，需利用合成算法获得，
然后根据式（10）计算mv（SKIP）。

图2 运动矢量合成
目前，常用的运动矢量合成方法有：前向主向量选择法（forward dominant vector selection method，FDVS），双线性内插法（bi－linear interpolation vector selection method，BIVS）和运动主向量选择法（activity dominant vector selection method，ADVS）［9］。

FDVS选择最佳匹配块所覆盖的4个相邻宏块中覆盖面积最大宏块的运动矢量，ADVS选择4个相邻宏块中不为零的DCT系数个数最多宏块的运动矢量。

如图3所示，BIVS将覆盖面积作为权重，利用式（11）计算获得新的运动矢量。

图3 双线性内插法
现有算法存在的共同问题是，对于不同运动程度的视频合成的运动矢量不够精确，导致转码后视频质量下降。

结合上述3种方法的特点，为提高算法的适用性，本文提出一种自适应的运动矢量合成算法。

2．2 自适应运动矢量合成算法
实验证明，对快速变化或纹理细节较丰富的视频（如Mobile），ADVS方法的转码效果更好；而对于缓慢变化的视频序列（如Salesman），FDVS和BIVS方法的转码图像质量更佳。

此外，若宏块在前一帧中对应的4个相邻宏块的覆盖面积相差不大，则不存在具有决定意义的主导块。

利用FDVS计算得到的运动矢量就不够准确，影响转码后的图像质量。

基于以上分析，基于宏块运动特征的自适应运动矢量合成方法如下：
步骤1 利用式（12）计算宏块运动程度MA：
步骤2 若当前帧宏块的MAn值与前一帧宏块的MAn－1值满足式（13），则说
明宏块运动较剧烈，进行步骤3；否则表明宏块运动平缓，进行步骤4。

步骤3 计算宏块对应前一帧中4个相邻宏块的覆盖面积，若最大值超过80%宏块面积，则采用FDVS方法，否则采用ADVS，并对合成的运动矢量进行±2像素的运动搜索。

步骤4 利用BIVS合成运动矢量，不进行运动搜索。

综上所述，本文提出的H．264跳帧转码算法流程如图4所示。

图4 算法流程
3 实验结果与分析
本文采用JM12．2测试模型，选择开源软件libSVM［10］开发SVM。

应用离线方法训练SVM分类器，因此不会给转码器带来额外运算负担。

为验证本文提出算法的适用性和高效性，实验选取具有不同运动程度的QCIF和CIF格式的视频各4段。

每个序列编码50帧，编码方式采用首帧I帧，后续帧P帧，跳帧数为1，量
化参数（quantization parameter，QP）值从20到36。

实验将本文提出的快速跳帧转码模式选择算法（SVM），快速模式选择算法与运
动矢量合成结合的算法（SVM＋MV），与标准JM12．2算法和FDVS在编码质量和编码效率两方面进行转码效果的比较。

图5～图7和表4可以看出，与完全重编码（JM12．2）相比，本文提出的快速
模式选择算法（SVM）由于有效地减少了预测模式的数量，平均节省的运算时间
达到47．9%。

同时可以保证较高的编码质量，结果显示，比特率（bit rate，BR）平均增加值小于0．15%，峰值信噪比（peaksignal－to－noise ratio，PSNR）平均下降值控制在0．01dB以内。

快速模式选择算法与运动矢量合成算法结合后（SVM＋MV），进一步提高了转码速度，平均减少83．7%的运算复杂度，最高
可达89．3%，仅导致14．5%比特率的增加。

与FDVS方法相比，SVM＋MV方法节省了更多的运算量，同时，对于不同运动程度的视频序列在PSNR方面比FDVS算法平均提高0．06dB。

图5 Mobile＿QCIF
图6 Silent＿CIF
图7 运算复杂度
表4 转码效果比较序列FDVS SVM SVM＋MV ΔPSNR／dB ΔBR／% ΔT／%
ΔPSNR／dB ΔBR／% ΔT／% ΔPSNR／dB ΔBR／% ΔT／%QCIF Foreman ＋0．008 ＋17．89 －68．41 －0．02 ＋0．43 －60．22 ＋0．058 ＋2．55 －80．07 Mobile －0．064 ＋0．99 －61．73 －0．004 ＋0．04 －40．69 －0．07 ＋0．55 －73．31 Salesman －0．076 ＋10．87 －58．96 －0．008 ＋0．015 －35．55 ＋0．012 ＋8．12 －81．34 Mother－Daughter －0．084 ＋10．41 －72．27 －0．007 ＋0．06 －41．98＋0．08 ＋3．94 －83．88 CIF Foreman －0．042 ＋25．08 －71．14 －0．022 ＋0．46 －63．45 ＋0．008 ＋25．15 －87．76 Mother－Daughter －0．11 ＋27．98 －68．77 －0．036 ＋0．25 －47．09 －0．02 ＋29．27 －85．12 Paris ＋0．062 ＋27．67 －68．63 －0．006 ＋0．010 －43．66 ＋0．08 ＋26．56 －89．33 Silent －0．002 ＋23．00 －72．33 －0．01 －0．028 －50．37 ＋0．024 ＋20．15 －88．98均值－0．04 ＋18．0 －67．8 －0．01 ＋0．15 －47．9 ＋0．02 ＋14．5 －83．7
综合转码质量和转码速度两方面因素，与现有算法相比，本文提出的方法保证了编码图像质量下降不明显的前提条件，极大降低了运算复杂度，提高了跳帧转码的速度。

并且，对不同运动程度的视频都获得了较好的转码效果。

4 结束语
本文针对基于H．264的跳帧转码中的两个关键技术：模式选择和运动矢量合成
展开深入研究。

创新性地将SVM理论引入到模式预测过程中，提出了基于SVM
和宏块时域相关性的快速模式选择算法，通过提前判决来减少预测模式的率失真优化计算过程。

另外，利用对宏块运动特征的定义，提出了自适应的运动矢量合成和搜索方法。

实验证明，本文提出的算法极大地提高了跳帧转码速度，并对各类视频具有广泛的适用性。

参考文献：
［1］Zhou Y R，Ma H J，Chen Y W．A frame skipping transcoding method based on optimum frame allocation in sliding window［C］
∥Proc．of the International Conference on Signal Processing Systems，2010：83－86．
［2］Jiang J H，Lin Y．Efficient mode decision for H．264／AVC frame－skipping transcoding［J］．Electronics Letters，2011，47（11）：650－51．［3］Wang J，Yang E H，Yu X．An efficient motion estimation method for H．264－based video transcoding with spatial resolution conversion［C］
∥Proc．of the IEEE International Conference on Multimedia and Exposition，2007：444－447．
［4］周骏华，石旭刚，宋玮．一种基于运动复杂度的新的H．264码率控制跳帧算法［J］．浙江工业大学学报，2006，34（6）：672－675．（Zhou J H，Shi X G，Song W．A new frame skipping strategy in rate control scheme based on the motion complexity［J］．Journal of Zhejiang University of Technology，2006，34（6）：672－675．）
［5］Lee T K，Fu C H，Chan Y L，et al．A new motion vector composition algorithm for fast－forward video playback in H．264［C］∥Proc．of the
IEEE International Symposium on Circuits and Systems，2010：3649－3652．［6］Vapnik V N．Statistical learning theory［J］．IEEE Trans．on Neural Networks，1999，10（5）：988－999．
［7］Jing X，Siu W C，Chau L P，et al．Efficient inter mode decision for H．263to H．264video transcoding using SVMs［C］∥Proc．of the IEEE International Symposium on Circuits and Systems，2009：2349－2352．［8］Tan K，Du P J．Classification of hyperspectral image based on morphological profiles and multi－kernel SVM［C］∥Proc．of the 2nd Workshop on Hyperspectral Image and Signal Processing Evolution in Remote Sensing，2010：1－4．
［9］Matsuo Y，Yano S．Converting ultrahigh－definition video into digital cinema by using time－expanding bi－directional motion estimation and higher green frequency［J］．IEEE Trans．on Circuits and Systems for Video Technology，2010，20（1）：65－67．
［10］Chang C C，Lin C J．LIBSVM：a library for support vector machines ［EB／OL］．［2011－09－20］．http：∥www．csie．ntu．edu．tw／～lin ／libsvm．。