低码率下残差值预测的快速分数运动估计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
低码率下残差值预测的快速分数运动估计
陆寄远;黄承慧;侯昉
【摘要】提出了一种在低码率下的快速分数运动估计算法.该算法利用相邻运动补偿块时域的相关性,预测当前最优分数匹配位置的残差值,继而判断是否终止当前分数点搜索.根据实验结果,所提出的方法在不损失任何率失真性能的情况下,对于常用的几个QIF和CIF标准测试序列,其平均的分数搜索点数可减少到6以下.与全分数运动估计方法(FFPS)相比,所耗费的搜索点数减少了近一倍;而与目前常用的快速算法相比,所耗费的搜索点数也减少了50%~80%.
【期刊名称】《计算机工程与应用》
【年(卷),期】2010(046)024
【总页数】3页(P163-165)
【关键词】视频编码;分数运动估计;残插值预测
【作者】陆寄远;黄承慧;侯昉
【作者单位】广东金融学院计算机科学与技术系,广州,510521;中山大学信息科学与技术学院,广州,510275;广东金融学院计算机科学与技术系,广州,510521;中山大学信息科学与技术学院,广州,510275;广东金融学院计算机科学与技术系,广
州,510521
【正文语种】中文
【中图分类】TP919.81
1 引言
运动估计是视频编码中占用计算资源的主要部分。
面向快速运动估计算法的研究对于提高视频编码的整体速度起着重要作用。
由于分数运动估计在视频编码中所占运算比例越来越大,优化分数运动估计的速度成为了当前视频编码优化的一个研究热点。
分数运动估计作为整数运动估计的后续步骤,仅在最优整数点周围一个像素范围内搜索。
最广泛使用的分数运动估计方法是全分数点搜索算法(FFPS)[1]。
FFPS 在1/2像素精度的情况下搜索8个不同位置;在1/4像素精度的情况下搜索16个不同的位置。
为了加快分数运动估计的计算速度,目前已经出现了不少的快速分数运动估计方法,大致分成下面两类:基于模型的分数运动估计快速算法[2-3]和基于最优分数运动向量预测的搜索方法[4-6]。
第一类方法通过建立不同的分数残差模型预测最优的分数运动向量。
模型的参数通过最优整数运动向量邻域的整数位置残差值计算得出。
这些模型包括线性模型,一维和二维抛物线模型等[2-3]。
但由于实际上的分数点残差模型大多数是不规则的,难以用简单的数学模型精确描述,这类方法产生较大的码率和质量损失。
第二类方法先通过对最优的分数运动向量进行预测,然后使用一个细化模板校正该预测值。
Sayed等人[4]使用了中值运动向量作为起始位置,配合一个钻石型的搜索模板细化搜索。
Mudugamuwa等人[5]通过高阶模型预测搜索的初始位置,然后根据图像的特性进行细化搜索。
CBFPS 方法[6]根据预测向量与两个最优位置的关系选择不同的搜索模板。
这类方法的计算资源主要消耗在使用细化模板的搜索上。
最简单的细化模板,如:菱形模板,也要至少检查5个不同的搜索位置,才可以停止在一个局部最优的位置上。
如果能找到一种方法准确地预测最优残差值,那么对细化模板的搜索就可以随时停止,而不必一定需要找到局部最优点。
这样就可以进一步地降低细化模板的搜索下限,提
高速度。
本文提出一种基于残差值预测的快速运动估计方法,利用视频序列时域的相关性预测最优残差,当该预测值与当前搜索位置的残差值足够接近的时候,立刻停止分数运动估计,把当前的搜索位置作为最终的分数运动向量。
实验结果表明,该方法可以大幅地提高分数运动估计的速度,并保持编码的率失真性能。
2 残差值预测的分数运动估计
目前常用的快速分数运动估计算法都着重于寻求如何准确地预测最优运动向量,而往往忽略了对最优残差值的预测。
最优残差值指当前视频信号与参考帧中最匹配信号的差值。
它决定了运动补偿对视频编码率失真性能的最大贡献。
如果两个运动向量所对应的最优残差值相差足够小,那么使用任意一个运动向量作为最终的运动向量都有着相同的率失真性能。
其原因是在编码残差系数前要先进行变换和量化,相差不大的残差系数很可能被量化成为相同的值。
有鉴于此,运动估计并不一定要搜索到最优的运动向量,往往只需要找到与最优残差值足够接近的运动向量就可以了。
而如何判断当前运动向量拥有足够优化的残差值,则需要对最优残差值准确地预测。
本文利用视频信号中存在的大量相似性对最优残差值预测。
其中,空域相邻的运动向量的相关性已经被广泛地应用在各种运动估计算法中,用以快速寻找最优运动向量。
发现除了运动向量之外,相邻块间的最优残差值也有着密切的相关性。
图1
是Foreman序列两幅相邻P帧的残差系数图像。
从图中可看出残差系数大都沿着运动物体边缘分布,如:嘴唇、帽子的边缘等。
相邻两帧图像在相同位置上的残差系数极其接近。
当前分块的残差值在时域上有着很强的相关性。
另一方面,在同一幅图像的不同位置,残差值的分布则是不相关的。
这是因为不同位置的图像内容都不同,残差值只按照图像的边缘分布。
以上两点表明最优残差值的相关性只集中在时域上,恰恰与运动向量在空域上的强相关性相反。
图1 Foreman序列中两幅相邻帧的残差图像
另外,从下面分析可知分数最优残差值的时域相关性也强于整数最优残差值的时域
相关性。
图2是Foreman视频序列中同一个位置宏块在不同时刻残差系数变化的曲线。
纵坐标是宏块在运动估计后的残差值,用SSD(Sum Square Distortion,失真度平方和)表示。
横坐标的数字是序列中的不同时刻,用帧号表示。
上方的一条曲线表示整数运动估计后残差值。
下方的曲线表示分数运动估计后的残差值。
分数运动估计后的残差值变化明显比整数运动估计后的残差值更为平滑。
这说明通过相邻的残差值预测分数运动估计的最优残差值会更为准确。
图2 整/分数运动估计残差值的变化比较
通过上面分析,使用一个线性回归的方法预测时域相邻的最优残差值。
图3是一个利用时刻1、2、3的残差值对时刻4的最优残差值预测的例子。
横坐标表示不同的时刻,纵坐标表示不同时刻所对应的残差值SSD。
假设当前时刻是4,即要通过时刻1~3所对应的残差值预测时刻4的残差值。
图中的黑实线表示该宏块实际的残差值。
三条虚线分别表示用不同数目的残差值所产生的预测曲线。
其中,1点回归表示仅用前一个时刻,即直接使用时刻3的残差值;2点回归表示使用前两个时刻,即时刻2和3的残差值作预测;3点回归表示使用前3个时刻,即时刻1~3的残差值作预测。
图3 通过时域相邻残差值对当前最优残差值预测
因为不是所有的宏块都存在前3个时刻的相邻最优残差值,所以给出下面3个公式计算当前最优残差的预测值:
其中,Cost1、Cost2和Cost3分别表示时刻1、时刻2和时刻3帧对应位置的残差值。
Costpred是所预测的最优残差,即时刻4的预测残差值。
当所有前3个时域相邻残差值都存在,就使用第1条公式。
如果只有Cost3和Cost2可用,就使用第2条公式。
如果只有Cost3可用,则使用第3条公式。
除了上述3种情况外,如果当前帧没有任何时域相邻的残差值可以用作预测,即
第一幅P帧,那么则利用空域相邻的整数残差值对当前最优分数残差值预测。
空
域相邻残差值指在当前位置附近的那些次优整数位置上的残差值。
许多快速的分数运动估计算法利用空域相邻残差值,并通过抛物线模型预测最优分数运动向量[2]。
但使用抛物线模型所预测出来的运动向量与实际的运动向量之间总存在着误差,导致损失较大的编码效率。
本文为了避免这一缺点,只使用抛物线模型对最优分数残差值预测,就算产生误差也可以通过后续的细化搜索校正。
这里给出抛物线模型的公式如下:
其中,A、B、C、D表示4个相邻整数点的残差值,E表示最优整数点的残差值。
x和y分别表示水平和垂直的位置,而F(x,y)则是不同位置的残差值。
图4表示分数运动估计的示意图。
实心的大圆点表示整数位置;空心的大圆点表示1/2
分数位置;实心的小圆点则表示1/4分数位置。
分数运动估计就发生在E周围一
个像素的区域中。
该模型可以计算出任意分数位置的残差值。
而最优的预测残差值通过以下公式计算得出:
图4 分数点运动估计区域
3 实验结果
本文的实验在H.264的联合模型平台JM15.1中完成,开启了高精度的率失真优
化选项,不使用哈达玛变换与自适应上下文的算术编码,量化参数为20,所有这
些序列的编码帧率为30 f/s,编码结构为IPPP。
首先,图5表示本文所预测的最优残差值与真正的最优残差值之间的差值分布。
横坐标表示两者差值间的百分比。
0%表示本文的预测残差与真正的最优残差是相
同的。
纵坐标表示这些绝对差值的分布密度。
从图5所示,当差值变大时概率密
度会急剧地下降。
图中的两条曲线表示了两个不同序列的差值分布。
Silent序列包
含了较慢的运动。
Foreman序列则相反,包含了剧烈的运动物体。
很明显地看出本文的方法对于缓慢运动序列的残差预测要比剧烈运动序列准确。
其主要原因是在缓慢运动序列中差插值的波动较小。
图5 预测残差值与FFPS算法搜索的残差值相差程度的分布
其次,表1是本文算法与3种在JM中采用的分数运动估计算法FFPS[1]、Sayed 方法[4]和Mudugamuwa方法[5]综合比较结果,分别给出了不同的算法在质量、码率和计算复杂度三方面上的性能指标。
质量的度量是峰值信噪比(PSNR);速度的度量是搜索点数(SP)。
从表1的实验结果可以知道,本文所提出的方法有很好的性能。
首先,FFPS算法是公认最为准确的分数运动估计算法。
与之相比,本文方法能节省至少67.71%至多88.38%的搜索点,而且对于PSNR只有少于0.1 dB的下降。
其次,与其他快速分数运动估计算法(Sayed方法和Mudugamuwa方法)相比,本文算法依然拥有最高的速度。
特别是在运动比较缓慢的视频序列中,如:Container、Paris、News,本文算法在速度上的提高非常明显。
表1 各种快速分数运动估计算法的比较结果Sequence Container(QCIF)News (QCIF)Foreman(QCIF)Paris(CIF)Mobile(CIF)Tempete(CIF)Algorithm FFPS Sayed Mudugamuwa本文方法FFPS Sayed Mudugamuwa 本文方法FFPS Sayed Mudugamuwa本文方法FFPS Sayed Mudugamuwa本文方法FFPS Sayed Mudugamuwa本文方法FFPS Sayed Mudugamuwa本文方法Bitrate(/Kb·s-1)175.74 175.62 175.91 175.86 155.21 156.18 157.23 155.87 347.98 347.53 346.40 348.12 1 421.08 1 425.24 1 420.83 1 421.16 7 318.33 7 319.23 7 315.98 7 316.95 6 024.60 6 033.37 6 029.51 6 027.95 PSNR/dB 44.86 44.81 44.84 44.85 45.63 45.51 45.68 45.63 44.57 44.47 44.44 44.58 44.56 44.43 44.61 44.56 44.13 44.08 44.19 44.13 44.49 44.35
44.29 44.49 SP 16.00 5.70 7.20 3.08 16.00 5.40 7.10 2.66 16.00 8.33 9.53 5.51 16.00 6.77 7.83 4.78 16.00 9.70 10.32 6.91 16.00 10.76 7.18 7.29
4 结论
提出了一种分数运动估计快速算法,利用时域相关性对最优残差值进行预测。
因为最优残差值在完成分数运动估计前是不可知的,所以利用预测的方法判断运动估计什么时候停止,有助于大幅提高运动估计的速度。
根据本文的实验结果,在低码率的情况下,该方法大幅地减少了搜索点,提高了运动估计速度。
【相关文献】
[1]Chen Z,Zhou P,He Y.Fast integer pel and fractional pel motion estimation for
JVT[C]//JVT-F017.in Joint Video Team(JVT)of ISO/IEC MPEG&ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 and ITU-T SG16 Q.6)6th Meeting,Awaji,Island,JP,2002.
[2]Nisar H,Tae-Sun C.Fast and efficient fractional pixel motion estimation for H.264/AVC video coding[C]//2009 16th IEEE International Conference on Image Processing(ICIP),2009.
[3]Wang Y J,Cheng C C,Chang T S.A fast algorithm and its VLSI architecture for fractional motion estimation for H.264/MPEG-4 AVC video coding[J].IEEE Transactions on Circuits and Systems for Video Technology,2007,17(5):578-583.
[4]Sayed M,Badawy W,Jullien G.Low-complexity algorithm for fractional-pixel motion estimation[C]//2009 16th IEEE International Conference on Image Processing(ICIP),2009.
[5]Mudugamuwa D J.Higher order prediction for sub-pixel motion estimation[C]//2009 16th IEEE International Conference on Image Processing(ICIP),2009.
[6]Chen Z.Fast integer-pel and fractional-pel motion estimation for H.264/AVC[J].Journal of Visual Communication and Image Representation,2006,17(2):264-290.。