基金项目基金项目::国家自然科学基金资助项目(60970023);国家“973”计划基金资助项目(2011CB302501);国家“863”计划基金资助项目(2012AA010902, 2012AA010901)。

作者简介作者简介::孙公瑾(1983-),男,硕士研究生,主研方向:微处理器体系结构;安 虹,教授;范东睿,副研究员。 收稿日期收稿日期::2013-03-07 修回日期修回日期::2013-04-03 E-mail :hilcutz@


孙公瑾1,安 虹1,范东睿2

(1. 中国科学技术大学计算机科学与技术学院,合肥 230027;

2. 中国科学院计算技术研究所计算机体系结构国家重点实验室,北京 100190)

摘 要:运动估计是视频编码过程中最为复杂和耗时的阶段。为分析和优化其性能,从多个流行的开源视频编码器中提取出单独的运动估计算法模块,根据视频分辨率和视频内容的不同建立程序输入集,从而构成一套完整的测试程序集合。利用性能分析工具对算法性能和微体系结构性能进行量化分析,给出这些算法在当今主流处理器体系结构上的性能差异。实验结果表明,复杂视频和高分辨率视频下的运动估计算法耗时最长,且大部分算法的指令级并行性没有太大差异。算法最后一级高速缓存的缺失率和分支误预测率都较低,分别在0.01%和7%以下。


Evaluation of Motion Estimation for Multi-standard Video Encoder

SUN Gong-jin 1, AN Hong 1, FAN Dong-rui 2

(1. School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, China;

2. State Key Laboratory of Computer Architecture, Institute of Computing Technology,

Chinese Academy of Sciences, Beijing 100190, China)

【Abstract 】The Motion Estimation(ME) in the video coding is the most complex and time-consuming one of all the processing stages. This paper extracts all the ME modules from multiple popular open source video codecs in order to evaluate and optimize their performance. In addition, a comprehensive input data set is constructed for these ME algorithms considering different video contents and resolutions. A quantitative analysis of runtime efficiency and microarchitecture characteristics are made for these algorithms by means of the profiling tool based on hardware performance counter, and the analysis exposes their performance difference on current mainstream processor architecture. The evaluation results show that for the input of complex and high-resolution video, the ME will consume the most time, while there are little difference between their low Instruction Level Parallelism(ILP). But the Last Level Cache(LLC) miss rate and branch misprediction rate of these algorithms are all rather low, which are respectively under 0.01% and 7%.

【Key words 】video coding; Motion Estimation(ME); diamond search; hexagon search; video content; resolution ratio; microarchitecture DOI: 10.3969/j.issn.1000-3428.2014.04.058

计 算 机 工 程 Computer Engineering 第40卷 第4期 V ol.40 No.4 2014年4月

April 2014

计 算 机 工 程 Computer Engineering 第40卷 第4期 V ol.40 No.4 2014年4月


1 概述


在编码的多个阶段中,运动估计(Motion Estimation, ME)因涉及到太多复杂的计算而成为最耗时的部分[1]。该阶

段的主要功能是对于当前的编码单元(片、帧或宏块)通过一些有效的图像搜索算法找到一个最优的运动向量和参考图像。它需要很多的计算和数值比较操作。运动估计的精度将直接影响到最终的码流文件(被压缩后的文件)质量。因 此,单独对编码器中的运动估计算法进行观察和研究将会提供更多的性能提升空间,这些算法已经被广泛用于很多流行的编码器中[2-4],比如钻石搜索算法、六边形搜索算法、UMH 搜索算法等。但是对它们的分析不能通过分析完整的编码器进行,因为编码器的编码效果不仅由运动估计部分决定,而且还与其他一些因素相关。如果仅通过配置跟运
