视频感兴趣区域快速提取与编码算法_刘鹏宇

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAD( s, c(m))
M ,N x 1, y 1
| s[ x, y] c[ x mx , y m y ] |
( 1)
式中, M , N 别表示当前编码宏块的宽度和高度,s 表示真实值,c 表示预测值, mx , m y 分别表示宏块 水平和垂直方向上的位移量, m (mx , m y )T 表示宏块的运动矢量。 J (m, mod e ) SAD( s, c(m )) mod e R(m p) ( 2)
摘要: 如何在复杂度和时延受限的条件下,减少时域、空域和统计冗余,获得率失真性能的最优化是视频编码设 计的核心问题。作为最新的视频编码标准, H.264 在取得更高压缩率的同时,编码复杂度也随之剧增,限制了其在实 时环境中的应用。本文在传统视频编码框架基础上,结合人类视觉系统感知特征,提出一种基于编码信息的视频感兴 趣区域快速提取算法和优化编码方案。仿真实验结果表明,本文提出的编码策略在重建视频质量基本无损失和维持原 有码率的提前下,将 H.264 编码时间平均节省 52.55%,并能够与其它快速编码技术相结合,进一步提高 H.264 编码速 度,以更好的适应异构网络及多样性终端环境,满足日益丰富的多媒体与通信业务需求。 关键词: H.264;视觉感知特征;编码信息;视频感兴趣区域 中图分类号: TP391 文献标识码: A
1
引言
视频编码技术是有效传输和存储多媒体信息的关键技术之一。受传输带宽、存储容量的限制,视
频编码领域的研究人员一直在致力于提高视频编码算法的率失真性能,以期能用更少的比特资源提供 视觉感知质量更好的视频图像。国际联合视频组( Joint Video Team, JVT)主席 Sullivan 等人指出, 如何在复杂度(计算资源,内存容量等)和时延受限的条件下,获得最优化的率失真性能是视频编码 设计的核心问题 [1]。 H.264 是国际电信联盟( ITU-T)和国际标准化组织( ISO/IEC)联合制定的最新 视频编码标准 [2],采用 1/4 像素精度运动估计、多参考帧和多模式的帧间预测、去块效应滤波器等一 系列高计算复杂度的编码技术,使 H.264 在获得更高效的压缩性能和更可靠的传输性能的同时也带来 了巨大的编码复杂度,限制了其在高分辨率视频传输等多媒体实时通信业务中的应用。 视觉神经科学研究已经证明,人类视觉系统 HVS( Human Visual System, HVS) ,对视频场景的 感知具有选择性,对不同区域或者对象具有不同的视觉重要性 [3]。然而,以 H.264 为代表的现有视频 编码标准,着重从减少时域冗余、空域冗余和统计冗余等方面来提高率失真性能,而忽略了 HVS 对视 频场景感知的多样性。 依据 HVS,人眼通常对运动剧烈的对象或者纹理丰富的区域具有较高的视觉感知灵敏度,并作为 感兴趣区域 ROI( Region of Interest, ROI) 。因此,对如何结合人类视觉感知特征来改善视频编码算法 的编码效果和计算复杂度的问题进行深入研究,将比特资源和计算资源优先分配给感兴趣区域,从而 提高视频编码质量和编码速度,具有重要的理论意义和应用价值。而实现这一目标的前提是如何从视 频序列中准确、快速地获取感兴趣区域。 采用传统的运动对象分割方法,如:光流法、帧差法、运动能量检测法和背景差分法等,虽然可 以获得运动区域,但会引入额外的计算开销。截至目前,众多学者围绕感兴趣区域提取技术开展了大 量研究工作。Tsapatsoulis 等人 [4]提出采用融合颜色、亮度、方向和肤色四种视觉特征进行感兴趣区域 计算,但该方法忽略了运动视觉特征 [5],而运动特征在视频编码中又尤为重要,因此其感兴趣区域提
* 收稿日期: 2010-12-17
修订日期 : 2013-04-05
基金项目: 国家科技支撑计划项目子课题( 2011BAC12B03 );国家自然科学基金面上项目( 30970780 );国家青年科学基金项目 ( 61100131 );北京市教委科研计划面上项目( KM201110005007 );北京市科技进步三等奖,“动态可重构图像视频信 息
第 18 卷 第 2 期 2013 年 4 月
文章编号: 1007-0249 (2013) 02-0413-07
电路与系统学报 JOURNAL OF CIRCUITS AND SYSTEMS
百度文库
Vol.18 No.2 April,2013
视频感兴趣区域快速提取与编码算法*
刘鹏宇 #, 贾克斌
(北京工业大学 电子信息与控制工程学院,北京 100124 )
图1 H.264 标准帧间预测编码模式
帧内预测模式 Intra16×16(包含 4 种预测方向)和 Intra4×4(包含 9 种预测方向)如图 1 所示。 H.264 采用拉格朗日率失真优化策略,其目标是在给定的码率约束条件下使失真达到最小。通过 遍历计算所有预测模式的绝对误差和 SAD( Sum of Difference,SAD)(式 1),得到各模式的率失真 代价值 RDO-cost( Rate-Distortion Optimization-cost),并由率失真优化准则(式 2)选择出率失真意 义上最优的帧间预测模式进行编码,计算量相当可观。
图2 UMHexagonS 算法运动估计模板
量预测、邻近参考帧运动矢量预测等预测手段求取运动矢量,使最初搜索起始点更接近最佳预测点。 步骤 2:基于在多数序列中水平运动剧烈程度大于垂直方向的特点,进行非对称十字形搜索(水 平搜索范围是垂直方向的 2 倍) 。如图 2 中 step2 所示。 步骤 3:在步骤 2 中确定的搜索中心点周围 4 4 的区域内进行 5 5 个整像素全搜索,如图 2 的
第2期
刘鹏宇等:视频感兴趣区域快速提取与编码算法 表1
Akiyo Silent Container Suzi Salesman Coastguard Foreman Football
415
此 较 多 选 择 亚 分 割 预 测 模 式 ( mode4~mode7) ; 这也正是宏块级预 测明显多于亚分割预测的原因。在视 频序列中,相邻视频帧之间的时域相 关性一般大于同一视频帧内相邻宏块 之间的空域相关性,因此,不论视频 序列的运动剧烈程度和纹理丰富程度 如何,选择帧内预测做为最终帧间编 码模式的概率都很低。 2.2 运动估计编码技术
“非对称十字型多层次六边形格点搜索算法” , 支持多种尺寸运 动估计,具有起点预测准确,多样化的搜索模板和搜索方式, 采用率失真优化准则等优点,从参考软件 JM7.6 版本开始起被 H.264 选用为整像素运动估计算法。 UMHexagonS 算法包括四个步骤,每个步骤采用了不同的 搜索模板如图 2 所示。 步骤 1:采用中值预测、上层预测、前一帧对应块运动矢
视频序列名称 Skip 模式 16×16 模式 16×8 模式 8×16 模式 亚分割模式 帧内模式
运动估计的速度和准确性对整个编码器的性能影响较大, H.264 自推出以来一直在寻找更加优秀的快速运动估计算法
[11]
。 UMHexagonS ( Unsymmetrical-Cross Multi-Hexagon Search)
2
2.1
H.264标准相关算法简介
帧间预测模式选择技术 已有研究表明, H.264 约 80%的编码计算
复杂度主要来自于帧间预测模式选择和运动估 计。在 H.264 的帧间预测算法中,对当前编码 宏块以全搜索的方式,遍历 7 种可变尺寸的宏 块级分割, 即 16×16 ( mode1) , 16×8 ( mode2) , 8×16( mode3)和亚分割,即 8×8( mode4), 8×4( mode5),4×8( mode6),4×4( mode7); 同时支持 Skip 模式( mode0)和 H.264 特有的
式中, m (m x , m y ) T 表示运动矢量, p ( p x , p y ) T 表示预测的运动矢量, mod e 是拉格朗日运动模式乘数 因子, R(m p) 是表示运动矢量差值所需的二进制位数, J (m, mod e ) 表示宏块在 mode 模式下的率失真 代价值 RDO-cost。 本文以 H.264( JM17.0)为实验平台,选用 8 个标准视频序列,在 2G 内存, 1.6GHz 主频的计算 机上运行,统计各帧间预测模式的出现概率,见表 1。 由表 1 可见,对于 Akiyo,Silent 等运动平缓且纹理平坦的视频序列较多采用 Skip 和宏块级预测编 码模式;而 Foreman, Football 等运动剧烈且纹理丰富的视频序列较多采用亚分割预测编码模式 [10]。 整体上,宏块级预测明显多于亚分割预测,选择帧内预测模式的概率普遍很低。 由于视频序列中运动平缓和纹理平坦的背景区域占据大部分,因此大多选择 Skip 模式( mode0) 或宏块级编码模式( mode1~mode3) ;在视频序列中运动剧烈、纹理丰富的前景区域只占据小部分,因

并行处理机”, 2009
# 通信作者: Email : liupengyu@bjut.edu.cn
414
电路与系统学报
第 18 卷
取结果与人眼视觉感知存在不一致的现象;Wang 等人 [6]融合了运动、亮度强度、人脸和文字等视觉特 征,构建视觉注意模型提取感兴趣区域;Tang 等人 [7,8],Lin 等人 [9]采用运动和纹理信息获取感兴趣区 域, 由于现有的全局运动估计算法复杂度都较大, 因此感兴趣区域提取算法复杂度过高。 上述基于 HVS 的视频编码技术集中研究了比特资源优化分配的方法,在比特资源受限时保证感兴趣区域的视频图像 质量,欠缺对计算资源分配问题的考虑,并且对进行视觉感知分析时引入的额外计算复杂度,也没有 引起足够的关注。 可见,如何充分利用已有的编码信息,获得编码对象的感兴趣区域,同时又避免增加额外的计算 开销,成为降低 H.264 视频编码算法复杂度的关键。 本文在第 2 部分介绍了 H.264 帧间预测模式选择和运动估计算法工作原理,统计并分析了预测模 式选择结果和运动矢量分布规律;据此在第 3 部分着重分析了 H.264 编码信息中的帧间预测模式、运 动矢量与人眼感兴趣区域之间的关联性, 阐述了本文提出的算法原理; 在第 4 部分给出仿真实验结果; 最后是全文总结。
H.264帧间编码中各种预测模式的统计概率分布表
87.39% 71.32% 68.11% 54.69% 55.81% 24.62% 12.07% 14.09% 7.57% 11.69% 14.42% 27.81% 7.21% 36.34% 16.85% 19.54% 1.97% 4.57% 2.39% 5.97% 1.12% 12.67% 4.79% 9.49% 2.17% 5.49% 1.36% 7.21% 1.45% 11.47% 5.84% 10.23% 0.87% 6.08% 12.49% 3.11% 34.16% 13.41% 59.35% 31.71% 0.0004% 0.85% 1.23% 1.22% 0.25% 0.002% 1.10% 4.95%
step 3-1 所示。再以 step3-1 中确定的最佳匹配点作为起始中心点,进行非均匀 4 层次六边形格网格搜 索(由内至外,分别由第 1 层至第 4 层) ,如图 2 中 step 3-2 所示。 步骤 4:从步骤 3 中确定的最佳预测点起,分别以步长为 2 个像素和 1 个像素进行扩展对称六边 形六点搜索,直至找到最佳匹配点。如图 2 中 Step4-1 和 Step4-2 所示。 UMHexagonS 算法中, 视频内容运动程度越剧烈, 在步骤 3 的外层找到最优匹配点的可能性越大, 即运动矢量较大;反之,在步骤 3 的内层找到最优匹配点的可能性越大,运动矢量较小。可见,当前 编码宏块的运动剧烈程度与遍历的运动估计搜索层次有着必 然的联系。 与表 1 条件相同,表 2 统计了不同测试序列在各搜索层 次上出现最佳匹配点的概率。 表 2 统计数据表明,对于 Akiyo,Silent 等运动较平缓的 视频序列, 多在步骤 3 的第 1 层或第 2 层上找到最佳匹配点; 而 Foreman,Football 等运动较剧烈的视频序列,在第 3 层或 第 4 层上出现最佳匹配点的概率较大。由于视频序列中大部 分是运动平缓的背景区域,因此,整体上最佳匹配点出现在 内层的概率高于在外层出现的概率。 可见, H.264 最新采纳的 UMHexagonS 运动估计算法遍 历所有搜索模板以确定最佳匹配点,而忽略了当前编码宏块的运动矢量特征,存在计算冗余。如果只
相关文档
最新文档