视频感兴趣区域快速提取与编码算法_刘鹏宇
基于重建编码信息的视频ROI提取算法
动提取算法 ,用于实现基于视觉感知特征的快速视频编码 。
2 帧间预测模式选择与运动估计原理
2 H24帧问预测模式选择技术 . 1 . 6 21 算法描述 .1 . 研究表 明,在 H. 4引入 的众多新技术中,约 8 %的计 2 6 0 算复杂度来 自模式选择和运动估计 J 。作为 H2 4关键技术 .6
(c o l f lcrncIfr t n& C nrl n ier g B in ies y f eh oo y B in 0 14 C ia S h o o Ee t i nomai o o o t gnei , e igUnvri T cn lg , e ig10 2 , hn 1 oE n j to j [ src !Ai n tdfcso h ih cmp tt n lcmpe i n ady ue nra—mea pia o fH.6/ V ie no ig Abta t miga eet ftehg o uao a o lxt ad hrl sd i eli p l t n o 24A C vd oe cdn i y t ci
s a d r ,b sn e o sr c i n f m a r — l c s tn ad y u i g r c n tu to o c o b o k mo i n v co n i tr fa r d c i n mo e a d c mb n n e t r f Huma Vi u l t e t r a d n e - me p e i t o l o d n o iig faue o n s a
Vi e d o ROIEx r c i nAl o ih t a to g rt m
一种从视频中提取视频关键帧的方法[发明专利]
专利名称:一种从视频中提取视频关键帧的方法专利类型:发明专利
发明人:刘华平,刘玉龙,孙富春
申请号:CN201310456215.X
申请日:20130929
公开号:CN103533237A
公开日:
20140122
专利内容由知识产权出版社提供
摘要:本发明涉及一种从视频中提取视频关键帧的方法,属于图像处理技术领域。
本发明的从视频中提取视频关键帧的方法,操作人员通过装置对感兴趣的场景进行视频拍摄。
在拍摄过程中装置同步记录视频的视频帧、加速度信息、方位信息和尺度信息。
拍摄完成后直接根据加速度信息、方位信息和尺度信息,对每一帧视频帧计算其权重。
最后根据权重和期望的关键帧数目来提取期望的视频关键帧。
本发明提出的从视频中提取视频关键帧的方法,可以用更小的计算量更准确的从视频中提取视频关键帧。
申请人:清华大学
地址:100084 北京市海淀区清华园1号
国籍:CN
代理机构:北京清亦华知识产权代理事务所(普通合伙)
代理人:罗文群
更多信息请下载全文后查看。
视频内容分析和推荐算法研究
视频内容分析和推荐算法研究第一章前言在当今数字化的时代,视频已经成为人们日常生活中不可或缺的一部分,许多人喜欢通过在线观看视频来获取信息、娱乐自己。
随着视频内容的增长和动态,如何为不同的用户提供最优的内容推荐已经成为了大众关注的热点问题。
本文旨在分析视频内容分析与推荐算法的理论基础,并深入探讨其实际应用。
第二章视频内容分析技术2.1 视频特征提取技术视频特征提取是视频内容分析的基础。
视频特征通常通过色彩、纹理、形状、动作等方面来描述视频内容。
色彩特征是通过提取图像像素信息来获取的,通常包括感知色度量、色彩直方图、色度直方图等。
纹理特征可以通过图像中包含的纹理区域来获取,常见的纹理特征包括灰度共生矩阵、局部二值模式等。
形状特征常见的包括边缘特征、角点、轮廓等信息。
动作特征是视频本质,常常通过关键帧、光流场、轮廓等信息来描述。
2.2 视频句子级分段技术句子级分段技术是对视频中内容进行分类的实用方法,它可以有效地提高视频分析的效率。
分段技术可以基于视频外部因素,如视频字幕、特定颜色的标记,也可以基于视频内部因素,如镜头变换、故事情节、物品变化等。
通过这种方法,可以根据视频内容的分类制定出更加精细的推荐策略。
2. 3 视频探索技术视频探索技术是一种综合技术,它包括了多种视频剪辑和纪录制作的技巧。
视频探索技术一般使用随机特征的方法来宽容处理。
这种方法能够提高视频分析的效率和准确性。
第三章推荐算法研究3.1 推荐算法基础现有的视频推荐算法通常涉及以下几个常见的问题:数据预处理、用户建模、推荐撰写和算法评估。
数据预处理属于数据采集和数据预处理领域,它主要关注的是收集和处理跨平台协作的数据。
用户建模通常涉及内容模型和个人模型两个方向。
针对内容模型,推荐算法需要将视频分割为一些小片段,每个小片段都是基于特定领域或特定主题的。
个人建模则涉及用户的特定关注领域、兴趣爱好以及偏好等方面。
推荐撰写则根据用户关注的领域、个人建模以及当前的需求,将匹配度最高的推荐内容呈现给用户。
opencv——感兴趣区域(ROI)的分析和选取[详细总结]
opencv——感兴趣区域(ROI)的分析和选取[详细总结]引⾔在利⽤OpenCV对图像进⾏处理时,通常会遇到⼀个情况,就是只需要对部分感兴趣区域进⾏处理。
因此,如何选取感兴趣区域呢?(其实就是“抠图”)。
在学习opencv的掩码运算后,尝试实现⼀个类似halcon的reduce_domain功能,对于实现抠图的过程中,需要掌握的要点就是位运算符和copyTo函数 位运算符的相关API:void bitwise_and(InputArray src1, InputArray src2, OutputArray dst); //dst = src1 & src2 “与”操作void bitwise_or(InputArray src1, InputArray src2, OutputArray dst); //dst = src1 | src2 “或”操作void bitwise_xor(InputArray src1, InputArray src2, OutputArray dst); //dst = src1 ^ src2 “异或”操作void bitwise_not(InputArray src, OutputArray dst); //dst = ~src “⾮”操作copyTo函数它的定义OpenCV中image.copyTo()有两种形式:1、image.copyTo(imageROI),作⽤是把image的内容复制到imageROI;2、image.copyTo(imageROI,mask),作⽤是把原图(image)和掩膜(mask)与运算后得到ROI区域(imageROI)。
mask就是位图,如果mask像素的值是⾮0的,我就拷贝它,否则不拷贝。
(⾮零的位置就是原图中的那些需要拷贝的部分)正⽂部分对于感兴趣区域(Region of Interest, ROI)的选取,⼀般有两种情形:1)已知ROI在图像中的位置;2)ROI在图像中的位置未知。
多媒体移动用户的感兴趣区域的提取方法
多媒体移动用户的感兴趣区域的提取方法在当今数字化的时代,多媒体内容如潮水般涌来,而对于多媒体移动用户而言,能够从海量的信息中准确提取出他们感兴趣的区域,无疑具有重要的意义。
这不仅能提升用户的体验,还能为相关的服务和应用提供更有针对性的支持。
要理解如何提取多媒体移动用户的感兴趣区域,首先得明确什么是“感兴趣区域”。
简单来说,就是在多媒体内容中,能够吸引用户注意力、引起用户兴趣的那部分。
它可以是一张图片中的特定物体,一段视频中的某个情节,或者一篇文章中的关键段落。
那么,如何去发现和提取这些区域呢?一种常见的方法是基于用户的行为数据。
比如,用户在浏览图片时的停留时间、放大缩小操作,在观看视频时的重复播放、快进快退行为,以及在阅读文章时的滚动速度、停留位置等。
通过对这些行为数据的分析,可以大致判断出用户对哪些部分比较关注。
以图片为例,如果用户在某一区域停留的时间较长,或者频繁进行放大操作,那么这个区域很可能就是用户感兴趣的。
对于视频,若用户多次重复观看某一段,或者在这一段的播放过程中几乎没有进行其他操作,那么这段视频内容就可能是其感兴趣的部分。
除了行为数据,用户的主动选择和标记也是提取感兴趣区域的重要依据。
很多多媒体应用都提供了用户标记、收藏、点赞等功能。
用户主动标记的区域或者点赞的内容,显然是他们感兴趣的。
另外,上下文信息也能为提取感兴趣区域提供线索。
比如,用户正在查看的是关于旅游的内容,那么与热门旅游景点相关的部分可能更容易引起他们的兴趣。
如果是在购物场景中,用户近期搜索和浏览过的商品类别相关的信息可能就是其关注的重点。
在实际的提取过程中,还需要考虑到多媒体内容的类型和特点。
对于图像,可能需要用到图像识别和处理技术,来识别出具有特定特征的区域。
比如,在一张风景图片中,色彩鲜艳、对比度高的区域可能更容易吸引用户的目光。
对于视频,不仅要考虑每一帧的图像内容,还需要结合音频信息。
比如,在一段有解说的视频中,用户可能会对解说重点对应的画面更感兴趣。
基于区域划分的深度视频快速编码算法
基于区域划分的深度视频快速编码算法田涛;彭宗举【摘要】多视点彩色视频与深度视频作为多媒体系统中主流3D场景表示方式,吸引了越来越多人的关注.深度视频反映场景的几何信息,如何对其进行快速编码尤为重要.提出了一种基于区域划分的深度视频快速编码算法.首先,根据深度视频的边缘和运动属性把深度视频分为四个区域;然后,深入分析不同区域内宏块模式分布比例以及参考帧选择特性,设计了不同的宏块模式选择和参考帧搜索策略来提高编码速度;最后,测试提出算法的编码时间、码率以及合成虚拟视点的质量.实验结果表明,提出算法在保证虚拟视点图像质量和编码码率基本不变的情况下,节约了85.73%~ 91.06%的编码时间.【期刊名称】《计算机应用》【年(卷),期】2013(033)006【总页数】5页(P1706-1710)【关键词】三维;深度视频;视频编码;区域划分;快速编码算法【作者】田涛;彭宗举【作者单位】宁波大学信息科学与工程学院,浙江宁波315211;宁波大学信息科学与工程学院,浙江宁波315211【正文语种】中文【中图分类】TN919.80 引言随着三维显示及其相关技术的发展,三维视频能够提供全新的立体感体验,满足观赏者对深度感、交互式和立体感需求[1-2]。
多视点彩色视频与深度视频(Multiview Video plus Depth,MVD)作为三维场景信息的主要表示方式,可以完整地呈现出视角范围较广、深度层次丰富的场景信息,且能够利用基于深度图像绘制技术生成其他视点视频信号[3-4]。
然而,MVD需要编码的数据量随着视点数目的增加而成倍地增加[5]。
因此,为了解决多视点视频海量数据的传输和存储问题,需要对多视点视频数据进行高效压缩。
两大国际标准化组织ISO和ITU组成的联合视频专家组提出了用于多视点视频编码的JMVC校验平台[6]。
JMVC平台对每一个编码宏块采用可变块模式和多参考帧搜索技术。
每个编码帧的宏块模式又分为帧内预测模式和帧间预测模式,帧内预测模式分为Intra16×16、Intra8×8和Intra4×4。
基于感兴趣区域的视频编码优化研究及应用的开题报告
基于感兴趣区域的视频编码优化研究及应用的开题报告一、研究背景随着数字媒体技术的不断发展,人们对于视频内容的需求也越来越高。
而视频编码则是保证视频传输和储存的质量和效率的关键技术。
目前,视频编码中最为广泛使用的是基于 H.264/AVC 标准的编码技术,但是通过对其进行优化和改进,可以进一步提高视频编码的性能和质量,为用户提供更加优质的视觉体验。
二、研究内容本研究旨在通过感兴趣区域(Region of Interest,ROI)的概念,对视频编码进行优化,提高视频传输和储存的效率。
具体包括以下三个部分:1.感兴趣区域检测为了对感兴趣区域进行编码优化,首先需要对感兴趣区域进行准确的检测。
本研究将探究基于深度学习的感兴趣区域检测方法,如 FasterR-CNN 和 YOLO 等。
2.感兴趣区域编码在进行感兴趣区域编码时,需要考虑如何针对感兴趣区域进行优化。
本研究将研究基于 H.264/AVC 标准的感兴趣区域编码方法,包括帧内预测、运动估计和运动补偿等技术。
3.实验验证为验证本研究提出的感兴趣区域编码方法的有效性,将进行实验验证。
具体包括利用公开数据集对检测算法进行准确性和速度的评测,以及对编码算法进行视频质量和传输效率的对比实验等。
三、研究意义本研究将有助于提高视频编码的效率和质量,为用户提供更加优质的视觉体验。
同时,本研究所提出的基于感兴趣区域的视频编码方法也可以应用于视频监控、视频会议等各个领域中,具有广阔的应用前景。
四、研究方法本研究将采用实验研究的方法,包括理论分析和实验验证两个部分。
在理论分析阶段,将总结现有的感兴趣区域检测和编码方法,进行分析和比较,并提出本研究的感兴趣区域检测和编码算法。
在实验验证阶段,将使用公开数据集进行实验验证,并提出优化方案。
五、预期成果本研究的预期成果包括:1.提出基于感兴趣区域的视频编码方法,包括感兴趣区域检测和编码优化算法;2.完成实验验证,证明所提出的编码方法可以提高视频编码的效率和质量;3.发表相关学术论文,提高研究成果的知名度和权威性。
一种基于视觉关注度优先级的高效视频编码方法[发明专利]
专利名称:一种基于视觉关注度优先级的高效视频编码方法专利类型:发明专利
发明人:刘鹏宇,吴玥颖,高原,贾克斌
申请号:CN201510674257.X
申请日:20151016
公开号:CN105245890A
公开日:
20160113
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于视觉关注度优先级的高效视频编码方法,本方法围绕基于运动-纹理特征的视觉关注优先级标注和基于视觉关注优先级的高质量编码优化两部分内容展开。
首先,以编码对象的运动分级作为主导视觉关注特征、以编码对象的纹理信息作为辅助视觉关注特征,对编码单元进行关注度标注及优先级判别;然后,进行自适应编码变换系数调控,实现针对关注程度不同区域的差异性编码,在相同码率下,保证更优的主观视觉质量。
申请人:北京工业大学
地址:100124 北京市朝阳区平乐园100号
国籍:CN
代理机构:北京思海天达知识产权代理有限公司
代理人:沈波
更多信息请下载全文后查看。
视频编码码率处理方法和装置、存储介质及电子设备[发明专利]
专利名称:视频编码码率处理方法和装置、存储介质及电子设备
专利类型:发明专利
发明人:张鹏,刘星宇,向国庆
申请号:CN202210352794.2
申请日:20220406
公开号:CN114501015A
公开日:
20220513
专利内容由知识产权出版社提供
摘要:本发明公开了一种视频编码码率处理方法和装置、存储介质及电子设备。
其中,上述方法包括:根据当前视频帧中的每个编码单元的目标码率以及预设的码率分配模型,分别确定所述每个编码单元对应的原始视频编码码率和特征编码码率;根据原始视频编码码率对每个编码单元进行视频编码,以及根据特征编码码率对编码单元中的图像特征进行压缩;当上述当前视频帧中的所有编码单元均完成视频编码以及图像特征压缩时,获取当前视频帧的实际编码码率;根据当前视频帧的实际编码码率与视频帧的目标传输码率,调整当前视频帧的下一视频帧的目标码率。
本发明解决了视频编码码率处理效率较低的技术问题。
申请人:杭州未名信科科技有限公司,浙江省北大信息技术高等研究院
地址:311200 浙江省杭州市萧山区宁围街道钱江世纪公园C区1幢101室
国籍:CN
更多信息请下载全文后查看。
基于重建编码信息的视频ROI提取算法
基于重建编码信息的视频ROI提取算法刘鹏宇;贾克斌【期刊名称】《计算机工程》【年(卷),期】2011(37)24【摘要】Aiming at defects of the high computational complexity and hardly used in real-time application of H.264/AVC video encoding standard, by using reconstruction of macro-blocks motion vector and inter-frame prediction mode, and combining feature of Human Visual System(HVS), this paper proposes a fast extraction algorithm for video Region of Interest(ROI) and optimized encoding scheme. Simulation results show that compared with H.264/AVC algorithm, the proposed algorithm can achieve reduction of 53.11% encoding time on average, while PSNR only declined 0.052 dB and bit-rate increase 0.17% at the same time.%针对H.264/AVC视频编码标准计算复杂度高、难以实时应用的缺陷,利用重建块的运动矢量和帧间预测模式,并结合人类视觉感知特征,提出一种视频感兴趣区域快速提取算法及其优化编码方案.仿真结果表明,与H.264/AVC算法相比,该算法能够在码率平均增加0.17%、峰值信噪比平均下降0.052 dB的前提下,节省53.11%的编码时间.【总页数】3页(P278-280)【作者】刘鹏宇;贾克斌【作者单位】北京工业大学电子信息与控制工程学院,北京100124;北京工业大学电子信息与控制工程学院,北京100124【正文语种】中文【中图分类】TP391【相关文献】1.可实现ROI功能的改进精细伸缩视频编码 [J], 徐向民;陈小川;周丰乐;全晓臣;陈育2.基于Hi3516的监控视频自适应ROI编码 [J], 王俊;卢贤龙;张重阳;梁龙飞;田广3.基于ROI运动区域的分布式视频编码方法 [J], 李峰;程晓钢4.一种新的低复杂度监控视频ROI编码方案 [J], 曹铁勇;张鹏;颜羡卿;潘竟峰5.基于上下文信息的高分辨率SAR图像ROIs提取算法 [J], 袁湛;何友;蔡复青因版权原因,仅展示原文概要,查看原文内容请购买。
对特定模式进行预判的H.264帧间快速编码算法
对特定模式进行预判的H.264帧间快速编码算法
刘鹏宇;何絮;贾克斌
【期刊名称】《兵工学报》
【年(卷),期】2011(032)004
【摘要】针对H.264/AVC标准采用率失真代价技术、遍历所有帧间宏块编码模式而导致视频编码计算复杂度高的问题,提出了帧间快速优化编码算法.通过分析H.264帧间编码中各种预测模式出现的概率统计特性,对特定模式进行预判以提前终止不必要的搜索和率失真代价计算,减少编码时间开销.仿真结果表明,本文算法在不影响原有图像质量、码率和保持原输出码流结构的前提下,编码时间平均节省近70%.
【总页数】6页(P439-444)
【作者】刘鹏宇;何絮;贾克斌
【作者单位】北京工业大学,电子信息与控制工程学院,北京100124;北京工业大学,电子信息与控制工程学院,北京100124;北京工业大学,电子信息与控制工程学院,北京100124
【正文语种】中文
【中图分类】TP391
【相关文献】
1.H.264帧内、间预测编码模式选择算法的时间复杂度分析 [J], 姜恩华;周正;汪徐德
2.采用灰度共生矩阵进行深度预判的3D-HEVC深度图帧内快速编码算法 [J], 廖洁;陈婧;曾焕强;蔡灿辉
3.基于帧内/帧间模式选择相关性的H.264/AVC快速帧内模式选择算法 [J], 何宝
4.基于帧内/帧间模式选择相关性的H.264/AVC快速帧内模式选择算法 [J], 何宝
5.H.264中基于统计分析的快速帧间、帧内模式选择算法 [J], 王淑慧;林涛;林争辉因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要: 如何在复杂度和时延受限的条件下,减少时域、空域和统计冗余,获得率失真性能的最优化是视频编码设 计的核心问题。作为最新的视频编码标准, H.264 在取得更高压缩率的同时,编码复杂度也随之剧增,限制了其在实 时环境中的应用。本文在传统视频编码框架基础上,结合人类视觉系统感知特征,提出一种基于编码信息的视频感兴 趣区域快速提取算法和优化编码方案。仿真实验结果表明,本文提出的编码策略在重建视频质量基本无损失和维持原 有码率的提前下,将 H.264 编码时间平均节省 52.55%,并能够与其它快速编码技术相结合,进一步提高 H.264 编码速 度,以更好的适应异构网络及多样性终端环境,满足日益丰富的多媒体与通信业务需求。 关键词: H.264;视觉感知特征;编码信息;视频感兴趣区域 中图分类号: TP391 文献标识码: A
第2期
刘鹏宇等:视频感兴趣区域快速提取与编码算法 表1
Akiyo Silent Container Suzi Salesman Coastguard Foreman Football
415
此 较 多 选 择 亚 分 割 预 测 模 式 ( mode4~mode7) ; 这也正是宏块级预 测明显多于亚分割预测的原因。在视 频序列中,相邻视频帧之间的时域相 关性一般大于同一视频帧内相邻宏块 之间的空域相关性,因此,不论视频 序列的运动剧烈程度和纹理丰富程度 如何,选择帧内预测做为最终帧间编 码模式的概率都很低。 2.2 运动估计编码技术
视频序列名称 Skip 模式 16×16 模式 16×8 模式 8×16 模式 亚分割模式 帧内模式
运动估计的速度和准确性对整个编码器的性能影响较大, H.264 自推出以来一直在寻找更加优秀的快速运动估计算法
[11]
。 UMHexagonS ( Unsymmetrical-Cross Multi-Hexagon Search)
2
2.1
H.264标准相关算法简介
帧间预测模式选择技术 已有研究表明, H.264 约 80%的编码计算
复杂度主要来自于帧间预测模式选择和运动估 计。在 H.264 的帧间预测算法中,对当前编码 宏块以全搜索的方式,遍历 7 种可变尺寸的宏 块级分割, 即 16×16 ( mode1) , 16×8 ( mode2) , 8×16( mode3)和亚分割,即 8×8( mode4), 8×4( mode5),4×8( mode6),4×4( mode7); 同时支持 Skip 模式( mode0)和 H.264 特有的
式中, m (m x , m y ) T 表示运动矢量, p ( p x , p y ) T 表示预测的运动矢量, mod e 是拉格朗日运动模式乘数 因子, R(m p) 是表示运动矢量差值所需的二进制位数, J (m, mod e ) 表示宏块在 mode 模式下的率失真 代价值 RDO-cost。 本文以 H.264( JM17.0)为实验平台,选用 8 个标准视频序列,在 2G 内存, 1.6GHz 主频的计算 机上运行,统计各帧间预测模式的出现概率,见表 1。 由表 1 可见,对于 Akiyo,Silent 等运动平缓且纹理平坦的视频序列较多采用 Skip 和宏块级预测编 码模式;而 Foreman, Football 等运动剧烈且纹理丰富的视频序列较多采用亚分割预测编码模式 [10]。 整体上,宏块级预测明显多于亚分割预测,选择帧内预测模式的概率普遍很低。 由于视频序列中运动平缓和纹理平坦的背景区域占据大部分,因此大多选择 Skip 模式( mode0) 或宏块级编码模式( mode1~mode3) ;在视频序列中运动剧烈、纹理丰富的前景区域只占据小部分,因
图1 H.264 标准帧间预测编码模式
帧内预测模式 Intra16×16(包含 4 种预测方向)和 Intra4×4(包含 9 种预测方向)如图 1 所示。 H.264 采用拉格朗日率失真优化策略,其目标是在给定的码率约束条件下使失真达到最小。通过 遍历计算所有预测模式的绝对误差和 SAD( Sum of Difference,SAD)(式 1),得到各模式的率失真 代价值 RDO-cost( Rate-Distortion Optimization-cost),并由率失真优化准则(式 2)选择出率失真意 义上最优的帧间预测模式进行编码,计算量相当可观。
SAD( s, c(m))
M ,N x 1, y 1
| s[ x, y] c[ x mx , y m y ] |
( 1)
式中, M , N 别表示当前编码宏块的宽度和高度,s 表示真实值,c 表示预测值, mx , m y 分别表示宏块 水平和垂直方向上的位移量, m (mx , m y )T 表示宏块的运动矢量。 J (m, mod e ) SAD( s, c(m )) mod e R(m p) ( 2)
* 收稿日期: 2010-12-17
修订日期 : 2013-04-05
基金项目: 国家科技支撑计划项目子课题( 2011BAC12B03 );国家自然科学基金面上项目( 30970780 );国家青年科学基金项目 ( 61100131 );北京市教委科研计划面上项目( KM201110005007 );北京市科技进步三等奖,“动态可重构图像视频信 息
H.264帧间编码中各种预测模式的统计概率分布表
87.39% 71.32% 68.11% 54.69% 55.81% 24.62% 12.07% 14.09% 7.57% 11.69% 14.42% 27.81% 7.21% 36.34% 16.85% 19.54% 1.97% 4.57% 2.39% 5.97% 1.12% 12.67% 4.79% 9.49% 2.17% 5.49% 1.36% 7.21% 1.45% 11.47% 5.84% 10.23% 0.87% 6.08% 12.49% 3.11% 34.16% 13.41% 59.35% 31.71% 0.0004% 0.85% 1.23% 1.22% 0.25% 0.002% 1.10% 4.95%
并行处理机”, 2009
# 通信作者: Email : liupengy卷
取结果与人眼视觉感知存在不一致的现象;Wang 等人 [6]融合了运动、亮度强度、人脸和文字等视觉特 征,构建视觉注意模型提取感兴趣区域;Tang 等人 [7,8],Lin 等人 [9]采用运动和纹理信息获取感兴趣区 域, 由于现有的全局运动估计算法复杂度都较大, 因此感兴趣区域提取算法复杂度过高。 上述基于 HVS 的视频编码技术集中研究了比特资源优化分配的方法,在比特资源受限时保证感兴趣区域的视频图像 质量,欠缺对计算资源分配问题的考虑,并且对进行视觉感知分析时引入的额外计算复杂度,也没有 引起足够的关注。 可见,如何充分利用已有的编码信息,获得编码对象的感兴趣区域,同时又避免增加额外的计算 开销,成为降低 H.264 视频编码算法复杂度的关键。 本文在第 2 部分介绍了 H.264 帧间预测模式选择和运动估计算法工作原理,统计并分析了预测模 式选择结果和运动矢量分布规律;据此在第 3 部分着重分析了 H.264 编码信息中的帧间预测模式、运 动矢量与人眼感兴趣区域之间的关联性, 阐述了本文提出的算法原理; 在第 4 部分给出仿真实验结果; 最后是全文总结。
1
引言
视频编码技术是有效传输和存储多媒体信息的关键技术之一。受传输带宽、存储容量的限制,视
频编码领域的研究人员一直在致力于提高视频编码算法的率失真性能,以期能用更少的比特资源提供 视觉感知质量更好的视频图像。国际联合视频组( Joint Video Team, JVT)主席 Sullivan 等人指出, 如何在复杂度(计算资源,内存容量等)和时延受限的条件下,获得最优化的率失真性能是视频编码 设计的核心问题 [1]。 H.264 是国际电信联盟( ITU-T)和国际标准化组织( ISO/IEC)联合制定的最新 视频编码标准 [2],采用 1/4 像素精度运动估计、多参考帧和多模式的帧间预测、去块效应滤波器等一 系列高计算复杂度的编码技术,使 H.264 在获得更高效的压缩性能和更可靠的传输性能的同时也带来 了巨大的编码复杂度,限制了其在高分辨率视频传输等多媒体实时通信业务中的应用。 视觉神经科学研究已经证明,人类视觉系统 HVS( Human Visual System, HVS) ,对视频场景的 感知具有选择性,对不同区域或者对象具有不同的视觉重要性 [3]。然而,以 H.264 为代表的现有视频 编码标准,着重从减少时域冗余、空域冗余和统计冗余等方面来提高率失真性能,而忽略了 HVS 对视 频场景感知的多样性。 依据 HVS,人眼通常对运动剧烈的对象或者纹理丰富的区域具有较高的视觉感知灵敏度,并作为 感兴趣区域 ROI( Region of Interest, ROI) 。因此,对如何结合人类视觉感知特征来改善视频编码算法 的编码效果和计算复杂度的问题进行深入研究,将比特资源和计算资源优先分配给感兴趣区域,从而 提高视频编码质量和编码速度,具有重要的理论意义和应用价值。而实现这一目标的前提是如何从视 频序列中准确、快速地获取感兴趣区域。 采用传统的运动对象分割方法,如:光流法、帧差法、运动能量检测法和背景差分法等,虽然可 以获得运动区域,但会引入额外的计算开销。截至目前,众多学者围绕感兴趣区域提取技术开展了大 量研究工作。Tsapatsoulis 等人 [4]提出采用融合颜色、亮度、方向和肤色四种视觉特征进行感兴趣区域 计算,但该方法忽略了运动视觉特征 [5],而运动特征在视频编码中又尤为重要,因此其感兴趣区域提
第 18 卷 第 2 期 2013 年 4 月
文章编号: 1007-0249 (2013) 02-0413-07
电路与系统学报 JOURNAL OF CIRCUITS AND SYSTEMS
Vol.18 No.2 April,2013
视频感兴趣区域快速提取与编码算法*
刘鹏宇 #, 贾克斌