视频中运动目标结构特征提取的子区域分割方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
视频中运动目标结构特征提取的子区域分割方法
周大伟;刘雨
【摘要】视频中为了研究运动目标的结构特征,利用最远点、信息瓶颈、均值漂移等方法时运动目标进行图像分割实验,获得运动目标的结构子区域.通过对比实验数据,用均值漂移分割方法获得的运动目标子区域较合理,为下一步研究视频中运动目标结构特征提供了合适的运动目标结构子区域,对深入研究运动目标结构特征,利用结构特征进行目标跟踪与识别具有重要意义.%In order to study the structural features of the moving targets in video, the image segmentation experiment of moving objects was conducted with the methods such as farthest point, information bottleneck and mean shift, and the structurial sub-region of the moving targets was obtained. It is found by comparison of the experimental results that the structure of moving object sub-region obtained by the mean shift segmentation is reasonable. Therefore, a suitable structure sub-region of moving objects is provided for the further study on structural features of the moving objects in video. It is important for indepth study on structural features of moving targets, and for target tracking and recognition by using the structural features.
【期刊名称】《现代电子技术》
【年(卷),期】2011(034)008
【总页数】4页(P98-100,104)
【关键词】特征提取;图像分割;信息瓶颈;均值漂移;目标识别
【作者】周大伟;刘雨
【作者单位】国防科学技术大学,电子科学与工程学院,湖南,长沙,410073;国防科学技术大学,电子科学与工程学院,湖南,长沙,410073
【正文语种】中文
【中图分类】TN919-34
0 引言
视频中运动目标的结构特征,是指运动目标分解(合并)为若干子区域,例如:人体分为头、躯干和四肢;车分为车身、车轮和车窗等。
以及提取的这些子区域的运动特征,例如:人体四肢绕关节的类圆周运动,车轮的轮动特征描述为车轮区域直方图(或特征空间概率密度)随时间的变化规律等。
在此把这些特征统称为运动目标的结构特征。
本文利用混合高斯等方法完成视频的前背景分离,主要研究如何将运动目标区域分解为合理的上述子区域。
这将对视频中运动目标的识别和跟踪有重要意义。
目前图像分割的方法有很多,例如:T. Gonzalez于1985年提出的最远点算法。
该算法具有计算量小,便于实现等特点。
由Tishby等人提出的信息瓶颈方法应用于图像分割,该方法基于密度函数表达式,类别之间的相似测度与聚类准则统一为最小互信息损失,并且能够自动给出聚类过程的终止条件。
J.L.Bentley于1975
年提出的K-Dtree方法,他将K-Dtree方法用于信息查询方面,提高了搜索速度,该方法也可应用于图像分割中(本文第2节将做介绍)。
Fukunaga于1975年提出的漂移均值方法应用于图像分割,该方法可自动搜寻图像特征空间中的模式,即计算概率密度最集中的点,但是计算量比较大,K均值和最大熵方法都是其特例。
由
于前景提取一般受到噪声影响,运动目标区域可能分散为多个区域(这时需要合并);也可能是一个整体区域(这是需要分解)。
总之,两种情况都属于图像分割范畴。
1 运动目标检测为多区域的处理方法
1.1 视频图像前背景分离
对于一个原始视频,提取其中的运动目标结构特征,首先要对其进行运动区域检测等预处理程序,本文应用混合高斯方法和位图匹配方法实现。
如图1所示。
1.2 最远点算法在图像分割中的应用
T.Gonzalez等人针对K聚类问题提出了一种简单算法即最远点算法。
初始选择任意一点v0作为第一类的中心,并把这点加入到中心集合C中。
然后从1~K依次
迭代计算每点距离中心集合C中元素的距离:如果vi距离集合C距离最远,即则将vi加入到中心集合C中。
依次取出K个中心点后,其他点按照距离最近原则划分到K个类中,从而完成了K聚类。
将最远点算法应用到图像分割中,应用该方法处理图1(a)所示情况,从每帧中提
取运动目标各区域的速度矢量(这里以水平分量作依据),利用最远点方法对速度矢量进行聚类。
四肢与人体其他部位速度矢量差异较大,从而,理论上可实现所要求的分割结果。
图1 视频预处理过程
从图中可以看出,因为人体头和身体速度矢量基本相同,固划分为一类,摆动的手臂和腿部则分别被分割出来。
从而实现了运动目标结构特征的子区域提取。
应用最远点聚类方法的优点在于它的计算速度,此方法的计算量可减少到O(n log K)量级,简单易实现。
如图2所示。
图2 最远点聚类算法实验结果
2 运动目标检测为单区域的处理方法
2.1 基于K-D tree方法进行图像分割
K-D tree 是指K维搜索空间建立起的快速查询树。
基本思想是将空间集合A中元素按照一定规则聚类,对其产生的子类继续分割,直到达到某一条件或者不能再分停止,由此生成了一幅树状的关系图(如图3(a)所示)。
在K-D tree的每个节点上,只保存box信息(如图3(b)所示),其中bound表示每个集合聚类准则的范围,即每个父节点所包含的两个子集的范围,并不保存子集所有元素。
从而n个样本点
的搜索速度提升至O(log n)量级。
图3 K-D tree结构图
将K-D tree方法应用于图像分割中来,例如,将一幅灰度图像按照灰度差异进行
分割,将灰度图像按照图像灰度的均值进行分割,从而产生两幅子图像(即两个子
集节点),节点中包含两幅子图像包含的灰度值范围,然后继续对两幅子图像进行
分割,直到将图像分割至每个子节点只有一个像素时终止分割。
通过K-D tree方
法对运动目标区域进行图像分割,在生成树中的子节点中将包含运动目标的结构特征。
如图4所示。
图4 K-D tree 实验结果
该实验只按照K-D tree方法计算了两层子节点,并没有得到整个树,因为该方法
分割的结果,往往不在最底层的子节点中,从第一代的子节点中就可以得到车身与车窗的区域,但是车轮区域提取比较困难。
2.2 基于信息瓶颈方法的运动目标结构特征提取
信息瓶颈方法利用信息熵比较来实现聚类的目的,是由Tishby提出的一种算法,可用于图像的分割、聚类等方面。
基本原理是:利用图像区域聚类前后的信息相关性来进行图像的聚类,最终达到信息损失最少的最优化聚类方法。
对于该算法首先介绍两个基本概念:
(1) 熵的定义:
(2) Kullback-Leibler散度(简称KL散度),表示两个概率密度p(x)和q(x)之间的相
对熵,定义为:
在对运动目标区域进行分割聚类时,按照分割或合并前后KL散度最小的原则进行,则得到信息损失最小的聚类结果。
由IB方法提出的最小化问题可通过基于迭代算法近似解决。
算法初始时,可随意
进行聚类,使每一类由一个点组成,为使因聚类导致的总信息丢失最少,每一步都对类进行合并,以使由合并导致的互信息丢失最小。
令c1和c2是Y中的两个类,合并和丢失的信息为:d(c1,c2)=I(Cbefore,X)-I(Cafter,X)≥0,其中I(Cbefore,X)和I(Cafter,X)是合并前后类和特征空间的互信息。
IB算法进行图像运动目标区域分割的步骤如下(由顶至下的聚类方式)(见图5):
(1) 初始分割:划分每个跟踪目标自成一类。
(2) 在每一步中,分割目标中两块子区域c1和c2,使得信息损失d(c1,c2)最小。
(3) 继续执行分割程序直到得到所需类别,停止分割。
图5 IB算法实验结果
2.3 基于均值漂移方法对运动目标区域进行分割
均值漂移方法是一种核密度估计方法。
在图像分割中,均值漂移方法利用对图像运动目标区域的灰度或彩色直方图概率密度分布进行加权,利用梯度函数搜寻区域中模式,即完成图像区域聚类。
本文中通过对视频图像的预处理,得到运动目标区域,对该区域进行均值漂移过程,从而得到区域内灰度或色彩的极大值,用这些极大值替代原始值,得到灰度或色彩分割聚类后的结果。
如图6所示。
图6 均值漂移算法实验结果
从该实验结果可以看出,均值飘移将图像区域按灰度值聚类,可以从图6(c)和(d)
中很容易得到车身(白色区域)和车窗、车轮等子区域,聚类效果明显好于前两种方
法,但是其计算量较大。
表1 实验数据FarthestK-D treeInformationBottleneckMean-Shift计算量O(n log K)O(n log n)O(Kn2)O(Kn4)程序运行时间 /s0.440.832.876.46
3 实验总结
应用最远点聚类方法的优点在于它的计算速度,该方法的计算量可减少到O(n log K)量级,简单易实现。
K-D tree方法应用于数据查询等方面有其重要作用,对于图像分割来讲,分割方法容易实现,但结果不够直接,运动目标的结构自区域往往不存在于数的最底层子节点中。
信息瓶颈的分割方法的特点包括:
(1) 对图像模型(图像模型可能是离散和连续的)进行聚类,而不是对图像像素。
该方法基于密度函数表达式,因此方便处理基于直方图描述的问题。
(2) IB方法将类别之间的相似测度与聚类准则统一为最小互信息损失,而传统聚类方法这两者是不同的,需要分别计算。
(3) IB方法能自动给出聚类过程的终止条件,即自动给出了平均互信息损失最小准则下的聚类类别个数,这是传统聚类方法所不具备的。
4 结语
均值漂移方法分割能够准确的得到运动目标的各结构特征子区域,但是该方法计算量较大,应用于视频中目标跟踪问题不能够满足实时性要求。
固如何解决均值漂移的简化计算,对将来视频处理领域有重要意义。
综上所述,均值漂移分割方法获得的运动目标子区域较合理,为下一步研究视频中运动目标结构特征提供了合适的运动目标结构子区域。
参考文献
[1] YANG Chang-jiang, DURAISWAMI R, GUMEROV N A, et al. Improved
fast Gauss transform and efficient kernel density [M]. France:Institute of Electrical and Electronics, 2003.
[2] CHENG Yi-zong. Mean shift, mode seeking, and clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1995, 17 (8): 790-799.
[3] WANG Ping, LEE Dongryeol. Fast mean shift with accurate and stable convergence [J]. Georgia Institute of Technology Atlanta, 2007, 2: 604-611.
[4] KANUNGO Tapas, MOUNT D M. An efficient K-means clustering algorithm:analysis and implementation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24 (7): 882-893.
[5] BENTLEY Jon Louis. Multidimensional binary search trees used for associative searching [J]. Communications of ACM, 1975, 18 (9): 509-517.
[6] TISHBY N, PEREIRA F C, BIALEK W. The information bottleneck method
[C]// Proc. of 37th Annu. Allerton Conf. on Communication, Control and Computing. Allerton: AACCCC, 1999: 368-377.
[7] BARDERA Anton, RIGAU Jaume. Image segmentation using information bottleneck method [J]. IEEE Transactions on Image Processing, 2009, 18 (7): 1601-1612.
[8] HEAS P, DATCU M. Modelling trajectory of dynamic cluster in image-time-series for spatio-temporal reasoning [J]. IEEE Trans. on Geosci. Remote Sens., 2005, 43 (7): 1635-1647.
[9] FRIEDMAN N., MOZENZON O., SLONIM N, et al. Multivariate information bottleneck [C]// Proc. of UAI. USA: UAI, 2001: 152-161. [10] BRAY M, KOHLI P, TORR P. Posecut: simultaneous segmentation and
3D pose estimation of humans using dynamic graph-cuts [J/OL]. [2009-06-03]. http:// .
[11] CULA O, DANA K. 3D texture recognition using bidirectional feature histograms [J]. International Journal of Computer Vision, 2004, 59 (1): 33-60.
[12] LEE M, COHEN I. Proposal-maps-driven mcmc for estimating human body pose in static images [C]//Proc. of IEEE Int Conf. Computer Vision and Pattern Recognition. Singapore: National University of Singapore, 2004: 151-159.
[13] LOWE D. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60 (2): 336-348.
[14] COMANICIU D, RAMESH V, MEER P. Real-time tracking of non-rigid objects using mean-shift [C]// Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition. Stoughton: IEEE, 2000 (2):142-149.。