基于视觉显著性的Wang-Landau蒙特卡罗采样突变目标跟踪算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于视觉显著性的Wang-Landau蒙特卡罗采样突变目标跟
踪算法
江晓莲;李翠华;刘锴;刘薇
【摘要】突变运动目标的鲁捧跟踪是计算机视觉领域的一个具有挑战性的问题.提出了一种基于视觉显著性的Wang-Landau蒙特卡罗采样(WLMC)跟踪算法,用于解决复杂场景下目标发生运动突变的跟踪问题.该算法首先对全局场景进行分块获取子区域,然后使用WLMC方法进行目标状态采样来跟踪发生运动突变的目标.算法将视觉显著性作为先验引入跟踪框架,提出了结合显著性先验的接受函数,通过每个子区域的显著性计算来引导马尔可夫链的构造.和以往方法相比,该算法既保留了WLMC采样方法对全局状态空间的广度覆盖性,又以视觉显著性特性引导采样,避免了全局采样的盲目性,从而提高采样效率.实验结果表明,该算法对发生运动突变的目标进行跟踪,具有良好的鲁棒性.%Robust tracking of abrupt motion is a challenge problem in computer vision.In this paper,we proposed a saliency-based Wang Landau Monte Carlo (WLMC) tracking method for abrupt motion problem in real world scenarios.Firstly,the spatial space is divided into disjoint sub regions.Secondly,a sub-region is selected randomly by the WLMC sampling method.Visual saliency as prior is introduced into tracking framework where saliency of each sub-region is integrated into Markov Chain Monte Carlo acceptance mechanism to guide effective states sampling.Therefore the method can avoid overall sampling and improve sampling effectiveness.Experimental results demonstrate that our approach samples the states of target efficiently in whole state space and outperforms several state-of-the-arts algorithm.
【期刊名称】《厦门大学学报(自然科学版)》
【年(卷),期】2013(052)004
【总页数】8页(P498-505)
【关键词】突变运动跟踪;视觉显著性;Wang-Landau蒙特卡罗采样(WLMC)
【作者】江晓莲;李翠华;刘锴;刘薇
【作者单位】厦门大学信息科学与技术学院,福建厦门361005;厦门大学信息科学
与技术学院,福建厦门361005;厦门大学信息科学与技术学院,福建厦门361005;厦
门大学信息科学与技术学院,福建厦门361005
【正文语种】中文
【中图分类】TP391.4
复杂背景下的运动目标跟踪一直是计算机视觉的重要研究方向之一[1-2].其中,对突变目标的跟踪,由于其运动的不可预测性,使之成为跟踪领域的难点.常见引
起目标发生运动突变的场景主要有3种(如图1所示):1)带镜头切换的视频;2)目标发生运动突变的视频;3)低帧率视频.目前主流的基于采样的跟踪算法,
如粒子滤波算法[3-4]、马尔可夫蒙特卡罗采样(MCMC)方法[5-6]、数据驱动 MCMC 算法[7]等,大都基于目标运动平滑性的假设,因此当目标发生
运动突变时,这些经典算法很容易丢失目标.
最直接解决突变运动困境的方法是对目标的状态空间进行穷举搜索,但由于目标的状态空间通常是高维巨大的,穷举方案在实践中并不具有可行性.目前针对运动突
变的主要算法有自适应马尔可夫蒙特卡罗采样方法(A-MCMC)[8],随机逼
近蒙特卡罗采样方法(SAMC)[9-10]及 Wang-Landau 蒙特卡罗采样方法(WLMC)[11-13]等.其中,A-MCMC通过自适应地调整运动方差来克服运动突变,它的缺点在于当目标的状态空间过大时,无法提供一个有效的采样策略,因而容易陷入局部最优困境;SAMC算法和WLMC算法则对全局状态空间划分子区域,然后进行两阶段采样.它们通过各自的机制来保证采样点对全局状态空间的覆盖,从而有效地捕获突变目标.这2种算法的缺点是由于目标状态空间的广度性,基于全局无先验知识的采样方法带有盲目性,因而采样效率较低.
图1 突变运动示例Fig.1 Example of abrupt motion
近年来,视觉显著性检测方法逐渐受到关注.显著性检测方法的输出结果是一个显著性灰度图,图中每个像素的灰度值代表该像素在输入图像中的显著度[14].显著性检测的代表算法有由Itti等[15]提出的基于空间域的显著图计算模型、Hou等[16]提出的基于频谱域的显著性模型等.但这些经典模型在实际运用中并未达到预期效果.Federico Perazzi等[14]于2012年提出的显著性滤波器(saliency filters)算法,由于较快的计算速度和出色的检测效果而受到关注.将视觉显著性计算模型引入跟踪系统中,通过模拟人类特有的视觉选择性注意机制,可以实现自底向上与自顶向下模型的结合.
本文针对突变运动的特点,将视觉显著性作为先验引入跟踪框架,提出了基于视觉显著性的 WLMC跟踪算法.
1 视觉显著性计算
3)分布性度量
虽然显著性意味着元素的独特性,但含有独特性元素的区域并不一定就是显著性目标.一般情况下,属于背景的颜色会相对分散于整个图像区域,而属于前景目标的颜色在图像中则表现得相对紧凑集中.因此,显著性滤波器算法通过元素分布性度量来将那些聚集在图像某个特定区域的独特性元素渲染得比那些分布于整个区域的
独特性元素更加显著.
4)显著图生成
显著图生成步骤将独特性度量和分布性度量的结果结合起来,然后将每个超像素的显著性值分配给该超像素所包含的像素点,从而得到一个像素级的显著性灰度图. 显著性滤波器算法的过程如图2所示.
基于视觉的图像显著性计算是图像处理领域一个有价值的工具.将显著性计算引入到视觉跟踪领域,为跟踪的采样阶段筛选重要区域,从而缩小目标搜索范围.将计算资源优先分配给这些目标出现的高概率区,从而提高跟踪效率,为跟踪算法的鲁棒性提供保障.
本文采用显著性滤波器算法[14]进行图像的显著性估计.该算法基于对比度进行显著性估计,主要包括以下4个步骤:
1)超像素提取
该算法首先使用改进版的SLIC(simple linear iterative clustering algorithm)[17-18]算法对原始图像进行提取工作.显著性滤波器算法对SLIC超像素方法进行适当修改,采用更接近人类视觉的CIE Lab空间进行k-means聚类,从而对原图像进行提取操作.然后对图像的提取结果进行元素的独特性度量和分布性度量.
2)独特性度量
所谓元素的独特性,是指该元素和其他元素的差异性,描述了该元素从其他元素中凸显出来的能力.这里的元素指的是图像提取操作中获得的超像素.显著性滤波器算法将元素i的独特性定义为元素i与其余元素j在CIELab空间的加权距离之和.
2 WLMC算法
WLMC采样方法[11-12]是统计物理学领域用于准确估计状态密度(density of states,DOS)的方法之一.所谓DOS,是指在一块给定能量的分区内含有的状
态数.由于要精确得到所有能量分区的DOS值较为困难,WLMC方法通过蒙特卡
罗采样来近似估计DOS.
假设将能量空间E分成d个不相交的子能量空间[12]:
每个子空间的状态密度表示为g(Ei).该算法为每个能量子空间建立直方图h (Ei),初始化为0,并进行直方图统计.
采样方法通过随机游走访问每个能量子空间.当某个子空间Ei被访问时,算法对相应的直方图h(Ei)进行加1操作,并修改该能量子区域的状态密度[12]:
其中f为修正系数,通常取大于1的值.
图2 显著性滤波器算法过程[16]Fig.2 Illustration of the main phases of the saliency filters algorithm
对所有i,g(Ei)初始化为1并且依据公式(2)逐步增长.随着蒙特卡罗模拟的进行,将会产生一个平坦统计直方图(flat histogram).平坦直方图应满足如下性质:直方图中最低直方图的柱值(bin)不低于所有直方图的柱值平均值的80%.这样
的统计直方图就意味着每个能量子区域都在某个程度上被访问到.为了获得更精细
的DOS,对修正系数进行调整[12]:
并将前面统计的直方图信息清零,重新进行蒙特卡罗模拟直到直方图再次达到平坦性质.这个过程循环进行,直至修正系数逼近1或者循环次数达到一个事先设定的
阈值.
因此,要使直方图统计信息较快达到平坦性质,就要求模拟过程能够在一定程度上访问到每个子区域.由状态密度更新机制可知,当某个子区域被访问到的次数越多,其DOS值越大.因此,WLMC对模拟过程的转移函数进行如下设置[12]:
由式(4)可知,当Ej所属子区域的DOS值越大时,转移概率越小,反之则概率越大.这样设置的目的是将转移引导到较少被访问到的能量子区域.
3 基于视觉显著性的WLMC采样跟踪模型
基于 WLMC的跟踪算法[12-13]将统计学领域的WLMC采样方法与MCMC 方法结合应用于视觉跟踪领域.借鉴WLMC采样方法中对能量区域的划分,该跟踪算法将目标状态空间划分成d个不相交的相等子区域.在贝叶斯框架下,通过在这些子区域间进行随机游走获取候选目标信息,评估出最大后验概率位置,从而推测出当前帧的目标区域.与基于MCMC的传统跟踪方法相比,WLMC通过在采样的接受函数中插入DOS项,来达到对全局状态空间采样的广度覆盖,从而在目标发生位置突变时能更好地跟踪目标.
本文算法将图像显著性估计引入WLMC跟踪算法中,通过获得显著图为每个子区域计算一个显著性值,从而为WLMC跟踪算法提供先验知识,指导采样的进行,避免WLMC跟踪算法全局采样的盲目性.
3.1 状态空间及目标状态表示
t时刻的目标状态表示为Xt=(Xpt,Xst),其中Xpt代表目标的位置信息,Xst 代表目标的尺度信息.Xt从属于状态空间S.为了便于采样,目标的状态空间分解为位置信息空间和尺度信息空间.即:S=Sp×SS.
将位置空间Sp划分成d个不相交的相等子区域:Spi,i={1,...,d}.目标的状态表示和位置空间的划分如图3所示.
图3 状态空间和子区域示例Fig.3 Example of a state and subregion
3.2 贝叶斯框架
目标跟踪可看作是在给定一系列观测的情况下对目标最佳状态的估计.这个问题通常在贝叶斯框架下进行模拟.贝叶斯递推处理过程分为预测和更新2个阶段[2],
预测阶段通过利用系统模型预测状态的先验概率密度,由式(5)给出;更新阶段用当前最新的观察数据进行修正,得到后验概率密度,由式(6)给出.
其中,p(xk|xk-1)代表运动模型;p(yk|xk)为外观模型,用于度量提议
状态的观测与目标的相似程度.
3.3 算法步骤
本文算法基于 WLMC跟踪算法框架,将图像显著性估计引入到采样过程中.算法包括2大步骤:1)采样阶段;2)估计阶段.采样阶段使用经典的MCMC算法:Metropolis Hastings(MH)算法.估计阶段则主要是对各个子区域的DOS值和
直方图进行更新.
1)采样阶段
采样阶段包括2个步骤:(i)提议步骤;(ii)接受步骤.
(i)提议步骤
对突变运动而言,目标可以出现在场景中任何位置.由于多数情况下目标发生的是
位置突变,而非尺度突变,本文基于对目标尺度变换的平滑性假设,将重点放在目标位置突变的处理上.因此提议函数对目标位置和尺度分别进行提议,由公式(7)给出[12].
Qp函数是一个两阶段的提议函数.首先,从d个子区域中随机挑选一个子区域Spi,然后在Spi中进行同一分布采样获得提议粒子Xp′t.这种提议方式能保证更广度地
覆盖目标状态的整个空间,进而有效捕获发生突变的运动目标.
基于平滑性假设,本文算法使用二阶自回归过程模拟目标尺度变换.
(ii)接受步骤
在传统的M-H算法中,接受函数一般设计为:
其中 Xt 为当前状态,X′t为提议状态,P(Yt|X′t)代表似然项,Q(Xt;X′t)
代表(i)步骤的提议函数.
为了达到对全局状态空间的广度覆盖,WLMC跟踪算法将 DOS项:g(Spi)加
入到接受函数中[12].
其中M是一个从状态Xt到子区域Spi的映射函数.g(M(X′t))代表状态X′t所属子区域的 DOS值,∂是权重参数.
式(9)中马尔可夫链的走向由似然值P(Yt|X′t)与DOS值之比:P(Yt|X′t)α/g(M(X′t))引导.当某个子区域能够提供越多的有效采样点,这个子区域的DOS值就越高,P(Yt|X′t)α/g(M(X′t))比率值会越小;反之,DOS值
越小,比率值越大;这将兼顾到一些较少被访问区域的提议粒子,从而使采样点的分布覆盖到更广泛的区域,而不至于陷入局部最优困境.
函数Qp的提议机制着眼于全局范围,但由于目标状态空间的广度性,该提议方式带有盲目性,将产生一堆似然值很低的粒子,从而影响提议阶段效率.
为了提高采样阶段提议粒子的质量,本文将区域的显著性信息作为先验来引导马尔可夫链的构造.首先使用显著性滤波器算法对当前帧提取显著性信息,并得到显著
性灰度图.如图4(a)和(b)所示.
其次,对状态空间的每个子区域设置显著性值Sal(Spi)
其中Zt代表归一化参数,S(Xp)代表空间位置Xp处的显著性值.通过对式(9)进行修改,将子区域的显著性值引入到接受函数中,得到:
当提议粒子所属子区域的显著性值越高,则该粒子被接受的概率越大;反之,则越
小.通过将显著性引入接受函数,可以为采样过程提供先验,以更高概率去接受那
些具有显著性信息的采样点,从而引导马尔可夫链的构造,避免由于全局采样造成的提议粒子质量不高的问题,从而提高采样效率.
2)估计阶段
估计阶段主要是对子区域的DOS及相应的统计直方图进行更新操作.
首先,将所有子区域的DOS值都初始化为1,并为每个子区域建立直方图来统计
其状态信息(每个bin都初始为0).对于每次采样,如果提议的新状态被接受,
则对其所属子区域Spi的直方图进行加1操作,并对相应的DOS值进行更新[12]
若新状态未被接受,则对原状态进行相应的直方图和DOS值的修改.
估计阶段和采样阶段依次进行,直到产生一个具有平坦性质的直方图.当直方图满
足平坦性质时,表明采样点在某一程度上覆盖了所有的子区域.
图4 显著图Fig.4 The saliency map
在此基础上,为了获得更精细的DOS估计,本文算法使用式(3)调整修正系数f,并将之前的直方图信息清零,重新开始采样和估计阶段的交替,直到再次产生具有平坦性质的直方图.这个过程循环进行,直至修正系数逼近1或者循环次数达到一
个事先设定的阈值.
3.4 算法整体流程
本文的基于显著性特征提取的WLMC跟踪算法具体描述如下:
输入
输出
1)初始化
i)对当前帧进行子区域划分,并对各个子区域的DOS值及直方图进行初始化,ii)通过显著性滤波器算法获得当前帧的显著图,并根据式(10)计算每个子区域
的显著性值;
2)开始提议N个粒子
对粒子1~N,
i)使用式(7)进行候选粒子状态提议,
ii)使用式(11)判断提议粒子是否被接受,
iii)使用式(12)对相应的子区域进行DOS值更新,并对这个子区域的直方图进行加1修改,
iv)如果直方图具有平坦性质,则使用式(3)对修正系数进行修正,并对各个子区域的直方图进行清零操作;
3)将N个采样粒子中似然值最大的点作为最佳状态输出.
4 实验结果与分析
本文的算法在Visual Studio 2010上实现.实验的观测模型采用HSV颜色直方图作特征,用Bhattacharyya距离进行相似度度量.实验将目标场景分为10×3个子区域.
根据不同的突变运动类型,实验将测试视频分为3组.其中:孩子和拳击视频包含多镜头切换;动物和液体序列中目标会在某些时刻发生运动突变;网球和冲浪序列则属于低帧率视频.实验将本文算法与当前主流的2种解决突变运动的算法:A-MCMC算法和自适应 WLMC(A-WLMC)算法进行比较.3种比较算法均采用相同的外观模型及模型更新机制.
实验统计结果表明,本文算法对于发生运动突变的目标跟踪具有较强的鲁棒性.由于显著性滤波器算法的快速性,相较于A-MCMC和A-WLMC算法,本算法的运行效率并未有明显的下降,而实验效果却有较大的提升.
4.1 镜头切换引起的突变
该组实验是针对具有镜头切换视频的跟踪.
其中孩子是一组行人行走镜头,包含14次镜头切换.实验的部分结果(55,176,177,726,727帧)如图5(a)所示.其中,176~177帧、726~727帧,由于镜头切换,目标的位置发生了较大的变化.跟踪结果表明,本文算法在每个镜头切换过程中均未丢失过目标,表现了跟踪的鲁棒性;此外,实验结果可看出,本文算法在平滑运动阶段也具有很好的跟踪效果.而A-MCMC和A-WLMC在不同程度上出现目标丢失的情况.图8(a)给出了3种算法在孩子视频上的中心误差.该图显示,本文算法的中心误差都保持在较小的范围内,A-WLMC算法也大体上跟住了目标,表现出了一定程度的鲁棒性,而A-MCMC方法则在整个视频的不同位置出现了较大的中心误差.
另一视频拳击包含8次镜头切换,实验部分结果(246,247,295,702,703帧)和中心误差分析分别由图5(b)和图8(b)给出.
4.2 目标运动突变
该组实验针对目标本身发生运动突变的视频进行跟踪.
动物视频的主要挑战在于目标具有显著的跳跃性和背景的混淆.实验的部分结果(18,21,45,63,70帧)如图6(a)所示.从图中可见,A-WLMC算法容易跟到与目标相似的背景,A-MCMC的效果相对较好.与前两种算法相比,本文的算法能很好地对发生运动突变的目标进行鲁棒性跟踪.图8(c)给出3种算法的中心误差.其中,A-WLMC在该视频上表现出较大的中心误差,A-MCMC在处理本类视频的效果相对较好.与其他两种算法相比,本文算法的中心误差始终控制在较小的范围内.
另一视频液体的部分实验结果(353,734,1 373,1 400,1 487帧)及中心误差分析分别由图6(b)和图8(d)给出.
4.3 低帧率图像序列
该组实验是针对低帧率视频的跟踪.
网球视频是从一个正常帧率的体育视频中每隔35帧取一帧获得的,目标的运动具有不连续性.因此基于平滑性假设的传统算法很难全程跟住目标.实验结果表明,本
文算法能很好地对低帧率视频中的目标进行鲁棒性跟踪,实验的部分结果(8,15,19,27,28帧)如图7(a)所示.图8(e)给出3种算法的中心误差.由图可知,A-MCMC和A-WLMC在不同程度上出现了目标丢失,本文算法明显优于其它两种算法.
另一视频冲浪的部分实验结果(3,15,23,24,30帧)及中心误差分析分别由
图7(b)和图8(f)给出.
图8 中心误差分析Fig.8 The analysis of center position error
5 结论
本文提出了一种基于视觉显著性的WLMC跟踪算法,用于对发生运动突变的目标进行鲁棒性跟踪.该算法首先对全局场景进行分块,然后使用WLMC采样方法在全局状态空间进行采样,因此当目标发生运动突变时该算法能有效捕获跟踪目标;将视觉显著性机制引入到目标跟踪框架内,通过为每个分块区域设置显著性值来为采样过程提供先验,从而避免全局采样带来的盲目性及低效性.实验结果表明,与当
前针对运动突变的主流算法相比,本文的算法表现出良好的跟踪鲁棒性和准确性.
未来工作将把对目标的尺度突变和外观突变考虑进来,继续进行算法的完善.
【相关文献】
[1]Yilmaz A,Javed O,Shah M.Object tracking:a survey[J].Acm Computing Surveys (CSUR),2006,38(4):13.
[2]侯志强,韩崇昭.视觉跟踪技术综述[J].自动化学报,2006,32:603-617.
[3]Cai Y Z,de Freitas N,Little J J.Robust visual tracking for multiple targets
[J].Lecture Notes in Computer Science,2006,3954:107-118.
[4]Isard M,Blake A.Icondensation:unifying low-level and high-level tracking in a stochastic framework[J].Lecture Notes in Computer Science,1998,1406:893-908. [5]Khan Z,Balch T,Dellaert F.MCMC-based particle filtering for tracking a variable number of interacting targets[J].Pattern Analysis and Machine Intelligence,2005,27:1805-1819.
[6]Smith K,Gatica-Perez D,Odobez J ing particles to track varying numbers of interacting people[C]∥Computer Vision and Pattern Recognition,IEEE Computer Society Conference on.New York:IEEE Press,2005:962-969.
[7]Zhao T,Nevatia R.Tracking multiple humans in crowded environment
[J].Computer Vision and Pattern Recognition,2004,2:406-413.
[8]Roberts G O,Rosenthal J S.Examples of adaptive MCMC[J].Journal of Computational and Graphical Statistics,2009,18:349-367.
[9]Liang F,Liu C,Carroll R J.Stochastic approximation in Monte Carlo computation [J].Journal of the American Statistical Association,2007,102:305-320.
[10]Zhou X,Lu Y.Abrupt motion tracking via adaptive stochastic approximation Monte Carlo sampling[C]∥Computer Vision and Pattern Recognition (CVPR),2010 IEEE Conference on.New York:IEEE Press,2010:1847-1854.
[11]Wang F,Landau D P.Efficient,multiple-range random walk algorithm to calculate the density of states[J].Physical Review Letters,2001,86:2050-2053. [12]Kwon J,Lee K.Tracking of abrupt motion using Wang-Landau Monte Carlo estimation[J].Lecture Notes in Computer Science,2008,5302:387-400.
[13]Kwon J,Lee K.Wang-Landau Monte Carlo-based tracking methods for abrupt motions[J].IEEE Trans Pattern Anal Mach Intell,2013,35(4):1011-1024.
[14]Perazzi F,Krahenbuhl P,Pritch Y,et al.Saliency filters:contrast based filtering
for salient region detection[C]∥Computer Vision and Pattern Recognition (CVPR),2012IEEE Conference on.New York:IEEE Press,2012:733-740.
[15]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].Pattern Analysis and Machine Intelligence,1998,20:1254-1259. [16]Hou X,Zhang L.Saliency detection:a spectral residual approach[C]∥Computer Vision and Pattern Recognition,2007IEEE Conference on.New York,IEEE Press,2007:1-8.
[17]Achanta R,Shaji A,Smith K,et al.Slic superpixels[R].Lausanne:Lausanne Federal Polytechnic University,2010.
[18]谢玉琳.贝叶斯框架下的图像显著性检测[D].大连:大连理工大学,2011.。