自适应权值卷积特征的鲁棒目标跟踪算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

自适应权值卷积特征的鲁棒目标跟踪算法
王海军;张圣燕
【摘要】针对传统基于固定权值卷积特征的深度学习跟踪算法在部分视频跟踪失败的问题,提出一种新颖的基于响应图和熵函数的评估各卷积神经网络层跟踪性能的方法.该方法能根据评估结果自动调整各层的权值系数;同时引入边界框检测机制,当跟踪响应最大值小于给定阈值时,采用滑动窗口采样一定数量的边界框,并对边界框进行评估,生成初始建议边界框;最后在初始建议边界框的基础上进行相关滤波跟踪,并给出模型更新策略.将文中算法与其他9种算法在OTB-2013视频数据库上进行跟踪仿真,实验结果表明,所提算法具有较高的中心点距离准确率和跟踪成功覆盖率.%To solve the tracking failure problem in some videos caused by traditional deep learning tracking algorithms with fixed weight convolutional features,this paper proposes a novel tracking method combing the response map and the entropy function which considers the performance of each layer of convolutional neural networks and automatically adjusts the weight parameters.At the same time,an EdgeBoxes detection scheme is introduced when the maximum value of tracking response is less than a given threshold.A great number of bounding boxes are extracted by a sliding window and are evaluated by the EdgeBoxes detection scheme which generates the original proposal bounding boxes.Finally,the tracking method based on the correlation filter are conducted on the original proposal bounding boxes with the update scheme given.We have tested the proposed algorithm and nine state-of-the-art approaches on OTB-2013video databases.Experimental results
demonstrate that the proposed method has a higher precision and overlap rate.
【期刊名称】《西安电子科技大学学报（自然科学版）》
【年(卷),期】2019(046)001
【总页数】7页(P117-123)
【关键词】目标跟踪;自适应权值;相关滤波;目标检测
【作者】王海军;张圣燕
【作者单位】滨州学院山东省高校航空信息与控制重点实验室,山东滨州 256603;滨州学院山东省高校航空信息与控制重点实验室,山东滨州 256603
【正文语种】中文
【中图分类】TP391
目标跟踪是计算机视觉领域一项重要的研究课题，在视频监控、无人机自主飞行、人机交互等领域取得了广泛的应用。

近年来，国内外学者在目标跟踪领域进行了深入研究[1-3]，并取得了较好的跟踪性能。

但是由于跟踪视频中存在遮挡、光照变化、尺度变化、背景杂乱等影响跟踪性能的因素，使得设计一种鲁棒的跟踪算法仍然是一项充满挑战的任务。

相关滤波近年来在目标跟踪领域得到了广泛的应用，在跟踪速度及跟踪性能方面有了很大地提升。

文献[4]首先将相关滤波引入到目标跟踪领域，取得了实时的跟踪速度。

文献[5]将线性空间的脊回归通过核函数映射到非线性空间，并采用Histogram of Oriented Gradient(HOG)多通道特征，提升了跟踪性能。

文献[6]
将HOG特征和颜色特征(Color Names, CN)组合应用到相关滤波框架内，能够较好地改进跟踪效果。

文献[7]使用分层卷积特征对跟踪目标进行学习和表达，在不同层上学习相关滤波器，相比传统方法，大大提高了跟踪精度。

虽然文献[7]采用多层卷积特征很好地改善了跟踪性能，但是该方法对高层的特征赋予较大的权值，低层特征赋予较小的权值，在跟踪过程中，不同层的权值始终是固定的，如果高层定位偏差太大，则会导致最终的跟踪失败。

为了解决上述问题，笔者提出一种自
适应权值卷积特征的目标跟踪算法，采用一种结合不同层响应图和熵函数方法对不同层的响应进行评估，并根据评价结果对不同层重新赋新的权值。

同时，引入边
界框检测机制，当响应图最大值小于给定阈值时，采用滑动窗口采样生成样本边界框，并对其进行评估，生成初始边界框。

最后对初始边界框再次进行相关滤波跟踪，得到最终的目标位置。

新方法能够有效地改善传统相关滤波算法在严重遮挡、背景干扰、光照变化等复杂情况下的跟踪性能。

1 固定权值的核相关滤波跟踪算法
假设x∈M×N×D表示利用视觉几何群网(Visual Geometry Group Net, VGGN)
获取跟踪目标的第l层特征向量，M,N,D分别表示特征向量的宽度、高度以及通
道的数目。

文中x缩写为x。

用x进行循环移位来产生训练样本，并且每一样本xm,n对应一个具有高斯函数形状的标签ym,n，m,n∈{0,1,…,M-1}×{0,1,…,N-1}。

则相关滤波w可以通过最小化下列式子获得[7]：
(1)
其中,λ表示常数参数。

用大写字母表示信号对应的傅里叶变换。

利用快速傅里叶变换，相关滤波在频率域的解为
(2)
其中,表示复共轭，⊙表示对应元素相乘。

当新的视频到来时，第层新的图像块z∈M×N×D在上一帧的跟踪位置被提取出来，第层新图像块对应的响应图为
f
(3)
其中，F-1表示傅里叶逆变换。

第层新的目标位置可以通过寻找响应图的最大值
位置点获得。

2 新算法的提出
VGGN模型在图像识别领域取得了巨大的成功，文献[7]首先将其应用到目标跟踪
领域，并利用Conv5-4层提取图像的语义信息，利用Conv4-4、Conv3-4层获
取图像的细节信息。

图1(a)给出了采用文献[7]分别只利用Conv5-4、Conv4-4、Conv3-4层在视频数据库(Visual Tracker Benchmark-2013, OTB-2013)[17]上
的跟踪结果。

Conv5-4、Conv4-4、Conv3-4这三层的跟踪成功率依次下降，因此，文献[7]在利用这三层信息进行跟踪时，赋予这三层的权值分别为1，0.5和0.02，权值在整个跟踪过程中保持不变。

图1(b)、(c)分别给出利用Conv5-4、Conv4-4、Conv3-4层信息在OTB-2013数据中具有低分辨率以及背景杂乱的视频中的跟踪成功率。

可以看出，利用Conv5-4层信息并不总是最优的，因此，在综合利用这三层信息进行跟踪时，其权值不应是固定不变的，应当根据每一层的跟踪性能，自适应地调整权值大小，从而得到最优的跟踪效果。

图1 采用VGGN-19模型中Conv5-4、Conv4-4、Conv3-4层特征在OTB-
2013[17]数据库中的跟踪成功率
2.1 权值参数自适应
采用相关滤波进行目标跟踪时，跟踪目标的最终位置是根据响应图最大值进行确定。

VGGN模型不同层给出不同的目标描述，通过相关滤波得到不同的响应图，从而
影响到最终的目标位置的精度。

为了更好地对不同层进行评估，文中在跟踪过程中自动调整不同层对应的权值，并提出一种新的评估函数ξ，对不同层的响应图进行评估，并根据评估结果对不同层进行赋值。

根据部分标记学习锁相环(Partial-Labelled Learning, PLL)理论，第层在跟踪过程中得到的相关滤波w可以看作是非参数分布，第层在位置(m,n)处得到的响应值f(m,n)可以看作是以(m,n)为中心的样本为跟踪目标的概率.定义两个标签w1和
w2，w1表示目标样本，w2表示非目标样本，则定义层目标样本归一化的似然函数为
P(w1|f
(4)
P(w2|f(m,n))=1-P(w1|f(m,n)) 。

(5)
第层的评估函数ξ为
ξ=-L(f(m,n))+uH(I|f(m,n)) ,
(6)
I={w1,w2 }, L为P(w1|f(m,n))，为对数似然函数，定义为
L(f(m,n))=maxm,nlog(P(I|f(m,n))) ,
(7)
熵函数H(I|f(m,n))定义为
H(I|f
(8)
式(6)中，-L(f(m,n))与响应图一致，由于带有负号，所以具有-L最小值的位置为式(6)确定的目标位置点。

熵H(I|f(m,n))为具有最低模糊值响应图的分布函数，能够赋予一个标签对应的目标较高的分数，而另外一个标签较低的分数，从而能够把两
个标签对应的目标较好地分离。

因此，如果第层得到的响应图是比较可靠的，则根据式(6)得到的评估值应该较低；反之，则得到的评估值应该较高。

文中在利用式(3)得到每层的响应值后，分别利
用式(6)进行评估，然后将得到的评估值由低到高进行排序，较低评估值的响应图
给予较高的权值，较高评估值的响应图赋予较低的权值。

整合三层响应图，最终
的响应图为
(9)
其中，R表示最终的响应图，下标1,2,3∈{3,4,5}，分别表示特征响应图的层数，
具体取值根据评估函数的变化而变化。

2.2 目标检测机制
当跟踪目标出现严重遮挡等情况时，传统基于相关滤波跟踪方法容易出现跟丢现象。

为了应对跟踪失败现象，根据式(9)得到的最大响应值如果小于阈值T0，则认为跟踪失败，启动目标检测机制。

文中采用边界框检测机制对候选样本进行检测[9-10]。

首先利用滑动窗口采样获
取一定数量的样本边界框，采用下式对边界框进行评估：
(10)
其中，γi和γp分别表示像素i和p的响应幅值；bw和bh分别表示边界框b的
宽和高；bin表示边界框b的中心部分，大小为(bw/2)×(bh/2)；βi∈[0,1]，βi值越大，表明像素i属于边界框b置信度越高；k为惩罚参数。

在第t-1帧，根据式(9)得到的跟踪目标的中心位置矢量为Pt-1，目标框的大小为wt-1×ht-1。

第t帧时，根据第t-1帧中心位置矢量为Pt-1获取图像块zt，图像块的大小为swt-1×sht-1，s为尺度因子。

当对第t帧获取的图像块zt采用相关
滤波算法获取的响应图最大值小于阈值T0时，则判断跟踪失败，利用式(10)对t 帧图像进行检测处理。

采用滑动采样得到的边界框比较多，保留符合IoU<0.6或者IoU>0.9原则的边界框，IoU为边界框交互区域重叠率. 对保留的每个边界框，在中心位置矢量为Pt-1获取图像块zt，然后利用式(9)求得最大响应值位置，即为第t帧的跟踪目标位置，跟踪目标框的尺度为(wt,ht )=(wt-1,ht-1 )+γ((swt-
1,sht-1)-(wt-1,ht-1))，γ=0.7，s=1.4。

2.3 模型更新
在跟踪过程中，由于外界环境的变化以及自身的形变，目标的表观会产生不断的变化，跟踪过程需要对训练得到的相关滤波进行更新，以提高跟踪性能。

文中对相关滤波的分子以及分母分别进行更新，
(11a)
(11b)
(11c)
其中，η=0.01，为更新率；λ=10-4，为常数参数。

3 实验结果
文中算法在Window10操作系统、Intel(R)Xeon(R)*****************、128GB内存电脑平台上采用Matlab软件进行仿真实验。

为了验证文中算法的优越性，在OTB-2013视频库与当前比较流行的9种算法进行对比。

9种算法分别为：HCFT[7]、HDT[8]、MEEM[11]、DLSSVM[12]、DCF_CA[13]、KCF[5]、CSK[14]、ASLA[15]、CT[16]。

3.1 定量对比
文中采用中心点距离准确率和跟踪成功覆盖率两个指标对不同算法进行对比。

中
心点距离准确率是指在所有跟踪视频中，采用跟踪算法得到的目标中心点位置与真实位置之间的距离小于20个像素的比率。

跟踪成功覆盖率是指在所有跟踪视频中，覆盖率>0.5的比率。

其中覆盖率=(B1∩B0)/(B1∪B0)，B1为采用跟踪算法得到
的目标框的覆盖范围，B0为真实目标框的覆盖范围。

图2为不同算法在OTB-2013视频数据中(One-Pass Evaluation, OPE)准则下的11种属性的中心点距离准确率对比。

OPE准则表示所有算法在所有视频中只运行一次。

11种属性为光照变化(Illumination Variation, IV)、平面外旋转(Out-of-Plane Rotation, OPR)、尺度变化(Scale Variation, SV)、遮挡(OCclusion, OC)、形变(DEformation, DE)、运动模糊(Motion Blue, MB)、快速运动(Fast Motion, FM)、平面内旋转(In-Plane Rotation, IPR)、视野外(Out of View, OV)、背景杂
乱(Background Clutter, BC)、低分辨率(Low Resolution, LR)。

在所有算法中，文中算法、HCFT和HDT采用VGGN模型提取的深度学习特征对目标进行表征，其他7种算法采用人工提取特征对目标进行表征。

图2中第1幅图给出了所有算法在所有51个视频中的总体中心点距离准确率对比，采用深度学习特征的3种算法明显优于采用人工提取特征的其他7种算法。

文中算法由于采用了自动调整权
值和目标检测机制，相比HCFT和HDT算法，跟踪性能有了很大改进。

在11种挑战性的视频跟踪中，除了MB和OV两种属性的视频外，其他9种属性的视频，文中算法的中心点距离准确率都是第一，表明新算法相比其他算法更能适应不同因素的挑战，跟踪效果最好。

表1给出不同算法在OTB-2013库11种属性下的跟
踪成功覆盖率对比，表中加黑数字的上标表明算法在此属性下的跟踪成功覆盖率排序。

可以看出，文中算法在IV、OPR、SV、OC、DE、IPR、BC、LR等6种属
性下都是最优的，在MB和FM两种属性下为第3。

综合图2和表1，在所有的
10种跟踪算法中。

文中算法在OPE准则下中心点距离准确率和跟踪成功覆盖率两
个指标中，跟踪性能最好。

表1 为不同算法在OTB-2013库11种属性下的跟踪成功覆盖率对比算法CTCSKKCFDCF_CADLSSVMMEEMHDTASLAHCFTOursIV0.2950.3690.4930.5 300.5400.5330.55730.4290.56020.6061OPR0.2970.3860.4950.5360.5820.55 80.58430.4220.58720.6121SV0.3020.3500.4270.4660.4940.4980.52330.4520 .53120.5571OC0.3210.3650.5140.5370.5890.5520.60330.3760.60620.6091D
E0.3450.3430.5340.5760.6320.5600.62720.3720.62630.6701MB0.2690.3050. 4970.5320.5780.5410.61420.2580.61610.5813FM0.2980.3160.4590.4970.55 30.5530.57420.2470.57810.5653IPR0.2820.3990.4970.5470.5560.5350.5803 0.4250.58220.6051OV0.3590.3490.5500.5430.58120.60610.5690.3120.5753 0.539BC0.2730.4210.5350.5820.5920.5690.61030.4080.62320.6501LR0.1490 .2560.2720.3450.3800.4010.4260.42730.44220.4961
图2 不同算法在OTB-2013库11种属性下的中心点距离准确率对比
3.2 定性比较
图3给出不同算法在8个具有挑战性视频上的跟踪结果对比. 图3(a)为car4视频
的跟踪结果，在car4视频中，目标汽车的颜色与周围环境树木、公路的颜色非常
接近，当汽车经过立交桥下方时，经历光照变化，同时存在尺度变化。

从跟踪结
果看，除了MEEM方法存在偏差外，所有其他方法都能够对目标进行准确跟踪，但是由于文中方法采用了尺度自适应策略，能够适应目标汽车由近及远的尺度变化，跟踪结果更加准确。

图3(b)为穿黑衣服歌者的歌唱视频，视频中部分舞台背景存
在高亮度的屏幕变化，同时舞台中存在黑颜色的背景，与歌者的衣服混在一起。

虽然采用深度学习特征，HDT和HCFT算法都不能对歌者目标进行有效的跟踪。

文中算法由于对不同层的深度学习特征赋予不同权值，同时采用了目标检测机制，能够有效地对目标进行准确的跟踪。

图3 不同算法在不同视频上的跟踪结果对比
图3(c)freeman4视频中，目标人物从教室后面走到教室前面，同时，其他人物不断挥舞书本对目标人物头部不时进行严重遮挡，同时导致背景杂乱。

从跟踪结果上看，HDT、KCF、HCFT、MEEM、CSK都跟踪失败，只有文中算法及DCF_CA 能在视频开始到结束对目标进行准确的跟踪。

图3(d)jumping视频中，目标人物进行快速跳绳，目标头部存在严重模糊现象，HDT、HCFT以及文中算法由于采用深度学习特征，能够有效处理模糊目标的特征表达，从而进行有效的跟踪。

图3(e)和(f)视频中，目标人物在空中快速运动，同时存在严重形变，motorRolling视频还存在光照变化及尺度变化，skiing视频存在跟踪目标体积过小等挑战性因素。

从跟踪结果来看，采用深度学习特征的HDT、HCFT以及文中算法都能进行准确的跟踪，但是文中算法由于采用自适应权值、自动跟踪目标检测及尺度自适应策略，跟踪效果更好。

图3(g)为jogging-2视频，目标人物在跑步过程中，从与其衣服颜色相似的电线杆的一端进入，另一端跑出，图3(h)为lemming 视频，目标小熊在移动过程中从上方进入遮挡物后面，同时从相同方向移出。

从跟踪结果来看，只有文中方法和MEEM方法由于采用了目标检测机制，能够有效解决两种情形下的遮挡，从而得到稳定的跟踪结果。

4 结束语
文中提出一种自动调整权值的基于多层卷积神经网络特征的目标跟踪算法。

根据每层响应图及熵函数，对每层跟踪性能进行评估，并根据评价结果调整每层的权值参数。

同时，引入边界框目标检测机制，当发现跟踪失败时，重新生成候选边界框，并对其进行相关滤波检测确定跟踪目标. 在OTB-2013数据仿真结果表明，文中算法能够更好地解决严重遮挡、光照变化、背景杂乱等影响跟踪性能的问题. 参考文献：
【相关文献】
[1] 胡秀华, 郭雷, 李晖晖. 一种利用物体性检测的目标跟踪算法[J]. 西安电子科技大学学报, 2017, 44(4): 86-94, 111.
HU Xiuhua, GUO Lei, LI Huihui. Object Tracking Algorithm Using Objectness Detection[J]. Journal of Xidian University, 2017, 44(4): 86-94, 111.
[2] 王海军, 葛红娟, 张圣燕. 在线低秩表示的目标跟踪算法[J]. 西安电子科技大学学报, 2016, 43(5): 98-104.
WANG Haijun, GE Hongjuan, ZHANG Shengyan. Object Tracking via Online Low Rank Representation[J]. Journal of Xidian University, 2016, 43(5): 98-104.
[3] LI P X, WANG D, WANG L J, et al. Deep Visual Tracking: Review and Experimental Comparison[J]. Pattern Recognition, 2018, 76: 323-338.
[4] BOLME D S, BEVERIDGE J S, DRAPER B A, et al. Visual Object Tracking Using Adaptive Correlation Filters[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2010: 2544-2550.
[5] HENRIQUES J, CASEIRO R, MARITINS P, et al. High-speed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3):583-596.
[6] LI Y, ZHU J K. A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration[C]// Lecture Notes in Computer Science: 8926. Heidelberg: Springer Verlag, 2015: 254-265.
[7] MA C, HUANG J B, YANG X K, et al. Hierarchical Convolutional Features for Visual Tracking[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 3074-3082.
[8] QI Y K, ZHANG S P, QIN L, et al. Hedged Deep Tracking[C]//Proceedings of the 2016 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2016: 4303-4311.
[9] ZITNICK C L, DOLLA R P. Edge Boxed: Locating Object Proposals from
Edges[C]//Lecture Notes in Computer Science: 8693: Heidelberg: Springer Verlag, 2014:391-405.
[10] HUANG D F, LUO L, WEN M, et al. Enable Scale and Aspect Ratio Adaptability in Visual Tracking with Detection Proposals[C]//Proceedings of the 2015 26th British Machine Vision Conference. Durham: British Machine Vision Association, 2015: 185.
[11] ZHANG J M, MA S G, SCLAROFF S. MEEM: Robust Tracking via Multiple Experts using Entropy Minimization[C]// Lecture Notes in Computer Science: 8694 LNCS. Heidelberg: Springer Verlag, 2014: 188-203.
[12] NING J F, YANG J M, JIANG S J, et al. Object Tracking via Dual Linear Structured SVM and Explicit Feature Map[C] //Proceedings of the 2016 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2016: 4266-4274.
[13] MATTHIAS M, NEIL S, BERMARD G. Context-Aware Correlation Filter Tracking[C]// Proceedings of the 2017 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2017: 1387-1395.
[14] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the Circulant Structure of Tracking-by-detection with Kernels[C]// Lecture Notes in Computer Science: 7575 LNCS. Heidelberg: Springer Verlag, 2012:702-715.
[15] JIA X, LU H, YANG M H. Visual Tracking via Coarse and Fine Structural Local Sparse Appearance Models[J].IEEE Transactions on Image Processing, 2016, 25(10):4555-4564. [16] ZHANG K, YANG M H. Fast Compressive Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(10): 2002-2015.
[17] WU Y, LIM J, YANG M H. Online Object Tracking: a Benchmark[C]// Proceedings of the 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington: IEEE Computer Society, 2013: 2409-2418.。