视频目标跟踪综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

视频目标跟踪综述
作者：张丰，冯平
来源：《计算机时代》2022年第01期
摘要：研究近年来主流的目标跟踪算法。

通过文献阅读和归纳对比，分析了使用生成式模型和判别式模型的目标跟踪算法。

结果显示，对于存在复杂干扰因素的场景，采用第二类模型的目标跟踪算法的跟踪效果更好。

文章为视频跟踪领域的研究者们提供了一个关于目标跟踪算法的客观分析。

关键词：目标跟踪; 深度学习; 相关滤波; 计算机视觉
中图分类号：TP399 文献标识码：A 文章编号：1006-8228（2022）01-32-04
Overview on video target tracking
Zhang Feng， Feng Ping
（Guizhou University of Finance and Economics， Guiyang， Guizhou 550025， China）
Abstract： This paper focuses on the mainstream target tracking algorithms in recent years， and analyzes the target tracking algorithms using generative and discriminative models through literature reading and inductive comparison. The results show that for the scenes with complex interference factors， the target tracking algorithms using the second kind of model have better tracking effect. This paper provides an objective analysis of target tracking algorithms for researchers in the field of video tracking.
Key words： target tracking; deep learning; correlation filtering; computer vision
0 引言
根据人们对感知觉的研究发现，人们通过视觉、听觉、味觉、嗅觉和肤觉来接受外部的刺激，其中视觉是人们获取外部刺激的最主要途径，约占80%。

为了让计算机可以与人一样拥有视觉的能力，计算机视觉这一学科被提出。

视频目标跟踪是计算机视觉的一个重要研究方向，这个技术在人们日常生活中也有很多应用。

例如：智能视频监控、现代化军事、基于视频的人机交互、智能交通系统、智能视觉导航、三维重建、虚拟现实、增强现实等方面[1]。

目标跟踪的任务是在给定第一帧目标的位置
和状态后，在后续帧中能识别，跟踪到目标的位置状态。

这个任务可以分为四个步骤。

①运动模型：以给定的目标框为中心在其附近生成多个候选框。

②特征提取：对生成的候选框进行特
征的提取和分析。

③观测模型：根据提取和分析的结果选出优的候选框，这是最重要的一个步骤，也是研究者的主要研究的地方。

④模型更新：由于目标是动态的，不能只以固定一帧里的目标作为参考模型，要及时地更新。

现实环境中进行跟踪任务会由于环境的改变或者目标的运动而出现难点。

⑴光照的变化：在进行跟踪时，现场灯光明暗的变化会使目标可提取的特征减少。

⑵遮挡：当目标被障碍物部分或者完全遮挡，这时候可获取的信息会变少。

⑶背景混杂：当目标出现在周围环境比较复杂的地方，会有许多背景因为与目标的特征相似而被误认。

⑷快速运动：当目标快速运动时会产生运动模糊的情况，影响特征提取。

⑸尺度变化：由于目标与拍摄设备的距离发生变化，因此目标在视频中大小也会发生变化，会影响目标的选定。

⑹姿态变化：当目标在运动过程中肢体发生变化，这会使目标的外观有比较大的改变，从而影响跟踪。

这些问题都不会单独出现，一个跟踪任务中目标可能会发生其中几种情况，因此研究一个强鲁棒性和高精确性的算法是十分重要的。

1 目标跟踪算法
随着目标跟踪技术的发展，大量的算法涌现。

我们可以根据其在观察模型中采用的方法不同把这些算法分为两大类，一种是生成式模型和判别式模型。

其中判别式模型里面又分为基于相关滤波的和基于深度神经网络的模型。

1.1 生成式模型
生成式模型是最早期的目標跟踪的模型，运用这个模型的算法有光流法、粒子滤波、Meanshift算法，Camshift算法等[2]，生成式模型首先会对目标进行特征提取然后根据特征来构建目标的模型，最后用该模型去与每一帧图片进行匹配，挑选与模型最相似的地方作为该帧图片中目标的位置。

根据建立模型的方法可以把生成式模型分为基于核的算法，基于子空间的算法和基于稀疏表示的算法。

生成式模型有一个严重的缺点就是其模型没有进行更新一直使用任务开始时构建的模型，没有考虑到任务过程中环境变化对目标状态的影响，当有的帧中目标比较清晰的时候，可以比较好的找到目标。

但当目标出现被遮挡或者处于环境光线条件不好的情况下，用这个模型来追踪效果就不尽如人意了。

1.2 判别式模型
判别式模型是目前研究目标跟踪的主流模型，这个模型把目标跟踪问题转化为了一个二分类问题，通过模型把目标与背景进行分离，从而获得目标。

这一种模型能很好的解决目标处于环境条件复杂的状况下的跟踪问题，而这个模型中根据使用的特征不同分为基于相关滤波和基于深度学习的两种算法。

1.2.1 基于相关滤波的跟踪算法
相关滤波本来是用于信号处理的，用来描述两个信号的相关性。

文献[3]首先把这技术用于目标跟踪领域并提出了MOSSE算法，该算法首先在首帧中提取目标的单通道灰度特征用来训练滤波器，再在下一帧中提取特征并与滤波器相乘，得到最大响应点从而确定目标的位置，最后再把该帧的特征用于训练滤波器从而进行下一帧中目标的确定。

后来文献[4]在MOSSE的基础上进行了改进提出了CSK算法，该算法采用循环矩阵去进行采样从而获得大量的循环样本使滤波器更好的学习而且加入核函数使得高维空间中难以计算的值可以在低维空间中进行运算加快了模型的速度。

这两种算法都是采用的单通道的数据作为输入的。

而文献[5]提出了KCF算法采用了多通道的HOG特征作为输入并且利用了循环矩阵在傅里叶空间可对角化的性质极大的减少运算量，这个算法与之前算法相比，准确率有了明显的提高，但是由于该算法把目标框预先设定好，当目标出现尺度变化或姿态变化时不能有效的进行跟踪。

对于尺度自适应这个问题，文献[6]提出了SAMF算法，该算法采用了尺度池的方法来应对跟踪中目标的尺度自适应问题，并且提出把HOG特征，灰度特征和CN特征三者进行了结合来代替单特征的输入。

文献[7]中提出了DSST算法，该算法解决尺度自适应这问题提出采用了两个滤波器的方法，把定位任务和尺度估计任务分开，先确定目标的中心位置，再根据中心点周围的响应来确定目标的尺度，这样把任务分成两部分可以使速度加快而且也便于单用其中一个功能来与其他算法相结合。

在使用滤波器的算法中，由于进行快速傅里叶变换时会导致图像信号缺失从而出现边界效应，文献[8]中的SRDCF算法采用了空间正则来解决这个问题，先获得稍大的信号，然后通过引入惩罚机制，消除距离响应中心最远的信号。

1.2.2 基于深度学习的跟踪算法
在目标跟踪的任务中，获取目标的特征是一个关键的问题，而深度学习在其他领域中已经表现出了其强大的特征提取和表达能力，因此深度学习开始被应用到了目标跟踪领域，目前比较常用的神经网络模型有AlexNet，VggNet，ResNet，YoLo，GAN。

一开始研究者采取的策略是用深度特征替换之前通过滤波器得到的特征，文献[9]中提出的DeepSRDCF算法就是在相关滤波算法SRDCF的基础上使用深度特征来替代原本的手工特征。

而文献[9]中提出的HCF 算法采用的是KCF的框架，把其中的HOG特征替换成经过VGG网络训练完的深度特征。

后来出现了深度网络与滤波相结合的方法，文献[10]中的C-COT算法先用VGG网络同时提取目标多通道的特征，并且每个通道都对应有一个滤波器，然后把经过滤波的特征图进行卷积和加
权的工作，最后在采用插值的方法来获得最后的响应图，这个方法的准确率高但是由于网络太过大速度比较慢。

后来文献[11]提出了ECO算法，通过降低滤波器的维度以及在不影响特征多样的情况下减少特征的数量来使模型加速。

从这些算法的实现结果来看，深度特征的运用可以使跟踪结果更准确，同时还知道了浅层的网络比较适合目标定位，而深层的网络比较适合确定目标范围。

随后的目标跟踪任务就不只是采用替换特征的方法，而是直接使用深度学习的方法，但是深度神经网络需要通过大量的数据训练才能拥有较强的特征提取能力。

文献[12]提出通过线下训练与在线微调的方法来解决获取样本数据量这个问题，这是首次运用深度学习的跟踪算法，从此基于深度学习的跟踪算法也慢慢发展起来。

此后文献[13]提出了一种基于分类的深度学习跟踪算法MDNet，该算法采用小型VGG网络，而且作者认为不同训练视频中目标之间有共性的特征，因此采用了多域训练的方式来进行跟踪训练，这个算法在速度与应对目标被遮挡的问题时表现不佳，因此文献[14]在MDNet的基础上加入GAN网络提出VITAL算法，通过GAN 网络来生成遮挡情况下的正样本从而使分类器拥有应对目标被遮挡的问题。

文献[15]提出孪生神经网络（SiamFC），该算法把跟踪看成是解决相似性问题，采用两个Alexnet网络组成双分支结构网络，其中一个分支用于提取样本图像特征，另一个分支用于提取搜索图像的特征，做相似性比较，取响应最大的地方作为目标中心。

由于这个算法只能获得目标中心，不能很好地应对尺度变化问题，因此文献[15]在文献[16]的基础上加入了RPN网络，解决了这个问题。

2 常用数据集
为了使神经网络更好的进行工作，必须做的一步就是调参，而调参的过程需要有大量的数据。

因此一个优秀的数据集可以使网络更好的运行，下面将介绍几个常用的数据集及其评价指标。

⑴ OTB：2013年Wu等人在CVPR上提出了OTB2013数据集，这个数据集里包含了51个视频序列，有灰度和彩色图像，都是以日常场景为背景，再把目标跟踪常见的困难呈现出来。

2017年作者把OTB2013进行扩容，把视频序列增加到了100个形成OTB2017。

OTB数据集的评价指标有精确图（Precision Plot）、成功率图（Succes Plot）、OPE、TRE、SRE。

⑵ VOT：VOT数据集是指每年视觉目标跟踪竞赛中举办方提供的数据集，里面通常含有60个彩色视频序列，每年都会替换部分视频。

该数据集有一个特别的机制，即当程序跟丢目标的五帧后，会把程序初始化，使数据集得到充分利用。

VOT数据集中的评价指标主要有Accuracy、Robustness。

⑶ Temple Color 128：TColor-128數据集是在2015年提出，全为彩色视频序列，若算法只适用于彩色可以采用该数据集，评价标准与OTB相似。

⑷ LaSOT：LaSOT数据集主要收录的是长时间的视频序列，里面含有70个类别，1400个视频序列。

该数据集主要从YouTube上获取，主要是生活的场景。

该数据集提供了一致的可视化边界标注，给使用者提供了便利。

主要评价指标有精度、标准化精度、成功率。

1.2.1 基于相关滤波的跟踪算法
相关滤波本来是用于信号处理的，用来描述两个信号的相关性。

这两种算法都是采用的单通道的数据作为输入的。

而文献[9]中提出的HCF 算法采用的是KCF的框架，把其中的HOG特征替换成经过VGG网络训练完的深度特征。

后来出现了深度网络与滤波相结合的方法，文献[10]中的C-COT算法先用VGG网络同时提取目标多通道的特征，并且每个通道都对应有一个滤波器，然后把经过滤波的特征图进行卷积和加权的工作，最后在采用插值的方法来获得最后的响应图，这个方法的准确率高但是由于网络太过大速度比较慢。

后来文献[11]提出了ECO算法，通过降低滤波器的维度以及在不影响特征多样的情况下减少特征的数量来使模型加速。

文献[15]提出孪生神经网络（SiamFC），該算法把跟踪看成是解决相似性问题，采用两个Alexnet网络组成双分支结构网络，其中一个分支用于提取样本图像特征，另一个分支用于提取搜索图像的特征，做相似性比较，取响应最大的地方作为目标中心。

由于这个算法只能获得目标中心，不能很好地应对尺度变化问题，因此文献[15]在文献[16]的基础上加入了RPN网络，解决了这个问题。

2 常用数据集
为了使神经网络更好的进行工作，必须做的一步就是调参，而调参的过程需要有大量的数据。

因此一个优秀的数据集可以使网络更好的运行，下面将介绍几个常用的数据集及其评价指标。

2017年作者把OTB2013进行扩容，把视频序列增加到了100个形成OTB2017。

OTB数据集的评价指标有精确图（Precision Plot）、成功率图（Succes Plot）、OPE、TRE、SRE。

⑵ VOT：VOT数据集是指每年视觉目标跟踪竞赛中举办方提供的数据集，里面通常含有60个彩色视频序列，每年都会替换部分视频。

该数据集有一个特别的机制，即当程序跟丢目标的五帧后，会把程序初始化，使数据集得到充分利用。

VOT数据集中的评价指标主要有Accuracy、Robustness。

⑶ Temple Color 128：TColor-128数据集是在2015年提出，全为彩色视频序列，若算法只适用于彩色可以采用该数据集，评价标准与OTB相似。

⑷ LaSOT：LaSOT数据集主要收录的是长时间的视频序列，里面含有70个类别，1400个视频序列。

该数据集主要从YouTube上获取，主要是生活的场景。

该数据集提供了一致的可视化边界标注，给使用者提供了便利。

主要评价指标有精度、标准化精度、成功率。

1.2.1 基于相关滤波的跟踪算法
相关滤波本来是用于信号处理的，用来描述两个信号的相关性。

这两种算法都是采用的单通道的数据作为输入的。

而文献[9]中提出的HCF 算法采用的是KCF的框架，把其中的HOG特征替换成经过VGG網络训练完的深度特征。

后来出现了深度网络与滤波相结合的方法，文献[10]中的C-COT算法先用VGG网络同时提取目标多通道的特征，并且每个通道都对应有一个滤波器，然后把经过滤波的特征图进行卷积和加权的工作，最后在采用插值的方法来获得最后的响应图，这个方法的准确率高但是由于网络太过大速度比较慢。

后来文献[11]提出了ECO算法，通过降低滤波器的维度以及在不影响特征多样的情况下减少特征的数量来使模型加速。

由于这个算法只能获得目标中心，不能很好地应对尺度变化问题，因此文献[15]在文献[16]的基础上加入了RPN网络，解决了这个问题。

2 常用数据集
为了使神经网络更好的进行工作，必须做的一步就是调参，而调参的过程需要有大量的数据。

因此一个优秀的数据集可以使网络更好的运行，下面将介绍几个常用的数据集及其评价指标。

2017年作者把OTB2013进行扩容，把视频序列增加到了100个形成OTB2017。

OTB数据集的评价指标有精确图（Precision Plot）、成功率图（Succes Plot）、OPE、TRE、SRE。

⑵ VOT：VOT数据集是指每年视觉目标跟踪竞赛中举办方提供的数据集，里面通常含有60个彩色视频序列，每年都会替换部分视频。

该数据集有一个特别的机制，即当程序跟丢目标的五帧后，会把程序初始化，使数据集得到充分利用。

VOT数据集中的评价指标主要有Accuracy、Robustness。

⑶ Temple Color 128：TColor-128数据集是在2015年提出，全为彩色视频序列，若算法只适用于彩色可以采用该数据集，评价标准与OTB相似。

⑷ LaSOT：LaSOT数据集主要收录的是长时间的视频序列，里面含有70个类别，1400个视频序列。

该数据集主要从YouTube上获取，主要是生活的场景。

该数据集提供了一致的可视化边界标注，给使用者提供了便利。

主要评价指标有精度、标准化精度、成功率。