基于改进高分辨率神经网络的多目标行人跟踪

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第 31 卷第 6 期2023 年 3 月
Vol.31 No.6
Mar. 2023
光学精密工程
Optics and Precision Engineering
基于改进高分辨率神经网络的
多目标行人跟踪
张红颖*,贺鹏艺,彭晓雯
(中国民航大学电子信息与自动化学院,天津 300300)
摘要:针对行人多目标跟踪过程中目标被遮挡时产生的检测、跟踪失败问题,提出了一种改进型高分辨率神经网络作为检测网络。

首先,为了增强网络对于行人目标的初始特征提取能力,在高分辨率神经网络的基础上,对网络的主干部分引入二代瓶颈残差块结构,提升感受野和特征表达力;其次,设计了添加二层高效通道注意力模块的残差检测块架构,并通过该架构替换了原有网络在多尺度信息交换阶段中的残差检测块,以提高了整个网络系统的测试性能;最后,通过选择适当的参数对网络进行了全面地训练,并通过多个测试集对算法测试。

测试结果显示,本文算法相较于FairMOT在2DMOT15,MOT17,MOT20数据集上的跟踪准确度分别提升0.1%,1.6%,0.8%。

本文算法可以良好地应用在目标较多且遮挡面积较大的特殊情景,同时对于较长时间视频序列的追踪稳定性也大大提高。

关键词:目标身份切换;高分辨率神经网络;高效通道注意力模块;二代瓶颈残差块;FairMOT
中图分类号:TP391.4 文献标识码:A doi:10.37188/OPE.20233106.0860
Multi-object pedestrian tracking method based on improved
high resolution neural network
ZHANG Hongying*,HE Pengyi,PENG Xiaowen
(College of Electronic Information and Automation, Civil Aviation University of China,
Tianjin 300300, China)
* Corresponding author, E-mail: carole_zhang0716@
Abstract: This study proposes an improved high-resolution neural network to address the issue of detec⁃tion and tracking failures caused by target blockage in a multi-target pedestrian tracking process. First, to enhance the initial feature extraction capability of the network for pedestrian targets,a second-generation bottleneck residual block structure was introduced into the backbone of a high-resolution neural network,thus improving the receptive field and feature expression capability.Second,a new residual detection block architecture with a two-layer efficient channel attention module was designed to replace the one at the multi-scale information exchange stage of the original network, thus improving the test performance of the entire network system. Finally, the network was fully trained by selecting appropriate parameters, and subsequently, the algorithm was tested using multiple test sets. The test results indicated that the tracking accuracy of the proposed algorithm was 0.1%,1.6%,and 0.8% higher than that of FairMOT on 文章编号1004-924X(2023)06-0860-12
收稿日期:2022-05-26;修订日期:2022-06-17.
基金项目:国家重点研发计划资助项目(No.2018YFB1601200)
第 6 期张红颖,等:基于改进高分辨率神经网络的多目标行人跟踪
2DMOT15, MOT17, and MOT20 datasets, respectively. In conclusion, the proposed algorithm-track⁃ing stability for longer video sequences was greatly improved. Therefore, it can be applied to special sce⁃narios with more targets and occlusion area.
Key words: ID switch;high-resolution feature extraction network;Efficient Channel Attention(ECA);
Bottle2neck; FairMOT
1 引言
行人跟踪是以视频中运动中的人作为目标的跟踪过程,可广泛应用于客流监测、自动驾驶、人机交互、疫情防控等方面[1]。

当前主流的多目标行人跟踪方法与多目标检测和重识别结合应用,通过基于检测的跟踪方式获得目标的尺寸、位置和运动轨迹等信息,因此提升检测性能能够提高最终的跟踪效果。

近两年随着视觉挑战难度的不断增大,视频序列中待检测目标的数目和密集程度也逐渐增加。

关键点检测方式由于其运算过程中的低参数量和其获取目标特征的高效性,使其相比于基于锚框的检测方式,更加适合多目标视觉任务,并逐渐成为多目标行人跟踪的主流检测方式。

Law H提出了CornerNet[2],该网络结构通过回归目标的左上和右下角点来确定目标位置,运算速度相较于使用锚框定位有一定提高,但却难以体现物体内部的信息。

Zhou等人提出了CenterNet[3],将输入的图片转换成heatmap,其中响应值最大处即为目标的中心位置,使用中心处的特征信息预测目标尺度,既可反映出物体内部特征又减少了计算量,但由于热图中不同目标距离近时,中心点特征重叠模糊,导致检测和跟踪失败。

针对该问题,Wang等人提出,高分辨率系列网络(High Resolution Net⁃work,Hrnet)[4]结构提取所得到的特征图包含更丰富、精确的特征信息,因此在需要精细信息的关键点检测任务上能够有效提升检测性能。

在上述检测网络的发展基础上,Zhan等人提出了FairMOT[5]跟踪算法,选择以中心点作为关键点的无锚框检测方式,通过诸如高分辨率神经网络的编码-解码式网络提取特征,并采取多任务同步学习的训练策略大幅提升了算法的效率。

但是,由于关键点检测任务特殊的解空间,使得正负样本极不平衡,因此漏检测和误检测现象没有从根本上解决,无法进行长时稳定的跟踪。

而在检测阈值固定的条件下,仍然可以通过添加注意力的方式使检测器更加关注行人身体未被遮挡部分,进一步抑制漏检测和误检测的发生频率。

TrackFormer[6]算法基于编码-解码方式的Trans⁃former[7]网络架构来实现多目标跟踪和分割,将自注意力机制及多头自注意力层广泛地应用于特征提取网络,较好地消减了严重遮挡情况下的漏检测数目,这一创新为构造广泛应用其他高效注意力机制的检测网络并应用于多目标跟踪提供了有力的理论支撑。

综上,针对基于高分辨率神经网络的Fair⁃MOT算法跟踪过程中,在目标密集、数目众多、遮挡严重等场景下产生的大量漏检测和误检测的现象,使用注意力机制是解决目标遮挡下上述问题的有效手段之一,其能够通过提取在通道、空间上更具表达力的高分辨率特征,增强网络检测与重识别的性能,以减少漏检测目标数量和目标身份切换的次数,从而提高多目标跟踪算法的准确率;本文采取广泛添加注意力的策略以提升网络检测性能,进一步抑制FairMOT算法跟踪过程中的检测失败和目标身份切换次数,以提升其最终跟踪性能。

通过本课题组在高分辨神经网络不同位置添加注意力机制的前置实验工作[8],发现主干网络所提取的初始特征为影响最终输出特征好坏的关键因素。

因此,在高分辨神经网络的主干网络处添加高效通道注意力模块[9],并使用更加高效的二代瓶颈残差块(bot⁃tle2neck)[10]结构替代原始残差块。

同时,为了进一步增强特征表达力并探究在网络多尺度信息交互阶段加入注意力机制的效果,在网络的多特征信息交互阶段中广泛地插入添加两层高效通道注意力模块的残差块。

861
第 31 卷
光学 精密工程
2 网络模型
2.1 网络结构
高分辨率神经网络能够提取不同尺度的高分辨率特征并融合,输出的最终特征较适用于关键点检测与重识别任务的学习,同时其结构组成类似于Resnet 系列网络,能够大量地插入多种注意力模块。

因此,本文对高分辨率神经网络改进,改进后的网络结构如图1所示。

其中Stem 表示主干网络;Stage1至Stage3为阶段1至阶段3,表示多尺度信息交互阶段;Stage4为阶段4,表示负责特征融合并输出的头网络。

斜向上的箭头代表上采样、斜向下的箭头代表下采样;conv 代表卷积层,bn 为批归一化层,ECA 表示高效通道注意力模块,bottle2neck 和2ECA -basicblock 分别表示二代瓶颈残差块和添加两层注意力模块的
基准残差块,Layer1表示由4个二代瓶颈残差块结构组成的卷积块,Last_conv 表示头网络部分的卷积层,Last_relu 为头网络部分的激活层。

首先,输入图像经过主干网络的卷积操作后尺寸缩减为原本的1/4,然后经过4个二代瓶颈残差块进行特征提取,并把输出的特征图输送到阶段1中;阶段1在提取特征的同时向下采样得到更低分辨率的分支即为阶段2,阶段2同样执行相同的操作得到阶段3。

每个阶段都使用4个添加两层注意力模块的基准残差块进行特征提取,最终对前置阶段的特征图进行多尺度信息交互并输入阶段4;阶段4为头网络,首先将阶段1至阶段3提取的不同分辨率特征均上采样为高分辨率特征,然后通过拼接操作和全连接层得到最终的输出特征图,用于后续训练,以获得初始特征提取网络模型。

二代瓶颈残差块是对瓶颈残差块的改进,其不仅提高了多尺度特征的表达和泛化能力,同时大大减少了结构整体的参数量。

在高分辨率神经网络的主干网络部分,瓶颈残差块结构占据的比重较大,因此使用二代瓶颈残差块能够进一步
提升主干网络的初始特征提取能力。

图1中网络结构使用的二代瓶颈残差块结构如图2所示。

图2左为瓶颈残差块(bottleneck )的网络结构图,由1×1,3×3,1×1三层卷积构成,输入和输出间跳变连接;图2
右为二代瓶颈残差块的网
图1 网络结构Fig.1 Network structure
862
第 6 期
张红颖,等:基于改进高分辨率神经网络的多目标行人跟踪
络结构图,可以看出主要改进为在通道维度上将3×3的卷积变为了从没有卷积到3个3×3卷积的4个分支。

当数据经过1×1卷积后,首先在通道上将特征图划分为四部分。

X 1部分不做处理,为1×1卷积所提取的特征,直接传到Y 1;X 2经过一层3×3卷积后得到的特征图同时传给Y 2和下一个分支,这样使得第三个分支融合了第二个分支的信息;第三个、第四个分支都以此类推且每个分支的通道数都是等比划分的。

由于这种拆分混合连接结构使得输出的特征图包含了不同感受野大小的组合信息,有利于提取全局和局部信息。

为了验证bottle2neck 对于网络的特征提取能力的提升效果,在2DMOT15数据集上,分别对使用bottleneck 和bottle2neck 下的网络训练和测试进行比较,最终比较结果如表1所示。

由表1可知,在使用bottle2neck 作为Layer1的组成结构时,IDF1和MOTA 都在bottleneck 的基础上有一定提升,也证明了bottle2neck 通过拆分混合连接结构能够提取更有效的特征。

其中MOTA ,IDF1,MOTP 分别反映网络检测时对目标的识别F1分数、跟踪准确度及定位精度,这
三个指标均为综合性指标,由其他指标综合计算而来,能较全面地评价使用bottle2neck 模块时对于性能的影响。

本文网络结构中使用的高效通道注意力机制(Efficient Channel Attention ,ECA ),其在信息交互过程中通道数目不降,在保证特征提取能力的前提下避免了参数量的增加,同时能够自适应地选择一维卷积核的大小,原理图如图3所示。

其中立方体代表特征图,H ,W ,C 分别表示特征图的高度、宽度、通道维度,GAP 表示全局平均池化操作,1×1×C 表示一维卷积,k 表示卷积核大小。

ECA 针对卷积核的每一个通道以及它相邻的k 个通道来实现局部跨通道信息的交互,k 即为卷积核大小,通道维度与卷积核大小之间的比例关系,如式(1)所示:
C =ϕ(k )=2(γ*k -b ).
(1)
式(1)表示输入特征的通道维度与卷积核大小存在非线性关系,并通过2的线性幂次方程式建立起联系。

其中:C 表示通道维度,Φ表示函数关系,γ表示幂次关系式中的系数,b 表示幂次关系式中的常数项。

通过手动调整k 和C 参数并进行检测性能实验验证可以确定γ和b 分别为2和1。

因此,当给定通道数C 时,卷积核的尺寸k 就可以由公式(2)获得,其中odd 表示距离真实值最近的奇数。

k =φ(C )=||
||log 2(C )γ+
b
γ||||odd =|||
|log 2(C )2+1
2||||
odd
.(2)
已知basicblock 中通道数为64,因此基准残差块中的ECA 模块卷积核尺寸可由式(2)计算得到k =3。

通过前置实验[8]发现使用CBAM 模块插入多尺度信息交互阶段基础残差块内部

图2 残差块结构图(左)和二代瓶颈残差块(右)结构图Fig.2 Structure diagram of bottleneck (left ) and bot⁃
tle2neck (right )
表1 Bottleneck 与bottle2neck 对比测试结果Tab.1 Comparison test results between bottleneck and
bottle2neck
(%)Layer1组成
结构bottleneck bottle2neck
MOTA 71.771.9
IDF174.675.0
MOTP 78.678.
图3 高效通道注意力模块原理图Fig.3 Schematic diagram of ECA
863
第 31 卷光学精密工程
效果不佳,为了确定高效通道注意力机制是否适用于该阶段基础残差块,进一步探究ECA模块添加到网络不同位置处对总体跟踪性能的影响趋势并确定最佳添加策略,在2DMOT15数据集上,分别对仅在主干网络添加ECA模块、仅在多尺度信息交互阶段的残差块添加ECA模块以及在主干网络的卷积层后和多尺度信息交互阶段的残差块内添加ECA模块3种情况进行网络训练和测试比较,最终测试比较结果如表2所示。

在使用添加一层ECA注意力模块的ECA-basicblock进行实验发现性能有一定的提升但不明显,分别使用仅添加一层ECA注意力模块的残差块(ECA-basicblock)和添加两层ECA注意力模块的残差块(2ECA-basicblock)进行实验测试,结果如表3所示。

其中MOTA,IDF1,MOTP与表1中的含义相同。

由表3可知采用添加两层ECA模块的基础残差块策略时最终的MOTA指标相较于只添加一层ECA模块的基础残差块有一定提升,因此选择2ECA-basicblock作为ECA模块添加在多尺度信息交互阶段的策略。

为了详细说明2ECA-basicblock内ECA模块具体添加位置,给出2ECA-basicblock和basicblock结构对比如图4所示。

Conv代表卷积核大小为3的普通卷积,Batch norm代表批规范化层,Relu代表激活层,ECA代表不同位置处的ECA注意力模块,x代表特征输入。

左图为basicbolck的结构,主要由主干部分和残差部分组成,在主干部分由两层卷积层和对应的批规范化层、激活层组成,其中在第二层批规范化层后与残差部分进行连接,并输送给第二层激活层。

右图为2ECA-basicblock的结构,其改进之处主要是在basicblock的基础上,为主干部分的第一层relu层后和第二层批规范化层后添加ECA注意力模块。

2.2 训练策略
本文在损失函数上使用与FairMOT算法一样的分支损失函数,分别对检测分支、重识别分支同步训练。

选择CUHK-SYSU[11],PRW[12],MOT16[13]数据集的训练集数据作为训练集,2DMOT15[14]数据集的训练集作为训练过程当中的验证集。

验证轮次为每训练一轮验证一次,从而及时调整模型参数。

通过实验,最终确定了合适的训练策略,将训练轮次定为32,最开始的26轮学习率定为1e-4,之后5轮学习率定为1e-5,最终使用1e-6的学习率训练一轮后达到拟合。

训练过程中输入图像分辨率为1 088×608,一次训
表2 ECA模块添加位置测试比较结果Tab.2 Comparison results of parameters and detection performance indexes between ECA and CBAM
(%)
ECA添加位置
stem
stage stem+stage MOTA
65.2
69.8
70.8
IDF1
66.5
70.7
70.5
MOTP
78.7
78.3
78.5
表3 Basicblock内部添加不同数目ECA模块测试比较结果
Tab.3 Comparison results of tests with different num⁃bers of ECA modules added inside basicblock(%)
ECA模块添加数目ECA-basicblock 2ECA-basicblock MOTA
70.8
71.8
IDF1
70.5
71.2
MOTP
78.5
78.
图4 Basicblock(左)和2ECA-basicblock(右)结构对比图
Fig.4 Structural contrast diagram of basicblock(left) and
2ECA-basicblock(right)
864
第 6 期张红颖,等:基于改进高分辨率神经网络的多目标行人跟踪
练输入的样本数设置为8,利用亚当优化器进行模型优化,使用relu作为激活函数,设置正则化系数为0.001。

训练后获得的网络模型的部分权重参数如表4所示。

其中conv表示卷积,ECA.conv表示ECA注意力模块中的卷积,Layer1表示4个残差块,last 表示stage4阶段头网络部分的卷积,hm,wh,reg,id分别表示中心点热图分支、边界框大小分支、中心偏移量分支以及重识别分支。

3 实验结果与分析
本文算法实现和测试所使用的计算机硬件配置为Intel Xeon(R)Silver 4112 CPU@2.60 GHz×16,GPU版本为GeForce RTX 2080 Ti/ PCle/SSE2;使用的软件有CUDA10.0,py⁃torch1.2.0,python3.7.9。

在跟踪时采用deep-sort策略[15],通过卡尔曼滤波[16]及匈牙利算法对目标进行预测和匹配,详细流程如图5所示。

使用2DMOT15,MOT20[17],MOT17[13]数据集的训练集数据作为测试数据,对本文算法和目前性能较好的基于中心关键点检测的FairMOT 行人跟踪算法进行测试比较;然后对测试后的结果进行可视化和性能分析。

为验证改进后并训练得到的网络模型对数据的处理效果,对网络中间层包括Stem阶段输出、Stage1至Stage3各分支下采样输出以及最终上采样连接输出的张量进行可视化如图6所示。

由图6可以看出,Stem 阶段输出的特征在经过Stage1至Stage3过程中,既保持有分辨率不变的特征提取,同时又以步长为2下采样得到新的分支提取更加精细的特征张量,在Stage4阶段上采样并合并输出比Stem阶段更加显著的特征图。

为了验证本文改进后网络模型用于行人跟踪的效果,设置相同的检测阈值:在2DMOT15和MOT17数据集上测试时检测阈值均为0.6,在MOT20数据集上测试时均为0.4。

在测试集上与基于高分辨神经网络的FairMOT算法进行性能指标对比,测试结果如表5所示。

其中,MO⁃TA表示跟踪准确率,为衡量跟踪算法性能的综合指标;IDF1表示检测平均数比率,用于衡量跟踪的身份稳定能力与能否长时间准确跟踪;IDS 表示目标身份切换次数;FN和FP分别表示漏检测和误检测;FPS表示算法的运算速度。

从表5中可以看出本文算法在3个数据集上的跟踪准确率相较于FairMOT算法均有一定提升;在检测
表4 本文网络部分权重参数Tab.4 Partial weight parameters of the network
Layer name Conv1 ECA1.conv Conv2 ECA2.conv
Layer1
ECA3.conv
.... Last layer
hm
wh
id
reg
Weight
64×3×3×3
1×1×3
64×64×3×3
1×1×3
[(64×64×1×1),(64×64×3×3),(64×256×1×1)]
[(256×64×1×1),(64×64×3×3),(64×256×1×1)]×3
1×1×3
......
64×270×3×3,bias=64
hm.0(256×64×3×3,bias=64) hm.2(1×256×1×1,bias=1)
wh.0(256×64×3×3,bias=64) wh.2(2×256×1×1,bias=2)
id.0(256×64×3×3,bias=64)id.2(128×256×1×1,bias=128)reg.0(256×64×3×3,bias=64) reg.2(2×256×1×1,bias=2)
865
第 31 卷
光学 精密工程
平均数比率上本文算法在MOT20和MOT17数据集上分别提升了0.5%和0.7%,在2DMOT15数据集上降低了3.4%;在目标身份切换次数方面,本文算法相较于FairMOT 在3个数据集上均
有所下降;在检测失败次数上,本文算法的漏检测和误检测总数相较于FairMOT 也有所减少;本文算法运算速度约为FaiMOT 算法的1/2。

综合上述结果可以得出,
本文算法总体上跟踪性能
图6 网络中间层张量可视化效果图
Fig.6 Visualization of tensors in the middle layer of the
network
图5 跟踪流程图Fig.5 Tracking flow chart
表5 本文算法与FairMOT 的测试结果
Tab.5 Test results of the proposed algorithm and FairMOT
Dataset 2DMOT15
MOT20
MOT17
Method FairMOT Ours FairMOT Ours FairMOT Ours
MOTA↑71.771.812.813.675.177.7
IDF1↑74.671.217.318.076.777.2
IDS↓136**** **** 7472 2381 533
FN↓6 1005 9291 098 2611 088 28655 09255 038
FP↓1 8492 02262 43462 72726 44218 579
FPS↑18.319.0514.698.1816.238.96
866
第 6 期
张红颖,等:基于改进高分辨率神经网络的多目标行人跟踪
优于FairMOT 算法并主要体现在跟踪精确率的提高、目标身份切换次数和检测失败次数的降低上,而在长时跟踪稳定性上本文算法仅在MOT17和MOT20数据集上优于FairMOT 算法,同时本文算法相较于FairMOT 算法牺牲了
约一半的运算速度。

为了更直观地说明和分析本文算法与FairMOT 算法在不同测试数据集上跟踪性能的差异和原因,图7至图9是本文算法和FairMOT 在不同视频序列的上部分可视化
结果。

图7 ETH -Pedcross2跟踪结果(从左到右依次为第46,57,69帧)
Fig.7 Tracking results on Eth -PedCross2 (frames 46, 57 and 69 from left to right

图8 MOT17-02-DPM 跟踪结果(从左到右依次为第1,50,100,150帧)
Fig.8 Tracking results on MOT17-02-DPM (frames 1,50,100 and 150 from left to right )
867
第 31 卷
光学 精密工程
图7为两种算法在2DMOT15数据集中视频序列ETH -Pedcross2上的一段跟踪结果。

该视频序列在拥挤的街道上拍摄而来,由于距离和视角问题,背景遮挡物对目标的遮挡及不同目标之间的遮挡都非常严重。

从图7中可以看出,当车辆行驶而来的过程中,在第46帧中图像中心位置处两行人目标产生遮挡时,FairMOT 算法产生了漏检测现象,而本文算法能准确检测出目标。

当图片中心处的两个行人目标完全被车辆遮挡时,在第57帧中两种算法均由于车辆对行人的遮挡跟丢了目标,同时本文算法发生了误检测。

当车辆驶过后,虽然两种算法均发生了目标身份切换现象,但本文算法仍能准确检测出被遮挡行人。

由此说明本文算法的漏检测数目相较于FairMOT 算法有一定减少,而误检测数目较多,同时两种算法目标身份切换现象均有发生。

图8为两种算法在MOT17数据集中MOT17-02-DPM 视频序列上的一段跟踪结果。

该视频由固定的摄像机在大型广场场景下拍摄而来,由于不用行人目标尺度的不同,近处行人对远处行人的遮挡非常严重。

从图8中可以看出,当近处行人一边移动一边较大程度遮挡远处行人时,两种算法均有漏检测产生,而本文算法相较于FairMOT 算法对远处尺度较小且被遮挡的行人的漏检有更好的抑制作用,总体漏检测以
及误检测次数要显著少于FairMOT 算法。

但同时,本文算法在对于远处行人目标跟踪过程中仍存在大量的目标身份切换现象。

图9为对两种算法在MOT20数据集上视频序列MOT20-04的一段跟踪结果。

该视频序列是在夜晚时刻行人拥挤的公园场景下拍摄,由于拍摄角度远、范围大,行人目标的尺度小且数量众多。

从图9中综合四帧结果可以看出,本文算法相较于FairMOT 算法准确检测出的数量目标更多,即说明本文算法进一步改善了跟踪过程中的目标漏检测问题,证明了本文算法在整体检测性能上更优。

由上述对本文算法测试效果的定量分析和定性分析可得,本文所提出的改进型高分辨率神经网络结构在检测性能上有显著提升,主要体现在本文算法跟踪过程中检测失败数量的显著减少以及一定程度抑制了目标身份切换现象,从而提升了跟踪准确率和长时跟踪稳性。

但客观上本文算法的定量分析结果说明对于目标密集、尺度较小且数量众多的MOT17,MOT20数据集的跟踪仍存在大量的检测失败和跟踪中断次数。

因此,为了更全面地评价本文算法的性能,与使用HRNetV2网络的FairMOT 算法以及几种主流的多目标行人跟踪算法Tube_TK [18],CSTracker [19],TransCenter [20]在MOT17上进行测试对比,测试结果如表6
所示。

图9 MOT20-04跟踪结果(从左到右依次为第0,10,50,100帧)
Fig.9 Tracking results on MOT20-04 (frames 0,10,50 and 100 from left to right )
868
第 6 期张红颖,等:基于改进高分辨率神经网络的多目标行人跟踪
由表5和表6及上述分析可以看出,本文算法在不同数据集上呈现出的效果和趋势在定性结果上有一定的不同,原因可能是不同数据集中目标数量、尺度、背景干扰及序列长度存在差异。

但从定性结果来看,本文算法总体上相较于基于HRNetV2网络的FairMOT算法跟踪的准确性更好、目标身份切换频繁度有一定下降,虽然在不同数据集下的误检测和漏检测抑制趋势不同,但总检测失败次数显著下降,说明在检测网络中添加ECA模块,能够进一步抑制背景遮挡、行人类间遮挡时的检测失败问题;然而,由于本文检测网络结构中添加了大量的ECA模块,在网络实时性和算法整体运行时间上都有较大的牺牲。

另外,本文算法相较于其他几种行人跟踪算法,MOTA和IDS性能均处在上游,说明其在跟踪准确率的提升和目标身份切换的抑制方面效果显著,IDF1在几种算法中最低,说明其在长时跟踪稳定性上表现最好。

但是,本文算法的检测失败次数尤其是漏检测数量仍较高,制约了跟踪准确率的进一步提升;同时,本文算法由于使用大量的高效通道注意力模块,增加了网络整体的参数量和计算量,导致运算推理速度和跟踪精度在几种算法中均处于中下游。

因此,在后续研究中需要寻找到算法性能与运算速度的平衡,进一步对网络结构进行优化和改进。

4 结论
本文设计了一种改进型高分辨率神经网络模型,并基于此提出了一种适用于遮挡场景下的行人跟踪算法。

本文分别针对网络的主干网络部分及多尺度信息交互阶段进行改进,在主干网络部分,凭借高效通道注意力模块和二代瓶颈残差块提高网络的初始特征提取能力;在网络的多尺度信息交互阶段,构造添加两层高效通道注意力模块的基础残差块结构并广泛地添加到不同分辨率分支中。

结论证明,本文设计的网络模型相较于原始高分辨率神经网络模型拥有更强的检测性能,应用该网络模型的本文算法在2DMOT15,MOT17,MOT20数据集上的跟踪准确度分别提升0.1%,1.6%和0.8%,相较于FairMOT及其他几种行人跟踪算法,在目标身份切换、检测失败、跟踪稳定性等方面均有一定改善,能够更好地适用于目标密集、遮挡严重及长时间跟踪场景下的行人跟踪。

但本文方法还存在一些问题,由于网络添加了大量的注意力模块,导致算法的整体运算速度显著降低,同时算法对于误检测现象的抑制作用不明显,仍待进一步地优化和改进。

参考文献:
[1]曹自强,赛斌,吕欣.行人跟踪算法及应用综述[J].物理学报, 2020, 69(8): 41-58.
CAO Z Q,SAI B,LÜ X.Review of pedestrian
tracking:Algorithms and applications[J].Acta
Physica Sinica, 2020, 69(8): 41-58.(in Chinese)[2]LAW H,DENG J.CornerNet:Detecting objects as paired keypoints[J].International Journal of
Computer Vision, 2020, 128(3):642-656.
[3]ZHOU X,WANG D,KRÄHENBÜHL P.Ob⁃
表6 本文算法与其他几种算法的测试结果对比Tab.6 Test results of ours compared with other algorithms
Dataset MOT17_train
Tracker
Tube_TK
CSTrack
TransCenter
Fair(HRNetV2)
Ours
MOTA
79.5
75.9
70.1
75.1
77.7
IDF1
75.1
76.9
67.5
76.7
77.2
IDS
3 570
1 962
2 017
2 238
1 533
FN
56 850
58 947
94 979
55 092
55 038
FP
8 601
20 178
3 802
26 442
18 579
Time elapsed
5 316.88
1 009.53
15 948.00
982.79
1 780.20
869。

相关文档
最新文档