基于深度学习的视觉多目标跟踪算法综述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract:Visual multi-object tracking is a hot issue in the field of computer vision. However, the uncertainty of the number of targets in the scene, the mutual occlusion between targets, and the difficulties of discrimination between target features has led to slow progress in the real-world application of visual multi-target tracking. In recent years, with the continuous in-depth research of visual intelligent processing, a variety of deep learning visual multi-object tracking algorithms have emerged. Based on the analysis of the challenges and difficulties faced by visual multi-object tracking, the algorithm is divided into Detection-Based Tracking(DBT)and Joint Detection Tracking(JDT)two categories and six sub-categories class, and studied about its advantages and disadvantages. The analysis shows that the DBT algorithm has a simple structure, but the correlation of each sub- step of the algorithm is not high. The JDT algorithm integrates multi-module joint learning and is dominant in multiple tracking evaluation indicators. The feature extraction module is the key to solve the target occlusion in the DBT algorithm with the expense of the speed of the algorithm, and the JDT algorithm is more dependent on the detection module. At present, multi-object tracking is generally developed from DBT-type algorithms to JDT, achieving a balance between algorithm accuracy and speed in stages. The future development direction of the multi-object tracking algorithm in terms of datasets, sub-modules, and specific scenarios is proposed. Key words:visual multi-object tracking; deep learning; object detection; data association
Overview of Visual Multi-object Tracking Algorithms with Deep Learning ZHANG Yao, LU Huanzhang, ZHANG Luping, HU Moufa
National Key Laboratory of Science and Technology on Automatic Target Recognition, College of Electronic Science and Technology, National University of Defense Technology, Changsha 410073, China
视觉多目标跟踪的目的是利用数字图像处理技术 稳定跟踪图像序列中的多个感兴趣目标,得到各个目标 在每一时刻正确位置。近几年随着基于深度学习检测算 法的精度较传统算法性能大幅度提高,视觉多目标跟踪 随之取得了较大的突破。基于深度学习的视觉多目标跟 踪算法的应用基本覆盖了空海地多个典型场景[1-3],但较 为详细的关于视觉多目标跟踪综述论文较少,已有的相 关综述[4-5]一部分是基于传统方法的在雷达领域应用较多 且运算比较复杂的数据关联算法,与当前主流的多目标 跟踪方法存在较大的差异,另一部分较新的关注了基于 深度学习的视觉多目标跟踪方法,重点是基于检测的多 目标跟踪方法[6- 。 7] 本文根据视觉多目标跟踪框架的不 同,将基于深度学习的视觉多目标跟踪方法分为 DBT 与 JDT 两类算法展开论述,阐述深度学习在两种框架中的 模块功能及优缺点,结合公开数据集对比分析基于深度 学习的视觉多目标跟踪方法,通过进一步提升检测器性 能、更好地在多目标跟踪任务中融合单目标跟踪、拓展基 于深度学习的数据关联等方面提升多目标跟踪的性能。
收稿日期:2021-02-23 修回日期:2021-04-06 文章编号:1002-8331(2021)13-0055-12
56 2021,57(13)
Computer Engineering and Applications 计算机工程与应用
新及维持目标各自身份(Identity,ID)的任务,因此视觉 多目标跟踪还需要处理更为复杂关键的问题诸如:目标 数 量 不 确 定 、频 繁 目 标 遮 挡 、同 类 目 标 的 相 似 度 区 分 等。具体来说,在安防监控和自动驾驶应用中,目标频 繁进出视野是普遍且正常的行为,这就导致了多目标跟 踪所面对的目标数量是不确定的,这就要求多目标跟踪 算法必须具备实时检测定位场景中出现的感兴趣目标 数量。在场景复杂的情况下,背景对于目标的遮挡,以 及目标与目标的遮挡会造成目标遮挡再出现时目标身 份切换(ID switch,IDs),这就要求算法必须提取到鲁棒 的目标特征,在短时和长时的遮挡过后,保持遮挡前后 目标 ID 一致性。多目标跟踪任务要求维持同一目标的 ID,同类目标表观相似度较高且具备相似的行为,对稳 定维持正确目标 ID 带来了进一步的挑战,算法必须具 备提取同类目标可分性特征。
典型算法 MHT-DAM[8] SORT[9] DeepSort[10] TubeTK[11]
原理
将深度表观特征与传统的 MHT 算法结合
输入检测目标,通过卡尔曼滤波,以跟踪 框与检测框之间的合并比作为代价矩阵 输入匈牙利算法进行目标 ID 关联 在 SORT 的基础上,增加目标的深度表观 特征作为关联代价 提 出 一 种 同 时 涵 盖 时 间 、空 间 与 运 动 信 息,15 个自由度的三维结构回归量作为 关联代价
1 基于深度学习的视觉多目标跟踪概述
基于深度学习的视觉多目标跟踪算法从不同的角 度有不同的综述方法,本文结合该领域最新技术的发展 趋势,从算法分类、相关数据集、算法评价指标三个方面 对基于深度学习的视觉多目标跟踪进行概述。
1.1 基于深度学习的视觉多目标跟踪算法分类
随着深度学习技术在与视觉多目标跟踪相关任务 中的应用且取得的巨大成功,当前基于深度学习的视觉 多目标跟踪技术框架呈现较为两阶段模式,即基于目标 检测结果进行数据关联实现多目标跟踪的 DBT 模式。 DBT 是当前基于深度学习的视觉多目标跟踪中的主流 方法,但是从深度神经网络的结构来看,DBT 中的子模 块如特征提取等可以融合在目标检测网络中,基于 DBT 中子模块的融合,联合检测跟踪,即 JDT 模式,用一个深 度网络框架实现视觉多目标跟踪是近两年发展的新趋势。
基于上述分析,本文将基于深度学习的视觉多目标 跟踪技术分为基于深度学习的 DBT 与基于深度学习的 JDT 模式,再具体分析两种模式的结构,阐述深度学习 在这两种框架中实现的功能,具体分类结构如图 1 所 示。同时先将文中典型的基于深度学习的 DBT 算法及 JDT 算 法 的 特 点 、优 缺 点 等 整 理 成 表 1[8-11]和 表 2 所 [12-15]
Computer Engineering and Applications 计算机工程觉多目标跟踪算法综述
张 瑶,卢焕章,张路平,胡谋法 国防科技大学 电子科学学院 自动目标识别重点实验室,长沙 410073
摘 要:视觉多目标跟踪是计算机视觉领域的热点问题,然而,场景中目标数量的不确定、目标之间的相互遮挡、目 标特征区分度不高等多种难题导致了视觉多目标跟踪现实应用进展缓慢。近年来 ,随着视觉智能处理研究的不断 深入 ,涌现出多种多样的深度学习类视觉多目标跟踪算法。在分析了视觉多目标跟踪面临的挑战和难点基础上 ,将 算法分为基于检测跟踪(Detection-Based-Tracking,DBT)、联合检测跟踪(Joint-Detection-Tracking,JDT)两大类及六 个子类,研究不同类别算法的优缺点。分析表明,DBT 类算法结构简单,但算法各子环节的关联度不高,JDT 类算法 融合多模块联合学习,在多项跟踪评价指标中占优。DBT 类算法中特征提取模块是解决目标遮挡问题的关键,但损 失了算法速度,JDT 类算法对检测模块更为依赖。目前,多目标跟踪跟踪总体是从 DBT 类算法向 JDT 发展,分阶段 实现算法准确度与速度的均衡 ;提出多目标跟踪算法未来在数据集、各子模块、具体场景应用等方面的发展方向。 关键词:视觉多目标跟踪 ;深度学习 ;目标检测 ;数据关联 文献标志码:A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.2102-0260
基于深度学习的目标检测
基于深度学习 的 DBT 算法
基于深度学习的特征提取
基于深度学习的视 觉多目标跟踪算法
基于深度学习的数据关联 基于深度检测网络改进
基于深度学习 的 JDT 算法
基于单目标跟踪融合
基于深度特征融合复用
图 1 基于深度学习的视觉多目标跟踪算法分类
表 1 基于深度学习的 DBT 算法
随着人工智能技术的飞速发展,基于计算机视觉技 术的智能监控系统、自动驾驶领域较以往取得了重大的 突破,进一步减少了人力资源的浪费,提高了安防和交 通领域的安全性。视觉多目标跟踪技术是这些领域中 的关键基础性技术之一,视觉多目标跟踪算法的准确鲁
棒性对于进一步提升高层智能应用的安全有效性具有 重要意义。然而,当前视觉多目标跟踪技术还面临着较 大的挑战,首先,视觉多目标跟踪需要解决单目标跟踪 中存在的诸如目标形变、场景环境变化等挑战之外,还 面临着由于目标数量不确定所带来的实时目标数量更
本文第 1 章首先对基于深度学习的视觉多目标跟 踪技术及相关数据集进行总体概述,在第 2 章和第 3 章 分别阐述基于深度学习的 DBT 与 JDT 两种视觉多目标
跟踪框架,第 4 章对近年来在公开数据集中性能优异的 视觉多目标跟踪方法进行实验比较分析,第 5 章基于前 面的讨论,对未来可能研究方向进行展望。
作者简介:张瑶(1996—),男,硕士研究生,主要研究方向为视觉多目标跟踪;卢焕章(1963—),男,博士,教授,主要研究方向为自 动目标识别等;张路平(1985—),男,博士,讲师,主要研究方向为自动目标识别;胡谋法(1979—),通信作者,男,博士, 副研究员,主要研究方向为自动目标识别,E-mail:199709-200106@。
Overview of Visual Multi-object Tracking Algorithms with Deep Learning ZHANG Yao, LU Huanzhang, ZHANG Luping, HU Moufa
National Key Laboratory of Science and Technology on Automatic Target Recognition, College of Electronic Science and Technology, National University of Defense Technology, Changsha 410073, China
视觉多目标跟踪的目的是利用数字图像处理技术 稳定跟踪图像序列中的多个感兴趣目标,得到各个目标 在每一时刻正确位置。近几年随着基于深度学习检测算 法的精度较传统算法性能大幅度提高,视觉多目标跟踪 随之取得了较大的突破。基于深度学习的视觉多目标跟 踪算法的应用基本覆盖了空海地多个典型场景[1-3],但较 为详细的关于视觉多目标跟踪综述论文较少,已有的相 关综述[4-5]一部分是基于传统方法的在雷达领域应用较多 且运算比较复杂的数据关联算法,与当前主流的多目标 跟踪方法存在较大的差异,另一部分较新的关注了基于 深度学习的视觉多目标跟踪方法,重点是基于检测的多 目标跟踪方法[6- 。 7] 本文根据视觉多目标跟踪框架的不 同,将基于深度学习的视觉多目标跟踪方法分为 DBT 与 JDT 两类算法展开论述,阐述深度学习在两种框架中的 模块功能及优缺点,结合公开数据集对比分析基于深度 学习的视觉多目标跟踪方法,通过进一步提升检测器性 能、更好地在多目标跟踪任务中融合单目标跟踪、拓展基 于深度学习的数据关联等方面提升多目标跟踪的性能。
收稿日期:2021-02-23 修回日期:2021-04-06 文章编号:1002-8331(2021)13-0055-12
56 2021,57(13)
Computer Engineering and Applications 计算机工程与应用
新及维持目标各自身份(Identity,ID)的任务,因此视觉 多目标跟踪还需要处理更为复杂关键的问题诸如:目标 数 量 不 确 定 、频 繁 目 标 遮 挡 、同 类 目 标 的 相 似 度 区 分 等。具体来说,在安防监控和自动驾驶应用中,目标频 繁进出视野是普遍且正常的行为,这就导致了多目标跟 踪所面对的目标数量是不确定的,这就要求多目标跟踪 算法必须具备实时检测定位场景中出现的感兴趣目标 数量。在场景复杂的情况下,背景对于目标的遮挡,以 及目标与目标的遮挡会造成目标遮挡再出现时目标身 份切换(ID switch,IDs),这就要求算法必须提取到鲁棒 的目标特征,在短时和长时的遮挡过后,保持遮挡前后 目标 ID 一致性。多目标跟踪任务要求维持同一目标的 ID,同类目标表观相似度较高且具备相似的行为,对稳 定维持正确目标 ID 带来了进一步的挑战,算法必须具 备提取同类目标可分性特征。
典型算法 MHT-DAM[8] SORT[9] DeepSort[10] TubeTK[11]
原理
将深度表观特征与传统的 MHT 算法结合
输入检测目标,通过卡尔曼滤波,以跟踪 框与检测框之间的合并比作为代价矩阵 输入匈牙利算法进行目标 ID 关联 在 SORT 的基础上,增加目标的深度表观 特征作为关联代价 提 出 一 种 同 时 涵 盖 时 间 、空 间 与 运 动 信 息,15 个自由度的三维结构回归量作为 关联代价
1 基于深度学习的视觉多目标跟踪概述
基于深度学习的视觉多目标跟踪算法从不同的角 度有不同的综述方法,本文结合该领域最新技术的发展 趋势,从算法分类、相关数据集、算法评价指标三个方面 对基于深度学习的视觉多目标跟踪进行概述。
1.1 基于深度学习的视觉多目标跟踪算法分类
随着深度学习技术在与视觉多目标跟踪相关任务 中的应用且取得的巨大成功,当前基于深度学习的视觉 多目标跟踪技术框架呈现较为两阶段模式,即基于目标 检测结果进行数据关联实现多目标跟踪的 DBT 模式。 DBT 是当前基于深度学习的视觉多目标跟踪中的主流 方法,但是从深度神经网络的结构来看,DBT 中的子模 块如特征提取等可以融合在目标检测网络中,基于 DBT 中子模块的融合,联合检测跟踪,即 JDT 模式,用一个深 度网络框架实现视觉多目标跟踪是近两年发展的新趋势。
基于上述分析,本文将基于深度学习的视觉多目标 跟踪技术分为基于深度学习的 DBT 与基于深度学习的 JDT 模式,再具体分析两种模式的结构,阐述深度学习 在这两种框架中实现的功能,具体分类结构如图 1 所 示。同时先将文中典型的基于深度学习的 DBT 算法及 JDT 算 法 的 特 点 、优 缺 点 等 整 理 成 表 1[8-11]和 表 2 所 [12-15]
Computer Engineering and Applications 计算机工程觉多目标跟踪算法综述
张 瑶,卢焕章,张路平,胡谋法 国防科技大学 电子科学学院 自动目标识别重点实验室,长沙 410073
摘 要:视觉多目标跟踪是计算机视觉领域的热点问题,然而,场景中目标数量的不确定、目标之间的相互遮挡、目 标特征区分度不高等多种难题导致了视觉多目标跟踪现实应用进展缓慢。近年来 ,随着视觉智能处理研究的不断 深入 ,涌现出多种多样的深度学习类视觉多目标跟踪算法。在分析了视觉多目标跟踪面临的挑战和难点基础上 ,将 算法分为基于检测跟踪(Detection-Based-Tracking,DBT)、联合检测跟踪(Joint-Detection-Tracking,JDT)两大类及六 个子类,研究不同类别算法的优缺点。分析表明,DBT 类算法结构简单,但算法各子环节的关联度不高,JDT 类算法 融合多模块联合学习,在多项跟踪评价指标中占优。DBT 类算法中特征提取模块是解决目标遮挡问题的关键,但损 失了算法速度,JDT 类算法对检测模块更为依赖。目前,多目标跟踪跟踪总体是从 DBT 类算法向 JDT 发展,分阶段 实现算法准确度与速度的均衡 ;提出多目标跟踪算法未来在数据集、各子模块、具体场景应用等方面的发展方向。 关键词:视觉多目标跟踪 ;深度学习 ;目标检测 ;数据关联 文献标志码:A 中图分类号:TP391 doi:10.3778/j.issn.1002-8331.2102-0260
基于深度学习的目标检测
基于深度学习 的 DBT 算法
基于深度学习的特征提取
基于深度学习的视 觉多目标跟踪算法
基于深度学习的数据关联 基于深度检测网络改进
基于深度学习 的 JDT 算法
基于单目标跟踪融合
基于深度特征融合复用
图 1 基于深度学习的视觉多目标跟踪算法分类
表 1 基于深度学习的 DBT 算法
随着人工智能技术的飞速发展,基于计算机视觉技 术的智能监控系统、自动驾驶领域较以往取得了重大的 突破,进一步减少了人力资源的浪费,提高了安防和交 通领域的安全性。视觉多目标跟踪技术是这些领域中 的关键基础性技术之一,视觉多目标跟踪算法的准确鲁
棒性对于进一步提升高层智能应用的安全有效性具有 重要意义。然而,当前视觉多目标跟踪技术还面临着较 大的挑战,首先,视觉多目标跟踪需要解决单目标跟踪 中存在的诸如目标形变、场景环境变化等挑战之外,还 面临着由于目标数量不确定所带来的实时目标数量更
本文第 1 章首先对基于深度学习的视觉多目标跟 踪技术及相关数据集进行总体概述,在第 2 章和第 3 章 分别阐述基于深度学习的 DBT 与 JDT 两种视觉多目标
跟踪框架,第 4 章对近年来在公开数据集中性能优异的 视觉多目标跟踪方法进行实验比较分析,第 5 章基于前 面的讨论,对未来可能研究方向进行展望。
作者简介:张瑶(1996—),男,硕士研究生,主要研究方向为视觉多目标跟踪;卢焕章(1963—),男,博士,教授,主要研究方向为自 动目标识别等;张路平(1985—),男,博士,讲师,主要研究方向为自动目标识别;胡谋法(1979—),通信作者,男,博士, 副研究员,主要研究方向为自动目标识别,E-mail:199709-200106@。