目标检测与追踪

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 分别提取特征,得到特征图; ➢ 把6*6*128的特征图当做卷积核
在22*22*128的特征图上进行卷 积操作,得到相似性评分矩阵 (绿色图案); ➢ 对评分矩阵进行双三次差值上 采样,得到更精确的目标位置。
三、深度学习-EAST[30]
➢ICCV 2017: Learning Policies for Adaptive Tracking with Deep Feature Cascades.
确尺度估计的方法; ➢ 此尺度估计方法可以和任意其他没有
尺度估计的算法结合。
三、相关滤波-DSST
➢BMVC 2014: Accurate Scale Estimation for Robust Visual Tracking.
主要思想: 作者提出同时训练两个滤波器,一个是位置相关滤
波器(MOSSE),负责预测当前帧中目标的位置;另一 个是尺度相关滤波器,负责预测目标的尺度。
负样本是比较接近的,但是此时应当把此作为 正样本来检测目标。实际算法中不是这样,所 以经常会导致跟踪失败。
主要贡献: ➢ 本篇论文中输入的为多通道特征图像,特征图像可以为彩色特征也可以是HOG特征; ➢ 一种将多通道数据融入该算法的途径。由于卷积在频域是点乘求和,所以将不同通道的特征向量连
接在一起成为一个特征向量即可。 ➢ 采用不同的核函数。使用高斯核函数时模型叫做KCF,使用线性核函数时模型叫做DCF。与KCF相比,
目标检测与追踪
董云川 20171120250
➢研究背景 ➢文献统计 ➢相关方法 ➢目标检测之YOLO
目录
一、研究背景
目标跟踪是在一段视频序列中定位感兴趣的运动目标,并形 成目标运动的路径或轨迹。
目前,目标跟踪技术主要应用于以下领域: 1. 智能视频监控。 2. 机器人视觉导航。 3. 虚拟现实(人体跟踪)。 4. 医学诊断(细胞状态跟踪)。
本文的作者和CSK的作者是同一个人,他对CSK模型进行了改进。
CSK模型存在的问题:
边界效应:训练阶段,目标中心移动到边缘附 近,此时应视为负样本,在检测阶段,当目标
➢ 采用单通道的灰度特征,特征表达能力有限;
移动到边界附近,此时的目标和训练时使用的
➢ ➢
循环矩阵导致的边界效应(SRDCF模型中解决); 没有尺度更新,对尺度变化不敏感(DDST模型中解决) 。
主要贡献: ➢ 使用离线学习,不进行在线学习; ➢ 速度快,是第一个FPS达到100的基于深度学习的目标跟踪模型。
三、深度学习-GOTURN
➢ECCV 2016: Learning to Track at 100 FPS with Deep Regression Networks.
如左图所示,将当前帧和 前一帧的图像针对待跟踪 目标进行crop(裁剪)后 输入网络,最后模型输出 当前帧中预测出的目标 box的左上角坐标和右下 角坐标。
元素的点乘。大大降低了运算量,提高了运算速度,使算法满足实时性要求;空间通过求解一个对偶问题和某些常
见的约束,同样的可以使用循环矩阵傅里叶空间对角化简化计算。
主要思想: 训练一个用于二分类的滤波器,使用循环矩阵增加样本集,同时使用傅里叶变换和循环矩阵的性质
三、深度学习-总结
➢优点
➢能够利用深度学习高效鲁棒的特征表示能力,实现鲁棒的 视觉跟踪;
2. 使用跟踪数据训练网络是很困难的。 因为同一个object,在某一个序列中是目 标,但在另一个序列中可能就是背景;
3. 目标跟踪任务其实是一个二分类任 务,且目标较小,不需要太大的网络。
作者提出了如上图所示的网络结构,包 含3个conv层和2个fc层。最后的fc6层有K (训练的序列个数)个分支,每个分支包含 一个softmax二分类器,用于区分前景和背景。
三、深度学习-SiameseFC
➢ECCV 2016: Fully-Convolutional Siamese Networks for Object Tracking.
动机: 这篇论文的动机和上一篇一样,都是为了提高深度学习模型的速度。
主要贡献: ➢ 使用离线学习,不进行在线学习; ➢ 速度快,在GPU上3尺度86FPS,5尺度58FPS; ➢ 综合性能比GOTURN强太多太多; ➢ 在很短的一段时间内出现很多跟进paper,开辟了深度学习模型的新领域。
动机: 如何在不降低准确率的同时提升深层模型的速度。
主要思想: SiameseFC中所有帧都用conv5的特征去检测,
EAST的出发点是(外观相似或不运动的)简单帧用简单 特征如像素边缘就可以定位,(经历较大外观变化的)复 杂帧才需要不变性更强的深度特征进行定位。
首先用速度比较快的简单特征检测目标,如果检 测置信度比较高就提前终止输出结果,如果置信度低 就计算下一阶特征重新检测,仅在简单特征无法判别 时才计算深度特征,这样就可以节省计算量。
DCF更快,但是效果差一点点。
三、相关滤波-DSST[27]
➢BMVC 2014: Accurate Scale Estimation for Robust Visual Tracking.
DSST是VOT2014的冠军模型。
动机: ➢ 以前的模型都不能很好的适应被跟踪
目标的尺度变换。
主要贡献: ➢ 提出了一种在目标跟踪任务中进行精
加速计算。引入和SVM中类似的核函数将分类器变为非线性二分类器,解决了低维线性不可分或者非线 性可分的情况,从而使得分类器在丰富的高维特征空间中起作用。
三、相关滤波-KCF/DCF[25-26]
➢ECCV 2012: High-speed tracking with kernelized correlation filters.
➢ECCV 2012: Exploiting the circulantstructure of tracking-by-detection with kernels.
主要贡献: ➢ 在目标box周围使用循环矩阵采集正负样本; ➢ 利用循环矩阵在傅里叶空间可对角化的性质将矩阵的运算转化为向量的哈达码积(Hadamad),即
➢CVPR 2010: Visual Object Tracking using Adaptive Correlation Filters.
简化描述 ————>
这里,H*就是我们要求的滤波器。 很显然,在第一帧中,G1和F1是已知的,为了使算法更具有鲁棒性, 作者对目标box进行随机的仿射变换,得到8个训练样本 fi ,再使用最小化 平方和误差,来得到H*。
三、深度学习-MDNet
➢CVPR 2016: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking.
MDNet是VOT2015的冠军模型。论文 中提到,使用神经网络做目标跟踪存在三 个问题:
1. 所有的跟踪目标,虽然类别不相同, 但应该存在某种共性,这需要网络去学习;
尺度相关滤波器: ➢ 在第一帧中以目标正中间为中心,截取S张不同尺度
的图像,每张图像提取一个d维的特征向量,得到 S*d的特征矩阵; ➢ 构造相关图g,大小为S*1,中间值最大,向两端递 减; ➢ 计算出尺度滤波模板h; ➢ 对于当前帧,选取S张不同尺度的图像,和位置估计 一样,计算出当前帧的相关图g,响应最大值对应的 尺度即为估计的尺度。
从最近几年的论文和相关竞赛中可以看出,判别式方法基本已经“一统天下”,现在的目 标跟踪是相关滤波和深度学习的时代。
三、相关方法
➢生成式方法
➢均值漂移 ➢卡尔曼滤波 ➢粒子滤波 ➢稀疏编码
➢判别式方法
➢相关滤波 ➢深度学习 ➢深度学习+相关滤波
三、相关滤波-概述
➢什么是相关滤波?
在信号处理中,有这么一个概念——相关性(correlation),用来描述两 个因素之间的联系。而相关性又分为cross-correlation(互相关,两个信号之 间的联系)和auto-correlation(自相关,本身在不同频域的相关性)。
➢ 在上一帧的目标box周围进行随机采样得到候选box; ➢ 使用网络对候选box进行打分,选出最优候选box; ➢ 如果得分大于0.5,把当前帧作为一个训练样本加入
样本库,且使用bounding box回归对预测进行微调; ➢ 如果得分小于0.5,使用短期样本库对网络权值进行
微调; ➢ 每10帧使用长期样本库对网络权值进行微调。
假设有两个信号f和g,则两个信号的相关性(correlation)为:
相关滤波方法就是根据当前帧的信 息和之前帧的信息训练出一个相关滤波器, 然后与新输入的帧进行相关性计算,得到 的相关图中得分最高的那个点(或者块) 就是最可能的跟踪结果。
三、相关滤波-MOSSE[22-23]
➢CVPR 2010: Visual Object Tracking using Adaptive Correlation Filters.
三、深度学习-SiameseFC
➢ECCV 2016: Fully-Convolutional Siamese Networks for Object Tracking.
➢ 主体结构:AlexNet,去掉 padding和fc层,加入BN层,改 为全卷积网络FCN。
➢ 检测流程:
➢ 将待检测图像和加了padding 的目标区域图像输入网络;
偏导为0 ————>
三、相关滤波-MOSSE
➢CVPR 2010: Visual Object Tracking using Adaptive Correlation Filters.
在后续其他帧中,作者提出了一个在线学习策略,其中下标i 代表当前为第i帧,η为学习率,论文中设置为 0.125。
三、相关滤波-CSK[24-25]
三、相关滤波-总结
➢优点
➢考虑了所有的循环样本,得到的滤波器具有很强的判别性; ➢傅里叶变换加速计算,可以达到100帧/秒以上的跟踪效果; ➢可以高效的融合多种特征,如HOG、deep feature等。
➢缺点
➢滤波器在局部空间中进行搜索,发生严重遮挡后不易恢复; ➢构造循环模板会导致边界效应,影响跟踪效果。
➢目标跟踪相关方法
➢生成式方法
生成式模型通常寻找与目标模板(待跟踪目标)最相似的候选作为跟踪结果,这一过程 可以视为模板匹配。
在目标跟踪早期,主要是各种生成式方法,生成式方法都采用不训练、在线更新的方法, 而且都是在CPU上进行计算,模型的速度很快,最快的可以达到2000+FPS。
➢判别式方法
判别式模型通过训练一个分类器去区分目标与背景,选择置信度最高的候选样本作为预 测结果。
三、深度学习-MDNet
模型的实现细节如右图所示: ➢ 使用跟踪数据对模型进行预训练(每一个视频对应一个fc6); ➢ 测试过程:
➢ 去掉训练过程中的fc6层(所有分支都去掉),添加一个 新的fc6层,权值随机初始化;
➢ 在第一帧使用conv3提取到的特征训练bounding box回归; ➢ 使用正负样本对网络的三个fc层参数进行微调; ➢ 重复以下过程:
三、深度学习-GOTURN
➢ECCV 2016: Learning to Track at 100 FPS with Deep Regression Networks.
动机: 目前基于深度学习进行目标跟踪的模型都是采用在线学习,模型的速度
很慢,无法达到实时性要求,比如刚讲过的MDNet在GPU上只有1FPS的速度。
二、文献统计
目标跟踪文献总结说明
表名 英文文献 中文文献
类别
A类 B类 C类 其他 期刊 硕士 博士
~-2000 1 0 0 2 4 0 2
文献数量
2001-2015
2016-2018
10
45
6
7
2
1
2
18
11
13
3
11
7
2
总数 56 13 3 22 28 14 11
总数 94 53
三、相关方法
对于目标跟踪任务来说,问题 描述为要找到一个滤波模版 h,与输 入图像 f 求相关性,得到相关图g。
如上图所示,相关图 g 描述目标响应,越接近目标时值越大。 为了加快计算速度,引入了傅里叶变换,根据卷积定理(correlation版 本)可知,函数互相关的傅里叶变换等于函数傅里叶变换的乘积,即:
三、相关滤波-MOSSE
相关文档
最新文档