视频目标跟踪和分割汇报总结
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
high-to-low process的目标是生成低分辨 率和高分辨率的表征,low-to-high process 的目标是生成高分辨率的表征。
网络结构
(1)并行连接高分辨率到低分辨率的 子网,而不是像大多数现有解决方 案那样串行连接。因此,能够保持 高分辨率,而不是通过一个低到高 的过程恢复分辨率,预测的热图可 能在空间上更精确。
SiamMask的refinemodule网络
SharpMask网络结构: 可以看到自下而上的过程是传统的前向CNN网络输出 一个粗略的mask,然后需要逐层融合low-level的特征 来找到精确的物体边缘等信息。 refinement模块的作用是逆转pooling的作用,输入上 层传下来的mask encoding和自下而上传递过来的匹配 的features map,并且融合两个过程的信息来生成一个 新的mask encoding,有着两倍的空间分辨率。这个过 程一直持续到patch的全部分辨率被恢复,然后最后的 输出就是精细的object mask。
视频目标跟踪和分割
汇报人署名 汇报日期
一种快速在线跟踪和分割的联合方法 实时实例分割 人体姿态估计高分辨率表示学习 多目标跟踪和分割
目录wenku.baidu.com
CONTENT
一种快速在线跟踪和分割的联合方法
《Fast Online Object Tracking and Segmentation: A Unifying Approach》 作 者:Qiang Wang 论文接收:CVPR2019 代码地址:https://github.com/foolwood/SiamMask SiamMask的测试代码:foolwood/SiamMask
论文概述
本篇论文主要研究的是人的姿态问题,着重输出可靠 的高分辨表征。 传统方法:大多数从高分辨率到低分辨率产生的低分 辨表征中恢复高分辨率表征。 本文方法:网络能在整个过程中都保持高分辨率的表 征。此人体姿态估计模型刷新了三项COCO纪录。
网络结构
(a)沙漏网络(b)级联金字塔网络 (c)简单基线网络(d)膨胀卷积结合网络
并与预测的b-box进行裁剪。 1)网络学会自行定Y位O实LA例CmT:asYk,ou视On觉ly、L空oo间k A和t 语Co义eff上ic相ien似Ts的实例将在模版中呈现不同; 模版mask的数量不依赖于类别数量,YOLACT学习的是一种分布式表示,每个实例有多个模版原型组合分割, 且在不同类别之间共享; 2)分布式表示导致M模S R版-C出N现N应一该些是情实况例:分一割些m模A版P在最空高间的上算划法分;开了图像,一些定位实例,一些检测实例的轮廓, 一些编码对位置敏感的方向图谱,可能同时也会划分图像。
(2)大多数现有的融合方案都将低层 和高层的表征集合起来。相反,本 文使用重复的多尺度融合,利用相 同深度和相似级别的低分辨率表征 来提高高分辨率表征,反之亦然, 从而使得高分辨率表征对于姿态的 估计也很充分。
一种快速在线跟踪和分割的联合方法 实时实例分割 人体姿态估计高分辨率表示学习 多目标跟踪和分割
Siamese和SiamMask网络
全连接层
Maxpooling conv+ReLu
孪生网络(伪孪生网络)
应用SPP策略的孪生网络
Siamese和SiamMask网络
这里利用一个vector来编码一个ROW 的mask,使得每个prediction位置具 对多的批每少通新有通来M一个道的a非过升个通f通esak常d维通道道精teu高来道就fpre度etah的实进有是mtwu输现行多iar不sepe出高各少s高m的之维效自个a的卷p后度运的过s积,进(行卷滤后这行,6积器级3时标但操。*联6再准直作得31)对的,接x,到我1这预有新卷们测积 1×1跨通道卷积操作。这种操作被称为 “DepthWise convolution”,极大的减 少了参数量。
一种快速在线跟踪和分割的联合方法 实时实例分割 人体姿态估计高分辨率表示学习 多目标跟踪和分割
目录
CONTENT
用于人体姿态估计的高分辨率表示学习
《Deep High-Resolution Representation Learning for Human Pose Estimation》
作 者:中科大&微软亚洲研究院 论文接收:CVPR2019 代码地址:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch 论文地址:https://arxiv.org/abs/1902.09212
论文概述
YOLACT将实例分“割B分ox成e两s 个ar并e 行stu任p务id:anyway though,I'm probably a true believer in ((之12后)),针对可对每以整 个从幅实m上图例a述s像预k两生测s步e成一中x模系c产e版列p生的mt整Iams幅cakas图nk'系像t g数的e实t Y例O分L割O:t对o 每le个ar实n 例t—h,eJm将o”s模e版phmRasekd和m预o测n,的Y相O应LO系v数3进行线性组合
论文介绍
在视频应用上进行物体追踪是一个 很基础的任务,他需要在不同帧之间建 立物体的联系,其目的是给定第一帧画 面中某物体的位置找到接下来所有帧上 的位置预测。使用标注成本很低的边框 坐标来表现目标物体。
论文介绍
矛盾:单独的使用边框跟踪对象可以达到预期的速度, 但是表达的信息远不如像素级的多,与单纯的生成边框 相比生成像素级的预测需要更多的算力资源,最快也做 不到实时。 方法:使用SiamMask来缩小目标跟踪和VOS的差距。 受Siamese启发,保留线下的可训练性,以及线上的速 度,同时改善他们对目 标物体的表现力。
目录
CONTENT
YOLACT: 实时分割实例
《YOLACT: Real-time Instance Segmentation》
作 者:加利福尼亚大学 论文接收:2019年04月05日出的paper 代码地址:https://github.com/dbolya/yolact 论文地址:https://arxiv.org/abs/1904.02689
网络结构
(1)并行连接高分辨率到低分辨率的 子网,而不是像大多数现有解决方 案那样串行连接。因此,能够保持 高分辨率,而不是通过一个低到高 的过程恢复分辨率,预测的热图可 能在空间上更精确。
SiamMask的refinemodule网络
SharpMask网络结构: 可以看到自下而上的过程是传统的前向CNN网络输出 一个粗略的mask,然后需要逐层融合low-level的特征 来找到精确的物体边缘等信息。 refinement模块的作用是逆转pooling的作用,输入上 层传下来的mask encoding和自下而上传递过来的匹配 的features map,并且融合两个过程的信息来生成一个 新的mask encoding,有着两倍的空间分辨率。这个过 程一直持续到patch的全部分辨率被恢复,然后最后的 输出就是精细的object mask。
视频目标跟踪和分割
汇报人署名 汇报日期
一种快速在线跟踪和分割的联合方法 实时实例分割 人体姿态估计高分辨率表示学习 多目标跟踪和分割
目录wenku.baidu.com
CONTENT
一种快速在线跟踪和分割的联合方法
《Fast Online Object Tracking and Segmentation: A Unifying Approach》 作 者:Qiang Wang 论文接收:CVPR2019 代码地址:https://github.com/foolwood/SiamMask SiamMask的测试代码:foolwood/SiamMask
论文概述
本篇论文主要研究的是人的姿态问题,着重输出可靠 的高分辨表征。 传统方法:大多数从高分辨率到低分辨率产生的低分 辨表征中恢复高分辨率表征。 本文方法:网络能在整个过程中都保持高分辨率的表 征。此人体姿态估计模型刷新了三项COCO纪录。
网络结构
(a)沙漏网络(b)级联金字塔网络 (c)简单基线网络(d)膨胀卷积结合网络
并与预测的b-box进行裁剪。 1)网络学会自行定Y位O实LA例CmT:asYk,ou视On觉ly、L空oo间k A和t 语Co义eff上ic相ien似Ts的实例将在模版中呈现不同; 模版mask的数量不依赖于类别数量,YOLACT学习的是一种分布式表示,每个实例有多个模版原型组合分割, 且在不同类别之间共享; 2)分布式表示导致M模S R版-C出N现N应一该些是情实况例:分一割些m模A版P在最空高间的上算划法分;开了图像,一些定位实例,一些检测实例的轮廓, 一些编码对位置敏感的方向图谱,可能同时也会划分图像。
(2)大多数现有的融合方案都将低层 和高层的表征集合起来。相反,本 文使用重复的多尺度融合,利用相 同深度和相似级别的低分辨率表征 来提高高分辨率表征,反之亦然, 从而使得高分辨率表征对于姿态的 估计也很充分。
一种快速在线跟踪和分割的联合方法 实时实例分割 人体姿态估计高分辨率表示学习 多目标跟踪和分割
Siamese和SiamMask网络
全连接层
Maxpooling conv+ReLu
孪生网络(伪孪生网络)
应用SPP策略的孪生网络
Siamese和SiamMask网络
这里利用一个vector来编码一个ROW 的mask,使得每个prediction位置具 对多的批每少通新有通来M一个道的a非过升个通f通esak常d维通道道精teu高来道就fpre度etah的实进有是mtwu输现行多iar不sepe出高各少s高m的之维效自个a的卷p后度运的过s积,进(行卷滤后这行,6积器级3时标但操。*联6再准直作得31)对的,接x,到我1这预有新卷们测积 1×1跨通道卷积操作。这种操作被称为 “DepthWise convolution”,极大的减 少了参数量。
一种快速在线跟踪和分割的联合方法 实时实例分割 人体姿态估计高分辨率表示学习 多目标跟踪和分割
目录
CONTENT
用于人体姿态估计的高分辨率表示学习
《Deep High-Resolution Representation Learning for Human Pose Estimation》
作 者:中科大&微软亚洲研究院 论文接收:CVPR2019 代码地址:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch 论文地址:https://arxiv.org/abs/1902.09212
论文概述
YOLACT将实例分“割B分ox成e两s 个ar并e 行stu任p务id:anyway though,I'm probably a true believer in ((之12后)),针对可对每以整 个从幅实m上图例a述s像预k两生测s步e成一中x模系c产e版列p生的mt整Iams幅cakas图nk'系像t g数的e实t Y例O分L割O:t对o 每le个ar实n 例t—h,eJm将o”s模e版phmRasekd和m预o测n,的Y相O应LO系v数3进行线性组合
论文介绍
在视频应用上进行物体追踪是一个 很基础的任务,他需要在不同帧之间建 立物体的联系,其目的是给定第一帧画 面中某物体的位置找到接下来所有帧上 的位置预测。使用标注成本很低的边框 坐标来表现目标物体。
论文介绍
矛盾:单独的使用边框跟踪对象可以达到预期的速度, 但是表达的信息远不如像素级的多,与单纯的生成边框 相比生成像素级的预测需要更多的算力资源,最快也做 不到实时。 方法:使用SiamMask来缩小目标跟踪和VOS的差距。 受Siamese启发,保留线下的可训练性,以及线上的速 度,同时改善他们对目 标物体的表现力。
目录
CONTENT
YOLACT: 实时分割实例
《YOLACT: Real-time Instance Segmentation》
作 者:加利福尼亚大学 论文接收:2019年04月05日出的paper 代码地址:https://github.com/dbolya/yolact 论文地址:https://arxiv.org/abs/1904.02689