基于深度学习目标检测进展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三、基于深度学习的目标检测
• 检测 SelectiveSearch DL:faster-rcnn
1. 适应不同尺度 2. 多样化
RPN+CNN
传统目标检测方法
1. 区域选择
采用滑动窗口的策略对整幅图像进行 遍历,而且需要设置不同的尺度,不同的长宽比。
2.
3.
特征提取
这个阶段常用的特征有SIFT、HOG等
概念入门
• 深度学习
1. 神经网络的发展
① ② 神经网络(上世纪五六十年代) 深度神经网络(Hinton[2] 2006)
2. 卷积神经网络(AlexNet[1] 2021) 3. 基于深度学习的目标检测进展
一、神经网络的发展
1. 感知机的出现
① 神经网络技术起源于上世纪五、六十年代,当时叫感知机(perceptron), 拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输 出层,在输出层得到分类结果。早期感知机对于计算稍微复杂的函数其计算 力显得无能为力。
① ② NMS( Non-maximum suppression) 非极大值抑制 消除多余的 bounding box , 找到最佳的物体检测位置
NMS
Intersection-over-union(IOU)
Faster-rcnn
1、 网络结构一览(caffe model) 2、Faster R-CNN将一直以来分离的region proposal和CNN分类融合到了一起,使用端 到端的网络进行目标检测,无论在速度上 还是精度上都得到质的提高提高。
• 网络结构:
在region proposal + CNN分类 的这种目标检测框架中, region proposal质量好坏 直接影响到目标检测任务的 精度。
Faster-rcnn
• Region Proposal Networks (RPN)
3*3滑窗对应的每个特征区域同时预测输入 图像3种尺度(128,256,512),3种长宽比 (1:1,1:2,2:1)的region proposal,这种映射 的机制称为anchor。所以对于这个40*60的 feature map,总共有约20000(40*60*9)个 anchor,也就是预测20000个region proposal.
深度学习综述
报 时间: 2016.11.
深度学习是什么?
深度学习的概念源于人工神经网络的研究。含多隐层的多 层感知器就是一种深度学习结构。深度学习通过组合低层 特征形成更加抽象的高层表示属性类别或特征,以发现数 据的分布式特征表示。[1] 深度学习是机器学习领域中对模式(声音、图像等等)进 行建模的一种方法,它也是一种基于统计的概率模型。在 对各种模式进行建模之后,便可以对各种模式进行识别了, 例如待建模的模式是声音的话,那么这种识别便可以理解 为语音识别(RNN Hinton[3] 2013)。
1. 反向传播
① 损失函数: ② 我们的目标是针对参数 W 和 b ,来求函数 J(W,b) 最小 值
2. 梯度下降法中每一次迭代都按照如下公式 是学习率 对参数
二、卷积神经网络
• 1、卷积神经网络
二、卷积神经网络
• 卷积操作AlexNet[1]
二、卷积神经网络
• 与传统视觉算法区别:
二、卷积神经网络
分类器 SVM、 Adaboost 传统目标检测存在的两个主要问题:
①
①
一个是基于滑动窗口的区域选择策略没有 针对性,时间复杂度高,窗口冗余; 二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。
三、基于深度学习的目标检测
• Faster-rcnn (Towards Real-Time Object Detection with Region Proposal Networks)[5])
2. 多层感知机
多层感知机可以摆脱早 期离散传输函数的束缚, 使用sigmoid或tanh等连 续函数模拟神经元对激 励的响应,在训练算法 上则使用反向传播BP算 法。对,这就是我们现 在所说的神经网络(NN)!
激活函数
1. 构成:由“神经元”构成 2. 输入、偏置节点、激活函数、 输出
这个“神经元”是一个以 为 前向参数计算: 及截距 为输入值的运算单元,其输出 ,其中函数 为激活函数
四、基于深度学习的目标检测应用实例
Байду номын сангаас 个人经验
研究生生活正确的打开方式 • 研一:研究什么 • 研二:研究出点什么 • 研三:科研与工作
参考文献
[1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012. [2] Hinton G E, Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006, 313(5786):504-7. [3] Graves A, Mohamed A R, Hinton G. Speech recognition with deep recurrent neural networks[J]. 2013, 1(2003):6645-6649. [4] Hosang J, Benenson R, Dollar P, et al. What makes for effective detection proposals?[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 38(4):814-830. [5] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016:1-1.
Thanks
Faster-rcnn
1. RPN 的 核 心 思 想 是 使 用 卷 积 神 经 网 络 直 接 产 生 region proposal,使用的方法本质上就是滑动窗口。RPN的设计比较 巧妙, RPN 只需在最后的卷积层上滑动一遍,因为 anchor 机 制和边框回归可以得到多尺度多长宽比的region proposal。 2. Modify 机制
二、卷积神经网络
主要应用:
1. 图像分类
三、基于深度学习的目标检测
其实刚刚的这个过程就是目标检测,目标检 测就是“给定一张图像或者视频帧,找出其 中所有目标的位置,并给出每个目标的具体 类别”。
传统的 object proposal 方法
• What makes for effective detection proposals?[4]