AI人工智能培训课件-目标检测概述-7.2
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目标检测
01
目标检测简介
输入图片
输入图片问题:图片中的车在哪里?
输入图片问题:图片中的车在哪里?
目标检测(Object Detection)的任务是找出图像中所有感兴趣的
目标(物体),确定它们的类别和位臵,是计算机视觉领域的核心
问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有一定挑战性的问题。
目标检测的核心问题:
图像识别+定位
定位方面的问题:
目标可能出现在图像的任何位臵。 目标有各种不同的大小。
目标可能有各种不同的形状。
图像识别:
定位:
定位思路一:将定位转换为分类问题,遍历所有可能的区域deer
cat
定位思路一:将定位转换为分类问题,遍历所有可能的区域
CNN deer?
cat? background?
定位思路一:将定位转换为分类问题,遍历所有可能的区域
CNN deer?
cat? background?
定位思路一:将定位转换为分类问题,遍历所有可能的区域
CNN deer?
cat? background?
定位思路一:将定位转换为分类问题,遍历所有可能的区域
定位思路一:滑动窗算法(使用固定尺寸和固定步长)
定位思路一:滑动窗算法(使用多种尺寸+步长)
3 x 257 x 257
0.5
分类概率(猫)
定位思路一:滑动窗算法(使用多种尺寸+步长)
3 x 257 x 257
0.5 0.75 分类概率(猫)
定位思路一:滑动窗算法(使用多种尺寸+步长)
3 x 257 x 257
0.5 0.75 0.6
分类概率(猫)
定位思路一:滑动窗算法(使用多种尺寸+步长)
3 x 257 x 257
0.5 0.75 0.6 0.8 分类概率(猫)
定位思路一:滑动窗算法(使用多种尺寸+步长)
3 x 257 x 257
0.5 0.75
0.6 0.8
分类概率(猫) 3 x 257 x 257
定位思路二:回归
狗 (x, y, w, h)
猫 (x, y, w, h)
猫 (x, y, w, h)
鸭 (x, y, w, h)
16个数
定位思路二:回归
狗(x, y, w, h)
猫(x, y, w, h)
8个数
定位思路二:回归
猫 (x, y, w, h)
猫 (x, y, w, h)
猫(x, y, w, h)
….
网络需要对变动的目标输出个数进行刻画
定位思路二:回归
和图像分类网络一样,我们需要一个提取图像特征的网络
在上述卷积神经网络的尾部作出改进,加上分类模块和回归模块 回归模块用欧氏距离度量损失,网络使用梯度下降进行训练
在预测阶段合并分类模块和回归模块的结果
定位思路二:回归
目标检测分类:
1.Two stage目标检测算法
先进行候选区域生成(一个有可能包含待检物体的预选框),
再通过卷积神经网络进行样本分类。
任务:特征提取—>生成候选区域—>分类/定位回归。
常见的two stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。
目标检测分类:
2.One stage目标检测算法
不生成候选区域,直接在网络中提取特征来预测物体分类和位臵。任务:特征提取—>分类/定位回归。
常见的one stage目标检测算法有:OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。
目标检测的应用:
目标检测具有巨大的实用价值和应用前景。应用领域包括人脸检测、行人检测、车辆检测、飞机航拍或卫星图像中道路的检测、车载摄像机图像中的障碍物检测、医学影像在的病灶检测等。还有在安防领域中,可以实现比如安全帽、安全带等动态检测,移动侦测、区域入侵检测、物品看护等功能。
02
Two Stage目标检测算法
RCNN (论文:Rich feature hierarchies for accurate object detection and semantic segmentation) 是将CNN方法引入目标检测领域,提高了目标检测效果,改变了目标检测领域的主要研究思路,是当之无愧的开山之作。
R-CNN的创新点
使用CNN(ConvNet)对 region proposals 计算 feature vectors。从经验驱动特征(SIFT、HOG)到数据驱动特征(CNN feature map),提高特征对样本的表示能力。
采用大样本下(ILSVRC)有监督预训练和小样本(PASCAL)微调(fine-tuning)的方法解决小样本难以训练甚至过拟合等问题。
注:ILSVRC其实就是众所周知的ImageNet的挑战赛,数据量极大;
PASCAL数据集(包含目标检测和图像分割等),相对较小。
R-CNN介绍
R-CNN作为R-CNN系列的第一代算法,其实没有过多的使用深度学习的思想,而是将深度学习和传统的计算机视觉的知识相结合。比如R-CNN 流程中第二步和第四步其实就属于传统的计算机视觉技术。使用selective search提取region proposals,再使用SVM实现分类。