AI人工智能培训课件-目标检测概述-7.2

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目标检测

01

目标检测简介

输入图片

输入图片问题:图片中的车在哪里?

输入图片问题:图片中的车在哪里?

目标检测(Object Detection)的任务是找出图像中所有感兴趣的

目标(物体),确定它们的类别和位臵,是计算机视觉领域的核心

问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有一定挑战性的问题。

目标检测的核心问题:

图像识别+定位

定位方面的问题:

目标可能出现在图像的任何位臵。 目标有各种不同的大小。

目标可能有各种不同的形状。

图像识别:

定位:

定位思路一:将定位转换为分类问题,遍历所有可能的区域deer

cat

定位思路一:将定位转换为分类问题,遍历所有可能的区域

CNN deer?

cat? background?

定位思路一:将定位转换为分类问题,遍历所有可能的区域

CNN deer?

cat? background?

定位思路一:将定位转换为分类问题,遍历所有可能的区域

CNN deer?

cat? background?

定位思路一:将定位转换为分类问题,遍历所有可能的区域

定位思路一:滑动窗算法(使用固定尺寸和固定步长)

定位思路一:滑动窗算法(使用多种尺寸+步长)

3 x 257 x 257

0.5

分类概率(猫)

定位思路一:滑动窗算法(使用多种尺寸+步长)

3 x 257 x 257

0.5 0.75 分类概率(猫)

定位思路一:滑动窗算法(使用多种尺寸+步长)

3 x 257 x 257

0.5 0.75 0.6

分类概率(猫)

定位思路一:滑动窗算法(使用多种尺寸+步长)

3 x 257 x 257

0.5 0.75 0.6 0.8 分类概率(猫)

定位思路一:滑动窗算法(使用多种尺寸+步长)

3 x 257 x 257

0.5 0.75

0.6 0.8

分类概率(猫) 3 x 257 x 257

定位思路二:回归

狗 (x, y, w, h)

猫 (x, y, w, h)

猫 (x, y, w, h)

鸭 (x, y, w, h)

16个数

定位思路二:回归

狗(x, y, w, h)

猫(x, y, w, h)

8个数

定位思路二:回归

猫 (x, y, w, h)

猫 (x, y, w, h)

猫(x, y, w, h)

….

网络需要对变动的目标输出个数进行刻画

定位思路二:回归

和图像分类网络一样,我们需要一个提取图像特征的网络

在上述卷积神经网络的尾部作出改进,加上分类模块和回归模块 回归模块用欧氏距离度量损失,网络使用梯度下降进行训练

在预测阶段合并分类模块和回归模块的结果

定位思路二:回归

目标检测分类:

1.Two stage目标检测算法

先进行候选区域生成(一个有可能包含待检物体的预选框),

再通过卷积神经网络进行样本分类。

任务:特征提取—>生成候选区域—>分类/定位回归。

常见的two stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN和R-FCN等。

目标检测分类:

2.One stage目标检测算法

不生成候选区域,直接在网络中提取特征来预测物体分类和位臵。任务:特征提取—>分类/定位回归。

常见的one stage目标检测算法有:OverFeat、YOLOv1、YOLOv2、YOLOv3、SSD和RetinaNet等。

目标检测的应用:

目标检测具有巨大的实用价值和应用前景。应用领域包括人脸检测、行人检测、车辆检测、飞机航拍或卫星图像中道路的检测、车载摄像机图像中的障碍物检测、医学影像在的病灶检测等。还有在安防领域中,可以实现比如安全帽、安全带等动态检测,移动侦测、区域入侵检测、物品看护等功能。

02

Two Stage目标检测算法

RCNN (论文:Rich feature hierarchies for accurate object detection and semantic segmentation) 是将CNN方法引入目标检测领域,提高了目标检测效果,改变了目标检测领域的主要研究思路,是当之无愧的开山之作。

R-CNN的创新点

使用CNN(ConvNet)对 region proposals 计算 feature vectors。从经验驱动特征(SIFT、HOG)到数据驱动特征(CNN feature map),提高特征对样本的表示能力。

采用大样本下(ILSVRC)有监督预训练和小样本(PASCAL)微调(fine-tuning)的方法解决小样本难以训练甚至过拟合等问题。

注:ILSVRC其实就是众所周知的ImageNet的挑战赛,数据量极大;

PASCAL数据集(包含目标检测和图像分割等),相对较小。

R-CNN介绍

R-CNN作为R-CNN系列的第一代算法,其实没有过多的使用深度学习的思想,而是将深度学习和传统的计算机视觉的知识相结合。比如R-CNN 流程中第二步和第四步其实就属于传统的计算机视觉技术。使用selective search提取region proposals,再使用SVM实现分类。

相关文档
最新文档