深度学习及其视觉应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
与浅层学习区别: 1)强调了模型结构的深度,通常有5-10多层的隐层
节点; 2)明确突出了特征学习的重要性,通过逐层特征变
换,将样本在原空间的特征表示变换到一个新特 征空间,从而使分类或预测更加容易。与人工规 则构造特征的方法相比,利用大数据来学习特征, 更能够刻画数据的丰富内在信息。
深度学习及其视觉应用
深度学习及其视觉应用
Classification
深度学习及其视觉应用
Object Detection
模型:R-CNN,Fast R-CNN, Faster R-CNN, YOLO, SSD 等知名框架
精度:PASCAL VOC上的mAP,从R-CNN的53.3%, Fast RCNN的68.4%,Faster R-CNN的75.9%,Faster RCNN结合残差网(Resnet-101),达到83.8%
深度学习及其视觉应用
Deep Learning的效果
深度学习及其视觉应用
CNN
卷积神经网络(Convolutional Neural Networks, CNN)
深度学习及其视觉应用
深度学习的具体模型及方法
深度学习及其视觉应用
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM) ➢ 局部感受 ➢ 权值共享
➢ 多滤波器情形
每层隐层神经元的个数按 滤波器种类的数量翻倍
每层隐层参数个数仅与滤 波器大小、滤波器种类的多 少有关
例如:隐含层的每个神经元都连接 10x10像素图像区域,同时有100种 卷积核(滤波器)。则参数总个数 为:(10x10+1)x100=10100个
不同的颜色表示不同种类的滤波器 深度学习及其视觉应用
在计算机视觉(CV)领域取得成功
深度学习及其视觉应用
深度学习及视觉应用
深度学习概述 深度视觉应用
深度学习及其视觉应用
ClassificationDetectionSegmentation
深度学习及其视觉应用
Image Captioning & Image Generator
Image Captioning
深度学习及其视觉应用
Results
深度学习及其视觉应用
Faster R-CNN
深度学习及其视觉应用
Faster R-CNN
深度学习及其视觉应用
Object Recognition
Person and Car Detection Based on Faster R-CNN
Problem: Small Object Detection
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM)
CNN的关键技术:局部感受野、权值共享、时间或空间子采样 CNN的优点: 1、避免了显式的特征抽取,而隐式地从训练数据中进行学习;
2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复 杂性; 3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性 ; 3、输入信息和网络拓扑结构能很好深度的学吻习及合其,视觉在应语用 音识别和图像处理方面有着独特优 势。
深度学习的里程碑
2006年,加拿大多伦多大学教授、机器学习领域 的泰斗Geoffrey Hinton在《科学》上发表论文提 出深度学习主要观点:
1)多隐层的人工神经网络具有优异的特征学习能力,学 习得到的特征对数据有更本质的刻画,从而有利于可 视化或分类;
2)深度神经网络在训练上的难度,可以通过“逐层初始 化”(layer-wise pre-training)来有效克服,逐层 初始化可通过无监督学习实现的。
减少参数的方法: ✓每个神经元无需对全局图像做感受,只需感受局部区域(Feature Map),在高层会将这些感受不同局部的神经元综合起来获得全局信息 。 ✓每个神经元参数设为相同,即深度权学习值及共其视享觉应,用也即每个神经元用同一个卷
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM) ➢ 隐层神经元数量的确定
对象识别——CNN
5个卷积层和2个全连接层 每层卷积核个数96,256,384,384,256
深度学习及其视觉应用
监督学习——卷积神经网络
96个低级卷积核
深度学习及其视觉应用
监督学习——卷积神经网络
网络庞大,但容易收敛
唯一不需要特定初始化参数就可以训练成功
比较容易并行化训练,并且可以利用GPU加 速
速度:从最初的RCNN模型,处理一张图片要用2秒多, 到Faster RCNN的198毫秒/张,再到YOLO的155帧/秒, 最后出来了精度和速度都较高的SSD,精度75.1%,速度 23帧/秒
深度学习及其视觉应用
Object Detection: R-源自文库NN(2013)
深度学习及其视觉应用
Object Detection: Fast R-CNN(2015)
深度学习及其视觉应用
Guiguang Ding
深度学习及其视觉应用
深度学习及视觉应用
深度学习概述 视觉应用
深度学习及其视觉应用
深度学习
神经网络是多层函 数嵌套形成的模型
深度学习及其视觉应用
受到生物 神经机制 的启发 构建多隐 层的模型
深度学习
本质:通过构建多隐层的模型和海量训练数据 (可为无标签数据),来学习更有用的特征,从 而最终提升分类或预测的准确性。“深度模型” 是手段,“特征学习”是目的。
Image Generator
深度学习及其视觉应用
CNN Model
Convolutional Neural Network Based on Caffe Framework
Basic Model
ZFNet VGGNet GoogleNet ResNet DenseNet SqueezeNet
神经元数量与输入图像大 小、滤波器大小和滤波器的 滑动步长有关。
例如,输入图像是1000x1000像素,滤 波器大小是10x10,假设滤波器间没有 重叠,即步长为10,这样隐层的神经 元个数就是(1000x1000 )/ (10x10)=10000个
深度学习及其视觉应用
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM)
节点; 2)明确突出了特征学习的重要性,通过逐层特征变
换,将样本在原空间的特征表示变换到一个新特 征空间,从而使分类或预测更加容易。与人工规 则构造特征的方法相比,利用大数据来学习特征, 更能够刻画数据的丰富内在信息。
深度学习及其视觉应用
深度学习及其视觉应用
Classification
深度学习及其视觉应用
Object Detection
模型:R-CNN,Fast R-CNN, Faster R-CNN, YOLO, SSD 等知名框架
精度:PASCAL VOC上的mAP,从R-CNN的53.3%, Fast RCNN的68.4%,Faster R-CNN的75.9%,Faster RCNN结合残差网(Resnet-101),达到83.8%
深度学习及其视觉应用
Deep Learning的效果
深度学习及其视觉应用
CNN
卷积神经网络(Convolutional Neural Networks, CNN)
深度学习及其视觉应用
深度学习的具体模型及方法
深度学习及其视觉应用
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM) ➢ 局部感受 ➢ 权值共享
➢ 多滤波器情形
每层隐层神经元的个数按 滤波器种类的数量翻倍
每层隐层参数个数仅与滤 波器大小、滤波器种类的多 少有关
例如:隐含层的每个神经元都连接 10x10像素图像区域,同时有100种 卷积核(滤波器)。则参数总个数 为:(10x10+1)x100=10100个
不同的颜色表示不同种类的滤波器 深度学习及其视觉应用
在计算机视觉(CV)领域取得成功
深度学习及其视觉应用
深度学习及视觉应用
深度学习概述 深度视觉应用
深度学习及其视觉应用
ClassificationDetectionSegmentation
深度学习及其视觉应用
Image Captioning & Image Generator
Image Captioning
深度学习及其视觉应用
Results
深度学习及其视觉应用
Faster R-CNN
深度学习及其视觉应用
Faster R-CNN
深度学习及其视觉应用
Object Recognition
Person and Car Detection Based on Faster R-CNN
Problem: Small Object Detection
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM)
CNN的关键技术:局部感受野、权值共享、时间或空间子采样 CNN的优点: 1、避免了显式的特征抽取,而隐式地从训练数据中进行学习;
2、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复 杂性; 3、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性 ; 3、输入信息和网络拓扑结构能很好深度的学吻习及合其,视觉在应语用 音识别和图像处理方面有着独特优 势。
深度学习的里程碑
2006年,加拿大多伦多大学教授、机器学习领域 的泰斗Geoffrey Hinton在《科学》上发表论文提 出深度学习主要观点:
1)多隐层的人工神经网络具有优异的特征学习能力,学 习得到的特征对数据有更本质的刻画,从而有利于可 视化或分类;
2)深度神经网络在训练上的难度,可以通过“逐层初始 化”(layer-wise pre-training)来有效克服,逐层 初始化可通过无监督学习实现的。
减少参数的方法: ✓每个神经元无需对全局图像做感受,只需感受局部区域(Feature Map),在高层会将这些感受不同局部的神经元综合起来获得全局信息 。 ✓每个神经元参数设为相同,即深度权学习值及共其视享觉应,用也即每个神经元用同一个卷
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM) ➢ 隐层神经元数量的确定
对象识别——CNN
5个卷积层和2个全连接层 每层卷积核个数96,256,384,384,256
深度学习及其视觉应用
监督学习——卷积神经网络
96个低级卷积核
深度学习及其视觉应用
监督学习——卷积神经网络
网络庞大,但容易收敛
唯一不需要特定初始化参数就可以训练成功
比较容易并行化训练,并且可以利用GPU加 速
速度:从最初的RCNN模型,处理一张图片要用2秒多, 到Faster RCNN的198毫秒/张,再到YOLO的155帧/秒, 最后出来了精度和速度都较高的SSD,精度75.1%,速度 23帧/秒
深度学习及其视觉应用
Object Detection: R-源自文库NN(2013)
深度学习及其视觉应用
Object Detection: Fast R-CNN(2015)
深度学习及其视觉应用
Guiguang Ding
深度学习及其视觉应用
深度学习及视觉应用
深度学习概述 视觉应用
深度学习及其视觉应用
深度学习
神经网络是多层函 数嵌套形成的模型
深度学习及其视觉应用
受到生物 神经机制 的启发 构建多隐 层的模型
深度学习
本质:通过构建多隐层的模型和海量训练数据 (可为无标签数据),来学习更有用的特征,从 而最终提升分类或预测的准确性。“深度模型” 是手段,“特征学习”是目的。
Image Generator
深度学习及其视觉应用
CNN Model
Convolutional Neural Network Based on Caffe Framework
Basic Model
ZFNet VGGNet GoogleNet ResNet DenseNet SqueezeNet
神经元数量与输入图像大 小、滤波器大小和滤波器的 滑动步长有关。
例如,输入图像是1000x1000像素,滤 波器大小是10x10,假设滤波器间没有 重叠,即步长为10,这样隐层的神经 元个数就是(1000x1000 )/ (10x10)=10000个
深度学习及其视觉应用
深度学习的具体模型及方法
卷积波尔兹曼机(Convolutional RBM)