深度学习在图像处理中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用于对1000类问题的分类(Imagenet) 使用了ReLU的非线性激活 使用了dropout 使用了LRN对feature maps进行归一化
fc, 4096 fc, 4096 fc, 1000
VGG
GoogleNet
ResNet
DenseNet
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题
卷积操作的特点
• 多卷积核
一个卷积核只能学习一种特征 多卷积核可以学习多种特征
非线性激活操作
• 非线性激活操作不是卷积网络特有的,一般的神经网络也会有非 线性激活操作。如果没有非线性激活,神经网络只有线性表达, 表达能力不够强。
x11
w211
w221
x21
x21=w211* x11 + w221* x12 + b21 x22=w212* x11 + w222* x12 + b22
卷积神经网络
分类器
y=f( x)
卷积
池化
卷积
池化
向量化
特征学习
卷积操作
卷积操作的特点
• 二维(或多维)运算,保持图像的结构关系
全连接神经网络 卷积神经网络
……
……
……
……
向量化
输入图像向量化后再输入到神经网络中,图 像的二维(或三维)结构关系被打破。
输入图像直接输入卷积神经网络中,保持图 像的二维(或三维)结构关系。
手写数字识别的例子
解决方法 • 方案1:根据手写数字图像中 • 方案2:通过训练集(xi,yi) 笔画的形状、粗细的特点来人 i=1,2…N学习一个模型f的参数, 为的制定一些规则,基于这些 使y=f(x) 规则判断输入图像是哪个数字。
推断(Inference)
规则a.有且仅有一个中空的区 域 规则b.中空区域的下方有较大 的连通区域 同时满足规则a和规则b判定为 训练(Train)
Reduce
Reduce 88.82%
Reduce 90.62%
Reduce 89.22%
Reduce 76.49%
The time is test on NVIDIA Tesla K80. And the input of the model is 416*416. Theoretically, pruning reduces the number of parameters by 10× and computation by 10×. In fact, the model can be pruned 1/10 of its original size without impacting accuracy, and speed up 4x. After pruning the time of the model is 24 millisecond test on Jetson TX1.
深度学习在图像处理问题 中的应用
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
手写数字识别的例子
• 问题:对手写邮政编码的识别
每张图像是28*28的灰度图像,常用784维的向量x表示。 目的是设计一个算法(函数、机器…),输入是上述向量x ,输出是数字 y(0,1,2…9)。
深度学习
• 深度神经网络在图像中应用广泛的最主要原因是:效果好!
分类器
……
……
……
y=f( x)
9?
……
……
……
……
……
……
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络
• • • • 卷积 激活 池化 生物学依据
• 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
全连接 分类器
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
卷积神经网络的经典结构
• LeNet • AlexNet • VGG • GoogleNet • ResNet • DenseNet
LeNet
x12
x22
x31
b2 1
1 1
x31=w311* x21 + w321* x22 + b31 =w311* (w211* x11 + w221* x12 + b21) + w321* (w212* x11 + w222* x12 + b22) + b3 1 =w’1 * x11 +w’2 * x12 +b’
总结
• 深度学习在图像处理问题中的主要作用是“特征学习” • 深度学习之所以比较流行的原因是“效果好”
fc, 84
fc, 10
AlexNet
Βιβλιοθήκη Baidu
INPUT: 224*224*3 11*11 conv, 96, stride/4, pool/2 5*5 conv, 256, stride/1, pool/2 3*3 conv, 384, stride/1 3*3 conv, 384, stride/1 3*3 conv, 256, stride/1, pool/2
1 于是研究人员就根据图像的特点, 提出一些特征,把对图像提取的 特征输入到分类器,效果提升了。 常用的特征有直方图,梯度直方 图,SIFT等。
推断(Inference) 训练(Train) 特 征 提 取 7 特 征 提 取
4
y=f(x)
9
1
特征提取
分类器
边缘 提取 边缘 提取 边缘 提取
y=f( x)
#Parameters 16050096 1794456 # FLOP 4116483072 386163648
Experiments
Model Size 60.18M 6.49M Time 37.22ms 8.75ms
Eight Bit
Quantize
Min Max
QuantizedRelu
Eight Bit Min Max
Dequantize
Output(float)
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
卷积神经网络的问题
由于池化操作,丢失了空间关系,因此个人觉得 池化操作未来一定会被改进。
卷积操作提取的特征本身并 不是旋转不变的。
• • • • 分类 检测 分割 视线估计
• 卷积神经网络的问题
分类
LeNet/AlexNet/VGG…
…
全连接 分类器
检测
检测
分割
Inference的加速方法
Input(float) Min Max
Model Before Pruning After Pruning
Theoretically
9?
分类器
直方 图 直方 图
y=f( x)
稀疏 编码
9?
分类器
y=f( x)
9?
分类器
y=f( x)
9?
1.不需要专业知识 2.多层学习
特征学习
特征提取
分类器
y=f( x)
9?
分类器
……
……
……
y=f( x)
9?
……
……
……
……
……
……
特征学习
1.图像的二维结构被破坏 2.全连接网路权重(参数)数 量太多,容易过拟合,需要 大量训练样本
4
y=f(x) 9 7
数字 9
1
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
特征提取
推断(Inference) 训练(Train)
4
y=f(x)
9 7
将原始图像直接作为分类器的输入,效果并不好。 常用的分类器有Logistic Regression, Decision Tree, Support Vector Machine等
池化操作
• 池化操作可以对输入的特征图进行压缩,一方面使特征图变小, 简化网络计算复杂度;另一方面进行特征压缩,提取主要特征。
8 4 1 8
2
3
0
5
8
8
0
9
2
0
9
4
7
1
4
0
卷积神经网络
分类器
y=f( x)
卷积
池化
卷积
池化
向量化
特征学习
全连接 分类器
卷积神经网络与人类视觉
卷积神经网络
• 卷积神经网络在图像中应用广泛的最主要原因是:效果好!
INPUT: 32*32 5*5 conv, 6, stride/1, pool/2
5*5 conv, 16, stride/1, pool/2 fc, 120
用于对10类问题的分类(MNIST) 最早的卷积神经网络 conv2的卷积实际上并不是5∗5∗6∗16的,而是对6个 feature maps做了一些选取 池化的方法与现在略有不同 使用高斯分布进行分类,而不是现在主流的softmax
卷积操作的特点
• 局部感知,减少参数数量
图像的空间联系也是局部的像素联系较为紧密,而距离较远的像素相关性则较弱。 因此,每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局 部的信息综合起来就得到了全局的信息。
卷积操作的特点
• 参数共享,减少参数数量
采用局部感知后,参数依然非常多。 由于卷积的操作是为了提取图像特征,而图像特征与位置无关,于是可以采用参数共享的策略。