深度学习在图像处理中的应用-文档资料

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

分类器
y=f( x)
9?
直方图
直方图
分类器
y=f(
9?
x)
分类器
稀疏编码
y=f(
9?
x)
1.不需要专业知识 2.多层学习
特征学习
分类器
y=f(
9?
x)
…… …… …… …… …… ……
wenku.baidu.com
特征提取
……
……
……
分类器
y=f(
9?
x)
分类器
y=f(
9?
x)
特征学习
1.图像的二维结构被破坏 2.全连接网路权重（参数）数量太多，容易过拟合，需要大量训练样本
全连接分类器
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
卷积神经网络的经典结构
• LeNet • AlexNet • VGG • GoogleNet • ResNet • DenseNet
LeNet
卷积神经网络
分类器
y=f( x)
卷积
池化
卷积
池化
向量化
特征学习
卷积操作
卷积操作的特点
• 二维（或多维）运算，保持图像的结构关系
全连接神经网络
卷积神经网络
…… ……
……
向量化
输入图像向量化后再输入到神经网络中，图像的二维（或三维）结构关系被打破。
……
输入图像直接输入卷积神经网络中，保持图像的二维（或三维）结构关系。
pool/2 5*5 conv, 16, stride/1,
pool/2
fc, 120
fc, 84
fc, 10
AlexNet
用于对1000类问题的分类（Imagenet）使用了ReLU的非线性激活使用了dropout 使用了LRN对feature maps进行归一化
INPUT: 224*224*3 11*11 conv, 96, stride/4,
手 • 解写决方数法字识别的例子
•方案1：根据手写数字图像中笔画的形状、粗细的特点来人为的制定一些规则，基于这些规则判断输入图像是哪个数字。
规则a.有且仅有一个中空的区域规则b.中空区域的下方有较大的连通区域同时满足规则a和规则b判定为
数字 9
•学方习案一2：个通模过型训f的练参集数(x，i,y使i)yi==f1(,x2)…N
池化操作
• 池化操作可以对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；另一方面进行特征压缩，提取主要特征。
8
4
1
8
2
3
0
5
8
8
0
9
2
0
9
4
7
1
4
0
卷积神经网络
卷积
池化
卷积
特征学习
池化
向量化
分类器
y=f( x)
全连接分类器
卷积神经网络与人类视觉
卷积神经网络
• 卷积神经网络在图像中应用广泛的最主要原因是：效果好！
卷积操作的特点
• 局部感知，减少参数数量
图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因此，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。
卷积操作的特点
• 参数共享，减少参数数量
采用局部感知后，参数依然非常多。由于卷积的操作是为了提取图像特征，而图像特征与位置无关，于是可以采用参数共享的策略。
卷积操作的特点
• 多卷积核
一个卷积核只能学习一种特征多卷积核可以学习多种特征
非线性激活操作
•非线性激活操作不是卷积网络特有的，一般的神经网络也会有非线性激活操作。如果没有非线性激活，神经网络只有线性表达，表
达能力不够强。
x11
w211
x21
w221
x12
x22
x31
b21
1
1
x21=w211* x11 + w221* x12 + b21
pool/2 5*5 conv, 256, stride/1,
pool/2 3*3 conv, 384, stride/1
训练(Train)
推断(Inference)
4 9 7
y=f(x)
1
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
特征提取
训练(Train)
推断(Inference)
4 9 7
y=f(x)
1
于是研究人员就根据图像的特点，提出一些特征，把对图像提取的特征输入到分类器，效果提升了。常用的特征有直方图，梯度直方图，SIFT等。
x22=w212* x11 + w222* x12 + b22
x31=w311* x21 + w321* x22 + b31 =w311* (w211* x11 + w221* x12 + b21) + w321* (w212* x11 + w222* x12 + b22) + b31 =w’1 * x11 +w’2 * x12 +b’
深度学习
• 深度神经网络在图像中应用广泛的最主要原因是：效果好！
……
……
……
分类器
y=f(
9?
x)
…… …… …… …… …… ……
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络
• 卷积 • 激活 • 池化 • 生物学依据
• 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
用于对10类问题的分类（MNIST）最早的卷积神经网络 conv2的卷积实际上并不是5∗5∗6∗16的，而是对6个
feature maps做了一些选取池化的方法与现在略有不同使用高斯分布进行分类，而不是现在主流的softmax
INPUT: 32*32 5*5 conv, 6, stride/1,
训练(Train)
4 9 7
将原始图像直接作为分类器的输入，效果并不好。常用的分类器有Logistic Regression, Decision Tree, Support Vector Machine等
推断(Inference)
特
征
提
特
取
征
提
y=f(x)
取
1
特征提取
边缘提取
边缘提取
边缘提取
深度学习在图像处理问题中的应用
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
手写数字识别的例子
•问题：对手写邮政编码的识别
每张图像是28*28的灰度图像，常用784维的向量x表示。目的是设计一个算法（函数、机器…），输入是上述向量x ，输出是数字 y(0,1,2…9)。