深度学习在图像处理中的应用-文档资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类器
y=f( x)
9?
直方 图
直方 图
分类器
y=f(
9?
x)
分类器
稀疏 编码
y=f(
9?
x)
1.不需要专业知识 2.多层学习
特征学习
分类器
y=f(
9?
x)
…… …… …… …… …… ……
wenku.baidu.com
特征提取
……
……
……
分类器
y=f(
9?
x)
分类器
y=f(
9?
x)
特征学习
1.图像的二维结构被破坏 2.全连接网路权重(参数)数 量太多,容易过拟合,需要 大量训练样本
全连接 分类器
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
卷积神经网络的经典结构
• LeNet • AlexNet • VGG • GoogleNet • ResNet • DenseNet
LeNet
卷积神经网络
分类器
y=f( x)
卷积
池化
卷积
池化
向量化
特征学习
卷积操作
卷积操作的特点
• 二维(或多维)运算,保持图像的结构关系
全连接神经网络
卷积神经网络
…… ……
……
向量化
输入图像向量化后再输入到神经网络中,图 像的二维(或三维)结构关系被打破。
……
输入图像直接输入卷积神经网络中,保持图 像的二维(或三维)结构关系。
pool/2 5*5 conv, 16, stride/1,
pool/2
fc, 120
fc, 84
fc, 10
AlexNet
用于对1000类问题的分类(Imagenet) 使用了ReLU的非线性激活 使用了dropout 使用了LRN对feature maps进行归一化
INPUT: 224*224*3 11*11 conv, 96, stride/4,
手 • 解写决方数法字识别的例子
•方案1:根据手写数字图像中笔 画的形状、粗细的特点来人为 的制定一些规则,基于这些规 则判断输入图像是哪个数字。
规则a.有且仅有一个中空的区 域 规则b.中空区域的下方有较大 的连通区域 同时满足规则a和规则b判定为
数字 9
•学方习案一2:个通模过型训f的练参集数(x,i,y使i)yi==f1(,x2)…N
池化操作
• 池化操作可以对输入的特征图进行压缩,一方面使特征图变小, 简化网络计算复杂度;另一方面进行特征压缩,提取主要特征。
8
4
1
8
2
3
0
5
8
8
0
9
2
0
9
4
7
1
4
0
卷积神经网络
卷积
池化
卷积
特征学习
池化
向量化
分类器
y=f( x)
全连接 分类器
卷积神经网络与人类视觉
卷积神经网络
• 卷积神经网络在图像中应用广泛的最主要原因是:效果好!
卷积操作的特点
• 局部感知,减少参数数量
图像的空间联系也是局部的像素联系较为紧密,而距离较远的像素相关性则较弱。 因此,每个神经元其实没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局 部的信息综合起来就得到了全局的信息。
卷积操作的特点
• 参数共享,减少参数数量
采用局部感知后,参数依然非常多。 由于卷积的操作是为了提取图像特征,而图像特征与位置无关,于是可以采用参数共享的策略。
卷积操作的特点
• 多卷积核
一个卷积核只能学习一种特征 多卷积核可以学习多种特征
非线性激活操作
•非线性激活操作不是卷积网络特有的,一般的神经网络也会有非 线性激活操作。如果没有非线性激活,神经网络只有线性表达,表
达能力不够强。
x11
w211
x21
w221
x12
x22
x31
b21
1
1
x21=w211* x11 + w221* x12 + b21
pool/2 5*5 conv, 256, stride/1,
pool/2 3*3 conv, 384, stride/1
训练(Train)
推断(Inference)
4 9 7
y=f(x)
1
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
特征提取
训练(Train)
推断(Inference)
4 9 7
y=f(x)
1
于是研究人员就根据图像的特点, 提出一些特征,把对图像提取的 特征输入到分类器,效果提升了。 常用的特征有直方图,梯度直方 图,SIFT等。
x22=w212* x11 + w222* x12 + b22
x31=w311* x21 + w321* x22 + b31 =w311* (w211* x11 + w221* x12 + b21) + w321* (w212* x11 + w222* x12 + b22) + b31 =w’1 * x11 +w’2 * x12 +b’
深度学习
• 深度神经网络在图像中应用广泛的最主要原因是:效果好!
……
……
……
分类器
y=f(
9?
x)
…… …… …… …… …… ……
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络
• 卷积 • 激活 • 池化 • 生物学依据
• 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
用于对10类问题的分类(MNIST) 最早的卷积神经网络 conv2的卷积实际上并不是5∗5∗6∗16的,而是对6个
feature maps做了一些选取 池化的方法与现在略有不同 使用高斯分布进行分类,而不是现在主流的softmax
INPUT: 32*32 5*5 conv, 6, stride/1,
训练(Train)
4 9 7
将原始图像直接作为分类器的输入,效果并不好。 常用的分类器有Logistic Regression, Decision Tree, Support Vector Machine等
推断(Inference)
特
征
提
特
取
征
提
y=f(x)
取
1
特征提取
边缘 提取
边缘 提取
边缘 提取
深度学习在图像处理问题 中的应用
目录
• 手写数字识别的例子 • 深度学习到底是什么 • 卷积神经网络 • 卷积神经网络的经典结构 • 常见的图像处理问题 • 卷积神经网络的问题
手写数字识别的例子
•问题:对手写邮政编码的识别
每张图像是28*28的灰度图像,常用784维的向量x表示。 目的是设计一个算法(函数、机器…),输入是上述向量x ,输出是数字 y(0,1,2…9)。