深度学习在图像识别中的应用-百度文库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
13
深度学习
• 深度学习是一种高效的特征提取方法 • 深度是通过构建具有很多隐层的机器学习 模型和海量的训练数据,来学习更有用的 特征,从而最终提升分类或预测的准确性。 • 深度学习作为机器学习的一个分支,其学 习方法可以分为
– 无监督学习:深度信念网(Deep Belief Network,DBN) – 监督学习:卷积神经网络(Convolutional Neural
4
图像识别
• 预处理,指将训练或者测试的图像进行一定的处 理,使得它更加清晰或者更加适合算法要求。常 见的预处理手段包括去噪处理、图像增强、归一 化。 • 特征提取。
– 分类器无法识别像素级别的浅层信号,只能识别高层 信号 – 从训练数据中提取“有用的”高层信号(特征)
• 识别分类,指算法通过一定的训练后,形成一个 分类标准,可以将测试集中的待识别图像归为某 一类的过程。。
• X了的表示两者之间有连 接 • 组合 • 底层的结构构成上层更抽 象的结构
36
S4层: 输入图片大小: (10*10)*16 卷积窗大小: 2*2 卷积窗种类: 16 输出下采样图数量:16 输出下采样图大小:5*5 神经元数量: 400 (5*5)*16 可训练参数: 32 (16*2) 连接数: 2000 (4+1)*(5*5)*16
– 卷积层,C*,特征提取层,得到特征图,目的 是使原信号特征增强,并且降低噪音; – 池化层,S*,特征映射层,将C*层多个像素变 为一个像素,目的是在保留有用信息的同时, 尽可能减少数据量
26
卷积和子采样过程: 卷积过程包括:用一个可训练的滤波器fx去卷积一个输入的 图像(第一阶段是输入的图像,后面的阶段就是卷积特征图了), 然后加一个偏置bx,得到卷积层Cx。 子采样过程包括:每邻域四个像素求和变为一个像素,然后 通过标量Wx+1加权,再增加偏置bx+1,然后通过一个sigmoid激活函 数,产生一个大概缩小四倍的特征映射图Sx+1。
Nerwork, CNN)
14
3
15Байду номын сангаас
CNN的由来
• 卷积神经网络(CNN)是人工神经网络的一种,是多层 感知机(MLP)的一个变种模型,它是从生物学概念中 演化而来的。 • Hubel和Wiesel早期对猫的视觉皮层的研究中得知在视 觉皮层存在一种细胞的复杂分布,这些细胞对于外界的 输入局部是很敏感的,它们被称为“感受野”(细胞), 它们以某种方法来覆盖整个视觉域。这些细胞就像一些 滤波器一样,够更好地挖掘出自然图像中的目标的空间 关系信息。 • 视觉皮层存在两类相关的细胞,S细胞(Simple Cell) 和C(Complex Cell)细胞。S细胞在自身的感受野内最 大限度地对图像中类似边缘模式的刺激做出响应,而C 细胞具有更大的感受野,它可以对图像中产生刺激的模 式的空间位置进行精准地定位。 16
33
S2层: 输入图片大小: (28*28)*6 卷积窗大小: 2*2 卷积窗种类: 6 输出下采样图数量:6 输出下采样图大小:14*14 神经元数量: 1176 (14*14)*6 可训练参数: 12 (6*2) 连接数: 5880 (4+1)*(14*14)*6
34
C3层: 输入图片大小: (14*14)*6 卷积窗大小: 5*5 卷积窗种类: 16 输出特征图数量: 16 输出特征图大小: 10*10 (14-5+1) 神经元数量: 1600 [(10*10)*16)] 可训练参数: 1516 [6*(3*25+1) + 6*(4*25+1) + 3*(4*25+1)+ 1*(6*25+1)] 连接数: 151600 35 {[6*(3*25+1)+ 6*(4*25+1) + 3*(4*25+1)+ 1*(6*25+1)]*(10*10)}
f ( x) f ' ( x)
43
梯度下降法
如果为二元函数,梯度定义为:
f ( x1 , x2 ) y y i j x1 x2
如果需要找的是函数极小点,那么应该从负梯度的方向寻找, 该方法称之为梯度下降法。 要搜索极小值C点,在A点必须向x 增加方向搜索,此时与A点梯度方 向相反;在B点必须向x减小方向搜 索,此时与B点梯度方向相反。总 之,搜索极小值,必须向负梯度方 向搜索。
27
光栅化
• 图像经过池化下采样后,得到的是一系列的特征图,而 多层感知器接受的输入是一个向量。因此需要将这些特征 图中的像素依次取出,排列成一个向量。
28
4
29
LeNet-5
• Yann Lecun在1989年发表了论文,“反向传 播算法在手写邮政编码上的应用”。他用美 国邮政系统提供的近万个手写数字的样本 来训练神经网络系统,训练好的系统在独 立的测试样本中,错误率只有 5%。 • 进一步运用CNN,开发出LeNet-5用于读取 银行支票上的手写数字,这个支票识别系 统在九十年代末占据了美国接近 20%的市 场。
CNN概述
• 卷积神经网络已成为当前语音 分析和图像识别领域的研究热 点。 • 80年代末,Yann LeCun就作 为贝尔实验室的研究员提出了 卷积网络技术,并展示如何使 用它来大幅度提高手写识别能 力。 • 目前来看,在图像识别领域, CNNs已经成为一种高效的识 别方法
17
CNN的三个基本概念
31
LeNet-5
• 共有7层,不包含输入
32
C1层: 输入图片大小: 卷积窗大小: 卷积窗种类: 输出特征图数量: 输出特征图大小: 神经元数量: 可训练参数: 连接数:
32*32 5*5 6 6 28*28 4707 156 12304
(32-5+1) [(28*28)*6)] [(5*5+1)*6] [(5*5+1)*(28*28)]*6
深度学习在图像识别中的应用
1
图像识别概述 人工神经网络与深度学习
CONTENTS
2
3
4 5
卷积神经网络
LeNet-5 结束语
2
1
3
图像识别
• 图像识别也就是图像的模式识别,是模式 识别技术在图像领域中的具体应用,是对 输入的图像信息建立图像识别模型,分析 并提取图像的特征,然后建立分类器,根 据图像的特征进行分类识别的一种技术。
24
池化
• • 常见的方法: 原理:根据图像局部相关的原理,图像某
最大值池化(max-pooling) 个邻域内只需要一个像素点就能表达整个 L2池化(L2 pooling) 区域的信息 均值池化(Mean Pooling) • 也称为混合、下采样
25
CNN的结构
• CNN的网络层分为
19
局部感受野
20
局部感受野
21
卷积
• • • • 特征增强,降低噪声 a1 = σ(b+w*a0) 卷积核 跨距
22
共享权重
• 隐层的参数个数和隐层的神经元个数无关,只和滤波器的大 小和滤波器种类的多少有关。
23
特征图(Feature Map)
• 提取不同的特征,需要多个滤波器。每种滤波器的参数不 一样,表示它提出输入图像的不同特征。这样每种滤波器 去卷积图像就得到对图像的不同特征的反映,我们称之为 Feature Map。 • 100种卷积核就有100个Feature Map。这100个Feature Map就组成了一层神经元。
1*84 1*10
输出1000000000,则表明是数字0的分类。
40
CNN的两个部分
如何训练?
41
训练算法
• 网络初始化 • 第一阶段,向前传播阶段:
– a)从样本集中取一个样本(X,Yp),将X输入 网络; – b)计算相应的实际输出Op。
• 第二阶段,向后传播阶段
– a)算实际输出Op与相应的理想输出Yp的差; – b)按极小化误差的方法反向传播调整权矩阵 。
• 局部感受野(local receptive fields) • 共享权重(shared weights) • 池化(pooling)
18
局部感受野
• 图像的空间联系是局部的,就像人通过局部的感受野去感 受外界图像一样,每个神经元只感受局部的图像区域,然 后在更高层,将这些感受不同局部的神经元综合起来就可 以得到全局的信息了。 • CNN中相邻层之间是部分连接,也就是某个神经单元的感 知区域来自于上层的部分神经单元。
37
C5层: 输入图片大小: 卷积窗大小: 卷积窗种类: 输出特征图数量: 输出特征图大小: 神经元数量: 连接数: 可训练参数:
(5*5)*16 5*5 120 120 1*1 (5-5+1) 120 (1*120) 48120 [16*25+1]*1*120(全连接) 48120 [16*25+1]*1*120
10
人工神经网络与深度学习
• 深度学习的概念源于人工神经网络的研究,是机 器学习的分支; • 机器学习的发展经历了浅层学习和深度学习两次 浪潮
– 浅层学习,通常包含一层或两层的非线性特征变换, 可以看成是具有一层隐含层或者没有隐含层的结构。 大多数传统的机器学习和信号处理技术,都是利用浅 层结构的架构。例如高斯混合模型(GMMs)、支持向 量机(SVMs)等都是浅层结构。 – 深度学习,主要指超过三层的神经网络模型。
38
F6层: 输入图片大小: 卷积窗大小: 卷积窗种类: 输出特征图数量: 输出特征图大小: 神经元数量: 连接数: 可训练参数:
(1*1)*120 1*1 84 84 1 84 10164 (120+1)*84(全连接) 10164 (120+1)*84
39
OUTPUT层: 输入图片大小: 输出特征图数量:
6
图像识别的常用方法
• • • • • 贝叶斯分类法 模板匹配法 核方法 集成学习方法 人工神经网络法(ANN)
7
2
8
人脑识别的过程
• 人脑是通过分级的、多层网络模型 来识别 • 减少数据量,保留物体的有用信息
9
ANN的发展史
• 1943年,Mcculloch和Pitts提出了神经元的数学模型,奠 定基础; • 1958年,Rosenblatt 提出了感知机模型,首次把人工神 经网络的研究从理论探讨付诸工程实践; • 1969年,Minskyh《感知机》指出当前的网络只能应用于 简单的线性问题,却不能有效地应用于多层网络,低潮; • 1982年,美国物理学家Hopfield博士提出了Hopfield模型 理论,他证明了在一定条件下,网络可以达到稳定的状态。 在他的影响下,神经网络得以复兴; • 80、90年代,提出BP算法、CNN; • 2006年,Hinton 提出了一种深度神经网络参数的训练算 法,在物体识别、图像分类、语音识别等领域取得了突破 性进展,开启了深度学习在学术界和工业界的浪潮。
11
深度学习的现状
• •
深度学习在语音识别、图像识别等领域摧枯拉朽。 国际会议、期刊等涌现大量深度学习的文章,CNN 被引入很多领域。
•
知名高科技公司都在深度学习领域加大投入。
12
深度学习对图像识别的影响
• Google Brain项目,用16000个CPU Core 的并行计算平台,创建了一个深度神经网 络,仅通过YouTube视频学习到“猫”; • 2012年Hinton用DNN技术在图像识别方面 取得惊人的成功,在著名的ImageNet问题 上将错误率从26%降低到了15%,并且输 入没有用到其他任何人工特征,仅仅是图 像的像素。
42
梯度下降法
梯度下降法,又称最速下降法。1847年由著名的数学家柯西 Cauchy给出。 基本思想 假设我们爬山,如果想最快的上到山顶,那么我们应该从山 势最陡的地方上山。也就是山势变化最快的地方上山 同样,如果从任意一点出发,需要最快搜索到函数最大值, 那么我们也应该从函数变化最快的方向搜索。 函数变化最快的方向是什么呢? 函数的梯度。 如果函数为一元函数,梯度就是该函数的导数
30
Mnist数据库
• MNIST 数据分为两个部分。第一部分包含 60,000 幅用于训练数据的图像,第二部分 是10,000 幅用于测试数据的图像。 • 这些图像分别扫描自250人的手写样本,他 们中一半人是美国人口普查局的员工,另 一半人是高校学生。 • 这有助于确保我们的系统能识别那些没有 看到训练数据的手写的数字。
5
图像识别的应用
• 在军事领域,无人机侦探,导弹精确打击, 军事目标锁定,雷达警戒系统等 • 在公共安全领域,机场安检,恐怖分子搜 查,公共交通安全,车牌定位,目标追踪 等, • 在农业领域,物种识别,产品营养成分分 析,农作物病情分析等 • 在日常生活中,门禁系统的人脸识别、视 网膜扫描、指纹扫描等。