基于深度学习的图像识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于深度学习的图像识别
摘要:本文讨论了两种实现图像识别的深度学习(Deep Learning,DL)方法:卷积神经网络(Convolution Neural Network,CNN)与深度信念网络(Deep Belief Network,DBN)。
关键词:深度学习,卷积神经网络,深度信念网络
1前言
在计算机图像处理中,最困难但又最让人兴奋的任务就是让机器可以实现图像分类,从而通过图像识别物体的种类。
这项任务很难实现。在数据库中的图像总是在不同状态下记录的。这意味这光线与角度的多变性。
而可运用的计算能力的限制是一大障碍。我们不可能像让人类识别图像一样让机器识别图像。计算能力的限制导致可供训练与测试的数据有限,而模型的复杂程度也受到限制。
但是,目前这种情况得到极大的改善。综合多CPU/综合多GPU系统(multi-CPU/multi-GPU systems)使得运行高速神经网络成为现实,而费用也可以负担得起。人们对深度学习模型在图像识别与机器学习中的应用兴趣渐浓,而与之对抗的传统模型日渐式微。目前最具意义的研究方向就是运用深度学习模型,处理综合数据库中的图像识别问题。
本文主要关注深度神经网络(DNN)在图像识别在的作用。
深度神经系统主要有多层特征提取单元组成。低层特征提取单元提取了简单特征,之后依照该单元的规模进行学习,并按该单元的权重或参照物将特征反馈给高层特征提取单元。而高层特征提取单元可以提取更复杂的特征。
目前有一些实现深层学习网络的方法。深度信念网络(DBN)一个多层生成模型,而每一层都是一个统计编码器(statistical encoder)。这些统计编码器都是基于附属于它的更低层的结点(unit)。而这种训练主要关注训练数据中的最大化概率。
DBN在众多领域都有成功运用,如手写数据识别与人类手势识别。
另一个深度学习模型是卷积神经网络(CNN),与相似层次尺寸的标准化前向反馈网络不同,这个模型所需的连接与参照物比较少,使其训练也更简单。
层次深,规模大的DNN结构往往可以产生最好的结果。这意味这我们需要数量巨大的基础样本与种类丰富的训练样本,以确保面对状况多变的数据时,我们的训练数据仍代表性。
2 模型介绍
人类的视觉系统可以在多种情况下高效识别物体,而对计算机算法,这个任务并不简单。
深度神经网络便是模拟哺乳动物视觉网络。这已被验证为这项任务的最佳实现方案。目前,有人已运用这种模型,设计出识别准确性可能高于人类的机器图像识别系统。
2.1 卷积神经网络(CNN)
卷积神经网络系统(CNNs)是专注处理图案识别的多层网络系统。它是多层感知器(Multi-Layer Percentrons,MLPs)的变体,灵感来自于生物系统。 CNNs是分层型(hierarchical)神经网络。通过运用卷积计算(convolution)将集成层(pooling layers)交织起来,CNNs可以实现特征信息的自动提取,形成可完成最终分类的一系列全连接的网络层次。
卷积神经网络
结构:输入,卷积,深层取样(sub-sampling)/总集成与分类层(max-pooling and classification layers)
2.1.1 卷积层(Convolution layer)
卷积成通常可由特征图(feature map)的数目,核(kernel)的大小(sizes),与先前层的联系来展现。
每一层都包含了相同维度的特征图M,如
)
,
(
y
x
M
M;这些特征图可以通过先前层的一系列卷积运算得到。而在这些运算中,它们之间有相互关
联的核(corresponding kernel ),一个线性滤波器(linear filter ),同时还加上了一个偏差项(bias term ),并运用了一个非线性函数(non-linear function )
其中,k 代表第k 个特征图,而W 是其权重,b 是偏差项,tanh 是使用的函数。 接着我们可以得到特征图的表达
其中,参数k 表示该层层数,y x K K ,是核的大小,
y x S S ,是在卷积运算中消去的像素。
卷积运算在一维信号处理时为
而在以上CNNs 运用的二维卷积运算为
来自于一个特征图的神经元(neurons)共享它们的权重;这减少了需学习的参照物数目,更加高效。
2.1.2 总集成层(Max-pooling layer) 总集成层是CNNs 中典型的深层取样层
(sub-sampling )的变式,在神经模型中紧随着卷积层。
这层处理减少了图的大小,从而减少了计算量,加快了收敛速度。它还在广大的范围内设定了恒定性,从而提升了归纳能力。
该层结果是由激活最大的非重合的核区域得到,这与典型深层取样不同。在典型深层取样中,我们只是将这些输入平均化。该层通过一个与核的大小在各个轴都等同的因子,将输入图的样本进行降维、
2.1.3 分类层
我们运用了一些参照物,进行了卷积运算,深层抽样/总集成将样本降维。并且经过最后一层卷积层
后,样本将成为一个一维特征向量。
这个一维特征向量将成为一系列分类层的输入。这一系列分类层是具有典型前向反馈性的全连接层。它将完成分类工作。
2.2 深层信念网络(Deep Belief Network,DBN) 深度信念网络(DBN )一个多层生成模型,而每一层都是一个统计编码器。而这些统计编码器都是基于附属于它的更低层的结点。这可以学习在训练数据中的分层型(hierarchical )表现。
它模拟了输入向量x 与l 隐藏层k
h 的联合分布
),())|((),...,(112
1
l l l l k k l
h h P h h P h h x P ---=∏=
其中)|(,1
0k k h h
P h x -=是受限制波尔兹曼机
(Restricted Boltzmamn Machine,RBM)的可见结点和隐藏结点在第k 层的条件概率。而),(1
l l h h
P -是最
顶层RBM 中可见结点与隐藏结点的联合概率。
DBN 结构