深度学习讲稿

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

卷积神经网络是受灵长类动物视觉神经机制的启发而设计的一种具有深度学习能力的人工神经网络。卷积神经网络属于深度学习架构,其釆用了局部连接、权值共享和子釆样操作,使得需要训练的权值参数减少,因此,卷积神经网络可以在层数较多的情况下,仍然具有良好的表现。除此之外,卷积神经网络还有平移、缩放不变性等诸多优点。卷积神经网络在模拟人类视觉方面效果显著,当输入是图像时,卷积神经网络的这个优点表现的会更为明显,因为图像可以直接作为卷积神经网络的输入,有效地避免了传统算法中的特征提取和数据重建过程,提高了算法效率。卷积神经网络的学习方式,在一般情况下,会釆用有监督的学习或者逐层无监督学习方式。逐层无监督学习存在训练繁琐,时间较长,且训练得到的特征与具体任务不相关等问题;而有监督的学习存在梯度弥散,训练样本不足等问题。

下面我讲一下卷积神经网络的结构。卷积层是卷积神经网络的核心组成部分,其具有局部连接和权值共享特征。卷积层所完成的行为就是前一层的一个或者多个特征图作为输入与一个或者多个卷积核进行卷积操作,产生一个或者多个输出。为了使神经网络具有非线性的拟合性能,须要将得到的结果输入一个非线性的激活函数,通过该函数映射后最终得到卷积层的输出特征图。左图是卷积的示意图。

子采样层的作用是对卷积层输出的特征图进行采样,如右图所示,采样层是以采样区域的大小为步长来进行扫描采样,而不是连续的。每个子区域经过子采样之后,对应输出特征图中的一个神经元,神经元的值有一个计算公式在这里我就不赘述了。

经过卷积神经网络逐层提取到的特征可以输入任何对于权值可微的分类器。这样使得整个卷积神经网络可以采用梯度下降法等基于梯度的算法进行全局训练。下面我们详细介绍一下在卷积神经网络和其他神经网络中都使用比较广泛的softmax分类器和在分类任务中表现优秀的支持向量机。Softmax分类器其原理来源于softmax回归模型,而softmax模型是将logistic回归模型推广到多分类问题上得到的,Softmax 分类器属于有监督的分类器,但是很多时候,该分类器也可以和深度学习模型或者是无监督学习模型一起连接使用。

支持向量机是一种有监督的学习方法(分类器),与模式识别、计算机视觉有着紧密的联系,已广泛地应用于统计分类以及回归分析。

支持向量机属于线性分类器,其优点是能够同时实现最大化几何边缘区与最小化经验误差,因此支持向量机也被称为最大边缘区分类器(maximal margin classifier)。

对于卷积神经网络的训练,包括人工神经网络的训练,经过多年的发展,主要有三种方式,即完全有监督方式[29,30]完全无监督方式[31]和有监督与无监督方式

相结合的方式。

有监督学习是属于机器学习中的一种学习方法,可以从已标记的训练集样本中学习到映射函数。在有监督的学习中,每一个训练样本都包括一个输入对象(通常是以向量的形式表示)和一个理想的输出值,该理想输出值也被称为监督信号。监督学习算法通过对数据分析,进而学习到一个映射函数,该函数能用于映射新的数据样本。一个理想的情况是,对于新的数据样本,该映射函数能正确的给出其类别标签。

在卷积神经网络中,通常采用有监督的方法直接进行训练,有监督的方法最常用的是基于梯度的方法。一般采用的是批处理随机梯度下降法。与有监督学习相对应的是无监督学习,无监督学习并不要求输入的训练数据带有标签,其主要目的在于从无标签的数据中找到隐藏的、更加抽象的结构。

在模式识别和计算机视觉领域,采用无监督学习算法来提取特征已经有很长时间的应用历史了。无监督学习的方法,如稀疏自动编码机、限制玻尔兹曼机、高斯混合模型、主成分分析和k均值等在计算机视觉领域都有着大量的应用。

可将具体的无监督学习算法看做一个黑盒子,其功能是从数据中学习到可以将输入数据映射为一个新的特征向量的映射关系。

卷积神经网络采用上述框架进行逐层无监督学习,有效解决了训练样本不足的问题。

随着机器学习的迅速发展,无监督学习算法也越来越多,在卷积神经网络的发展方面,今后的可能的发展方向是研究更加适合在卷积神经网络中使用的无监督学习算法,改进传统神经网络的学习方式,以提升其性能。

由于深度网络可以无监督地从数据中学习到特征,而这种学习方式也符合人类感知世界的机理,因此当训练样本足够多的时候通过深度网络学习到的特征往往具有一定的语义特征,并且更适合目标和行为的识别。

应用部分

虚拟人脑是谷歌2012年研发出来的基于深度学习的具有自动学习能力的人工智能项目。它采用1000台计算机共 16000个计算节点,利用Youtube网站上的视频作为训练集,花费3天的时间训练出9层的深度自编码器网络。其训练出来的深度神经网络已经可以模拟一些人脑的功能。

2010年开始的大规模视觉识别比赛(ILSVRC)是在ImageNet数据库上进行的有关视觉目标识别的比赛。ImageNet 有超过 10000000 幅图像,超过1000个类别,是目前公开的最大的视觉数据库,因此在这个数据库上进行的比赛反映了目前计算机识别技术的最高水平。

图像的分类和标注是计算机视觉中的两个重要问题。图像分类指的是对图像

内容作整体的描述,例如给定一幅图像判断它属于“海滩”、“厨房”、“卧室”等预先定义好的类别中的哪一类; 而图像的标注指的是对于图像中包含的内容作出判断,例如一幅图像中是否包含“天空”、“汽车”“,树木”等预先定义好的内容。很显然,这两个问题是相关的,虽然对于这两类问题,都有很多方法来解决各自的问题,但是却只有很少的工作尝试同时解决这两类问题[58]。对于这两类问题,目前最流行的方法是使用LDA来进行建模。

最近,有一批科学家提出使用基于神经自回归分布估计器的监督性神经自回归分布主题模型来同时处理图像分类和标注问题。这个算法是一种基于NADE的监督性主题模型,它使用“前向—反向”两步进行优化,在其优化过程中不存在像LD一样的难于计算的归一化因子,因此整个模型可以准确地和有效地求解。文献表明这个模型在同时解决图像分类和标注问题中优于其他主题模型,并且会学习到具有语义特征的“主题”,就是这幅图里面展示的。

相关文档
最新文档