西北工业大学人工神经网络考试报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

研究生专业课程考试答题册

学号

姓名

考试课程人工神经网络及其应用

考试日期

西北工业大学研究生院

基于AlexNet的图像分类

近几年,随着深度学习的崛起,越来越多的科研工作者开始使用深度学习的方法进行实验,并且取得了非常不错的成绩。目前,深度学习算法主要应用在语音识别、图像识别以及自然语言处理领域。本文根据所给的训练样本,选取深度学习方法进行图像分类。

1.图像分类

1.1传统方法

图像分类是机器视觉中的一个基本问题。针对这一问题的模型框架主要包括图像预处理、图像特征提取、分类器设计三个步骤。其中特征提取是生成图像表示的过程,也是图像分类中最重要的一步,鲁棒的特征表示是提高分类正确率的关键。关于图像表示,相关学者提出了许多特征表示法,例如基于部位模型[1]、BOW[2]模型等等,在这些模型当中,BOW模型的鲁棒性最强,具有尺度不变性、平移不变性以及旋转不变性等优点,使其在实际问题中得到广泛应用,包括图像分类、图像标注、图像检索以及视频事件检索等,并且在Caltechl01等库中取得很好的分类效果。

1.2卷积神经网络模型

在传统的图像分类方法中,首先对原始图片进行预处理,然后根据BOW最后选择合适的分类器进行分类,如图1.1所示。然而,在传统方法中,特征都是人为设计的,包括底层特征的选择、码本长度的设置、编码策略的设计、池化方法的选择以及空间金字塔区域的划分形式等,这些人为因素对特征产生很大的影响,目前没有理论上的公式给出最优的设计因素组合,所以只能从经验上进行判别和设计,降低了特征的表达能力和可靠性,并且针对不同的数据库,需要重新设计以上因素,导致传统特征模型的通用性不强,关于特征的表达能力也未能给出理论上的估计。

图1.1传统分类与卷积神经网络分类模型

如图1.1所示,在卷积神经网络中,直接输入原始图像,在网络的最后一层加上分类器,根据分类器的预测结果使用反馈传播(Back Propagation,BP)算法更新权值参数,最后得到的网络模型能够自动学习给定数据集的样本特征。所以,与传统图像分类模型不同,CNN是一个特征学习模型,从原始图像到类别预测整个过程都是自动训练和学习的过程,不需要人为参与和设计,具有很强的鲁棒性和表达能力,在图像分类中的性能远远超过SIFT和HOG等传统特征。

在模式分类中,为了获得非线性的、自适应的、自组织的识别系统,美国心理学家麦卡洛克(W.McCulloch)和数学家皮茨(W.Pitts)最早使用数学模型对人脑神经系统中的神经元建模,提出神经网络数学模型的概念;随后,美国计算机科学家罗森布拉特(F.Rosenblatt)最早于1957年提出感知机模型,使用阈值激活函数,并在神经网络数学模型中引入学习和训练的概念和功能,通过连续调节和更新网络的权值参数来学习网络模型;到1959年,美国的威德罗(B.Widrow)和霍夫(M.Hom)提出自适应线性元件,对每个神经元使用线性激活函数,并采用W-H 学习规则训练权值,从而得到比感知机更低的测试误差以及更快的收敛速度;到了1986年,美国的心理学家麦克利兰(McClelland)和人工智能专家鲁梅尔哈特(Rumelhart)提出了经典的反馈传播神经网络模型,即BP神经网络模型,使用误差反传和梯度下降法逐层更新网络的权值参数,从而逼近任意的非线性可微函数,实现模式识别、函数逼近等功能。后来,在人工神经网络的实践应用中,接近80%到90%的研究工作均采用BP网络模型或者它的变化形式[3]。

尽管选择非线性激活函数以及多层前向网络可以学习复杂的、高度非线性的模型,实现模式识别或分类等功能。但是传统人工神经网络仍然存在很多局限性:第一,参数太多,传统人工神经网络的逐层连接方式均为全连接,每一层都涉及到大量的矩阵乘积运算,参数个数与节点数呈倍数增长,导致传统神经网络模型

的参数过多,容易引起过拟合问题,为了防止过拟合,传统神经网络模型的层数一般设置的很少,限制了网络深度的增长和网络学习能力的增强;第二,局部极小值问题突出,训练传统人工神经网络模型的方法中,并没有提出良好的参数初始化策略,导致网络收敛到局部极小值的问题比较突出;第三,训练过程缓慢,BP网络的隐含层通常使用sigmoid或者tanh等激活函数,这些非线性激活函数存在非常广泛的饱和区域,当神经元输入值落于函数的饱和区时,得到的函数导数值非常小,使得训练过程中,根据梯度下降法更新的网络权值基本不变,从而出现神经元“麻痹”的现象,导致训练过程非常缓慢

针对传统神经网络存在的问题,在图像分类中,引入卷积神经网络模型。与统神经网络模型相同,CNN模型是由多个网络层以有向无环图形式连接而成的网络结构,针对传统人工神经网络存在的缺点,CNN模型在结构和训练方法上做出如下改进:

第一,通过权值共享和局部感受野连接来减少参数个数。为了减少参数个数,CNN模型的大部分网络层(通常是网络前面的层)采用卷积层结构,而不是全连接结构,卷积层的每个节点仅与前一层的部分神经元连接,并且属于同一通道的所有神经元共享一个卷积核参数,从而大幅度减少网络的参数个数。

第二,增加网络的层数,从而增强网络的学习能力。卷积神经网络通过权值共享大大减少了参数个数,所以在CNN中可以增加网络层数从而增加模型的深度,目前常用的传统人工神经网络模型大多包含3个网络层,而常用的卷积神经网络结构则大多包含8个以上的网络层,使用较深的结构可以获得更好的非线性特征以及更好的表达能力。

第三,使用更好的权值初始化策略和激活函数,提高训练速度和精度。文献[4]提出高斯权值初始化策略,提供较好的初始权值,使得网络收敛于全局最优点或者更好的局部极值点;此外,Krizhevsky等人在CNN模型中引入RELU激活函数,从而获得比sigmoid、tanh等非线性激活函数更快的收敛速度和更低的误差,避免传统BP神经网络中的麻痹现象。

第四,通过dropout、逐层学习技术来避免过拟合以及梯度弥散问题。在训练CNN模型的过程中,随机选择全连接层的部分神经元,将激活值设置为0,从而加快训练速度,避免产生过拟合问题;此外,对于深度网络的训练,首先使

相关文档
最新文档