基于卷积神经网络的图像识别系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于卷积神经网络的图像识别系统作者:李航厉丹朱晨姚瑶张丽娜

来源:《电脑知识与技术》2020年第10期

摘要:卷积神经网络是人工神经网络与深度学习相结合,从而实现深度学习的方法。其具有良好的容错性、自适应性以及较强的自学习能力,还具有自动提取特征、权值共享以及输入图像与网络结构结合良好等优势。基于卷积神经网络和深度学习的图像识别系统,首先对不同的图像进行采集,将采集的得到的结果作为训练集和测试集。通过卷积神经网络对采集结果的训练,得到用来识别的各类特征,识别的结果可以得到图像的类别信息。

关键词:卷积层神经网络;深度学习;图像识别;图像分类;Alexnet构架

中图分类号:TP183 文献标识码:A

文章编号:1009-3044(2020)10-0196-02

随着科学技术的飞速发展,图像识别技术在社会各领域得以应用。图形识别技术可以作为一项基础技术应用于如工业零件分类、人脸识别以及手势识别等。当前的图像识别也是作为一项十分热门的技术被大众所广泛讨论。

深度学习是机器学习的一个新的热门研究方向,其旨在模仿人类的学习模式,通过对输入样本的训练与测试,由简及深地提取特征来区分样本。通过深度学习来进行图像识别也是如此,通过对于图像样本的训练和测试,对样本进行分类。本文讨论深度学习应用在图像识别这一课题。

1卷积神经网络

1.1卷积神经网络结构

卷积神经网络与普通神经网络非常的相似也具有可学习的权重和偏置常量的神经元组成,每个神经元都接收一些输人,并做一些点积计算,输出是每个分类的分数,普通神经网络里的一些计算技巧到这里依旧适用,卷积神经网络由输出层、卷积层、池化层、全连接层组成。

输入层是对于整个神经网络的一个输入,通常为一张图片的像素矩阵。其中,在CNN层次结构中,对于黑白图片的输入为一张二维神经元,而对于RGB格式的图片,输人为一张三维神经元。

卷积层是卷积神经网络中最为重要和关键的一层。卷积神经网络中的卷积层由若干的卷积单元所组成。卷积层中的输入只是上一层神经网络的一小部分,卷积层将输入分为一个又一个小区域例如3*3、5*5进行特征提取。第一次的卷积是对低层次的、简单的特征如线条和边角等进行提取,之后逐层不断地提取和压缩,最后以得到较为高层次的特征。换言之,也就是说对于之前所提取出原始的特征进行逐渐地压缩、提炼。这样使我们最后提取到的更加有效、可靠。可以将最后提取出的特征用来分类。卷积层的正向传播映射为:

全连接层在卷积神经网络中起到了“分类器”的作用,全连接层的每一个节点都与上一层每个节点连接,也就是把前一层的输局部特征都综合起来,变成全局特征,最后计算每一类的得分,进行分类。

2基于卷积神经网络的图像识别系统

本文的基于卷积神经网络的图片识别系统的实验过程总体上可分为四点:A、数据集的准备:准备数据集,即为对物品进行拍摄整理或者搜集有关图像的图样。B、计算机模拟训练:将之前所收集的数据集在分作训练集、测试集,对于数据集输入进行训练。C、进行图像识别:基于卷积层的神经网络识别系统对于训练集可生成图像识别的模型,以此完成对于图像的识别。D、输出显示:将图像识别的输出结果进行显示。

2.1实验数据集准备

本文将选取几种常见的物体图像进行图片识别实验。本次的数据集的样本主要通过搜集图片的方式来完成。通过搜集不同角度的、不同光线条件下的同一零件的图片来准备数据集。对于图片,也可以通过拍照的方式来获取样本进行训练。我们可以通过自己拍的照片来制作图片数据集文件来完成训练集和测试集的准备。本文所采集的图像部分样本如图所示:

2.2模型训练

在本系统中是用的是Mexnet构架,Alexnet一共有八个权重层,分别是由5个卷积层和三个全连接层组成,每个卷积层和全连接层都会受到ReLU激活函数的作用,在第一个卷积层和第二个卷积层后面连接一个局部响应规范化层,最大池化层作用在第一个卷积层、第二个卷积层和第五个卷积层的输出上。AlexNet在结构总抛弃了以往的“s”形激活函数,传统的“s”型激活函数有sigmoid函数和tanh函数:

sigmoid函数具有饱和性,当输人较大或者较小的时候,输出的曲线接近平缓,此时梯度几乎为0,会造成消失的梯度的问题,并且它的输出均值不为0,可能会造成偏置转移,会使得后一层的神经元将上一层的输出的非0均值的信号作为输入,并且它的输出范围在0~1,没有包含负信息,可能会损失一部分有用的信息。

tanh函数的输出值的范围为[-1,1],其输出均值为0,并且包含了负信息,但是由于它也具有饱和特性,所以也会造成消失的梯度问题。

ReLU的形式为:f(x)=max(0,x),当输入为正时,输出值取其本身,此时关于输入x的导数为1,是一个常数,避免了消失的梯度问题,并且当输入小于0时,输出为0,引进了稀疏性,能够加速训练,但是由于其输出均值也大于0,所以也会出现偏置转移现象,并且由于当输入小于0时,对应的神经元输出为0,梯度为0,对应的权重也就无法更新。Mexnet 网络结构图如下:

2.3进行图像识别

通過模拟训练,系统得到了一个图像识别的深度学习模型。部分识别结果如下图4所示,其中(a)橡皮鸭的识别结果,(b)为招财猫的识别结果,(c)为茶杯的识别结果。本次实验训练集为1000,测试集为300,正确率可以稳定在95%左右。

3总结与展望

本文所研讨的是基于卷积层神经网络的图像识别系统。通过对于图像拍摄以及图像搜集,准备数据集来进行模拟训练进而实现对于图像的识别。本系统所研讨的方向有较大的应用价值,其可以作为一项基础的技术在社会各领域都有一定的应用前景。但是有关图像的种类我们所做的测试还不够,还可以扩大训练集。其次对于比较复杂特征的图形识别做的研讨还不够,仍值得进一步研究、实验。

相关文档
最新文档