基于YOLO模型图像识别研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于YOLO模型图像识别研究综述
作者:韩素月戴奇林张律
来源:《大经贸·创业圈》2019年第07期
【摘要】近年来,随着计算机技术的发展,图像识别技术在各个领域都有了广泛的应用。同时,图像识别技术也在不断地优化,其在人们的日常生活中发挥着越来越重要的作用。本文主要综述了YOLO模型在图像识别技术上的研究现状。
【关键词】图像识别 YOLO模型
1 引言
随着互联网技术的不断向前发展,人们可以更加便捷地通过个人终端接入互联网,通过移动终端带有的摄像头,随时随地对物体进行拍照,利用互联网进行共享。由于图像本身的特点,图像比传统文字更加生动形象地传达了信息,使人们更容易理解,被人们广泛使用。图像数据的数据量十分巨大,不仅包含着对人们有用的有效信息,还包含着无用的无效信息。作为机器视觉的一个重要领域,图像识别不断满足人们日益增长的美好生活需要,如何快速和高效地处理图像信息有力地推动了图像识别技术的不断发展。近年来,人工智能和机器学习变得越来越熟悉起来,进入了普通大众的视野,极大地促进了图像识别技术的发展。机器识别中的机器视觉是通过模拟人类大脑[1],运用机器来获取图像,然后对图像进行一系列处理,经过抽象、传递和反复迭代,最终达到识别相关物体的目的,最终让机器能够像人一样识别和处理图像信息。YOLO算法大幅提高了图像识别的识别速度和识别准确率,具有良好的经济效益,有很高的研究价值。
2.国内外研究现状
图像识别技术发展至今,一共经历了三个阶段。①文字识别阶段;②图像处理与识别阶段;③物体识别阶段。目前,图像识别领域的重点研究方向是物体识别中的分类识别,目前已经广泛应用于安防领域、交通领域以及互联网领域,物体分类识别主要以特征学习为主。
2016年,Redmon J等[2]提出了YOLO算法。利用YOLO算法对图像中的目标进行特征提取分类识别,可以实现图像特征提取和分类识别的自动化,摒弃了传统图像识别过程中依靠手工标注图像特征的方法,其网络结构是在GoogleNet模型之上建立的。YOLO检测框架把目标检测问题当成一个回归问题,通过划分网格来进行回归目标的位置和类别。YOLO将图片进行7×7的划分,然后通过卷积神经网络也产生这样的7×7的输出,7×7中的每一个输出都去预测中心点落在这个网格上的目标,预测的目标参数包括目标的类别和目标框的位置。YOLO算法主要通过三步实现,首先,将输入图像软寸归一化;其次,卷积网络特征提取,预测边界框置信度;最后,通过非极大值抑制算法过滤边界框,得到最优结果。与Faster R-CNN算法相比,
采用这种统一模型,实现了端对端的训练和預测,其检测速度更快,背景误判率低,泛化能力和鲁棒性较好。但由于每个单元格仅对同一组类别进行边界框预测,这使得YOLO算法的定位准确率受到影响。由于YOLO划分网格的方式,使得对于比较密集的目标无法得到足够的候选网格来对目标进行预测,造成过多的漏检。YOLO对于小目标也检测的不好,主要是网格划分的比较粗糙,对于小目标的特征无法得到很好的保留。这些原因都造成YOLO检测精度偏低。之后,再次提出了YOLOv2,在VOC 2007测试集上进行测试后,mAP由原来的67.4%提高到了76.8%。v2相对之前的v1版本,在继续保持处理速度的基础上,在预测更准确尺,速度更快尺,识别对象更多这三个方面做了改进尺。
YOLO9000[3]是YOLOv2的一个延伸,它在YOLOv2的基础上做了如下改进,使检测精度得到大幅提升:(1)YOLOv2使用了自己设计的一个基础网络,该网络在设计上考虑了卷积的计算量,使得YOLOv2速度比较快。在YOLO9000中,在基础网络上增加了批量归一化,来使网络收敛的更快。(2)在检测时使用比分类更高分辨率的图片,在训练检测网络之前,对预训练的分类器在高分辨率的图片上进行一次微调,使网络提前适应检测图片的分辨率,这也使得分类网络的精度得到一定的提升,得到更好的分类器。(3)使用卷积来替代YOLOv2的全连接进行回归目标的参数。(4)在回归目标宽高的时候,使用多尺度的基准框来对进行匹配训练,减小检测的定位误差。(5)检测不仅需要对目标进行分类,还要对目标进行定位,分类需要高层的语义特征,而定位要图片的细节信息,在该方法中使用跨层的特征融合得到多尺度的特征,得到的卷积特征可以很好的适用于检测。2018年4月,再次提出了YOLOv3算法,与YOLO 9000算法相比,该算法采用残差网络模型Darknet 53进行特征提取,并且利用特征金字塔网络实现多尺度检测。同时,通过分析数据集中目标的分布情况,修正anchor box,使得anchor box更加符合目标尺寸,增强了收敛效果。在Pascal VOC数据集上的实验表明,在不影响检测速度的情况下,YOLOv3准确率提高了1个百分点左右,且收敛速度变快,这使YOLOv3的目标检测能力进一步提升。
3 结论
通过YOLO算法系列的改进可以看出:通过不断优化算法,可以使YOLO算法的检测速度达到实时分析的要求[4],满足人们对高效率、高精度目标识别技术的需要。鉴于图像识别技术的快速发展,YOLO等目标检测算法拥有无比广阔的发展空间,推动图像识别技术不断向前发展。由于YOLOv3算法良好的检测性能与检测精度,其具有比其他版本更广泛的应用意义。
【参考文献】
[1] 高浩宇. 基于机器学习的图像识别研究与应用[D]. 华中师范大学,2018.
[2] Redmon J, Divvala S, Girshick R, et al. You Only Look Once:Unified, Real-Time Object Detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, 2016:779-788.
[3] 郭泽方. 图像物体检测深度学习算法综述[J]. 机械工程与自动化,2019(2).
[4] 吕铄,蔡烜,冯瑞. 基于改进损失函数的YOLOv3网络[J]. 计算机系统应用, 2019(2).