基于深度学习的无人机侦察图像目标识别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019年第19期
信息与电脑
China Computer & Communication
算法语言
基于深度学习的无人机侦察图像目标识别
张清亮 沈寿林 张国宁
(陆军指挥学院,江苏 南京 210045)
摘 要:无人机侦察图像是获取战场情报信息的重要手段。针对侦察图像目标识别速度慢、效率不高等问题,笔者结合研究现状提出将深度学习应用到侦察图像目标识别领域。首先标注了一个地面主要武器装备数据集,然后在YOLOv3算法官方参数权重的基础上采用迁移学习的方法进行微调训练,最后使用训练好的模型进行目标识别。实验结果表明,基于深度学习的YOLOv3算法可以较好地实现无人机侦察图像目标识别,且可以满足实时性的要求。
关键词:深度学习;无人机侦察图像;目标识别;YOLOv3算法
中图分类号:TP751 文献标识码:A 文章编号:1003-9767(2019)19-046-03
Deep Learning Based UAV Reconnaissance Image Target Recognition
Zhang Qingliang, Shen Shoulin, Zhang Guoning
(Army Command College, Nanjing Jiangsu 210045, China)
Abstract: UAV reconnaissance image is an important mean to obtain battlefield information. There are some problems such as
slow speed or low efficiency in target recognition of UAV reconnaissance, deep learning can solve these problems. Firstly, we marked a dataset of target on battlefield. Then, we use transfer learning method for fine-tuning training based on the weights of YOLOv3 official parameters. Finally, we use the trained model for target recognition. The experimental results show that the YOLOv3 algorithm
can realize the target recognition of UAV reconnaissance image, and can also meet the real-time requirements.
Key words: deep learning; UAV reconnaissance image; target recognition; YOLOv3 algorithm
0 引言
信息化条件下,无人机侦察已经成为部队获取情报信息的重要手段,侦察图像能够提供丰富的信息,在作战中可以作为敌情分析、态势判断、毁伤评估的重要信息来源。目前,部队针对侦察图像目标识别的过程高度依赖情报判读技师的经验和直觉,目标识别的准确性和可靠性不高,情报处理速度也相对较慢。随着计算机视觉研究的进展,特别是深度学习算法的兴起,机器在目标识别中的表现已经超越了人类,这也给研究无人机侦察图像目标识别带来了启发。
1 研究现状
从20世纪50年代开始,美国率先开展了图像目标识别的相关理论研究工作,后来在合成孔径雷达图像和无人机侦察图像目标识别等方面开展了实际应用。2017年4月,时任美国国防部副部长的罗伯特·沃克签署了一份备忘录,宣布成立算法战跨职能小组(Algorithmic Warfare Cross Functional Team ,AWCFT ),又称为Maven 项目。该项目的主要目标是将国防部获得的海量数据转化为可执行的情报和信息,重
点是研究战术无人机侦察视频中用于目标检测、分类和告警的计算机视觉算法。
从国内外侦察图像目标识别研究的技术路线来看,目标识别的方法可以分为基于统计的目标识别方法[1]、基于知识的目标识别方法[2]、基于模板匹配的目标识别方法[3]、基于特征分类的目标识别方法[4]、基于视觉注意力机制的目标识别方法和基于深度学习的目标识别方法等几种类型。其中,前5种方法总体上可以称为传统图像目标识别方法,在识别准确率上还难以超越人的识别水平。基于深度学习的目标识别方法通过构建具有多个隐含层的神经网络模型,从侦察图像中学习更具表达性的特征,从而能够提高目标识别的准确性。根据目标识别算法中是否生成候选区域,可以将基于深度学习的算法区分为一步法和两步法两大类。其中,两步法主要步骤包括区域采样、目标分类和目标位置修正,又称为基于区域采样的目标识别算法,具有代表性的算法是R-CNN 系列算法。一步法不生成候选区域,而是直接将边框定位转化为回归问题,使得特征提取、候选框回归和分类在同一个卷积神经网络中完成,实现了端到端的目标识别,检测速度
作者简介:张清亮(1991—),男,河南洛阳人,硕士研究生。研究方向:目标识别。
2019年第19期
信息与电脑
China Computer & Communication
算法语言
也有了明显提升,具有代表的算法是YOLO 系列算法。本文采用的就是YOLO 算法的第3个版本,即YOLOv3算法。
2 算法模型
2.1 模型框架
YOLOv3算法具有检测速度快、通用性强、背景误检率等特点。YOLOv3算法提出了一个新型的图像特征提取网络,由于网络共有53个卷积层,故命名为Darknet-53。它主要由5个残差块组成,每个残差块由多个残差单元,残差单元之间由卷积层相连,具体网络结构如图1
所示。
类 别
通道数
卷积核大小
输出尺寸卷积层 32 3×3 256
×256
1x
卷积层 128 3
×3/2 64
×64
卷积层 256 3
×3/2 32×322x
8x
8x
4x
图1 DarkNet-53网络结构
YOLOv3的输入图像为416×416×3的彩色图像,通过
32倍下采样、16倍下采样和9倍下采样,得到了3种不同尺度的特征图,其中13×13的特征图负责检测较大的目标,26×26的特征图负责检测中等的目标,52×52的特征图负责检测较小的目标。YOLOv3一个预测框的输出为[4+1+N]维的张量,其中前4维代表边界框的参数(t x ,t y ,t w ,t h ),第5维代表边界框的置信度,后N 维代表对应类别的概率,N 在PASCAL VOC 数据集的值为20,在COCO 数据集的值为80,如图2所示。2.2 模型训练
YOLOv3网络的损失函数主要包括物体中心坐标损失、
预测框长宽损失预测框、置信度损失和类别损失4个部分。其中,除预测框长宽损失采用和方差损失外,其余3项均采用二值交叉熵损失进行计算。4个部分的损失按照一定的比例相加可以得到综合损失函数。采用随机梯度下降法对综合损失进行优化,即可完成YOLO 网络训练。
3 实验与分析
3.1 实验环境
深度学习是一个十分耗时的过程,神经网络参数调整伴随着百亿次的浮点运算,搭建一个性能良好的实验环境可以很大程度上提升学习效率。本实验环境的硬件配置如表1所示。
表1 实验环境硬件配置
类别型号CPU Intel Xeon E5-1620
内存32 GB 硬盘512 G
显卡NVIDIA Quadro P4000
显存
8 GB
实验平台采用的操作系统是Windows7 SP1 x64旗舰版,
边框置信度网络数
网络数
网络数
先验框
output 32倍下采样
input
416×416×3
16倍下采样
8倍下采样
CNN(卷积)
13
2倍上采样
1
234
5
67
8
9
边框坐标对象类别数13×13×3×(4+1+80)
26×26×3×(4+1+80)52×52×3×(4+1+80)一个预测目标(4+1+80)
图2 YOLOv3网络输入输出示意图
编程语言采用的是python3.6,编程软件是pycharm 2018.3专业版,具体软件还有NVIDIA cuDNN5.1、CUDA8.0、Anaconda3、OpenCV3.0等。基于CUDA 架构的GPU 编程
由NVIDIA 率先提出,并推出了深度学习加速库cuDNN ,该加速库可以直接集成到深度学习框架中,使用户方便快速地使用GPU 来加速训练神经网络。深度学习框架选择的是