基于Densenet-SVM的遥感图像场景分类网络研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

29
数字通信世界
2023.11
采用卫星遥感技术可以获得大量的遥感场景图像[1]。

为了更好使用这类图像，需要对图像进行分类处理[2]。

实际上，分类是处理遥感图像的一个必要过程，该过程可以通过机器学习和深度学习技术实现。

此外，特征提取一直是利用遥感图像提供信息的有效方法，在许多重要应用中不可或缺。

Li 等人[3]采用深度特征提取和采样特征融合来减轻细节丢失和模糊边缘的影响，并提出一种多级特征聚合网络，用于土地覆盖的语义分割。

胡威[4]将遥感场
景图像区域的场景特征定义为局部特征，并提出一种基于模式挖掘的特征叠加型卷积方法，从而有效发掘其中的视觉元素。

Algarni [5]等人提出一种利用CNN 转移学习进行特征提取和利用深度森林方法进行分类的HRRS （High-Resolution Remote Sensing ，HRRS ）场景分类方法，此方法从最后一个卷积层中提取深层特征，并通过集成学习训练深层森林模型。

汪西莉[6]等人提出一种增强的特征金字塔网络，以提取多尺度和多层次的特征，所采用的一个两分支深度特征融合
作者简介：周易（1983-），男，汉族，四川广安人，讲师，硕士研究生，研究方向为电子与通信工程。

基于Densenet-SVM的遥感图像场景分类网络研究
周易
（绵阳职业技术学院，四川绵阳 621000）
摘要：
遥感图像的场景分类旨在将包含多个地面对象的子区域分为不同的类别，是城市规划和土地资源管理等应用中重要的技术基础。

文章采用一种基于Densenet-SVM的遥感图像场景分类网络，它由特征提取模型、特征映射模型和分类模型三个部分构成。

文章使用了三个DenseBlock，其中包含六个稠密连接层与两个Transition结构交替，为提取滑坡因素的深度特征，从浅到深每个密集块的膨胀率设置为5、2和1，并设计全局池化和稠密层作为特征映射部分。

最后，基于支持向量网络方法完成遥感图像场景分类，将AID数据集中的图像调整为288×288像素作为输入完成实验，将批次大小设置为16，并使用具有动态学习率功能的随机梯度下降法作为优化算法。

关键词：
遥感图像；场景分类；Densenet；SVM；Transition doi：
10.3969/J.ISSN.1672-7274.2023.11.009中图分类号：
TP 18，TP 751 文献标志码：A 文章编码：1672-7274（2023）11-0029-04Research on Remote Sensing Image Scene Classful Network Based on Densenet SVM
ZHOU Yi
(Mianyang Vocational and Technical College, Mianyang 621000, China)
Abstract: The scene classification of remote sensing images aims to classify sub regions containing multiple ground objects into different categories, and is an important technical foundation in applications such as urban planning and land resource management. This paper adopts a remote sensing image scene Classful network based on Densenet SVM, which is composed of three parts: feature extraction model, feature mapping model and classification model. This paper uses three DenseBlocks, including six dense connecting layers and two transition structures. In order to extract the depth characteristics of landslide factors, the expansion rate of each dense block from shallow to deep is set to 5, 2 and 1, And design global pooling and dense layers as feature mapping parts. Finally, based on the support vector network method, remote sensing image scene classification was completed, and the images in the AID dataset were adjusted to 288 × 288 pixels as input to complete the experiment, set the batch size to 16, and use random gradient descent with dynamic Learning rate as the optimizer. Through comparative experiments, it can be seen that the model proposed in this paper can distinguish each category well, with better accuracy than the literature method, which fully proves the effectiveness and stability of the proposed method.
Key words: remote sensing images; scene classification; densenet; SVM; transition
的神经网络，可在多个级别上有效地聚合特征，虽然该方法在遥感场景中都表现良好，但在具体的遥感场景分类上，还存在一些不足，如所采用的二阶池化方法不能对参数进行排序并自动学习。

然而，这些工作仅侧重于利用单个层的特征进行分类。

对于使用多个层进行特征提取，Akila[7]等人引入一个远程场景理解框架，预训练的VGG-Net模型被提出作为深层特征提取器，该方法选择全连接层作为单独的特征描述符，然后将它们组合起来构建最终表示。

为了提取更具代表性的特征，汪西莉[8]等人采用加权空间金字塔匹配协作表示分类方法。

在另一项研究中，Zhang[9]等人预训练卷积网络的多层特征。

然而上述特征描述符是由单个网络获得的，与多个网络相比，单个网络的特征提取能力有限，而且这些特征是从不同的网络层中提取的，导致信息冗余。

DenseNet使用顶部分类器通过特征连接监督所有层，增强每层特征和梯度，该方法的每个隐藏层特征的有效性得到增强或验证。

由此，本文提出一种基于Densenet-SVM的遥感图像场景分类网络，能够对遥感图像场景实现有效的分类。

1 研究基础
1.1 基础网络结构
DenseNet是ResNet的进一步创新[10-11]，这两个神经网络都基于类似的思想，即建立不同层之间的“桥梁”。

然而DenseNet的结构更简单、更有效，参数更少。

与ResNet相比，ResNet中的每个层只连接到前一个层，而DenseNet中每个层直接连接到所有前面的层，并且每个层都可以从损失函数中获取梯度；这种操作可以优化整个网络的信息流和梯度，易于训练，在小数据集上表现更好，DenseNet的结构可以实现更好的特征重用并减少参数数量。

此外，DenseNet层比其他深度学习网络（如CNN和ResNet）的网络层更窄，通过使用较少的特征映射进行学习可以减少冗余。

1.2 自监督学习模型
遥感图像与传统光学图像不同，直接使用ImageNet预训练网络作为遥感图像的特征提取器不合适，从头开始训练一个表现良好的深度网络通常需要大量标记样本，在遥感图像中通常很难获得这些样本。

此外，如何从海量无标签样本中挖掘有价值的信息是值得研究的，自监督学习模型[12]旨在在没有监督的情况下从数据本身中学习有效的表示，它非常适合将遥感图像转换为更富有表现力的遥感图像嵌入空间，而不需要任何标签。

2 改进方法
2.1 特征提取
DenseNet是ResNet的一种变体，可以更好地解决梯度消失问题，与ResNet相比，DenseNet加强了特征的传播，并充分利用了每个块中不同级别的特征；同时，与ResNet相比，它可以显著减少相同层数的参数数量，这个骨干网可以用来提取多种不同尺度的特征，而且这种密集连接的结构进一步跨越这些不同尺度的特征进行交叉链接，在遥感场景图像中表示多尺度对象的复杂语义关系方面，表现优于传统的CNN[13]。

CNN已经显示出对于场景分类的显著特征表示能力。

然而，遥感场景数据集具有很少的图像数量，而且一些传统的CNN方法具有大量的参数和浅层网络层，一方面，由于训练数据很小，常常存在过度拟合[14]；另一方面，浅层网络层导致高级信息的提取受限。

此外，深层网络通过获取更高级别的特征映射产生更具鲁棒性和区分能力的特征，从而更容易识别潜在和固有特征。

然而深层网络容易出现梯度消失等问题，部分抵消了网络深度的效果，许多研究者通过共享一个关键特征来解决这些问题：从前面的层次到后面的层次创建短路径。

DenseNet构建更深层次的密集连接网络并解决上述问题，最重要的架构——密集块层，被设计用于确保网络各层之间的最大信息流动，在这种结构中，每个层使用所有先前层的输入，并将其对应的特征映射传递到所有后续层中。

2.2 特征映射
在D e n s e Ne t的构建过程中，每个层的特征图大小应保持一致，以实现不同层之间的连接，因此，采用“DenseBlock+Transition”结构将网络分成几个密集连接单元，每个单元中的卷积操作使特征图保持一致，然后通过下采样操作将其连接到下一个单元。

本文中的DenseNet结构包含41层，并可调整DenseBlock结构和其他参数。

具体来说，首先使用Conv2D（24,3×3）——批归一化——ReLU提取滑坡的高维特征。

将DenseBlock和Transition模块添加到DenseNet中可以进一步减少特征图和网络参数的数量。

每当处理完一个DenseBlock时，会输出k个特征图，称为增长率，通常将k设置为一个小值。

然而，随着层数的增加，输入到下一层的特征图通常很大，这会导致训练效率低下和内存溢出等问题，因此，在本文中向DenseBlock中添加1×1 Conv2D以进一步压缩特征并
30DIGITCW2023.11
31
数字通信世界
2023.11
提高学习效率。

本文中使用了三个DenseBlock ，其中包含六个稠密连接层与两个Transition 结构交替，此外，为了提取滑坡因素的深度特征，从浅到深，将每个密集块的膨胀率设置为5、2和1。

最后采用全局池化和稠密层，所构建的框架通过学习较少的训练参数来增强特征重用，从而能够学习到更完整的高维滑坡特征。

DenseNet 的数据输入形式与CNN 相同，是一个19×19的补丁，如图1所示。

集住宅、高速公路、港口、飞机场、中密宅区、森林、海滩、稀疏住宅、棒球内场、储罐、河流、跑道、移动房屋、停车场、十字路口、高尔夫球场。

对于每个类别，有100张256×256的图像，分辨率为30厘米，包含三个RGB 通道。

在A I D 中对不同类别进行分类是一项具有挑战性的任务，由于每个类别的图像数量有限，并且存在一些类别之间非常相似，如中等和住宅密集区域、稀疏住宅和松球场容易导致错误分类。

将每个类别80%的图像用于训练，其余的图像用于测试。

3.2 实验设置
为了准确评估所提出的方法，本文中保持与以前实验相同的训练-测试比例。

对于AID ，训练-测试比例分别为20%和50%，考虑用每个数据集的两种不同的训练-测试比例来全面评估基于Densenet-SVM 的遥感图像场景分类网络，在这项工作中，使用Pytorch 框架实现所提出的方法，网络参数和设置如下：将所有图像调整为288×288像素作为输入，然后将批次大小设
置为16，并使用具有动态学习率功能的随机梯度下降法作为优化算法，训练轮数的数目持续到网络收敛；实验在一台计算机上执行，配备有双路Intel Xeon E5-2620 v4处理器、两个1080Ti GPU 和128 GB 内存。

3.3 准确性评估
使用总体精度（Overall Accuracy ，OA ）和混淆矩阵评估基于Densenet-SVM 的遥感图像场景分类网络的性能，OA 被定义为正确分类的图像总数除以测试集中的图像数量，这表明在预测实际图像方面的分类性能。

在混淆矩阵中，每列代表预测实例，每行代表类别数据的实际属性，因此，混淆矩阵可以直接显示每个类别的分布，并可用于简单分析不同类别之间的误分类。

为了减少随机性的影响以获得可靠结果，本文中通过随机划分数据集进行十次实验，对十次重复的整体精度进行均值和标准偏差作为最终性能。

表1为AID 下的部分常见的采用本文中方法与文献[5]中方法的分类结果准确率对比。

表1 AID下的部分常见的采用本文中方法与文献[5]方法的分类结果准确率对比
类别密集住宅高速公路港口飞机场中密宅区森林海滩本文中方法 98.3 98.197.6 97.7 96.897.397.1文献[5]方法
92.1
91.3
91.5
90.5
90.6
91.8
93.5
3.4 混淆矩阵
图2是基于De n se net-SV M 的遥感图像场景分类网络在20%训练数据集的条件下，
表现最佳混淆
图1 Densenet模型
2.3 样本分类
接下来的步骤是基于支持向量网络（Su p p o r t Vector Machines ，SVM ）方法完成分类，训练分类器对通过DenseNet 处理后的特征和σ°值进行分类。

SVM 使用核技巧进行非线性分类，核函数可以将数据转换成更高维度的空间，以使得当类别标签与属性之间的关系为非线性时，可以进行非线性的分离。

常见的选择是高斯核函数，在本文的研究中，使用径向基函数核（RBF 核），发现它在各种应用中都能很好地工作。

本文中使用scikit-learn 开源实现SVM 分类方法，scikit-learn 中的SVM 模型可实现基于SVM 的遥感图像场景分类；基本上，SVM 使用低级方法训练模型，只能解决二分类问题，在多类别分类的情况下，LIBSVM 通过逐个拟合所有二进制子分类器并通过投票机制找到正确的类别，实现“一对一”技术。

3 实验与分析
3.1 实验数据集
AID （Aerial Image Data set ，AID ）是一个广泛使用的基准数据集，用于测试场景分类方法的有效性，这是第一个从可用高分辨率遥感影像中生成的地面真实数据集，所有这些影像都是从航空正射影像中提取的，包含16个典型的土地利用类别，即密
32DIGITCW
2023.11
器，对通过DenseNet 处理后的特征和σ°值完成样本分类。

将所有图像调整为288×288像素作为输入，然后将批次大小设置为16，并使用具有动态学习率功能的随机梯度下降法作为优化算法，在A I D 数据集中完成实验与分析。

为了减少随机性带来的影响以获得可靠结果，本研究通过随机划分数据集进行十次实验，对十次重复的整体精度进行均值和标准偏差作为最终性能。

此外，通过混淆矩阵可说明，本文提出的模型可以很好地区分每个类别，实验结果论证了基于Densenet-SVM 的遥感图像场景分类网络的有效性和稳定性。

■
参考文献
[1] 黄净晴，王浩．一种融合RF-SVM 的无人机遥感图像信息提取与分类技
术[J]．长春师范大学学报，2023(4):66-71.
[2] 宁晨，谢红薇，孟丽楠．融合BOVW 和复杂网络的高光谱遥感图像分类
[J]．计算机工程与应用，2022(9):219-229.
[3] Li Xiaolong,Li Yuyin,Ai Jinquan,et al. Semantic segmentation of UA V remote
sensing images based on edge feature fusing and multi-level upsampling integrated with Deeplabv3.[J]. PloS one,2023,18(1): e0279097-e0279097..
[4] 胡威，管雪元，付珩．基于多尺度特征融合与混合注意力的云检测算法
[J]．电子测量技术，2023(3):142-149.
[5] Algarni Abeer D.,Alturki Nazik,Soliman Naglaa F. et al. An Improved Bald
Eagle Search Algorithm with Deep Learning Model for Forest Fire Detection Using Hyperspectral Remote Sensing Images[J]. Canadian Journal of Remote Sensing,2022,48(5):609-620.
[6] 汪西莉，梁正印，刘涛．基于特征注意力金字塔的遥感图像目标检测方
法[J]．遥感学报，2023(2):492-501.
[7] Akila G.,and Gayathri R. Weighted multi-deep feature extraction for hybrid
deep convolutional LSTM-based remote sensing image scene classification model[J]. Geocarto International,2022,37(27):18217-18253.
[8] 汪西莉，梁正印，刘涛．基于特征注意力金字塔的遥感图像目标检测方
法[J]．遥感学报，2023(2):492-501.
[9] Zhang Haopeng, Zhang Cong, Xie Fengying, et al. A Closed-Loop Network
for Single Infrared Remote Sensing Image Super-Resolution in Real World[J]. Remote Sensing,2023,15(4): 882-882.
[10] 文飞，莫嘉维，胡宇琦，等．基于卷积神经网络遥感图像的荔枝花期
长势评估[J]．华南农业大学学报，2023(1):123-133.
[11] 朱皓辰，吴艳兰，何彬方．基于改进DenseNet 模型的高分遥感影像城
市裸地提取[J]．安徽农业大学学报，2022(5):799-808.
[12] 周楚昊，林培群，闫明月．基于自监督学习的交通数据补全算法[J]．
华南理工大学学报（自然科学版），2023(4):101-114.
[13] 龚嘉瑶，王钟庄．基于云计算技术的网络信息数据聚类分析方法[J]．
信息与电脑（理论版），2023(3):16-18.
[14] 李作春，周秀梅，袁鼎荣．代价敏感学习的过度拟合问题研究[J]．广
西大学学报（自然科学版），
2009(6):809-814.
矩阵的结果。

其中，有10个类别的分类准确度大于98%，其中“中密宅区”和“海滩”的分类准确性相对较低，分别为96.8%和97.1%，这是由于这两类场景易与其他场景混淆；本文中提出的模型可以很好地区分每个类别，因此，说明了方法的有效性和稳定性。

图2 混淆矩阵的结果
4 结束语
遥感图像场景分类为环境预测、灾难抢险和地表地貌分类提供了理论基础，本文首先分析了基础网络结构和自监督学习模型，基本的卷积神经网络模型包含5个层次：输入层、卷积层、池化层、全连接层和输出层；自监督学习模型旨在在没有监督的情况下从数据本身中学习有效的表示，它非常适合将遥感图像转换为更富有表现力的遥感图像嵌入空间，而不需要任何标签。

基于此，本文给出了基于Densenet-SVM 的遥感图像场景分类网络，其特征提取模块采用DenseNet 结构，该结构加强了特征的传播，并充分利用了每个块中不同级别的特征。

同时，与ResNet 相比，它可以显著减少相同层数的参数数量。

在这种结构中，每个层使用所有先前层的输入，并将其对应的特征映射传递到所有后续层中，在特征映射模块中。

本文使用了三个DenseBlock ，其中包含6个稠密连接层与两个Transition 结构交替。

最后，训练支持向量网络分类。