基于Deeplab_v3+的高分辨率遥感影像地物分类研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
传统的面向对象方法和机器学习方法在高分辨率遥感影像信息提取方面发挥了重要作用[1-9]。
近年来,卷积神经网络(CNN )发展迅速[10-19]。
当前这些方法均在一定程度上提升了图像分类精度,但是仍然存在着一些不足之处。
Deeplab v3+[20]是Deeplab 系列的最新改进模型版本,具有多尺度捕捉对象信息、获取目标清晰边界的优点,是目前最新的语义分割网络之一。
为了实现自动化程度更高、结果更精确的高分辨率遥感影像特征信息提取,本文深入分析Deeplab v3+模型结构,基于GF-2米级与无人机亚米级遥感影像与其他网络模型开展地物分类对比实验,探究了该模型在高分影像几何结构特征提取方面的优势和有效性。
1Deeplab v3+网络模型
1.1
模型结构
DeepLab v3+网络由两部分组成:编码和解码模
块,编码模块由改进的Xception 网络[20]和ASPP [21]模块组成。
如图1所示,训练样本经由Xception 网络提取特征,然后经ASPP 获取多尺度信息并聚合全局特征,最后经1×1卷积输出具有深层特征的特征图。
将该特征图做双线性上采样,同时把对Xception 网络对应的同分辨率浅层特征做1×1卷积。
最后将浅层特征和深层特征做卷积融合连接,对该多尺度特征做双线性上采样并实现分类预测。
1.2
Xception 改进模块
如图2所示,Xception 网络框架分为三部分:入口流、中间流和出口流。
入口流用于对输入图像下采样以减小空间尺寸,而中间流则用于连续学习关联关系和优化特征,出口流对特征进行排序以获得粗略的得分图。
结构图中的红色部分为改进部分:①中间流层数变多,深度可分离卷积层的线性堆叠由重复8次改为16次;②将原来简单的池化层改成了stride 为2的
基于Deeplab v3+的高分辨率遥感影像地物分类研究
陆妍如1,毛辉辉1,贺
琰1,宋现锋1,2*
(1.中国科学院大学资源与环境学院,北京100049;2.中国科学院地理科学与资源研究所,北京100101)
摘
要:采用Deeplab v3+语义分割网络模型开展了高精度地物分类研究,并与FCN 、UNet 、SegNet 等网络模型对比分析,结
果表明Deeplab v3+提取的耕地、植被、建筑用地、道路、水系等地物图斑,其分类总体精度与Kappa 系数在各项指标上均优于FCN 、UNet 、SegNet 。
此外,Deeplab v3+在路网道路、建筑物等线性特征显著、形状或边界变化剧烈的地物目标上,对图像纹理及空间几何特征的识别,都具有更高的有效性和适用性。
关键词:Deeplab v3+;高空分辨率遥感影像;语义分割;地物分类中图分类号:P237
文献标志码:B
文章编号:1672-4623(2022)06-0001-06
doi:10.3969/j.issn.1672-4623.2022.06.001
Jun.,2022Vol.20,No.6
地理空间信息
GEOSPATIAL INFORMATION
2022年6月第20卷第6期
High-resolution Remote Sensing Image Land Use Classification Based on Deeplab v3+
LU Yanru 1,MAO Huihui 1,HE Yan 1,SONG Xianfeng 1,2
(1.College of Resources and Environment,University of Chinese Academy of Sciences,Beijing 100049,China;2.Institute of Geographic
Sciences and Natural Resources Research,Chinese Academy of Sciences,Beijing 100101,China)
Abstract:We explored land use classification based on Deeplab v3+semantic segmentation network model to avoid reducing the loss of spatial features.In the test of classifying popular UA V aerial images and GF-2satellite images,Deeplab v3+models achieved the best performances on overall accuracy,Kappa coefficient and other indicators on cultivated land,vegetation,building block,road and water body in comparison with traditional FCN,UNet,and SegNet models.Moreover,Deeplab v3+shows a super capability on pattern recognition of building blocks and linear features(roads)and is not affected by adjacent land parcels.
Key words:Deeplab v3+,high-resolution remote sensing image,semantic segmentation,land cover classification
收稿日期:2021-04-08。
项目来源:国家重点研发计划(2020YFC1807103,2017YFB0503702);中国科学院大学科教结合协同育人专项(117900M002);企业委托项目(E041050601)。
(*为通信作者)
地理空间信息第20卷第6期
深度可分离卷积;③额外的RELU 层和归一化操作添加在每个3×3深度卷积之后。
Conv 32,3×3,stride 2Images
Conv 64,3×3Sep Conv 128,3×3sep Conv 128,3×3SepConv128,3×3,stride2Sep Conv 256,3×3Sep Conv 256,3×3SepConv256,3×3,stride2Sep Conv 728,3x3sep Conv 728,3×3SepConv728,3×3,stride2Entry flow
Middle flow
Conv128,1×1,
stride 2
Conv256,1×1,stride 2
Conv728,1×1,
stride 2
Erit flow
Sep Conv 728,3×3Sep Conv 728,3×3Sep Conv 728,3×3
Repeat 16times
Sep Conv 728,3×3
sep Conv 1024,3×3SepConv1024,3×3,stride2
sep Conv 1536,3×3Sep Conv 1536,3×3
sep Conv 2048,3x3
Conv1024,1×1,stride 2
图2Xception 改进网络结构图
1.3ASPP 和编解码模块
ASPP 模块包含两部分:一是使用多个不同大小
的空洞卷积核并行地对输入特征图进行特征提取,获取不同感受野大小的特征图;二是将输入特征图做全局平均池化来取得图像上下文信息,然后将这些不同尺度特征融合以获取更精准的深层语义特征。
在编码阶段,网络通过卷积等操作减小图片尺寸并学习输入图像的特征图;在解码阶段,通过卷积、上采样等方法逐渐恢复目标细节和空间信息。
编解码器能够极大提升神经网络前向、后向传播效率,减少内存资源的使用。
1.4
扩张卷积和深度可分离卷积
扩张卷积[22]是在标准卷积的核中注入空洞,使其不通过池化层也能有较大的感受野,在不降低分辨率的情况下聚合范围更广的特征信息。
如图3所示,以
3×3的卷积核为例说明感受野的增加情况。
空洞率为2的3×3卷积核的感受野已经增大为7×7。
同理,空洞率为4的3×3卷积能达到15×15。
a 标准卷积
b 空洞率为2
c 空洞率为4
图3扩张卷积
3channel Input Filters *4
Maps *4
Maps *3
Filters *4Maps *4
3channel Input Filters *3Maps *3
a 标准卷积
b 深度卷积
c 逐点卷积
图4深度可分离卷积
深度可分离卷积[20]把标准卷积分解为深度卷积和逐点卷积(图4),其中深度卷积独立对每个输入通道做空间卷积,逐点卷积用于结合深度卷积输出。
深度可分离卷积极大地抑制模型参数的增加。
Deeplab v3+网络将扩张分离卷积,应用于ASPP 和解码器模块。
2实验设计
本文利用高分辨率遥感影像为实验数据集,开展Deeplab v3+和UNet 、SegNet 、FCN8s 的地物分类对比实验,比较分类精度和分析地物识别存在差异的原
Encodcr
Decoder Low level
features
Multi -scale contextual features
Image
Prediction
图1Deeplab v3+网络结构
·
·2
第20卷第6期
因,探查Deeplab v3+模型在富含纹理特征的高空间分辨率遥感影像分类上的有效性与适用性。
2.1
数据集选择
本文采用2种遥感影像实验数据集(图5),GID 数据集[23]空间分辨率为4m ,光谱为可见光波段(RGB )和近红外波段(NIR ),地物类型6类(耕地、植被、建筑用地、道路、水系以及其他)。
CCF 数据集空间分辨率为0.3m ,光谱为可见光波段(RGB ),地物类型5类(植被、建筑、水体、道路以及其他用地)。
图例
其他植被建筑水体道路
a GID 数据集
b CCF 数据集
其他
耕地植被
建筑用地道路水系
图例
图5数据集示例
2.2训练样本构建
两组图像覆盖范围都比较大,空间分辨率高,图
像尺寸大且不统一,直接输入整幅图像训练模型会造成内存溢出。
本文以128像素为步长、以256×256像素为裁剪尺寸,对影像进行从左到右、从上到下的滑动窗口裁剪以获取训练样本切片数据。
此外,原始数据存在类别分布不均衡问题(表1),本文去除0值像元占面积70%以上的训练切片,以平衡正负样本量。
数据增强可以在数据集有限的情况下达到扩充训练数据的效果,即数据增多使得模型过拟合概率降低,增强了模型泛化能力。
本文采用旋转、翻转等方法,获得GID 有效样本82264个,训练集和验证集按
4∶1比例进行划分,CCF 有效样本54304个,训练集和验证集按3∶1比例进行划分。
表1
两个数据集地物分布占比
GID 数据集耕地植被建筑用地道路水系其他
占比/%31
0.916.2
1.83.846.3
CCF 数据集植被建筑水体道路其他—
占比/%23.130.35.48.233.0
—
2.3分类精度评价
混淆矩阵是比较遥感影像分类结果与参考结果的
常见统计方法,其分类精度评价指标包括总体精度
(overall accuracy ,OA )、精确度(Precision )、召回率(Recall )、F 1值、交并比(IoU )和Kappa 系数。
其中,总体精度表示正确分类的像素占总像素的比例;精确度表示在预测该类别像素中被预测正确的比例;召回率表示该类别在真实像素中被预测正确的比例;F 1值为召回率和准确率的调和均值;交并比反映了实
际类别样本和预测类别样本的交集和并集之比。
OA =
TP +TN
TP +TN +FP +FN P =TP
TP +FP R =TP
TP +FN F 1Score =2´P ´R
P +R IoU =
TP TP +FN +FP
式中,TP 是分类准确的正类;FP 是被错分为正类的负类;TN 是分类准确的负类;FN 是被错分为负类的正类。
Kappa =
P o -P c 1-P c
式中,P o 是每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度。
假设每一类的真实样本个数分别为a 1,a 2, ,a c ,而预测出来的每一类的样本个数分别为b 1,b 2, ,b c ,总样本个数为n ,则有:P c =
a 1
b 1+a 2b 2+ +a
c b c
n ´n。
2.4实验平台及参数设置
本文实验以Pytorch 为开发框架,OS 为Ubuntu ,
CUDA 版本为11.0,显卡RTX 2080TI GPU 的显存11G*8,机器内存为48G 。
GID 数据集分类模型的超参数:通道个数为4,类别数为6,batch size 为8,epoch 为
陆妍如等:基于Deeplab v3+的高分辨率遥感影像地物分类研究·
·3
地理空间信息第20卷第6期
20,优化算法Adam ,基础学习率0.0003。
CCF 数据集分类模型的超参数:通道个数为3,类别数为5,
batch size 为8,epoch 为50,优化算法Adam ,基础学习率0.001。
此外,训练样本类别不平衡造成的信息失衡会对网络分类的性能产生较大影响。
本文在训练
过程中采用了Lovasz-Softmax [24],它是一种基于IoU 的损失函数,可有效减弱上述影响。
3结果分析
3.1不同语义分割网络对GF-2影像的地物分类结果
比较
使用GID 数据集对Deeplab v3+、UNet 、SegNet 和FCN8s 网络进行训练并将分类结果与真值比较,得到各语义分割模型的分类结果精度指标(表2)。
表2
语义分割网络分割结果指标对比
方法Deeplab v3+UNet
SegNet FCN8s OA
0.94560.93100.91720.8559Kappa
0.91450.89280.87090.7708在总体精度OA 指标上,Deeplab v3+表现最优,FCN8s 得分较低;在Kappa 系数方面,Deeplab v3+得
分在0.9之上,相较UNet 、SegNet FCN8s 有明显优势。
图6分别给出了测试影像完整图幅和其局部特征区域的分割结果,其中第一行图像为不同语义分割模型的完整图幅分类结果,可以看出4个模型对大型水系均有较好的分割效果,但FCN8s 模型对建筑用地的识别效果不佳;第二行影像侧重于展示各模型对桥体的提取效果,其中仅Deeplab v3+能够精准识别出细小狭长的桥体目标;第三行影像着重显示各模型对建筑用地与道路的划分效果,相较于其他三类模型,Deeplab v3+能够提取清晰的路网及建筑用地轮廓线;第四行影像侧重于比较各模型对湖泊的提取效果,其中Deeplab v3+表现最佳,能够精确的检测出湖泊边界。
从整体视觉上看,相比于Deeplab v3+的优异表现,UNet 、SegNet 、FCN8s 的分割结果不够理想,这是由于它们多次使用池化操作,损失了影像中的高频成分,丢失了位置信
息,造成地物分类精度较差,且分割边界较粗糙。
图7和表3揭示了各模型对不同地物类型的识别能力。
Deeplab v3+、UNet 、SegNet 都对水系有着较好的分割效果,F 1值均大于0.9,这是由于水体在近红外波段与其他地物的显著差异性所致。
对于道路等细小狭长线状目标,所有模型识别效果都有所降低,其原因可能在于:①道路细长的空间形态特性,使得识别不全,导致召回率较低;②道路像元数目在训练集占比很低(1.8%),稀疏样本使得训练不充分;尽管如此,Deeplab v3+提取的路网仍然最为清晰、完整;对于建筑用地、耕地等块状地物分类,Deeplab v3+的F 1值分别为0.956和0.938,IoU 为0.916和0.888,明显优于其他模型。
同其他3种模型相比,Deeplab v3+使用扩张卷积替代连续池化,在不降低特征空间分辨率的情况下增大感受野,使得输出特征更加稠密,有效解决了高分影像地物的“同物异谱”问题。
针对物体的多尺度问题,ASPP 模块以不同采样率的扩张卷积采样,多比例捕捉图像信息,提高了特征提取能力。
编码-解码模块则逐步重构空间信息精确捕捉了地块边缘。
耕地
建筑用地
道路
水系
a Deepla
b v3+
b UNet
c SegNet
d FCN8s
图7
不同类别地物的分类结果对比
a 测试影像
b Deeplab v3+
c UNet
d SegNet eFCN8s 图6地物分类结果对比
·
·4
第20卷第6期
3.2Deeplab v3+对亚米级航拍影像地物识别的有效性分析
使用CCF 数据集训练Deeplab v3+网络并进行地物
分类,对比分类结果与真值,其OA 、Kappa 系数分别为0.88、0.82。
航拍影像纹理特征突出,同类地物内部的几何结构增加了不同类别地物之间边界的识别难度。
由图8可以看出,Deeplab v3+分割结果和真实值比较接近,整体视觉上分割效果较好。
具体而言,在建筑和道路主导的乡镇地区,模型对建筑边界的响应表现优异,房屋阴影影响了小部分路段识别;而对于植被(耕地)主导的农村地区,模型同样能对水体和耕地进行准确的提取,且分割边界较为平滑。
对比Deeplab v3+模型和文献建议的分割模型[25],
CCF 数据集分类的评价指标(图9)表明Deeplab v3+在对水体、道路、植被和建筑这4种地物类型的识别
上表现优异,相对其他语义分割模型取得了较高的F 1
值和IoU 值。
总体而言,Deeplab v3+模型能够满足亚米级航拍影像的特征信息提取和影像分割需求。
c
d 10.90.80.70.60.50.40.30.20.10
10.90.80.70.60.50.40.30.20.10
IoU
10.90.80.70.60.50.40.30.20.10a
b 10.90.80.70.60.50.40.30.20.10Unet SegNet SegProNet SegProNet+ELU Deeplab v3+
Unet SegNet SegProNet SegProNet+ELU Deeplab v3+
Unet SegNet SegProNet SegProNet+ELU Deeplab v3+
Unet SegNet SegProNet SegProNet+ELU Deeplab v3+F 1
图9各模型在CCF 数据集的地物分类精度评价指标
4结论
针对传统神经网络模型对高分辨率遥感影像分割精度不足的问题,实施了相应对措:①本文采用Dee ⁃plab v3+模型在GID 数据集上开展地物分类研究,其分类总体精度OA 和Kappa 系数分别为0.945和0.915。
与FCN 、UNet 、SegNet 模型的分类结果相比,Deeplab v3+能实现目标要素的完整提取,尤其是对线状目标的识别,具有较为明显的精度优势。
②针对亚
米级无人机遥感影像,Deeplab v3+的分类总体精度OA 和Kappa 系数分别为0.88、0.82,较之其他模型能实现对遥感影像中建筑物等人工地物更准确的提取,具有较高的可靠性。
本文对高分辨率遥感影像要素提取具有一定参考价值,为深度学习在高分辨率遥感影方法Deeplab v3+
UNet
SegNet
FCN8s
指标Precision Recall F 1
IoU
Precision
Recall F 1
IoU
Precision
Recall F 1
IoU
Precision
Recall F 1
Iou
耕地0.92560.95620.93840.88840.87760.97740.92110.85990.87190.96510.91210.84530.75470.99010.85080.7490
植被0.83090.88100.82760.78650.69560.66520.65730.63030.73770.92050.76680.69280.69820.57520.53050.4720
建筑用地0.95210.96010.95560.91580.97000.90880.93620.88370.94810.91280.92820.86900.96510.78800.86140.7656
道路0.85420.69840.75370.62060.83360.66710.71910.58310.84140.50100.59640.45190.69770.42160.48490.3438
水系0.92660.91610.91310.89110.92340.89660.90030.87720.93730.94100.92520.89380.89800.80230.81720.7720
表3
各方法在不同地物类别上的分割效果
图8Deeplab v3+在CCF 数据集上的分割结果
a 乡镇地区
b 农村地区
陆妍如等:基于Deeplab v3+的高分辨率遥感影像地物分类研究
·
·5
地理空间信息第20卷第6期
像地物分类中的应用提供了参考方案。
参考文献
[1]胡苏,李扬,李辉,等.基于高分辨率遥感影像的神农架大
九湖湿地土地利用类型变化及其驱动力分析:来自长时
间尺度多源遥感信息的约束[J].国土资源遥感,2021,33
(1):221-230
[2]彭令,徐素宁,梅军军,等.地震滑坡高分辨率遥感影像识
别[J].遥感学报,2017,21(4):509-518
[3]Alshehhi R,Marpu P R,Woon W L,et al.Simultaneous Ex-
traction of Roads and Buildings in Remote Sensing Imag-
ery with Convolutional Neural Networks[J].ISPrs Journal
of Photogrammetry&Remote Sensing,2017,130:139-149 [4]杨泽宇,张洪艳,明金,等.深度学习在高分辨率遥感影像冬
油菜提取中的应用[J].测绘通报,2020(9):110-113
[5]李森,彭玲,胡媛,等.基于FD-RCF的高分辨率遥感影像耕
地边缘检测[J].中国科学院大学学报,2020,37(4):483-489 [6]董梅,苏建东,刘广玉,等.面向对象的无人机遥感影像烟草
种植面提取和监测[J].测绘科学,2014,39(9):87-90
[7]Chauhan S,Darvishzadeh R,Lu Y,et al.Wheat Lodging
Assessment Using Multispectral Uav Data[J].Remote
Sensing and Spatial Information Sciences,2019,XLII-2/
W13.doi:10.5194/isprs-archives-XLII-2-W13-2
[8]Liu C,Guo Z,Fu N.Applying a New Integrated Classifica-
tion Method to Monitor Shifting Mangrove Wetlands[J].
IEEE,2010(5):5631:392
[9]潘朝.多尺度显著性引导的高分辨率遥感影像建筑物提
取[J].科技创新与生产力,2017(5):106-109
[10]Long J,Shelhamer E,Darrell T.Fully Convolutional Net-
works for Semantic Segmentation[J].IEEE Transactions
on Pattern Analysis and Machine Intelligence,2015(4):
640-651
[11]Ronneberger O,Fischer P,Brox T.U-Net:Convolutional
Networks for Biomedical Image Segmentation[J].Spring-
er,Cham,2015.doi:10.1007/978-3-662-54345-0-3 [12]Badrinarayanan V,Kendall A,Cipolla R.SegNet:A Deep
Convolutional Encoder-decoder Architecture for Image
Segmentation[J].IEEE Transactions on Pattern Analysis&
Machine Intelligence,2017(6):1
[13]Chen L C,Papandreou G,Kokkinos I,et al.Semantic Image
Segmentation with Deep Convolutional Nets and Fully
Connected Crfs[J].Computer Science,2014(4):357-361 [14]Chen L C,Papandreou G,Kokkinos I,et al.DeepLab:Se-
mantic Image Segmentation with Deep Convolutional
Nets,Atrous Convolution,and Fully Connected Crfs[J].
IEEE Transactions on Pattern Analysis and Machine Intelli-
gence,2018,40(4):834-848
[15]Chen L C,Papandreou G,Schroff F,et al.Rethinking Atrous
Convolution for Semantic Image Segmentation[J].2017
(8):15-18
[16]石林山,黄河,史杨,等.基于U-net的多时相高分遥感影像
耕地语义分割研究[J].仪表技术,2019(9):23-27
[17]杨建宇,周振旭,杜贞容,等.基于SegNet语义模型的高分辨
率遥感影像农村建设用地提取[J].农业工程学报,2019,35
(5):251-258
[18]Liu Y,Ren Q,Geng J,et al.Efficient Patch-Wise Semantic
Segmentation for Large-Scale Remote Sensing Images[J].
Sensors,2018,18(10).doi:10.3390/s1*******
[19]陈天华,郑司群,于峻川.采用改进DeepLab网络的遥感图
像分割[J].测控技术,2018,37(11):34-39
[20]Chen L C,Zhu Y,Papandreou G,et al.Encoder-Decoder
with Atrous Separable Convolution for Semantic Image
Segmentation[C]//Springer,Cham,2018
[21]Veeravasarapu V,Rothkopf C,Visvanathan R.Model-Driv-
en Simulations for Computer Vision[C]//2017IEEE Winter
Conference on Applications of Computer Vision(WACV).
IEEE,2017
[22]Yu F,Koltun V.Multi-Scale Context Aggregation by Dilat-
ed Convolutions[J].ICLR,2016(8):25-28
[23]Tong XY,Xia G S,Lu Q,et nd-Cover Classification with
High-Resolution Remote Sensing Images Using Transferable
Deep Models[J].2018,doi:10.48550/arxiv.1807-05713 [24]Berman M,Triki A R,Blaschko M B.The Lovasz-Softmax
Loss:A Tractable Surrogate for the Optimization of the In-
tersection-Over-Union Measure in Neural Networks[C]//2018
IEEE/CVF Conference on Computer Vision and Pattern
Recognition(CVPR).IEEE,2018,doi:10.1109/CVPR.00464 [25]张哲晗,方薇,杜丽丽,等.基于编码-解码卷积神经网络的
遥感图像语义分割[J].光学学报,2020,40(3):46-55
第一作者简介:陆妍如(1995—),硕士研究生,研究方向为遥感图像处理。
··6。