基于Transformer_的高光谱图像分类方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
75
I
nternet Technology
互联网+
技术
一、引言
高光谱图像(hyperspetral image,HSI)是通过搭载在不同空间平台上的高光谱传感器,名为成像光谱仪,在电磁波谱的紫外、可见光、近红外和中红外区域,以数十至数百个连续且细分的光谱波段对目标区域同时成像而形成的图像。
早期的高光谱图像分类方法主要是通过人工提取高光谱图像中的特征,然后利用传统的机器学习方法对HSI 进行分类。
虽然这些方法在一定程度上能够对高光谱图像进行有效地识别和分类,但是需要人工构建特征。
此外,近年来高光谱图像数据呈现出海量增长的趋势,数据的特征维度也越来越高。
研究者们将深度学习技术应用到高光谱图像数据处理中。
这些基于深度学习的方法首先通过深度神经网络,如循环神经网络或卷积神经网络,来提取高光谱图像中的空间信息和光谱信息,然后利用分类器对图像进行分类。
虽然基于CNN 的主流方法能够有效提取高光谱特征,但是由于CNN 的结构,它只能提取局部特征,无法准确有效地捕捉全局特征。
近来,Transformer 在自然语言处理领域取得了巨大的成功,并被应用到计算机视觉任务中。
与基于CNN 的方法相比,Transformer 借助注意力基于Transformer 的高光谱图像分类方法
机制,有效地兼顾了局部与全局特征。
本文提出了一种基于Transformer 的高光谱图像分类算法。
首先利用主成分分析(PCA)来对高光谱图像数据进行降维处理,然后将处理后的数据利用空-谱联合特征提取模块(SSRN)来提取高光谱图像的空-谱联合特征,最后采用Visual-transformer(ViT)对于提取后的空-谱联合特征进行分类。
二、相关工作
针对高光谱图像研究中的特征提取,国内外学者进行了多方面地研究。
比如,徐沁[1]等人提出新型多尺度特征提取模块及拥有多尺度空谱融合注意力模块的SE-Res2Net。
欧阳宁[2]等人在此基础上提出一种基于多层次空-谱融合网络的高光谱图像分类方法。
王雷全[3]等人提出基于光谱-空间一致性正则化的高光谱图像分类方法。
王爱丽[4]等人将残差网络引入动态卷积提取深度精细化特征。
在国外,Hong [5]等人针对传统图卷积网络计算成本巨大的问题,提出了mini-batch 图卷积网络,提升了高光谱分类任务在单个传统图卷积网络以及单个卷积神经网络模型中的性能表现。
Hang [6]等人针对高光谱图像在传统的循环神经网络中特征提取无优先级及差别性的
摘要:近年来,由于高光谱图像中数据的独特性质及其包含的海量信息,高光谱图像的分类任务已成为遥感影像研究的热门领域。
然而,传统的高光谱图像分类任务大多通过人工处理进行特征提取,导致分类任务的效率低下,且相关任务的算法性能较差。
现有的工作大多基于CNN 网络进行研究,无法有效提取全局信息。
为了解决这些问题,本文提出了一种基于Transformer 的高光谱图像分类方法。
在三个数据集上的实验结果表明,所提出的模型具有更优的性能。
关键词:深度学习;高光谱图像;注意力机制;卷积神经网络
黄梦凡(1991.02-),女,壮族,广西南宁,工程师,研究方向:交通大数据应用研发。
图1 网络框架
I nternet Technology
互联网+技术
问题,在循环神经网络的基础上,进一步设计了级联循环神经网络,从而提高了高光谱图像的特征提取效率。
尽管这些工作能够有效提取高光谱图像所蕴含的丰富特征,但是没有对于全局特征进行有效提取。
三、方法
图1展示了用于高光谱图像分类的SSRN-Vitransformer框架,主要由四部分组成:降维模块、空-谱联合特征提取模块(SSRN)、基于ViT的全局特征提取模块以及分类模块。
(一)高光谱图像空谱联合特征提取
高光谱图像具有高纬度和高冗余的特点,本文利用PCA对高光谱图像进行降维,并采用SSRN连续提取光谱和空间特征。
SSRN主要由光谱特征学习模块和空间特征学习模块两部分构成。
以Indian Pines数据集(3-D 样本的大小为7×7×200)为例来说明该模块是如何进行特征提取的。
光谱特征学习部分包括两个卷积层和两个光谱残差块。
在第一个卷积层中,具有(1,1,2) 的子采样步长的 24个尺寸为1×1×7 卷积核对输入的HSI体积进行卷积,以生成24个尺寸为7×7×97个特征立方体。
空间特征学习部分使用连续的3-D卷积滤波器组提取空间特征,其中卷积核具有与输入3-D特征量相同的深度。
该部分包括一个3-D卷积层和两个空间残差块。
在上述两个特征学习部分之后,平均池化层 (POOL)将提取的5×5×24光谱空间特征量,进一步转换为1×1×24特征向量。
然后,全连接(FC)层根据土地覆盖类别的数量使SSRN适应对应的高光谱图像数据集,并生成输出向量 =[1,2,⋯,L ]。
(二)高光谱图像全局特征提取
传统的Transformer以一维特征作为输入,为了方便处理高光谱图像,本文将图像x∈R H×W×C重新处理为一系列扁平的 2D向量x p,其中(H,W)是原始图像的大小,C是通道数,(P,P)是每个图像块的分辨率,N=HW/P2是生成的块数,也作为Transformer的有效输入序列长度。
Transformer在其所有层中使用恒定的潜在向量大小D,然后将数据展平并使用可训练的线性投影映射到D维空间内:
(1)将此投影的输出称为图像块嵌入。
在图像块嵌入序列z00 = x class之前添加了一个可学习的嵌入模块,其在Transformer编码器(z0l )输出处的状态用作图像表示y:
y=LN(z0l ) (2)在预训练和校正期间,分头都附加到z0l 。
分类头由 MLP实现,使用标准的可学习1D位置嵌入。
生成的嵌入向量序列用作编码器的输入:
z l=MLP(LN(z'l) )+z'l , l=1…L (3)
z'l =MSA(LN(z l
-1
) )+z l-1, l=1…L (4)
四、实验部分
采用Indian Pines,Pavia University,Salinas scene三个数据集进行实验,并采用三种基准方法进行对比,分别为基于全局滤波器的深度网络(GFDN)、标签一致性变换网络(LCTL)以及基于PCA的EPFs(PCA–EPF)。
batch size设为64,epoch设为80。
采用Adam作为优化器,同时学习率为0.001。
随机选取10%为训练集合,80%作为测试集,剩余10%作为验证集。
本实验利用总体分类精度(Overall Accuracy,OA),平均分类精度
(Average Accuracy,AA),Kappa 系数评价指标。
图2 基于SSRN的空谱特征联合提取模块
76
77
I
nternet Technology
互联网+技术
参 考 文 献
[1]徐沁,梁玉莲,王冬越,等.基于SE-Res2Net 与多尺度空谱融合注意力机制的高光谱图像分类[J].计算机辅助设计与图形学学报,2021,33(11):1726-1734.
[2]欧阳宁,朱婷,林乐平.基于空谱融合网络的高光谱图像分类方法[J].计算机应用,2018,38(7):1888-1892. [3]王雷全,赵欣,秦智超.基于光谱-空间一致性正则化的高光谱图像分类[J].中国电子科学研究院学报,2021,16(8):789-796.
[4]王爱丽,刘美红,薛冬,等.结合动态卷积和三重注意力机制的高光谱图像分类[J].激光与光电子学进展,2022,59(10):341-351.
[5]Hong D,Gao L,Yao J,et al.Graph convolutional networks for hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sensing,2020,59(7):5966-5978.
[6]Hang R, Li Z,Liu Q,et al.Hyperspectral image classification with attention-aided CNNs[J].IEEE Transactions on Geoscience and Remote Sensing, 2020,59(3):2281-2293.
表1 对比实验结果Metrics SSRN-Vitransformer
GFDN
LCTL PCA-EPF Indian Pines
OA(%)
93.3590.4492.6089.47AA(%)89.9688.5389.7582.59Kappa×10091.2089.9590.5083.26Pavia University
OA(%)
94.9492.1296.8890.40AA(%)96.0592.6996.9892.05Kappa×10094.1791.3296.5291.49Salinas scene
OA(%)
89.3787.5385.0079.77AA(%)87.4287.9786.0380.20Kappa×100
88.16
89.11
85.93
82.07
本文所提出的SSRN-ViT 方法在Indian Pines、Pavia University、Salinas scene 上实验。
从表1中可以看出,
所提出方法在Indian Pines 以及Salinas Scene 上取得了最好的结果。
此外,在Salinas Scene 数据集上,在OA 指标上比GFDN 高出约2%。
这些提升表明SSRN-ViT 联合模块能更好地捕获光谱-空间交互信息,改善了空-谱融合特征的表达能力。
五、结束语
本文所提出的SSRN-ViT 方法首先利用PCA 对高光谱图像进行降维处理,然后利用SSRN 模型构建了高光谱图像光谱-空间特征联合提取模块,同时基于此利用Transformer 模型对高光谱图像进行全局特征提取。
最后,所提出的方法不仅在三个高光谱图像数据集上表现出了较好的分类性能,还降低了模型复杂度。
作者单位:黄梦凡 南宁师范大学计算机与信息工程学
院
三、结束语
本文围绕基于注意力机制的冷启动的流量套餐推荐系统开展研究。
相比于现阶段的冷启动模型所采用的DNN 架构,提出了一种基于Attention 的冷启动的流量套餐推荐系统。
加入Attention 机制使得模型具有更强的学习能力,能够从大量的客户数据中挑选出相关性较大的特征,并进行准确的相关性映射输出,从而提高模型的鲁棒性和准确度。
此外,基于Attention 的冷启动模型有助于减少运算成本,因为它只聚焦于用户偏好的部分内容,而不是全文,从而提升整体性能。
该模型适用于
参 考 文 献
[1]曹鹏鹏. Q 县移动分公司客户套餐匹配度测算及提升对策研究[D].太原理工大学,2022.[2]梁斐云. 非平衡数据下电信用户套餐智能化推荐研究[D].中南财经政法大学,2021.[3]杜晶. 基于机器学习的电信套餐推荐系统的设计与实现[D].中南财经政法大学,2020.[4]张晓静. 电信用户套餐推荐模型研究[D].云南大学,2020.
多场景,具有很强的泛化能力。
在使用Attention 的冷启动模型中,所采用的Attention 机制可以有效地训练模型,捕捉到用户的多种需求,并逐步优化,从而实现强泛化能力。
Attention 机制能够将信息聚合到低维向量中,使得模型能够区分用户特征,能更好地聚焦于用户的需求。
同时,在保存用户信息的过程中,可以更好地理解用户需求,能在不同场景下应用,提升模型的泛化能力。
作者单位:白取鑫 艾力亚斯江 王厚永 林强 吕冬梅
中国移动通信集团新疆有限公司
(上接第68页)。