杜清运教授：基于影像深度学习的户外增强现实系统设计与实现

合集下载

深度学习方法在遥感图像处理中的应用研究

深度学习方法在遥感图像处理中的应用研究遥感图像处理是利用遥感技术获取的图像数据进行信息提取、特征分析等处理过程。

近年来，深度学习方法在遥感图像处理领域得到了广泛应用，并取得了显著的成果。

本文将探讨深度学习方法在遥感图像处理中的应用研究，并介绍其在不同方面的具体应用。

一、目标检测与识别遥感图像中包含大量的地物目标，如建筑物、道路、农田等。

传统的目标检测与识别方法往往需要手工设计特征，且对复杂的遥感场景效果不佳。

而深度学习方法通过从大规模图像数据中自动学习特征表示，可以更好地捕捉目标的语义信息，提高目标检测与识别的准确率和鲁棒性。

例如，基于卷积神经网络（CNN）的目标检测算法可以自动提取目标的空间特征与语义特征，实现对不同尺度、姿态和遮挡情况下的目标准确检测与识别。

二、遥感图像分类遥感图像分类是指将遥感图像中的像素或区域划分为不同的类别，如水体、植被、建筑等。

深度学习方法在遥感图像分类中的应用主要通过卷积神经网络（CNN）来实现。

CNN通过多层卷积和池化操作，可以学习到图像的局部空间信息和全局语义信息，从而更好地进行分类。

此外，深度学习方法还可以结合多源遥感数据，如光学图像与雷达图像，进行多模态遥感图像分类，提高分类精度。

三、遥感图像超分辨率重建遥感图像的分辨率对于图像解译和信息提取至关重要。

然而，由于遥感图像受到传感器分辨率等因素的限制，往往分辨率较低。

深度学习方法可以通过学习低分辨率图像与高分辨率图像之间的映射关系，来实现遥感图像的超分辨率重建。

例如，基于生成对抗网络（GAN）的方法可以生成细节更加丰富的高分辨率遥感图像，提高图像质量和信息获取能力。

四、遥感图像变化检测遥感图像变化检测是指通过比较不同时间或不同模态的遥感图像，检测出地物或场景发生的变化情况。

传统的变化检测方法往往基于像素级的比较，难以处理遥感图像中的遮挡、光照变化等复杂情况。

深度学习方法可以学习到图像的空间和语义信息，实现对遥感图像中地物变化的精确检测。

高分辨率遥感影像建筑物提取多路径RSU网络法

㊀㊀第５１卷㊀第１期测㊀绘㊀学㊀报V o l．５１,N o．１㊀２０２２年１月A c t aG e o d a e t i c ae tC a r t o g r a p h i c aS i n i c a J a n u a r y,２０２２引文格式:张玉鑫,颜青松,邓非．高分辨率遥感影像建筑物提取多路径R S U网络法[J]．测绘学报,２０２２,５１(１):１３５Ｇ１４４．D O I:１０．１１９４７/ j．A G C S．２０２１．２０２００５０８．Z H A N G Y u x i n,Y A N Q i n g s o n g,D E N G F e i．M u l t iＧp a t h R S U n e t w o r k m e t h o df o rh i g hＧr e s o l u t i o nr e m o t es e n s i n g i m a g eb u i l d i n g e x t r ac t i o n[J]．A c t aG e od ae t i c a e tC a r t o g r a p h i c aS i n i c a,２０２２,５１(１):１３５Ｇ１４４．D O I:１０．１１９４７/j．A G C S．２０２１．２０２００５０８．高分辨率遥感影像建筑物提取多路径R S U网络法张玉鑫,颜青松,邓㊀非武汉大学测绘学院,湖北武汉４３００７９M u l t iＧp a t hR S U n e t w o r k m e t h o df o rh i g hＧr e s o l u t i o nr e m o t e s e n s i n g i m a g e b u i l d i n g e x t r a c t i o nZ H A N GY u x i n,Y A NQ i n g s o n g,D E N GF e iS c h o o l o fG e o d e s y a n dG e o m a t i c s,W u h a nU n i v e r s i t y,W u h a n４３００７９,C h i n aA b s t r a c t:I n a c c u r a t eb o u n d a r i e s a n dh o l e sa r e t w om a j o r p r o b l e m sw h e ne x t r a c t i n g b u i l d i n g s f r o mh i g hＧr e s o l u t i o n r e m o t es e n s i n g i m a g e sb y ac o n v o l u t i o nn e t w o r k．T os o l v et h e s e p r o b l e m s,w e p r o p o s e dt h e M P R S UＧN e t(m u l t iＧp a t h r e s i d u a l UＧb l o c k n e t w o r k),w h i c h i s b a s e d o n t h eR S U(r e s i d u a l UＧb l o c k)．T h eR S U i s a b l e t o f u s e l o c a l f e a t u r e s a n dm u l t iＧs c a l e f e a t u r e s,w i t h t h eh e l p o f t h ee n c o d e rＧd e c o d e r s t r u c t u r ea n d t h e r e s i d u a l c o n n e c t i o n．H o w e v e r,as i n g l eR S U i sn o te n o u g h t o g a t h e r e n o u g h i n f o r m a t i o n,M P R S UＧN e t p a r a l l e l sR S Ub l o c k s o f d i f f e r e n t s c a l e s b y t h em u l t iＧp a t h s t r u c t u r ea n d e x c h a n g e s i n f o r m a t i o n a m o n g t h e s e b l o c k s t o f u r t h e r e n h a n c e t h e f e a t u r ea g g r e g a t i o n e f f i c i e n c y．E x p e r i m e n t a l r e s u l t s s h o w e d t h a t t h eM P R S UＧN e t a c h i e v e d９５．６５％,８８．６３％p r e c i s i o n,a n d９１．１７％,７９．３１％I o Uo n０．３m r e s o l u t i o nW H Ua n d I n r i ab u i l d i n g d a t a s e t s,w h i c h s h o w e d t h e e f f e c t i v e n e s s o f t h e p r o p o s e dm e t h o d．I na d d i t i o n,c o m p a r e dw i t h t h eU２N e t, M P R S UＧN e t i s m u c hl i g h t e r i nc o m p u t a t i o na n dr e d u c e st h ea m o u n to fm o d e l p a r a m e t e r sb y６８．６３％, d e m o n s t r a t i n g t h a t t h em e t h o d h a s s o m ea p p l i c a t i o n v a l u e．K e y w o r d s:h i g hＧr e s o l u t i o nr e m o t es e n s i n g i m a g e;b u i l d i n g e x t r a c t i o n;m u l t iＧs c a l e;c o n v o l u t i o n a l n e u r a l n e t w o r k s;m u l t iＧp a t hF o u n d a t i o n s u p p o r t:S i c h u a nS c i e n c ea n dT e c h n o l o g y P r o g r a m(N o．２０１９Y F G０４６０)摘㊀要:针对卷积神经网络在提取建筑物的过程中,存在建筑物边界不准确和建筑物内部空洞等问题,提出以R S U模块(r e s i d u a l UＧb l o c k)为核心的M P R S UＧN e t(m u l t iＧp a t h r e s i d u a l UＧb l o c k n e t w o r k).该模块利用编码器Ｇ解码器结构和残差连接,实现了局部特征和多尺度特征的融合.由于一个R S U模块提取的信息有限,M P R S UＧN e t进一步通过多路径结构并行了不同尺度的R S U模块,并在这些模块之间进行信息交换,提高了特征聚集效率.在分辨率为０．３m的W H U和I n r i a建筑物数据集上进行试验,精度分别达９５．６５％和８８．６３％,I o U分别达９１．１７％和７９．３１％,验证了本文方法的有效性.此外,本文方法相较于U２N e t,计算量明显降低,模型参数量减少６８．６３％,表明本文方法具有一定的应用价值.关键词:高分辨率遥感影像;建筑物提取;多尺度;卷积神经网络;多路径中图分类号:P２３７㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀文章编号:１００１Ｇ１５９５(２０２２)０１Ｇ０１３５Ｇ１０基金项目:四川省科技计划(２０１９Y F G０４６０)㊀㊀高分辨率遥感影像建筑物提取在数字城市建设㊁地表动态变化监测及土地利用变更调查等应用中都具有重要的意义.但是高分辨率遥感影像细节丰富的特点也使得建筑物的尺度多变㊁结构复杂㊁外观各异,如何准确地从高分辨率遥感影像中提取建筑物目前仍是遥感影像处理与应用领域研究的热点和难点.传统建筑物提取的方法主要根据建筑物特有的光谱㊁纹理㊁几何和阴影等特性,人工设计合适的特征去区分建筑物和非建筑物区域[１Ｇ３].文献J a n u a r y２０２２V o l．５１N o．１A G C S h t t p:ʊx b．s i n o m a p s．c o m[４]通过窗口H o u g h变换提取矩形建筑物的角点特征,实现矩形屋顶的提取,但当建筑物角点被遮挡时,无法精确地提取建筑物.文献[５]利用了遥感影像中建筑物受光照影响产生的阴影信息对建筑物自动定位,然而排列整齐的树木阴影可能会对其造成干扰.此外,D S M数据㊁L i D A R和S A R 数据等多源数据可以提供建筑物的高程信息,融合多源数据可以有效提高建筑物提取的精度[６],但获得满足精度条件的多源数据需要较高的成本,具有一定的局限性.总体而言,这些人工设计的特征会随着传感器质量㊁光照条件㊁建筑物风格产生较为明显的变化,只能处理特定的数据[７].近年来,卷积神经网络良好的特征表示能力,使其受到了广泛的关注,在自然语言处理㊁图像分割㊁目标检测等领域都有广泛应用[８Ｇ１１].建筑物提取方法也由人工设计特征的传统方法转向学习特征的卷积神经网络方法.文献[１２]提出的全卷积神经网络(f u l l y c o n v o l u t i o n a l n e t w o r k,F C N)将传统卷积神经网络中的全连接层转化为卷积层,首次实现端到端训练的语义分割网络.文献[１３]以F C N为基础,提出U N e t,利用跳跃连接来融合深层特征和浅层特征,使得分割边缘得到提升.F C N是许多语义分割方法的基本框架,基于F C N的方法主要分为两种改进方向:①从特征图出发,扩大卷积神经网络的感受野,获取多尺度特征.文献[１４]提出金字塔空间池化模块,融合不同尺度的池化后的特征图以获取全局依赖.文献[１５]从原始影像中提取不同尺度的特征,之后在恢复尺度的阶段逐步融合粗糙的浅层特征及细粒度的深层特征,从而使得分割精度提升.②从原始影像出发,利用多尺度的原始影像作为输入,获取全局信息.文献[１６]提出一种基于多尺度影像的全卷积神经网络,将原始影像进行不同尺度的下采样,之后分层地对其进行特征提取和融合.注意力机制[１７Ｇ１８]是近几年来提出的一种在空间或通道上捕获远程依赖的方法,能够有效地提高分割性能.文献[１９]提出位置注意力模块和通道注意力模块去学习特征之间的空间依赖性以及通道间的相关性.位置注意力模块是对所有位置的特征加权求和,选择性地聚合各个位置的特征,使得远距离特征也可以得到关联.通道注意力模块整合所有通道之间的相关特征图,选择性地强调存在相互依赖的通道图.将两个注意力模块的结果融合可以获得更精确的分割结果.文献[２０]通过输入不同尺度的影像,利用分层多尺度注意力机制,学习不同尺寸的物体在相应尺度上的权重,让网络自适应地选择最合适的分辨率来预测物体,但该方法网络结构较为复杂对硬件要求较高.与基于F C N的主流语义分割框架不同,文献[２１]提出了一种高分辨率神经网络(h i g hＧr e s o l u t i o nn e t w o r k,H R N e t),该方法可使特征图保持高分辨率,在高分辨率特征图中融入低分辨率特征图使其包含多尺度信息,为网络结构设计提供了新的思路.文献[２２]设计了一种双层嵌套U N e t的网络结构U２N e t,能够捕获更多的上下文信息,在显著性检测任务中表现突出,但其参数量较多,训练效率较低.以往研究中,基于全卷积神经网络的建筑物提取方法基本框架以编码器Ｇ解码器结构为主[２３Ｇ２４].但是该框架在编码器阶段的多次池化易丢失空间信息,使得小型建筑物难以检测;同时在解码器阶段,通过跳跃连接融合浅层特征恢复细节的效果有限,还会从浅层引入一些粗糙特征,最终进一步加剧建筑物边界的不准确[２５].除此之外,卷积神经网络提取的特征往往是局部的,基于F C N的方法缺乏对全局特征的有效利用,导致提取大型建筑物时存在不连续和空洞等情况,如图１所示.而过于关注全局特征,忽略局部特征,会导致边缘信息的缺失.如何高效利用全局特征和局部特征,是优化建筑物提取结果的关键.因此,受H R N e t和U２N e t启发,本文提出一种基于R S U模块的高分辨率遥感影像建筑物提取方法:M P R S UＧN e t,能够在保持高分辨率语义信息的同时,融入全局特征,从而改善大型建筑物存在空洞㊁边缘分割不完整的问题.M P R S UＧN e t 通过并行和级联R S U模块融合多尺度特征,之后将多个尺度的预测结果融合得到最终提取结果.在WHU和I n r i a建筑物数据集上的试验结果表明,本文方法提取建筑物精度高㊁边缘清晰㊁结构完整,相较其他主流方法泛化能力更强,参数较少.１㊀方法与原理本节首先介绍R S U模块的结构,然后对本文提出的M P R S UＧN e t进行详细说明,最后阐述了本文方法训练过程中使用的损失函数.６３１第１期张玉鑫,等:高分辨率遥感影像建筑物提取多路径R S U网络法图１㊀建筑物提取结果示例F i g ．１㊀T h e e x a m p l e r e s u l t s o f b u i l d i n g ex t r a c t i o n １．１㊀R S U 模块R S U 模块是本文网络的主要构成部分,由简化的U N e t 结构和R e s N e t 的残差结构[２６]组成,能够捕捉输入特征图的多尺度特征和局部特征.R S U 模块的超参数有L ㊁C i n ㊁C o u t 和C m i d ,分别代表编码器阶段的卷积层数㊁输入特征图的通道数㊁输出特征图的通道数和中间层的通道数.本文使用R S U ＧL (C i n ,C m i d ,C o u t )表示单个R S U 模块,结构如图２所示.R S U 模块的输入为通道数C i n 的特征图,首先通过一个３ˑ３的卷积,将输入映射为通道数为C o u t 的特征图,并同时从输入特征图中提取局部特征;然后通道数为C o u t 的特征图经过一个简化的编码器Ｇ解码器结构,其中编码器提取出多尺度特征,编码器阶段的池化次数为L Ｇ２,L 越大池化次数越多,感受野范围越大,多尺度特征便越丰富,解码器将多尺度特征编码成高分辨率的多尺度特征图;最后将第一步获得的通道数为C o u t 的特征图和高分辨率的多尺度特征图相加得到输出,使得局部特征和多尺度特征融合,保证特征图中的细节信息不被丢失.图２㊀R S U 结构F i g．２㊀R S Ua r c h i t e c t u r e １．２㊀M P R S U ＧN e tM P R S U ＧN e t 的网络结构如图３所示,主要包括两个部分:多路径特征提取模块和多尺度特征融合模块.１．２．１㊀多路径特征提取基于编码器Ｇ解码器结构的卷积神经网络一般过程为:由高分辨率到低分辨率获取深层特征,再从低到高恢复分辨率得到输出结果,此过程中极易丢失细节信息.而H R N e t 的多路径结构能够有效地解决此问题,较好地保持特征图中的细节信息;其使用多个并行的子网络提取不同尺度的特征,然后将多尺度特征在子网络之间反复交换以充分融合多尺度特征.基于多路径结构与R S U 模块,本文提出多路径特征提取模块,详细架构如图３所示,不仅能提取多尺度特征,还能减少细节丢失.R S U 模块７３１J a n u a r y ２０２２V o l ．５１N o ．１A G C S h t t p :ʊx b ．s i n o m a ps ．c o m 是多路径特征提取模块的主要组成部分,其利用编码器Ｇ解码器结构从特征图中提取多尺度特征,再将多尺度特征编码成高分辨率的特征图.多路径结构通过串联R S U 模块,能够保持高分辨率的特征表示,减少编码器下采样带来的细节丢失,保持高层语义信息和精确的空间定位信息,改善建筑物边界提取模糊及空洞现象.图３㊀M P R S U ＧN e t 结构F i g．３㊀M P R S U ＧN e t a r c h i t e c t u r e ㊀㊀M P R S U ＧN e t 的多路径特征提取模块由３条并行路径组成,特征图的空间分辨率分别为原始影像的１㊁１/４㊁和１/１６.对于相邻路径之间的上㊁下采样,本文使用图４(c )㊁(f )所示的方法:上采样先对影像进行双线性上采样,再将低分辨率的特征图的通道压缩,去除冗余信息;下采样时首先扩大一倍通道数,以保存高分辨率的信息,再进行池化.除此之外,常用的上㊁下采样还有图４(a)㊁(d)对应的直接采样方法,但是这种方式很容易造成信息冗余和细节信息丢失.图４(b )㊁(e )对应的是没进行通道压缩和扩增的上㊁下采样,但存在一定程度的信息冗余和丢失.１．２．２㊀多尺度特征融合多尺度特征融合模块如图３所示,首先,利用１ˑ１卷积和s i gm o i d 函数对多路径特征提取模块输出的多尺度特征进行预测,得到每个尺度的分类结果;然后,将各个尺度上的分类结果上采样到输入尺寸后进行拼接;最后,将不同尺度的预测结果融合得到建筑物的最终预测结果.最终的预测结果汇聚了多个尺度的信息,使得反向传播和权重更新能够利用多尺度信息.１．３㊀损失函数本文使用二分类交叉熵损失函数[２７]来指导网络学习,如式(１)所示㊀㊀L o s s ＝－ð(H ,W )(i ,j )[y i jˑl n p i j ＋(１－y i j )l n (１－p i j )](１)式中,(x ,y )为样本点坐标;(H ,W )为影像尺寸;y i j 表示样本点的真值;建筑物像素为１;非建筑物像素为０;p i j 表示模型预测样本点是建筑物像素的概率.２㊀试验与分析本节首先介绍试验所采用的数据集㊁结果评价指标及试验相关设置,之后阐述试验设计目的㊁结果及分析.２．１㊀数据集介绍为证明本文方法的有效性,选取WHU 建筑物数据集[７]和I n r i a 建筑物数据集[２８]两个数据集进行综合性的试验,数据集的相关描述如下:(１)WHU 建筑物数据集包括航空和卫星影像数据集,以及相应的矢量文件和栅格影像,本文选取航空影像数据集进行试验.航空影像数据集中包含不同尺度㊁不同风格和颜色的建筑物,如图５所示,影像空间分辨率为０．３m ,每幅影像的大小为５１２ˑ５１２像素,共计８１８８张,其中训练集㊁验证集㊁测试集分别为４７３６㊁１０３６和２４１６张.(２)I n r i a 建筑物数据集包含５个地区(奥斯汀㊁芝加哥㊁基特萨普㊁蒂罗尔西部㊁维也纳)的航空正射彩色影像,每个地区分别有３６张尺寸为５０００ˑ５０００像素的影像,空间分辨率为０．３m ,数据集示例如图６所示.数据集中５个地区的影像季节不同,照明条件不同,有建筑物密集的城市中心,也有建筑物稀疏的山区,可用于评估模型的泛８３１第１期张玉鑫,等:高分辨率遥感影像建筑物提取多路径R S U 网络法化能力.试验前,将每幅影像裁剪为５００ˑ５００像素的大小,最终获取１８０００张影像,其中随机抽取１０８３２张作为训练集,１８０５张作为验证集,５３６３张作为测试集.图４㊀下采样和上采样方法F i g ．４㊀T h em e t h o d s o f d o w n s a m p l e a n du p s a m ple 图５㊀WHU 数据集样例F i g ．５㊀WHUd a t a s e t e x a m pl e s ９３１J a n u a r y ２０２２V o l ．５１N o ．１A G C S h t t p :ʊx b ．s i n o m a ps ．c om 图６㊀I n r i a 数据集样例F i g ．６㊀I n r i ad a t a s e t e x a m pl e s ２．２㊀评价指标本文采用精度(P r e c i s i o n )㊁召回率(R e c a l l )㊁F １分数㊁交并比(I o U )４个指标来评价建筑物提取的准确性.精度指预测正确的建筑物像素数量占预测的建筑物像素数量的比例.召回率指预测正确的建筑物像素数量占真实的建筑物像素数量的比例.F １分数综合考虑了精度和召回率的结果.I o U 是目标检测和语义分割中的常用指标,指预测的建筑物像素数量与真实的建筑物像素的交集和并集的比值.４种指标的计算公式如下P r e c i s i o n ＝T PT P ＋F P (２)R e c a l l ＝T PT P ＋F N(３)F １＝２ˑP r e c i s i o n ˑR e c a l lP r e c i s i o n ＋R e c a l l(４)I o U＝T PF P ＋T P ＋F N(５)式中,T P 指真实建筑物像素的预测为建筑物像素的数量;T N 指背景像素预测为背景像素的数量;F P 指背景像素预测为建筑物像素的数量;F N 指真实建筑物像素预测为背景像素的数量.２．３㊀试验设置本文试验的硬件环境为I n t e l (R )C o r e (T M )i ７Ｇ７７００C P U ,６４G BR AM ,G P U N v i d i aT i t a nX p(显存１２G B ),操作系统为W i n d o w s １０,编程环境为P y t h o n ３．６,P yt o r c h １．２．０.为保证试验结果的客观性,所有试验网络均采用小批量梯度下降算法训练,使用A d a m 算法进行优化,初始学习率设置为０．００１,批处理数量为４.训练过程中,所有试验网络从零开始对数据集迭代１００次,并对影像进行随机水平翻转.２．４㊀试验及结果分析本节首先分析不同上㊁下采样方法对本文方法在WHU 数据集上性能的影响;使用WHU 和I n r i a 数据集进行对比试验,比较本文方法和U N e t [１３]㊁D A N e t [１９]㊁H R N e t v ２[２１]㊁U ２N e t [２２]４种方法提取建筑物的性能,对比方法中,D A N e t 基本框架设置为１０１层的R e s N e t ,H R N e t 多路径通道数设置为４８㊁９６㊁１９２㊁３８４.最后,为验证本文方法在性能和复杂度上面的平衡,对不同方法的复杂度进行分析.２．４．１㊀上下采样方法对比试验为探讨不同上㊁下采样方法对本文方法在WH U 数据集上性能的影响,在M P R S U ＧN e t 结构基础上使用１．２．１节中３种上㊁下采样方法进行试验,结果见表１.表１中结果显示,间接上㊁下采样方法与直接采样方法相比,精度和I o U 有一定提升,说明连续采样之间添加卷积层可以减少信息损失.本文的上㊁下采样方法较间接上㊁下采样方法各项指标均有提升,表明了上采样缩减通道数可以去除冗余信息,下采样扩大通道数可以保存一定的细节信息,验证了本文上㊁下采样方法的有效性.表１㊀不同采样方法对本文方法的影响T a b ．１㊀I n f l u e n c e o f d i f f e r e n t s a m p l i n g me t h o d s (％)方法I o U精度召回率F １分数直接上㊁下采样９０．３６９４．９６９４．９１９４．９４间接上㊁下采样９０．６７９５．３６９４．８５９５．１１本文上㊁下采样９１．１７９５．６５９５．１１９５．３８０４１第１期张玉鑫,等:高分辨率遥感影像建筑物提取多路径R S U网络法２．４．２㊀WH U数据集试验结果分析选取U N e t㊁D A N e t㊁H R N e t㊁U２N e t４种方法与本文方法进行对比,在WHU建筑物数据集上的可视化试验结果如图７所示.卷积神经网络依靠卷积核提取特征,获取感受野范围有限,故提取大型建筑物时,易产生空洞现象.针对该现象,本文方法使用R S U模块融合局部特征和全局特征,扩大感受野,并在不同尺度的R S U模块之间增加信息交互,进一步提升特征聚集率.由图７中可以看出,第１㊁第５个样例的影像中,存在颜色相似的地面和建筑物,一些对比方法不能正确地区分两者,导致出现将地面错误识别成建筑物的现象,而本文方法能够较为精确地区分颜色相近的地面及建筑物.此外,对于第１㊁第４个样例影像中颜色不一致的建筑物,本文方法可以准确提取,而对比方法错误地将其识别为背景,表明本文方法相较于其他方法能够更加充分地获取上下文信息.综上,根据目视评价,可以看出本文方法能够良好地适应不同场景的建筑物提取,在一定程度上可以改善建筑物边界不清晰㊁出现空洞的现象,且对于同物异谱,异物同谱现象可以进行较为正确地识别,结果优于其他几种对比方法.图７㊀WHU数据集上各种方法的建筑物提取结果F i g．７㊀B u i l d i n g e x t r a c t i o n r e s u l t s o f v a r i o u sm e t h o d s o n WHUd a t a s e t㊀㊀对WHU建筑物数据集的提取结果进行定量评价见表２.由表２可以看出,在WHU建筑物数据集上,与其他方法相比较,本文方法在各项指标上均达到最优,I o U达９１．１７％,精度达９５．６５％,F１分数达到了９５．３８％,与U N e t㊁D A N e t㊁H R N e t㊁U２N e t相比I o U分别提高了２．３０％㊁１．９６％㊁１．４０％㊁０．８３％,精度分别提高了２．１８％㊁１．４４％㊁０．７３％㊁０．６２％.表２㊀WH U数据集上各种方法的比较T a b．２㊀C o m p a r i s o no f v a r i o u sm e t h o d s o n WH Ud a t a s e t(％)方法I o U精度召回率F１分数U N e t８８．８７９３．４７９４．７５９４．１０D A N e t８９．２１９４．２１９４．４０９４．３０H R N e t８９．７７９４．９２９４．３０９４．６１U２N e t９０．３４９５．０３９４．８２９４．９３M P R S UＧN e t９１．１７９５．６５９５．１１９５．３８１４１J a n u a r y ２０２２V o l ．５１N o ．１A G C S h t t p :ʊx b ．s i n o m a ps ．c o m WHU 数据集上的试验结果从目视和定量评价上均验证了本文方法的优越性,表明了多路径结构结合编码器Ｇ解码器结构使得建筑物的局部特征和全局特征更好地聚合,能够更好地提取建筑物细节信息和全局特征.２．４．３㊀I n r i a 数据集试验结果分析I n r i a 数据集包含５个地区的建筑物影像,分别取其典型区域,提取结果可视化如图８所示,从上到下依次是奥斯汀㊁芝加哥㊁基特萨普㊁蒂罗尔西部和维也纳典型建筑物的提取结果.５个地区的建筑物风格不同,且由于成像时间不同,不同地区的建筑物光谱㊁阴影特征并不一致.由于树木遮挡㊁建筑物结构复杂等情况,I n r i a 数据集的建筑物边界不易提取.本文方法通过串联R S U 模块,保持高分辨率的语义表示,减少R S U 模块中编码器下采样带来的细节丢失,增加高层语义信息和精确的空间定位信息,改善建筑物边界提取模糊及空洞现象.由图８可以看出,本文方法对不同场景下的大型建筑物的空洞现象都有所改进,提取的建筑物边缘较其他方法更为清晰,且能够更加准确地识别细长型建筑物.对于环绕型㊁内部存在不规则背景的建筑物,本文方法能够较好地识别被建筑物环绕的背景.综合不同地区的建筑物提取的目视效果上看,本文方法能够较为良好地适应不同场景的大型建筑物提取,边缘较为完整,能够减少建筑物漏检结果,综合表现较优,表明使用多路径结构保持高分辨率的语义信息的可行性.图８㊀I n r i a 数据集上各种方法的建筑物提取结果F i g ．８㊀B u i l d i n g ex t r a c t i o n r e s u l t s o f v a r i o u sm e t h o d s o n I n r i ad a t a s e t ㊀㊀对I n r i a 建筑物数据集的提取结果进行定量评价见表３.虽然该数据集较多建筑物被植被遮挡不易识别,但本文方法仍在各项指标上表现较好,I o U 达７９．３１％,召回率达８８．２９％,F １分数达８８．４６％,与U N e t ㊁D A N e t ㊁H R N e t ㊁U ２N e t 相比I o U 分别提高了１．３４％㊁０．９３％㊁０．５３％㊁２．９５％,召回率分别提高了１．８５％㊁２．２０％㊁１．０６％㊁１．５９％,证明了本文方法的稳定性和优越性.在该数据集上,本文方法的提取精度稍低,本文分析是由于该数据集小型建筑物较密集,影像尺寸裁剪为５００ˑ５００像素,本文方法中存在较多的下采样操作,不能整除,导致部分细节信息丢失,精度２４１第１期张玉鑫,等:高分辨率遥感影像建筑物提取多路径R S U网络法较低,然而本文方法的精度较同样有多次下采样操作的U２N e t方法提升了２．１３％,说明了多路径特征提取的有效性.可以进一步探索R S U模块合适的下采样次数,以使提取结果进一步提升.表３㊀I n r i a数据集上各种方法的比较T a b．３㊀C o m p a r i s o no f v a r i o u sm e t h o d s o n I n r i ad a t a s e t(％)方法I o U精度召回率F１分数U N e t７７．９７８８．８３８６．４４８７．６２D A N e t７８．３８８９．７５８６．０９８７．８９H R N e t７８．７８８９．０４８７．２３８８．１３U２N e t７６．３６８６．５０８６．７０８６．６０M P R S UＧN e t７９．３１８８．６３８８．２９８８．４６２．４．４㊀网络复杂度分析本文对５种方法的模型复杂度及效率进行了比较,结果见表４.模型的计算量和参数量使用t h o p工具包进行统计,模型计算量与输入尺寸有关,此处输入尺寸均设置为１ˑ５１２ˑ５１２ˑ３.训练时间为迭代一次WHU训练数据集所需要的时间,推理时间为在WHU测试数据集上推理所需要的总时间.由表４可以看出,本文方法计算量较少,仅是U２N e t的１/３,同时本文方法训练效率较高,仅需要U２N e t的一半训练时间.综合不同方法在WHU数据集和I n r i a数据集上的试验结果来看,本文方法在精度和效率方面取得了较好的平衡,有较高的应用价值.表４㊀各种方法复杂性及效率的比较T a b．４㊀C o m p l e x i t y a n d e f f i c i e n c y c o m p a r i s o n a m o n gv a r i o u sm e t h o d s方法计算量(G F L O P s)参数/M训练时间/(m i n/e p o c h)推理时间/sU N e t１６０．６１７．３１０９４D A N e t２８２．８６６．６１０７１４２０H R N e t４０．７２２．４６１１３U２N e t１５０．５４４．０２４２６６M P R S UＧN e t８１．６１３．８１２１１６３㊀结㊀论本文提出了M P R S UＧN e t用于改善高分辨率遥感影像建筑物提取中边界不准确㊁大型建筑物提取结果存在空洞等问题.本文方法通过并行和级联R S U模块,能够从浅层和深层交叉学习到更丰富的全局特征和局部特征.在WHU和I n r i a数据集上的试验结果表明,本文方法相对其他方法具有更高的I o U和召回率,并在性能和效率上取得了良好的平衡,能够更好地提取边界信息,且对于不同场景的建筑物都能得到良好的分割结果,有较强的泛化能力.本文方法是基于像素级别的建筑物提取,结果会存在一些非建筑物斑块,如何将建筑物实体作为提取对象将是下一步研究方向.参考文献:[１]㊀P E S A R E S IM,G E R HA R D I N G E R A,K A Y I T A K I R EF．Ar o b u s t b u i l tＧu p a r e a p r e s e n c e i n d e xb y a n i s o t r o p i c r o t aＧt i o nＧi n v a r i a n tt e x t u r a l m e a s u r e[J]．I E E E J o u r n a l o fS e l e c t e d T o p i c s i n A p p l i e d E a r t h O b s e r v a t i o n s a n dR e m o t eS e n s i n g,２００８,１(３):１８０Ｇ１９２．[２]㊀J I N X i a o y i n g,D A V I S C H．A u t o m a t e db u i l d i n g e x t r a c t i o nf r o mh ig hＧr e s o l u t i o n s a t e l l i t e i m a g e r y i nu r b a n a r e a s u s i n gs t r u c t u r a l,c o n t e x t u a l,a n d s p e c t r a l i n f o r m a t i o n[J]．E U RＧA S I PJ o u r n a lo n A d v a n c e si n S i g n a lP r o c e s s i n g,２００５,２００５(１４):２１９６Ｇ２２０６．[３]㊀HU A N GX i n,Z H A N GL i a n g p e i．M o r p h o l o g i c a l b u i l d i n g/ s h a d o wi n d e x f o rb u i l d i n g e x t r a c t i o nf r o m h i g hＧr e s o l u t i o ni m a g e r y o v e ru r b a na r e a s[J]．I E E EJ o u r n a lo fS e l e c t e dT o p i c s i n A p p l i e d E a r t h O b s e r v a t i o n s a n d R e m o t eS e n s i n g,２０１２,５(１):１６１Ｇ１７２．[４]㊀J U N GC,S C H R AMM R．R e c t a n g l ed e t e c t i o nb a s e do na w i n d o w e dh o u g ht r a n s f o r m[J]．B r a z i l i a nS y m p o s i u m o fC o m p u t e rG r a p h i c a n d I m a g eP r o c e s s i n g．２００４,２００４(４):１１３Ｇ１２０．[５]㊀O KAO,S E N A R A SC,Y U K S E LB．A u t o m a t e d d e t e c t i o n o fa rb i t r a r i l y s h a p e d b u i l d i n g s i nc o m p l e x e n v i r o n m e n t s f r o mm o n o c u l a rV H Ro p t i c a l s a t e l l i t e i m a g e r y[J]．I E E ET r a n sＧa c t i o n s o nG e o s c i e n c e a n dR e m o t eS e n s i n g,２０１３,５１(３):１７０１Ｇ１７１７．[６]㊀张亚一,费鲜芸,王健,等．基于高分辨率遥感影像的建筑物提取方法综述[J]．测绘与空间地理信息,２０２０,４３(４):７６Ｇ７９．Z HA N G Y a y i,F E IX i a n y u n,WA N GJ i a n,e t a l．S u r v e yo f b u i l d i n g e x t r a c t i o nm e t h o d s b a s e d o nh i g h r e s o l u t i o n r eＧm o t e s e n s i n g i m a g e s[J]．G e o m a t i c s&S p a t i a l I n f o r m a t i o nT e c h n o l o g y,２０２０,４３(４):７６Ｇ７９．[７]㊀季顺平,魏世清．遥感影像建筑物提取的卷积神经元网络与开源数据集方法[J]．测绘学报,２０１９,４８(４):４４８Ｇ４５９．D O I:１０．１１９４７/j．A G C S．２０１９．２０１８０２０６．J I S h u n p i n g,W E IS h i q i n g．B u i l d i n g e x t r a c t i o nv i ac o n v oＧl u t i o n a l n e u r a l n e t w o r k f r o ma n o p e n r e m o t e s e n s i n g b u i l dＧi n g d a t a s e t[J]．A c t aG e o d a e t i c a e tC a r t o g r a p h i c aS i n i c a,２０１９,４８(４):４４８Ｇ４５９．D O I:１０．１１９４７/j．A G C S．２０１９．２０１８０２０６．[８]㊀G ON GJ i a n y a,J I S h u n p i n g．P h o t o g r a mm e t r y a n d d e e p l e a r n i n g[J]．J o u r n a l o fG e o d e s y a n dG e o i n f o r m a t i o nS c iＧe n c e．２０１８,１(１):１Ｇ１５．３４１J a n u a r y２０２２V o l．５１N o．１A G C S h t t p:ʊx b．s i n o m a p s．c o m[９]㊀D A IY u c h a o,Z H A N GJ i n g,H E M i n g y i,e t a l．S a l i e n t o b j e c td e t e c t i o n f r o m m u l t iＧs p e c t r a l r e m o t es e n s i n g i m a g e sw i t hd e e p r e s i d u a l n e t w o r k[J]．J o u r n a l o fG e o d e s y a n dG e o i nＧf o r m a t i o nS c i e n c e,２０１９,２(２):１０１Ｇ１１０．[１０]㊀S U NL o n g,WUT a o,S U NG u a n g c a i,e t a l．O b j e c t d e t e cＧt i o n r e s e a r c ho f S A Ri m a g eu s i n g i m p r o v e d f a s t e r r e g i o nＧb a s e dc o n v o l u t i o n a l n e u r a l n e t w o r k[J]．J o u r n a l o fG e o d e s y a n dG e o i n f o r m a t i o nS c i e n c e,２０２０,３(３):１８Ｇ２８．[１１]㊀H E H a o,WA N GS h u y a n g,WA N GS h i c h e n g,e t a l．A r o a d e x t r a c t i o nm e t h o d f o r r e m o t e s e n s i n g i m a g e b a s e d o ne n c o d e rＧd e c o d e r n e t w o r k[J]．J o u r n a l of G e o d e s y a n dG e o i n f o r m a t i o nS c i e n c e,２０２０,３(２):１６Ｇ２５．[１２]㊀L O N GJ,S H E L H AM E RE,D A R R E L L T．F u l l y c o n v oＧl u t i o n a ln e t w o r k sf o rs e m a n t i cs e g m e n t a t i o n[J]．I E E ET r a n s a c t i o n s o n P a t t e r n A n a l y s i s a n d M a c h i n eI n t e l l i g e n c e,２０１５,３９(４):６４０Ｇ６５１．[１３]㊀R O N N E B E R G E R O,F I S C H E R P,B R O X T．UＧN e t:C o n v o l u t i o n a l n e t w o r k s f o r b i o m e d i c a l i m a g e s e g m e n t a t i o n[C]ʊP r o c e e d i n g s o f t h e１８t h I n t e r n a t i o n a l C o n f e r e n c e o nM e d i c a l I m a g eC o m p u t i n g a n dC o m p u t e rＧA s s i s t e dI n t e rＧv e n t i o n．M u n i c h,G e r m a n y:S p r i n g e r,２０１５:２３４Ｇ２４１．[１４]㊀Z H A O H e n g s h u a n g,S H IJ i a n p i n g,Q IX i a o j u a n,e ta l．P y r a m i ds c e n e p a r s i n g n e t w o r k[C]ʊP r o c e e d i n g so f２０１７I E E EC o n f e r e n c e o nC o m p u t e rV i s i o n a n d P a t t e r nR e c o g n i t i o n(C V P R)．H o n o l u l u,H I,U S A:I E E E,２０１７:６２３０Ｇ６２３９．[１５]㊀L I N G u o s h e n g,M I L A N A,S H E N C h u n h u a,e t a l．R eＧf i n e N e t:m u l t iＧp a t hr e f i n e m e n tn e t w o r k s f o rh ig hＧr e s o l uＧt i o ns e m a n t i cs e g m e n t a t i o n[C]ʊP r o c e e d i n g s o f２０１７I E E EC o n f e r e n c e o nC o m p u t e rV i s i o n a n dP a t t e r nR e c o gＧn i t i o n(C V P R)．H o n o l u l u,H I,U S A:I E E E,２０１７:５１６８Ｇ５１７７．[１６]㊀崔卫红,熊宝玉,张丽瑶．多尺度全卷积神经网络建筑物提取[J]．测绘学报,２０１９,４８(５):５９７Ｇ６０８．D O I:１０．１１９４７/j．A G C S．２０１９．２０１８００６２．C U I W e i h o n g,X I O N G B a o y u,Z H A N G L i y a o．M u l t iＧs c a l ef u l l y c o n v o l u t i o n a l n e u r a l n e t w o r k f o rb u i l d i ng e x t r a c t i o n[J]．A c t aG e o d a e t i c a e tC a r t o g r a p h i c aS i n i c a,２０１９,４８(５):５９７Ｇ６０８．D O I:１０．１１９４７/j．A G C S．２０１９．２０１８００６２．[１７]㊀V A S WA N IA,S HA Z E E RN,P A RMA RN,e t a l．A t t e nＧt i o n i s a l l y o un e e d[C]ʊP r o c e e d i n g so f２０１７I E E E C o nＧf e r e n c e o nN e u r a l I n f o r m a t i o nP r o c e s s i ng S y s t e m s．[S．l．]:I E E E,２０１７．[１８]㊀WA N G X i a o l o n g,G I R S H I C KR,G U P T A A,e t a l．N o nＧl o c a l n e u r a l n e t w o r k s[C]ʊP r o c e e d i n g so f２０１８I E E E/C V FC o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n．S a l tL a k eC i t y,U T,U S A:I E E E,２０１８:７７９４Ｇ７８０３．[１９]㊀F UJ u n,L I UJ i n g,T I A N H a i j i e,e t a l．D u a l a t t e n t i o nn e tＧw o r k f o r s c e n e s e g m e n t a t i o n[C]ʊP r o c e e d i n g s o f２０１９I E E E/C V FC o n f e r e n c e o nC o m p u t e rV i s i o n a n dP a t t e r nR e c o g n i t i o n(C V P R)．L o n g B e a c h,C A,U S A:I E E E,２０１９:３１４１Ｇ３１４９．[２０]㊀T A O A,S A P R A K,C A T A N Z A R O B．H i e r a r c h i c a lm u l t iＧs c a l e a t t e n t i o n f o r s e m a n t i c s e g m e n t a t i o n[C]ʊP r o c e e d i n g so f２０２０I E E EC o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n．[S．l．]:I E E E,２０２０．[２１]㊀S U N K e,X I A OB i n,L I U D o n g,e t a l．D e e p h i g hＧr e s o l uＧt i o n r e p r e s e n t a t i o n l e a r n i n g f o rh u m a n p o s e e s t i m a t i o n[C]ʊP r o c e e d i n g s o f２０１９I E E E/C V FC o n f e r e n c eo nC o m p u t e rV i s i o na n d P a t t e r n R e c o g n i t i o n(C V P R)．L o n g B e a c h,C A,U S A:I E E E,２０１９:５６８６Ｇ５６９６．[２２]㊀Q I NX u e b i n,Z HA N GZ i c h e n,HU A N GC h e n y a n g,e t a l．U２ＧN e t:G o i n g d e e p e rw i t hn e s t e dUＧs t r u c t u r e f o r s a l i e n to b j e c t d e t e c t i o n[J]．P a t t e r nR e c o g n i t i o n,２０２０,１０６:１０７４０４．[２３]㊀L I U P e n g h u a,L I U X i a o p i n g,L I U M e n g x i,e t a l．B u i l d i n gf o o t p r i n t e x t r a c t i o n f r o m h ig hＧr e s o l u t i o n i m a g e s v i as p a t i a l r e s i d u a l i n c e p t i o n c o n v o l u t i o n a l n e u r a l n e t w o r k[J]．R e m o t eS e n s i n g,２０１９,１１(７):８３０．[２４]㊀F E N G W e n q i n g,S U IH a i g a n g,HU A L i,e t a l．B u i l d i n ge x t r a c t i o nf r o m V H R r e m o t e s e n s i ng i m a g e r y b yc o m b i n i n g a n i m p r o v ed de e p c o n v o l u t i o n a l e n c o d e rＧd e c o d e ra r c h i t e c t u r e a n dh i s t o r i c a l l a n du s ev e c t o rm a p[J]．I n t e rＧn a t i o n a lJ o u r n a l o f R e m o t e S e n s i n g,２０２０,４１(１７):６５９５Ｇ６６１７．[２５]㊀Z H U Q i n g,L I A OC h e n g,H U H a n,e t a l．M A PＧn e t:m u l t i p l ea t t e n d i n g p a t h n e u r a l n e t w o r k f o rb u i l d i n g f o o t p r i n te x t r a c t i o nf r o mr e m o t e s e n s e d i m ag e r y[J]．I E E ET r a n s a cＧt i o n s o nG e o s c i e n c ea n d R e m o t eS e n s i n g,２０２１,５９(７):６１６９Ｇ６１８１．[２６]㊀H E K a i m i n g,Z HA N G X i a n g y u,R E NS h a o q i n g,e t a l．D e e p r e s i d u a l l e a r n i n g f o r i m a g e r e c o g n i t i o n[C]ʊP r o c e e dＧi n g so f２０１６I E E E C o n f e r e n c eo n C o m p u t e r V i s i o na n dP a t t e r n R e c o g n i t i o n(C V P R)．L a s V e g a s,N V,U S A:I E E E,２０１６:７７０Ｇ７７８．[２７]㊀B I S H O PC M,H I N T O N G．N e u r a l n e t w o r k s f o r p a t t e r n r e c o g n i t i o n[M]．O x f o r d:O x f o r dU n i v e r s i t y P r e s s,１９９５．[２８]㊀MA G G I O R IE,T A R A B A L K A Y,C HA R P I A TG,e t a l．C a ns e m a n t i c l a b e l i n g m e t h o d s g e n e r a l i z e t oa n y c i t y t h ei n r i a a e r i a l i m a g e l a b e l i n g b e n c h m a r k[C]ʊP r o c e e d i n g so f２０１７I E E EI n t e r n a t i o n a lG e o s c i e n c ea n d R e m o t eS e n s i n gS y m p o s i u m(I G A R S S)．F o r t W o r t h,T X,U S A:I E E E,２０１７:３２２６Ｇ３２２９．(责任编辑:张艳玲)收稿日期:２０２０Ｇ１０Ｇ１４修回日期:２０２１Ｇ０７Ｇ２１第一作者简介:张玉鑫(１９９７ ),女,硕士,主要研究方向为语义分割和建筑物提取.F i r s t a u t h o r:Z H A N GY u x i n(１９９７ ),f e m a l e,p o s t g r a d uＧa t e,m a j o r si ns e m a n t i cs e g m e n t a t i o na n d b u i l d i n g e xＧt r a c t i o n．EＧm a i l:z h a n g y u x i n_w h u＠w h u．e d u．c n通信作者:邓非C o r r e s p o n d i n g a u t h o r:DE N GF e iEＧm a i l:f d e n g＠s g g．w h u．e d u．c n４４１。

通航机场场面运动目标检测方法

通航机场场面运动目标检测方法通航机场场面运动目标检测方法随着航空业的发展，通航机场成为一个重要的部分，它起着联系城市与世界的桥梁作用。

在通航机场中，大量的飞机、车辆和行人穿梭往来，因此，高效准确地对场景中的运动目标进行检测和跟踪，对保障航空安全和优化机场运行具有重要意义。

本文将介绍一种通航机场场面运动目标检测方法，以提高机场运行的安全性和效率。

一、目标检测方法的概述目标检测是计算机视觉领域的一项重要任务，旨在从图像或视频中自动识别和定位特定的目标。

目前，常见的目标检测方法包括基于传统的图像处理方法和基于深度学习的方法。

本文提出的通航机场场面运动目标检测方法主要基于深度学习方法，由于其在目标检测任务上具备更强的性能。

二、数据预处理在通航机场场面运动目标检测过程中，首先需要对采集到的图像或视频数据进行预处理。

预处理的目标是将输入数据转化为适合深度学习算法处理的形式。

常见的数据预处理方法包括图像分割、人脸检测和背景建模等。

例如，对于通航机场的图像场景，可以通过图像分割的方法将图像中的目标物体提取出来，减少处理的复杂性。

三、深度学习网络的构建本文采用卷积神经网络（Convolutional Neural Network，CNN）作为目标检测的模型。

CNN是一种深度学习网络结构，具备较强的图像特征提取能力。

在通航机场场面运动目标检测中，CNN可以通过学习大量的图像样本，提取出目标物体的特征信息。

常见的CNN模型包括AlexNet、VGGNet、GoogLeNet和ResNet等。

四、目标检测模型的训练与优化在构建好CNN模型后，需要使用标注的图像数据进行模型的训练与优化。

训练数据包括标注了目标位置信息的图像样本，通过网络的前向传播和反向传播过程，不断调整模型的参数，使得网络能够准确地预测出目标的位置。

训练过程中，常采用的优化算法包括随机梯度下降（Stochastic Gradient Descent，SGD）、自适应矩估计（Adaptive Moment Estimation，Adam）等。

空间信息的自然语言表达模型_杜清运

空间认知是一种能力，是从认知论的角度看，对事物和现象的发生、影响、因果、趋势进行分析是在科学探索中启发形象思维，激发研究的基础，创造性思维的引擎
［］１
研究对象）的空间方位研究各自从不同学科视角和路径去共同理解空间信息。语言学的研究对象具其结构主义观点和系统性的研究方有的离散特征，法对空间信息的结构研究提供了理论框架和方法
语言学模型研究和自然语言领域（以现代汉语作为
收稿日期：２０１４０２１８项目来源：国家自然科学基金资助项目（）。４１２７１４５５，４１３７１４２７
第一作者：杜清运，博士，教授，博士生导师。主要从事地图语言学和地理空间信息科学研究。Ｅ：ｄｕｍａｉｌｈｕ．ｅｄｕ．ｃｎ＠ｗｑｙ通讯作者：任福，博士，副教授。Ｅ：ｍａｉｌｒｅｎｆｕ＠ｗｈｕ．ｅｄｕ．ｃｎ
的形式，自然语言同样可以表达和传输空间知像）（识，ＵＣＧＩＳｕｎｉｖｅｒｓｉｔｏｎｓｏｒｔｉｕｍｆｏｒｇｅｏｒａｈｉｃｙｃｇｐ）报告曾指出，对于某些应用ｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅ（如车辆导航系统）的大多数用户而言，听觉（语音介绍）形式比地图具有处理更快和错误更少的优因而更加安全。点，目前，在实际Ｇ可视化几乎成为ＩＳ应用中，但有学者空间信息表达和知识传播的主流手段，认为用户接受、解释和理解视觉信息的能力已经接近极限。研究表明，声音比图像适合于表现高维数据而不会使用户出现信息过载，采用自然语

西安工程大学学报2023年总目次

西安工程大学学报2023年总目次Ә纺织科学与工程亚麻短纤维增强硅橡胶复合材料的力学性能周子祥,等第1期(1) 新媒体广告推送方式对服装购买意愿的影响周捷,等第1期(6) 台湾高山族传统服饰中的刺绣针法赖文蕾,等第1期(14) 基于K A N O 模型的冲锋衣口袋款式需求周捷,等第2期(1) 基于P S O 的G P C -P I D 的细纱机锭速控制算法王延年,等第2期(9) B i O B r 光热超疏水涂层制备及其防冰除冰性能张彩宁,等第3期(1) 基于C u NW s /A g NWs /棉纺织品的疏水性可穿戴压力传感器屈银虎,等第3期(7) P B O 纤维湿法非织造材料热压工艺李志刚,等第3期(15) 基于逆向工程的青年女性夜跑服设计薛媛,等第3期(21) 可活动式男体立裁人台手臂的研制方法对比许珂,等第3期(28) 基于岭回归的改良新唐装款式设计周捷,等第4期(1) 基于感知风险与感知价值的婚纱租赁接受意愿影响因素张云鹤,等第4期(8) 服装品牌社交电商平台宣传策略对消费者购买意愿的影响:以小红书为例冯润榴,等第4期(16) 基于深度置信网络的缝纫平整度客观评价模型胡胜,等第4期(25) 基于图像特征的纱线条干均匀度实时检测宋栓军,等第4期(32) 改进自抗扰下的细纱机卷绕系统控制策略廉继红,等第4期(40) Ә环境工程·化学化工面向I G B T 模块的冷却方式及微通道冷却在I G B T 中的应用研究吴曦蕾,等第1期(21) 自然条件下水冷捕获量的建模与验证孙铁柱,等第1期(38) 有机氟丙烯酸树脂/S i O 2超疏水涂层的制备与性能赵亚梅,等第1期(46) 低共熔溶剂辅助酶法制备稀有人参皂苷C K 樊雨柔,等第1期(54) 纳米Z r O 2/Z n -A l -C 涂层在模拟地热水中的防腐性能余嵘,等第1期(62) R s -198液体有机菌肥制备及其促生性能研究朱双喜,等第1期(71) 好氧颗粒污泥对活性黑5染料的降解陈希,等第2期(32) 基于A i r p a k 的某建筑工地活动板房室内热环境数值模拟狄育慧,等第2期(40) 延河底泥的重金属分布特征和生态风险评价王理明,等第2期(47) 酿酒酵母启动子的克隆及特性表征孙琳琳,等第3期(51) 复合微生物腐解菌剂的制备及其菌渣堆肥性能李方向,等第3期(59) 蒸发冷却空调水质及处理方法的适用性黄翔,等第3期(66) I n 2S 3/U i O -67异质结的构筑及可见光催化清除C r (Ⅵ)和R h B 袁童乐,等第4期(64) MA -S A S -H E MA 三元共聚物的合成及其阻垢性能余嵘,等第4期(74) Ә电子信息与机电工程基于改进U N e t 模型的原棉杂质图像分割方法许涛,等第1期(77) 含典型缺陷的风电塔筒环焊缝强度分析成小乐,等第1期(84)动态调整蚁群算法启发因子的A G V 路径规划沈丹峰,等第1期(93) 基于改进E S O 的柔性机械臂自抗扰-滑模组合控制朱其新,等第1期(103) 智能投影电视意象耦合造型仿生设计高小针,等第1期(112) 基于纵向阻抗的变压器虚拟相位保护夏经德,等第2期(54) 电网频率控制的新型三电平光储一体机王刚,等第2期(63) 自适应变分模态分解与R C N N -3结合的扬声器异常声分类方法周静雷,等第2期(71) 基于B P 神经网络的电磁阀多目标优化设计沈丹峰,等第2期(79) 渐进式深度网络下盲运动图像去模糊方法王晓华,等第3期(74) 改进D *算法下的无人机三维路径规划汪小帅,等第3期(83) 多尺度混合注意力网络的图像超分辨率重建李云红,等第3期(92) 融合直觉模糊灰色理论的制造云服务Q o S 评价方法陈君,等第3期(101) 基于双源自适应知识蒸馏的轻量化图像分类方法张凯兵,等第4期(82) 结合先验知识与深度强化学习的机械臂抓取研究缪刘洋,等第4期(92) 基于浸入与不变自适应的机械臂轨迹跟踪控制方法汤元会,等第4期(102) 局部遮荫下基于I P &O -S S A 的M P P T 控制研究王延年,等第4期(110) 改进D e e p L a b V 3+下的轻量化烟雾分割算法陈鑫,等第4期(118) 基于新型特征增强与融合的雾天目标检测方法朱磊,等第6期(106) 用于自动驾驶的双注意力机制语义分割方法王延年,等第6期(114) 优化脉振高频信号注入的P M S M 无位置传感器控制方法张蕾,等第6期(121) T 型受限微通道内液滴生成特性数值模拟袁越锦,等第6期(129) 联合边界感知和多特征融合的点云语义分割方法卢健,等第6期(137) 基于改进R N N 多源融合算法的网络异构信息集成管理系统李麟,等第6期(145) 基于胶囊网络的入侵检测模型赵旭,等第1期(119) 小数据集下基于改进QMA P 算法的B N 参数学习陈海洋,等第1期(126) 基于E f f i c i e n t F a c e N e t s 的大规模自然场景人脸识别张凯兵,等第2期(87) 多策略改进的麻雀搜索算法及应用薛涛,等第2期(96) 多视角原型对比学习的小样本意图识别模型张晓滨,等第2期(105) Ә材料科学时效处理对20C r 渗碳钢制高速直线导轨组织及性能影响王俊勃,等第2期(17) 不同溅射气压下T i N 薄膜的制备及其性能徐洁,等第2期(25) 包覆铜粉的制备及其电磁吸波性能刘毅,等第3期(36) N i O 改性纳米多孔A g 电催化氧化硼氢化钠性能研究宋衍滟,等第3期(44) 不同溅射功率下C o C r F e N i C u 高熵合金涂层的耐腐蚀及其抗氧化性能王彦龙,等第4期(48) 钕钆变质镁铝基合金的固溶及时效行为杨建东第4期(56) Ә基础科学线性回归模型多变点的L A D -L A S S O 估计王珊,等第2期(113) 引入正弦余弦算子和新自花授粉的花授粉算法张超,等第2期(119)基于多源特征和双向门控循环单元的抗高血压肽识别贺兴时,等第3期(109) 一类具有时滞的S e l k o v 模型的H o p f 分歧分析马亚妮,等第3期(115) 具有恐惧和强A l l e e 效应的离散食饵-捕食者模型胡新利,等第4期(127) 一种具有执行器故障的非线性离散系统的迭代学习控制李丁巳,等第4期(134) 数据中心中机柜出风温度的快速模拟张博,等第5期(1) 水蓄冷在珠三角地区数据中心应用的节能潜力分析董梓骏,等第5期(10) 间接蒸发冷却在湿热地区数据中心的节能分析马晓晨,等第5期(18) 藏区数据中心热回收式直接蒸发冷却机组的设计与测试黄翔,等第5期(25) 数据中心气泵驱动复合冷却机组工作特性周峰,等第5期(32) 声屏障及填料和配水协同优化对湿式冷却塔热力性能的影响步兆彬,等第5期(39) 数据中心间接蒸发冷却空调系统能效评价褚俊杰,等第5期(46) 地板下送风数据中心冷通道导流的结构研究许陆顺,等第5期(53) 基于模型预测控制的数据中心水蓄冷冷却系统节能优化模型郑浩然,等第5期(61) 回热式间接蒸发冷却地区适应性的数值模拟徐鹏,等第5期(69) 基于线性S VM 算法的云数据中心蓄电池状态预测杨玉丽,等第5期(77) 数据中心送风冷通道的导流构件结构优化巩莉,等第5期(83) 室内工况对蒸发冷凝气泵热管复合空调的影响王飞,等第5期(92) 高热流密度多热源冷却用相变换热冷板实验研究刘凯,等第5期(99) 基于全生命周期成本的装配式高效制冷机房设计凌荣武,等第5期(107)Ә建筑环境与舒适健康过渡季高校教室短期热经历对热舒适与热适应的影响蒋婧,等第6期(1) 夏热冬冷地区办公建筑空气源热泵与太阳能复合供暖系统运行特性邓淑丹,等第6期(8) 基于G R A -P S O -B P 神经网络的办公建筑负荷率及冷冻水供水温度预测马静静,等第6期(17) 间歇用能特征下的干湿式地板辐射供暖热性能对比周文杰,等第6期(26) 传统村落微气候环境模拟应用与空间优化以汉中市乐丰村为例李晶,等第6期(34) 冬季产后女性热偏好及其影响因素王丽娟,等第6期(42) 中国不同地区居民节能意识影响因素调查常皓冉,等第6期(50) Ә电力安全与智能装备关键技术输电线路中污秽复合绝缘子异常发热研究曹雯,等第6期(60) 恶劣环境下多参量融合的断路器操动机构辅助开关研究邱鹏锋,等第6期(69) 电力系统中全光纤电流传感器的研究进展高超,等第6期(78) 光伏组件覆雪层的自然融化脱落条件朱永灿,等第6期(89) 直流微网中双有源桥变换器精确直接功率控制叶育林,等第6期(96)。

Geo-AR

研究背景
Part 1
增强现实技术
头盔或CCD显示器跟踪系统移动计算能力
研究背景
Part 1
户外增强现实
• 主要针对大尺度户外场景 • 面向移动计算设备（穿戴式计算机、智能手机等） • 随时随地享受基于位置服务 • 虚拟信息与真实景观的即时无缝融合 • 为地理信息可视化、用户交互等提供了新的模式
研究内容
Part 3
虚拟信息生成与注册
• 根据地理目标检测阶段获取的地物类型，查询地理空间信息数据库 • 将所获数据（可为多媒体数据，如文本、图片、视频、3D模型等）通过
OpenGL ES等三维图形库处理为可视化虚拟信息 • 将虚拟信息根据地理目标的世界坐标注册到相应位置并渲染到视频帧
OpenGL ES是针对手机等移动或嵌入式设备设计的一个功能强大、调用方便的底层三维图形库
研究内容
Part 3
地理目标检测模型训练
• 地理目标检测集制作
共选取10项地理目标（建筑、塑像等）进行实验
共采集2000张图像（涵盖各种情况）将图像批量缩放到模型输入尺寸，再
进行地理目标标注，并按照PASCAL VOC数据集格式生成对应XML注释文件，与图像一同构成地理目标检测集
研究背景
Part 1
户外增强现实系统
• 早期户外增强现实系统大多通过卫星定位和惯性、磁性传感器等辅助确定位置和姿态来实现户外场景中的跟踪注册
早期户外AR系统通过GPS与传感器定位远处目标
• 一部分户外增强现实系统通过在户外场景中布置标记(Marker)并通过传统视觉算法实现户外场景的相机姿态计算与虚实融合
按照一定比例划分为训练集、验证集与测试集(如2:1:1)

北京大学计算机科学技术研究所2014年本科生科研-北大计算机研究所

校长基金
82529699
pengyuxin@
12
彭宇新
教授
视频搜素引擎系统的研究与实现
随着互联网视频内容的不断增多，如何快速准确地搜索出相关的内容已经成为研究和应用的关键问题。现有系统主要依赖网页文本，本课题主要研究基于内容的视频检索技术，基于实验室已有的技术积累，包括视频采集、视频结构化、视频字幕提取、视频索引结构等，结合具体需求，进一步研发下列技术和系统：（1）视频数据的采集和显示机制；（2）基于内容的视频检索。实验室已具备基本算法和系统，新加入的学生将和老师、研究生等一起学习和工作，一方面研究相关方法，另一方面是参与研发一个实际可用的视频搜索系统。
chenxiaoou@
10
杨德顺
副研究员
音乐功能/用途鉴别
人类工作和生活的活动，常伴随着音乐。百万首量级的音乐库已经成为现实。自动鉴别音乐所适合的场景，是实现基于用途的音乐检索和推荐的基础。本课题研究音乐特征提取和基于音乐特征的音乐用途自动鉴别技术。
校长基金
82529553
yangdeshun@
在本项目中，我们就将针对三维表面上的各向异性表面材质提出一种简便、高效、快速的建模方法。我们将采用通用的图像采集设备，例如Kinect，采集真实物体表面不同方向的图像/视频以及几何信息，在对物体进行三维几何重建的同时，也重建出它的表面反射模型，从而得到更高精度和真实感的三维模型。其中的关键问题是，我们要避免现有方法对各向异性材质需要采集大量图像进行建模的问题，仅通过少量图像或视频恢复出较为精确的反射模型。
校长基金
82529245
lianzhouhui@
3
刘家瑛
副教授
文物古迹图像修复重建研究
文物作为人类历史发展过程中遗留下来的遗迹，从不同侧面反映了各个历史时期的人类社会活动，是人类宝贵的历史文化遗产。然后由于自然力的侵蚀和人为的破坏，大量保存下来的文物不甚完整，文物遗留的信息已经有所缺失。传统的艺术复原由富有经验的专家直接在艺术作品原物上实施操作，操作失误的危险性很大，相比之下，计算及复原具有虚拟性和可重复性，没有破损的危险，也没有时间制约。本课题针对历史文化古迹图像在传承过程中出现了残缺、损坏等现象的问题，为了满足文保工作者对于文物进行研究、保护和展示的需求和人们在视觉上的欣赏需求，采用图像的修复重建技术对文物古迹图像进行修复重建处理，消除在传承过程中可能出现的残缺损坏现象。基于文物图像所特有的大量冗余信息，利用矩阵低秩填充等相关图形图像处理技术对文物图像进行修复，实现文物古迹图像的修复重建。

增强现实技术及其应用研究

领域的应用主要集中在增强战场环境、军事训练及作战指挥
人工智能及识别技术
络，可以减少一些装备，同时也可以大大提高增强现实系统
等方面。在军事领域中，真实环境下融合虚拟物体，可以增强真实战场场景。向系统中输入位置信息，系统不仅能给使
用者提供真实的战场场景，而且能够通过增加虚拟物体强调肉眼无法看见的环境信息以及敌方或己方的隐藏力量来增强
动性差、合成影像精度不够高。真实感绘制技术的目标是将
真实场景和计算机生成的虚拟物体无缝合成，并最终使观察
者感觉不到真实物体和虚拟物体的区别。
４增强现实应用与展望
４１增强现实应用．
增强现实系统由于同时包括虚拟世界和真实世界环境，从而有别于单一的虚拟环境和真实环境，目前已经广泛地应用于军事、航空航天、医学、商业等诸多领域。本文主要介绍增强现实在军事和航空航天方面的应用。美国率先将增强现实用于军事领域，在武器系统性能评价、武器操纵训练及指挥大规模军事演习３方面发挥了重大作用。他们制定了战争综合演示厅计划、防务仿真交互网络
程，即先根据真实物体确定虚拟物体与观察者之间的关系，
然后通过正确的投影将虚拟物体投影至观察者的视域范围。虚实物体配准要求正确（延时）无、快速（精确、无抖动）、不受光照、遮挡、物体运动的影响。目前，设备昂贵、对外
模拟驾驶等方面都采用了增强现实技术。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于影像深度学习的增强现实系统设计
一、研究背景:
1.增强现实技术:
将计算机产生的图形、文字注释等虚拟信息有机地融合到使用者所看到的真实世界景象中，对人的视觉系统进行景象增强或扩张。

2.户外增强现实:
主要针对大尺度户外场景；面向移动计算设备（穿戴式计算机、智能手机）；随时随地享受基于位置服务；虚拟信息与真实景观的即时无缝融合；虚拟地理信息可为用户提供新的模式。

3.增强现实的发展趋势:
随着移动互联网的快速发现，户外增强现实系统有越来越多的使用场景。

如今的增强现实发展体现了四大趋势:从室内小范围到户外大场景的转变；从笨重的穿戴式到便捷式的移动设备的过滤；缺
4.上述技术的局限性:
位置定位精度易受外界条件影响，如收到建筑遮挡时精度将急剧衰减甚至无法定位。

常见移动设备的惯性传感器存在一定系统误差；磁力计传感器的输出易受外界复杂磁场环境影响，干扰方向判断。

基于视觉标记的增强现实技术通常适用于室内场景，户外大尺度场景一般不受人为控制，大量使用视觉标记并不现实。

5.视觉技术与传感器技术结合:
更多的户外增强现实系统采用计算机视觉技术与传感器技术想结合的思想来实现混合注册，取得了不错的效果。

常见的结合点1.视觉算法辅助降低传感器误差2.视觉算法对目标识别定位、追踪等，传感器辅助降低缺
6.一些混合户外系统暴露的问题：
所采用的传统视觉自然特征检测提取算法在运动模糊、光照变化、遮挡、多目标、多角度、多尺度等复杂条件下大多表现欠佳。

大多数采用客户端/服务器架构，视觉算法的计算任务由服务器端承担，虽然算法执行速度得到保证，但受制于网络延迟，难以达到实时。

对网络质量依赖较高，在质量差或无网络的户外场所难以或无法正常使用，限制了其覆盖范围，降低了灵活性。

7.计算机视觉领域中的深度学习
卷积神经网络Alexnet在2012年ImageNet图像识别比赛中获得冠军，标志着深度学习模型在计算机视觉领域的崛起。

相比传统机器学习图像算法依赖人工设计特征，深度学习模型自动从海量原始数据中进行高效的特征学习。

在大数据时代与计算力突飞猛进的今天，深度学习模式用于海量数据挖掘与并行计算，取得了很大影响。

8.深度学习目标检测模型
在目标检测任务方面，深度学习模型层出不穷，特别是R-CNN系列模型和YOLO/SSD模型为代表，取得了近几年的最好成绩。

9.户外地理目标检测与深度学习模型
深度学习目标检测模型与户外增强现实系统的结合有着广泛的应用前景。

户外地理目标特性举例：通常为大型目标（如建筑、桥梁等）；户外天气、光照条件多变；目标易受行人车辆、广告牌遮挡。

深度学习模型（以SSD模型为例）：对大型目标的检测效果较好；对光照变化适应性较高；能够容忍一定程度的遮挡；多尺度检测结构。

二、研究路线
1.面向户外移动增强现实的地理目标检测与追踪注册
地理目标检测集，深度学习，目标检测模型
卫星定位坐标，传感器姿态信息，地理目标空间关系
地理空间信息数据库，2D/3D坐标变换，虚拟信息生成与注册，目标实时并行追踪
地理信息可视化，基于位置服务，交互体验
三、研究内容
1.针对移动端的轻量化目标检测模型设计
移动设备的计算力与拥有高性能GPU的电脑相比存在若干数量级的差距
针对移动端的模型设计和优化主要集中在：精简模型参数数量，使模型“瘦身”；调整模型结构，降低计算量，把模型“压缩”；优化计算性能（尤其卷积计算），给模型“加速”；
模型瘦身与压缩例子二：将轻量化网络SqueezeNet接入SSD模型：SqueezeNet极大压缩了神经网络的参数数量，同时保证了较高的精度。

模型运算加速例子：将开源矩阵多核计算库OpenBLAS交叉编译到移动设备，加速模型在移动端CPU上的运算；将神经网络加速包NNPACK交叉编译到移动设备，通过其快速卷机等算法减少模型运算耗时。

模型网络结构展示：Rsenet-18+SSD；SqueezeNet+SSD
2.地理目标检测模型训练
地理目标检测集制作：共选取10项地理目标（建筑、雕塑等）进行实验；共采集2000张图像（涵盖各种情况）；将图像批量缩放到模型输入尺寸，再进行地理目标标注，并按照PASCALVOC数据集格式生成对应XML注释文件，与图像一同进行目标检测，按照缺
模型训练环境：以SqueezeNet+SSD模型为例；深度学习框架：MXNet v0.9.0；操作系统：Ubuntu 14.04 LTS 64bit；CPU：Intel i7-6700k CPU @ 4.00 Ghz x
8(8GB)；GPU：NVIDIA GTX 1060(6GB)；GPU并行缺
模型训练结果：共训练1000轮；约在第800轮时模型收敛；测试集上评估mAP达到0.97，精度较高
3.地理目标检测结果精确定位
通过卫星定位坐标、传感器信息与地理目标空间关系来进一步精炼检测结果，并精确区分具有相似视觉特征的地理目标，从非视觉层面降低错误率。

4.虚拟信息生成与注册
根据地理目标检测阶段获取的地物类型，查询地理空间信息数据库
将所获数据（可为多媒体数据、如文本、图片、视频、3D模型等）通过OpenGL ES等三维图形库处理为可视化虚拟信息
将虚拟信息根据地理目标的世界坐标注册到相应位置并渲染到视频帧。

5.目标实施并行追踪
移动端目标检测模型的速度瓶颈（以SqueezeNet SSD为例）：在移动端检测数度约为2FPS（1秒2帧）；如果每一帧都依靠目标检测模型处理，将极大影响到系统的实时性；目标检测结果可以交给追踪算法进行后续的目标实施并行追踪KCF高速追踪算法：一种鉴别式高速追踪方法，通过循环矩阵进行快速计算；可通过多线程开启多个追踪器实时追踪多个地理目标（平均16FTS）缺
6.基于户外移动增强现实的空间信息服务
地理信息可视化：通过对虚拟信息的注册与渲染，大量地理空间数据得以直观映射到真实世界中；身临其境，避免2D/3D制图可视化可能间接带来的不恰当空间认知
基于位置服务：在增强现实与移动计算的支持下，空间查询、空间分析等将更加自由直观。

交互体验：在传感器、触摸屏、麦克风等硬件设备支持下，人机交互体验将更加友好；不仅仅是多通道人机交互，人与人之间的交互也将发生新的变革。

7.系统演示
用户跑动；多目标+走动等
8.总结与展望
本研究回顾了户外增强现实技术的产生与发展，总结了早期系统存在、当今系统仍然遗留的一些问题：本研究对深度学习模型在户外移动增强现实中的应用做出了有益的探索，两者的结合具有广阔的前景；提出了一种面向户外移动增强现实的地理目标监测与追踪注册方法，并设计开发了一套原型系统予以验证。

实验表明，系统很好地体现了深度学习模型在地理目标检测上的优势，并充分发挥了移动计算能力，极大地降低了对网络的依赖，体现出较高的实时性与准确性。

展望：引入场景分割、实例分割模型进一步加强地理目标空间关系判断与注册精度提升；进一步挖掘和拓展基于地理目标的空间信息服务模式；缺
四、补充
先进科技推动力：IoT；AI/AR；Block Chain/BIM；Cloud Computing；Big Data；Edge Computing
计算能力：看-V1.0->算-V2.0->谋-V3.0->断；
V1.0：互联网+地图，数据动态更新，数据驱动符号浏览、查询；
V2.0：用户地图空间，订单式制图体验，高维数据表达，信息生态“入库” 标注、分析；
V3.0：地图+行业大数据；凡在感知与位置服务，多模型耦合分析，工业及可视化建模、智能
思考：未来GIS专业何去何从？。