基于多区域特征的深度卷积神经网络模型
《2024年基于多区域上下文信息指导的目标检测研究》范文
《基于多区域上下文信息指导的目标检测研究》篇一一、引言随着人工智能技术的飞速发展,目标检测作为计算机视觉领域的重要研究方向,已经得到了广泛的关注和应用。
然而,在实际应用中,由于场景的复杂性和多变性,单一区域的目标检测往往难以满足实际需求。
因此,本文提出了一种基于多区域上下文信息指导的目标检测方法,以提高目标检测的准确性和鲁棒性。
二、相关研究在目标检测领域,许多学者和研究者已经进行了大量的研究工作。
传统的目标检测方法主要依赖于手工设计的特征提取器,如SIFT、HOG等。
然而,这些方法在面对复杂多变的场景时,往往难以提取出有效的特征信息。
近年来,随着深度学习技术的发展,基于深度学习的目标检测方法逐渐成为主流。
其中,基于区域的方法如Faster R-CNN、Mask R-CNN等在目标检测任务中取得了较好的效果。
然而,这些方法仍然存在一定的局限性,尤其是在处理多区域、多目标的场景时。
三、方法介绍针对上述问题,本文提出了一种基于多区域上下文信息指导的目标检测方法。
该方法主要包括以下步骤:1. 区域划分:将待检测的场景划分为多个区域,根据不同区域的特征和目标进行划分。
2. 特征提取:利用深度学习技术,对每个区域进行特征提取。
这里可以采用多种深度学习模型进行特征提取,如卷积神经网络(CNN)等。
3. 上下文信息融合:将不同区域之间的上下文信息进行融合,形成上下文信息图。
这里可以采用图卷积神经网络(GCN)等技术对上下文信息进行融合。
4. 目标检测:基于上下文信息图和特征图进行目标检测,这里可以采用各种基于深度学习的目标检测算法。
四、实验与分析为了验证本文提出的方法的有效性,我们在多个公开数据集上进行了实验。
实验结果表明,本文方法在多区域、多目标的场景下具有较好的准确性和鲁棒性。
具体来说,本文方法在准确率、召回率和F1分数等指标上均取得了较好的结果。
与传统的目标检测方法和基于区域的方法相比,本文方法在处理复杂多变的场景时具有更好的性能。
人脸识别技术的深度学习网络模型分析
人脸识别技术的深度学习网络模型分析随着科技的不断发展,人脸识别技术已经成为各行各业中不可或缺的一部分。
它被广泛应用于人脸解锁、安全监控、身份认证等领域。
而人脸识别的核心是深度学习网络模型,它通过学习和分析人脸图像的特征,从而实现对人脸的准确识别。
本文将对人脸识别技术的深度学习网络模型进行详细分析。
一、卷积神经网络(CNN)卷积神经网络是一种广泛应用于图像识别任务的深度学习网络模型。
它的核心思想是通过多个卷积层和池化层的堆叠,从图像中提取出更高级别的特征。
在人脸识别领域,CNN可以通过多层卷积层和池化层的组合,识别人脸区域和关键特征点。
其中最为著名的CNN网络模型是VGGNet、ResNet和Inception等。
VGGNet是由牛津大学的研究团队提出的一种卷积神经网络模型,它是一个基于全卷积层的深层网络结构。
VGGNet通过堆叠多个3x3的卷积层和池化层来提取图像中的特征,因此具有非常强大的特征提取能力。
在人脸识别任务中,VGGNet 可以从不同尺度的图像中提取出人脸的细节特征,提高人脸识别的准确性。
ResNet是由微软亚洲研究院的研究员提出的一种残差神经网络模型。
它通过引入了残差模块(Residual Block),使得神经网络可以学习到残差特征。
在人脸识别任务中,ResNet可以更好地处理人脸图像中的姿态变化、光照变化等因素,提高了人脸识别的鲁棒性。
Inception是由Google团队提出的一种多分支卷积神经网络模型。
它通过在同一层中使用多个不同尺寸的卷积核来提取多尺度的特征,从而进一步提高了特征的表达能力。
在人脸识别任务中,Inception可以捕捉到不同尺度的人脸特征,更好地适应不同的人脸尺寸和姿态。
二、人脸识别模型架构(FaceNet)FaceNet是由Google团队提出的一种用于人脸识别的深度学习网络模型。
它结合了卷积神经网络和三元组损失函数,实现了对人脸的高精度识别。
FaceNet的核心思想是通过将同一个人脸的多个图像嵌入到同一个低维度的特征向量空间中,使得这些特征向量之间的距离尽可能小,而不同人脸的特征向量之间的距离尽可能大。
基于卷积神经网络的图像分类模型综述
基于卷积神经网络的图像分类模型综述随着计算机视觉领域的不断发展,图像分类一直是一个重要且具有挑战性的问题。
为了提高图像分类的准确性和效率,研究人员提出了许多基于卷积神经网络(Convolutional Neural Network,CNN)的图像分类模型。
本文将综述近年来基于卷积神经网络的图像分类模型的研究进展和应用。
一、卷积神经网络的基本原理和结构卷积神经网络作为一种深度学习模型,其基本原理是模拟人类视觉系统的工作方式。
它通过多层卷积和池化操作来提取图像的特征,并通过全连接层来实现分类任务。
卷积神经网络的结构包括输入层、卷积层、池化层和全连接层。
其中,卷积层负责提取图像的局部特征,池化层用于减小特征图的尺寸和参数数量,全连接层用于将提取到的特征与类别进行映射。
二、经典的卷积神经网络模型1. LeNet-5模型LeNet-5是卷积神经网络的鼻祖,它由卷积层和全连接层组成。
LeNet-5在手写数字识别等任务上取得了良好的效果,是后续卷积神经网络模型的基础。
2. AlexNet模型AlexNet是第一个在ImageNet图像分类竞赛中获得冠军的卷积神经网络模型。
AlexNet引入了ReLU激活函数和Dropout正则化操作,显著改善了图像分类的性能。
3. VGG模型VGG模型是由牛津大学的研究人员提出的,它采用了更小的卷积核和更深的网络结构。
VGG模型的主要贡献是通过增加网络的深度,提高了图像分类的准确性。
4. GoogLeNet模型GoogLeNet模型使用了Inception模块,将不同尺度的卷积和池化操作并行进行,从而提高了特征提取的效果。
GoogLeNet模型在ILSVRC2014图像分类竞赛中获得了冠军。
5. ResNet模型ResNet模型是由微软亚洲研究院提出的,它通过引入残差连接解决了深度神经网络训练中的梯度消失问题。
ResNet模型在ILSVRC2015图像分类竞赛中取得了突破性的结果。
一种基于CLMF的深度卷积神经网络模型
一种基于CLMF的深度卷积神经网络模型随婷婷;王晓峰【摘要】针对传统人工特征提取模型难以满足复杂场景下目标识别的需求,提出了一种基于CLMF 的深度卷积神经网络(Convolutional neural networks with candidate location and multi-feature fusion, CLMF-CNN)。
该模型结合视觉显著性、多特征融合和CNN模型实现目标对象的识别。
首先,利用加权Itti模型获取目标候选区;然后,利用CNN模型从颜色、亮度多特征角度提取目标对象的特征,经过加权融合供目标识别;最后,与单一特征以及目前的流行算法进行对比实验,结果表明本文模型不仅在同等条件下正确识别率得到了提高,同时,达到实时性要求。
%To solve the problem that the traditional manual feature extraction models are unable to satisfy object recognition in complex environment, an object recognition model based on convolutional neural networks with candidate location and multi-feature fusion (CLMF-CNN) model is proposed. The model combines the visual saliency, multi-feature fusion and CNN model to realize the object recognition. Firstly, the candidate objects are conformed via weighted Itti model. Consequently, color and intensity features are obtained via CNN model respectively. After the multi-feature fusion method, the features can be used for object recognition. Finally, the model is tested and compared with the single feature method and current popular algorithms. Experimental result in this paper proves that our method can not only get good performance in improving the accuracy of object recognition, but also satisfy real-time requirements.【期刊名称】《自动化学报》【年(卷),期】2016(042)006【总页数】8页(P875-882)【关键词】图像识别;深度学习;卷积神经网络;多特征融合【作者】随婷婷;王晓峰【作者单位】上海海事大学信息工程学院上海 201306;上海海事大学信息工程学院上海 201306【正文语种】中文引用格式随婷婷,王晓峰.一种基于CLMF的深度卷积神经网络模型.自动化学报,2016,42(6):875-882随着科学技术的飞速发展,图像识别技术已从简单的理论融入到了大众的日常生活之中[1-2].从手机、电脑、打卡机等使用指纹身份识别,到阿里巴巴发布的人脸识别支付技术,都离不开图像识别.然而,在这个信息量爆炸的时代,如何能够提高识别率意义重大,直接关系到图像识别的实用性和安全性.幸运的是,深度学习的出现解决了如何自动学习出“优质特征”的问题[2-3].它通过模仿人脑分析学习的机制,将分级信息处理过程引用到了特征表示上,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类识别更加容易.相比于人工构造特征的方法,利用深度学习方法来学习特征,能够更为丰富地刻画数据的内在信息[4].深度卷积神经网络(Convolutional neural networks,CNN)作为深度学习的常用模型,已成为众多科研领域的研究热点之一.受到Hubel-Wiesel生物视觉模型的启发,LeCun等于1989年首先提出了CNN模型,解决了小规模的图像识别问题[5-6].但对于大规模的图像无法得到较好的效果.直至2012年,Krizhevsky等在传统的CNN模型上提出了深度的理念,取得了不错的识别结果,推进了图像识别技术[7].与传统识别算法相比,它的输入不使用任何的人工特征,避免了复杂繁琐的手动特征提取过程,可实现自动特征学习,在处理大规模的图像识别时同样具有优势.目前,CNN模型被广泛应用于图像识别领域之中[4,7-9].Ji等通过延伸数据的空间维度,提出一种3D CNNs模型[10],用于人体运动行为的识别之中,取得了不错的识别效果.2013年,徐姗姗等[11]利用CNN模型对木材的缺陷进行识别,降低时间消耗的同时,获得了较高的缺陷识别精度.2014年,贾世杰等将CNN模型用于商品图像分类中[12],为电子商务软件提供了一种快捷、高效的分类过滤手段.这无不说明CNN模型在图像识别方面的优势,即高效特征抽取、权值共享、模型复杂度低的特点.故本文采用CNN模型作为图像特征提取的基础模型.然而,在目标识别的初期阶段需要对目标对象进行定位(Candidate location,CL),这是CNN模型所忽略的.近年来,神经科学方面的研究者发现,人类视觉系统具有快速定位兴趣目标的能力[13].显然,将这种能力引入CNN模型,无疑将提升目标识别的效率.目前,最具代表的是Itti模型[14-15],它能模拟视觉注意机制,利用颜色、亮度和朝向特征获取感兴趣区.故采用Itti模型实现CL阶段. 同时,CNN模型常采用灰度图像作为图像的输入,缺失了对于颜色、亮度特征的理解.而颜色特征对于图像的旋转、尺度变换和平移具有不错的稳定性[16].亮度是人类视觉系统较为敏感的图像特征.若融合颜色、亮度特征,能够更为完善地表达图像.因此,采用多特征融合的方法来表示图像具有一定的必要性.综上所述,为了能够使CNN模型更为快捷地实现CL阶段的目标定位,多特征信息的互补,本文以CNN模型为基础模型,添加Itti模型以及多特征融合思想,建立一种基于CLMF的深度卷积神经网络模型(Convolutional neural networks with candidate location and multi-feature fusion,CLMFCNN),以便快速地获取目标区域,提高目标识别效率和准确度.深度卷积神经网络是第一个成功训练多层神经网络的学习算法.由于该网络有效地避免了复杂的图像预处理,可以自主学习图像特征,所以得到了广泛的应用.CNN 模型通过对局部感受野卷积(Local connections)、权值共享、下采样和多网络层[17],实现NN(Neural network)结构的优化,不但减少了神经元和权值的个数.同时,利用池化操作(Pooling)使特征具有位移、缩放和扭曲不变性[17].典型的深度卷积网络结构如图1所示.第一层为图像输入层,然后由多个卷积层(Convolution,C层)和下采样层(Subsampling,S层)组成,最后一层为全连接层.1.1 C层的学习C层主要是利用卷积核抽取特征,实现对特征进行过滤和强化的效果.在每个卷积层中,将前一层输出的特征图与卷积核进行卷积操作[18],然后通过激活函数,即可输出该层的特征图,如式(1)所示.其中,f是激活函数,本文选用Sigmoid函数.t表示层数,ki,j是卷积核,∗表示2D卷积操作,bj是偏置,Pj表示所选择的输入特征图的集合.1.2 S层的学习S层主要通过下采样减少C层的特征维数,对S层中每个大小为n×n的池进行“池平均”或“池最大”操作[19],以获取抽样特征,如式(2)所示.其中,w为权重,down(·)为下采样函数,本文采用“池最大”操作.通过池化操作,不仅有效降低了C层的复杂度,抑制了过拟合现象,同时,提升了特征对微小畸变、旋转的容忍能力,增强了算法的性能和鲁棒性.为了使CNN模型能够在图像中快速搜索到目标对象,模仿人脑视觉系统,在CL阶段添加视觉注意模型,旨在快速获取目标对象.同时,从特征融合的角度,实现图像颜色、亮度的多特征表达.CLMFCNN的模型结构图如图2所示,由候选目标区获取和多特征融合两模块组成.2.1 基于视觉显著性的候选目标获取大量研究发现,人类的视觉系统能够快速搜索到兴趣目标,并进入视觉感知[20-21].受其启发,若在目标识别的CL阶段采用视觉显著性获取候选目标,能够有效地降低背景所带来的干扰.目前最具代表性的是Itti等于1998年提出的选择注意模型,该模型经过不断的改进,已经可以较好地应用于目标识别之中.其基本思想是采用自底向上的模式,通过构建不同尺度的高斯金字塔,并利用式(3)~式(5)获取亮度、颜色、朝向特征[15];然后,计算中央周边算子得到特征显著图;最后,通过归一化组合得到显著图,从而模拟人类视觉系统选择出显著区域. 其中,r、g、b为三个颜色分量.R=r-(g+b)/2;G=g-(r+g)/2;Y=(r+g)/2-|r-g|/2-b;c、s代表金字塔中央尺度和周边尺度.θ为Gabor滤波器的方向;⊖代表“中央—周边”算子.然而,Itti模型仅采用自底向上的机制,缺失了高级认知的指导[14-15].特别地,由其获取的显著图仅由各类特征叠加而成的,这违背了视觉系统的选择机制.在不同的环境下,视觉系统搜索不同目标时,对于各个特征的倚重应有所不同.故综合考虑各类特征对于目标定位的贡献度,赋予权重,通过特征与权重的乘积和确定显著区,如式(6)所示.其中,βj为显著特征权重,由式(7)获得.Sali代表显著值,SaliCo为颜色显著值、SaliIn为亮度显著值、SaliOr为朝向显著值,k代表不同的尺度.目前,对于显著区域的提取多由目标知识驱动,忽略了背景特征对于目标检测的抑制作用.而神经物理学实验表明,背景特征对于目标检测也具有重要意义[22].因此综合考虑目标和背景的概率知识,利用式(7)确定显著特征权重βr.其中,βr表示显著特征权重,P(O)表示目标O出现的先验概率;P(O|Fsalir)表示给定前景区的某一图像度量Fsalir时,目标O出现的条件概率;P(O|Bsalir)表示给定背景区某一图像度量Bsalir时,目标O出现的条件概率;图像度量包括颜色特征值SaliCo、亮度特征值SaliIn和朝向特征值SaliOr.2.2 多特征融合由于CNN模型在特征提取过程中使用的特征单一,忽略了颜色、亮度特征的影响,如图1所示.故本文在深度卷积神经网络的基础上,添加颜色、亮度特征提取的思想,使用B-Y颜色通道、R-G颜色通道以及亮度通道三通道对视觉图像进行特征提取.其中,B-Y和R-G颜色通道的图像表示可由式(8)和(9)获得.因此,CLMF-CNN模型不仅考虑了亮度特征,同时考虑了对象的颜色特征,使得特征向量更能表现目标对象的特性.然而,多特征的融合方法对于特征的表达能力具有一定的影响.目前,常用的多特征融合方法有简单叠加、串行连接等.但这些方法不仅较难体现各种特征的差异性,反而扩大了特征的维数,增加了计算量.因此,引出权重的概念,根据不同的特征在识别过程中的贡献度,在CNN的全连接层后添加一层各类特征的权重计算层.通常,特征的识别效果采用误差率表示,误差率越低则表示该类特征具有较强的区分能力.受此启发,从误差率的角度定义权重,如式(10)所示.其中,wn为特征n的权重,0 ≤wn ≤1且en表示特征n的误差率.由此可以发现,en越低的特征将获得越高的权重.因此,每个目标融合后的特征向量可表示为式(11).其中,N为特征类别数,表示特征n相应的特征向量.2.3 算法流程CLMF-CNN模型由学习阶段以及目标识别阶段两部分组成.具体步骤如下:1)学习阶段:步骤 1.根据学习样本,采用样本统计分析法计算样本图像内目标对象与背景的条件概率P(O|Fsalir)和P(O|Bsalir);步骤2.根据式(7)确定Itti模型内的权重βj;步骤3.利用CNN模型获取目标对象在B-Y颜色通道、R-G颜色通道以及亮度通道三通道的特征向量;步骤4.训练不同特征向量,获取各类特征的误差率en;步骤5.根据误差率en,利用式(10)获取不同特征的权重.2)目标识别阶段:步骤1.根据权重βj,利用加权Itti模型获取测试图像相应的候选目标区域;步骤2.利用CNN模型对候选目标进行B-Y颜色通道、R-G颜色通道以及亮度通道三通道的特征提取;步骤 3.根据式(11),结合不同特征的权重wn进行加权融合,形成候选目标的特征表达;步骤4.对候选目标进行识别,输出测试图像的类别.仿真实验平台配置为酷睿四核处理器2.8GHz,8GB内存,使用Caltech 101数据集,该数据库包含101类,每类大约包含40到800张彩色图片.然而,CNN模型需要建立在大量样本的基础上,故选取其中样本量较大的8类:飞机(Airplanes)、人脸(Faces)、钢琴(Piano)、帆船(Ketch)、摩托车(Motor)、手枪(Revolver)、手表(Watch)以及豹(Leopards),并利用Google对图库进行扩充,每种类别选用2000幅图像,本文方法的参数设置如表1所示,其中,学习率初始值设为0.1,并在迭代过程中线性下降以寻找最优值.同时,为了评估识别效果,采用十折交叉实验法进行验证,并利用识别精度作为评价标准,如式(12)所示.其中,PreV ali表示第i类图像的识别精度,PTi表示正确识别的样本数,FTi表示错误识别的样本数.3.1 CL阶段提取候选目标的作用由图3可以发现,利用改进的Itti模型可以有效地在CL阶段提取目标候选区,避免了背景的干扰,便于后续CLMF-CNN模型的特征提取.实验结果表明,平均每幅图像的处理时间约为62.76ms.显然,在目标候选区的提取上消耗了一定的计算时间,但是,相应地减少了30%~50%的伪目标区域,降低了识别干扰,反而提高了识别效率.从图4可以发现,利用Itti模型改进的CNN模型的确提升了目标的识别精度.为了进一步分析CL阶段目标定位的有效性,选用覆盖率(Overlap value,OV)评价目标对象区界定的成功率,如式(13)所示.其中,preboxij是图像i对应的第j个候选目标区域. objboxi是图像i对应的目标区域.由图5可以发现,由于文献[23]利用固定窗口遍历搜索的方法,所以对于脸、钢琴、手枪的定位效果较好.然而,对于飞机、帆船、豹等大小多变的目标对象,界定的效果产生了一定的影响.相反,本文方法充分考虑了各项特征的贡献率,能够较好地定位目标对象的区域,为后期的目标识别提供了一定的保证.3.2 识别时间消耗对比时间消耗无疑是对目标识别效果的一个重要评价指标.图6从目标识别所需时耗的角度对比了文献[23]方法和CLMF-CNN模型.由于文献[23]方法需要以固定大小的窗口遍历图像来实现目标的定位,因此定位的时耗十分受滑动窗口大小以及图像大小的限制.若以30×30的窗口遍历一幅N×N的图像时,文献[23]方法在定位时将进行(N-29)2个操作.若图像为256×256,则单幅图像在定位时的操作将超过5万次,无疑增加了图像识别过程中的时间消耗.相反,由于CLMF-CNN模型采用视觉显著性定位的方法,虽然在对单幅图像搜索目标时需要消耗时间用于定位显著区域,但可以快速滤除图像中的伪目标区域,大幅度地减少后期识别操作,反而降低了目标识别的时间消耗,十分有利于图像的快速识别.3.3 特征融合的作用在特征提取阶段,采用了多特征融合方法,利用各类特征的贡献度来分配权重.为了验证权重的作用,实验将本文的多特征融合方法与各类单一特征方法以及目前流行的多特征乘性融合方法[24]、多特征加性融合方法[25]进行对比.从图7可以发现,采用单一特征的CNN模型识别效果明显不佳,且不稳定,易受光照等外界因素的干扰.说明需要通过特征融合,使各类特征取长补短,才能实现更好的识别效果.文献[24]方法,可实现各类特征的融合,但该方法易放大噪声的影响,导致融合结果对噪声较为敏感.相反,文献[25]在一定程度能够抑制噪声,说明加性融合的确能较好地融合各类特征.然而其识别效果仍不理想,说明权重的分配对融合后特征向量的识别效果具有一定的影响.本文的方法具有较好的识别结果,原因在于:CLMF-CNN模型充分考虑了各项特征对于识别效果的贡献度,从误差率的角度分配各项权重,降低了对于噪声的敏感度,且提升了识别效果,增强了识别方法的鲁棒性.3.4 识别效果对比为了验证本文方法的有效性,实验将CLMFCNN模型和文献[26-28]的方法进行对比,如图8所示.其中,对于人脸、摩托车和手表这些目标对象,CLMF-CNN 模型具有一定的优势.原因在于,这些目标较为显著,对于CLMF-CNN模型更易找到目标对象区域.而对于文献[26-28]方法,由于过多的依赖固定窗口滑动搜索的方法,导致对目标区域的定位有一定的偏差.同时,本文的多特征融合方法能够充分地考虑各类特征的贡献度,合理地分配权重,使得各类特征扬长避短,更有效地表达目标对象.由图8可以发现,CLMF-CNN模型的识别效果基本优于其他方法,为目标识别提供了一种较为有效的方法.同时,为了进一步验证本文方法的识别效果,实验将CLMF-CNN模型运用于图像标注中.从表2可以发现,本文方法基本可以标注出预先学习的目标对象,说明CLMF-CNN模型可以较好地解决图像的自动标注问题.本文提出一种基于CLMF的卷积神经网络模型,并用于图像识别,取得了较为满意的实验结果.与现有方法相比,CLMF-CNN具有以下几个突出的特点:1)模仿人脑视觉认知的过程添加了CL阶段的候选目标区选取模块,确立了目标对象区,减少了由于伪目标区域所造成的计算时间消耗和识别干扰.2)利用多特征的加权融合降低了由单一特征不充分所引起的歧义,丰富了图像的特征表达.然而,图像质量对于目标识别具有一定影响.下一步工作的重点将从图像融合技术文献[29-30]的角度提高图像质量,进一步改善目标识别效果.1 Sarikaya R,Hinton G E,Deoras A.Application of deep belief networks for natural language understanding.IEEE/ACM Transactions on Audio,Speech,&Language Processing,2014,22(4):778-7842 Graves A,Mohamed A R,Hinton G.Speech recognition with deep recurrent neural networks.In:Proceedings of the 38th IEEE International Conference on Acoustics,Speech and Signal Processing.Vancouver,BC:IEEE,2013. 6645-66493 Liu Jian-Wei,Liu Yuan,Luo Xiong-Lin.Research and development on deep learning.Application Research of Computers,2014,31(7):1921-1930(刘建伟,刘媛,罗雄麟.深度学习研究进展.计算机应用研究,2014,31(7):1921-1930)4 Najafabadi M M,Villanustre F,Khoshgoftaar T M,Seliya N,Wald R,Muharemagic E.Deep learning applications and challenges in big dataanalytics.Journal of Big Data,2015,2:15 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-23246 LeCun Y,Boser B,Denker J S,Henderson D,Howard R E,Hubbard W,Jackel L D.Backpropagation applied to handwritten zip code recognition.Neural Computation,1989,1(4):541-5517 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of the Advances in Neural Information Processing Systems ke Tahoe,Nevada,USA:Curran Associates,Inc.,2012.2012-20208 Wang Xin,Tang Jun,Wang Nian.Gait recognition based on double-layer convolutional neural networks.Journal of Anhui University(Natural Science Edition),2015,39(1):32-36(王欣,唐俊,王年.基于双层卷积神经网络的步态识别算法.安徽大学学报(自然科学版),2015,39(1):32-36)9 Ouyang W,Wang X.Joint deep learning for pedestrian detection.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2056-206310 Ji S W,Xu W,Yang M,Yu K.3D convolutional neural networks for human action recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-23111 Xu Shan-Shan,Liu Ying-An,Xu Sheng.Wood defects recognition based on the convolutional neural network.Journal of Shandong University(Engineering Science),2013,43(2):23-28(徐姗姗,刘应安,徐昇.基于卷积神经网络的木材缺陷识别.山东大学学报(工学版),2013,43(2):23-28)12 Jia Shi-Jie,Yang Dong-Po,Liu Jin-Huan.Product image fine-grained classification based on convolutional neural network.Journal of Shandong University of Science and Technology(Natural Science),2014,33(6):91-96(贾世杰,杨东坡,刘金环.基于卷积神经网络的商品图像精细分类.山东科技大学学报(自然科学版),2014,33(6):91-96)13 Unuma H,Hasegawa H.Visual attention and object perception:levelsof visual features and perceptual representation. Journal of Kawamura Gakuen Womans University,2007,18:47-6014 Serre T,Wolf L,Poggio T.Object recognition with features inspired by visual cortex.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR).San Diego,CA:IEEE,2005.994-100015 Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis.IEEE Transactions on Pattern Analysis&Machine Intelligence,1998,20(11):1254-125916 Yao Yuan-Qing,Li Feng,Zhou Shu-Ren.Target tracking based on color and the texture puter Engineering&Science,2014,36(8):1581-1587(姚原青,李峰,周书仁.基于颜色–纹理特征的目标跟踪.计算机工程与科学,2014,36(8):1581-1587)17 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436-4418 Huang F J,LeCun rge-scale learning with SVM and convolutional for generic object categorization.In:Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision&Pattern Recognition.New York,USA:IEEE,2006.284-29119 Scherer D,M¨uller A,Behnke S.Evaluation of pooling operations in convolutional architectures for object recognition. In:Proceedings of the 20th International Conference on Artificial Neural Networks.Thessaloniki,Greece:Springer,2010.92-10120 Serences J T,Yantis S.Selective visual attention and perceptual coherence.Trends in Cognitive Sciences,2006,10(1):38-4521 Li Wan-Yi,Wang Peng,Qiao Hong.A survey of visual attention based methods for object tracking.Acta Automatica Siinica,2014,40(4):561-576(黎万义,王鹏,乔红.引入视觉注意机制的目标跟踪方法综述.自动化学报,2014,40(4):561-576)22 Maljkovic V,Nakayama K.Priming of pop-out:I.role offeatures.Memory&Cognition,1994,22(6):657-67223 Roos M J,Wolmetz M,Chevillet M A.A hierarchical model of vision (HMAX)can also recognize speech.BMC Neuroscience,2014,15(Suppl 1):18724 Li P H,Chaumette F.Image cues fusion for object tracking based on particle filter.In:Proceedings of the 3rd International Workshop on Articulated Motion and Deformable Objects.Palma de Mallorca,Spain:Springer,2004.99-11025 Wang X,Tang Z M.Modified particle filter-based infrared pedestriantracking.Infrared Physics&Technology,2010,53(4):280-28726 Zhu Qing-Sheng,Zhang Min,Liu Feng.Hierarchical citrus canker recognition based on HMAX puter Science,2008,35(4):231-232(朱庆生,张敏,柳锋.基于HMAX特征的层次式柑桔溃疡病识别方法.计算机科学,2008,35(4):231-232)27 Tang Yu-Jing.Classification and Recognition Research based on Human Visual Perception Mechanism[Master dissertation],Nanjing University of Science and Technology,China,2009.(汤毓婧.基于人脑视觉感知机理的分类与识别研究[硕士学位论文],南京理工大学,中国,2009.)28 Wang J,Yang J,Yu K,Lv F,Huang T,Gong Y.Localityconstrained linear coding for image classification.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).San Francisco,CA:IEEE,2010.3360-336729 Zhang Xiao-Li,Li Xiong-Fei,Li Jun.Validation and correlation analysis of metrics for evaluating performance of image fusion.Acta Automatica Sinica,2014,40(2):306-315(张小利,李雄飞,李军.融合图像质量评价指标的相关性分析及性能评估.自动化学报,2014,40(2):306-315)30 Yang Bo,Jing Zhong-Liang.Image fusion algorithm based on the quincunx-sampled discrete wavelet frame.Acta Automatica Sinica,2010,36(1):12-22(杨波,敬忠良.梅花形采样离散小波框架图像融合算法.自动化学报,2010,36(1):12-22)随婷婷上海海事大学信息工程学院博士研究生.2013年获得上海海事大学信息工程学院硕士学位.主要研究方向为深度学习,人工智能,数据挖掘与知识发现.本文通信作者.E-mail:****************(SUI Ting-Ting Ph.D.candidate at the College of Information Engineering,Shanghai Maritime University.She received her master degree from the College of Information Engineering,Shanghai Maritime University in 2013.Her research interest covers deep learning,artificial intelligence,data mining and knowledge discovery.Corresponding author of this paper.)王晓峰上海海事大学教授,博士.主要研究方向为深度学习,人工智能,数据挖掘与知识发现.E-mail:****************.cn(WANG Xiao-Feng Ph.D.,professor at Shanghai Maritime University.His research interest covers deep learning,artificial intelligence,data mining and knowledge discovery.)。
基于卷积神经网络模型Faster R-CNN的遥感影像目标识别研究
测绘与空间地理信息GEOMATICS & SPATIAL INFORMATION TECHNOLOGY第44卷第1期2021年1月Vol.44,No.1Jan., 2021基于卷积神经网络模型Faster R-CNN 的遥感影像目标识别研究雷忠腾,宋杰(青岛中油岩土工程有限公司,山东青岛266071)摘 要:目标识别是遥感高分辨率影像时代的重要应用方向。
采用深度卷积神经网络对遥感影像学习训练,能够从遥感影像中自动提取出多个具有代表性的典型地物特征以及特征组合,并应用于多变而复杂的遥感影像数 据中进行目标分类识别。
本研究选用NWPU VHR-10数据应用于Faster R-CNN 卷积神经网络模型中,并采用MAP 进行评价,研究中得到了较好的检测精度,证明在遥感影像数据中采用深度卷积神经网络进行目标识别有着广阔的应用前景。
关键词:遥感影像;目标识别;Faster R-CNN 中图分类号:P237文献标识码:A 文章编号:1672-5867( 2021) 01-0149-03Research on Remote Sensing Image Target Recognition Based onConvolutional Neural Network Model Faster R-CNNLEI Zhongteng , SONG Jie(Qingdao Zhongyou Geo-technical Engineering Co., Ltd., Qingdao 266071, China )Abstract : Target recognition is an important application of high resolution remote sensing images. Convolutional neural network indepth learning can extract representative and discriminant multi-level features from images , which can be used for multi-target recog nition of large remote sensing data in complex scenes. In this study , NWPU VHR-10 data is used in Faster R-CNN convolution neu ral net work model, and evaluated by MAP. There salts show that the convolution neural net work has broad application prospects in target recognition of remote sensing image data.Key words : remote sensing image ; target recognition ; Faster R-CNN0引言随着遥感技术与影像质量的提升,遥感影像应用在地物普查、抗震救灾、军事侦查上的目标识别获得了广泛关注[1-2],对于国防应用、生态保护等研究具有重要的 意义”由于从前计算机算力不足,传统的遥感影像目标识 别方法主要是通过学习影像的光谱与纹理变化,通过数 理统计理论人为设计特征进行目标分类识别,如滑动窗、 特征检测方法中的尺度不变特征转换(Scale-invariant fea ture transform , SIFT ),加速分割测试获得特征(Featuresfrom Accelerated Segment Test,FAST)以及机器学习方法中 的支持向量机(Support Vector Machine, SVM)。
基于多模态融合的深度神经网络图像复原方法李伟伟,王
第62卷第2期吉林大学学报(理学版)V o l.62 N o.2 2024年3月J o u r n a l o f J i l i nU n i v e r s i t y(S c i e n c eE d i t i o n)M a r2024d o i:10.13413/j.c n k i.j d x b l x b.2022343基于多模态融合的深度神经网络图像复原方法李伟伟1,王丽妍2,傅博2,王娟1,黄虹1(1.山东青年政治学院信息工程学院,济南250103;2.辽宁师范大学计算机与人工智能学院,辽宁大连116081)摘要:针对水下图像成像环境复杂常受偏色等因素干扰而影响后续图像分析的问题,提出一种基于多尺度特征与三重注意力多模态融合的深度卷积神经网络图像复原方法.首先,深度卷积神经网络在抽取图像空间特征的基础上,引入图像多尺度变换特征;其次,通过通道注意力㊁监督注意力和非局部注意力,挖掘图像特征的尺度间相关性㊁特征间相关性;最后,通过设计多模态特征融合机制,将上述两类特征有效融合.在公开的水下图像测试集上进行测试并与当前主流方法进行对比的实验结果表明,该方法在峰值信噪比㊁结构相似性等定量对比以及颜色㊁细节等定性对比上都优于对比方法.关键词:多模态融合;深度神经网络;三重注意力;图像复原中图分类号:T P391文献标志码:A 文章编号:1671-5489(2024)02-0391-08D e e p N e u r a lN e t w o r k I m a g eR e s t o r a t i o n M e t h o dB a s e d o n M u l t i m o d a l F u s i o nL IW e i w e i1,WA N GL i y a n2,F U B o2,WA N GJ u a n1,HU A N G H o n g1(1.S c h o o l o f I n f o r m a t i o nE n g i n e e r i n g,S h a n d o n g Y o u t hU n i v e r s i t y o f P o l i t i c a lS c i e n c e,J i n a n250103,C h i n a;2.S c h o o l o f C o m p u t e r a n dA r t i f i c i a l I n t e l l i g e n c e,L i a o n i n g N o r m a lU n i v e r s i t y,D a l i a n116081,L i a o n i n g P r o v i n c e,C h i n a)A b s t r a c t:A i m i n g a t t h e p r o b l e m s o f t h e c o m p l i c a t e du n d e r w a t e r i m a g e i m a g i n g e n v i r o n m e n t r e s u l t e d i n t h e s u b s e q u e n t i m a g e a n a l y s i so f t e nb e i n g a f f e c t e db y c o l o rb i a s a n do t h e r f a c t o r s,w e p r o p o s e da d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k i m a g e r e s t o r a t i o n m e t h o db a s e do n m u l t i-s c a l e f e a t u r e sa n dt r i p l e a t t e n t i o n m u l t i m o d a l f u s i o n.F i r s t l y,t h ed e e p c o n v o l u t i o n a ln e u r a ln e t w o r ki n t r o d u c e dt h ei m a g e m u l t i-s c a l e t r a n s f o r m a t i o n f e a t u r eo nt h eb a s i so f e x t r a c t i n g t h e i m a g es p a t i a l f e a t u r e.S e c o n d l y,b y u s i n g c h a n n e l a t t e n t i o n,s u p e r v i s e d a t t e n t i o n a n dn o n-l o c a l a t t e n t i o n,t h e s c a l e c o r r e l a t i o n a n d f e a t u r e c o r r e l a t i o n o fi m a g e f e a t u r e s w e r e m i n e d.F i n a l l y,b y d e s i g n i n g a m u l t i m o d a lf e a t u r e f u s i o n m e c h a n i s m,t h ea b o v et w ot y p e so f f e a t u r e sc o u l db ee f f e c t i v e l y f u s e d.T h e p r o p o s e d m e t h o d w a s t e s t e do n t h eo p e nu n d e r w a t e r i m a g e t e s t s e ta n dc o m p a r e d w i t ht h ec u r r e n tm a i n s t r e a m m e t h o d s. T h e r e s u l t ss h o wt h a t t h i sm e t h o d i s s u p e r i o r t o t h ec o m p a r i s o n m e t h o d i n q u a n t i t a t i v ec o m p a r i s o n s u c ha s p e a ks i g n a l-t o-n o i s e r a t i oa n ds t r u c t u r a l s i m i l a r i t y,a sw e l l a s q u a l i t a t i v e c o m p a r i s o ns u c ha s c o l o r a n dd e t a i l s.K e y w o r d s:m u l t i m o d a l f u s i o n;d e e p n e u r a l n e t w o r k;t r i p l e a t t e n t i o n;i m a g e r e s t o r a t i o n 收稿日期:2022-08-07.第一作者简介:李伟伟(1981 ),女,汉族,硕士,副教授,从事图形图像与深度学习的研究,E-m a i l:l w w@s d y u.e d u.c n.通信作者简介:傅博(1983 ),男,汉族,博士,副教授,从事图像处理与计算机视觉的研究,E-m a i l:f u b o@l n n u.e d u.c n.基金项目:国家自然科学基金(批准号:61702246)和山东青年政治学院博士科研启动基金(批准号:X X P Y21025).293吉林大学学报(理学版)第62卷随着人工智能技术的不断发展,深度学习中神经网络强大的自学习能力在图像处理领域具有至关重要的作用,目前已将其应用于自然图像处理[1]中,并取得了显著成果.在海洋能源勘探㊁海洋环境保护以及海洋物种分析等领域,水下图像包含了大量的海洋资源视觉信息,是人们观察和探索海洋的重要载体.但由于水下复杂的成像环境及光线吸收等各种干扰因素的影响,真实水下图像的获取通常很困难.在水下图像采集过程中,图像视觉质量常会降低,例如图像模糊㊁偏色㊁有噪声等,无法获取有效且准确的图像视觉内容,进而严重影响后续的图像分析任务.因此,通过水下图像复原方法,提升图像清晰度㊁丰富图像细节信息,对海洋资源的探索利用和海洋生物的分类识别等具有重要意义.目前,水下图像复原方法已取得了许多研究成果.早期传统的水下图像复原方法大多数是基于先验知识和物理模型的设计,达到图像恢复的效果.T r u c c o等[2]设计了一种自调谐图像复原滤波器,其基于简化的J a f f e-M c G l a m e r y水下成像模型设计,对图像局部对比度质量判决函数进行优化,进而估计出滤波器中的参数值;F a n等[3]对解决水下图像复原任务,提出了新的点扩散函数(P S F)和调制解调函数(M F T),图像先经过算数平均滤波后,再用迭代盲反褶积方法得到去噪图像的初始点扩散函数的理想值,最后得到图像复原的效果;H e等[4]针对有雾图像提出了暗通道先验算法复原.之后很多研究者都对暗通道进行了研究,并应用于水下图像复原.G a l d r a n等[5]合理地利用水下图像衰减与光波长的关系,提出了一种R通道复原方法用于处理水下图像,提高了图像的颜色校正和清晰度;C h e n g等[6]利用R通道先验,通过分析P S F的物理特性,提出了一种简单㊁有效的低通滤波器复原水下图像,从而提高水下图像的对比度和可见度;张凯等[7]通过水下图像亮度通道下的多尺度R e t i n e x(M S R)算法处理,提出了一种基于多尺度的R e t i n e x算法,对水下彩色图像的全局视觉效果有很大提升;S h a r a n y a等[8]分别使用了直方图均衡㊁噪声降噪滤波器和基于二阶方向导数的重复插值方法提高水下图像质量,增强细节信息.尽管上述传统方法在一定程度上可以减少图像模糊程度㊁增强边缘㊁改善偏色,但由于数据少导致模型的适用性较差,并且模型中的参数需要手动设置,因此只适用于退化程度较小的图像.近年来,基于深度学习的水下图像复原方法逐渐成为主流.例如:L i等[9]利用水下图像及其深度学习数据训练一种可粗略地估计出水下场景深度的端到端网络;F a b b r i等[10]提出了一种U G A N网络用于水下图像复原,首先采用C y c l e G A N网络[11]将高质量的水下图像渲染为低质量的水下图像,得到数据集后再通过网络训练改善水下视觉场景质量;L i等[12]提出了一种W a t e r N e t网络用于水下图像,构建水下增强基准以建立水下图像增强网络;I s l a m等[13]从图像内容㊁颜色㊁纹理细节等方面恢复水下图像,通过对目标函数多方式调整提出了一种F U n I E-G A N网络.但上述算法泛化能力较弱,网络结构设计较浅,网络本身无法学习到图像的全部特征.无论是传统算法还是基于深度学习的方法,大多数是提取出单一的数据特征进行处理,从而达到图像复原的效果.尽管深度学习方法在去噪和去除偏色问题等各方面都表现出了明显优势,但单一的数据类型更多地限制了网络学习图像自身更多信息的能力,无法关注到更多类型的数据特征.因此,本文提出一种新的水下图像复原模型框架基于多尺度特征与三重注意力多模态融合的深度神经网络水下图像复原方法.该方法在深度学习框架下,将图像数据特征和小波数据特征有效融合,学习更多的高低频信息.同时,在网络框架中采用3种注意力模块,可以同时去除噪声和恢复图像颜色,挖掘图像更多的细节特征,有效提升图像的视觉质量.1图像复原整体架构1.1水下图像成像模型水下图像的生成通常遵循以下模型:I(x)=J(x)t(x)+A(1-t(x)),(1)其中x表示水下图像中第x个像素,I(x)表示退化后的原始图像,J(x)表示清晰图像,J(x)t(x)表示直接分量,A(1-t(x))表示背景散射分量,A表示水下环境光,t(x)表示场景光透射率.式(1)根据J a f f e-M e G l a m e r y[1]水下成像模型而得,水下成像主要由相机接收到光线衰减后的直接图1 水下图像成像模型F i g .1 I m a g i n g m o d e l o f u n d e r w a t e r i m a g e 分量㊁前向散射分量㊁后向散射分量三部分组成,如图1所示.在神经网络框架下,给定一个源域Y (退化后图像)和期望域X (清晰图像),可得到映射H :Y {I (x )}ңX ,其中I (x )表示退化的水下图像.本文的目标是学习该映射以实现水下图像的自适应复原,可得深度学习框架下的目标函数为a r g m i n X 12 X -H (Y ) 22,(2)其中X 为清晰的图像,Y 为复原后的图像,算法的目标是寻找一种使函数最小化的映射H .1.2 网络模型整体架构本文提出的基于多模态数据融合的水下图像复原网络整体架构主要包括三部分,如图2所示,即浅层特征去噪部分㊁小波特征融合部分和深度特征增强部分.浅层特征去噪部分主要由一个C N -G r o u p 组成,其中在一个卷积层和R e L U 激活层后嵌入了非局部注意力模块(n o n -l o c a l a t t e n t i o n m o d u l e ,N AM ).在提取图像浅层特征的同时,非局部注意力模块可较好地抑制噪声以达到去噪的效果,并可用于进一步的深层特征增强.由于特征空间中不同的高低频特征对图像复原有重要的参考价值,因此在小波特征融合部分网络的初始阶段采用小波分解变换,准确地分解出图像的高低频特征信息,同时末端嵌入监督注意力模块(s u p e r v i s e d a t t e n t i o nm o d u l e ,S AM ),以实现特征之间的渐进学习.监督注意力模块以真实图像作为监督条件进行约束,同时输出前一阶段的注意力特征图,将学习到的高低频信息传递给下一阶段,并与浅层去噪特征融合.深度特征增强模块是在浅层去噪特征和小波特征融合的基础上进一步挖掘图像的细节特征,进行深层特征的增强和复原,其由两个卷积层㊁两个C C -G r o u p ㊁长短跳跃连接和一个反卷积层组成,其中C C -G r o u p 包括两个卷积层㊁R e L U 激活函数层和通道注意力模块(c h a n n e l a t t e n t i o nm o d u l e ,C AM ).采用通道注意力模块可以关注通道之间的相关性,从而挖掘深层特征进行增强.因此,基于该网络框架,本文将目标函数形式化为求以下最小损失函数:m i n L (F N e t (y ;θ),x ),(3)其中F N e t 表示本文提出模型的函数,L 表示损失函数,y 为网络的输入即退化图像,x 为真实的干净图像,参数θ可通过训练网络学习得到.图2 基于多模态数据融合的水下图像复原网络架构F i g .2 U n d e r w a t e r i m a ge r e s t o r a t i o nn e t w o r kf r a m e w o r kb a s e do nm u l t i m o d a l d a t a f u s i o n 2 3种注意力模块和小波分解模块本文提出的框架主要为解决图像去噪和细节增强问题,其中非局部注意力模块用于图像浅层特征393 第2期 李伟伟,等:基于多模态融合的深度神经网络图像复原方法去噪;而通道注意力机制模块用于图像增强,恢复更多图像细节;小波分解变换下的特征融合,在整个网络框架中具有核心的作用.2.1非局部注意力模块对于图像去噪,传统的非局部均值(n o n-l o c a lm e a n s,N L M)[14]算法通过采用非局部滤波器进行滤波操作,计算所求像素值与图像中所有点的相似度,加权平均得到新的像素值,从而达到去噪的效果.其计算公式为u(x)=ðyɪI w(x,y)v(y),(4)其中:v表示噪声图像; u表示去噪后的图像;w表示加权平均的权重;x和y分别表示当前像素和相关性像素的位置,通过计算两者相似程度赋以权重w(x,y),通常采用欧氏距离计算二者的相似度.由于注意力机制可帮助卷积神经网络重点关注图片的一些局部信息生成相应的序列,因此,借鉴非局部均值的思想,本文将非局部算子模块化,嵌入到C N-G r o u p中,形成非局部注意力模块N AM,如图3所示.在非局部注意力模块中,采用卷积操作和残差连接实现该算法的思想,可以随意插入到任何网络结构中.首先,采用3个1ˑ1大小的卷积层,提取到3个特征矩阵θ,ϕ,g;其次,为减少计算量,对输出的特征进行降维,然后计算其中两个输出的特征相似性,并对其进行S o f t m a x操作进行归一化;最后,将归一化后的系数对应乘回特征矩阵g中,再经过一个1ˑ1大小卷积层得到相应的通道数,并与输入做残差连接,从而得到与输入大小一致的非局部结果,本文将此过程表示为y i=S o f t m a x(θ(x i)Tϕ(x j))g(x i),Z i=W z y i+x i.(5) 2.2监督注意力模块在小波特征融合部分的末端,嵌入监督注意力模块.在网络训练过程中,中间特征的监督具有一定的参考价值.监督注意力模块不仅提供真实图像作为监督形成约束条件,还将小波变换后学习到的特征更好地融入到浅层去噪特征中,主要表现在生成注意力特征图抑制当前信息较少的特征,只允许有用的特征传递给下一阶段,其结构如图4所示.首先,前一阶段的输入特征f i n被一个3ˑ3的卷积层卷积得到的特征叠加在退化图像I n p u t上,通过真实图像监督计算C h a r b o n n i e r损失,从而得到中间输出I n t e r_o u t p u t.然后,中间输出被一个1ˑ1卷积层和S i g m o i d函数激活后,并与输入特征f i n经过一个3ˑ3的卷积层后的特征点乘,其结果与输入特征f i n融合得到输出的注意力特征图f o u t,并将其用于小波特征和浅层去噪特征的融合.本文将此过程用网络的形式描述为I n t e r_o u t p u t=C o n v(f i n)+I n p u t,f o u t=S ig m o i d((C o n v(I n t e r_o u t p u t))㊃C o n v(f i n))+f i n.(6)图3非局部注意力模块F i g.3N o n-l o c a l a t t e n t i o nm o d u l e图4监督注意力模块F i g.4S u p e r v i s e da t t e n t i o nm o d u l e2.3通道注意力模块在深层特征增强部分中的C C-G r o u p中,本文嵌入了通道注意力模块,如图5所示,它可以更多关注重要的通道特征,对深层特征的提取和增强有极大的辨识能力,从而进行网络深层次特征增强和细节纹理恢复.将通道注意力模块嵌入到C C-G r o u p中,同时伴有残差连接,即使在更深层次的网络493吉林大学学报(理学版)第62卷中,也能利用通道之间的相互依赖关系,提取有用的特征信息.通道注意力模块由一个平均池化层㊁两个卷积层㊁R e L U 激活函数和S i gm o i d 激活函数以及残差连接组成.首先,输入特征经过一个池化层对其下采样得到压缩后的特征图;然后,经过两次卷积和R e L U 激活函数先后使通道降维再升维,从而学习了多个通道之间的非线性相互作用;最后,被S i g m o i d 函数激活后,其输出与输入相乘得到等大的输出结果.本文将此过程用网络形式描述为f o u t =S i g m o i d (C o n v (R e L U (C o n v (p o o l (f i n )))))㊃f i n .(7)图5 通道注意力模块F i g .5 C h a n n e l a t t e n t i o nm o d u l e 2.4 小波分解模块通过卷积得到的特征大多数存在显著性.因此,本文引入小波变换将图像分成低频和高频小波子带,然后将它们输入到浅层去噪和深层增强部分进一步学习和挖掘深层特征信息,如图2所示.小波变换[15]有助于减少信息损失,能较好地重构原始图像内容,采用离散小波变换(DWT )和整数小波变换(I WT )可以更好地将小波特征和浅层去噪特征融合.本文采用H a a r 小波核,用4个卷积核提取不同频率分量,分别表示直流㊁横向㊁纵向㊁斜向上的能量,用公式表示为f L L =11æèçöø÷11, f L H =-1-1æèçöø÷11, f H L =-11-æèçöø÷11, f HH =1-1-æèçöø÷11. 经过DWT 后,大小为(B ,C ,H ,W )的图像可以变成大小为(B ,4C ,H /2,W /2)的小波带,其中B ,H ,W ,C 分别表示批次尺寸㊁高度㊁宽度和通道数.这样可以降低计算成本,有助于加快训练过程.在网络训练过程中,DWT 后输出的特征图通道为12,I WT 后输出的特征图通道数变为16,卷积层输出的特征图通道为64,因此,融合小波特征后的卷积层其输入通道数为80,输出通道数为64.特别地,小波变换是双向的,能适用于端到端的网络训练.小波分解变化用公式表示为f o u t =DWT (I n p u t ).(8)2.5 损失函数基于多模态数据融合的水下图像复原网络框架的整体损失函数如下:L =L 1(O u t p u t ,G T )+L C h a r b o n n i r (I n t e r _o u t p u t ,G T ),(9)其中L 1和L C h a r b o n n i r 分别表示L 1损失和C h a r b o n n i e r 损失函数[16],G T 表示真实水下图像,O u t p u t 表示整体网络复原后的图像,I n t e r _o u t p u t 表示经过监督注意力模块得到的输出图像.C h a r b o n n i e r 损失进行约束在于利用真实图像监督提取有用的特征,其损失函数形式如下:L C h a r b o n n i r = I n t e r _o u t p u t ᵡ-G T 2+ε2.(10)为防止网络梯度消失,这里ε为常数,经验设置为10-3.3 实 验3.1 实验设置本文算法的实验操作基于W i n d o w s10操作系统㊁P y T o r c h 深度学习框架和N V I D I A G e F o r c e R T X3090G P U.采用E U V P 中的U n d e r w a t e rD a r k 水下图像数据集,其中包括5550对已配对的训练图像和570张验证图像.在实验过程中,本文选用5550对已配对的训练图像中的5022对配对图像对数据集进行训练,528对配对图像对数据集进行测试,另570张图像作为验证图像.网络训练过程中,参数b a t c h _s i z e 设置为16,pa t c h _s i z e 设置为48,学习率设置为10-4,采用A d a m 优化器,迭代次数e p o c h 为300时网络达到收敛,同时采用最优模型进行测试.此外,为验证去噪效果,在原有数据集上模拟高斯噪声进行训练和测试.采用其他4种现有的深度学习图像复原算法作为对比算法,分别是C y c l e G A N [17],F U n I E -G A N [11],S h a l l o w -UW n e t [18]和R C A N [19].为保证实验的公平性和可靠性,所有算法均采用与本文相593 第2期 李伟伟,等:基于多模态融合的深度神经网络图像复原方法同的训练集与测试集.在评价图像质量上,除主观视觉观察外,还采用峰值信噪比(P S N R)和结构化相似性(S S I M)两个客观评价指标.3.2实验结果分析本文对所有算法均在统一测试集上进行测试,并且分别模拟了高斯噪声强度为5,10和15的测试集,对P S N R和S S I M分别进行对比,其量化结果列于表1.由表1可见,本文算法测试结果在P S N R 和S S I M分数上明显突出.为进一步展示视觉效果,在噪声强度为10的情况下,选择测试集中6张不同的图像进行对比,其复原结果如图6所示.表1本文方法与其他水下复原算法的P S N R和S S I M分数值对比结果T a b l e1C o m p a r i s o n r e s u l t s o fP S N Ra n dS S I Ms c o r e s o f p r o p o s e dm e t h o da n do t h e r u n d e r w a t e r r e s t o r a t i o na l g o r i t h m s算法评价指标数据集E U V P+噪声强度σ51015C y c l e G A N P S N R/S S I M16.35/0.777316.27/0.729516.26/0.6858F U n I E-G A N P S N R/S S I M20.65/0.863220.23/0.807620.24/0.7764S h a l l o w-UW n e t P S N R/S S I M20.67/0.866320.57/0.830920.03/0.7822R C A N P S N R/S S I M22.35/0.893322.15/0.872821.95/0.8479本文P S N R/S S I M22.55/0.897322.33/0.875522.09/0.8527图610噪声强度下的水下图像复原效果F i g.6R e s t o r a t i o n e f f e c t s o f u n d e r w a t e r i m a g e s a t n o i s e l e v e l10由图6可见,相比于其他水下复原算法,本文算法无论在去噪还是恢复图像细节纹理上都有很大优势,尤其是在解决偏色问题上更突出.在6张对比图像中,前3张和后3张图像处于不同颜色范围,前3张图像均处于偏蓝绿色,而后3张图像颜色更丰富,本文提出的算法都能较好地解决偏色问题.因此,本文提出的基于多模态数据融合的水下图像复原算法可较好地复原退化的水下图像.693吉林大学学报(理学版)第62卷3.3 消融实验为进一步验证本文算法融合小波特征和3种注意力模块的有效性,对增加的不同模块做消融实验.在噪声强度为10的情况下,增加不同模块的量化结果列于表2.表2 消融实验的量化对比结果T a b l e 2 C o m p a r i s o no f q u a n t i t a t i v e r e s u l t s o f a b l a t i o n e x p e r i m e n t s 方法 数据集噪声强度σP S N R S S I M 1)w /C AM E U V P 1022.150.87282)w /N AM E U V P 1021.800.86103)w /N AM+C AM E U V P 1022.190.87084)w /N AM+C AM+S AM w /oDWT (I WT )E U V P1022.260.87495)w /N AM+C AM+S AM E U V P 1022.330.8755 具体实验内容如下:1)有小波分解模块情况下,只带有通道注意力模块;2)有小波分解模块情况下,只带有非局部注意力模块;3)有小波分解模块情况下,只带有通道注意力模块和非局部注意力模块;4)无小波分解模块情况下,带有通道注意力模块㊁非局部注意力模块和监督注意力模块;5)有小波分解模块情况下,带有通道注意力模块㊁非局部注意力模块和监督注意力模块.消融实验视觉效果如图7所示.图7 消融实验的视觉效果F i g .7 V i s u a l e f f e c t s o f a b l a t i o n e x pe r i m e n t 由表2和图7可见,方法1)~4)考虑了累加不同注意力模块的表现情况,而方法4)和5)验证了小波分解模块的优势.因此,无论是从视觉效果还是客观评价结果都可得出结论:本文算法在水下图像的恢复方面与其他算法相比有一定的优势.综上所述,针对水下图像偏色失真问题,本文提出了一种基于多尺度特征与三重注意力多模态融合的深度卷积神经网络水下图像复原方法,突破了单模态对神经网络学习的限制.在使用深度卷积神经网络提取图像空间特征时,引入了图像多尺度变换特征.通过通道注意力㊁监督注意力和非局部注意力挖掘图像特征的尺度间相关性和特征间相关性.在公开的水下图像测试集进行测试,并与其他方法进行对比的实验结果证明了本文方法的优越性.参考文献[1] D O N GC ,L O YCC ,H EK M ,e t a l .L e a r n i n g aD e e p C o n v o l u t i o n a lN e t w o r k f o r I m a g eS u p e r -r e s o l u t i o n [C ]//E u r o p e a nC o n f e r e n c e o nC o m p u t e rV i s i o n .B e r l i n :S p r i n ge r ,2014:184-199.793 第2期 李伟伟,等:基于多模态融合的深度神经网络图像复原方法893吉林大学学报(理学版)第62卷[2] T R U C C O E,O L MO S-A N T I L L O N A T.S e l f-t u n i n g U n d e r w a t e rI m a g e R e s t o r a t i o n[J].I E E E J o u r n a lo fO c e a n i cE n g i n e e r i n g,2006,31:511-519.[3] F A NF,Y A N G KC,M I N X,e t a l.U n d e r w a t e r I m a g eR e s t o r a t i o nb y M e a n so fB l i n dD e c o n v o l u t i o nA p p r o a c h[J].F r o n t i e r s o fO p t o e l e c t r o n i c s i nC h i n a,2010,3:169-178.[4] H EK M,S U N J,T A N G X O,e ta l.S i n g l eI m a g e H a z e R e m o v a l U s i n g D a r k C h a n n e lP r i o r[J].I E E ET r a n s a c t i o n s o nP a t t e r nA n a l y s i s&M a c h i n e I n t e l l i g e n c e,2011,33(12):2341-2353.[5] G A L D R A N A,P A R D OD,P I CÓN A,e t a l.A u t o m a t i cR e d-C h a n n e lU n d e r w a t e r I m a g eR e s t o r a t i o n[J].J o u r n a lo fV i s u a l C o mm u n i c a t i o n&I m a g eR e p r e s e n t a t i o n,2015,26:132-145.[6] C H E N GCY,S U N GCC,C HA N G H H.U n d e r w a t e r I m a g eR e s t o r a t i o nb y R e d-D a r kC h a n n e l P r i o r a n dP o i n tS p r e a d F u n c t i o n D e c o n v o l u t i o n[C]//2015I E E E I n t e r n a t i o n a l C o n f e r e n c e o n S i g n a la n d I m a g e P r o c e s s i n gA p p l i c a t i o n s(I C S I P A).P i s c a t a w a y,N J:I E E E,2015:110-115.[7]张凯,金伟其,裘溯,等.水下彩色图像的亮度通道多尺度R e t i n e x增强算法[J].红外技术,2011(11):14-18.(Z HA N G K,J I N W Q,Q I U S,e ta l.M u l t i-s c a l eR e t i n e xE n h a n c e m e n tA l g o r i t h m o nL u m i n a n c eC h a n n e lo fC o l o rU n d e r w a t e r I m a g e[J].I n f r a r e dT e c h n o l o g y,2011(11):14-18.)[8] S HA R A N Y A R S,R AM E S H R.H a z e-F r e e U n d e r w a t e rI m a g e E n h a n c e m e n t[J].I n t e r n a t i o n a lJ o u r n a lo fI n n o v a t i v eR e s e a r c ha n dD e v e l o p m e n t,2013,2(3):533-543.[9] L I J,S K I N N E RKA,E U S T I C ER M,e t a l.W a t e r G A N:U n s u p e r v i s e dG e n e r a t i v eN e t w o r k t oE n a b l eR e a l-T i m e C o l o rC o r r e c t i o n o fM o n o c u l a rU n d e r w a t e r I m a g e s[J].I E E ER o b o t i c s a n dA u t o m a t i o nL e t t e r s,2017,3(1):387-394.[10] F A B B R IC,I S L AM M J,S A T T A RJ.E n h a n c i n g U n d e r w a t e r I m a g e r y U s i n g G e n e r a t i v eA d v e r s a r i a lN e t w o r k s[C]//2018I E E EI n t e r n a t i o n a l C o n f e r e n c eo nR o b o t i c sa n dA u t o m a t i o n(I C R A).P i s c a t a w a y,N J:I E E E,2018:7159-7165.[11] Z HUJY,P A R K T,I S O L AP,e t a l.U n p a i r e d I m a g e-t o-I m a g eT r a n s l a t i o nU s i n g C y c l e-C o n s i s t e n tA d v e r s a r i a lN e t w o r k s[C]//P r o c e e d i n g s o f t h e I E E EI n t e r n a t i o n a lC o n f e r e n c eo nC o m p u t e rV i s i o n.P i s c a t a w a y,N J:I E E E, 2017:2223-2232.[12] L ICY,G U O CL,R E N W Q,e t a l.A nU n d e r w a t e r I m a g eE n h a n c e m e n tB e n c h m a r kD a t a s e t a n dB e y o n d[J].I E E ET r a n s a c t i o n s o n I m a g eP r o c e s s i n g,2019,29:4376-4389.[13]I S L AM MJ,X I A Y,S A T T A RJ.F a s tU n d e r w a t e r I m a g eE n h a n c e m e n t f o r I m p r o v e d V i s u a lP e r c e p t i o n[J].I E E ER o b o t i c s a n dA u t o m a t i o nL e t t e r s,2020,5(2):3227-3234.[14] B U A D E S A,C O L L B,MO R E L J.A N o n-l o c a l A l g o r i t h m f o rI m a g e D e n o i s i n g[C]//C o m p u t e r S o c i e t yC o n f e r e n c e o nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n.P i s c a t a w a y,N J:I E E E,2005:60-65.[15] L I U PJ,Z HA N G HZ,L I A N W,e t a l.M u l t i-l e v e lW a v e l e t C o n v o l u t i o n a lN e u r a lN e t w o r k s[J].I E E EA c c e s s,2019,7:74973-74985.[16] C HA R B O N N I E RP,B L A N C-FÉR A U DL,A U B E R TG,e t a l.T w oD e t e r m i n i s t i cH a l f-Q u a d r a t i cR e g u l a r i z a t i o nA l g o r i t h m s f o r C o m p u t e dI m a g i n g[C]//P r o c e e d i n g s o f1s tI n t e r n a t i o n a l C o n f e r e n c e o nI m a g e P r o c e s s i n g.P i s c a t a w a y,N J:I E E E,1994:168-172.[17]I S L AM MJ,X I A Y,S A T T A RJ.F a s tU n d e r w a t e r I m a g eE n h a n c e m e n t f o r I m p r o v e d V i s u a lP e r c e p t i o n[J].I E E ER o b o t i c s a n dA u t o m a t i o nL e t t e r s,2020,5(2):3227-3234.[18] N A I K A,S WA R N A K A R A,M I T T A L K.S h a l l o w-UW n e t:C o m p r e s s e d M o d e lf o r U n d e r w a t e r I m a g eE n h a n c e m e n t[C]//C o n f e r e n c e o nA r t i f i c i a l I n t e l l i g e n c e.P a l oA l t o:A A A IP r e s s,2021:15853-15854.[19] Z HA N G Y L,L I K P,L I K,e ta l.I m a g eS u p e r-r e s o l u t i o n U s i n g V e r y D e e p R e s i d u a lC h a n n e l A t t e n t i o nN e t w o r k s[C]//I E E EC o n f e r e n c eo nC o m p u t e rV i s i o na n dP a t t e r nR e c o g n i t i o n.P i s c a t a w a y,N J:I E E E,2018: 294-310.(责任编辑:韩啸)。
基于多特征融合的深度学习模型构建
基于多特征融合的深度学习模型构建随着深度学习技术的不断发展,越来越多的领域开始使用深度学习技术来解决实际问题。
传统的深度学习模型通常只使用单一特征进行训练,但面对实际问题时,使用多种特征进行训练,可以提高模型的准确性和稳定性。
因此,本文将探讨基于多特征融合的深度学习模型构建的相关问题。
一、多特征融合的意义在深度学习中,特征是非常重要的因素。
通常情况下,我们会通过人工方式挑选出与问题相关的特征,用于训练模型。
但是,在实际问题中,可能存在大量不同特征之间的关联,如果只使用单一特征进行训练,很难全面地考虑问题的复杂性。
使用多种特征进行训练,可以更加全面地考虑问题,提高模型的准确性和稳定性。
二、多特征融合的方式在进行多特征融合时,通常有以下几种方式:1. 叠加特征将不同特征的数据矩阵叠加在一起,形成一个更大的矩阵,然后将其输入到深度学习模型中进行训练。
这种方式较为简单,但是可能存在维度较高的问题,导致训练过程中的计算量较大。
2. 特征并行将不同特征的数据分别放到不同的神经网络中进行训练,然后将这些神经网络的结果进行融合。
这种方式可以有效地降低计算量,同时也可以更好地利用不同特征之间的关联。
3. 特征串行将不同特征的数据依次输入到不同层的神经网络中进行训练,然后将这些神经网络的结果进行融合。
这种方式可以较好地利用不同特征之间的关联,同时也可以降低计算量,但是需要保证不同特征的训练顺序的合理性。
以上三种方式都可以进行多特征融合,需要根据实际问题的需求选择合适的方式。
三、在进行基于多特征融合的深度学习模型构建时,通常需要进行以下几个步骤:1. 数据准备需要将不同特征的数据进行预处理,保证其格式和范围相同,方便进行融合。
同时也需要将数据集按照一定的比例分成训练集和测试集,进行模型的训练和测试。
2. 模型设计需要选择合适的模型结构,考虑到不同特征的关联,通常会使用卷积神经网络等深度学习模型进行构建。
同时也需要在模型中添加一定的正则化等方法,避免模型出现过拟合等问题。
深度学习算法在图像识别中的应用
深度学习算法在图像识别中的应用深度学习算法作为人工智能技术的最新进展之一,已经在各个领域展示出了强大的应用能力。
其中,图像识别领域是深度学习算法的一个重要应用场景。
本文将从深度学习算法的基本原理开始,探讨其在图像识别中的应用。
一、深度学习算法基本原理深度学习算法是一种基于神经网络的机器学习算法。
与传统的机器学习算法相比,深度学习算法具有更多的隐藏层,使得神经网络可以更好地模拟人脑的运作方式。
深度学习算法通过多层次的特征提取,能够学习到更加抽象和高级的特征表示,从而提高图像识别的准确性和性能。
二、深度学习算法在图像分类中的应用1. 卷积神经网络(Convolutional Neural Networks,CNN):卷积神经网络是深度学习算法中最重要的一种模型,被广泛应用于图像分类任务。
卷积神经网络通过卷积层和池化层的堆叠,可以提取图片的局部特征和整体特征,从而实现对图片的分类。
2. 深度残差网络(Residual Neural Networks,ResNet):深度残差网络是近年来提出的一种改进的卷积神经网络。
它通过引入残差连接,允许网络中间层直接跳跃连接到后续层,解决了深度网络训练难的问题。
深度残差网络在图像分类任务中取得了很好的效果。
3. 生成对抗网络(Generative Adversarial Networks,GAN):生成对抗网络是一种新兴的深度学习算法,可以用于图像生成和图像识别。
生成对抗网络通过训练两个神经网络,一个生成器和一个判别器,使得生成器可以不断生成逼真的样本,而判别器则可以不断提高对假样本的鉴别能力。
生成对抗网络在图像生成和图像识别领域都取得了很好的效果。
三、深度学习算法在目标检测中的应用目标检测是图像识别中的一个重要任务,它不仅要求准确识别图像中的内容,还需要确定物体在图像中的位置信息。
深度学习算法在目标检测中的应用也取得了很大的进展。
1. R-CNN(Region-based Convolutional Neural Networks)系列模型:R-CNN是一种基于区域的卷积神经网络模型,通过将图像分割成一组候选区域,再对每个候选区域进行识别和分类,从而实现目标检测。
深度学习知识:卷积神经网络与循环神经网络的比较
深度学习知识:卷积神经网络与循环神经网络的比较深度学习领域的两种主要神经网络模型,分别是卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)。
这两种模型都是使用多层神经元结构进行数据特征提取和高级模式识别。
但它们的结构和应用领域存在很大差异。
本文将对CNN和RNN进行比较,探讨它们的优缺点和适用场景,帮助读者更好地理解深度神经网络。
一、卷积神经网络(CNN)1. CNN的基本结构CNN主要是由卷积层(Convolutional Layer)、池化层(Pooling Layer)、全连接层(Fully Connected Layer)三种层次结构组成。
在CNN中,卷积层和池化层是特征提取的主要手段,而全连接层则负责对特征进行归一化和分类。
卷积层是CNN的核心部分,其主要目的是从输入的原始图像中学习特征。
它由多个卷积核组成,每个卷积核都会在不同位置扫描整个输入图像,提取局部特征并输出为一个特征图。
卷积操作可以有效地减少输入数据的规模,并且可根据不同的感受野大小和数量灵活调整卷积核的参数。
池化层是在卷积层之后的一种降采样操作,主要是为了减少卷积特征的数据量,提高网络的计算效率和鲁棒性。
在池化操作中,对每个特征图进行固定大小的滑动窗口采样,取窗口中的最大值或平均值作为该特征图的代表。
池化层可以保留最显著的特征,提高模型的判别能力。
全连接层是在传统神经网络中常用的结构,在CNN中用于分类器构建。
它将高维的卷积特征映射到指定的目标标签空间,实现图像的识别和分类。
2. CNN的优点和适用场景(1)有效的特征提取能力:CNN对于图像、语音、自然语言处理等输入数据具有很强的特征提取能力。
基于其卷积核和池化操作的局部特征提取,可自动学习和提取抽象的特征,进而实现强大的识别和分类能力。
(2)可灵活处理高维数据:CNN可以处理高维数据,例如三维立体图像数据等。
基于多特征图卷积神经网络的肺癌分类识别
基于多特征图卷积神经网络的肺癌分类识别随着医学技术的不断发展,肺癌在世界范围内已成为最常见的恶性肿瘤之一。
为了增加肺癌的早期诊断率和治疗预后,越来越多的研究者开始致力于探索基于深度学习技术的肺癌分类识别模型。
而基于多特征图卷积神经网络的肺癌分类识别模型,正在逐渐成为研究的热点。
本文将从以下几个方面探讨这一模型在肺癌分类中的应用。
一、多特征图卷积神经网络简介多特征图卷积神经网络(Multifeature Map Convolutional Neural Network,MM-CNN)是由中国科学院计算技术研究所的研究员发明的。
相比于传统的卷积神经网络,MM-CNN可以使用多个特征图同时训练,读取更多的特征信息,降低过拟合的风险。
MM-CNN的训练过程可以分为两步。
首先,需要使用标准卷积神经网络对原始图像进行处理,得到多个底层特征图。
这些特征图通常反映的是图像的基本特征,如纹理和边缘等。
然后,将底层特征图作为输入,经过多轮卷积和池化操作后逐渐提取更高层次的特征。
最后使用softmax函数进行分类。
二、基于MM-CNN的肺癌分类识别模型研究现状在肺癌分类识别领域,许多研究者已经开始尝试使用MM-CNN进行实验。
例如,李伟等人提出了一个名为LungDNN的肺癌分类模型,利用MM-CNN提取图像的多个特征图,并将其与传统的特征提取器相结合,构建一个混合式的分类器。
实验结果表明,LungDNN模型对肺癌的分类效果要优于传统的卷积神经网络模型。
此外,日本医学研究所也开展了相关实验。
他们利用MM-CNN对肺部X光片进行分类,将肺部X光片分为癌症组和非癌症组。
实验结果表明,基于MM-CNN的肺癌诊断准确率可达到92.6%。
三、MM-CNN模型在肺癌诊断中的优势与传统的卷积神经网络模型相比,MM-CNN模型具有以下几个优势:1. 更好的特征提取能力MM-CNN可以同时从多个特征图中提取信息,这使得其在图像特征提取方面具有更好的表现。
卷积神经网络中的多尺度特征融合技术(Ⅰ)
卷积神经网络(Convolutional Neural Network,CNN)作为一种深度学习模型,在计算机视觉和图像识别领域取得了巨大的成功。
然而,CNN在处理多尺度特征融合方面仍然面临着一些挑战。
本文将介绍卷积神经网络中的多尺度特征融合技术,并探讨当前研究中的一些进展。
首先,我们来看看卷积神经网络中的多尺度特征融合的重要性。
在图像识别任务中,图像通常包含不同尺度的信息,例如局部细节和全局结构。
为了更好地理解和识别图像,我们需要将这些不同尺度的特征进行有效地融合。
传统的CNN通常只使用固定尺度的卷积核来提取特征,这导致了对不同尺度信息的损失和忽视。
因此,多尺度特征融合成为了提高图像识别性能的关键问题。
在卷积神经网络中,多尺度特征融合技术可以通过多种方法实现。
一种常见的方法是使用多尺度的卷积核和池化层。
多尺度卷积核可以捕获不同尺度的图像特征,从而提高模型对多尺度信息的感知能力。
而多尺度池化层则可以在保持特征图尺寸的同时对不同尺度的特征进行池化,从而实现特征的融合和降维。
这些方法在一定程度上提高了模型对多尺度特征的处理能力,但仍然存在一些问题。
例如,多尺度卷积核和池化层的设计需要对网络结构进行改动,这会增加模型的复杂度和训练成本。
另一种常见的多尺度特征融合方法是使用金字塔结构。
金字塔结构将输入图像按照不同尺度进行特征提取,并将不同尺度的特征图按照一定规则进行融合。
这种方法可以充分利用图像的多尺度信息,提高模型对多尺度特征的感知能力。
然而,金字塔结构需要对网络结构进行较大的改动,这可能会增加模型的复杂度和训练成本。
近年来,有一些新的多尺度特征融合方法被提出,并取得了一定的成功。
例如,一些研究者提出使用注意力机制来实现多尺度特征融合。
注意力机制可以根据输入图像的不同区域和尺度给予不同的注意程度,从而更加灵活地实现多尺度特征融合。
另外,一些研究者提出使用跨层连接来实现多尺度特征融合。
跨层连接可以将不同层级的特征进行融合,从而提高模型对多尺度信息的感知能力。
基于深度学习卷积神经网络模型的行人检测设计
信息技术XINXISISHU2021年第5期基于深度学习卷积神经网络模型的行人检测设计付友1,左迅8,杨凡",何张凤9,曹冉1(1.国网重庆市电力公司市区供电分公司,重庆400239; 2.重庆理工大学,重庆470257)摘要:随着近年来5G与人工智能的崛起,无人驾驶技术在不断突破,行人检测作为无人驾驶中的重之一,是一个重义的课题。
文中采用深度Pymxh和目标检测网络YOLO进行行人检测,分别搭建了YOLO v3、YOLO v3轻量版YOLOv3-Tiny、YOLO v3与SPP-Net融合版本YOLO v V-DPP行人检测平台,并对小型目标和大型目标识别进行了详细的测试对比。
测试结果表明,YOLO v3和YOLOv3-SPP平均置信度;YOLOv3-Tiny实时,适用于量小的行人识别场景。
关键词:行人检测;深度学习;目标检测;卷积神经网络中图分类号:TP188文献标识码:A文章编号:1029-2552(2221)25-0234-25DOI:12.13977/j.cadh hdzj.2221.25.222Pedestrian detection design baseV on deep levrning ol convvlutionae neukl network modelFU Yon1,ZUO Xun2,YANG Fan2,HE Zhang-feng1,CAO Rsn1(1.State GXh Chongqing Electmo Powco Company UXan Powco Sllppiy Branch,Chongqing470239,Chi-na; 2.Chongqing University of Technolopy,Chongqing470257,China)Abstroct:With thc Xse of2G and ddificim intelligence in recent years,unmanneP dxving technolopy isco—WnUy maning bxStUxcgh.PePestmdn detection is one of thc1120X3)-tasis of unmanneP dxving,and it is sn impoXani research topic.This project wili use deep learning framework Pytorch and taraet docoition network YOLO fos pePestmdn detection,YOLO i,YOLO i ligqtweigqi version YOLO v V-Tiny,YOLOi and SPP-Det fusion version YOLO v V-SPP are estaniiseP to test and being compareP in texns of smali andlarfo taraets.£乂卩0>011601reselis stow0^1YOLO vi and YOLO vi-SPP hss highos dverayo confinence, while YOLOve-Tiny O ps s low real-timo peXoxnance which suits thc penestmdn recopnization situation of ssmali amonni of calcalation.Key wo O s:pePestPsd detection;deep learning;tarfet detection;convvlution nenrai network2引言随着科技的进步,交通工具愈来愈发达,人们基金项目:重庆市基础科学与前沿技术研究专项面上项目基金项目(csm2219jcaj-msxmX2233);重庆市教育委员会科学技术研究计划(KJQN22192925);国家电网公司科技项目(SGCQSQ02BGJS2002453)作者简介:付友(1239-),男,本科,工程师,研究方向为智能识别和网络。
基于多任务学习的深度神经网络模型研究与应用
基于多任务学习的深度神经网络模型研究与应用深度神经网络(Deep Neural Networks,DNNs)是一种逐层抽象、层次化建模的计算模型,被广泛应用于计算机视觉、自然语言处理以及音频分析等领域。
在实际应用中,深度神经网络面临着许多挑战,例如训练时间过长、过拟合等问题。
近年来,多任务学习(Multi-Task Learning,MTL)被引入到深度神经网络中,以解决这些问题。
本文将探讨基于多任务学习的深度神经网络模型的研究与应用。
一、多任务学习介绍多任务学习是机器学习领域中的一种方式,指在一个模型上同时学习多个任务。
在多任务学习中,不同的任务共享相同的特征表示,提高了模型的泛化能力,减少了训练时间和数据需求。
与传统单一任务学习不同的是,多任务学习不仅学习如何解决特定任务,还学习如何将知识转化到其他任务中。
这样,通过对多个任务进行学习,可以提高模型的鲁棒性和迁移能力。
二、基于多任务学习的深度神经网络模型基于多任务学习的深度神经网络模型是指使用深度神经网络模型进行多任务学习的模型。
该模型可以同时学习多个任务,并且通过共享部分或全部层级的参数来提高模型的泛化能力和效率。
在多任务学习中,模型的优化目标通常由多个任务的损失函数构成。
例如,在计算机视觉领域中,可以同时学习图像分类、物体检测和图像分割等多个任务。
对于每个任务,可以计算出相应的损失函数,然后将它们组合为一个多任务损失函数。
在深度神经网络模型中,多个任务通常与不同层级的神经网络相关。
因此,需要考虑如何共享不同层级的参数以提高模型性能。
为了实现参数共享,通常需要考虑多个因素,如任务之间的相关性、任务复杂性和数据集之间的差异等。
三、基于多任务学习的深度神经网络模型应用基于多任务学习的深度神经网络模型已经在许多实际应用中得到了广泛应用,如计算机视觉、自然语言处理和语音识别等领域。
在计算机视觉领域中,基于多任务学习的深度神经网络模型已经用于图像识别、物体检测和图像分割等任务。
《基于多特征融合的SSD目标检测算法研究》
《基于多特征融合的SSD目标检测算法研究》一、引言随着深度学习和计算机视觉技术的不断发展,目标检测作为计算机视觉领域的重要任务之一,已经得到了广泛的应用。
SSD (Single Shot MultiBox Detector)作为一种优秀的目标检测算法,以其高精度和快速检测的特点,在许多领域都取得了显著的成果。
然而,单一特征的目标检测算法在面对复杂场景和多尺度目标时仍存在局限性。
因此,本文提出了一种基于多特征融合的SSD目标检测算法,以提高目标检测的准确性和鲁棒性。
二、相关技术背景1. SSD算法概述:SSD算法是一种基于深度学习的目标检测算法,通过设置不同尺度的默认框(default box)来检测不同大小的目标。
其优点在于能够快速地进行目标检测,且具有较高的准确率。
2. 多特征融合:多特征融合是一种常用的提高目标检测准确性的方法。
通过将不同层次的特征进行融合,可以充分利用不同层次的特征信息,提高目标检测的鲁棒性。
三、基于多特征融合的SSD算法1. 算法原理本文提出的基于多特征融合的SSD算法,主要是在SSD算法的基础上,将不同层次的特征进行融合。
具体而言,我们采用了特征金字塔的思想,将低层的高分辨率特征与高层语义信息丰富的特征进行融合。
通过这种方式,我们的算法可以更好地处理多尺度和复杂场景下的目标检测问题。
2. 算法实现在实现上,我们首先使用卷积神经网络(如VGG或ResNet)作为基础网络,提取不同层次的特征。
然后,我们通过上采样和下采样的方式,将不同层次的特征进行融合。
最后,我们使用SSD的预测模块对融合后的特征进行预测和分类。
四、实验与分析为了验证我们的算法的有效性,我们在多个公开数据集上进行了实验。
实验结果表明,我们的算法在准确性和鲁棒性方面都取得了显著的提高。
具体而言,我们的算法在面对复杂场景和多尺度目标时,能够更好地处理和识别。
此外,我们的算法在速度方面也具有很好的性能,能够满足实时检测的需求。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Multiregional Feature, Convolutional Neural Network, Image Classification
基于多区域特征的深度卷积神经网络 模型
王雅湄*,王振友#
广东工业大学应用数学学院,广东 广州
收稿日期:2019年10月23日;录用日期:2019年11月11日;发布日期:2019年11月18日
关键词
多区域特征,卷积神经网络,图像分类
Copyright © 2019 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/
(1) 区域截取的指导原则 原始图像平均分成四块,分别标记为原始图像的左上方分块(LT)、右上方分块(RT)、左下方分块(LB) 和右下方分块(RB)。把原始图像平均分成四块,可以专注于图像的局部区域,进而更好地提取原始图像 的局部特征,提高对图像局部细节信息的识别。 (2) 中心区域截取标准 由于一般图像的大部分信息主要集中在图像的中心,因此,除了把原始图像平均裁剪成四个部分去 提取更多图像的局部细节信息外,再提取一个图像的中心区域,使得图像的局部信息结合得更加完整。
同时中心区域与四个方向的子区域具有同样大小。 (3) 模型设计 先把原始图像输入 MR-CNN 模块一与不同尺寸的滤波器进行卷积操作。各分块图像分别输入
MR-CNN 模块二进行卷积操作,其中滤波器的尺寸先采用 3 × 3 是因为分块图像的尺寸较小,使用尺寸 较小的滤波器可以更好提取各分块图像的上下文特征信息,再使用 1 × 1 的滤波器可以保持特征图尺度不 变(即不损失分辨率)的前提下大幅增加非线性特性,使网络能提取到更有鲁棒性的特征。然后对原始图像 和各分块卷积后的特征图级联后再输入 MR-CNN 模块三,以一种信息补充的方式学习到图像的上下文交 互特征,其中模块三也是采用两层 3 × 3 滤波器加一层 1 × 1 一层滤波器。这样设计是因为级联后的特征 图较小,而且通道数较多,需要使用较小尺寸的滤波器卷积提取特征,用 1 × 1 的滤波器除了可以增加特 征的非线性还可以起到降维的作用。最后输入全局平均池化层再输出分类。多区域深度卷积神经网络模
2012 年 10 月,Hinton 教授以及他的学生采用卷积神经网络模型 AlexNet [1],在著名 ImageNet [15] 问题上取得了当时世界上最好的成果,使得对于图像分类的研究工作前进了一大步。AlexNet 卷积神经网 络模型大获成功后,掀起了深度卷积神经网络的研究热潮。在这之后,新的卷积神经网络模型不断被提 出,比如牛津大学的 VGGNet [2]、谷歌的 GoogleNet [3]和微软提出的 ResNet [4]等不断刷新 AlexNet 在 ImageNet 竞赛上的记录。在 2017 年,ResNet [4]作为近年来 CNN 结构发展中最为关键的一个结构,一些 基于 ResNet 的变体不断被提出,比如 ResNeXt [5]、DenseNet [6]、NPN [7]、SENet [8]等。在 2018 年 5 月 11 日微软亚洲研究所进行的 CVPR2018 中国论文宣讲研讨会中,张婷团队延续 IGCV 1 [9]的工作,提 出了 IGCV 2 [10]和 IGCV 3 [11]模型。
Advances in Applied Mathematics 应用数学进展, 2019, 8(11), 1753-1765 Published Online November 2019 in Hans. /journal/aam https:///10.12677/aam.2019.811205
Open Access
1. 引言
近十年来,深度学习在计算机视觉领域取得了巨大的成功。目前计算机视觉技术在图像分类[1]-[11]、 人脸识别[12]、物体检测[13]、目标跟踪[14]等领域取得了突飞猛进的发展。传统基于特征的图像分类方 法存在着泛化能力弱、移植性差、准确度较低的缺点。卷积神经动提取特征的优点,而且通过权值共享大大减少了所需要训练的参数,还具备 了一定的平移不变性,使得卷积神经网络能快速准确地处理图像,因此在图像分类领域取得显著的效果。
Deep Convolutional Neural Network Model Based on Multi-Region Feature
Ya-mei Wang*, Zhen-you Wang#
Department of Applied Mathematicslege, Guangdong University of Technology, Guangzhou Guangdong
随着卷积神经网络的层数不断增加,模型拟合能力逐渐增强,识别效果也越好。但模型越深,训练 越不易收敛,并且训练效率低下;反之,当网络模型层数比较少的时候,模型拟合能力降低,识别率也 会降低。另外,对于复杂的模型而言,除了训练效率极低外,模型理论分析较为困难,训练时往往依靠 丰富的调参技巧和经验进行多次实验得出结果。
在用卷积神经网络处理图像分类的任务中,常规操作都是先对图像进行预处理后整幅图像输入到卷 积神经网络模型再输出分类。然而,由于不同图像的类别目标可能存在区域上的差异,不同的类别可能 具有相似性极高的特征信息,因此仅通过全局特征去进行图像分类的准确率不高。本文设计一个基于多 区域特征的深度卷积神经网络模型,该模型设计了不同的输入模式,以保证特征信息的完整性。输入模
Received: Oct. 23rd, 2019; accepted: Nov. 11th, 2019; published: Nov. 18th, 2019
Abstract
Aiming at the problems of complex network structure and large computational complexity of existing deep convolutional neural network models, it cannot be widely used in practice. This paper proposes a deep convolutional neural network model based on multi-region features. Firstly, the model divides the image into multiple regions and then uses the standard convolution operation to get the image semantic context information. Then, the multi-region input is used to learn the context interaction feature. By cascading and inputting the spatial information of the global region and the multiple sub-regions into the convolution layer, the context feature information of the image is extracted in an information supplement manner. Finally, the images are classified by the Softmax function. The experimental results show that the model has simple structure and few parameters, and the modeling with multi-region feature and context information fusion has better robustness and higher classification accuracy than that with single-region feature.
= xlj+1
∑ f
i∈M j
xi(l )
∗ ki(jl +1)
+ b(jl +1)
(1)
其中:上标表示所在的层数; ∗ 为卷积操作; x(jl+1) 表示卷积后第 j 个神经元的输出; xi(l) 表示第 l 层第 i 个神经元,即输入数据; ki(jl+1) 表示滤波器; b(jl+1) 表示偏置; M j 表示选择的输入特征图的集合。
2. 多区域深度卷积神经网络模型
2.1. MR-CNN 模型介绍
深度卷积神经网络(DCNN)一般由卷积层、池化层、全连接层三种神经网络层以及一个输出层组成。 图像一般先经过卷积层进行卷积,得到若干特征图后通过池化层对特征图进行压缩,最后通过一个全连 接层输出以识别图像特征,进而用分类器对图像进行分类。传统的卷积神经网络在卷积和池化各特征图 之间虽然采用并行计算,但是整个网络是在单个通路内完成的,网络只在深度上拓展,容易造成梯度消 失和过拟合现象。本文通过把原始图像划分成多个区域,设计简单的多通路卷积层,进而把多区域图像 分别卷积后进行级联卷积再输出分类。
DOI: 10.12677/aam.2019.811205
1755
应用数学进展
王雅湄,王振友
Figure 1. MR-CNN model 图 1. MR-CNN 模型
Figure 2. The specific structure of the three modules of MR-CNN 图 2. MR-CNN 三个模块的具体结构
型(MR-CNN)如图 1 所示,图 2 为 MR-CNN 三个模块的具体结构,其中 [5× 5] 1: 96 表示使用 96 个步长