基于CycleGAN的水下图像增强算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代电子技术
Modern Electronics Technique
2023年12月1日第46卷第23期
Dec. 2023Vol. 46 No. 23
0 引 言
水下图像增强技术在海洋开发与探测中至关重要,是水下机器人进行水下作业的前提[1],在海洋开发与环境保护方面都具有很重要的意义[2]。
水体以及其中的悬浮颗粒会引起光的衰减和散射,进而会使得水下图像出现颜色改变、细节模糊、亮度下降等现象,因此通过图像增强技术获得更真实的水下图像具有很重要的意义[3]。
目前,基于CycleGAN 对水下图像增强的算法虽然解决
了对成对数据集依赖的问题,但仍存在亮度不均衡、颜色校正不佳和纹理细节恢复不到位的问题。
因此,针对上述问题,本文提出了一种基于循环生成对抗网络的改进网络模型,通过在U⁃Net 中引入多尺度卷积和残差空洞卷积来提升水下图像纹理细节的恢复。
通过引入全卷积的亮度均衡模块以及图像强边缘结构相似度(SESS )损失函数来调节亮度均衡和颜色恢复[4]。
使用双重判别器促进生成器更好地提取输入图像的细节特征,进而生成更高质量的水下增强图像。
基于CycleGAN 的水下图像增强算法
胡志润, 李 然
(大连海洋大学 信息工程学院, 辽宁 大连 116023)
摘 要: 针对水下图像亮度低、颜色失真以及纹理模糊等问题,提出多尺度循环对抗(MCA )损失函数并用于CycleGAN 中,构建了MCA⁃CycleGAN 算法。
该网络的生成器是基于U⁃Net 并加入了多尺度卷积和空洞残差卷积,能有效增强水下图像的亮度、颜色以及纹理细节信息;亮度均衡方面采用了全卷积模块,使图像亮度分布均匀进而获得较好的主观视觉。
判别器模块采用双重判别器,较好地提取图像的细节信息进而促进整个网络模型生成更高质量的图像。
实验证明,该网络模型与其他模型相比,在PSNR 、UIQM 和UCIQE 客观指标上分别提升了4.602、0.131 1和0.032 7,且生成的增强图像更清晰、更自然、更符合人类的主观视觉。
关键词: 水下图像增强; MCA⁃CycleGAN ; U⁃Net ; 全卷积模块; 双重判别器; 图像纹理
中图分类号: TN911.73⁃34; TP391.41; TP183 文献标识码: A 文章编号: 1004⁃373X (2023)23⁃0079⁃06
Underwater image enhancement algorithm based on CycleGAN
HU Zhirun, LI Ran
(School of Information Engineering, Dalian Ocean University, Dalian 116023, China)
Abstract : A multi⁃scale and cyclic adversary (MCA) loss function is proposed and used in CycleGAN to solve the problems such as low brightness, color distortion and texture blur in underwater images. The MCA⁃CycleGAN algorithm is established. The generator of this network is based on U⁃Net, in which multi⁃scale convolution and void residual convolution are added, which can effectively enhance the brightness, color and texture details of underwater images. The full convolutional module is adopted for brightness equalization to make the image brightness distribution uniform and further obtain better subjective vision. A double discriminator is used for the discriminator module to better extract the detailed information of the image and promote the whole
network model to generate higher quality images. The experiment show that, in comparison with the other models, the proposed network model has improved by 4.602, 0.131 1 and 0.032 7 in the objective indexes of PSNR, UIQM and UCIQE, respectively,
and the generated enhanced images are clearer, more natural and more consistent with human subjective vision.Keywords : underwater image enhancement; MCA ⁃CycleGAN; U ⁃Net; full convolutional module; double discriminator;
image texture
DOI :10.16652/j.issn.1004⁃373x.2023.23.015
引用格式:胡志润,李然.基于CycleGAN 的水下图像增强算法[J].现代电子技术,2023,46(23):79⁃84.
收稿日期:2023⁃07⁃10 修回日期:2023⁃07⁃28
基金项目:辽宁省教育厅科研项目(LJKZ0730);中国医药教育协会2022重大科学攻关问题和医药技术难题重点课题(2022KTM036)
79
现代电子技术
2023年第46卷
本文提出了基于多尺度循环对抗(Multi⁃scale and
Cyclic Adversary, MCA )损失函数的CycleGAN ,即MCA⁃CycleGAN ,对图像纹理细节的提升起到了关键性作用。
采用弱监督学摆脱了对成对数据集的依赖。
实验证明,该网络模型在PSNR 、UIQM 和UCIQE 指标上取得了较优结果,分别提升了4.602、0.131 1和0.032 7。
1 MCA⁃CycleGAN 水下图像增强网络
1.1 MCA⁃CycleGAN 的网络结构组成
该网络模型是基于CycleGAN 模型,不同之处在于
改进了生成器、判别器以及损失函数。
该网络模型由正向网络和反向网络两部分组成。
正向网络:将水下图像x 输入到生成器G 中生成x 1,再将x 1输入到生成器F 中生成图像x 2,双重判别器D y 对生成的脱水图像x 1以及正常图像y 进行判别。
反向网络同理,只是把输入图像变成了正常图像,其他结构相同。
整体网络架构如图1
所示。
图1 MCA⁃CycleGAN 网络结构
1.2 基于改进U⁃Net 与亮度均衡模块的生成器网络结构
生成器网络是CycleGAN 的核心,其作用是对输入
图像进行去噪以及细节信息恢复。
U⁃Net [5]网络结构主要由三部分组成,分别为编码器、解码器和跳跃连接。
编码器负责缩小特征图的尺寸,进而得到更大感受野的特征图;解码器负责把特征图转变为与输入相同尺寸的
生成图像,为了防止由网络深度加深而引起的浅层特征丢失加入了跳跃连接,并且融合多层次特征生成高质量的水下图像。
MCA⁃CycleGAN 的生成器是以U⁃Net 为主体,并加入了多尺度卷积和残差空洞卷积,同时结合全卷积的亮度均衡模块。
大多数水下图像增强算法都是对图像整体进行亮度增强,因此很可能会出现图片过曝的问题,对此采用亮度均衡模块来解决这个问题。
此模块由通道数均为32的全卷积网络构成,作为辅助网络用来定位水下图像低照度区域,进而达到增强后的图像亮度分布均匀。
亮度均衡模块得到的结果和解码器得到的输出相乘再经过一个卷积核为7×7的卷积,卷积层后使用tanh 激活函数是为了保证输出呈非线性单调以及防止出现梯度消失的现象。
首先使用9×9卷积得到更多的全局特征,再使用5个
3×3的卷积来获得局部较暗区域的位置信息,进而得
到位置注意图,其中前5个的激活函数为LeakyReLU ,第六层为Sigmoid 。
生成器网络具体结构如图2所示。
其中,首字母例如A 代表不同类型的卷积层,n 代表通道数,
k 代表卷积核大小,s 代表步长,r 代表空洞率。
多数水下图像普遍偏暗,导致局部的特征比较单一,为了让生成器获取更多的特征信息,生成器首段采用了多尺度卷积以及通道拼接,利用一个卷积核为1的小卷积将通道数转变为64,这一过程实现了对输入图像多层次的特征提取。
编码器是一个下采样的过程,主要作用是对水下图像的特征信息进行压缩与提取。
下采样过程将256×256的特征图转变成了32×32。
转换器是由6个残差块组成,其作用是对编码器提取的特征图进行整合,残差块的结构组成为两个卷积层+IN+ReLU ,其中在第二个卷积层中加入了空洞卷积,是为了扩大感受野提取更多细节的特征图[6],前三个残差块的空洞率为2,后三个为4。
解码器通过上采样将得到图像特征转换成浅层特征,进而得到了与输入图像相同尺寸的脱水图像。
解码器在4个标准卷积中间穿插3个反卷积,反卷积层后使用ReLU 激活函数。
1.3 双重判别器
判别器是用来区分图片真假的,本文采用的双重判别器[7]结构如图3所示。
双重判别器由D 1和D 2两个完全相同的子判别器组
成,子判别器结构除最后一层卷积步长设置为1外,其余层全为2。
本文将尺寸为256×256以及128×128的水下图
像依次输入到D 1和D 2中,实现对生成图像的多尺度判别,进而促进生成器生成更高质量的水下脱水图片。
双重判别器采用全卷积网络结构[8],通过计算局部区域的真实性后进行平均,进而作为衡量整张图像真实性的标准。
80
第23
期
图3 双重判别器网络结构
1.4 损失函数
损失函数是卷积神经网络的优化准则,该网络模型
的总损失函数由多尺度循环对抗、循环一致性、强边缘相似度三部分损失组成。
1) 多尺度循环对抗损失
为了促进生成器生成纹理细节更加清晰的脱水图像,采用多尺度循环对抗损失,其从多尺度出发对生成的图像进行多角度判别,如式(1)所示,计算生成的空气脱水图像x 1与真实的空气脱水图像y 之间分布的差距。
L GAN =(G,D Y ,x ,y )
=E y ~pdata (y )[(D Y 1(y )-1)2
]+E x ~pdata (x )[D Y 1(G (x ))2
]+ E y ~pdata (y )[(D Y 2(y )-1)2
]+E x ~pdata (x )[D Y 2(G (x ))2
]
(1)
L GAN (F,D X ,y ,x )=
E x ~pdata (x )[(D X 1(x )-1)2]+E y ~pdata (y )[D X 1(G (y ))2]+
E x ~pdata (x )[(D X 2(x )-1)2]+E y ~pdata (y )[D X 2(G (y ))2](2)式中:
X 表示水下降质图像数据集;x 表示水下图像;Y 表示正常图像数据集;
y 表示正常图像;E x ~pdata (x )表示在x 满足pdata(x )的情况下求均值;D Y 1为子判别器1;D Y 2为子判别器2。
式(1)表示水下图像到正常图像的过程,同理,公式(2)反之,计算生成的水下图像y 1与真实的水下图像x 之间的损失。
2) 循环一致性损失
该损失函数保证了映射是循环一致性的,表示G 生成的图像与F 还原生成的图像之间的差距,其作用是使得生成图像与输入图像在内容方面保持一致,如式(3)
所示:
L cyc (G,F )=E x ~pdata (x )
[] F (G (x ))-x 1
+
E y ~pdata (y )éë
ù
û
G (F (y ))-y 1
(3)
式中F (G (x ))表示把G 生成的图像输入到生成器F 中;
G (F (y ))同理。
3) 图像强边缘结构相似度(SESS )损失
该损失函数表示生成图像与输入图像的强边缘结构图之间的结构差距,在纹理细节以及颜色恢复方面起着很重要的作用,其如式(4)所示:
L SESS =E x ~pdata (x )
[]
G (x )
1
-x 21+
E y ~pdata (y )éë
ù
û
F (y )1-y 21
(4)
式中:E x ~pdata (x )
[]
G (x )
1
-x 21为正向网络的边缘
损
图2 生成器网络结构
胡志润,等:基于CycleGAN 的水下图像增强算法81
现代电子技术
2023年第46卷
失,
x 2表示原图像的强边缘图像image 1,G (x )1表示生成的强边缘图像image 2;E y ~pdata (y )éë
ùû F (y )1-y 21为反向
网络的边缘损失。
原图的强边缘图像与生成图的强边
缘图像结构纹理几乎一致,说明水下图像增强前后结构没有发生改变,并且增强图像在对比度和亮度方面都有所提升,颜色校正方面也有明显效果。
4) 总损失Loss
由多尺度循环对抗、循环一致性、强边缘结构相似度三部分的损失加权组合得到,如式(5)所示:
Loss =L GAN (G,D Y ,x ,y )+L GAN (F,D X ,y ,x )+
αL cyc (G,F )+βL SESS
(5)
式中:权重系数α,β表示各个损失函数之间的相对重要性,通过实验计算各损失值的范围,将权重系数设为:α=8、β=8。
为了生成更高质量的脱水图像,G 和F 取最小,而D X 、D Y 取最大,反向网络同理。
2 网络的学习过程
为了加快网络稳定高效的收敛,采用Adam 优化器优化网络模型,根据梯度的一阶以及二阶矩动态设置参数的学习率,再通过偏置校正计算出不同参数的自适应学习率。
MCA⁃CycleGAN 生成器和判别器参数如下:batch
size 为1,输入图片的尺寸为256×256,初始动量大小设置为0.5,在前100个迭代过程中学习率为0.000 3,后100个则使学习率线性递减为0,共进行200次迭代,其余参数均采用默认值。
本文训练集样本采用增强水下视觉感知数据集
(Enhancement of Underwater Visual Perception, EUVP )
[9]
中的非配对数据集,包含6 000多张降质水下图像,同时在网络上收集了3 894张正常图像。
测试集为200张严重失真的水下图像,用来测试比较本文网络模型的性能。
本文网络模型在Pytorch 框架下完成,并在Ubuntu 18.04下完成实验,Adam 优化器的其余超参数均为其默认值。
硬件设备为Intel Ⓡ Core TM i7⁃13700kf@
3.0 GHz 处理器,32 GB 运行内存,NVIDIA GeForce
GTX 3060(12 GB )显卡。
3 实验结果与分析
3.1 客观评价与分析
MCA ⁃CycleGAN 与SMBLO (Statistical Model of
Background Light and Optimization of Transmission
Map )[10]、UGAN (Underwater Generative Adversarial Net⁃work )[11]、UWGAN (Underwater Weakly Supervised Genera⁃
tive Adversarial Network )[12]
和FUNIE ⁃GAN (Fast Under⁃water Image Enhancement GAN )[9]进行比较,各网络模型
的水下图像评价指标数据对比分析结果如表1所示。
分别通过水下图像质量评价指标(Underwater Image
Quality Measure, UIQM )[13]
和水下色彩图像质量评价指
标(Underwater Colour Image Quality Evaluation, UCI⁃
QE )[14]来验证比较图像质量高低,评估指标的值越高,
图像的客观质量就越好。
峰值信噪比(Peak Signal to
Noise Ratio, PSNR )[14]评价指标的数值越高,表示增强后
的图像失真越少,保留的图像信息越多。
表1 水下图像评价指标数据分析对比
指标
原图original image
SMBLO UGAN
UWGAN FUNIE⁃GAN
MCA⁃CycleGAN
PSNR —18.53719.83419.82821.01125.613
UIQM
2.309 52.466 52.980 2
3.091 52.988 93.222 6
UCIQE
4.003 6
5.713 54.930 95.213 65.549 55.582 2
从表1分析对比得,MCA⁃CycleGAN 在PSNR 、UIQM 和UCIQE 指标均取得了较优成绩,各指标对比分别提高了4.602、0.131 1和0.032 7,证明了MCA⁃CycleGAN 对水下图像增强效果明显且优于表1中其他模型。
MCA⁃CycleGAN 在U⁃Net 中引入多尺度卷积和残差空洞卷积来提升水下图像纹理细节的恢复,加入了全卷积的
亮度均衡模块以及SESS 损失来调节亮度均衡和颜色恢复,使用基于多尺度循环对抗损失函数以及双重判别器来恢复图像纹理细节。
3.2 主观评价与分析
各模型增强效果的主观视觉对比如图4所示。
从
图4可以看出,SMBLO 方法具有一定增强效果归功于复杂的网络模型,但缺乏亮度均衡网络,进而导致容易出现曝光现象。
UGAN 以及FUNIE⁃GAN 模型使用端到端的单输出模型对红光会引起补偿过度的问题。
UWGAN 整体恢复较好但对于局部目标会出现颜色失真的现象,主要是由于缺乏多尺度的对水下图像进行细节特征的提取。
MCA⁃CycleGAN 针对曝光问题加入了亮度注意力
模块来均衡亮度,针对颜色失真以及红光过度补偿问题引入了SESS 损失函数。
对于纹理细节信息不清晰的问
题,本文模型提出了尺度卷积提取水下图片特征并加入了双重判别器。
MCA⁃CycleGAN 在弱监督的情况下,生成的图像纹理细节更加丰富、鲁棒性更强,可以与强监督学习模型相媲美。
82
第23期
4 消融实验
在消融实验中逐步添加各组件,通过比较PSNR 、
UIQM 、UCIQE 指标来证明本文网络模型中各部分的有效性。
首先选择U⁃Net 作为骨干网络,分别加入改进U⁃Net 、MCA 以及双重判别器,再进行排列组合,通过图像质量评估指标进行客观分析以及视觉主观对比,证明了本文网络模型的组合最佳。
5 结 论
本文提出了一种基于循环生成对抗网络的改进网络模型MCA⁃CycleGAN ,该模型在U⁃Net 中引入多尺度卷积和残差空洞卷积来提升水下图像纹理细节的恢复,加入了全卷积的亮度均衡模块以及SESS 损失来调节亮度均衡和颜色恢复,提出了基于多尺度循环对抗损失函数以及使用双重判别器多角度促进生成器生成更高质量的水下脱水图片。
实验证明,客观方面MCA ⁃CycleGAN 在PSNR 、UIQM 和UCIQE 指标上取得了较好的结果,与FUNIE⁃GAN 算法比较,在PSNR 以及UCIQE
评价指标上提升了4.602和0.032 7;与UWGAN 算法比较,在UIQM 评价指标上提升了0.131 1。
三个图像评价指标都得到了提升,客观证明了MCA⁃CycleGAN 网络模型的可行性。
主观视觉方面通过对比各个模型生成的图片,选出更符合人类视觉的图片,进而选出最优模型,SMBLO 网络模型缺乏亮度均衡网络,进而导致容易出现曝光现象;UGAN 以及FUNIE⁃GAN 模型使用端到端的单输出模型对红光会引起补偿过度的问题;UWGAN 整体恢复较好,但对于局部目标会出现颜色失真的现象,主要是由于缺乏多尺度的对水下图像进行细节特征的提取。
MCA⁃CycleGAN 网络模型针对曝光存在的问题加入了亮度注意力模块来均衡亮度;对于纹理细节信息不清晰,本文模型提出了多尺度卷积提取水下图片特征并加入了双重判别器。
MCA⁃CycleGAN 在弱监督的情况下,生成的图像纹理细节更加丰富、亮度更均衡以及颜色恢复更自然,可以与强监督学习模型相媲美。
注:本文通讯作者为李然。
参
考
文
献
[1] PINTO M. MARESye: A hybrid imaging system for underwater robotic applications [J]. Information fusion, 2020, 55: 16⁃29.
[2] AHN J, YASUKAWA S, SONODA T, et al. An optical
image
图4 各模型增强效果对比
胡志润,等:基于CycleGAN 的水下图像增强算法83
现代电子技术2023年第46卷
transmission system for deep sea creature sampling missions using autonomous underwater vehicle [J]. IEEE journal of oceanic engineering, 2020, 45(2): 1⁃12.
[3] 严浙平,曲思瑜,邢文.水下图像增强方法研究综述[J].智能系
统学报,2022,17(5):860⁃873.
[4] 李庆忠,白文秀,牛炯.基于改进CycleGAN的水下图像颜色校
正与增强[J].自动化学报,2023,49(4):820⁃829.
[5] RONNEBERGER O, FISCHER P, BROX T. U⁃net: Convolu⁃tional networks for biomedical image segmentation [C]// Interna⁃tional Conference on Medical Image Computing and Computer⁃assisted Intervention. [S.l.: s.n.], 2020: 234⁃241.
[6] 李天宇,吴浩,毛艳玲,等.一种改进CycleGAN的低照度图像
增强网络[J].无线电工程,2022,52(5):799⁃806.
[7] 李耀,于腾,杨国为.基于BcGAN的水下图像增强方法[J].计
算机工程与设计,2022,43(11):3195⁃3201.
[8] ISOLA P, ZHU J Y, ZHOU T H, et al. Image⁃to⁃image transla⁃tion with conditional adversarial networks [EB/OL]. [2018⁃11⁃26]. https:///abs/1611.07004.
[9] ISLAM M J, XIA Y Y, SATTAR J. Fast underwater image en⁃hancement for improved visual perception [J]. IEEE robotics and automation letters, 2020, 5(2): 3227⁃3234.[10] Anon. Broadcasting; Recent studies from Fudan University add new data to broadcasting (Enhancement of underwater images with statistical model of background light and optimization of transmission map) [EB/OL]. [2020⁃04⁃07]. https:/// kns8/defaultresult/index.
[11] FABBRI C, JAHIDUL ISLAM M, SATTAR J. Enhancing un⁃derwater imagery using generative adversarial networks [EB/ OL]. [2018⁃01⁃11]. https:///p⁃9178411232925. html.
[12] LI C Y, GUO J C, GUO C L. Emerging from water: Underwa⁃ter image color correction based on weakly supervised color transfer [J]. IEEE signal processing letters, 2018, 25(3): 323⁃327.
[13] YANG M, SOWMYA A. An underwater color image quality evaluation metric [J]. IEEE transactions on image processing, 2015, 24(12): 6062⁃6071.
[14] PANETTA K, GAO C, AGAIAN S. Human⁃visual⁃system⁃inspired underwater image quality measures [J]. IEEE journal of oceanic engineering, 2016, 41(3): 541⁃551. [15] SETIADI DE R I M. PSNR vs SSIM: imperceptibility quality assessment for image steganography [J]. Multimedia tools and applications, 2020, 80(6): 1⁃22.
作者简介:胡志润(1996—),男,安徽淮南人,硕士研究生,主要研究方向为基于对抗生成网络的水下图像增强。
李然(1967—),女,辽宁大连人,硕士研究生,副教授,主要研究方向为计算机科学与技术。
84。