基于生成对抗网络的人脸图像修复算法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
随着互联网时代的发展,人脸图像修复技术的应用越来越广泛。
人脸图像修复问题逐渐得到学术界的关注,成为计算机视觉领域的一个研究热点。
成熟的人脸图像修复技术具有非常重要的意义与应用价值,可应用于媒体社交、娱乐、安防和考古等多个领域。
本文主要工作为针对目前的人脸图像修复方法存在无法有效利用人脸图像结构先验和无法获取特征长程关联性等问题,结合生成对抗网络框架,提出以下两种创新的人脸图像修复算法:
1. 基于多判别器生成对抗网络的人脸图像修复算法。
该方法充分利用人脸图像结构先验,创造性地在人脸图像的特定区域上使用多个判别器,同时结合感知损失和重建损失来对抗训练,能针对性地修复人脸的关键部位,使人脸图像修复的细节更加饱满。
该方法所使用的多个结构相对简单的判别器,因只在训练阶段约束网络训练,减少了预测阶段网络的计算量和参数量,大大提升了网络对人脸图像的修复效率。
2. 基于自注意力机制生成对抗网络的人脸图像修复算法。
该方法能获取修复任务中人脸图像全局和局部特征在空间和通道维度上的长程关联性。
该方法拥有多个并行的自注意力模块,包括位置注意力模块、通道注意力模块、前景注意力模块和前景背景交叉注意力模块。
自注意力模块能够鲁棒地的学习到图像前景和背景之间的特征关联性,并在一定程度上解决了神经网络结构中卷积层受限于卷积核过小而无法获取到的特征间长程关联性,提升了人脸图像修复的效果。
为了验证提出的两个方法对于人脸图像修复任务的有效性,本文对以上的两个算法模型进行了充分的实验验证和比较。
在两个常用的人脸图像数据库上进行实验,并以数种近年有代表性的人脸图像修复算法为基准作对比。
实验结果表明,以上两种算法都比作为基准的人脸图像修复算法在定量和定性的结果对比上有了明显的提升。
关键词:人脸图像修复;生成对抗网络;多判别器;自注意力模型
I
Abstract
With the development of the Internet era, the application of face completion has become more and more extensive. Face completion has gradually gained the attention of the academic community and has become a research hotspot in the field of computer vision. Mature face image restoration technology has very important significance and a wide range of applications, which can be applied to media social, entertainment, security, and archaeology.
In order to use the face geometry prior and obtain long-range correlation, we propose two effective face completion algorithms based on generative adversarial networks.
1. A face completion algorithm based on a multi-discriminator generative adversarial networks. In order to make full use of the face geometry prior, we train multiple discriminators on specific areas of the face image, combined with perceptual loss, adversarial loss and reconstruction loss. The model can specifically repair the key parts of the face, making the details of the reconstructed face image more realistic. The multiple discriminators used in the method only update the parameters in the training phase, which reduces the calculation amount and parameter amount of the network in the prediction phase, and greatly improves the repair efficiency of the network on the face image
2. A face completion algorithm based on a self-attention generative adversarial networks. The method can obtain the long-range correlation between the global and local features of the image in spatial and channel dimensions. The method has a plurality of parallel self-attention modules, including a position attention module, a channel attention module, a foreground attention module, and a foreground cross background attention module. The self-attention module can robustly learn the feature correlation between the foreground and the background of the image, and solves the problem that the convolutional layer in the network is limited by the convolution kernel being too small to obtain the long-range correlation between features.
In order to verify the effectiveness of the proposed two methods for face completion tasks, we have carried out sufficient experimental verification on both algorithm models. We performed experiments on two face image databases and compared them with several states of the art face image restoration algorithms. The experimental results show that the above two algorithms have significantly improved the quantitative and qualitative results compared with state of the art.
Keyword:face completion; generative adversarial networks; multiple discriminator; self-attention model
II
目录
摘要 (I)
Abstract ...................................................................................................................................... I I 第一章 绪论 (1)
1.1研究背景和意义 (1)
1.2国内外研究现状 (2)
1.3论文主要工作及结构 (3)
1.3.1论文主要工作 (3)
1.3.2论文的组织结构 (4)
1.4本章小结 (5)
第二章 人脸图像修复与生成对抗网络的相关知识 (6)
2.1人脸图像修复 (6)
2.1.1基于变分的方法 (6)
2.1.2基于实例的方法 (7)
2.1.3基于深度学习的方法 (9)
2.2生成对抗网络 (13)
2.2.1基本原理 (13)
2.2.2训练方法 (15)
2.2.3改进模型 (15)
2.3本章小结 (18)
第三章 基于多判别器生成对抗网络的人脸图像修复方法 (19)
3.1概述 (19)
3.2网络结构 (20)
3.2.1生成网络 (20)
3.2.2判别网络 (22)
3.3损失函数 (24)
3.3.1重建损失函数 (25)
3.3.2感知损失函数 (25)
3.3.3对抗损失函数 (27)
3.3.4联合损失函数 (28)
III
3.4实验设置与细节 (28)
3.4.1实验配置 (28)
3.4.2数据集介绍 (30)
3.4.3实验评价指标 (30)
3.5实验结果比较与分析 (31)
3.5.1定量结果分析 (32)
3.5.2定性结果分析 (34)
3.5.3模型简化测试分析 (36)
3.6本章小结 (36)
第四章 基于自注意力机制生成对抗网络的人脸图像修复方法 (38)
4.1概述 (38)
4.2注意力机制 (39)
4.3算法概述 (40)
4.3.1位置注意力模块 (41)
4.3.2通道注意力模块 (43)
4.3.3前景注意力模块 (44)
4.3.4前景背景交叉注意力模块 (45)
4.4实验结果与分析 (46)
4.4.1定量结果分析 (46)
4.4.2定性结果分析 (47)
4.4.3模块对比分析 (48)
4.5本章小结 (49)
总结与展望 (52)
参考文献 (54)
攻读硕士学位期间取得的研究成果 (60)
致谢 (61)
IV
第一章 绪论
第一章绪论
1.1研究背景和意义
图像修复(Image Inpainting)[1],即对给定一张局部区域存在破损或者空洞的图片,利用已有信息来对损坏区域进行修复填充或补全的工作。
图像修复技术的历史非常悠久。
早在中国古代就有画师根据作品的年代、材质和破损程度,按照画卷原本的经纬来填补和补色修复古画。
时至今日,仍有许多艺术家们通过艺术的手法修复各类损坏的画作,通过填补画像的裂缝来恢复画像的原貌。
随着信息技术的蓬勃发展,人们发明了数字图像处理技术,能够将图像信号转换成数字信号,并利用计算机对其进行处理。
伴随着该技术的发展,原始的纯手工式图像修复技术逐渐被取代,演变为更加高效且便捷的数字图像修复技术。
现阶段,数字图像修复技术与人类的数字生活息息相关。
该技术已发展为计算机视觉领域的重要研究课题,其未来发展趋势是实现对数字图像破损区域检测和修复的自动化和智能化。
虽然目前已出现了一批比较先进的数字图像处理软件能够方便地对图像进行修复,但是人们还是需要一定的经验和大量繁琐的手工操作才能完成。
利用数字图像修复软件对图像修复后的效果很大程度取决于人们自身对工具的熟练程度以及对相关知识的积累。
人们迫切地需要一种更加高效智能的数字图像修复技术。
进入21世纪,人类社会全面进入了互联网时代。
伴随着高速移动网络的发展和手机、平板电脑及数码相机等电子设备的广泛普及,人们可以随时随地用电子设备进行拍照并通过互联网分享。
人们热衷于将个人的自拍人脸照片分享到互联网进行娱乐社交活动,而且对得到的人脸图像的审美要求越来越高。
虽然现有的便携式智能电子设备拥有一系列的摄像及其处理功能,可以对人脸图像进行各种自动美化,提供了包括人脸美白、人脸祛痘和人脸自动美妆等功能,但是对于损坏的人脸图像暂时还缺乏人脸图像修复的相关功能。
人脸图像对于普通图像而言是一种比较特殊的图像,因其具有较特殊的拓扑结构。
通用的图像修复技术没有针对人脸特殊的拓扑结构进行优化,对于人脸图像修复很难有比较完美的效果。
人脸图像修复技术(Face Completion)是图像修复技术中的一个分支。
成熟的人脸图像修复技术具有非常重要的意义与应用价值,它可以应用到现代日常生活的多个方面:
1)旧人脸照片的修复:对于一些年代久远的人像照片,可能因保存不当而出现折
1
华南理工大学硕士学位论文
痕和缺失等现象,破坏了照片的收藏价值,影响了图像带来给人们的视觉舒适感。
而人脸图像修复技术可以对旧相片进行修复,最大程度地恢复其原状。
2)社交娱乐:人们热衷于在互联网上分享人脸图像进行社交。
越来越多的图像编辑软件的出现,使人们可以非常方便地对图像进行编辑。
而人脸图像修复技术可以让人们更加自由地对人脸图像中各种遮挡和脸部缺陷因素进行去除和重建,增加了娱乐性和趣味性。
3)刑侦面部修复:在公安刑侦过程中,由于环境限制,安防设备所拍摄到的人脸图像较难辨别,为执法人员后续的侦查工作带来困难。
而人脸图像修复技术能够去掉原始图像上的干扰因素,能较好地重建出高质量的人脸图像,给维护公共安全,侦查案件等行动带来了助力。
由于人脸图像修复技术拥有着众多的应用领域以及存在着诸多挑战,所以它已逐渐成为计算机视觉领域中的研究热点,也是本文重点关注的问题。
国内外的研究学者们提出了众多的人脸图像修复算法,但很多传统的修复方法仍存在许多问题,例如不能充分利用外部已知的先验知识,修复后的图像纹理结构过于简单,重建的图片缺失高频信息而模糊和算法计算度过高等问题。
很多方法只能应用于实验阶段而无法经受现实情况的考验,这局限了人脸图像修复的应用场景。
现有人脸图像修复技术还无法令人满意,其修复效果还无法真正地满足各个领域的需求,因此人脸图像修复方法的研究仍然是一个非常具有挑战性的研究课题。
1.2国内外研究现状
图像修复问题最早是由Bertalmio等人[1]所提出,后来国内外许多学者对其展开了深入的分析和研究,已有许多优秀的研究成果被提出。
由于人脸图像修复问题是图像修复研究课题的子问题,因而本节将统一对图像修复问题的研究现状进行分析。
图像修复的目的是恢复原始图像中所缺失的信息或根据已知信息去除图像中遮挡信息。
图像修复作为图像处理领域中的不适定(Ill-posed)问题,其解并不是唯一的,存在着众多的近似解。
为了提高修复图像的质量,修复过程需引入图像相关的先验知识。
目前现有的方法大多基于以下的假设:待修复图像中的已知区域和未知区域的像素值具有相同的数学分布。
基于这个假设,许多利用到了图像的各种先验的方法被先后提出,使修复后的图像更能满足人们的需求,具有更高的视觉观赏性。
现有的图像修复方法可分为三类,分别是基于变分的方法、基于实例的方法和基于深度学习的方法。
2
第一章 绪论
基于变分的方法[2-5]通过变分方法或者偏微分方程引入了图像的平滑先验。
修复图像时,该类方法通过扩散局部结构来进行内容填充或者是将图像的待修复区域由外向进行内传播。
因变分方法或者偏微分方程都可通过变分原理等价推导出,故名为基于变分的方法。
该类方法中仅适用于修复较为细窄的缺失区域,对于较大面积的缺失区域,则修复效果不佳。
基于实例的方法[7-9]更加注重图像的纹理结构。
该类方法以图像中图像块的相似性和图像的统计特征作为先验,利用已知区域像素的相似图像块来完成对缺失区域的修复。
在该类方法中,相似度匹配、图像块选取以及辅助先验知识的添加等因素都对图像修复的结果有较大的影响。
与基于变分的方法相比,当图像的待修复区域较大时,基于实例的方法能够得到更好的修复结果,但是该类方法的效率仍有待提高。
基于深度学习的方法[10-12]通过设计深度神经网络来对大规模的图像数据库进行学习训练,使图像中的重要特征能够被神经网络自动提取来实现对图像的修复过程。
此类方法大多利用了生成对抗网络在图像生成领域的优势,通过添加各种全局或者局部先验知识和损失函数,对各种形状的未知区域和各种场景图像的修复均取得了前沿的修复效果。
基于深度学习的方法在人脸图像修复的问题上虽然能比较充分地利用人脸特殊的拓扑结构信息,但是并没有从网络结构上针对人脸图像的特点进行优化改进。
此外,基于深度学习的方法对训练图像库的质量以及设备的性能仍有较高的要求。
通过对相关研究现状的分析可知,尽管众多图像修复方法被提出,并且对较小区域的图像缺失已取得不错的研究成果,但由于人脸图像具有其特殊的拓扑结构,人脸图像修复问题仍是一个非常具有挑战性的研究课题。
本文通过对较大缺失区域的人脸图像修复问题进行深入研究,分别提出了基于多判别器和自注意力机制的人脸图像修复方法,通过多判别器对人脸图像特定区域的约束以及自注意力机制对特征获取能力,在人脸图像修复的准确率和视觉效果上均有较大的提升。
1.3论文主要工作及结构
1.3.1论文主要工作
人脸图像修复是计算机领域的一个热点研究问题,在实际应用的意义重大。
而目前的人脸图像修复方法存在无法有效利用人脸图像结构先验和所用卷积层无法获取特征的长程关联性等问题。
通过对以上的两个问题展开全面的分析并进行深入的研究,本文的主要工作内容为:
(1)针对现有人脸图像修复算法无法有效利用人脸图像结构先验和针对性地修复
3
华南理工大学硕士学位论文
人脸关键部位等问题,本文在生成对抗网络框架基础上,提出的基于多判别器生成对抗网络的人脸图像修复算法。
该方法充分利用人脸图像结构先验,创造性地在人脸图像的特定区域使用多个判别器来对抗训练,同时结合感知损失和重建损失来对抗训练,使人脸图像修复的细节更加饱满。
该方法所使用的多个结构相对简单的判别器,只在训练阶段约束网络,不仅提高了生成对抗网络训练阶段的训练速度,而且提升了在预测阶段修复图像的效率。
(2)针对卷积层受限于卷积核过小而无法获取特征间的长程关联性问题,本文在第三章方法的基础上提出了一种基于自注意力机制生成对抗网络的人脸图像修复方法来获取人脸图像修复任务中全局和局部特征在空间和通道维度的长程关联性。
本文所提方法包括多个并行的注意力模块,能够有效地的学习到前景和背景之间的全局和局部特征关联性,在一定程度上提升了人脸图像修复的效果。
1.3.2论文的组织结构
本文提出两种改进的基于生成对抗网络的人脸图像修复方法,全文共分为四章,各个章节的主要内容如下:
第一章主要是介绍了人脸图像修复技术的研究背景和研究意义,分析了现有图像修复所面临的问题和挑战。
然后分为基于变分的方法、基于实例的方法和基于深度学习的方法这三类方法概括性地对图像修复的研究现状进行论述,最后介绍了本文的主要研究内容和组织结构。
第二章首先是对图像修复和人脸图像修复进行综述,详细地介绍了它们的研究现状。
然后介绍了生成对抗网络的相关知识,包括基本原理、学习方法及其相关改进模型。
第三章主要介绍了本文所提出的基于多判别器生成对抗网络的人脸图像修复算法。
文中详细地给出了实现方法和训练优化的过程。
在实验部分,本文选取两个常用的人脸图像数据库,通过科学的对比实验和结果分析来验证本文所提出的多判别器框架结构对于人脸图像修复任务的有效性。
第四章主要介绍了本文所提出的基于自注意力机制生成对抗网络的人脸图像修复算法,并简单地介绍了自注意力机制的研究现状。
同样选取两个数据库,设计丰富的对比实验来验证本文提出的自注意力机制能获取特征的长程关联性来有效提升人脸图像修复的性能。
同时通过对比实验验证该方法的鲁棒性和有效性。
最后对本文的工作进行归纳总结并针对本文的工作提出了未来可改进的方向。
4
第一章 绪论
1.4本章小结
本章首先简要地介绍图像修复的研究背景以及研究该问题的意义所在。
然后对图像修复领域的国内外研究进展及其分类做了概括性描述。
我们分析了人脸图像修复目前所面临的问题和挑战,并介绍了本文的主要研究工作。
最后简单介绍了全文的组织结构,其中包括了每章的内容安排。
5
华南理工大学硕士学位论文
第二章人脸图像修复与生成对抗网络的相关知识
2.1人脸图像修复
人脸图像修复是指利用人脸图像中已知区域的邻域信息来预测图像中缺失的区域的信息,对人脸图像进行修复使其更加完整和美观,更能满足人们的视觉需求。
在人们日常使用图像的过程中,存在着很多因素可能导致人脸图像产生缺陷。
为便于对人脸图像修复算法的研究,我们用以下的数学模型来描述人脸图像的受损过程:
I"=M∗I&',I"∈(Ω∪Φ)(2-1) 其中,I"表示待修复图像,而I&'则表示原始图像。
M是一张二值化的图像,为图像掩模(Mask),其中像素值为1的部分表示待修复图像中的已知区域,像素值为0的对应待修复图像中的未知区域。
我们使用Ω表示图像中的已知区域,使用Φ来表示图像中的未知区域。
自图像修复问题被提出以来,国内外的学者们对这一充满挑战性的问题进行了深入的研究,许多创新的图像修复方法被提出并取得很好的修复效果。
由于人脸图像修复问题是图像修复研究课题的子课题,因而本节将统一对图像修复问题的研究现状进行分析。
本文通过归纳总结,将目前已有的图像修复方法分为三大类来进行文献综述,分别是基于变分的方法、基于实例的方法和基于深度学习的方法。
下文将分小节进行详细介绍。
2.1.1基于变分的方法
在图像修复问题的早期研究中,最先出现的方法是基于变分原理的。
基于变分的方法利用未知区域周围的已知像素信息来确定扩散的方向与信息,由外向内传播到未知区域,直到破损区域的面积被全部填充。
同时为了使修复后图像与原始图像的结构一致,必须利用图像的相关结构信息来进行图像信息的扩散传播。
因此,修复图像需要先分析待修复图像中的结构,并利用提取的结构信息来引入平滑先验,随后使用变分方法(Variational Method)或者偏微分方程(Partial Differential Equation,PDE)来进行求解,通过扩散操作来对图像进行修复。
基于偏微分方程(PDE)的图像修复方法最早由Bertalmio等人[1]提出,名为BSCB 模型。
该算法利用通过将图像待修补区域的边缘的等照度线进行延伸,将图像的边缘信息沿着线的延伸方向进行修复,逐渐完成对图像待修补区域的扩散修复。
该方法需要多次的数值迭代来进行计算,需要较长的计算耗时。
学者Alexandru[2]基于BSCB模型提出了一种效率更高的图像修复技术,通过对已知区域的像素值进行加权平均来加速对未知
6
区域像素预测的求解。
虽然基于偏微分方程的算法的计算效率提到了提高,但是由于该系列方法没有考虑图像的完整性和细节信息,导致图像修复效果较差。
针对基于偏微分方程一系列方法的问题,Shen等人[3]提出了基于全变分(Total Variation,TV)的图像修复方法。
该方法首先引入平滑先验,将整个图像看成是一个分段的函数,并利用全变分方法对图像进行数学建模,最终得到一个偏微分方程来进行迭代修复。
该方法对图像缺失的边缘区域进行扩散修复,在一定程度上能够较好地恢复图像的原始边缘信息,而且其数值计算的实现简单易行。
然而该方法并不能很好的满足视觉连通性原理。
后来Chan等人[4]又基于TV模型提出了利用曲率信息等几何先验来驱动信息扩散的CDD算法。
该算法能较好地保留图像的原有结构,使图像的修复效果更能符合人类的视需求。
Lu等人[5]通过分析图像的局部特征,设计出了一种较为快速的图像修复方法,提升了图像的修复效果。
该算法首先根据优先级对损坏区域周围的像素进行分层和滤波,然后再次以优先级为基础迭代地从外到内修复损坏的像素。
由于基于偏微分方程的方法和基于全变分的方法都可通过变分原理等价推导出,故它们可统一被称为基于变分的方法。
基于变分的方法来实现图像修复,能够很好保持视觉信息中的结构性原则。
该方法的应用范围较为狭隘,当图像的缺失区域较小时图像修复能取得较好的效果,但是当图像的纹理细节较为复杂或图像待修复区域较大时,此类方法的修复效果欠佳。
2.1.2基于实例的方法
为了改进基于变分的图像修复方法的不足,研究学者们提出了基于实例的图像修复方法。
基于实例的方法能更好地处理图像中待修复区域面积较大的情况,得到更好的图像修复结果。
纹理是指图像中线形纹路,可以用来描述物体表面的特征细节。
Efros等人提出了一种图像的纹理结构合成方法[6]。
该方法通过将图像中已知区域的纹理结构采样成小图像块,并计算相似度来复制和粘贴进行纹理的合成。
通过该方法进行研究改进,研究学者们基于图像的实例提出了许多有效的图像修复方法。
不同于基于变分的方法,基于实例的图像修复方法将待修复图像中未知区域边界上的点看作图像块作为处理单元,到图像中已知区域进行匹配,寻找最相似的图像块并将其复制到相应的区域来对图像进行填充。
基于实例的方法最早由Criminisi等人[7]提出来。
文献[7]首先定义了图像块的优先权决定修复顺序,保证图像中的线性结构传播,目标边界连通。
通过定义图像块的优先权使图像按由外向内的顺序,依照图像块所包含的结构
信息依序进行修复。
所谓实例就是选取图像的已知区域中与待修复图像未知区域最为相似的图像块。
而选取图像块的相似度评估则是通过两个图像块之间的纹理相似距离(平方差距离或均方误差)来进行衡量。
最后将最佳匹配块复制到对应的目标区域位置来实现图像修复。
随后,众多学者对Criminisi等人[7]提出的算法陆续进行了深入的研究和改进,提出了许多新的方法。
在优先权的计算上面,Cheng等人[8]对文献[7]算法中优先权的计算函数进行了改进,使该算法更加鲁棒,能够适用于不同图像的不同纹理结构。
在相似度的匹配问题上,为了提高每个待修复图像块在整幅图像中搜索匹配相似块的效率,Barnes等人[9]提出了更为快速的基于实例的图像修复方法,名为PatchMatch (PM)。
该方法首先定义一个与图像大小相同的偏移值矩阵,并利用其最相似图像块的位置偏移值来对每个图像块进行随机初始化,然后利用位置偏移值在每个图像块的局部邻域内进行搜索。
其搜索方法主要基于随机采样(Random Sampling)思想,并根据图像区域相似性,提供一种在整个图像区域顺序蔓延(Propagate)以提高搜索与匹配效率的机制。
在图像块的选取问题上,Zhang等人[13]采用了一种自适应窗口采样的方法,通过采样窗口的自适应性可以高效地获取多尺度的图像特征,不同的尺度特征可以提升图像修复的质量。
Yang等人[14]利用图像块的局部自相似性和尺度自适应性提出了新的图像修复方法。
该方法先分割图像预选的源区域,然后利用自适应窗口来选取最佳实例进行填充,能尽量避免在图像中的特定区域内搜索匹配图像块时所产生的误差。
除此之外,还有利用图像分割图的先验知识来辅助完成图像修复的方法。
自然图像中通常包含多种纹理和结构信息,而不同的纹理区域由图像边缘分割开。
一些学者尝试在图像修复的方法中加入图像的分割信息,在一定程度上避免了修复后出现边缘中断和纹理跨界的现象。
一种基于上下文感知的图像修复方法由Tijana和Aleksandra等人[15]提出。
该方法首先将图像分割为多个大小可变的区域,从而约束搜索具有匹配上下文的非局部图像区域的候选块。
然后利用滤波后得到的直方图信息作为图像各个区域的上下文特征,最后匹配特征最相似的图像区域对图像进行修复。
还有一种基于样本区域分割的图像修复方法由Lee等人[16]提出。
该方法利用源区域中的空间信息能自动选择鲁棒优先级函数的参数值来用于优先权计算,自适应地确定图像块大小,并减少搜索区域。
利用图像块的匹配能够产生比较连贯的纹理结构,但是该系列方法对权值初始化的。