生成式对抗网络的研究进展综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

自从1956年在达特茅斯会议诞生人工智能概念以来,人工智能的技术、理论都在不断发展,已经广泛应用在教育、交通、金融、医疗、家居、制造等领域[1]。机器学习(Machine Learning )是人工智能研究领域中最重要的分支之一,根据学习过程中的不同经验,机器学习算法可以大致分类为无监督(unsupervised )和监督(supervised )[2]。无监督学习是通往人工智能重要的一环,而生成式对抗网络(Generative Adversarial Networks ,GANs )是现阶段无监督学习最热门的技术,近几年来在图像生成、视频合成和语音处理等多个应用领域都取得了重大突破。

生成对抗网络的概念是在2014年6月由蒙特利尔大学Ian Goodfellow [3]等学者提出的,近几年来,Google 、Facebook 、Open AI 等AI 业界巨头也纷纷加入对GANs 的研究。2018年,GANs 被《麻省理工科技评论》评选为“全球十大突破性技术”之一[4]。1生成对抗网络的工作原理1.1生成式对抗网络的模型

GANs 的基本模型如图1所示,GAN 要同时训练一个生成网络G (Generator Network )和一个判别网络P (Discriminator Network )。生成网络G 需要输入一个服从先验概率分布pz (z )的随机噪声变量z ,输出的数据为G (z );然后将G (z )和真实样本Pdata (x )输入至判别模型D ,判别模型D 要判断输入数据是一个真实数据还是生成的数据G (z )。判别模型D 通过不断地学习来提高自己的判别能力,而生成器G 又通过不断地学习来提高自己的伪装能力。在训练过程中,生成式网络和判别式网络构成了一个动态的对抗过程,两者在迭代过程中不断优化,当

D 最后无法区别出真实数据和生成数据时,可认为生成式模型达到近似最优。GANs 的目标函数如下所示:

minGmaxD V (D ,G )=Ex-Pdata (x )[logD (x )]+Ez ~Pz (z )[log

(1-D (G (z )))]

1.2生成式对抗网络的优点

传统生成模型一般都需要进行马可夫链式的采样和推断,而GANs 避免了这个计算复杂度特别高的过程,直接进行采样和推断,从而提高了GANs 的应用效率。

GANs 的设计框架非常灵活,针对不同的任务可以设计不同类型的损失函数尤其是当数据的概率密度不可计算的时候,传统依赖于数据自然性解释的一些生成模型就无法工作,但GANs 的对抗训练机制在这种情况下依然可以使用。

GANs 可以和卷积神经网络CNN 、循环神经网络RNN 结合在一起。任何一个可微分的函数都可以用来构建G 和D ,因此也可以使用深度卷积网络DNN 来参数化生成模型。另外,GAN 和RNN 结合在一起,用来处理和描述一些连续的序列数据,应用在音乐数据或者是一些自然语言数据的建模和生成。2最新研究进展

初始的GANs 有一些缺陷,其可解释性非常差,收敛还存在不稳定的一些问题,生成器和判别器在训练中需要很好地平衡和同步。很多研究者针对GANs 的缺陷提出了改进和优化,2016年之后GitHub 中几乎每周都会有新的相关论文被提交上来,截止2018年10月GitHub 已经收有502篇关于GANs 的论文[5],表1为几个重要的改进模型及其主要改进和贡献。

表1

3生成式对抗网络的应用

自GANs 诞生以来,在图像、视频、文字等多个领域都得到广泛应用,并且还在不断地拓展。下面介绍一些代表性的应用实例。

生成式对抗网络的研究进展综述

辉(湖北广播电视大学电信工程学院,湖北武汉430074)

A Summary of Research Progress of Generative Countermeasure Network

摘要:生成对抗网络(GANs )是现阶段人工智能的研究热点,介绍了GANs 的模型原理,阐述其优点和缺陷及其改进模型,总结了GANs 在图像、文字、视频等领域的应用现状和研究进展。

关键词:人工智能,机器学习,无监督学习,生成对抗网络

Abstract 押Generating adversarial networks 穴GANs雪is a research hotspot in artificial intelligence at the present stage.This paper introduces the model principle of GANs熏expounds its advantages and disadvantages and its improvement model熏and summarizes the application status and research of GANs in image熏text熏video and other fields.

Keywords 押artificial intelligence熏machine learning熏unsupervised learning熏Generative Adversarial

Networks

图1GANs 模型

生成式对抗网络的研究进展综述

70

《工业控制计算机》2019年第32卷第7期

3.1超分辨率(Super Resolution)

超分辨率是指从给定的低分辨率图像生成出相应的高分辨率图像,这在监控、卫星图像、医学影像等领域都有重要的应用价值。传统方法一般是采用插值的方法,但是会产生模糊。2016年9月Twitter公司发表了一项研究成果,开发出全新的损失函数,用一个16个残差块的网络来参数化生成模型。判别模型使用VGG网络,使得GANs能对大幅降采样后的图像,恢复成为高分辨率的带有丰富细节的清晰图像[11]。

3.2数据合成(Apple)

2016年12月Apple首篇AI论文中构建了一个生成式对抗网络,用于合成一批带标签的,真实的图像数据集[12]。使用合成图像和视频训练机器学习能降低时间和人力成本,合成图像已经带有标记和注释,而且可以定制化。

3.3利用GANs把文字转化为图像

从文本描述生成高质量的图像是计算机视觉领域一个非常具有挑战性的工作。在ICML2016会议上,Scott Reed[13]等人提出了两种基于GAN的算法,GAN-CLS和GAN-INT,实现了一个简单高效的GAN架构和训练策略,实现了从描述文本到图像的转化。比方说,若神经网络的输入是“粉色花瓣的花”,输出就会是一个包含了这些要素的图像。该任务包含两个部分:①学习到能够捕捉到重要的视觉细节的文本特征表达;②生成网络使用这些特征来生成一个准确、自然的图像,对文字进行表达。

之后多个文本生成图像的方法被提出,目前新的有突破性的工作是李飞飞团队2018年CVPR发表的Image Generation from Scene Graphs[14]。不同于先前文本直接转图像的方法,李飞飞小组提出可以使用场景图作为中间媒介,即文本转换为场景图,场景图再转换为图像。

3.4其他

GANs进行声纹识别与声音合成技术也在突飞猛进,比如Adobe在近两年陆续发布了新的声音合成技术[15]。GANs也可以应用到图像编辑上,内省对抗网络方法(Introspective Ad⁃versarial Network)融合了GAN和VAE(variational autoen⁃coder),实现了辅助图像编辑的功能[16]。当你绘图时,生成模型会把你画出的图形转化为照片般真实的图像,而且还能不断调整效果。

GANs还可以用于自然语句的生成、音乐的生成,甚至用于视频的合成。除此之外还可以将GAN用在了强化学习和模拟学习上,从而能够大幅度提高强化学习的学习效率。

源结束语

正如Yan Lecun所说:“GAN为创建无监督学习模型提供了强有力的算法框架,沿着这条路走下去,有不小的成功机会能开发出更智慧的AI。”目前GANs现在仍处于发展阶段,已经吸引了越来越多的学术界和行业人士加入研究,在今后的几年将会应用在更广泛的领域[17]。

参考文献

[1]中国信息通信研究院,中国人工智能产业发展联盟.人工智能发展白

皮书产业应用篇(2018年)[R/OL].http押///kxyj/ qwfb/bps/201812/P020181227308307634492.pdf [2]Goodfellow I熏Bengio Y熏Courville A.Deep Learning[M].Cam⁃

bridge熏UK押MIT Press熏2016押104-105

[3]Goodfellow I熏Pouget-Abadie J熏Mirza M熏et al.Generative

adversarial nets眼C演∥Advances in neural information process⁃ing systems.2014押2672-2680[4]MIT Technology Review.10Breakthrough Technologies2018.

眼R/OL演.https押///lists/technologies/ 2018

[5]hindupuravinash.The GAN zoo眼R/OL演.https押///

hindupuravinash/the-gan-zoo

[6]Mirza M熏Osindero S.Conditional Generative Adversarial Nets

眼R/OL演眼2016-12-22演.https押///abs/1411.1784 [7]Zhu W熏Miao J熏Qing L熏et al.Unsupervised Representation

Learning with Deep Convolutional Generative Adversarial puter Science眼R/OL演眼2014-06-10演.https押//arx⁃/abs/1511.06434

[8]Martin Arjovsky熏Soumith Chintala熏L佴on Bottou.Wasserstein

GAN眼R/OL演眼2017-01-26演.https押///abs/1701.07875 [9]Agustinus Kristiadi.Least Squares GAN眼R/OL演http押//wiseodd.

github.io/techblog/2017/03/02/least-squares-gan/ [10]David Berthelot熏Thomas Schumm熏Luke Metz.Boundary Equi⁃

librium Generative Adversarial Networks眼R/OL演眼2017-03-31演.

https押///abs/1703.10717

[11]Christian Ledig熏Lucas Theis熏Ferenc Huszar熏et al.Photo-Real⁃

istic Single Image Super-Resolution Using a Generative Adversarial Network眼R/OL演眼2016-09-15演.https押/// abs/1609.04802

[12]Ashish Shrivastava熏Tomas Pfister熏Oncel Tuzel熏et al.Learning

from Simulated and Unsupervised Images through Adver⁃sarial Training眼R/OL演眼2016-12-22演.https押///abs/ 1612.07828

[13]Scott Reed熏Zeynep Akata熏Xinchen Yan熏et al.Generative Ad⁃

versarial Text to Image Synthesis眼R/OL演眼2016-05-17演.https押///abs/1605.05396

[14]Justin Johnson熏Agrim Gupta熏Li Fei-Fei.Image Generation

from Scene Graphs眼R/OL演眼2018-04-04演.https押/// abs/1804.01622

[15]Zeyu Jin熏Gautham J.Mysore熏Stephen DiVerdi熏et al.VoCo押

Text-based Insertion and Replacement in Audio Narration.

ACM Transactions on Graphics.眼R/OL演.眼2017-7演.http押//gfx.

/pubs/Jin_2017_VTI/

[16]Andrew Brock熏Theodore Lim熏J.M.Ritchie熏Nick Weston.Neural

Photo Editing with Introspective Adversarial Networks.眼R/OL演眼2016-09-22演.https押///abs/1609.07093v1 [17]林懿伦,戴星原,李力,等.人工智能研究的新前线押生成式对抗网络[J].自动化学报,2018,44(5):775-792

[收稿日期:2019.4.11

]

71

相关文档
最新文档