基于卷积神经网络的中国水墨画风格提取
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于卷积神经网络的中国水墨画风格提取
王晨琛;王业琳;葛中芹;储开岳;蔡晶;金建华;陈颖;葛云
【摘要】This paper discusses the process of Chinese ink-painting style learning using convolution neural network. Firstly, the frame structure of VGG19 neural network model is analyzed, and the process of using VGG19 model to separate and recombine the content and style of artistic images. Secondly, based on the theory, according to the actual characteristics of Chinese ink painting, the appropriate choice of the convoluted layer to process the content image is found and proved by experimental results. The optimal combination of convoluted layer to extract the style from Chinese ink painting is also found by experiment, and the criteria for visual evaluation of image quality are proposed. Finally, by adjusting the proportion coefficient of the content image and the style image, the expected combined image can be obtained, which verifies the feasibility of the theory and puts forward a new method for Chinese ink-painting style extraction.%针对使用卷积神经网络对中国水墨画风格进行学习的过程进行了探讨.首先,分析了VGG19神经网络模型的框架结构,并探讨了如何使用VGG19模型提取艺术风格,并和普通风景图像融合的过程;然后,在理论的基础上,依据中国水墨画的实际特点,通过实验分析寻找合适的卷积层处理内容图像,以及寻找最优的叠加组合对水墨画特征进行提取,并提出了评价图像质量的可视化准则;最后,通过调整内容图像和风格图像的比例系数,得到了符合预期目标的图像,验证了理论的可行性,提出了新的中国水墨画风格图像的风格提取方法.
【期刊名称】《图学学报》
【年(卷),期】2017(038)005
【总页数】6页(P754-759)
【关键词】卷积神经网络;中国水墨画;艺术风格学习;特征提取
【作者】王晨琛;王业琳;葛中芹;储开岳;蔡晶;金建华;陈颖;葛云
【作者单位】南京大学电子科学与工程学院,江苏南京 210023;江苏省公安厅物证鉴定中心,江苏南京 210031;南京大学电子科学与工程学院,江苏南京 210023;南通市肿瘤医院放疗科,江苏南通 226361;南通市肿瘤医院放疗科,江苏南通 226361;南通市肿瘤医院放疗科,江苏南通 226361;南京大学电子科学与工程学院,江苏南京210023;南京大学电子科学与工程学院,江苏南京 210023
【正文语种】中文
【中图分类】TP391
在艺术历史上,人类可以通过自身的技巧,创作出具有自己独特风格的绘画,以传递其特有的艺术思想。
对于艺术风格图像的学习一直是机器学习的一个分支,但是当前的艺术风格学习研究,大多局限于逐像素和逐样本特征的“机械传递”技术,并未直接对艺术风格本身进行学习,而且不具有普适性[1]。
然而,随着深度神经网络模型的逐渐优化,机器学习已经应用于物体分类或人脸识别等领域,并且取得了非常优异的结果,2015年,VGG19模型在分类上的成功率已经达到了92%以上[2]。
中国传统水墨画是中国历史的独特产物,是中国人观察世界和表达自己的重要方式,其鲜明的风格也在艺术历史中占有独特的地位。
随着时代的发展,水墨画这种艺术风格需要越来越多的出现在新兴媒体上,因此,中国传统水墨画的计算
机仿真技术也是非常重要的。
本文在卷积神经网络的基础上,利用机器学习技术对中国水墨画进行特征提取,并将学习得到的特征与普通的风景图像或人物图像进行融合,最终获得高质量的水墨画图像。
卷积神经网络(convolutional neural networks, CNN)是一种特殊的深层神经网络模型[3],是将人工神经网络和深度学习网络相结合而产生的新型人工神经网络。
1984年,HUBEL等[4-5]提出了神经认知机模型,其是卷积神经网络的第一个实现,包括两类神经元,用于特征提取的采样元和用于抗变形的卷积元。
卷积神经网络是第一个真正成功训练多层网络结构的学习算法[6],可利用空间关系减少需要学习的参数数目提高一般前向向后传播算法的训练性能。
在卷积神经网络中,卷积层对输入图像进行分割,每部分通过多个神经元处理后传递给下一层。
图像分割以后的局部感受野允许神经元,即滤波器,访问到最基本的图像特征,能够获取对平移、缩放和旋转不变的观测数据的显著特征。
卷积神经网络是一个多层的神经网络(图1),卷积神经网络通过不同的功能层对输入图像进行处理,其中包含卷积层(convolution),汇聚层(pooling)以及全连接层(full connection)。
卷积神经网络的关键在于引入了卷积层和汇聚层的概念。
卷积层是构建卷积神经网络的核心层,也是CNN的核心计算部分。
由于图像的维度是三维的,在处理图像这样的高维度输入时,让每个神经元都与前一层中的所有神经元进行全连接是不现实的。
相反,本文让每个神经元只与输入数据的一个局部区域连接,该连接的空间大小叫做神经元的感受野,其尺寸是一个超参数。
在深度方向上,连接的大小总是和输入量的深度相等。
连接在空间上是局部的,但是在深度上总是和输入数据的深度一致。
一般的,卷积层的计算式为
其中,l为层数;k为卷积核;Mj为输入层的感受野;b为偏置。
在特征图中,每一个单元通过一组滤波器的权值被连接到上一层的特征图的一个局部块,然后这个局部加权和传递给一个非线性函数,RELU就是CNN中使用的非
线性函数,一般称为激活函数[7],RELU函数可以通过简单的阈值化的激活来实现参数稀疏化。
假设一个神经单元的激活函数为h(i),其中i为隐藏单元的个数,w(i)为隐藏单元的权值,那么RELU函数[8]的表达式为
RELU函数在卷积神经网络中的作用如图2所示,每个神经元通过突触(synapses)连接起来,神经元从其树突(dendrite)获得输入信号,树突将信号传递到细胞体(cell body),并通过激活函数(activation function)的作用,最终沿着唯一的轴突(axon)产生输出信号。
RELU即为卷积神经网络中的激活函数。
汇聚层也称为池化(pooling)层[9]。
通常,在连续的卷积层之间会周期性地插入一个汇聚层。
对输入的图像邻域进行卷积处理得到图像的邻域特征图(feature map),在降采样层使用汇聚技术在小邻域内进行下采样得到新的特征。
通过对上一层汇聚,特征结果可以使得参数减少[10],降低特征维数,且增强特征使得最后的特征表达保持了某些不变性,常用的采样方法有均值采样、最大采样和随机采样等。
插入汇聚层就能减少网络中参数的数量,使得计算资源耗费变少,也能有效控制过拟合。
降采样的形式为
其中,为汇聚函数;为权重系数;l为层数;j为输入数据。
由于卷积神经网络具有特征提取上的优越性以及对物体识别的高成功率,GATYS
等[11]将CNN应用于艺术风格的学习,并将艺术纹理与物体特征相结合,获得艺术图像,GATYS等[11]使用python语言对西方艺术风格进行了提取,并融合到
实景物体中,获得艺术图像,本文将使用matlab对中国水墨画艺术风格进行提取。
VGG-Network是由SIMONYAN等[12-13]开发的卷积神经模型,包括VGG16
和VGG19。
VGG19模型包括16个卷积层和5个汇聚层,本文使用VGG19模型进行数据处理,但不使用其中的全连接层。
在VGG19模型中,网络中的每一层都是一个非线性滤波器,而滤波器的复杂程度随层数递增而增加,因此每一层的输出都是滤波器对输入图像的响应。
假设某一层得到的响应是矩阵,其中,Rl是l层滤波器的个数;Ml是滤波器的大小;为第l层的第i个滤波器在位置j的输出。
为了得到输入内容图片的具体特征,本文通过对一幅白噪声图片进行梯度下降得到一个与内容图片相似的图片,代表为原始图片;代表为最终生成的图片;和分别为2个图片在神经网络l层的输出。
因此,定义两个特征之间的平方差损失为
对式(4)求导可得
根据式(5)得到的标准差结果,应用反向传播算法可得到图像的梯度,因此,可以
更换随机生成的图像,直到其卷积层输出结果与的结果相同。
图3为CNN中不同层对图像重建的结果,由图3(b)~(f)可知低层次的卷积结果和原图基本相同,高层次的卷积结果只保留了图像的主要内容[14]。
为了提取获得艺术图像的纹理特征,本文对一幅白噪声图像进行梯度下降,从而获取与原始图像相匹配的特征[15-17],代表为原始图片;代表为最终生成的图片;
Al和Gl分别为2个图片在神经网络l层的输出。
则两个图像每一层卷积损失可以表示为
总损失为
其中,为每一层的损失在整体损失中所占的比重。
对式(7)求导得
在VGG19神经网络模型中共有16个卷积层,由于中国水墨画与西方艺术画作相比,其颜色数量使用较少,风景较为写实,所以本文需要对水墨画的卷积层进行选择比较。
如图4所示,本文通过对不同卷积层的选取,可以得到各个卷积层对融
合结果的影响,图4(a)~(f)分别代表使用‘conv2_2’、‘conv3_2’、
‘conv3_4’、‘conv4_2’、‘conv4_4’、‘conv5_1’进行风格图像纹理特征提取之后获得的结果。
从图4可看出,各卷积层对图像的提取纹理程度有一定
的差异,输出图像的艺术风格程度随着卷积层在网络中的位置增加而先增强,到达
一定程度后开始减弱,图4(c)融合效果最为明显。
在实际应用中,可以通过控制卷积层的选取并叠加使用获取更好的结果。
为了得到内容图像和艺术图像融合之后的图像,本文给定一幅白噪声图像,并对该图像定义一个损失函数
其中,α和β分别为重建图中内容和样式的加权因子。
CNN模型通过使用梯度下降法,将输出图像与输入图像进行误差比较,修正输出图像,循环该过程,最终获得满足该损失函数的最小值。
损失函数值代表了输出图像与输入的内容图像和风格图像的差异,同时,通过损失函数曲线可以得到梯度下降算法的迭代次数与损失函数值的关系,当损失函数值趋于稳定时,此时输出图像可以作为最终的输出结果,而损失函数值减小到最大损失值的10 db时的迭代次数则可以反映输出图像与输入图像的相似程度。
如图5所示,曲线代表在使用梯度下降法不断计算的过程中,其值不断减小,随时循环次数的不断增加,损失值的下降速度逐渐趋于平缓,融合结果趋于稳定。
由图5可知,当单次循环损失值下降小于的时,损失值已经趋于稳定,输出结果几乎不发生改变,输出图像可以作为最终的输出结果。
基于上述讨论,本文可以将卷积神经网络模型应用于中国传统水墨画的艺术特征提取。
使用卷积层图3(d)对内容图像进行特征提取,叠加使用四层卷积图4(a),图4(c)、(d)、(f)对艺术风格图像进行提取,得到结果如图6所示。
为了比较输出图像的优劣,随机选取50位受访者对图像进行打分与评价,综合所有人的评价作为该图像的最终评价结果。
由图6可看出,以荷花为主体的内容图像与同样是表现荷花的艺术图像融合后,输出图像中荷花以及荷叶的样式都与风格图像接近,较好的实现了预期目标,但是当使用同一幅水墨风景画对人物画像进行处理后,得到融合后的人像图像有一定的水墨画特征,但是在细节纹理上并不能精确的体现水墨画的艺术特点。
图7(a)、
(b)分别代表图6中荷花图像和人像图像的损失函数下降曲线,其中曲线代表损失
函数,虚线为损失值的最大值的10 db处,通过其损失函数的梯度下降曲线可以
看出,当图7(b)中梯度下降到10 db时,迭代次数已经超过了5 000次,表明此时的输出图像与输入的图像之间仍存在较大的误差,输出图像不具有风格图像中体现的艺术风格。
选取合适的风格图像和内容图像后,根据式(9),本文可以调节的值,来决定风格
图像与内容图像在融合结果中占得比例。
通过式(9)可以看出,当越小时,融合之后的图像更接近于风格图像,反之,融合
图像的更接近于内容图像。
如图8所示,本文使用一幅描绘‘江南水乡’的水墨
画作为风格图,任意选取江南水乡的实景图作为内容图。
可以看出,当为10–1时,融合图像中只有部分风景有水墨画的渲染特征,整体的水墨画特征不够明显;当为10–2时,可以看到融合图像中的河水,建筑,树木等物体已经和水墨画中的特征相一致,较好的实现了预期目标;当为10–3时,融合图像被过度渲染,整体图像与原内容图像有较大区别。
综上所述,本文选取卷积层图3(d)作为内容图像卷积层,叠加使用四层卷积图
4(a)、(c)、(d)、(f)作为风格图像卷积层,设定参数为10–2,可以实现对水墨画风格特征纹理的提取,并对内容图像进行渲染,得到较好的具有中国水墨画特征的输出图像。
因此,根据文章讨论的结果,本文可以获得具有鲜明水墨画特征的输出图像,成果使用卷积神经网络对艺术风格的提取,并绘制出具有特定风格的图像,实现了预期目标。
通过对卷积神经网络的应用,可以对艺术风格图像进行学习,并将获得的特征纹理应用于物体图像或者风景图像,来完成图像间的风格传递。
本文通过应用VGG模型,对内容图像和风格图像在卷积层选取、融合比例调整方面进行探索,最终获得了较好的具有水墨画艺术特点的图像。
该方法可以成功的实现预期目标,但是在输
入图像的选取上有一定的要求,主要因为由于中国水墨画作品在颜色使用中较为单一,同时,由于艺术风格图像评价的主观性,无法对不同图像做出客观的评价。
因此,之后的工作将着重于对输入图像进行处理,将融合之前的水墨画作品、内容图像做分类,以及建立对不同水墨画图像的客观评价体系等。
[1] 吕鹏. 基于神经网络的中国水墨画艺术风格学习[D]. 天津: 天津大学, 2009.
[2] 汤鹏杰, 王瀚漓, 左凌轩. 并行交叉的深度卷积神经网络模型[J]. 中国图象图形学报, 2016, 21(3): 339-347.
[3] 汪济民. 基于卷积神经网络的人脸检测和性别识别研究[D]. 南京: 南京理工大学, 2015.
[4] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex [J]. Journal of Physiology, 1962, 160(1): 106-154.
[5] FUKUSHIMA K. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position [J]. Biological Cybernetics, 1980, 36(4): 193-202.
[6] 陈鸿翔. 基于卷积神经网络的图像语义分割[D]. 杭州: 浙江大学, 2016.
[7] NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines [C]//International Conference on International Conference on Machine Learning. New York: CAM Press, 2010: 807-814.
[8] 楚敏南. 基于卷积神经网络的图像分类技术研究[D]. 湘潭: 湘潭大学, 2015.
[9] 张晴晴, 刘勇, 潘接林, 等. 基于卷积神经网络的连续语音识别[J]. 北京科技大学学报, 2015, 37(9): 1212-1217.
[10] 芮挺, 费建超, 周遊, 等. 基于深度卷积神经网络的行人检测[J]. 计算机工程与应用, 2016, 52(13): 162-166.
[11] GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style [EB/OL]. [2017-01-02]. .
[12] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2017-01-02]. https://. [13] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [EB/OL]. [2017-01-02]. https://.
[14] MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 5188-5196.
[15] ASHIKHMIN M. Fast texture transfer [J]. IEEE Computer Graphics & Applications, 2003, 23(4): 38-43.
[16] EFROS A A, FREEMAN W T. Image quilting for texture synthesis and transfer [C]//Conference on Computer Graphics & Interactive Techniques. New York: ACM Press, 2015: 341-346.
[17] XIE X, TIAN F, SEAH H S. Feature guided texture synthesis (FGTS) for artistic style transfer [C]// International Conference on Digital Interactive Media in Entertainment and Arts. New York: ACM Press, 2007: 44-49.。