基于生成对抗网络的鲁棒图像隐写方法研究
基于深度学习的鲁棒图像处理算法研究
基于深度学习的鲁棒图像处理算法研究近年来,随着深度学习技术的快速发展,越来越多的应用领域开始尝试深度学习技术的应用,其中图像处理是一个非常重要的领域。
深度学习具有自动学习和特征提取的能力,在图像处理领域拥有广泛的应用,特别是在鲁棒图像处理方面,深度学习技术更是发挥了巨大的作用。
鲁棒图像处理指的是针对各种图像变化和异常情况,在保持图像质量的前提下对图像进行处理,使得图像能够更好地适应不同的环境。
常见的图像变化包括图像旋转、缩放、噪声干扰、光照变化等,这些变化会对图像的特征提取和分类等计算带来困难。
而基于深度学习的鲁棒图像处理算法则可以在这些变化的情况下,保持图像的可靠性和有效性,为图像处理提供更好的性能和稳定性。
深度学习在鲁棒图像处理中的应用主要包括以下几个方面。
一、自适应特征提取深度学习以网络结构为基础,可以自动学习图像的特征和模式,并用于图像分类、图像检测和目标跟踪等任务。
因此,在鲁棒图像处理中,基于深度学习的图像处理方法可以自适应地提取具有更强鲁棒性的图像特征,使得算法更具适应性和灵活性。
比如针对图像旋转的鲁棒处理,传统方法通常依赖于手工设计的旋转不变特征,如Gabor变换等,但这些方法往往无法处理复杂的场景和噪声,而基于深度学习的方法可以构建更深的卷积神经网络(CNN),实现自适应的旋转不变特征提取和学习。
二、数据增强在图像处理中,通常可以通过增加训练数据集的数量和多样性,提高模型的准确性和鲁棒性。
而基于深度学习的算法可以通过数据增强技术,生成更丰富的训练数据,包括图像旋转、缩放、镜像反转、光照变化等。
例如,传统的图像分类算法在处理旋转变换时,需要通过旋转操作生成多个训练样本,耗费大量时间和资源。
而基于深度学习的算法可以通过数据增强技术,在训练过程中自动生成多个变换后的图像,提高分类器的鲁棒性和性能。
三、迁移学习深度学习模型的训练需要大量标注数据和计算资源,而在实际应用中往往无法满足这些条件。
基于生成对抗网络的隐写术设计
基于生成对抗网络的隐写术设计陈璐;毛玮韵;苏磊;赵磊;孙志庆【摘要】随着数字多媒体的发展,网络数字媒体已经逐渐成为人们传递和获取信息的主要方式,同时,以数字媒体为载体的隐写术也得到了空前的发展.新型隐写术层出不穷,然而,据统计目前的隐写术在大部分情况下都被非法使用,因此,设计安全的隐写方法迫在眉睫.本文提出一种基于生成对抗网络(GAN)的隐写术,主要包括生成网络和判别网络,生成网络主要生成用于隐写的图像载体,判别网络主要区分原始图像和生成图像以及生成图像和生成图像经过嵌入得到的隐写图像.同时,在CelebA人脸数据集上进行了实验,验证本文提出方法的有效性和鲁棒性.【期刊名称】《高技术通讯》【年(卷),期】2019(029)007【总页数】8页(P632-639)【关键词】隐写术;隐写分析;生成对抗网络(GAN)【作者】陈璐;毛玮韵;苏磊;赵磊;孙志庆【作者单位】国网上海市电力公司电力科学研究院上海200437;国网上海市电力公司电力科学研究院上海200437;国网上海市电力公司电力科学研究院上海200437;国网上海市电力公司电力科学研究院上海200437;上海赛璞乐电力科技有限公司上海200437;上海赛璞乐电力科技有限公司上海200437【正文语种】中文0 引言隐写术(Steganography)是信息隐藏的主要分支之一。
信息隐藏是利用人类的感觉器官对数字信号的感觉冗余,将一组或者多组秘密信号隐藏到载体信息中,让攻击者在其不影响宿主信号的感觉效果和使用价值的情况下难以判断秘密信息是否存在,而使信息更加难以截获,从而保证信息传递的安全性。
随着科学技术的发展[1],尤其是数字媒体技术的广泛应用[2,3],信息隐藏技术有了进一步的发展。
隐写术经常应用在秘密通信中,尤其是在当今社交媒体纷繁芜杂的图像和视频环境中。
因此,设计一种安全的隐写机制至关重要。
隐写分析(Steganalysis),是与隐写相对抗的技术,主要研究如何区分载体图像和隐写图像。
图像识别中的模型鲁棒性优化方法探索(二)
图像识别中的模型鲁棒性优化方法探索近年来,随着深度学习的兴起,图像识别技术得到了极大的发展和应用。
然而,图像识别模型在面对复杂环境和攻击时,往往存在着一定的鲁棒性问题,需要针对性地进行优化。
本文将探讨图像识别中的模型鲁棒性优化方法,希望能为研究者提供一些思路与启示。
1. 强化对抗训练在图像识别中,对抗样本攻击是一种常见的方式。
对抗样本是通过对原始图像进行微小的干扰,使得模型产生错误的预测结果。
为了提高模型的鲁棒性,可以通过强化对抗训练来增加模型对对抗样本的抵抗能力。
对抗训练采用了生成对抗网络(GAN)的思想,通过生成对抗样本来训练模型。
这种方法可以有效地提高模型的鲁棒性,并且在实践中取得了很好的效果。
2. 数据增强策略数据增强是一种常用的提高模型鲁棒性的方法。
通过在训练过程中对原始数据进行一定的变换与扩充,可以增加模型对各种变化的适应能力。
例如,通过对图像进行旋转、缩放、平移等操作,可以使得模型在面对不同角度、尺寸和位置的图像时仍能保持较好的准确性。
此外,还可以引入噪声、模糊等变换,使模型对不完整、模糊的图像也能有一定的识别能力。
数据增强策略可以有效地提高模型的鲁棒性,并且简单易行,是一种常用且有效的优化方法。
3. 模型融合与集成学习模型融合与集成学习是一种常用的提高模型鲁棒性的策略。
通过将多个不同结构或参数的模型进行融合,可以有效地降低模型的误判率,并提高对抗攻击的抵抗能力。
模型融合的方式可以是简单的投票法,也可以使用更加复杂的集成学习算法,如Bagging、Boosting等。
通过模型融合和集成学习,可以将不同模型的优点进行整合,提高模型的整体性能和鲁棒性。
4. 特征选择与提取在图像识别中,特征选择与提取是优化模型鲁棒性的关键环节之一。
选择合适的特征能够使得模型对关键信息的提取更加准确和鲁棒。
数据的维度往往很高,如果全部特征都输入到模型中,容易导致过拟合和维度灾难。
因此,需要利用特征选择和提取方法,筛选出对识别任务最为关键的特征进行训练和学习。
基于图像隐写鲁棒法的ADCT研究(IJIGSP-V5-N11-3)
I.J. Image, Graphics and Signal Processing, 2013, 11, 23-34Published Online September 2013 in MECS (/)DOI: 10.5815/ijigsp.2013.11.03ADCT-based Robust Methodology for ImageSteganography1Stuti Goel, 2Arun Rana,3Manpreet KaurDepartment of Electronics & Communication Doon Valley Institute of Engineering & Technology, Karnal sgoel.00@, ranaarun1@, er.mnprt@Abstract — Steganography is an important area of research in recent years involving a number of applications. It is the science of embedding information into the cover image viz., text, video, and image (payload) without causing statistically significant modification to the cover image. The modern secure image steganography presents a challenging task of transferring the embedded information to the destination without being detected.In this paper, a DCT based robust methodology has been designed. The cover image is segmented into 8*8 blocks and DCT is applied on the image. The text to be hidden is embedded in the diagonal elements of the blocks by substituting a random variable in place of the bits of the text to be embedded. It is observed that the proposed algorithm is more robust with better CER & Normalized coefficient.Index Terms — Least Significant Bit (LSB), Discrete Cosine Transform (DCT), Discrete Wavelet Transform (DWT), Steganography, MSE, PSNR, NCI. INTRODUCTIONTherapid growth of internet usage over high bandwidth and low cost computer hardware has propelled the explosive growth of steganography [1].In the present year, secure and hidden communication is the foremost requirement of the people. Therefore steganography is gaining attraction by people due to the security issues over internet. Steganography means covert writing. Steganography has evolved into a digital strategy of hiding a file in some form of multimedia, such as an image, an audio file or even a video file [8]. The objective of steganography is hiding the payload (embedded information) into the cover image such that the existence of payload in the cover image is imperceptible to the human beings [14]. There are different techniques to implement steganography namely least significant bit (LSB), discrete cosine transform (DCT) & discrete wavelet transform (DWT) technique.There are two types of domains in which steganography is implemented i.e. spatial domain & frequency domain [6]. In spatial domain, processing is applied directly on the pixel values of the image whereas in frequency domain, pixel values are transformed and then processing is applied on the transformed coefficients. LSB technique is implemented in spatial domain while DCT & DWT technique are implemented in frequency domain. In least significant bit (LSB), each pixel of an image is transformed into the binary value and data is hidden into the least significant position of the binary value of the pixels of the image in such a manner that, it doesn’t destroy the integrity of the cover image but this schemeis sensitive to a variety of image processing attacks like compression, cropping etc.Figure1 The process of hiding dataThe discrete cosine transforms (DCT) & discrete wavelet transform (DWT) are mathematical function that transforms digital image data from the spatial to the frequency domain. In DCT, after transforming the image in frequency domain, the data is embedded in the least significant bits of the medium frequency components and is specified for lossy compression while In DWT, secret messages are embedded in the high frequency coefficients resulted from Discrete Wavelet Transform and provide maximum robustness.II. LITERATURE SURVEYJ.R.Krenn explained steganography and its implementation techniques [1]. Deshpande Neeta, et. al. proposed the Least Significant Bit embedding technique suggests that data can be hidden in the least significant bits of the cover image and the human eye would be unable to notice the hidden image in the cover file. This paper explains the LSB embedding technique and presents the evaluation results for 2, 4, 6 Least significant bits for a .png file and a .bmp file [2].24ADCT-based Robust Methodology for Image SteganographyK.B.Raja, et. al. proposed a challenging task of transferring the embedded information to the destination without being detected. In this paper, the image based steganography that combines Least Significant Bit (LSB), Discrete Cosine Transform (DCT), and compression techniques on raw images to enhance the security of the payload [3]. Vijay Kumar Sharma, et. al. has worked upon a new steganography algorithm for 8bit (gray scale) or 24bit (color image) based on Logical operation to ensure the security against the steganalysis attack [4]. Po-Yueh Chen, et. al. proposed a new steganography technique which embeds the secret messages in frequency domain. According to different users’ demands on the embedding capacity and image quality, the proposed algorithm is divided into two modes and 5 cases [5]. Chen Ming, et. al. focused on the steganography tools algorithms. Based on the analyses of the algorithms, various tools are divided into five categories: (1). Spatial domain based steganography tools; (2). Transform domain based steganography tools; (3). Document based steganography tools; (4) File structure based Steganography tools; (5) other categories, e.g. video compress encoding and spread spectrum technique based [6].Aneesh Jain, et. al. proposed a scheme which hides data in bitmap images, in a way that there is almost no perceptible difference between the original image and this new image and which is also resistant to JPEG compression [7]. Beenish Mehboob, et. al. discusses the art and science of Steganography in general and proposes a novel technique to hide data in a colorful image using least significant bit [8]. Hassan Mathkour, et. al. seta a criteria to analyze and evaluate the strengths and weaknesses of the presented techniques and a more robust steganography technique has been developed that takes advantages of the strengths and avoids the limitations [9]. NageswaraRaoThota, et. al. attempted to implement basic JPEG compression using only basic MATLAB functions [10].MamtaJuneja, et. al. discusses the design of a Robust image steganography technique based on LSB (Least Significant Bit) insertion and RSA encryption technique[11]. K.B.Shiva Kumar, et. al. discusses the important issue of modern communication is establishing secret communication while using public channel and is achieved by steganography. In this paper, Coherent Steganography Technique using Segmentation and Discrete Cosine Transform (CSSDCT) is proposed. The cover image is divided into 8*8 blocks and DCT is applied on each block. The number of payload MSB bits is embedded into DCT coefficients of the cover image coherently based on the values of DCT coefficients. It is observed that the proposed algorithm has better PSNR, Security and capacity compared to the existing techniques [12]. Dr. Ekta Walia, et. al. presents analysis of Least Significant Bit (LSB) based Steganography and Discrete Cosine Transform (DCT) based Steganography [13]. K Suresh Babu, et. al. proposed an image Steganography that can verify the reliability of the information being transmitted to the receiver. The method can verify whether the attacker has tried to edit, delete or forge the secret information in the stego-image [14].Atalla I. Hashad, et. al. describe the LSB insertion technique, the Discrete Cosine Transform (DCT) insertion technique is described and finally we will propose a new technique that uses the idea of inserting a bit in the spatial domain combined with the DCT insertion technique[15]. Arvind Kumar, et. al. discusses how digital images can be used as a carrier to hide Messages and also analyses the performance of some of the steganography tools [16]. Vijay Kumar, et. al. intends to observe the effect of embedding the secret message in different bands such as CH, CV and CD on the performance of stego image in terms of Peak Signal to Noise Ratio (PSNR). Experimentation has been done using six different attacks. Experimental results reveal that the error block replacement with diagonal detail coefficients (CD) gives better PSNR than doing so with other coefficients [17]. Ali Al-Ataby, et. al .proposed a modified high-capacity image steganography technique that depends on wavelet transform with acceptable levels of imperceptibility and distortion in the cover image and high level of overall security [18]. T. Narasimmalou, et. al. Proposed an optimal discrete wavelet transform (DWT) based steganography. Experiments show that the peak signal noise ratio (PSNR) generated by the proposed method is better [19]. NedaRaftari, et. al. proposed a novel image steganography technique that combines the Integer Wavelet Transform (IWT) and Discrete Cosine Transform (DCT) is proposed which embeds secret image in frequency domain of cover image with high matching quality [20].III. METHODS OF CONCEALING DATAINDIGITAL IMAGESteganography is used for covert communication. The secret image which is communicated to the destination is embedded into the cover image to derive the stego image. In this section evaluation parameters and proposed embedding and retrieval techniques are discussed.3.1 Least significant bit substitution technique (LSB):In LSB steganography, the least significant bits of the cover media’s digital data are used to conceal the message. The simplest of the LSB steganography techniques is LSB replacement. LSB replacement steganography flips the last bit of each of the data values to reflect the message that needs to be hidden. Consider an 8-bitgrayscale bitmap image where each pixel is stored as a byte representing a gray scale value. Suppose the first eight pixels of the original image have the following gray scale values [4]:1101001001001010100101111000110000010101010101110010011001000011To hide the letter C whose binary value is 10000011, we would replace the LSBs of these pixels to have the following new gray scale values:1101001101001010100101101000110000010100010101100010011101000011Note that, on average, only half the LSBs need to change. The difference between the cover (i.e. original) image and the stego image will be hardly noticeable to the human eye.However, one of its major limitations is small size of data which can be embedded in such type of images using only LSB. LSB is extremely vulnerable to attacks. LSB techniques implemented to 24 bit formats are difficult to detect contrary to 8 bit format [8]. Another example of LSB technique is: Consider a grid for 3 pixels of a 24-bit image and the number 300 is to be embedded using LSB technique. The resulting grid is as follows:PIXELS: (01010101 01011100 11011000)(10110110 11111100 00110100)(11011110 10110010 10110101)C: 10000011(01010101 01011100 11011000) (10110110 11111100 00110100) (1101111110110011 10110101)Here the number C was embedded into the first 8 bytes of the grid, only the 2 bits needed to be changed according to the embedded message .On average, only half of the bits in an image will need to be modified to hide a secret message using the maximum cover size. 3.2 Discrete Cosine Transform technique (DCT): DCT coefficients are used for JPEG compression [10][12]. It separates the image into parts of differing importance. It transforms a signal or image from the spatial domain to the frequency domain. It can separate the image into high, middle and low frequency components.In low frequency sub-band, much of the signal energy lies at low frequency which contains most important visual parts of the image while in high frequency sub-band, high frequency components of the image are usually removed through compression and noise attacks [13]. So the secret message is embedded by modifying the coefficients of the middle frequency sub-band, so that the visibility of the image will not be affected. The general equation for a 1D (N data items) DCT is defined by the following equation: [12]Figure2 Discrete Cosine Transform of an Image CC(uu)=aa(uu)�xx ii NN−1ii=0cccccc�(2ii+1)uuuu�where u= 0, 1, 2….. N-1The general equation for a 2D (N by M image) DCT is defined by the following equation: [12] CC(uu,vv=aa(vv)�[NN−1ii=0aa(uu)�xx ii NN−1ii=0cccccc�(2ii+1)uuuu2NN�]×cccccc�(2ii+1)vvuu�where u , v = 0,1,2….N-1Here, the input image is of size N X M. c (i, j) is the intensity of the pixel in row i and column j; C (u, v) is the DCT coefficient in row u and column v of the DCT matrix.DCT is used in steganography as [10]- Image is broken into 8×8 blocks of pixels.Working from left to right, top to bottom, DCT is applied to each block. Each block is compressed through quantization table to scale the DCT coefficients and message is embedded in DCT coefficients.3.3 Discrete Wavelet Transform technique (DWT) [5]: The frequency domain transform we applied in this research is Haar-DWT, the simplest DWT [18][19]. A 2-dimensional Haar-DWT consists of two operations: One is the horizontal operation and the other is the vertical one. Detailed procedures of a 2-D Haar-DWT are described as follows:Step 1: At first, scan the pixels from left to right in horizontal direction. Then, perform the addition and subtraction operations on neighboring pixels. Store the sum on the leftand the difference on the right as illustrated in Figure 3. Repeat this operation until all the rows are processed. The pixel sums represent the low frequency part (denoted as symbol L) while the pixel differences represent the high frequency part of the original image (denoted as symbol H).Step 2: Secondly, scan the pixels from top to bottom in vertical direction. Perform the addition and subtraction operations on neighboring pixels and then store the sum on the top and the difference on the bottom as illustrated in Figure 4. Repeat this operation until all the columns are processed. Finally we will obtain 4 sub-bands denoted as LL, HL, LH, and HH respectively. The LL sub-band is the low frequency portion and hence looks very similar to the original image. The whole procedure described is called the first-order 2-D Haar-DWT.Figure 4The vertical operation3.4 DCT-Based Robust Image Steganography:The Steganography has to guarantee these fourrequirements i.e. robustness, undetectability, perceptualtransparency and security.. From literature review, it isrevealed that the LSB based technique provides goodpicture quality for all types of images like gray scale orcolor image as compare to the frequency domaintechniques. DCT based Steganography scheme worksperfectly with minimal distortion of the image qualityin comparison to LSB based Steganography. Eventhough the amount of secret data that can be hidden byusing this technique is smaller as compared to LSBbased Steganography, DCT based Steganographyscheme is being recommended by us as it ensuresminimum distortion of image quality. LSB insertion ismore vulnerable to even the most harmless and usualtransformations whereas, In DWT BasedSteganography, coefficients in the low frequency sub-band could be preserved unaltered for improving theimage quality. This is due to the differentcharacteristics of DWT coefficients in different sub-bands. Since the most essential portion (the lowfrequency part) remains unchanged, when the secretmessages are embedded in the high frequency sub-bands corresponding to the edges portion of theoriginal image, PSNR is being recommended.Therefore we are looking for a robust embeddingmethod .In order to find one; a measure of robustnessmust be defined. An embedding method may beconsidered robust if the embedded message can beextracted after an image has been manipulated withoutbeing distorted.The embedding algorithm must betested against the different types of attacks (Gaussiannoise have been used in this dissertation) in order todetermine how much an image can be manipulatedbefore the message is destroyed. If we want to hide alarge message inside an image, we cannot ensure at thesame time absolute undetectability and large robustness.On the other hand, if robustness to large distortion is anissue, the message that can be reliably hidden shouldnot be too long. Based on the same embedding capacity,our proposed method improves both image quality interms of PSNR and CER (Character Error Rate.)IV. ALGORITHM OF STEGANOGRAPHY4.1 LSB Based Steganography:Algorithm to embed text message:-Step 1: Read the cover image and text messagewhich is to be hidden in the cover image.Step 2: Convert text message in binary.Step 3: Calculate LSB of each pixels of coverimage.Step 4: Replace LSB of cover image with each bitof secret message one by one.Step 5: Write stego imageStep 6: Calculate the Mean square Error (MSE),Peak signal to noise ratio (PSNR) of the stegoimage.Algorithm to retrieve text message:-Step 1: Read the stego image.Step 2: Calculate LSB of each pixels of stego image.Step 3: Retrieve bits and convert each 8 bit intocharacter.4.2 DCT Based Steganography:Algorithm to embed text message:-Step 1: Read cover image.Step 2: Read secret message and convert it inbinary.Step 3: The cover image is broken into 8×8 blockof pixels.Step 4: Working from left to right, top to bottomsubtract 128 in each block of pixels.Step 5: DCT is applied to each block.Step 6: Each block is compressed throughquantization table.Step 7: Calculate LSB of each DC coefficient andreplace with each bit of secret message.Step 8: Write stego image.Step 9: Calculate the Mean square Error (MSE),Peak signal to noise ratio (PSNR) of the stegoimage.Algorithm to retrieve text message:-Step 1: Read stego image.Step 2: Stego image is broken into 8×8 block of pixels.Step 3: Working from left to right, top to bottom subtract 128 in each block of pixels.Step 4: DCT is applied to each block.Step 5: Each block is compressed through quantization table.Step 6: Calculate LSB of each DC coefficient.Step 7: Retrieve and convert each 8 bit into character.4.3 DWT Based Steganography:Algorithm to embed text message:-Step 1: Read the cover image and text message which is to be hidden in the cover image.Step 2: Convert the text message into binary. Apply 2D-Haar transform on the cover image.Step 3: Obtain the horizontal and vertical filtering coefficients of the cover image. Cover image is added with data bits for DWT coefficients.Step 4: Obtain stego image.Step 5: Calculate the Mean square Error (MSE), Peak signal to noise ratio (PSNR) of the stego image.Algorithm to retrieve text message:-Step 1: Read the stego image.Step 2: Obtain the horizontal and vertical filtering coefficients of the cover image. Extract the message bit by bit and recomposing the cover image.Step 4: Convert the data into message vector.Compare it with original message.4.4 Proposed Robust Image Based Steganography: Algorithm to embed text message:-Step 1: Read the cover image and text message which is to be hidden in the cover image.Step 2: Convert text message in binary.Step 3: Obtain a block from the image and check either block_Num is equal to zero 0 or Tot_Bit is equal to 1.Step 4: Now if block_Num is not equal to zero and Tot_Bit is not equal to one. Compute the DCT of 8*8 blocks and as per data bit i.e. 0 and 1.Step 5: Select two strength random variables K1and K2. Add the value of main diagonal of DCT’s AC co-efficient with either K1or K2depending upon data bits.Step 6: Read next data bit and obtain next block from the image.Step 7: If Block_Num=M*N/8*8 or Tot_Bit=1, then Message has been Embedded successfully.Step 8: Obtain the Stego Image.Step 9: Calculate the Mean Square Error and Peak Signal to Noise Ratio (PSNR) of the Stego imageand Calculatepercentage of the error occurred in the recovered data in terms of CER.Step 10: Calculate the effect of noise (such as Gaussian noise) by varying the variance on the recovered data in terms of CER.Algorithm to retrieve text message:-Step 1: Obtain Stego Image and random variables K1 and K2.Step 2: Read a block from the Stego Image and obtain its 8*8 DCT. Compute the Correlation between the off main diagonal DCT’s with both K1 and K2.Step 3: If Correlation (off main diagonal DCT, K1 of the blocks is greater than Correlation (off main diagonal DCT, K2of the block, then the message bit is 1 or else 0.Similarly get the data bits of all the 8*8 blocks of stego image. Convert the data bits to message vector ‘M’. Compare it with the original message vector ‘M’. The Average value of PSNR in the proposed system of Steganography algorithm is 50dB and its CER is 100 percent. This is more Robust than the Spatial and Frequency domain Steganography techniques.V. EVALUATION OF IMAGE QUALITYFor comparing stego image with cover results requires a measure of image quality, commonly used measures are Mean-Squared Error, Peak Signal-to-Noise Ratio and capacity.5.1 Mean-Squared Error:The mean-squared error (MSE) between two images I1(m, n) and I2(m, n) is[2]:MMMMMM=∑[II1(mm,nn)−II2(MM,NN)]2MM,NNM and N are the number of rows and columns in the input images, respectively.5.2 Peak Signal-to-Noise Ratio:Peak Signal-to-Noise Ratio (PSNR) avoids this problem by scaling the MSE according to the image range [5]:PPMMNNPP=10log102562PSNR is measured in decibels (dB). PSNR is a good measure for comparing restoration results for the same image.5.3 Capacity:It is the size of the data in a cover image that can be modified without deteriorating the integrity of the cover image. The steganography embedding operation needs to preserve the statistical properties of the cover image in addition to its perceptual quality. Therefore capacity depends on total number of bits per pixel &number of bits embedded in each pixel. Capacity is represented by bits per pixel (bpp) and the Maximum Hiding Capacity (MHC) in terms of percentage [13]. 5.4 Domain Type (DOM):DOM is either Spatial(S) or Transform (T). The techniques that use transform domain hide information in significant areas of the cover images and may be more complex for attackers.5.5 Normalized Coefficient (NC):Correlation is one of the best methods to evaluate the degree of closeness between the two functions. This measure can be used to determine the extent to which the original image and stego image remain close to each other, even after embedding the data.VI. RESULTS AND DISCUSSIONIn this section, experimental results are discussed and presented for the evaluation of steganography parative analysis of LSB based, DCT based & DWT based steganography has been done on basis of parameters like PSNR, MSE, CER, NC, Robustness & Capacity on different images and the results are evaluated. Gaussian noise attacks are applied on the three steganography algorithm discussed previously. Figure 5 shows the three sample images which are used in the comparison. These are: “LENA” (552120 bytes), “VIEW” (1440000 bytes) and “STUTI” (337689 bytes). The Results of the “STUTI” (337689 bytes) image is shown for all the Steganography algorithms.(a)LENA (b) VIEW(C) STUTIFigure 5 Three Cover Images6.1 LSB Based SteganographyThe text hidden inside the Data Base Images is “hello how are u my name is stuti” (32 characters). The Original image and the corresponding Histograms are as shown in Figure 6(a) and (b) and Stego-image and corresponding Histograms are as shown in the Figure 6(c) and (d).(a)Original Image(b)Original Image Histogram(c)Stego Image (d)Stego image HistogramFigure. 6 LSB Based Steganography AlgorithmThe average PSNR and MSE values of test images versus LSB Steganography algorithm used in our experiments have been given in Table 1. The value of the PSNR, MSE, CER, time Elapsed in the implementation of algorithm and Correlation coefficient are as shown in the Table. This algorithm is easy for detection/extraction. There is no theoretical outstanding mark of LSB insertion, until little increase in background noise is done. For the images with different capacity, the average value of PSNR in LSB Based Steganography algorithm has been found to be 80 dB with correlation coefficient as 1 and CER as 100 percent. Figure 7 shows the PSNR and MSE versus Data Base Images.Table 1 Performance Evalutation of LSB BasedFigure 7 PSNR and MSE versus Data Base ImagesRobustnessSinceLSB insertion has been found to be very vulnerable to a lot of transformations, even to the most harmless and usual ones. First of all, image has been passed through the Noisy channel or Gaussian noise has been applied on the stego image with varying noise variance. Next efforts are done to extract the data and to compute the amount of damage done. The analysis has been done in terms of PSNR (in dB) and CER. The stego image and its histogram with noise variance of 0.6 are being shown below.original Image050100150200250Stego Image 0050100150200250(a) Stego Image (b) Histogram of the Stego ImageFigure. 8 Image Attack: Gaussian NoiseWhen we increased the noise density in Gaussian noise, as has been shown in Figure 9 the PSNR and CER are decreased and consequently the image quality. This shows that PSNR decreases as noise density of Gaussian noise is increased.Figure. 9 Effect of Gaussian noise on PSNR and CER6.2 DCT Based Image SteganographyThe text hidden inside the Data Base Images is “hello how are u my name is stuti” (32 characters). The Original image and the corresponding Histograms are as shown in Figure 10(a) and (b) and Stego-image and corresponding Histograms are as shown in the Figure 10(c) and (d).(a)Original Image (b)Original Image Histogram(c)Stego Image (d)Stego Image Histogram Figure. 10 DCT Based Steganography AlgorithmThe average PSNR and MSE values of test images versus DCT Steganography Algorithm that has been detected as shown in the Table 2.The value of the PSNR, MSE, CER, time Elapsed in the implementation of algorithm and Correlation coefficient found by us have been shown into the Table 2. The greater is the value of PSNR, the more will be the image quality. Mean square error is used to measure the distortion in the image by performing byte by byte comparison between the original image and stego image. The DCT based image steganography doesn’t support high capacity to hide data. For the images with different capacity, the average value of PSNR in DCT Based Steganography Algorithm that we got 71dB and CER as 100 percent. The Average value of Correlation coefficient in DCT based Steganography Algorithm is 0.9352.The value of Correlation coefficient is approximately equal to unity.Table 2 Performance Evalutation of DCT BasedSteganography AlgorithmFigure. 11 PSNR and MSE versus Data Base ImagesRobustnessFirst of all, the image is passed through the Noisy channel or Gaussian noise. It was applied on the Stego image with varying noise densities. Next efforts are done to extract the data. The analysis has been done in terms of PSNR (in db) and CER. The Stego image and its Histogram are as have been shown in Figure 12. When the noise variance of Gaussian noise is increased, it is found that the PSNR and CER have decreased as shown in Figure 13, and hence the image quality declined.Stego Image 050100150200250original Image0.10.20.30.40.50.60.70.80.91Stego Image000.10.20.30.40.50.60.70.80.91。
基于生成式对抗网络的鲁棒人脸表情识别
第44卷第5期自动化学报Vol.44,No.5 2018年5月ACTA AUTOMATICA SINICA May,2018基于生成式对抗网络的鲁棒人脸表情识别姚乃明1,2郭清沛1,2乔逢春1,2陈辉1,2王宏安1,2,3摘要人们在自然情感交流中经常伴随着头部旋转和肢体动作,它们往往导致较大范围的人脸遮挡,使得人脸图像损失部分表情信息.现有的表情识别方法大多基于通用的人脸特征和识别算法,未考虑表情和身份的差异,导致对新用户的识别不够鲁棒.本文提出了一种对人脸局部遮挡图像进行用户无关表情识别的方法.该方法包括一个基于Wasserstein生成式对抗网络(Wasserstein generative adversarial net,WGAN)的人脸图像生成网络,能够为图像中的遮挡区域生成上下文一致的补全图像;以及一个表情识别网络,能够通过在表情识别任务和身份识别任务之间建立对抗关系来提取用户无关的表情特征并推断表情类别.实验结果表明,我们的方法在由CK+,Multi-PIE和JAFFE构成的混合数据集上用户无关的平均识别准确率超过了90%.在CK+上用户无关的识别准确率达到了96%,其中4.5%的性能提升得益于本文提出的对抗式表情特征提取方法.此外,在45◦头部旋转范围内,本文方法还能够用于提高非正面表情的识别准确率.关键词人脸补全,用户无关,人脸表情识别,生成式对抗网络,卷积神经网络引用格式姚乃明,郭清沛,乔逢春,陈辉,王宏安.基于生成式对抗网络的鲁棒人脸表情识别.自动化学报,2018,44(5): 865−877DOI10.16383/j.aas.2018.c170477Robust Facial Expression Recognition With Generative Adversarial Networks YAO Nai-Ming1,2GUO Qing-Pei1,2QIAO Feng-Chun1,2CHEN Hui1,2WANG Hong-An1,2,3Abstract In natural communication,people would express their expressions with head rotation and body movement, which may result in partial occlusion of face and a consequent information loss regarding facial expression.Also,most of the existing approaches to facial expression recognition are not robust enough to unseen users because they rely on general facial features or algorithms without considering differences between facial expression and facial identity.In this paper,we propose a person-independent recognition method for partially-occluded facial expressions.Based on Wasser-stein generative adversarial net(WGAN),a generative network of facial image is trained to perform context-consistent image completion for partially-occluded facial expression images.With an adversarial learning strategy,furthermore,a facial expression recognition network and a facial identity recognition network are established to improve the accuracy and robustness of facial expression recognition via inhibition of intra-class variation.Extensive experimental results demon-strate that90%average recognition accuracy of facial expression has been reached on a mixed dataset composed of CK+, Multi-PIE,and JAFFE.Moreover,our method achieves96%accuracy of user-independent recognition on CK+.A4.5% performance gain is achieved with the novel identity-inhibited expression feature.Our method is also capable of improving recognition accuracy for non-frontal facial expressions within a range of45-degree head rotation.Key words Face completion,person-independent,facial expression recognition,generative adversarial net(GAN),con-volutional neural network(CNN)Citation Yao Nai-Ming,Guo Qing-Pei,Qiao Feng-Chun,Chen Hui,Wang Hong-An.Robust facial expression recogni-tion with generative adversarial networks.Acta Automatica Sinica,2018,44(5):865−877收稿日期2017-08-30录用日期2018-02-07Manuscript received August30,2017;accepted February7, 2018国家自然科学基金(61661146002,61572479),国家重点研发计划(20 17YFB1002805),中国科学院前沿科学重点研究计划(QYZDY-SSW -JSC041)资助Supported by National Natural Science Foundation of China (61661146002,61572479),National Fundamental Research Grant of Science and Technology(2017YFB1002805),and Fron-tier Science Key Program of Chinese Academy of Sciences(QYZ DY-SSW-JSC041)本文责任编委左旺孟Recommended by Associate Editor ZUO Wang-Meng1.中国科学院软件研究所人机交互北京市重点实验室北京1001902.中国科学院大学北京1000493.中国科学院软件研究所计算机科学国家重点实验室北京1001901.Beijing Key Laboratory of Human-Computer Interaction,赋予机器感知人类情绪的能力,使得机器能够识别人的情绪状态,已经成为提高人机交互系统自动化水平的关键.在过去的十年中,人脸表情的识别方法得到了深入研究[1−4],并逐渐成为分析用户情绪的一种强效技术.其中,识别自然的人脸表情是一个重要的研究方向.在自然交流中,人的情绪表达往往伴随着丰富的头部姿态和肢体动作,使得提取有效的表情特征非常困难.许多方法要求或假设在表达Institute of Software,Chinese Academy of Sciences,Beijing 100190 2.University of Chinese Academy of Sciences,Beijing 100049 3.State Key Laboratory of Computer Science,Insti-tute of Software,Chinese Academy of Sciences,Beijing100190866自动化学报44卷情绪时,用户头部始终位于正面或近正面,并且没有受到人脸局部遮挡的影响.然而,这样的限制条件显著降低了表情识别算法的鲁棒性.此外,一些方法直接对用户施加约束,学习用户相关的表情特征.这种特征对用户身份信息非常敏感,因而对未知用户的鲁棒性较差.一个可靠的表情识别系统应当对人脸局部遮挡和用户身份具有较强的鲁棒性,即能够对存在遮挡的人脸图像进行用户无关的表情识别.人脸表情识别算法通常需要直接从图像中提取可用于推断表情类别的特征,然而当人脸局部遮挡存在时,大多数表情特征的有效性和准确性会因遮挡而降低.通过图像合成方法还原遮挡图像,然后再进行表情识别,是缓解该问题的一类有效方法.一些研究者为已对齐的人脸图像建立稀疏编码,通过图像重构来实现遮挡还原[5].这种方法假设在相同图像中能够找到相似的模式,然而对于人脸表情图像,图像重构不能为遮挡区域恢复充分的表情信息,因为人脸中的不同部分均含有反映用户身份和表情状态的独特模式,难以简单地通过组合其它图像部分来得到[6].另一方面,随着卷积神经网络(Convo-lutional neural networks,CNN)在图像分类任务上的突破[7],许多基于CNN的表情识别方法被提出,弥补了传统方法在鲁棒性方面的不足[8−11].对于局部遮挡问题,一些研究者提出使用CNN建立无监督学习模型,通过编解码网络从遮挡图像中学习特征编码,在完成保留身份和表情特征的图像合成或变换之后,再进行表情识别[12−15].另外一些研究工作使用生成式对抗网络(Generative adversarial net,GAN)[16−17],先局部或完整地生成保持上下文一致性的人脸图像,然后再对其进行识别[6].在基于GAN的方法中,生成器网络(Generator)尽可能生成真实的人脸图像,判别器网络(Discriminator)尽可能辨别面部遮挡区域被补全后的图像真实性.提取表情的本质特征是表情识别算法有效性的关键.表情特征应对表情变化丰富的区域具有较高的响应,对身份相关性高而表情相关性低的区域具有较低的响应.用户相关的表情识别算法能够比较准确地识别在训练时出现过的用户的表情,然而实际当中的用户身份是难以限定的.由于对未知用户的泛化能力较差,这种方法很少被单独使用.与此不同,用户无关的表情识别方法对用户身份不敏感,它通过稀疏编码[18],差分图像[19]以及图像融合[20]等方法对表情图像中的用户身份特征进行抑制,然后再识别表情.随着VGG[21],GoogLeNet[22]和ResNet[23]等CNN模型的广泛应用,表情识别算法能够以数据驱动的方式从表观信息中提取用户无关的表情特征.尽管如此,直接使用CNN对表情图像数据进行特征提取的方法仍然受到类内差异的限制,从而难以获得期望的性能.在同种表情的图像样本之间,用户身份和图像采集条件等表观差异带来了表情的类内差异,容易导致表情特征的可辨别性不够鲁棒.为此,展示了一种通过抑制类内差异信息来突出表情特征的学习方法,能够使用CNN自动地提取用户无关的表情特征.本文提出了一种鲁棒的人脸表情识别方法,能够以用户无关方式识别具有局部遮挡的人脸表情.基于Wasserstein GAN(WGAN),训练了一个稳定的人脸图像生成网络,然后使用遮挡图像集优化网络的输入隐变量,对遮挡区域进行保持上下文一致性的人脸图像补全.对无遮挡图像和遮挡补全图像,在表情识别任务和身份识别任务之间建立了一种对抗关系,通过在表情特征提取过程中抑制由身份信息导致的类内差异来提升表情识别的准确性和鲁棒性.本文的主要贡献:1)提出了一种基于WGAN 的人脸图像补全算法,能够以生成方式近似还原被遮挡的人脸图像,缓解因局部表情信息缺失带来的影响,提高识别算法的鲁棒性.2)提出了一种新颖的表情特征学习方法,通过在表情信息和身份信息之间建立对抗关系来抑制身份特征对表情特征的影响.该方法能够有效地消除类内差异带来的影响,从而提高表情识别的准确性和鲁棒性.3)展示了一种联合的表情识别算法框架,在多个基准表情数据集上取得了准确的表情识别结果,并且能够对45◦头部旋转范围以内的非正面人脸图像进行用户无关的表情识别.1相关工作概述1.1生成式对抗网络生成式对抗网络(GAN)是一种无监督的概率分布学习方法,能够学习真实数据的分布并生成具有较高相似性的新数据集.设置隐变量z,生成器网络能够将它映射为新的图像集合,然后由判别器网络度量真实图像分布与生成图像分布之间的相似性.判别器网络通过调整自身参数使其分类面远离生成图像分布,直到最终输出随机判别结果,即无法区分生成图像和真实图像.当真实分布和生成分布之间没有交集时,使用Jensen-Shannon(JS)散度度量概率分布距离的经典GAN模型,由于不能获得稳定的回传梯度信息而难以训练.Radford等[24]提出了使用具有卷积和反卷积对称结构的DCGAN 模型,加强了GAN训练的稳定性,但仍然使用JS 散度作为概率分布的距离度量.与此不同,Arjovsky 等[25]提出了Wasserstein GAN模型,采用Wasser-stein距离来度量两个概率分布之间的相似性,缓解5期姚乃明等:基于生成式对抗网络的鲁棒人脸表情识别867了GAN训练过程中梯度消失的问题.WGAN模型的损失函数值为生成的图像质量提供了量化标准,更小的损失值意味着生成的图像更加真实.此外,在训练WGAN时,不用小心地平衡生成器网络和判别器网络的训练进程,而是可以采用先优化判别器网络直到收敛,然后再更新生成器网络的方法,以使整个网络更快收敛.为了能够将生成的补全图像直接用于人脸表情识别,本文基于WGAN建立人脸图像补全网络.1.2人脸图像补全局部遮挡使得人脸图像损失了一部分表情信息,妨碍了识别算法对表情的推断.通过对遮挡区域中的图像信息进行估计,能够尽可能还原缺失的表情信息.从图像编辑的角度,Ding等[26]和Li等[27]使用人脸对称位置上的像素对遮挡部分进行填充,但补全后的图像不够自然.Zhu等[28]使用人脸对称位置上的像素梯度对缺失部分进行泊松编辑,可以令补全部分的肤色和光照更加自然.从图像生成的角度,人脸图像补全可以被形式化为概率分布的学习问题.每一个像素的取值都可以被认为是在图像概率空间中的一次抽样,而生成图像的过程则是从所有像素的联合概率分布中进行一次采样.由于邻近的像素之间存在较强的上下文语义关联,补全图像需要保持与真实图像一致的身份和表情上下文. Pathak等[29]提出了一种基于CNN的图像上下文信息编解码网络,能够联合图像遮挡部分和未遮挡部分来补全图像.Yeh等[30]提出了一种针对大范围图像补全问题的GAN模型.通过向生成器网络中增加未遮挡部分的上下文损失和服从训练集分布的先验损失,该方法能够补全不同遮挡区域中的图像内容.Li等[6]提出了一种基于自编码器的生成式人脸补全算法,通过增加人脸语义对象(例如五官)的损失来增强生成图像的真实性.本文通过优化图像真实性,上下文相似性和平滑性目标,控制图像生成网络估计遮挡区域内的像素分布,从而补全缺失的图像信息.1.3用户无关的表情识别在同类表情的不同用户数据之间往往存在着较大差异,提取不受这些差异影响的表情特征关系到识别算法的鲁棒性.一些工作通过对二维图像或三维头部模型进行融合来获得用户无关的表情表示. Chen等[20]将身份不同但表情相同的图像进行融合,得到一种用户无关的表情表示,弱化了身份特征,增强了表情特征.Zhu等[28]将三维头部模型分解为中性模型,身份模型和表情模型,将身份和表情的类内差异通过两种形变模型进行分离,但没有考虑表情与身份之间的关联.另一些工作尝试通过稀疏表示来提取用户无关的表情特征.Zafeiriou等[19]通过待识别表情图像和相同身份的中性图像之间的差分图像来抑制身份特征,但只限于能够预先获取当前身份中性图像的情况.Lee等[31]为每类表情的图像构造与待识别表情图像具有相似身份的图像,然后通过在二者之间进行差分来抑制类内差异.基于稀疏表示的方法对训练表情数据有较高的要求,并且在数据量较大的训练集上难以直接求解.受到以上工作和对抗网络的启发,本文以多任务学习的方式,在表情识别任务和身份识别任务之间建立一种对抗关系,使其能够区分表情特征和身份特征,从而提取到更本质的表情特征.2基于WGAN的人脸图像补全本文提出的鲁棒人脸表情识别方法由人脸遮挡图像补全和表情识别两个阶段组成,如图1所示.1)训练一个基于WGAN的人脸图像生成网络,对输入图像中由二值掩码矩阵标记的遮挡部分进行补全,如图1中上半部分所示;2)训练一个基于VGG16[21]的卷积神经网络对补全图像进行人脸特征提取,然后采用对抗学习策略,提取用户无关的表情特征并推断表情类别,如图1中下半部分所示.本节介绍人脸图像的补全方法,下一节介绍用户身份抑制的表情识别方法.2.1人脸图像补全网络补全局部遮挡的人脸图像可以转化为保持上下文一致性的图像生成.首先建立一个能够产生人脸图像的GAN网络,然后使用该模型生成与遮挡图像最相似的图像,再用它填充遮挡区域.生成器网络产生与真实图像集最相似的人脸图像,然后由判别器网络通过Wasserstein距离度量生成图像集的真实性.生成器网络使用核大小为5像素×5像素的卷积层对隐变量z进行上采样,将输出通道数逐层缩减为前一层的一半,同时feature map的尺寸扩大为原来的2倍.除第一层卷积外,在其余各卷积层后增加Batch Normalization(BN)层[32]防止协变量漂移(Covariate shift).使用ReLU[33]作为各卷积层的激活函数.判别器网络与生成器网络保持对称结构,以加快模型参数在对抗训练过程中的收敛速度.Wasserstein距离的定义为W(p r,p g)=infγ∼Π(p r,p g)E(x,y y)∼γ x−y其中,Π(p r,p g)是以p r和p g为边缘分布的所有可能的联合概率分布γ的集合.W(p r,p g)为γ(x,y)期望的下确界,表示为了将p r移到p g需要将x移动到y的距离.与JS散度相比,即使两个分布之间868自动化学报44卷图1鲁棒人脸表情识别的算法框架Fig.1Framework of our robust facial expression recognition algorithm没有交集,Wasserstein距离也能反映它们之间的相似度,进而产生有意义的梯度.直接计算任意分布之间的Wasserstein距离比较困难,故考虑其Kantorovich-Rubinstein对偶形式.W(p r,p g)=1Ksupf L≤KE x∼pr[f(x)]−E x∼pg[f(x)]其中,f(x)为任意满足K-Lipschitz连续的函数,即f(x)导函数的绝对值存在上界.进一步地,将f定义为由判别器网络参数θD确定的函数fθD,并将x x∼pg 写成由生成器网络表示的形式gθG(z)z∼pz,可得到判别器网络的优化目标:max θD E x∼pr[fθD(x)]−E z∼pz[fθD(gθG(z))](1)和生成器网络的优化目标:min θG −E z∼pz[fθD(gθG(z))](2)其中,z表示隐变量,采样自分布p z.基于WGAN训练算法[25]训练人脸图像补全网络.生成器网络gθG 和判别器网络fθD的结构如图1所示.在训练判别器网络时,首先分别从正态分布N(0,1)和训练集中各采样b个样本作为一个批次的训练数据,然后根据式(1)计算判别器网络的损失和梯度更新方向,使用RMSProp[34]优化算法更新梯度.为了使判别器网络近似满足Lipschitz连续性条件,在判别器网络的参数更新完成之后,对其梯度进行剪裁,使之落入一个较小的区间[−c,c]中.在训练生成器网络时,首先固定判别器网络的参数,从正态分布N(0,1)中采样b个样本作为一个批次的训练数据输入判别器网络,然后根据式(2)计算生成器网络的损失,同样采用RMSProp算法更新它的参数.由于更好的判别器网络可以反向传播给生成器网络更准确的梯度信息,因此从训练开始,在每一次更新生成器网络之前,均更新判别器网络K 次,以使判别器网络更快收敛.完整的训练过程如算法1所示.算法1.人脸图像补全网络的训练算法输入.z:隐变量;T:训练数据集;b:批次大小;η:学习率;c:判别器网络的梯度剪裁常数;K:生成器网络优化过程中的判别器网络更新次数.输出.θD:判别器网络的参数;θG:生成器网络的参数.1:随机初始化θD和θG2:repeat3:for t=0,···,K do4:从分布N(0,1)中采样b个样本z i5:从训练集T中采样b个样本x i6:L D←1bbi=1fθD(x i)−1bbi=1fθD[gθG(z i)]7:θD←θD+η×RMSP rop(θD,∇θDL D) 8:剪裁θD,将其限制在[−c,c]范围内9:end for10:从分布N(0,1)中采样b个样本z i11:L G←1bbi=1fθD[gθG(z i)]12:θG←θG−η·RMSP rop(θG,−∇θGL G) 13:until判别器网络收敛.5期姚乃明等:基于生成式对抗网络的鲁棒人脸表情识别869 2.2人脸补全算法建立一个与局部遮挡图像等大的二值掩码矩阵M a,其元素值为0表示像素被遮挡,否则为1.为不失一般性,假设比较准确的矩阵M a能够在图像补全之前被确定.人脸补全算法通过优化图像真实性,上下文相似性和平滑性目标来更新图像补全网络的输入隐变量z,对输入图像中被M a标记的遮挡区域进行图像补全,如算法2所示.图像真实性约束使得补全人脸能够尽可能接近真实人脸.将补全图像的真实性损失L r定义为L r=D(G(z;θG);θD)其中,z∼N(0,1)是输入生成器网络的隐变量,G(z;θG)表示由θG参数化的生成器网络的输出图像,D(·;θD)表示由θD参数化的判别器网络的输出,度量了补全图像与真实图像之间的概率分布距离.随着判别器网络损失的逐渐降低,生成图像将逐渐接近训练集中的真实人脸.图像上下文相似性约束迫使图像补全网络在生成图像空间中搜索与遮挡图像中无遮挡部分最相似的样本来优化输入隐变量,保持无遮挡部分与补全部分之间的上下文一致性,最大程度保留身份和表情信息.将遮挡图像和生成图像中的无遮挡部分之间的相似性损失L s定义为L s=δ(G(z;θG) M a,I M a)其中,δ(·)表示度量矩阵间相似度的函数,本文取为L2范数;I表示遮挡图像,M a是对应的掩码矩阵,表示元素级乘法运算.为了使补全图像尽可能平滑,引入图像的全变差损失L v,其定义如下:L v=(x,y)∈G(z;θG)∇x p x,y+∇y p x,y其中,p x,y是生成图像G(z;θG)中(x,y)处的像素值,∇x和∇y是沿x方向和y方向的梯度.综上,总体的优化目标为minz∼N(0,1)(L s+λr L r+λv L v)(3)其中,λr和λv分别表示真实性损失权重和平滑性损失权重.经过充分训练的生成器网络能够将隐变量空间映射到人脸图像空间.在补全图像时,固定生成器网络和判别器网络的参数,使用遮挡图像数据集按式(3)优化隐变量z,使得生成图像能够尽可能地接近遮挡图像.最终,补全人脸图像ˆI由遮挡图像I中的无遮挡部分和生成图像中与原遮挡区域相对应的部分组成,即ˆI=I Ma+G(ˆz;θG) (1−M a)其中,ˆz表示经过优化的隐变量z.算法2.人脸图像补全算法输入.z:隐变量;P:输入的遮挡图像集;M:与P对应的掩码矩阵集;θD:已训练的判别器网络参数;θG:已训练的生成器网络参数;λr:真实性权重;λv:平滑性权重;η:学习率;K:优化隐变量z的更新次数.输出.ˆP:补全图像集.1:从分布N(0,1)中采样|P|个样本z i2:for k=0,···,K do3:L z←L s+λr L r+λv L v4:z i←z i−η×RMSP rop(z i,∇z L z)5:end for6:for all I∈P,M a∈M do7:ˆI←I M a+G(ˆz i;θG) (1−M a)8:ˆP←ˆP∪{ˆI}9:end for.3对抗式类内差异抑制的人脸表情识别理想的情绪识别系统应当是用户无关的.使用某些用户的表情图像训练得到的识别算法也应该能够很好地用于识别另一些用户的表情.对于同一类表情,希望在提取表情特征的过程中减弱用户身份等类内差异,使同种表情的特征尽可能在分布上接近.为此,提出了表情特征和身份特征互相对抗的人脸表情识别模型,如图1下半部分所示.3.1识别模型形式化地,将表情训练集表示为{(x,y exp,y id)|x∈X l,y exp∈E q,y id∈U m}其中,X表示l维输入图像空间,E表示q维表情类别空间,U表示m维身份类别空间.取一个批次的训练数据{(x i,y expi,y idi)}bi=1,表情特征提取函数N f从中学习特征向量:feat i=N f(x i;θf)∈F d其中,b是批次的大小,F对应d维表情特征空间,θf是网络N f的参数.令T(x,·)表示训练集中的图像和表情类别在F⊗E空间上的分布,则训练集中某一类表情的特征分布为S(featfeat,k)={N f(x;θf)|x∼T(x,k),k∈E}其中,T(x,k)表示第k类表情图像的分布,S(feat, k)表示第k类表情在特征空间中的分布.为了抑制表情特征中的用户身份,需要使同类表情的特征分布S(featfeat,k)在空间F中更加集中,870自动化学报44卷这意味着根据S(featfeat,k)难以区分用户身份.由于分布S(featfeat,k)未知,并且随着训练的进行,样本在F空间上的分布不断变化,因此难以直接衡量分布之间的相似度.为此,建立一个表情识别网络和一个身份识别网络,通过在它们之间进行对抗学习来近似逼近该分布.具体地,在表情识别任务中,表情分类网络N e将特征向量映射为表情类别,即ˆy expi=N e(feat i;θe)其中,ˆy expi表示推断的表情类别,θe是网络N e的参数.类似地,身份分类网络N u将特征向量映射为身份类别,即ˆy idi=N u(feat i;θu)其中,ˆy idi表示推断的身份类别,θu是网络N u的参数.交叉熵损失衡量预测类别和真实类别之间的距离,其定义为L y=−Ni=1y i logˆy i+(1−y i)log(1−ˆy i)其中,y i和ˆy i分别表示真实类别和预测类别进行one-hot编码后的第i位.记表情识别的交叉熵损失为L e,通过最小化该损失来优化参数θf和θe,使得提取的特征能够有效地识别表情.该过程可表示为min θf minθeL e(θf,θe)对于身份识别任务,记身份识别的交叉熵损失为L u,通过调整θu和θf与表情识别任务形成对抗关系,迫使网络N u在分布S(featfeat,k)上难以识别用户身份.该过程可表示为max θf minθuL u(θf,θu)联合表情识别任务,为模型设置多任务目标函数,并使用随机梯度下降(Stochastic gradient de-scent,SGD)算法优化它的参数.具体地,目标函数J的定义为J(θf,θe,θu)=bi=1L e(θf,θe)−λbi=1L u(θf,θu)其中,b为批次的大小,λ是平衡表情识别任务和身份识别任务的权重.J(·)中的第1项反映了表情识别任务的损失,可直接通过SGD算法优化;第2项反映了身份识别任务的损失,它的优化方向与第1项相反.对J(·)分别计算关于θf,θe和θu的梯度,有以下更新规则.θf=θf−η∂L e∂θf+ηλ∂L u∂θf=θf−η∂L e∂θf−λ∂L u∂θfθe=θe−η∂L e∂θeθu=θu−η∂L u∂θu(4)其中,η表示学习率,控制每次更新的步长.式(4)表示模型以表情识别为目标的同时,能够尽可能地对身份特征进行抑制.3.2模型细节采用VGG16作为表情特征提取网络N f,使用在ImageNet[35]上预训练的参数初始化其前三组卷积层并固定,保留VGG16对低层视觉特征的感知能力,然后在训练过程中调优其余参数.对于表情识别任务,建立一个能够区分q类表情的多层感知器网络N e;对于身份识别任务,使用另一个能够区分m类用户身份的多层感知器网络N u;如图1下半部分中的虚线框所示.在训练时,由于式(4)中存在θf梯度的负系数, SGD算法不能直接对表情识别模型进行训练.为此,在网络N f和N u之间增加了梯度翻转层(Gra-dient reversal layer,GRL)[36].对于任意的输入X 和输出Y,GRL对其进行等值前向传播,即Y=IX和反向缩放传播,即∂L∂X=−α∂L∂Y其中,L表示损失函数,I为单位矩阵,α为梯度缩放系数.此外,在模型训练初期,网络N u的身份识别能力较弱,较强的反向传播容易加大噪声.为此,在训练过程中逐渐提高身份识别损失L u的权重.λ=21+exp(−10p)−1其中,p为当前训练轮数占最大训练轮数的比例.随着训练的进行,λ的取值逐渐从0递增到1.。
对抗样本在深度学习网络中的鲁棒性研究
对抗样本在深度学习网络中的鲁棒性研究深度学习网络在计算机视觉、语音识别和自然语言处理等领域取得显著的进展,但也面临着对抗攻击的挑战。
对抗样本是一种经过特定修改的输入样本,可以迷惑深度学习网络,导致网络的预测结果出现错误。
对抗样本的存在给深度学习网络的鲁棒性带来了严重威胁,因此研究对抗样本在深度学习网络中的鲁棒性显得十分重要。
首先,对抗样本的生成方法可以分为基于梯度的方法和基于优化的方法。
基于梯度的方法是通过应用梯度信息对原始输入进行微小的扰动来生成对抗样本。
这种方法可以使用快速梯度符号法 (Fast Gradient Sign Method, FGSM)、基于梯度的优化 (Iterative Fast Gradient Sign Method, I-FGSM) 等。
基于优化的方法通过寻求最小化对抗样本与原始样本的差异来生成对抗样本,这类方法包括基于置信度的攻击方法、基于进化算法的攻击方法等。
深度学习网络对抗样本的鲁棒性研究主要针对两个方向展开:对抗样本的识别和对抗样本的防御。
对抗样本的识别是指通过特定的方法将对抗样本与原始样本进行区分,以保证网络的预测结果的准确性。
传统的对抗样本识别方法主要包括基于特征提取的方法和基于检测的方法。
基于特征提取的方法通过提取对抗样本与原始样本的不同特征来进行区分,例如使用额外的网络进行对抗样本的特征提取。
基于检测的方法则借鉴了目标检测中的思想,通过训练一个二分类器,将对抗样本和原始样本进行判别。
此外,还有一些基于机器学习算法的对抗样本识别方法,如支持向量机、随机森林等。
对抗样本的防御是指通过一系列方法或技术来提高深度学习网络的鲁棒性,使其能够更好地对抗对抗样本攻击。
对抗样本的防御方法可以分为基于训练的方法和基于预处理的方法。
基于训练的方法通过在训练过程中引入对抗样本来进行模型的训练,例如使用对抗训练等。
这类方法通过使网络更加关注对抗样本,提高网络的鲁棒性。
基于预处理的方法则是在对抗样本输入网络之前对其进行预处理,以减少对抗样本的干扰。
基于GAN和注意力机制的图像隐写研究与应用
基于GAN和注意力机制的图像隐写研究与应用基于GAN和注意力机制的图像隐写研究与应用随着现代通信技术的快速发展和广泛应用,图像隐写作为一种隐藏信息在图像中传输的技术,日益受到关注。
目前,隐写技术的研究主要集中在保护隐私和信息安全方面。
而基于生成对抗网络(GAN)和注意力机制的图像隐写则是最新的研究热点,其在图像隐写领域具有巨大应用潜力。
一、GAN与图像生成GAN是由一个生成器(Generator)和一个判别器(Discriminator)组成的神经网络模型。
生成器通过学习数据分布的特征来生成逼真的数据,而判别器则用于判断生成的数据与真实数据之间的差异。
通过反复训练,生成器可以不断优化以生成更逼真的数据。
在图像生成领域,GAN已经取得了令人瞩目的成果。
它能够生成逼真的图像,甚至能够生成不存在的物体和场景。
这使得GAN成为一种理想的工具来进行图像隐写研究。
二、图像隐写的基本原理图像隐写是在保持原始图像视觉质量的前提下,将机密信息嵌入到图像像素中的过程。
其基本原理是将信息嵌入到图像的低频分量中,即人眼不敏感的部分,以避免引起图像的可见变化。
可以通过改变像素的亮度、色度或者改变像素之间的关系来嵌入信息。
三、基于GAN的图像隐写方法传统的隐写方法往往需要手动设计特征嵌入规则,这样往往会引起图像的明显变化,容易被攻击者察觉。
而基于GAN的图像隐写方法可以自动学习数据的特征分布,使得隐藏的信息更加难以被检测到。
基于GAN的图像隐写方法可以分为两个阶段:隐藏阶段和提取阶段。
在隐藏阶段,生成器负责将信息嵌入到图像中,而判别器则用于判断生成的图像是否具有隐写信息。
在提取阶段,利用注意力机制从生成的图像中提取隐藏的信息。
注意力机制是指将对图像中不同区域的关注程度加权,从而提高信息提取的准确性。
四、图像隐写的应用图像隐写在信息安全和隐私保护方面具有广泛的应用。
一方面,它可以应用于密码学领域,用于信息传输和加密,保护敏感数据的安全。
【CN110334805A】一种基于生成对抗网络的JPEG域图像隐写方法和系统【专利】
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910368809.2(22)申请日 2019.05.05(71)申请人 中山大学地址 510275 广东省广州市海珠区新港西路135号(72)发明人 阮丹阳 阳建华 康显桂 (74)专利代理机构 广州粤高专利商标代理有限公司 44102代理人 林丽明(51)Int.Cl.G06N 3/08(2006.01)G06T 9/00(2006.01)H04N 19/625(2014.01)(54)发明名称一种基于生成对抗网络的JPEG域图像隐写方法和系统(57)摘要本发明公开了一种基于生成对抗网络的JPEG域图像隐写方法,通过生成网络产生载体图像DCT系数矩阵对应的篡改概率矩阵,利用模拟编码嵌入模块以及可传递梯度JPEG变换模块根据篡改概率矩阵产生对应的载密图像,通过判别网络对载体图像与载密图像进行区分,将分类误差作为损失函数对生成网络与判别网络进行对抗训练,最终获得能够生成自适应隐写代价值的生成网络模型。
通过该模型与传统信息编码模块结合,将秘密信息嵌入到载体图像得到载密图像。
相比传统的JPEG域图像隐写方法具有设计简单,易于实现,抗检测性强等特点。
本发明还公开了一种JPEG域图像隐写系统,其中包括基于生成对抗网络的JPEG域图像隐写方法所得到的生成网络模块,信息编码模块以及JPEG变换模块。
权利要求书3页 说明书8页 附图5页CN 110334805 A 2019.10.15C N 110334805A1.一种基于生成对抗网络的JPEG域图像隐写方法,其特征在于,所述的生成对抗网络包括生成网络、模拟编码嵌入模块及判别网络,包括以下步骤:S1:将载体图像通过可传递梯度JPEG变换模块,得到该载体图像对应的DCT域上的系数矩阵;S2:将该载体图像对应的DCT系数矩阵输入到所述生成网络中,通过生成网络产生对应的与载体图像大小一致的篡改概率矩阵,所述篡改概率矩阵的每一位置的数值代表该位置对应的像素位置DCT系数受到篡改的概率;S3:将产生的篡改概率矩阵与随机噪声矩阵通过模拟编码嵌入模块进行模拟编码得到与载体图像大小一致的篡改矩阵,所述随机噪声矩阵与所述篡改概率矩阵大小一致,篡改矩阵中元素的取值为±1与0,随机噪声矩阵用于模拟随机秘密信息;将篡改矩阵与载体图像对应的DCT域上的矩阵相加,得到DCT域上与载体图像DCT系数矩阵对应的载密图像的DCT 系数矩阵;S4:将DCT域上的载密图像的DCT系数矩阵通过可传递梯度的JPEG变换模块转换为空域上的载密图像;S5:将S4得到载密图像与S1的载体图像输入到判别网络,通过判别网络对载体图像与载密图像进行分类,将判别网络产生的分类误差作为损失函数,并将损失函数反馈回判别网络与生成网络并进行对抗训练;S6:训练结束后,将训练好的生成网络与传统的信息编码模块以及JPEG变换模块相结合,根据生成网络产生的嵌入代价值将秘密信息以自适应的方式嵌入到载体图像的DCT系数中产生用于隐秘通信的载密图像,所述嵌入代价值为篡改概率转换所得,具体转换公式为:2.根据权利要求1所述的基于生成对抗网络的JPEG域图像隐写方法,其特征在于,所述可传递梯度JPEG变换模块包括图像数据处理以及矩阵变换,其中图像数据处理包括Tensor 数据的batch分离,单一batch的分块处理,分块的合并以及batch的合并;可传递梯度JPEG 变换模块中的矩阵变换包括二维离散余弦矩阵变换、反二维离散余弦变换以及对应的量化与反量化处理,其中反量化不采用取整操作以确保梯度有效传递。
基于生成对抗网络的图像隐写研究
基于生成对抗网络的图像隐写研究基于生成对抗网络的图像隐写研究随着信息技术的快速发展,信息隐私保护成为了一个重要的研究方向。
图像隐写作为信息隐私保护的一种重要手段,可以将秘密信息嵌入到图像中,使其在外观上看起来与原图无异。
生成对抗网络(GAN)作为近些年来兴起的一种强大的深度学习模型,已经在图像生成、图像修复等领域取得了很大的成功。
本文将探讨如何将生成对抗网络应用于图像隐写,提高图像隐写的安全性与鲁棒性。
首先,我们需要了解生成对抗网络的基本原理。
GAN是由一个生成器和一个判别器组成的,两者通过对抗学习的方式相互训练,最终目标是生成逼真的样本。
生成器接收一个随机向量作为输入,并将其转化为一张逼真的图像。
判别器则负责判断生成器生成的图像是真实的还是伪造的。
在训练过程中,两者相互竞争,不断迭代,最终生成器可以生成足够逼真的图像,使判别器无法准确识别。
当前传统的图像隐写方法主要基于低位嵌入(LSB)和最低复杂度编码(LZW)等技术。
然而,随着计算硬件的发展和深度学习模型的兴起,这些方法的安全性和鲁棒性受到了挑战。
而生成对抗网络可以通过学习图像的分布特征,生成逼真的图像,使嵌入的秘密信息更加安全可靠。
因此,将生成对抗网络引入到图像隐写领域具有重要的意义。
在基于生成对抗网络的图像隐写研究中,一种常见的方法是将秘密信息嵌入到图像的低频区域。
首先,生成对抗网络通过无监督学习从大量的图像数据中学习到图像的分布规律,生成器可以生成逼真的图像。
然后,将带有秘密信息的图像与原始图像进行对抗学习,生成器和判别器相互训练,使得生成的图像在外观上与原始图像无异。
另一种方法是将秘密信息直接嵌入到生成对抗网络的网络结构中。
例如,可以将秘密信息作为输入向量的一部分,使得生成器根据输入向量生成对应的图像。
由于秘密信息只存在于网络的向量表示中,并不直接嵌入到图像中,因此可以提高图像的安全性。
除了以上两种方法,还有一些研究尝试将生成对抗网络与其他隐写技术相结合。
对抗学习中的数据隐私保护和鲁棒性设计
对抗学习中的数据隐私保护和鲁棒性设计随着人工智能的迅速发展和广泛应用,对抗学习成为了一个备受关注的研究领域。
对抗学习旨在研究和设计能够应对恶意攻击和数据隐私泄露的机器学习算法。
在这篇文章中,我们将探讨对抗学习中数据隐私保护和鲁棒性设计的关键问题,并讨论当前研究所取得的进展。
一、数据隐私保护在机器学习领域,数据是训练模型所必需的资源。
然而,为了保证模型能够取得良好的性能,通常需要大量且多样化的数据。
这就引发了一个重要问题:如何在满足模型需求同时保护用户个人隐私。
一种常见且有效的方法是使用差分隐私技术。
差分隐私通过向原始数据添加噪声来隐藏个体信息,并通过数学证明来保证用户个人信息不会被恢复出来。
然而,在对抗学习中使用差分隐私技术会面临一些挑战。
例如,在生成对抗网络(GAN)中,攻击者可能通过分析生成器输出的噪声来恢复原始数据,从而突破差分隐私的保护。
为了应对这些挑战,研究者提出了一些新的方法。
一种方法是将差分隐私技术与生成对抗网络相结合,通过对生成器和鉴别器添加噪声来提高数据隐私保护。
另一种方法是使用多方计算和同态加密等密码学技术来保护数据隐私。
这些方法在一定程度上提高了对抗学习中数据隐私保护的效果。
二、鲁棒性设计在对抗学习中,模型的鲁棒性是指模型在面对恶意攻击或输入扰动时能够保持良好性能的能力。
鲁棒性设计旨在研究和设计具有强大防御能力的机器学习模型。
目前,有许多针对不同攻击类型和威胁模型的鲁棒性设计方法被提出。
例如,在图像分类任务中,扰动攻击被广泛应用于欺骗分类器。
为了提高模型的鲁棒性,在训练过程中可以引入扰动样本,并将其与原始样本混合。
这种方法可以增加模型对扰动的容忍度,从而提高模型的鲁棒性。
另一种常见的鲁棒性设计方法是对抗训练。
对抗训练通过引入对抗样本来训练模型,从而增强模型的鲁棒性。
在对抗训练中,生成器和鉴别器相互博弈,生成器试图生成具有误导性的样本,而鉴别器则试图准确地区分这些样本。
通过不断迭代博弈过程,模型可以逐渐提高对抗样本的识别和分类能力。
基于生成对抗网络的多用途图像增强鲁棒算法
第37卷第6期 计算机应用与软件Vol 37No.62020年6月 ComputerApplicationsandSoftwareJun.2020基于生成对抗网络的多用途图像增强鲁棒算法李 英1 李 臻21(内江职业技术学院信息技术系 四川内江641000)2(电子科技大学 四川成都610054)收稿日期:2019-05-17。
四川省重点实验室开放基金项目(GK201608);电子科技大学中山学院校内项目(418YKQN04)。
李英,副教授,主研领域:计算机科学与技术。
李臻,讲师。
摘 要 针对现有图像增强技术不能同时进行超分辨率和伪影去除的问题,提出一种基于生成对抗网络的图像增强鲁棒算法,能够在一个网络中以端到端的方式同时进行伪影消除和超分辨率。
算法包括生成器网络和判别器网络两部分。
生成器网络以U net形式引入跳跃链接进行共享信息,并在最后一层之前设计一个像素解析模块,提高输出图像分辨率;判别器采用自动编码方式有助于将大量有关生成图像质量的语义信息传递回生成器;提出一种基于网络特征损失、边缘损失和判别器重构损失三者加权的感知损失函数,有效保留在图像增强过程中经常丢失的锐度。
实验结果表明,对于高压缩低分辨率图像,该方法可以同时进行伪影去除和超分辨率,相对其他方法在多个评价指标上都有很好的性能体现。
关键词 生成对抗网络 超分辨率 伪影去除 图像增强中图分类号 TP391.4 文献标志码 A DOI:10.3969/j.issn.1000 386x.2020.06.043MULTIPURPOSEIMAGEENHANCEMENTROBUSTALGORITHMBASEDONGENERATIVEADVERSARIALNETWORKLiYing1 LiZhen21(NeijiangVocationalandTechnicalCollege,Neijiang641000,Sichuan,China)2(UniversityofElectronicScienceandTechnologyofChina,Chengdu610054,Sichuan,China)Abstract Aimingattheproblemthattheexistingimageenhancementtechniquescannotsimultaneouslycarryonsuper resolutionandartifactsremoval,thispaperproposesanimageenhancementrobustalgorithmbasedonthegenerativeadversarialnetwork.Itcaneliminateartifactsandsuper resolutionstimultaneouslyinanend to endwayinanetwork.Thealgorithmincludestwoparts:generatornetworkanddiscriminatornetwork.ThegeneratornetworkintroducedskiplinksintheformofU Nettoshareinformation.Apixelresolutionmodulewasdesignedbeforethelastlayertoimprovetheresolutionoftheoutputimage.Theautoencoderofthediscriminatorwashelpfultotransferalotofsemanticinformationaboutthequalityofthegeneratedimagebacktothegenerator.Weproposedaweightedperceptuallossfunctionbasedonnetworkfeatureloss,edgelossanddiscriminatorreconstructionloss,anditcouldeffectivelypreservethesharpnessthatwasoftenlostintheprocessofimageenhancement.Theexperimentalresultsshowthatourmethodcanperformartifactsremovalandsuper resolutionsimultaneouslyforhighcompressionandlow resolutionimages.Comparedwithothermethods,ourmethodhasgoodperformanceinmanyevaluationindicators.Keywords Generativeadversarialnetwork Super resolution Artifactremoval Imageenhancement0 引 言随着信息技术的快速发展,网络图片的数量迅猛增长,人们对图像真实感的质量要求日益增高。
对抗学习中的模型鲁棒性研究
对抗学习中的模型鲁棒性研究概述对抗学习是机器学习领域的一个重要研究方向,旨在通过训练一个模型来应对对手的攻击。
然而,现实中的应用场景中,模型往往面临各种各样的攻击。
为了提高模型在面对攻击时的鲁棒性,研究者们开始关注对抗学习中的模型鲁棒性问题。
本文将就这一问题展开深入研究。
一、背景随着机器学习在各个领域的广泛应用,人们开始关注机器学习模型在面临攻击时的表现。
例如,在计算机视觉领域中,人们发现通过向图像添加微小但精心设计的扰动,可以使得原本高精度分类器产生错误分类结果。
这种扰动称为对抗样本。
为了解决这个问题,在过去几年里涌现了许多关于对抗学习和模型鲁棒性方面的研究工作。
然而,在实际应用场景中,由于攻击者可以具有更多背景知识和计算资源,并且可以针对特定模型进行攻击,现有的对抗学习方法往往难以应对各种攻击。
二、模型鲁棒性的定义模型鲁棒性是指一个模型在面对各种攻击时的表现能力。
一个鲁棒性强的模型应该能够在面对各种不同类型的攻击时保持较高的准确率。
在对抗学习中,研究者们通常会使用不同类型的攻击方法来评估一个模型的鲁棒性。
常用的评估指标包括准确率、对抗样本生成难度以及防御成功率等。
准确率是指模型在面对攻击时仍能保持较高分类准确率。
对抗样本生成难度是指生成一个能够成功欺骗目标分类器的对抗样本所需付出的代价。
防御成功率是指一个防御方法能够成功防止攻击者生成有效对抗样本所占比例。
三、现有研究方法针对模型鲁棒性问题,研究者们提出了许多不同类型和不同思想基础的方法。
1. 对抗训练最常见且最简单直接有效的方法是使用基于梯度的对抗训练。
该方法通过在训练过程中引入对抗样本,使得模型能够学习到对抗样本的特征,从而提高模型的鲁棒性。
在这种方法中,模型通过最小化原始样本和对抗样本之间的损失函数来进行训练。
2. 防御方法除了对抗训练外,研究者们还提出了一些其他防御方法来提高模型鲁棒性。
例如,一些方法通过在输入数据上应用特定的转换操作来增强模型的鲁棒性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于生成对抗网络的鲁棒图像隐写方法研究
基于生成对抗网络的鲁棒图像隐写方法研究
随着信息技术的快速发展,图像隐写逐渐成为一种重要的信息隐藏技术。
然而,传统的图像隐写方法在安全性和鲁棒性方面存在一定的问题。
近年来,生成对抗网络(GANs)的兴起为解决这些问题提供了新的思路。
本文将对基于GANs的鲁棒图像隐写方法进行研究和探讨。
首先,我们需要了解什么是生成对抗网络(GANs)。
GANs 是由一个生成器和一个判别器组成的博弈模型。
生成器的目标是生成逼真的数据样本,而判别器的目标是判断生成的样本与真实样本的区别。
通过不断的博弈和学习,生成器不断优化自身的生成能力,使得生成的样本越来越接近真实样本,而判别器也不断优化自身的判别能力,使得判断生成样本与真实样本的准确率不断提高。
基于GANs的鲁棒图像隐写方法主要包括两个关键步骤:隐藏数据嵌入和隐写图像提取。
在隐藏数据嵌入阶段,我们首先将待隐藏的数据转换为二进制形式,并确定隐藏的位置和嵌入强度。
然后,将隐藏的数据分成多个小块,并通过生成器将每个小块嵌入到图像中。
生成器利用博弈模型中不断学习的能力来优化隐藏数据的嵌入效果,使得隐藏的数据在嵌入过程中不会明显破坏原始图像的特征。
在隐写图像提取阶段,我们使用判别器来提取隐藏在图像中的数据。
判别器通过对图像进行判断来区分隐藏的数据和原始图像之间的差异。
通过不断训练判别器,我们可以提高提取隐藏数据的准确性和鲁棒性。
与传统的图像隐写方法相比,基于GANs的鲁棒图像隐写方法具有以下优势:
首先,生成器与判别器之间的博弈过程可以提高隐写图像的鲁棒性。
生成器通过不断学习和优化,可以使得嵌入的数据在图像中不易被检测和提取。
其次,基于GANs的图像隐写方法可以提高隐写图像的安全性。
生成器和判别器的建模过程可以使得鲁棒性更强的隐藏数据嵌入与提取方法更难以被攻击者破解。
最后,基于GANs的鲁棒图像隐写方法还可以提高图像隐写的容量和嵌入速度。
博弈模型的学习能力和优化算法可以使得更多的隐藏数据被嵌入到图像中,提高传输效率。
尽管基于GANs的鲁棒图像隐写方法具有以上优势,但仍然存在一些挑战和问题。
例如,如何确定隐藏数据的嵌入位置和嵌入强度,如何提高隐藏数据的容量和保证隐写图像的质量等。
这些问题需要进一步的研究和探索。
总而言之,基于生成对抗网络的鲁棒图像隐写方法在提高隐写图像的鲁棒性、安全性和容量方面具有明显优势。
然而,仍然需要进一步的研究和发展来解决其中存在的挑战和问题。
相信随着技术的不断进步和发展,基于GANs的鲁棒图像隐写方法将在信息隐藏领域发挥越来越重要的作用
综上所述,基于生成对抗网络的鲁棒图像隐写方法具有提高隐写图像鲁棒性、安全性和容量的优势。
然而,仍然需要进一步研究来解决嵌入位置和强度的确定、容量的提高以及隐写图像质量的保证等问题。
随着技术的进步,基于GANs的鲁棒图像隐写方法将在信息隐藏领域发挥重要作用。