基于改进生成式对抗网络的编码DNA_分子识别

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

文章编号：1006-3080(2021)02-0241-06DOI: 10.14135/ki.1006-3080.20191216001
基于改进生成式对抗网络的编码DNA 分子识别
随学杰1,2，王慧锋1，颜秉勇1
（华东理工大学 1. 信息科学与工程学院；2. 化学与分子工程学院，上海 200237）摘要：纳米孔道单分子检测技术通过在纳米孔道中捕获分子穿过时产生的离子流变化信号来研究单个分子的信息。

然而，由于纳米孔道对不同分子的捕获率不同，因此采集到的单分子数据集不平衡，进而影响分子识别的准确率。

本文基于编码DNA 分子的阻断事件，构建以深度卷积生成式对抗网络(DCGAN)为基本框架的模型，实现少数类样本的扩充，从而达到纳米孔道数据集的平衡处理，并采用QuipuNet 对平衡前后的数据集进行训练和识别。

结果表明，采用DCGAN 平衡数据集后，训练后的QuipuNet 对部分“100”编码分子的识别准确率提升了14%，且平均识别准确率均高于其他扩充数据集的方法，验证了采用DCGAN 扩充编码DNA 分子数据以平衡数据集可有效提高模型训练后对实际信号的识别准确率。

关键词：深度卷积生成式对抗网络；QuipuNet ；分类；纳米孔道数据分析；编码DNA 分子中图分类号：R857.3
文献标志码：A
作为最具前景的第3代DNA 测序技术，纳米通道单分子检测技术引起了广大研究者的兴趣[1-4]。

该技术的基本原理是在嵌有纳米孔的磷脂双分子层两侧施加电压，电解液中的离子在电场力驱动下穿过纳米孔，产生微弱的开孔电流，当有DNA 、RNA 、氨基酸、金属离子等分子穿过纳米孔时，由于分子在纳米孔道的占位改变了离子流量，将产生pA 级的阻断电流信号[5-6]。

通过对阻断信号进行分析，可得到分子在溶液中的浓度、分子与孔的相互作用、分子类型、碱基序列等信息。

传统的数据分析方法是依据阻断信号的时间和电流散点图分布实现分子类别的识别，然而，由于低信噪比、DNA 链折叠和缠绕、分子类别间信号重叠等原因，导致传统方法对分子的识别率较低[7]。

为提高纳米孔道信号的识别率，可通过改进实验条件和仪器设备精度等方法提高纳米孔测量的电流和时间分辨率，但这些方法通常会增加实验的复杂度和难度，或达到难以突破的物理极限[8]。

为提高纳米孔道单分子检测中对单个分子阻断信号的识别精度，发展高效且智能的纳米孔道数
据分析识别方法具有重大意义[9-11]。

在机器学习和深度学习领域，样本不平衡是指在分类学习算法中，不同类别样本的数据量相差悬殊，导致以总体准确率为目标的分类任务中过多地关注多数类，从而使少数类样本的分类性能下降，模型准确性较差[12-14]。

由于纳米孔道对不同类型单分子信号的捕获率存在着巨大差异，因此基于深度学习模型对纳米孔道单分子信号进行分类训练时存在数据集不平衡的问题，进而影响模型对单个分子识别的准确率。

Sui 等[15]针对单级阻断事件提出了基于HMM -AdaBoost 的分类模型，对阻断信号有重叠的AA 3和GA 3分子进行了识别，Aerolysin 纳米孔道对AA 3分子的捕获率大于对GA 3分子的捕获率，导致训练集中两种分子的数量比约为3∶1。

Karolis 等[16]提出了基于卷积神经网络的QuipuNet 模型，对编码为“000”~“111”的8种DNA 分子和有无蛋白质绑定进行分类，训练集中编码为“011”的分子与编码为“100”的分子数量比为17∶1等。

从分类结果可以观察到，少数类样本的分类准确率均低于其他类别。

收稿日期： 2019-12-16
基金项目：国家自然科学基金青年基金(51407078)
作者简介：随学杰（1996—），女，山东德州人，硕士生，主要研究方向为纳米孔道数据分析。

E-mail ：******************** 通信联系人：颜秉勇，E-mail ：***************.cn
引用本文：随学杰, 王慧锋, 颜秉勇. 基于改进生成式对抗网络的编码DNA 分子识别[J]. 华东理工大学学报（自然科学版）, 2021, 47(2): 241-246.Citation ： SUI Xuejie, WANG Huifeng, YAN Bingyong. Encoded DNA Molecules Identification Based on the Improved Generative Adversarial Network[J].
Journal of East China University of Science and Technology, 2021, 47(2): 241-246.
Vol. 47 No. 2华东理工大学学报（自然科学版）
2021-04
Journal of East China University of Science and Technology
241
多数基于机器学习和深度学习的分类任务研究表明，解决样本不均衡问题，增加训练样本数据量，可显著提高模型的分类性能[17]。

生成式对抗网络是一种基于对抗策略的生成式模型，可生成与训练样本分布相同的仿真样本，在深度学习、图像领域和序列数据等领域都受到广泛关注[18-19]。

本文通过改进深度卷积生成式对抗网络（Deep Convolutional Generative Adversarial Networks ，DCGAN ）模型，研究类别不平衡的纳米孔道单分子数据集，并实现数据集的扩充与分类。

首先对数据进行预处理，并将所有分子的阻断事件处理为相同长度；然后使用改进DCGAN 模型对少数类样本数据集进行扩充，生成相应分子的仿真阻断信号；最后应用QuipuNet 卷积神经网络对扩充前后的数据集进行分类。

本文方法可显著改善纳米孔道对分子捕获率不同所带来的数据集不平衡问题，不仅可提高单个分子阻断事件的识别准确率，同时对深度学习等人工智能算法应用于纳米孔道研究提供了新的数据处理方法。

总流程图如图1所示。

1 数据集描述
1.1 数据来源
数据来源于文献[18]的多通道蛋白质检测实验。

由32个纳米通道产生的58 178个阻断事件被存储至HDF5文件中，包含“000”~“111” 8种编码DNA 分子的阻断信息，每个分子被记录了纳米通道编号、编码信息、有无蛋白质绑定、表征阻断信号的电流序列等信息。

1.2 数据预处理
采用阈值滤波[16]去除由于DNA 片段不完整、分子与孔道的非特异性相互作用而产生的异常阻断信号，对数据集进行归一化处理，从而消除纳米孔道作用时间差异所引起的阻断信号变化。

由于卷积神经网络输入信号维度固定，为使阻断信号长度相同，采用如下处理方法：长度大于700的阻断信号，保留前700个数据点；取样本集中所有阻断信号开孔电流的前50个数据点，计算其均值为0.009 5，对长度小于700的信号，用均值为0、标准差为0.009 5的高斯白噪声补齐至长度为700。

2 结果与讨论
2.1 基于改进DCGAN 的数据集平衡
Goodfellow 等[20]提出的生成式对抗网络是一种基于博弈理论扩充数据集的方法，最初用于图像的生成。

生成式对抗网络由生成器（Generator ，G ）和判别器（Discriminator ，D ）两部分组成，其中生成器接收随机噪声用于学习和捕捉真实数据集的分布，并生成与之相似的新数据集；判别器的功能是一个二分类器，判断数据是来自真实数据集还是由生成器生成的伪数据集。

训练过程中，生成器的目标是尽量生成与真实数据相似的伪数据，使判别器难以区分；而判别器的目标是尽量辨别出真实数据和伪数据，最终达到纳什平衡，即判别器无法判断数据是否来自生成器。

该模型绕过了求解似然函数的困难，可直接生成样本，从而拟合训练数据的分布。

DCGAN 对原始生成式对抗网络的改进[21]：（1）
(e)
(b)
(c)000
001
010
011
100
101
110
111
000001010011100101110111
Identification
Identification Barcode
Data augment
100
100
C o u n t
100
DNA
A
Nanopore Low capture rates of DNA
Noise signal
Data pre-process
Generator
Generated sample
Discrimator
T or F
DCGAN
Recording
(a) Schematic diagram of nanopore detection technology ； (b) Blockage events of 8 barcode DNA molecules ；(c) The bar of blockage events identified in the mixed signal ；(d) Flow diagram of improved DCGAN ；(e) Generated blockage events
图 1 总流程图Fig. 1 General flow diagram
242华东理工大学学报（自然科学版）第 47 卷
采用带步长的卷积代替D中的池化层；（2）在D和G 中加入批量标准化(Batch Normalization, BN)层，加快模型的收敛速度；（3）去除全连接层；（4）在G中，
除最后一层激活函数使用tanh，其余层的激活函数为ReLU；（5）在D中，均使用LeakReLU激活函数，该激活函数可保证导数总是不为零，能减少静默神经元的出现。

本文以DCGAN为基本框架，设计了适合纳米孔道单分子数据分析的网络模型结构（如图2所示），包含生成器和判别器两部分。

G的输入为服从正态分
x
z
布、长度为100的特征向量，由4层卷积神经网络构成。

其中，卷积神经网络的基本结构为Conv1d+ BN+ReLu，最后一层采用tanh激活函数，卷积核大小为3、3、3。

D的输入为真实样本和G生成的伪样本G( )，主要由3层卷积神经网络构成，特征图大小按16、32、64逐级递增，相应的卷积核为7、5、3，使用LeakRelu激活函数，最后经过一个全连接层，由sigmod函数判断当前样本为真实样本（标签为1），或为伪样本（标签为0）。

tanh、ReLU和LeakReLU激活函数表达式如式（1）~式（3）所示。

128@700×1256@700×1
Outputs
1@700×1
Inputs
1@700×1
16@350×1
32@175×1
64@87×1
Fully
connected
Outputs
64@350×1 Inputs
1@100×1
Reshape
Generator Discrimator Flatten
图 2 生成器和判别器的网络结构图
Fig. 2 Network structure of generator and discriminator
训练过程中，batch_size设为64，初始学习率learning_rate=0.000 1, 采用Adam优化算法训练600次。

因编码DNA分子的标签已知，本文在目标函数中引入标签信息，构成条件约束，解决深度卷积对抗网络训练太过自由的问题。

目标函数用V(D,G)表示，如下式所示。

其中：x为真实样本，z为随机噪声，E表示数据分布，D(x|y)为判别器D判断真实样本是否真实的概率，D(G(z))为判别器D判断生成器G生成的伪样本是否真实的概率。

为防止判别器过于强大而造成训练不平衡，使用标签平滑，即当判断为正样本时，用0.95代替1。

以编码为“100”的分子为例，图3示出了模型在不同的训练次数生成的阻断事件。

2.2 编码DNA分子的识别
原始数据集中，编码为“011”的分子在实验中的捕获率最高，对应的阻断事件最多；而编码为“100”和“010”的分子捕获率较低，仅占“011”数据集的8%和23%，造成数据集的类别不平衡。

将各阻断事件预处理后，使用上述改进DCGAN，对除“011”编码之外的7种编码DNA分子的阻断事件进行扩充。

分别将原始数据集与平衡后的编码DNA载体数据集作为QuipuNet的输入，其中，两次实验的测试集大小相
0350
Sampling points
7000350
Sampling points
700
0350
Sampling points
7000350
Sampling points
(d) Epoch = 600
700
图 3 编码为“100”的DNA分子的阻断事件生成过程Fig. 3 Generation process for blockage event of barcode ‘100’
第 2 期随学杰，等：基于改进生成式对抗网络的编码DNA分子识别243
同。

为验证该网络生成数据集的有效性，采用混淆矩阵以及平均准确率作为评价标准。

混淆矩阵是以预测标签为横坐标、真实标签为纵坐标的交叉表，用以直观展示各类别分类情况。

平均准确率的计算公式如下：
其中：n为类别数；N i为第i类别中样本的数量；T i 为第i类别中预测正确的样本数。

QuipuNet包含8层卷积网络，基本结构为Conv1d+BN+ReLU，卷积核大小为{7,7,5,5,3,3}，特征图大小分别为{64,64,128, 128,256,256}，最后一层为softmax分类器，进行8分类。

训练时，batch_size设为32，使用Adam优化算法，初始学习率为0.001，损失函数选择交叉熵损失函数，表达式如下：
ˆy i
其中：y i为样本的真实标签；为QuipuNet模型预测标签。

将训练次数设为200次，使用原始数据集和平衡后数据集对QuipuNet模型进行训练，训练集准确率的变化如图4所示。

可见，在两种训练集下，模型的训练准确率均呈上升趋势，平衡后的数据集收敛至约0.94，原始数据集约为0.95。

将测试集送入训练好的QuipuNet模型，得到的混淆矩阵如图5所示。

混淆矩阵的横坐标为预测标签，纵坐标为真实标签，对角线即为各类别的分类准确率，颜色深浅代表数值的大小，混淆矩阵右边为对应的各类别训练数据的规模。

可见，使用改进DCGAN对数据集进行平衡后，少数类别的分类准确率具有明显的提升。

平衡前后编码为“100”极少数类样本的分类准确率由0.82提升至0.96，编码为“010”的分子的准确率由0.89提升至0.93，由于二者在原始数据集中本身所占比例不同，识别准确率存在一定差异。

此外，“110”和“001”等分子的识别准确率也有了一定幅度的提升。

可见，在对数据集进行平衡后，少数类分子信号的识别准确率获得了显著提升，均达到0.93及以上，总体平均准确率由0.92提升至0.96，说明改进DCGAN可用于生成阻断事件以平衡数据集，从而提高混合分子中捕获率低的分子的识别准确率。

2.3 不同数据集平衡方法分类结果
目前常用的数据集扩充方法有重采样法和添加高斯噪声等[22-23]，为进一步验证改进DCGAN模型在纳米孔道数据分析中的有效性，将两种传统扩充方法与改进DCGAN模型进行对比。

重采样法对少数样本进行有放回抽样m次，数据集的数量与图5(b)中各类别训练数据集大小相等；噪声法在抽样得到的阻断电流信号上添加白噪声。

分别将两种数据集送入分类模型，经不同扩充数据集训练后的QuipuNet 模型对测试集的平均识别准确率如表1所示。

可知，用本文方法得到的平衡数据集训练QuipuNet后，测试集的分类准确率较高。

重采样法使数据集中含有较多重复样本，尤其是数据倾斜较为严重的编码为
50100
Epoch
150200
Original dataset
Balanced dataset
图 4 训练准确率变化图
Fig. 4 Diagram of training accuracy
图 5 模型在不同训练集下的测试数据的混淆矩阵
Fig. 5 Confusion matrix of test data for model trained with different datasets
244华东理工大学学报（自然科学版）第 47 卷
“100”分子的阻断事件，使得模型产生过拟合，降低准确率。

而噪声法在一定程度上增加了数据的多样性，但所加随机噪声的大小不易控制。

对比结果表明，两种传统的数据集扩充方法不适用于纳米孔道数据集的扩充，将大数据分析方法应用到纳米通道数据分析领域时，本文方法能在一定程度上解决纳米通道对分子捕获率不同而造成的数据集不平衡问题，提高分类准确率。

表 1 不同数据扩充方法的分类结果
Table 1 Classification results using different data augmentation
methods
Data augmentation method
Acc Resampling 0.86Adding noise 0.89Improved DCGAN
0.96
3 结　论
纳米孔道单分子阻断信号存在重叠或阻断台阶不明显的问题，使用传统散点图法较难进行区分，同时，由于纳米孔对分子的捕获率不同，致使不同分子阻断事件数量不平衡，进而影响模型的准确率。

基于编码DNA 分子的阻断事件，本文将改进DCGAN 用于少数类单分子信号样本的扩充，避免类间不平衡问题。

通过与原始数据集以及由重采样法和噪声法扩充的数据集相比，本文方法显著提高了模型训练后对单分子的识别准确率。

此外，本文的研究也展示了生成式对抗网络扩充训练数据的方法在纳米孔道单分子数据分析算法研究中的重要意义和作用，并可进一步用于基于纳米孔道的复杂DNA 测序数据或基于多测量方法的纳米孔道数据分析研究中。

参考文献：
CAO C, YING Y L, HU Z L, et al . Discrimination of oligo-nucleotides of different lengths with a wild-type aerolysin nanopore[J]. Nature Nanotechnology , 2016, 11(8): 713-716.
[ 1 ]
HU Z L, LI Z Y, YING Y L, et al . Real-time and accurate
identification of single oligonucleotide photoisomers via an aerolysin nanopore[J]. Analytical Chemistry , 2018, 90(7):4268-4272.
[ 2 ]
沙菁㛃 , 徐冰, 陈云飞, 等. 固态纳米孔对蛋白质易位的实验研究[J]. 化学学报, 2017, 75(11): 1121-1125.
[ 3 ]
尚积祯, 李志, 郗冬梅, 等. 生物纳米孔分析技术研究进
展[J]. 应用化学, 2017, 34(8): 855-867.
[ 4 ]
DEAMER D W, AKESON M. Nanopores and nucleic
acids: Prospects for ultrarapid sequencing[J]. Trends in Bio-technology , 2000, 18(4): 147-151.
[ 5 ]
SHA J J, SI W, XU B, et al . Identification of spherical and
nonspherical proteins by a solid-state nanopore[J]. Analy -tical Chemistry , 2018, 90(23): 13826-13831.
[ 6 ]
WEI Z Y, YING Y L, LI M Y, et al . Learning shapelets for
improving the single-molecule nanopore sensing[J]. Analy -tical Chemistry , 2019, 91(15): 10033-10039.
[ 7 ]
YING Y L, CAO C, HU Y X, et al . A single biomolecule
interface for advancing the sensitivity, selectivity and accuracy of sensors[J]. National Science Review , 2018,5(4): 450-452.
[ 8 ]
YING Y L, LONG Y T. Nanopore-based single-
biomolecule interfaces: From information to knowledge[J].Journal of the American Chemical Society , 2019, 141(40):15720-15729.
[ 9 ]
颜秉勇, 朱明乔, 王学武. 一种新型纳米通道单分子检测
探头的设计[J]. 华东理工大学学报(自然科学版), 2018,
44(6): 869-875.
[10]
赖永杭, 颜秉勇, 王慧锋. 基于HSMM 和K-means 的纳米
孔多级事件检测[J]. 华东理工大学学报(自然科学版),2017, 43(2): 220-226.
[11]
WANG F, ZHANG Z Y, LIU C, et al . Generative
adversarial networks and convolutional neural networks based weather classification model for day ahead short-term photovoltaic power forecasting[J]. Energy Conversion and Management, 2019, 181(1): 443-462.
[12]
MATEUSZ B, ATSUTO M, MAZUROWSKI M A. A sys-
tematic study of the class imbalance problem in convolu-tional neural networks[J]. Neural Networks, 2018, 106(1):249-259.
[13]
POUYANFAR S, CHEN S C, SHYU M L, et al . Dynamic
sampling in convolutional neural networks for imbalanced data classification[C]// 2018 IEEE Conference on Multime-dia Information Processing and Retrieval (MIPR). USA:IEEE, 2018：112-117.
[14]
SUI X J, LI M Y, YING Y L, et al . Aerolysin nanopore
identification of single nucleotides using the AdaBoost
model[J]. Journal of Analysis and Testing , 2019, 3(2): 134-139.
[15]
KAROLIS M, NIKLAS E, KEYSER U F. QuipuNet: Con-
volutional neural network for single-molecule nanopore sensing[J]. Nano Letters , 2018, 18(6): 4040-4045.
[16]
FAWAZ H I, FORESTIER G, WEBER J, et al . Data aug-
mentation using synthetic data for time series classification with deep residual networks[J]. Data Mining and Know-ledge Discovery, 2018, 33(4): 917-925.
[17]
HARADA S, HAYASHI H, UCHIDA S. Biosignal data
augmentation based on generative adversarial networks[C]//
[18]
第 2 期随学杰，等：基于改进生成式对抗网络的编码DNA 分子识别245
Annual International Conference of the IEEE Engineering
in Medicine and Biology Society (EMBC). USA: IEEE,
2018: 368-371.
ZHU F, YE F, FU Y C, et al. Electrocardiogram generation
with a bidirectional LSTM-CNN generative adversarial net-
work[J]. Scientific Reports, 2019, 9(1): 1-11.
[19]
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M,
et al. Generative adversarial nets[C]//International Confer-
ence on Neural Information Processing Systems (NIPS).
USA:ACM, 2014: 2672-2680.
[20]
RADFORD A, METZ L, CHINTALA S. Unsupervised rep-[21]
resentation learning with deep convolutional generative
adversarial networks[C]//International Conference on
Learning Representations. [s. l.]; ICLR,2016: 1-15.
CHAWLA N V, BOWYER K W, HALL L O, et al.
SMOTE: Synthetic minority over-sampling technique[J].
Journal of Artificial Intelligence Research, 2011, 16(1):
321-357.
[22]
YUDAN H, QIONG G U, ZHIHUA C, et al. Classification
method for imbalance dataset based on genetic algorithm
improved synthetic minority over-sampling technique[J].
Journal of Computer Applications, 2015, 35(1): 121-124. [23]
Encoded DNA Molecules Identification Based on the Improved
Generative Adversarial Network
SUI Xuejie1,2, WANG Huifeng1, YAN Bingyong1
（1. School of Information Science and Engineering; 2. School of Chemistry and Molecular Engineering, East China University of Science and Technology, Shanghai 200237, China）
Abstract: Nanopore is a highly sensitive single-molecule detection technology, which researches the information of single molecule by capturing the change signal of ion current generated while the molecule traverses the nanopore. However, due to different capture rates of different molecules in the nanopore, the collected dataset is unbalanced, which will affect the accuracy of the molecule identification. Based on the blockage events of the encoded Generative Adversarial Networks (GAN) molecules, this paper constructs a Deep Convolutional Generative Adversarial Networks (DCGAN) based model to expand the minority samples, so as to achieve the balance processing of nanopore data set. In addition, QuipuNet is used to train and identify the data set before and after the balance. Finally, it is shown via the simulation results that the average classification accuracy of the trained QuipuNet for some “100” encoded molecules is improved by 14% after using DCGAN balanced dataset, and the average recognition accuracy rate is higher than those of other extended data sets methods. It is verified that DCGAN method can effectively improve the recognition accuracy of the actual signal after the model is trained by expanding the encoded DNA molecular data to balance the data set.
Key words: generative adversarial network；QuipuNet；classification；nanopore data analysis；encoded DNA molecule
246华东理工大学学报（自然科学版）第 47 卷。