基于低秩正则化的神经网络学习方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2018年4月计算机工程与设计A pr.2018
第 39卷第 4 期 COMPUTERENGINEERINGANDDESIGN Vol. 39 No. 4
基于低秩正则化的神经网络学习方法
陈嫒嫒,刘光灿
(南京信息工程大学江苏省大数据分析技术重点实验室,江苏南京210044)
摘要:针对神经网络参数过多容易导致过拟合这一问题!结合神经网络学习与低秩学习的基本思想,提出一种低秩正则 化神经网络,每层的权值矩阵被约束为低秩的,降低网络的有效参数规模,达到防止过拟合的效果。
由于低秩约束的存 在,低秩正则化神经网络的学习过程不能直接利用传统B P算法来完成,因此,提出一种扩展的B P算法,用于求解含低秩 约束的神经网络学习问题。
实验结果表明,所提方法在分类精度、收敛速度以及预测精度上优于对比方法。
关键词:神经网络;低秩矩阵因子分解;反向传播算法;正则化;数据分类与回归
中图法分类号:TP18 文献标识号:A文章编号:1000-7024 (2018) 04-1034-05
doi: 10. 16208/.. issnl000-7024. 2018. 04. 024
Neural network learning method based on low-rank regularization
CHEN Ai-ai,LIU Guang-can
(Jiangsu Key Laboratory of Big Data Analysis Technology,Nanjing University of
Information Science and Technology,Nanjing 210044,China)
Abstract:To eliminate the over-fitting phenomenon arising from the gigantic nature of the parametric space of neural networks,a low-rank regularized neural network was proposed,which combined the ideas of neural network learning and low-rank learly,the weight matrices in each layer of the proposed low-rank regularized neural network were constrained to be low-rank.In this way,the amount of network parameters was significantly reduced and thus effectively suppressed the over-fitting phenomenon.Due to the low-rank constraints,the traditional back-propagation (BP)algorithm could not be directly used to train the low-rank r egularized neuml network.An extended BP algorithm was proposed for training the neuml networks containing low-rank constraints.Experimental results show that the proposed method is better than the competing methods>in terms of classification accuracy,convergence rate and prediction accuracy.
Key words:neural networks;low-rank matrix factorization;back-propagation;regularization;data classification and regression
3引言
现有神经网络学习方法19'仍存在若干缺陷。
其主要缺 陷之一就是会出现学习速度慢,参数过多,容易导致“过 拟合’’现象,而且网络参数过多也会给计算成本和存储都 带来很大的困难。
针对过拟合问题,众多研究者已经提出 了一些有效的方法,比如正则化神经网络算法[10]、Drop o u t11'、数据集扩增等。
本文结合神经网络学习与低秩学习的基本思想,提出 了一种称为低秩正则化神经网络的方法。
其基本思想是将 原来的每层高维权值矩阵因式分解为两个低维矩阵之积,即:限定每层的高维权值矩阵是低秩的。
通过这种低秩约 束,网络的有效参数规模被大大降低,从而达到既防止过 拟合,又能降低存储与计算开销的效果。
由于低秩约束的 存在,低秩正则化神经网络的学习过程不能直接利用传统 back-propagation(BP)算法来完成。
因此,本文也提出了 一种扩展的B P算法,用于求解含低秩约束的神经网络学 习问题。
文献&2]也提出过将原来的高维权值矩阵因式分解为两个低维矩阵之积,但他们的低维矩阵是通过对原高维 矩阵进行奇异值分解所得到的,也就是说,低秩约束并没 有严格嵌人到神经网络的学习过程中。
而本文方法把低秩
收稿日期:2017-02-22#修订日期:2017-05-10
基金项目:国家自然科学基金优秀青年基金项目(61622305);国家自然科学基金青年基金项目(61502238);江苏省自然科学基金杰出青 年基金项目(BK20160040)
作者简介:陈嫒嫒(1992-),女,江苏扬州人,硕士研究生,研究方向为神经网络、模式识别;刘光灿(1982 -),男,湖南邵阳人,博士,教授,硕士生导师,研究方向为模式识别、计算机视觉、图像处理。
E-mail:yycmthgh@
第39卷第4期陈嫒嫒,刘光灿:基于低秩正则化的神经网络学习方法•1035 •
约束嵌入到神经网络的学习过程里,并提出一种扩展的BP 算法对网络参数进行优化求解。
通过实验结果的对比分析 可以看出基于低秩正则化的神经网络在学习速度和预测精 度方面效果显著。
1低秩正则化神经网络
1.1数学符号说明
在本文中,粗体大写字母(比如W)表示矩阵,粗体 小写字母(比如X)表示向量,希腊字母(比如a)表示数 值。
一个矩阵W的第2行7列表示为,,一个矩阵序列的 某个矩阵表示为粗体大写字母加下标,比如^表示一个矩阵序列中的第z个矩阵。
特别地,小写字母m z j,g,r用于表示一些特殊数值,比如矩阵的大小、矩阵的秩 等。
下表对本文所用到的数学符号进行一个简单说明:矩阵:W,A,B。
矩阵的第Z行j列:z z,%,z。
矩阵序列:^,呢,…,。
向量:X,y。
向量序列:X i,X2,…,X n。
数值:a,/?。
特殊数值:m,n,Z,j,{,g,r。
1.2低秩正则化神经网络模型
如图1所示,本文提出的低秩正则化神经网络结合了 传统神经网络模型[13,14]与低秩学习的基本思想。
与传统神 经网络一样,低秩正则化神经网络也由输入层、隐含层、输出层组成。
激活函数选择sigm oid函数/Or)" 1/[1 / exp(—W其对输入产生响应,产生&,1]的值域。
与传统神经网络模型不同的是,在低秩正则化神经网 络中,每层的权值矩阵被约为低秩的
rm々)Z) 4r,Z " 1,…^ (1)式中:W;G於―〃—
—网络中第^层的权值矩阵,r a w—
矩阵的秩,r—阈值。
在本文中,阈值r设置为
r "a •min(m z n)⑵
式中:0<a<1为人为指定的参数。
当a=1时,低秩正则 化神经网络等价于传统的神经网络;当a%1时,网络的有效参数规模被降低,从而提高神经网络学习的抑制过拟合能力。
2学习算法
低秩正则化神经网络中每层的权值矩阵需要通过对训 练数据进行学习而获得。
下面将以回归分析为例来说明低 秩正则化神经网络的学习过程。
假设(&,>!)…(^恳)表 示{个样本,其中X) 4z<{)表示输入数据向量,3Z (4Z4々)表示第z个样本的目标输出。
如果把神经网络 对应的函数记为y " /w(X),那么低秩正则化网络的学习 过程就是寻求最佳的权值矩阵W1,W2,…,W g,使得下列优 化目标最小
m in ?& ||/r(X)—y||2
z=1 3) s. 4 ra n k X W i) 4r i"1,,…,q
上述优化问题的主要难点在于如何处理低秩约束ra<(W i)4r。
为了方便求解,我们首先把式()中的 问题转化为下列等价的优化问题
m in ?&I\/w i x l) —y j|2
i"1
⑷s. 4 W i"A E i,A(R i r,E l(R i n,
i " 1,2,…,q
通过这种方式,对一个权值矩阵w n的求解被转化为求 解两个小矩阵▲和艮。
W i的参数个数为mi X n,Wi "▲坎的参数个数为r(mi /n),这样就达到了对权值矩阵 低秩约束的效果,降低计算参数规模,从而达到降低学习 过程的存储与计算开销,又抑制过拟合的效果。
式()中问题的优化求解可以通过扩展传统B P算法 来实现。
由于不同层中权值矩阵的更新策略是一样的,为 了简化表述,在下文中我们用W表示权值矩阵,用A和B 表示W的低秩分解因子
_z n,z12".z ln_
W =........"A B()
—Z V m1 ,Z V m2…*Z Jm n—
式中:W G,A G B G汧%。
由定义,可知
z i=&a<b kj(6)
k=1
因此,每个a<依赖于,吻,…,Z n。
记
1" 1&W/w(x i)—y A\2()
i"1
根据链式法则,优化目标1对a<的导数为
3E"n i i =〇
kj
式中:可通过传统B P算法获得。
因此,参数A的更新
法则为
•1036 •计算机工程与设计2018 年
a<(t/1* = 7k) t* ——(t*(9)
式中表示学习率(为迭代次数。
同理可以得到参数B的
更新法则
9E=$9E
&d l i j7%
=< ((/ 1* " =<(t*—+6= _ )*(10*
正则化神经网络的训练过程,步骤如下:
以一个神经元为例,/是神经元对应的层数,其中/ =
1,2,…,M,L表示对应层神经元数。
)*初始化各层连接的A和B的值。
)*计算每层的各个神经元的输出&117'
〇( =f(〇f)&%()—*I T1*⑴)
如果9 "1,则T)—D就是输人向量。
)*梯度反向传播。
误差反向传播,输出层输出为
y<" 0<(12*
.—( y<k— 4jk)4jk(1—y3k*9 "M十1
Sjk= -^u9(13*
/y< d—y<)&?()+1),玄95M/1
其中,y<是输人的目标输出。
反向逐层计算梯度值
6—"-,<0—1
)*更新网络A和B的网络参数[18]。
由式(5*〜式(7*可以得到
E
a< (+1* "a< (* —+——(((
6a<
E
=< )+ 1* "=< )*—+6= .(*
)*重复步骤)*〜步骤)*直到收敛。
(14*
(15* (16*
3实验
3.1实验数据与评价准则
本文数据集是从LIBSVM D ata的库里选取的3组不同 的分类数据(见表1*和4组不同的回归数据(见表2*进行 相关实验并将实验结果进行比较。
在训练神经网络前我们 需要对数据进行预处理。
本文采用“归一化’’预处理方法 对数据进行处理。
数据归一化,就是将数据映射到[0, 1] 或[一1,1]区间或更小的区间,在本文中我们是将数据 映射到[0, 1]区间。
归一化算法&9]是一种线性转换算法
X* = (X—m in* /(m a x—m in*(17*
式中:$&是样本的+最小值,是最大值,输人向量为 X,对应的归一化后的输出向量为X*。
对于回归问题,我们采用均方误差(mean square error,MSE*来衡量算法的性能
表13组分类数据的特点
数据
训练样
本数
测试样
本数
样本特
征数
分类数mushrooms568724371122
protein17 76666213572
mnist60 00010 00078010
表2!4组回归数据的特点
数据样本数量样本特征数
triazine18660
mpg3927
abalone41778
cpusmall819212
M S E = 1&||y—y* ||2(18*
i=1
对于分类问题,我们使用分类精度作为评价准则。
假 设X是一个测试样本,有n个类别,^ *是对应的目标输出,^是对应的预测输出。
将分类后的数据与测试数据的已知类 别进行比较,用a表示第(个分类的正确数,定义分类 精度为
& a.
分类精度=测试样本数 (19* 3.2实验过程
本文实验会从4个方面进行研究,4个方面分别是用低 秩正则化神经网络学习方法与传统B P方法和S V M方法在 对数据的分类精度和实验回归性能两个方面进行实验结果 对比;传统B P与低秩正则化神经网络学习方法在神经网络 训练中迭代次数与对应M S E的比较;最后考察式(2*中参数a对性能的影响。
本文会用从LIBSVM D ata里选取4 组回归数据对3个方法的测试样本的回归性能进行比较。
再用3组分类数据进行其余3个实验,对于每组数据集的 网络结构选用5层的网络。
本文的实验结果都是5次实验 取均值。
本文选择3组分类数据进行实验对比。
我们将这3组 数据分别用S V M$传统B P和本文提出的方法进行准确率 的比较,结果见表3。
选择4组回归数据测试回归性能比较 结果见表4。
将传统B P和低秩正则化神经网络两个方法比较一下迭 代次数和对应的M SE,比较两个方法的训练样本的收敛效 果,我们分别做3组数据的实验结果如图2所示。
对于本文提出的方法低秩正则化,我们提出的一种优 化方法是寻找到使实验分类准确度最大的r值,通过不断
第39卷第4期陈嫒嫒,刘光灿:基于低秩正则化的神经网络学习方法•1037 •
表3 3组数据不同方法实验的精度比较
精度X
力法
mushrooms protein mnist
SVM69.2457.2645.54
传统BP89.2587.5385.94
低秩正则化神经网络93.3692.7190.54
表4 4组数据不同方法的回归性能比较调整a值从而调整r的取值,观察分类准确度来找到最优的数据神经网络层数方法MSE值如图3所示。
SVR0.0287接下来用我们选取的4组回归数据,在本文提出的低triazines5传统BP0.0238秩正则化的神经网络学习方法的回归实验中,继续观察本低秩正则化神经网络0.0204文提出的基于B P的优化方法,通过调整a值来改变r的
SVR4.9238值,根据回归过程中对应的M S E的值获得最优的a值,效mpg5传统BP7.9834果如图4所示。
低秩正则化神经网络4.5541
3.3头验结果分析
SVR4.9188
abalone5传统BP4.3315由表3可知在高维数据的情况下本文提出的方法分类低秩正则化神经网络4.0786精度要好于S V M和传统BP,由表4可知低秩正则化神经
SVR26.9810网络学习方法在回归时性能要优秀于传统B P和SVR。
基cpusmall5传统BP9.8541于图2我们可以得出低秩正则化神经网络学习方法与传统低秩正则化神经网络7.0729B P相比收敛速度更快,M S E更低。
从图3和图4的结果中
图3a的不同取值与对应的分类精度
•1038 •计算机工程与设计2018 年
cpusm all regression data.
a的取值
a的取值 a的取值
图4 不同的a值与对应的MSE
我们可以很直观的获取每组数据的最优a值,这是本文提 出的一种优化B P算法,如果想要更精确a关于r的值,我 们可以更加精确地去取a的值,观察对应的分类准确度。
4结束语
根据以上实验结果分析,本文提出的低秩正则化神经 网络学习方法能够有效地避免神经网络参数过多所导致的 过拟合现象,并且在分类准确度、收敛速度以及回归性能 上本文提出的方法更为高效。
对于将高维数据低秩化本文 提出了基于B P算法的优化方法,通过调整a的值来改变r 的值也更加高效。
但是高维样本情况下,神经网络训练的速度和分类精 度还有很大的改善空间,在今后的工作中打算对这一方面 进行进一步的研究,使其能够高效运用在数据处理上。
参考文献:
[1] YINGuangzhi,LIMinghui,LI Wenpu,et al.Model of coal
gas permeability prediction based on improver BP neural network [J].Journal of China Coal Society,2013,38 (7): 1179-1184 (in Chinese).[尹光志,李铭辉,李文璞,等.基 于改进BP神经网络的煤体瓦斯渗透率预测模型&].煤炭学 报,2013,38 (7): 1179-1184.]
&]Zheng Y Y,YaoJ.Multi-angle face detection based on DP-Adaboost [J].International Journal of Automation d Compu-ting,2015,12 (): 421-431.
[3] CAI Canhui,ZHU Jianqing.Real-time face detection using
Gentle AdaBoost and nesting cascade structure [J].Journal of Signal Processing,2013,29 (8):956-963 (in Chinese).[蔡灿辉,朱建青.采用GentleAdaBoost和嵌套级联结构的实时
人脸检测[J].信号处理,2013,29 (8): 956-963.]
[4] TANG Chaohui,CHEN Yuming,WU Keshou.Handwritten
letter recognition algorithm based on rough set positive region [J].Computer Engineering and Applications,2014,50 (23): 118-121 (in Chinese).[唐朝辉,陈玉明,吴克寿.基于粗糙 集正域的首写字母识别算法[J].计算机工程与应用,2014,
50 (23): 118-121.]
[5] Suh Y,Kim H.Probabilistic class histogram equalization
based on posterior m ean estimation for robust speech recognition [J].IEEE Signal Processing Letters,2015,22 (12): 24212424.
[6] Benoit K,Conway D,Lauderdale BE,et al.Crowd-sourced text
analysis:Reproducible and agile production of political data [J].
American Political S cie n ce Review,2016,110 (2): 278-295. [7] Zhang S,Klein DA,Bauckhage C,et al.Fast moving pedes
trian detection based on motion segmentation and new motion features [J].Multimedia Tools and Applications,2016,75
(11): 6263-6282.
[8] JIA Wenqi,LI Ming,ZHU Meiqiang,et
character recognition based on stacked denoising autoencoder [J].Computer Engineering and Design,2016,37 (3): 751756 (in Chinese).[贾文其,李明,朱美强,等.基于栈式降 噪自编码神经网络的车牌字符识别[J].计算机工程与设计,2016,37 (3): 751-756.]
[9] CAI Yongzhi.Research on an improved neural network algo
rithm for license plate recognition [J].Bulletin of Science and Techology,2012,28 (10): 128-130 (in Chinese).[蔡勇智.
一种改进的神经网络算法车牌识别算法研究[J].科技通报,2012,28 (10): 128-130.]
#下转第1077页)0.
0.
9.
9.
8.
8.
7.
7.
H
s
l
A
t
a r
o
'
^
p
s c d s
t r
m
s
s
s
值取
的
第39卷第4期王晚,赵丽:基于双层结构的加速K-N N分类方法•1077 •
cessing k-nearest join based on R-tree in MapReduce[J], Journal〇£Software,2013,24 (8) %1836-1851 (in Chinese).
[刘义,景宁,陈荦,等.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报,2013, 24 ))% 1836-1851.' [12] Pan ZB,Wang YD,Ku WP.A new k-harmonic nearest
neighbor classifier based on the multi-local means [J].Expert Systems with Applications,2017,67 (1): 115-125.
[13] Zhang SC,Cheng DB,Zong M,et a- Self-representation
nearest neighbor search lor classification [J],Neurocompu
ting,2016,195 (6)% 137-142.
[14] Mateos-Garcia D,Garcia-Gutierrez J,RiquelmeSantos JC.
An evolutionary voting lor k-nearest neighbors[J],Expert Systems with Applications,2016,43 (1): 9-14.
[15] LU O Qian.Robust clustering center optimization lor K-means
algorithm[J].Computer Engineering and Design,2015,36
(9) %2395-2400 (in Chinese).[罗倩.K-means聚类中心的
鲁棒优化算法[J].计算机工程与设计,2015,36 (9): 2395-2400.'
(上接第1038页)
[10] LYU Guohao,LUO Siwei,HUANG Yaping,et al.A novll
regularization method based on convolution neural network [J],Jourml o£Computer Research and Development,2014,
51 (9)% 1891-1900 (inChinese).[吕国豪,罗四维,黄雅
平,等.基于卷积神经网络的正则化方法[J].计算机研究 与发展,2014, 51 (9) %1891-1900.'
[11] Dahl GE,Sainath TN,Hinton GE.Improving deep neural
networks lor LVCSR using rectified linear units and dropout
[C]//IEEE Internatioml Conference on Acoustics,Speech
and Signal Processing.IEEE,2013 %8609-8613.
[12] Tai C,Xiao T,Zhang Y,Convolutional neural networks with
low-rank regularization [J],Computer Science,2015.
[13] ZHANG Jingling.Application of BP neural network[J].
Journal of Shijiazhuang Vocational Technology Institute,2015,27 (4) %34-36 (inChinese).[张敬玲.BP神经网络 的应用[J].石家庄职业技术学院学报,2015,27 (4)% 34-36.'
[14] YANG Bin.Application o£artificial neural networking in data
mining [J].Electronic Test,2015,22 (21)% 41-42 (in Chinese).[杨斌.人工神经网络在数据挖掘中的应用[J].
电子测试,2015, 22 (1)%41-42.]
[15] Yilmaz M. A r tific ill neurnl networks pruning approach lor
geodetic velocity field determination [J], Boletim de Ciencias Geodesicas,2013,19 (4) %558-573.
[16] L IU Yijuan,L E I M ing,H E Yang,et al. Overview ol a rtil-
c ill network [J].Electronic Test,2015, 22 (11) %74-75
(in C h in e s e).[刘毅娟,雷鸣,何旸,等.人工神经网络概 述[J].电子测试,2015, 22 (1)%74-75.]
[17] Le Cun Y A,Bottou L,O r GB,et al. Efficient backprop
[G]. LNCS 7700%Neural Networks% Tricks ol the Trade.
Springer Berlin Heidelberg,2012 %9-48.
[18] Yu X, Deng F. Convergence ol gradient method lo r training
ridge polynomial neural network [J], Neural Computing and Applications,2013,22 (1)% 333-339.
[19] Z H U Qingsheng,ZH O U Dongdong,H U A N G W s S Applica
tion research ol preprocess in BP neurnl network sample data [J], W o d S d-T e c h R d D,2012,34 ()%624-626 (in C h-
n e s e).[朱庆生,周冬冬,黄伟.B P神经网络样本数据预处 理应用研究[J].世界科技研究与发展,2012,34 (4)% 624-626.'。