基于低秩正则化的神经网络学习方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2018年4月计算机工程与设计A pr.2018
第 39卷第 4 期 COMPUTERENGINEERINGANDDESIGN Vol. 39 No. 4
基于低秩正则化的神经网络学习方法
陈嫒嫒，刘光灿
(南京信息工程大学江苏省大数据分析技术重点实验室，江苏南京210044)
摘要：针对神经网络参数过多容易导致过拟合这一问题！结合神经网络学习与低秩学习的基本思想，提出一种低秩正则化神经网络，每层的权值矩阵被约束为低秩的，降低网络的有效参数规模，达到防止过拟合的效果。

由于低秩约束的存在，低秩正则化神经网络的学习过程不能直接利用传统B P算法来完成，因此，提出一种扩展的B P算法，用于求解含低秩约束的神经网络学习问题。

实验结果表明，所提方法在分类精度、收敛速度以及预测精度上优于对比方法。

关键词：神经网络；低秩矩阵因子分解；反向传播算法；正则化；数据分类与回归
中图法分类号：TP18 文献标识号：A文章编号：1000-7024 (2018) 04-1034-05
doi： 10. 16208/.. issnl000-7024. 2018. 04. 024
Neural network learning method based on low-rank regularization
CHEN Ai-ai，LIU Guang-can
(Jiangsu Key Laboratory of Big Data Analysis Technology,Nanjing University of
Information Science and Technology,Nanjing 210044，China)
Abstract：To eliminate the over-fitting phenomenon arising from the gigantic nature of the parametric space of neural networks，a low-rank regularized neural network was proposed，which combined the ideas of neural network learning and low-rank learly，the weight matrices in each layer of the proposed low-rank regularized neural network were constrained to be low-rank.In this way，the amount of network parameters was significantly reduced and thus effectively suppressed the over-fitting phenomenon.Due to the low-rank constraints，the traditional back-propagation (BP)algorithm could not be directly used to train the low-rank r egularized neuml network.An extended BP algorithm was proposed for training the neuml networks containing low-rank constraints.Experimental results show that the proposed method is better than the competing methods>in terms of classification accuracy，convergence rate and prediction accuracy.
Key words：neural networks；low-rank matrix factorization；back-propagation；regularization；data classification and regression
3引言
现有神经网络学习方法19'仍存在若干缺陷。

其主要缺陷之一就是会出现学习速度慢，参数过多，容易导致“过拟合’’现象，而且网络参数过多也会给计算成本和存储都带来很大的困难。

针对过拟合问题，众多研究者已经提出了一些有效的方法，比如正则化神经网络算法[10]、Drop o u t11'、数据集扩增等。

本文结合神经网络学习与低秩学习的基本思想，提出了一种称为低秩正则化神经网络的方法。

其基本思想是将原来的每层高维权值矩阵因式分解为两个低维矩阵之积，即：限定每层的高维权值矩阵是低秩的。

通过这种低秩约束，网络的有效参数规模被大大降低，从而达到既防止过拟合，又能降低存储与计算开销的效果。

由于低秩约束的存在，低秩正则化神经网络的学习过程不能直接利用传统 back-propagation(BP)算法来完成。

因此，本文也提出了一种扩展的B P算法，用于求解含低秩约束的神经网络学习问题。

文献&2]也提出过将原来的高维权值矩阵因式分解为两个低维矩阵之积，但他们的低维矩阵是通过对原高维矩阵进行奇异值分解所得到的，也就是说，低秩约束并没有严格嵌人到神经网络的学习过程中。

而本文方法把低秩
收稿日期：2017-02-22#修订日期：2017-05-10
基金项目：国家自然科学基金优秀青年基金项目（61622305);国家自然科学基金青年基金项目（61502238);江苏省自然科学基金杰出青年基金项目（BK20160040)
作者简介：陈嫒嫒（1992-），女，江苏扬州人，硕士研究生，研究方向为神经网络、模式识别；刘光灿（1982 -），男，湖南邵阳人，博士，教授，硕士生导师，研究方向为模式识别、计算机视觉、图像处理。

E-mail:yycmthgh@
第39卷第4期陈嫒嫒，刘光灿：基于低秩正则化的神经网络学习方法•1035 •
约束嵌入到神经网络的学习过程里，并提出一种扩展的BP 算法对网络参数进行优化求解。

通过实验结果的对比分析可以看出基于低秩正则化的神经网络在学习速度和预测精度方面效果显著。

1低秩正则化神经网络
1.1数学符号说明
在本文中，粗体大写字母（比如W)表示矩阵，粗体小写字母（比如X)表示向量，希腊字母（比如a)表示数值。

一个矩阵W的第2行7列表示为，，一个矩阵序列的某个矩阵表示为粗体大写字母加下标，比如^表示一个矩阵序列中的第z个矩阵。

特别地，小写字母m z j，g，r用于表示一些特殊数值，比如矩阵的大小、矩阵的秩等。

下表对本文所用到的数学符号进行一个简单说明：矩阵：W，A，B。

矩阵的第Z行j列：z z，％，z。

矩阵序列：^，呢，…，。

向量：X，y。

向量序列：X i，X2，…，X n。

数值：a，/?。

特殊数值：m，n，Z，j，{，g，r。

1.2低秩正则化神经网络模型
如图1所示，本文提出的低秩正则化神经网络结合了传统神经网络模型[13，14]与低秩学习的基本思想。

与传统神经网络一样，低秩正则化神经网络也由输入层、隐含层、输出层组成。

激活函数选择sigm oid函数/Or)" 1/[1 / exp(—W其对输入产生响应，产生&，1]的值域。

与传统神经网络模型不同的是，在低秩正则化神经网络中，每层的权值矩阵被约为低秩的
rm々）Z) 4r，Z " 1，…^ (1)式中：W;G於―〃—
—网络中第^层的权值矩阵，r a w—
矩阵的秩，r—阈值。

在本文中，阈值r设置为
r "a •min(m z n)⑵
式中：0<a<1为人为指定的参数。

当a=1时，低秩正则化神经网络等价于传统的神经网络；当a%1时，网络的有效参数规模被降低，从而提高神经网络学习的抑制过拟合能力。

2学习算法
低秩正则化神经网络中每层的权值矩阵需要通过对训练数据进行学习而获得。

下面将以回归分析为例来说明低秩正则化神经网络的学习过程。

假设（&，>!)…（^恳）表示{个样本，其中X) 4z<{)表示输入数据向量，3Z (4Z4々）表示第z个样本的目标输出。

如果把神经网络对应的函数记为y " /w(X)，那么低秩正则化网络的学习过程就是寻求最佳的权值矩阵W1，W2,…，W g，使得下列优化目标最小
m in ?& ||/r(X)—y||2
z=1 3) s. 4 ra n k X W i) 4r i"1，，…，q
上述优化问题的主要难点在于如何处理低秩约束ra<(W i)4r。

为了方便求解，我们首先把式（）中的问题转化为下列等价的优化问题
m in ?&I\/w i x l) —y j|2
i"1
⑷s. 4 W i"A E i，A(R i r，E l(R i n，
i " 1，2,…，q
通过这种方式，对一个权值矩阵w n的求解被转化为求解两个小矩阵▲和艮。

W i的参数个数为mi X n，Wi "▲坎的参数个数为r(mi /n)，这样就达到了对权值矩阵低秩约束的效果，降低计算参数规模，从而达到降低学习过程的存储与计算开销，又抑制过拟合的效果。

式（）中问题的优化求解可以通过扩展传统B P算法来实现。

由于不同层中权值矩阵的更新策略是一样的，为了简化表述，在下文中我们用W表示权值矩阵，用A和B 表示W的低秩分解因子
_z n,z12".z ln_
W =........"A B()
—Z V m1 ，Z V m2…*Z Jm n—
式中：W G，A G B G汧％。

由定义，可知
z i=&a<b kj(6)
k=1
因此，每个a<依赖于，吻，…，Z n。

记
1" 1&W/w(x i)—y A\2()
i"1
根据链式法则，优化目标1对a<的导数为
3E"n i i =〇
kj
式中：可通过传统B P算法获得。

因此，参数A的更新
法则为
•1036 •计算机工程与设计2018 年
a<(t/1* = 7k) t* ——(t*(9)
式中表示学习率（为迭代次数。

同理可以得到参数B的
更新法则
9E=$9E
&d l i j7%
=< ((/ 1* " =<(t*—+6= _ )*(10*
正则化神经网络的训练过程，步骤如下：
以一个神经元为例，/是神经元对应的层数，其中/ =
1,2,…,M，L表示对应层神经元数。

)*初始化各层连接的A和B的值。

)*计算每层的各个神经元的输出&117'
〇( =f(〇f)&%()—*I T1*⑴）
如果9 "1，则T)—D就是输人向量。

)*梯度反向传播。

误差反向传播，输出层输出为
y<" 0<(12*
.—( y<k— 4jk)4jk(1—y3k*9 "M十1
Sjk= -^u9(13*
/y< d—y<)&?()+1),玄95M/1
其中，y<是输人的目标输出。

反向逐层计算梯度值
6—"-,<0—1
)*更新网络A和B的网络参数[18]。

由式（5*〜式（7*可以得到
E
a< (+1* "a< (* —+——(((
6a<
E
=< )+ 1* "=< )*—+6= .(*
)*重复步骤）*〜步骤）*直到收敛。

(14*
(15* (16*
3实验
3.1实验数据与评价准则
本文数据集是从LIBSVM D ata的库里选取的3组不同的分类数据(见表1*和4组不同的回归数据(见表2*进行相关实验并将实验结果进行比较。

在训练神经网络前我们需要对数据进行预处理。

本文采用“归一化’’预处理方法对数据进行处理。

数据归一化，就是将数据映射到[0, 1] 或[一1，1]区间或更小的区间，在本文中我们是将数据映射到[0, 1]区间。

归一化算法&9]是一种线性转换算法
X* = (X—m in* /(m a x—m in*(17*
式中：$&是样本的+最小值，是最大值，输人向量为 X，对应的归一化后的输出向量为X*。

对于回归问题，我们采用均方误差(mean square error，MSE*来衡量算法的性能
表13组分类数据的特点
数据
训练样
本数
测试样
本数
样本特
征数
分类数mushrooms568724371122
protein17 76666213572
mnist60 00010 00078010
表2!4组回归数据的特点
数据样本数量样本特征数
triazine18660
mpg3927
abalone41778
cpusmall819212
M S E = 1&||y—y* ||2(18*
i=1
对于分类问题，我们使用分类精度作为评价准则。

假设X是一个测试样本，有n个类别，^ *是对应的目标输出，^是对应的预测输出。

将分类后的数据与测试数据的已知类别进行比较，用a表示第（个分类的正确数，定义分类精度为
& a.
分类精度=测试样本数（19* 3.2实验过程
本文实验会从4个方面进行研究，4个方面分别是用低秩正则化神经网络学习方法与传统B P方法和S V M方法在对数据的分类精度和实验回归性能两个方面进行实验结果对比；传统B P与低秩正则化神经网络学习方法在神经网络训练中迭代次数与对应M S E的比较；最后考察式（2*中参数a对性能的影响。

本文会用从LIBSVM D ata里选取4 组回归数据对3个方法的测试样本的回归性能进行比较。

再用3组分类数据进行其余3个实验，对于每组数据集的网络结构选用5层的网络。

本文的实验结果都是5次实验取均值。

本文选择3组分类数据进行实验对比。

我们将这3组数据分别用S V M$传统B P和本文提出的方法进行准确率的比较，结果见表3。

选择4组回归数据测试回归性能比较结果见表4。

将传统B P和低秩正则化神经网络两个方法比较一下迭代次数和对应的M SE，比较两个方法的训练样本的收敛效果，我们分别做3组数据的实验结果如图2所示。

对于本文提出的方法低秩正则化，我们提出的一种优化方法是寻找到使实验分类准确度最大的r值，通过不断
第39卷第4期陈嫒嫒，刘光灿：基于低秩正则化的神经网络学习方法•1037 •
表3 3组数据不同方法实验的精度比较
精度X
力法
mushrooms protein mnist
SVM69.2457.2645.54
传统BP89.2587.5385.94
低秩正则化神经网络93.3692.7190.54
表4 4组数据不同方法的回归性能比较调整a值从而调整r的取值，观察分类准确度来找到最优的数据神经网络层数方法MSE值如图3所示。

SVR0.0287接下来用我们选取的4组回归数据，在本文提出的低triazines5传统BP0.0238秩正则化的神经网络学习方法的回归实验中，继续观察本低秩正则化神经网络0.0204文提出的基于B P的优化方法，通过调整a值来改变r的
SVR4.9238值，根据回归过程中对应的M S E的值获得最优的a值，效mpg5传统BP7.9834果如图4所示。

低秩正则化神经网络4.5541
3.3头验结果分析
SVR4.9188
abalone5传统BP4.3315由表3可知在高维数据的情况下本文提出的方法分类低秩正则化神经网络4.0786精度要好于S V M和传统BP，由表4可知低秩正则化神经
SVR26.9810网络学习方法在回归时性能要优秀于传统B P和SVR。

基cpusmall5传统BP9.8541于图2我们可以得出低秩正则化神经网络学习方法与传统低秩正则化神经网络7.0729B P相比收敛速度更快，M S E更低。

从图3和图4的结果中
图3a的不同取值与对应的分类精度
•1038 •计算机工程与设计2018 年
cpusm all regression data.
a的取值
a的取值 a的取值
图4 不同的a值与对应的MSE
我们可以很直观的获取每组数据的最优a值，这是本文提出的一种优化B P算法，如果想要更精确a关于r的值，我们可以更加精确地去取a的值，观察对应的分类准确度。

4结束语
根据以上实验结果分析，本文提出的低秩正则化神经网络学习方法能够有效地避免神经网络参数过多所导致的过拟合现象，并且在分类准确度、收敛速度以及回归性能上本文提出的方法更为高效。

对于将高维数据低秩化本文提出了基于B P算法的优化方法，通过调整a的值来改变r 的值也更加高效。

但是高维样本情况下，神经网络训练的速度和分类精度还有很大的改善空间，在今后的工作中打算对这一方面进行进一步的研究，使其能够高效运用在数据处理上。

参考文献：
[1] YINGuangzhi，LIMinghui，LI Wenpu，et al.Model of coal
gas permeability prediction based on improver BP neural network [J].Journal of China Coal Society，2013，38 (7): 1179-1184 (in Chinese).[尹光志，李铭辉，李文璞，等.基于改进BP神经网络的煤体瓦斯渗透率预测模型&].煤炭学报，2013，38 (7): 1179-1184.]
&]Zheng Y Y，YaoJ.Multi-angle face detection based on DP-Adaboost [J].International Journal of Automation d Compu-ting，2015，12 (): 421-431.
[3] CAI Canhui，ZHU Jianqing.Real-time face detection using
Gentle AdaBoost and nesting cascade structure [J].Journal of Signal Processing，2013，29 (8)：956-963 (in Chinese).[蔡灿辉，朱建青.采用GentleAdaBoost和嵌套级联结构的实时
人脸检测[J].信号处理，2013，29 (8): 956-963.]
[4] TANG Chaohui，CHEN Yuming，WU Keshou.Handwritten
letter recognition algorithm based on rough set positive region [J].Computer Engineering and Applications，2014，50 (23): 118-121 (in Chinese).[唐朝辉，陈玉明，吴克寿.基于粗糙集正域的首写字母识别算法[J].计算机工程与应用，2014,
50 (23): 118-121.]
[5] Suh Y，Kim H.Probabilistic class histogram equalization
based on posterior m ean estimation for robust speech recognition [J].IEEE Signal Processing Letters，2015，22 (12): 24212424.
[6] Benoit K，Conway D，Lauderdale BE，et al.Crowd-sourced text
analysis:Reproducible and agile production of political data [J].
American Political S cie n ce Review，2016，110 (2): 278-295. [7] Zhang S，Klein DA，Bauckhage C，et al.Fast moving pedes
trian detection based on motion segmentation and new motion features [J].Multimedia Tools and Applications，2016，75
(11): 6263-6282.
[8] JIA Wenqi，LI Ming，ZHU Meiqiang，et
character recognition based on stacked denoising autoencoder [J].Computer Engineering and Design，2016，37 (3): 751756 (in Chinese).[贾文其，李明，朱美强，等.基于栈式降噪自编码神经网络的车牌字符识别[J].计算机工程与设计，2016，37 (3): 751-756.]
[9] CAI Yongzhi.Research on an improved neural network algo
rithm for license plate recognition [J].Bulletin of Science and Techology，2012，28 (10): 128-130 (in Chinese).[蔡勇智.
一种改进的神经网络算法车牌识别算法研究[J].科技通报，2012，28 (10): 128-130.]
#下转第1077页）0.
0.
9.
9.
8.
8.
7.
7.
H
s
l
A
t
a r
o
'
^
p
s c d s
t r
m
s
s
s
值取
的
第39卷第4期王晚，赵丽：基于双层结构的加速K-N N分类方法•1077 •
cessing k-nearest join based on R-tree in MapReduce[J], Journal〇£Software,2013，24 (8) %1836-1851 (in Chinese).
[刘义，景宁，陈荦，等.MapReduce框架下基于R-树的k-近邻连接算法[J].软件学报，2013, 24 ))% 1836-1851.' [12] Pan ZB，Wang YD，Ku WP.A new k-harmonic nearest
neighbor classifier based on the multi-local means [J].Expert Systems with Applications，2017，67 (1): 115-125.
[13] Zhang SC，Cheng DB，Zong M，et a- Self-representation
nearest neighbor search lor classification [J],Neurocompu
ting，2016，195 (6)% 137-142.
[14] Mateos-Garcia D，Garcia-Gutierrez J，RiquelmeSantos JC.
An evolutionary voting lor k-nearest neighbors[J],Expert Systems with Applications，2016，43 (1): 9-14.
[15] LU O Qian.Robust clustering center optimization lor K-means
algorithm[J].Computer Engineering and Design，2015，36
(9) %2395-2400 (in Chinese).[罗倩.K-means聚类中心的
鲁棒优化算法[J].计算机工程与设计，2015，36 (9): 2395-2400.'
(上接第1038页）
[10] LYU Guohao，LUO Siwei，HUANG Yaping，et al.A novll
regularization method based on convolution neural network [J],Jourml o£Computer Research and Development，2014,
51 (9)% 1891-1900 (inChinese).[吕国豪，罗四维，黄雅
平，等.基于卷积神经网络的正则化方法[J].计算机研究与发展，2014, 51 (9) %1891-1900.'
[11] Dahl GE，Sainath TN，Hinton GE.Improving deep neural
networks lor LVCSR using rectified linear units and dropout
[C]//IEEE Internatioml Conference on Acoustics，Speech
and Signal Processing.IEEE，2013 %8609-8613.
[12] Tai C，Xiao T，Zhang Y,Convolutional neural networks with
low-rank regularization [J],Computer Science，2015.
[13] ZHANG Jingling.Application of BP neural network[J].
Journal of Shijiazhuang Vocational Technology Institute，2015，27 (4) %34-36 (inChinese).[张敬玲.BP神经网络的应用[J].石家庄职业技术学院学报，2015，27 (4)% 34-36.'
[14] YANG Bin.Application o£artificial neural networking in data
mining [J].Electronic Test，2015，22 (21)% 41-42 (in Chinese).[杨斌.人工神经网络在数据挖掘中的应用[J].
电子测试，2015, 22 (1)%41-42.]
[15] Yilmaz M. A r tific ill neurnl networks pruning approach lor
geodetic velocity field determination [J], Boletim de Ciencias Geodesicas，2013，19 (4) %558-573.
[16] L IU Yijuan，L E I M ing，H E Yang，et al. Overview ol a rtil-
c ill network [J].Electronic Test，2015, 22 (11) %74-75
(in C h in e s e).[刘毅娟，雷鸣，何旸，等.人工神经网络概述[J].电子测试，2015, 22 (1)%74-75.]
[17] Le Cun Y A，Bottou L，O r GB，et al. Efficient backprop
[G]. LNCS 7700%Neural Networks% Tricks ol the Trade.
Springer Berlin Heidelberg，2012 %9-48.
[18] Yu X， Deng F. Convergence ol gradient method lo r training
ridge polynomial neural network [J], Neural Computing and Applications，2013，22 (1)% 333-339.
[19] Z H U Qingsheng，ZH O U Dongdong，H U A N G W s S Applica
tion research ol preprocess in BP neurnl network sample data [J], W o d S d-T e c h R d D，2012，34 ()%624-626 (in C h-
n e s e).[朱庆生，周冬冬，黄伟.B P神经网络样本数据预处理应用研究[J].世界科技研究与发展，2012，34 (4)% 624-626.'。