一种新型学习算法极限学习机当前研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大连大学
论文题目：一种新型学习算法极限学习机当前研究
*名：***
学科、专业：计算机科学与技术
年级： 2015级
日期： 2016年7月
摘要
机器学习是当今大数据时代的核心研究方向，机器学习的研究成果被广泛应用到模式识别、计算机视觉、数据挖掘、控制论等领域当中，并渗透到人们日常生活的方方面面当中。

而在机器学习的研究当中，预测、分类的研究占据着重要的地位，预测、分类模型的性能往往是一个应用成果与否的关键。

数据挖掘，如支持向量机（SVM)、极限学习机（ELM)等，的潜力已经成为了当今机器学习的主流研究方向。

传统前馈神经网络采用梯度下降的迭代算法去调整权重参数，具有明显的缺陷；（1）学习速度缓慢，从而计算时间代价增大；（2）学习率难以确定且易陷入局部最小值；（3）易出现过度训练，引起泛化性能下降。

这些缺点制约迭代算法的前馈神经网络的广泛应用。

针对这些问题，近几年来，许多学者研究极限学习(ELM)算法，该算法仅通过一步计算即可解析求出学习网络的输出权值，同迭代算法相比，极限学习机(ELM)算法提高了神经网络的学习速度。

关键词：神经网络；极限学习机；分类；回归；数据挖掘
目录
摘要 (1)
目录 (2)
1. ELM 算法概述 (3)
3.当前ELM的研究状况 (6)
4.几种ELM结构选择方式的对比 (8)
总结 (11)
参考文献 (12)
1. ELM 算法概述
虽然神经网络研究经过五十多年的发展，已经取得了诸多显着的理论成果，但由于大规模系统中大数据量，高维度的数据中包含的高不确定性，都使得神经网络辨识速度缓慢而难于满足实际要求。

例如在数据挖掘、智能控制领域，使用神经网络控制方法虽然可以辨识高度复杂和非线性系统，解决被控对象复杂和高不确定时的建模问题，但神经网络的实时性是非常差，学习时间过久。

此外，对于大中型数据集的系统辨识和分类、回归问题，传统神经网络方法如BP网络、RBF网络、SVM算法等不仅需要大量的训练时间，还会出现“过
饱和”、“假饱和”和最优化隐含层节点数目难以确定等各种问题。

2004年南洋
理工大学Huang G.B.教授等人提出了ELM算法。

极限学习机（ELM Extreme Learning Machine)是一种快速的单隐含层神经网络（SLFN）[1,2]。

ELM神经网络和BP神经网络、RBF神经网络一样，都是SLFN(single-hidden layer feed forward neural network)。

近几年来相继提出了基于极限学习的多种神经网络学习算法，
将神经网络研究又推进了一步。

在传统的人工神经网络中，网络的隐含层节点参数是通过一定的迭代算法进行多次优化并最终确定的。

这些迭代步骤往往会使参数的训练过程占用大量的时间，并且，例如BP算法很容易产生局部最优解，从而使网络训练过程的效率得不到保证，同时迭代耗时比较多。

图1.1
为增强构建网络的整体性能，ELM神经网络的隐含层到输出层的之间的连接不需要迭代，该算法的特点是在网络参数的确定过程中，隐含层节点参数随机选取，在训练过程中无需调节，只需要设置隐含层神经元的个数，便可以获得唯一的最优解;而网络的外权（即输出权值）是通过最小化平方损失函数得到的最
小二乘解，最终化归成求解一个矩阵的 Moore-Penrose 广义逆[3]。

这样网络参数的确定过程中无需任何迭代步骤，从而大大降低了网络参数的调节时间。

与传统的训练方法相比，该方法具有学习速度快优点，可以采用最小二乘原理求出[4]。

};,....,{X 21n x x x =为数输入数据},...,{21n y y y Y =为输出数据，i i b a ,表示第i 个隐含层的参数，）（i i i x b a ,,G 为第i 个隐含层的启动函数， i β是第i 隐含层都输出层的连接权值，针对于训练集（X ，Y ）具有以下关系；
∑==L i j i i X b a G f 1),,()X (β
i e 是训练集中第i 样本误差即;)(i i i y x f e -=T Y T =
；
）（∑∑∑===-==n j i L i j i i i n j j L y x b a G e 11121|),,(|,....,ββββϕ
;B ),,(.......)
,,(G :::),,(.......)
,,(H 21111111⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=⨯L L N n L L n L L x b a G x b a x b a G x b a G βββ：，令
；则可以表示成　T HB = T H +∧
=B ELM 算法:
① Input:给定训练样本集{X ，Y}层输出函数),,(i i i x b a G 和隐含层节点个数L.
② 随机生成隐含层的参数i i b a ,；
③ 计算隐含层输出矩阵H ;
④ Output:网络外权T +=H B ；
其中,加法型隐含层节点的单隐含层神经网络的启动函数可以选作任意有界非常数分段连续函数;而对于RBF 型隐含层节点的单隐含层神经网络,启动函数可以选作任意分段连续可积函数。

数据压缩、特征学习、聚类、回归和分类是机器学习和机器智能的基础。

极
(2.1)
(2.2) (2.3)
限学习机的目标实现这五种基本学习操作[5]。

2.2图
近年来，极限学习机（Extreme Learning Machine, ELM）作为一种新兴的机器学习方法，在全世界许多研究者的不断研究下，已经成为了一个热门研究方向。

极限学习机主要有以下四个特点：
（1）极限学习理论探讨了神经网络、机器学习领域悬而从未决的问题：在学习过程中隐含层节点数目，神经元之间的权值是否需要调整。

与传统神经网络有所不同，在理论父母已经证明，对于ELM神经网络和学习算法，隐含层节点，神经元不需要迭代式的调整，而早期工作并没有提供随机隐含层节点前馈神经网络的理论基础。

（2）极限学习机的相同构架可用作特征学习，聚类，回归和（二类/多类）分类问题。

（3）相比于极限学习机，支持向量机（SVM）和最小二乘支持向量机（LS ‐SVM）趋向于得到次优解。

支持向量机和最小二乘支持向量机也没考虑多层前馈网络中隐含层的特征表征[6]。

3.当前ELM的研究状况
我们知道神经网络的学习速度是至关重要的，但目前的情况远远小于我们要求的，多年来，它都是其应用的一个瓶颈，主要有两个原因：
（1）基于梯度的慢的学习算法，
（2）神经网络中的参数需要迭代调整。

比如说BP。

为此，黄广斌等2004 年针对单隐含层前馈神经网络（SLFNs）提出了ELM 算法，并在2006 年对ELM 做了进一步研究，给出了部分理论证明及应用[1,2]。

但是该算法同时也有一些缺点，主要是网络结构的确定没有启发性算法，只能随机指定隐含结点个数，隐含层结点个数的多少直接影响了分类器最后的精度和性能[7]，此外尽管随机指定隐含层权值和偏置使得网络的学习速度很快，但也同时使得该网络不稳定，两次独立的实验结果可能会相差较大，网络输出波动较大。

另外对于该算法中随机指定权值和偏置能否使网络具有一致逼近能力有待进一步证明。

针对ELM 的这些优点和缺点，近年来众多专家学者投身于其研究中研究方向如下：
(1)随机生成参数的优化：由于隐含层节点参数随机选取,从而使得隐含层不具有调节能，,因此，隐含层元在构建的单隐含层网络中不具有多大的作用。

在不影响ELM算法学习能力和预测能力的情况之下，对其隐含层进行优化显得更加重要。

在2010年Huang G. B.和Lan Y.等提出CS_ELM[8]和TS_ELM[9]，用不同的方法对随机生成的隐含层节点参数进行筛选，淘汰显着性较弱的隐含层,来实现对已得ELM算法的优化。

2011年, Wang Y. G., Cao F. L.和Yuan Y. B.提出了对角占优的方法(EELM) [10]来优化隐含层节点参数，因此保证了隐含层输出矩阵的非奇异性，提高了ELM算法的稳定性。

Rong H. J.等提出了P-ELM[11]，针对分类问题的ELM算法，利用统计学原理，裁剪对网络分类效果影响较弱的隐含层来实现网络结构的优[7]。

(2)最优外权的求解：由于ELM的外权求解过程中要用到求解隐含层输出矩阵的Moore-Penrose[3]广义逆,而隐含层矩阵奇异和接近奇异的情况不能得到有效的避免,为提高所构建ELM算法的学习能力,避免噪音带来的广义扰动所产生的偏差,Toh K. A.等均借助添加正则项的方法优化了最优外权的选取[7]。

(3)最优隐含层节点个数的选取:针对ELM算法需要较多的隐含层节点个数
来弥补隐含层节点参数随机选取带来的缺陷这一问题, Huang G. B.等在2006年和2008年先后提出了I-ELM[13]和EI-ELM[14]来优化随机选取的隐含层节点参数,从而大为简化了ELM算法的复杂程度,提高了其优化效率.然而由上述算法过程可知,最终确定的外权并不能保证是相应单隐含层的最优外权.针对该问题, Huang G. B.等在2009年提出EM-ELM[15]实现了在增加隐含层元的过程中,求得相应单隐含层的最优外权,同时又避免了对上一级隐含层输出矩阵的重复计算。

(4)ELM核函数:在原始的ELM算法中, Huang G. B.等在2004年提出了训练对应于常加法型隐含层节点网络[1]以及径向基型隐含层节点的单隐含层网络的ELM算法[16]。

结合支持向量机的学习原理Huang G. B.等又在2010提出了ELMKernel,利用该方法[17]所构建的ELM算法较Liu Q.[17]和Frenay B[18].所提出的Extreme SVMs有着更少的约束条件和更好的学习能力。

(5)在线ELM算法:在很多情况下,数据的采集往往是一个在线过程,也就是说,所有的样本数据不能一次性的得到,而是每隔一定的时间得到一批数据.由于样本不能同时得到,这样就使得数据的训练过程变得非常复杂.针对这一情况,Liang N. Y.和Huang G. B.提出了处理在线数据的OS-ELM[19]，该方法有效地将新旧样本的训练衔接在一起,同时避免了对已有数据的多次重复训练。

4.几种ELM 结构选择方式的对比
在学习了有关Extreme Learning Machine (ELM) 的一些基础的及其扩展的论文，对ELM 有了更深入的了解。

由于ELM 中隐藏层和输出层的权重分别是随机和分析得到的，唯一不能确定的（需要人为指定的）是隐节点的个数，也就是网络结构的大小。

本文对当前已有的有关ELM 的结构选择方法进行了简单的介绍和比较[20]。

在神经网络的研究中，如何确定网络结构一直是一个公开问题。

在模式识别中，我们都知道如果我们设计的网络太小，则它不能够很好的拟合训练数据，这样的网络，我们肯定也不希望它能够很好的拟合未见数据。

另一方面，如果网络太大，它又可能会过拟合训练数据，导致不能拟合未见数据。

另外，网络太大会造成计算更复杂，对运行环境提出了更高的要求。

ELM 是基于单隐藏层前馈型神经网络设计的，它的主要优势在于计算复杂度低，是一种简单和易于实现的方法。

但是，在原始的ELM 中没有提供一个关于网络结构设计的有效的解，在大多数情况下，我们是通过多次试验，以训练误差为标准来选出的适当的隐节点个数。

这样做，在很多应用中就变得很乏味而且很难找到一个最优的解。

所以，很多研究人员改进了原始的ELM ，通过一个学习算法来计算所需隐节点的个数。

一般来说，对于SLFNs 的构造有两种启发式的方法：一是构造的方法，也就是加节点的方法；另一个就是剪枝的方法。

目前已有构造法的方法，包过I-ELM, EM-ELM, CS-ELM,。

剪枝的方法有。

P-ELM,和OP-ELM [21]接下来，对这几种方法进行简单的介绍和比较。

构造方法的主要思想就是先初始化一个简单（隐节点个数比所需要的少）的网络结构，然后一个个或一组组的加隐节点。

通过控制最大的隐节点个数和期望的误差，来停止学习过程，进而得到所需的网络结构。

主要有I-ELM 和EM-ELM ，下面简单的介绍这两种方法。

I_ELM 算法，给定一个训练集(){},|,,1,
,n i i i i D x t x R t R i N =∈∈=，启动函数()g x ，最大的隐节点个数~max N ，期望的学习误差ε：
Step 1) 初始化过程：设置~0N =，残差E t =，其中[]1,
,T
N t t t =。

Step 2) 学习过程：当~~
max N N <并且E ε>
a) 一个个的增加隐节点~~~:1N N N =+；
b) 随机设置新加入的隐藏层节点的权值~N w 和偏置~N b ； c) 对于每一个新加的隐节点，计算输出权值~N
β： ~
~~~
T N T N N N E H H H β⋅=⋅； d) 计算新加入隐节点~N 后的残差~~N N
E E H β=-⋅。

在Step 2 即学习过程开始前，网络中节点个数为0，残差E 初始化为训练数据集的期望目标向量t. 当隐含层节点的个数~N 大于预先设定的最大数~
max N 或者残差E 小于等于期望误差时，学习过程停止。

EM_ELM 与I-ELM 给出的前提条件一样，
Step 1 初始化阶段
a) 初始化一个具有0L 个隐节点的SLFN ，其中0L 是一个人为给定的
小的正整数；
b) 计算隐藏层输出矩阵1H ；
c) 计算相应的残差()+111=-E H H H T T ；
Step 2 学习过程，设置k =0；
当~max k L N <并且()k E H ε>时
a) k =k +1;
b) 随机的增加1k L δ-个隐节点，则总的隐节点数目变成11k k k L L L δ--=+，相应的隐藏层输出矩阵[]1,k k k H H H δ+=；
c) 计算此时的残差()1k E H +.
I-ELM 算法与EM-ELM 算法的比较：它们的主要区别是：I-ELM 增加新的隐节点时，原有已存在的隐节点的输出权值保持不变；但是当EM-ELM 增加新的隐节点时，相应的输出权值是一直重复更新的。

剪枝方法的主要思想是：先生成一个具有比所必需的隐节点个数多的SLFN ，然后根据各种方法一个个的剪掉不必要的隐节点，从而得出最优的网络结构。

主要有P-ELM [11]和OP-ELM [12]，下面介绍这两种方法的主要内容。

P-ELM [11]算法：给定一个训练集D ，启动函数g ，初始化的隐节点个数~
N ，一个相关度阈值()12,,,q γγγγ。

1）把训练集分成互不相交的学习集和验证集；
2）随机设置隐含层节点参数，并计算隐藏层输出矩阵H ；
3）用统计的方法2χ或IG 计算每个隐含层节点与类目标相关度，然
后按降序排列；
4）对于每一个相关度阈值i γ；
a) 找出满足i γ的的隐含层节点子集i S ，并计算相应的验证精度
i o ；
b) 计算()(),i i AIC i f S o =；
5）选择()min AIC 对应的隐节点子集*S ；
6）重新训练网络用整个训练集和隐节点子集*S ；
7）用测试数据评价新的网络的性能。

OP-ELM 算法步骤：
1）构造SLFN 用原始的ELM 算法；
2）用多响应稀疏回归算法对隐节点进行排序；
3）用留一交叉验证选择最优的隐节点个数。

P-ELM 算法与OP-ELM 算法的比较：这两种方法的思路都是先根据某种方法对隐节点进行排序，然后再用一种结构选择方法选择所需要的隐节点个数。

唯一的区别就是所用的方法不同。

构造方法的主要思想就是，先构造一个较小的网络，然后一个个或一组组的
加隐节点；剪枝方法是，先构造一个比所需的隐节点个数大的网络，然后再一个个的把不必要的剪掉。

对于剪枝算法来说，我们很难确定开始构造的网络的大小，为了能找到最优的，往往我们构造了一个比需要的大的多的网络，这样就增加了计算复杂性，需要更多的训练时间[21]。

对于构造算法来说，它们不能自动的获得最优的网络结构，因为一般来说，构造算法都是当隐节点个数达到一个最大值或是小于一个期望误差时才停止；而隐节点个数的最大值和期望误差都是人为确定的。

总结
ELM算法采用不用迭代而是随机产生隐藏层权值，然后分析决定输出层权值的方法，大大的减少了学习时间，给很多应用带来了方便。

对ELM唯一需要确定的隐节点个数，很多学者也有了这方面的研究，取得了不少的成果，比如以上讲的构造方法和剪枝方法。

但是，在这些结构选择的方法中，一般都需要设置一些参数，比如构造方法中的最大隐含层节点个数和期望误差，剪枝方法中的开始构造的网络大小，而这些参数一般都是很难确定的，不同的数据集这些参数有时差别还很大。

若是在构造网络结构时，不需要人为的设置一些参数，或者对不同的数据集参数设置都是一样的，这样的方法值得期待。

由于极限学习机的隐含层节点数目是随机给定的，而实际实验显示隐含层节点数目的选取很大程度上决定了神经网络的系统辨识精度（测试误差）是否可最优。

换言之，就是极限学习机的神经元数目直接关系到神经网络的系统逼近与泛化性能。

目前最优神经元个数的选择方法依然只能通过试凑法来获得，这大大影响了极限学习机的实际应用效果。

参考文献
[1].Huang G B, Zhu Q Y, Siew C K. Extreme learning machine：a new learning scheme of feed forward neural networks [C]. In Proceedings of the International Joint Conference on NeuralNet works (IJCNN 2004). Budapest, Hungary, July 2004: 985–990.
[2].Huang G B，Zhu Q Y，Siew C K. Extreme learning machine: Theory and applications [J]．Neuro computing．2006，70：489–501．
[3].Ortega J M. Matrix Theory [M]. New York and London: Plenum Press, 1987.
[4].刘学艺. 极限学习机算法及其在高炉冶炼过程建模中的应用研究[博士]: 浙江大学; 2013.
[5].曾志勇. 结合ELM和非负矩阵分解的数据表示方法的研究与应用[硕士]: 杭州电子科技大学; 2014.
[6].毛小冬.核极限学习机的理论与算法及其在图像处理中的应用[博士]:浙江大学;2014.
[7].王智慧BP神经网络和ELM算法研究[硕士]:中国计量学院;2012.
[8].Lan Y, Soh Y C, Huang G B. Two-stage extreme learning machine for regression [J]. Neuro-computing. 2010, 73: 3028–3038.
[9].Lan Y, Soh Y C, Huang G B. Constructive hidden nodes selection of extreme learning machine for regression [J]. Neuro computing. 2010, 73: 3193–3199. [10].Wang Y G, Cao F L, B Y Y. A study on effectiveness of extreme learning machine [J]. Neuro-computing. 2011, 74: 2483–2490.
[11].Rong H J, Ong Y S, H T A, et al. A fast pruned-extreme learning machine for classification problem [J]. Neurocomputing. 2009, 72: 359–366.
[12].Huang G B, Saratchandran P, Sundararajan N. An efficient sequential learning algorithm for growing and pruning RBF networks. IEEE Transactions on Systems Man and Cybernetic Part 2004,34(6):2284-2292
[13].Huang G B, Zhu Q Y, Siew C K. Universal approximation using incremental constructive feed-forwardnetworks with random hidden nodes [J].IEEETransactionson Neural Networks.2006,17 (4): 879–892.
[14].HuangG B, Chen L. Enhancedrandom search based incrementalextreme learning machine [J].Neurocomputing. 2008, 71: 3460–3468.
[15].[15] Feng G R, Huang G B, Lin Q P, et al. Error minimized extreme learning machine with growth of hidden nodes and incremental learning [J]. IEEE Transaction on Neural Networks. 2009, 20:1352–1357.
[16].Lan Y, Soh Y C, Huang G B. Two-stage extreme learning machine for regression [J]. Neuro-computing. 2010, 73: 3028–3038.
[17].Liu Q, He Q, Shi Z. Extreme support vector machine classifier [J]. Lecture Notes in Computer Science. 2008, 5012: 222–233.
[18].Frenay B, Verleysen M. Using SVMs with randomised feature spaces：an extremelearning approach [C].In The 18th European Symposiumon Artificial Neural Networks(ESANN2010).Bruges, Belgium, April 2010: 315–320.
[19].Wang Y G, Cao F L, B Y Y. A study on effectiveness of extreme learning machine [J]. Neuro-computing. 2011, 74: 2483–2490.
[20].Heeswijk M, Miche Y, E O, et al. GPU-accelerated and parallelized ELM ensembles for large-scale regression [J]. Neurocomputing. 2011, 74: 2430–2437. [21].周正华基于神经网络和稀疏表示的几何造型理论与方法研究[博士]:上海大学,2015.。