一种基于分类问题的光滑极限学习机
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于分类问题的光滑极限学习机
杨丽明;张思韫;任卓
【摘要】Extreme learning machine ( ELM) had a high learning speed and a good generalization ablity. Smoothing strategy was an important technology for non-smooth problems. By combining a smoothing technique with ELM, a smooth ELM ( SELM) framework was proposed. Moreover, the Newton-Armijo al-gorithm was used to solve the SELM, and resulting algorithm converged globally and quadratically. The proposed SELM had less decision variables and better abitities to deal with nonlinear problems than the existing smooth support vector machine. Numerical experiments demonstrated that the speed of SELM was much faster than that of the existing ELM algorithms based on optimization theory. Compared with other popular support vector machines, the proposed SELM achieved better or similar generalization. The re-sults demonstrated the feasibility and effectiveness of the proposed algorithm.%极限学习机具
有快速的学习速度和良好的泛化性能。
光滑化是一种重要的处理非光滑问题的技术。
将光滑化技术应用于极限学习机,提出了一种光滑化的极限学习机框架,并用Newton-Armijo算法来求解。
该算法具有全局和二次收敛的性质。
与已有的光滑支持向量机相比,该模型有更少的决策变量,并且能够更好地解决非线性问题。
数值实验表明该算法的速度要比传统的极限学习算法更快。
与支持向量机相比,提出的算法有更好的或者相似的泛化性能。
【期刊名称】《郑州大学学报(理学版)》
【年(卷),期】2016(048)003
【总页数】6页(P51-56)
【关键词】极限学习机;光滑化方法;Newton-Armijo算法;神经网络
【作者】杨丽明;张思韫;任卓
【作者单位】中国农业大学理学院北京100083;中国农业大学理学院北京100083;中国农业大学理学院北京100083
【正文语种】中文
【中图分类】TP391
极限学习机(extreme learning machine,ELM)[1-2]是一种新型单隐层前馈神经网络[3],具有结构简单、学习速度快、良好的非线性处理能力和全局搜索性能等优势.不同于传统的神经网络,ELM设置合适的隐层结点数,其隐层输入权向量和偏移量随机赋值,输出层权值可通过最小二乘法得到.研究表明ELM可以达到与支持向量机(support vector machine,SVM)相似的泛化能力[4-6],但是具有更快的训练速度.因此,ELM作为一种新的处理大数据的重要工具已经成为近年来的研究热点.
光滑化方法已经被广泛地应用于不同的优化问题,如连续优化和非线性规划等[7-8].其主要思想是产生一系列的光滑函数来近似原始的非光滑函数.该方法的优点在于光滑化之后高阶导数的信息可以被利用.
本文利用光滑函数ln(1+ε-λx)(这里ε表示自然底数,参数λ>0,λ∈R)逼近函数(x)+=max{0,x}[7],提出了一种光滑的极限学习机模型,并用Newton-Armijo算法[9-10]求解.所提出的光滑极限学习机算法具有全局二次收敛性.
考虑二分类问题.假设由N个样本构成的训练集{(xi,ti),xi∈Rn,ti∈{-1,1},i=1,2,…,N},
其中:xi=(xi1,xi2,…,xin)∈Rn表示输入样本,ti表示样本xi的标示.设隐层结点数为L,激励函数为g(x),则ELM分类的决策函数为:
其中:T,作为一个非线性特征映射,是隐层对于样本x的输出向量;wR∈Rn是第k 个隐层结点的输入权值;bk∈R是第k个隐层结点的偏移值;
β=(β1,β2,…,βL)T∈RL是隐层的输出值.一般有:n>L,因此,ELM特征映射h将数据从高维输入空间x∈Rn映射到低维特征空间h(x)∈RL(L维ELM特征空间).
近来,文献[2]提出了一种新的基于优化理论和方法的ELM.在这种算法中,SVM的软间隔思想被引入到ELM中.文献[2]指出:SVM的最大分类间隔性质和ELM的输出权重范数最小的性质实质上是相同的;与SVM一样,ELM不仅最小化训练误差,也最大化分类间隔;在理论上,ELM特征空间中的所有训练点能以概率1被一个经过原点的超平面线性分开,但是在实际应用中,训练点不能被严格地分开.因此,基于优化理论的ELM(optimization theory-based ELM,OPTELM)模型可表示为如下的优化问题:
其中:参数C是大于0的惩罚参数;ξi∈R表示在ELM特征空间中样本h(xi)∈RL的误差且ξ=(ξ1,ξ2,…,ξN)T∈RN.这是一个二次规划,有全局解,其分离超平面为
h(x)Tβ=0经过ELM特征空间的原点.
在这部分,我们应用光滑化方法到OPTELM上,得到基于优化方法的光滑极限学习机(smooth ELM,SELM),并且通过Newton-Armijo算法求解SELM.
2.1 光滑近似
将式(2)中松弛变量ξ的l1范数替换为l2范数,并赋予权重,得到
令D为对角线元素分别为ti,i=1,2,…,N的N阶对角矩阵,则问题(3)可表示为:
其中:H=(h(x1),h(x2),…,h(xN))T∈RN×L是隐层输出矩阵,e是元素全为1的向量.式(4)是一个二次规划,且目标函数具有严格凸性.因此,式(4)具有唯一全局最优解.由Karush-Kuhn-Tucker条件(KKT条件),得到定理1.
定理1 设(β*,ξ*)为问题(4)的最优解,则ξ*可表示为ξ*=(e-DHβ*)+.
证明较简单,故略去.因此,将式(4)中的ξ替换成(e-DHβ)+,可得无约束凸优化问题:其目标函数是严格凸的,这保证了式(5)只有唯一解.然而,它的目标函数不是二次可微的,因此不能直接应用牛顿法.
应用光滑函数p(x,λ)逼近(x)+,当参数λ→+∞时,p(x,λ)→(x)+.我们得到式(5)的光滑逼近问题,称为SELM:
定理2[11] 设A∈Rm×l,q∈Rm,考虑如下的优化问题:
和
其中:λ>0,可得到结论(ⅰ)~(ⅱ):
(ⅰ) 问题(7)~(8)分别存在最优解和.
(ⅱ) 对于任意的λ,‖‖满足不等式
其中:η=‖Ax-q‖∞.因此,当λ趋向于无穷时λ趋向于.
上述定理表明,当λ充分大时,λ可作为的近似.求解式(6)可得到问题(5)的一个逼近解.
2.2 求解SELM的Newton-Armijo算法
Newton-Armijo算法收敛速度快,且全局收敛,因为问题(6)的目标函数是二次可微的,因此提出了求解SELM的光滑近似问题(6)的Newton-Armijo算法.算法步骤如下:
Step 1:任意给定初始向量,给定C,λ和误差o1,o2的值,令k=0.
Step 2:求解方程组,得到搜索方向dk∈RL.
Step 3:从集合中选取步长νk,使得νk是该集合中最大的满足下面不等式的数: 其中:).令.
Step 4:若‖‖<o1并且‖‖<o2,停止迭代;否则令k=k+1,转Step 2.
上述算法采用一系列线性方程组来解优化问题,学习速度快.关于其收敛性质,有定理
3.
定理3 设解SELM的Newton-Armijo算法产生序列,问题(6)的唯一解是,则(ⅰ) 任给初始点,序列}都收敛到λ;
(ⅱ) 对于任意的,存在正整数K,使得当k≥K时,有νk=1.
因此,求解SELM的Newton-Armijo算法全局收敛,并且经过有限次迭代之后,搜索步变成纯牛顿步,这保证了其具有二次收敛性.
3.1 实验设计
实验在10个UCI数据集上进行,在MATLAB 7.10上实现.选取传统OPTELM[2]和光滑SVM(SSVM[11])作为基准方法进行比较.
为了综合评估所提出方法的有效性,本文利用评价准则为:
1) 精度(accuracy, ACC),F1-measure和马休斯相关系数(Matthews correlation coefficient,MCC).其中,ACC表示两类样本的识别率,F1是精确率和召回率两个指标的调和平均值,MCC是一种综合评价标准,其定义为[12]:
其中:TP和TN分别表示正确的正类和负类样本数,FN和FP分别表示错误的负类和正类样本数.ACC、MCC和F1-measure的值越大,模型越优.
2) Time,整个训练和测试时间.
在SELM中,隐层结点数L利用10折交叉实验从集合
{5,10,20,50,100,200,300,400,500,1 000}中选取,最优值对应精度最高时的值.激励函数选择Sigmoid型函数:.模型SELM的推广能力依赖参数C的选取.一般来说,当它们较大时, SELM强调经验误差最小化;当其较小时,强调输出权重范数‖β‖最小化.因此,这些参数都需优化调整.利用10折交叉实验从集合
{0.01,0.1,1,10,50,100,1 000,10 000}中选取参数C对应精度最高时的值.OPTELM 算法的参数选取与SELM算法相同.
3.2 实验结果
3.2.1 SELM和OPTELM的比较SELM和OPTELM都在最优参数下分别运行
了50次.两种算法在最优参数下的泛化性能比较见表1.
表1显示,在两个数据集上SELM的分类精度ACC低于OPTELM,其余5个数据集上SELM获得与OPTELM相当的运行结果.
因为算法的运行结果依赖其模型参数的选择.则比较当C和L取相同值时,SELM和OPTELM的运行时间.其平均结果显示在表2.
由于Newton-Armijo算法具有二次收敛性,因此运行速度快.与OPTELM比较,表2说明SELM明显地缩短了运行时间.而且对于其他参数组合,SELM的运行速度也
比OPTELM快.
3.2.2 SELM与其他方法的比较把SELM的ACC与线性SSVM (linear SSVM)和非线性SSVM(SSVM-kernel)进行了比较.最优参数下的平均结果见表3.表3显示,对于所有7个数据集,SELM的分类精度明显高于SSVM-kernel.并且,SELM和SSVM精度相当.
为了进一步验证SELM的有效性,把该算法同其传统的ELM[1]、标准的SVM[5]、
l1模SVM(l1-norm SVM)[6]进行比较.结果见表4,其中SVM和l1-norm SVM的结果来自文献[11].
表4说明,在Ionosphere和Pima两个数据集上,SELM的表现明显好于ELM,并且精度略高于SVM和l1-norm SVM.
本文将光滑化技术应用到ELM中,提出了光滑化的ELM模型,主要贡献可归纳如下:1) 利用Newton-Armijo算法求解SELM的近似问题,使SELM继承了阻尼牛顿法全局收敛的优点.并且本文所提出的算法具有快速的二次收敛性.
2) SELM中所有网络参数随机赋值无需调整,其非线性映射具有显式形式.
3) 与SSVM和extreme SVM[13]相比,在SELM中,分类超平面h(x)Tβ=0通过原点,不需要求解偏移量,因此,SELM应用起来更方便.
4) 同OPTELM相比,SELM有更高或类似的泛化性能,而且运行速度更快.SELM比非线性SSVM获得更高的精度和更少的运行时间.同线性SSVM及其他传统方法比较,SELM有着相当的泛化性能.
【相关文献】
[1] HUANG G B,SIEW C K,ZHU Q Y. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006,70(1/2/3):489-501.
[2] HUANG G B,DING X,ZHOU H. Optimization method based extreme learning machine for classification[J]. Neurocomputing,2010,74(1/2/3):155-163.
[3] MATIAS T,SOUZA F,ARAUJO R,et al. Learning of a single-hidden layer feedforward neural network using an optimized extreme learning machine[J].
Neurocomputing,2014,129(10):428-436.
[4] LIU X Y,GAO C H,LI P. A comparative analysis of support vector machines and extreme learning machines[J]. Neural networks,2012,33(9):58-66.
[5] 魏培文,段德全,孙印杰,等. 基于SVM的生物医学事件触发词识别研究[J]. 信阳师范学院学报(自然科学版),2015,28(3):446-449.
[6] ALABDULMOHSIN I,MOUSTAPHA C,GAO X,et al. Large margin classification with indefinite similarities[J]. Machine learning, 2016,103(2):215-237.
[7] CHEN C,MANGASARIAN O L. A class of smoothing functions for nonlinear and mixed complementarity problems[J]. Computational optimization and applications,1996,5(2):97-138.
[8] CHEN X J,DU S Q, ZHOU Y. A smoothing trust region filter algorithm for nonsmooth least squares problems[J]. Science China-mathematics, 2014, 59(5):999-1014.
[9] BALASUNDARAM S,KAPIL D G. 1-norm extreme learning machine for regression and multiclass classification using Newton method[J]. Neurocomputing,2014,128(2):4-14. [10]王小朋,刘翔峰. 一种基于病态问题的修正牛顿法[J]. 河南科技大学学报(自然科学
版),2015,36(1):86-91.
[11]LEE Y J,MANGASARIAN O L. SSVM: a smooth support vector machine[J]. Computational optimization and applications,2001,20(1):5-22.
[12]TRIPATHY A,AGRAWAL A,RATH S K. Classification of sentiment reviews using n-gram machine learning approach[J]. Expert systems with applications, 2016, 57(15):117-126.
[13]LIU Q,HE Q,SHI Z. Extreme support vector machine classifier [C] //Procceedings of the
12th Pacific-Asia conference on advances in knowledge discovery and data mining. Berlin, 2008.。