基于旋转森林和极限学习机的大样本集成分类算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于旋转森林和极限学习机的大样本集成分类算法
杜晓明
【摘要】由于信息技术的飞速发展,在实际的数据处理过程中,单个分类器往往不能满足:①要求越来越高的数据分类精度和运行速度;②更强的泛化性能;③有效地适用于大样本数据分类.将旋转森林算法(rotation-forest,ROF)与极限学习机(ex-treme learning machine,ELM)相结合,有效地解决了旋转森林算法中过拟合现象的发生;同时也提高了算法的分类性能.最后通过UCI数据集的实验验证表明,和传统的集成分类算法相比,算法R-ELM-C与Bagging、Adaboosting、Rotboost、ROF、ELM等相比,具有更好地分类性能、稳定性与泛化性能,同时也适合于大样本数据分类.
【期刊名称】《科学技术与工程》
【年(卷),期】2018(018)018
【总页数】5页(P231-235)
【关键词】大样本数据;旋转森林;极限学习机
【作者】杜晓明
【作者单位】江苏科技大学经济管理学院,镇江212003
【正文语种】中文
【中图分类】TP391.43
Huang等提出极限学习机(extreme learning machine, ELM)学习算法[1,2]。

在
训练前，ELM只需随机分配隐层到输入层的权重和偏置值；而在算法训练过程中
无须调整输入权值和对应隐层的偏置值。

对于输出层来讲，可以生成合适的解析解。

从理论上，ELM可以获得良好的泛化性能和较好的训练速度。

研究表明，尽管ELM在很多情况下均能取得较好的分类性能；但ELM也存在自身的缺点，隐层的节点数、隐层到输入层的权重以及偏置值等参数的设置对ELM的最终分类性能起着决定性的作用，参数选择得不恰当，势必会产生较差的分类效果[3,4]。

因此，
单个分类器已经不能满足对数据精确分类的需求，尤其是大样本数据的分类，集成算法于是成了研究者研究的焦点[5,6]。

顾名思义，集成算法就是对同一对象而言，不再采用单一的机器学习方法进行学习和预测；而是结合多个机器进行综合学习，目的得到较好的预测结果。

文献[7—12]指出，对众多集成算法而言，基分类器之
间的差异直接影响算法的优劣。

换句话说，如果基分类器拥有较高的分类性能；并且各基分类器直接的差异足够大，该集成分类器将会获得较好的分类效果。

所以，只要保持基分类器的分类精度，放大各基分类器间的差异，可以极大地改善集成分类器的分类效果[13]。

近期，研究者主要从以下两方面提高集成分类器的分类效果：①放大基分类器间的差异；②努力提高每个基分类器的分类性能。

这样的研究工作很多。

但是最能引起注意的是文献[14,15]中的报道，通过对训练集进行多次有放
回的采样，由此构造的训练集来训练各个基分类器，努力放大各基分类器间的差异；Pedrajas[16]对每个基分类器设置不同的权值；并且进行多次迭代，也增大了各基分类器间的差异。

文献[17]构造多层感知器获得Bagging基分类器，以期望获得
较好的分类性能；在无标签数据集成分类方法的前提下，构造逻辑回归做成基分类器，它有效解决了训练样本较少的分类问题。

Rodriguez等[18]提出一种改进的旋转森林集成算法(ROF)。

该算法中基分类器由决策树构成，在学习训练过程中，由于构建的集成分类器相对比较复杂；因此不可避免地产生了过拟合的现象。

正是由于神经网络良好的自适应性，它可以有效解决这种过拟合问题。

比如Huang等提
出ELM，该方法就能有效地解决分类过程中的过拟合现象的发生[1,2]。

本文提出一种新的将旋转森林与极限学习机混合的集成算法(R-ELM-C)。

该算法分为以下两步：①借助于原始的ROF处理各基分类器训练集，以此扩大各基分类器
间的差异性；②将ELM算法选作基分类器，解决ROF中的过拟合现象，同时能
提高分类性能，保持更好的稳定性和泛化性能，还能适合于大样本数据分类。

1 相关算法
1.1 极限学习机ELM算法
ELM[1，2]是一种高效的SLFNs学习算法，其隐层参数都是随机产生。

设数据集{xi,ti}(i=1,2，…,N)，其中N为样本数，xi=[xi1,xi2,…,xin]T∈Rn，ti为类标签，
ti=[ti1,ti2,…,tim]T∈Rm，则极限学习机的输出[1，2]表示为
(1)
式(1)中，wj为第j个隐节点的输入权值，即wj=[wj1,wj2,…,wjn]；bj为隐层偏置值；βj为第j个隐节点的输出权值，即βj=[βj1,βj2,…,βjm]；L为隐层节点数；G(·)为隐层节点的激励函数；h(xi)为隐层对于xi的输出向量[1,2]，即
h(xi)=[G(w1,b1,xi),G(w2,b2,xi),…,G(wL,bL,xi)]。

利用ELM解决实际分类问题时，为了进一步增强其泛化性能，通常将其优化为[2]
(2)
式(2)中，ξi为训练误差，C为惩罚因子。

对于式(2)，通过解其对偶问题，ELM的输出可以重新描述为
(3)
相对于传统的分类器，ELM明显提高了训练效率，保持了良好的分类精度，其应用非常广泛。

但是，诸如训练集样本少，标签类别较多，不规则的多维数据等复杂问题时，ELM分类的性能不是很理想。

1.2 旋转森林ROF算法
旋转森林是一种基于主成分分析(PCA)的集成学习算法[19]。

当出现基分类器的输出间差异较大时，结合众多基分类器产生的一致分类结果的分类精度才能得到提高[20]。

该算法是在创建一系列的基分类器时利用主成分分析法对训练集特征转换，得到各基分类器的子集。

该算法的核心是利用训练源训练集来达到训练各个基分类器的目的，既保证各基分类器的分类精度，又能生成很多子集，无形中扩大了各基分类器间的差异性。

2 旋转森林与极限学习机混合的集成算法
对于原始的ROF，利用决策树构建基分类器，但是决策树在处理大样本数据时，很容易出现过拟合问题，而且运行的速度也很缓慢。

而ELM训练速度快，完全可以弥补ROF的缺陷。

不过单独的ELM对复杂的大样本数据处理时，泛化性能相对较差。

所以利用ELM与ROF进行结合，既保持了分类的精度，也可以提高算法的泛化性能，同时还可以适用于大样本分类。

R-ELM-C的训练和分类算法总结如下。

算法 1: ELM网络训练
输入:数据集{xi,ti},i=1,2，…,N，其中N为样本数，xi=[xi1,xi2,…,xin]T∈Rn，ti为类标签，ti=[ti1,ti2,…,tim]T∈Rm，p为基分类器的个数，q为子集个数，c为类别数。

阶段1：特征划分
For i=1 to p do
For j=1 to q do
Step 1: 将源特征集F划分为q个子集，得到{F(i,j)},j=1,2，…,q。

End For
End For
阶段2：ELM网络训练
For i=1 to p do
For j=1 to q do
Step 2: 采用源数据集Xij中70%的数据作为采样数据
Step 3: 利用主成分分析法对采样数据特征提取，得到主成分系数这里每个系数设定为M×1。

Step 4: 构造旋转矩阵：
(4)
Step 5: 重排Bi中的列，表示为
Step 6: 训练ELM网络
Step 6-1: ELM基分类器的训练集设定为
Step 6-2: 给定激励函数G(·)。

Step 6-3: 设定隐节点数L。

Step 6-4: 随机生成wj和bj。

Step 6-5: 计算隐层输出H。

Step 6-6: 计算输出权重：
(5)
End For
End For
式(5)关于适合于大样本分类的情况，文后有详细解释。

接下来解释分类算法。

算法 2: 分类
输入:待分数据集xi=[xi1,xi2,…,xin]T∈Rn，分类编号
Aij={0},i=1,2，…,p,j=1,2，…,c。

For i=1 to p do
For t=1 to c do
Step 1: 如果分类器Ci将x分到第wj类，则分类编号Aij=1，否则Aij=0。

Step 2: 计算x的类别：
v(x)=
j=1,2，…,c
(6)
End For
End For
对于算法1中的式(5)，传统的计算输出权重β，采用的迭代方程是很明显，该迭代方程时间复杂度是O(N3)，当样本数N较大时，使用该迭代方程求解输出权重β，效率是很低的。

在算法1式(5)中，借助于一个简单的数学转化[21]得到方程的解析解，和传统的计算输出权重不同，采用的迭代方程是经分析发现，该迭代方程的时间复杂度是O(L3)，L是隐节点数。

一般来讲，隐节点数要比训练样本数小很多，所以式(5)的使用完全可以使得该算法适合大样本数据分类。

3 实验和结果
算法R-ELM-C表现能力进行验证。

从UCI数据库选取了9组真实数据和1组Kddcup99 dataset。

用所提算法R-ELM-C与其他几种对比算法Bagging[14]、Adaboosting[15]、Rotboost[16]、ROF[18]、ELM[1，2]进行对比。

选取的数据集包括小数据集、中等数据集以及大样本数据集。

关于数据集的描述请见表1所
示。

每个样本集中，选取75%的数据作为训练集，剩余作为测试集。

每组数据运行10次，取其平均值作为最终的运行精度。

各个数据集隐节点数分别设置为Liver(10)、Mushroom(40)、Magic04(100)、Adult(100)、Skin-Segmentation(150)、Iris(5)、Page-blocks(40)、Winequality(40)、
HAPT(100)、Kddcup99(200)。

而对比算法Bagging[14]、Adaboosting[15]、Rotboost[16]、ROF[18]均采用引文中最佳参数，Bagging迭代次数为10，Adaboosting迭代次数为10，Rotboost迭代次数为10，ROF构造的子特征数为3，Rotboost构造的子特征数为3。

表2展示了当基分类器数为20和40时的分类精度，从分类结果中可以看出，基分类器数为20时，所提R-ELM-C算法在选用的10组数据集中，其中有7组数据集对应的分类精度最高，充分表明了所提算法在改善分类性能，尤其是分类精度上有一定的改进作用。

从表2中也可以看出，Liver、Iris和Page-blocks这三组数据均没有获得较满意的分类精度。

这可能与这3组数据的自身特点有关系。

而所提算法R-ELM-C则利用特征分割操作和PCA处理操作来扩大分类器集之间的差异性。

同时从实验结果可以看出，R-ELM-C算法总体分类精度比其他几种对比算法要高，没有出现精度特别低的情况，对二分类和多分类都适用，这也说明R-ELM-C算法的泛化性能比较好。

表1 10个数据集Table 1 Ten data setsNoDatasetsNumberTraning samplesTesting samplesFeaturesClasses1Liver25986722Mushroom6 0932 *******Magic0414 2654 7551124Adult36 63112 2111425Skin-Segmentation183 79361 264426Iris11337437Page-blocks4 1051 3681058Winequality3 6741 2241279HAPT8 1972
7325611210Kddcup99370 516123 5054123
还讨论了不同基分类器数对分类结果产生的影响。

从表2、表3可以看出，在基分
类器数增加的同时，各个算法的总体分类精度都呈现增加的现象，但在表3中，
所提R-ELM-C算法，除了Liver、Iris和Page-blocks数据集外的7个数据集同
样取得了最佳的分类精度，这充分表明了R-ELM-C算法具有较好的稳定性。

最后还展示了不同基分类器数情况下，各个对比算法的运行时间。

从表4可以看出，在基分类器数从10增加到50的过程中，各个算法的总体分类时间都在增加。

在几种对比算法中，R-ELM-C的运行速度不如算法Bagging和Adaboosting，
但其分类精度有了很大优势，主要原因归结于所提算法需要特征分割和构建旋转矩阵，从而导致了运行速度变慢。

从R-ELM-C与传统的ELM对比可以看出，不论
是分类精度还是运行速度，改进的R-ELM-C算法均占绝对的优势。

从表4还可以看出，所提算法R-ELM-C与其他几种算法对比，其运行速度也在可接受的范围内。

表2 基分类器数目为20和40时的分类精度Table 2 Classification accuracy when the number of base classifiers is 20 and 40DatasetClassification accuracy/%BaggingAdaboostingRotboostROFELMR-ELM-
C204020402040204020402040Liver61.2562.0859.2162.2576.7177.2976.217 7.3467.8969.6476.7177.12Mushroom71.2871.9277.8977.9296.0596.0595.17 95.6692.5892.8496.2596.15Magic0462.6962.9659.6161.2977.8479.9677.968 0.2570.3670.2978.6380.28Adult57.5858.1260.2460.5277.8579.9078.5279.99 70.1171.2978.8180.11Skin-
Segmentation77.6981.9579.6381.2994.2194.3394.5294.4488.8589.3095.119 5.19Iris79.6380.2980.5382.4391.5694.8592.7292.1288.4388.5092.5594.91Pa ge-
blocks81.2583.6882.7384.5088.9691.2792.7490.9877.5879.9492.7392.71Win equality40.5140.6733.6741.2950.2450.7750.5750.5738.6539.5651.6352.21H APT55.5955.6539.5244.6856.8958.1156.8658.9341.5241.5257.0858.94Kddcu
p9941.5842.5547.2950.1855.8455.8454.9554.9844.5845.0055.9657.01
表3 基分类器数目为40和80时的分类精度Table 3 Classification accuracy when the number of base classifiers is 40 and 80DatasetClassification accuracy/%BaggingAdaboostingRotboostROFELMR-ELM-
C408040804080408040804080Liver61.2962.0959.1962.0076.7177.2177.357 7.4967.1869.2277.1978.09Mushroom71.2571.8877.9477.9996.0096.1295.23 95.6692.6092.8296.4196.85Magic0462.5262.8959.6661.2977.8479.9977.968 0.7170.3670.3378.9980.72Adult57.6158.2460.3360.5177.9179.9078.5280.11 70.2171.2978.9280.52Skin-
Segmentation77.5681.9579.8581.3194.2194.3394.6794.4488.9189.3595.259 5.43Iris79.2980.3680.6382.4391.5994.8592.8595.1288.4788.5092.7795.10Pa ge-
blocks81.2983.6682.7384.5988.9691.3392.9491.6377.5880.6992.9392.93Win equality40.6440.7233.6741.3650.2950.8450.5750.6138.6539.7950.7950.92H APT55.8455.7439.6544.7156.9258.1256.8659.0241.5241.6857.6859.24Kddcu p9941.7142.7547.4150.3255.9155.9155.6055.8144.5845.2256.2157.16
表4 基分类器数目为10和50时的训练时间Table 4 Training time when the number of base classifiers is 10 and 50DatasetTraining
time/sBaggingAdaboostingRotboostROFELMR-ELM-
C105010501050105010501050Liver2.5010.332.1010.203.3015.203.2014.553 .2015.262.6011.52Mushroom20.29101.5223.25102.3641.52177.4541.20157. 9844.62160.0027.45125.62Magic0456.52412.6358.63415.2289.65562.3079. 30510.2668.52521.9466.95445.62Adult110.201 500.28122.001
521.30350.211 985.62220.521 885.61218.911 902.25177.591 598.63Skin-
Segmentation821.294 130.21756.324 122.121 200.364 756.92961.524 521.61889.944 621.00854.004
223.56Iris0.010.200.010.200.200.520.120.410.200.550.040.22Page-
blocks12.63103.2017.11105.8533.85145.9320.92140.2524.56150.2620.1212 0.90Winequality15.61100.6817.45109.9116.62146.9119.62136.2121.36144.8 518.00128.52HAPT803.265 332.11808.525 364.831 244.255 784.60952.365 584.911 000.255 621.02900.265
430.26Kddcup995.0×1043.0×1055.1×1043.1×1056.1×1044.5×1055.5×104 4.4×1055.5×1044.5×1055.4×1043.2×105
对于大样本数据集Skin-Segmentation而言，所提算法R-ELM-C，不论是分类
精度还是运行速度均得到了极大提高。

从表2可以看出，当基分类器数分别为20
和40时，R-ELM-C取得了95.11%和95.19%的最佳分类精度；在表3中，当基分类器数提高到40和80时，R-ELM-C依然保持较好的稳定性和泛化性能。

在表4中，R-ELM-C运行速度虽不如Bagging和Adaboosting，可是最终的运行速
度也不是特别缓慢，比其他几种对比算法要快。

这也证明了R-ELM-C算法是完全可以适用于大样本分类的。

4 结论
针对单一分类器不能满足要求越来越高的数据分类、更强的泛化性能和适用于大样本数据分类这些缺陷，提出了将旋转森林与极限学习机相结合的新算法R-ELM-C。

R-ELM-C可以解决原始旋转森林中出现的过拟合问题，同时也提高了分类性能。

R-ELM-C先利用旋转森林算法扩大各基分类器间的差异性，然后再用极限学习机
进行分类学习，提高了分类性能。

实验表明，R-ELM-C在改善分类精度的同时，
也提高了运行速度，还能适用于大样本数据分类。

参考文献
【相关文献】
1 Huang G H, Zhu Q Y, Siew C K. Extreme learning machine: A new learning scheme of feed forward neural networks. Proceedings of International Joint Conference on Neural Networks. Budapest: IEEE, 2014: (6):25—28
2 Huang G B, Wang D H, Lan Y. Extreme learning machines: A survey. International Journal of Machine Learning and Cybernetics, 2015; 2(1): 107—122
3 Zhao G, Shen Z, Miao C. On improving the conditioning of extreme learning machine: A linear case. 7th International Conference on Information. Macau: IEEE, 2009; (9): 1—5
4 Suresh S, Saraswathi S, Sundararajan N. Performance enhancement of extreme learning machine for multi-category sparse data classification problems. Engineering Applications of Artificial Intelligence, 2016; 23(7): 1149—1157
5 Skurichina D. Bagging boosting and the random subspace method for linear classifiers. Pattern Analysis & Applications, 2012; 5(2): 121—135
6 宋相法, 焦李成. 基于稀疏表示及光谱信息的高光谱遥感图像分类.电子与信息学报, 2016; 34(2): 268—273
Song Xiangfa, Jiao Licheng. Classification of hyper spectral remote sensing image based on sparse representation and spectral information. Journal of Electronics & Information Technology, 2016; 34(2): 268—273
7 Zhang C X, Zhang J S. A variant of rotation forest for constructing ensemble classifiers. Pattern Analysis & Applications, 2016; 13(1): 59—77
8 Galar M, Fernandez A, Barrenechea E, et al. A review on ensembles for the class imbalance problem: Bagging boosting and hybrid-based approaches. IEEE Transactions on Systems, 2012; 42(4): 463—484
9 曹镇, 张敏情, 牛向洲. 基于改进Fisher准则与极限学习机集成的图像隐写分析. 科学技术与工程, 2017; 17(18): 89—95
Cao Zhen, Zhang Minqing, Niu Xiangzhou. An image step analysis algorithm based on improved fisher criterion and extreme learning machine ensemble. Science Technology and Engineering, 2017; 17(18): 89—95
10 Chen S C, Lin S W, Chou S Y. Enhancing the classification accuracy by scatter-search-based ensemble approach. Applied Soft Computing, 2011; 11(1): 1021—1028
11 Kotsiantis S. Combining bagging boosting rotation forest and random subspace methods. Artificial Intelligence Review, 2011; 35(3): 223—240
12 郝丽娜, 王风立, 曹瑞珉. 基于多层超限学习机的滚动轴承故障诊断方法. 科学技术与工程，2017;
17(14): 86—91
Hao Lina, Wang Fengli, Cao Ruimin. Multi-layer extreme learning machine methods based fault diagnosis of rolling bearing. Science Technology and Engineering, 2017; 17(14): 86—91
13 Krogh A, Vedelsby J. Neural network ensembles cross validation and active learning. Neural Information Processing Systems, 2015; (9): 231—238
14 Gentle J E, Härdle W K, Mori Y. Handbook of computational statisti cs. Berlin: Springer, 2012: 985—1022
15 Ghorai S, Mukherjee A, Sengupta S, et al. Cancer classification from gene expression data by NPPC ensemble. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2011; 8(3): 659—671
16 Pedrajas G. Supervised projection approach for boosting classifiers. Pattern Recognition, 2009; 42(9): 1742—1760
17 Kim M J, Kang D K. Ensemble with neural networks for bankruptcy prediction. Expert Systems with Applications, 2010; 37(4): 3373—3379
18 Rodriguez J J, Kuncheva L I, Alonso C J. Rotation forest: a new classifier ensemble method. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016; 28(10): 1619—1630
19 党鑫鹏, 刘文萍. 基于多级纹理频谱特征与PCA的人脸识别算法. 计算机应用, 2012; 32(8): 2316—2319
Dang Xinpeng, Liu Wenping. Face recognition algorithm based on multi-level texture spectrum features and PCA. Journal of Computer Applications, 2012; 32(8): 2316—2319 20 罗会兰, 孔繁胜, 李一啸. 聚类集成中的差异性度量研究. 计算机学报, 2015; 30(8): 1315—1324 Luo Huilan, Kong Fansheng, Li Yixiao. An analysis of diversity measures in clustering ensembles. Chinese Journal of Computers, 2015; 30(8): 1315—1324
21 Wang S T, Chung F L, Wu J. Least learning machine and its experimental studies on regression capability. Applied Soft Computing, 2014; 8(21): 677—684。