多目标输出SVM回归的参数优化和特征选择

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多目标输出SVM回归的参数优化和特征选择

彭文伟

湖南湘潭湘钢巴塘17-18,邮政编码:411104.

Email:pww71@, phone:+86-0732-*******.

摘要:目前多目标输出SVM回归的算法使用多阈值, 其预测效果不理想,且运算量大。另外SVM算法的评价准则采用的是交叉验证的均方误差或相关系数,如果各目标的数据不平衡,这种统计方法无法用于评价多目标输出SVM回归算法。首先,本文提出采用相同阈值的SVM多目标输出回归的算法,然后对交叉验证提出两种误差统计方法:一,各目标均方误差作均匀化处理,二,使用马氏距离最小化的方法。最后,针对大型数据超大运算的问题,提出网络计算机并行运算算法。实验先用遗传算法,粒子群算法和自己的BFS算法分别对相同SVM模型作参数优化,然后用改进的序列极小化特征选择算法优化SVM特征。结果说明:选择ε-SVR算法和Rbf核,和BFS算法的参数优化,交叉验证用均匀化的均方误差作评价准则,效果相对较好。

关键词:支持向量机; 遗传算法; 粒子群算法; BFS算法; 序列极小化特征选择;

Abstract: At present, the multi-objective output SVM regression used multi-threshold strategy. However, its prediction result and computational complexity is not satisfactory. In addition, the parameter and feature selection generally used cross-validation as the evaluation criteria. Because of the imbalance data, the statistical methods used to evaluate the cross-validation error cannot always get the optimal effect. In this paper, an algorithm of the multi-objective output SVM regression using the same thresholds for the multi-objective is proposed. Moreover, two error evaluation methods for cross-validation are proposed. Firstly, the mean square error for all objectives are treated homogeneously; Secondly, minimizing the Mahalanobis distance is used。Finally, data for large

super-computing problem, the network computer parallel computing algorithm is proposed. experiment by using genetic algorithms, particle swarm optimization and own Breadth-first search algorithm separately on the same SVM model

for parameter optimization, and then experiment by using the modified sequential minimal algorithm for feature selection. Results show that: ε-SVR , Gaussian Radial Basis, parameter optimization is using Breadth-first search algorithm, cross-validation with homogenization of the mean square error for the purpose of evaluation criteria, the effect is relatively good.

Keyword: svm; genetic algorithms; particle swarm optimization; BFS; The sequential minimal algorithm based

on feature selection;

一,引言

支持向量机 (Support Vector Machines, SVM)是Vapnik等人于20世纪90年代建立的,基于统计学习理论且推广能力非常好的一种小样本学习方法[1],,已成功应用于模式分类、回归分析等领域。

SVM回归问题一般都是单目标输出[2-3](SVM回归问题的目标值只有一个)。而目前多目标输出(SVM回归问题目标值超过一个)一般采用多阈值方式[4],不是共同的间隔,相当于用单目标预测方式重复预测多目标,实验效果不是很理想,故提出采用相同阈值的多目标SVM回归算法。

正如大多数学习机算法,支持向量机(SVM)的性能与SVM参数和特征的选择有关[5]。不同的数据类型用不同的SVM模型预测效果有一定的差异,而SVM模型不同其参数和参数范围也不同,因此对于不同的SVM模型,因根据其参数多少和范围来选择不同的参数优化方案。

常用的参数优化办法是网格搜索[6],但是其采用2的n次幂将范围切割为离散数,造成搜索范围不均匀分布,即使提高网格数搜索精度也不高,而且增加运算量。为了提高精度,本人提出启发式广度优先搜索。

目前使用遗传算法和粒子群算法作参数优化的越来越多,但是针对不同的SVM模型,没有对众多参数优化方案进行综合的对比和评价,是缺乏说服力的。

SVM参数和特征的优化过程需要一个评价准则。该准则大多采用k折交叉验证验证的均方误差或相关系数。

先预先设定好某个SVM参数,然后进行k-折交叉验证(k-fold cross vaidation):将训练样本集随机地分成k个互不相交的子集,每个折的大小大致相等。利用k-1个训练子集,对给定的一组参数建立回归模型,利用剩下的最后一个子集的误差平均值评估参数的性能。以上过程重复K次,因此每个子集都有机会进行测试,最后根据k次迭代后得到误差平均值。用该误差平均

相关文档
最新文档