基于MapReduce的最小二乘支持向量机回归模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
优先出版 计 算 机 应 用 研 究 第32卷
--------------------------------
基金项目:国家自然科学基金资助(51308057,51378073);中国博士后科学基金面上资助项目资助(2014M550475);教育部创新团队发展计划资助(IRT1050);交通运输部基础研究项目资助(2010-319-812-080);陕西省自然科学基础研究计划资助(2014JQ8354);中央高校基本科研业务费专项资金资助(0009-2014G1321041,2013G3324005)
作者简介:代亮(1981-),男,陕西西安人,讲师,博士,主要研究方向为并行计算、海量数据并行处理(ldai1981@);许宏科(1963-),男,陕西宝鸡人,教授,博士,主要研究方向为智能交通系统;陈婷(1982-),女,陕西西安人,讲师,博士,主要研究方向为分布式系统与并行计算;钱超(1984-),男,江苏徐州人,讲师,博士,主要研究方向为交通数据挖掘与分析;梁殿鹏(1977-),男,甘肃武威人,硕士,高级工程师,主要研究方向为并行计算,负载均衡.
基于MapReduce 的最小二乘支持向量机回归模型 *
代 亮1a ,许宏科1a ,陈 婷1b ,钱 超1a ,梁殿鹏2
(1.长安大学 a .电子与控制工程学院;b .信息工程学院,西安710064;2.IBM 中国系统与科技开发中心,西安 710068) 摘 要:针对最小二乘支持向量机处理大规模数据集耗时长且受内存限制的特点,将局部多模型方法与MapReduce 编程模式相结合,提出一种并行最小二乘支持向量机回归模型。
模型由两组MapReduce 过程组成,首先按照输入样本集对样本数据进行聚类操作,再对聚类后得到的子类按输出样本集进行二次聚类操作,分别得到局部模型数目和各局部模型综合加权输出计算结果。
实验结果表明,并行最小二乘支持向量机回归模型具有较好的加速比和可扩展性。
关键词:最小二乘支持向量机;MapReduce 编程模式;局部多模型方法;加速比;可扩展性 中图分类号:TP393 文献标志码:A
Least squares support vector machine regression model based on MapReduce
DAI Liang 1a , XU Hong-ke 1a , CHEN Ting 1b , QIAN Chao 1a , LIANG Dian-peng 2
(1. a. School of Electronic & Control Engineering, b. School of Information Engineering, Chang’an University, Xi’an 710064,
China; 2. IBM China Systems & Technology Lab, Xi ’an 710068, China)
Abstract: According to the characteristics of least squares support vector machine regression model for long processing time and memory constraints, a parallel least squares support vector machine regression model was designed based on MapReduce and local multi-model method. The model is composed of two MapReduce process. The sample data was clustered according to the input set, and then second clustering is obtained after sub set according to the output. Two MapReduce processes were calculated the number of local model and weighted output of each model. Experimental results showed the proposed parallel least squares support vector machine regression model has better speedup and scaleup.
Key Words: least squares support vector machine; MapReduce programming pattern; local multi-model method; speedup; scaleup
0 引言
最小二乘支持向量机回归是统计分析和数据挖掘中的重要方法[1,2],被广泛应用于交通信息科学和工程技术领域的研究中
[3-8]。
其中,周家中等提出分距离影响带的线型和指数型空间权
重系数方程,并构建了城市轨道交通车站客流最小二乘支持向量机预测模型[3]。
赵亚萍等提出了基于最小二乘支持向量机的交通流量预测改进模型[4]。
文献[5]中提出了一种基于混沌理论和支持向量机的交通流短时预测算法。
ZHANG 利用最小二乘支持向量机研究了城市主干道的数据填补方法和每小时交通量预测算法[6,7]。
文献[8]基于支持向量机模型分析了实时城市感知数据的并行处理方法。
传统的最小二乘支持向量机回归模型中线性方程组的维数随着时间和样本数的增加而变大,占用大量的计算机内存。
为
了降低最小二乘支持向量机回归模型的复杂度和计算量,提高最小二乘支持向量机回归模型的实时性,很多学者对其进行了研究[9-11]。
其中,张浩然等分析了回归最小二乘支持向量机性质,根据分块矩阵计算公式和核函数矩阵的特点设计了支持向量机的增量式学习算法和在线学习算法[9]。
叶洪涛等提出了一种免疫优化多输出最小二乘支持向量机方法,利用免疫算法来优化最小二乘支持向量机的参数[10]。
杨福刚提出了一种基于人工免疫算法的最小二乘支持向量机模型参数寻优方法[11]。
这些最小二乘支持向量机回归模型只适用于小规模输入样本数据且只能在单节点上运行,当输入样本数据规模增大时,往往会因计算量的增大而速度变慢甚至无法在有效时间内得出结果。
这是由于在回归过程中,矩阵乘积运算是一种基本运算。
当样本数据较多时,形成高阶矩阵,高阶矩阵乘积运算具有较高的时间复杂度,计算过程需要占用较多的系统资源,计算效率受到影响。
文章预览已结束
获取全文请访问
/article/02-2015-04-020.html。