基于支持向量机回归模型的海量数据预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2007,43(5)ComputerEngineeringandApplications计算机工程与应用
1问题的提出
航空公司在客舱服务部逐步实行“费用包干”政策,即:综合各方面的因素,总公司每年给客舱服务部一定额度的经费,由客舱服务部提供客舱服务,而客舱服务产生的所有费用,由客舱服务部在“费用包干额度”中自行支配。新的政策既给客舱服务部的管理带来了机遇,同时也带来了很大的挑战。通过“费用包干”政策的实施,公司希望能够充分调用客舱服务部的积极性和主动性,进一步改进管理手段,促进新的现代化管理机制的形成。
为了进行合理的分配,必须首先搞清楚部门的各项成本、成本构成、成本之间的相互关系。本文首先对成本组成进行分析,然后用回归模型和支持向量机预测模型对未来的成本进行预测[1-3],并对预测结果的评价和选取情况进行了分析。
2问题的分析
由于客舱服务部的特殊性,“费用包干”政策的一项重要内容就集中在小时费的重新分配问题上,因为作为客舱乘务员的主要组成部分——
—“老合同”员工的基本工资、年龄工资以及一些补贴都有相应的政策对应,属于相对固定的部分,至少目前还不是调整的最好时机。乘务员的小时费收入则是根据各自的飞行小时来确定的变动收入,是当前可以灵活调整的部分。实际上,对于绝大多数员工来说,小时费是其主要的收入部分,因此,用于反映乘务人员劳动强度的小时费就必然地成为改革的重要部分。
现在知道飞行小时和客万公里可能和未来的成本支出有关系,在当前的数据库中有以往的飞行小时(月)数据以及客万公里数据,并且同时知道各月的支出成本,现在希望预测在知道未来计划飞行小时和市场部门希望达到的客万公里的情况下的成本支出。
根据我们对问题的了解,可以先建立这个部门的成本层次模型,搞清楚部门的各项成本、成本构成、成本之间的相互关系。这样,可以对部门成本支出建立一个层次模型:人力资源成本、单独预算成本、管理成本,这三个部分又可以分别继续分层
次细分,如图1所示。
基于支持向量机回归模型的海量数据预测
郭水霞1,王一夫1,陈安2
GUOShui-xia1,WANGYi-fu1,CHENAn2
1.湖南师范大学数学与计算机科学学院,长沙410081
2.中国科学院科技政策与管理科学研究所,北京100080
1.CollegeofMath.andComputer,HunanNormalUniversity,Changsha410081,China
2.InstituteofPolicyandManagement,ChineseAcademyofSciences,Beijing100080,China
E-mail:guoshuixia@sina.com
GUOShui-xia,WANGYi-fu,CHENAn.Predictiononhugedatabaseontheregressionmodelofsupportvectormachine.ComputerEngineeringandApplications,2007,43(5):12-14.
Abstract:Asanimportantmethodandtechnique,predictionhasbeenwidelyappliedinmanyareas.Withtheincreasingamountofdata,predictionfromhugedatabasebecomesmoreandmoreimportant.Basedonthebasicprincipleofvectormachineandim-plementarithmetic,apredictionsysteminfrastructureonanaircompanyisproposedinthispaper.Lastly,therulesofevaluationandselectionofthepredictionmodelsarediscussed.
Keywords:prediction;datamining;supportvectormachine;regressionmodel
摘要:预测是很多行业都需要的一项方法和技术,随着数据积累的越来越多,基于海量数据的预测越来越重要,在介绍支持向量机基本原理和实现算法的基础上,给出了航空服务成本预测模型,最后对预测结果的评价和选取情况进行了分析。
关键词:预测;数据挖掘;支持向量机;回归模型
文章编号:1002-8331(2007)05-0012-03文献标识码:A中图分类号:TP18
基金项目:国家自然科学基金(theNationalNaturalScienceFoundationofChinaunderGrantNo.10571051);湖南省教育厅资助科研课题(theResearchProjectofDepartmentofEducationofHunanProvince,ChinaunderGrantNo.06C523)。
作者简介:郭水霞(1975-),女,博士生,讲师,主要研究领域为统计分析;王一夫(1971-),男,博士生,副教授,主要研究领域为计算机应用技术,软件工程技术;陈安(1970-),男,副研究员,主要研究领域为数据挖掘与决策分析。
12
2007,43(5)ComputerEngineeringandApplications计算机工程与应用
其中,人力资源成本又可以分为几个部分,基础工资、年龄工资、医疗保险、养老保险、住房公积金、物业补贴和取暖补贴等都属于相对固定的成本,而可变成本则是客舱服务部可调控的主要部分,它包括了以小时费为主的一些费用。
服务可变成本用飞行小时数来表征,根据一般的规律,有这样的结论:当总的飞行时间增加时,成本也是一个增加的趋势;反之,当总的飞行时间减少时,成本也会有所降低。
从整个公司的运营角度考虑,成本往往会采用一个能够充分表征整个航空公司效益的指标,目前被广泛采用的指标是客万公里数。
在这里将主要针对以上两个指标对以往的服务发生的成本进行分析,然后确定出可以对2004年部门运营成本产生影响的主要指标,并通过基于这些指标建立的模型给出明年可调控成本的预测值。
特别地,对于这个服务部门来说,不同职位、不同航线、不同机型的人员组成对于成本的影响也是有所区别的。
3支持向量机回归方法
从观测数据中学习归纳出系统规律,并利用这些规律对未来数据或无法观测到的数据进行预测,是进行数据挖掘一直关注的问题。回归分析是预测方法之一,其目的是找出数值型变量间的依赖关系,用函数关系式表达出来。回归分析可以进行因果预测,模型仅仅依赖于要预测的变量与其他变量的关系。例如,利用回归分析建立一个模型,反映广告支出和产品销售额这两个变量之间的关系。对下一个时期,一旦确定了广告预算,将这个数值代入模型,就可得到销售量的预测值。
回归方法总是预先假设数据的分布,建立特定的模型,再根据实际数据求模型的参数值。模型是否能提供合理的预测,主要在于自变量和因变量的分布是否符合模型。一般地,在建立回归方程时,将会考虑多种可能的自变量的集合,保证回归方法预测的准确性。回归分析中的变量有两类:自变量和因变量。根据自变量的个数,回归分析分为:一元回归和多元回归。根据自变量和因变量的函数关系,分为线性回归和非线性回归,其中非线性回归又包括不同类型。
支持向量机(SupportVectorMachine)是Vapnik等人根据统计学理论提出的一种新的通用学习方法,它是建立在统计学理论的VC维(VapnikChervonenksDimension)理论和结构风险最小原理(StructuralRiskMinimizationInductivePrinciple)基础上的,能较好地解决小样本、非线性、高维数和局部极小点等实际问题[1],已成为机器学习界的研究热点之一,并成功应用于分类、函数逼近和时间序列预测等方面[2,3],另外,SVM的求解最后转化成二次规划问题的求解,因此,SVM的解是唯一的、也是全局最优的。正是上述两大优点,使SVM一经提出就得到了广泛的重视。
SVM方法最早是针对模式识别问题提出来的,随着Vap-nik比对!不敏感损失函数的引入,SVM己推广到非线性系统的回归估计,并展现了极好的学习性能。支持向量机方法在非线性系统辨识、预测预报、建模与控制的潜在广泛应用,使得对其研究显得非常重要[4-6]。
支持向量机首先考虑线性回归。设样本为n维向量,某区域的k个样本及其值表示为:
(x1,y1),…,(xk,yk)∈Rn×R
线性函数设为
f(x)=w・x+b(1)并假设所有训练数据都可以在精度ε下无误差地用线性函数拟合,即:
yi-w・xi-b≤ε
w・xi+b-yi≤
#
ε
i=1,…,k(2)
考虑到允许拟合误差的情况,引入松弛因子"i≥0和"
i
*
≥0,则式(2)变成
yi-w・xi-b≤ε+"i
w・xi+b-yi≤ε+"
i
*
"i≥0
"
i
*
≥
&
(
(
(
(
(
(
’
(
(
(
(
(
(
)
0
i=1,…,k(3)回归估计问题转化为在约束条件(3)下最小化误差:
minR(w,","*)=1
2
‖w‖2+C
k
i=1
+("i+"i*)(4)上面式(4)和(3)是一个凸二次优化问题,其对偶问题为
maxL(#,#*)=-1
2
k
i=1
+k
j=1
+(#i-#i*)(#j-#j*)(xi・xj)-
k
i=1
+(#i+#i*)!+k
i=1
+(#i-#i*)yi
k
i=1
+(#i-#i*)=0
0≤#
i
,#
i
*
≤C,i=1,…,
&
(
(
(
(
’
(
(
(
(
)
k
(5)
再考虑非线性回归,首先使用一非线性映射把数据映射到一个高维特征空间,再在高维特征空间进行线性回归,从而取得在原空间非线性回归的效果。
假设样本x用非线性函数Φ(x)映射到高维空间,并令K(xi,xj)=Φ(xi)・Ф(xj),则非线性回归问题转化为
maxL(#,#*)=-1
2
k
i=1
+k
j=1
+(#i-#i*)(#j-#j*)K(xi,xj)-
k
i=1
+(#i+#i*)!+k
i=1
+(#i-#i*)yi
k
i=1
+(#i-#i*)=0
0≤#
i
,#
i
*
≤C,i=1,…,
&
(
(
(
(
’
(
(
(
(
)
k
(6)此时,回归估计函数为
f(x)=
xi∈SV
+(#i-#i*)K(xi,xj)+b(7)SV是支持向量集合,即满足二次规划中约束等式成立的那些点的集合。另外b按如下公式计算:
b=1
knsv
(
0≤#i≤C
+(yi-
xj∈SV
+(#j-#j*)K(xi,xj)-!)+
0≤#
i
*
≤C
+(yi-
xj∈SV
+(#j-#j*)K(xi,xj)+!))
(8)
knsv为支持向量数量。
支持向量机理论只考虑高维特征空间的点积运算K(xi,xj)=Φ(xi)・Ф(xj),而不直接使用函数Φ,从而巧妙地解决了因Φ未知而w无法显式表达的问题,称K(xi,xj)为核函数,已经证明,只要满足Mercer条件的对称函数即可作为核函数,常用的核
郭水霞,王一夫,陈安:基于支持向量机回归模型的海量数据预测13