基于支持向量机回归模型的海量数据预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于⽀持向量机回归模型的海量数据预测
2007,43(5)ComputerEngineeringandApplications计算机⼯程与应⽤
1问题的提出
航空公司在客舱服务部逐步实⾏“费⽤包⼲”政策,即:综合各⽅⾯的因素,总公司每年给客舱服务部⼀定额度的经费,由客舱服务部提供客舱服务,⽽客舱服务产⽣的所有费⽤,由客舱服务部在“费⽤包⼲额度”中⾃⾏⽀配。
新的政策既给客舱服务部的管理带来了机遇,同时也带来了很⼤的挑战。
通过“费⽤包⼲”政策的实施,公司希望能够充分调⽤客舱服务部的积极性和主动性,进⼀步改进管理⼿段,促进新的现代化管理机制的形成。
为了进⾏合理的分配,必须⾸先搞清楚部门的各项成本、成本构成、成本之间的相互关系。
本⽂⾸先对成本组成进⾏分析,然后⽤回归模型和⽀持向量机预测模型对未来的成本进⾏预测[1-3],并对预测结果的评价和选取情况进⾏了分析。
2问题的分析
由于客舱服务部的特殊性,“费⽤包⼲”政策的⼀项重要内容就集中在⼩时费的重新分配问题上,因为作为客舱乘务员的主要组成部分——
—“⽼合同”员⼯的基本⼯资、年龄⼯资以及⼀些补贴都有相应的政策对应,属于相对固定的部分,⾄少⽬前还不是调整的最好时机。
乘务员的⼩时费收⼊则是根据各⾃的飞⾏⼩时来确定的变动收⼊,是当前可以灵活调整的部分。
实际上,对于绝⼤多数员⼯来说,⼩时费是其主要的收⼊部分,因此,⽤于反映乘务⼈员劳动强度的⼩时费就必然地成为改⾰的重要部分。
现在知道飞⾏⼩时和客万公⾥可能和未来的成本⽀出有关系,在当前的数据库中有以往的飞⾏⼩时(⽉)数据以及客万公⾥数据,并且同时知道各⽉的⽀出成本,现在希望预测在知道未来计划飞⾏⼩时和市场部门希望达到的客万公⾥的情况下的成本⽀出。
根据我们对问题的了解,可以先建⽴这个部门的成本层次模型,搞清楚部门的各项成本、成本构成、成本之间的相互关系。
这样,可以对部门成本⽀出建⽴⼀个层次模型:⼈⼒资源成本、单独预算成本、管理成本,这三个部分⼜可以分别继续分层
次细分,如图1所⽰。
基于⽀持向量机回归模型的海量数据预测
郭⽔霞1,王⼀夫1,陈安2
GUOShui-xia1,WANGYi-fu1,CHENAn2
1.湖南师范⼤学数学与计算机科学学院,长沙410081
2.中国科学院科技政策与管理科学研究所,北京100080
1.CollegeofMath.andComputer,HunanNormalUniversity,Changsha410081,China
2.InstituteofPolicyandManagement,ChineseAcademyofSciences,Beijing100080,China
E-mail:guoshuixia@sina.com
GUOShui-xia,WANGYi-fu,CHENAn.Predictiononhugedatabaseontheregressionmodelofsupportvectormachine.ComputerEngineeringandApplications,2007,43(5):12-14.
Abstract:Asanimportantmethodandtechnique,predictionhasbeenwidelyappliedinmanyareas.Withtheincreasingamountofdata,predictionfromhugedatabasebecomesmoreandmoreimportant.Basedonthebasicprincipleofvectormachineandim-plementarithmetic,apredictionsysteminfrastructureonanaircompanyisproposedinthispaper.Lastly,therulesofevaluationandselectionofthepredictionmodelsarediscussed.
Keywords:prediction;datamining;supportvectormachine;regressionmodel
摘要:预测是很多⾏业都需要的⼀项⽅法和技术,随着数据积累的越来越多,基于海量数据的预测越来越重要,在介绍⽀持向量机基本原理和实现算法的基础上,给出了航空服务成本预测模型,最后对预测结果的评价和选取情况进⾏了分析。
关键词:预测;数据挖掘;⽀持向量机;回归模型
⽂章编号:1002-8331(2007)05-0012-03⽂献标识码:A中图分类号:TP18
基⾦项⽬:国家⾃然科学基⾦(theNationalNaturalScienceFoundationofChinaunderGrantNo.10571051);湖南省教育厅资助科研课题(theResearchProjectofDepartmentofEducationofHunanProvince,ChinaunderGrantNo.06C523)。
作者简介:郭⽔霞(1975-),⼥,博⼠⽣,讲师,主要研究领域为统计分析;王⼀夫(1971-),男,博⼠⽣,副教授,主要研究领域为计算机应⽤技术,软件⼯程技术;陈安(1970-),男,副研究员,主要研究领域为数据挖掘与决策分析。
12
2007,43(5)ComputerEngineeringandApplications计算机⼯程与应⽤
其中,⼈⼒资源成本⼜可以分为⼏个部分,基础⼯资、年龄⼯资、医疗保险、养⽼保险、住房公积⾦、物业补贴和取暖补贴等都属于相对固定的成本,⽽可变成本则是客舱服务部可调控的主要部分,它包括了以⼩时费为主的⼀些费⽤。
服务可变成本⽤飞⾏⼩时数来表征,根据⼀般的规律,有这样的结论:当总的飞⾏时间增加时,成本也是⼀个增加的趋势;反之,当总的飞⾏时间减少时,成本也会有所降低。
从整个公司的运营⾓度考虑,成本往往会采⽤⼀个能够充分表征整个航空公司效益的指标,⽬前被⼴泛采⽤的指标是客万公⾥数。
在这⾥将主要针对以上两个指标对以往的服务发⽣的成本进⾏分析,然后确定出可以对2004年部门运营成本产⽣影响的主要指标,并通过基于这些指标建⽴的模型给出明年可调控成本的预测值。
特别地,对于这个服务部门来说,不同职位、不同航线、不同机型的⼈员组成对于成本的影响也是有所区别的。
3⽀持向量机回归⽅法
从观测数据中学习归纳出系统规律,并利⽤这些规律对未来数据或⽆法观测到的数据进⾏预测,是进⾏数据挖掘⼀直关注的问题。
回归分析是预测⽅法之⼀,其⽬的是找出数值型变量间的依赖关系,⽤函数关系式表达出来。
回归分析可以进⾏因果预测,模型仅仅依赖于要预测的变量与其他变量的关系。
例如,利⽤回归分析建⽴⼀个模型,反映⼴告⽀出和产品销售额这两个变量之间的关系。
对下⼀个时期,⼀旦确定了⼴告预算,将这个数值代⼊模型,就可得到销售量的预测值。
回归⽅法总是预先假设数据的分布,建⽴特定的模型,再根据实际数据求模型的参数值。
模型是否能提供合理的预测,主要在于⾃变量和因变量的分布是否符合模型。
⼀般地,在建⽴回归⽅程时,将会考虑多种可能的⾃变量的集合,保证回归⽅法预测的准确性。
回归分析中的变量有两类:⾃变量和因变量。
根据⾃变量的个数,回归分析分为:⼀元回归和多元回归。
根据⾃变量和因变量的函数关系,分为线性回归和⾮线性回归,其中⾮线性回归⼜包括不同类型。
⽀持向量机(SupportVectorMachine)是Vapnik等⼈根据统计学理论提出的⼀种新的通⽤学习⽅法,它是建⽴在统计学理论的VC维(VapnikChervonenksDimension)理论和结构风险最⼩原理(StructuralRiskMinimizationInductivePrinciple)基础上的,能较好地解决⼩样本、⾮线性、⾼维数和局部极⼩点等实际问题[1],已成为机器学习界的研究热点之⼀,并成功应⽤于分类、函数逼近和时间序列预测等⽅⾯[2,3],另外,SVM的求解最后转化成⼆次规划问题的求解,因此,SVM的解是唯⼀的、也是全局最优的。
正是上述两⼤优点,使SVM⼀经提出就得到了⼴泛的重视。
SVM⽅法最早是针对模式识别问题提出来的,随着Vap-nik⽐对!不敏感损失函数的引⼊,SVM⼰推⼴到⾮线性系统的回归估计,并展现了极好的学习性能。
⽀持向量机⽅法在⾮线性系统辨识、预测预报、建模与控制的潜在⼴泛应⽤,使得对其研究显得⾮常重要[4-6]。
⽀持向量机⾸先考虑线性回归。
设样本为n维向量,某区域的k个样本及其值表⽰为:
(x1,y1),…,(xk,yk)∈Rn×R
线性函数设为
f(x)=w?x+b(1)并假设所有训练数据都可以在精度ε下⽆误差地⽤线性函数拟合,即:
yi-w?xi-b≤ε
w?xi+b-yi≤
#
ε
i=1,…,k(2)
考虑到允许拟合误差的情况,引⼊松弛因⼦"i≥0和"
i
*
≥0,则式(2)变成
yi-w?xi-b≤ε+"i
w?xi+b-yi≤ε+"
i
*
"i≥0
"
i
*
≥
&
(
(
(
(
(
(
’
(
(
(
(
(
(
)
0
i=1,…,k(3)回归估计问题转化为在约束条件(3)下最⼩化误差:minR(w,","*)=1
‖w‖2+C
k
i=1
+("i+"i*)(4)上⾯式(4)和(3)是⼀个凸⼆次优化问题,其对偶问题为maxL(#,#*)=-1
2
k
i=1
+k
j=1
+(#i-#i*)(#j-#j*)(xi?xj)-
k
i=1
+(#i+#i*)!+k
i=1
+(#i-#i*)yi
k
i=1
+(#i-#i*)=0
0≤#
i
,#
i
*
≤C,i=1,…,
&
(
(
(
(
’
(
(
(
(5)
再考虑⾮线性回归,⾸先使⽤⼀⾮线性映射把数据映射到⼀个⾼维特征空间,再在⾼维特征空间进⾏线性回归,从⽽取得在原空间⾮线性回归的效果。
假设样本x⽤⾮线性函数Φ(x)映射到⾼维空间,并令K(xi,xj)=Φ(xi)?Ф(xj),则⾮线性回归问题转化为
maxL(#,#*)=-1
2
k
i=1
+k
j=1
+(#i-#i*)(#j-#j*)K(xi,xj)-
k
i=1
+(#i+#i*)!+k
i=1
+(#i-#i*)yi
k
i=1
+(#i-#i*)=0
0≤#
i
,#
i
*
≤C,i=1,…,
&
(
(
(
(
’
(
)
k
(6)此时,回归估计函数为
f(x)=
xi∈SV
+(#i-#i*)K(xi,xj)+b(7)SV是⽀持向量集合,即满⾜⼆次规划中约束等式成⽴的那些点的集合。
另外b按如下公式计算:
b=1
knsv
(
0≤#i≤C
+(yi-
xj∈SV
+(#j-#j*)K(xi,xj)-!)+
0≤#
i
*
≤C
+(yi-
xj∈SV
+(#j-#j*)K(xi,xj)+!))
(8)
knsv为⽀持向量数量。
⽀持向量机理论只考虑⾼维特征空间的点积运算K(xi,xj)=Φ(xi)?Ф(xj),⽽不直接使⽤函数Φ,从⽽巧妙地解决了因Φ未知⽽w⽆法显式表达的问题,称K(xi,xj)为核函数,已经证明,只要满⾜Mercer条件的对称函数即可作为核函数,常⽤的核
郭⽔霞,王⼀夫,陈安:基于⽀持向量机回归模型的海量数据预测13
数据顺序变量X1
变量X2
模型I值模型II值
模型III值
总成本实际值…
…
…
1001145684163940.8111545139.011394333.0114434659710327.95
1002158825191305.0012668412.012348284.01210157712896259.281003163870214586.4713624093.012888042.01247648213229407.081004160493206354.0513286160.012626591.01238722013844560.221005172993213668.4113586408.013279822.01310057612854903.531006163216174426.9111975583.012313615.01257390913299583.001007162394172606.9911900877.012252474.01245535012693824.161008166015174717.8311987525.012441593.01283926412039418.821009146910155482.2711197925.011333774.01151892213495410.301010156661162748.9811496216.011864547.01236947511813181.321011130741103535.339065554.89911766.31037891610288464.8510125891132737.526159375.55767331.359620235349156.281013
82777
70238.26
7698743.3
7334192.7
6852222
7186972.75
1014149672163745.4811537121.011568392.01104095810610665.671015184310217137.0113728790.013828400.01359852412568433.201016181200209957.0913434062.013593075.01364608912865285.67
…
…
…
…
…
…
表1
实际数据库的⼀段和⼏个模型的模拟值
表2
三个模型的评价参数⽐较表
模型模型描述
相关系数估计的标准误差残差平⽅和
模型1⼩时数与总费⽤的⼀次回归0.9091033648.371.5e+13模型2⼩时、客万公⾥与总费⽤的回归0.9131048571.941.4e+13模型3
国内及国际⼩时与总费⽤的回归
0.914
1044299.74
1.4e+13
函数有:
多项式核函数:K(x,y)=((x?y)+1)d
径向基核函数:K(x,y)=exp(-‖x-y‖2/(2!2))Sigmoid核函数:K(x,y)=tanh("(x?y)+#)
4数学模型
我们将使⽤⼏种不同类型的模型对可调控成本的历史数
据进⾏建模,然后研究不同模型的拟合程度,最后确定出影响可调控成本的主要因素,并通过模型最终给出下⼀年度可调控成本的估计数据。
整个过程即是数据挖掘全过程。
⾸先是搜集数据,收集了2年左右的历史数据,其中,有些数据来⾃于计划部门,有些来⾃于市场营销部门,有些则来⾃于飞⾏服务部门。
通过对这些数据的清洁和整理,获得了⼀些相对完整的相关数据表。
然后是模型的选取,因为这⾥应⽤的模型应该是⼏个变量的变动对另外⼀个变量的影响关系,变量关系也不能明确是线性的或者⾮线性的,所以准备选⽤多元多次、⼀元⼀次或多次的回归模型和⽀持向量机回归模型。
最后,模型评价和分析采⽤相关系数、估计的标准误差和残差平⽅和等⼏个标准来进⾏衡量。
⾸先,考虑了总飞⾏⼩时和总可调控成本的线性关系,根据最⼩⼆乘法对参数的估计,可以得到模型I:Y=1868445+
64.936*X1。
其中,X1为⾃变量,飞⾏⼩时总数,Y为因变量,每
⽉总的可调控成本,c1=1868445和α1=64.936都是估计的模型参数。
考虑到客万公⾥和成本的关系,则可以得到以下的模型:模型II:Y=2712285+44.311*X1+13.582*X2
其中,X2为⾃变量,是客万公⾥数,Y意义同上。
如果对变量进⾏更详细的拆分,还可以把飞⾏时间分成更细致的国际和国内两类时间,即是下⾯的X11和X12。
模型III:Y=1835338+33.293*X11+78.105*X12
模型IV:使⽤⽀持向量机回归模型,为了保证计算中矩阵的正定性,还需要将数据做进⼀步的转换,然后在matlab下运⾏代码和数据。
根据以上的四个模型的计算结果,可以看到数据以及模型拟合中的⼀段,如表1所⽰。
在模型的评价,选择了相关系数、标准误差和残差平⽅和等三个标准,如表2所⽰。
从选择的相关系数、估计的标准误差和残差的平⽅和等情况来看,从数据更细致的分类情况来说,将飞⾏⼩时分为国际和国内两个部分能表达出飞⾏⼩时的更多信息,这主要是因为国内飞⾏⼩时的飞⾏补贴和国际完全是两个不同的标准,⽽根据此公司的特点,国际飞⾏要占到整个飞⾏时间的⼤多数,也就是说,国际部分对总可调控成本的影响明显更⼤,这样,将这两个不同的因素作为模型需要的指标⽐较切合实际的考虑,⽽客万公⾥数虽然可以和整个公司的效益直接挂钩,和服务本⾝的相关性却不⼤,所以,选择模型3更能表现成本构成的实际情况,图2显⽰了拟合值和实际值的差异。
这样,根据以上的分析,决定采⽤模型3对未来成本进⾏预测。
按照对于明年的市场分析,根据现有国内⼩时和国际⼩时
的数据,将其代⼊⽀持向量机回归预测公式中,可以计算出明
年部门成本的数值为159935844.6元。
这样,在确定了明年的飞⾏时间数据后,就可以根据以上模型确定出明年部门的⽣产成本情况预测值,按照5%的误差估计,
应该在[151939052.4,167932636.8]区间内。
5结论
数据挖掘中的预测功能在⾏业中得到普遍应⽤,主要是根
据历史情况⽤于对于未来趋势的预测,统计⼀直是预测的⼀个基本⼯具,在海量数据的前提下可以直接应⽤在数据挖掘的过程中,在⽂中讨论了数据挖掘预测中的处理模式设计,然后就某航空公司的下属服务部门的未来成本预测进⾏了讨论,最后就模型的选择、评价和应⽤都进⾏了深⼊的讨论。
(收稿⽇期:2006年11⽉)
参考⽂献:
[1]VapnikV.Thenatureofstatisticallearningtheory[M].NY:Springer-
Verlag,1995.
(下转32页)
(上接14页)
[2]VapnikV.Supportvectormethodforfunctionapproximation,regressionestimation,andsignalprocessing[M]//MozerM,JordanM,PetscheT.NeuralInformationProcessingSystems.[S.l.]:MITPress,1997-09.[3]MüllerK-R,SmolaAJ,RatschG,etal.Predictingtimeserieswith
supportvectormachines[C]//SpringerLectureNotesinComputerScience:ProcofICANN’
97,1997:999-1005.[4]AgrawalR,SrikantR.Miningsequentialpatterns[C]//Proceedingsof
11thConfDataEngineering,Taipei,Taiwan,March1995,c1995:3-14.[5]FriedmanJH.Dataminingandstatistics:What’stheconnection?
[C]//Proceedingsofthe29thSymposiumontheInterfaceBetween
ComputerScienceandStatistics,1997:1-7.
[6]SrikantR,AgrawalR.Miningsequentialpatterns:generalizations
andperformanceimprovements[C]//ApersPMG,BouzeghoubM,GardarinG.Proceedingsof5thIntConfExtendingDatabaseTechnology(EDBT).Springer-Verlag,1996,1057:3-17.
[7]PeiJian,HanJiawei,Mortazavi-AslB,etal.Prefixspan:miningse-
quentialpatternsbyprefix-projectedgrowth[C]//Proc17thIEEEInternatwnalConferenceonDataEngineering(ICDE),Heidelberg,Germany,April2001,c2001:215-224.
[8]HanJia-wei,KamberM.Dataminingconceptsandtechniques[M].
Beijing:ChinaMachinePress,2001:185-219.
[9]YinGuo,GaoJianguo.Statistics[M].Beijing:ChinaFinanceand
EconomyPress,2001.
程绘制的,如果再加上⼀些渐变⾊彩来修饰,相信效果会更好。
从这些图形中可以直观地看出:参数决定⽣成图形由块完全相同的⼦图形组成;同时,参数客观地影响⽣成图形的连通性。
这些结论只是从实验结果中直接获取的信息,在理论⽅⾯还有待更进⼀步的研究。
(收稿⽇期:2006年10⽉)
参考⽂献:
[1]朱伟勇,付冲,陈良⽣.科学与艺术的结晶
《Mandelbort-Julia混沌分形图谱》[J].沈阳⼤学学报,2004,16(6).
[2]夏敏学,孙清华.居⾥叶分形在图案设计中的应⽤[J].空军雷达学院
学报,2005,19(1).
[3]于红志.基于Julia集的花型图案绘制[J].⼤连⼤学学报,2003,24(4).[4]王林.Julia集的逼近[J].应⽤数学,2001,14(2).
[5]SABERNE.Discretechaos[M].TheUnitedStatesofAmerican:
TrinityUniversityPress,2000.
[6]BARNSLEYMF.Fractaleverywhere[M].Boston:AcademicPressPro-
fessional,1993.
[7]李⾃胜,⽯宣化,秦⼩屿.⼀种基于逃逸时间算法⽣成分形图像的加
速算法[J].四川⼯业学院学报,2003,22(3).。