支持向量机研究进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第38卷 第2期2011年2月计算机科学Computer Science Vo l .38No .2Feb 2011
到稿日期:2010-03-14 返修日期:2010-06-21 本文受江苏省自然科学基金项目(BK2009093),国家自然科学基金项目(60975039)资助。顾亚祥(1987-),男,硕士生,主要研究方向为数据挖掘、支持向量机,E -mail :gu yaxiang @yah oo .com .cn ;丁世飞(1963-),男,教授,博士生导师,主要研究方向为机器学习与数据挖掘、人工智能与模式识别等。
支持向量机研究进展
顾亚祥1 丁世飞1,2
(中国矿业大学计算机科学与技术学院 徐州221116)
1
(中国科学院计算技术研究所智能信息处理重点实验室 北京100080)
2
摘 要 基于统计学习理论的支持向量机(Suppo rt v ec to r machines ,SV M )以其优秀的学习能力受到广泛的关注。但
传统支持向量机在处理大规模二次规划问题时会出现训练时间长、效率低下等问题。对SV M 训练算法的最新研究成果进行了综述,对主要算法进行了比较深入的分析和比较,指出了各自的优点及其存在的问题,并且着重介绍了目前研究的新进展———模糊SV M 和粒度SV M 。接着论述了SV M 主要的两方面应用———分类和回归。最后给出了今后SV M 研究方向的预见。
关键词 支持向量机,训练算法,模糊支持向量机,粒度支持向量机中图法分类号 T P181 文献标识码 A
Advances of Support Vector Machines (SVM )
G U Y a -xiang 1 DING Shi -fei 1,2
(Sch ool of Com pu ter Science and Tech nology ,C hina University of M ining and Techn ology ,Xuzh ou 221116,China )
1
(Key Lab oratory of Intelligent In formation Processing ,Institute of Computing T ech nology ,Chinese Academy of S ciences ,Beijin g 100080,China )
2
A bstract Suppo rt v ecto r machines (SV M )a re w idespread a ttended fo r its ex ce llent ability to learn ,tha t are based on statistical learning theo ry .But in dealing w ith lar ge -scale quadratic pr og ramming (Q P )problem ,traditio nal S VM will take to o long time of tr aining time ,and has lo w efficiency and so on .T his paper made a summa rize o f the new pro gr ess in the SV M training of alg o rithm ,and made analysis and compariso n o n main alg orithm ,pointed out the advantages and disadvantage s o f them ,focused on new pro g ress in the curre nt study ———F uzzy Suppo rt Vecto r M achine and G ranular Suppo r t Vecto r M achine .Then the two mainly applicatio ns ———cla ssifica tion and reg ression o f SV M wer e discussed .Fi -nally ,the article gav e the future r esear ch dir ec tions on S VM prediction .
Keywords Suppo rt vecto r machine ,T r aining algo rithm ,Fuzzy SV M ,G r anula r SVM
支持向量机是Vapnik 等人于1995年首先提出的[1],它是基于VC 维理论和结构风险最小化原则的学习机器。它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,并在一定程度上克服了“维数灾难”和“过学习”等传统困难,再加上它具有坚实的理论基础,简单明了的数学模型,使得支持向量机从提出以来受到广泛的关注,并取得了长足的发展。
支持向量机的训练算法归结为求解一个受约束的Q P 问题。对于小规模的Q P 问题,它体现出了十分优秀的学习能力,但当将其应用到大规模的QP 问题时,就会表现出训练速度慢、算法复杂、效率低下等问题。现在主要的训练算法都是将原有大规模的Q P 问题分解成一系列小的Q P 问题。但是如何进行分解以及选择合适的工作集是这些算法面临的主要问题,并且这也是各个算法优劣的表现所在。另外一些算法主要是增加函数项、变量或系数等方法使公式变形,使其具有某一方面的优势,或者有一定应用范围。
目前研究的大规模问题训练算法并不能够彻底解决所面
临的问题,因此在原有算法上进行合理的改进或者研究新的训练算法势在必行。本文对主要的训练算法以及SV M 扩展算法进行了综述,并在此基础上对未来研究的方向进行了展望。
1 SVM 基本理论
支持向量机最初是在模式识别中提出的。假定训练样本集合(x i ,y i ),i =1,…,l ,x i ∈R n ,y ∈{-1,+1},可以被超平面x ·w +b =0无错误地分开,并且离超平面最近的向量离超平面的距离是最大的,则这个超平面称为最优超平面[1]。而SVM 的主要思想是通过某种事先选择的非线性映射将输入向量x 映射到一个高维特征空间Z ,并在这个空间中构造最优超平面[2,3]。但是如何求解得到这个最优超平面以及如何处理高维空间中经常遇到的维数灾难问题?针对第一个问题,主要将训练SV M 算法归结成一个Q P 问题,并且该问题的解由下面的拉格朗日函数的鞍点给出:
L (w ,b ,α)=1
2w 2-∑l i =1
αi {y i [(x i ·w )-b ]-1}