几种SVM的优劣性比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
几种SVM的优劣性比较
尹丽东;范丽亚
【摘要】支持向量机(Support Vector Machine, SVM)是将样本进行分类和回归的一种强大的数学工具,尤其是对高维领域,效果尤为显著.支持向量机工作原理是针对样本数据集,寻找决策函数来对样本数据进行分类的.如今已经衍生出多种SVM 的相关模型.最为常见是有孪生支持向量机(T-SVM),正则化支持向量机(RT-SVM),最小二乘支持向量机(LSSVM).这几类模型的出发点和建构模型的思想有些许不同之处.本文则选取了三种常见的SVM模型,分析和比较它们之间的优势以及劣势, 能让读者更加深入的了解这类算法, 并且在实际问题中更具有选择应用性.
【期刊名称】《聊城大学学报(自然科学版)》
【年(卷),期】2017(030)002
【总页数】6页(P14-19)
【关键词】支持向量机;有效稀疏;;孪生支持向量机;正则化支持向量机
【作者】尹丽东;范丽亚
【作者单位】聊城大学数学科学学院,山东聊城252059;聊城大学数学科学学院,山东聊城252059
【正文语种】中文
【中图分类】O224
目前的时代是一个“大数据”的时代,当人们谈到“大数据”时候, 首先映入脑海的就是海量的数据和高维的数据,如网络挖掘、网络信息更新、基因表示分析、高
频金融数据等.如何能在海量高维的数据中挖掘提取出有用信息,并且利用这些有用
信息,来进行数据分析是非常必要的一个研究领域和研究方向, 也是广大研究学者非常关注的一个研究方向..众所周知, 在海量数据中挖掘提取出有用信息,这工作
量往往也是非常庞大的, 利用这些有用信息进行数据分析与处理, 一般都会导致算
法学习时间过与慢长, 甚至达到失效的结果.而支持向量机(Support Vector Machine, SVM)[1]作为数据监督学习[2]的一个强而有力工具, 为了降低其计算复
杂程度, Suykens等人[3]提出了最小二乘SVM (Least Squares SVM, LSSVM).支持向量机,自1995年提出之后, 应用数学的学者们得到了广泛的关注和研究, 并应用于诸多领域, 如人脸检测识别、语音识别、文字手写体识别、图像处理等领域.然而,我们研究发现SVM所具有的稀疏性对于处理大数据和分析问题也是极其重要的.之后,2007年, Jayadeva等人[8]针对二类分类问题提出了孪生SVM(Twin SVM, TSVM), 它是主要思想是解决两个规模较小的二次规划问题,而不是一个大
规模的二次规划问题, 从而得到两个非平行超平面, 使每个超平面距离一类尽可能近,而距离另一类尽可能远.TSVM的计算速度比SVM快很多, 通过理论计算推导,其计算速度大约是SVM速度的4倍, 从而大大缩减了算法的学习时间, 对于处理这类海量高维的大数据非常有帮助. 但是TSVM仍然需要求解两个二次规划问题, 当
学习的数据样本数据较大时, 仍然有比较高的计算复杂性.为了解决此问题, Kumar
等人[9]提出了最小二乘TSVM (Least Squares TSVM, LSTSVM).
接下来的部分,我们对分类器(Support vector classification,SVC)和孪生支持向量机(Twin Support vector Machine,TSVM)等作简要概述和比较研究.
考虑二类分类问题的训练集T={(x1,y1),(x2,y2),…,(xm,ym)},其中xi∈Rn是输入值,yi∈{+1,-1}是对应的输入向量.
线性分类器寻找一个分类超平面
其中w∈Rn是法向量,b∈R是阈值.通过使用软间隔损失函数测量经验风险,通过引
入正则项1/2‖w‖2和松弛向量ξ=(ξ1,…,ξm),分类器的原始问题可以写成如下形式其中C>0是参数.使得正则项1/2‖w‖2最小化等价于两个平行的支持超平面wTx+b=1和wTx+b=-1之间的间隔最大化,其中ξi≥0, i=1,…,n为松弛变量, C>0为调节参数. 若令2ξ=(ξ1,…,ξm)T, 则问题(2)可表示为矩阵形式
考虑问题(3)的Lagrange函数
并令∂L/∂w=∂L/∂b=∂L/∂ξ=0, 可得w=XYα,yTα=0,0≤α≤Ce, 其中是Lagrange 乘子向量. 进而得问题(3)的Wolfe对偶形式:
显然, 问题(4)是一个QPP, 其计算复杂性为O(m3).得到问题(3)的最优解后, 便可计算并利用某个支持向量(即对应的输入样本xj)计算
进而可构造最优分类超平面〈w*,x〉+b*=0, 使得y=sign(〈w*,x〉+b*).
通过理论推导计算,我们不难发现软间隔SVM的优点,其具有稀疏性,还有较强的推广能力.但这种软间隔支持向量机需要求解一个QPP. 当样本个数m较大时, 无疑会导致计算时间变长.
本节主要介绍几种具有代表性的支持向量机, 并且对它们各自的优势和劣势加以分析比较.(注:本节所用符号同上一节).
2.1 孪生支持向量机(T-WSVM)
现考虑如下问题.假定用A∈Rm1×n所有表示正类的数据点,Ai∈Rn表示A的第i 行.类似地,用B∈Rm2×n表示负类的数据点.
线性TWSVM寻求一对非平行超平面
每一个超平面都逼近其中一类数据点,并且远离另一类,其中
w1∈Rn,w2∈Rn,b1∈R,b2∈R.经验风险可以由以下式子来测量
其中c1>0和c2>0为参数.通过引入松弛向量ξ,ξ*,η和η*,原始问题可以表示为和
为了得到相应的对偶问题,TWSVM假设HTH和GTG都是非奇异的,其中H=[A
e1],G=[B e2].在此条件下,对偶问题分别是
和
为处理HTH和GTG奇异和避免病态的情况, (HTH)-1和(GTG)-1可以分别由(HTH+εI)-1和(GTG+εI)-1来代替,其中I是合适维数的单位阵,ε是一个正标量.因此以上偶对问题可以修改为
和
通过
获得非平行超平面.其中v1=[w1 b1],v2=[w2 b2].应该特别说明的是,严格来说,由于(8)和(12)的不同v1和v2不再是(8)-(9)的结论,它只能是近似结果. T-SVM 的优点,相对于SVM,计算时间大大缩减了,经过理论推导为其计算时间在理论上应该是SVM计算时间的四分之一.但是T-SVM却丧失了稀疏性.
2.2 最小二乘SVM (LSSVM)
LSSVM是将问题(1)的目标函数中的一次惩罚改为二次惩罚将不等式约束改为等式约束,从而得到的如下二次规划问题:
这样做的目的是加快SVM的学习时间. 显然, 问题(15)可以转化为无约束最优化问题:
令∂f(w,b)/∂w=∂f(w,b)/∂b=0, 可得
记则(17)式可简化为
为不失一般性, 可设对称非负定阵H+CGGT是非奇异阵(否则将其正则化), 于是有进而可构造最优分类超平面〈w*,x〉+b*=0使得y=sign(〈w*,x〉+b*).
从上述的推导过程中可以得出, LSSVM只需要求解线性方程组(7), 无需求解问题(3), 大大减少了SVM的计算复杂程度, 这是LSSVM的一个较好的优点. 但从问题(6)可以看出, LSSVM又失去了SVM所具有的稀疏性,并且需要求解矩阵H+CGGT 的逆矩阵, 当样本的特征个数n较大时, 求解这个逆矩阵,又会花费较长时间, 这就
是LSSVM的不足之处.
2.3 正则项支持向量机(RTSVM)
考虑模型(18)的wolf对偶形式,考虑其lagrange函数
令得
进而有
将(22)式带入到lagrange函数中,并使用(15)式,得到对偶问题
同样地,可以得到(16)式的对偶问题
这里,γ是lagrange乘子,v2=[w2b2]T可以由以下求得
一旦问题(15)和(16)分别由(20)和(21)得到(w1b1)和(w2b2),一个新的点x∈Rn被分配到类i(i=+1,-1),它距离(3)中最近的超平面
其中是绝对值.
2.4 L2-SVM
令H=[Ae1],G=[Be2],我们得到(27)和(28)的对偶问题
一个新的点x∈Rn被分配到类i(i=+1,-1),它距离(5)中最近的超平面
其中表示绝对值.
本文是分析和比较了几种较具代表性的SVM型算法的优劣势,发现了经典的LSSVM虽然降低了SVM的计算复杂程度,但是同时又缺失了SVM所具有的稀疏性特点,而且当样本数量较大时,还需要求解矩阵的逆矩阵,这样又增加了计算复杂性.LSTSVM虽然比LSSVM计算时间快一些, 但我们知道,其同样不具有稀疏性,而且还需要求逆矩阵.所以,SVM学习算法的计算复杂程度和稀疏性对于分析和处理大数据来说,是非常重要的两个因素,特别是对高维数据.为此,学者们对LSSVM 和LSTSVM做了改进和推广, 提出了SP-LSSVM, ε-LSSVM, ε-WLSSVM等具有稀疏性的学习算法. 类似于SP-LSSVM, ε-LSSVM和ε-WLSSVM, 针对LSTSVM也
可以提出具有稀疏性的学习算法, 因篇幅有限, 本文不再加以具体讨论.
【相关文献】
[1] 邓乃扬, 田英杰. 数据挖掘中的新方法: 支持向量机[M]. 北京科学出版社, 2006.
[2] Deng N Y, Tian Y J. Support Vector Machines: Theory, Algorithms and Extensions[M]. Science Press,Beijing, 2009.
[3] Suykens J A K ,Tony V G, Jos D B, et al. Least Squares Support Vector
Machines[M].World Scientific, 2002.
[4] Suykens, J A KVandewalle J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9 (3):293-300.
[5] TianYingjie, Ju Xuchan , Qi Zhiquan, et al.Efficient sparse least squares support vector machine for pattern classification[J]. Computers and Machematics with Applications, 2013, 66:1 935-1 947.
[6] Huang Xiaolin, Shi Lei, Johan A K S. Asymmetric least squares support vector machine classifiers[J].Computational Statistics and Data Analysis, 2014, 70:395-405.
[7] Xu ShuoAn Xin,Qiao Xiaodong,et al. Multi-output least-squares support vector regression machines[J]. Pattern Recognition Letters, 2013, 34:1 078-1 084.
[8] Jayadeva, Khemchandani R, Chandra S. Twin support vector machine for pattern classification[J]. IEEE Trans Pattern Anal Mach Intell, 2007, 29(5):905-910.
[9] Kumar M A,Gopal M. Least squares twin support vector machines for pattern classification[J].Expert Systems Applications, 2009, 36(4):7 535-7 543.
[10] Yang ZhiMin,Wu HeJi,Li ChunNa,et al.Least squares recursive projection twin support vector machine for multi-class classification[J], International Journal of Machine Learning and Cybernetics, 2015, 10:1-16.
[11] Chen Weijie,Shao yuanhai,Deng Naiyang,et placian least squares twin support vector machine for semi-supervised classification[J].Neurocomputing, 2014, 145:465-476.
[12] Jalal A Nasiri,Nasrollah MOghadam Charkari,Saeed Jalili. Least squares twin multi-class classification support vector machine[J]. Pattern Recognition, 2015, 48:984-992. [13] Gao Shangbing,Ye Qiaolin,Ye Ning.1-norm least square twin support vector machines[J].Neurocomputing, 2011, 74:3 590-3 597.
[14] 侯明,张欣欣,范丽亚.四类基于支持向量机的多类分类器的性能比较[J].聊城大学学报:自然科学版, 2014, 27:54-60.
[15] 高西占,范丽亚.基于最小闭球的多类支持向量[J].聊城大学学报:自然科学版, 2014, 26:24-29.。