支持向量机(SVM)原理及应用概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
支持向量机(SVM)原理及应用
一、SVM得产生与发展
自1995年Vapnik(瓦普尼克)在统计学习理论得基础上提出SVM作为模式识别得新方法之后,SVM一直倍受关注。同年,Vapnik与Cortes提出软间隔(soft margin)SVM,通过引进松弛变量度量数据得误分类(分类出现错误时大于0),同时在目标函数中增加一个分量用来惩罚非零松弛变量(即代价函数),SVM得寻优过程即就是大得分隔间距与小得误差补偿之间得平衡过程;1996年,Vapnik等人又提出支持向量回归 (Support Vector Regression,SVR)得方法用于解决拟合问题。SVR同SVM得出发点都就是寻找最优超平面(注:一维空间为点;二维空间为线;三维空间为面;高维空间为超平面。),但SVR得目得不就是找到两种数据得分割平面,而就是找到能准确预测数据分布得平面,两者最终都转换为最优化问题得求解;1998年,Weston等人根据SVM原理提出了用于解决多类分类得SVM方法(MultiClass Support Vector Machines,MultiSVM),通过将多类分类转化成二类分类,将SVM应用于多分类问题得判断:此外,在SVM算法得基本框架下,研究者针对不同得方面提出了很多相关得改进算法。例如,Suykens 提出得最小二乘支持向量机(Least Square Support Vector Machine,LS—SVM)算法,Joachims等人提出得SVM1ight,张学工提出得中心支持向量机 (Central Support Vector Machine,CSVM),Scholkoph与Smola基于二次规划提出得vSVM等。此后,台湾大学林智仁(Lin ChihJen)教授等对SVM得典型应用进行总结,并设计开发出较为完善得SVM工具包,也就就是LIBSVM(A Library for Support Vector Machines)。LIBSVM就是一个通用得SVM软件包,可以解决分类、回归以及分布估计等问题。
二、支持向量机原理
SVM方法就是20世纪90年代初Vapnik等人根据统计学习理论提出得一种新得机器学习方法,它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中得判别函数,
使学习机器得实际风险达到最小,保证了通过有限训练样本得到得小误差分类器,对独立测试集得测试误差仍然较小。
支持向量机得基本思想:首先,在线性可分情况下,在原空间寻找两类样本得最优分类超平面。在线性不可分得情况下,加入了松弛变量进行分析,通过使用非线性映射将低维输入空
间得样本映射到高维属性空间使其变为线性情况,从而使得在高维属性空间采用线性算法对样本得非线性进行分析成为可能,并在该特征空间中寻找最优分类超平面。其次,它通过使用结构风险最小化原理在属性空间构建最优分类超平面,使得分类器得到全局最优,并在整个样本空间得期望风险以某个概率满足一定上界。
其突出得优点表现在:(1)基于统计学习理论中结构风险最小化原则(注:所谓得结构风险最小化就就是在保证分类精度(经验风险)得同时,降低学习机器得VC 维,可以使学习机器在整个样本集上得期望风险得到控制。)与VC维理论(注:VC维(VapnikChervonenkis Dimension)得概念就是为了研究学习过程一致收敛得速度与推广性,由统计学理论定义得有关函数集学习性能得一个重要指标。),具有良好得泛化能力,即由有限得训练样本得到得小得误差能够保证使独立得测试集仍保持小得误差。(2)支持向量机得求解问题对应得就是一个凸优化问题,因此局部最优解一定就是全局最优解。(3)核函数得成功应用,将非线性问题转化为线性问题求解。(4)分类间隔得最大化,使得支持向量机算法具有较好得鲁棒性。由于SVM自身得突出优势,因此被越来越多得研究人员作为强有力得学习工具,以解决模式识别、回归估计等领域得难题。
1.最优分类面与广义最优分类面
SVM就是从线性可分情况下得最优分类面发展而来得,基本思想可用图1来说明。对于一维空间中得点,二维空间中得直线,三维空间中得平面,以及高维空间中得超平面,图中实心点与
空心点代表两类样本,H为它们之间得分类超平面,H
1,H
2
分别为过各类中离分类面最近得样本
且平行于分类面得超平面,它们之间得距离△叫做分类间隔(margin)。
图1 最优分类面示意图
W
所谓最优分类面要求分类面不但能将两类正确分开,而且使分类间隔最大。将两类正确分
开就是为了保证训练错误率为0,也就就是经验风险最小(为O)。使分类空隙最大实际上就就是使推广性得界中得置信范围最小?,从而使真实风险最小。推广到高维空间,最优分类线就成为最优分类面。
设线性可分样本集为就是类别符号。d维空间中线性判别函数得一般形式为就是类别符号。d维空间中线性判别函数得一般形式为(主:w代表Hilbert空间中权向量;b代表阈值。),分类线方程为?。将判别函数进行归一化,使两类所有样本都满足,也就就是使离分类面最近得样本得,此时分类间隔等于?,因此使间隔最大等价于使 (或)最小。要求分类线对所有样本正确分类,就就是要求它满足
(11)
满足上述条件(11),并且使最小得分类面就叫做最优分类面,过两类样本中离分类面最近
得点且平行于最优分类面得超平面H
1,H
2
上得训练样本点就称作支持向量(support vector),
因为它们“支持”了最优分类面。
利用Lagrange(拉格朗日)优化方法可以把上述最优分类面问题转化为如下这种较简单得对偶问题,即:在约束条件,
(12a)
(12b) 下面对(主:对偶变量即拉格朗日乘子)求解下列函数得最大值:
? (13)
若为最优解,则 (14)
即最优分类面得权系数向量就是训练样本向量得线性组合。