支持向量机及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
e=(e1,…,en)T, =(1,…, n)T。在上式中消去w和e后,得到如下
线性方程组:
0 1n
1Tn 1
In
b
0 y
其中kl=(xk)T(xl), k,l=1,...,n。
Page 31
最小二乘支持向量(回归)机
根据Mercer定理,最小二乘支持向量分类器为:
f(x)sgnn kK(x,xk)b
Page 28
四、最小二乘支持向量(分类)机
Suykens等人在支持向量回归机中引入如下的二次损失函数作 为代价函数,并将其不等式约束改为等式约束:
R em (w p ,b)n 1kn 1(w (T (xk)b)yk)2
y k w T ( x k ) b e k , k 1 , ,n
因此,把支持向量机的原始优化问题转变为如下寻找w和b的
支持向量(分类)机
在问题(9)中K(x,x’)称为核函数。有:
K (xx')( (x) (x'))
核函数K(x,x’)仅依赖于的内积,要求满足Mercer 条件。若K是正定核的话,问题(9)是凸二次规划, 比有解。 在支持向量机应用中,核函数K(x,x’)一般先验性地 选取。常见的核有:线性核、多项式核、高斯核、 Sigmoid核、样条核、小波核等等。
(6)
i 0,i 1,,n
其中C>0称为惩罚因子。
Page 17
线性支持向量(分类)机
类似前面,通过引入如下的Lagrange函数:
L ( w ,b , , ,r ) 1 2 w 2 C i n 1 i i n 1 i( y i(w ( x i) b ) 1 i) i n 1 r i i
得到: n
yii 0
i 1 n
w yiixi i1
Page 12
(3) (4)
线性可分的支持向量(分类)机
将(3)式代入Lagrange函数,并利用(4)式,则原始的优化问题 转化为如下的对偶问题(使用极小形式):
min
1n 2 i1
n
n
yi yjij (xi xj ) j
j1
j1
SVM的描述
期望风险R(w)要依赖联合概率F(x,y)的信息, 实际问题中无法计算。 一般用经验风险Remp(w)代替期望风险R(w)
Remp(w)
1 n
n i1
L(yi ,
f
(xi , w))
错分数
n
Page 8
一般模式识别方法的问题
经验风险最小不等于期望风险最小,不能保证 分类器的推广能力. 经验风险只有在样本数无穷大趋近于期望风险, 需要非常多的样本才能保证分类器的性能。 需要找到经验风险最小和推广能力最大的平衡 点。
(1)界内支持向量一定位于间隔边界上 的正确划分区;
(2)支持向量不会出现在间隔以外的 正确划分区;
(3)非支持向量一定位于带间隔的正确划分区。
Page 19
目录
线性可分的支持向量(分类)机 线性支持向量(分类)机 支持向量(分类)机 最小二乘支持向量(分类)机 硬-带支持向量(回归)机 软-带支持向量(回归)机 -支持向量(回归)机 最小二乘支持向量(回归)机 支持向量机应用
Page 34
五、硬-带支持向量(回归)机
1、一个简单的回归例子。 考虑两个量x与y的关系。假设已测得若干个数据构成的数据
集D:
Page 35
硬-带支持向量(回归)机
Page 36
五、硬-带支持向量(回归)机
2、不敏感损失函数 为了在回归问题中使用结构风险代替经验风险来作为期望风
险,以及保持在支持向量分类机的稀疏性质,Vapnik引入了如 下的不敏感损失函数: 其中:
Page 2
Page 3
Page 4
SVM的描述
SVM是一种基于统计学习理论的模式识别方 法,它是由Boser,Guyon,Vapnik在COLT-92上 首次提出,从此迅速的发展起来,现在已经 在许多领域(生物信息学,文本,图像处理, 语言信号处理和手写识别等)都取得了成功 的应用
COLT(Computational Learning Theory)
于是,得到如下的决策函数:
f(x)sgnn * iyi(xxi)b*
i1
支持向量:称训练集D中的样本xi为支持向量,如 果它对应的i*>0。
根据原始最优化问题的KKT条件,有
* i(yi(w (*xi)b *) 1 )0
于是,支持向量正好在间隔边界上。
Page 14
目录
线性可分的支持向量(分类)机 线性支持向量(分类)机 支持向量(分类)机 最小二乘支持向量(分类)机 硬-带支持向量(回归)机 软-带支持向量(回归)机 -支持向量(回归)机 最小二乘支持向量(回归)机 支持向量机应用
nLeabharlann Baidu
Lb (e w ,) , J , ( e- w ) k ,(w T (x k) b e k y k) k 1
其中kR为乘子(叫做支持向量)。
其优化条件由下式给出:
L
n
w L
b L
ek
0 0 0
w
k n
k
k 1
k
k
1
0
ek ,
(
x
k
)
k 1,, n
L
k
0 wT (xk ) b ek
于是在Hilbert空间H中寻找使几何间隔最大的超平 面,其原始优化问题为:
min
w,b,
1 2
n
w2 C i
i1
s.t. yi((wzi)b)1i,i 1,,n
(8)
i 0,i 1,,n
Page 23
支持向量(分类)机
问题(8)对应的对偶问题为:
min
1 2
n i1
n
n
yi yjijK(xi xj ) j
为此,引入松弛变量 i 0
并“软化”约束条件:
i
y i(w ( x i) b ) 1 i,i 1 , ,n
Page 16
线性支持向量(分类)机
为了避免i取太大的值,需要在目标函数中对它们进行 惩罚。于是原始优化问题变为:
min
w,b,
1 2
n
w2 C i
i1
s.t. yi((wxi)b)1i,i 1,,n
Page 37
硬-带支持向量(回归)机
Page 38
硬-带支持向量(回归)机
首先考虑硬-带支持向量线性回归情况。设有如下两类样本的训 练集:
D { x 1 ,y ( 1 )( x 2 ,,y 2 ) , ,( x n ,y n )}
Page 9
一、线性可分的支持向量(分类)机
首先考虑线性可分情况。设有如下两类样本的训练集:
D { x 1 ,y ( 1 )( x 2 ,,y 2 ) , ,( x n ,y n )}
x i X R m ,y i { 1 , 1 },i 1 , ,n
线性可分情况意味着存在超平面使训练点中的正类和 负类样本分别位于该超平面的两侧。
Page 5
SVM的描述
目标:找到一个超平面,使得它能够尽可能多 的将两类数据点正确的分开,同时使分开的两 类数据点距离分类面最远。 解决方法:构造一个在约束条件下的优化问题, 具体的说是一个约束二次规划问题(constrained quadratic programing),求解该问题,得到分类器。
在规范化下,超平面的几何间隔为
1 w
于是,找最大几何间隔的超平面
表述成如下的最优化问题:
min1 w2 w,b 2
(1)
s.t. yi((wxi)b)1,i1,,n
Page 11
线性可分的支持向量(分类)机
为求解问题(1),使用Lagrange乘子法将其转化为对偶问题。于 是引入Lagrange函数:
n
s.t. yii 0, i1
i 0, i 1,,n
w
n
y这iix是i 一个凸二
i1 次规划问题
有唯一的最优
解
(5)
求解问题(5),得。则参数对(w,b)可由下式计算:
n
w* *i yixi i1
b*w* n *ixi i1
2n *i yi1
Page 13
线性可分的支持向量(分类)机
优化问题:
m wbe ,,iJn(e w ),1 2wTw2 1kn 1ek2
且带有如下等式约束条件:
y k w T ( x k ) b e k , k 1 , ,n
其中 e i y x T x b
Page 29
最小二乘支持向量(回归)机
为了在对偶空间中求解上述优化问题,定义如下的Lagrange泛 函:
x z(x)
线性
可分
输入空间X
Page 22
线性 不可分
i
支持向量(分类)机
在核映射下,D对应于Hilbert空间H的训练集为: D ' { z 1 , y 1 ) ( , ( z , n , y n ) { } ( x 1 ) y ( 1 ) , , ( , ( x n ) y n ) ,}
Page 15
二、线性支持向量(分类)机
现在考虑线性不可分情况。对于训练集D,不存在这样 的超平面,使训练集关于该超平面的几何间隔取正值。 如果要用超平面来划分的话,必然有错分的点。
但我们任希望使用超平面进行分划,这时应“软化” 对间隔的要求,即容许不满足约束条件的样本点存在。
yi(w (xi)b)1
得到如下的对偶问题:
1 n n
n
min
2 i1
yi yjij (xi xj ) j
j1
j1
n
s.t. yii 0,
(7)
i1
0 i C, i 1,,n
Page 18
线性支持向量(分类)机
求解对偶问题(7),可得如下决策函数:
f(x)sgnn * iyi(xxi)b*
i1
支持向量有下列性质:
L (w ,b , )1 2w 2i n 1 i(yi(w (xi) b ) 1 )
(2)
其中, ( 1 , 2 , ,称 n 为)T LaR g n range乘子。 首先求Lagrange函数关于w,b的极小值。由极值条件有:
b L ( w ,b , ) 0 , w L ( w ,b , ) 0
k1
其中与b通过求解上述方程组得到。
Page 32
例子:最小二乘支持向量(分类)机
Page 33
目录
线性可分的支持向量(分类)机 线性支持向量(分类)机 支持向量(分类)机 最小二乘支持向量(分类)机 硬-带支持向量(回归)机 软-带支持向量(回归)机 -支持向量(回归)机 最小二乘支持向量(回归)机 支持向量机应用
Page 6
模式识别问题的一般描述
已知:n个观测样本,(x1,y1), (x2,y2)…… (xn,yn) 求:最优函数y’= f(x,w) 满足条件:期望风险最小
R (w ) L (y ,f(x ,w )d )(x F ,y )
损失函数
0yf(x,w) L(y,f(x,w)) 1yf(x,w)
Page 7
yk ,k
1,, n
Page 30
最小二乘支持向量(回归)机
上式能被直接表示为求解如下如下线性方程组:
I 0 0 (x)w 0
0
00
0 (x)T
0 1n
In In
1Tn b 0
In 0
e
0 y
其中y=(y1,…,yn)T, (x)=( (x1),…, (xn))T, 1n=(1,...,1)T,
(wx)b0
如果能确定这样的参数对(w,b)
的话,就可以构造决策函数来进行
识别新样本。
f(x)sgw nx() (b)
Page 10
线性可分的支持向量(分类)机
问题是:这样的参数对(w,b)有许多。
解决的方法是采用最大间隔原则。
最大间隔原则:选择使得训练集D对于线性函数 (w·x)+b的几何间隔取最大值的参数对(w,b),并 由此构造决策函数。
j1
j1
n
(9)
s.t. yii 0,
i1
0i C, i 1,,n
求解对偶问题(9),可得如下决策函数:
f(x)sgnn * iyiK(xxi)b*
i1
Page 24
支持向量(分类)机
b*问的计算如下: 选取的一个正分量0<j*<C,计算
n
b*yj *iyiK(xixj) i1
Page 25
Page 20
三、支持向量(分类)机
对于一般的非线性可分情况。对于训练集D,无法寻找 到来如前的超平面来划分。
Page 21
支持向量(分类)机
下面通过核技术来处理。引入一个非线性映射把输入空间
映射到一个(高维的)Hilbert空间H,使数据在H中是线性可分
或线性不可分:
XRm ZH :
Hilbert空间H
Page 26
支持向量(分类)机
线性核: K(xx')(xx')
多项式核:
K (xx')(x (x')c)d
高斯核:
K (xx')exp x(x'2/ 2)
Sigmoid核:
K (xx ') ta n (xx h ') v ()
Page 27
目录
线性可分的支持向量(分类)机 线性支持向量(分类)机 支持向量(分类)机 最小二乘支持向量(分类)机 硬-带支持向量(回归)机 软-带支持向量(回归)机 -支持向量(回归)机 最小二乘支持向量(回归)机 支持向量机应用