支持向量机
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
支持向量机
support vector machine
SVM
支持向量机
•SVM从线性可分情况下的最优分类面发展而来。•最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。•SVM考虑寻找一个满足分类要求的超平面,并且使边缘最大。
•过两类样本中离分类面最近的点且平行于最优分类面的超平面上的训练样本就叫做支持向量。
三大部分:
1.线性支持向量机:可分情况
2.线性支持向量机:不可分情况
3.非线性支持向量机
为了解释SVM的基本思想,首先介绍最大边缘超平面的概念以及选择它的基本原理。
然后,描述在线性可分的数据上怎样训练一个线性的SVM,从而明确的找到最大边缘超平面。
最后,介绍如何将SVM方法扩展到非线性可分的数据上。
超平面:平面中的直线在高维空间中的推广;数据集是线性可分的;
决策边界;
边缘:一对超平面之间的间距;
最大边缘超平面:边缘最大。
最大边缘超平面表示+1
表示-1
表示+1
表示-1
表示-1
最大间隔
表示+1
表示-1
决策边界
超平面边缘
B1是训练样本的最大边缘超平面
最大边缘的基本原理
边缘比较小时,决策边界任何轻微的扰动都可能对分类产生显著的影响;
决策边界边缘较小的分类器对模型的过分拟合更加敏感,从而泛化误差较大;
具有较大边缘的决策边界具有更好的泛化误差。
结构风险最小化理论:
结构风险=置信区间+经
验风险
支持向量机的理论基础
3.VC维
定义:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2h种形式分开,则称函数集能够把h个样本打散;函数集的VC维就是它能打散的最大样本数目h.若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大.
V C维反映了函数集的学习能力,V C维越大则学习机器越复杂(容量越大).学习能力越强。
结构风险最小化(SRM)理论:
分类器的训练误差、训练样本N 和模型的复
杂度h (能力),给出了分类器泛化误差的一个上界R 。具体的说,在概率下,
e R η-1)4ln )12(ln (8η
+++≤h N h N R R e 体现了训练误差和模型复杂度的折中。
线性支持向量机:可分情况
目的:寻求具有最大边缘的超平面。分三部分来学习:
1.线性决策边界
2.线性分类器的边缘
3.线性SVM模型
1.线性决策边界
形式:
x
w
⋅b
(=
)
+
W的方向垂直于决策边界
线性支持向量机:可分情况
1.线性决策边界
对于任何位于决策边界上方的方块,有
s X k b s =+⋅)(x w 0
>k 对于任何位于决策边界上方的方块,有
c X ')(k b c =+⋅x w 0
'<k 预测任何测试样本Z 的类标号y :
⎩⎨⎧-=11y 0
)z (>+⋅b w 0
)z (<+⋅b w
2.线性分类器的边缘
考虑距离决策边界最近的方块和圆圈。调整决策边界的参数w 和b ,两个平行的超平面和可以表示如下:
1i b 2i b 1
)(:1=+⋅b b i x w 1
-)(:2=+⋅b b i x w 可得到边缘d 的公式:
w 2=d
3.线性SVM 模型
最大化边缘等价于最小化下面的目标函数:
2
w min
2
w
2
w )w (2
=
f (),1x w ≥+⋅b y i i N
i ,Λ,2,1=SVM 的学习任务可以形式化的描述为以下被约束的优化问题:
受限于
3.线性SVM 模型
该问题是凸优化问题,可以通过拉格朗日乘子方法来解。拉格朗日函数:
∑=-+⋅-=N
i i i i p b y L 1
2
)
1)x w ((w 21λ对关于w 和b 求偏导,并令它们等于零:
p L ∑==⇒=∂∂N
i i
i i p y L 1
x w 0w λ∑==⇒=∂∂N
i i i p y b
L 1
0λ
3.线性SVM 模型
∑==⇒=∂∂N
i i
i i p y L 1
x w 0w λ∑==⇒=∂∂N
i i i p y b
L 1
0λ此时不能得到w 和b 的解。若只包含等式约束,则我们可利用从该等式约束中得到的N 个方程和上述两个方程就可得到w ,b 和的可行解。
i λ(5-39)
(5-40)
3.线性SVM 模型
KKT 条件:限制拉格朗日乘子非负,把不等式约束变换成等式约束。得到:
)1)x w ((=-+⋅b y i i i λ0
≥i λ那些的训练实例位于超平面和上,称为支持向量。不在这些超平面上的实例可定满足。定义决策边界的参数w 和b 仅依赖于这些支持向量。
0>i λ1i b 2
i b 0=i λ(5-41)(5-42)