支持向量机和核函数

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 推广能力是指: 将学习机器(即预测函数, 或称学习函数、学习模型)对未来输出进行 正确预测的能力。
• “过学习问题”:某些情况下,当训练误 差过小反而会导致推广能力的下降。
例如:对一组训练样本(x,y),x分布在 实数范围内,y取值在[0,1]之间。无论这 些样本是由什么模型产生的,我们总可以 用y=sin(w*x)去拟合,使得训练误差为0.
结构风险最小化(SRM)
结构风险最小就是根据函数集的性质将它划 分成一系列嵌套的子集,学习问题就是选择最好 的子集(根据推广能力)和在子集中选择最好的函 数(根据经验风险)
SVM是一种比较好地实现了结构风险最小化思想 的方法
•分类超平面的一些基本概念
g(x)wTxb0
W是超平面H的法向量,决定超平面的方向;
2
i 1
(2)
i[yi(w Txib)1 ]
(2)式是一个二次优化问题,存在唯一最优解。把 该式分别对w、b求偏导,并使其等于零,即:
Lw,b,
0 w
N
w i yi xi i 1
Lw,b,
0 b
N
iyi 0
i1
将上面两式带入(2),可得到下式:
N 1NN
Q J(w ,b , )
机器学习本质上就是一种对问题真实模型的逼近,但真实 模型一定是不知道的。那么我们选择的假设与问题真实解之 间究竟有多大差距,我们就没法得知。这个与问题真实解之 间的误差,就叫做风险。我们选择了一个假设后,真实误差 无从得知, 但我们可以用某些可以掌握的量来逼近它。最直 观的想法就是使用分类器在样本数据上的分类的结果与真实 结果(因为样本是已经标注过的数据,是准确的数据)之间 的差值来表示。这个差值叫做经验风险Remp(w)。以前的机 器学习方法都把经验风险最小化作为努力的目标,但后来发 现很多分类函数能够在样本集上轻易达到100%的正确率,在 真实分类时却一塌糊涂(即所谓的推广能力差,或泛化能力 差)。
g(x)w ,xb= w Tx+ b, wRd,bR
存在超平面为 :
wTxb0 决策面方程
使得训练样本中的正类输入和负类输入分别位于 该超平面两侧。 存在参数(w,b),使得:
yi sgnwTxb, i 1,...,N
许多决策平面都可以将两类样本分开,应选择哪 一个呢?
Class 2
Class 1
• 以前机器学习的目标是降低经验风险,要降低经 验风险,就要提高分类函数的复杂度,导致VC维 很高,VC维高,置信风险就高,所以,结构风险 也高。---- 这是SVM比其他机器学习具有优势的 地方
VC维的引入
打散:若存在一个有h个样本的样本集,被一函数集里 的某个函数按照所有可能的2h种形式分为两类,则称 函数集能够把样本数为h的样本集打散(shattering)。
i 1
i
i
2i 1j 1
jy iyj x i,xj
于是,对w和b求拉个源自文库日函数的极小值来求解最优分 类面问题,可转化为在如下约束条件下
l
i yi 0
i 1
i 0 i 1,..., N
( N 为样本数目) (3)
训练样本之间的内积
对i求解下列函数的最大值
l
Q
i1
1N N
i
i
2i1 j1
目标:最优分类面 满足条件: 经验风险最小(错分最少)
推广能力最大(空白最大)
如何寻找最优面?
H1
H2
H3
H
Class 2
W’
Class 1
•如图所示,假定划分直线的法方向已给定。直线H1 是一条以w’为法向量且能正确划分两类样本的直线。
这样的直线并不唯一。如果平行推移直线H1 , 直到碰到某类训练点,就可得到两条极端直线H2 和H3 ,在直线H2和H3之间的平行直线都能正确分 类。显然在H2和H3中间的那条直线H为最好。
f(x ) sg nw ,x b sg n n i 1
i yi x i,x b (6)
待分样本x与支持 向量xi的内积
式中求和实际只对支持向量进行(非支持向量对
应的 i为 0),b*是分类阈值,可用任意支持向量
使两类无错误的分开,且使两类的分类空隙最大,前者 是保证经验风险尽可能小, 后者是使真实风险最小。
SVM问题的数学表示(线性可分情况)
设两类线性可分训练样本集为y1,x1,L,yN ,xN,
x R d , 其 中 y + 1 , - 1 是 类 别 标 识 。
d维空间,线性判别函数的一般形式为:
1.统计学习理论基本思想
由贝尔实验室Vapnik于1992年首次提出
•研究小样本下机器学习规律的理论。针对小样本统 计问题,建立了一套新的理论体系
基本思想:折衷考虑经验风险和推广的置信界限, 取得实际期望风险的最小化。即根据有 限样本信息在模型复杂性和学习能力之 间寻求最佳折中
两大核心概念: VC维和结构风险最小化。
如何寻找w及b 分类平面应使两类之间的间隔最大。归一化后分类
面方程 gxw应Tx满足b:
对于任意样本x有:
if yi 1g(xi)wTxi+ b1 if yi 1g(xi)wTxi+ b1
即: yi (wxi+b) 1
Class 1
Class 2
m
图中分类间隔为 m 2
w
(利用式r g(x)) || w||
第5章 支持向量机和核函数
• “支持向量机方法是建立在统计学习理论的 VC 维理论和结构化风险最小原理基础上”
• 结构化风险
• 结构化风险 = 经验风险 + 置信风险
• 经验风险 = 分类器在给定样本上的误差
• 置信风险 = 分类器在未知样本上分类的结 果的误差
一般模式识别方法的问题
1)传统统计方法 •基于经验风险最小化,经验风险最小不等于期望 风险最小,不能保证分类器的推广(泛化)能力。 •经验风险只有在样本数无穷大趋近于期望风险, 即在有限样本情况下,经验风险最小并不意味着 期望风险最小。 •需要已知样本的分布形式
22
使式(1)等号成立的样本(即H2 和H3 上 的样本)就叫支持向量。
由上节可知 我们的目标函数:
用另一个完全等价的目标函数来代替,那就是:
如果直接来解这个求最小值问题,很容易看出当||w||=0的时 候就得到了目标函数的最小值。反映在图中,就是H2与H3 两条直线间的距离无限大,这个时候,所有的样本点(无论 正样本还是负样本)都跑到了H2和H3中间,而我们原本的 意图是,H2右侧的 被分为正类,H3 左侧的被分为负类,位 于两类中间的样本则拒绝分类。这下可好,所有样本点都进 入了无法分类的灰色地带。造成这种结果的原因是在描述问 题的时候只考虑了目标,而没有加入约束条件, 体现在我们 的问题中就是样本点必须在H2或H3的某一侧(或者至少在
在这一理论基础上,发展了一种新的通用模 式识别方法——支持向量机(SVM)
发展迅速,已经在许多领域都取得了成功的 应用。
• VC维的概念: (VC是取Vapnik和Chervonenkis名字的首字而 成)
描述函数集或学习机器的复杂性的指标,即描述 机器学习能力的重要指标
• 样本数量,给定的样本数量越大,学习结果越有 可能正确,此时置信风险越小; 分类函数的VC维,VC维越大,推广能力越差, 置信风险会变大。 提高样本数量,降低VC维,降低置信风险。
b 决定超平面的位置。
两类问题:g(x)表示分类面
g(x)
wT
(xp
r
||
w w
) ||
b
wT
xp
b
r
wT w || w||
r
||
w
||
r g(x) || w ||
2.支持向量机算法
目标:
找到一个超平面,使得它能够尽可能多的将两类 数据点正确的分开,同时使分开的两类数据点距离 分类面最远。
解决方法: 构造一个在约束条件下的优化问题。
w
T '
w,
k
b' b k
则H为: wTxb0
H2为: H3为:
wTxb1 wTxb1
该过程称为分类直线的规范化过程(即判别函数归 一化)。
此时两条直线H2和H3之间的间隔为:w2
如前所述,对于适当的法向量,会有两条极端的直 线,这两条直线之间有间隔。最优分类直线就应该是 两直线间隔最大的那个法向量所表示的直线。
函数集的vc维:
用这个函数集中的函数所能够打散的最大样本集的 样本数目。也就是说,如果存在h个样本的样本集能 够被函数集打散,而不存在有h+1个样本的样本集能 被函数集打散,则函数集的VC维就是h。
若对于任意的样本数,总能找到一个样本集能够被这 个函数集打散,则函数集的VC维就是无穷大。
例如:3个样本被线性分类器打散的情况 有2h =23=8种分类形式
以上给出了在已知法向量w’情况下构造划分直线
的方法。这样就把问题归结为寻求法向量w及b。
要让H满足wTx+b=0 ,则必须寻找最佳(w、b)
判别函数归一化:
假如H可表示为: w'T xb' 0
因为H在中间,显然H2可表示为:
T
w' x b' k
H3可表示为 : w'Txb' k
两边同除以k,令
置信风险与两个量有关,一是样本数量,显然给定的样本
数量越大,我们的学习结果越有可能正确,此时置信风险越 小;二是分类函数的VC维,VC维越大,推广能力越差,置信 风险会变大。
2)经验非线性方法 如人工神经网络(ANN) 利用已知样本建立非线性模型。 缺点:缺乏一种统一的数学理论
统计学习理论 —针对小样本统计估计和预测的最佳理论
jyiyj
xiTxj
(4)
为与约束条件
i
yi
wTxb 1对应的拉格朗日乘子。
这也是一个二次函数寻优问题,存在唯一解。解中
只有支持向量对应的系数i为非零值,即:只有支持向 量影响最终的划分结果。
若 i为最优解,则
n
w
iyixi
支持向量i1
任取 i ,0可求得 (b可用支持向量求得)。
由任一支持向量通过式(1)可求得b*。则最优分类函 数为:
能打散 VC维为3
不能打散
VC维是目前为止对函数集学习性能的最好描述 指标。但遗憾的是目前尚没有通用的关于如何计 算任意函数集的VC维的理论。
VC维是目前为止对函数集学习性能的最好描述 指标。但遗憾的是目前尚没有通用的关于如何计 算任意函数集的VC维的理论。
•结构风险最小化的思想 Vapnik证明,期望风险与经验风险之间的关系 满足如下公式:
H2或H3上),而不能跑到两者中间。
约束是什么?
yi w,xi b1
在条件式(1)下,求函数
w1w21w,w 的最小值。
22
使式(1)等号成立的样本(即H2 和H3 上 的样本)就叫支持向量。
求极值:可用拉格朗日乘子法求解
引入拉格朗日乘子i0,设Lagrange函数为:
L (w ,b, )1w Tw N
原因:选择了一个足够复杂的分类函数,能够精确的记住每 一个样本,但对样本之外的数据一律分类错误。
统计学习引入了泛化误差界的概念,就是指真实风险应该
由两部分内容刻画,一是经验风险,代表了分类器在给定样 本上的误差;二是置信风险,代表了我们在多大程度上可以 信任分类器在未知样本上分类的结果。很显然,第二部分是 没有办法精确计算的,因此只能给出一个估计的区间,也使 得整个误差只能计算上界,而无法计算准确的值。
R (w )R em p(w ) (n/h )
其中n表示样本数,h为学习机器的VC维,(n / h) 称为置信区间。(n /是h)随n/h增大而减小的函数。
VC维h越大,(n / h)越大,经验风险和期望风险之间的偏 差越大。这样即使在经验误差很小的情况下,其推广 误差会越大。
将函数集构造为一个函数子集序列S1 S2 Sk ,使各个子集按照VC维的大小排列(h1 h2 hk )。在每个子集中寻找的最小经验风险,随子 集复杂度增加而减小,在子集间折衷考虑经验风险 和置信界限,取得实际风险的最小 。
SVM基本思想:就是最大化分类间隔 2 w ,因
此等价于w 2 最小化 。
即max 2 min1||w||2
|| w||
2
因此,求取最优平面问题就转化为优化问题。因 对于所有样本
yi w,xi b 1 (1)
满足式(1),且使 w 最2 小的分类面就是最 优分类面
在条件式(1)下,求函数
w1w21w,w 的最小值。
SVM是利用核函数将输入向量映射到一个高维特 征空间,并在该空间内构造一个最优超平面来逼近分 类函数。最优分类超平面的构造最终可以归结为二 次寻优问题。
由于SVM在解决小样本,非线性及高维模式识 别问题中表现出许多特有的优势,因此受到广泛 的关注。
最优分类面:
1)线性可分情况:
对于线性可分问题,是在经验风险为零时,最 小化置信范围。
相关文档
最新文档