支持向量机(SVM)

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

支持向量机的理论基础
5. 结构风险最小化(SRM)
支持向量机的理论基础
5. 结构风险最小化(SRM) 实现 SRM 原则的两种思路: (1)在每个子集中求最小经验风险, 然后选择使最小经验风险和置信范围之和最小的子集.显然这种方法 比较费时,当子集数目很大甚至是无穷时不可行.(2)设计函数集的某 种结构使每个子集中都能取得最小的经验风险(如使训练误差为 0),然 后只需选择选择适当的子集使置信范围最小,则这个子集中使经验风 险最小的函数就是最优函数。 支持向量机方法实际上就是第二种思想的具体实现。
把(9)分别对 w 和 b 求偏微分并令它们等于 0,就可以把原问题转化为如下 这种较简单的对偶问题;在约束条件


n
y i i 0 ,
i 1, , n
i 1
(10a) (10b)
i 0,
之下对 i 求解下列函数的最大值:
最优分类面
h
支持向量机的理论基础
4.经验风险与真实风险的关系 统计学习理论系统地研究了对于各种类型的函数集,经验风险和 实际风险之间的关系。 得出如下结论: 对指示函数集中的所有函数(包 括使经验风险最小的函数), 经验风险 R em p ( w ) 和实际风险 R ( w ) 之间以 至少 1 的概率满足如下关系:
R w R em p w h ln 2 n h 1 ln 4 n
(5)
其中 h 是函数集的 VC 维,n 是样本数. 这一结论从理论上说明了学习机器的实际风险是由两部分组成的: 一是经验风险(训练误差),另一部分称作置信范围,它和学习机器的 VC 维及训练样本数有关。
最优分类面
d 设线性可分样本集为 ( x i , y i ) ,i=1,„,n, x R , y 1, 1 是类别符号。d
维空间中线性判别函数 的一般形式为 g ( x) w x b, 分类面方程为: wxb 0, 我们可以对它进行归一化, 使两类所有样本都满足 | g ( x ) | 1 ,
R em p ( w ) 1
n
n
L ( y i , f ( x i , w ))
i 1
(4)
来作为对(2)式的估计,目的是设计算法使它最小化。在模式 识别问题中,经验风险就是训练样本的错误率。 事实上,用 ERM 准则代替期望风险最小化并没有经过充分的 理论论证,只是直观上合理的想当然做法。而实际上,即使可以假 定当 n 趋向于无穷大时(6)式趋近于(2)式,在很多问题中的样本数 目也离无穷大相去甚远.因此,在有限样本条件下,ERM 准则下 并不一定能使期望风险也较小。
em p
支持向量机的理论基础
3.VC 维 定义:对一个指示函数集,如果存在 h 个样本能够被函数集中的函 数按所有可能的 2 种形式分开,则称函数集能够把 h 个样本打散;函数 集的 VC 维就是它能打散的最大样本数目 h.若对任意数目的样本都有 函数能将它们打散,则函数集的 VC 维是无穷大. V C 维反映了函数集的学习能力,V C 维越大则学习机器越复杂(容 量越大).学习能力越强。
0 y f ( x, w) L ( y , f ( x , w )) 1 y f ( x, w)
(3)
支持向量机的理论基础
2.经验风险最小化 在上面的问题表述中,学习的目标在于使期望风险最小化,但 是,由于我们可以利用的信息只有样本(1), (2)式的期望风险并无 法计算,因此传统的学习方法中采用了所谓经验风险最小化(ERM) 准则,即用样本定义经验风险,即定义样本经验风险
支持向量机的理论基础
1. 期望风险最小化 机器学习的目的是根据给定的训练样本求对某系统输入输 出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的 预测. 机器学习问题可以表示为:根据 n 个独立同分布的观测样本
( x1 , y1 ), ( x 2 , y 2 ), , ( x n , y n )
1 2 2 || w || 最小的分类面就叫做最优分类面。过两类样本中离分类面最近的点且平
行于最优分类面的超平面 H1,H2 上的训练样本就是使(7)式等号成立的那 些样本,他们叫做支持向量(Support Vectors) 。
最优分类面 统计学习理论指出,在 d 维空间中,设样本分布在一个半径为 R 的超球范
支持向量机的理论基础
过学习问题 ERM 准则不成功的一个例子是神经网络的过学习问题.开始, 很多注意力都集中在如何使 R ( w ) 更小,但很快就发现,训练误差 小并不总能导致好的预测效果.某些情况下,训练误差过小反而 会导致推广能力的下降,即真实风险的增加,这就是过学习问题. 该问题出现的原因: 一是因为样本不充分,二是学习机器设计 不合理。究其原因,是试图用一个十分复杂的模型去拟合有限的 样本,导致丧失了推广能力. 学习机器的复杂性与推广性存在着矛 盾。 结论:有限样本情况下,1)经验风险最小并不一定意味着期望 风险最小;2)学习机器的复杂性不但应与所研究的系统有关,而且 要和有限数目的样本相适应.
2 || w ||

2
,这就是 SVM 方法的出发点。
根据上面的讨论, 在线性可分条件下构建最优分类面, 就转化为下面的二 次规划问题。即在条件(7)的约束下,求函数
(w) 1 2 1 (w w) || w || 2 2
(8)
最优分类面
的最小值。我们可以定义如Fra Baidu bibliotek的 Lagrange 函数:
支持向量机 (Support Vector Machine)
2008-5-15
Outline
SVM 的理论基础 最优分类面 广义最优分类面 非线性支持向量机 SVM 的主要特点 SVM 的研究 SVM 的应用
支持向量机的理论基础
迄今为止,关于机器学习问题还没有一种被共同接受的理 论框架,关于其实现方法大致可以分为三种: (1)经典的(参数)统计估计方法。如模式识别、神经网络 等。现有机器学习方法共同的重要理论基础之一是统计学。参 数方法正是基于传统统计学的,在这种方法中,参数的相关形 式是已知的,训练样本用来估计参数的值。 这种方法有很大的局限性:它需要已知样本分布形式;它 研究的是样本数目趋于无穷大时的渐近理论。但在实际问题中, 样本数往往是有限的,因此一些理论上很优秀的学习方法实际 中表现却可能不尽人意。
合概率,即 x 和 y 之间存在一定的未知依赖关系。

支持向量机的理论基础
1. 期望风险最小化
L ( y , f ( x , w )) 为用 f ( x , w ) 对
y 进行预测而造成的损失。不同类型
的学习问题有不同形式的损失函数。预测函数通常也称作学习函 数、学习模型或学习机器。 模式识别问题中,损失函数的定义为:
支持向量机的理论基础
4.经验风险与真实风险的关系 因此, (5)式可以简单地表示为:
R ( w ) R em p ( w ) ( h / n )
(6)
它表明,在有限训练样本下,学习机器的 VC 维越高(复杂性越高)则 置信范围越大,导致真实风险与经验风险之间可能的差别越大.这就是 为什么会出现过学习现象的原因.机器学习过程不但要使经验风险最 小,还要使 VC 维尽量小以缩小置信范围,才能取得较小的实际风险,即 对未来样本有较好的推广性.
支持向量机的理论基础
5. 结构风险最小化(SRM) 在传统方法中,选择学习模型和算法的过程就是调整置信范围的 过程,如果模型比较适合现有的训练样本(相当于 h / n 值适当),则可以 取得比较好的效果.但因为缺乏理论指导,这种选择只能依赖先验知识 和经验,造成了对使用者“技巧”的过分依赖。 统计学习理论提出了一种新的策略,即把函数集构造为一个函数子 集序列,使各个子集按照 VC 维的大小排列;在每个子集中寻找最小经 验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小, 如下 图 所 示.这 种 思想 称 作 结构 风 险 最小 化(Structural Risk Minim -ization 或称有序风险最小化)即 SRM 准则。
在预测函数集 { f ( x , w )} 中寻求一个最优的函数
(1)
f ( x ,w 0 ) ,使得预测的
期望风险 R ( w )

L ( y , f ( x , w )) d F ( x , y )
(2)

最小。其中 w 为函数的广义参数, F ( x , y ) 为 x 和 y 之间未知的联
支持向量机的理论基础
(2)经验非线性方法。如人工神经网络(ANN) 。这种方法利 用已知样本建立非线性模型,克服了传统参数估计方法的困难。 但是,这种方法缺乏一种统一的数学理论。 (3)统计学习理论(Statistical Learning Theory 或 SLT) 。它 是一种专门研究小样本情况下机器学习规律的理论。该理论针对 小样本统计问题建立了一套新的理论体系,它能将很多现有方法 纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网 络结构选择问题、局部极小点问题等) 。
最优分类面
SVM 是从线性可分情况下的最优分类面发展而来的,基本思想可用下 图的两维情况说明。图中,实心点和空心点代表两类样本,H 为正确分开两 类样本的分类线,H1、H2 分别为过各类中离分类线最近的样本且平行于分类 线的直线,它们之间的距离叫做分类空隙或分类间隔(margin) 。所谓最优分 类线就是要求分类线不但能将两类正确分开(训练错误率为 0) ,而且使分类 间隔最大。要求两类训练样本正确分开就是保证经验风险最小(为 0) ,要求 分类间隔最大也就是使推广性的界中的置信范围最小,从而使真实风险最小。
支持向量机的理论基础
1992 年—1995 年, Vladimir N. Vapnik 在这一理论基础上发 展了一种新的通用学习方法──支持向量机(Support Vector Machine 或 SVM) ,在解决小样本、非线性及高维模式识别问题 中表现出许多特有的优势,并能够推广应用到函数拟合等其他 机器学习问题中。一些学者认为,SLT 和 SVM 正在成为继模式 识别和神经网络研究之后新的研究热点,并将推动机器学习理 论和技术有重大的发展。 支持向量机方法是建立在统计学习理论的 VC 维理论和结 构风险最小化(SRM)原理基础上的,根据有限的样本信息在 模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习 能力(即无错误地识别任意样本的能力)之间寻求最佳折衷, 以期 获得最好的推广能力(Generalization Ability)。
围内,则满足条件 || w || c 的正则超平面构成的指示函数集
f ( x , w , b ) sg n { ( w x ) b } ,
的 VC 维满足下面的界
h m in([ R c ], d ) 1.
2
因此使 || w || 最小就是使 VC 维的上界最小,从而实现结构风险最小化(SRM)准 则中对函数复杂性的选择:固定经验风险,最小化期望风险就转化为最小化
L (w, b, ) 1 2 (w w)

i 1
n
i
{ y i [( w x i ) b ] 1} ,
(9)
T 其中, ( 1 , , n ) 为与每个样本对应的 Lagrange 乘子向量,我们的问题
是对 w 和 b 求 Lagrange 函数的极小值。
即使离分类面最近的样本的 | g ( x ) | 1 ,而要求分类线对所有样本正确分类, 就是要求样本满足
y i [( w x i ) b ] 1 0,

i 1, 2, ..., n
2
(7)
此时分类间隔等于 2/|| w ||,使间隔最大等价于使 || w || 最小。满足条件(7)且使
相关文档
最新文档