支持向量机入门PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

g ( x) w x b
• 两类情况:对于两类问题的决策规则为
• 如果g(x)>=0,则判定x属于C1, • 如果g(x)<0,则判定x属于C2
线性判别函数和判别面
超平面
• 方程g(x)=0定义了一个判定面,它把归类于C1的点与归类于C2 的点分开来。 • 当g(x)是线性函数时,这个平面被称为“超平面”(hyperplane)。
i 0
目标:最优分类面 w x b 0 折衷考虑最少错分样本和最大分类间隔,就得到广义 最优分类面,其中,C>0是一个常数,它控制对错分 样本惩罚的程度。
支持向量机
• 上节所得到的最优分类函数为:
f ( x) sgn{w x b } sgn{ i 1 i* yi ( xi x) b*}
所谓最优分类线就是要求分类线不 但能将两类正确分开(训练错误率 为0),而且使分类间隔最大. 推广到高维空间,最优分类线就变 为最优分类面。
最优分类面
设线性可分的样本集: D维空间中的线性判别函数:
{xi, yi}, i 1,...l, yi {1,1}, xi Rd
d 维空间中的判别函数:g ( X ) w x b, 分类面方程为w x b 0. k1 k 2 设H : w x b 0; H 1 : w x b k 1; H 2 : w x b k 2 令k , 2 H 1 : w x b k 1 k k ; H 2 : w x b k 2 k k 重写H 1, H 2 : H 1 : w x b k ; H 2 : w x b k 归一化:H 1 : w x b 1; H 2 : w x b 1
支持向量机
支持向量机
-SVM
前面介绍的C-SVM,有两个相互矛盾的目标:最大化间隔 和最小化训练错误.其中的常数C起着调和这两个目标的 作用.定性地讲,C值有着明确的含义:选取大的C值,意味 着更强调最小化训练错误.但定量地讲,C值本身并没有确 切的意义,所以C值的选取比较困难.为此,人们提出了这 个改进的方法.
i 1
最优分类面
线性不可分的情况下,可以条件 yi (w xi+b) 1 中增加一个松弛项 { }li1, i 0 成为 yi (w xi+b) 1 i
已知: {xi, yi}, i 1,...l, yi {1,1}, xi Rd n 求解: 1 2
min( || w || C i ) 2 i 1 yi ( w xi b) 1 i (i 1,2,...,n)
线性判别函数和判别面
广义线性判别函数
在一维空间中,没有任何一个线性函数能解决下述划分问 题(黑红各代表一类数据),可见线性判别函数有一定的局限 性。
线性判别函数和判别面
广义线性判别函数
• 如果建立一个二次判别函数g(x)=(x-a)(x-b),则可以 很好的解决上述分类问题。 • 决策规则仍是:如果g(x)>=0,则判定x属于C1,如 果g(x)<0,则判定x属于C2。
将输入空间X 映射到一个新的空间F ={( x) | x X }
支持向量机
K ( xi, yi ) (( xi ) ( yi ))
f ( x) sgn{ i 1 i* yi K ( xi, x) b*}
l
支持向量机
核函数的选择
支持向量机
SVM方法的特点
• ① 非线性映射是SVM方法的理论基础,SVM利用内积核函数 代替向高维空间的非线性映射; • ② 对特征空间划分的最优超平面是SVM的目标,最大化分类 边界的思想是SVM方法的核心; • ③ 支持向量是SVM的训练结果,在SVM分类决策中起决定作 用的是支持向量。 • SVM 是一种有坚实理论基础的新颖的小样本学习方法。它 基本上不涉及概率测度及大数定律等,因此不同于现有的统 计方法。从本质上看,它避开了从归纳到演绎的传统过程,实 现了高效的从训练样本到预报样本的“转导推 理”(transductive inference) ,大大简化了通常的分类和回归 等问题。
线性判别函数和判别面
线性判别函数和判别面
广义线性判别函数
最优分类面
• SVM 是从线性可分情况下的最优分类面发 展而来的, 基本思想可用下图的两维情况说 明.
图中, 方形点和圆形点代表两类样 本, H 为分类线,H1, H2分别为过 各类中离分类线最近的样本且平行 于分类线的直线, 它们之间的距离 叫做分类间隔(margin)。
支持向量机
SVM方法的特点
• SVM 的最终决策函数只由少数的支持向量所确定,计算的复 杂性取决于支持向量的数目,而不是样本空间的维数,这在某 种意义上避免了“维数灾难”。 • 少数支持向量决定了最终结果,这不但可以帮助我们抓住关 键样本、“剔除”大量冗余样本,而且注定了该方法不但算 法简单,而且具有较好的“鲁棒”性。这种“鲁棒”性主要 体现在: – ①增、删非支持向量样本对模型没有影响; – ②支持向量样本集具有一定的鲁棒性; – ③有些成功的应用中,SVM 方法对核的选取不敏感。
l
y 0
i 1 i i l * , i i,
l
对偶问题
b* yj yi i* ( xi xj ), j { j | * j 0}
i 1 l
(2) i 0 对于i =1,...,l 解得 * (1 ,..., l )T 进而 w* yi x
Support Vector Machine 支持向量机
报 告 人:吕玉生 日 期:2008年4月10日
内容
• • • • • • SVM的理论基础 线性判别函数和判别面 最优分类面 支持向量机 LIBSVM简介 实验
SVM的理论基础
• 传统的统计模式识别方法只有在样本趋向无穷大时, 其性能才有理论的保证。统计学习理论(STL)研究 有限样本情况下的机器学习问题。SVM的理论基础 就是统计学习理论。 • 传统的统计模式识别方法在进行机器学习时,强调 经验风险最小化。而单纯的经验风险最小化会产生 “过学习问题”,其推广能力较差。 • 推广能力是指: 将学习机器(即预测函数,或称学习 函数、学习模型)对未来输出进行正确预测的能力。
凸函数: S R n .称S是非空凸集,f是定义在S上的函数.称函数f是凸函数, 如果对任意x1, x 2 S 和任意的 [0,1] 都有 f ( x1+(1- ) x 2) f ( x1) (1- ) f ( x 2).
凸函数的极小: 若问题有局部解,则这个局部解是整体解.
2 w 2 w
~ ~
这样分类间隔就等于 , 因此要求分类间隔最大 , 就要求 最大.而要求分类面对所有样本正确分类,就是要求满足
yi(w xi b) 1 ,i 1,..., l 使等号成立的样本点称为支持向量
最优分类面
求最优分类面(最大间隔法)
已知:{xi, yi}, i 1,...l, yi {1,1}, xi Rd 求解: 1
支持向量机
• 核:
核是一个函数K ,对所有x,z X , 满足 K ( x, z ) ( x ) ( z ) 这里是从输入空间X 到到特征空间F的映射. x ( x1,...xl ) 例如: (x1, x 2) ( x) (1( x),..., n( x))
2 ( x1, x 2) ( x12 , x2 , x1 x 2)
最优分类面
首先建立Lagrange函数 w J ( w, b, ) [ y ( w x b) 1] 2
2 l i i i i 1
J ( w, b, ) 条件1: 0 w J ( w, b, ) 条件2: 0 b
最终可得到
1 l l Q( ) J ( w, b, ) i i jyiyj ( xi xj ) 2 i 1 j 1 i 1 寻找最大化目标函数Q( )的Lagrange乘子{ i }li 1 , 满足约束条件 (1)
min || w ||2 2 s.t. yi ( w xi+b) 1(i 1, 2,..., l )
原问题
目标:最优分类面 w x b 0
这是一个二次凸规划问题,由于目标函数和约束条 件都是凸的,根据最优化理论,这一问题存在唯一 全局最小解.
最优分类面
• 凸集和凸函数
凸集: S R n .称S是凸集,如果对任意x1, x 2 S 和任意的 [0,1] 都有 x1+(1- ) x 2 S .
* * l
• 该式只包含待分类样本与训练样本中的支持向量的内 积 运算,可见,要解决一个特征空间中的最优线性分 类问题,我们只需要知道这个空间中的内积运算即可。 • 对非线性问题, 可以通过非线性变换转化为某个高维 空间中的线性问题, 在变换空间求最优分类面. 这种变 换可能比较复杂, 因此这种思路在一般情况下不易实 现.
SVM的理论基础
• 由于SVM 的求解最后转化成二次规划问题的 求解,因此SVM 的解是全局唯一的最优解 • SVM在解决小样本、非线性及高维模式识别问 题中表现出许多特有的优势,并能够推广应 用到函数拟合等其他机器学习问题中.
线性判别函数和判别面
• 一个线性判别函数(discriminant function)是指 由x的各个分量的线性组合而成的函数
w x1 b w x 2 b 或 w ( x1 x 2) 0
• 当x1和x2都在判定面上时, • 这表明w和超平面上任意向量正交, • 并称w为超平面的法向量。
线性判别函数和判别面
判别函数g(x)是特征空间中 某点x到超平面的距离的一种代 数度量.
w || w || w 将 x xp r 代入g ( x) w x b中,我们有 || w || g ( x) w x b w w (xp r )b || w || w w xp b w r ( w x p b 0, w w || w ||2 ) || w || r || w || x xp r r g ( x) || w ||
百度文库
支持向量机
• SVM本质上是两类分类器.
• 常用的SVM多值分类器构造方法有:
LIBSVM简介
LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等 开发设计的一个简单、易于使用和快速有效的SVM模式 识别与回归的软件包,他不但提供了编译好的可在 Windows系列系统的执行文件,还提供了源代码,方便 改进、修改以及在其它操作系统上应用;该软件还有一 个特点,就是对SVM所涉及的参数调节相对比较少,提 供了很多的默认参数,利用这些默认参数就可以解决很 多问题.
SVM的理论基础
• “过学习问题”:某些情况下,当训练误差 过小反而会导致推广能力的下降。 例如:对一组训练样本(x,y),x分布 在实数范围内,y取值在[0,1]之间。无论 这些样本是由什么模型产生的,我们总可 以用y=sin(w*x)去拟合,使得训练误差为0.
SVM的理论基础
• 根据统计学习理论,学习机器的实际风险由经验风 险值和置信范围值两部分组成。而基于经验风险最 小化准则的学习方法只强调了训练样本的经验风险 最小误差,没有最小化置信范围值,因此其推广能 力较差。 • Vapnik 与1995年提出的支持向量机(Support Vector Machine, SVM)以训练误差作为优化问题的约束条 件,以置信范围值最小化作为优化目标,即SVM是 一种基于结构风险最小化准则的学习方法,其推广 能力明显优于一些传统的学习方法。
相关文档
最新文档