人工智能之支持向量机课件

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对第 i 个训练点 x i, y i 引入松弛变量(Slack Variable) i 0 ,
把约束条件放松到 yiwxibi1。（即“软化” 约束条件）
1, lT
l
体现了训练集被错分的情况，可采用 i 作
i1
为一种度量来描述错划程度。
两个目标：1. 间隔
Definition: geometric margin: the margin
w
given by the canonical decision
function, which is when c=1/||w||
Strategy:
wx+b>0 wx+b<0
1) we need to maximise the geometric margin! (cf result from learning theory)
实质：找到一个把 R n 上的点分成两部分的规则.
2维空间上的分类问题) n维空间上的分类问题.
2019/11/14
14
分类学习方法
x 根据给定的训练集 T { ( ( y ) l
x x 其中，x i R n ,y i y { 1 , 1 } ,i 1 ,,l ，寻找 Rn 上的一个实
wx+b=0
2) subject to the constraint that training examples are classified correctly
2019/11/14
12
支持向量
2019/11/14
The training points that are nearest to the separating function are called support vectors. What is the output of our decision function for these points?
Vapnik V N. 1995. The Nature of Statistical Learning Theory. SpringerVerlag, New York
Vapnik V N. 1998. Statistical Learning Theory. Wiley-Interscience Publication, John Wiley&Sons, Inc
f(x,w,b) = sign(w. x - b)
How would you classify this data?
2019/11/14
7
线性分类器 x
denotes +1 denotes -1
a
f
yest
f(x,w,b) = sign(w. x - b)
How would you classify this data?
一个不等式约束条件下的二次函数寻优问题，存在唯一解a *
m in w ,b
1||w ||2, 2
(1.2.1)
2019/11/14 s.t.
yi((w xi)b)1 ,i1 , ,l
(1.2.2)
22
线性可分问题
根据最优解
a*(a1 *, ,al*)T
l
计算 w*
yia
*
i
xi，选择
derived from statistical learning theory by Vapnik and Chervonenkis
线性分类器 a
x
f
yest
denotes +1 denotes -1
f(x,w,b) = sign(w. x - b)
How would you classify this data?
于a
* i
为零的那些训练点无关。
称a
* i
不为零的这些训练点的输入 x i
为支持向量(SV)
2019/11/14
23
[x]1
（w x) b 1
近似线性可分问题
1 b w2

D

1 b
w2
（w x) b 1 [x]2
不要求所有训练点都满足约束条件 yi wxib 1，为此
2019/11/14
21
求解原始问题
为求解原始问题，根据最优化理论，我们转化为对偶问题来求解
min
1l
l
l
yiyja ia j xi xj a j
a
2 i1 j 1
j 1
l
s.t.
yia i 0,
i 1
对偶问题
a i 0,i 1 l
a i 为原始问题中与每个约束条件对应的Lagrange乘子。这是
a
*
的一个正分量 a
* j
, 并据此计算
i 1
l
b* yj yiai*xixj i1
构造分划超平面 w*x b*0,决策函数 fxsgn((w *x)b*)
事实上，a
*
的每一个分量 a
* i
都与一个训练点相对应。而分
划超平面仅仅依赖于 a
* i
不为零的训练点 x i, y i ，而与对应
13
分类问题的数学表示
已知：训练集包含 l 个样本点：
x T { ( x 1 ,y 1 ) ,,( x l ,y l) } ( y ) l
x 说明： xi Rn是输入指标向量，或称输入，或称模式，其分
量称为特征，或属性，或输入指标；
yiy{1,1} 是输出指标，或输出.
问题：对一个新的模式 x ，推断它所对应的输出 y 是1还是-1.
[x]1
1b w2
D
1 b w2
（w x) b 1 （w x) b 1
[x]2
1-b w2

1b2 w2
D2

w1
D
w2
求出两条极端直线的距离：
D 2 2 w12 w22 w
2019/11/14
19
2
Margin =
W
…..(1)
H1平面： WX1b1
H2平面： WX2b1
yi[W (Xi)b ] 10 …..(2)
2019/11/14
20
2
分划直线表达式为 (wx)b0 “间隔” 为 | | w | |
极大化“间隔”的思想导致求解下列对变量w 和 b 的最优化问题
m in w ,b
1||w ||2, 2
w,b,
1 2
l
w 2 C i
i1
s.t yi((w xi)b) 1i,i 1, l
i 0,i 1, l
l
i 体现了经验风险，而 w 则体现了表达能力。所以
i1
惩罚参数 C 实质上是对经验风险和表达能力匹配一个裁决。
当C 时，近似线性可分SVC的原始问题退化为线性可分
2019/11/14
5
线性分类器 x
denotes +1 denotes -1
a
f
yest
f(x,w,b) = sign(w. x - b)
How would you classify this data?
2019/11/14
6
线性分类器 x
denotes +1 denotes -1
a
f
yest
值函数 g ( x ) ，用决策函数
f(x)sgn(g(x))
判断任一模式 x 对应的 y 值.sgn()为符号函数，取自变量的符号。
可见，分类学习机——构造决策函数的方法(算法)，
两类分类问题
多类分类问题
线性分类学习机
非线性分类学习机
2019/11/14
15
分类学习方法
SVM分类问题大致有三种：线性可分问题、近似线性可分问题、线性不可分问题。
2019/11/14
16
最大间隔法的直观导出
考虑 R 2上的线性可分的分类问题.
这里有许多直线 (wx)b0能将两类点正确分开.
如何选取w 和 b ？简单问题：设法方向 w 已选定，如何选取 b ？解答：w 选定平行直线极端直线 l 2 和 l 3
取 l 2 和l 3 的中间线为分划直线
SVC的原始问题。
2019/11/14
25
(广义)线性支持向量分类机算法
x 1. 设已知训练集 T { ( x 1 ,y 1 ) ,,( x l ,y l) } ( y ) ，l其中
x x i R n ,y i y { 1 , 1 } ,i 1 ,,l
2 w
尽可能大
l
2.
错划程度
i
i1
尽可能小
显然，当 i 充分大时，样本点 ( xi , y i ) 总可以满足以上约束条件。然而事实上应避免 i 太大，所以需在目标函数对进行惩罚
2019/11/14
24
近似线性可分问题
因此，引入一个惩罚参数 C 0 ，新的目标函数变为:
min
2019/11/14
8
线性分类器 x
denotes +1 denotes -1
a
f
yest
f(x,w,b) = sign(w. x - b)
哪一个分界面是最优H的ow？w？ould you
classify this data?
2019/11/14
9
分类超平面
Training set: (xi, yi), i=1,2,…N; yi{+1,-1} Hyperplane: wx+b=0
人工智能之支持向量机
PPT讲座
内容提要
统计学习方法概述统计学习问题学习过程的泛化能力支持向量机 SVM寻优算法应用
支持向量机
SVM是一种基于统计学习理论的机器学习方法，它是由Boser,Guyon, Vapnik在COLT-92上首次提出，从此迅速发展起来
如何选取 w ？
对应一个 w ，有极端直线 l2l2(w)l3l3(w)，称 l 2 和 l 3 之间的距离为“间隔”.显然应选使“间隔”最大的w 。
2019/11/14
17
数学语言描述
w 给定适当的法方向后，这两条极端直线 l 2 , l 3 可表示为
( w x ) b k 1 ， ( w x ) b k 2
原始问题 (1.2.1)
s.t. yi((w xi)b)1 ,i1 , ,l
(1.2.2)
说明：只要我们求得该问题的最优解 w * , b * ，从而构造分划超平面 (w*x)b* 0，求出决策函数 f(x)sgn((w *x)b*)。
上述方法对一般 R n上的分类问题也适用.
wxb0?thisisfullydeterminedbywbw1xb10w2xb20w3xb302017111111最大间隔一个超平面如果它能将训练样本没有错误地分开并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的则把这个超平面称作最优分类超平面optimalseparatinghyperplane两类样本中离分类面最近的样本到分类面的距离称为分类间隔最优超平面也可以称作最大间隔超平面
调整 b ，使得
（ w x ) b k ,( w x ) b - k
令 w w ,b b ，则两式可以等价写为
kk
（ w x ) b 1 ,(w x ) b - 1
与此相应的分划直线表达式: （wx)b0
2019/11/14
18
如何计算分划间隔？
考虑2维空间中极端直线之间的间隔情况
2019/11/14
11
最大间隔原则
Note1: decision functions (w,b) and (cw, cb) are the same
Note2: but margins as measured by the outputs of the function xwx+b are
not the same if we take (cw, cb).
目前已经在许多智能信息获取与处理领域都取得了成功的应用。
支持向量机 SVM
SVMs are learning systems that
use a hyperplane of linear functions
in a high dimensional feature space — Kernel function
This is fully determined by (w,b)
2019/11/14
w2x+b2=0 w3x+b3=0
w1x+b1=0
10
最大间隔
一个超平面，如果它能将训练样本没有错误地分开，并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的，则把这个超平面称作最优分类超平面（ optimal separating hyperplane ），两类样本中离分类面最近的样本到分类面的距离称为分类间隔，最优超平面也可以称作最大间隔超平面。
trained with a learning algorithm from optimization
theory — Lagrange
Implements a learning bias derived from statistical
learning theory — Generalisation SVM is a classifier