SVM分类与回归简介

合集下载

相关主题

基于svm的图像分类

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

K ( x1 , x2 ) exp( x1 x2 2
2 2
)

SVM本身是针对经典的二分类问题提出的，支持向量回归机（Support Vector Regression，SVR）是支持向量在函数回归领域的应用。

SVR与SVM分类有以下不同：SVM回归的样本点只有一类，所寻求的最优超平面不是使两类样本点分得“最开”，而是使所有样本点离超平面的“总偏差”最小。这时样本点都在两条边界线之间，求最优回归超平面同样等价于求最大间隔。
l

该式只包含待分类样本与训练样本中的支持向量的内积运算，要解决一个特征空间中的最优线性分类问题, 我们只需要知道这个空间中的内积运算即可。
若存在离群点，则问题变成了线性不可分？

线性不可分的情况下，可以条件 yi (w xi＋b) 1 中增加一个松弛项{ }li 1 , i 0 成为 yi (w xi＋b) 1 i
折衷考虑最少错分样本和最大分类间隔，就得到广义最优分类面，其中，C>0是一个常数，它控制对错分样本惩罚的程度。

1）并非所有的样本点都有一个松弛变量与其对应。实际上只有“离群点”才有，或者也可以这么看，所有没离群的点松弛变量都等于0。 2）松弛变量的值实际上标示出了对应的点到底离群有多远，值越大，点就越远。 3）惩罚因子C决定了对离群点带来的损失的重视程度，显然当所有离群点的松弛变量的和一定时，C越大，对目标函数的损失也越大，此时就暗示着你非常不愿意放弃这些离群点，最极端的情况是你把C 定为无限大，这样只要稍有一个点离群，目标函数的值马上变成无限大，马上让问题变成无解，这就退化成了硬间隔问题。 4）惩罚因子C不是一个变量

+1 -1
f (x, w ,b) sign(w.x b)
如何进行数据分类
+1 -1
f (x, w ,b) sign(w.x b)
如何进行数据分类
+1 -1
f (x, w ,b) sign(w.x b)
如何进行数据分类
+1 -1
f (x, w ,b) sign(w.x b)
R( ) L( y, f ( x, ))dP( x, y )
其中 P( x, y ) 是未知的,对于不同类型的机器学习问题有不同形式的损失函数。

模式识别令训练器的输出y只有两种取值 y {0,1} ，并令 f ( x, a), a 为指示函数集合（指示函数只有0和1两种取值），考虑下面的损失函数：

对于线性情况，支持向量机函数拟合首先考虑用线性回归函数拟合
f ( x) x b ( xi , yi ), i 1, 2,..., n, xi R n , yi R
1971年，Kimeldorf提出使用线性不等约束重新构造SV的核空间,解决了一部分线性不可分问题。

1990年，Grace,Boser和Vapnik等人开始对SVM进行研究。
1995年，Vapnik正式提出统计学习理论。

SVM从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。 SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。

其中α可由如下对偶问题求解
max : W ( ) i
i 1 l 1 2 i , j 1

i
l
j
yi y j K ( xi , x j )
s.t.
i 0, i 1,..., l , and
y
i 1 i
l
i
0

这样计算的问题就算解决了，避开了直接在高维空间中进行计算。常用核函数

1 2 1 ( w) w ( w w) 2 2 yi (( w xi ) b) 1, i 1,..., l
定义Lagrange函数
L( w, b, ) w i ( yi (( xi w) b) 1)
1 2 2 i 1 l

Lagrange函数

以上介绍了线性情况下的支持向量机，它通过寻找一个线性的超平面来达到对数据进行分类的目的。不过，由于是线性方法，所以对非线性的数据就没有办法处理了。如下图所示的两类数据，分别分布为两个圆圈的形状，这样的数据本身就是线性不可分的。

一个理想的分界应该是一个“圆圈”而不是一条线（超平面）。如果用 X1 和 X2 来表示这个二维平面的两个坐标的话，我们知道一条二次曲线（圆圈是二次曲线的一种特殊情况）的方程可以写作这样的形式：
L( w, b, ) w i ( yi (( xi w) b) 1)
1 2 2 i 1 l

令其偏导数为0
L( w, b, ) 0 , L( w, b, ) 0 b w

得到
i 1
ai yi 0
l
w i yi xi
具有最大间隔的线 1 性分类器叫做最大 R( ) Remp ( ) ( ) m arg in 间隔线性分类器。
支持向量(Support Vectors) :是那些距离超平面最近的点。
其就是一种最简单的支持向量机(SVM) (称为线性支持向量机，即LSVM)

( x1 , y1 ),...,( xl , yl ), x R n , y {1, 1} 假定训练数据
0 L( y, f ( x, a)) 1 若y f ( x, a) 若y f ( x, a)

我们把指示函数给出的答案与训练器输出不同的情况叫做分类错误，这样学习问题就变成了寻找使损失函数最小的问题。

回归估计令训练器的输出y为实数值，并令 f (x, a), a 为实数集，回归函数就是在损失函数最小化的函数估计
已知： {xi, yi}, i 1,...l , yi {1,1}, xi R d 求解：
n 1 2 min( || w || C i ) 2 i 1 yi ( w xi b) 1 i (i 1,2,..., n)
i 0
目标：最优分类面
w x b 0

Βιβλιοθήκη Baidu

机器学习就是从给定的函数集f(x,)(是参数)中,选择出能够最好地逼近训练器响应的函数。机器学习的目的可以形式化地表示为：根据n个独立同分布的观测样本 ( x1 , y1 ), ( x2 , y2 ), , ( xn , yn ) ，在一组函数 { f ( x, )}中求出一个最优函数{ f ( x,0 )} 对训练器的响应进行估计,使期望风险最小
i 1
l

因此该问题的求解可转化为一个标准的二次优化问题，通过对该问题的求解即可完成支持向量的求解
目标函数： : J ( ) min s.t
1 2 i , j 1

i
l
j
yi y j ( xi x j ) i
i 1
l
i 0, i 1,..., l , and
i 1 l

则问题同样转化为对如下对偶问题的求解
目标函数： max : W ( ) i 1 2
i 1 l i , j 1

i l i 1 i
l
j
yi y j ( xi ), ( x j )) 0
s.t
i 0, i 1,..., l , and
y
2 a1 X 1 a2 X 12 a3 X 2 a4 X 2 a5 X 1 X 2 a6 0

如果构造一个五维空间，则上式可表示为线性方程
2 Z1 X 1 , Z 2 X 12 , Z 3 X 2 , Z 4 X 2 , Z 5 X 1 X 2
a Z
i 1 i
可以被一个超平面分开
( w.x) b 0, w R N , b R

我们进行正归化
yi (( w xi ) b) 1, i 1,..., l

此时分类间隔等于
2 w

使最大间隔最大等价于使
w
2
最小

最优分类面问题可以表示成约束优化问题
◦ Minimize
◦ Subject to
5
i
a6 0

为解决上述问题，引入核函数（Kernel Function）的概念
核是一个函数K ,对所有x,z X , 满足 K ( x, z ) ( x ) ( z ) 这里是从输入空间X 到到特征空间F的映射. x ( x1,...xl ) ( x) ( 1( x),..., n( x)) 将输入空间X 映射到一个新的空间F ={ ( x) | x X }
2 例如: (x1, x 2) ( x1, x 2) ( x12 , x2 , x1 x 2)

对应线性可分的情况，可以将分类函数写成如下内积的形式 l
f ( x) i yi xi , x b
i 1

通过核函数进行特征映射
f ( x) i yi ( xi ), ( x) b
l
y
i 1 i
l
i
0
决策函数：f ( x) sgn( yi i ( x xi ) b)
i 1
w i yi xi
i 1
l
b
max i: yi 1 w*T xi min i: yi 1 w*T xi 2

以上所得到的最优分类函数为：
f ( x) sgn{w* x b*} sgn{ i 1 i yi ( xi x) b }
i

计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数 (Kernel Function) 核函数能简化映射空间中的内积运算——SVM 里需要计算的地方数据向量总是以内积的形式出现的。因此分类函数可以表示为：

f ( x) i yi K ( xi , x) b
i 1
l
L( y, f ( x, a)) ( y f ( x, a))2

密度估计密度估计就是从密度函数集中估计密度函数的问题

支持向量机（Support Vector Machine, SVM）
1963年，Vapnik在解决模式识别问题时提出了支持向量方法,这种方法从训练集中选择一组特征子集,使得对特征子集的划分等价于对整个数据集的划分,这组特征子集就被称为支持向量(SV)。
2013年7月
1
机器学习问题简介
2
33 4 5
支持向量机-线性分类器
松弛变量、核函数与特征映射
支持向量回归机
总结

什么是机器学习？机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。 Alpaydin（2004）同时提出自己对机器学习的定义，“ 机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。一个有趣的例子
如何进行数据分类
+1 -1
如何选择最优分类面？
+1 -1
f (x, w ,b) sign(w.x b)
线性分类器的间隔（ margin）：到超平面最近的样本与此超平面之间的距离。
+1 -1
f (x, w ,b) sign(w.x b)
具有最大间隔的线性分类器叫做最大间隔线性分类器。其就是一种最简单的支持向量机(SVM) (称为线性支持向量机，即LSVM)
+1 -1
具有最大间隔的线性分类器叫做最大间隔线性分类器。其就是一种最简单的支持向量机(SVM) (称为线性支持向量机，即LSVM)
支持向量 (Support Vectors) :是那些距离超平面最近的点。
+1 -1
1. 2.
直观上感觉很好. f(x,w,b) = sign(w. x - b) 学习得到的线性分类器.其对未知样本的预测能力与分类器间隔有如下关系：