SVM分类与回归简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
K ( x1 , x2 ) exp( x1 x2 2
2 2
)
SVM本身是针对经典的二分类问题提出的,支持向 量回归机(Support Vector Regression,SVR) 是支持向量在函数回归领域的应用。
SVR与SVM分类有以下不同:SVM回归的样本点只 有一类,所寻求的最优超平面不是使两类样本点分 得“最开”,而是使所有样本点离超平面的“总偏 差”最小。这时样本点都在两条边界线之间,求最 优回归超平面同样等价于求最大间隔。
l
该式只包含待分类样本与训练样本中的支持向量的内 积 运算,要解决一个特征空间中的最优线性分类问题, 我们只需要知道这个空间中的内积运算即可。
若存在离群点,则问题变成了线性不可分?
线性不可分的情况下,可以条件 yi (w xi+b) 1 中增加一个松弛项{ }li 1 , i 0 成为 yi (w xi+b) 1 i
折衷考虑最少错分样本和最大分类间隔,就得到广义 最优分类面,其中,C>0是一个常数,它控制对错分 样本惩罚的程度。
1)并非所有的样本点都有一个松弛变量与其对应。实际上只有“离 群点”才有,或者也可以这么看,所有没离群的点松弛变量都等于0。 2)松弛变量的值实际上标示出了对应的点到底离群有多远,值越大, 点就越远。 3)惩罚因子C决定了对离群点带来的损失的重视程度,显然当所有 离群点的松弛变量的和一定时,C越大,对目标函数的损失也越大, 此时就暗示着你非常不愿意放弃这些离群点,最极端的情况是你把C 定为无限大,这样只要稍有一个点离群,目标函数的值马上变成无限 大,马上让问题变成无解,这就退化成了硬间隔问题。 4)惩罚因子C不是一个变量
+1 -1
f (x, w ,b) sign(w.x b)
如何进行数 据分类
+1 -1
f (x, w ,b) sign(w.x b)
如何进行数 据分类
+1 -1
f (x, w ,b) sign(w.x b)
如何进行数 据分类
+1 -1
f (x, w ,b) sign(w.x b)
R( ) L( y, f ( x, ))dP( x, y )
其中 P( x, y ) 是未知的,对于不同类型的机器学习问题有不 同形式的损失函数。
模式识别 令训练器的输出y只有两种取值 y {0,1} ,并令 f ( x, a), a 为指示函数集合(指示函数只有0和1两种取 值),考虑下面的损失函数:
对于线性情况,支持向量机函数拟合首先考虑用线 性回归函数拟合
f ( x) x b ( xi , yi ), i 1, 2,..., n, xi R n , yi R
1971年,Kimeldorf提出使用线性不等约束重新构造SV的 核空间,解决了一部分线性不可分问题。
1990年,Grace,Boser和Vapnik等人开始对SVM进行研究。
1995年,Vapnik正式提出统计学习理论。
SVM从线性可分情况下的最优分类面发展而来。 最优分类面就是要求分类线不但能将两类正确分 开(训练错误率为0),且使分类间隔最大。 SVM考虑寻找一个满足分类要求的超平面,并且使 训练集中的点距离分类面尽可能的远,也就是寻找 一个分类面使它两侧的空白区域(margin)最大。
其中α可由如下对偶问题求解
max : W ( ) i
i 1 l 1 2 i , j 1
i
l
j
yi y j K ( xi , x j )
s.t.
i 0, i 1,..., l , and
y
i 1 i
l
i
0
这样计算的问题就算解决了,避开了直接在高维空 间中进行计算。 常用核函数
1 2 1 ( w) w ( w w) 2 2 yi (( w xi ) b) 1, i 1,..., l
定义Lagrange函数
L( w, b, ) w i ( yi (( xi w) b) 1)
1 2 2 i 1 l
Lagrange函数
以上介绍了线性情况下的支持向量机,它通过寻找 一个线性的超平面来达到对数据进行分类的目的。 不过,由于是线性方法,所以对非线性的数据就没 有办法处理了。 如下图所示的两类数据,分别分布为两个圆圈的形 状,这样的数据本身就是线性不可分的。
一个理想的分界应该是一个“圆圈”而不是一条线 (超平面)。如果用 X1 和 X2 来表示这个二维平 面的两个坐标的话,我们知道一条二次曲线(圆圈 是二次曲线的一种特殊情况)的方程可以写作这样 的形式:
L( w, b, ) w i ( yi (( xi w) b) 1)
1 2 2 i 1 l
令其偏导数为0
L( w, b, ) 0 , L( w, b, ) 0 b w
得到
i 1
ai yi 0
l
w i yi xi
具有最大间隔的线 1 性分类器叫做最大 R( ) Remp ( ) ( ) m arg in 间隔线性分类器。
支持向量(Support Vectors) :是那些距 离超平面最近的点。
其就是一种最简单 的支持向量机(SVM) (称为线性支持向量 机,即LSVM)
( x1 , y1 ),...,( xl , yl ), x R n , y {1, 1} 假定训练数据
0 L( y, f ( x, a)) 1 若y f ( x, a) 若y f ( x, a)
我们把指示函数给出的答案与训练器输出不同的情 况叫做分类错误,这样学习问题就变成了寻找使损 失函数最小的问题。
回归估计 令训练器的输出y为实数值,并令 f (x, a), a 为实数集, 回归函数就是在损失函数最小化的函数估计
已知: {xi, yi}, i 1,...l , yi {1,1}, xi R d 求解:
n 1 2 min( || w || C i ) 2 i 1 yi ( w xi b) 1 i (i 1,2,..., n)
i 0
目标:最优分类面
w x b 0
Βιβλιοθήκη Baidu
机器学习就是从给定的函数集f(x,)(是参数)中,选择出 能够最好地逼近训练器响应的函数。 机器学习的目的可以形式化地表示为:根据n个独立同分 布的观测样本 ( x1 , y1 ), ( x2 , y2 ), , ( xn , yn ) , 在一组函数 { f ( x, )}中求出一个最优函数{ f ( x,0 )} 对训练器 的响应进行估计,使期望风险最小
i 1
l
因此该问题的求解可转化为一个标准的二次优化问 题,通过对该问题的求解即可完成支持向量的求解
目标函数: : J ( ) min s.t
1 2 i , j 1
i
l
j
yi y j ( xi x j ) i
i 1
l
i 0, i 1,..., l , and
i 1 l
则问题同样转化为对如下对偶问题的求解
目标函数: max : W ( ) i 1 2
i 1 l i , j 1
i l i 1 i
l
j
yi y j ( xi ), ( x j )) 0
s.t
i 0, i 1,..., l , and
y
2 a1 X 1 a2 X 12 a3 X 2 a4 X 2 a5 X 1 X 2 a6 0
如果构造一个五维空间,则上式可表示为线性方程
2 Z1 X 1 , Z 2 X 12 , Z 3 X 2 , Z 4 X 2 , Z 5 X 1 X 2
a Z
i 1 i
可以被一个超平面分开
( w.x) b 0, w R N , b R
我们进行正归化
yi (( w xi ) b) 1, i 1,..., l
此时分类间隔等于
2 w
使最大间隔最大等价于使
w
2
最小
最优分类面问题可以表示成约束优化问题
◦ Minimize
◦ Subject to
5
i
a6 0
为解决上述问题,引入核函数(Kernel Function) 的概念
核是一个函数K ,对所有x,z X , 满足 K ( x, z ) ( x ) ( z ) 这里 是从输入空间X 到到特征空间F的映射. x ( x1,...xl ) ( x) ( 1( x),..., n( x)) 将输入空间X 映射到一个新的空间F ={ ( x) | x X }
2 例如: (x1, x 2) ( x1, x 2) ( x12 , x2 , x1 x 2)
对应线性可分的情况,可以将分类函数写成如下内 积的形式 l
f ( x) i yi xi , x b
i 1
通过核函数进行特征映射
f ( x) i yi ( xi ), ( x) b
l
y
i 1 i
l
i
0
决策函数:f ( x) sgn( yi i ( x xi ) b)
i 1
w i yi xi
i 1
l
b
max i: yi 1 w*T xi min i: yi 1 w*T xi 2
以上所得到的最优分类函数为:
f ( x) sgn{w* x b*} sgn{ i 1 i yi ( xi x) b }
i
计算两个向量在隐式映射过后的空间中的内积的函 数叫做核函数 (Kernel Function) 核函数能简化映射空间中的内积运算——SVM 里 需要计算的地方数据向量总是以内积的形式出现的。 因此分类函数可以表示为:
f ( x) i yi K ( xi , x) b
i 1
l
L( y, f ( x, a)) ( y f ( x, a))2
密度估计 密度估计就是从密度函数集中估计密度函数的问题
支持向量机(Support Vector Machine, SVM)
1963年,Vapnik在解决模式识别问题时提出了支持向量方 法,这种方法从训练集中选择一组特征子集,使得对特征子 集的划分等价于对整个数据集的划分,这组特征子集就被 称为支持向量(SV)。
2013年7月
1
机器学习问题简介
2
33 4 5
支持向量机-线性分类器
松弛变量、核函数与特征映射
支持向量回归机
总结
什么是机器学习? 机器学习(Machine Learning)是研究计算机怎样模拟或 实现人类的学习行为,以获取新的知识或技能,重新组 织已有的知识结构使之不断改善自身的性能。它是人工 智能的核 心,是使计算机具有智能的根本途径,其应 用遍及人工智能的各个领域。 Alpaydin(2004)同时提出自己对机器学习的定义,“ 机器学习是用数据或以往的经验,以此优化计算机程序 的性能标准。 一个有趣的例子
如何进行数 据分类
+1 -1
如何选择最优 分类面?
+1 -1
f (x, w ,b) sign(w.x b)
线性分类器的间隔 ( margin):到 超平面最近的样本 与此超平面之间的 距离。
+1 -1
f (x, w ,b) sign(w.x b)
具有最大间隔的线 性分类器叫做最大 间隔线性分类器。 其就是一种最简单 的支持向量机(SVM) (称为线性支持向 量机,即LSVM)
+1 -1
具有最大间隔的线 性分类器叫做最大 间隔线性分类器。 其就是一种最简单 的支持向量机(SVM) (称为线性支持向 量机,即LSVM)
支持向量 (Support Vectors) :是 那些距离超平 面最近的点。
+1 -1
1. 2.
直观上感觉很好. f(x,w,b) = sign(w. x - b) 学习得到的线性分类器.其对未知样本的预 测能力与分类器间隔有如下关系:
2 2
)
SVM本身是针对经典的二分类问题提出的,支持向 量回归机(Support Vector Regression,SVR) 是支持向量在函数回归领域的应用。
SVR与SVM分类有以下不同:SVM回归的样本点只 有一类,所寻求的最优超平面不是使两类样本点分 得“最开”,而是使所有样本点离超平面的“总偏 差”最小。这时样本点都在两条边界线之间,求最 优回归超平面同样等价于求最大间隔。
l
该式只包含待分类样本与训练样本中的支持向量的内 积 运算,要解决一个特征空间中的最优线性分类问题, 我们只需要知道这个空间中的内积运算即可。
若存在离群点,则问题变成了线性不可分?
线性不可分的情况下,可以条件 yi (w xi+b) 1 中增加一个松弛项{ }li 1 , i 0 成为 yi (w xi+b) 1 i
折衷考虑最少错分样本和最大分类间隔,就得到广义 最优分类面,其中,C>0是一个常数,它控制对错分 样本惩罚的程度。
1)并非所有的样本点都有一个松弛变量与其对应。实际上只有“离 群点”才有,或者也可以这么看,所有没离群的点松弛变量都等于0。 2)松弛变量的值实际上标示出了对应的点到底离群有多远,值越大, 点就越远。 3)惩罚因子C决定了对离群点带来的损失的重视程度,显然当所有 离群点的松弛变量的和一定时,C越大,对目标函数的损失也越大, 此时就暗示着你非常不愿意放弃这些离群点,最极端的情况是你把C 定为无限大,这样只要稍有一个点离群,目标函数的值马上变成无限 大,马上让问题变成无解,这就退化成了硬间隔问题。 4)惩罚因子C不是一个变量
+1 -1
f (x, w ,b) sign(w.x b)
如何进行数 据分类
+1 -1
f (x, w ,b) sign(w.x b)
如何进行数 据分类
+1 -1
f (x, w ,b) sign(w.x b)
如何进行数 据分类
+1 -1
f (x, w ,b) sign(w.x b)
R( ) L( y, f ( x, ))dP( x, y )
其中 P( x, y ) 是未知的,对于不同类型的机器学习问题有不 同形式的损失函数。
模式识别 令训练器的输出y只有两种取值 y {0,1} ,并令 f ( x, a), a 为指示函数集合(指示函数只有0和1两种取 值),考虑下面的损失函数:
对于线性情况,支持向量机函数拟合首先考虑用线 性回归函数拟合
f ( x) x b ( xi , yi ), i 1, 2,..., n, xi R n , yi R
1971年,Kimeldorf提出使用线性不等约束重新构造SV的 核空间,解决了一部分线性不可分问题。
1990年,Grace,Boser和Vapnik等人开始对SVM进行研究。
1995年,Vapnik正式提出统计学习理论。
SVM从线性可分情况下的最优分类面发展而来。 最优分类面就是要求分类线不但能将两类正确分 开(训练错误率为0),且使分类间隔最大。 SVM考虑寻找一个满足分类要求的超平面,并且使 训练集中的点距离分类面尽可能的远,也就是寻找 一个分类面使它两侧的空白区域(margin)最大。
其中α可由如下对偶问题求解
max : W ( ) i
i 1 l 1 2 i , j 1
i
l
j
yi y j K ( xi , x j )
s.t.
i 0, i 1,..., l , and
y
i 1 i
l
i
0
这样计算的问题就算解决了,避开了直接在高维空 间中进行计算。 常用核函数
1 2 1 ( w) w ( w w) 2 2 yi (( w xi ) b) 1, i 1,..., l
定义Lagrange函数
L( w, b, ) w i ( yi (( xi w) b) 1)
1 2 2 i 1 l
Lagrange函数
以上介绍了线性情况下的支持向量机,它通过寻找 一个线性的超平面来达到对数据进行分类的目的。 不过,由于是线性方法,所以对非线性的数据就没 有办法处理了。 如下图所示的两类数据,分别分布为两个圆圈的形 状,这样的数据本身就是线性不可分的。
一个理想的分界应该是一个“圆圈”而不是一条线 (超平面)。如果用 X1 和 X2 来表示这个二维平 面的两个坐标的话,我们知道一条二次曲线(圆圈 是二次曲线的一种特殊情况)的方程可以写作这样 的形式:
L( w, b, ) w i ( yi (( xi w) b) 1)
1 2 2 i 1 l
令其偏导数为0
L( w, b, ) 0 , L( w, b, ) 0 b w
得到
i 1
ai yi 0
l
w i yi xi
具有最大间隔的线 1 性分类器叫做最大 R( ) Remp ( ) ( ) m arg in 间隔线性分类器。
支持向量(Support Vectors) :是那些距 离超平面最近的点。
其就是一种最简单 的支持向量机(SVM) (称为线性支持向量 机,即LSVM)
( x1 , y1 ),...,( xl , yl ), x R n , y {1, 1} 假定训练数据
0 L( y, f ( x, a)) 1 若y f ( x, a) 若y f ( x, a)
我们把指示函数给出的答案与训练器输出不同的情 况叫做分类错误,这样学习问题就变成了寻找使损 失函数最小的问题。
回归估计 令训练器的输出y为实数值,并令 f (x, a), a 为实数集, 回归函数就是在损失函数最小化的函数估计
已知: {xi, yi}, i 1,...l , yi {1,1}, xi R d 求解:
n 1 2 min( || w || C i ) 2 i 1 yi ( w xi b) 1 i (i 1,2,..., n)
i 0
目标:最优分类面
w x b 0
Βιβλιοθήκη Baidu
机器学习就是从给定的函数集f(x,)(是参数)中,选择出 能够最好地逼近训练器响应的函数。 机器学习的目的可以形式化地表示为:根据n个独立同分 布的观测样本 ( x1 , y1 ), ( x2 , y2 ), , ( xn , yn ) , 在一组函数 { f ( x, )}中求出一个最优函数{ f ( x,0 )} 对训练器 的响应进行估计,使期望风险最小
i 1
l
因此该问题的求解可转化为一个标准的二次优化问 题,通过对该问题的求解即可完成支持向量的求解
目标函数: : J ( ) min s.t
1 2 i , j 1
i
l
j
yi y j ( xi x j ) i
i 1
l
i 0, i 1,..., l , and
i 1 l
则问题同样转化为对如下对偶问题的求解
目标函数: max : W ( ) i 1 2
i 1 l i , j 1
i l i 1 i
l
j
yi y j ( xi ), ( x j )) 0
s.t
i 0, i 1,..., l , and
y
2 a1 X 1 a2 X 12 a3 X 2 a4 X 2 a5 X 1 X 2 a6 0
如果构造一个五维空间,则上式可表示为线性方程
2 Z1 X 1 , Z 2 X 12 , Z 3 X 2 , Z 4 X 2 , Z 5 X 1 X 2
a Z
i 1 i
可以被一个超平面分开
( w.x) b 0, w R N , b R
我们进行正归化
yi (( w xi ) b) 1, i 1,..., l
此时分类间隔等于
2 w
使最大间隔最大等价于使
w
2
最小
最优分类面问题可以表示成约束优化问题
◦ Minimize
◦ Subject to
5
i
a6 0
为解决上述问题,引入核函数(Kernel Function) 的概念
核是一个函数K ,对所有x,z X , 满足 K ( x, z ) ( x ) ( z ) 这里 是从输入空间X 到到特征空间F的映射. x ( x1,...xl ) ( x) ( 1( x),..., n( x)) 将输入空间X 映射到一个新的空间F ={ ( x) | x X }
2 例如: (x1, x 2) ( x1, x 2) ( x12 , x2 , x1 x 2)
对应线性可分的情况,可以将分类函数写成如下内 积的形式 l
f ( x) i yi xi , x b
i 1
通过核函数进行特征映射
f ( x) i yi ( xi ), ( x) b
l
y
i 1 i
l
i
0
决策函数:f ( x) sgn( yi i ( x xi ) b)
i 1
w i yi xi
i 1
l
b
max i: yi 1 w*T xi min i: yi 1 w*T xi 2
以上所得到的最优分类函数为:
f ( x) sgn{w* x b*} sgn{ i 1 i yi ( xi x) b }
i
计算两个向量在隐式映射过后的空间中的内积的函 数叫做核函数 (Kernel Function) 核函数能简化映射空间中的内积运算——SVM 里 需要计算的地方数据向量总是以内积的形式出现的。 因此分类函数可以表示为:
f ( x) i yi K ( xi , x) b
i 1
l
L( y, f ( x, a)) ( y f ( x, a))2
密度估计 密度估计就是从密度函数集中估计密度函数的问题
支持向量机(Support Vector Machine, SVM)
1963年,Vapnik在解决模式识别问题时提出了支持向量方 法,这种方法从训练集中选择一组特征子集,使得对特征子 集的划分等价于对整个数据集的划分,这组特征子集就被 称为支持向量(SV)。
2013年7月
1
机器学习问题简介
2
33 4 5
支持向量机-线性分类器
松弛变量、核函数与特征映射
支持向量回归机
总结
什么是机器学习? 机器学习(Machine Learning)是研究计算机怎样模拟或 实现人类的学习行为,以获取新的知识或技能,重新组 织已有的知识结构使之不断改善自身的性能。它是人工 智能的核 心,是使计算机具有智能的根本途径,其应 用遍及人工智能的各个领域。 Alpaydin(2004)同时提出自己对机器学习的定义,“ 机器学习是用数据或以往的经验,以此优化计算机程序 的性能标准。 一个有趣的例子
如何进行数 据分类
+1 -1
如何选择最优 分类面?
+1 -1
f (x, w ,b) sign(w.x b)
线性分类器的间隔 ( margin):到 超平面最近的样本 与此超平面之间的 距离。
+1 -1
f (x, w ,b) sign(w.x b)
具有最大间隔的线 性分类器叫做最大 间隔线性分类器。 其就是一种最简单 的支持向量机(SVM) (称为线性支持向 量机,即LSVM)
+1 -1
具有最大间隔的线 性分类器叫做最大 间隔线性分类器。 其就是一种最简单 的支持向量机(SVM) (称为线性支持向 量机,即LSVM)
支持向量 (Support Vectors) :是 那些距离超平 面最近的点。
+1 -1
1. 2.
直观上感觉很好. f(x,w,b) = sign(w. x - b) 学习得到的线性分类器.其对未知样本的预 测能力与分类器间隔有如下关系: