支持向量回归机讲义.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

支持向量回归机模型
原问题
min R( w) 1/ 2( w w) s.t. (( w x ) b) y 0 i i yi (( w xi ) b) 0 i 1, 2, L , n
ai (ai* 0) 至上述优化问题中,可得到拉格朗日函数:
支持向量回归机模型
线性可分
y wT x b
支 持向量回归机实在研究二分类问题的基础上提出的。假定在线性可分训练集中, 存在一超平面:
y ( w x) b
实现拟合,那么它就将训练样本分为两类: yi (w xi ) b 0 的训练样本和yi (w xi ) b 0 的训练样本。若上述的超平面是实现这两类训练样本的最大间隔建立的平面,该超平 面就可用于解决回归问题,它也就是要寻找的支持向量回归机。可以将其简化为最小 化一个带线性不等式约束的二次函数凸规划问题: 设存在如下一个训练样本集,且线性可分: S ( y1 , x1 ),L ,(yn , xn ) 可以转化为求解下列优化问题:
支持向量回归机 ——SVR
汇 报 人: 陈 瑞 指导老师:张 宪 霞老师 日 期: 2016-1-11
目录
CONTENTS
01 支持向量机与支持向量回归机 02 03 支持向量回归机模型 支持向量回归机算法
04
总结
支持向量机与支持向量 回归机
支持向量机(SVM) 是建立在统计学习理论的VC维理论和结构风险最小原理 基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习
n
引入拉格朗日乘子
L(w, b, a) 1/ 2( w w) (ai ai* ) yi ((w xi ) b)
i 1
对偶问题
max (a) s.t.a 0
n n (a) inf 1/ 2(w w) ai yi ((w xi ) b) ai* ((w xi ) b) yi | w D i 1 i 1
1 l max (a ) ( ai a ) yi (ai ai* )(a j a* j )( xi x j ) 2 i , j 1 i 1
* i
l
Hale Waihona Puke (ai ai* )i 1 l
l
s.t . ( ai ai* ) 0
i 1
0 ai , ai* C, i 1L l
min R ( w) 1 / 2( w w) s.t.(( w x ) b) y i i yi (( w xi ) b) i 1, 2, L , l
对偶
l l 1 l * * * max (a) (ai ai ) yi 2 (ai ai )(a j a j )( xi x j ) ( i 1 i , j 1 i 1 l s.t . (ai ai* ) 0 i 1 * ai , ai 0, i 1L l
精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,
以期获得最好的推广能力(或称泛化能力)。
02
经验风险代表了分类器 在给定样本上的误差.
03
经验 风险 置信 风险
01
VC维 理论
代表了我们在多大程度 上可以信任分类器在未 知文本上分类的结果.
可以简单的理解为问题 的复杂程度,VC维越高, 问题就越复杂.
都要通过训练样本找到一个函数g(x)
支持向量机与支持向量 回归机
* 回归问题就是给定一个新的模式,根据训练集推断它所对应的输出y(实 数)是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。分类问 题是给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1)。 也就是使用y=sign(g(x))来推断任一输入x所对应的类别。
i 1 n
y (ai ai* ) K ( xi , x) b
i 1
k
k代表支持向 量的个数
常用核函数
C SVR 、 V SVR . 常用的支持向量回归机算法包括 硬 SVR 、
支持向量回归机算法
线性硬
SVR
在回归问题中,理想状态 : yi f ( xi ) 0 事实上几乎不可能存在一个描述黑 箱的函数 f ( x) 能够在理想情况下实现,通常,允许存在一个小的正数 , 使 yi f ( xi ) ,则认为回归是无损的。
ii 0, i*i* 0
L C ai* i* 0 * i
由上式可知 ai ai* 0 ,且不同时为 0 ,且可得到下列式子:
i (C -ai ) 0 * * i (C -ai ) 0
支持向量回归机算法
* i yi f ( xi ) 0 或 i* yi f ( xi ) 0 ,即 yi f ( xi ) I. 当 ai Corai C , 对应 xi 为边界支持向量(BSV),管道外的向量。
支持向量机与支持向量 回归机
小样本
并不是说样本的绝对数量少,而是说与问题的复杂 度比起来,SVM算法要求的样本数是相对比较少 的。 SVM擅长应付样本数据线性不可分的情况,主要 通过松弛变量(也有人叫惩罚变量)和核函数技术 来实现,这一部分是SVM的精髓。 指样本维数很高,SVM可以处理高维向量,因为 SVM 产生的分类器很简洁,用到的样本信息很少 (仅仅用到那些称之为“支持向量”的样本)。
根据带有不等式约束的极值问题的KKT条件:
R ( w)
n L( w, b, a) w (ai ai* ) xi 0 w i 1 L( w, b, a) n (ai ai* ) 0 b i 1
w可看做是样本向 量的线性组合
支持向量回归机模型
n 1 n * * (a ) (ai ai )(a j a j )( xi x j ) (ai ai* ) yi 2 i , j 1 i 1
支持向量回归机算法
非线性情形下,可引入核函数,进而对偶问题可化为:
max ( a ) ( ai ai* ) yi
i 1 l
1 l ( ai ai* )(a j a* j ) K ( xi , x j ) 2 i , j 1
(ai ai* )
i 1 l
支持向量回归机算法
L 1/ 2( w w) C (i ) ai (i yi f ( xi ))
i 1 * i i 1 l l
构造Lagrange函数
a (i yi f ( xi )) ( ii i*i* )
i 1
n
支持向量回归机模型
线性不可分
对于低维输入空间中非线性可分训练样本,是通过核函数将其映射 到高维空间中使其线性可分: 引入核函数 K ( xi , x j ) ( ( xi ) ( x j )) 接受低维度
1 n max (a) (ai a ) yi (ai ai* )(a j a* j ) K ( xi , x j ) 2 i 1 i , j 1
* i n
输入值,产 生高维度内 积值
s.t . (ai ai* ) 0 ai , a 0, i 1, 2, L n
i 1 * i
n
支持向量回归机模型
*
对该问题进行求解,解得 ai , ai 不同时为 0 时对应的向量为支持向 量,从而得到非线性可分训练样本的SVR模型:
b y j (ai ai* ) K ( xi , x j )
引入松弛变量 (1, 1* ,L , l , l* ) 和惩罚参数C,将硬 SVR 软化。
原问题
对偶问题
l
* min R( w) 1/ 2( w w) C (i i ) i 1 * s.t.(( w xi ) b) yi i y (( w x ) b) i i i * i , i , 0, i 1, 2, L , l
i 1 * i i 1
l
l
由带有不等式约束极值问题的KKT条件(必要条件),可知:
l L w ( ai ai* ) xi 0 w i 1 l L ( ai* ai ) 0 b i 1 L C ai i 0 i
ai ( i yi f ( xi )) 0 ai* ( i* yi f ( xi )) 0
l
s.t . ( ai ai* ) 0
i 1
0 ai , ai* C, i 1L l
求解得 ai , ai ,对于 ai 0 或 ai* 0 对应的向量为支持向量。
*
支持向量回归机算法
给定样本集
选择合适的精度
K (x , x ) 、C、
i j
求解对偶化最优问题 选择 ai 0,计算 b y j (w x j )
* * yi f ( xi ) 0 或 yi f ( xi ) 0 ,即 II. 当 ai orai (0,C) ,可知 ii 0, yi f ( xi ) , 对应 xi 为标准支持向量(NSV),管道上的向量。
III. 即
* * 当 ai 0andai* 0 ,可知 ii 0 , i yi f ( xi ) 0 或 i yi f ( xi ) 0 yi f ( xi ) ,对应 xi 为非支持向量,管道内的向量。
(ai ai* )(a j a* j )( xi x j )
i , j 1 n
n
1 n (ai a ) yi (ai ai* )(a j a* j )( xi x j ) 2 i , j 1 i 1
* i
对偶问题
1 n max (a) (ai a ) yi (ai ai* )(a j a* j )( xi x j ) 2 i 1 i , j 1
求解对偶问题 ai , ai*,ai 0 或 ai* 0 对应的向量为支持向量。
支持向量回归机算法
给定样本集 选择合适的精度
求解对偶化最优问题 计算 w 选择ai 0 ,计算 b y j (w x j )
构造线性硬 SVR 超平面
支持向量回归机算法
C SVR
* i
n
s.t . (ai ai* ) 0 ai , a 0
对上式规划问题进行求解,解得 ai , ai 不同时为0时对应的向量为支持向量,从 而得到线性可分训练样本的SVR模型: n *
b y j (ai ai )( xi x j )
i 1
*
n
i 1 * i
y (ai ai* )( xi x) b
SVM 特点
非线性
高维模 式识别
支持向量机与支持向量 回归机
SVM
H1
H H2
SVR
* 支持向量机是分类问题,寻求的 是一个最优超平面(函数g(x) )将 两类样本点分的最开,最大间隔准 则(H1和H2之间间隔最大)是支 持向量机最佳准则。
* 支持向量回归机寻求的是一个线 性回归方程(函数y=g(x))去拟合 所有的样本点,它寻求的最优超平 面不是将两类分得最开,而是使样 本点离超平面总方差最小。
相关文档
最新文档