支持向量机及支持向量回归简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.支持向量机(回归)

3.1.1 支持向量机

支持向量机(SVM )是美国Vapnik 教授于1990年代提出的,2000年代后成为了很受欢迎的机器学习方法。它将输入样本集合变换到高维空间使得其分离性状况得到改善。它的结构酷似三层感知器,是构造分类规则的通用方法。SVM 方法的贡献在于,它使得人们可以在非常高维的空间中构造出好的分类规则,为分类算法提供了统一的理论框架。作为副产品,SVM 从理论上解释了多层感知器的隐蔽层数目和隐节点数目的作用,因此,将神经网络的学习算法纳入了核技巧范畴。

所谓核技巧,就是找一个核函数使其满足,代(,)K x y (,)((),())K x y x y φφ=替在特征空间中内积的计算。因为对于非线性分类,一般是先找一(),())x y φφ(个非线性映射将输入数据映射到高维特征空间,使之分离性状况得到很大改φ观,此时在该特征空间中进行分类,然后再返会原空间,就得到了原输入空间的非线性分类。由于内积运算量相当大,核技巧就是为了降低计算量而生的。

特别, 对特征空间为Hilbert 空间的情形,设是定义在输入空H (,)K x y 间上的二元函数,设中的规范正交基为。如果

n R H 12(),(),...,(),...n x x x φφφ,

221(,)((),()),

{}k k k k k K x y a x y a l φφ∞==∈∑那么取即为所求的非线性嵌入映射。由于核函数的定义

1()()k k k x a x φφ∞

==∑(,)K x y 域是原来的输入空间,而不是高维的特征空间。因此,巧妙地避开了计算高维内积所需付出的计算代价。实际计算中,我们只要选定一个,

(),())x y φφ((,)K x y

并不去重构嵌入映射。所以寻找核函数(对称且非负)

1()()k k k x a x φφ∞

==∑(,)K x y 就是主要任务了。满足以上条件的核函数很多,例如

●可以取为d-阶多项式:,其中为固定元素。

(,)(1)d K x y x y =+g y ●可以取为径向函数:,其中为固定元素。()22(,)exp ||||/K x y x y σ=-y ●可以取为神经网络惯用的核函数:,其中为固

()12(,)tanh ()K x y c x y c =+g y 定元素。

一般地,核函数的存在性只依赖于如何寻找一个平方收敛的非负序列。这{}k a 样的序列在空间的正锥中的序列都满足。但哪一个2l {}{}22|0,k k l a l a k +=∈≥∀最佳还有待于进一步讨论。经验表明,分类问题对于核函数不太敏感。当然,重新构造一个核函数也不是一个简单的事。因此,实际操作中往往就在上述三类中挑出一个来使用就可以了。支持向量机的结构示意图可以表示如下:

图1 支持向量机结构示意图

其中输入层是为了存贮输入数据,并不作任何加工运算;中间层是通过对样本集的学习,选择;最后一层就是构造分类函数

(,),1,2,3,...,i K x x i L =1sgn((,))

L

i i i i y y a K x x b ==+∑整个过程等价于在特征空间中构造一个最优超平面。

支持向量机的作用之一就是分类。根据分类的任务,可以划分为一分类,二分类以及多分类。对于多类分类问题,可以用若干种手法将其分解为若干个二分类问题叠加。因此,为了实现支持向量机分类的算法,我们只要针对二分类,从头来给出它的数学原理。

3.1.2 支持向量机分类的数学原理

设样本集为,我们的目的是寻找一个最{}{

}(,)|;1,1,1,...,n i i i i x y x R y i I ∈∈-+=优超平面使得标签为+1 和-1的两类点不仅分开且分得间隔最大。

H 当在维欧几里德空间中就可以实现线性分离时,也即存在超平面将样本集

n 按照标签-1与+1分在两边。由于超平面在维欧几里德空间中的数学表n 达式是一个线性方程 ,其中,为系数向量,为维变量,,0w x b <>+=w x n 内积,为常数。空间中点到超平面的距离

,w x <>b i x L 。欲使得最大,等价于最小。于是,|,|(,)||||i i w x b d x L w <>+=(,)i d x H 21||||2

w 得到一个在约束条件下的极值问题

21min ||||2(,)1,1,2,...,i i w y w x b i I

⎧⎪⎨⎪<>+≥=⎩引入Lagrange 乘子,可以解得关于该参变量的方程

12(,,...,)I αααα=

121,1(),I I i i j i j i j i i j Q y y x x αααα===-

<>

∑∑称之为Lagrange 对偶函数。其约束条件为

,10,0,1,2,...,I i i i i j y i I

αα==≥=∑在此约束条件之下, 使得达到最大值的的许多分量为0,不为0的()Q αα 所对应的样本就称为支持向量。这就是支持向量的来历。

i αi x 当在输入空间不能实现线性分离,假设我们找到了非线性映射将样本集

φ映射到高维特征空间中,此时我们{}{}(,)|;1,1,1,...,n

i i i i

x y x R y i I ∈∈-+=H 考虑在中的集合的线性分类,H {}{

}((),)|;1,1,1,...,n i i i i x y x R y i I φ∈∈-+=即在中构造超平面,其权系数满足类似的极值问题。由于允许部分点H w 可以例外,那么可以引入松弛项,即改写为:

211min ||||2(,)1,0,1,2,...,L i i i

i i i w C y w x b i I ξξξ=⎧+⎪⎨⎪<>+≥-≥=⎩∑最终转化为一个二次型在约束条件下的二次规划问题:

'''11min 20,0(,...,)(,...,)T T I

D c y A C C αααααααα⎧+⎪⎨⎪=≤=≤=⎩其中,,,为矩阵。

1(,...,)T I y y y =(1,...,1)T c =--()1,(,)i j i j i j I D K x x y y ≤≤= 是核函数。

(,)K x s

相关文档
最新文档