支持向量机

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二. 方法的基本思想 利用高斯核函数将数据点映射到高维特征空间 在特征空间内寻找封闭数据点的像点的最小球 面 将球面映射回数据空间,构成封闭数据点的轮 廓线的集合 被每条轮廓线所封闭的点即属于与同一个聚类 减小高斯核函数的宽度,增加轮廓线的数目 用一个大的软间隙值处理重迭的聚类
为了f(•) 存在, K (x,y) 需要满足 Mercer 条件。


核函数举例 d 阶多项式核 具有宽度 s的径向基函数核


相当接近于径向基函数神经网络 具有参数 k and q 的Sigmoid 核


对所有的k 和 q,它不满足 Mercer 条件
三.非线性SVM算法

将所有的内积改为核函数 训练算法:

描述函数为
确定b 当 x2, x4, x5 位于 上时, f(2)=1 , f(5)=-1 , f(6)=1, 由此解得 b=9

描述函数的值
第1类
第2类 1 2 4 5 6
第1类
§5 支持向量回归
一.最小二乘法
f(x )
•求 解 :
f x wx b
i
Loss wX b Y
线性的
非线性的

检测算法:
线性的
非线性的

对于一个新数据z ,如果f 0,则分到第1类; 如果 f<0,则分到第2类。
例题 设有 5个 1 维数据点:
x1=1, x2=2, x3=4, x4=5, x5=6, 其中1, 2, 6 为第1类,而4, 5 为 第2类 y1=1, y2=1, y3=-1, y4=-1, y5=1。
三. SVM的应用
数据与文本分类 系统建模及预测 模式识别(图像及语音识别,生物特征识 别) 异常检测(入侵检测,故障诊断) 时间序列预测
§2 统计学习理论
一. 两分类问题

给定 l 个观测值: i , i = 1, 2, ..., l
x
xi ∊
Rn
第2类

每个观测值与一个标记相连: yi , i = 1, 2, ..., l yi ∊ {土1} 对于 (2-类) 分类, 建立一个函数:
f(x)
• 最小化:
f x wx b

+ 0 -
N 1 T w w C i i* 2 i 1


• 约束:
yi wT xi b i
wT xi b yi i*
*
i , i* 0
x
Lagrange 最优化
f(· )
输入空间
特征空间

变换举例
定义核函数 K (x,y) 如下
考虑下列变换

内积可由 K 计算, 不必通过映射 f(•)计算
二. 核函数技巧

核函数 K 与映射 f(.) 之间的关系是

作为核函数技巧这是已知的

在应用中, 我们指定K, 从而间接地确定 f(•) ,以代替选取f(•) 。 直观地, K (x,y) 表示我们对数据 x 和 y 之间相似性的一种描述, 且来自我们的先验知识 。
ə Φ/ ə b=0 ⇒ ∑n i=1 αiyi=0 ə Φ/ ə w =0 ⇒ w=∑n i=1 αiyixi
于是得到对偶问题

这是一个二次规划 (QP) 问题 i的全局最大值总可以求得 W的计算
解得α*=argmin α1/2∑n i=1∑n i=1 αi αjyiyj <xi,xj> –∑n k =1 αk w*=∑n i=1 αiyixi, b *=–1/2<w * , xr+xs> 其中Xr 与xs满足
§6 支持向量聚类
一. 发展简介 Vapnik (1995): 支持向量机 Tax & Duin (1999): 利用SV 表示高维分 布的特征 Scholkopf et al. (2001):利用SV计算封闭 数据点的轮廓线的集合 Ben-Hur et al. (2001):利用SV系统地搜 索聚类解
软件




关于 SVM 的实现可以在下列网址找到 www.kernelmachines.org/software.html SVMLight 是最早的 SVM 软件之一 SVM 的各种 Matlab toolbox 也是可利用的 LIBSVM 可以进行多类别分类 CSVM 用于SVM分类 rSVM 用于SVM回归 mySVM 用于SVM分类与回归 M-SVM 用于SVM多类别分类

利用 2 阶多项式核

K(x,y) = (xy+1)2 C 取为 100

先求 i (i=1, …, 5) :

利用 QP 求解 , 得到

1=0, 2=2.5, 3=0, 4=7.333, 5=4.833 注意到确实满足约束条件 支持向量为 {x2=2, x4=5, x5=6}


f : R 1
n
第1类
: 表示函数的参数 使得 f 能正确地分类未学习过的样本
二.期望风险与实验风险

期望风险最小化
R f

其中 x, y的联合概率 P(x, y) 是未知的 实验风险最小化 实验风险是由在训练集上测得的平均误差所确定的
1 y f x dP x, y 2
如何变换 ? 利用一个适当的变换f, 使分类变得容易些。 特征空间中的线性算子等价于输入空间中的非线性 算子。


变换可能出现的问题

难以得到一个好的分类且计算开销大

SVM同时解决这两个问题

最小化 ||w||2 能得到好的分类 利用核函数技巧可以进行有效的计算
f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( )



回归公式
回归公式:
yx αi αi* xi , x b
i 1
N


性质:
冗余性 全局的且唯一的 非线性推广
三. 非线性支持向量回归
f(x) + 0 - f(x) + 0 -

输入空间
x
特征空间
(x)
回归公式
线性的:
yx αi αi* xi , x b
N 1 T L w w C i i* 2 i 1 N


目标函数
i i yi wT xi b
i 1 N


约束条件
i* i* yi wT xi b
* i i * i i i 1 i 1 N
i 1 N


非线性的:
yx αi αi* xi , x b
i 1
N


一般的:
yx αi αi* K xi , x b
i 1
N


核函数的类型
线性型:
K ( x, xi ) x, xi
K ( x, xi ) x, xi d
其中 h 与VC 维数有关,是能力概念的一种测度

支持向量机是基于结构风险最小化原理构造的一种学习机
§3 线性支持向量机
一. 两分类问题: 线性分割情形
第2类


许多决策边界可以分割这 些数据点出为两类 我们选取哪一个?
第1类
坏的决策边界的例子
第2类
第2类
第1类
第1类
好的决策边界: 间隔大

决策边界离两类数据应尽可能远 最大化间隔 m
xx i K ( x, xi ) exp 2 2 s
2
多项式型:
径向基函数型:

指数径向基函数型:
x xi K ( x, xi ) exp 2 2s
几点说明



SVM 基本上是一个两分类器,修改 QP 公式, 以允许多类别分类。 常用的方法: 以不同的方式智能地将数据集分为两部分, 对每一种 分割方式用 SVM训练,多类别分类的结果, 由所有的SVM分类器的 输出经组合后得到 (多数规则) 。 “一对一”策略 这种方法对N 类训练数据两两组合,构建C2N = N (N - 1) /2个支持向量机。最后分类的时候采取“投票”的方式 决定分类结果。 “一对其余”策略 这种方法对N分类问题构建N个支持向量机, 每个支持向量机负责区分本类数据和非本类数据。最后结果由输 出离分界面距离w·x + b最大的那个支持向量机决定。
dLoss 0 dw
2
X X w X
T
T
Y
x
二. 线性支持向量回归 (SVR)
f(x)
f x wx b
+ 0 -
• 求解: 1ห้องสมุดไป่ตู้T Min w w 2 • 约束:
yi wT xi b wT xi b yi
x
线性支持向量回归 (SVR)
xr,xs > 0, yr= –1,ys=1

f(x)= sgn(<w * ,x> +b)
三. 解的性质

许多的 i 为零 w 只是少数数据的线性组合 具有非零 i 的 xi 称为支持向量 (SV) 决策边界仅由SV确定 设 tj (j=1, ..., s) 为支持向量的指标,于是


为了检测一个新数据 z

计算 如果 WTZ+ b 0, 则 z 属于第一类;否则,属于第二类。
四. 几何解释 8=0.6 10=0 5=0 4=0 9=0
第1类 第2类
7=0
2=0
1=0.8
6=1.4
3=0
§4 非线性支持向量机
一. 非线性分割问题

关键思想: 为了解决非线性分割问题, 将 xi 变换到一个高维空间。 输入空间: xi 所在的空间 特征空间: 变换后 f(xi) 的空间
支持向量机
内容提要


§1 §2 §3 §4 §5 §6
引言 统计学习理论 线性支持向量机 非线性支持向量机 支持向量回归 支持向量聚类
§1 引言
一. SVM (Support Vector Machine)的历史

神经网络分类器,Bayes分类器等是基于大样本学习 的分类器。 Vapnik 等从1960年开始关于统计学习理论的研究。统 计学习理论是关于小样本的机器学习理论。


1992年支持向量机首次被引入。1995年Vapnik发展 了支持向量机理论。支持向量机是基于统计学习理论 的一种实用的机器学习方法。
二. SVM 的发展
⒈ SVM理论的发展: 最小二乘支持向量机(LS – SVM) 多分类支持向量机(M-SVM) 支持向量回归(SVR) 支持向量聚类(SVC) ⒉ SVM与计算智能的融合: 神经网络+支持向量机 模糊逻辑+支持向量机 遗传算法+支持向量机 小波分析+支持向量机 主分量分析+支持向量机 粗糙集理论+支持向量机
第2类
第1类
m
二. 最优化问题

设 {x1, ..., xn} 为数据集, yi {1,-1} 为xi 的类标记
要求决策边界正确地分类所有的点

于是得到一个带有约束的优化问题
将上述最优化问题转换成其对偶问题:
取Lagrange函数 Φ(w,b;α)=1/2‖w‖2 –∑n i=1 αi (yi[(w,xi)+b] –1) 则对偶问题由 max αW(α)=max α(minw,b Φ(w,b;α)) 给出。由 minw,b Φ(w,b;α) 得

在 n 维空间中,超平面集合的VC维数等于n + 1 。 VC维数刻画了“可能近似正确”意义上的学习能力。

例:VC维数
四. 结构风险最小化
VC 理论引入期望风险的边界, 它依赖于实验风险与 F的能力。

这些边界的最小化导出结构风险最小化原理:实验风险与 VC 可信度之和 为最小
h (log ( 2l / h) 1) log ( / 4) R( f ) Remp ( f ) ( ) l
1 l Remp f yi f xi 2l i 1

如果训练样本的个数是有限的,则实验风险最小化的方法不保证 有高推广能力
三. VC理论
VC (Vapnik-Chervonenkis)维数 分类函数 f 的集合F的VC维数 p=VCdim(F) 定义 (Vapnik–Chervonenkis). 函数 f 的集合F的VC 维数是p, 当且仅当存在点集 {xi}pi=1 使得这些点能够被所有 2p 种可能的 分类方式分开,且不存在集合 {xi}qi=1 ( q > p )满足这一性质。
相关文档
最新文档