支持向量机SVM
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
支持向量机的优势
有坚实的理论基础 基于结构风险最小化,克服了传统方法 的过学习和陷入局部最小的问题,具有 很强的泛化能力; 采用核函数方法,向高维空间映射时不 增加计算的复杂性,又克服了维数灾难
支持向量机存在的问题与研究展望
SVM存在的问题
样本数目增多时,训练速度变慢 SVM解决的是两分类问题,因此需要多 分类问题的改进 核函数的选择:没有统一的指导标准
i =1
l
因此得出一般的情形: 对于线性不可分的样本,作一个低维到高维的映射,使 之在高维的空间中线性可分,在高维空间中采用最大间隔标 准得出决策函数,由于巧妙的选取核函数,决策函数中在计 决策函数中在计 算内积时只需换成核函数即可。 算内积时只需换成核函数即可 优点:由于核函数的特性,只需计算低维空间内积,而无需 计算高维空间的内积,因此计算量与样本维数无关,只与样 与样本维数无关, 与样本维数无关 本数有关。 本数有关
优化问题:
min
1 2
w
2
s.t. yi [( wxi ) + b] − 1 ≥ 0 (i = 1, 2,..., n)
问题求解:(Lagrange乘子法)得出对偶问题:
min
α l l 1 l l ∑ ∑ yi y j α i α j ( xi ⋅ x j ) − ∑ α j 2 i =1 j =1 j =1
VC维就是能够打 散的最大样本数 VC维无通用的计 算方法。 特别的,N维实空 间线性函数VC维 是N+1
结构风险最小化(SRM)原则 在函数集中折中考虑经验风险和置信范 围,取得实际风险的最小。
支持向量机(SVM)就是这种思想的具体体现! )就是这种思想的具体体现! 支持向量机(
二. 支持向量机的基本思想
= ( x ⋅ x, )2
令 K ( x, x ) = ( x, x ) 核函数 称为核函数
,
, 2
高维空间中内积计算可以通过计算低维空间的来自百度文库积得 到,核函数就是连接低维与高维之间的桥梁。
高维空间中支持向量机得出的决策函数可改写成:
f ( x) = sgn{∑ yi α* K ( xi , x) + b*} i
三维空间中线性可分 ' ' ' 分类面: w1 z1 + w2 z2 + w3 z3 + b = 0 根据支持向量机求得决策函数为
f ( z ) = sgn{∑ yi α* [φ( zi ) ⋅ φ( z )] + b*} i
i =1 l
[φ( z ) ⋅ φ( z ' )] 的内积计算:
, , [φ( z ) ⋅ φ( z , )] = z1 z1, + z2 z2 + z3 z3 2 ,2 , = x12 x1,2 + x2 x2 + 2 x1 x1, x2 x2 , = ( x1 x1, + x2 x2 ) 2
机器学习目的
通过有限的观测数据(xi,yi)来估计输入与输出 的函数关系,并有一定的预测推广能力
传统的机器学习理论基础——统计学
缺点:统计学研究的是样本数目趋于无穷大时的渐近 理论 实际问题:样本有限(小样本)
统计学习理论
对小样本统计估计和预测学习的最佳理论
V.Vapnik 六、七十年代创立,九十年代在此基础上创立 支持向量机(SVM)
问题
经验风险最小是否真的使真实风险最小? 经验风险最小是否真的使真实风险最小?
事实上,训练误差小并不总能导致好的预测效果,某 些情况下,训练误差小导致推广能力下降,即真实风险 增加,这就是过学习问题 过学习问题
推广性的界
置信范围
l:样本数 h:VC维
VC维
如果存在h个样本能够被函数集里的函数按所有 h 的 2 种形式分开,称函数集能够把h个样本打散。
谢谢!
线性不可分情况——核函数的引入
低维不可分问题高维未必不可分
一个简单的例子
二维平面中分类曲线为椭圆(线性不可分)
2 w1 x12 + w2 x2 + 2w3 x1 x2 + b = 0
两维向三维的映射:
2 Φ : ( x1 , x2 ) a ( z1 , z2 , z3 ) := ( x12 , x2 , 2 x1 x2 )
研究展望
针对大规模样本进行算法优化,加快训练速度 多分类问题:一对多、一对一、决策树 支持向量机本身改进,如已有的最小二乘支持 向量机等 样本数据集偏斜问题(unbalanced) 利用核思想,将线性算法非线性核化 支持向量机及其改进算法在其他领域的应用
核函数选取问题的思考:
(1)多种核加权组合(通过实验方法确定权值),是否 可通过反馈机制或迭代方式动态选取权值 (2)按照Mercer条件构造其他核函数,核函数各种运算 性质 (3)Mercer条件需要核函数的正定条件太严格,是否可 以放松条件 (4)Mercer核具有相似性测度意义,核函数的输出相当 于两两样本之间的相似性衡量,输入不再局限于实值 函数,可以各种形式、各种结构的数据
常用核函数:
多项式核: K ( x, x , ) = (( x ⋅ x , ) + c) d 径向基核: K ( x, x ) = exp{−
,
x−x σ
2
, 2
}
Sigmoid核:K ( x, x , ) = tanh[v( x ⋅ x , ) + c] Mercer核:所以满足Mercer条件的对称函数, 所有核函数要满足Mercer条件!
s.t .
∑yα
i =1 i
i
= 0, α i ≥ 0, i = 1, 2,..., l
原问题最优解: w = ∑ yi α* xi i
* i =1
l
决策函数: f ( x) = sgn(∑ yi α* ( xi ⋅ x) + b* ) i
i =1
l
支持向量: 支持向量 分类超平面仅与离超平面最近的 样本点相关(如H1和H2面上的点) 这些输入向量称为支持向量 支持向量
统计学习理论(SLT)
问题表示
根据n个独立同分布的观测样本 在一组函数集{f(x,w)}中求最优函数f(x,w0)对依赖关系 进行估计,使期望风险 最小。
三类机器学习
(1)模式识别问题:y={0,1} (2)回归估计问题(函数逼近):y输出为实数 (3)密度估计问题
由于样本的有限,使用经验风险代替期望风险 经验风险最小化(ERM)准则
支持向量机
jyzw_zw 2010-7-13
主要内容
一. 支持向量机的理论基础——统计学习理论 二. 支持向量机的基本思想 三. 支持向量机存在问题与研究展望
一. 支持向量机的理论基础 ——统计学习理论
SVM的理论基础——统计学习理论
机器学习问题
G:产生器,产生随机向量x; S:训练器,对给定输入x输出 相应的y; y LM:学习机器,从给定的函数 集中选择最能逼近训练器的函 数。
支持向量机的基本思想
最大间隔 低VC维 高推广能力 核函数 解决低维线性不可分问题
线性可分问题
最优分类超平面
• 分类超平面:wxi + b = 0 • 判决函数:
yi = sgn(wxi + b) yi ∈{−1,1}
δ • 间隔: i = yi ( wxi + b)
• 几何间隔:
δi w
• 最大间隔问题: 在间隔固定为1时,寻求 最小的 w