大数据十大经典算法SVM 讲解PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

线性分类
目标函数: 约束条件:
目标函数:
约束条件:
Hale Waihona Puke Baidu
拉格朗日乘数法可将问题转化为对偶问题:
目标函数:
约束条件:
线性分类
巧妙之处:原问题 => 二次凸优化问题 => 对偶问题
对偶问题求解: 更巧妙的地方:

未知数据x的预测,只需要计算它与训练数据点的内积即可
非线性分类
对于以上所述的SVM,处理能力还是很弱,仅仅能处理线性可分的数据。如
果数据线性不可分的时候,我们就将低维的数据映射向更高的维次,以此 使数据重新线性可分。这转化的关键便是核函数。
非线性分类
找不到一个超平面(二维空间:直线)将其分割开来,而很自
然的想到可以用一个椭圆将数据分为两类
Z1=X1, Z2=X12, Z3=X2, Z4=X22, Z5=X1X2
(X1,X2) ——> (Z1, Z2, Z3, Z4, Z5,) 即将:R2空间映射到R5空间。 此时,总能找到一个超平面wT Z + b = 0 wT = {a1, a2, a3, a4, a5}T ,b = a6 使得数据很好的分类。
非线性分类
我们注意到:
若令 Φ(x1) = [√2η1 , η12, √2η2 , η22, √2η1η2 , 1]T 则:
那么区别在于什么地方呢? 1. 一个是将低维空间数据映射到高维空间中,然后再根据内积的公式进行计算; 2. 另一个则直接在原来的低维空间中进行计算,而不需要显式地写出映射后的结果。 3. 当样本空间处于高维度时,第一种方法将引发维度灾难,第二种方法仍然能够从容处理
||w||叫做向量w的范数,WX的p范数为 ||w||p=(X1^p+X2^p+...+Xn^p)^(1/p)
最优标准:分类间隔
H2与H之间的间隔便是几何间隔。其中H1:<w,x>+b = 1;H2:<w,x>+b = -1;
几何间隔与样本的误分次数间的关系:误分次数 <= (2R/δ)^2,其中δ是样本集合到 分类面的间隔,R=max || xi ||,i=1,...,n; 所以问题转化成为求最大δ值。
实际的做法:将不等式约束转化为等式约束,从而将问题转化为拉格朗日求极值 的问题。
凸二次规划问题求解
引入拉格朗日对偶变量a,w可表示为:w=a1y1x1+a2y2x2+…+anynxn; 利用Lagrange乘子法:
凸二次规划问题求解
代入 L(w,b,a):
问题转换为:
由凸二次规划的性质能保证这样最优的向量a是存在的
核函数 松弛变量
线性分类
1
线性分类
1
线性分类
问题
1. 如何求得最优的g(x)? 2. 最优的标准是什么? 3. g(x)=wx+b中的w和b如何确定?
最优标准:分类间隔
数据表示Di=(xi,yi)
分类间隔即两分类之间的距离——越远越不易混淆
定义δi = (1/||w||)|g(xi)|,称为几何间隔
,进而对特征空间的性质产生影响,最终改变各种核函数方法的性能。
核函数方法可以和不同的算法相结合,形成多种不同的基于核函数技术
的方法,且这两部分的设计可以单独进行,并可以为不同的应用选择不 同的核函数和算法。
常用的核函数
多项式核:
线性核:
高斯核:
总结
线性可分:
求解使得超平面具有最大内间间隔的wT,b参数。 将问题转化为对偶问题进行快速求解。 改进:加入松弛变量
中进行计算,而表现形式却等价于高维空间。 不同的样本结构与不同的核函数结合,达到很好的分割效果
参考资料
1. 《支持向量机导论》,[美] Nello Cristianini / John Shawe-Taylor 著; 2. 支持向量机导论一书的支持网站:http://www.support-vector.net/; 3. 《数据挖掘导论》,[美] Pang-Ning Tan / Michael Steinbach / Vipin Kumar 著; 4. 《数据挖掘:概念与技术》,(加)Jiawei Han;Micheline Kamber 著; 5. 《数据挖掘中的新方法:支持向量机》,邓乃扬 田英杰 著; 6. 《支持向量机--理论、算法和扩展》,邓乃扬 田英杰 著; 7. 《模式识别支持向量机指南》,C.J.C Burges 著; 8. 《统计自然语言处理》,宗成庆编著,第十二章、文本分类; 9. SVM 入门系列,Jasper:http://www.blogjava.net/zhenandaci/category/31868.html; 10. 数据挖掘掘中所需的概率论与数理统计知识、上; 11.《数理统计学简史》,陈希孺院士著; 12.《最优化理论与算法(第2 版)》,陈宝林编著; 13. A Gentle Introduction to Support Vector Machines in Biomedicine: http://www.nyuinformatics.org/downloads/supplements/SVM_Tutorial_2010/Final_WB.pdf 14. 卡梅隆大学的讲解SVM的PPT:http://www.autonlab.org/tutorials/svm15.pdf;
求最大的δ
因为w是超平面的法向量,所以w 实际上只由在H1平面上的样本点确 定; 在H1上的向量则叫做Supported Vectors ,因为它们“撑”起了分 界线。
求最大的δ
于是问题便转化成了求
很容易看出当||w||=0的时候就得到了目标函数的最小值。反映在图中,就是H1与H2 两条直线间的距离无限大,所有样本点都进入了无法分类的灰色地带
核函数
核函数:
概念:x,z∈X, X属于Rn空间,非线性函数Φ实现输入空间X到特征空间F
的映射,其中F属于Rm,n<<m。核函数技术接收2个低维空间的向量, 能够计算出经某变换后高维空间里的向量内积值。 根据核函数技术有: K(x,z) = <Φ(x),Φ(z) > 其中:<, >为内积,K(x,z)为核函数。
支持向量:支持或支撑平面上把两类类别划分开来的超平
面的向量点。 机:一个算法
基于统计学习理论的一种机器学习方法。简单的说,
就是将数据单元表示在多维空间中,然后对这个空间 做划分的算法。
SVM的特点
SVM是建立在统计学习理论的VC维理论和结构风险最 小原理基础上的,根据有限的样本信息在模型的复杂性 之间寻求最佳折衷,以期获得最好的推广能力(或泛化 能力)。
数据挖掘十大算法之
SVM
小组成员: 杨凌云、徐小江、刘洁 刘家旺、吕佳艳、伍俊
2013年10月
分类
概念:
通过构造一个分类函数或分类器的方法,该方法能把数据库中的数据
项映射到给定类别中的某一个,从而可以用于预测未知数据。
数据:
线性可分 线性不可分
什么是SVM
全名:Support Vector Machine(支持向量机)
例如:
加入核函数以后的分类函数为:
核函数
核函数应用广泛的原因:
核函数的引入避免了“维数灾难”,大大减小了计算量。而输入空间的维
数n对核函数矩阵无影响,因此,核函数方法可以有效处理高维输入。
无需知道非线性变换函数Φ的形式和参数 核函数的形式和参数的变化会隐式地改变从输入空间到特征空间的映射

和惩罚因子C的SVM
松弛变量允许实际分类中一定的不准确性的存在,引入松弛变量后原先的约束条件变为:

惩罚因子C则是为了避免系统轻易放弃一些重要的数据,减小系统损失。引入C后目标函数 变为:
总结
线性不可分:
将数据空间映射到高维空间,使原本线性不可分变为线性可分。 引入核函数,简化映射空间中的内积运算。它避开了直接在高维空间
解决方法:加一个约束条件
约束条件
我们把所有样本点中间隔最小的那一点的间隔定为1,也就意味着集合中的其他点间 隔都不会小于1,于是不难得到有不等式:yi[<w,xi>+b]≥1 (i=1,2,…,l)总成立。 于是上面的问题便转化成了求条件最优化问题:
最优问题的求解
这是一个凸二次规划问题,所以一定会存在全局的最优解,但实际求解较为麻烦。
映射过后的空间:
非线性分类
令:Z1=X1, Z2=X12, Z3=X2, Z4=X22, Z5=X1X2 (X1,X2) —Φ—> (Z1, Z2, Z3, Z4, Z5,) 则:对于样本 x1 = (η1,η2), x2 = (ξ1, ξ2) Φ(x1) = [η1, η12,η2, η22, η1η2]T Φ(x2) = [ξ1, ξ12, ξ2, ξ22, ξ1ξ2] T 内积: 我们注意到:
相关文档
最新文档