大数据十大经典算法讲解优秀课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

求最大的δ
➢因为w是超平面的法向量,所以w 实际上只由在H1平面上的样本点确 定; ➢在H1上的向量则叫做Supported Vectors ,因为它们“撑”起了分 界线。
求最大的δ
➢于是问题便转化成了求 ➢很容易看出当||w||=0的时候就得到了目标函数的最小值。反映在图中,就是H1与H2 两条直线间的距离无限大,所有样本点都进入了无法分类的灰色地带 ➢解决方法:加一个约束条件
我们注意到:
非线性分类
若令 Φ(x1) = [√2η1 , η12, √2η2 , η22, √2η1η2 , 1]T 则:
那么区别在于什么地方呢?
1. 一个是将低维空间数据映射到高维空间中,然后再根据内积的公式进行计算; 2. 另一个则直接在原来的低维空间中进行计算,而不需要显式地写出映射后的结果。 3. 当样本空间处于高维度时,第一种方法将引发维度灾难,第二种方法仍然能够从容处理
➢ 机:一个算法
➢ 基于统计学习理论的一种机器学习方法。简单的说, 就是将数据单元表示在多维空间中,然后对这个空间 做划分的算法。
SVM的特点
SVM是建立在统计学习理论的VC维理论和结构风险最 小原理基础上的,根据有限的样本信息在模型的复杂性 之间寻求最佳折衷,以期获得最好的推广能力(或泛化 能力)。
核函数
➢ 核函数:
➢ 概念:x,z∈X, X属于Rn空间,非线性函数Φ实现输入空间X到特征空间F 的映射,其中F属于Rm,n<<m。核函数技术接收2个低维空间的向量, 能够计算出经某变换后高维空间里的向量内积值。
➢ 根据核函数技术有: K(x,z) = <Φ(x),Φ(z) >
➢ 其中:<, >为内积,K(x,z)为核函数。
➢ 核函数方法可以和不同的算法相结合,形成多种不同的基于核函数技术 的方法,且这两部分的设计可以单独进行,并可以为不同的应用选择不 同的核函数和算法。
➢ 多项式核: ➢ 线性核: ➢ 高斯核:
映射过后的空间:
非线性分类
令:Z1=X1, Z2=X12, Z3=X2, Z4=X22, Z5=X1X2 (X1,X2) —Φ—> (Z1, Z2, Z3, Z4, Z5,)
则:对于样本 x1 = (η1,η2), x2 = (ξ1, ξ2) Φ(x1) = [η1, η12,η2, η22, η1η2]T Φ(x2) = [ξ1, ξ12, ξ2, ξ22, ξ1ξ2] T 内积: 我们注意到:
非线性分类
➢ 找不到一个超平面(二维空间:直线)将其分割开来,而很自 然的想到可以用一个椭圆将数据分为两类
Z1=X1, Z2=X12, Z3=X2, Z4=X22, Z5=X1X2 (X1,X2) ——> (Z1, Z2, Z3, Z4, Z5,) 即将:R2空间映射到R5空间。 此时,总能找到一个超平面wT Z + b = 0 wT = {a1, a2, a3, a4, a5}T ,b = a6 使得数据很好的分类。
➢核函数
➢ 松弛变量
线性分类
➢1
线性分类
➢1
线性分类
问题
1. 如何求得最优的g(x)? 2. 最优的标准是什么? 3. g(x)=wx&#数据表示Di=(xi,yi) ➢分类间隔即两分类之间的距离——越远越不易混淆 ➢定义δi = (1/||w||)|g(xi)|,称为几何间隔 ➢||w||叫做向量w的范数,WX的p范数为 ||w||p=(X1^p+X2^p+...+Xn^p)^(1/p)
最优标准:分类间隔
➢H2与H之间的间隔便是几何间隔。其中H1:<w,x>+b = 1;H2:<w,x>+b = -1; ➢几何间隔与样本的误分次数间的关系:误分次数 <= (2R/δ)^2,其中δ是样本集合到 分类面的间隔,R=max || xi ||,i=1,...,n; ➢所以问题转化成为求最大δ值。
大数据十大经典算法讲解
分类
➢ 概念:
➢ 通过构造一个分类函数或分类器的方法,该方法能把数据库中的数据项 映射到给定类别中的某一个,从而可以用于预测未知数据。
➢ 数据:
➢ 线性可分 ➢ 线性不可分
什么是SVM
➢ 全名:Support Vector Machine(支持向量机)
➢ 支持向量:支持或支撑平面上把两类类别划分开来的超平 面的向量点。
约束条件
➢我们把所有样本点中间隔最小的那一点的间隔定为1,也就意味着集合中的其他点间 隔都不会小于1,于是不难得到有不等式:yi[<w,xi>+b]≥1 (i=1,2,…,l)总成立。
➢于是上面的问题便转化成了求条件最优化问题:
最优问题的求解
➢这是一个凸二次规划问题,所以一定会存在全局的最优解,但实际求解较为麻烦。
➢实际的做法:将不等式约束转化为等式约束,从而将问题转化为拉格朗日求极值 的问题。
凸二次规划问题求解
➢引入拉格朗日对偶变量a,w可表示为:w=a1y1x1+a2y2x2+…+anynxn;
➢利用Lagrange乘子法:
➢代入 L(w,b,a):
凸二次规划问题求解
➢问题转换为:
➢由凸二次规划的性质能保证这样最优的向量a是存在的
➢ 例如:
➢ 加入核函数以后的分类函数为:
核函数
➢ 核函数应用广泛的原因:
➢ 核函数的引入避免了“维数灾难”,大大减小了计算量。而输入空间的维 数n对核函数矩阵无影响,因此,核函数方法可以有效处理高维输入。
➢ 无需知道非线性变换函数Φ的形式和参数
➢ 核函数的形式和参数的变化会隐式地改变从输入空间到特征空间的映射 ,进而对特征空间的性质产生影响,最终改变各种核函数方法的性能。
目标函数:
线性分类
约束条件:
目标函数:
约束条件:
拉格朗日乘数法可将问题转化为对偶问题:
目标函数:
约束条件:
线性分类
➢ 巧妙之处:原问题 => 二次凸优化问题 => 对偶问题 ➢ 对偶问题求解: ➢ 更巧妙的地方:

未知数据x的预测,只需要计算它与训练数据点的内积即可
非线性分类
➢ 对于以上所述的SVM,处理能力还是很弱,仅仅能处理线性可分的数据。如 果数据线性不可分的时候,我们就将低维的数据映射向更高的维次,以此 使数据重新线性可分。这转化的关键便是核函数。
相关文档
最新文档