分类器简介

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

空间的映射，进而对特征空间的性质产生影响，最终改变各种核函数方法的性能。
核函数方法可以和不同的算法相结合，形成多种不同的基于
核函数技术的方法，且这两部分的设计可以单独进行，并可以为不同的应用选择不同的核函数和算法。
常用的核函数
多项式核：
线性核：
高斯核：
总结
线性可分：
求解使得超平面具有最大内间间隔的wT，b参数。将问题转化为对偶问题进行快速求解。改进：加入松弛变量
random forests and other

ensembles generalized linear models nearest neighbors partial least squares and principal component regression logistic and multinomial regression multiple adaptive regression splines other methods
约束条件
我们把所有样本点中间隔最小的那一点的间隔定为1，也就意味着集合中的其他点间隔都不会小于1，于是不难得到有不等式：yi[<w,xi>+b]≥1 (i=1,2,…,l)总成立。于是上面的问题便转化成了求条件最优化问题：
最优问题的求解
这是一个凸二次规划问题，所以一定会存在全局的最优解，但实际求解较为麻烦。
核函数松弛变量
线性分类
1
线性分类
1
最优标准：分类间隔
H2与H之间的间隔便是几何间隔。其中H1：<w,x>+b = 1； H2：<w,x>+b = -1；几何间隔与样本的误分次数间的关系：误分次数 <= (2R/δ)^2，其中δ是样本集合到分类面的间隔，R=max || xi ||,i=1,...,n; 所以问题转化成为求最大δ值。
求最大的δ
因为w是超平面的法向量，所以w实际上只由在 H1平面上的样本点确定；在H1上的向量则叫做 Supported Vectors ，因为它们“撑”起了分界线。
求最大的δ
于是问题便转化成了求
很容易看出当||w||=0的时候就得到了目标函数的最小值。反映在图中，就是H1与H2两条直线间的距离无限大，所有样本点都进入了无法分类的灰色地带解决方法：加一个约束条件
线性分类
目标函数：约束条件：
目标函数：
约束条件：
拉格朗日乘数法可将问题转化为对偶问题：
目标函数：
约束条件：
线性分类
巧妙之处：原问题 => 二次凸优化问题 => 对
偶问题
对偶问题求解：
更巧妙的地方：
未知数据x的预测，只需要计算它与训练数据点的内积即可
非线性分类
对于以上所述的SVM，处理能力还是很弱，仅仅能处
理线性可分的数据。如果数据线性不可分的时候，我们就将低维的数据映射向更高的维次，以此使数据重新线性可分。这转化的关键便是核函数。
非线性分类
找不到一个超平面（二维空间：直线）将其分割开
来，而很自然的想到可以用一个椭圆将数据分为两类
Z1=X1, Z2=X12, Z3=X2, Z4=X22, Z5=X1X2
分类器汇总及性能比较
上述数据来自于 M. Fernandez-Delgado, E. Cernadas, S. Barro, and D. Amorim, “Do we need hundreds of classifiers to solve real world classification problem?”, Journal of Machine Learning Research 15, 2014, pp. 3133-3181. 实验仿真比较
利用设计及训练的分类器来进行
分类与智能
人类的分类行为
存储有各类别的特征
计算机的分类行为
原始数据集或从特征集
待分类事物与各类特
通过数据训练建立分类
征进行比较
选最接近的类作为分
模型
利用分类模型对待分类
类结果
对象进行归类
示例
分类与智能
百分之百是不太可能的！
内容提要
分类与智能分类器汇总及性能比较
注：以下主要参考了
http://wenku.baidu.com/link?url=5g8TB6NO9wybRMZH8 R6bHIQ6fhz-SWpZetIHuK0Y3sTOHW8uQzP7XyisjZGeRoeM3HT8oMXex15tIj091Xk2MlSDA4yRfQzNmAkJj Ggd5_
和惩罚因子C的SVM
松弛变量允许实际分类中一定的不准确性的存在，引入松弛
变量后原先的约束条件变为：
惩罚因子C则是为了避免系统轻易放弃一些重要的数据，减
小系统损失。引入C后目标函数变为：
总结
线性不可分：
将数据空间映射到高维空间，使原本线性不可分变为线性
可分。
引入核函数，简化映射空间中的内积运算。它避开了直接
在高维空间中进行计算，而表现形式却等价于高维空间。
不同的样本结构与不同的核函数结合，达到很好的分割效
果
参考资料
1. 《支持向量机导论》，[美] Nello Cristianini / John Shawe-Taylor 著； 2. 支持向量机导论一书的支持网站：http://www.support-vector.net/； 3. 《数据挖掘导论》，[美] Pang-Ning Tan / Michael Steinbach / Vipin Kumar 著； 4. 《数据挖掘：概念与技术》，(加)Jiawei Han;Micheline Kamber 著； 5. 《数据挖掘中的新方法：支持向量机》，邓乃扬田英杰著； 6. 《支持向量机--理论、算法和扩展》，邓乃扬田英杰著； 7. 《模式识别支持向量机指南》，C.J.C Burges 著； 8. 《统计自然语言处理》，宗成庆编著，第十二章、文本分类； 9. SVM 入门系列，Jasper：http://www.blogjava.net/zhenandaci/category/31868.html； 10. 数据挖掘掘中所需的概率论与数理统计知识、上； 11.《数理统计学简史》，陈希孺院士著； 12.《最优化理论与算法(第2 版)》，陈宝林编著； 13. A Gentle Introduction to Support Vector Machines in Biomedicine： http://www.nyuinformatics.org/downloads/supplements/SVM_Tutorial_2010/Final_WB.pdf 14. 卡梅隆大学的讲解SVM的PPT：http://www.autonlab.org/tutorials/svm15.pdf
注：下面有关SVM的介绍摘自于 http://wenku.baidu.com/link?url=NtPTmxWjbDVjdfP2SNx5DHkAP CnrJqIdhk3daAuturjuxRdMFeg9zuwCIhuTXPPdYktb9LerTIfPKbxHjyJ 2SwJRrqnpDnL9Vrb5IF1H6jq
SVM（Support Vector Machine）简介
随机森林简介
分类器汇总及性能比较
至少有17大类共179种分类器 discriminant analysis Bayesian neural networks support vector machines decision trees rule-based classiers boosting bagging stacking
非线性分类
我们注意到：
若令 Φ(x1) = [√2η1 , η12, √2η2 , η22, √2η1η2 , 1]T 则：
那么区别在于什么Fra Baidu bibliotek方呢？
1. 一个是将低维空间数据映射到高维空间中，然后再根据内积的公式进行计算； 2. 另一个则直接在原来的低维空间中进行计算，而不需要显式地写出映射后的结果。 3. 当样本空间处于高维度时，第一种方法将引发维度灾难，第二种方法仍然能够从容处理
UCI图像数据库及部分实际图像
共121个数据集
分类器汇总及性能比较
性能结论
性能最好的是随机
性能结论
性能次好的是带高
森林（Random Forest）最大识别率94.1% 在102个数据集上获得了90%的识别率，总体平均识别率82% 基于R语言实现
斯核的支持向量机（SVM）最大识别率92.3% 基于C语言实现的代码LibSVM
例如：
加入核函数以后的分类函数为：
核函数
核函数应用广泛的原因：
核函数的引入避免了“维数灾难”,大大减小了计算量。而
输入空间的维数n对核函数矩阵无影响，因此，核函数方法可以有效处理高维输入。
无需知道非线性变换函数Φ的形式和参数
核函数的形式和参数的变化会隐式地改变从输入空间到特征
内容提要
分类与智能分类器汇总及性能比较
SVM（Support Vector Machine）简介
随机森林简介
SVM简介
概念：
通过构造一个分类函数或分类器的方法，该方法能把数据库
中的数据项映射到给定类别中的某一个，从而可以用于预测未知数据。
数据：线性可分线性不可分
核函数
核函数：
概念：x,z∈X, X属于Rn空间,非线性函数Φ实现输入空间X到
特征空间F的映射,其中F属于Rm，n<<m。核函数技术接收2 个低维空间的向量，能够计算出经某变换后高维空间里的向量内积值。根据核函数技术有： K(x,z) = <Φ(x),Φ(z) > 其中：<, >为内积,K(x,z)为核函数。
分类器简介
--王春桃 2015-05-14
内容提要
分类与智能分类器汇总及性能比较
SVM（Support Vector Machine）简介
随机森林简介
分类与智能
分类能力是人类智能的其中一个方面基于特征进行分类分类亦广泛应用到了人工智能、机器学习、数
据挖掘等领域，并取得了长足的进展
实际的做法：将不等式约束转化为等式约束，从而将问题转化为拉格朗日求极值的问题。
凸二次规划问题求解
引入拉格朗日对偶变量a，w可表示为： w=a1y1x1+a2y2x2+…+anynxn；利用Lagrange乘子法：
凸二次规划问题求解
代入 L(w,b,a):
问题转换为：
由凸二次规划的性质能保证这样最优的向量a是存在的
(X1,X2) ——> (Z1, Z2, Z3, Z4, Z5,) 即将：R2空间映射到R5空间。此时，总能找到一个超平面wT Z + b = 0 wT = {a1， a2， a3， a4， a5}T ，b = a6 使得数据很好的分类。
映射过后的空间:
非线性分类
令：Z1=X1, Z2=X12, Z3=X2, Z4=X22, Z5=X1X2 (X1,X2) —Φ—> (Z1, Z2, Z3, Z4, Z5,) 则：对于样本 x1 = (η1,η2), x2 = (ξ1, ξ2) Φ(x1) = [η1, η12,η2, η22, η1η2]T Φ(x2) = [ξ1, ξ12, ξ2, ξ22, ξ1ξ2] T 内积: 我们注意到：
SVM的实现
常用LIBSVM
见链接http://www.csie.ntu.edu.tw/~cjlin/libsvm/
内容提要
分类与智能分类器汇总及性能比较
SVM（Support Vector Machine）简介
随机森林简介
随机森林简介
决策树
分类器组合
随机森林
什么是SVM
全名：Support Vector Machine（支持向量机）
支持向量：支持或支撑平面上把两类类别划分开
来的超平面的向量点。机：一个算法
基于统计学习理论的一种机器学习方法。简单
的说，就是将数据单元表示在多维空间中，然后对这个空间做划分的算法。
SVM的特点
SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性之间寻求最佳折衷，以期获得最好的推广能力（或泛化能力）。