支持向量机方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

11
支持向量机的特点
• (1) 非线性映射是SVM方法的理论基 础,SVM利用内积核函数代替向高维空间的 非线性映射; • (2)对特征空间划分的最优超平面是SVM 的目标,最大化分类边际的思想是SVM方法 的核心; • (3)支持向量是SVM的训练结果,在SVM分 类决策中起决定作用的是支持向量。
2018/8/24 知识管理与数据分析实验室 6
支持向量机理论
• 为此SVM考虑寻找一个满足分类要求的分割 平面, 并使训练集中的点距离该分割平面尽 可能地远,即寻找一个分割平面, 使其两侧的 空白区域(margin)最大。
2018/8/24
Байду номын сангаас
知识管理与数据分析实验室
7
支持向量机理论
• 在很多情况下, 训练数据集中的数据是线性 不可分的, 这使得SV的应用受到了很大的限 制。为了解决这个问题, Vapnik等人提出使 用SVM作为超平面分割方法的扩展。使用 SVM进行数据集分类工作的典型流程如图2 所示。
2018/8/24
知识管理与数据分析实验室
4
支持向量机的提出
• 在1971年,Kimel-dorf提出使用线性不等约束 重新构造SV的核空间, 解决了一部分线性不 可分的问题, 为以后SVM的研究开辟了道路。 1990年, Grace, Boster和Vapnik等人开始对 SVM技术进行研究, 并取得突破性进展。 1995年, Vapnik提出了统计学习理论, 较好地 解决了线性不可分的问题, 正式奠定了SVM 的理论基础。
2018/8/24
知识管理与数据分析实验室
13
支持向量机的特点
• (5)SVM的最终决策函数只由少数的支持 向量所确定,计算的复杂性取决于支持向量 的数目,而不是样本空间的维数,这在某种意 义上避免了“维数灾难”。
2018/8/24
知识管理与数据分析实验室
14
支持向量机的应用举例
• 以在手写数字识别和文本分类中的应用为 例说明。
• 这个问题通常用来做分类器的测试平台, 最初是美国邮政服务部门使用手写邮政编 码自动分类邮件的需要提出的。
2018/8/24
知识管理与数据分析实验室
15
支持向量机的应用举例
• 这是一个可识别性较差的数据库,人工识 别平均错误率是2.5%,用决策树方法识别 错误率是16.2%,两层神经网络中错误率最 小的是5.9%,专门针对该问题设计的五层 神经网络错误率为5.1% (其中利用了大量先 验知识),而用SVM方法得到的错误率仅为 4.0%,且其中直接采用了16X16的字符点阵 作为svm的输入,并没有进行专门的特征提 取。
2018/8/24 知识管理与数据分析实验室 9
支持向量机算法的发展
• 模糊支持向量机 • 最小二乘支持向量机 • 加权支持向量机(有偏样本的加权,有偏风险 加权) • 主动学习的支持向量机 • 粗糙集与支持向量机的结合 • 基于决策树的支持向量机 • 分级聚类的支持向量机
2018/8/24 知识管理与数据分析实验室 10
2018/8/24 知识管理与数据分析实验室 16
支持向量机的应用举例
• 文本分类的任务是将文本文件根据内容分 为预先定义的几个类别。很多领域都有这 种问题,包括邮件过滤、网页搜索、办公 自动化、主题索引和新闻故事的分类。因 为一个文件可以分给不止一个类别,所以 这不是一个多分类问题,而是两分类问题, 即是或不是属于某类。
2
支持向量机
• 其主要借助于最优化方法解决数据挖掘中 的分类问题,是数据挖掘技术中一个新的 研究热点。它是统计学习理论中最年轻也 最实用的部分,在很多领域得到了成功应 用,如人脸检测、手写数字识别、文本分 类、生物信息学等。
2018/8/24
知识管理与数据分析实验室
3
支持向量机的提出
• SVM理论源于Vapinik在1963年提出的用于解 决模式识别问题的支持向量方法。这种方 法从训练集中选择一组特征子集, 使得对特 征子集的线性划分等价于对整个数据集的 分割。这组特征子集称为支持向量SV。在 此后近30年中, 对SV的研究主要集中在对分 类函数的改进和函数预测上。
2018/8/24 知识管理与数据分析实验室 12
支持向量机的特点
• (4)SVM是一种有坚实理论基础的新颖的 小样本学习方法。它基本上不涉及概率测 度及大数定律等,因此不同于现有的统计方 法。从本质上看,它避开了从归纳到演绎的 传统过程,实现了高效的从训练样本到预报 样本的“转导推理”,大大简化了分类和回 归等问题。
支持向量机算法的发展
• 算法上的提高---Vapnik 在1995 年提出了 “chunking” 算法, Osuna 提出了一种分 解算法, Platt 于1998年提出了序贯最小优 化 • 核函数的构造和参数的选择理论研究 • 支持向量机从两类问题向多类问题的推广
2018/8/24
知识管理与数据分析实验室
2018/8/24
知识管理与数据分析实验室
5
支持向量机理论
• 支持向量机的理论最初来自对数据分类问 题的处理。对于数据分类问题, 如果采用通 用的神经网络方法来实现, 其机理可以简单 地描述为:系统随机产生一个超平面并移 动它, 直到训练集中属于不同分类的点正好 位于平面的不同侧面。这种处理机制决定 了:用神经网络方法进行数据分类最终获 得的分割平面将相当靠近训练集中的点, 而 在绝大多数情况下, 并不是一个最优解。
支持向量机
肖莹
2018/8/24
知识管理与数据分析实验室
1
支持向量机
• 支持向量机(Support Vector Machine,简称 SVM)是在统计学习理论基础上提出一种新 型通用的机器学习方法。它建立在结构风 险最小化原则基础之上,具有很强的学习 能力。
2018/8/24
知识管理与数据分析实验室
2018/8/24
知识管理与数据分析实验室
8
支持向量机理论
• 首先, 通过预先选定的一些非线性映射将输 入空间映射到高维属性空间, 使得在高维属 性空间中有可能对训练数据实现超平面的 分割, 避免了在原输入空间中进行非线性曲 面分割计算。SVM数据集形成的分类函数具 有这样的性质:它是一组以SV为参数的非线 性函数的线性组合, 因此分类函数的表达式 仅和SV的数量相关, 而独立于空间的维度。 在处理高维输入空间的分类时, 这种方式尤 其有效。
相关文档
最新文档