支持向量机理论概述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

支持向量机理论概述

中图分类号:o213 文献标识:a 文章编号:1009-4202(2010)11-347-01

摘要支持向量机是数据挖掘的新方法,也是一种小样本统计工具,它在解决小样本、非线性及高维的模式识别问题上具有其他机器学习方法难以企及的优势。本文概述了支持向量机的理论发展过程,并在前人研究的基础上,对支持向量机的算法进行了改进。

关键词支持向量机核函数多分类

一、支持向量机概念

支持向量机(support vector machine,svm)是由vapnik等人提出的一种新的机器学习方法,是以vc维理论和结构风险最小化原则为基础的。1981年,vapnik和他的合作者提出了svm的重要基础理论¬¬---vc维。1982年,vapnik提出了具有划时代意义的结构风险最小化原则。1992年,boser.guyon和vapnik等人提出最优边界分类器算法,这是支持向量机算法的最初模型。1993年,cortes和vapnik进一步探讨了非线性情况下最优边界分类问题。

二、支持向量机的理论发展

(1)核函数的构造,如核主成分分析等。基于不同的应用领域,构造不同的核函数。现在核函数广泛应用的类型有:多项式逼近、贝叶斯分类器、径向机函数、多层感知器等。

(2)svm从两类问题向多类问题的推广,以weston在1998年提

出的多类算法为代表,在经典svm理论的基础上,直接在目标函数上进行改进,重新构造多值分类模型,建立k分类svm。

(3)与目前其他机器学习方法的融合。如:最小二乘支持向量机,研究的问题已推广到对于大规模数据集的处理;处理数据的鲁棒性;参数调节和选择问题等。

(4)与数据预处理方法的结合,将数据中脱离领域知识的信息即数据本身的性质融入svm的算法而产生的新算法。

(5)svm训练算法的探索,提高svm的计算速度,处理大规模问题。vapnik在1995年提出了一种块算法,即如果删除矩中对应拉格朗日乘数为0的行和列,将不会影响最终结果。osuna提出了一种分解算法,应用于人脸识别领域。joachims在1998年将osuna 提出的分解策略推广到解决大型svm学习的算法中。

(6)svm的参数选择问题。最常用的方法是经验凑试法和格点,但这两种方法都是基于大量实验的,获得的参数通常也不是最优的;chapelle提出用梯度下降法来完成svm参数选择。

三、支持向量机算法的改进

支持向量机在实际应用中也暴露出一些缺点,如计算量大,速度慢、参数选择经验性强、不能很好地解决多分类问题等。其中速度问题在很大程度上限制了支持向量机的应用,成为支持向量机方法进入大规模实用化阶段的瓶颈。支持向量机训练速度慢的主要原因是训练过程中进行了大量的二次规划计算,而分类速度慢的主要原因是分类过程中有大量的支持向量参与了计算。本文对支持向量机

的算法进行了大量的改进和创造性工作,主要分为五个方面:(1)样本的确定和特征权重的选取。为了提高分类准确性,将每类训练样本集进行聚类分成若干子集,用子集中心组成新的训练样本集训练支持向量机,将子集中心的系数赋给子集中每个样本。考察每个子集的每个样本的系数的改变对目标函数的影响。若一个子集所有样本对目标函数的影响都不同,则进一步划分,直到没有新的拆分为止。优点是提高了算法速度,同时减少训练数据中的野值对分类结果的影响;缺点是牺牲了解的稀疏性。

(2)参数值和核函数的选择。用v-svm分类算法。其中v的物理含义是:错分样本数占总样本数的上界和支持向量数占总样本数的下界。这种改造是非常合理的,因为原始支持向量机中支持向量由边界上的样本和错分样本组成,支持向量数一定大于错分样本数,v正好表示二者之间的某个中间值。

(3)大规模样本数据,对训练算法进行改进。优化支持向量的个数,提高训练速度。通过选取不同的凸函数,得到了不同的二次规划和线性规划模型,这些模型在允许我们更加灵活的选取核函数的同时,仍然可以得到和传统支持向量回归机相近的决策函数,利用特征值、特征矢量及伪逆运算的并行计算方法,建立一种提取支持向量的快速算法。

(4)噪音和孤立点数据的处理。基于支持向量数据域描述的模糊隶属度函数模型,根据样本到特征空间最小包含超球球心的距离来确定其隶属度,该模型可以有效减少回归误差,提高支持向量机

抗噪声能力。

(5)多分类算法的研究。基于核聚类方法的多层次支持向量机分类树,将核空间中的无监督学习方法和有监督学习方法结合起来,实现了一种结构更加简洁清晰、计算效率更高的多层支持向量机分类树算法,实现样本多分类。

参考文献:

[1]v.n.vapnik,a.y.chervoknenkis,theory of pattem reeognition.nauka.moseow.1974.

[2]b.boxer,guyon,v.n.vapnik,a training algorithln for optimal margin classifiers.in:proceedings of the fifth annua,workshop on computational learning theory.san mateo,ca.1992:144-152.

[3]赵春晖,陈万海,郭春燕.多类支持向量机方法的研究现状与分析.智能系统学报.2007.2(2):11-17.

[4]李昆仑,黄厚宽,田盛丰.模糊多类支持向量机模型.电子学报.2004.32(5):830-832.

相关文档
最新文档