支持向量机在分类问题中的应用研究_张冬生

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

科技论坛

支持向量机在分类问题中的应用研究

张冬生

(兰州交通大学,甘肃兰州730070)

引言

支持向量机(Support Vector Machine,

SVM)是20世纪90年代中期在统计学习理论

基础上发展起来的一种新型机器学习方法

[1]。支持向量机采用结构风险最小化准则

(Structural Risk Minimization,SRM)训练学

习机器,其建立在严格的理论基础之上,较好

地解决了非线性、高维数、局部极小点等问

题,成为继神经网络研究之后机器学习领域新

的研究热点[2]。支持向量机从提出、被广泛重

视到现在只有几年的时间,其中还有很多尚未

解决或尚未充分解决的问题,在应用方面还具

有很大的潜力。因此,支持向量机是一个十分

值得大力研究的领域。

1支持向量机理论

支持向量机是一种基于结构风险最小化的

分类器,通过解二次规划问题,寻找将数据分

为两类的最优超平面,其理论最初来自于对数

据分类问题的处理。支持向量机方法的机理可

简单的描述为:寻找一个满足分类要求的最优

分类超平面,使得超平面在保证分类精度的同

时,能够使超平面两侧的空白区域最大化,使

得支持向量机能够实现对线性可分数据的最优

分类。后来,Vapnik等人通过引入核映射方

法将低维空间中的非线性问题转化为高维空间

的线性可分问题来解决。

SVM方法是从线性可分情况下的最优分

类面提出的。考虑图1所示的二维两类线性可分情况,图中实心点和空心点分别表示两类训练样本,H为把两类没有错误地分开的分类线,H1,H2分别为过各类样本中离分类线最近的点且平行于分类线的直线,H1和H2之间的距离叫做两类的分类间隔。

所谓最优分类线就是要求分类线不但能将两类无错误地分开,而且要使两类的分类空隙最大。推广到高维空间,最优分类线就成为最优分类面。

最优分类超平面在保证将两类样本无错误分开的情况下,使得两类的分类间隔最大。在保证经验风险最小的同时,使推广性的界中的置信范围最小,从而使真实风险最小。支持向量机模型可以用图2简单描述。

核函数是支持向量机的核心,通过引入核函数,可以在一个高维的空间中来实现相对于原空间为非线性的算法。支持向量机核函数就是某个高维空间的内积,其在支持向量机中起

着至关重要的作用。选用不同的核函数会产生

不同的支持向量机算法,应用较多的核函数有

三种:

(1)阶次为q的多项式核函数,即:

(1)

(2)径向基函数核函数,即

(2)

(3)神经网络核函数

(3)

标准支持向量机在利用结构风险原则时,

在优化目标中选取误差ξi(允许错分的松弛变

量)为损失函数。对经典支持向量机,优化问

题为:

s.t,

用拉格朗日法求解上述优化问题,标准支

持向量机优化问题转化为下面的二次规划:

max

s.t,

2支持向量机在iris数据集分类中的应用

这里将标准支持向量机分类器应用于iris

数据集分类,所用的数据样本可以从UCI机

器学习数据库中得到[3],该数据集有150个样

本,属性值有四项,分别为:sepal length、

sepal width、petal length、petal width,数据

类别分为三类,分别为:Iris Setosa、Iris Ver-

sicolour、Iris Virginica。

2.1数据预处理

首先对属性值进行归一化

(4)

归一化后的属性值。

2.2核函数

本研究中核函数选取径向基函数

(5)

其中:,σ为核宽度。

2.3结果及讨论

从数据库中,选取100个样本作为训练

集,剩余的样本作为测试集。实验环境使用奔

腾3.0G,512M内存,WindowsXP操作系统。

语言使用Matlab7.0。

训练和测试的结果见表1,与其他方法所

得结果的比较见表2。标准支持向量机分类器

的测试仿真如图1所示,图中圆圈代表测试样

本仿真输出,星号代表样本期望输出。

表1训练和测试的结果

表2与其他方法的比较

从表1可见,标准支持向

摘要:支持向量机是一种基于统计学习理论的机器学习方法,针对小样本情况表现出了优良的性能,目前被广泛应用于模式识别、函数回归、故障诊断等方面。这里主要研究支持向量机分类问题,着重讨论了以下几个方面的内容。首先介绍了支持向量机分类器算法,并将其应用于数据分类,取得了较高的准确率,所用数据来自于UCI数据集。仿真结果表明该算法具有较快的收敛速度和较高的计算精度。

关键词:支持向量机;分类器;核函数

Abstract:Support Vector Machines(SVM)is a machine-learning algorithm based on statistical learning theory.Because of the excellent perfor-mance to limited samples,support vector machine is more and more widely used in fields such as pattern recognition、function fitting、fault diagnosis and so on.In this paper,we focused on the SVM classification problems,and such problems are analyzed especially.First,nonlinear classifiers algo-rithms of support vector machines are discussed and compared.Then they are applied to data classification based on UCI data set.High accuracy is obtained.Finally,The simulation results show that it meets both convergence speed andcalculation accuracy.

Key words:support vector machine;classifier;kernal functions

(下转264页)

相关文档
最新文档