支持向量机在分类问题中的应用研究_张冬生
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
引言
用拉格朗日法求解上述优化问题,标准支
支 持 向 量 机 (Support Vector Machine,
持向量机优化问题转化为下面的二次规划:
SVM) 是 20 世纪 90 年代中期在统计学习理论
基础上发展起来的一种新型机器学习方法
max
[ 1] 。 支 持 向 量 机 采 用 结 构 风 险 最 小 化 准 则
摘 要:在教学过程中引导学生大胆联想,勇于提出问题、探索问题,培养学生的自主探索学习的能力。 关 键 词 :复变函数;教学;自主探索
复变函数是数学系本科生的基础课,是继 提出一些问题让学生去讨论,去思考,启发学
数学分析之后的又一门重要的专业基础课。它 生思维;三是某些教学内容给学生一定的空
的理论和方法不仅在数学的许多分支中,而且 间,安排一定的教学内容让学生自主探索学
的分析、解决问题。培养学生自主探索学习能 某种特殊的性质。
力主要抓好以下环节:一是根据教学进度,提
如果我们提出问题:已知在区域 D 上解
出思考题,引导学生比较复变函数与数学分析 析的某个函数在 D 上局部的取值,那么能否
在概念上的相似性,以此作为理解概念的基 确定这个函数在整个区域上的取值呢?解析函
习,具备了相当扎实的函数论知识,也具备了 值。同样,对于一个不加条件限制的复变函
一定的自学能力。因此,依据自主探索学习的 数,我们不能从其定义域中某一部分的取值情
基本理论,结合目前的教学现状,复变函数教 况来确定其他部分的值。对于连续函数也只能
学中适合开展自主探索学习.多年的教学实践 说,相邻两点的函数值相关很小。也就是说由
(2) 径向基函数核函数,即
(2)
2.3 结果及讨论 从数据库中,选取 100 个样本作为训练 集,剩余的样本作为测试集。实验环境使用奔 腾 3.0G,512M 内存,WindowsXP 操作系统。 语言使用 Matlab 7.0。 训练和测试的结果见表 1,与其他方法所 得结果的比较见表 2。标准支持向量机分类器 的测试仿真如图 1 所示,图中圆圈代表测试样 本仿真输出,星号代表样本期望输出。
基金项目: 本论文为 《黑龙江省新世纪高 等教育教学改革工程项目》,编号:5706。
(上接 64 页) 量机分类器在应用于分类问题
时具有较高的准确率,标准支持向量机求解一
个凸二次规划,所得的解是唯一的最优解,但
当数据量较大时,求解过程所需计算资源很
大。
通过与其他方法所得结果 [4] 比较发现,支
持向量机能较好地解决小样本、非线性等实际
在其它自然科学和各种工程技术领域中均有着 习,会收到更好的教学效果,同时也便于不断
广泛的应用。
提高学生自主探究、自我建构知识的能力。
复变函数作为数学分析在复数域的延拓,
例如,已知一般有导数或偏导数的单实变
无论在知识结构、理论体系研究方法等方面, 函数或多实变函数在它的定义范围内某一部分
二者都紧密相关.学生经过数学分析的完整学 的函数值,完全不能断定同一其他部分的函数
所谓最优分类线就是要求分类线不但能将 两类无错误地分开,而且要使两类的分类空隙 最大。推广到高维空间,最优分类线就成为最
是某个高维空间的内积,其在支持向量机中起 着至关重要的作用。选用不同的核函数会产生 不同的支持向量机算法,应用较多的核函数有 三种:
(1) 阶次为 q 的多项式核函数,即: (1)
s.t
,
(Structural Risk Minimization, SRM) 训 练 学 习机器,其建立在严格的理论基础之上,较好 地解决了非线性、高维数、局部极小点等问 题,成为继神经网络研究之后机器学习领域新 的研究热点 [2]。支持向量机从提出、被广泛重 视到现在只有几年的时间,其中还有很多尚未 解决或尚未充分解决的问题,在应用方面还具 有很大的潜力。因此,支持向量机是一个十分 值得大力研究的领域。
关 键 词 :支持向量机;分类器;核函数 Abstract: Support Vector Machines (SVM)is a machine-learning algorithm based on statistical learning theory.Because of the excellent perfor - mance to limited samples,support vector machine is more and more widely used in fields such as pattern recognition 、function fitting、fault diagnosis and so on.In this paper,we focused on the SVM classification problems,and such problems are analyzed especially.First,nonlinear classifiers algo - rithms of support vector machines are discussed and compared.Then they are applied to data classification based on UCI data set.High accuracy is obtained. Finally,The simulation results show that it meets both convergence speed andcalculation accuracy. Key words: support vector machine;classifier;kernal functions
线性等实际问题,在分类问题中具有较大的应
用潜力。
参考文献
[1]Vapnik V N.The Nature of Statistical
Learning Theory[M].New York:Springer-Verlag,
1百度文库95.
[2]Vapnik V N. An overview of statistical
科技论坛
支持向量机在分类问题中的应用研究
张冬生 (兰州交通大学,甘肃 兰州 730070)
摘 要:支持向量机是一种基于统计学习理论的机器学习方法,针对小样本情况表现出了优良的性能,目前被广泛应用于模式识别、函数回归、 故障诊断等方面。这里主要研究支持向量机分类问题,着重讨论了以下几个方面的内容。首先介绍了支持向量机分类器算法,并将其应用于数据分 类,取得了较高的准确率,所用数据来自于 UCI 数据集。仿真结果表明该算法具有较快的收敛速度和较高的计算精度。
表 1 训练和测试的结果
优分类面。
(3) 神经网络核函数
最优分类超平面在保证将两类样本无错误 分开的情况下,使得两类的分类间隔最大。在
(3) 标准支持向量机在利用结构风险原则时,
表 2 与其他方法的比较
保证经验风险最小的同时,使推广性的界中的 在优化目标中选取误差 ξi (允许错分的松弛变 置信范围最小,从而使真实风险最小。支持向 量) 为损失函数。对经典支持向量机,优化问
表明,自主探索学习首先应立足于课堂和教 整体推到局部是轻而易举的事情,但由部分推
材,同时要努力创设情境,让每个学生在课堂 到整体确是很难实现的。这时就考验我们是否
学习过程中体验研究与探索的乐趣,从而激发 敢于思考问题、提出问题。如果我们讨论的是
每个学生主动参与教学过程,引导学生创造性 一个特殊的函数类—— —解析函数,可能就具有
-264-
1 支持向量机理论 支持向量机是一种基于结构风险最小化的
2 支持向量机在 iris 数据集分类中的应用 这里将标准支持向量机分类器应用于 iris 数据集分类,所用的数据样本可以从 UCI 机 器学习数据库中得到 [3],该数据集有 150 个样 本 , 属 性 值 有 四 项 , 分 别 为 : sepal length、 sepal width、 petal length、 petal width, 数 据 类别分为三类,分别为:Iris Setosa、Iris Ver- sicolour、Iris Virginica。 2.1 数据预处理 首先对属性值进行归一化
础,使学生在学习新内容之前找出存在的问 数的惟一性定理就回答了这个问题。如果我们
题,在听课时抓住重点;二是创设问题情境, 不敢提出这样的问题,也就无法得到这样一个
很好的性质。 荷兰数学教育家弗赖登塔尔说:“学习数
学的唯一正确方法,就是实行‘再创造’,也 就是由学生自己本人把要学的东西去发现或创 造出来,教师的任务是引导和帮助学生进行这 种‘再创造’工作,而不是把现成的知识灌输 给学生。”由此可见,数学教学,必须引导学 生自主探索,做学习的主人,善于运用已有的 知识和经验积极探索,使学生成为知识的发现 者与“创造者”。全面提高素质,成为富有创 新精神的新一代开拓人才。
量机模型可以用图 2 简单描述。
题为:
核函数是支持向量机的核心,通过引入核
,
函数,可以在一个高维的空间中来实现相对于
s.t
,
原空间为非线性的算法。支持向量机核函数就
从表 1 可见,标准支持向 (下转 264 页)
-64-
科教文化
在复变函数教学中培养学生自主探索学习的能力
丛凌博 (黑龙江科技学院 理学院,黑龙江 哈尔滨 150027)
问题,具有很强的泛化能力。
3 结论
以上主要对支持向量机在分类中的应用进
行了研究,将 SVM 分类器用于 iris 数据集的
分类中。实验证明,标准支持向量机分类器具
有较高的准确率,标准支持向量机求解一个凸
二次规划,其解是唯一的且为最优解,这样不
存在一般神经网络的局部极值问题,由此可
见,标准支持向量机能较好地解决小样本、非
learning theory [J].IEEE Trans Neural Net-
图3
work,1999,10(5):988-999.
Germany: University Karlsruhe,1994.
sion tree induction algorithm [J].J of Artificial
分类器,通过解二次规划问题,寻找将数据分
(4)
为两类的最优超平面,其理论最初来自于对数
据分类问题的处理。支持向量机方法的机理可 简单的描述为:寻找一个满足分类要求的最优
归一化后的属性值
。
2.2 核函数
分类超平面,使得超平面在保证分类精度的同
本研究中核函数选取径向基函数
时,能够使超平面两侧的空白区域最大化,使
参考文献 [1] 张秋杰,丛凌博,等.复变函数 [M] .哈尔 滨:东北林业大学出版社,2009. [2] 孙清华,孙昊.复变函数的内容、方法与技 巧 [M] .武汉:华中科技大学出版社,2003. [3] 朱福国.类比建构在复变函数教学中的应用 [J] .河西学院学报,2007,5.
作者简介: 丛凌博,女,黑龙江嫩江人, 讲师,主要从事数学专业课教学及研究。
[3]Probenl L P. A set of neural network [4]Turney P D. Cost -sensitive classification: Intelligence Research,1995,2:369-409.
benchmark problem and benchmark rules [R]. Empirica evaluation of a hybrid genetic deci-
(5)
得支持向量机能够实现对线性可分数据的最优
分类。后来,Vapnik 等人通过引入核映射方
其中:
,σ 为核宽度。
法将低维空间中的非线性问题转化为高维空间 的线性可分问题来解决。
SVM 方法是从线性可分情况下的最优分 类面提出的。考虑图 1 所示的二维两类线性可 分情况,图中实心点和空心点分别表示两类训 练样本,H 为把两类没有错误地分开的分类 线,H1,H2 分别为过各类样本中离分类线最近 的点且平行于分类线的直线,H1 和 H2 之间 的距离叫做两类的分类间隔。