一种基于支持向量机的蠓虫分类方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 .模型建立
SVM 是从线性可分情况下的最优 分类线发展而来的,所谓最优分类线就 是要求分类线不但能将两类正确分开 (训练错误率为 0) ,而且使分类间隔最 大。分类线方程为 x・w+b=0,我们可以 对它进行归一化,使得对线性可分的样 本集(x i,y i),i=1, …n, x ∈ R d ,满足
( w • xi ) + b -1 ≥ 0,i=1, n (1) yi= …
此时分类间隔等于 2 / w ,使间隔 最大等价于使 w 2 最小。满足条件 (1 )且使
1 w 2
2
最小的分类面叫做最
优分类面,H 1 、H 2 上的训练样本点 就称为支持向量。 但当线性不可分时,如果坚持用 超平面进行分化,则必须“软化”对 间隔的要求,这导致如下优化问题:
表 1 蠓虫样本集
-267 -
基础及前沿研究
中国科技信息2007年第4期
CHINA SCIENCE AND TECHNOLOGY INFORMATION Feb.2007
min
l 1 2 w + C ∑ξi 2 i =1 s.t . yi ((w ⋅ xi + b) ≥ 1 − ξ i , i = 1,2,...l .
得到该问题的一个分类函数。通过数 值实验证实,该方法分类的正确率较 高 。
ξ i ≥ 0, i = 1,2,...l
利用 Lagrange 优化方法可以把上 述最优分类面问题转化为其对偶问题, 即 :
参考文献 [1] Ancona N et al. Ball detection in static images with Support Vector Machines for classification[J].Image and Vision Computing,2003(21):675-692. [2] 边肇祺,张学工. 模式识别[M]. 北京:清华大学出版社,2 0 0 0 . [3] Burges J.C.. A Tutorial on Support Vector Machines for Pattern Recognition [J].Data mining and Knowledge Discovery, 1998,2(2):121-167 [4] 邓乃扬,田英杰. 数据挖掘中的 新方法—支持向量机[M]. 北京:科 学出版社,2004. [5] Schokopf B,et al.Input space versus feature space in kernei-based methods[J]. IEEE Trans.Neural Networks.1999,10(9): 1000-1017. [6] Vapnik V. The Nature of Statistical Learning Theory[M].New York: Springer, 1995. [ 7 ] 赵静,但琦. 数学建模与数学实 验[ M ] .第二版. 北京:高等教育出版 社,2003. [8] 赵文霞.基于模糊示例学习的蠓虫 分类规则的设计[J].保定师范专科学 校学报,2004, 17(2): 10-13. [9] Zhang Chunhua, Tian Yingjie, Zhang Yuefeng. An Improvement to the Theoretical Foundation of Support Vector Classification[J].运筹学学报,2004, 8(2):66-71. [ 1 0 ] 张莉,周伟达,焦李成. 核聚 类算法[ J ] . 计算机学报,2 0 0 2 ,2 5 (6 ) :5 8 7 - 5 9 0 .
4 .结论
我们采用支持向量机的方法对两类 蠓虫的分类问题建立一种数学模型,
图1
-268 -
(3) 式中的求和实际上只对支持向量进 行。b * 是分类阈值,可以用任一个支 持向量(满足(1 )中的等号)求 得,或通过两类中任意一对支持向量 取中值求得。这就是支持向量机。
3 .模型应用
设 6 只 Apf 为正类,即 yi=1,i=1, 2 ,…,6 ,9 只 A f 类为负类,即 y i = 1 ,i = 7 ,8 ,…,1 5 。同时 x
摘
要
1 .引言
问题选自美国大学生数学建模竞赛 的一个题目—蠓的分类, 其大意是:生 物学家W. L. Grogan和W. W. Wirth 试图将两种蠓虫 Af 和 A p f 进行鉴别, 给出了 9 只 Af 和 6 只 Apf 的触角长度 和翅膀长度的数据(见表 1)。已知 Af 是 宝贵的传粉益虫,A p f 是某种疾病的 载体, 要求建立一种模型,正确区分 两类蠓虫。 关于蠓虫的分类,属于模式识别问 题,由于 Af 是益虫,Apf 是毒蠓,所以 本文识别原则的目标是:最大限度的消 灭 Apf,在此基础上,最大限度地保护 Af, 因此,对蠓虫群体的识别模型的确 定具有重要的意义。本文基于支持向量 机模型,给出一种新的蠓虫的分类方 法,这对消灭害虫,保护益虫,保持农
y = sgn(−7.2613 x1 + 3.4491x2 + 2.9769)
Hale Waihona Puke Baidu
0 ≤ α i ≤ C , i = 1, 2,...l.
a
i
为原问题中与每个约束条件
(1 )对应的 L a g r a n g e 乘子。这是一 个不等式约束下二次函数寻优的问题, 存在唯一解。容易证明,解中将只有 一部分(通常是少部分)a i 不为零, 对应的样本就是支持向量。解上述问 题后得到的最优分类函数是
将各样本点及上述分类函数利用 Matlab 作出图形如图 1 所示。 从图示可以看出,黑点为 6 只 Apf 类,红点为 9 只 Af 类,蓝色的分类线将 它们完全分开。 并且, 有三个新的个体, 以圆圈表示,两只为 Apf 类,一只为 Af 类,分类线也恰好将它们分开。因此, 此方法的回验正确率为 100%,可信度 较高。
基金项目:国家自然科学基金(10601064)
一种基于支持向量机的蠓虫分类方法
冯增哲 1 王清 1 王昌元 1 田英杰 2 1.泰山医学院信息工程学院 271016 2.中国科学院数据技术与知识经济研究中心 100080
A Classification Method of Midges Based on Support Vector Machine
取值为 x1 =(1.14,1.78),x 2 =(1.18,1.96), x3=(1.20,1.86),x4=(1.26,2.00),x5=(1.28, 2.00),x 6 =(1.30,1.96) ;x 7 =(1.24,1.72), x8 =(1.36,1.74), x9 =(1.38,1.64),x10=(1. 38,1.82),x11=(1.38,1.90),x12=(1.40,1.70), x13=(1.48,1.82), x14=(1.54,1.82),x15 =(1. 56,2.08)。 将 以 上 数 据 代 入 模 型(2 )中, 同时选取参数 C=10,利用 Matlab 程序
Feng Zengzhe1 Wang Qing1 Wang Changyuan1 Tian Yingjie2 1.Information and Engineer School of Taishan Medical College, Shandong, Taian, China, 271016 2.Chinese Academy of Sciences,Research Center on Data Technology and Knowledge Economy, Beijing, China, 100080
业生态平衡,有一定的意义。
讨论两类蠓虫的分类问题。利用极大化 “间 隔 ”的 思 想 ,将 分 类 问 题 转 化 为 一 个 二次规划及其对偶规划问题,即支持向量 机算法。通过求解此数学规划,得到一线 性分类函数。基于该算法,通过给定的蠓 虫的样本集,建立上述分类模型,求得一 个线性分类函数,为蠓虫的正确分类提供 了一个较可靠的方法。 关键词 支持向量机;模式识别;蠓虫分类;分类 函数 中图分类号:O 2 2 ,Q 9 6 Abstract Talked about the problem of two kinds of midges’ classification. Using the maximize margin thought , transform classification problem into a quadratic programming and its dual problem, namely support vector machine algorithm. A linear classification function can be obtained by solving the math programming. Built up the above-mentioned model by the given midges’ sample set based on the algorithm, and got a linear classification function. It provided a reliable method for midges’ correct classification. Key words support vector machine; pattern recognition; midges classification; classification function.
作者简介 冯增哲,男,3 4 岁,汉族,山东泰安 人,讲师,硕士,主要研究方向:最优 化理论与方法 ,支持向量机。
s.t.
∑ yα
i =1 i
l
i
= 0 (2 )
求解得:a = ( a 1 ,a 2 ,…,a 1 5 ) = (9 . 6 6 9 7 ,1 0 ,0 ,1 0 ,1 0 ,1 0 ,1 0 , 1 0 ,0 ,1 0 ,1 0 ,0 ,0 ,0 ,9 . 6697) ;然后利用模型求解权系数得 w=(w 1 ,w 2 , )=(-7.2613,3.4991); 再求分类阈值得 b=2.9769。从而,我 们求得该问题的一个线性分类函数 为 :