基于支持向量机的多分类方法研究_郎宇宁
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国西部科技
2010年06月(中旬)第09卷第17期 总第214期
基于支持向量机的多分类方法研究
郎宇宁1 蔺娟如2
(1.西南交通大学,四川 成都 610031;2.山西师范大学数学与计算机科学学院,山西 临汾 041000) 摘 要:支持向量机是一种典型的两类分类方法,如何将其扩展到多分类领域是一个重要的问题。本文对现有的多类 支 持向量机算法作了一定的分析,并提出了一些建议,希望对研究者以后的研究有所帮助。 关键词:统计学习;支持向量机;多分类 DOI:10.3969/j.issn.1671-6396.2010.17.012 Abstract:Support Vector Machine (SVM) is a typical two-class classification. It has been an important issue to how to extend it to multi-class field. In the thesis, based on existing multi-class support vector machine methods are analyzed, then puts forward some suggestions to help researchers in later studies. Key words:Statistical learning theory;Support vectormachine;Multi-class classification
1
引言 支持向量机(Support Vector Machine)是Cortes和
2.1 一类对多类法 OVR(One Versus Rest)方法其步骤是构造K个两类分类 器(共K个类别),第i(0<i<K+1)个分类器可以区分第i个类 别和其他剩余的所有类别。训练是取第i类为正类,其余的 都算作负类。测试时让每个训练样本都经过K个分类器,最 后考察K个结果。若第i分类器的结果为正,则把这个样本判 给第i类,若没有一个分类器的结果为正,则拒绝判定。该 方法的优点是简单,直观,缺点就是存在拒分区域 (A,B,C,D),决策边界比较复杂,容易导致“数据倾斜”, 泛化能力不强。
Vapnik于1995年首先提出的,它在解决小样本、非线性及高 维模式识别中表现出许多特有的优势,并能够推广应用到 函数拟合等其他机器学习问题中。支持向量机方法是建立 在统计学习理论的VC 维理论和结构风险最小原理基础上 的,根据有限的样本信息在模型的复杂性(即对特定训练 样本的学习精度)和学习能力(即无错误地识别任意样本 的能力)之间寻求最佳折衷,以期获得最好的推广能力。 然而, 支持向量机本身是一个两类问题的判别方 法,实际应用中经常需要对多类问题进行分类, 这就涉及 到多类问题到二类问题的转换。本文对目前常用的多分类 方法进行了分析,并给出了一些建议。 2 多分类支持向量机 目前关于支持向量机的多类分类方法研究主要是在两 种指导思想下进行的: (1)直接方法:将多个分类面的参数求解合并到一 个最优化问题中来,通过求解该问题实现“一次性”的多 类分类。真的一次性考虑所有样本,并求解一个多目标函 数的优化问题,一次性得到多个分类面:
图1
约束条件为: 其中i=1,2,……n,n为样本数量;m=1,2……k, k为类别数量。 决策函数: ,判别结果为第i类。 (2)间接方法:通过构造一系列的两类分类器并将 他们通过某种方式组合在一起间接实现多类分类。 第一种方法看起来比较直观,但是在求解过程中的变 量远远多于第二种方法,在求解速度及精度方面不及第二 种方法,本文着重对第二种方法进行了分析。
收稿日期:2010-05-03 修回日期:2010-05-30 作者简介:郎宇宁,男,汉族,研究生,研究方向为数据仓库、数据挖掘。 图2
28
开 发 应 用
2.2 一类对一类法 OVO(One Versus one)方法又称为“成对分类法”,其 步骤是在训练阶段每两个类别之间构造分类器,这样K个类 别需要构造K(K-1)/2个分类器。判别时将每个未知样本 依次通过各分类器,最后统计各个类别的“得票数”,将 该样本判给得票数最多的那个类别。该方法决策边界简 单,分类精度较高,缺点是分类器数目随类别的增加而急 剧增加,训练时间长,存在拒分区域(D)。 2.3 二叉树分类 二叉树法(Binary Tree)类似于排序中的快速排序, 先将所有类别按照某一划分规则分成两个大的类别,然后 对每个类别依次按照规则划分,直到不可分。该方法优点 是判别速度快,不存在拒绝域,缺点就是分类规则的选取 对分类树的性能影响较大,泛化能力不强。对于规则的选 取目前还没有比较统一的方法。 有向无环图(Directed Acyclic Graph)分类法在训 练阶段和OVO一样,都是先构造K(K-1)/2分类器,但是在 训练阶段类似于二叉树分类,只不过在节点的选取上是从 已经训练好的分类器中选取,过程如图4所示。 该方法的优点是直观,不存在拒绝域,训练速度比较 快,分类效率较高。缺点是存在自上而下的“误差积 累”,如果头节点选取不当,对分类精度影响很大。 3 总结和展望 SVM多类分类问题是个重要而又复杂的问题,目前还没 有得到很好的解决。 “天下没有白吃的午餐”,有的方法 在速度上有优势,有的则以精度取胜。目前还出现了和传 统方法相结合的多类分类方法,比如模糊SVM 就是把模糊 集的理论应用到支持向量机的多类分类问题中来,还有融 合无监督和有监督两种学习的策略的多类分类方法[5],这些 方法都表现出一定的优越性,是未来研究支持向量机多分 类方法的重要方向。
参考文献: [1] VapnikV著,张学工译.统计学习理论的本质[M].清华大学出版 社,1999. [2] J.Weston and C.Watkins.Support vector machinesfor multi-classpattern recognition[D].In Proceedingsof 7th European Symposiumon ESANN’99:219~224. Artificial Neural Networks
[5]
[3] 李国正等译.支持向量机导论[M].北京:电子工业出版社. [4] 邱德红等.融合无监督和监督学习策略生成的多分类决策树 图3 二叉树分类法 [J].小型微型计算机系统,2004,254:555~558. [5] 李 昆 仑 等 .模 糊 多 类 支 持 向 量 机 模 型 [J].电 子 学 报,2004,32(5)830~832. [6] 刘志刚等.支持向量机在多类分类问题中的推广[J].计算机工 程与应用,2004(7):23~26. [7] 安金龙,王正欧,马振平.一种新的支持向量机多类分类算方法 [J].信与控制,2004,33(3):262~267. [8] 徐义田等.基于SVM的分类算法与聚类分析[J].烟台大学学 报,2004,17(1):9~13. [9] Francesco Ricci and David W.Aha. Eorror Correcting 图4 有向无环图分类法
2.4 DAG-SVM
Output Codes for local Germany.April 1998:21~24.
Learners[J].Chenitz
(上接第27页) 桥面结构类似。横梁的面外弯曲是设计中的 关键问题,施工中应尽可能释放一期恒载作用下横梁的面 外弯曲和纵梁的轴向变形,节间不宜过大。当跨度较大 时,或设置伸缩纵梁,或加大下弦杆或系梁以减小第一系 统变形。 (3)混凝土板整体桥面结构一般用在下承式钢桁梁 桥,可分为两种:一种桥面板只在节点处与下弦杆结合; 另一种是桥面板与整个下弦杆相结合。优点是整体性好, 刚度大。前者保留了混凝土道碴板桥面结构简单,受力明 确的优点,后者整体性更好,刚度更大。缺点是结构自重 大,用钢量一般比混凝土道碴板桥面多。
(4)正交异性钢整体桥面结构整体性好、刚度大、建 筑高度低、自重比混凝土整体桥面小;缺点是用钢量多, 一般用于特大跨度桥梁。
参考文献: [1] 叶梅新,周 德,陈 佳.高速铁路下承式大跨度系杆拱桥无碴
轨道桥面结构形式的对比研究[J].学与工程学报,2008,(4). [2] 叶梅新,韩衍群.连续钢析结合梁桥负弯距区桥面系受力影响因 素和改善方法研究[J].铁道科学与工程学报,2007,(6). [3] 张晔芝.下承式铁路钢桁结合桥的桥式结构比较[J].铁道学 报,2005,27(5):107~110.
29