支持向量机在文本分类中的应用的概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

支持向量机方法是建立在统计学习理

论和结构风险最小原理基础上的,根据有

限的样本信息在模型的复杂性和学习能力

之间寻求最佳折衷,以期获得最好的推广

能力(Generalizatin Abjlity)。支持向量机的方法主要有以下几个优点。

(1)它是专门针对有限样本情况的,其

目标是得到现有信息下的最优解而不仅仅

是样本数趋干无穷大时的最优值。

(2)算法最终将转化成为一个二次犁寻

优|l口】题,从理论上说。得到的将是全局最优点,解决了在神经网络方法中无法避免的

局部极值问题。

(3)算法将实际问题通过非线性变换转

换到高维的特征空间(Feature Space),在高

维窄间中构造线性判别函数来实现原空间

中的非线性判别函数,特殊性质能保证机

器有较好的推广能力,同时它巧妙地解决

了维数问题,其算法复杂度与样本维数无

关。

在支持向量机方法中,只要定义不同

的内积函数,就可以实现多项式逼近、贝叶

斯分类器、径向基函数方法、多层感知器网络等许多现自.学爿算法。

1 SVM的训练算法

传统的利用标准二次型优化技术解决

对偶问题的方法。是sVM训练算法慢及受

到训练样本集规模制约的丰要原因。目前已提出了许多解决方法和改进算法,主要是从如何处理大规模样本集的训练问题、提高训练算法收敛速度等方面改进。以F 分为分解方法、修改优化问题法、增量学习法、几何方法等分别讨论。

1.1分解方法

分解方法是SVM训练一般采用的途

径。块算法.固定工作变量及方法、顺序最小。

固定T作变量集方法思想是在迭代过

程中。当前求解子问题的优化变量数目不变,即参与训练的样本集规模固定。工作样本集大小固定在算法速度可以容忍的限度内,迭代过程选择一种适合的换入换出策略,将剩余样本中的一部分与工作样本集中的样本进行等最交换。0Suna针对SVM训

练速度慢及时间空间复杂度大的f’日J题,早就提出了该分解算法,并用于人脸检测。文

献可中将训练样本分为T作样本集和非工

作样本集,工作样本集中的样本个数为q

个,q远小于训练样本总数。

顺序最小优化方法sM0(sequential

Msnimal Optinlization)可以说是Osuna分解算法的极端特例,其工作样本集中只有两

个样本。它把二次型寻优算法简化为线性

寻优问题。SMO特别合适稀疏样本。其工作

集的选择采用启发式,而不足传统的最陡

下降法。算法丰要耗时是在最优条件的划

断上。文献对sAO进行了改进,在迭代过程

中的削优条件和循环策略上作了一定的修

改,加快了算法的速度。Osuna通过试验分

析提出了一种简单的丁作集选择方法,对

复杂情形,采用该方法的SVM能较快地收

敛。

工作样本集大小的确定、如何确定工

作样本集、如何确定合适的迭代策略是固

。定工作样本集方法的主要问题。SVMI。ight 中做了以F改进工作:在工作样本集的选

择漆。多个sVMLigh中是沿着最速F降可

行方向d,有非零元素对应的q个优化变鼍

构成~E作样本集。己经证明了只要最速下

降可行方向d存在,则用相应子集构成的子

问题可以进一步优化,而子问题的可行解

也是原问题的可行解。这就解决了工作样

本集/fi能包括所有支持向量的|.u】题。在实现细节上,文献中提出了连续收缩策略来

缩小优化问题的规模,从而使算法能较好

地处理大规模的训练集问题。此外,该方法

对常用的参数进行缓存,以提高训练速度。SVMLight常被用作各种算法比较的标准。

1.2增量学习方法

上述方法均假设训练集大小固定,但

现实|’口J题中这一要求在多数情况下是不能满足的。因此,希望学习机的学习精度应随

应用过程中样本集的积累而逐步提高,即

学习机应具有增鼍(Incremental Learning)

学习能力。经典sVM学习算法并不直接支

持增毓学习。

为解决加入新样本后的SVM训练问题,

文献中用统计力学J:的Adatron方法训练

sVM巾的系数,它将系数的求解看成系统由

小稳定态剑稳定态的变化过程。IlI Adatron

算法改进得出的Kemd—Adatron算法通过

2 1 8 科技资讯scIENcE&T[cHNOLOGY INFORMArION 在线学习构建了大边际超平面,该算法实

现简单,但只对于可分数据集有效。

1.3几何学习算法

该类方法利用了训练集中的几何信

息,从sVM的几何意义出发求解问题。文献

中利用r训练向量的结构信息,提出厂用

几何方法提取卫支持向母集,并使用卫支

持向母集构建优化决策【l}i的方法。

文献阵把SV原理建立在距离牢闻上,

设计出基于领域原理的计算海量数据支持

向鼍的算法,并进行了实验分析。研究表

明,往人规模样本情况F,用领域原理方法

求解支持向量速度极快,同时对计算机资

源要求很低。领域原理求支持向最的过程

本质上式简化SVM中二次规划目标函数的

Hessian矩阵的过程。该方法不但几何意义

明确,而且计算速度快,每次可以消掉内积

矩阵的多行多列,所需内存开销很小。

相关文档
最新文档