支持向量机在文本分类中的应用的概述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
支持向量机方法是建立在统计学习理
论和结构风险最小原理基础上的,根据有
限的样本信息在模型的复杂性和学习能力
之间寻求最佳折衷,以期获得最好的推广
能力(Generalizatin Abjlity)。支持向量机的方法主要有以下几个优点。
(1)它是专门针对有限样本情况的,其
目标是得到现有信息下的最优解而不仅仅
是样本数趋干无穷大时的最优值。
(2)算法最终将转化成为一个二次犁寻
优|l口】题,从理论上说。得到的将是全局最优点,解决了在神经网络方法中无法避免的
局部极值问题。
(3)算法将实际问题通过非线性变换转
换到高维的特征空间(Feature Space),在高
维窄间中构造线性判别函数来实现原空间
中的非线性判别函数,特殊性质能保证机
器有较好的推广能力,同时它巧妙地解决
了维数问题,其算法复杂度与样本维数无
关。
在支持向量机方法中,只要定义不同
的内积函数,就可以实现多项式逼近、贝叶
斯分类器、径向基函数方法、多层感知器网络等许多现自.学爿算法。
1 SVM的训练算法
传统的利用标准二次型优化技术解决
对偶问题的方法。是sVM训练算法慢及受
到训练样本集规模制约的丰要原因。目前已提出了许多解决方法和改进算法,主要是从如何处理大规模样本集的训练问题、提高训练算法收敛速度等方面改进。以F 分为分解方法、修改优化问题法、增量学习法、几何方法等分别讨论。
1.1分解方法
分解方法是SVM训练一般采用的途
径。块算法.固定工作变量及方法、顺序最小。
固定T作变量集方法思想是在迭代过
程中。当前求解子问题的优化变量数目不变,即参与训练的样本集规模固定。工作样本集大小固定在算法速度可以容忍的限度内,迭代过程选择一种适合的换入换出策略,将剩余样本中的一部分与工作样本集中的样本进行等最交换。0Suna针对SVM训
练速度慢及时间空间复杂度大的f’日J题,早就提出了该分解算法,并用于人脸检测。文
献可中将训练样本分为T作样本集和非工
作样本集,工作样本集中的样本个数为q
个,q远小于训练样本总数。
顺序最小优化方法sM0(sequential
Msnimal Optinlization)可以说是Osuna分解算法的极端特例,其工作样本集中只有两
个样本。它把二次型寻优算法简化为线性
寻优问题。SMO特别合适稀疏样本。其工作
集的选择采用启发式,而不足传统的最陡
下降法。算法丰要耗时是在最优条件的划
断上。文献对sAO进行了改进,在迭代过程
中的削优条件和循环策略上作了一定的修
改,加快了算法的速度。Osuna通过试验分
析提出了一种简单的丁作集选择方法,对
复杂情形,采用该方法的SVM能较快地收
敛。
工作样本集大小的确定、如何确定工
作样本集、如何确定合适的迭代策略是固
。定工作样本集方法的主要问题。SVMI。ight 中做了以F改进工作:在工作样本集的选
择漆。多个sVMLigh中是沿着最速F降可
行方向d,有非零元素对应的q个优化变鼍
构成~E作样本集。己经证明了只要最速下
降可行方向d存在,则用相应子集构成的子
问题可以进一步优化,而子问题的可行解
也是原问题的可行解。这就解决了工作样
本集/fi能包括所有支持向量的|.u】题。在实现细节上,文献中提出了连续收缩策略来
缩小优化问题的规模,从而使算法能较好
地处理大规模的训练集问题。此外,该方法
对常用的参数进行缓存,以提高训练速度。SVMLight常被用作各种算法比较的标准。
1.2增量学习方法
上述方法均假设训练集大小固定,但
现实|’口J题中这一要求在多数情况下是不能满足的。因此,希望学习机的学习精度应随
应用过程中样本集的积累而逐步提高,即
学习机应具有增鼍(Incremental Learning)
学习能力。经典sVM学习算法并不直接支
持增毓学习。
为解决加入新样本后的SVM训练问题,
文献中用统计力学J:的Adatron方法训练
sVM巾的系数,它将系数的求解看成系统由
小稳定态剑稳定态的变化过程。IlI Adatron
算法改进得出的Kemd—Adatron算法通过
2 1 8 科技资讯scIENcE&T[cHNOLOGY INFORMArION 在线学习构建了大边际超平面,该算法实
现简单,但只对于可分数据集有效。
1.3几何学习算法
该类方法利用了训练集中的几何信
息,从sVM的几何意义出发求解问题。文献
中利用r训练向量的结构信息,提出厂用
几何方法提取卫支持向母集,并使用卫支
持向母集构建优化决策【l}i的方法。
文献阵把SV原理建立在距离牢闻上,
设计出基于领域原理的计算海量数据支持
向鼍的算法,并进行了实验分析。研究表
明,往人规模样本情况F,用领域原理方法
求解支持向量速度极快,同时对计算机资
源要求很低。领域原理求支持向最的过程
本质上式简化SVM中二次规划目标函数的
Hessian矩阵的过程。该方法不但几何意义
明确,而且计算速度快,每次可以消掉内积
矩阵的多行多列,所需内存开销很小。