最小二乘支持向量机的半监督学习算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 支持向量机
在2类模式识别问题中,给定训练样本:G一 {(xi,Yi))n滓1,工i∈RJ,Yi∈{+l,一1},SVM 的训练目标为,通过训练样本构造一个分类决策函 数,使训练样本以最大间隔分开,且将待分类样本 尽可能地正确分类.分类函数表示为
,(工)=sgn[-∑Yi口。(工·Xi)+53. (1)
式中,sgn(·)为符号函数.求解决策函数需要 构造优化问题:
min万1㈨II 2+c∑毒
{“.y,[(’.,%)+b3≥1一毫
‘2’

£≥o,i一1,2,…,咒
式中:参数C为样本的惩罚系数,其对偶为
Jmax∑ai一专∑叫拂Yj(”弓)
i=1
-^J=1
I S.t.妻y霹i一0
∞’
扛1
【0≤ai≤C
式中:%为拉格朗日乘子,若啦>o则其对应的样
标注法则转移到最终的分类器中,此时再使用这个
混合样本集进行训练会得到一个泛化性能更好的分
类器,如图2所示.


Fig.2
图2混合样本训练结果 Result of training with the labeled examples
and unlabeled examples
万方数据
·1090·
哈尔滨工程大学学报
万方数据
第10期
张健沛,等:最小二乘支持向量机的半监督学习算法
·1089·
把支持向量机的学习问题转化为解线性方程组问 题,因此具有较快的运算速度.
该文受LS-SVM思想的启发,以最/b--乘支 持向量机为学习模型,实现支持向量机的半监督学 习算法,提出一种最/b--乘的支持向量机半监督学 习算法(semi—supervised learning algorithm based on L§SVM,SLS-SVM).
由于TSVM算法可以把无标签样本中隐含的 分布信息加入到支持向量机的学习过程中,TSVM 算法比单纯使用有标签样本训练得到分类器在性能 上有了显著的提高.针对TSVM算法在无标签样 本的标记过程中存在的问题,陈毅松等人在TS— VM的基础上提出了PTSVM算法L引.PTSVM算 法,对无标签样本采用渐进式的成对标注方法,每 次在边界区域内标注l~2个样本,并动态的调整 这些样本的标签,直到边界域内没有错分样本为
支持向量机(support vector machines)是 Vapnik等在统计学习理论基础上发展起来的针对 小样本的机器学习方法,目前该方法由于其泛化能 力强、高维操作方便而得到了日益广泛的研究和应 用.传统的基于监督学习的分类方法,虽然能够有 效地解决各种实际问题,但是需要手工对大量样本 进行标记以获取足够的训练样本,代价高、效率 低.因此,根据实际需要又提出了基于半监督学习
Semi·。supervised learning algorithm with a least square support vector machine
ZHANG Jian—pei,ZHA()Ying,YANG Jing
(College of Computer Science and Technology,Harbin Engineering University。Harbin 150001,China)
收稿日期:2007—10一lO. 基金项目:国家自然科学基金资助项目(60873037;60673131);
黑龙江省自然科学基金资助项日(F2005—02). 作者简介:张健沛(1956一),男,教授,博仁生导师,E—mail:zhangjian—
pei@hrbeu.eelu.on,
的分类方法.这类方法能够自动(或半自动)地对 有标签样本和无标签样本的混合集进行数据分类, 在提高效率的同时又扩大了算法的适用范围.近年 来国内外一些学者提出各种支持向最机半监督学习 算法Ll。2],这些算法在各个领域中也都有了不同程 度的应用.但是,这些算法都是基于标准支持向量 机的,即在半监督学习过程中需要求解一个受约束 的二次型规划问题,在需要反复训练混合样本集得 到分类器的情况下,显然,这种方法计算复杂性 大、效率低.在监督学习中,对于大规模样本集, 为了使计算复杂性降低,减少训练时间, Suykens[3j提出了最小二乘支持向量机(1east squares support vector machines,LSSVM),它
Abstract:The least square support vector machine was applied to semi—supervised learning and resulted in a new learning algorithm,a semi—supervised least square-support vector machine(SI。S-SVM).The algo— rithm trained both labeled and unlabeled examples with SLS-SVM。overcoming the limitation of slow learning and lOW efficiency in other semi—supervised SVM.The algorithm reduced the iteration number needed to reach convergence by using a region labeling rule.A detailed mathematical description of the SLS-SVM algorithm was presented.Experiments on artificial and real datasets showed that the semi—SU— pervised algorithm on SI。S-SVM greatly reduces training time,speeds up the training process,and has bet— ter generalization performance. Keywords:semi—supervised algorithm;support vector machine;statistic theory;least square support vec— tor maehine
止,每进行一次成对标注就需要对之前的全部有标 签样本进行~次训练.从上面的算法描述中可以看 到,每次训练样本集加入新的无标签样本时都采用 标准支持向量机重新训练整个新的样本集,由于算 法本身的特点,即需要重新计算一个二次规划问题 的解,训练时间较长.如果将该算法应用到大规模 样本集时,训练效率极低.鉴于此,该文在PTS- VM算法的基础上提出了最小二乘支持向量机的半 监督学习算法,将LS-SVM与半监督学习思想相 结合,期望在精度允许的范围内提高分类器的训练 速度.最小二乘支持向量机的半监督学习算法的基 本思想是:首先在有标签的样本集上采用LS-SVM 训练一个初始分类器,使用初始分类器对无标签样 本进行赋值,然后采用LS-SVM算法对标注后的 样本和有标签样本集进行重置,在这个过程中动态 调整样本的标签.
2半监督学习支持向量机
半监督学习利用少量有标签数据训练初始分类
器,同时用大量无标签数据来进一步改进初始分类 器的性能以最终达到精确学习的一种综合学习方 法.在学习过程中,学习机在训练过程中使用的样 本为较少的有标签样本和较多的无标签样本的混合 样本集,不但利用了有标签样本对单个样本精确描 述的优势,而且发挥了无标签样本对样本集整体描 述的重要作用,即:由于无标签样本的数量远大于 有标签的样本数量,所以与有标签样本相比它们能 够更好地刻画整个样本空间上的数据特性,从而使 训练出的分类器具有更好的推广性能E 4|.图1为只 使用有标签样本进行训练得到的分类器,其中三角 和圆圈分别代表正类和负类;实心和空心分别代表 有标签样本和无标签样本.从图l可以更加清楚的 看出作为无标签样本的空心三角和圆圈比实心的可 以更准确的描述训练样本的分布特性.
最优分类面,因此其时间复杂度较高(0(,13·5),
咒为训练样本数).Suykens八KE3]提出的I§
SVM算法是SVM的一种扩展,它用二次损失函 数取代SVM中的e不敏感损失函数,从而将SVM 的二次规划问题转换为求解线性方程组的问题,达 到了降低时间复杂度的目的.实验证明,在精度允 许范围内,LS-SVM比标准SVM的训练速度更 快、结构更简单.LSSVM以其明确的物理意义 和高效的机器学习性能在函数估计和逼近中得到了 广泛的应用. 3.2 SLS-SVM算法描述
II'l,||2+c∑毫+c’∑g
待1
尸1
S.t. Y,(’.,·鼍+6)≥1一£,
“7

£>0,i一1,…,咒,
I'.,·工?+b I≥1一管,

芎>o,歹一1,…,优.
与监督式支持向量机中的参数C的作用类似,
参数C’为无标签样本在训练过程中的影响因子.
3 最小二乘支持向量机的半监督学习 方法
3.1最小二乘法支持向量机 标准支持向量机本质上需要求解二次规划获得
本为支持向量.通过式(3)的最优解a-----[口?a≠
…口毒],得到式(1).当分问题为非线性时,采用
核技巧,利用核函数K(·),将输入空间映射到
高维的核函数空间,此时的决策函数为
—L
厂(z)=sgn[∑yiaiK(x,置)+6]. (4)
在标准支持向量机训练算法中,训练分类器需 要大量有标签的样本,而获取大量有着正确标签的 样本集往往是很难满足的,特别是在一些需要实时 和在线处理的领域.如果能把大量无标签样本所包 含的数据特征加入到学习算法的设计中去,就可以 弥补标准SVM带来的缺陷,获得更好的分类效 果.这也是将半监督学习的思想引入到支持向量机 学习算法中的主要原因.
第29卷
基于支持向量机的半监督学习算法最早是由 KristinES3提出的一种模型,并采用混合整数规划的 方法来实现了该算法.随后JoachimsL 6J、Demirez 等人陆续提出一些近似的方法,其中比较典型的是 直推式支持向量机(transductive support vector machine,TSVM)算法,算法描述如下:
训练样本为一组给定的独立同分布的有标签训 练样本集: G={(xl,Y1)'..·,(毛,弘)),xi∈掣,∞∈{+l,一1} 和另一组来自同一分布的无标签样本集:
G。=(x÷,xi,…,x主},x?∈Rd. T.Joachims的直推式向量机的训练过程可以 描述为以下的优化问题:
源自文库
min。可1
f”·6'}’}’。
第29卷第10期 2008年lO月
哈尔滨工程大学学报 Journal of Harbin Engineering University
VoL 29№.10 Oct.2008
最小二乘支持向量机的半监督学习算法
张健沛,赵莹,杨静
(哈尔滨工程大学计算机科学与技术学院,黑龙江哈尔滨150001)
摘要:将最小二乘支持向量机引入到半监督学习中,提出了一种最小二乘支持向量机的半监督学习算法.采用 最小二乘支持向量机训练混合样本集,利用最小二乘支持向量机训练速度快、效率高等优点有效地克服了目前一 些半监督支持向量机学习算法时间代价大、效率低的缺陷.在训练过程中采用区域标注法,减少达到收敛所需要 的迭代次数,并给出了SLS-SVM算法具体的数学描述.在人造数据集及实际数据集七的实验表明,最小二乘支 持向量机的半监督学习算法可以有效的减少训练时间,提高训练的速度,从而具有更好的推广能力. 关键词:半监督学习;支持向量机;统计学习理论;最小二乘法 中图分类号:TP301.5文献标识码:A文章编号:1006—7043(2008)10-1088-05

》p

》驴V 》
可9。
一一===P 丫
咿Y
里芝——————一
——_—1r一◆—二—:一=:o’一一一



●O O
O O




Fig.1
图1有标签样本训练结果 Result of training with the labeled examples
半监督支持向量机的学习目标.使用混合样本
进行学习,将训练样本集中的无标签样本通过某种
相关文档
最新文档