二次损失函数支持向量机性能的研究_朱永生
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
wenku.baidu.com
Keywords support vector m achine; cost funct ion; support vect ors pruning
1引言
V apnike V 等[ 1] 在统计学习理 论中指出, 学习
机器的泛化能力不但与训练过程的经验风险有关, 而且与学习机器实际复杂性有关, 复杂性越高, 则经 验风险越小但泛化能力变差, 据此提出了综合考虑 经验 风险 和学 习 机器 复 杂度 的 结构 风 险 最小 化
j Q(
xi,
xj
)
( 8)
l
E s. t.
Aiy i = 0, Ai E 0, i = 1, 2, ,, l ( 9)
8期
朱永生等: 二次损失函数支 持向量机性能的研究
9 83
( SRM ) 归纳原则. 支持向量机是实现该原则的一种 通用学习算法, 其原理是利用非线性函数把输入矢 量映射到高维特征空间, 然后在此空间中构造分类 间隔最大的线性分类超平面. 根据统计学习理论, 分 类间隔最大就保证了以最简单的学习机器实现所允
类超平面0[ 1]
w # <( x) + b = 0
( 4)
式中, w 为分类超平面的权矢量; xi I Rn , i = 1, 2,
,, l 为训练样本; yi 为 xi 对应的输出标量, y i I { 1, 1} ; Ni 为 xi 的误 差; l 为最优分 类超平面 的权矢
量; b 为最优分 类超平面的阈 值; C 为误差惩罚参
数; <( x) 为从输入空间到特征空间的非线性映射函
数.
通过引入拉格朗日乘子和核函数[ 1] , 式( 2) , ( 3)
的优化问题被转变为 wolf 对偶问题( wolf dual prob-
lem) 来求解. 式( 2) , ( 3) 对应的对偶问题为
E E max A
l
W ( A) = Ai -
( Theory of L ubricati on and Bear ing Insti t ute , Xican Ji aotong U niv ersity , X ican 710049)
Abstract T he paramet er opt imizat ion is one of the m ain st udy directions of SVM. Recent ly, a grad-i ent descent algorithm based on RM bound has been developed, w hich can tune mult iple paramet ers of SVM w it h squared cost funct ion aut omat ically and efficiently. But t ill now , few issues relat ed t o pract ical use of t his t ype SVM have been discussed. In this paper, t he perf orm ance of SVM wit h squared cost funct ion on pat tern recognit ion is st udied and compared w ith t he st andard SVM . T he results ind-i cate that for balanced data, bot h SVMs have almost t he same classif ying accuracy, but t he SVM w ith square cost funct ion possess more support vect ors and smaller optimized paramet ers t han st andard SVM. For unbalanced data, w hen the unbalanced deg ree betw een tw o classes of training samples increases, the classif ying accuracy of t he SVM w it h squared cost f unction decreases rapidly. T he exper-i ment s also show that t he gradient descent algorithm based on RM bound is not suitable for some dat a. Some analysis on properties of t he SVM w ith square cost funct ion are also included in t he paper. Fina-l ly, a pruning alg orit hm based on golden sect ion rule is proposed and applied to increase the sparseness of SVM w it h squared cost funct ion. Using t his algorit hm , t he number of t he redundant support vect ors can be reduced to one or zero.
第 26 卷 第 8 期 2003 年 8 月
计 算机 学报 CH INESE JOU RNAL OF COM PUT ERS
Vol. 26 No. 8 Aug ., 2003
二次损失函数支持向量机性能的研究
朱永生 王成栋 张优云
( 西安交通大学润滑理论及轴承研究所 西安 710049)
摘 要 通过比较二次损失函数支持向量机和标准支持向量机在模式识别问题上 的表现, 分析了二 次损失函数 支 持向量机的性 能. 实验表明这两种支持向量机对平衡 数据有 相似的 分类能力 , 但 二次损 失函数支 持向量 机的优 化 参数 更小, 支持向量更多; 对不平衡数据, 二次损失函 数支持 向量机 的分类准 确率随 不平衡 度的增 加而急 剧下降. 研究 同时表明基于 RM 界的梯度方法对某些数据无效. 文中 定性分 析了导致 上述各 种现象 的原因. 最后 提出了 一 种利用黄金分割原理缩减二次损失函数支持向量机支持向量的方法, 该方法冗余的支持向量数不超过一个.
本文第 2 节介绍了二次损失函数支持向量机的 / 硬间隔0形式和基于 RM 界的参数优化方法, 给出 了针对 RBF 核的 RM 界梯度计算公式; 第 3 节通过 对一次损失函数支持向量机和二次损失函数支持向
量机在平衡数据和不平衡数据上分类效果的实验比 较, 研究了二次损失函数支持向量机的特性并进行 了定性分析; 第 4 节提出了一种缩减二次损失函数 支持向量机支持向量方法; 第 5 节为结论.
的一种支持向量机; 当 R= 2 时, 其对应的是二次损
失函数支持向量机. 对二次损失函数支持向量机, 采
用如下形式[ 5]
l
E m in
5 ( W, N) =
1 2
+w
+2 +
C 2
N2i
i= 1
( 2)
s. t . y i ( w # <( xi ) + b) E 1 - Ni
( 3)
在由映射函数 <( x) 产生的特征空间中构造/ 最优分
目前, 支持向量机的研究主要集中于一次损失 函数的情况, 对二次损失函数支持向量机的性能了 解还较少. 由于传统的参数优化方法存在明显的缺 点, 并且大部分实际问题主要是数据非线性可分的 情况, 为了能在实际问题中应用基于 RM 界的梯度 算法高效地优化支持向量机参数, 有必要对二次损 失函数支持向量机作进一步的探讨和研究.
收稿日期: 2002-04-19; 修改稿收到日期: 2003- 01-02. 本课题 得到国 家自然 科学基 金( 59990472 ) 和国 家/ 八 六三0 高技 术研究 发展计 划 ( 2001AA 411310) 资助. 朱永生, 男, 1973 年生, 博士研究生, 主要从事机械故障 诊断方法、模 式识别及 相关领域 的研究. E-mail : zhuyongsheng@ t lbi. x jt u. du. cn. 王成栋, 男, 1972 年生, 博士研究生, 主要从事 机械故障 诊断及信 号处理的 研究. 张优 云, 女, 1947 年 生, 博士, 教 授, 博士生导师, 研究领域为机器的状态监测及故障诊断、滑动轴承-转子系统动力学、润滑理论、现代设计等.
i= 1
1l 2 i, j =
Ai Ajyiyj K
1
(
xi
,
xj )
-
l
E 1
2C
i=
1
A2i
( 5)
l
E s. t.
Aiy i = 0, Ai E 0, i = 1, 2, ,, l ( 6)
i= 1
式中 Ai 为拉格朗日乘子; K ( xi , xj ) = <( xi ) #<( xj )
为核函数支持向量机中常用的核函数, 有径向基函 数、多项式函数、Sigmod 函数等[ 1] .
若令
Q( xi , xj ) =
K ( xi , xj ) +
1 C
Di ,
j
( 7)
984
计算机 学报
2003 年
其中
1 , xi = xj
Di = 0,
, xi X xj
并把式( 7) 代入式( 5) , 得到
max A
E E W( A) =
l
Ai -
i= 1
1 2
i,
l j=
1
Ai Ajy iy
许的经验风险, 因而支持向量机具有很好的泛化能 力. 另外, 高维空间中的运算只涉及矢量点积, 通过 引入核函数[ 1] , 避免了高维空间计算的/ 维数灾难0 问题, 不同类型的核函数构成了不同类型的支持向 量机. 在模式识别、函数自回归估计、特征提取等方 面的应用表明, 支持向量机比由经验风险最小化原 则训练得到的神经网络等具有更好的性能[ 1, 2] , 成 为近年来人工智能领域研究的一个热点.
参数 优 化 中 的 表 现, 指 出 RM 界 ( Radius- M argin bound) 是连续的且容易计算的一种风险上界, 但却 只适用于数据完全可分的/ 硬间隔0[ 1] 支持向量机. 对数据非线性可分的情况, 如果将标准支持向量机 中的损失函数由一阶改为二阶, 则通过改写核函数, 可以将其转变为/ 硬间隔0支持向量机的形式[ 5] , 从而 可以利用基于 RM 界的梯度算法来优化其参数.
2 二次损失函数支持向量机及其 参数优化方法
2. 1 二次损失函数支持向量机的/ 硬间隔0形式
所谓/ n 次0损失函数支持向量机, 是指对 SVM
的损失函数[ 1]
l
E FR( N) =
NRi
( 1)
i= 1
Ni的阶次 R= n . 当 R= 1 时, 损失函数为一次函数,
这是计算上可行的最小的 R[ 1] , 也是目前研究最多
关键词 支持向量机; 损失函数; 支持向量缩减 中图法分类号 T P306
Experimental Study on the Performance of Support Vector Machine with Squared Cost Function
ZH U Yong- Sheng WANG Cheng- Dong ZHANG You- Yun
作为一种新兴的技术, 支持向量机仍有许多方 面尚待进一步研究, 核参数( 包括核函数的参数和误 差惩罚参数 C) 的优化选择就是其中之一. 核参数是 影响支持向量机性能的关键因素, 常用的优化方法 是参数空间穷尽搜索法[ 3] , 即用参数空间中每一组 可能的参数组合去训练和测试支持向量机, 找出效 果最好的参数组合. 由于搜索空间很大, 穷尽搜索法 不但需要极大的计算量, 并且当参数超过两个时, 将 难于实现. 最近 Chapelle O 等[ 3] 提出利用梯度算法, 在参数空间最小化支持向量机风险上界的方法, 具 有寻优结果准确、计算量少等优点. 风险上界函数梯 度的计算是该方法的关键, Duan K 等[ 4] 研究了估计 支持向量机风险上界的不同方法以及它们在核函数
Keywords support vector m achine; cost funct ion; support vect ors pruning
1引言
V apnike V 等[ 1] 在统计学习理 论中指出, 学习
机器的泛化能力不但与训练过程的经验风险有关, 而且与学习机器实际复杂性有关, 复杂性越高, 则经 验风险越小但泛化能力变差, 据此提出了综合考虑 经验 风险 和学 习 机器 复 杂度 的 结构 风 险 最小 化
j Q(
xi,
xj
)
( 8)
l
E s. t.
Aiy i = 0, Ai E 0, i = 1, 2, ,, l ( 9)
8期
朱永生等: 二次损失函数支 持向量机性能的研究
9 83
( SRM ) 归纳原则. 支持向量机是实现该原则的一种 通用学习算法, 其原理是利用非线性函数把输入矢 量映射到高维特征空间, 然后在此空间中构造分类 间隔最大的线性分类超平面. 根据统计学习理论, 分 类间隔最大就保证了以最简单的学习机器实现所允
类超平面0[ 1]
w # <( x) + b = 0
( 4)
式中, w 为分类超平面的权矢量; xi I Rn , i = 1, 2,
,, l 为训练样本; yi 为 xi 对应的输出标量, y i I { 1, 1} ; Ni 为 xi 的误 差; l 为最优分 类超平面 的权矢
量; b 为最优分 类超平面的阈 值; C 为误差惩罚参
数; <( x) 为从输入空间到特征空间的非线性映射函
数.
通过引入拉格朗日乘子和核函数[ 1] , 式( 2) , ( 3)
的优化问题被转变为 wolf 对偶问题( wolf dual prob-
lem) 来求解. 式( 2) , ( 3) 对应的对偶问题为
E E max A
l
W ( A) = Ai -
( Theory of L ubricati on and Bear ing Insti t ute , Xican Ji aotong U niv ersity , X ican 710049)
Abstract T he paramet er opt imizat ion is one of the m ain st udy directions of SVM. Recent ly, a grad-i ent descent algorithm based on RM bound has been developed, w hich can tune mult iple paramet ers of SVM w it h squared cost funct ion aut omat ically and efficiently. But t ill now , few issues relat ed t o pract ical use of t his t ype SVM have been discussed. In this paper, t he perf orm ance of SVM wit h squared cost funct ion on pat tern recognit ion is st udied and compared w ith t he st andard SVM . T he results ind-i cate that for balanced data, bot h SVMs have almost t he same classif ying accuracy, but t he SVM w ith square cost funct ion possess more support vect ors and smaller optimized paramet ers t han st andard SVM. For unbalanced data, w hen the unbalanced deg ree betw een tw o classes of training samples increases, the classif ying accuracy of t he SVM w it h squared cost f unction decreases rapidly. T he exper-i ment s also show that t he gradient descent algorithm based on RM bound is not suitable for some dat a. Some analysis on properties of t he SVM w ith square cost funct ion are also included in t he paper. Fina-l ly, a pruning alg orit hm based on golden sect ion rule is proposed and applied to increase the sparseness of SVM w it h squared cost funct ion. Using t his algorit hm , t he number of t he redundant support vect ors can be reduced to one or zero.
第 26 卷 第 8 期 2003 年 8 月
计 算机 学报 CH INESE JOU RNAL OF COM PUT ERS
Vol. 26 No. 8 Aug ., 2003
二次损失函数支持向量机性能的研究
朱永生 王成栋 张优云
( 西安交通大学润滑理论及轴承研究所 西安 710049)
摘 要 通过比较二次损失函数支持向量机和标准支持向量机在模式识别问题上 的表现, 分析了二 次损失函数 支 持向量机的性 能. 实验表明这两种支持向量机对平衡 数据有 相似的 分类能力 , 但 二次损 失函数支 持向量 机的优 化 参数 更小, 支持向量更多; 对不平衡数据, 二次损失函 数支持 向量机 的分类准 确率随 不平衡 度的增 加而急 剧下降. 研究 同时表明基于 RM 界的梯度方法对某些数据无效. 文中 定性分 析了导致 上述各 种现象 的原因. 最后 提出了 一 种利用黄金分割原理缩减二次损失函数支持向量机支持向量的方法, 该方法冗余的支持向量数不超过一个.
本文第 2 节介绍了二次损失函数支持向量机的 / 硬间隔0形式和基于 RM 界的参数优化方法, 给出 了针对 RBF 核的 RM 界梯度计算公式; 第 3 节通过 对一次损失函数支持向量机和二次损失函数支持向
量机在平衡数据和不平衡数据上分类效果的实验比 较, 研究了二次损失函数支持向量机的特性并进行 了定性分析; 第 4 节提出了一种缩减二次损失函数 支持向量机支持向量方法; 第 5 节为结论.
的一种支持向量机; 当 R= 2 时, 其对应的是二次损
失函数支持向量机. 对二次损失函数支持向量机, 采
用如下形式[ 5]
l
E m in
5 ( W, N) =
1 2
+w
+2 +
C 2
N2i
i= 1
( 2)
s. t . y i ( w # <( xi ) + b) E 1 - Ni
( 3)
在由映射函数 <( x) 产生的特征空间中构造/ 最优分
目前, 支持向量机的研究主要集中于一次损失 函数的情况, 对二次损失函数支持向量机的性能了 解还较少. 由于传统的参数优化方法存在明显的缺 点, 并且大部分实际问题主要是数据非线性可分的 情况, 为了能在实际问题中应用基于 RM 界的梯度 算法高效地优化支持向量机参数, 有必要对二次损 失函数支持向量机作进一步的探讨和研究.
收稿日期: 2002-04-19; 修改稿收到日期: 2003- 01-02. 本课题 得到国 家自然 科学基 金( 59990472 ) 和国 家/ 八 六三0 高技 术研究 发展计 划 ( 2001AA 411310) 资助. 朱永生, 男, 1973 年生, 博士研究生, 主要从事机械故障 诊断方法、模 式识别及 相关领域 的研究. E-mail : zhuyongsheng@ t lbi. x jt u. du. cn. 王成栋, 男, 1972 年生, 博士研究生, 主要从事 机械故障 诊断及信 号处理的 研究. 张优 云, 女, 1947 年 生, 博士, 教 授, 博士生导师, 研究领域为机器的状态监测及故障诊断、滑动轴承-转子系统动力学、润滑理论、现代设计等.
i= 1
1l 2 i, j =
Ai Ajyiyj K
1
(
xi
,
xj )
-
l
E 1
2C
i=
1
A2i
( 5)
l
E s. t.
Aiy i = 0, Ai E 0, i = 1, 2, ,, l ( 6)
i= 1
式中 Ai 为拉格朗日乘子; K ( xi , xj ) = <( xi ) #<( xj )
为核函数支持向量机中常用的核函数, 有径向基函 数、多项式函数、Sigmod 函数等[ 1] .
若令
Q( xi , xj ) =
K ( xi , xj ) +
1 C
Di ,
j
( 7)
984
计算机 学报
2003 年
其中
1 , xi = xj
Di = 0,
, xi X xj
并把式( 7) 代入式( 5) , 得到
max A
E E W( A) =
l
Ai -
i= 1
1 2
i,
l j=
1
Ai Ajy iy
许的经验风险, 因而支持向量机具有很好的泛化能 力. 另外, 高维空间中的运算只涉及矢量点积, 通过 引入核函数[ 1] , 避免了高维空间计算的/ 维数灾难0 问题, 不同类型的核函数构成了不同类型的支持向 量机. 在模式识别、函数自回归估计、特征提取等方 面的应用表明, 支持向量机比由经验风险最小化原 则训练得到的神经网络等具有更好的性能[ 1, 2] , 成 为近年来人工智能领域研究的一个热点.
参数 优 化 中 的 表 现, 指 出 RM 界 ( Radius- M argin bound) 是连续的且容易计算的一种风险上界, 但却 只适用于数据完全可分的/ 硬间隔0[ 1] 支持向量机. 对数据非线性可分的情况, 如果将标准支持向量机 中的损失函数由一阶改为二阶, 则通过改写核函数, 可以将其转变为/ 硬间隔0支持向量机的形式[ 5] , 从而 可以利用基于 RM 界的梯度算法来优化其参数.
2 二次损失函数支持向量机及其 参数优化方法
2. 1 二次损失函数支持向量机的/ 硬间隔0形式
所谓/ n 次0损失函数支持向量机, 是指对 SVM
的损失函数[ 1]
l
E FR( N) =
NRi
( 1)
i= 1
Ni的阶次 R= n . 当 R= 1 时, 损失函数为一次函数,
这是计算上可行的最小的 R[ 1] , 也是目前研究最多
关键词 支持向量机; 损失函数; 支持向量缩减 中图法分类号 T P306
Experimental Study on the Performance of Support Vector Machine with Squared Cost Function
ZH U Yong- Sheng WANG Cheng- Dong ZHANG You- Yun
作为一种新兴的技术, 支持向量机仍有许多方 面尚待进一步研究, 核参数( 包括核函数的参数和误 差惩罚参数 C) 的优化选择就是其中之一. 核参数是 影响支持向量机性能的关键因素, 常用的优化方法 是参数空间穷尽搜索法[ 3] , 即用参数空间中每一组 可能的参数组合去训练和测试支持向量机, 找出效 果最好的参数组合. 由于搜索空间很大, 穷尽搜索法 不但需要极大的计算量, 并且当参数超过两个时, 将 难于实现. 最近 Chapelle O 等[ 3] 提出利用梯度算法, 在参数空间最小化支持向量机风险上界的方法, 具 有寻优结果准确、计算量少等优点. 风险上界函数梯 度的计算是该方法的关键, Duan K 等[ 4] 研究了估计 支持向量机风险上界的不同方法以及它们在核函数