基于加权系数寻优的回归型加权支持向量机
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基金项目:高等学校博士学科点专项科研基金项目(20040251010);上海市自然科学基金项目(04ZR14034);国家重点基础研究发展规划项目(2002CB312200)收稿日期:2005-06-06
第23卷 第7期
计 算 机 仿 真
2006年7月
文章编号:1006-9348(2006)07-0111-04
基于加权系数寻优的回归型加权支持向量机
王浩,王行愚,牛玉刚
(华东理工大学信息科学与工程学院,上海200237)
摘要:在加权回归型支持向量机中,由于考虑到不同数据对预测函数贡献程度的差异性,其预测效果往往优于标准的回归型支持向量机,该文针对现有回归型加权支持向量机使用中直接选择加权系数法存在的不足,提出了一种对加权系数进行优化的新方法。该方法通过选取曲率变化大、形式简单的幂函数作为候选加权函数,并采用格子搜索法寻找最优参数,从而可以确定出最优加权系数。仿真实验表明:在利用加权支持向量机训练时间序列数据集时,采用该方法确定最优加权系数,比目前常用选择加权系数的方法效果好。关键词:支持向量机;回归;加权系数中图分类号:TP181 文献标识码:A
W e i ghted Support Vector Regressi on Ba sed on
W e i ghti n g Factor O pti m i za ti on
WANG Hao,WANG Xing -yu,N I U Yu -gang
(East China University of Science and Technol ogy,Shanghai 200237,China )
ABSTRACT:The weighted support vect or regressi on out perfor m s the standard support vect or regressi on when app lied in ti m e sequence data set ,f or the merits that different input points can make different contributi ons t o the learning of p redictive functi on .I n this paper,the selecti on p r oble m of weighting fact ors in weighted support vect or regressi on is considered .Based on the op ti m izati on technique,a ne w selecting app r oach is p r oposed t o overcome the shortcom ing of conventi onal methods .I n the p resent method,a p r oper weighting fact or is chosen as candidate weighting functi on being suited f or suit certain ti m e sequence data set .And then,a grid search app r oach is adop ted t o adap tively deter 2m ine the suitable weighting fact ors .The experi m ent results show that the p resent method has a better perfor mance than usual weighting fact or selecti on method .
KE YWO RD S:Support vect or machine (S VM );Regressi on;W eighting fact or
1 引言
作为统计学习理论中结构风险最小化准则的具体实现,支持向量机(S VM )具有结构简单、全局最优,泛化能力较好的优点,近几年得到了广泛的研究。S VM 方法最早是针对模式识别问题提出来的,随着不敏感损失函数的引入,S VM 己推广到非线性系统的回归函数估计,并展现出较好的学习性能。
在标准回归型支持向量机(S VR )中,所有样本对应的C
(惩罚参数)和ε(误差要求参数)是相同的,即对不同样本的
精度和偏离精度的惩罚是相同的。但在实际应用中,对某些重要的样本数据,常常要求有小的训练误差,而对那些重要
性相对较低的样本数据,则可以容许一定大小的训练误差,如股市预测、期货预测、电力负荷预测等动态变化比较剧烈的时间序列预测问题,近期数据的重要性要远远高于早期数据的重要性。也就是说,不同的样本数据,其精度要求也会不同。因此,在描述优化问题时,每个样本数据应具有不同的误差要求和惩罚系数,即各样本对应的ε和C 是不同的,从而得到更准确的回归估计。基于上述考虑,研究人员提出了加权支持向量机[1]
[5]
。由于考虑到了各训练样本重要性
的差异,并通过给不同样本的C 和ε赋予不同权重,使得加权支持向量机方法可以显著改善系统的泛化能力[1][5]。
值得注意的是,目前在加权S VR 的具体应用中,人们通常是直接选用一组递增数列作为加权系数。然而,众所周知,不同样本重要性的递增程度通常不可能完全一致,因此,上述直接对所有样本赋予相同加权系数的方法,势必会影响加权S VR 的预测效果。基于这样的考虑,本文提出了一种
对加权系数进行优化的新方法。通过在候选加权系数集中进行格子搜索,找出最好的加权系数,从而构成一种预测效果很好的加权S VR。实验表明:在加权S VR训练时间序列数据集时,采用本方法确定最优加权系数,比目前常用选择加权系数的方法效果好。
2 加权SVR方法
2.1 标准SVR
设训练样本集为{(x
i ,y
i
),i=1,2,…m},其中x
i
∈R N
为输入值,y
i
∈R为对应的目标值,m为样本数。定义ε不敏感损失函数为
y-f(x,ω)|ε=0 |y-f(x,ω)|<ε
|η|-ε |y-f(x,ω)|≥ε
(1)
式中f(x,ω)是通过对样本集的学习而构造的预测函数,y为与x对应的目标值,ε>0为设计参数,它规定了估计函数在样本数据上的误差要求。
在采用支持向量机研究非线性样本集时,通过非线性函数Ф(・)将训练集数据映射到一个具有高维线性的特征空间,在这个维数可能为无穷大的特征空间中构造估计函数,支持向量机存在对偶表现形式,数据仅作为Gram矩阵的项出现,而不需要通过单个属性出现,预测函数f(x)有如下形式[9]:
f(x)=ω・Ф(x)+b(2)式中:ω・Ф(x)表示向量ω与Ф(x)的内积,ω的维数为特征空间维数(可能为无穷维),b∈R。根据统计学习理论[3]预测函数f(x)的估计转换成如下的最优化问题:
m in ω,b,ξ,ξ31
2
‖ω‖2+C∑
m
i=1
(ξ
i
+ξ3i),
s.t.y i-ω・<(x i)-b≤ε+ξi,
ω・<(x
i )+b-y
i
≤ε+ξ3
i
,
ξ
i ≥0,ξ3
i
≥0;i=1,2...m(3)
式中:C>0为惩罚系数,C越大表示对训练误差|f(x
i
)
-y
i
|(i=1,2...,m)大于ε的样本的惩罚越大。如何选择参数C和ε是回归型支持向量机的关键,由于C表示了对训练误差超过ε管道的样本的惩罚,C越小,惩罚越小,从而使训练误差变大。另一方面,C取得大,由式(3),与置信范围值相关的ε的权重相应地变小,即置信范围值的权重变小,从而使系统的泛化能力变差,因此参数C的选择对系统泛化能力影响比较大,ε的大小与是否会得到惩罚相关,ε选小,回归估计精度要求高,但支持向量数量增多,ε选大,回归估计精度降低,支持向量数据少,S VM的稀疏性大,如何合理选择参数C和ε,目前还没有有效的方法。
在式(3)的回归型支持向量机方法中,参数C和ε对任何样本都相同,也就是说,尽管C和ε可以自由选择,但一旦选定,对于所有的样本数据,对它的精度要求以及偏离精度的惩罚是一样的,但是在实际应用中,如利用股市的股价时间序列进行股价走势的预测中,距离测试样本较近的训练样本,它的重要性要高于与测试样本相距较远的训练样本,针对样本重要性的不同,应选择不同的误差要求参数和对偏离误差进行惩罚的惩罚参数C和ε,这就是提出加权支持向量机方法的初衷。
对式(3)的最优化问题,一般采用拉格朗日乘子法转换成对偶最优化问题,然后根据KKT条件进行最优化计算,得到的预测函数可以由(3)式写为如下具体的形式[3]
f(x)=∑
m
i=1
(a
i
-a3i)k(x i,x)+b(4) 2.2 加权SVR
标准S VR在时间序列预测以及其它领域的应用中,对不同样本的惩罚参数C和误差要求参数ε是不同的,因此在标准S VR的基础上,提出了加权支持向量机,参数C和ε是针对各个样本来选择的,其最优化问题为
m in
m,b,ξ,ξ3
1
2
‖w‖2+C∑
l
i=1
S
i
(ξ
i
+ξ3i),
s.t. y i-w・Φ(x i)-b≤εt i+ξi
w・Φ(x i)+b-y i≤εt i+ξ3i
ξ
i
≥0
ξ3
i
≥0;i=1,2,...,1.(5)
式中s
i
,t
i
分别表示第i个训练样本对参数C和ε的加权系数,对于式(5),一般采用拉格朗日乘子法求解这个具有线性不等于约束的二次规划问题,得到类似式(4)的预测函数。由于考虑到了各训练样本重要性的差异,给不同样本的惩罚参数C和误差要求参数ε赋予不同权重的加权支持向量机方法可以显著改善系统的泛化能力[1][5]。
3 基于加权系数寻优的回归型加权支持向量机目前在加权SVR的研究中,加权系数的选取通常采用在a到1(1>a≥0)之间的线性插值法确定[1][4][5],或采用时间的二次函数作为加权系数的函数(加权函数)[5]。在对时间序列数据的具体实验中,最不重要的数据加权系数通常直
接选择为S
1
=0,t1=1,最重要的数据加权系数S m=1,t m =0,使用线性插值法求出其余数据的加权系数[1][5]。
在本文研究中,考虑到当训练样本比较少时,每一个样
本所提供的信息都很重要,此时S
1
值应较大(当S
1
为1时,加权函数成为一个所有函数值为1的常值函数,所有样本重要程度相等,对应的加权S VR就成为标准S VR了),当训练样本越大,早期样本所包含的"陈旧"信息越多,最小加权系数S1越趋于零,同样大小而不同领域的时间序列,可能包含的"
陈旧"信息数量是不一样的,因此应该对S
1
寻优,找出最适
合特定训练集的S
1
。
同理,虽然加权系数是递增的,但对于不同时间序列数据集,其样本重要程度的增加可能是不一样的,加权函数可能为线性函数,也可能是不同形状的二次曲线或其它增函数,当没有相关先验知识的情况下,直接指定一个固定的加权函数[1][4][5]很可能遗漏最优的加权系数。在后面的实验