系统辨识中支持向量机核函数及其参数的研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[1-2]
。
由 Vapnik 的统计学习理论 [2] 发展而来的支持向量机 (SVM)是建立在 VC 维理论和结构风险最小化(SRM) 原则之上的。SRM 比传统的神经网络中所用的经验风险最 小化原则(ERM)更为优越 ,而这使 SVM 有更强的泛化 能力。由于 SVM 有严格的理论和数学基础,不存在局部极 小的问题,小样本学习也具有很强的泛化能力。因此,SVM 成为继神经网络之后的研究热点,在模式识别 、回归估计
为了使(3)式最小,求 L 的鞍点,并令 L 对各最初变量
荣海娜, 等: 系统辨识中支持向量机核函数及其参数的研究
Nov., 2006
大小)。引入一个非线性映射 Φ : R → H ,将样本映射为
n
向量, 相应的系统输出值 yi ∈ R ( i = 1, K , i, K l 是训练数据的
的值是非零的,而与这些系数对应的输入点就是支持向量。
系统辨识就是 一个新的数据集 {( Φ ( x1 ), y1 ), K , ( Φ ( xl ), y l )} , 找出一个函数 f,使之通过样本训练后,对于样本以外的 x, 通过 f 得出对应的 y,定义这个函数为
(13)
2
(14)
ξ * ,下同)所捕获,并且在目标函数里通过 C 处罚,则风险
函数最小可写为: l 1 2 Min w + C ∑ (ξ i + ξ i* ) 1 i = 2 Subject to: (( w ⋅ xi ) + b ) − yi ≤ ε + ξ i
(15)
(3)
2.1 Sigmoid 核函数
对样本的学习来确定。 对线性系统的辨识问题已经在理论上 得到了解决,然而,非线性系统的辨识问题直到现在还没有 理想的方法[1]。人工神经网络(ANN)由于其能够以任意精 度逼近非线性函数而被广泛的用于辨识系统中, 但其固有的 局部极小、 过学习以及结构和类型的选择过分依赖经验等缺 陷,严重降低了其应用性能和发展前景
DOI:10.16182/j.cnki.joss.2006.11.050
第 18 卷第 11 期 2006 年 11 月
系 统 仿 真 学 报© Journal of System Simulation
Vol. 18 No. 11 Nov., 2006
系统辨识中支持向量机核函数及其参数的研究
荣海娜,张葛祥,金炜东
2
核函数选择方法
由于核函数的引入,所需的特征空间 ( 一个再造核的
Hilbert 空间)并不需要明确的定义,而是通过式(6)所示的核 (1) 函数推导而得, 因此核函数的选择是决定特征空间的关键因 素。常用的核函数有 1)多项式函数: k ( x , x T ) = ( x , x T + 1) d 2)高斯径向基函数(RBF): k ( x , x T ) = exp( − x − x T
Selection of Kernel Functions and Parameters for Support Vector Machines in System Identification
RONG Hai-na, ZHANG Ge-xiang, JIN Wei-dong
(School of Electrical Engineering, Southwest Jiaotong University, Chengdu Sichuan 610031, China)
输入数据映射到一个高维的特征空间 H,然后在空间 H 里 解决一个线性回归问题。 对于一个用作非线性系统辨识的样 本集 D = {( x1 , y1 ),K , ( xl , yl )} ,其中 x i ∈ R 是指 n 维输入
n
• 3204 •
第 18 卷第 11 期 2006 年 11 月
Vol. 18 No. 11
(西南交通大学电气工程学院, 四川成都 610031)
摘 要:具有不同核函数和参数的支持向量机(SVM)的性能存在很大差异,核函数及其参数的选择 是 SVM 应用和理论研究中的一个重要问题。在简要介绍非线性系统辨识的支持向量机方法后,重 点对常用的核函数及其参数的选择进行了研究, 并采用具有不同核函数的 SVM 进行非线性系统辨 识。大量实验结果表明,采用 SVM 方法进行系统辨识时,径向基核函数(RBKF)比其它核函数的辨 识效果好,且 RBKF 的参数选择较容易,当参数在有效范围内改变时,空间复杂度变化小,易于 实现。因此,RBKF 是系统辨识 SVM 的较好选择。 关键词:支持向量机;核函数;系统辨识;非线性系统 中图分类号:TP18 文献标识码:A 文章编号:1004-731X (2006) 11-3204-05
[5] [4] [3]
、控制理论等领域[6]的应用取得成功后,也被成功地应用
1
用于系统辨识的支持向量机方法
回归型 SVM 的基本思想就是通过一个非线性映射 Φ 将
收稿日期:2004-10-11 修回日期:2006-08-22 基金项目:国家自然科学基金资助项目(60572143);国防科技重点实验 室基金资助项目(NEWL51435QT220401)。 作者简介: 荣海娜(1980-), 女, 山东人, 博士生, 研究方向为智能信息处 理与模式识别。
由于支持向量机的优化问题是一个凸二次规划问题, 所 即核函数是 以支持向量机的核函数必须满足 Mercer 条件[2], 半正定(PSD)的。当核不满足 PSD 条件时,式(6)中 k 就不能表示成特征空间里的点积,式(3)与式(8)间的对 偶关系也不存在。但是在实际应用中仍然存在一些不满足 PSD 条件的核函数[2],这些核是条件正定的(如 Sigmoid 函 数) 。 文献[10]指出一个条件正定的核必须满足对偶问题里的
Abstract: It is an important issue for support vector machines (SVMs) to choose kernel functions and parameters in engineering applications and theoretic research because SVMs with different kernel functions and parameters have greatly different performances. After the nonlinear system identification method using SVM was introduced briefly, the selection of kernel functions and their parameters was discussed in detail. Also, several SVMs with different kernel functions and parameters were used to identify nonlinear systems. A large number of experimental results show that the SVM using radial basis kernel function (RBKF) has good identification results than other kernel functions when SVM is applied to identify a nonlinear system. Furthermore, the parameter of RBKF is easy to choose. The space complexity is not large when the parameter of RBKF varies. So RBKF is a good choice for SVM in system identification. Key words: support vector machine; kernel function; system identification; nonlinear system
(*) (*)
k ( x , x T ) = tanh( ρ x , x T + b )
4)傅立叶级数: sin( N + 1 / 2)( x − x T ) k ( x, xT ) = sin((1 / 2)( x − x T )) 5)样条函数:
k ( x, x T ) = 1 + x, x T +1/ 2 x , x T min( x , x T ) − 1/ 6 min( x , x T ) 3
1 2 w 2 − ∑il =1 αi (ξi − yi + ( w ⋅ xi ) − b + ε ) − ∑ α (ξ − ( w ⋅ xi ) + b + yi + ε )
l i =1 * i * i
− ∑il =1 (ηiξi + ηi*ξi* )
(5)
数(式(11)~(15))除了 Sigmoid 函数都满足 Mercer 条件。 尽管式(13)所示的 Sigmoid 函数不满足 PSD 条件,一 些文献仍采用 Sigmoid 函数作为 SVM 的核函数。 虽然和神经 网络联系在一起的 Sigmoid 函数是一个很好的逼近函数,但 是它只是对参数 ρ 和 b 的某些值满足 Mercer 条件。Sigmoid 并且 b 取较 函数在 ρ > 0 并且 b<0 的情况下较适合做核函数, 小值时与 σ 取较小值时的 RBF 函数相当,但是采用 sigmoid 作为核函数的 SVM 性能还是比采用 RBF 作为核函数的 SVM 的性能差[10]。由于 sigmoid 函数没有特别的优势并且参数选 择尤为困难,所以一般不建议采用 sigmoid 函数。
2
f (x)
=
i =1
∑ wi Φ i ( x ) + b
l
其中 Φ i ( x ) 是输入数据的特征,wi 和 b 是通过使风险函数最 则风 小估计得来的系数。 假定函数 f(x)以精度ε逼近(xi, yi), 险函数为:
l
(11) (12)
R(C ) = C ∑ Lε +
i =1
1 2
/(2σ 2 ))
引
言1
在控制领域, 系统的输入和目标输出之间的关系通常由
来进行系统辨识[7]。 与其它机器学习方法不同,SVM 通过引入核函数将输 入空间非线性映射到一个特征空间[1],从而将输入空间的非 线性问题转化为特征空间内一个线性问题。 选择不同的核函 数就会形成不同的 SVM,并且产生不同的性能。因此核函 数的选取是用 SVM 进行分类[2]和回归估计[3,5]的一个关键所 在。另外,核函数参数的选取也对回归问题的解决产生很大 的影响。因此,本文对用于回归的支持向量机的核函数及其 参数进行了比较分析研究,为非线性系统辨识 SVM 提供了 核函数和参数选择的一般方法和原则。 在简要介绍用于系统 辨识的支持向量机方法的基础上, 本文首先对不同的核函数 及其参数进行了分析;然后选取具有不同核函数的 SVM 进 行非线性系统辨识, 并对实验结果进行了分析和讨论; 最后, 采用高斯径向基 SVM 进行 NARMAX 系统辨识,并取得了 满意的辨识效果。
w
2
(2)
3)多层感知机wenku.baidu.com数(Sigmoid 函数):
其中 Lε = max {0, y − f ( x ) − ε } ,就是所谓的ε-不敏感函数 损失函数;式(2)中的第二项,1/ 2 w 用来度量函数的平 坦度; C 是一个决定训练误差和模型平坦度之间平衡关系的 则 正则化常量。ε-不敏感函数不惩罚小于ε(ε>0)的误差, 每一个误差大于ε的点由引入的松弛变量 ξ ( ξ 表示 ξ 、
T 约束 y α = 0 ,才能作为 SVM 的核函数。上面提到的核函
yi − (( w ⋅ xi ) + b ) ≤ ε + ξ i* , ξ i , ξ i* > 0
(*) (*)
(4)
我们对约束(4)引入乘子 α i , ηi , 由式(3)、 (4)得到一个 拉格朗日式:
L( w, b, α (*) , ξ (*) , ε ,η (*) ) =
。
由 Vapnik 的统计学习理论 [2] 发展而来的支持向量机 (SVM)是建立在 VC 维理论和结构风险最小化(SRM) 原则之上的。SRM 比传统的神经网络中所用的经验风险最 小化原则(ERM)更为优越 ,而这使 SVM 有更强的泛化 能力。由于 SVM 有严格的理论和数学基础,不存在局部极 小的问题,小样本学习也具有很强的泛化能力。因此,SVM 成为继神经网络之后的研究热点,在模式识别 、回归估计
为了使(3)式最小,求 L 的鞍点,并令 L 对各最初变量
荣海娜, 等: 系统辨识中支持向量机核函数及其参数的研究
Nov., 2006
大小)。引入一个非线性映射 Φ : R → H ,将样本映射为
n
向量, 相应的系统输出值 yi ∈ R ( i = 1, K , i, K l 是训练数据的
的值是非零的,而与这些系数对应的输入点就是支持向量。
系统辨识就是 一个新的数据集 {( Φ ( x1 ), y1 ), K , ( Φ ( xl ), y l )} , 找出一个函数 f,使之通过样本训练后,对于样本以外的 x, 通过 f 得出对应的 y,定义这个函数为
(13)
2
(14)
ξ * ,下同)所捕获,并且在目标函数里通过 C 处罚,则风险
函数最小可写为: l 1 2 Min w + C ∑ (ξ i + ξ i* ) 1 i = 2 Subject to: (( w ⋅ xi ) + b ) − yi ≤ ε + ξ i
(15)
(3)
2.1 Sigmoid 核函数
对样本的学习来确定。 对线性系统的辨识问题已经在理论上 得到了解决,然而,非线性系统的辨识问题直到现在还没有 理想的方法[1]。人工神经网络(ANN)由于其能够以任意精 度逼近非线性函数而被广泛的用于辨识系统中, 但其固有的 局部极小、 过学习以及结构和类型的选择过分依赖经验等缺 陷,严重降低了其应用性能和发展前景
DOI:10.16182/j.cnki.joss.2006.11.050
第 18 卷第 11 期 2006 年 11 月
系 统 仿 真 学 报© Journal of System Simulation
Vol. 18 No. 11 Nov., 2006
系统辨识中支持向量机核函数及其参数的研究
荣海娜,张葛祥,金炜东
2
核函数选择方法
由于核函数的引入,所需的特征空间 ( 一个再造核的
Hilbert 空间)并不需要明确的定义,而是通过式(6)所示的核 (1) 函数推导而得, 因此核函数的选择是决定特征空间的关键因 素。常用的核函数有 1)多项式函数: k ( x , x T ) = ( x , x T + 1) d 2)高斯径向基函数(RBF): k ( x , x T ) = exp( − x − x T
Selection of Kernel Functions and Parameters for Support Vector Machines in System Identification
RONG Hai-na, ZHANG Ge-xiang, JIN Wei-dong
(School of Electrical Engineering, Southwest Jiaotong University, Chengdu Sichuan 610031, China)
输入数据映射到一个高维的特征空间 H,然后在空间 H 里 解决一个线性回归问题。 对于一个用作非线性系统辨识的样 本集 D = {( x1 , y1 ),K , ( xl , yl )} ,其中 x i ∈ R 是指 n 维输入
n
• 3204 •
第 18 卷第 11 期 2006 年 11 月
Vol. 18 No. 11
(西南交通大学电气工程学院, 四川成都 610031)
摘 要:具有不同核函数和参数的支持向量机(SVM)的性能存在很大差异,核函数及其参数的选择 是 SVM 应用和理论研究中的一个重要问题。在简要介绍非线性系统辨识的支持向量机方法后,重 点对常用的核函数及其参数的选择进行了研究, 并采用具有不同核函数的 SVM 进行非线性系统辨 识。大量实验结果表明,采用 SVM 方法进行系统辨识时,径向基核函数(RBKF)比其它核函数的辨 识效果好,且 RBKF 的参数选择较容易,当参数在有效范围内改变时,空间复杂度变化小,易于 实现。因此,RBKF 是系统辨识 SVM 的较好选择。 关键词:支持向量机;核函数;系统辨识;非线性系统 中图分类号:TP18 文献标识码:A 文章编号:1004-731X (2006) 11-3204-05
[5] [4] [3]
、控制理论等领域[6]的应用取得成功后,也被成功地应用
1
用于系统辨识的支持向量机方法
回归型 SVM 的基本思想就是通过一个非线性映射 Φ 将
收稿日期:2004-10-11 修回日期:2006-08-22 基金项目:国家自然科学基金资助项目(60572143);国防科技重点实验 室基金资助项目(NEWL51435QT220401)。 作者简介: 荣海娜(1980-), 女, 山东人, 博士生, 研究方向为智能信息处 理与模式识别。
由于支持向量机的优化问题是一个凸二次规划问题, 所 即核函数是 以支持向量机的核函数必须满足 Mercer 条件[2], 半正定(PSD)的。当核不满足 PSD 条件时,式(6)中 k 就不能表示成特征空间里的点积,式(3)与式(8)间的对 偶关系也不存在。但是在实际应用中仍然存在一些不满足 PSD 条件的核函数[2],这些核是条件正定的(如 Sigmoid 函 数) 。 文献[10]指出一个条件正定的核必须满足对偶问题里的
Abstract: It is an important issue for support vector machines (SVMs) to choose kernel functions and parameters in engineering applications and theoretic research because SVMs with different kernel functions and parameters have greatly different performances. After the nonlinear system identification method using SVM was introduced briefly, the selection of kernel functions and their parameters was discussed in detail. Also, several SVMs with different kernel functions and parameters were used to identify nonlinear systems. A large number of experimental results show that the SVM using radial basis kernel function (RBKF) has good identification results than other kernel functions when SVM is applied to identify a nonlinear system. Furthermore, the parameter of RBKF is easy to choose. The space complexity is not large when the parameter of RBKF varies. So RBKF is a good choice for SVM in system identification. Key words: support vector machine; kernel function; system identification; nonlinear system
(*) (*)
k ( x , x T ) = tanh( ρ x , x T + b )
4)傅立叶级数: sin( N + 1 / 2)( x − x T ) k ( x, xT ) = sin((1 / 2)( x − x T )) 5)样条函数:
k ( x, x T ) = 1 + x, x T +1/ 2 x , x T min( x , x T ) − 1/ 6 min( x , x T ) 3
1 2 w 2 − ∑il =1 αi (ξi − yi + ( w ⋅ xi ) − b + ε ) − ∑ α (ξ − ( w ⋅ xi ) + b + yi + ε )
l i =1 * i * i
− ∑il =1 (ηiξi + ηi*ξi* )
(5)
数(式(11)~(15))除了 Sigmoid 函数都满足 Mercer 条件。 尽管式(13)所示的 Sigmoid 函数不满足 PSD 条件,一 些文献仍采用 Sigmoid 函数作为 SVM 的核函数。 虽然和神经 网络联系在一起的 Sigmoid 函数是一个很好的逼近函数,但 是它只是对参数 ρ 和 b 的某些值满足 Mercer 条件。Sigmoid 并且 b 取较 函数在 ρ > 0 并且 b<0 的情况下较适合做核函数, 小值时与 σ 取较小值时的 RBF 函数相当,但是采用 sigmoid 作为核函数的 SVM 性能还是比采用 RBF 作为核函数的 SVM 的性能差[10]。由于 sigmoid 函数没有特别的优势并且参数选 择尤为困难,所以一般不建议采用 sigmoid 函数。
2
f (x)
=
i =1
∑ wi Φ i ( x ) + b
l
其中 Φ i ( x ) 是输入数据的特征,wi 和 b 是通过使风险函数最 则风 小估计得来的系数。 假定函数 f(x)以精度ε逼近(xi, yi), 险函数为:
l
(11) (12)
R(C ) = C ∑ Lε +
i =1
1 2
/(2σ 2 ))
引
言1
在控制领域, 系统的输入和目标输出之间的关系通常由
来进行系统辨识[7]。 与其它机器学习方法不同,SVM 通过引入核函数将输 入空间非线性映射到一个特征空间[1],从而将输入空间的非 线性问题转化为特征空间内一个线性问题。 选择不同的核函 数就会形成不同的 SVM,并且产生不同的性能。因此核函 数的选取是用 SVM 进行分类[2]和回归估计[3,5]的一个关键所 在。另外,核函数参数的选取也对回归问题的解决产生很大 的影响。因此,本文对用于回归的支持向量机的核函数及其 参数进行了比较分析研究,为非线性系统辨识 SVM 提供了 核函数和参数选择的一般方法和原则。 在简要介绍用于系统 辨识的支持向量机方法的基础上, 本文首先对不同的核函数 及其参数进行了分析;然后选取具有不同核函数的 SVM 进 行非线性系统辨识, 并对实验结果进行了分析和讨论; 最后, 采用高斯径向基 SVM 进行 NARMAX 系统辨识,并取得了 满意的辨识效果。
w
2
(2)
3)多层感知机wenku.baidu.com数(Sigmoid 函数):
其中 Lε = max {0, y − f ( x ) − ε } ,就是所谓的ε-不敏感函数 损失函数;式(2)中的第二项,1/ 2 w 用来度量函数的平 坦度; C 是一个决定训练误差和模型平坦度之间平衡关系的 则 正则化常量。ε-不敏感函数不惩罚小于ε(ε>0)的误差, 每一个误差大于ε的点由引入的松弛变量 ξ ( ξ 表示 ξ 、
T 约束 y α = 0 ,才能作为 SVM 的核函数。上面提到的核函
yi − (( w ⋅ xi ) + b ) ≤ ε + ξ i* , ξ i , ξ i* > 0
(*) (*)
(4)
我们对约束(4)引入乘子 α i , ηi , 由式(3)、 (4)得到一个 拉格朗日式:
L( w, b, α (*) , ξ (*) , ε ,η (*) ) =