支持向量机及其在函数逼近中的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

∑ J =
1 2
‖w ‖2
+
C r L (fδ(x i) , y i)
i= 1
最小, 其中 C 是平衡因子, ‖·‖表示向量模。
惩罚函数 L (·) 通常采用 Ε2不灵敏区函数 (如
图 1) , 其定义为 L (x i, y i) =
0, fδ(x i) - y i < Ε fδ(x i) - y i - Ε, 其他
支持向量机及其在函数逼近中的应用
朱国强1, 2, 刘士荣13 , 俞金寿2 (1. 宁波大学电气工程与自动化研究所, 宁波 315211; 2. 华东理工大学自动化研究所, 上海 200237)
摘要: 支持向量机是一种新的机器学习算法, 它的理论基础是V ap n ik 创建的统计学习理论。
r
∑ ∑ w =
(Αi - Α3i ) x i =
(Αi -
i= 1
i∈SV s
其中, SV s 表示支持向量集。
Α3i ) x i
Байду номын сангаас
在样本集中删除非支持向量后重新训练所得结
第5期
朱国强等: 支持向量机及其在函数逼近中的应用
557
果与原结果相同, 也就是说, 在逼近过程中只有那些 支持向量才起到作用, 这就是支持向量定义的来源。 1. 2 非线性逼近和核函数
Α3i = C , 而在边界上, Νi 和 Ν3i 均为零, 因而 Αi 和Α3i ∈ (0, C ) , 从而有
b = y i - < w , x i > - Ε, Αi ∈ (0, C ) b = y i - < w , x i > + Ε, Α3i ∈ (0, C ) 可由上式计算 b 的值。 与 Αi≠0 和 Α3i ≠0 相对应的样本 x i, 即在不灵 敏区边界上或外面的样本, 称为支持向量。 从而有
SVM 理论正是在这一基础上发展而来的, 经过 几年来不断的研究, 已得到一定的发展并逐步应用 于一些领域, 如文本识别[2 ]、时间序列预测[3 ]、概率 密度估计[4] 等。 本文通过 SVM 在函数逼近中的应 用, 研究 SVM 的小样本学习能力、泛化能力和抗噪 声干扰能力。
556
华 东 理 工 大 学 学 报
55Νli = C - Αi- Γi= 0
5l 5 Ν3i
=
C-
Α3i -
Γ3i = 0
代入式 (2) , 得到对偶优化问题
r
∑ m in
1 2
i,
j=
(Αi-
1
Α3i ) (Αj -
Α3j ) < x i, x j > +
r
r
∑ ∑ Αi (Ε- y i) + Α3i (Ε+ y i)
(3)
i= 1
文献标识码: A
Support Vector M ach ine and Its Appl ica tion s to Function Approx ima tion
ZH U G uo2qiang 1, 2, L IU S h i2rong 13 , YU J in2shou2 (1. R esea rch I nstitu te of E lectrica l E ng ineering and A u tom a tion, N ing bo U n iv ersity , N ing bo
第 28 卷
1 支持向量机
1. 1 函数逼近
函 数逼近问题, 即存在一未知函数 y = f (x ) , x ∈R d , y ∈R , 要求函数 fδ∶R d →R , 使得函数 f 和 fδ
之间的距离
∫ R (f , fδ) = L (f , fδ) dx
(1)
最小, 其中L (·) 是惩罚函数 (L o ss funct ion)。由于
基金项目: 宁波市科技攻关项目 (0012002) E-ma il: liu sr@m ail. nbp tt. zj. cn 收稿日期: 2002203201 作者简介: 朱国强 (19772) , 男, 浙江上虞人, 硕士生, 研究方向为数据
建模和软测量等。
结 构 风 险 最 小 化 ( St ructu ra l risk m in im iza t ion, SRM ) 准则, 在最小化样本点误差的同时, 缩小模型 泛化误差的上界, 即最小化模型的结构风险, 从而提 高了模型的泛化能力, 这一优点在小样本学习中更 为突出。
315211, C h ina; 2. R esea rch I nstitu te of A u tom a tion E CU S T , S hang ha i 200237, C h ina)
Abstract: Suppo rt vecto r m ach ine is a new m ach ine lea rn ing a lgo rithm , ba sed theo ret ica lly on sta t ist ic lea rn ing theo ry crea ted by V ap n ik. Em p loying the criteria of st ructu ra l risk m in im iza t ion, w h ich m in im izes the erro rs betw een sam p le2da ta and m odel2da ta and decrea ses sim u ltaneou sly the upp er bound of p red ict erro r of m odel, SVM ’s genera liza t ion is bet ter than o thers. T he cha racterist ics of SVM , such a s the st rong lea rn ing cap ab ility ba sed on sm a ll sam p les, the good cha racterist ic of genera liza t ion and in sen sit ivi2 ty to random no ise d istu rbance, a re show n by it s app lica t ion s to funct ion app rox im a t ion.
Α3i ) (Αj -
Α3j ) < Υ(x i) , Υ(x j ) > +
r
r
∑ ∑ Αi (Ε- y i) +
Α3i (Ε+ y i)
(5)
i= 1
i= 1
约束条件仍为式 (4)。 从而得到
r
∑ w =
(Αi - Α3i ) Υ(x i)
i= 1
在 支 持 向 量 机 中, 引 入 核 函 数 ( Kernel
M ercer 条件:
κk (x, x ′) g (x) g (x′) dxdx′> 0, g ∈L 2。
常用的核函数有以下一些:
1) 多项式 k (x , x ′) = (< x , x ′> + c) p , p ∈N ,
c≥0
2) 高斯基 RB F k (x, x′) = exp (-
V o l. 28 N o. 5 2002210
华 东 理 工 大 学 学 报
Jou rnal of East Ch ina U n iversity of Science and T echno logy
555
文章编号: 100623080 (2002) 0520555205
(6)
i= 1
i= 1
r
∑ 由式 (4) 和式 (6) 可得, f (x ) =
(Αi - Α3i ) k
i= 1
(x i, x ) + b, 此时w 不能显式表示, 核函数的引入, 使
得函数逼近求解绕过特征空间, 直接在输入空间上
求取, 从而避免了计算非线性映射 Υ。
核函数 k (x , x′) 是对称正实数函数, 同时满足
非线性逼近的基本思想是先通过非线性变换
x→ Υ(x ) , 将 输 入 空 间 映 射 成 高 维 的 特 征 空 间 (H ilbert 空间) , 然后在特征空间中进行线性逼近, 即 fδ(x) = < w , Υ(x ) > + b。这样目标函数式 (3) 就变 为
r
∑ 1
2
i,
j=
1
(Αi-
优解处, 有
Αi (Ε+ Νi - y i + < w , x i > + b) = 0 Α3i (Ε+ Ν3i + y i - < w , x i > - b) = 0
和 (C - Αi) Νi= 0 (C - Α3i ) Ν3i = 0
由此可以得出, 位于不灵敏区内的样本点其对
应 Αi 和 Α3i 都 等 于 零, 外 部 的 点 对 应 有 Αi = C 或
图 1 Ε2不灵敏区函数 F ig. 1 Ε2In sen sitive function
因而, 用于函数逼近的支持向量机可以表示为
r
∑ m in
1 2
‖w ‖2
+
C (Νi +
i= 1
Ν3i )
y i - < w , x i > - b ≤ Ε+ Νi
s. t. < w , x i > + b - y i ≤ Ε+ Ν3i
Α3i (Ε+ Ν3i + y i-
i= 1
r
∑ < w , x i> - b) -
(ΓiΝi+ Γ3i Ν3i )
(2)
i= 1
上式对于参数 w , b, Νi 和 Ν3i 的偏导都应等于
零, 即
∑ 5 l
5w
=
w
-
r
(Αi- Α3i ) x i= 0
i= 1
∑ 5
5
bl =
r
(Αi-
i= 1
Α3i ) = 0
i= 1
r
∑ (Αi- Α3i ) = 0
s. t. i= 1
(4)
Αi, Α3i ∈[ 0, C ]
由此, 函数逼近问题就归结为二次规划问题式 (3) 和
式 (4)。 求解该二次规划问题, 可得
r
∑ w =
(Αi - Α3i ) x i
i= 1
根据 Ka ru sh2Kuhn2T ucker (KKT ) 条件, 在最
Key words: suppo rt vecto r m ach ine; sta t ist ic lea rn ing theo ry; st ructu ra l risk m in im iza t ion; kernel funct ion; funct ion app rox im a t ion
函数 f 未知, 因而只能根据采样所得的样本 (x1, y 1) , (x 2, y 2) , …, (x r, y r) , x i∈R d , y i∈R , 来求取 fδ。
若 fδ 为 线 性 模 型, 即 fδ ( x ) = < w , x > + b
(< ·, ·> 表示内积)。 根据结构风险最小化准则, fδ应使得
它采用结构风险最小化准则, 在最小化样本点误差的同时, 缩小模型预测误差的上界, 从而提高了
模型的泛化能力。本文通过 SVM 在函数逼近中的应用, 研究了 SVM 的小样本学习、泛化能力和抗
噪声扰动能力。
关键词: 支持向量机; 统计学习理论; 结构风险最小化; 核函数; 函数逼近
中图分类号: T P274
funct ion) 来简化非线性逼近。 核函数 k (x, x′) 满足
k (x , x ′) = < Υ(x ) , Υ(x ′) >
这样式 (5) 变为
r
∑ 1
2
i,
j=
1
(Αi
-
Α3i ) (Αj -
Α3j ) k (x i, x j ) +
r
r
∑ ∑ Αi (Ε- y i) +
Α3i (Ε+ y i)
支持向量机 (Suppo rt vecto r m ach ine, SVM ) 是上世纪 90 年代中期提出的一种机器学习算法, 它 的基础是V ap n ik 创建的统计学习理论[1]。传统的学 习方法 (如神经网络) 采用经验风险最小化 (Em p iri2 ca l risk m in im iza t ion, ERM ) 准则, 在训练中最小化 样本点误差, 因而不可避免地出现过拟合现象, 这样 模型的泛化能力受到了限制。 而统计学习理论采用
Ν, Ν3i ≥ 0
在样本数较少时, 求解上面的支持向量机一般
采用对偶理论 (D ua lity thoery) , 把它转化为二次规 划问题。
建立L ag range 方程
r
r
∑ ∑ l (w , Νi, Ν3i ) =
1 2
‖w ‖2 +
C
i= 1
(Νi +
Ν3i
)-
Αi (Ε+
i= 1
r
∑ Νi+ y i- < w , x i> - b) -
相关文档
最新文档