统计学习理论导论-7.pdf

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

∑ 广义最优超平面的系数是
l
w = αi yi xi
i =1
其中参数αi , i = 1,L, l 是下列二次优化问题的解:
max α
∑ ∑ W (α)
=
l
αi
i =1

1 2
i
,
l
α
j =1

j
yi
y
j
(
xi

xj)
s.t.
l
∑ yiαi = 0
i =1
0 ≤ αi ≤ C , i = 1,L, l
支持向量机(SVM)实现的是如下的思想:它 通过某种事先选择的非线性映射将输入向量x映射到 一个高维特征空间Z,在这个空间中构造最优分类超 平面。
Xuegong Zhang
1
Tsinghua University
两个问题: (1) 怎样找到一个推广性好的分类超平面?
(概念上的问题)
特征空间的维数将会很高,将训练数据分开的 一个超平面不一定能够很好地推广。
Xuegong Zhang
10
Tsinghua University
5.6.4 支持向量机的例子(Examples of SVM)
采用不同的函数 K(x, xi ) 作为内积 ,就得到不同类型的学 习机器。
一种直观解释: 模板 Æ 相似性度量 Æ 加权投票
Xuegong Zhang Tsinghua University
k =1
(即 K (u, v) 描述了在某个特征空间中的一个内积),充分
必要条件是,对使得
∫ g 2 (u)du < ∞
的所有 g ≠ 0 ,条件
成立。
∫∫ K(u, v)g(u)g(v)dudv > 0
根据Hilbert-Schmidt理论,可以是满足上面的一般条件的任意对称
函数[Courant and Hilbert, 1953]。
∑ 决策函数:
f (x) = sign l i=1
y

0 i
(xi

x)

b0
Xuegong Zhang Tsinghua University
—— 只涉及对向量的内积运算
3
经过变换 z = Φ(x) ,在空间 Z 中的(广义)最优分类面 与上述问题形式完全相同,只是 x 被替换成 z=Φ(x) :
个自由参数),求解得到的多项式子集的估计VC维却可以是低的。
Xuegong Zhang
13
Tsinghua University
径向基函数机器 (Radial Base Function SVM)
传统的径向基函数(RBF)机器采用下面的决策规则集合:
∑ f (x) = sign N ai Kγ ( x − xi ) − b
5.6.3 构造SV机 (Constructing SVM)
利用内积核函数等效地进行非线性变换,在变换空间中构造(广 义)最优超平面,即得到最优超平面的非线性推广—— 支持向量机。
∑ 支持向量机决策函数是
f
(x)
=
sign
yiαi
支持向量
K
(
xi
,
x)

b
其中参数 αi , i = 1,L, l 是下列二次优化问题的解:
因此,变换空间(特征空间)中的最优分类面实际只需 要在原空间中进行求解,并不需要实际实现变换。
进一步,变换 z=Φ(x) 完全可以只是概念性的,只要知 道核函数,我们甚至不需要知道对应的变换是什么。
Xuegong Zhang
4ห้องสมุดไป่ตู้
Tsinghua University
构造适当的变换,在变换 空间中求最优分类面
距离、相关、… >>> 核函数 11
目前研究较多的是以下三种类型的学习机器: • 多项式学习机器——采用多项式核函数 • 径向基函数机器——采用高斯核函数 • 两层神经网络——采用Sigmoid核函数
Xuegong Zhang
12
Tsinghua University
2/5
多项式学习机器 (Polynomial SVM)
i=1
其中 Kγ ( x − xi ) 依赖于两个向量之间的距离 x − xi 。
构造适当的核函数,求由 核函数定义的最优分类面
找什么样的核函数? —— 基本要求是它对应于某一个变换空间的内积
Xuegong Zhang
5
Tsinghua University
定理5.3 (Mercer)
要保证 L2 下的对称函数 K (u, v) 能以正的系数 ak > 0
展开成

∑ K (u, v) = akψ k (u)ψ k (v)
—— Mercer条件
Xuegong Zhang
6
Tsinghua University
1/5
简化条件:
Xuegong Zhang Tsinghua University
于是,构造非线性变换以在新空间中求解(广义)最优 超平面的问题就变为构造适当的核函数的问题。
7
Xuegong Zhang
8
Tsinghua University
∑ ∑ W (α) =
l
αi
i =1

1 2
i,
l
α
j =1

j
yi
y
j
(
zi
⋅zj)
∑ f
(x)
=
sign
l i =1
yiα
0 i
(
zi

z)
− b0
Z 空间中的内积可以转化为原 X 空间中的函数(核函数)
(zi , z j ) = (φ (xi ), φ (x j )) → k(xi , x j )
要构造 阶多项式决策规则,可以用下面的函数作为内积:
K ( x, xi ) = [( x ⋅ xi ) + 1]d
决策函数形式如下:
∑ f
( x,α )
=
sign
yiα
支持向量
i
[(
xi
⋅ x) + 1]d
− b
它是 n 维输入空间中的 d 阶多项式的一种因子分解。
尽管特征空间的维数很高( n 维输入空间中的 d 阶多项式有O(nd )
∑ ∑ max α
W (α) =
l
αi
i =1

1 2
l i, j
αiα j yi y j K (xi , x j )
s.t.
l
∑ yiαi = 0
i=1
0 ≤ αi ≤ C , i = 1,L, l
Xuegong Zhang
9
Tsinghua University
“支持向量网络”—— 支持向量机的决策可以表示成类似 神经网络的形式
(2) 怎样在计算上处理在如此高维的空间?
(技术上的问题)
要在一个200维空间中构造一个4或5阶的多项式,
需要构造一个上十亿维的特征空间。如何克服 这种“维数灾难”(curse of dimensionality)?
Xuegong Zhang
2
Tsinghua University
5.6.2 内积的回旋 (Convolution of the inner product)
相关文档
最新文档