统计学习理论导论-3
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
使得 1. 对任意函数 Q(z,α ) ,存在一个函数Q*(z,α *) , 满足:
Q(z,α ) − Q*(z,α * ) ≥ 0 , ∀z,
∫ (Q(z,α ) − Q* (z,α * ))dF (z) ≤ δ .
(2-12)
2. 函数集 Q*(z,α *), α * ∈ Λ* 在l个样本上的VC熵满足下面的不等式:
(The Key Theorem)
定理2.1 [Vapnik and Chervonenkis, 1989]
设函数集 Q(z,α ) , α ∈ Λ 满足条件
A ≤ ∫ Q(z,α )dF(z) ≤ B (A ≤ R(α ) ≤ B) ,
那么,ERM原则一致性的充分必要条件是:经验风险Remp (α ) 在函数集
lim
l→∞
H
Λ (l) l
=
0
,
这是(2-10)的一个特例。
Xue提gon示g Zh:ang相对于样本数目来说,学习机器的能力不应太强15。
Tsinghua University
2.4 一致单边收敛的充分必要条件
Necessary & Sufficient Conditions of Uniform one-sided Convergence
∫ ∑ lim
l →∞
Psup α∈Λ
Q(z,α
)dF ( z )
−
1 l
l i =1
Q(zi ,α)
>
ε
=
0,
∀ε > 0
( ) ( ) lim
l→∞
P
suαp
R(α ) − Remp (α )
> ε 或suαp Remp (α ) − R(α )
> ε = 0
l来自百度文库m
l→∞
H
Λ* (ε , l) l
<
η
.
(2-13)
根据关键定理,这也是ERM方法一致性的充分必要条件。
结论:
Xuegong Zhang Tsinghua University
经验过程(empirical processes)
∫ ∑ 双边经验过程: ξ l = sup α∈Λ
Q(z,α
)dF
(z)
−
1 l
l i =1
Q(zi
,α
)
,
一致双边收敛:
{ } lim P ξ l > ε = 0, ∀ε > 0
l →∞
l = 1,2,L
∫ ∑ 单边经验过程:
ξ
l +
=
sup
α∈Λ
R(α ) 。
Xuegong Zhang
1
Tsinghua University
学习问题的一般表示
设有定义在空间Z上的概率测度F(z) 。考虑函数的集合 Q(z,α ) , α ∈ Λ 。机器学习的一般问题就是,在概率测度
F(z) 未知,但给定了一定的独立同分布样本
z1,L, zl
(1-7)
的条件下,最小化风险泛函
α∈Λ
显然对这个扩展的函数集来说,ERM方法就是一致的了。实际上,对任 何分布函数和对任意数量的观测,经验风险的最小值都将在函数 φ(z) 上 取得,而它也给出了期望风险的最小值。
Xuegong Zhang
7
Tsinghua University
严格(非平凡)一致性(Strict(Nontrival) Consistency):
• 这个学习过程收敛的速度有多快? • 如何控制这个学习过程的收敛速度(推广
能力)?
• 怎样构造能够控制推广能力的算法?
Xuegong Zhang
4
Tsinghua University
第二章 ERM原则和学习过程的一致性
经验风险最小化的核心问题:
一个使经验风险最小的学习机器,是否也使期望风险 (实际风险)最小?什么情况下是?什么情况下否?
一致双边收敛包含了一致单边收敛,因此,一致双边收敛是ERM 方法一致性的一个充分条件。
充分必要条件?
Xuegong Zhang
16
Tsinghua University
定理2.4 [Vapnik and Chervonenkis, 1989]
对完全有界函数集Q(z,α ),α ∈ Λ ,经验均值一致单边收敛于其期望的 充分必要条件是:对任意的正 δ , η 和ε ,存在一个函数集Q*(z,α *) ,α * ∈ Λ*,
VC熵:
H
Λ
(ε ; l)
=
EH
Λ
(ε ;
z 1
,
L
,
zl
)
显然:指示函数集可以看作是实函数集的特例,对指示函数集,ε < 1有:
N Λ (ε ; z1,L, zl ) = N Λ (z1,L, zl )
H Λ (ε ; z1,L, zl ) = H Λ (z1,L, zl )
Xuegong Zhang
R(α ) = ∫ Q(z,α )dF (z) , α ∈ Λ
(1-6)
记解为Q(z,α0 ) .
要设计一个学习机器,需要做几件事?
1. 确定原则
—— 不同学习理论的区别所在
2. 确定函数集及学习目标 —— 不同学习机器的区别所在
3. 确定训练算法
Xuegong Zhang Tsinghua University
Q(z,α
)dF
(z)
−
1 l
l i =1
Q(zi
,α
) +
,
一致单边收敛:
{ } lim
l →∞
P
ξ
l +
>ε
= 0,
∀ε > 0
l = 1,2,L
(2-5) (2-6)
(2-7) (2-8)
Xuegong Zhang
11
Tsinghua University
∫ ∑ ξ l = sup α∈Λ
即,经验风险最小化学习过程一致性的充分必要条件是什么? ―― 统计学习理论的基础
Xuegong Zhang
5
Tsinghua University
∑ Remp
(α )
=
1 l
l i =1
Q(zi ,α )
R(α ) = ∫ Q(z,α )dF (z) , α ∈ Λ
2.1 一致性(consistency)的概念
对函数集 Q(z,α) , α ∈ Λ,定义其子集如下:
Λ(c) = {α : ∫ Q(z,α )d.F (z) > c,α ∈ Λ}
如果对函数集的任意非空子集Λ(c) , c ∈ (−∞, ∞) 都有
P
inf
α∈Λ( c
)
Remp
(α
)
→
l→∞
inf
α∈Λ (c
)
R(α
)
(2-3)
成立,则我们说ERM方法对函数集 Q(z,α) , α ∈ Λ 和概率分布函数 F(z) 是
Xuegong Zhang Tsinghua University
对ERM原则的任何分析都必须是“最坏情况分析”
9
传统条件
lim
l→∞
P
R (α ) −
R emp
(α )
>
ε
=
0
( ) SLT条件
lim
l→∞
P
sαu∈Λp
R(α ) − Remp (α )
> ε = 0 ,
>
ε
=
0,
的充分必要条件是
lim
l→∞
H
Λ (ε , l) l
=
0,
∀ε > 0
.
∀ε > 0
(2-10)
即,随着观测数目的增加,VC熵与观测数目的比值应该趋近于零。
推论 [Vapnik and Chervonenkis, 1968, 1971]
指示函数集 Q(z,α ) , α ∈ Λ 一致双边收敛的充分必要条件是
-- 函数集在数量为l 的样本上的熵
Xuegong Zhang
13
Tsinghua University
2.3.3 实函数集的熵
定义:
A ≤ Q(z,α ) ≤ B,α ∈ Λ是一个有界损失函数集合。用这个函数集和训练
集 z1,L, zl ,可以构造下面的 l 维向量集合:
q(α ) = (Q(z1,α ),L, Q(zl ,α )) , α ∈ Λ
∀ε > 0
Xuegong Zhang
10
Tsinghua University
2.3 一致双边收敛的充分必要条件
Necessary & Sufficient Conditions of Uniform Two-sided Convergence
关键定理把ERM方法一致性的问题转化为了一致收敛的问题(一致单 边收敛)。为讨论一致单边收敛的条件,先讨论一致双边收敛问题。
即,一致双边收敛和一致单边收敛的充分必要条件是什么?
—— 需考察函数集的性质
Xuegong Zhang Tsinghua University
12
函数集的熵
2.3.2 指示函数集的熵
目标:建立考查函数集性质(能力)的指标
考查指示函数集 Q(z,α) , α ∈ Λ 和样本z1,L, zl 。
定义:
H Λ (ε ; l) = H Λ (l)
14
Tsinghua University
2.3.4 一致双边收敛的条件
定理2.3 [Vapnik and Chervonenkis, 1981]
∫ ∑ 一致双边收敛
lim
l →∞
Psup α∈Λ
Q(z,α
)dF ( z)
−
1 l
l i =1
Q(zi ,α)
设
Q(z,αl
)
是对给定的独立同分布观测
z 1
,
L
,
zl
使经验风险泛函
∑ Remp
=
1 l
l i =1
Q(zi ,α )
最小化的函数。如果下面两个序列依概率收敛于同一个极限,即
P
R(αl
)
→
l→∞
inf
α∈Λ
R(α
)
,
P
Remp
(αl
)
→
l→∞
inf
α∈Λ
R(α
)
,
(2-1) (2-2)
则我们说ERM原则(或方法)对函数集Q(z,α), α ∈ Λ和概率分布函数 F(z) 是一致的。
非平凡一致的。
换句话说,一个ERM方法,如果把函数集中取得风险最小值的函数 去掉后仍然能够满足(2-3)式的收敛关系,则这个ERM方法是非平凡一致 的。
可以证明,在严格一致性的情况下,条件(2-1)自动满足。
Xuegong Zhang
8
Tsinghua University
2.2 学习理论的关键定理
.
(2-9)
这个向量集合处在 l 维立方体之中,并且在C度量(或在 Lp 度量)下有一
个有限的最小ε-网格。令 N = N Λ (ε; z1,L, zl ) 是向量集 q(α ),α ∈ Λ 的最小ε-
网格的元素数目。
随机ε-熵: H Λ (ε ; z1,L, zl ) = ln N Λ (ε ; z1,L, zl )
N Λ (z1,L, zl ) :用指示函数集中的函数能够把给定的样本分成多少种不同的 分类。 用这个量来表征函数集在给定的数据集上的多样性。
随机熵:H Λ (z1,L, zl ) = ln N Λ (z1,L, zl ) -- 函数集在给定数据上的多样性
Random Entropy
VC熵: H Λ (l) = E ln N Λ (z1,L, zl ) VC Entropy
Q(z,α
)dF
(z)
−
1 l
l i =1
Q( zi
,α
)
,
l = 1,2,L
2.3.1 大数定律(The Law of Large Numbers)及其推广
1. 大数定律:随着样本数目的增加,随机变量的均值收敛于其期望(如
果期望存在的话)。
P
若函数集 Q(z,α) ,
α
∈Λ
中只包含一个元素,则ξ l
回顾
损失函数:
L( y, f ( x,α ))
风险函数: R(α ) = ∫ L( y, f (x,α ))dF (x, y) (1-2)
学习的目标就是:
在联合概率分布函数F (x, y) 未知、所有可用的信
息都包含在训练集中的情况下,寻找函数 f (x,α0 ) , 使它(在函数类 f (x,α ), α ∈ Λ上)最小化风险泛函
Xuegong Zhang
6
Tsinghua University
平凡一致性:
假设已经建立了某个函数集 Q(z,α) , α ∈ Λ ,对这个函数集ERM方法 是不一致的。考虑另一个扩展的函数集,它包括了这个函数集和一个额 外的函数 φ (z) 。假设这个额外的函数满足不等式
inf Q(z,α ) > φ (z) , ∀z
→0
l →∞
2. 向量空间中的推广:如果函数集 Q(z,α) , α ∈ Λ 包含有限个元素,则
P
ξl →0 l →∞
3. 是否存在泛函空间中的大数定律?(Law of Large Numbers in Functional
Space)
P
当函数集中包含无限多个元素时,是否 ξ l → 0 ? l →∞
—— 具体的实现算法
2
基本起点:ERM原则
∑ Remp (α )
=
1 l
l i=1
Q(zi ,α)
R(α ) = ∫ Q(z,α )dF (z) , α ∈ Λ
Xuegong Zhang
3
Tsinghua University
统计学习理论研究的是下面四个问题:
• 一个基于ERM原则的学习过程一致充分必 要条件是什么?
Q(z,α ) , α ∈ Λ 上在如下意义下一致收敛于实际风险 :
( ) lim
l→∞
P sαu∈Λp
R(α )
−
Remp (α )
> ε = 0 ,
∀ε > 0
.
(2-4)
一致单边收敛 (uniform one-sided convergence)
换言之,ERM原则的一致性等价于(2-4)式的一致单边收敛成立。
Q(z,α ) − Q*(z,α * ) ≥ 0 , ∀z,
∫ (Q(z,α ) − Q* (z,α * ))dF (z) ≤ δ .
(2-12)
2. 函数集 Q*(z,α *), α * ∈ Λ* 在l个样本上的VC熵满足下面的不等式:
(The Key Theorem)
定理2.1 [Vapnik and Chervonenkis, 1989]
设函数集 Q(z,α ) , α ∈ Λ 满足条件
A ≤ ∫ Q(z,α )dF(z) ≤ B (A ≤ R(α ) ≤ B) ,
那么,ERM原则一致性的充分必要条件是:经验风险Remp (α ) 在函数集
lim
l→∞
H
Λ (l) l
=
0
,
这是(2-10)的一个特例。
Xue提gon示g Zh:ang相对于样本数目来说,学习机器的能力不应太强15。
Tsinghua University
2.4 一致单边收敛的充分必要条件
Necessary & Sufficient Conditions of Uniform one-sided Convergence
∫ ∑ lim
l →∞
Psup α∈Λ
Q(z,α
)dF ( z )
−
1 l
l i =1
Q(zi ,α)
>
ε
=
0,
∀ε > 0
( ) ( ) lim
l→∞
P
suαp
R(α ) − Remp (α )
> ε 或suαp Remp (α ) − R(α )
> ε = 0
l来自百度文库m
l→∞
H
Λ* (ε , l) l
<
η
.
(2-13)
根据关键定理,这也是ERM方法一致性的充分必要条件。
结论:
Xuegong Zhang Tsinghua University
经验过程(empirical processes)
∫ ∑ 双边经验过程: ξ l = sup α∈Λ
Q(z,α
)dF
(z)
−
1 l
l i =1
Q(zi
,α
)
,
一致双边收敛:
{ } lim P ξ l > ε = 0, ∀ε > 0
l →∞
l = 1,2,L
∫ ∑ 单边经验过程:
ξ
l +
=
sup
α∈Λ
R(α ) 。
Xuegong Zhang
1
Tsinghua University
学习问题的一般表示
设有定义在空间Z上的概率测度F(z) 。考虑函数的集合 Q(z,α ) , α ∈ Λ 。机器学习的一般问题就是,在概率测度
F(z) 未知,但给定了一定的独立同分布样本
z1,L, zl
(1-7)
的条件下,最小化风险泛函
α∈Λ
显然对这个扩展的函数集来说,ERM方法就是一致的了。实际上,对任 何分布函数和对任意数量的观测,经验风险的最小值都将在函数 φ(z) 上 取得,而它也给出了期望风险的最小值。
Xuegong Zhang
7
Tsinghua University
严格(非平凡)一致性(Strict(Nontrival) Consistency):
• 这个学习过程收敛的速度有多快? • 如何控制这个学习过程的收敛速度(推广
能力)?
• 怎样构造能够控制推广能力的算法?
Xuegong Zhang
4
Tsinghua University
第二章 ERM原则和学习过程的一致性
经验风险最小化的核心问题:
一个使经验风险最小的学习机器,是否也使期望风险 (实际风险)最小?什么情况下是?什么情况下否?
一致双边收敛包含了一致单边收敛,因此,一致双边收敛是ERM 方法一致性的一个充分条件。
充分必要条件?
Xuegong Zhang
16
Tsinghua University
定理2.4 [Vapnik and Chervonenkis, 1989]
对完全有界函数集Q(z,α ),α ∈ Λ ,经验均值一致单边收敛于其期望的 充分必要条件是:对任意的正 δ , η 和ε ,存在一个函数集Q*(z,α *) ,α * ∈ Λ*,
VC熵:
H
Λ
(ε ; l)
=
EH
Λ
(ε ;
z 1
,
L
,
zl
)
显然:指示函数集可以看作是实函数集的特例,对指示函数集,ε < 1有:
N Λ (ε ; z1,L, zl ) = N Λ (z1,L, zl )
H Λ (ε ; z1,L, zl ) = H Λ (z1,L, zl )
Xuegong Zhang
R(α ) = ∫ Q(z,α )dF (z) , α ∈ Λ
(1-6)
记解为Q(z,α0 ) .
要设计一个学习机器,需要做几件事?
1. 确定原则
—— 不同学习理论的区别所在
2. 确定函数集及学习目标 —— 不同学习机器的区别所在
3. 确定训练算法
Xuegong Zhang Tsinghua University
Q(z,α
)dF
(z)
−
1 l
l i =1
Q(zi
,α
) +
,
一致单边收敛:
{ } lim
l →∞
P
ξ
l +
>ε
= 0,
∀ε > 0
l = 1,2,L
(2-5) (2-6)
(2-7) (2-8)
Xuegong Zhang
11
Tsinghua University
∫ ∑ ξ l = sup α∈Λ
即,经验风险最小化学习过程一致性的充分必要条件是什么? ―― 统计学习理论的基础
Xuegong Zhang
5
Tsinghua University
∑ Remp
(α )
=
1 l
l i =1
Q(zi ,α )
R(α ) = ∫ Q(z,α )dF (z) , α ∈ Λ
2.1 一致性(consistency)的概念
对函数集 Q(z,α) , α ∈ Λ,定义其子集如下:
Λ(c) = {α : ∫ Q(z,α )d.F (z) > c,α ∈ Λ}
如果对函数集的任意非空子集Λ(c) , c ∈ (−∞, ∞) 都有
P
inf
α∈Λ( c
)
Remp
(α
)
→
l→∞
inf
α∈Λ (c
)
R(α
)
(2-3)
成立,则我们说ERM方法对函数集 Q(z,α) , α ∈ Λ 和概率分布函数 F(z) 是
Xuegong Zhang Tsinghua University
对ERM原则的任何分析都必须是“最坏情况分析”
9
传统条件
lim
l→∞
P
R (α ) −
R emp
(α )
>
ε
=
0
( ) SLT条件
lim
l→∞
P
sαu∈Λp
R(α ) − Remp (α )
> ε = 0 ,
>
ε
=
0,
的充分必要条件是
lim
l→∞
H
Λ (ε , l) l
=
0,
∀ε > 0
.
∀ε > 0
(2-10)
即,随着观测数目的增加,VC熵与观测数目的比值应该趋近于零。
推论 [Vapnik and Chervonenkis, 1968, 1971]
指示函数集 Q(z,α ) , α ∈ Λ 一致双边收敛的充分必要条件是
-- 函数集在数量为l 的样本上的熵
Xuegong Zhang
13
Tsinghua University
2.3.3 实函数集的熵
定义:
A ≤ Q(z,α ) ≤ B,α ∈ Λ是一个有界损失函数集合。用这个函数集和训练
集 z1,L, zl ,可以构造下面的 l 维向量集合:
q(α ) = (Q(z1,α ),L, Q(zl ,α )) , α ∈ Λ
∀ε > 0
Xuegong Zhang
10
Tsinghua University
2.3 一致双边收敛的充分必要条件
Necessary & Sufficient Conditions of Uniform Two-sided Convergence
关键定理把ERM方法一致性的问题转化为了一致收敛的问题(一致单 边收敛)。为讨论一致单边收敛的条件,先讨论一致双边收敛问题。
即,一致双边收敛和一致单边收敛的充分必要条件是什么?
—— 需考察函数集的性质
Xuegong Zhang Tsinghua University
12
函数集的熵
2.3.2 指示函数集的熵
目标:建立考查函数集性质(能力)的指标
考查指示函数集 Q(z,α) , α ∈ Λ 和样本z1,L, zl 。
定义:
H Λ (ε ; l) = H Λ (l)
14
Tsinghua University
2.3.4 一致双边收敛的条件
定理2.3 [Vapnik and Chervonenkis, 1981]
∫ ∑ 一致双边收敛
lim
l →∞
Psup α∈Λ
Q(z,α
)dF ( z)
−
1 l
l i =1
Q(zi ,α)
设
Q(z,αl
)
是对给定的独立同分布观测
z 1
,
L
,
zl
使经验风险泛函
∑ Remp
=
1 l
l i =1
Q(zi ,α )
最小化的函数。如果下面两个序列依概率收敛于同一个极限,即
P
R(αl
)
→
l→∞
inf
α∈Λ
R(α
)
,
P
Remp
(αl
)
→
l→∞
inf
α∈Λ
R(α
)
,
(2-1) (2-2)
则我们说ERM原则(或方法)对函数集Q(z,α), α ∈ Λ和概率分布函数 F(z) 是一致的。
非平凡一致的。
换句话说,一个ERM方法,如果把函数集中取得风险最小值的函数 去掉后仍然能够满足(2-3)式的收敛关系,则这个ERM方法是非平凡一致 的。
可以证明,在严格一致性的情况下,条件(2-1)自动满足。
Xuegong Zhang
8
Tsinghua University
2.2 学习理论的关键定理
.
(2-9)
这个向量集合处在 l 维立方体之中,并且在C度量(或在 Lp 度量)下有一
个有限的最小ε-网格。令 N = N Λ (ε; z1,L, zl ) 是向量集 q(α ),α ∈ Λ 的最小ε-
网格的元素数目。
随机ε-熵: H Λ (ε ; z1,L, zl ) = ln N Λ (ε ; z1,L, zl )
N Λ (z1,L, zl ) :用指示函数集中的函数能够把给定的样本分成多少种不同的 分类。 用这个量来表征函数集在给定的数据集上的多样性。
随机熵:H Λ (z1,L, zl ) = ln N Λ (z1,L, zl ) -- 函数集在给定数据上的多样性
Random Entropy
VC熵: H Λ (l) = E ln N Λ (z1,L, zl ) VC Entropy
Q(z,α
)dF
(z)
−
1 l
l i =1
Q( zi
,α
)
,
l = 1,2,L
2.3.1 大数定律(The Law of Large Numbers)及其推广
1. 大数定律:随着样本数目的增加,随机变量的均值收敛于其期望(如
果期望存在的话)。
P
若函数集 Q(z,α) ,
α
∈Λ
中只包含一个元素,则ξ l
回顾
损失函数:
L( y, f ( x,α ))
风险函数: R(α ) = ∫ L( y, f (x,α ))dF (x, y) (1-2)
学习的目标就是:
在联合概率分布函数F (x, y) 未知、所有可用的信
息都包含在训练集中的情况下,寻找函数 f (x,α0 ) , 使它(在函数类 f (x,α ), α ∈ Λ上)最小化风险泛函
Xuegong Zhang
6
Tsinghua University
平凡一致性:
假设已经建立了某个函数集 Q(z,α) , α ∈ Λ ,对这个函数集ERM方法 是不一致的。考虑另一个扩展的函数集,它包括了这个函数集和一个额 外的函数 φ (z) 。假设这个额外的函数满足不等式
inf Q(z,α ) > φ (z) , ∀z
→0
l →∞
2. 向量空间中的推广:如果函数集 Q(z,α) , α ∈ Λ 包含有限个元素,则
P
ξl →0 l →∞
3. 是否存在泛函空间中的大数定律?(Law of Large Numbers in Functional
Space)
P
当函数集中包含无限多个元素时,是否 ξ l → 0 ? l →∞
—— 具体的实现算法
2
基本起点:ERM原则
∑ Remp (α )
=
1 l
l i=1
Q(zi ,α)
R(α ) = ∫ Q(z,α )dF (z) , α ∈ Λ
Xuegong Zhang
3
Tsinghua University
统计学习理论研究的是下面四个问题:
• 一个基于ERM原则的学习过程一致充分必 要条件是什么?
Q(z,α ) , α ∈ Λ 上在如下意义下一致收敛于实际风险 :
( ) lim
l→∞
P sαu∈Λp
R(α )
−
Remp (α )
> ε = 0 ,
∀ε > 0
.
(2-4)
一致单边收敛 (uniform one-sided convergence)
换言之,ERM原则的一致性等价于(2-4)式的一致单边收敛成立。