高级人工智能第五节请勿删除!!!!
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定理3.2-3指出一致收敛,快度收敛的充分必要 条件是: lim G ( n ) =0. n
n
对于一般的生成函数 G(n)≤n㏑2 ⅰ)在G(n)= n㏑2 时,
lim G ( n) n
n
n ln 2 =㏑2 lim n n
这时不满足充要条件。
nh h ln( ) h lim = n = n
= lim
n
n
= lim h 0 =0 n n 这说明当 G(n)取h㏑( 1) 为上界时,是可以 h 实现一致收敛和快度收敛。
(4)VC维(Vapnik Chervonenkiv Dimension) VC维直观定义: 对于一个指示函数,如果存在h个样本,能够 被函数集中的函数按所有可能的2h种形式分开, 则称函数集能够把h个样本打散(shattering);函 数集的VC维就是它能打散的最大样本数目h。 VC维反映了函数的学习能力。 目前尚未有计算任意函数VC维的理论。
VC维对于一个指示函数,如果其生成函数是线 性的,则它的VC维为无穷大;而如果生成函数以参 数为h的对数函数为上界,则函数的VC维是有限的且 等于h。
(5)学习过程一致性收敛的条件
经验风险最小的学习过程一致性的充分必要条 件是函数集的VC维有限,且这时收敛速度是快的
3.推广性的界
推广性——学习机器对未来输出进行正确预 测的能力称作推广性。 推广性的界——经验风险和真实风险之间差 距的上界;它反映了经验风险最小化原则得到的 学习机器的推广能力。 对于指示函数集 f ( x,) ,如果损失函数 L( y, f (x,)) 的取值为0或1,则有如下定理: 定理3.2-5 对指示函数集中的所有函数,经验风险和实际 风险之间至少以概率1- 满足以下关系:
h㏑(
kh h
1) = h㏑(k+1) (3.2-18)
在上式(3.2-17)、(3.2-18)两式中,由 于存在 k﹥ ㏑(k+1),k﹥1, 故而实际有: n 1) , n﹥h时, G(n)﹥h㏑(
h
所以,在n﹥h时,取h㏑( 1) 为上界是 h 一种合理的方法。
n
(2)收敛性分析
ⅱ)在每一个子集中寻找最小经验风险
选择最小经验风险与置信范围之和最小的子 集,则可以达到期望风险的最小,在这个子集中 使经验风险最小的函数就是要求的最优函数。 上面的思想称为有序风险最小化,也称为结 构风险最小化(Structural Risk Minimization).简 称SRM原则。
(2)合理函数子集结构
3.2.2VC维和推广性的界
2.生长函数的性质和VC维
VC熵、退火VC熵、生长函数对统计学习 理论均有用。但离实用尚有较大距离。建立 在VC维基础上的理论则在实用中有价值。 1)生长函数的性质 定理3.2-4 所有函数集的生长函数G(n),存在如下 性质: ⅰ)或者与样本数成正比,即 (3.2-15) ⅱ)或者以样本的某个对数为上界,即 (3.2-16)
(3.2-21)
从定义3.2-5可知:经验风险最小化原则下学 习机器的实际风险由两部分组成的,可以写成: R(ω)Remp(ω)+ (3.2-22) 其中:Remp(ω)为训练样本的经验风险。 称为置信范围(confidence inteval)或称为 VC信任(VC confidence) 从式(3.2-19)可知:置信范围不但受置信水 平1- 的影响,而且是函数集VC维h和样本数目n 的函数,并且随着n/h的增加而单调减少。故有:
其中:h是一个整数,它是生长函数式(3.2-15) 到(3.2-16)的转折点。
G(n) n㏑2 h㏑( 1)
h n
h
n
n h
1)
(2)生成函数的上界分析
生成函数为: G(n)= n㏑2 n 1) 上界为: h㏑( h 对两者的大小进行分析。 ⅰ) 当n=h 时,有: G(h)= h㏑2 n h㏑( 1) = h㏑2 h 当n=h 时,生成函数和上界相等。 ⅱ)当n=kh , h ﹥1时,有: G(kh)= k h㏑2 (3.2-17)
R(ω) Remp(ω)+ 1 (3.2-19) 2 ⅰ)当ω取无穷个值时, a2n h(ln 1) ln( / 4) (3.2-20) h a1 n
其中: a1,a2 是两个常数,0﹤a1 4,0﹤a2 2 ln 2 n
R(ω) Remp(ω)+ ) (3.2-23) (
n h
一般而言,n/h 较小,置信范围较大,取得 的解的推广性较差;n/h较大,置信范围较小,取 得的解接近最优解。 应该指出:推广性的界是对于最坏情况的结 论;所给出的界在很多情况下是很松的,当VC维 h较高时尤其如此。 一般发现:在样本较少的情况下,得到小的 置信的范围是采用线性分类器,原因是线性分类 器的VC维较低。
4.结构风险最小化
经验风险最小化原则在样本数目有限时是不 合理的,因为这时需要同时最小化经验风险和置 信范围;但实际上很难实现,因为置信范围的最 小化难以确定。 (1) 结构风险最小化方法 n 根据:R(ω) Remp(ω)+ ( h) 采用另一种思维策略来解决这一个问题;这 就是结构风险最小化。它的过程分为下列两个:
ⅱ)在取G(n)的值为: n G(n)= h㏑( 1) 时, h n h ln( 1) G ( n) h lim lim n n n n
n
lim
h(ln( n h) ln h) n h(ln 2 ln n ln h)
lim ﹤ n
h(ln 2n ln h) n
ⅰ)首先,把函数体S={ f (x, ), }分解成一个 函数子集序列,或称子集结构。
s1 s2 s3 s
(3.2-24)
令各个子集能够依照 的大小排列,也即是以 VC维的大小排列,即:
h1 h2 h3 hk
(3.2-25)
这样在同一个子集中置信范围相同。
合理函数子集结构应满足两个基本条件: ⅰ)每个子集的VC维是有限的,且满足
h1 h2 h3 hk
ⅱ)每个子集中函数的对应损失函数是有界非负函 数。
(3)结构风险最小化原则下分类器的设计
ⅰ)选择一个适当的函数子集,对问题有最 优的分类能力。 ⅱ)从该子集中选择一个函数,令经验风险 最小。 从上可知:结构风险最小化是一种不同于经 验风险最小化的学习机器设计原则。而更科学。 但它需要逐一计算子集,同时要恰当划分子集。 目前尚未有一般化的理论构造预测函数子集结构。 较好地解决这一问题的是支持向量机。
n
对于一般的生成函数 G(n)≤n㏑2 ⅰ)在G(n)= n㏑2 时,
lim G ( n) n
n
n ln 2 =㏑2 lim n n
这时不满足充要条件。
nh h ln( ) h lim = n = n
= lim
n
n
= lim h 0 =0 n n 这说明当 G(n)取h㏑( 1) 为上界时,是可以 h 实现一致收敛和快度收敛。
(4)VC维(Vapnik Chervonenkiv Dimension) VC维直观定义: 对于一个指示函数,如果存在h个样本,能够 被函数集中的函数按所有可能的2h种形式分开, 则称函数集能够把h个样本打散(shattering);函 数集的VC维就是它能打散的最大样本数目h。 VC维反映了函数的学习能力。 目前尚未有计算任意函数VC维的理论。
VC维对于一个指示函数,如果其生成函数是线 性的,则它的VC维为无穷大;而如果生成函数以参 数为h的对数函数为上界,则函数的VC维是有限的且 等于h。
(5)学习过程一致性收敛的条件
经验风险最小的学习过程一致性的充分必要条 件是函数集的VC维有限,且这时收敛速度是快的
3.推广性的界
推广性——学习机器对未来输出进行正确预 测的能力称作推广性。 推广性的界——经验风险和真实风险之间差 距的上界;它反映了经验风险最小化原则得到的 学习机器的推广能力。 对于指示函数集 f ( x,) ,如果损失函数 L( y, f (x,)) 的取值为0或1,则有如下定理: 定理3.2-5 对指示函数集中的所有函数,经验风险和实际 风险之间至少以概率1- 满足以下关系:
h㏑(
kh h
1) = h㏑(k+1) (3.2-18)
在上式(3.2-17)、(3.2-18)两式中,由 于存在 k﹥ ㏑(k+1),k﹥1, 故而实际有: n 1) , n﹥h时, G(n)﹥h㏑(
h
所以,在n﹥h时,取h㏑( 1) 为上界是 h 一种合理的方法。
n
(2)收敛性分析
ⅱ)在每一个子集中寻找最小经验风险
选择最小经验风险与置信范围之和最小的子 集,则可以达到期望风险的最小,在这个子集中 使经验风险最小的函数就是要求的最优函数。 上面的思想称为有序风险最小化,也称为结 构风险最小化(Structural Risk Minimization).简 称SRM原则。
(2)合理函数子集结构
3.2.2VC维和推广性的界
2.生长函数的性质和VC维
VC熵、退火VC熵、生长函数对统计学习 理论均有用。但离实用尚有较大距离。建立 在VC维基础上的理论则在实用中有价值。 1)生长函数的性质 定理3.2-4 所有函数集的生长函数G(n),存在如下 性质: ⅰ)或者与样本数成正比,即 (3.2-15) ⅱ)或者以样本的某个对数为上界,即 (3.2-16)
(3.2-21)
从定义3.2-5可知:经验风险最小化原则下学 习机器的实际风险由两部分组成的,可以写成: R(ω)Remp(ω)+ (3.2-22) 其中:Remp(ω)为训练样本的经验风险。 称为置信范围(confidence inteval)或称为 VC信任(VC confidence) 从式(3.2-19)可知:置信范围不但受置信水 平1- 的影响,而且是函数集VC维h和样本数目n 的函数,并且随着n/h的增加而单调减少。故有:
其中:h是一个整数,它是生长函数式(3.2-15) 到(3.2-16)的转折点。
G(n) n㏑2 h㏑( 1)
h n
h
n
n h
1)
(2)生成函数的上界分析
生成函数为: G(n)= n㏑2 n 1) 上界为: h㏑( h 对两者的大小进行分析。 ⅰ) 当n=h 时,有: G(h)= h㏑2 n h㏑( 1) = h㏑2 h 当n=h 时,生成函数和上界相等。 ⅱ)当n=kh , h ﹥1时,有: G(kh)= k h㏑2 (3.2-17)
R(ω) Remp(ω)+ 1 (3.2-19) 2 ⅰ)当ω取无穷个值时, a2n h(ln 1) ln( / 4) (3.2-20) h a1 n
其中: a1,a2 是两个常数,0﹤a1 4,0﹤a2 2 ln 2 n
R(ω) Remp(ω)+ ) (3.2-23) (
n h
一般而言,n/h 较小,置信范围较大,取得 的解的推广性较差;n/h较大,置信范围较小,取 得的解接近最优解。 应该指出:推广性的界是对于最坏情况的结 论;所给出的界在很多情况下是很松的,当VC维 h较高时尤其如此。 一般发现:在样本较少的情况下,得到小的 置信的范围是采用线性分类器,原因是线性分类 器的VC维较低。
4.结构风险最小化
经验风险最小化原则在样本数目有限时是不 合理的,因为这时需要同时最小化经验风险和置 信范围;但实际上很难实现,因为置信范围的最 小化难以确定。 (1) 结构风险最小化方法 n 根据:R(ω) Remp(ω)+ ( h) 采用另一种思维策略来解决这一个问题;这 就是结构风险最小化。它的过程分为下列两个:
ⅱ)在取G(n)的值为: n G(n)= h㏑( 1) 时, h n h ln( 1) G ( n) h lim lim n n n n
n
lim
h(ln( n h) ln h) n h(ln 2 ln n ln h)
lim ﹤ n
h(ln 2n ln h) n
ⅰ)首先,把函数体S={ f (x, ), }分解成一个 函数子集序列,或称子集结构。
s1 s2 s3 s
(3.2-24)
令各个子集能够依照 的大小排列,也即是以 VC维的大小排列,即:
h1 h2 h3 hk
(3.2-25)
这样在同一个子集中置信范围相同。
合理函数子集结构应满足两个基本条件: ⅰ)每个子集的VC维是有限的,且满足
h1 h2 h3 hk
ⅱ)每个子集中函数的对应损失函数是有界非负函 数。
(3)结构风险最小化原则下分类器的设计
ⅰ)选择一个适当的函数子集,对问题有最 优的分类能力。 ⅱ)从该子集中选择一个函数,令经验风险 最小。 从上可知:结构风险最小化是一种不同于经 验风险最小化的学习机器设计原则。而更科学。 但它需要逐一计算子集,同时要恰当划分子集。 目前尚未有一般化的理论构造预测函数子集结构。 较好地解决这一问题的是支持向量机。