统计学习理论笔记

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学习理论

统计学习理论是一种机器学习的方法,也就是为机器学习服务的,首先我们有个一学习机器LM。

学习机器学习的对象是什么,我们称这个对象叫做训练器,学习机器又是如何学习的,是通过观测训练集,产生器根据分布函数随机独立产生输入

数据,通过训练器中算子训练之后,产生样本、我们称

依据联合分布函数随机产出的数据集叫做训练集,而学习机器则是学习训练器的这个训练过程或是学习出这个目标算子。

学习机器有两个追求的目标:1.模仿训练器的算子:对训练器输出提供最佳的预测结果;2.辨识训练器的算子:试图构造一个非常接近于训练算子的算子。模仿更加简单易于解决,而我们的目标是构造一个算子,从形式上看,他的意义是学习机器可以通过构造一个机器来实现某一固定函数集,在学习过程中,它从函数集中选取一个适当的函数。

那么如何选取到适合的函数,我们必须找到一个规则目标,也就是一个品质标准,我们用它来评价学习的优劣。问题便转到了在函数集中找到一个以最佳可能方式满足给定的品质准则的函数。我们定义一个损失函数:

来度量学习机器的输出与训练器的输出之间的偏差,我们希望对于所有的产生器产生的样本,学习机器的响应和训练器的响应都是一致的,为此我们定义一个泛函:

并将泛函定义为数学期望,这一泛函称为风险泛函或风险,其最小值对应于最好的品质标准。

所以问题转到如何最小化泛函的问题,由于分布未知,我们无法直接进行最小化,在模式识别问题上,我们知道损失函数是0,1函数,即是两点分部,损失等于概率,由此我们想到大数定理,在样本数大的情况下,频率是

逼近于概率的,依此我们想到用经验数据的损失均值来代替泛函的期望,我们定义经验风险:

假设风险泛函的最小值在上取得,经验风险泛函的最小值在

上取得,我们将作为的一个近似。解风险最小化问题的这一原则称为经验风险最小化(归纳)原则。

为此我们需要研究经验风险最小化原则的一致性条件,我们给出一个经典定义,对于函数集和概率分布函数,如果下面两个序列依概率收敛于同一极限:

则我们称经验风险最小化原则是一致的。

然而经典定义中会出现一致性的平凡情况,也就是这个一致性特性是由函数集中个别元素的性质所得到的,我们为了建立经验风险最小化方法的、不依赖函数集元素的性质而仅仅依赖函数集的一般性质的一致性理论,我们调整之后定义了严格一致性定义。如果任何非空子集

使得收敛性

则,称经验风险最小化方法是严格(非平凡)一致的。

对于经验风险最小化方法的严格一致性,它的充分必要条件是在给定的函数集上单边一致收敛性成立:

推广到双边一致收敛:

双边一致收敛单边一致必然收敛,即双边一致收敛更为严格。

为了估计经验风险最小化原则的推广能力,我们必须知道函数提供多大的风险值,对于一个给定的函数集,这一风险值接近最小可能风险值的程度如何。即研究这样两个界:

在第二个界中,取值很小,也很小,它们两个的差值也是一个小的值,所以对于任意小的数,以高概率成立,由此我们引出了相对一致收敛的界:

从关于学习机器推广能力的界:

我们可以知道当l/h较大时,较小,于是实际风险就接近经验风险的取值。然而当l/h较小,那么一个小的并不能保证小的实际风险值。在这种情况下,要最小化实际风险,我们必须对右边的两项同时最小化。

针对此我们给出了一个一般的原则,称作结构风险最小化(SRM)归纳原则,给出了一个嵌套集的概念,设函数的集合S是由一系列嵌套的函数子集组成的,满足,

SRM原则在使保证风险最小的子集中选择使经验风险最小的函数,定义了在对给定数据逼近的精度和逼近函数的复杂性之间的一种折衷。

相关文档
最新文档