在线学习算法的一致性分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关键词:统计学习理论 正则化 样本误差 逼近误差
中图分类号:O241.3
文献标识码:A
文章编号:1007-3973(2013)001-111-02
1 统计学习理论的发展历史及数学基础 统计学习理论是机器学习的一个重要分支,它为人们系
统地研究小样本情况下机器学习问题提供有力的理论基础。 它的统计推理规则不仅考虑了对渐近性能的要求,而且希望 在现有有限信息的条件下得到最优结果。
IEEE Recommended Practice for Communications-Based Train Control (CBTC) System Design and Functional Allocations, 2008. [7] Rail Transit Vehicle Interface Standards Committee of the IEEE Vehicular Technology Society. IEEE Std 1473-1999, IEEE Standard for Communications Protocol Aboard Trains, 1999.
统计学习理论的基本内容诞生于 20 世纪六、七十年代, 到 90 年代中期发展到比较成熟。从六、七十年代开始,Vapnik 等人致力于此方面研究,90 年代中期,Vapnik 等又提出了用于 模式识别的支持向量机(SVM)见参考文献 [1]、[2],还产生了 经验风险最小化原则(Empirical Risk Minimizing,ERM)的理 论,解决不适定问题(ill-posed problem)的理论,算法复杂度的 思想等,此时统计学习理论获得了最大的发展。
北京:中国铁道出版社,2008. [2] 郭凤鸣,张水英.分块最小二乘群面拟合通用程序[J].电脑
学习,1990(1):40-41. [3] 吴汉麒. 城市轨道交通信号与通信系统 [M]. 北京: 中国铁
道出版社,2001. [4] 乔Leabharlann Baidu山,王玉兰,曾锦光.实验数据处理中曲线拟合方法探
讨[J].成都理工大学学报,2004,31(1):91-95. [5] Marcos Vanella.A moving least s quares reconstruction for
embedded- boundary formulations[J].Journal of Comput ational Physics,2009,228(18):6617-6628. [6] Rail Transit Vehicle Interface Standards Committee of the IEEE Vehicular Technology Society.IEEE Std 1474.3-2008,
与 科研探索 知识创新
在线学习算法的一致性分析
□郭芹
(济南大学泉城学院 山东·烟台 265600)
摘 要:对统计学习理论的研究背景和发展历史进行介绍,总结前人有关基于核的正则化学习算法的研究动态
以及已取得的成果。给出正则化在线学习算法的定义,针对不同的抽样背景得出研究正则化在线学习算法的一
致性及误差界的方法。
有确定的上界且代表起始选择的积累影响,因此称为起始误
New York:Springer,1995.
差; ( )主要依赖于随机样本,且有一个概率上界,称为样本 [2] V Vapnik. Statistical Learning Theory [M]. John Wiley &
误差。对于逼近误差‖ *- ‖ 的上界采用参考文献[10]的定理
正则化在线学习算法,又是一种递归算法。再生核 Hilbert 空间的在线学习算法为 + 1 = - (( ( )- ) + ),满足:(1) 对 每一( , )的选取是一致独立同分布,且依赖于 ;(2)正则化参 数 ≥0;(3)步长 > 0。
可以看出在线学习算法的 + 1 是取值于再生核 Hilbert 空 间 上的随机变量且依赖于( ) = 1,即 + 1 ∈ { 1 , :1≤ ≤ },上面的集合为再生核 Hilbert 空间的一个有限维子空间。 2.2 一般 Hilbert 空间的在线学习算法
机器核学习的假设空间一般采用再生核 Hilbert 空间。T Evgeniou,M Pontil 和 T Poggio 说明了调控网络建构和支持向 量机是解决学习问题的技巧,特别是由稀疏数据逼近多维函 数的回归问题。
一般情况下对最小二乘正则化学习算法的一致性进行研
究,一致性就是比较 接近 的程度。其主要思想就是将误差 划分为逼近误差和样本误差。逼近误差主要依赖于假设空间 的选择,与样本无关,一般用逼近理论解决;样本误差的估计 却是一致性分析的主要工作,常常涉及覆盖数,Markov 链,样 本间的相关性处理等,这里主要研究正则化在线学习算法。 2 正则化在线学习算法的一致性分析 2.1 正则化在线学习算法
—— 科协论坛 · 2013 年第 01 期(下) ——
111
与 科研探索 知识创新
键是利用随机梯度算法优化其二次位势函数,从而得出其收敛
(基金项目:国家自然科学基金(11071276))
的概率上界。我们主要将‖ - ‖ 拆成几部分并分别给出每
一部分的上界,从而得到‖ - ‖ 的概率上界。我们的方法是
对于再生核 Hilbert 空间和一般情况下的 Hilbert 空间的 在线学习算法,我们采用的是一致独立同分布的样本序列,关
因此可以推广到其他领域数据拟合中。 (基金项目:国家自然科学基金项目(2011BAG01B00))
参考文献: [1] 刘晓娟,张雁鹏,汤自安.城市轨道交通智能控制系统[M].
引用再生核 Hilbert 空间 中最小二乘回归问题的最小值 *=
( + ) 1 ,利用三角不等式‖ - ‖ ≤‖ - *‖ +‖ *- ‖ , 参考文献:
其中‖ - *‖ 称为逼近误差,且‖ - *‖ ≤ ( )+ ( ), ( ) [1] V Vapnik. The Nature of Statistical Learning Theory [M].
相关文档
最新文档