大数据环境下的增强学习综述_仵博

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据环境下的增强学习综述*

仵 博,冯延蓬,孟宪军,江建举,何国坤

(深圳职业技术学院 教育技术与信息中心,广东 深圳 518055)

摘 要:在大数据应用领域,如何快速地对海量数据进行挖掘是当前大数据应用基础研究的热点和难点,也是制约大数据真正应用的关键.而机器学习是解决该问题的有效途径,本文综述抽象增强学习、可分解增强学习、分层增强学习、关系增强学习和贝叶斯增强学习等五类增强学习方法的研究进展,分析了它们的优势和缺点,指出将监督学习或半监督学习与增强学习相结合是大数据机器学习的有效方法. 关键词:大数据;增强学习;维数灾

中图分类号:TP18 文献标志码:B 文章编号:1672-0318(2014)03-0071-05

增强学习(Reinforcement Learning,简称RL)是一种有效的最优控制学习方法,实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化学习控制,是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向.增强学习因其具有较强的在线自适应性和对复杂系统的自学能力,使其在机器人导航、非线性控制、复杂问题求解等领域得到成功应用[1-4].经典增强学习算法按照是否基于模型分类,可分为基于模型(Model-based)和模型自由(Model-free)两类.基于模型的有TD学习、Q学习、SARSA和ACTOR-CRITIC等算法.模型自由的有DYNA-Q和优先扫除等算法.以上经典增强学习算法在理论上证明了算法的收敛性,然而,在实际的应用领域,特别是在大数据环境下,学习的参数个数很多,是一个典型的NP难问题,难以最优化探索和利用两者之间的平衡[5-8].因此,经典增强学习算法只在理论上有效.

为此,近年来的增强学习研究主要集中在减少学习参数数量、避免后验分布全采样和最小化探索次数等方面,达到算法快速收敛的目的,实现探索和利用两者之间的最优化平衡.当前现有算法按照类型可分为五类:1)抽象增强学习;2)可分解增强学习;3)分层增强学习;4)关系增强学习;5)贝叶斯增强学习.

1 抽象增强学习

抽象增强学习(Abstraction Reinforcement Learning,简称ARL)的核心思想是忽略掉状态向量中与当前决策不相关的特征,只考虑那些有关的或重要的因素,达到压缩状态空间的效果[9].该类算法可以在一定程度上缓解“维数灾”问题.状态抽象原理如图1所示.

目前,状态抽象方法有状态聚类、值函数逼近和自动状态抽象等方法.函数逼近方法难于确保增强学习算法能够收敛,采用线性拟合和神经网络等混合方法来实现函数逼近是当前的研究热点和方向.状态聚类利用智能体状态空间中存在的对称性来压缩状态空间,实现状态聚类.自动状态抽象增

深圳职业技术学院学报 2014年第3期 No.3, 2014

收稿日期:2013-10-14

*项目来源:广东省自然科学基金项目(S2011040004769)和深圳市科技研发资金项目(JCYJ20120617134831736)

作者简介:仵 博(1979-),男,河南桐柏人,副教授,博士,主要研究领域为序贯决策、机器学习和大数据.

冯延蓬(1980-),男,山东潍坊人,讲师,硕士,主要研究领域为无线传感器网络、智能决策和大数据.

孟宪军(1979-),男,北京大兴人,助理研究员,博士,主要研究领域为数据挖掘、自然语言处理和机器学习.

江建举(1976-),男,河南内乡人,高级工程师,硕士,主要研究机器人控制、群智能和大数据.

何国坤(1980-),男,广东深圳人,高级工程师,硕士,主要研究领域为软件工程、机器学习和大数据.

- 71 -

- 72 -

深圳职业技术学院学报 2014,13(3

)图1 状态抽象原理示意图

强学习方法利用U -树自动地由先验知识推理出状态抽象,是状态抽象增强学习研究的方向之一.以上算法都在一定程度上缓解了增强学习中大规模状态造成算法无法收敛的问题,但是存在以下缺点:1)增强学习的绩效依赖于状态抽象方法对状态空间的划分,如何合理划分子空间是状态抽象增强学习面临的难题.如果空间划分过粗,难以实现增强学习算法的快速收敛;而如果空间划分过细,则会丧失泛化能力.2)状态抽象方法与特定问题表示相关,缺少统一的理论框架,阻碍了状态抽象增强学习的广泛应用.

2 可分解增强学习

可分解增强学习(Factored Reinforcement Learning ,简称FRL )是一种对状态转移函数和报酬函数进行压缩表示的增强学习方法[10].该方法的核心思想是首先利用动态贝叶斯网络的条件独立特性和上下文独立特性将状态转移函数和报酬函数进行可分解描述,将离散的概率分布函数转化成决策树来表示,达到将大规模指数级的状态空间压缩到多项式级别的状态空间的目的,然后采用决策论回归方法对决策树进行学习,可分解原理如图2所示.

可分解增强学习的思想来源于Boutilier 等人在2000年发表在《Artificial Intelligence 》上的论文,该论文指出采用可分解表示方法可以将高维状态空间压缩为低维可求解空间,并详细介绍可分解的理论和方法,以及结构化动态规划(Structured Dynamic Programming ,简称SDP )算法,为可分解增强学习奠定了理论基础.更进一步,Guestrin 等人[11]提出结构化线性规划

X Y

Z

X

Y

Z

图2 可分解原理示意图

(Structured Linear Programming ,简称SLP )算法和可分解增强学习算法,实现了求解240~250规模的问题.

由于FRL 极大地降低求解问题的规模,提供学习算法收敛速度,成为近年来的研究热点.例如,Degris 等人提出的SDYNA 算法,Kroon 等人提出的KWIK 算法[12],Kozloval 等人提出的IMPSPITI 算法和TeXDYNA 算法[13],Hester 等人提出的RL-DT 算法[14],Szita 等人提出的FOIM 算法[15],Vigorito 等人针对状态和动作连续情况下提出的OISL 算法[16]0.

以上FRL 算法相同之处是首先采用监督学习方法建立状态转移函数和报酬函数的可分解表示,然后根据观察结果,采用不同的方法来更新状态转移函数模型和报酬函数模型.因此,如何建立应用对象的可分解泛化表示,减少学习的参数个数,提高在后验分布采样算法的性能是目前研究的难点.

3 分层增强学习

分层增强学习(Hierarchical Reinforcement Learning ,简称HRL )实质上也是一种任务分层方法,其核心思想是将一个大规模难于求解的问题分解成若干个较小规模易于求解的问题[10].该算法可以有效解决学习参数数量随状态变量维数成指数级增长这一“维数灾”问题[17].HRL 任务分层方法可分为手工分层和自动分层,手工分层方法是根据智能体先验知识采用手工方式来分解,自动任务分层方法是通过自动探索,自动发现和构造某种形式的层次结构.根据先验知识,采用自动任务分层方法是目前HRL 领域的研究热点.HRL 原理如图3所示.

相关文档
最新文档