基于核方法的连续动作Actor-Critic学习-

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

[14]
2 强化学习与 Actor-Critic 方法
过自主性地探索环境㊁感知环境㊁采用动作影响环境并从环境中获得奖赏, 最终在这个交互过程中不断学习得到最优策略 [1] ,具体框架见图 1. 强化学习以最大化长期的奖赏总和为目标, 通
函数,并采用噪声机制搜索连续动作空间. 1999 年, ted Neural Network Q-Learning) , 该算法的优点是可快速找到最大的 Q 值及最大的动作, 缺点是线的个数及位置需预先设定. 2000 年,Doya [15] 提出一种基于 Hamilton-Jacobi-Bellman 等式的连续 Actor-Critic ( Continuous Actor-Critic Learning Automaton, CACLA) ,该方法也采用奖赏不作为方式. 2008 年,Melo 等

( Continuous Action Reinforcement Learning Automata, 年,Gross 等 [12] 采用递归神经网络对连续动作进行编码和动作选择,并使用分布式 Q 学习进行参数更新. 同年,Lee 等 [13] 采用 BP 神经网络来学习动作值 Gaskett 等
[18]
提出线拟合神经网络 Q 学习( Wire-Fit-
方法来处理连续时间和空间的强化学习问题. 同年, Hasselt 等 [16-17] 提出连续 Actor-Critic 学习自动机提出适应性自然 Actor-Critic 算法 ( Fitted
Fig. 1 Reinforcement learning framework 图 1 强化学习框架
Monte Carlo, SMC) 学习算法. 2009 年,Pazis 等 [20] 提出动作折半查找法 ( Binary Action Search) 来学习连续动作控制问题. 2011 年,Xu 等 [21] 提出连续动作近似策略迭代 ( Continuous-Action Approximate Policy 数进行稀疏化. Iteration, CAPI) 算法, 该算法采用基于核函数近似线性关系 ( Approximate Linear Dependence) 对基函作强化学习的一个有效手段, 其优点在于 ActorCritic 方法能处理好上述要素 2 ) ~ 5 ) . 众所周知, Actor-Critic 方法的另一个核心是 Critic,Critic 针对状态值估计的好坏将直接影响 Actor 的策略更新. 在值函数估计中,因为表达定理,基于核方法的值函数具有较强的表达能力. 2013 年,Chen 等 [22] 提出基于核方法的在线选择时间差分学习( Online Selective Kernel-Based Temporal Difference Learning, OSKTD) . OSKTD 的每次更新复杂度低, 适合在线学习, 并且 OSKTD 中基于核函数的选择值函数具有局部有效性,能大幅度提高值函数的准确性. 因此, 本文结合 Actor-Critic 方法的优点, 及核方法的优势, 提出基于核方法的连续动作 Actor-Critic 学习算法 ( Kernel-Based Continuous-Action Actor-Critic Learning, KCACL) ,并解决上述连续动作强化学习的 5 个要点. 在 KCACL 中,Actor 根据奖赏不作为原则更新动作执行的概率,Critic 根据 OSKTD 更新状态值函数. 实验结果验证 KCACK 在求解连续动作空间强化学习问题上的有效性. 从上述文献可看出,Actor-Critic 方法是连续动
104
模式识别与人工智能
27 卷
1 引言
Agent通过自主地探索环境㊁感知环境㊁采用动作影响环境并从环境中获得奖赏, 最终在这个交互过程中不断学习得到最优策略 [1-2] . 近年来,为克服连续或大规模空间引起的维强化学习以最大化长期的奖赏总和为目标,
*国家自然科学基金项目( No. 61035003,61175042,60721002) ㊁国家 973 计划项目 ( No. 2009CB320702) ㊁江苏省自然科学基金项目( No. BK2011005) 资助收稿日期:2013-05-13 作者简介陈兴国,男,1984 年生,博士研究生, 主要研究方向为强化学习. E-mail:chenxgspring@ gmail. com. 高阳 ( 通讯作者) ,男,1972 年生,教授,博士生导师,主要研究方向为数据挖掘㊁机器学习. E-mail: gaoy@ nju. edu. cn. 范顺国, 男,1989 年生,硕士研究生,主要研究方向为强化学习㊁迁移学习. 俞亚君,男,1990 年生,硕士研究生,主要研究方向为强化学习.
度灾难” 问题,近似强化学习方法得到广泛研究, 如值函数估计( Value Function Approximation) [3] ㊁策略搜索( Policy Search) [4] ㊁Actor-Critic 方法 ( Actor-Critic Approaches) [5] ㊁分层强化学习 ( Hierarchical Reinforcement Learning) [6] 和迁移学习 ( Transfer Learn的研究则相对较少. ing) [7-8] 等. 然而,目前大量工作仍集中于连续状态空间的强化学习问题研究, 对于连续动作空间问题以下 5 个要素:1) 处理连续状态空间的能力 ( 连续动作空间与连续状态空间通常密不可分 ) ;2) 定义在连续动作空间上的策略;3) 在给定状态下, 根据值函数或显式策略, 能快速确定最优动作;4) 平衡探索与利用的同时, 快速选择动作, 执行动作;5) 泛化能力,即根据反馈调整该动作的概率时,还能调整相关动作的选择概率. 年,Howell 等 [9-11] 提出连续动作强化学习自动机 CARLA) ,该算法采用奖赏不作为 ( Reward-Inaction) 方式,并使用概率密度函数来决策动作集合. 1998 连续动作强化学习的相关工作如下所述. 1997 本文总结连续动作空间问题的强化学习需考虑
第 27 卷第 2 期模式识别与人工智能 Vol. 27 No. 2 2014 年 2 月 PR & AI Feb. 2014
ABSTRACT
In reinforcement learning, the learning algorithms frequently have to deal with both continuous state
and continuous action spaces to control accurately. In this paper, the great capacity of kernel method for handling continuous state space problems and the advantage of actor-critic method in dealing with continuous action space problems are combined. Kernel-based continuous-action actor-critic learning probability based on reward-inaction, and the critic updates the state value function according to online selective kernel-based temporal difference( OSKTD) learning. The experimental results demonstrate the effectiveness of the proposed algorithm. Method Key Words Reinforcement Learning, Continuous Action Space, Function Approximation, Kernel ( KCACL ) is proposed grounded on the combination. In KCACL, the actor updates each action
必须了解和评价 Actor 当前采用的策略. 评价采用 TD 误差的方式. 这个标量信号是 Critic 的唯一输出并推动 Actor-Critic 的所有学习,如图 2 所示.
学习过程始终是在策略 ( On-policy) 的:Critic
Natural Actor-Critic, FNAC) . 同年,Bonarini 等 [19] 提出基于 Actor-Critic 的序列蒙特卡洛 ( Sequential
2. 1 Markov 决策过程与值函数
一般而言, 强化学习所能解决的问题需满足
基于核方法的连续动作 Actor-Critic 学习 *
陈兴国高阳范顺国俞亚君
( 南京大学计算机软件新技术国家重点实验室南京 210093) ( 南京大学计算机科学与技术系南京 210093)
Kernel-Based Continuous-Action Actor-Critic Learning
( State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093) ( Department of Computer Science and Technology, Nanjing University, Nanjing 210093) CHEN Xing-Guo, GAO Yang, FAN Shun-Guo, YU Ya-Jun
2期
陈兴国等:基于核方法的连续动作 Actor-Critic 学习
105
Markov 属性,即强化学习问题可使用 Markov 决策过程( Markov Decision Processes, MDP) 来建模. 组成,其中,S 表示状态空间,A 表示动作空间, 是状态转移函数, 是奖赏函数. T ∶ S × A × S → [0,1] R∶ S ×A→R Markov 决策过程由一个四元组 < S,A,T,R >
摘要强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制. 就此文中结合 Actor-Critic 方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作 Actor-Critic 学习算法( KCACL) . 该算法中,Actor 根据奖赏不作为原则更新动作概率,Critic 采用基于核方法的在线选择时间差分算法学习状态值函数. 对比实验验证该算法的有效性. 中图法分类号 TP 181 关键词强化学习, 连续动作空间, 函数估计, 核方法