基于核方法的连续动作Actor-Critic学习-
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[14]
2 强化学习与 Actor-Critic 方法
过自主性地探索环境㊁感知环境㊁采用动作影响环境 并从环境中获得奖赏, 最终在这个交互过程中不断 学习得到最优策略 [1] ,具体框架见图 1. 强化学习以最大化长期的奖赏总和为目标, 通
函数,并采用噪声机制搜索连续动作空间. 1999 年, ted Neural Network Q-Learning) , 该算法的优点是可 快速找到最大的 Q 值及最大的动作, 缺点是线的个 数及位置需预先设定. 2000 年,Doya [15] 提出一种基 于 Hamilton-Jacobi-Bellman 等 式 的 连 续 Actor-Critic ( Continuous Actor-Critic Learning Automaton, CACLA) ,该方法也采用奖赏不作为方式. 2008 年,Melo 等
( Continuous Action Reinforcement Learning Automata, 年,Gross 等 [12] 采用递归神经网络对连续动作进行 编码和动作选择,并使用分布式 Q 学习进行参数更 新. 同年,Lee 等 [13] 采用 BP 神经网络来学习动作值 Gaskett 等
[18]
提出线拟合神经网络 Q 学习( Wire-Fit-
方法来处理连续时间和空间的强化学习问题. 同年, Hasselt 等 [16-17] 提 出 连 续 Actor-Critic 学 习 自 动 机 提 出 适 应 性 自 然 Actor-Critic 算 法 ( Fitted
Fig. 1 Reinforcement learning framework 图 1 强化学习框架
Monte Carlo, SMC) 学习算法. 2009 年,Pazis 等 [20] 提 出动作折半查找法 ( Binary Action Search) 来学习连 续动作控制问题. 2011 年,Xu 等 [21] 提出连续动作近 似策 略 迭 代 ( Continuous-Action Approximate Policy 数进行稀疏化. Iteration, CAPI) 算法, 该算法采用基于核函数近似 线性关 系 ( Approximate Linear Dependence) 对 基 函 作强 化 学 习 的 一 个 有 效 手 段, 其 优 点 在 于 ActorCritic 方法能处理好上述要素 2 ) ~ 5 ) . 众所周知, Actor-Critic 方法的另一个核心是 Critic,Critic 针对 状态值估计的好坏将直接影响 Actor 的策略更新. 在值函数估计中,因为表达定理,基于核方法的值函 数具有较强的表达能力. 2013 年,Chen 等 [22] 提出基 于核方法的在线选择时间差分学习( Online Selective Kernel-Based Temporal Difference Learning, OSKTD) . OSKTD 的每次更新复杂度低, 适合在线学习, 并且 OSKTD 中基于核函数的选择值函数具有局部 有效性,能大幅度提高值函数的准确性. 因此, 本文 结合 Actor-Critic 方法的优点, 及核方法的优势, 提 出基 于 核 方 法 的 连 续 动 作 Actor-Critic 学 习 算 法 ( Kernel-Based Continuous-Action Actor-Critic Learning, KCACL) ,并解决上述连续动作强化学习的 5 个要点. 在 KCACL 中,Actor 根据奖赏不作为原则更 新动作执行的概率,Critic 根据 OSKTD 更新状态值 函数. 实验结果验证 KCACK 在求解连续动作空间 强化学习问题上的有效性. 从上述文献可看出,Actor-Critic 方法是连续动
104
模式识别与人工智能
27 卷
1 引 言
Agent通过自主地探索环境㊁ 感知环境㊁ 采用动作影 响环境并从环境中获得奖赏, 最终在这个交互过程 中不断学习得到最优策略 [1-2] . 近年来,为克服连续或大规模空间引起的 维 强化学 习 以 最 大 化 长 期 的 奖 赏 总 和 为 目 标,
*国家自然科学基金项目( No. 61035003,61175042,60721002) ㊁国家 973 计划项目 ( No. 2009CB320702) ㊁江苏省自然科学基金 项目( No. BK2011005) 资助 收稿日期:2013-05-13 作者简介 陈兴国,男,1984 年生,博士研究生, 主要研究方向为强化学习. E-mail:chenxgspring@ gmail. com. 高阳 ( 通讯作 者) ,男,1972 年生,教授,博士生导师,主要研究方向为数据挖掘㊁机器学习. E-mail: gaoy@ nju. edu. cn. 范顺国, 男,1989 年 生,硕士研究生,主要研究方向为强化学习㊁迁移学习. 俞亚君,男,1990 年生,硕士研究生,主要研究方向为强化学习.
度灾难” 问题,近似强化学习方法得到广泛研究, 如 值函数估计( Value Function Approximation) [3] ㊁策略 搜索( Policy Search) [4] ㊁Actor-Critic 方法 ( Actor-Critic Approaches) [5] ㊁分层强化学习 ( Hierarchical Reinforcement Learning) [6] 和 迁 移 学 习 ( Transfer Learn的研究则相对较少. ing) [7-8] 等. 然而,目前大量工作仍集中于连续状态 空间的强化学习问题研究, 对于连续动作空间问题 以下 5 个要素:1) 处理连续状态空间的能力 ( 连续 动作空间与连续状态空间通常密不可分 ) ;2) 定义 在连续动作空间上的策略;3) 在给定状态下, 根据 值函数或显式策略, 能快速确定最优动作;4) 平衡 探索与利用的同时, 快速选择动作, 执行动作;5) 泛 化能力,即根据反馈调整该动作的概率时,还能调整 相关动作的选择概率. 年,Howell 等 [9-11] 提 出 连 续 动 作 强 化 学 习 自 动 机 CARLA) ,该算法采用奖赏不作为 ( Reward-Inaction) 方式,并使用概率密度函数来决策动作集合. 1998 连续动作强化学习的相关工作如下所述. 1997 本文总结连续动作空间问题的强化学习需考虑
第 27 卷 第 2 期 模式识别与人工智能 Vol. 27 No. 2 2014 年 2 月 PR & AI Feb. 2014
ABSTRACT
In reinforcement learning, the learning algorithms frequently have to deal with both continuous state
and continuous action spaces to control accurately. In this paper, the great capacity of kernel method for handling continuous state space problems and the advantage of actor-critic method in dealing with continuous action space problems are combined. Kernel-based continuous-action actor-critic learning probability based on reward-inaction, and the critic updates the state value function according to online selective kernel-based temporal difference( OSKTD) learning. The experimental results demonstrate the effectiveness of the proposed algorithm. Method Key Words Reinforcement Learning, Continuous Action Space, Function Approximation, Kernel ( KCACL ) is proposed grounded on the combination. In KCACL, the actor updates each action
必须了解和评价 Actor 当前采用的策略. 评价采用 TD 误差的方式. 这个标量信号是 Critic 的唯一输出 并推动 Actor-Critic 的所有学习,如图 2 所示.
学习过程始终是在策略 ( On-policy) 的:Critic
Natural Actor-Critic, FNAC) . 同年,Bonarini 等 [19] 提 出基 于 Actor-Critic 的 序 列 蒙 特 卡 洛 ( Sequential
2. 1 Markov 决策过程与值函数
一般而 言, 强 化 学 习 所 能 解 决 的 问 题 需 满 足
基于核方法的连续动作 Actor-Critic 学习 *
陈兴国 高 阳 范顺国 俞亚君
( 南京大学 计算机软件新技术国家重点实验室 南京 210093) ( 南京大学 计算机科学与技术系 南京 210093)
Kernel-Based Continuous-Action Actor-Critic Learning
( State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093) ( Department of Computer Science and Technology, Nanjing University, Nanjing 210093) CHEN Xing-Guo, GAO Yang, FAN Shun-Guo, YU Ya-Jun
2期
陈兴国 等:基于核方法的连续动作 Actor-Critic 学习
105
Markov 属性,即强化学习问题可使用 Markov 决策过 程( Markov Decision Processes, MDP) 来建模. 组成,其中,S 表示状态空间,A 表示动作空间, 是状态转移函数, 是奖赏函数. T ∶ S × A × S → [0,1] R∶ S ×A→R Markov 决策过程由一个四元组 < S,A,T,R >
摘 要 强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制. 就此文中结合 Actor-Critic 方法 在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作 Actor-Critic 学 习算法( KCACL) . 该算法中,Actor 根据奖赏不作为原则更新动作概率,Critic 采用基于核方法的在线选择时间差分 算法学习状态值函数. 对比实验验证该算法的有效性. 中图法分类号 TP 181 关键词 强化学习, 连续动作空间, 函数估计, 核方法
2 强化学习与 Actor-Critic 方法
过自主性地探索环境㊁感知环境㊁采用动作影响环境 并从环境中获得奖赏, 最终在这个交互过程中不断 学习得到最优策略 [1] ,具体框架见图 1. 强化学习以最大化长期的奖赏总和为目标, 通
函数,并采用噪声机制搜索连续动作空间. 1999 年, ted Neural Network Q-Learning) , 该算法的优点是可 快速找到最大的 Q 值及最大的动作, 缺点是线的个 数及位置需预先设定. 2000 年,Doya [15] 提出一种基 于 Hamilton-Jacobi-Bellman 等 式 的 连 续 Actor-Critic ( Continuous Actor-Critic Learning Automaton, CACLA) ,该方法也采用奖赏不作为方式. 2008 年,Melo 等
( Continuous Action Reinforcement Learning Automata, 年,Gross 等 [12] 采用递归神经网络对连续动作进行 编码和动作选择,并使用分布式 Q 学习进行参数更 新. 同年,Lee 等 [13] 采用 BP 神经网络来学习动作值 Gaskett 等
[18]
提出线拟合神经网络 Q 学习( Wire-Fit-
方法来处理连续时间和空间的强化学习问题. 同年, Hasselt 等 [16-17] 提 出 连 续 Actor-Critic 学 习 自 动 机 提 出 适 应 性 自 然 Actor-Critic 算 法 ( Fitted
Fig. 1 Reinforcement learning framework 图 1 强化学习框架
Monte Carlo, SMC) 学习算法. 2009 年,Pazis 等 [20] 提 出动作折半查找法 ( Binary Action Search) 来学习连 续动作控制问题. 2011 年,Xu 等 [21] 提出连续动作近 似策 略 迭 代 ( Continuous-Action Approximate Policy 数进行稀疏化. Iteration, CAPI) 算法, 该算法采用基于核函数近似 线性关 系 ( Approximate Linear Dependence) 对 基 函 作强 化 学 习 的 一 个 有 效 手 段, 其 优 点 在 于 ActorCritic 方法能处理好上述要素 2 ) ~ 5 ) . 众所周知, Actor-Critic 方法的另一个核心是 Critic,Critic 针对 状态值估计的好坏将直接影响 Actor 的策略更新. 在值函数估计中,因为表达定理,基于核方法的值函 数具有较强的表达能力. 2013 年,Chen 等 [22] 提出基 于核方法的在线选择时间差分学习( Online Selective Kernel-Based Temporal Difference Learning, OSKTD) . OSKTD 的每次更新复杂度低, 适合在线学习, 并且 OSKTD 中基于核函数的选择值函数具有局部 有效性,能大幅度提高值函数的准确性. 因此, 本文 结合 Actor-Critic 方法的优点, 及核方法的优势, 提 出基 于 核 方 法 的 连 续 动 作 Actor-Critic 学 习 算 法 ( Kernel-Based Continuous-Action Actor-Critic Learning, KCACL) ,并解决上述连续动作强化学习的 5 个要点. 在 KCACL 中,Actor 根据奖赏不作为原则更 新动作执行的概率,Critic 根据 OSKTD 更新状态值 函数. 实验结果验证 KCACK 在求解连续动作空间 强化学习问题上的有效性. 从上述文献可看出,Actor-Critic 方法是连续动
104
模式识别与人工智能
27 卷
1 引 言
Agent通过自主地探索环境㊁ 感知环境㊁ 采用动作影 响环境并从环境中获得奖赏, 最终在这个交互过程 中不断学习得到最优策略 [1-2] . 近年来,为克服连续或大规模空间引起的 维 强化学 习 以 最 大 化 长 期 的 奖 赏 总 和 为 目 标,
*国家自然科学基金项目( No. 61035003,61175042,60721002) ㊁国家 973 计划项目 ( No. 2009CB320702) ㊁江苏省自然科学基金 项目( No. BK2011005) 资助 收稿日期:2013-05-13 作者简介 陈兴国,男,1984 年生,博士研究生, 主要研究方向为强化学习. E-mail:chenxgspring@ gmail. com. 高阳 ( 通讯作 者) ,男,1972 年生,教授,博士生导师,主要研究方向为数据挖掘㊁机器学习. E-mail: gaoy@ nju. edu. cn. 范顺国, 男,1989 年 生,硕士研究生,主要研究方向为强化学习㊁迁移学习. 俞亚君,男,1990 年生,硕士研究生,主要研究方向为强化学习.
度灾难” 问题,近似强化学习方法得到广泛研究, 如 值函数估计( Value Function Approximation) [3] ㊁策略 搜索( Policy Search) [4] ㊁Actor-Critic 方法 ( Actor-Critic Approaches) [5] ㊁分层强化学习 ( Hierarchical Reinforcement Learning) [6] 和 迁 移 学 习 ( Transfer Learn的研究则相对较少. ing) [7-8] 等. 然而,目前大量工作仍集中于连续状态 空间的强化学习问题研究, 对于连续动作空间问题 以下 5 个要素:1) 处理连续状态空间的能力 ( 连续 动作空间与连续状态空间通常密不可分 ) ;2) 定义 在连续动作空间上的策略;3) 在给定状态下, 根据 值函数或显式策略, 能快速确定最优动作;4) 平衡 探索与利用的同时, 快速选择动作, 执行动作;5) 泛 化能力,即根据反馈调整该动作的概率时,还能调整 相关动作的选择概率. 年,Howell 等 [9-11] 提 出 连 续 动 作 强 化 学 习 自 动 机 CARLA) ,该算法采用奖赏不作为 ( Reward-Inaction) 方式,并使用概率密度函数来决策动作集合. 1998 连续动作强化学习的相关工作如下所述. 1997 本文总结连续动作空间问题的强化学习需考虑
第 27 卷 第 2 期 模式识别与人工智能 Vol. 27 No. 2 2014 年 2 月 PR & AI Feb. 2014
ABSTRACT
In reinforcement learning, the learning algorithms frequently have to deal with both continuous state
and continuous action spaces to control accurately. In this paper, the great capacity of kernel method for handling continuous state space problems and the advantage of actor-critic method in dealing with continuous action space problems are combined. Kernel-based continuous-action actor-critic learning probability based on reward-inaction, and the critic updates the state value function according to online selective kernel-based temporal difference( OSKTD) learning. The experimental results demonstrate the effectiveness of the proposed algorithm. Method Key Words Reinforcement Learning, Continuous Action Space, Function Approximation, Kernel ( KCACL ) is proposed grounded on the combination. In KCACL, the actor updates each action
必须了解和评价 Actor 当前采用的策略. 评价采用 TD 误差的方式. 这个标量信号是 Critic 的唯一输出 并推动 Actor-Critic 的所有学习,如图 2 所示.
学习过程始终是在策略 ( On-policy) 的:Critic
Natural Actor-Critic, FNAC) . 同年,Bonarini 等 [19] 提 出基 于 Actor-Critic 的 序 列 蒙 特 卡 洛 ( Sequential
2. 1 Markov 决策过程与值函数
一般而 言, 强 化 学 习 所 能 解 决 的 问 题 需 满 足
基于核方法的连续动作 Actor-Critic 学习 *
陈兴国 高 阳 范顺国 俞亚君
( 南京大学 计算机软件新技术国家重点实验室 南京 210093) ( 南京大学 计算机科学与技术系 南京 210093)
Kernel-Based Continuous-Action Actor-Critic Learning
( State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210093) ( Department of Computer Science and Technology, Nanjing University, Nanjing 210093) CHEN Xing-Guo, GAO Yang, FAN Shun-Guo, YU Ya-Jun
2期
陈兴国 等:基于核方法的连续动作 Actor-Critic 学习
105
Markov 属性,即强化学习问题可使用 Markov 决策过 程( Markov Decision Processes, MDP) 来建模. 组成,其中,S 表示状态空间,A 表示动作空间, 是状态转移函数, 是奖赏函数. T ∶ S × A × S → [0,1] R∶ S ×A→R Markov 决策过程由一个四元组 < S,A,T,R >
摘 要 强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制. 就此文中结合 Actor-Critic 方法 在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作 Actor-Critic 学 习算法( KCACL) . 该算法中,Actor 根据奖赏不作为原则更新动作概率,Critic 采用基于核方法的在线选择时间差分 算法学习状态值函数. 对比实验验证该算法的有效性. 中图法分类号 TP 181 关键词 强化学习, 连续动作空间, 函数估计, 核方法