基于高斯过程分类器的连续空间强化学习

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于高斯过程分类器的连续空间强化学习
王雪松;张依阳;程玉虎
【期刊名称】《电子学报》
【年(卷),期】2009(037)006
【摘要】如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态一离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题.
【总页数】6页(P1153-1158)
【作者】王雪松;张依阳;程玉虎
【作者单位】中国矿业大学信息与电气工程学院,江苏徐州221116;中国科学院自动化研究所,北京100190;中国矿业大学信息与电气工程学院,江苏徐州221116;中国矿业大学信息与电气工程学院,江苏徐州221116
【正文语种】中文
【中图分类】TP18
【相关文献】
1.空间约束半监督高斯过程下的高光谱图像分类 [J], 姚伏天;钱沄涛;李吉明
2.基于高斯过程分类器的变压器故障诊断 [J], 尹金良;朱永利;俞国勤;邵宇鹰;关宏
3.基于高斯过程回归和强化学习的云资源调度算法 [J], 李棕;崔得龙
4.基于高斯过程的多分类器 [J], 黄维;童莹;曹雪虹
5.用于高光谱遥感图像分类的空间约束高斯过程方法 [J], 姚伏天;钱沄涛
因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档