1强化学习介绍概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

相关定义
• agent的目标导向
• 与许多其他学习方法相比,其他方法只考 虑了子任务,而没有解决怎样可以把这些 子任务整合到一个更大的框架中。
• 而强化学习是以最终目标为导向的,可以 把不同的子任务整合到一个大框架中。
强化学习的基本要素
• 策略 • 奖赏函数 • 值函数 • 环境模型
强化学习的基本要素
动物(学习者)必须尝试各种动作,并且渐渐趋近于那些表 现最好的动作来自百度文库以达到目标。
相关定义
• 为便于研究,定义几个概念 agent(学习的主体,如小猫、小狗、人、机器人、控制 程序等)
agent特点 1、能感知环境的状态 2、选择动作(可能会影响环境的状态) 3、有一个目标(与环境状态有关的)
agent以目标为导向,与不确定的环境之间进行交互, 在交互过程中强化好的动作,获得经验。
• 它根据以前找到充电器的快慢和难易程度 来作决定。这是以前与环境交互得到的经 验
强化学习关键特征
• 强化学习明确整个问题时一个以目标为导 向的agent与不确定环境交互问题
例子
• 五子棋:棋手通过数学公式计算,发现位 置1比位置2价值大,这是强化学习吗? • 这不叫强化学习,叫规划 • 如果通过几次尝试,走位置1比走位置2赢 棋的可能大,得出经验,则为强化学习
强化学习介绍
• 监督学习是从样例中学习,样例是由富有 知识的外部监督者提供的。这是一种重要 的学习方法,但是它不能单独地用于交互 学习。
• 强化学习没有外部指导者,是在交互中, 从自身经验中学习。
强化学习挑战
• 学习者必须尝试各种动作,并且渐渐趋近于那些表现最好 的动作,以达到目标。
• 尝试各种动作即为试错,也称为探索 • 趋近于好的动作即为强化,也称为利用
例子
• 小牛羚在出生后几分钟内挣扎着站起来。 半小时后,每小时能跑几十公里
例子
• 一个进行石油提炼操作的搅拌控制器。 • 该控制器逐步优化产量/成本/质量之间的平衡 • 而不是严格按照工程师的最初设置来搅拌。
例子
• 走到电梯门口,发现等电梯的人很多 • 选择:1等电梯;2走下去 • 根据经验来选择,是强化学习
探索与利用之间的平衡,是强化学习的一个挑战。
探索多了,有可能找到差的动作,探索少了,有可能 错过好的动作。总体趋势:探索变少,利用变多
监督学习中根本就不存在探索和利用的平衡问题,样例学 习阶段之后,就只有利用了。
例子
• 一个机器人决定:1、进入一个新房间去寻 找更多垃圾,2、寻找一条回去充电的路。
• 策略定义了agent在给定时间内的行为方式, 一个策略就是从环境感知的状态到在这些 状态中可采用动作的一个映射。
• 可能是一个查找表,也可能是一个函数
强化学习的基本要素
• 奖赏函数是强化学习问题中的目标,它把 环境中感知到的状态映射为单独的一个奖 赏
• 奖赏函数可以是改变策略的基础。
强化学习的基本要素
强化学习介绍
简介
• 一种能够让机器解决科学或经济方面学习 问题的设计方案,并通过数学分析或计算 实验来评估的方法称为强化学习。
• 从交互中进行,以目标为导向。
强化学习介绍
• 学习者不被告知采取哪个动作,而是通过 尝试来发现获得最大奖赏的动作。
• agent必须尝试各种动作,并且渐渐趋近于 那些表现最好的动作,以达到目标。
• 三条路线整合起来形成现代强化学习。
例子
• 家长一直采用严厉的方法对待子女,从不 尝试平和的方式对待子女。
• 或许错过了采取更好动作的机会(如平和 的教育方式) 。
例子
这些例子中,随时间推移, 学习者利用它获得的经验不 断提高自己的性能。
简言之,强化学习就是试出来的经验。
自主学习
分析一下动物自主学习的特点:
1、试错:尝试不同的做法(动作) 2、强化:有好处多做,没有好处少做 3、目标:是动物努力的方向,目标导向
强化学习关键特征
• 学习时与环境交互(本例中与对手交互) • 有一个清晰的目标
强化学习历史
• 主要有两条线路
• 一条线路关注试错学习,以动物心理学为 起点。(贯穿人工智能早期)
• 另一条线路关注最优控制问题以及使用值 函数和动态规划的解决方案。
强化学习历史
• 最优控制描述的问题是如何设计一个控制 器来随时间而最小化动态系统的行为计量
• 值函数:一个状态的值一个agent从那个状 态开始到将来预期的累积的奖赏和。
• 在决策和评价决策中考虑最多的是值。
强化学习的基本要素
• 环境模型模拟了环境的行为,即给定一个 状态和动作,模型可以预测必定导致下一 个状态和下一个奖赏。模型一般用于规划。
• 规划是算出来的,强化学习是试出来的。
• 将模型和规划结合到强化学习是一个新进 展,也是我们学习研究的重要内容。
强化学习介绍
• 本书中所有强化学习方法围绕估计值来组 织,但这不是解决强化学习问题所必须的。
• 直接在策略空间中搜索而不利用值函数的 方法称为进化方法。
• 适合用在策略空间比较小或者策略空间被 构造地很好地情况下。
例子:Tic-Tac-Toe
初始
1→0.5 2→0.5 3→0.5 4→0.5
。 。 。 39 →0.5
• 一个解决这个问题的方法是使用动态系统 中状态和值函数的概念来定义一个函数方 程,即贝尔曼方程。
• 用贝尔曼方程来解决最优控制问题的就是 动态规划。
强化学习历史
• 另一条路以试错学习为中心。
• 改变动作选择的趋向是根据动作结果好坏 来决定的。
强化学习历史
• 围绕以上两条路产生了第三条路,即时间 差分方法。
当前
1→0.5 2→0.5 3→0.5 S 4→0.5
。。。
100→1 S’ 。。。 39 →0.5
V (s) V (s) [V (s ') V (s)]
不断对弈,不断更新估计
例子:Tic-Tac-Toe
更新贪心走棋之前的状态s:
V (s) V (s) [V(s) V(s)]
例子:Tic-Tac-Toe
相关文档
最新文档