Python机器学习与深度学习强化学习-课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习/人工智能强化学习Reinforcement Learning
01
我们为什么要研究强化学习?
当我们讨论人工智能的时候
2016年,AlphaGo通过学习历史棋谱,以4:1的成绩大战围棋冠军李世石。

2017年,AlphaGo Zero无师自通,仅通过自我博弈学习,以100:0的不败战绩绝杀“前辈”
AlphaGo。

著名的围棋人机大战,重新掀起一波人工智能热。

Alphago 原理=深度+强化(自我对弈学习+蒙特卡罗树搜索)
通过学习神经网络来完成高维数据的低维表示,解决的是感知
的问题应用:图像识别,语音识别,推荐系统,自然语言处理感知vs决策
深度学习机器认知
强化学习机器感知•真正的智能生活,需要机器认知,即机器真正理解人。

•人工智能的目标是赋予机器像人一样思考并反应的智慧。

•而强化学习是解决机器认知的一个重要技术。

•掌握了强化学习的基本方法和基本原理便掌握了创造未来的基本工具。

解决“做什么”—如何将情境映射到行动,从而最大化数字奖
励信号的方法。

应用:路径规划,直升机飞行控制,博弈游戏
强化学习是什么?
l强化学习方法起源于动物心理学的相关原理,模仿人类和动物学习的试错机制。

l是一种通过与环境交互,学习最优的状态到行动的映射关系(即在某个状态下,采取所有行为的概率分布),以获得最大累积期望回报的学习方法
强化学习 vs 其他机器学习
•(1)没有监督者,只有量化奖励信号;
•(2)反馈延迟,只有进行到最后才知道当下的动作是好还是坏。

•(3)强化学习属于顺序决策,根据时间一步步决策行动,训练数据不符合独立同分布条件;•(4)每一步行动影响下一步状态,以及奖励
强化学习框架:智能体-环境
l智能体:强化学习系统
l环境:与智能体交互的外部
s
s
智能体-环境s
s 奖励轨迹
状态
智能体-环境:网格世界例子
智能体三个组成
智能体三个组成-模型
•个体对环境的一个建模,它体现了个体是如何思考环境运行机制的,个体希望模型能模拟环境与个体的交互机制。

•p:表征环境的动态特性,用以预测状态s上,采取行为a后,下个状态概率分布。

•r:表征状态s上,采取行为a后得到的奖励
智能体三个组成-值函数
l是一个未来奖励的预测,用来评价当前状态的好坏程度。

l个体可以用一个Value值来评估两个不同的状态,继而指导选择
不同的行为,即制定不同的策略。

l一个价值函数是基于某一个特定策略的,不同的策略下同一状
态的价值并不相同。

l值函数是从此刻开始所有回报的加权和,权重为折算因子的n次
方,向前看多少步,取决于折算因子的大小,当n无限大,权重
会小到忽略不计
智能体三个组成-策略
l策略是决定个体行为的机制。

l是从状态到行为的一个映射。

l可以是确定性的,也可以是不确定性的。

如何解决强化学习问题?
l建立强化学习的数学模型,表示s/a/r/p—构建马尔可夫决策模型。

l求取每个状态s的值函数v(s)或策略函数pi—评估
求解马尔可夫决策过程l采取最优策略pi—控制
Ø解决强化模型的问题转化为求解马尔可夫决策模型的问题
Ø任何一个求解马尔可夫决策模型的方法都叫做强化学习方法
强化学习方法分类
•两种分类方式:
•(1)解决强化学习问题时,是建立对状态
的价值的估计来解决问题,还是直接建立
对策略的估计来解决问题,分为三类。

•(2)个体在解决强化学习问题时是否需建
立环境模型,分为两类。

重要概念-学习与规划(Learning & Planning)
l学习:环境初始时是未知的,个体不知道环境如何工作,个体通过与环境进行交互,逐渐改善其行为策略。

l规划: 环境如何工作对于个体是已知或近似已知的,个体并不与环境发生实际的交互,而是利用其构建的模型进行计算,在此基础上改善其行为策略。

l常用的强化学习问题解决思路:先学习环境如何工作,了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。

学习 规划
重要概念-学习与规划:示例
重要概念-探索和利用(Exploration & Exploitation)
l探索:探索:挖掘更多的关于环境的信息
l利用:根据已知信息,最大化奖励
•重要概念-预测和控制 (Prediction & Control)
l预测:根据已知信息,评估未来奖励。

即处于每个状态下能够获得的奖励是多少。

l控制:将奖励最大化,不仅是计算出最优的值函数,而且要给出最优的策略。

提出问题
基础求解方法联合求解方法
强化学习概述第一章
马尔科夫决策过程第二章动态规划第三章
蒙特卡罗第四章
时间差分第五章值函数逼近第七章策略函数逼近第八章 第九章集成学习与规划目录
马尔科夫决策过程
02
构建强化学习的模型—马尔可夫决策模型,将解决强
化学习问题转化为一个求解马尔可夫决策模型的最优解
马尔可夫性( Markov Property )
l某一状态信息包含了所有相关的历史,
l只要当前状态可知,所有的历史信息都不再需要,
l当前状态就可以决定未来,则认为该状态具有马尔科夫性。

l几乎所有的强化学习问题都可以转化为MDP。

马尔可夫过程( Markov Process)
马尔可夫过程( Markov Process)示例
MDP示例
MDP-策略
l一个策略完整定义了个体的行为方式,也就是说定义了个体在各个状态下的各种可能的行为方式以及其概率的大小。

MDP-值函数
l收获:在一个马尔科夫奖励链上从t时刻开始往后所有的奖励的有衰减的总和。

其中衰减系数体现了未来的奖励在当前时刻的价值比例。

l状态值函数:给定状态s下,遵循策略π ,获得的期望回报;
l行为值函数:给定状态s下,采取动作a,遵循策略π ,获得的期望回报
MDP-值函数示例
MDP-贝尔曼期望方程
l S-a 求v l a-s‘ 求取q
l s-a-s’ 求取v l a-s’-a 求取q2
MDP-最优策略
p什么是最优策略?
l当对于任何状态 s,遵循策略π的价值不小于遵循
策略 π' 下的价值,则策略π优于策略 π’
l定理 对于任何MDP:
l 1.存在一个最优策略;
l 2.所有的最优策略有相同的最优价值函数;
l 3.所有的最优策略具有相同的行为价值函数。

p如何寻找最优策略?
l可以通过最大化最优行为价值函数来找到最优策略
l S-a 求取v*l a-s‘ 求取q*
l S-a-s‘求取v a-s-a‘ 求取q*
提出问题
基础求解方法联合求解方法强化学习概述第一章
马尔科夫决策过程第二章动态规划第三章
蒙特卡罗第四章
时间差分第五章值函数逼近第七章策略函数逼近第八章 第九章集成学习与规划目录
动态规划03
使用动态规划求解MDP问题
为什么可以使用动态规划?
p什么是动态规划?
l动态规划算法是解决复杂问题的一个方法,将复杂问题分解为子问题,通过求解子问题得到整个问题的解。

l在解决子问题的时候,其结果通常需要存储起来被用来解决后续复杂问题。

n什么样的问题,可以考虑使用动态规划来求解?
l一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解;
l子问题在复杂问题内重复出现,使得子问题的解可以被存储起来重复利用。

n马尔科夫决定过程(MDP)具有上述两个属性:
l Bellman方程把问题递归为求解子问题,价值函数就相当于存储了一些子问题的解,可以复用。

因此可以使用动态规划来求解MDP。

如何使用动态规划求解?
l预测:给定一个MDP 和策略π,要求输
出基于当前策略π的价值函数 。

l控制:给定一个MDP,要求确定最优价
值函数和最优策略
如何使用动态规划求解?—策略评估(预测)
l解决方案:应用Bellman期望方程进行迭代
l具体方法:在k+1次迭代中,使用v_k(s‘) 更新计算v_k+1(s),其中s’是s的后继状态。

l此种方法通过反复迭代最终将收敛v π 。

l问题:网格世界状态空间为:s={1,2,3,6……14},动作空间 A={东,南,西,北},回报函数为r=-1,需要评估的策略为均匀随机策略:π(东|⋅)= 0.25, π(南|⋅)= 0.25, π(西|⋅)=0.25, π(北|⋅)= 0.25.
求解最优策略。

l (1)计算随机策略下的值函数, l
迭代计算直至收敛。

l (2)在每个状态采用贪婪策略l 对随机
策略进行改进。

l 第一轮策略迭代完成,产生了新的策略。

如何使用动态规划求解?—策略改善(控制)l在当前策略基础上,贪婪地选取行为,使得后继状态价值增加最多
动态规划—策略迭代
l问题:寻找最优策略π
l解决方案:应用贝尔曼期望方程,先进行策略评估,再改进策略,评估改进的策略,再进一步改进策略。

即v1- π1-v2-π2……v*-π*
动态规划—值迭代
l问题:寻找最优策略π
l解决方案:使用贝尔曼最优方程,将策略改进视为值函数的改善。

每一步都求取最大的值函数。

即v1-v2……v*
l从初始状态值函数开始同步迭代计算,最终收敛,整个过程中没有遵循任何策略。

l注意:与策略迭代不同,在值迭代过程中,算法不会给出明确的策略,迭代过程其间得到的价值函数,不对应任何策略。

动态规划—值迭代示例
l问题:如何在一个4*4的方格世界中,找到任一一个方格到最左上角方格的最短路径,每一步奖励为-1
解决方案1:确定性的价值迭代
简要思路:已知左上角为最终目标,
从与左上角相邻的两个方格开始计算
,因为目标状态是这两个状态的后继
状态。

如此依次向右下角倒推,直至
所有状态找到最短路径。

解决方案2:价值迭代
简要思路:不确定最终状态在哪,根据每一个状态的最优后续状态值更新该状态的最佳状态值,多次迭代最终收敛。

相关文档
最新文档