马尔可夫决策基础理论

合集下载

马尔可夫决策过程的基本概念

马尔可夫决策过程的基本概念马尔可夫决策过程（Markov Decision Process，MDP）是一种用于描述具有随机性和不确定性的决策问题的数学模型。

在人工智能、运筹学和控制论领域，MDP被广泛应用于解决各种实际问题，例如机器人路径规划、资源分配、金融风险管理等。

本文将介绍MDP的基本概念，包括状态空间、动作空间、奖励函数和转移概率等要素，并探讨MDP在实际应用中的一些关键问题。

状态空间和动作空间在马尔可夫决策过程中，系统的演化是通过一系列的状态和动作来描述的。

状态空间表示系统可能处于的所有状态的集合，通常用S来表示。

动作空间则表示系统可以采取的所有动作的集合，通常用A来表示。

在每个时刻t，系统处于某个状态s∈S，并根据某个策略π选择一个动作a∈A，然后转移到下一个状态s'，这个过程可以用一个三元组(s, a, s')来描述。

奖励函数在MDP中，为每个状态s∈S定义一个奖励函数R(s)，用于表示系统在该状态下的即时收益。

奖励函数可以是确定性的，也可以是随机的，通常用于衡量系统在不同状态下的好坏程度。

在实际应用中，奖励函数的设计对MDP的性能和收敛性有着重要的影响，因此如何设计合适的奖励函数成为了一个关键问题。

转移概率另一个MDP的关键要素是转移概率，用来描述系统从一个状态转移到另一个状态的概率。

具体来说，对于每个状态s∈S和每个动作a∈A，定义一个状态转移概率函数P(s'|s, a)，表示系统在状态s下采取动作a后转移到状态s'的概率。

转移概率函数的设计不仅涉及到系统的随机性和不确定性，还关系到系统的稳定性和可控性，因此需要仔细分析和建模。

价值函数和策略在MDP中，价值函数用来衡量系统在某个状态下的长期收益，通常用V(s)表示。

价值函数的计算可以通过动态规划、蒙特卡洛方法和时序差分学习等技术来实现。

另外，系统的策略π则表示在每个状态下选择动作的概率分布，可以根据系统的奖励函数和转移概率函数来优化。

马尔可夫决策过程在自动驾驶中的应用(Ⅰ)

自动驾驶技术是近年来备受关注的热门领域，它所涉及的技术涵盖了人工智能、计算机视觉、机器学习等多个方面。

在自动驾驶技术中，马尔可夫决策过程（Markov Decision Process, MDP）是一个重要的数学模型，它在自动驾驶中的应用对于提高驾驶系统的智能化水平具有重要意义。

马尔可夫决策过程最初是由苏联数学家安德列·马尔可夫提出的，它是描述一个随机自动化系统的数学模型。

在自动驾驶中，马尔可夫决策过程可以用来描述车辆所处的环境状态以及在不同状态下做出的决策。

这样的模型可以帮助自动驾驶系统更好地理解周围环境并做出合适的驾驶决策。

一、马尔可夫决策过程的基本原理马尔可夫决策过程是一种描述随机决策过程的数学框架，它包括了状态空间、动作空间、状态转移概率、奖励函数等要素。

在自动驾驶中，状态空间可以表示车辆所处的位置、周围车辆的行驶状态、交通信号灯状态等；动作空间则表示车辆可以采取的行为，比如加速、减速、转弯等。

状态转移概率描述了在不同状态下采取不同行动后，车辆可能转移到的下一个状态，而奖励函数则用来评估每个状态和动作的好坏，帮助车辆做出最优的决策。

二、MDP在自动驾驶中的应用在自动驾驶中，马尔可夫决策过程可以帮助车辆根据当前的环境状态选择最优的驾驶行为。

通过对状态空间、动作空间和奖励函数的建模，自动驾驶系统能够在不同的交通场景下做出理性的决策，比如避让障碍物、遵守交通规则、选择合适的车速等。

这种基于数学模型的决策方式，可以使自动驾驶系统更加智能化和人性化。

在实际的自动驾驶系统中，马尔可夫决策过程可以结合传感器数据、地图信息等多种输入，帮助车辆做出实时的决策。

比如在遇到交通拥堵时，马尔可夫决策过程可以帮助车辆选择最优的行驶路线，避免拥堵；在遇到突发状况时，马尔可夫决策过程可以帮助车辆做出快速反应，保障行车安全。

这种基于数学模型的决策方式，不仅可以提高车辆的自主行驶能力，还可以提高交通系统的整体效率。

马尔可夫决策过程的基本概念(九)

马尔可夫决策过程（MDP）是一种用来描述在随机环境中进行决策的数学框架。

它被广泛应用于机器学习、人工智能、金融和工程领域，能够帮助我们理解和解决很多实际问题。

本文将介绍马尔可夫决策过程的基本概念，包括状态、动作、奖励和价值函数等要素，以帮助读者更好地理解这一概念。

马尔可夫决策过程的基本要素包括状态、动作、奖励和价值函数。

首先，状态是描述系统或环境的特征，它可以是具体的量化数值，也可以是抽象的概念。

在一个MDP中，系统在某一时刻的状态会影响它未来的状态，这种状态转移具有马尔可夫性质，即未来的状态只与当前状态有关，而与过去的状态无关。

这种性质使得我们可以用状态转移矩阵或概率分布来描述系统在不同状态之间的转移概率。

其次，动作是指在某一状态下，系统可以采取的行为。

每个状态都对应着一组可选的动作，而选择不同的动作会导致系统进入不同的状态。

在MDP中，我们通常假设系统的动作和状态是离散的，这使得我们能够用矩阵或概率分布来描述在某一状态下采取某一动作的概率。

奖励是指系统在执行某一动作后所获得的即时回报。

奖励可以是正的、负的或零，它反映了系统在执行某一动作后所取得的效果。

在马尔可夫决策过程中，我们通过对每个状态和动作的奖励进行建模，来指导系统在不同状态下选择合适的动作。

最后，价值函数是对系统在某一状态或执行某一动作后所获得的长期累积回报的估计。

价值函数可以帮助我们评估不同状态或动作的优劣，从而指导系统在不同状态下选择最优的动作。

在MDP中，我们通常使用价值函数来表示系统在某一状态下的长期回报期望值，或者表示在某一状态执行某一动作后的长期回报期望值。

马尔可夫决策过程的求解通常涉及到价值迭代、策略迭代等算法。

通过这些算法，我们可以找到系统在不同状态下的最优策略，使得系统能够在长期累积回报最大化的情况下做出最优的决策。

总之，马尔可夫决策过程是一种重要的数学框架，它能够帮助我们理解和解决很多实际问题。

通过对状态、动作、奖励和价值函数等要素的建模，我们可以找到在随机环境中进行决策的最优策略，从而实现系统的智能决策和优化。

7.1.1第七章马尔可夫决策

= −
• 如果已知系统在初始阶段的分布，即系统在初始阶段处于各状态
(0)
的概率 , i = 1, 2, ⋯ , 以及转移概率矩阵P，则在步后处于状
()
态j的概率可以由下式计算得出：

= = = ෍ = 0 = (0 = ) =
集。如果状态空间也是离散的，则我们一般用 = 1, 2, 3, … 来
表示状态空间。
• 条件概率P = j −1 = 表示已知马尔可夫过程 X , ∈ T 在
第 − 1步处于状态，则在第步时处于状态j的条件概率，称为
转移概率。由于它表示的是从第 − 1步到第步的转移概率，因
→∞
马尔可夫链的极限分布。
• 注意：平稳分布和极限分布是两个不同的概念，而且确实存在两
者不一致的情况。
• 在本课程中，我们只考虑二者一致的情况。
• 定理： X , ∈ T 是不可约非周期的马尔可夫链，转移概率矩阵，则
该马尔可夫链存在极限分布当且仅当存在平稳分布，并且此时两者相
等。
• 这时，平稳分布可以通过求解稳态方程
此是一步转移概率。
• 如果条件概率P = j −1 = 只与状态和j有关，而与时刻无
关，则称之为平稳转移概率，记为pij = P = j −1 = 。
• 如果马尔可夫过程 X , ∈ T 的时间集T是离散的，状态空间也
是离散的，而且转移概率是平稳的，则称 X , ∈ T 为（齐次）马
− 步处于状态，则在第步时处于状态j的条件概率，称为
()
步转移概率，记为。相应的步转移概率矩阵为
()
()
p11
… p1n
=
⋮

马尔科夫决策过程及其在智能决策中的应用研究

马尔科夫决策过程及其在智能决策中的应用研究随着信息时代的发展，人们每天都需要做出各种决策。

然而，决策的过程并不是一件容易的事情，特别是在涉及到多个可能的决策选项和未知的风险因素时。

这时，一个能够结合已知信息和未知风险的决策模型就显得尤为重要。

在这样的情况下，马尔科夫决策过程就成了研究者和决策者的热门选择。

一、马尔科夫决策过程的概念和应用马尔科夫决策过程是一种利用概率理论来描述各种决策在目标状态下的效果的数学模型。

在这种模型中，各个可能的决策选项会被分配一定的概率值，而这些概率值会影响到决策结果的得分或者收益。

同时，模型还会考虑到外部的因素对决策结果的影响。

这些因素也被用作决策过程中的概率参数。

马尔科夫决策过程在许多不同的领域中都有着广泛的应用。

在金融领域，马尔科夫决策过程可以被用来分析不同的交易策略，并帮助投资者做出最优的投资决策。

在医疗领域，马尔科夫决策过程可以被用来预测病人的健康状况，以及评估不同治疗方案的风险和收益。

在制造业领域，马尔科夫决策过程可以被用来分析生产系统的效率以及优化生产计划。

总之，无论是在哪个领域中，马尔科夫决策过程都可以为决策者提供一个有力的工具，帮助他们做出明智而又高效的决策。

二、马尔科夫决策过程的理论基础马尔科夫决策过程的理论基础来自于概率论和决策论。

概率论提供了一种量化不确定性的方法，而决策论则提供了一种选择不同选项的方法。

马尔科夫过程将这两种方法结合起来，建立了一个框架，可以有效地处理复杂的决策问题。

马尔科夫过程的基本组成部分包括状态、动作和奖励。

状态反映了决策过程中的不同情况，动作是在给定状态下选取的可能的决策，而奖励则反映了每个动作的可行性和结果。

基于这些元素，马尔科夫过程建立了一个模型，预测不同动作的奖励和概率分布。

因此，马尔科夫决策过程可以看作是一个时间序列模型，将理性决策过程数学化。

这个模型可以帮助决策者在有限的时间内做出最优的决策，在防止信息缺失或非确定性的条件下，决策者可以有效地评估决策的潜在风险和收益。

经济决策课件系列第七章马尔可夫预测法

•
安全在于心细，事故出在麻痹。21.1.1 321.1.1 301:42:3101:4 2:31Jan uary 13, 2021
•
加强自身建设，增强个人的休养。202 1年1月 13日上午1时4 2分21. 1.1321. 1.13
•
扩展市场，开发未来，实现现在。202 1年1月 13日星期三上午1时4 2分31 秒01:42:3121.1. 13
•
感情上的亲密，发展友谊；钱财上的亲密，破坏友谊。21. 1.13202 1年1月 13日星期三1 时42分3 1秒21. 1.13
谢谢大家！
4、预测第21月的销售情况
由于第20月的销售量属于畅销状态，而经由一次转移到达三种状态的概率是：
P31
2 7
P32＝0 P33＝
5 7
P33 P31 P32
因此，第21月超过100（千件）的可能性最大。即预测第21月的销售状态是“畅销”。
•
每一次的加油，每一次的努力都是为了下一次更好的自己。21.1.1 321.1.1 3Wedn esday , January 13, 2021
P(n) P PP Pn
n个
即n步转移概率等于一步转移矩阵的n次方。
定理2：若记Pn的元素为Pij(n) 则有
lim
n
p (n) ij
pj
系统处在 j 状态的概率与它在很元的过去处在什么情况无关。
经济预测与决策方法
例已知市场上有A，B，C三种牌子的洗衣粉，上月的市场占有分布为(0.3
0.4 0.3)，且已知转移概率矩阵为
•
做专业的企业，做专业的事情，让自己专业起来。2 021年1 月上午 1时42 分21.1.1 301:42 January 13, 2021

马尔可夫决策过程的决策规则解析(十)

马尔可夫决策过程是指在一个离散的时间和状态空间中进行决策的一种数学模型。

它是通过对当前状态和可能的下一步状态之间的概率关系进行建模，来寻找最优的决策规则。

马尔可夫决策过程的应用非常广泛，涵盖了诸如经济学、管理科学、控制论、人工智能等领域。

下面将对马尔可夫决策过程的决策规则进行解析。

首先，马尔可夫决策过程的基本要素包括状态空间、决策空间、状态转移概率和奖赏函数。

在这些基本要素的基础上，可以进一步确定马尔可夫决策过程的决策规则。

决策规则是指在每个状态下，根据当前的状态和可能的下一步状态之间的概率关系，以及奖赏函数的值，来确定最优的决策动作。

决策规则的核心是要求在每个状态下都选择能够最大化长期收益的决策动作。

其次，马尔可夫决策过程的决策规则可以分为确定性策略和随机策略两种。

确定性策略是指在每个状态下都选择一个确定的决策动作，而随机策略则是指在每个状态下选择一个概率分布，根据这个概率分布来选择决策动作。

确定性策略的优点是计算简单，但是可能会陷入局部最优解；而随机策略的优点是能够避免陷入局部最优解，但是计算复杂度较高。

另外，马尔可夫决策过程的决策规则可以进一步分为最优策略和次优策略。

最优策略是指在每个状态下都选择能够最大化长期收益的决策动作，而次优策略则是指在每个状态下选择能够接近最优收益的决策动作。

在实际应用中，通常会通过价值迭代或者策略迭代等方法来求解最优策略。

此外，马尔可夫决策过程的决策规则还可以根据问题的具体特性进行定制化。

比如在一些具有时间约束的决策问题中，可以引入时间折扣因子来对未来收益进行折现，从而影响决策规则的选择；在一些具有不确定性的决策问题中，可以引入可调节的探索因子来平衡探索和利用的权衡。

这些定制化的决策规则可以进一步提升决策的效果。

在实际应用中，马尔可夫决策过程的决策规则可以通过各种优化算法来求解。

比如动态规划、蒙特卡洛方法、时序差分学习等算法都可以用来求解马尔可夫决策过程的最优决策规则。

马尔可夫决策过程简介(Ⅰ)

马尔可夫决策过程简介马尔可夫决策过程（Markov Decision Process, MDP）是一种用于描述随机决策问题的数学框架。

它是由苏联数学家安德雷·马尔可夫在20世纪初提出的，被广泛应用于控制理论、人工智能、经济学等领域。

马尔可夫决策过程的核心思想是通过数学模型描述决策者在具有随机性的环境中做出决策的过程，以及这些决策对环境的影响。

本文将介绍马尔可夫决策过程的基本概念和应用。

1. 随机过程马尔可夫决策过程是建立在随机过程的基础上的。

随机过程是指随机变量随时间变化的过程，它可以用来描述许多自然现象和工程问题。

在马尔可夫决策过程中，状态和行动都是随机变量，它们的变化是随机的。

这种随机性使得马尔可夫决策过程具有很强的适用性，可以用来描述各种真实世界中的决策问题。

2. 状态空间和转移概率在马尔可夫决策过程中，环境的状态被建模为一个有限的状态空间。

状态空间中的每个状态都代表了环境可能处于的一种情况。

例如，在一个机器人导航的问题中，状态空间可以表示为机器人可能所处的每个位置。

转移概率则描述了从一个状态转移到另一个状态的概率。

这个概率可以用一个转移矩阵来表示，矩阵的每个元素代表了从一个状态到另一个状态的转移概率。

3. 奖励函数在马尔可夫决策过程中，决策者的目标通常是最大化长期的累积奖励。

奖励函数用来描述在不同状态下采取不同行动所获得的奖励。

这个奖励可以是实数，也可以是离散的，它可以是正也可以是负。

决策者的目标就是通过选择合适的行动，使得累积奖励达到最大。

4. 策略在马尔可夫决策过程中，策略是决策者的行动规则。

它描述了在每个状态下选择行动的概率分布。

一个好的策略可以使得决策者在长期累积奖励最大化的同时，也可以使得系统的性能达到最优。

通常情况下，我们希望找到一个最优策略，使得系统在给定的状态空间和转移概率下能够最大化累积奖励。

5. 值函数值函数是描述在给定策略下，系统在每个状态下的长期累积奖励的期望值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

马尔可夫决策基础理论内容提要本章介绍与研究背景相关的几类决策模型及算法。

模型部分，首先是最基本的马尔可夫决策模型，然后是在此基础上加入观察不确定性的部分可观察马尔可夫决策模型，以及进一步加入多智能体的分布式部分可观察马尔可夫决策模型和部分可观察的随机博弈模型。

算法部分，针对上述几类模型，我们均按照后向迭代和前向搜索两大类进行对比分析。

最后，我们介绍了半马尔可夫决策模型及Option理论，这一理论为我们后面设计分等级的大规模多智能体系统的决策模型及规划框架提供了重要基础。

2.1 MDP基本模型及概念马尔可夫决策过程适用的系统有三大特点：一是状态转移的无后效性；二是状态转移可以有不确定性；三是智能体所处的每步状态完全可以观察。

下面我们将介绍MDP基本数学模型，并对模型本身的一些概念，及在MDP模型下进行问题求解所引入的相关概念做进一步解释。

2.1.1 基本模型马尔科夫决策过程最基本的模型是一个四元组S,A,T,R(Puterman M, 1994)：♦状态集合S：问题所有可能世界状态的集合；♦行动集合A：问题所有可能行动的集合；♦状态转移函数T: S×A×S’→[0,1]: 用T(s, a, s’)来表示在状态s，执行动作P s s a；a，而转移到状态s’的概率('|,)♦报酬函数R: S×A→R:我们一般用R(s,a)来表示在状态s执行动作a所能得到的立即报酬。

虽然有针对连续参数情况的MDP模型及算法，然而本文在没有特殊说明的情况都只讨论离散参数的情况，如时间，状态及行动的参数。

图2.1描述的是在MDP模型下，智能体(Agent)与问题对应的环境交互的过程。

智能体执行行动，获知环境所处的新的当前状态，同时获得此次行动的立即收益。

图 0.1 MDP 的基本模型2.1.2 状态状态是对于在某一时间点对该世界（系统）的描述。

最一般化的便是平铺式表示[]，即对世界所有可能状态予以标号，以s 1,s 2,s 3,…这样的方式表示。

这种情况下，标号状态的数目也就代表了状态空间的大小。

而一种更加自然的方式是因子化表示，因子化是一种面向对象的思想，这种状态表示方式我们会在结合Robocup 的高层设计章节详细讨论。

不同的应用中，人们对状态的具体定义是不一样的，但一般来说，在MDP 中定义的状态必须包括所有当前世界中Agent 能够掌握利用，会对Agent 决策产生影响的信息，这也可做为建模过程中，某些因素要不要加入问题状态表示的依据。

事实上，这些因素，又对应为一些概念，或者说状态变量。

要不要将这些变量加入问题的状态表示中，再或者要不要对概念对应的状态量进行某种拆分或合并，这些问题在建模时都是需要考虑的。

处理的不好，便可能引入大量冗余信息。

目前，也有专门针对这些问题所作的工作，如识别无关状态(Jong N K, Stone P,2005)，聚类等等(Givan R, et al, 2003; Li L H, et al, 2006)。

大多数情况，智能体对自己所处的当前世界的状态不可能有一个完整的认识。

因此，我们引入概率的方法来处理这类信息的不确定性。

我们引入随机变量S t ，随机变量从状态集合S 中取值。

变量S t 并非由未来时刻的状态所决定，而是由过去状态影响，如图2.2 所示。

行动图 0.2 马尔可夫链图2.2 所表示的是一离散的、随机的动态系统，图中的每个节点表示在某一时刻的某一状态。

对于随机变量S t, 有Pr(S t|S0,S1,...,S t−1) = Pr(S t|S t−1) ，为一条件概率。

它也同时体现了马尔科夫性质，即S t只是概率依赖于S t−1。

任何两个状态间的关系可以只用两个状态来表示。

同时，我们引入吸收状态这一概念，如果对于某一状态s，执行任何行动，过程都以概率1转移到s本身，则该状态s被称为吸收状态(absorb state)。

2.1.3 行动Agent 的行动会参与改变当前世界的状态。

MDP的一个关键部分是提供给Agent的用于做决策的行动集合。

当某一行动被执行，世界状态将会发生改变，根据一个已知的概率分布转换为另一状态，这个概率分布也和所执行的动作有关。

不加说明的情况下，我们讨论的是时齐马尔可夫过程，即所有行动的执行时间是相同的，状态转移的时间间隔一致。

这种行动有时也可以被称为系统的原子动作。

在该系统内，行动已对应最小的时间划分，原子动作不可再分割。

比如，在一个棋盘类游戏中，每一步所有的走子方式构成了原子动作的集合。

再比如，在一个实时的机器人运动控制中，离散的最小时间片内，机器人可以选择以一定的离散的角度转向，或者以一定的离散的加速度进行速度控制，这些也构成了在该系统下的原子动作集合。

2.1.4 状态转移函数状态转移函数描述了系统的动态特性，我们可以做以下比较：0.5图 0.3 对给定行动的状态间概率转移图♦确定环境下的行动：T: S×A→S在某个状态s 执行动作a 可以得到一个确定的状态；♦ 随机环境下的行动：T: S×A →Prob(S)在某个状态s i 下执行某一动作a ，我们得到的是一状态的概率分布(|,)j i P s s a ，也记为(,')a T s s 。

图2.3显示了一个对某给定行动，状态间概率转移的情况。

在简单的问题中，状态转移函数也可以记为表格的形式。

2.1.5 策略与值函数以上都是对模型本身的一些概念的解释，下面我们介绍在MDP 问题求解过程引入的若干概念。

决策问题的解称为策略(policy)，是从状态集合到动作集合的一个映射，即π : S →A 。

按照策略解决问题的过程是，首先智能体需要知道当前所处状态s ，然后执行策略对应的行动π(s) ,并进入下一状态，重复此过程直到问题结束。

MDP 中假定Agent 通过观察可以完全确定当前所处的状态。

而该假设不能保证的问题属于POMDP 模型解决的对象，将在下一章讨论。

在MDP 某些材料中对策略有如下区分，若动作的选取只和当前的状态有关，而与时间无关，称作平稳策略；相应的，非平稳策略是经时间索引后的一系列状态到行动的集合，也就是说非平稳策略即使对于同样的状态，在过程的不同时刻，可能会对应不同的行动。

我们希望Agent 能够按照某个准则来选择动作以最大化长期的报酬。

比如有现阶段最优准则，要求最大化有限阶段期望总报酬最大，也就是k -1t t=0maxE R ⎡⎤⎢⎥⎣⎦∑，其中R t 是Agent 在第t 步得到的报酬。

如果我们处理的是一个无限阶段问题，考虑整个过程中的总报酬，通常会引入一个折扣因子γ，其中0<γ <1。

这样Agent选择动作所得到的报酬是k-1t t t=0maxE R γ⎡⎤⎢⎥⎣⎦∑。

折扣因子保证了k-1t t t=0maxE R γ⎡⎤⎢⎥⎣⎦∑的收敛性。

事实上，一个过程本质上是在因果关系下的推进，而并非时间推进本身。

当可以把时间也作为一个变量加入状态描述中时，前面提到过的有限阶段与无限阶段，以及这里的平稳策略与非平稳策略，都可以统一起来理解。

首先，对于有限阶段和无限阶段的问题，长期期望回报是用来评价策略优劣的，理论上它不能出现无穷大的情况，这样将无法比较。

而在所谓的无限阶段中，这一点却很难保证。

事实上，对于一个现实中决策的智能体来说，无限阶段是不存在的，其生存周期决定了这一点。

于是，折扣因子的另一个含义是人为的认定过程在每步执行都有较小的非零的概率1 − γ终止。

这样，该过程能无限进行下去的概率为0，无限阶段的问题仍是转换成了有限阶段。

因此，两者都是依靠问题的终止状态来结束，并无本质区别。

同样，当时间可以成为状态变量后，平稳策略与非平稳策略也可以统一起来考虑，所谓的靠时间索引的策略也将变成统一的状态到行动的映射了。

在本文后面的部分，无特殊说明的情况下，将不对有限阶段或无限阶段，以及平稳策略或非平稳策略加以区别。

对于任何一个策略，我们都可以用执行该策略所能获得的长期期望回报来评价其优劣。

定义值函数(Value Function):V S π→ 为采用策略π时在状态s 的期望回报：0()(,())t t t t V s E R s s πγπ∞=⎡⎤=⎢⎥⎣⎦∑ (0.1)其中t s 为时刻t 所处状态，0t =对应初始状态s 。

以递归的形式表示则为： ()'()(,())(,')(')s s S V s R s s T s s V s ππππγ∈=+∑(0.2)对每个策略π，其对应的值函数V π是一系列线性方程(每个状态s 对应一个方程)的唯一公共解。

在某些文献中值函数也被称为评价函数(evaluation function)。

上述定义给了我们一种计算策略对应的值函数的方法，同时，我们也需要知道如何从值函数来计算得到相应策略。

首先，定义一个求解过程常常用到的中间变量，行动值函数:Q S A π×→ 为在状态s 采用行动a ，其它状态采用策略π的期望回报。

'(,)(,)(,')(')a s S Q s a R s a T s s V s ππγ∈=+∑(0.3)当策略没有显式记录，只有值函数V 时，行动值函数记为Q 。

策略π可以通过下式计算得到：()arg max (,)a A s Q s a π∈= (0.4)即：'()arg max (,)(,')(')a a A s S s R s a T s s V s πγ∈∈⎧⎫=+⎨⎬⎩⎭∑(0.5)同时有：'()max (,)(,')(')a a A s S V s R s a T s s V s πγ∈∈⎧⎫=+⎨⎬⎩⎭∑ (0.6)由于(0.5)式事实上是采用的一步前瞻的贪婪搜索，我们也称这样获得的策略为贪婪策略。

定义一致性条件(Monotonic Condition)为，对所有s ，有：'()max[(,)(,')(')]a a s S V s R s a T s s V s ∈≤+∑ (0.7)如果值函数满足一致性, π即是对当前值函数对应的隐式策略的改进,有: ()()V s V s π≥。

相反，如果值函数不满足一致性，在某状态s 处，'()max[(,)(,')(')]a a s SV s R s a T s s V s ∈>+∑，我们便无法经由(0.8)确定满足()()V s V s π≥的π(s)。

通常，对于一个满足一致性条件的值函数，只按Bellman 公式进行更新迭代的话，一致性条件始终保持成立。

最优策略记为π*,对应值函数为V *,称为最优值函数。