基于马氏决策向量过程模型的有限阶段期望总报酬准则及其最优方程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于马氏决策 向量过程模型 的有 限阶段期望总报酬准则及其: 最优方程
9
量 有
) ≥
勰 ( a,PJi }后= 2… ) i k)(l ) , ,, , J ,
则 称 为优 决策 向量 ; 则称 为劣决 策 向量. 否
决策 向量的优劣性决定了系统在时刻 t 处于状态 i 时所采取行动 的个数 ; 同时 , 也说 明了 各个行动之间的相合性 : 设系统在时刻 t 处于状态 i , 称行动 口与 b 为相合的, 如果 r ( ,) i ( 口b , ) ≥ m x sprai , prbi } 即采取两个行动获得的报酬 比单个行动的要多. a {u ( , s ( , , ) u ) 定义 6 若优决策 向量 =( 口, , 的分量未取 的个数为 n则称 的相合度 口 , …, …) ,
琼州学 院青年基金资助项 目, 编号 Q Q 2 12 Y N 0 16
收稿 日期 :0 1 1 2 1 年 1月 0 3日
数学理论与应用
早期 的 M P D 模型大致可分为三大类 : 离散时间马氏决策过程( T D )连续时间马氏决策过 DM P 、 程 (T D ) C M P 和半马氏决策过程( M P . S D ) 这些 M P模型描述实际问题时, D 往往 出现状态未必 完全可观察、 目标函数可能多于一个 、 模型的参数可能为未知的、 折扣因子的精确值不易确定 、
定 义8 对N≥0r , 为 ,( 有界函 则 量策 ) 数, 在向 略仃=( , ・ ∈兀 下的J阶 ・ ) 7 、 r
段期望总报酬准则定义为
1 0
.一 1 v 】
数学理论与应用
,
(,) 7h =∑卢 E { , )h} NE { )h r r I + - ( l ( n
定义 9 称 ( )=sp u{
。
,
( , ) 7∈n , , ∈ 为 优值函 仃h Ir h∈ 凡 最 数.
( 一致有 界 . h)也
由于 r , ( )有界 ,
(rh)存在 而且 一致有 界 , 而 7, 从
对 V s≥0 如果 向量策略 仃 , 使得
然而在传统马氏决策过程 ( D ) M P 模型中存在着一个共同局限性 , 即在决策时刻只采取单
个行动来确定系统的状态转移概率. 但在实际问题中, 状态转移概率可能依赖于多个行动.为 了克服传统 M P D 模型的这种局限性 , 文献 [ ] 4 在决策时刻引入了多元行动来确定系统的状态
转移概率 , 并通过运用传统 M P的基本理论 以及结合多元行动集 、 D 决策 向量 、 相合度等新定
Baidu Nhomakorabea
其 中 T={ , ,…N一 } N<。 , ( i 为有界报酬 函数. 0 12 1, 。r ) , 当决策者在选定一定的决策向量
后, 在各阶段 0 12 … , , ,, N一1 时依一定的概率获得一串的报酬 , 将其 累加起来就是该阶段 的
总报 酬.
2 决策 向量下最优准则
2 1 报酬 准则和 最优 值 函数 的定 义 .
Abtat yapyn ro eio — aigvco r essh o dtenwdf io f eio — aig src B p l gMa v cs n—m kn etr o se er a e ent no cs n—m kn i k d i pc t yn h i i d i
f = n
= ∑卢 ( ) / ( )h} ∈ ( E{ r , + N l , A ) 3
上式所表示的意思跟一元策略下一样 , 只是行动上 向量化而 已, 这里就不再详细说明. 在
向 略仃=(。 …) 量策 7, , ∈n 下, r仃 我们同 给出 优值函 定义. 样可 最 数的
Op mai q ai n i t lt eut y o
0 引 言
2 世纪 4 0 O年代末 5 年代初 ,em nR 研究动态规划 问题 ,hp yL 研究随机对策问 0 B l a . l Sal . e
题时提出了 M P的基本思想 , oa . 16 ) D ¨ H w r R (9 0 的研究工作则奠定 了 M P的理论基础 . d D
J s E
定义 4 当系统在 t 时刻采取决策向量 =( ,0, 口, 时 , 0 ,:…, …) 若 的分量未取 的个
数为 凡则称 的联合度为 , , 记为 l I . =n
定义5 记p():p (l, , o ‘_ P( 0『 ) )=p ( ) 若系统在决策时刻 t采取决策向 t 口, , 0 o
若系统在某个决策时刻 t所采取 的决策向量 为 。且 J I , 。 , ≥2 则称 {,,()p ・i sA ,( l ,
a , } ) r ,) 为马氏多元决策过程模型( a o ui e eios r e e ) 简记为 M D . ( M r vM lp c i o s , k t l D s n P cs s M P
若 V ∈A i 都有 I I 时( () =1 即系统在任意决策时刻只采取单个行动)则称之为传统 ,
马氏决策过程模型( a o eio r e e ) 简记为 M P M r v c i Po s s , k D sn c s D. 若无特殊说明 , 传统马氏决策过程与马氏多元决策过程统记为 { ,, ()P . ,) r ,) . sA i ,( 1 , } (
m k g et r es , ai c r o s s)简记为 M V . 中 为系统的决策时刻集; 为系统所有可能状态 n v oP c e D P其 S
所组成的非空状态集 ; () A i 为系统在状态 i 处可用的决策向量集 ; ( I ) P .i 为系统的转移概 , 率 ; (, 为期望报酬. r )
为 n 记为 I I =r , t .
显然 , 任意行动 口 与 咖是相合的, 所以 I J≥ 1 .
定义 7 称 { , , ()P . ,) ri ) 为马氏决策 向量过程模型( a o D c i — sA i ,( I , , } (a M r v eio k sn
A () i 为一元决策集 ; () A i 中的元素称为决策 向量 , 记为 定义 3 称 p ( )=p( ,) EA i 为在时刻 t , () a 采取决策向量 时系统从状态 i —
的转移概率. 若系统在 t 时刻采取 了 则其期望值报酬为 ,
r , =∑r ,j (l ) ( ) ( ,P i i ) j,
模 型可 能有 约束条 件等 诸 多 问题 . 者们 据 此 进 一 步发 展 了 更加 接 近 于 实 际 问题 的 MD 学 P模
型, 如状态部分可观察的 M P 多 目标 M P 自 D、 D 、 适应 M P 参数不确定 M P 带约束条件 M P D、 D、 D、 摄动 M P D 等等 , 并提 出了一类参数随环境变化而变化 的 M P 型, D 模 即随机环境 M P D 模型和 混合 M P D 模型 .
e u t n i r o e iin—ma ig v co r c s e . ial e p o e h x s n e o ou in n t e o t li q ai Ma k v d cso o n kn e trp o e s s F n l w r v d t e e it c f s lt s i h p i y e o ma t y
Th i ie S a e o p ce t l Re r e F n t t g fEx e td To l wa d a M o e n tm a iy Eq a in o a k v i d la d Op i l u to fM r o n t De iin —m a i g Ve t r Pr c se cso — k n co o e s s
义, 提出了马氏向量决策过程模型 , 并对一这新模型进行了一些尝试性的研究 , 内容包括 : 其 马 氏决策向量过程的定义和相合度的算法. 在马氏决策 向量过程模型的框架下 , 所得到的这些新 结论 比传统 M P模型中的结论更具有一般性 , D 但未进一步提出马氏向量决策过程模型的有限 阶段期望总报酬准则和最优方程 , 且有关最优方程的解的存在性问题有待于解决.
陈 杰 刘 再 明 邢 灵博
( . 州学 院理 工 学院 , 1琼 海南 ,702 5 22 )
(. 2 中南大学数学科学与计算技术学院, 长沙,10 5 40 7 )
摘 要 在马氏决策向量过程模 型的理论基础上 , 结合 决策向量和相合 度等新定 义, 进一步提 出有限阶段期
存在性
望总报 酬准则和最优 方程 , 并证明最优 方程 的解 的存在性. 关键词 马氏决策向量过程模 型 报酬准则 最优方程
第3 l卷
第 4期
数学理论与应用
MATHEMATI CAL T HE0RY AND PL CA AP I n0NS
V0. 1 No 4 13 .
De .2 1 C 01
21 0 1年 l 2月
基 于 马 氏决策 向量过 程模 型 的有 限阶段 期 望 总报 酬 准则及 其最优 方 程
C e i h nJe LuZ i n Xig Ln b i amig n ig o
( .C l g f c neadE g er g QoghuU ie i , ay 7 02, hn ) 1 oeeo Si c n ni e n ,inzo nvr t S a5' 2 C ia l e n i sy n 2 , ( .S ho f te ai , et l o t U i rt, hnsa 10 5 2 col hm t s C nr uh nvs y C agh 07 ) o Ma c aS e i 4
e a o qu t n. i
Ke r s Mak v d cs n —ma i g v tr p o e s s y wo d r o e ii o k n e o r c se c E i e e Xs n e t
E p c e o alr w r d l x t d tt e a d mo e e l
( , 7 i r )≥
() i 对于所有 i 成立 , 则称 々 r 为
v co ,c n itn y d g e ,E C. hs p p r w l su y te f i t g fe p ce tl r wad mo e d o t l y e tr o sse c e r e T T i a e i t d h i t sa eo x e t d t al e r d l l ne o n a pi i ma t
1 基本概念
定义 1 设系统在时刻 t 处于状态 i 可选择的行动集有 : 。i, i, A () … ; A () A () …, i , 则称 Ri ()= { i,:i , A () …} A ()A () …, i, 为决策系统的行动集族.
定义 2 称 A = {a, , a ‘ l () (, …, ‘ a )a ∈A()k=12… } k , ,, 为决策 向量集 , 中 其