收敛性定理证明详解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收敛性定理

引理1:迭代1(*)()(1())()()[]()t t t t t t Q x a x Q x a x P Q x +=-+。假设

*1()(1())()()[]()t t t t t Q x a x Q x a x P Q x +=-+ 产生的{()}t Q x 序列以概率1收敛到*Q 。其中t P 为映射:Q Q t P →。如果下面

的条件满足:0<γ<1和序列{|0}t t λλ≥以概率1收敛到0。若**

t t t P Q P Q Q Q γλ-≤-+P P P P 对Q Q ∀∈成立,且()t a x 满足01t a ≤<(x),0()t

i a x ∞==∞∑,20()t i a x ∞=<∞∑,则迭代(*)产生的序列{()}t Q x 当t →∞时,以概率1收敛

到*()Q x 。

定理1:贝尔曼方程虽然直接,但状态的数量通常会很巨大(随问题维度指数增加),所以迭代全空间来精确求解Bellman 方程是不可行的。

所以一般会采用近似的方法,采用Q Learning -算法去求解。

经典的Q Learning -方程: '1(,)(1)(,)[(,)max (,)]t t t t t a Q s a Q s a r s a Q s a ααγ+=-++

产生的序列{(,)}t Q s a 收敛到*

(,)Q s a 对s S ∀∈,a A ∀∈成立。其中 '*''(,)(,)(|,)()

s Q s a r s a p s s a V s γ=+∑

证明:定义'(,)(,)max (,)]t t a

PQ s a r s a Q s a γ=+。有**max (,)(,)t s S

PQ PQ PQ s a PQ s a ∈-≤-P P 。其中P 是空间Q 到Q 的映射。 同理有**'(,)(,)max (,)a

PQ s a r s a Q s a γ=+。 *'*'*(,)(,)

max (,)max (,)(,)(,)

t t a a

t PQ s a PQ s a Q s a Q s a Q s a Q s a γγ-=-≤- 已经有'

*'''(,)(,)(|,)()(,)(())

s Q s a r s a p s s a V s r s a E V s γγ=+=+∑ **'*'[](,)((,)max (,))(,)(max (,))

a a E PQ s a E r s a Q s a r s a E Q s a γγ=+=+ 因为有'*'()max (,)a V s Q s a =

故**

[]Q E PQ =。引理1的 两个条件都满足,所以说序列{(,)}t Q s a 收敛到*(,)Q s a 对s S ∀∈,a A ∀∈成立。

定理2:很显然,以上的Q Learning -方程并不适用于本文的零和马尔可夫博弈模型,因此,结合min max 算法,将Q -Learning 算法改进为min max Q -算法,并将单方学习扩展至双方学习,以如下的公式来更新Q 值:

1()(,,)(1)(,,)[(,,)max min (,,)]t t t t t t a A PD A Q s a o Q s a o r s a o Q s a o πααγπ+∈∈=-++

产生的序列,,t Q s a o ⎧

⎫⎛⎫⎨⎬ ⎪⎝⎭⎭⎩收敛到*,,t Q s a o ⎧⎫⎛⎫⎨⎬ ⎪⎝⎭⎭⎩

对,s S a A ∀∈∀∈成立。其中'*''(,)(,)(|,)()s Q s a r s a p s s a V s γ=+∑。

证明:定义()(,,)(,,)max min (,,)t t a A

PD A PQ s a o r s a o Q s a o πγπ∈∈=+其中P 是空间t Q 到t Q 的映射。有**()(,,)(,,)max min (,,)a A

PD A PQ s a o r s a o Q s a o πγπ∈∈=+。 **()()*()|(,,)(,,)||max min (,,)max min (,,)|max min (,,)(,,)t t a A a A

PD A PD A t a A PD A PQ s a o PQ s a o Q s a o Q s a o Q s a o Q s a o πππγππγππ∈∈∈∈∈∈-=-≤-

因为

**********(,,)(,,)(,,)(,,)(,,)(,,)(,,)(,,)(,,)(,,)((,,)(,,))((,,)(,,))t t t t Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o ππ

ππππ

ππππππ

-=-+-≤-+-=-+-

于是

****()()*|(,,)(,,)|

max min ((,,)(,,))max min ((,,)(,,))|(,,)(',,)|t t a A a A PD A PD A t PQ s a o PQ s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o ππγπγπγδ

∈∈∈∈-≤-+-≤-+ 很明显

*(),0(max min (,,))a A PD A t Q s a o πδδγπ∈∈→∞→=

同定理1可以证明

**[]Q E P Q = 于是{},,(,)

t s S a A Q s a ∀∈∀∈收敛的两个条件满足。所以有

相关文档
最新文档