收敛性定理证明详解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收敛性定理
引理1:迭代1(*)()(1())()()[]()t t t t t t Q x a x Q x a x P Q x +=-+。假设
*1()(1())()()[]()t t t t t Q x a x Q x a x P Q x +=-+ 产生的{()}t Q x 序列以概率1收敛到*Q 。其中t P 为映射:Q Q t P →。如果下面
的条件满足:0<γ<1和序列{|0}t t λλ≥以概率1收敛到0。若**
t t t P Q P Q Q Q γλ-≤-+P P P P 对Q Q ∀∈成立,且()t a x 满足01t a ≤<(x),0()t
i a x ∞==∞∑,20()t i a x ∞=<∞∑,则迭代(*)产生的序列{()}t Q x 当t →∞时,以概率1收敛
到*()Q x 。
定理1:贝尔曼方程虽然直接,但状态的数量通常会很巨大(随问题维度指数增加),所以迭代全空间来精确求解Bellman 方程是不可行的。
所以一般会采用近似的方法,采用Q Learning -算法去求解。
经典的Q Learning -方程: '1(,)(1)(,)[(,)max (,)]t t t t t a Q s a Q s a r s a Q s a ααγ+=-++
产生的序列{(,)}t Q s a 收敛到*
(,)Q s a 对s S ∀∈,a A ∀∈成立。其中 '*''(,)(,)(|,)()
s Q s a r s a p s s a V s γ=+∑
证明:定义'(,)(,)max (,)]t t a
PQ s a r s a Q s a γ=+。有**max (,)(,)t s S
PQ PQ PQ s a PQ s a ∈-≤-P P 。其中P 是空间Q 到Q 的映射。 同理有**'(,)(,)max (,)a
PQ s a r s a Q s a γ=+。 *'*'*(,)(,)
max (,)max (,)(,)(,)
t t a a
t PQ s a PQ s a Q s a Q s a Q s a Q s a γγ-=-≤- 已经有'
*'''(,)(,)(|,)()(,)(())
s Q s a r s a p s s a V s r s a E V s γγ=+=+∑ **'*'[](,)((,)max (,))(,)(max (,))
a a E PQ s a E r s a Q s a r s a E Q s a γγ=+=+ 因为有'*'()max (,)a V s Q s a =
故**
[]Q E PQ =。引理1的 两个条件都满足,所以说序列{(,)}t Q s a 收敛到*(,)Q s a 对s S ∀∈,a A ∀∈成立。
定理2:很显然,以上的Q Learning -方程并不适用于本文的零和马尔可夫博弈模型,因此,结合min max 算法,将Q -Learning 算法改进为min max Q -算法,并将单方学习扩展至双方学习,以如下的公式来更新Q 值:
1()(,,)(1)(,,)[(,,)max min (,,)]t t t t t t a A PD A Q s a o Q s a o r s a o Q s a o πααγπ+∈∈=-++
产生的序列,,t Q s a o ⎧
⎫⎛⎫⎨⎬ ⎪⎝⎭⎭⎩收敛到*,,t Q s a o ⎧⎫⎛⎫⎨⎬ ⎪⎝⎭⎭⎩
对,s S a A ∀∈∀∈成立。其中'*''(,)(,)(|,)()s Q s a r s a p s s a V s γ=+∑。
证明:定义()(,,)(,,)max min (,,)t t a A
PD A PQ s a o r s a o Q s a o πγπ∈∈=+其中P 是空间t Q 到t Q 的映射。有**()(,,)(,,)max min (,,)a A
PD A PQ s a o r s a o Q s a o πγπ∈∈=+。 **()()*()|(,,)(,,)||max min (,,)max min (,,)|max min (,,)(,,)t t a A a A
PD A PD A t a A PD A PQ s a o PQ s a o Q s a o Q s a o Q s a o Q s a o πππγππγππ∈∈∈∈∈∈-=-≤-
因为
**********(,,)(,,)(,,)(,,)(,,)(,,)(,,)(,,)(,,)(,,)((,,)(,,))((,,)(,,))t t t t Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o ππ
ππππ
ππππππ
-=-+-≤-+-=-+-
于是
****()()*|(,,)(,,)|
max min ((,,)(,,))max min ((,,)(,,))|(,,)(',,)|t t a A a A PD A PD A t PQ s a o PQ s a o Q s a o Q s a o Q s a o Q s a o Q s a o Q s a o ππγπγπγδ
∈∈∈∈-≤-+-≤-+ 很明显
*(),0(max min (,,))a A PD A t Q s a o πδδγπ∈∈→∞→=
同定理1可以证明
**[]Q E P Q = 于是{},,(,)
t s S a A Q s a ∀∈∀∈收敛的两个条件满足。所以有