双人零和博弈
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、双人零和博弈的概念
零和博弈又称零和游戏,与非零和博弈相对,是博弈论的一个概念,属非合作博弈,指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,一方收益多少,另一方就损失多少,所以博弈各方的收益和损失相加总和永远为“零”.双方不存在合作的可能.用通俗的话来讲也可以说是:自己的幸福是建立在他人的痛苦之上的,二者的大小完全相等,因而双方在决策时都以自己的最大利益为目标,想尽一切办法以实现“损人利己”.零和博弈的结果是一方吃掉另一方,一方的所得正是另一方的所失,整个社会的利益并不会因此而增加一分.
二、双人零和博弈的模型的建立
建立双人零和博弈的模型,就是要根据对实际问题的叙述确定参与人(局中人)的策略集以及相应的收益矩阵(支付矩阵).我们记双人零和博弈中的两个局中人为A和B;局中人A的策略集为
a
1,…,a
m
,局中人B的策略集为b
1
,…,b
n
;c
ij
为局中人A采取策略a
i
、
局中人B采取策略b
j 时A的收益(这时局中人B的收益为- c
ij
).则
收益矩阵见下表
表1
那么下面我们通过例子来说明双人零和博弈模型的建立: 例1
甲、乙两名儿童玩猜拳游戏.游戏中双方同时分别或伸出拳头(代表石头)、或手掌(代表布)、或两个手指(代表剪刀).规则是剪刀赢布,布赢石头,石头赢剪刀,赢者得一分.若双方所出相同,算和局,均不得分.试列出对儿童甲的赢得矩阵.
解 本例中儿童甲或乙均有三个策略:或出拳头,或出手掌,或出两个手指,根据例子中所述规则,可列出对儿童甲的赢得矩阵见表2.
表2
例2 从一张红牌和一张黑牌中随机抽取一张,在对B 保密情况下拿给A 看,若A 看到的是红牌,他可选择或掷硬币决定胜负,或让B 猜.若选择掷硬币,当出现正面,A 赢p 元,出现反面,输q 元;若让B 猜,当B 猜中是红牌,A 输r 元,反之B 猜是黑牌,A 赢s 元.若A 看到的是黑牌,他只能让B 猜.当B 猜中是黑牌,A 输u 元,反
之B 猜是红牌,A 赢t 元,试确定A 、B 各自的策略,建立支付矩阵.
解 因A 的赢得和损失分别是B 的损失和赢得,故属二人零和博弈.为便于分析,可画出如图3的博弈树图.
图3中,○为随机点,□分别为A 和B 的决策点,从图中看出A 的策略有掷硬币和让B 猜两种,B 的策略有猜红和猜黑两种,据此可归纳出各种情况下A 和B 输赢值分析的表格,见表4.
图3
抽到红牌正面反面抽到黑球
○
□
□
○
□
1/2
掷硬币
让B 猜
1/21/2猜红猜黑猜黑猜红1/2
让B 猜
p
-q
-r
s
t
-u
表4
对表4中各栏数字可以这样来理解:因让A 看到红牌时或掷硬币或让B 猜.若A 决定选掷硬币这个策略,当出现正面,这时不管B 猜红或猜黑,A 都赢p 元;当出现反面,不管B 猜红或猜黑,A 都输q 元.同样A 选择让B 猜的策略后,他的输赢只同B 猜红或猜黑有关,而与
掷硬币的正反面无关.又若抽到的牌是黑牌,A 的决定只能让B 猜,因而掷硬币策略对A 的胜负同样不起作用.考虑到抽牌时的红与黑的概率各为1/2,掷硬币时出现正反面的概率也各为1/2,故当A 采取“掷硬币”策略,而B 选择“猜红”策略时,A 的期望赢得为:
⎪⎭⎫ ⎝⎛-q p 212121+t 21=()t q p 24
1
+- 当A 采取让B 猜策略,B 选择“猜红”策略时,A 的期望赢得为:
()()⎪⎭⎫ ⎝⎛-+-r r 212121+t 2
1
=()t r +-21 相应可求得其他策略对A 的期望赢得值.由此可列出本例的收益矩阵,见表5.
表5
三、双人零和博弈的求解
定理1(极小极大定理)在零和博弈中,对于给定的支付矩阵U ,如果存在混合战略1σ*=(1σ*
1,…1σ*
m )和2σ*=(2σ*
1,…2σ*
n )以及一个常数v 满足,对任意j 有∑=m
i i ij a 1
1*
σ≥v ,对任意的i 有∑=n
j j ij a 1
2*
σ≤
v ,那么战略组合(1σ*,2σ*)为该博弈的Nash 均衡.其中,v 为参与人1在均衡中所得到的期望支付,亦称该博弈的值.
这个极小极大定理,其基本思想就是:参与人1考虑到对方使自
己支付最小的最优反应,从中选择使自己最好的策略.参与人2也遵循同样的思路,这样才能满足Nash 均衡的互为最优反应的条件.这样我们就可以得到双人零和博弈Nash 均衡的计算方法了,如以下定理
定理2 对于给定的零和博弈,如果博弈的值v 大于0,则博弈的Nash 均衡(1σ*,2σ*)为以下对偶线性规划问题的解
Min ∑=m
i i p 1
s.t. ∑=m
i i ij p a 1
≥1 (j=1,…,n)
i p ≥0 (i=1,…,m) 和
Max ∑=n
j j q 1
s.t. ∑=n
j j ij q a 1
≤1 (i=1,…,m)
j q ≥0 (j=1,…,n) 其中,Nash 均衡支付
∑∑===
=
n
j j
m
i i
q
p
v 1
1
1
1
Nash 均衡战略
),,,,(1*1m i vp vp vp =σ,),,,(1*2n j vq vq vq =σ
由于此定理只适用于v 大于0的情形,因此对于v 小于等于0的情形,该定理所给出的方法需做适当的修改.
命题 如果支付矩阵U=mxn ij a )(的每个元素都大于0,即ij a >0,那么博弈的值大于0,即v >0.
定理3 如果支付矩阵U '=mxn ij a )('是由U=mxn ij a )(的每个元素都加上一个常数c 得到,即c a a ij ij +=',那么支付矩阵U 和U '所对应的零和博弈的Nash 均衡战略相同,博弈的值相差c.
根据以上定理,可以得到如下求解一般零和博弈Nash 均衡的方法:
(1) 若支付矩阵U 中的所有元素都大于零,则可以直接根据定理进行计算;若支付矩阵U 中有小于0的元素,可以通过加上一个常数使它们都大于0,然后再根据定理进行计算. (2) 求解定理中的两个对偶线性规划问题.
下面通过实例来说明如何求解双人零和博弈的Nash 均衡.
例3 求解下图中战略式博弈的Nash 均衡. 参与人2
L M R
U
参与人1 C D
通过求解对偶线性规划问题求零和博弈的Nash 均衡
解 根据前面的介绍,可知该博弈的支付矩阵为
U=⎪⎪⎪⎭
⎫ ⎝⎛224132312
不难发现,该博弈的支付矩阵U=()33x ij a 的每个元素都大于0,即
ij a >0,那么博弈的值大于0,即v>0.设参与人1和参与人2的混合战
略分别是1σ=(321,,vp vp vp )和2σ=(321,,vq vq vq ),利用对偶线性规划求解方法求解该战略式博弈的Nash 均衡,构造规划问题如下.
Min {321p p p ++}
s.t. 321422p p p ++≥1 32123p p p ++≥1 32123p p p ++≥1 1p ≥0,2p ≥0,3p ≥0 和
Max {321q q q ++}
s.t. 32132q q q ++≤1 32132q q q ++≤1 321224q q q ++≤1 1q ≥0,2q ≥0,3q ≥0
求解第一个规划问题,得到1p =1/4, 2p =1/4, 3p =0,参与人1的支付v=2.因此,参与人1的混合战略1σ*=(1/2,1/2,0).同理,对对偶问题求解,得到1q =0,2q =1/4, 3q =1/4,参与人2的损失v=2,因此参与人的混合战略2σ*=(0,1/2,1/2).所以,该博弈存在一个混合战略Nash 均衡((1/2,1/2,0)(0,1/2,1/2),).
例4 求解下图中的战略式博弈的Nash 均衡.
参与人2
L M R U 参与人1 C D
通过求解对偶线性规划问题求零和博弈的Nash 均衡
解 该博弈的支付矩阵为
U=⎪⎪⎪⎭
⎫ ⎝⎛--203011122 在上树支付矩阵U=33)(x ij a 中,12a <0, 21a <0.为了利用对偶线性规划模型求解博弈的解,构造支付矩阵U '=33')(x ij a ,其中a 'ij
=ij a +c.
令c=2,那么新构造的支付矩阵为
U '=⎪⎪⎪⎭
⎫ ⎝⎛425231304 设参与人1和参与人2的混合战略分别是1σ=(v 'p 1, v 'p 2, v 'p 3)和2σ=(v 'q 1, v 'q 2 v 'q 3,),v 为原博弈的值,v '为新博弈的值,且v '=v+2,利用对偶线性规划求解方法求解新战略式博弈的Nash 均衡,构造规划问题如下.
Min {321p p p ++} s.t. 32154p p p ++≥1
3223p p +≥1 321423p p p ++≥1
1p ≥0, 2p ≥0, 3p ≥0
Max {321q q q ++}
s.t. 3134q q +≤1 32123q q q ++≤1 321425q q q ++≤1 1q ≥0,2q ≥0,3q ≥0
通过求解对偶问题,得到1p =0,2p =3/13, 3p =2/13,参与人1的支付v '=13/5, 1q =1/13, 2q =4/13, 3q =0,参与人2的损失v '=13/5.因此,参与人1的混合战略1σ*=(0,3/5,2/5), 参与人2 的混合战略2σ*=(1/5,4/5,0),原博弈的值v= v '-2=3/5.所以,博弈存在一个混合战略Nash 均衡((0,3/5,2/5),(1/5,4/5,0)).。