数学建模-博弈模型-2

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在博弈中, 在博弈中,一旦每个参与者都在竭力猜测其他参 与者的战略选择, 与者的战略选择,而不能通过收益函数做出最优反 那么在这类博弈中,因为最优行为是不确定的, 映,那么在这类博弈中,因为最优行为是不确定的, 所以就不存在纳什均衡(至少不存在2.1.4小节所定 所以就不存在纳什均衡(至少不存在 小节所定 义的纳什均衡)。参与者为了不把自己选择战略的 义的纳什均衡)。参与者为了不把自己选择战略的 )。 意图暴露给对方, 意图暴露给对方,一个办法就是从自己的战略空间 中随机地选择一个战略。 中随机地选择一个战略。混合战略指的就是参与者 以一定的概率去选择某种战略。 以一定的概率去选择某种战略。这类博弈虽然在一 次操作中有输有赢,但将这个博弈多次重复进行, 次操作中有输有赢,但将这个博弈多次重复进行, 可以研究各个战略应赋予多大的概率,能获取最大 可以研究各个战略应赋予多大的概率, 的期望(平均)收益。 的期望(平均)收益。
例二 监督博弈
是税收机关, 在中国博弈中参与者 1 是税收机关,参与者 2 是 纳税人。 纳税人。 税收机关可以选择的战略是检查或不检查, 税收机关可以选择的战略是检查或不检查, 纳 税人可以选择的战略是逃税或不逃税。 税人可以选择的战略是逃税或不逃税。设应纳税款为 a,检查成本为 c,罚款为 F,假定 c<a+F。表 2-13 , , , < + 。 - 给出这个博弈的双变量收益矩阵。 给出这个博弈的双变量收益矩阵。
使用上述定义, 使用上述定义 , 纯战略可以理解为混合战略的特 例。比如纯战略 si 1 等价于混合战略 pi = (1,0, L ,0) ,即选 择纯战略 si 1 的概率为 1,选择任何其他纯战略的概率为 等价的混合战略可类似表述。 0。其余纯战略 sik 等价的混合战略可类似表述。
类似于纯战略空间 si 这里我们用 pi 表示参 的混合战略空间, 与者 i 的混合战略空间,应有 pi ∈ Pi , pi 是参与者 i 的一个混合战略。 p = ( p1 , L , pn ) 表示一种混合战 的一个混合战略。 用 略组合。 用 略组合。 p = × pi 表示混合战略空间组合 即 pi 的 ( 乘积空间) ,应有 乘积空间) 应有 p ∈ P . ,
的战略组合 s = ( s1 , L , si , L , sn ) ,收益函数 ui ( s1 ,L , si ,L , sn ) 均可取一个确定的值。 均可取一个确定的值。
由于混合战略是纯战略空间的一个概率分布, 由于混合战略是纯战略空间的一个概率分布, 合战略是纯战略空间的一个概率分布 这 就使得与参与者对战略选择的不确定性(随机性) 就使得与参与者对战略选择的不确定性(随机性)相 伴的是收益的不确定性。 概率论提供的平均意义上的 伴的是收益的不确定性。 期望值的概念可以用来衡量混合战略的效果, 构造期 期望值的概念可以用来衡量混合战略的效果, 望收益函数就可以比较两个不同混合战略的优劣。 望收益函数就可以比较两个不同混合战略的优劣。 设 p = ( p1 ,L , pn ) 是 一 个 混 合 战 略 组 合 , 其 中
1 − p 为背面的概率,且 0 ≤ q ≤ 1 ;参与人 2 的一个混合 为背面的概率, 参与人
所示的博弈为混合战略的另一个例子。 表 2-1 所示的博弈为混合战略的另一个例子。 其 有三个纯战略: 中参与者 2 有三个纯战略: 左”“中”“右” 这时 “ 、 、 , 他的一个混合战略是概率分布 ( p1 , p2 ,1 − p1 − p2 ) ,其中 p1 表示选择 左” 表示选择“ 的概率, 表示选择“ 的概率, “ 的概率, p2 表示选择“中”的概率, 1 − p1 − p2 表示选择“右”的概率,作为概率分布应有 表示选择“ 的概率,
例一 猜硬币博弈 两个参与人手中各握有一枚硬币, 两个参与人手中各握有一枚硬币,每个人可以选择 是正面向上还是背面向上,然后同时伸开手掌。 是正面向上还是背面向上,然后同时伸开手掌。如果两 枚硬币全部正面向上或全部背面向上,那么参与人2赢 枚硬币全部正面向上或全部背面向上,那么参与人 赢 走参与人1的硬币 的硬币; 走参与人 的硬币;如果两个人的手中硬币一个正面向 上一个背面向上,那么参与人1赢走参与人 的硬币。 赢走参与人2的硬币 上一个背面向上,那么参与人 赢走参与人 的硬币。图 2-12给出这个博弈的双变量收益矩阵。 给出这个博弈的双变量收益矩阵。 - 给出这个博弈的双变量收益矩阵
为了区分,s 就称为纯战略。 为了区分 i 就称为纯战略。对完全信息静态博弈 来说, 来说, 一个参与者的纯战略就是他可以选择的一种特定 的行动。例如在猜硬币博弈中,每个人的战略空间 Si 的行动。例如在猜硬币博弈中, 中含有两个纯战略, 分别是“正面 正面”和 背面 一个参与 背面”。 中含有两个纯战略, 分别是 正面 和“背面 。 者的混合战略就是规定他以某种概率分布随机去选择 不同的行动。 例如在猜硬币博弈中, 不同的行动。 例如在猜硬币博弈中, 参与人 1 的一个混 为出正面的概率, 合战略是概率分布 ( p,1 − p) ,其中 p 为出正面的概率, 战略是概率分布 而且可以看到, 战略是概率分布 (q ,1 − q ) , 且 0 ≤ q ≤ 1 。而且可以看到, 混合战略( )表示参与人的一个纯战略,即选择“正 混合战略(1,0)表示参与人的一个纯战略,即选择 正 背面”的纯战 面”。类似地,混合战略(0,1)表示选择 背面 的纯战 。类似地,混合战略( )表示选择“背面 略。
第三部分 混合战略纳什均衡
在前面给出了一个有 n 个参与者博弈的纳什均 前面给出了一个有 衡的定义, 衡的定义,即对每一个参与者 i 的战略空间 Si,如 果 s 是参与者 i 针对其他 n-1 个参与者所选战略 -
∗ ∗ ∗ ( s1 , s 2 , L , s n ) 为博弈的纳什 的最优反应, 的最优反应,则战略组合
表 2-12 猜硬币博弈 参与 正面 者 1 背面 参与者 2 正面 背面 - 1, 1 1, - 1 1 , -1 -1, 1
这个博弈通常称为两人零和博弈, 这个博弈通常称为两人零和博弈,就是在每一个 结局里一方所得即为另一方所失, 结局里一方所得即为另一方所失,即两个参与人的收 益之和恰好都等于零。 益之和恰好都等于零。用在双变量收益矩阵中划横线 的方法,在这个博弈中找不到纳什均衡, 的方法,在这个博弈中找不到纳什均衡,也就是说没 有一个战略组合能够满足( )条件。 有一个战略组合能够满足(NE)条件。
pi 1 + pi 2 + L + piK = 1 。概率 分布不同就构成参与者的不同的混合战略。 分布不同就构成参与者的不同的混合战略。我们用 pi 表
( k = 1,2, L, K ) ,应有 0 ≤ pik ≤ 1 且
的任意一个混合战略, 示基于战略空间 S i 的任意一个混合战略,正如先前用 s 中任意一个纯战略。 表示 S i 中任意一个纯战略。
0 ≤ p1 ≤ 1,0 ≤ p2 ≤ 1 以及 0 ≤ p1 + p2 ≤ 1 。
图 2- 1 参与 者1 上 下 参与者 2 左 中 右 1,0 1,2 0,1 0,3 0,1 2,0
在此博弈中,混合战略(1/3,1/3,1/3) 在此博弈中,混合战略(1/3,1/3,1/3)表示 选择“ 的概率相同, 参与 2 选择“左”“中”“右”的概率相同,而 、 、 的概率相同, )表示选择“ 、 (1/2,1/2,0)表示选择“左”“中”的概率相同, 但不可能选择“ 但不可能选择“右” 一般情况是,参与者的一个 。一般情况是, 纯战略只是混合战略的一种特例—— ——一个退化了 纯战略只是混合战略的一种特例 —— 一个退化了 的概率分布。 只选择“ 的概率分布。例如参与者 2 只选择“左”的纯战略 可表示为混合战略( 可表示为混合战略(1,0,0) 。
表 2-13 - 纳税人 监督博弈 逃税 不逃税 税收 检查 A+F-c,-a-F a-c,-a , , 机关 不检查 0,0 , a,-a , 用在双变量收益矩阵中划横线的方法, 用在双变量收益矩阵中划横线的方法,也找不到这 个博弈的纳什均衡。 个博弈的纳什均衡。
一、混合战略的概念
上面列举的两个博弈, 上面列举的两个博弈,参与者在自己的战略空间 中都找不出最优反应战略组成纳什均衡的战略组合。 中都找不出最优反应战略组成纳什均衡的战略组合。 这两个博弈的一个明显的特点就是每个参与者都试图 先猜中对方的战略, 先猜中对方的战略,而每一个参与者又都尽量不让对 方猜中对方的战略。类似的博弈问题在划拳、 方猜中对方的战略。类似的博弈问题在划拳、扑克比 球赛、甚至战争等其他的竞技中也经常出现。 赛、球赛、甚至战争等其他的竞技中也经常出现。在 剪刀、石头、 游戏中, “剪刀、石头、布”游戏中,一方能赢对方的前提是 他能猜中对方会出什么手势。 他能猜中对方会出什么手势。

均衡, 均衡,即
∗ ∗ ∗ ∗ ui ( s1 , L , si∗−1 , si∗ , si∗+1 , L , sn ) ≥ ui ( s1 , L , si∗−1 , si , si∗+1 , L , sn )
都成立。根据这一定义, 对 Si 中所有的 si 都成立。根据这一定义,有些博弈是不 存在纳什均衡的,考察下面两个例子。 存在纳什均衡的,考察下面两个例子。
更一般地,假设参与者 i 有 K 个纯战略
S i = { si 1 , L , siK } , 则参与者 i 的一个混合战略是一个概
率分布 ( pi 1 , L , pik ) , 其中 pik 表示参与者 i 选择战略 sik 的 概率
( k = 1,2,L , K )
。由概率分布的条件,对所有
i
定义
对标准式博弈 G={ S1 , S 2 L , S n ;U 1 , U 2 L , U n } , 假设 =
S i = { si 1 , L , siK } ,那么参与者 i 的一个混合战略是概率
分 布 pi = ( pi 1 , L , piK ) 。 其 中对所 有 ( k = 1,2,L, K ) 都有 0 ≤ pik ≤ 1 且 p i 1 + pi 2 + L + piK = 1 。
二、混合战略纳什均衡
前面讨论的纯战略纳什均衡, 前面讨论的纯战略纳什均衡,保证了每一个参与 者选择的纯战略都是针对其他参与者所选择纯战略的 最优反应战略。 最优反应战略。这里所谓最优是指收益函数 ui 的取值 最 大 。 参 与 者 i 的 收 益 函 数 ui 是 随 产 值 ; 组 合
s = ( s1 , L , si , L , sn ) 的不同而变化的。对于任何一个给定 的不同而变化的。
规范地表述, 规范地表述,参与者 i 的一个混合战略是在其战略空 的概率分布。 间 Si 中战略 si 的概率分布。 假定 S i = { si 1 , si 2 ,L , siK } , 选择战略 sik 概率为 pik , 就有如下的分布律。这时, 就有如下的分布律。这时,概率分布 ( pi 1 , pi 2 , L , piK ) 就是 的一个混合战略。 参与者 i 的一个混合战略。 战略 si 概率 pi si1, si2,…,siK … pi1, pi2,…,piK …
pi = ( pi 1 , L , piK ) 是 S i = { si 1 , Biblioteka Baidu , siK } 的 一 个 概 率 分 布 。
ui ( s ) = ui ( si , L , sn ) 是参与者 i 的收益函数。参与者 i 的收益函数。
的期望收益函数可以 定义为
vi ( p1 , L , pn ) = ∑ p1 ( s1 ) p2 ( s2 ) L pn ( sn ) × ui ( s1 , s2 , L , sn )
s∈S
注意到, 注意到,这里 s = ( s1 , L , si , L , sn ) 是一个特定的战略组 合,对应这一战略组合,参与者 i 的收益是 ui ( s1 , L , si , L , sn ) 。因为这里讨论的是静态博弈,即所有 因为这里讨论的是静态博弈, 参与者同时行动, 则出现战略组合 s = ( s1 , L , s i , L , s n ) 的联 参与者同时行动, 合概率就是 p1 ( s1 ) p2 ( s2 )L pn ( sn ) 。求和是对纯战略空间组合 s = × s1 中所有可能的纯战略组合 s 进行的。 进行的。
相关文档
最新文档