博弈论第六章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 我们用红线表示出来,以强调在1所能选择的
每一个p-混合策略下,2能够做到的时1得到的 最低支付。这个呈倒V型的图像给出了在1所能 选择的所有混合策略与他能得到的最小支付之 间的关系。整个倒V型图像就是位于p-混合行 的最右端所应填上的最小值,它不再是一个数, 而是一个函数。
2的选择
支付 2 1 正 反 正 (q) -1 1
支付 甲 上 下
乙
左
右
-3,3 , 10,-10 ,
4,-4 , 6,-6 ,
乙
左
右
甲 上 -3 4
下
10
6
第二节
最小最大方法
最小最大方法
• 由冯·诺依曼提出 • 基本思想: 基本思想:
作为局中人,对手将采取对他自己最有利 的策略;相应的,对手会选择使你获得尽 可能差的支付的策略。 由于零和博弈的特点和性质, 由于零和博弈的特点和性质,以上思想即 任何使对手得到最好结果的策略, 为:任何使对手得到最好结果的策略,都 会使你获得最差的结果。 会使你获得最差的结果。双方都具有这样 的理性! 的理性!
支付占优与风险占优一致
支付 乙 甲 左行 右行 左行 1,1 , 0,0 , 右行 0,0 , 1,1 ,
•
问题: 问题:如果一个零和博弈中不存在纯策 略纳什均衡,怎么办? 略纳什均衡,怎么办?
零和博弈
2 支付 1 正面 -1,1 , 1,-1 , 1,-1 , -1,1 ,
正面
反面
反面
行局中人的支付
2
支付 1 正面 反面
正面 -1 1
max=1
反面 1 -1
max=1 min= -1 min= -1
•
如果行局中人的“最小”中的“最大” 如果行局中人的“最小”中的“最大” 和列局中人的“最大”中的“最小” 和列局中人的“最大”中的“最小”的值 出现在支付矩阵的同一个位置,则该结果 出现在支付矩阵的同一个位置, 就构成博弈的纳什均衡。 就构成博弈的纳什均衡。
•
这种在零和博弈中寻找纯策略纳什均衡 的方法,称为最大最小-最小最大法, 的方法,称为最大最小-最小最大法,简称 最小最大法。 最小最大法。
时装 支付 妻子 时装 2,1 , 0,0 , 丈夫
足球
0,0 , 1,2 ,
足球
协调博弈 • 广义的协调博弈:包括所有能够协调出双
赢对局的博弈,如囚徒困境;
• 狭义的协调博弈:仅指个体利益与集体利
益一致的博弈,对于参与人而言,合作总 比不合作要好。
协调博弈举例: 协调博弈举例:胖子进门
先走 支付 张三 先走 -1,-1 , 1,2 , 李四
第六章
零和博弈
零和博弈 最小最大方法 直线交叉法 对抗性排序
第一节 零和博弈与非零和博弈
零和博弈与非零和博弈 (zero-sum game and non-zero-sum game)
• 如果一个博弈在所有各种对局下全体参与
人之得益总和总是保持为零,这个博弈就 叫零和博弈;
• 相反,如果一个博弈在所有各种对局下全
min= -1 min= -1
1的选择
2
支付 1 正(p) )
正
反
-1 1
-p+(1-p)
1 -1
p-(1-p)
min=-1
反(1-p) )
p-混合 混合
min=-1
min=? ?
参与人1 参与人1的p-混合策略图解
1的支付 的支付
1 1
2正
1/2
2反
0
的 混合策略 1 1的p混合策略
-1
-1
• 在均衡状态下,对于每一个可能的p-混合的值,
• 反过来,给定2选择q-混合策略,1选择正面或
反面的纯策略,或者两者混合的策略所得到的 期望支付都是0.因此,他没有激励偏离给定的 p=0.5混合策略选择。这样,1的p=0.5就是针 对2的q=0.5最优反应。合起来,这两个混合策 略是1和2相互间的最优反应,因此构成这个博 弈的纳什均衡。
第四节
max=1
反 (1-q) 1 -1
max=1
q-混合 混合
-q+(1-q)
q-(1-q)
max=?
参与人2的q-混合策略图解 参与人2
2的支付 的支付
1
1反
1/2
1正
1ቤተ መጻሕፍቲ ባይዱ
0
的 混合策略 1 2的q混合策略
-1
-1
• 找出1和2的最优策略选择后,把这两个策略选
择放在一起,并证明它们构成这个博弈的纳什 均衡。 • 给定1选择P-混合策略,此时2无论是选择正面 还是反面,他所得到的期望支付都是0,这与 他采取q-混合策略时所得到的支付是相同的, 因此,2没有激励偏离给定的q-混合策略的选 择。事实上,这也是说q=0.5构成2的最优选择 的整个逻辑基础。
5,-5 , 6,-6 , 1,-1 ,
3,-3 , 2,-2 , 0,0 ,
1,-1 , 1,-1 , 0,0 ,
参与人 1
M
D
最小最大方法: 最小最大方法:4
参与人2 参与人 L U M R
5 6 1
3 4 6
2 3 0
参与人 1
M
D
最小最大方法: 最小最大方法:4
参与人2 参与人 L U 参与人 1 M M R
最小最大方法的应用
支付 甲 上 下
乙
左
右
-3 10 max=10
4 6 max=6
min=-3 min=6
最小最大方法: 最小最大方法:1
2 支付 1 上 1 2 4 3
左
右
下
最小最大方法: 最小最大方法:1
2 支付 1 上 1,-1 , 2,-2 , 4,-4 , 3,-3 ,
左
右
下
最小最大方法: 最小最大方法:2
•
同样,列局中人也会认为, 同样,列局中人也会认为,对于他所能 选择的每一列, 选择的每一列,行局中人都将选择该列中 具有最大数字的那一列。 具有最大数字的那一列。即列局中人会在 行局中人所选择的这些每列的最大数字中 选择最小的数字所对应的那一列。 选择最小的数字所对应的那一列。即为 最大”中的“最小” “最大”中的“最小”。
支付 乙 甲 猎鹿 猎兔 猎鹿 4,4 , 2,0 , 猎兔 0,2 , 3,3 ,
纯策略猎鹿是支付占优纳什均衡、 纯策略猎鹿是支付占优纳什均衡、纯策略猎兔是 风险占优纳什均衡。 风险占优纳什均衡。 猎兔策略是一个保险策略, 猎兔策略是一个保险策略,而猎鹿则是一个帕累 托效率策略但由于策略的不确定性而使它具有较大的 风险。 风险。 因此,均衡选择取决于参与人对风险的态度。 因此,均衡选择取决于参与人对风险的态度。
5,-5 , 6,-6 , 1,-1 ,
3,-3 , 4,-4 , 6,-6 ,
2,-2 , 3,-3 , 0,0 ,
D
•
最小最大方法与相对优势策略划线法 一样, 一样,都是寻找同时行动博弈的纯策略 纳什均衡的一种方法。 纳什均衡的一种方法。 • 但是,最小最大方法的适用范围窄, 但是,最小最大方法的适用范围窄, 只适用于零和博弈。 只适用于零和博弈。
对称博弈
对称博弈是指在无角色区分的参与者之间进行的协调博弈, 对称博弈 它表现在支付函数的对称上,二者的策略集是一样的。 抑或:通俗说就是代表参与者身份的下标,在分析中可以省 略掉而没有关系。 对称博弈分成三类: 支付占优与风险占优不一致; 支付占优与风险占优一致; 无占优性可比的协调博弈。
支付占优与风险占优不一致
1会预期2总是选择对2自己最有利的行动。因 此,对于任何一个具体的p值,1总是预期2会 选择与图中两条直线中处于较低位置的直线所 对应的行动。 • 当1选择正面的概率小于50%时,1预期2会选择 反面;而当1选择正面的概率大于50%时,1预 期2会选择正面。如果1选择正面和反面的概率 各占50%时,则2选择正面反面所得到的支付是 相同的。
坦白
0,-9
-6,-6
• 在研究二人零和博弈的时候,只要分析 在研究二人零和博弈的时候,
其中一个人的支付矩阵就够了。所以, 其中一个人的支付矩阵就够了。所以, 通常只使用一个局中人的支付单矩阵。 通常只使用一个局中人的支付单矩阵。
行局中人的支付
2
支付 1 正面 反面
正面 -1 1
反面 1 -1
零和博弈的求解方法
第三节
直线交叉法:扩展的最小最大方法 直线交叉法:
• 最小最大方法:
适用于零和博弈的纯策略纳什均衡
• 扩展的最小最大方法
(直线交叉方法): 适用于零和博弈的混合策略纳什均衡
• 在非零和博弈中,可能存在共同利益。
无纯策略纳什均衡的零和博弈
支付 1 正 反
2
正 -1 1
max=1 max=1
反 1 -1
对抗性排序
•对抗性排序
根据收益的相关性进行
你死我活” “你死我活”的掷硬币游戏
2 支付 1 正面 -1,1 , 1,-1 , 1,-1 , -1,1 ,
正面
反面
反面
出现“双赢” 出现“双赢”可能的价格大战囚徒困 境
百事 可乐 低价 可口可乐 高价
支付
低价
3, 3
6, 1
高价
1, 6
5, 5
个体利益与集体利益一致的性别战博弈
• 如果一个博弈在所有各种对局下全体参与人之得
益总和总是保持为一个常数,这个博弈就叫常和 博弈;
• 相反,如果一个博弈在所有各种对局下全体参与
人之得益总和不总是保持为一个常数,这个博弈 就叫非常和博弈。
• 常和博弈也是利益对抗程度最高的博弈。
常和博弈与归零博弈
• 设G是一个n人常和博弈,那么在G的每种战略组
2 支付 1 正面
正面
反面
-1.5,0.5 , 0.5,-1.5 ,
0.5,-1.5 , -1.5,0.5 ,
反面
归零博弈:支付减去归零博弈:支付减去-0.5
2 支付 1 正面 -1,1 , 1,-1 , 1,-1 , -1,1 ,
正面
反面
反面
非零和博弈:囚犯困境(蕴含双赢 或多赢)
支付 嫌疑人A 抵赖 -1,-1 -9,0 嫌疑 人B 抵赖 坦白
•
假定现在给出的是行局中人的支付矩阵, 假定现在给出的是行局中人的支付矩阵,站在 行局中人的角度看, 行局中人的角度看,他当然希望博弈的结果是支 付尽可能大的那个矩阵位置, 付尽可能大的那个矩阵位置,而列局中人则希望 博弈的结果是支付尽可能小的那个位置。 博弈的结果是支付尽可能小的那个位置。 • 行局中人会认为,对他所能选择的每个行策略, 行局中人会认为,对他所能选择的每个行策略, 列局中人都将选择该行中数字最小的那一列。 列局中人都将选择该行中数字最小的那一列。因 此,行局中人应该选择在列局中人所选择的这些 每行的最小的数字中最大的数字所对应的那一行。 每行的最小的数字中最大的数字所对应的那一行。 就是选择“最小”中的“最大” 就是选择“最小”中的“最大”。
后走
2,1 , -1,-1 ,
后走
协调博弈举例: 协调博弈举例:交通规则博弈
支付 张三 靠右 靠左
李四
靠右
靠左
1,1 , -1,-1 ,
-1,-1 , 1,1 ,
胖子进门博弈与情侣博弈有什么不同呢? 胖子进门博弈与情侣博弈有什么不同呢?其中一 个不同,是双方选择不同的纯策略, 个不同,是双方选择不同的纯策略,才是共同利 益所在。 益所在。 交通规则博弈与情侣博弈以及胖子进门博弈有什 么不同呢?最大的不同,在于双赢是“彻底” 么不同呢?最大的不同,在于双赢是“彻底”的 双赢,双赢之下没有谁占谁的便宜的事情, 双赢,双赢之下没有谁占谁的便宜的事情,真正 做到你好我好大家好,对对手好,就是对自己好。 做到你好我好大家好,对对手好,就是对自己好。 胖子进门博弈和交通规则博弈都是对称博弈, 胖子进门博弈和交通规则博弈都是对称博弈,但 对称博弈 是情侣博弈不是对称博弈。 是情侣博弈不是对称博弈。
合下,博弈的n个参与人的支付的总和是一个常 偏零因子。 数。常数的1/n称为常和博弈支付的偏零因子 偏零因子
• 对于每个n人常和博弈G,可以从每个参与人的
支付中减去博弈的偏零因子,将G转换为零和博 弈G’,把G’叫做常和博弈G的归零博弈 归零博弈。 归零博弈
常和博弈: 常和博弈:掷硬币 常和为偏零因子常和为-1:偏零因子-1/2
2 支付 1 上 1 4 2 3
左
右
下
最小最大方法: 最小最大方法:2
2 支付 1 上 下 1,-1 , 4,-4 , 2,-2 , 3,-3 , 左 右
最小最大方法: 最小最大方法:3
参与人2 参与人 L M R
U
5 6 1
3 2 0
1 1 0
参与人1 M
D
最小最大方法: 最小最大方法:3
参与人2 参与人 L U M R
体参与人之得益总和不总是保持为零,这 个博弈就叫非零和博弈。
• 零和博弈是利益对抗程度最高的博弈。
零和博弈: 零和博弈:掷硬币
2 支付 1 正面 反面 -1,1 , 1,-1 , 1,-1 , -1,1 ,
正面
反面
常和博弈与非常和博弈 (constant-sum game and variable-sum game)