第七章 开金矿博弈与逆推归纳法

合集下载

经济博弈论3

经济博弈论3

不借
最大利益为重,甲有一个 不可信承诺,正因为此所 以使得甲乙合作最成为了

甲 不分
(1,0)
不可能
(2,2)
(0,4)
开金矿博弈
在本博弈中,如果已打官

司是可信的,则甲在第二

阶段一定会选择分,则乙
在第一阶段一定会选择借, 分
所以最终(借,分)。此
例也说明晚上的法律制度 (2,2)
制度,不仅哪呢过保障社
乙 借
初始信息集和进行博弈所

需要的全部信息,能够自 成一个博弈的原博弈的一 分
不分
部分,称为原动态博弈的 (2,2)

一个“子博弈”。
不借 (1,0)
子博弈:即动态博弈中满足 一定要求的局部所构成的 次级博弈
(-1,0) (0,4)
二级子博弈
三级子博弈
仿冒
A 不仿冒
B
不制止 (0,10)
制止
(-2,5) 制止
(-1,0) (0,4)
衡路上的节点。
3.4 几个经典动态博弈模型
3.4.1 寡占的斯塔克博格模型 3.4.2 劳资博弈 3.4.3 讨价还价博弈 3.4.4 委托人—代理人理论
3.4.1 寡占的斯塔克博格模型
斯塔克博格模型是动态的寡头产量博弈模型。 先后选择产量的产量竞争博弈 把古诺模型改为厂商1先选择,厂商2后选择,而
不委托 委托人的利益,R(E)是指较 高的产出, R(S)较低的产出,
2
接受
[R(0),0] 拒绝
w(E)是较高的报酬,代理人 要得到较高的报酬但有较高 的负效用-S, w(S)是较低的
2
[R(0),0]
报酬
代理人的选择

完全完美信息动态博弈

完全完美信息动态博弈
• 子博弈完美纳什均衡本身也是纳什均衡,不过它是比纳什均衡更强 的解。
• 子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺,因 此是真正稳定的。
• 子博弈是倒着看的,从最小的子博弈开始我们就找稳定策略组合, 直至最开始的节点,那么当然是稳定的了。大家会发展这正是逆推 归纳法。
• 逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。
• 战略空间是连续函数:产量。
(-2,5) 制止
仿冒
A 不仿冒
B 不制止 (5,5)
(2,2)
(10,4)
4.1.2 动态博弈的基本特点
• 策略是在整个博弈中所有选择、行为的计划,不能分割。 • 结果是上述“计划型”策略的策略组合,构成一条路径. • 得益对应每条路径,而不是对应每步选择、行为.
• 动态博弈的非对称性——先后次序决定动态博弈必然是非对称的。先 选择、行为的博弈方常常更有利,有“先行优势”。
动)开始。这里参与者1面临的选择是L’’。那么在第二阶段,参与者2预测 到一旦博弈进入到第三阶段,则参与者1会选择L’’ ,这会使2的收益为0, 从而参与者2在第二阶段的选择为:L‘可得收益1, R“可得收益0,于是 L‘是最优的。
• 这样在第一阶段,参与者1预测到如果博弈进入到第二阶段,2将选择L’, 使参与者1的收益为1,从而参与者1在第一阶段的选择是:L收益为2, R收益 为1,于是L是最优的。


不借


(2,2) 打
(1,0) 不分

不打
(-1,0)
(0,4)
法律保障不足的开金矿博弈 ——分钱打官司都不可信
• 第一个图中,通过法律手段使乙的利益得到保障,这样乙的完整策略: “第一阶段借,如果第二阶段甲不分,第三阶段打官司。”甲的完整策 略是:“第二阶段分。”这是这个3阶段动态博弈的解。

博弈论3-2可信性与逆推归纳法

博弈论3-2可信性与逆推归纳法

3.2.1 可信性问题3.2.2 逆推归纳法73.2 可信性和逆推归纳法例:开金矿博弈(0,4)(2,2)(1,0)不借借分不分开金矿博弈甲乙(0,4)(2,2)(1,0)不借借分不分甲乙第二阶段甲不分钱(0,4)(2,2)(1,0)不借借分不分甲乙第一阶段乙不借钱分析过程:甲不分钱得益更多,甲不分钱,分钱承诺不可信分钱承诺不可信,乙不借钱不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙有法律保障的开金矿博弈——分钱打官司都可信第二种开金矿博弈签合约的开金矿博弈不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙打官司得益更多,乙会打官司,打官司威胁可信第二种开金矿博弈签合约的开金矿博弈分析过程:不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙打官司威胁可信甲分钱得益更多,甲愿意分钱,此时分钱承诺可信因为分钱承诺可信,乙愿意借钱1011第三种开金矿博弈不借借不分分(1,0)不打打(0,4)(-1,0)(2,2)乙甲乙法律保障不足的开金矿博弈——分钱打官司都不可信3.2.1 可信性—动态博弈中心问题不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙分析结果:不借借不分分(1,0)不打打(0,4)(-1,0)(2,2)乙甲乙不打官司得益更多,乙不打官司,此时,打官司威胁不可信分析过程:不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙打官司威胁不可信甲不分钱,此时,分钱承诺不可信分钱承诺不可信,乙不借钱第三种开金矿博弈12(0,4)(2,2)(1,0)不借借分不分甲乙分钱承诺不可信,乙不借钱第一种开金矿博弈第二种开金矿博弈第三种开金矿博弈不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙打官司威胁不可信,分钱承诺可信,乙愿意借钱不借借不分分(1,0)不打打(0,4)(1,0)(2,2)乙甲乙打官司威胁不可信,分钱承诺不可信,乙不借钱开金矿博弈小结3.2.2 逆推归纳法定义:从动态博弈的最后一个阶段开始分析,确定所分析阶段博弈方的选择和路径,然后再确定前一个阶段博弈方的选择和路径。

博弈行为中的演绎与归纳推理及其问题(最终)

博弈行为中的演绎与归纳推理及其问题(最终)

博弈行为中的演绎与归纳推理及其问题【内容撮要】博弈逻辑(game logic) 是随着博弈论的迅速进展而形成的一个新的学科,它是一步履逻辑。

博弈逻辑研究的是理性的人在互动步履中即博弈中的推理问题。

在博弈行为中存在演绎推理和归纳推理。

正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中一样存在悖论或“问题〞。

博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是不是有效的问题。

【关键词】博弈逻辑/ 演绎推理与归纳推理/ 逆向归纳法悖论/ 归纳推理的合理性【正文】1 一种新的逻辑:博弈逻辑博弈论研究人类活动中的互动行为,在经济学中取得遍及的运用。

在博弈论中,人类的所有活动,只假设是互动行为,均能够当作是博弈行动。

在此根底上,一种新的逻辑“博弈逻辑〞(game logic) 得以兴起,它是一种特殊的步履逻辑(action logic) 。

博弈论研究多个理性人在互动进程中如何选择本身的策略。

理性的人是使本身的目标或得益最大化的人,在经济活动中理性的人便是使经济目标最大化的人——经济人。

理性人如何使得本身的“得益〞最大?关键是“推理〞。

博弈逻辑中存在着两种研究纲领。

第一种研究纲领是结合模态逻辑系统,成立新的博弈逻辑系统。

在这方面,日本筑波大学的金子守(Mamoru Kaneko)传授是这方面的权威。

近几年,他在国际刊物上颁发了大量有关博弈逻辑方面的论文。

他不仅在模态逻辑系统的根底上成立了多个博弈逻辑(game logic) 系统,并且,成立了与博弈逻辑紧密相关的公共常识逻辑(common knowledge logic) 系统。

第二种研究纲领是研究博弈活动中的实际“推理问题〞,许多博弈论专家在此方面做了大量的工作。

对博弈逻辑做整体的阐发不是阿谁地址的任务,本文的目的是简要阐述博弈活动中的推理问题,属于第二种研究纲领。

依照博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。

但是,正如传统逻辑中存在着悖论〔演绎悖论和归纳悖论〕,在博弈逻辑中一样存在着悖论。

3.2完全且完美信息动态博弈

3.2完全且完美信息动态博弈

动态博弈的一个中心问题是“可信性”问题。 所谓可信性是指动态博弈中先行为的 参与人是否该相信后行为的参与人会 采取对自己有利的或不利的行为。因为后行 为方将来会采取对先行为方有利的行为相当 于一种“许诺”,而将来会采取对先行为方 不利的行为相当于一种“威胁”,因此我们 可将可信性分为“许诺的可信性”和 “威胁的可信性”
我们以“开金矿博弈”为例来讨论可信性问题
甲要开采一价值4万元的金矿,缺1万元的资金, 向乙借1万元,许诺采到金子后与乙平分。 乙是否借钱给甲呢?
乙最需要关心的就是甲采到金子后是否会履行诺 言跟自己平分,因为万一甲采到金子后不但不跟 乙平分,而且还赖帐或卷款潜逃,则乙连自己的 本钱都收不回来。关键的是要判断的许诺是否可 信!以自身利益最大化原则,甲必然选择不分! 乙清楚甲的行为准则,最好的选择是不借!对乙 来说,甲的许诺是不可信的! 要想使甲的许诺成为可信的,加上第三阶段,让 乙在甲违约时采用法律手段---“打官司”,乙的利 益受到法律保护,甲的许诺是可信的。乙在第一 阶段选择借,甲在第二阶段选择分。
行动有先后顺序,不同的参与人在不同时
点行动,先行动者的选择影响后行动者的 选择空间,后行动者可以观察到先行动者 做了什么选择。 因此,为了做出最优的行动选择,每个参 与人都必须这样思考问题: 如果我如此选择,对方将如何应对?如果 我是他,我将会如何行动?给定他的应对, 什么是我的最优选择?

动态博弈的有效分析概念,除了要符合纳什
均衡的基本要求以外,还必须满足另一个关 键的要求,那就是它(或者它们)必须能够 排除博弈方策略中不可信的行为设定,也就 是各种不可信的威胁和承诺。 只有满足这样要求的均衡概念在动态博弈分 析中才有真正的稳定性,才能对动态博弈作 出有效的分析和预测。

4.扩展式博弈与反向归纳策略

4.扩展式博弈与反向归纳策略

扩展式博弈的形式
完全信息的情况

L

R

l
2 0
r
2 1
l1Biblioteka 0r 3 1
不完全信息的情况

L
R
l
2 0
r
2 1

l
1 0
r
3 1
扩展式博弈的规则


在一个偏僻的山里,有一个村庄,村里有100对夫妇。 在这个村里已经形成了约定成俗的规定,如果女人发现自己的丈夫对自 己不忠的话,就会毫不犹豫的将他杀死,而且当天执行。当然,她必须 有确切的证据来证明他丈夫的不忠。由于这个因素,某个女人发现某个 男人不忠,她不会告诉那个不忠男人的妻子。但是,她会告诉其他人的 妻子,并且女人们会相互的传递这一信息,因此最后,一个男人不忠, 除了其妻子不知道外,其他女人都知道。 事实上是,村子里的这100对夫妇的男人都不忠,但由于女人不会将她们 知道的事实告诉不忠男人的妻子,每个女人不知道自己的男人不忠,因 此,该村子一直很稳定,而没有发生妻子杀丈夫的行为。 村子里有1个辈分很高的老太太,她德高望重,诚实可敬,对村子里的情 况了如指掌。一天,这位老人对这这100个女人说了一句很平常的话: “你们的男人当中至少有一个是不忠的。”于是,村里发生了这样一个 事情,前99天,村里风平浪静,但到了第100天,村里发生了一场大屠杀, 所有的女人都杀死了她们的丈夫! 为什么会这样?
结论

作为博弈方你不应该仅仅是个被动的参与人,满足于接受别人制定的博 弈规则,而应该设法改变博弈使其对自己尽量有利

可置信的承诺能够促进长期利润,但承诺方也确实因此而对自己的行动 施加了严格的限制。这种通过限制自己行动来获取竞争优势的做法被称 为策略性行为

博弈论3-3子博弈完美纳什均衡

博弈论3-3子博弈完美纳什均衡

01子博弈02子博弈完美纳什均衡03承诺行动193.3 子博弈和子博弈完美纳什均衡例第三种开金矿博弈不借借不分分(1,0)不打打(0,4)(-1,0)(2,2)乙甲乙法律保障不足的开金矿博弈——分钱打官司都不可信子博弈不分分不打打(0,4)(-1,0)(2,2)甲乙子博弈可以看作是动态博弈中满足一定要求的次级博弈。

子博弈:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的组成部分,称为原动态博弈的一个“子博弈”。

子博弈本身就是一个博弈!例第三种开金矿博弈不借借不分分(1,0)不打打(0,4)(-1,0)(2,2)乙甲乙法律保障不足的开金矿博弈——分钱打官司都不可信一级子博弈不分分不打打(0,4)(-1,0)(2,2)甲乙二级子博弈不打打(0,4)(-1,0)乙例子:仿冒和反仿冒博弈A不制止制止(-2,5)(2,2)(10,4)(5,5)不仿冒(0,10)仿冒不制止制止仿冒不仿冒BAB15例子:仿冒和反仿冒博弈(续)A不制止制止(-2,5)(2,2)(10,4)(5,5)不仿冒(0,10)仿冒不制止制止仿冒不仿冒BAB不制止制止(-2,5)(2,2)(10,4)(5,5)不制止制止仿冒不仿冒BAB不制止制止(2,2)(10,4)(5,5)仿冒不仿冒AB不制止制止(2,2)(10,4)B一级子博弈二级子博弈三级子博弈原博弈子博弈特点:(1)动态博弈本身不是它自己的子博弈。

(2)子博弈不能分割任何信息集。

首先,子博弈不能包括原博弈的第一个阶段,也就是说,原博弈不是自己的子博弈。

其次,子博弈必须有一个明确的初始信息集,意味着子博弈不能分割任何信息集。

122111221只有2个子博弈子博弈存在4个子博弈(Subgame-perfect Nash equilibrium)子博弈完美纳什均衡:如果一个完美信息的动态博弈的一个策略组合满足在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么称该策略组合为该动态博弈的一个“子博弈完美纳什均衡”。

逆推归纳法

逆推归纳法

逆推归纳法
■逆推归纳法,是求解动态博弈均衡的方法,是博弈论中一个比较古老的概念,是指博弈参与人的行动存在着先后次序,并且后行动的参与人能够观察到前面的行动。

■认知基础:在完全且完美的动态博弈中,先行为的理性博弈人,在前面阶段选择策略时,必然会考虑后行博弈人在后面阶段中将会怎样选择策略。

因而,只有在博弈的最后一个阶段,不再有后续阶段牵制的情况下,博弈人才能作出明智的选择。

在后面阶段博弈人选择的策略确定后,前一阶段的博弈人在选择策略时也就相对容易。

逆向归纳法的逻辑基础:动态博弈中先行动的参与人,在前面阶段选择行为时必然会考虑后行动的参与人在后面阶段中的行为选择,只有在最后一阶段的参与人才能不受其他参与人的制约而直接做出选择。

而当后面阶段的参与人的选择确定后,前一阶段的参与人的行为也就容易确定了。

逆向归纳法排除了不可信的威胁或承诺。

博弈论及应用3

博弈论及应用3

Cont..
将式(1)代入企业1的的得益函数 u 1 (q1, q2) = 6 q1- q1 q2-q12 =3 q1 – q12 /2 max q1 (3 q1 – q12 /2) 一阶条件: 3 - q1*= 0 有 q1*=3 (单位), q2*=3 - q1* /2 = 1.5 (单位), 使 u 1= 4.5 , u 2 = 2.25 使市场总产量 Q =q1+q2=4.5, 得二企业总得益 U = u 1 + u 2 =4.5+2.25=6.75
子博弈完美纳什均衡能够排除均衡策略中不 可信的威胁和承诺,因此是真正稳定的。 逆推归纳法是求完美信息动态博弈子博弈完 美纳什均衡的基本方法。
3.4 几个经典动态博弈模型
3.4.1 寡占的斯塔克博格(Stackelberg) 模型 3.4.2 讨价还价博弈 3.4.3 委托—代理理论 3.4.4委托—代理理论(续)
3.4.1 寡占的斯塔克博格(Stackelberg) 模型
假设市场上有两个厂商,决策内容是产量, 一个是领头(leader)企业,一个是跟随 (follower)企业。领头企业先选择自己的 产量,跟随企业根据领头企业的产量选择, 选择自己的产量。 显然,他们选择有先有后,所以是一个 动态博弈。
斯塔克博格(Stackelberg)模型
房地产开发( Ⅱ )
A
开发
如果B在决策时并不
不开发
N
需求大
N
需求小
知道自然的选择,那么其
信息集就由原来的四个减 少为两个。博弈过程如图 所示。
B
开发
B B
B
不开发
(4,4)
(8,0)(-3,-3) (1,0) (0,8) (0,0)(0,1) (0,0)

博弈论动态策略ppt课件

博弈论动态策略ppt课件
◦ 每个人可以数1-9, ◦ 谁先抢到100,谁就获胜. ◦ 谁会获胜?为什么?
抢n游戏,每个人可以数1-k,谁会获 胜?
39
抢100游戏
由两个人玩“抢100”的游戏,游戏规则是 这样的:
◦ 每个人可以数2-9 ◦ 每步的数字为乘积,而不是加和 ◦ 谁先抢到100,谁就获胜.
谁会获胜?为什么? 抢n游戏,每个人可以数1-k序贯博弈)的概念 Dynamic game(Sequential game)
一类博弈行为通常需要参与人多步决策 才能完成,具有明显的阶段性。
博弈的结局、各参与人的支付值由多阶 段决策结果确定。
各参与人的决策有一定的顺序。
2
海盗分赃-逆向归纳案例
24
3
4
25
5 26
...
210
5
211
6
7
212
213 6
7
214
8
215 7
216 8
217 9
218
116
8
117
9 118
10
119 9
10 120
11 120
10 122
11 123
12
124
实际上不需要走所有的 路
使用广度优先搜索树 标记胜利节点,剪枝
人工智能
37
如何优化(2):关键点法逆推
预先支付律师费 p,这样原告放弃的支付也为-c-p,原告一定上 诉。这时候如果原告s<=rx+d,则被告和解
26
27
美国的诉棍
◦ 麦当劳“小心地滑” ◦ 万宝路“吸烟有害健康” ◦ Google“linux专利” ◦ Google收购北电专利 ◦ 桑兰

博弈思维逆向归纳法

博弈思维逆向归纳法
巴罗教授通过这个虚拟案例揭示了如果是人彻底理性能够算计到十几步甚至几十步的话那么他推论出的结果很可能并不符合自己的现实利益
旅行者困境
一个类似囚徒困境的经典博弈案例是哈佛大学巴罗教授提出的著名 的“旅行者困境”:
两个旅行者从景德镇旅行回来,他们在同一间店买了同样的花 瓶。提取行李时,发现花瓶被摔坏了,于是向航空公司索赔。
“旅行者困境”: 从100到0
罗伯如 果是人彻底理性、能够算计到十几步甚 至几十步的话,那么他推论出的结果, 很可能并不符合自己的现实利益。
巴罗教授提出这个案例旨在警世:一方 面,它有启示人们在为私利考虑的时候 不要太“精明”,告诫人们精明不等于 高明,太精明往往会坏事;另一方面, 它对理性行为假设的适用性提出了警告。
魔瓶悖论
某日,你遇上了一个怪老头。怪老头拿出一个瓶子,说你可 以买走这个瓶子,瓶子能满足你的各种愿望;但同时,持有 这个瓶子会让你死后入地狱永受炼狱之苦,唯一的解法就是 把这个瓶子以一个更低的价格卖给别人。
你会不会买下这个瓶子?你会以什么价格买下这个瓶子呢?
你当然不愿意花太多的钱,在你的愿望被满足之前你至少还 得给自己留一点钱花;但你也不能花太少的钱,否则你会承 担着卖不出去的风险。
但是,理性分析后,我们得出了一个惊人的结论:任何人都 不应该以任何价格购买这个瓶子。
魔瓶悖论
严格的推理为什么会得到一个看似荒谬的结果呢?
这个推理有一个很强的前提条件,这也是很多趣味博弈问 题的基础——假设每个人都是最聪明的,他们所做的决策 都是最优的;并且每个人都知道,每个人都是最聪明的, 都将选择自己的最优策略;并且每个人都知道,每个人都 知道每个人是最聪明的;并且……这样无限循环下去。
但现实生活中,这个假设明显不成立。或许每个人都绝顶 聪明,但这一点并不是所有人都知道;即使所有人都知道, 也不是每个人都知道所有人都知道。这就是所谓的不完全 信息,它会对整个游戏的结果造成根本性的影响。

逆序归纳法则

逆序归纳法则

那么答案究竟是什么?使用逆向归纳法可以求解如下: 首先,考虑只剩下最后的海盗五,显然他会分给自己 100枚,并赞成自己。 再回溯到只剩下海盗四和海盗五的决策,海盗四可以 分给自己100枚并赞成自己;海盗五被分得0枚,即使反 对也无用; 回到海盗三,海盗三可以分给海盗五l枚得到海盗五 的同意;分给自己99枚,自己也同意;分给海盗四0枚, 海盗四反对但无用。 回到海盗二,海盗二可以分给海盗四1枚得到海盗四 同意;分给自己99枚,自己也同意;海盗三、五各分得0 枚,他们会反对但反对没有用。 回到海盗一,他可以分给海盗三、五各l枚,获得海 盗三、五的同意;分给自己98,自己也同意;分给海盗 二、四各0枚,他们会反对但反对不起作用。 均衡结果:(98,0,1,0,1)
中国 回美 美 犯中 国 不犯中 不回美
均衡结果:(不犯中,不回美)
(-2,-2) (2,-4) (3,-5) (3,3)
(三)私奔博弈
卓文君与司马相如断绝关系:(-1,1) 卓文君与司马相如逃离父亲:父亲默认(2,-1); 父亲与卓文君断绝父女关系(0,-2) 均衡结果:(结婚,默认) 不可置信的威胁并不可怕!
文君
与 司 马 断 绝 关 系 (-1,1) 司马相如
父亲
断 绝 父 女 关 系 (0,-2)
默认
(2,-1)
谢谢观看!
注:文本框可根据需求改变颜色、移动位置;文字可编辑
(二)中美军事政治博弈
美国先行动,中国观察到美国的行动后再选择自 己的行为。美国可选择的行为有“犯中”与“不犯 中”,中国可回击的策略有“回美”与“不回美”。 假设盈利状况是这样的:美国“犯中”,中国“回美” (-2,-2);美国“犯中”,中国“不回美”(2,4);美国“不犯中”,中国“回美”(3,-5);美 国“不犯中”,中国“不回美”(3,3)。

博弈树与逆向归纳法1

博弈树与逆向归纳法1

动态博弈与逆向归纳法假如欺负他人可以获得快乐,那你会欺负他人吗?大多数人的回答是不会,原因正如他们所指出的,欺负他人会担心他人的报复,这抵消了从欺负他人的行为中所能得到的快乐。

这个答案至少表明,你之所以现在没有欺负他人,并不因为不想欺负他人,而是因为你知道欺负他人会在将来给自己造成麻烦。

同样,当我们面临一些博弈对局的时候,我们应如何采取现在的行动,常常取决于每个行动在将来会产生什么后果,或者说在将来别人将如何反应。

在前面各章内容中,博弈是静态的——或者说是同时行动的。

而现实中的博弈常常是动态的、依序行动的,这就要求我们必须考虑人们在将来对我们的行动反应。

分析序贯行动博弈的一个重要思路就是:向前展望,向后推理(looking forward and reasoning backward),即面向未来,思考现在,站在未来的立场来确定现在的最优行动。

本章我们将通过一些例子来说明这一分析思路,其中有些例子很有趣,也很有挑战性。

§5-1 逆向归纳法1、美中军事政治博弈我们通过一个简单的例子来说明序贯博弈的(离散策略的)扩展式表达和逆向归纳法求解方法。

这个例子可以称做美中军事政治博弈,或者叫“毛泽东的对外军事政治战略”。

故事模型在我国解放初期,美国一直试图对我国实施打击。

此时,我国必须对美国采取应对之策。

就我国对美国可以采取的行动而言,无非是回击或不回击。

用更符合毛泽东的话来说,美国可以“犯我”或“不犯我”,而我们可以“犯人”或“不犯人”。

由此我们可以刻画出一个动态博弈:●博弈方:美国、中国;●行动空间:美国可选择的行动是“犯我”或“不犯我”;中国的选择是“犯人”或“不犯人”;●行动顺序:美国先行动;中国观察到美国的行动后再选择自己的行动;●赢利:我们这样假设赢利状况(数字是虚拟的);●如果美国“犯我”,中国“犯人”,恶战再所难免,则美国亏损2,中国亏损2;●如果美国“犯我”,中国“不犯人”,那么中国沦为美国的附庸,丧失国家主权,则美国获得2,中国亏损4;●如果美国“不犯我”,中国“犯人”,那么就是中国挑起战事,美国正好有借口纠合国际力量打击中国,则美国得3,中国亏损5;●如果美国“不犯我”,中国“不犯人”,各自和平地发展经济,则美国得1,中国得1。

博弈论课件

博弈论课件
17
案例:寻找序贯博弈的纳什均衡
如图所示的情侣博弈,分析该博弈的纳什 均衡?
足球 男●
女 足球

芭蕾
◆ (2,1) ◆ (0,0)
芭蕾
足球

◆ (-1,-1)
芭蕾
◆(1,2)
18
男方和女方的纯策略
男方有两个纯策略:足球和芭蕾
女方有四个纯策略: 不管你怎样,我总是芭蕾——{芭蕾,芭蕾} 不管你怎样,我总是足球——{足球,足球} 你选择什么,我就选择什么——{足球,芭蕾} 你选择什么,我就不选择什么——{芭蕾,足球}
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
( 1, 2 ) ( -1, -1 ) ( 0, 0 ) ( 2, 1 )
31
虚线排除确定法的缺陷
该方法可以找到纳什均衡,但找不到博弈的 最终结果。
均衡是策略的组合,而结果则是行动的组合。 (P143)
因此,我们一般用倒推法(Backwards Induction)来寻找序贯博弈的结果。
32
三、寻找序贯博弈的结果——倒推法
从动态博弈的最后一个阶段博弈方的行为开始分析, 逐步倒推回前一个阶段相应博弈方的行为选择,一 直到第一个阶段的分析方法,称为“倒推法” 或 者“逆推归纳法”。
5
本章讨论动态博弈,所有博弈方都对博弈 过程和得益完全了解的完全且完美信息动 态博弈。这类博弈也是现实中常见的基本 博弈类型。由于动态博弈中博弈方的选择、 行为有先后次序,因此在表示方法、利益 关系、分析方法和均衡概念等方面,都与 静态博弈有很大区别。本章对动态博弈分 析的概念和方法,特别是子博弈完美均衡 和逆推归纳法作系统介绍,并介绍各种经 典的动态博弈模型。

博弈论系列教程 (7)

博弈论系列教程 (7)
在单独改变激励 Ø在位者:阻挠→容忍,4→10,存在单
独改变激励 Ø非纳什均衡
第二节 分析方法与解
Ø二、方法二:逆推归纳法(倒推法) Ø(一)案例一:抽象博弈
U
C
A
D
C
L
(1,0)
R
(3,1)
L
(2,2)
R (5,1)
第二节 分析方法与解
Ø二、方法二:逆推归纳法(倒推法) Ø(一)案例一:抽象博弈 ØB:比较L与R,0<1,L× ØB :比较L’与R’,2>1,R’× ØA:比较U与D, 3>2,D× Ø均衡路径:U→R
Ø一、方法一:虚线排除确定法 Ø(五)案例分析 Ø3. (进入,{阻挠,容忍}) Ø入侵者:进入→不进入,-2→0,存在
单独改变激励 Ø非纳什均衡
第二节 分析方法与解
Ø一、方法一:虚线排除确定法 Ø(五)案例分析 Ø4. (进入,{阻挠,阻挠}) Ø入侵者:进入→不进入,-2→0,存在
单独改变激励 Ø非纳什均衡
后行得益(1)
第四节 延伸分析
Ø二、后行一步的优势 Ø(一)案例:定价博弈
Ø纳什均衡:(高价,低价)
高价 ×
(6,5)
高价
B
A
低价
(4,6)
低价×
B
高价 ×
(4,0)
低价
(3,2)
第四节 延伸分析
Ø二、后行一步的优势 Ø(二)结论:后动优势 Ø参与人(B)后行得益(6)大于先行
得益(4)
第四节 延伸分析
在单独改变激励 Ø在位者:容忍→阻挠,5→2,不存在
单独改变激励 Ø纳什均衡
第二节 分析方法与解
Ø一、方法一:虚线排除确定法 Ø(五)案例分析 Ø2. (进入,{容忍,阻挠}) Ø入侵者:进入→不进入,1→0,不存

博弈树与逆向归纳法1

博弈树与逆向归纳法1

动态博弈与逆向归纳法假如欺负他人可以获得快乐,那你会欺负他人吗?大多数人的回答是不会,原因正如他们所指出的,欺负他人会担心他人的报复,这抵消了从欺负他人的行为中所能得到的快乐。

这个答案至少表明,你之所以现在没有欺负他人,并不因为不想欺负他人,而是因为你知道欺负他人会在将来给自己造成麻烦。

同样,当我们面临一些博弈对局的时候,我们应如何采取现在的行动,常常取决于每个行动在将来会产生什么后果,或者说在将来别人将如何反应。

在前面各章内容中,博弈是静态的——或者说是同时行动的。

而现实中的博弈常常是动态的、依序行动的,这就要求我们必须考虑人们在将来对我们的行动反应。

分析序贯行动博弈的一个重要思路就是:向前展望,向后推理(looking forward and reasoning backward),即面向未来,思考现在,站在未来的立场来确定现在的最优行动。

本章我们将通过一些例子来说明这一分析思路,其中有些例子很有趣,也很有挑战性。

§5-1 逆向归纳法1、美中军事政治博弈我们通过一个简单的例子来说明序贯博弈的(离散策略的)扩展式表达和逆向归纳法求解方法。

这个例子可以称做美中军事政治博弈,或者叫“毛泽东的对外军事政治战略”。

故事模型在我国解放初期,美国一直试图对我国实施打击。

此时,我国必须对美国采取应对之策。

就我国对美国可以采取的行动而言,无非是回击或不回击。

用更符合毛泽东的话来说,美国可以“犯我”或“不犯我”,而我们可以“犯人”或“不犯人”。

由此我们可以刻画出一个动态博弈:●博弈方:美国、中国;●行动空间:美国可选择的行动是“犯我”或“不犯我”;中国的选择是“犯人”或“不犯人”;●行动顺序:美国先行动;中国观察到美国的行动后再选择自己的行动;●赢利:我们这样假设赢利状况(数字是虚拟的);●如果美国“犯我”,中国“犯人”,恶战再所难免,则美国亏损2,中国亏损2;●如果美国“犯我”,中国“不犯人”,那么中国沦为美国的附庸,丧失国家主权,则美国获得2,中国亏损4;●如果美国“不犯我”,中国“犯人”,那么就是中国挑起战事,美国正好有借口纠合国际力量打击中国,则美国得3,中国亏损5;●如果美国“不犯我”,中国“不犯人”,各自和平地发展经济,则美国得1,中国得1。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

7.2如何使策略可信
(3) 让结果失控,或听天由命。 例:边缘政策中,扣动左轮枪扳机,结果失控 (4) 跬步前进; 例:江洋大盗交易可卡因:一次买100万美元 可卡因,和一次买1000美元可卡因,交易1000次, 后一种可以使承诺可行,因为毒枭们不可能因为 1000美元,而结束持续的有利可图的交易。
(c)
有法律保障的开金矿博弈分析过程
7.2如何使策略可信
例3:富有瘾君子的戒毒合同。健康医疗中心与 瘾君子签订合同,如果无法通过尿检,将把吸毒公 布于众。监督合同的人员可能会被收买。 如果合同违背执行就会丢掉信誉,大多数合同 需要由第三方来强制执行! (2) 建立和运用信誉。 例1:美国总统肯尼迪,在古巴导弹危机时发表 公开讲话:如果苏联在古巴建立导弹基地,那么美 国将进行彻底报复。当众声明你的决心。
7.1开金矿博弈
总结
在动态博弈问题中,各个博弈方的选择和博 弈的结果,与各个博弈方在各个博弈阶段选择各 种行为的可信程度有很大关系。有时候虽然有些 博弈方很想或会声称要采取特定的行动,以影响 和制约对方的行为,但如果这些行动缺乏以经济 利益为基础的可信性,那么这些想法或声明最终 就不会有真正的效力。因此,相机选择现象引致 的可信性问题是动态博弈分析的一个中心问题。
7.3逆推归纳法 逆推归纳法(Backwards Induction)
逆推归纳法的一般步骤是这样的:从动态博 弈的最后一个阶段开始分析,每一次确定出所 分析阶段博弈方的选择和路径,然后再确定前 一个阶段的博弈方选择和路径,这样一直逐步 倒推到第一个阶段。
7.3逆推归纳法 有法律保障的开金矿博弈



不借
(1,0)

(2,2)
不分


(1,0)
不打
(0,4)
7.3逆推归纳法 有法律保障的开金矿博弈分析
乙 借 甲 分 (2,2) 打 (1,0) 不借 (1,0) 不分 乙 不打
(0,4) , )
乙 借 甲 分
(2,2)
(b)
不借

(1,0)
乙 不借 (1,0) , )
不分
(1,0) , )
(2,2) , )
7.1开金矿博弈
开金矿博弈的扩展形
乙 借 甲 分
(2,2)
不借ቤተ መጻሕፍቲ ባይዱ
(1,0)
不分
(0,4)
7.1开金矿博弈
开金矿博弈分析发现
对乙来说,在开金矿博弈的基本问题中甲 “承诺在采到金子后与乙对半分成”是不可信的。 正是因为该不可信的承诺,使得甲、乙的合作最 终成为不可能,这不是最佳结局。之所以甲的 “在采到金子后与乙对半分成”承诺是不可信的, 是因为甲可以在第二阶段临时改变自己的行动方 案。能否使甲的承诺可行呢?
第七章 开金矿博弈
6.1开金矿博弈与可信性问题 6.2如何使策略可信 6.3逆推归纳法
7.1开金矿博弈
甲在开采一价值4万元的金矿时缺1万元资金,而 乙正好有1万元资金可以投资。此时,假设甲想说服 乙将这1万元资金借给自己开矿,并允诺在采到金子 后与乙对半分成,乙是否该将钱借给甲呢?假设金矿 的价值是经过权威部门探测认定的,没必要怀疑,那 么乙最需要关心的就是甲采到金子后是否会履行诺言 跟自己平分,因为万一甲采到金子后不但不跟乙平分, 而且还赖帐或卷款潜逃,乙会连自己的本钱都收不回 来。
7.2如何使策略可信
原则一:改变博弈的支付,使遵守承诺符合你的利益 (1) 写下合同支持你的决定。要使承诺可信,一 个直接的办法是,同意不遵守承诺时接受惩罚,可签 订合同来执行。 例1:美国广播公司“生活:博弈”节目中的减 肥博弈,参与节目的人和广播公司签订了一个合同。 例2:一名美国人悬赏,如果谁能逮到他吃高热 量的食物,就获得25000美元,他已在当地餐饮场所 张体了自己的照片。注意合同的监督和再谈判
7.2如何使策略可信
原则二:改变博弈,使你背弃承诺的能力受 到限制;
(1) 切断联系。可以使行动变得不可逆转。 例1:影片《奇爱博士》中的基地将军力普,为了 使自己的行动不可更改,在发布攻击命令后自杀。 例2:在驾车行驶中,将自己的方向盘扔掉。 (2) 破釜沉舟。 例:军队经常通过切断后路,来达到作战目的。 如:背水一战等
7.1开金矿博弈
法律保障不足的开金矿博弈



不借 (1,0) 不分

分 (2,2) 打 ( -1 , 0 )
不打 (0,4)
7.1开金矿博弈
法律保障不足的开金矿博弈分析发现
乙打官司是不再是可信的,是一种“不可信 的” “空头威胁”(Empty Threats)。因为乙打 官司会使自己的经济状况更加恶化。甲第二阶段 选择不分,因为他清楚乙打官司的威胁不可信。
7.1开金矿博弈
有法律保障的开金矿博弈



不借
(1,0)

(2,2)
不分


(1,0)
不打
(0,4)
7.1开金矿博弈
有法律保障的开金矿博弈分析发现
加不加第三阶段,博弈的结果大不一样。对 甲而言,知道乙打官司是可信的威胁,如果第二 阶段不分,必然招致官司和失去所有的收入。这 告诉我们:在一个由都有私心、都更重视自身利 益的成员组成的社会中,完善公正的法律制度不 但能够保障社会的公平,而且还能提高社会经济 活动的效益,是实现最有效的社会分工合作的重 要保障。反之,又如何?
原则三:利用他人,帮你遵守承诺;
(1) 团队建立可信性
7.2如何使策略可信
例:古罗马军队对进攻中落后的士兵处以极刑。 士兵排成直线前进,发现自己身边的士兵落后了,就 可以枪毙,如果不枪毙,那么自己也要被处死。这也 是西点军校、普林斯顿大学等的荣誉准则,刑法中将 知而不报者视为同谋。 (2) 雇用授权代理人 例:雇员声称不能接受任何小于5%的工资涨幅, 雇主凭什么相信他呢?当你与有共同社会关系的人谈 判,最好委托代理人来争取声称的合理利益。
相关文档
最新文档