博弈与决策作业2(答案)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

博弈与决策
平时作业参考答案（2）
一、名词解释
1．不确定性：就是指经济行为者在事先不能准确地知道自己的某种决策的结果，或者说，只要经济行为主体的一种决策的可能结果不止一种，就会产生不确定性。

2．最大期望收益法：就是在事件结果不确定的情况下，应该选择给他带来“期望收益”最大的策略。

3．混合策略：如果在每个给定信息下，参与者只能以某种概率选择不同地策略，就称为混合策略。

4．支付均等法：当一个参与者在均衡中应用一个混合策略时，他所得到的支付必须与他在混合策略中所应用的每一个纯策略的支付相同。

5．子博弈：如果从第一阶段以外的某个阶段开始的后续博弈阶段，也有初始信息集，具备进行博弈所需要的各种信息，能够自成一个博弈，我们就将这个博弈阶段称为原动态博弈的一个“子博弈”。

6．逆向归纳法：从最后一个阶段或最后一个子博弈开始逆推上去，逐步向前倒推以求解动态博弈均衡，这就是逆向归纳法。

7．承诺：就是对愿意与你合作的人给予回报的方式。

8．空洞威胁：当发出威胁的博弈参与者选择威胁所宣称的行动策略时，对自己并没有好处，这就不可信了，这叫做“空洞威胁”。

二、请用最大期望收益法寻找最优策略。

要求: （1）写出计算步骤；（2）给出最优的策略结果。

甲乙两家企业，为了市场份额的争夺，在价格定制问题上各有两种纯策略，如图2-1所示。

两家企业都知道自己在各个策略组合下的收益情况，但是并不知道对方的收益。

假设甲采取U 的概率为0.3，乙采取R的概率为0.6。

乙
L R
甲U
D
答：（1）当乙采取R策略的可能性为0.6时，采取L策略的可能性为0.4，那么甲据此判断采取自己的策略U时所获得的可能的期望收益EU(U)=0.6×2+0.4×3=2.4。

甲采取自己的策略D时所获得的可能的期望收益EU(D)=0.6×4+0.4×1=2.8。

很显然，甲应该选择策略D，因为EU(D)> EU(U)。

（2）当甲采取U策略的可能性为0.3时，采取D策略的可能性为0.7，那么乙据此判断采取自己的策略L时所获得的可能的期望收益EU(L)=0.3×1+0.7×4=3.1。

乙采取自己的策略R时所获得的可能的期望收益EU(R)=0.3×4+0.7×2=2.6。

很显然，乙应该选择策略L，因为EU(L)> EU(R)。

（3）最终该博弈的结果就是（D，L），均衡的支付为（4，4）。

三、求解以下博弈的所有纳什均衡。

要求: （1）写出计算步骤；（2）给出所有纳什均衡策略。

曹操
华容道其它路
关羽华容道
其它路
答：（1）对该博弈矩阵利用下划线法，发现没有纯策略纳什均衡。

（2）假设关羽选择华容道的概率为p，选择另外一条道的概率为1-p；也假设曹操选择华容道的概率为q，选择另外一条道的概率为1-q。

根据支付均等法：
对关羽而言，U华容道= U其他路，即2·q+(-2)·(1-q)= (-2)·q+2·(1-q)，可以得到q=1/2。

对于曹操而言，V华容道= V其他路，即(-2)·p+1·(1-p)=3·p+(-1)·(1-p)，可以得到p=2/7。

该博弈的混合纳什均衡为（2/7，1/2）。

2号厂商
X Y
1号厂商
A B
答：（1）对该博弈矩阵利用下划线法，发现有两个纯策略纳什均衡（A，X）和（B，Y）。

（2）假设1号厂商选择A的概率为p，选择B的概率为1-p；也假设2号厂商选择X的概率为q，选择Y的概率为1-q。

根据支付均等法：
对1号厂商而言，U A = U B ，即10·q +1·(1-q )=4·q +5·(1-q )，可以得到q =2/5。

对2号厂商而言，V X = V Y ，即10·p +1·(1-p )=4·p +5·(1-p )，可以得到p =2/5。

该博弈的混合纳什均衡为（2/5，2/5）。

四、请用逆向归纳法分析以下博弈的可能结果。

答：（1）逆向归纳法画图如图所示。

（2）可能的均衡路径为A —U ，1号参与者选A ，2号参与者选U ，结果为（20，20），双方各得到20单位的报酬。

（3）C —Y 路径上的报酬（1000，1000）远大于A —U 路径上的（20，20），但是并不能成为均衡。

因为如果1号参与者选择了C ，2号参与者选择Z 就可以获得做大的报酬，并使1号只能获得0单位报酬。

1号参与者并不能保证2号参与者会选择Z ，而且2号即使有这种保证也是不可信的。

五、寻找可信的威胁。

假如有两个博弈参与者，2号威胁1号说，假如1号参与者对他使坏心，他就会对1号参与者也使坏心。

那么在以下哪些博弈图中，1号会相信2号的威胁？
图2-1 图2-2
1号
20，3） 4）
1号
参与者
（） 1号参与者20，1） 2）
图2-3
答：（1）对三个博弈图利用逆向归纳法分析，如图所示。

（2）只有当坏心比好心对2号参与者更有利时，2号所提出的威胁才可信。

（3）在图2-1和2-2中的威胁才可信。

因为如果1号选择坏心的话，2号选择坏心才是最优的，所以威胁可信。

（4）在图2-3中，2号所提出的威胁不可信。

因为如果1号选择坏心的话，2号选择好心才是最优的，不会选择坏心的。

六、博弈分析
1．假设你是公司的管理者，某天有位员工向你提出加薪的要求，但是你既不舍得他辞职，也暂时不想给他加薪，那么你该如何巧妙地回绝呢？
答：你应该告诉他，加薪这事不属于你管，有专门的部门或其他领导负责。

所以，你对此无能为力，因为你对此事没有决定权。

而一旦知道自己要和这样的人力资源部门去博弈了，这位员工的立场就会发生变化，也许就会软化下来。

2．（1）如果一个男孩子给女孩发短信说：“亲爱的，你知道我爱你爱得很深，我愿意为你赴汤蹈火，我每天每时每刻都很想见到你，什么艰难险阻也不能阻止我向你靠近。

周五下班的时候，如果不下雨，我就一定过去找你！”。

（2）有一位父亲对自己很淘气的儿子说“你再不听话，我就拧掉你的耳朵！”请你分析一下这两个场景中的“承诺”和“威胁”是否值得信赖。

答：（1）中的男孩对女孩的“承诺”是不可信的，因为“下雨”是一件成本很小的事，但是男孩却因此不能去做他所说的“每天每时每刻都很想见到你，什么艰难险阻也不能阻止我向你靠近”。

所以，廉价的承诺是不可置信的。

（2）中的父亲的“威胁”是不可置信的“空洞威胁”。

因为拧掉儿子的耳朵对他并没有任何好处，还会因此带来更大的负担，也影响了孩子的一生，父亲也要为此背负一辈子的心理成本和经济成本。

对孩子而言，这也是一生的不良影响和沉重的心理负担，以及巨大的机会成本。

显然这个威胁这对整个家庭没有任何好处。

所以，这个威胁根本不可置信。

1号
20，2）
1）
博弈论基础作业
一、名词解释
纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡
贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识
见PPT
二、问答题
1.举出囚徒困境和智猪博弈的现实例子并进行分析。

囚徒困境的例子：军备竞赛；中小学生减负；几个大企业之间的争相杀价等等；
以中小学生减负为例：在当前的高考制度下，给定其他学校对学生进行减负，一个学校最好不减负，因为这样做，可以带来比其他学校更高的升学率。

给定其他学校不减负，这个学校的最佳应对也是不减负。

否则自己的升学率就比其他学校低。

因此，不论其他学校如何选择，这个学校的最佳选择都是不减负。

每个学校都这样想，所以每个学校的最佳选择都是不减负，因此学生的负担越来越重。

请用同样的方法分析其他例子。

智猪博弈的例子：大企业开发新产品；小企业模仿；股市中，大户搜集分析信息，散户跟随大户的操作策略
以股市为例：给定散户搜集资料进行分析，大户的最佳选择是跟随。

而给定散户跟随，大户的最佳选择是自己搜集资料进行分析。

但是不论大户是选择分析还是跟随，散户的最佳选择都是跟随。

因此如果大户和散户是聪明的，并且大户知道散户也是聪明的，那么大户就会预见到散户会跟随，而给定散户跟随，大户只有自己分析。

请用同样的方法分析其他例子。

2.请用博弈论来说明“破釜沉舟”和“穷寇勿追”的道理。

破釜沉舟是一个承诺行动。

目的是要断绝自己的退路，让自己无路可退，让自己决一死战变得可以置信。

也就是说与敌人对决时，只有决一死战，这样才可以取得胜利。

否则，如果不破釜沉舟，那么遇到困难时，就很有可能退却，也就无法取得胜利。

穷寇勿追就是要给对方一个退路，由于有退路，对方就不会殊死抵抗。

否则，对方退无可退，只有坚决抵抗一条路，因而必然决一死战。

自己也会付出更大的代价。

3.当求职者向企业声明自己能力强时，企业未必相信。

但如果求职者拿出自己的各种获奖证书时，却能在一定程度上传递自己能力强的信息。

这是为什么？
由于口头声明几乎没有成本，因此即便是能力差的求职者也会向企业声明自己能力强。

当然能力强的人也会声明自己的能力强。

也就是说不同类型的求职者为了赢得职位会做出同样的声明。

这样口头声明就不能有效的传递信息，因此企业不会轻易相信。

而求职者拿出获奖证书就成了一个信号博弈。

由于获得证书是要付出代价的，但代价却引人而异。

能力强的个人可以相对轻易获得证书，而能力弱的个人却很难获得证书，以至于能力弱的人认为化巨大的代价获得证书，从而获得企业的职位是不划算的，因此干脆就不要获奖证书。

因此获奖证书就成为个人能力的信号。

4.五个海盗抢得100颗钻石,他们为分赃发生了争议,最后达成协议,由抓阄确定出分赃顺序，然后按照民主程序进行分赃。

首先由1号海盗提出分赃方案,五人共同举手表决。

若赞成的占一半以上（不包括一半的情况）,就按1号提出的方案分赃,否则1号将被扔到海里喂鲨鱼。

接着由2号提出方案, 四人共同举手表决。

若赞成的占一半以上（不包括一半的情况）,就按2号提出的方案分赃,否则2号将被扔到海里喂鲨鱼,依此类推。

如果你是1号海盗,你该提什么样的方案?说明理由。

假设（1）五个强盗都很聪明，而且大家知道大家很聪明，大家知道大家知道大家很聪明，如此等等。

（2）每个海盗都很贪婪，希望获得尽可能多的钻石，但是又不想为了钻石丢掉性命。

（3）给定一个方案，只有该方案大于他的备选方案所获的钻石时，海盗才选择赞成。

第一个海盗的提议应该是：五个海盗分别获得的钻石数目为97，0，1，0，2，或者97，0，1，2，0。

具体理由自己思考，方法是倒推法。

三、计算题
1.试计算表1中的战略式博弈的重复剔除劣战略均衡。

表1 一个战略式表述博弈
B
A U M
D
对B 而言，战略M 严格劣于R ；（因为1<4, 1<6,0<8），因此剔除B 的战略M ；构成新的博弈如下
B
A U M
D
在新的博弈中，
对于A 而言，战略U 严格劣于D(因为1<3,2<7)，因此剔除A 的战略U ，构成新的博弈如下：
B
A
M D
对于新的博弈中，已经没有严格的劣战略，因此没有严格的劣战略可以剔除。

所以该博弈不是重复剔除严格劣战略可解的。

但是存在弱劣战略。

对于B 而言，战略L 弱劣于R （因为6=6，1<8）,因此剔除B 的弱劣战略L ，构成新的博弈如下：
B
A
M
D 在新的博弈中，对于A 而言，战略（因为2<7）,因此剔除A 的战略M ，构成新的博弈如下：
B
A
D
因此，重复剔除（弱）劣战略均衡为（D ，R ）
（ps: 如果同学们用划线的方法求纳什均衡，就可以发现纯战略nash 均衡有两个：（M,L ）和（D,R ）但采用剔除弱劣战略的方法，把其中一个纳什均衡剔除掉了）
2. 试给出下述战略式表述博弈的所有纳什均衡。

2
1
U
D 给定1选择U ，2给定1选择D ，2的最佳选择是L （因为4>2），在相应位置划线给定2选择L ，1的最佳选择是D （理由自己写），在相应位置划线给定2选择R ，1的最佳选择是U （理由自己写），在相应位置划线找两个数字下都划线的，显然有两个纯战略纳什均衡：),(R U 和),(L D 据Wilson 的奇数定理，可能有一个混合战略均衡。

设1选U 的概率为θ，那么选D 的概率为θ-1 设2选L 的概率为γ，那么选R 的概率为γ-1，
如果存在混合战略，那么2选战略L 和R 的期望收益应该应该相等，因此应有)1(23)1(42θθθθ-+==-+=R L U U
?=θ 自己求解（2分）同样，1选战略U 和D 的期望收益应该应该相等
)1(14)1(32γγγγ-+==-+=D U U U ?=γ 得混合均衡：?
3.市场里有两个企业1和2。

每个企业的成本都为0。

市场的逆需求函数为P=16-Q 。

其中P 是市场价格，Q 为市场总产量。

（1）求古诺（Cournot ）均衡产量和利润。

（2）求斯坦克尔伯格（Stackelberg ）均衡产量和利润。

(1)设两个企业的产量分别为1q ，2q ，有21q q Q +=，因此利润函数分别为：
21211121116)16(q q q q q q q --=--=π
212
22221216)16(q q q q q q q --=--=π
利润最大化的一阶条件分别为：
0216211
1
=--=∂∂q q q π 0216122
2
=--=∂∂q q q π 因此企业1和企业2的反应函数分别为：
2162
1q q -=
2
161
2q q -=
联立，得到?21==q q 。

自己求解
（2）设企业1先行，企业2跟进。

两个企业的产量分别为1q ，2q ，因此利润函数分别为：
21211121116)16(q q q q q q q --=--=π
21222221216)16(q q q q q q q --=--=π
由逆向归纳法，在第二阶段，企业2在已知企业1的产量的情况下，最优化自己的产量，从而得到企业2的反应函数：
0216122
2
=--=∂∂q q q π 因此企业2的反应函数为：2
161
2q q -=
在第一阶段，企业1考虑到企业2的反应，从而自己的利润函数为：
)2
16(
1616)16(1
1211212111211q q q q q q q q q q q ---=--=--=π （2分）要使企业1的利润最大，应满足一阶条件：
01
1
=∂∂q π 得到?1=q 。

所以?2=q 。

（PS: 古诺模型是完全信息静态博弈，求的是纳什均衡；斯坦伯格模型是完全信息动态博弈，求的是子博弈精炼纳什均衡）
4.（1）试给出图1中的完全信息动态博弈的子博弈精炼均衡和均衡结果。

（2）倘若2告诉1：2的战略是),,(j i c ，问此时1的最优战略是什么？（3）在
（2）中，1和2的战略组合构成一个纳什均衡吗？均衡结果是什么？（4）（3）中的纳什均衡不是子博弈精炼的，原因是什么？
答：（1）
由逆向归纳法，子博弈精炼均衡为)],,(),,[(l e c g b ，均衡结果为（4，6）。

（2）若2的战略为),,(j i c ，则1的最优战略为),(f b 。

（3）给定2的战略为),,(j i c ，1的最优战略为),(f b ；反之，给定1的战略),(f b ，战略),,(j i c 是2的一个最优战略。

所以它们构成一个纳什均衡，均衡结果为（6,3）。

（4）因为2的战略),,(j i c 中含有不可置信的威胁i ，使1在f 和g 之间不敢选g 。

当博弈进行到2在l 与i 之间进行选择的时候，2必会选l ，给定如此，1选g 而不是f ，此时2会选e ，这就是子博弈精炼均衡。

5、试解出下述不完美信息动态博弈的精炼贝叶斯均衡。

1 R
(1,2)
当“2”看见“1”未选R 时，设他认为“1”选L 的概率为P ， “1”选L '的概率为1－P ，则“2”选l 的期望支付为：
P P P 31)1(14+=-⋅+
“2”选r 的期望支付为
P P P -=-+⋅2)1(21
当P P ->+231，即4
1>P 时，“2”选l ，而给定“2”选l ，“1”选L 收益为2，选L '的收益为3，选R 的收益为1，因此“1”会选L '。

而给定“1”
选L '，“2”认为410<=P （注意：P 是“1”选L 的概率），与4
1>P 矛盾。

故4
1>P 不会有均衡；当P P -≤+231，即4
1≤P 时，“2”选r ，给定“2”选r ，“1”选L 收益为0，选L '的收益为7，选R 的收益为1，因此“1”会选L '。

而给定“1”选L '，
“2”认为0=P ，与4
1≤P 吻合。

于是，得到均衡战略：{}r P L ,0,='，即“1”在第一阶段选择L '，“2”虽然看不到“1”的选择，但“2”认为“1”选择L 的概率为0，所以“2”在第二阶段选择r ，这样的战略构成了一个贝叶斯精炼
纳什均衡。

均衡结果为（7，2）。