第29章博弈论的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

假定如果行参与人踢向球门的左方，当列参与人扑向右方时，行参与人将在80%的时间内得分，当列参与人扑向左方时，行参与人将在50%的时间内得分。如果行参与人踢向球门的右方，当列参与人扑向左方时，行参与人将在90%的时间内得分，当列参与人扑向右方时，行参与人将在20%的时间内得分。收益矩阵如下：列参与人注：行参与人的得分就为向左扑向右扑列参与人的失分。向左踢 50，-50 80，-80 行参与人向右踢 90，-90 20，-20
第29章博弈论的应用
本章主要研究博弈论中的4个非常重要的问题：合作问题、竞争问题、共存问题和承诺问题。
一、博弈论分析的重要工具

1、最优反应曲线在两个人的博弈中，假如存在一个纳什均衡，这个纳什均衡可以如下表示：假设参与人A的选择为r1，r2，…，rr ，参与人 B的选择为c1 ，c2，…，cc 。对于参与人A的每一个选择r，bc(r)表示参与人B的最优反应。相应地，对于参与人B的每一个选择r，br(c)表示参与人A的最优反应。纳什均衡为： c*= bc(r), r*= br(c)——反应函数即：每个人的选择正好是对方对自己预期的选择——“相互一致”。根据以上函数可以得到反应曲线。
列参与人的策略

假定列参与人扑向左方的概率为q，则当行参与人踢向左方时，行参与人的期望收益为50q+80(1-q)，当行参与人踢向右方时，行参与人的期望收益为90q+20(1-q)。根据行参与人的期望收益与列参与人扑向左方的概率的关系得到以下两条曲线。行参与人的选择是：无论列参与人扑向左方的概率是多少，他都要尽力使自己的收益最大化，因此它的期望收益为红色线段部分。而列参与人的最优选择是使行参与人的收益最小，因此他扑向左方最优的概率为 0.6。
3、保证博弈

类似囚徒困境，例如美国和苏联之间的军备竞赛。两个国家都可以选择生产核导弹，也可以选择都不生产。其收益矩阵如下图。该图显示：存在两个纳什均衡（不生产，不生产）和（生产，生产）。但是，（不生产，不生产）对双方都是一个较好的选择。
苏联不生产生产 4，4 1，3 3，1 2，2

在这个博弈中，每个参与人都知道如果他能够承诺直线驾驶，对方会因惧怕撞车而转向，从而实现对自己偏好的纳什均衡。但如果双方都这么想，则有可能会撞车。因此，参与人的一个策略是让对方相信自己的承诺。例如，将自己的方向盘锁住。当然，如果两个人都上了锁，结果将是灾难性的。
结论：如何协调

在保证博弈、性别战和斗鸡博弈中，参与人为了实现自己偏好的纳什均衡，策略之一是：可以通过某一方先采取行动，并承诺选择某个特定的策略来实现。——序贯行动。这种方法可以让对方观察到第一个参与人的选择，并相应地做出反应。在囚徒困境中，这种策略并不起作用：如果博弈的一方选择抵赖，另一方的最佳选择将是坦白。此外的策略有：声誉和缔结合同。
进化稳定策略（ESS）

鹰派和鸽派1:1的比例是个稳定均衡。因为如果鹰派占的比例p>1/2，鹰派的收益将小于鸽派的收益，鸽派的繁殖将加快，得p下降。类似地，如果P<1/2，鹰派的收益将大于鸽派的收益，鹰派的繁殖速度加快，P将上升，重新回到均衡。因此，P=1/2不仅是一个均衡，而且是一个在进化动力下稳定的均衡。这种策略被称为进化稳定策略（ESS）。
青蛙和蝎子

青蛙和蝎子商量如何过河，蝎子的建议是要青蛙背着它过河。青蛙开始担心背着它会被它蜇死而犹豫着，但想到如果蝎子蜇死它，蝎子就会淹死，从而就答应了。但结果在过河的过程中，蝎子出于本性把它蜇死了。
蝎子的选择
蜇不蜇
•
青蛙，蝎子 -10，5
背
青蛙的选择
•
•
不背
• 5，3 • 0，0
•

列参与人的策略
100 行参与人的期望收益均衡点
80
20 0 0.6
列参与 50 人扑向左方的概率 1
80
纳什均衡

根据前面的计算，行参与人应该按概率0.7踢向左方，而列参与人应该按概率0.6扑向左方。这些概率使得无论对方采取什么策略，双方都得到相等的收益。即当行参与人选择p=0.7时，列参与人扑向左方和右方无差异，即不会影响行参与人的收益，但他会乐意以0.6的概率扑向左方。同样，当列参与人选择q=0.6时，行参与人踢向左方和右方无差异，但他会乐意以 0.7的概率踢向左方。这就形成了纳什均衡。给定对方的选择，每一个参与人的选择都是最优的。

共存博弈中最著名就是鹰-鸽博弈，它是指涉及显示两种行为的单一物种的博弈。例如，当两只豺狗同时遇到一块食物时，他们必须决定是争斗还是共享食物。争斗是鹰派的策略：一方将获胜，另一方将败落。共享食物是鸽派的策略：在对方也是鸽派时，这个策略将发挥很好的功效；但当对方是鹰派时，共享食物的提议则会遭到拒绝，并且，鸽派参与人将一无所获。列参与人其收益矩阵为：鹰派鸽派红色框为鹰派 -2，-2 4，0 纳什均衡行参与人鸽派 0，4 2，2
性别战的纳什均衡

在以下的收益矩阵中，可以用上一节中的反应曲线来求解纳什均衡。根据上节的结论，存在三个纳什均衡：上方都选择动作片或文艺片，或者双方分别按2/3的概率选择各自偏好的影片。究竟哪种均衡会发生，要依据特殊情况而定。当参与人完全有理由相信，其中的一个均衡相对于其他的均衡更“自然”，这个均衡将是最终的选择点，被称为博弈的聚点。女孩
2、混合策略

在以下收益矩阵，我们令参与人A选择“上” 的概率为r，选择“下”的概率为1-r，同样，我们令参与人B选择“左”的概率为c，选择 “右”的概率为1-c。当r和c等于0时，相应的策略为纯策略。根据收益矩阵和参与人选择的概率，可以得到参与人的期望收益。
同学B
上左 2，1 右 0，0

如果参与人B选择c=0，那么参与人A将减少r，使 r尽可能小，所以r=0。因此，参与人A使r=0就是对c=0的最优反应。并且，r=0一直都是A的最优反应，直至c=1/3。当c=1/3，0≤r≤1都是A的最优反应。对于所有的c>1/3，行参与人的最优反应是r=1。
c 1 B的反映曲线
•
• • •
五、承诺博弈

合作博弈和竞争博弈是一种同时博弈，每个参与人必须在不知道对方的选择的情况下做出自己的选择。承诺博弈研究的是一种序贯博弈。在这种博弈中，一个重要的策略是承诺。在斗鸡博弈和保证博弈中，谁做出承诺并让对方相信自己承诺可以实现对自己有利的均衡。对于另一个参与人来说，这个被承诺的选择必须同时具有有不可撤销性和可观察性。

根据同样的方法，得到参与人B的期望受益： cr+2(1-c)(1-r)。当c增加△c时，B的收益变化为:(3r-2)△c。因此，当r>2/3时，B增加c将增加收益；当 r<2/3时，B将减少c；当r=2/3时，他对于任意的0≤c≤1无差异。利用以上两个结论可以绘制参与人的最优反映曲线。
鹰-鸽博弈的纳什均衡

假定鹰派的比例是p。同时，一个鹰派遇见另一个鹰派的比例是p，而遇见一个鸽派的概率为1-p。因此，鹰派的期望收益为：H=2p+4(1-p)。鸽派的期望收益为：D=2(1-p)。假定具有较高收益的类型的繁殖速度更快一些，并且他们会将其采取策略的倾向遗传给后一代。那么，我们可以预期，如果H>D，种群中鹰派的比例将会上升；如果H<D，鸽派的数量将会上升。种群处于均衡状态的唯一途径是这两种类型的收益相等，即：H=D。则p=0.5。因此，鹰派和各派之间50-50的混合比例是一个均衡。
行参与人的最优策略

该图反映了每一个概率下行参与人的期望收益。它是根据E=50P+90(1-p)和80P+20(1-P)绘制的两条曲线。 100
行参与人的期望收益
90
均衡点
20 0

0.7
行参与 50 人踢向左方的概率 1
80
而列参与人的选择将会使行参与人在每一个概率上的期望收益最小化。因此，行参与人的期望收益只能为红色线段部分。
行参与人和列参与人的最优反应曲线

当p<0.7时，列参与人将扑向左方；当p>0.7时，列参与人将扑向右方。类似的，当q<0.6时，行参与人将踢向左方；当q>0.6时，行参与人将踢向右方。
q 1 0.6 行参与人的反映曲线 0
•
纳什均衡
• •
• •
•
列参与人的反映曲线
•
0.7
•1
p
四、共存博弈
三个紫色的点为纳什均衡，两个为纯策略均衡。
A的反映曲线
1/3
• • • 0
• •
2/3
1
r
二、合作博弈

又称协调博弈，在这类博弈中，当参与人能够协调他们之间的策略时，他们的收益就会最大。关键是如何创建这种协调机制。 1、性别战假设有一个男孩和一个女孩约会看电影，但他们事先没有约好看哪一部电影，而且都忘了对方的电话号码，所以没有办法协调他们的约会，只能猜测对方喜欢看那一部电影。男孩想看最新推出的动作片，女孩喜欢看文艺片，但他们都宁愿看同一部电影也不愿意放弃约会。协调博弈的特征：参与人在协调行动时获得的收益要大于单独行动时的收益。
同学A
下
0，0
1，2
组合上，左下，左上，右下，右

概率 rc (1-r)c r(1-c) (1-r)(1-c)
参与人A的收益 2 0 0 1

根据上表，参与人A的期望收益为：2rc+(1-r)(1-c)。即：2rc+1-r-c+rc。如果r增加了△r，A的收益变化为：2c△r-△r+c△r= （3c-1)△r。即如果3c>1时，A将增加r,如果3c<1，A 将减少r，如果3c=1时，他对于任意的0≤r≤1无差异。
一只聪明的青蛙是使蝎子做出承诺，使得蝎子蜇它的收益小于不蜇它的收益。例如使蝎子的博弈收益变为下述这种情况。

如果行参与人踢向左方的概率为P，则当列参与人扑向左方的时，他的期望收益为： 50P+90(1-p)，当列参与人扑向右方时，他期望收益为：80P+20(1-P)。行参与人想使这个期望收益尽量大，而列参与人想使这个期望收益尽量小。如果P=50%，则列参与人将会扑向右方。因为此时行参与人得到的期望收益为800.5+20 0.5<50Х0.5+900.5。在每一个概率下，列参与人的策略都是使行参与人的期望收益最小化。
动作片文艺片动作片 2，1 0，0
男孩
文艺片
0，0
1，2
2、囚徒困境

在该博弈中，坦白是一个占优策略，但双方都抵赖（协调）是更好的选择。协调能够使囚徒获得最大化的收益。解决囚徒困境的方法之一是无限重复博弈。参与人通过将来的行动来奖励合作和惩罚不合作。另一种方式是缔结合约（协调）。双方可以签订一份合同，如果一方违约，他将支付罚金或接受其他某种方式的惩罚。但这要依赖于能够强制执行这种合同的法律体制的存在。
三、竞争博弈

竞争博弈是一种零和博弈，即博弈一方的收益等于另一方的损失。多数体育竞技项目都是零和博弈：一个组的1分等价于另一个组失去一分。参与人之间的利益是完全相反的。例如，在一个足球比赛中，行参与人主罚点球，列参与人防守。如果列参与人扑错了方向，行参与人得分的可能性大一些。同时，行参与人可能善于踢向某一个方向，而列参与人可能善于扑向某一个方向。但双方都有朝两个方向的可能。

即电影中的汽车博弈：两个年轻人分别从一条街的两头，驾车笔直地是向对方。第一个转向的人会颜面尽失，但如果没有人转向，将会撞在一起。其收益矩阵如下图：存在两个纳什均衡：（不转向，转向）和（转向，不转向）。A偏好第一个，B偏好第二个。但这两个都比撞车好。它和保证博弈有所区别，双方做不相同的事情比做相同的事情好。年轻人B 转向不转向转向 0，0 -1，1 年轻人A 不转向 1，1 -2，-2
美国
不生产
生产

ห้องสมุดไป่ตู้
但问题在于，任何一方都不知道对方将会做出的选择。在承诺不生产以前，每一方都想得到对方不会生产的保证。获得这种保证的方法之一是其中一方先采取行动，并接受公开的检查。这可以是一种单边的行动，但他一定要让对方相信自己的选择。类似：战国时期，皇太子做人质。
4、斗鸡博弈

第29章 博弈论的应用

第29章博弈论的应用