第29章 博弈论的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假定如果行参与人踢向球门的左方,当列参与人扑向 右方时,行参与人将在80%的时间内得分,当列参与人 扑向左方时,行参与人将在50%的时间内得分。 如果行参与人踢向球门的右方,当列参与人扑向左方 时,行参与人将在90%的时间内得分,当列参与人扑向 右方时,行参与人将在20%的时间内得分。 收益矩阵如下: 列参与人 注:行参与人的得分就为 向左扑 向右扑 列参与人的失分。 向左踢 50,-50 80,-80 行参与人 向右踢 90,-90 20,-20
列参与人的策略
100 行参与人的 期望收益 均衡点
80
20 0 0.6
列参与 50 人扑向 左方的 概率 1
80
纳什均衡
根据前面的计算,行参与人应该按概率0.7踢 向左方,而列参与人应该按概率0.6扑向左方。 这些概率使得无论对方采取什么策略,双方都 得到相等的收益。即当行参与人选择p=0.7时, 列参与人扑向左方和右方无差异,即不会影响 行参与人的收益,但他会乐意以0.6的概率扑 向左方。同样,当列参与人选择q=0.6时,行 参与人踢向左方和右方无差异,但他会乐意以 0.7的概率踢向左方。 这就形成了纳什均衡。给定对方的选择,每一 个参与人的选择都是最优的。
一只聪明的青蛙是使蝎子做出承诺,使得蝎子 蜇它的收益小于不蜇它的收益。例如使蝎子的 博弈收益变为下述这种情况。
鹰-鸽博弈的纳什均衡
假定鹰派的比例是p。同时,一个鹰派遇见另 一个鹰派的比例是p,而遇见一个鸽派的概率 为1-p。因此,鹰派的期望收益为:H=2p+4(1-p)。鸽派的期望收益为:D=2(1-p)。 假定具有较高收益的类型的繁殖速度更快一些, 并且他们会将其采取策略的倾向遗传给后一代。 那么,我们可以预期,如果H>D,种群中鹰派 的比例将会上升;如果H<D,鸽派的数量将会 上升。种群处于均衡状态的唯一途径是这两种 类型的收益相等,即:H=D。则p=0.5。因此, 鹰派和各派之间50-50的混合比例是一个均衡。
即电影中的汽车博弈:两个年轻人分别从一条街的两 头,驾车笔直地是向对方。第一个转向的人会颜面尽 失,但如果没有人转向,将会撞在一起。其收益矩阵 如下图: 存在两个纳什均衡:(不转向,转向)和(转向,不 转向)。A偏好第一个,B偏好第二个。但这两个都比 撞车好。它和保证博弈有所区别,双方做不相同的事 情比做相同的事情好。 年轻人B 转向 不转向 转向 0,0 -1,1 年轻人A 不转向 1,1 -2,-2
行参与人的最优策略
该图反映了每一个概率下行参与人的期望收益。 它是根据E=50P+90(1-p)和80P+20(1-P)绘制的 两条曲线。 100
行参与人的 期望收益
90
均衡点
20 0
0.7
行参与 50 人踢向 左方的 概率 1
80
而列参与人的选择将会使行参与人在每一个概率 上的期望收益最小化。因此,行参与人的期望收 益只能为红色线段部分。
美国
不生产
生产
但问题在于,任何一方都不知道对方将会 做出的选择。在承诺不生产以前,每一方 都想得到对方不会生产的保证。 获得这种保证的方法之一是其中一方先采 取行动,并接受公开的检查。这可以是一 种单边的行动,但他一定要让对方相信自 己的选择。 类似:战国时期,皇太子做人质。
4、斗鸡博弈
第29章 博弈论的应用
本章主要研究博弈论中的4个 非常重要的问题:合作问题、竞争 问题、共存问题和承诺问题。
一、博弈论分析的重要工具
1、最优反应曲线 在两个人的博弈中,假如存在一个纳什均衡, 这个纳什均衡可以如下表示: 假设参与人A的选择为r1,r2,…,rr ,参与人 B的选择为c1 ,c2,…,cc 。对于参与人A的每 一个选择r,bc(r)表示参与人B的最优反应。相 应地,对于参与人B的每一个选择r,br(c)表示 参与人A的最优反应。纳什均衡为: c*= bc(r), r*= br(c)——反应函数 即:每个人的选择正好是对方对自己预期的选 择——“相互一致”。根据以上函数可以得到反 应曲线。
在这个博弈中,每个参与人都知道如果他能够 承诺直线驾驶,对方会因惧怕撞车而转向,从 而实现对自己偏好的纳什均衡。但如果双方都 这么想,则有可能会撞车。 因此,参与人的一个策略是让对方相信自己的 承诺。例如,将自己的方向盘锁住。当然,如 果两个人都上了锁,结果将是灾难性的。
结论:如何协调
在保证博弈、性别战和斗鸡博弈中,参与人为 了实现自己偏好的纳什均衡,策略之一是:可 以通过某一方先采取行动,并承诺选择某个特 定的策略来实现。——序贯行动。这种方法可 以让对方观察到第一个参与人的选择,并相应 地做出反应。在囚徒困境中,这种策略并不起 作用:如果博弈的一方选择抵赖,另一方的最 佳选择将是坦白。 此外的策略有:声誉和缔结合同。
五、承诺博弈
合作博弈和竞争博弈是一种同时博弈,每个参 与人必须在不知道对方的选择的情况下做出自 己的选择。 承诺博弈研究的是一种序贯博弈。在这种博弈 中,一个重要的策略是承诺。在斗鸡博弈和保 证博弈中,谁做出承诺并让对方相信自己承诺 可以实现对自己有利的均衡。 对于另一个参与人来说,这个被承诺的选择必 须同时具有有不可撤销性和可观察性。
根据同样的方法,得到参与人B的期望受益: cr+2(1-c)(1-r)。 当c增加△c时,B的收益变化为:(3r-2)△c。 因此,当r>2/3时,B增加c将增加收益;当 r<2/3时,B将减少c;当r=2/3时,他对于任意 的0≤c≤1无差异。 利用以上两个结论可以绘制参与人的最优反映 曲线。
青蛙和蝎子
青蛙和蝎子商量如何过河,蝎子的建议是要青蛙背着它过 河。青蛙开始担心背着它会被它蜇死而犹豫着,但想到如 果蝎子蜇死它,蝎子就会淹死,从而就答应了。但结果在 过河的过程中,蝎子出于本性把它蜇死了。
蝎子的 选择
蜇 不蜇
•
青蛙,蝎子 -10,5
背
青蛙的 选择
•
•
不背
• 5,3 • 0,0
•
进化稳定策略(ESS)
鹰派和鸽派1:1的比例是个稳定均衡。因为如 果鹰派占的比例p>1/2,鹰派的收益将小于鸽 派的收益,鸽派的繁殖将加快,得p下降。类 似地,如果P<1/2,鹰派的收益将大于鸽派的 收益,鹰派的繁殖速度加快,P将上升,重新 回到均衡。 因此,P=1/2不仅是一个均衡,而且是一个在 进化动力下稳定的均衡。这种策略被称为进化 稳定策略(ESS)。
3、保证博弈
类似囚徒困境,例如美国和苏联之间的军备竞 赛。两个国家都可以选择生产核导弹,也可以 选择都不生产。其收益矩阵如下图。 该图显示:存在两个纳什均衡(不生产,不生 产)和(生产,生产)。但是,(不生产,不 生产)对双方都是一个较好的选择。
苏联 不生产 生产 4,4 1,3 3,1 2,2
2、混合策略
在以下收益矩阵,我们令参与人A选择“上” 的概率为r,选择“下”的概率为1-r,同样, 我们令参与人B选择“左”的概率为c,选择 “右”的概率为1-c。当r和c等于0时,相应的 策略为纯策略。根据收益矩阵和参与人选择的 概率,可以得到参与人的期望收益。
同学B
上 左 2,1 右 0,0
如果行参与人踢向左方的概率为P,则当列参 与人扑向左方的时,他的期望收益为: 50P+90(1-p),当列参与人扑向右方时,他期 望收益为:80P+20(1-P)。行参与人想使这个 期望收益尽量大,而列参与人想使这个期望收 益尽量小。 如果P=50%,则列参与人将会扑向右方。因为 此时行参与人得到的期望收益为800.5+20 0.5<50Х0.5+900.5。 在每一个概率下,列参与人的策略都是使行参 与人的期望收益最小化。
列参与人的策略
假定列参与人扑向左方的概率为q,则பைடு நூலகம்行参与人踢向 左方时,行参与人的期望收益为50q+80(1-q),当行参 与人踢向右方时,行参与人的期望收益为90q+20(1-q)。 根据行参与人的期望收益与列参与人扑向左方的概率 的关系得到以下两条曲线。 行参与人的选择是:无论列参与人扑向左方的概率是 多少,他都要尽力使自己的收益最大化,因此它的期 望收益为红色线段部分。而列参与人的最优选择是使 行参与人的收益最小,因此他扑向左方最优的概率为 0.6。
如果参与人B选择c=0,那么参与人A将减少r,使 r尽可能小,所以r=0。因此,参与人A使r=0就是 对c=0的最优反应。并且,r=0一直都是A的最优 反应,直至c=1/3。当c=1/3,0≤r≤1都是A的最 优反应。对于所有的c>1/3,行参与人的最优反 应是r=1。
c 1 B的反 映曲线
•
• • •
行参与人和列参与人的最优反应曲线
当p<0.7时,列参与人将扑向左方;当p>0.7时, 列参与人将扑向右方。类似的,当q<0.6时, 行参与人将踢向左方;当q>0.6时,行参与人 将踢向右方。
q 1 0.6 行参与人的反 映曲线 0
•
纳什均 衡
• •
• •
•
列参与 人的反 映曲线
•
0.7
•1
p
四、共存博弈
同学A
下
0,0
1,2
组合 上,左 下,左 上,右 下,右
概率 rc (1-r)c r(1-c) (1-r)(1-c)
参与人A的收益 2 0 0 1
根据上表,参与人A的期望收益为:2rc+(1-r)(1-c)。 即:2rc+1-r-c+rc。 如果r增加了△r,A的收益变化为:2c△r-△r+c△r= (3c-1)△r。即如果3c>1时,A将增加r,如果3c<1,A 将减少r,如果3c=1时,他对于任意的0≤r≤1无差异。
三、竞争博弈
竞争博弈是一种零和博弈,即博弈一方的收益 等于另一方的损失。多数体育竞技项目都是零 和博弈:一个组的1分等价于另一个组失去一 分。参与人之间的利益是完全相反的。 例如,在一个足球比赛中,行参与人主罚点球, 列参与人防守。如果列参与人扑错了方向,行 参与人得分的可能性大一些。同时,行参与人 可能善于踢向某一个方向,而列参与人可能善 于扑向某一个方向。但双方都有朝两个方向的 可能。
动作片 文艺片 动作片 2,1 0,0
男孩
文艺片
0,0
1,2
2、囚徒困境
在该博弈中,坦白是一个占优策略,但双方都 抵赖(协调)是更好的选择。协调能够使囚徒 获得最大化的收益。 解决囚徒困境的方法之一是无限重复博弈。参 与人通过将来的行动来奖励合作和惩罚不合作。 另一种方式是缔结合约(协调)。双方可以签 订一份合同,如果一方违约,他将支付罚金或 接受其他某种方式的惩罚。但这要依赖于能够 强制执行这种合同的法律体制的存在。
共存博弈中最著名就是鹰-鸽博弈,它是指涉及显示两 种行为的单一物种的博弈。 例如,当两只豺狗同时遇到一块食物时,他们必须决 定是争斗还是共享食物。争斗是鹰派的策略:一方将 获胜,另一方将败落。共享食物是鸽派的策略:在对 方也是鸽派时,这个策略将发挥很好的功效;但当对 方是鹰派时,共享食物的提议则会遭到拒绝,并且, 鸽派参与人将一无所获。 列参与人 其收益矩阵为: 鹰派 鸽派 红色框为 鹰派 -2,-2 4,0 纳什均衡 行参与人 鸽派 0,4 2,2
三个紫色的点 为纳什均衡, 两个为纯策略 均衡。
A的反 映曲线
1/3
• • • 0
• •
2/3
1
r
二、合作博弈
又称协调博弈,在这类博弈中,当参与人能够协调他 们之间的策略时,他们的收益就会最大。关键是如何 创建这种协调机制。 1、性别战 假设有一个男孩和一个女孩约会看电影,但他们事先 没有约好看哪一部电影,而且都忘了对方的电话号码, 所以没有办法协调他们的约会,只能猜测对方喜欢看 那一部电影。 男孩想看最新推出的动作片,女孩喜欢看文艺片,但 他们都宁愿看同一部电影也不愿意放弃约会。 协调博弈的特征:参与人在协调行动时获得的收益要 大于单独行动时的收益。
性别战的纳什均衡
在以下的收益矩阵中,可以用上一节中的反应曲线来 求解纳什均衡。根据上节的结论,存在三个纳什均衡: 上方都选择动作片或文艺片,或者双方分别按2/3的 概率选择各自偏好的影片。 究竟哪种均衡会发生,要依据特殊情况而定。当参与 人完全有理由相信,其中的一个均衡相对于其他的均 衡更“自然”,这个均衡将是最终的选择点,被称为 博弈的聚点。 女孩