博弈论5

合集下载

博弈论---5、公地悲剧

博弈论---5、公地悲剧博弈论---5、公地悲剧⼀、总结⼀句话总结：> a、公地悲剧：虽然善⽤公共资源，可以为集体，和每个个体带来长远的收益，但是个体总会受到“为啥不捞⼀把”的诱惑，采取⾃私的短期策略，导致公共资源⾛向耗尽。

> b、解决公地悲剧⽅式：私有化或者强管制> c、具体在我们的⽣活中的公共资源也可以采⽤私有化和强管制来避免公地悲剧的问题，⽐如⼀个家庭有两个孩⼦，妈妈⼜买了很多零⾷回来，如果想零⾷吃的久⼀点，就可以私有化和强管制来约束。

⼆、公地悲剧公地悲剧例⼦有⼀⽚公共牧场，所有牧民都可以在这块牧场上放牧。

牧场⾥的草在⽜的数量不太多时，被吃掉后⼜会很快长起来，但如果⽜太多，把草根都吃掉了，草场就会退化，最后⽜都吃不饱，甚⾄饿死。

为了避免这种情况，所有的牧民坐在⼀起，开个会，商量好每家能养多少头⽜，然后这应该就没啥问题了吧？但没想⼏天之后，就有⼏个⾃私的⼈多放了⼏头⽜。

其他⼈很⽓愤就开始想：他们这么不守规矩，我守规矩有什么⽤？于是，牧场上的⽜越来越多，然后草场退化，⽜群饿死。

这是为什么呢？公地悲剧虽然善⽤公共资源，可以为集体，和每个个体带来长远的收益，但是个体总会受到“为啥不捞⼀把”的诱惑，采取⾃私的短期策略，导致公共资源⾛向耗尽。

怎么办？1、私有化⽐如刚才的牧场。

把牧场切割为10份，分给10个家族。

牧场⼀旦私有化后，牧民的捞⼀把⼼态就会消失了，他们会有内⽣的动⼒，在放牧和保护牧场之间找到平衡。

2、强管制有些公共资源没有办法私有化，⽐如海洋，空⽓，怎么办？可以考虑⽤收费，发放许可证等制度，来实现强管制。

⽐如海洋，天空。

国家会强制规定禁捕期，⽹眼⼤⼩等等。

⽐如刚才的牧场。

可以把牧场围起来，每头⽜收100元的放牧费，发放养殖许可证。

这实际上是对公共资源的定价和管制。

延伸思考能不能通过“设计”公地悲剧，反向获得利益呢？据说，皇帝有时候会故意设计⼀块公共权⼒，但不讲清楚这归谁管，⼤⾂们开始你挣我抢，彼此争⽃制衡，消耗内⼒，同时还对君王死⼼塌地。

博弈论5资料

• 囚徒的困境在博弈论中就是非合作博弈。 • 纳什(Nash)1950、1951年在两篇文章（《 n人博弈中的均衡点》和《非合作博弈》）中提出了非合作博弈论，塔科尔(Tucker)定义了“囚徒困境”，从而奠定了现代非合作博弈的理论基石。 • 后来人们将博弈的均衡解称为“纳什均衡”。 • 纳什均衡（Nash Equilibrium）：就是一种由所有参与人的最优战略组成的战略组合，即在给定别人战略的情况下，没有任何单个参与人有积极性选择其他战略，从而没有任何人有积极性打破这种均衡。
囚徒困境
囚徒乙坦白坦
抵赖
囚徒甲
白抵赖
－5 －5 －10 0
0 －10 －1 － 1
• 甲和乙是参与博弈的人，称为“局中人” （参与人）。 • 甲或乙可以作出的选择被称为“战略” （或策略），如“招”或“不招”都是战略。 • 每个战略都有相应的收益，但这个收益是所有参与人（甲与乙）所采用战略的函数。 • 博弈的稳定结局称为均衡，即所有参与者都不想改变策略的状态。 • 局中人（甲或乙）不管别人采用何种策略（坦白或抵赖），都能导致最高收益策略称为优势策略（Dominant Strategy) 。
承诺行动后房地产开发博弈
• 称 B 的这种行动为“承诺行动”，它使原来不可置信的威胁变为可以置信。这时，A就不得不相信 B一定要开发写字楼的威胁了，于是放弃开发写字楼的计划，让B如愿以偿单独开发写字楼。 B不仅未向C支付2百万元，反而净赚1百万。
承诺、威胁和可信性
（1）定义：承诺是一种无法反悔的行为，会束缚承诺者自己的手脚，结果无法给自己留有选择的余地。（2）承诺的特点：
人的两重秉性——利己与利他
• "自私自利"无疑是人类实现生存和发展的最有力的手段，问题在于，它是否是唯一的手段？人是社会动物，为了生存和发展，除了自私自利的"争斗"之外，还必须有互惠互利的"合作"，也就是说，"合作"同样是人类生存的必要手段之一。而任何"合作"行为都必然包含（程度不同的）"利他"的因素。因此， "自私"（争斗）与"利他"（合作）都是人类生存和发展的手段之一，二者的共生关系是人类在生存手段上的辩证法。

博弈论Chapter 05

6
Continued
This game is readily illustrated in a diagram.
7
Continued
Thus the set of all actions available to the player who moves
after h is
For example, for the game in last slide, the histories are∅, In,
Out, (In, Acquiesce), and (In, Fight). The set of actions available to the player who moves at the start of the game, namely the challenger, is A(∅) = {In, Out}, and the set of actions available to the player who moves after the history In, namely the incumbent, is A(In) = {Acquiesce, Fight}.
5
Example
EXAMPLE 153.2 (Entry game) suppose that the best outcome for
the challenger is that it enters and the incumbent acquiesces, and the worst outcome is that it enters and the incumbent fights, whereas the best outcome for the incumbent is that the challenger stays out, and the worst outcome is that it enters and there is a fight. Then the situation may be modeled as the following extensive game with perfect information.

博弈论讲义5

再接下来有四个人的时候，p2,p3,p4,p5，那么p2会如何想？以此类推？真的是难以置信。P1看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还获得了最大收益。而P5，看起来最安全，没有死亡的威胁，甚至还能坐收渔人之利，但却因不得不看别人脸色行事，结果连一小杯羹都无法分到，却只能够保住性命而已。
用矩阵表示如下：
猎人A 猎鹿猎猎人鹿猎兔猎兔
10，10 0，4 4，0 4，4
B
可以得到该博弈有两个纳什均衡点，那就是：要么分别打兔子，每人吃饱4 天；要么合作，每人吃饱10天。比较[10，10]和[4，4]两个纳什均衡，与[4，4]相比，[10，10]不仅有整体福利改进，而且每个人都得到福利改进。此时形成了帕累托效率。
甲在1/4处乙在1/4处
此时两家各有1/2的客户，而且是完全分开经营，不会竞争。下面看甲的变化。
甲在1/3处乙仍在1/4处此时甲有1/3+（1-1/3-1/4）/2的客户，而乙有1/4+（1-1/3-1/4）/2，甲占便宜
不难想象，双方博弈的结果将使他们的店铺设置在l/2中点附近达到纳什均衡状态，甲乙两人相依为邻且相安无事地做起快餐生意。如果我们放宽条件，不是两家快餐店，而是很多家快餐店，很容易分析得到结果：这些快餐店仍然会在1/2处设店达到纳什均衡。
先考虑只有2个海盗的情况，p4,p5. P4的最佳方案当然是：他自己得100枚金币，P5得0枚。投票时他自己的一票就足够50%了。往前推一步。如果此时有p3,p4,p5来分， p3会如何想呢？ P3要想超过半数投票支持，那么一定要有 p4或p5支持自己，显然p？条件？

博弈论经典例子(5)限制卡特尔

04为什么要限制“卡特尔”在价格博弈中，只要以对方为敌手，那么不管对方的决策怎样，自己总是采取低价策略会占省钱，这就促使双方都采取低价策略。

在现实生活中，企业与企寸之间，很多情况下与困境中的囚徒所遇情形一样，没能真正实现自身的最大利益，甚至是损人晦气己。

现在我们经常会遇到各种各样的家电价格大战，例如彩电大战、冰箱大战、空调大战、微波炉大战等等。

这些大战的受益者首先是消费者，每当看到一种家电产品的价格大战，百姓都会没事儿偷着乐，不过．价格战的结果谁都没钱赚。

因为博弈双方的利润凑巧是零。

竞争的结果是可能对消费者是晦气的，但对厂商而言是灾难性的，所以，价格战对厂商而言无疑意味着自杀。

许多企业也意识到这一点，他们结成联盟以谋求自救。

这种联盟被称为卡特尔，但因为卡特尔是由自主的企业组成，所以很不安定。

以产量竞争来说，组成卡特尔，就要讨价还价，达成限制产量的协定，总产量因为协定的限制而降低了，价格也就会上去，可能比结成卡特尔以前要高出很多，这时候，谁要是偷偷地扩大产量，他可能占到很大的省钱。

卡特尔联盟和组成联盟的成员之间的关系，不是上下级的关系，不是谁服从谁的关系。

卡特尔的成员都是立的经济主体，只不过为了利益关系走到一起来了。

偷偷违反协议增加产量或提供优惠会捞到很大的省钱，这就促使一些成员违反协议。

所以说，卡特尔本身就提供了瓦解卡特尔的激励。

从政府管制的角度来看，卡特尔在许多情况下是非法行为。

几年前，9家企业曾经一起协议制定最低价格，规定什么类型的家电至少要卖多少钱，不许把价格降到比协议规定的价格还低的水平，其目的无非是不要竟相降价，以免大家的利润都下降。

不过很快，国家计委就发出文件，指出该决议非法。

这主要是不许企业联手抬高商品价格而损害消费者的利益。

另外，由于争夺同一市场、长期缺乏沟通，企业彼此间忠诚度极低，合作只是权宜之计。

对合作方的违约行为没有约束力，通常是迅速报复反应或采取跟进战略，从而造成合作同盟雪崩式解体。

博弈论第五章同时博弈与序贯博弈

3、每个局中人的决策轮数越多，则他的纯策略选择的数目越多。
思考：如果有三轮博弈，如何写矩阵形式。
4、矩阵形式表示的可能的博弈结果比树形表示的结果要多，这是因为有不止一个纯策略可以导致相同的博弈结果。
二、如何将正规型的博弈转化为展开型
比前面简单，尤其是序贯博弈，但如果是同时博弈，如何表示？
高价格 4，3 低价格 2，1
联想大投入小投入
大投入方正
小投入
高价格
高价格 3，4 低价格 4，3
低价格
1，2 2，1
高价格低价格
高价格 6，6 低价格 7，3
大投入
联想小投入
5，5
2，6 4，3
3，
大投入
6，2
4，4 2，1
1，
方正
小投入 3，4
1，2 6，6
3，
4，3
2，1 7，3
5，
一、寡占的斯塔克尔博格模型二、劳资博弈补充: 三、讨价还价博弈四、委托-代理博弈
一、寡占的斯塔克尔博格模型
先后选择产量的产量竞争博弈把古诺模型改为厂商1先选择，厂商2后选
择，而非同时选择即可。用逆推法，因此从分析厂商2的产量选择开
始，再分析上一阶段的厂商1的产量选择。
1、先分析厂商2 假设P(Y1+Y2)=a-b(Y1+Y2), MC2=MC1=0，没
mau[x W,L*(W)]
W0
如果有对应工会效用函数的具体形成，就可以解出这个最大值，求出符合工会最大利益的工资率 W*。
二、劳资博弈
先由工会决定工资率，再由厂商决定雇用多少劳动力
m( W a,L x ) m [R ( a L ) x W ] L

博弈论读书笔记（五）重复博弈

博弈论读书笔记（五）重复博弈2.3重复博弈从这⾥开始，就进⼊博弈论⽐较难以理解的地⽅了。

我也不跟着书上的章节⾛，根据⾃⼰的理解和书上的例⼦来写，如果理解有什么不对的地⽅，欢迎各位⼤佬的指正。

⾸先我们来明晰博弈论到底在讨论些什么：对于这个问题，前⾯⼏章的内容可能对⼤家会造成⼀定的误导。

因为根据前⾯⼏章的例⼦，我们可以很容易地认为，博弈论就是在讨论在某个规则下，参与者最优的策略和参与者之间达到的平衡。

这句话本⾝没有错误，但是我们很容易理解为：这个平衡是像最开始那两个囚徒⼀样，选择“保证对⽅不会背叛并且⾃⼰在此情况下能获得最⼤利益”的战略所达到的平衡（这句话有点难以理解，不过我相信你能明⽩我的意思）。

例如第⼀章第⼀节中囚徒困境双⽅都选择招认（因为选择合作即不招认，结果可能是被背叛）。

但是⼀旦进⼊了重复博弈那么我们就不能只考虑眼前的利益（即保守地只去选择单次博弈的纳什均衡），⽽要考虑多次重复博弈的总收益。

这个时候就需要参与双⽅共同商定⼀个“协议”（例如双⽅说好都选择不招认），这个协议必须是对于双⽅都有利的（⾄少由于选择单次博弈的纳什均衡，例如双⽅不招认总⽐双⽅都招认要好），并且协议中会对不遵守规则的进⾏惩罚，以便于对每个⼈来说选择合作是最好的结果。

从这⾥我们就可以理解“博弈论教你如何制定规则的”这句话了。

好了，这⼀章最核⼼的思想在这⾥已经讲完了，虽然我可能说的不是那么清晰，不过还是希望你能认真理解上⾯所说的，这会对下⾯的概念理解有很⼤帮助。

2.3.A两阶段重复博弈先给出⼏个先⾏的定义和定理：定义：对个定的阶段博弈G，令G(T)表⽰G重复T次的有限重复博弈，并且在下⼀次博弈开始前，所有以前的博弈都可以被观测到。

G(T)的收益为T次阶段博弈收益的简单相加。

这个定义最重要的是引出⼀个重复博弈中收益的概念，即T次博弈的收益简单相加，后⾯我们会提到贴现的概念，不过到这⾥先理解到简单相加就⾏。

定理：如果阶段博弈G有唯⼀的纳什均衡，则对任意有限的T，重复博弈G(T)有唯⼀的⼦博弈精炼解：即G的纳什均衡结果在每⼀阶段重复进⾏。

王则柯博弈论5同时博弈与序贯博弈

– {容忍，容忍}、 {对抗，对抗}、{对抗，容忍}、{容忍，对抗}。
• 把首先行动的局中人放在行局中人的位置，后行动的局中人放在列局中人的位置。 • 垄断者有不止一个纯策略可以导致相同的博弈结果。
• 步骤：首先确定好可供每个局中人选择的纯策略的总数目，从而把表格的大小确定下来，然后在每个策略组合所对应的格子中，按照约定的规格填入相应的支付向量。
• (足球，{足球，足球}) 局限在根前断开的那支子树所标示的子博弈上，指向(-1，-1)的策略选择有单独偏离的激励，用弯曲箭头表示箭尾的策略成分有向箭头的方向偏离的激励（偏离方向的箭头标示法）。 • 如果一个策略组合的某个策略成分有偏离的激励，可以说这个策略组合缺乏局部稳定性。
• 子博弈精炼纳什均衡，应该是经得起每个子博弈均衡检验的纳什均衡。 • 包含不可信威胁的纳什均衡，不是子博弈精炼的纳什均衡。
定义
• 定义：如果一个序贯博弈的每个信息集都是一个单点集，那么么该序贯博弈就是完美信息博弈。否则，它就是不完美信息博弈。
例子
• 女方不清楚男方“先前做出” 的策略选择。 • 女方必须要么在两个决策节点上都选择足球，要么在两个决策节点上都选择芭蕾。
• 女方的选择也可以放在博弈树的初始决策节点上。
注意
• 一个信息集罩住的必须首先是同一个局中人的决策节点。 • 一个信息集罩住的必须是同一个局中人在同一个时点的决策节点。 • 在同一个信息集上，大自然、老天爷或者虚拟局中人必须给位于该信息集内的每个决策节点规定相同的行动选择集合。（数量，内容均相同） • 给予不被扁椭圆虚线罩住的每个决策节点以信息集的地位，是单点集的信息集。
2
q2 = q2 (q1 ) = ( A − q1 − c2 ) / 2

博弈论基础5-不完全信息动态博弈

QSC QSC QSC
Page: Page:1 1
不完全信息动态博弈
不完全信息动态博弈，也称动态贝叶斯博弈。动态贝叶斯博弈与静态贝叶斯博弈在许多方面是相似的，差别只是动态贝叶斯博弈转化成的不是两阶段有同时选择的特殊不完美信息动态博弈，而是更一般的不完美信息动态博弈，因此可以直接利用不完美信息动态博弈的均衡概念进行分析。
The foundation of Game Theory
客户1 存款客户2 存款不存款存款不存款不存款
博弈论基础 —不完全信息动态博弈
钱世超 Qian Shichao
E-mail: scqian@
提前客户2 提前
（1,1）（1,1）（1,1）
客户1 到期到期提前到期
博弈论基础 ... Copyright 版权所有，博弈论基础 Copyright © 2005 ECUST. All rights reserved. 华东理工大学版权所有，翻印必究。博弈论基础 Copyright © © 2005 2005 ECUST. ECUST. All All rights rights reserved. reserved. 华东理工大学华东理工大学版权所有，翻印必究。翻印必究。 QSC QSC QSC
Page: Page:3 3
不完全信息动态博弈分析的基本思路
“自然”首先选择参与人的类型（参与人自己知道，其他人不知道，转换成不完美信息动态博弈参与人按先后顺序行动，后行动者能观察到先行动者的行动，但观察不到先行动者的确切类型。由于行动的类型依存性，后行动者可以通过先行动者的行为推断或修正对先行动者的类型判断（先验信息），而后确定自己的行为。先行动者预计自己的行为将被后者利用，因此将通过选择能传递对自己有利信息的行动博弈的过程不仅是参与人不断选择行动的过程，也是参与人不断修正对对手的判断的过程

王则柯博弈论5同时博弈与序贯博弈

• 用 q1（ q1 ≥ 0 ）表示企业1的产量选择； • 用 q（ q2 ≥ 0）表示企业2在观测到 q1 后所选择 2 的产量； • 用 p(q) = A − q 表示当市场总产量为 q 时的市场出清价格，其中 q = q1 + q2 • 企业 i 的利润是 π i (q1 , q2 ) = qi [ p (q ) − ci )], i = 1,2 • 每个企业的利润可写为：
π i (q1 , q2 ) = qi ( A − q1 − q2 − ci )
q2 = q2 (q1 )
max q2 ≥0 π 2 (q1 , q2 ) max q2 ≥0 q2 ( A − q1 − q2 − c2 )
π 2 (q1 , q2 ) = −(q2 ) + ( A − q1 − c2 )q2
• 策略组合？纳什均衡？子博弈精炼纳什均衡？
5-5 完美博弈的库恩定理
• 是否每个树型表示的动态博弈都有纳什均衡呢? • 库恩定理完美信息的有限序贯博弈 (sequential game of perfect information)都有纳什均衡。
课堂练习
• 用策略组合的粗线表示法和纳什均衡的虚线排除法画出并讨论全部可能的对局或者策略组合，以虚线标示不是纳什均衡的那些对局。 • 用虚线圈住的子博弈和相应的标示具有偏离激励策略的箭头，排除那些不是子博弈精炼均衡的纳什均衡，得到子博弈精炼的纳什均衡。
– 每一个决策位置都是一个信息集。
• 同集同注
• 当博弈走到一个单点集的信息集时，面临决策的局中人对于博弈迄今的历史是清楚的，他清楚博弈具体走到了他的这个决策节点而不是别的决策节点。 • 当博弈走到一个非单点集的信息集时，面临决策的局中人对于博弈迄今的历史是不清楚的，他不清楚博弃具体走到了他的这个信息集里面的哪个决策节点。

第五经济博弈论 PPT

进化稳定策略得检验
比例的博弈方偏离“同意”策略选择了“不同意” uy (1 )1 0 1 un (1 ) 0 0 0 u (1 )u y un (1 )2
因为 uy 1 0 且接近于1,因此犯错误博弈方得期
望得益远远低于没有犯错误得博弈方,也远低于群体平均得益, 因此犯错误得博弈方会逐步改正错误,最终仍然会趋向于x＝1, 即所有博弈方都采用“同意”策略。
签协议博弈:
同意不同意
博弈方2
同意
不同意
1，1
0，0
0，0
0，0
两个纯策略纳什均衡:(同意,同意),(不同意,不同意), 前一个纳什均衡帕累托优于后一个纳什均衡。假如就是在完全理性得基础上进行该博弈,可以预期结果就是(同意,同意)。
下面就是在理性层次较低得有限理性博弈方组成得大群体成员随机配对反复博弈得分析框架内进行分析。
因此x 1是在上述复制状态下的一个进化稳定策略ESS
进化稳定策略得检验
比例的博弈方偏离“不同意”策略选择了“同意”
uy (1 ) 0 1 un (1 ) 0 0 0 u (1 ) un uy 2
uy 0 un
x 0不是进化稳定策略
5、3、2一般两人对称博弈复制动态与进化稳定策略
5、3、1 签协议博弈得复制动态与进化稳定策略
签协议博弈:
同意不同意
博弈方2
同意
不同意
1，1
0，0
0，0
0，0
假设群体中采用“同意”博弈方得比例x,则不同策略期望得益与平均得益为:
uy x 1 (1 x) 0 x un x 0 (1 x) 0 0 u x u y(1 x) un x2
只要博弈方有基本得、包括直觉与经验得判断能力, 早晚会发现上述得益差异,得益较差类型得博弈方或早或迟会发现改变策略对自己就是有利得,并开始模仿另一种类型得博弃方。

博弈论(第五章)

谢富纪 2008年4月 27
3.复制动态和进化稳定性：两人对称博弈
鹰鸽博弈的复制动态和进化稳定策略：揭示人类社会或动物世界发生战争或冲突的可能性及频率，国际关系中霸道和软弱，侵略与反抗等共存的原因。
鹰
博弈鹰方 1 鸽
博弈方2
鸽
(v－c)/2, (v－ c)/2
v ，0 v/2，v/2
0，v
谢富纪 2008年4月 18
3.复制动态和进化稳定性：两人对称博弈
dx/dt
0
0.5
1
x
签协议博弈复制动态相位图
谢富纪 2008年4月
19
3.复制动态和进化稳定性：两人对称博弈
x*=0，x*=1是上述复制动态的两个稳定状态，其中 x*=1是对应大多数初始状态的稳定状态。有限理性的博弈方通过学习最终找到了本博弈比较有效率的纳什均衡。 x*=1是进化稳定策略，而x*=0则不是。
B B
B
B A
B
A
A
A A
A A
A A
A A
初次博弈为1A的最优反应动态
谢富纪 2008年4月 11
2.最优反应动态
B
A
A
B
A
B
A
A
A
B
A
A
A
A
A
初次博弈为相邻2A的最优反应动态
谢富纪 2008年4月 12
2.最优反应动态
A B A A
A A
B
A
A
A
初次博弈为相邻3A的最优反应动态
谢富纪 2008年4月 13
第五章有限理性和进化博弈
前面分析基本是假定博弈方具有完全的理性，但对于现实中的决策者来说往往外很难满足这一要求，

博弈论-第五章

第五章重复博弈在这一章中，我们将围绕着人类的合作为什么产生这一命题来展开。

人与人之间合作生产的一个原因（从经济学的角度来看）是这种做法对于参与者双方而言是一个有利可图的事，为什么说明这一点我们将用到重复博弈。

另一个解释合作生产的方法就是引入信息不对称，在这种情况下，一个人装作是好人是有利可图的（因为好名声能够给他带来收益），这在信息不对称中会加以介绍。

第一节重复博弈的定义及扩展式给出重复博弈定义之前，需要做若干准备，一个准备就是由于重复博弈有可能会进行一个很长的时期，甚至是无穷期，因而必须考虑收益的时间价值。

相应的表达偏好的收益函数也需要给出一定的限制。

一、贴现因子与偏好明天的一元钱和今天的一元钱价值是不一样的，最简单的理由是今天的一元钱如果存入银行那么在明天会变成1+ r ，所以明天的一元钱只相当于今天的1/(1+ r )元钱，1/(1+ r )实际上就是经济学中的贴现率。

如果假设未来没有不确定性，定义11r δ=+，未来存在收益流R 1，R 2，R 3，…，那么这个未来收益流的贴现值之和就为V =211231t t t R R R R δδδ∞-=+++=∑L(5-1)其中(0,1)δ∈称为贴现因子(Discount factor)。

严格讲，贴现因子并不等于贴现率，但贴现因子与贴现率一定是同方向变动的。

例如，我们考虑一个特殊的重复博弈，其结束之前重复进行的次数是随机的，即在博弈的每一阶段完成之后，都要通过抛若干枚（加权的）硬币的方式来决定博弈是否结束，如果硬币朝上那么博弈结束（即概率为p），如果是其他情况，那么博弈继续（即概率为1 –p）。

如果下一阶段能得到的收益为R1，那么在当前阶段硬币未抛之前的价值（即贴现后的期望值）为(1 –p)R1/(1+ r)；如果下两阶段能得到的收益为R2，在当前阶段硬币未抛之前的价值为(1 –p)2R2/(1+ r)2；下三阶段、四阶段等等的收益，照此类推。

复旦大学-谢识予-经济博弈论5(不讲,自学)

1
不进
2
不打
（1，5）
u 2 s x 0 (1 x ) 5 5 5 x u 2 n x 2 (1 x ) 5 5 3 x u 2 y u 2 s (1 y )u 2 n 5 2 xy 3 x
（0，0）（2，2）
博弈方1位置博弈群体复制动态相位图
dx dt
F ( x ) x (1 x )[ x ( a c ) (1 x )( b d )]
x (1 x )( 61 x 11)
一般2*2对称博弈
dx/dt
复制动态进化博弈的结果常常取决与带有很大偶然性的初始状态。
1 x
11/16
5.3.4 鹰鸽博弈的复制动态和进化稳定策略
dy/dt 1 y 1 y
y[u 2 e u 2 ] y (1 y )(1 6 x )
dy/dt
x<1/6
x>1/6
dy/dt 1 y
x=1/6
两群体复制动态关系和稳定性
A
B
Y 1
5/6
C
1/6
D
1
x
5 3
2
协调博弈
反应、策略调整规则推导
采用 A 的得益： xi (t ) 50 [ 2 xi (t )] 49 采用 B 的得益： xi (t ) 0 [ 2 xi (t )] 60 当 xi (t ) 22 / 61时，采用 A ；当 xi (t ) 22 / 61时，采用 B
博弈方2 鹰
vc 2
鸽 v, 0
v 2
鹰鸽
, vc
2
0, v
,

博弈论的五条结论

博弈论的五条结论
博弈论是研究决策制定和行为策略的数学分析工具。

在博弈论中，有五个重要的结论：
1.最小最大原则：在零和博弈中，每个参与者都会采取最优策略，以最大程度地最小化对手的收益。

2.纳什均衡：纳什均衡是指在一个博弈中，每个参与者选择自己的策略后，无法通过单方面改变策略来改善自己的收益。

换句话说，没有参与者能够通过单独行动获得更好的结果。

3.最优反应函数：最优反应函数是指在多人博弈中，每个参与者根据其他参与者的策略选择自己的最优策略。

最优反应函数反映了每个参与者对其他参与者行为的反应。

4.支配策略：支配策略是指在博弈中存在一种策略，无论其他参与者选择什么策略，该策略都能保证自己获得更高的收益。

因此，支配策略是明显优于其他策略的选择。

5.合作困境：合作困境是指在博弈中，每个参与者选择自己的最优策略可能会导致整体收益较低，而如果大家能够合作，整体收益会更高。

然而，由于缺乏合作保证或个人利益冲突，参与者可能更倾向于选择非合作策略，导致整体收益减少。

这些结论是博弈论中的重要概念，对于理解和分析各种博弈情境具有重要意义。

博弈论5

有限次重复削价竞争模型
寡头2 高价高价 100， 100 低价 20， 150
寡头 1
低价
150
， 20
70 ， 70
图 4.3 削价竞争博弈
重复囚徒困境悖论和连锁店悖论

（1）与直觉的差异（2）连锁店悖论（Selten，1978）泽尔腾一个在n个市场都开设有连锁店的企业，对于各个市场的竞争者是否应该加以打击排斥？由于n个市场的竞争者一般不会同时进入竞争，如果忽略各个市场环境、竞争者不同等方面的微小差异，这个问题对上述连锁企业来说相当于一个n次重复的重复博弈。较多阶段的动态博弈
有限次重复猜硬币博弈

各博弈方的正确策略就是在每次重复中都采用一次性博弈中的纳什均衡策略。
4.2.2 惟一纯策略纳什均衡博弈的有限次重复博弈

在有惟一纯策略纳什均衡的博弈中，博弈方之间的利益关系不再是始终对立的，而是有很大一致性甚至完全一致。在以这样的博弈为原博弈的有限次重复博弈中，博弈方的行动和博弈结果会不会发生质的变化？如果原博弈惟一的纯策略纳什均衡本身就是帕累托意义上的最佳策略组合，那么因为符合所有博弈方的利益，因此，有限次重复显然不会改变博弈方的行动方式。分析：原博弈惟一的纳什均衡没有达到帕累托效率，因此存在通过合作进一步提高效率的潜在可能性的囚徒困境式的博弈，在有限次重复博弈中能不能实现合作和提高效率呢？
有限次重复博弈的囚徒困境
两次
囚徒2 坦囚徒 1 坦白白不坦白
0， -8
-5， -5
不坦白
-8， 0
-1， -1
图 4.1
囚徒的困境博弈
重复博弈等价于图4.2

博弈论完整课件浙江大学Game Chapter5博弈论经典

要求4 对处于均衡路径之外的信息集，推断由Bayes’ rule 以及可能情况下的参与者的均衡策略决定。
Definition 满足要求1-4的策略和推断构成博弈的完美贝叶斯均衡〔PBE〕。Gibbons
PBE:Consider a strategy profile for the players, As well as beliefs over the nodes at all informa -tion sets.These are called a perfect Bayesian equilibrium(PBE) if:(1)each player’s strategy specifies optimal actions, given his beliefs and the strategies of the other players and (2)the
“萨摩亚岛居民以文身的好差作为挑选武士的标准〞
在波纳佩岛上，谁能种出特别大的山药，谁的社会地位就高，谁就能赢得人们的尊敬并可担任公共职务。
Signals:经济或其他活动中具有信息传递作用的行为。
Signaling Mechanism:通过信号传递信息的过程。
Pooling-strategy separating-strategy Hybrid-strategy
Game Theory(5)
Dynamic Games of Incomplete Information PERFECT BAYESIAN EQUILIBRIUM
PBE<BNE <SNE<NE
在完全信息静态博弈中，有 PBE=BNE=SNE=NE
一、Introduction to PBE
如果一个博弈没有子博弈，那么子博弈精炼的要求〔参与人的策略在每一个子博弈中君构成NE的要求〕自然就得到满足，从而在任何没有子博弈的博弈中，SNE=NE。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

流浪汉寻找工作政府救济不救济 3,2 1,1 游荡－1,3 0,0
2
而另一些博弈却有多于一个没有哪个博弈方愿意单独改变策略的纳什均衡策略组合，如夫妻之争博弈。改变策略的纳什均衡策略组合，如夫妻之争博弈。
丈夫妻子时装表演足球时装表演 2,1 0,0 足球 0,0 1,3
♦ 这两类博弈如果只进行一次，实际结果如何确实取决于机会和这两类博弈如果只进行一次，
10
博弈方2 博弈方博弈方1 博弈方 A B C 2,3 3,1 D 5,2 1,5
设博弈方1选的概率为的概率为p 的概率为p 博弈方2选的概设博弈方选A的概率为 A，选B的概率为 B，博弈方选C的概的概率为率为p 的概率为p 根据上述第二个原则，博弈方1选率为 C，选D的概率为 D。根据上述第二个原则，博弈方选A 的概率为的概率p 一定要使博弈方2选的期望得益和选的期望得益和选D的期和 B的概率 A和pB一定要使博弈方选 C的期望得益和选的期的概率望得益相等,即望得益相等即: pA×3＋pB×1=pA×2+pB×5 ＋简化后可得 pA=4pB 。又因为 pA 十 pB=1 ，因此 pA=0.8 ， pB=0.2，这就是博弈方应该选择的混合策略。同理，博弈方应该选择的混合策略。，这就是博弈方1应该选择的混合策略同理， 2选择和D的概率 c和pD也应使博弈方选择的期望得益和选选择C和的概率的概率p 也应使博弈方1选择选择A的期望得益和选选择的期望得益相等，择B的期望得益相等，即的期望得益相等 pc×2＋pD×5=pc×3+pD×1 ＋简化后得4p 因为p 简化后得 D=pC。因为 D+pC =1，因此 C=0.8，pD=0.2，，因此p ，， 11 这是博弈方2的混合策略的混合策略。这是博弈方的混合策略。
第三节混合战略纳什均衡
一、概念的提出用纳什均衡的概念已经相当圆满地解决了不少博弈问题，博弈问题，但我们也应该注意到纳什均衡在解博弈问题时的弱点，博弈问题时的弱点，即只有当博弈中有唯一的纳什均衡时才能解出博弈的结果，纳什均衡时才能解出博弈的结果，才能说出各博弈方的做法。但是，博弈方的做法。但是，许多现实中决策问题构成的博弈中根本不存在具有稳定性的各博弈方都接受的纳什均衡策略组合，都接受的纳什均衡策略组合，如猜硬币博弈和齐威王田忌赛马
猜硬币方盖硬币方正面反面正面－1,1 1，－，－1 ，－反面 1，－，－1 ，－－1,1
5
正如前面已反复证明了的，正如前面已反复证明了的，该博弈中不存在任何纳什均衡策略组因为无论哪个策略组合的结果都是一方赢一方输，合，因为无论哪个策略组合的结果都是一方赢一方输，而输的一方又总可以通过单独改变自已的策略而反输为赢。方又总可以通过单独改变自已的策略而反输为赢。因此这就引出了在这种博弈中各博弈方决策的第一个原则：了在这种博弈中各博弈方决策的第一个原则：自己的策略选择千万不能预先被另一方侦知或猜到。万不能预先被另一方侦知或猜到。从上述原则再推论下去又可知道，在该博弈的多次重复中，从上述原则再推论下去又可知道，在该博弈的多次重复中，博弈方一定要避免自己的选择带有任何的规律性，方一定要避免自己的选择带有任何的规律性，因为一旦自己的选择有某种规律性并被对手发觉，择有某种规律性并被对手发觉，则对手可以根据这种规律性判断出你的选择，从而对症下药选择策略，使你屡战屡败。出你的选择，从而对症下药选择策略，使你屡战屡败。其次，在本博弈中，其次，在本博弈中，如果盖硬币方虽然是随机决定出正面还是反但如果在总体上出正面多于出反面，面，但如果在总体上出正面多于出反面，即出正面的概率大于出反面的概率，则猜硬币方还是有机可乘。反面的概率，则猜硬币方还是有机可乘。设盖硬币方出正面的概率为p则出反面的概率为l 出正面多于出反面，率为p则出反面的概率为l一p，出正面多于出反面，即p＞1一p或 l/2 在这种情况下，如猜硬币方全猜正面，则他的期望得益： p＞l/2。在这种情况下，如猜硬币方全猜正面，则他的期望得益： (l一P)× p×1十(l一P)×(－1)＝2p－1＞0
1
例1，社会福利博弈。在这个博弈里，参与人是政府和一个流，社会福利博弈。在这个博弈里，浪汉有两个战略：寻找工作或游荡；政府也有两个战略：浪汉有两个战略：寻找工作或游荡；政府也有两个战略：救济或不救济。政府想帮助流浪汉，济或不救济。政府想帮助流浪汉，但前提是后者必须试图寻找工作，否则，前者不予帮助；找工作，否则，前者不予帮助；而流浪汉只有在得不到政府救济时才会寻找工作。类似这样的问题，救济时才会寻找工作。类似这样的问题，在父母决定给予懒惰的儿子多少资助时也会出现。下表给出这个博弈的支付矩惰的儿子多少资助时也会出现。阵(返回）返回）返回
1 1 1 1 1 1 1 1 × 1 + × (−1) + ×1 + × ( −1) = 0 2 2 2 2 2 2 2 2
即多次独立重复该博弈的结果应为不输不赢，这当然是这个零即多次独立重复该博弈的结果应为不输不赢，和博弈双方最能接受的结果。和博弈双方最能接受的结果。
运气，因为它们不存在能导致确定性结果的内在机制，运气，因为它们不存在能导致确定性结果的内在机制，也就是博弈方选任一策略都不能保证有利的结果和好的得益。说，博弈方选任一策略都不能保证有利的结果和好的得益。但这也不是说博弈方可以胡乱选择，这也不是说博弈方可以胡乱选择，实际上在这些博弈中各博弈方的决策还是很有讲究的，方的决策还是很有讲究的，我们可以设想多次独立反复进行这些博弈，这样博弈方决策的好坏就会从平均得益上反映出来，些博弈，这样博弈方决策的好坏就会从平均得益上反映出来，策略运用得当平均收益会较理想，至少是不吃亏，策略运用得当平均收益会较理想，至少是不吃亏，否则平均得益就会很差。益就会很差。
8
在猜硬币博弈中，盖硬币方以在猜硬币博弈中，盖硬币方以1/2的相同概率随机选的相同概率随机选择出正面还是出反面和猜硬币方以1/2的相同概率随择出正面还是出反面和猜硬币方以的相同概率随机选择猜正面还是猜反面就是一个混合策略的纳什均衡。均衡。这样的纳什均衡虽然不能明确告诉我们一次博弈中双方的具体选择和博弈的确定结果，博弈中双方的具体选择和博弈的确定结果，但却告诉了我们他们决策的具体方式，以及两博弈方的期诉了我们他们决策的具体方式，望得益：望得益：
9
二、用支付等值法求解混合战略纳什均衡
例讨论一个变和博弈的例子博弈方2 博弈方博弈方1 博弈方 A B C 2,3 3,1 D 5,2 1,5
♦ 对该博弈用划线法很容易看出它不存在任何纯策略纳什均衡，对该博弈用划线法很容易看出它不存在任何纯策略纳什均衡，
也即任何一个纯策略组合下都有一个博弈方可通过单独改变策略而得到更好的得益。因此这又是一个混合策略问题。策略而得到更好的得益。因此这又是一个混合策略问题。 ♦ 本博弈中两博弈方决策的第一个原则同样也是不能让对方知道或猜到自己的选择，因而必须在决策时利用随机性。道或猜到自己的选择，因而必须在决策时利用随机性。第二个原则是他们选择每种策略的概率一定要恰好使对方无机可乘，即让对方无法通过有针对性地倾向某一策略而在博弈中占上风。占上风。
守卫小偷偷不偷睡 B,－D － 0,S 不睡－P,0 0,0
4
上述这样一环套一环的因果循环永远不可能停止，上述这样一环套一环的因果循环永远不可能停止，无论从哪里开始结果都是一样。无论从哪里开始结果都是一样。因此这个博弈与猜硬币和齐威王田忌赛马一样，猜硬币和齐威王田忌赛马一样，都是在一次性博弈中没有会自动实现的均衡性策略组合的，弈中没有会自动实现的均衡性策略组合的，也就是说，两博弈方之间的利益是始终都不会一致的。是说，两博弈方之间的利益是始终都不会一致的。我们还是从较简单的猜硬币博弈开ห้องสมุดไป่ตู้来探索这类博弈问题的解法。博弈问题的解法。
3
小偷和守卫的博弈。小偷和守卫的博弈。对博弈论研究作出巨大贡献而荣获1995年诺贝尔经济学奖的对博弈论研究作出巨大贡献而荣获年诺贝尔经济学奖的 R·塞尔腾教授塞尔腾教授1996年3月在上海的一次讲演中讲了一个关于小塞尔腾教授年月在上海的一次讲演中讲了一个关于小偷与守卫之间博弈的例子。该博弈问题是这样的：偷与守卫之间博弈的例子。该博弈问题是这样的：一小偷欲偷窃有一守卫看守的仓库，如果小偷去偷窃时守卫在睡觉，有一守卫看守的仓库，如果小偷去偷窃时守卫在睡觉，则小偷就能得手，但如果小偷去偷窃时守卫没有睡觉，则小偷就要被抓住。能得手，但如果小偷去偷窃时守卫没有睡觉，则小偷就要被抓住。并且，我们假设小偷得手可得价值为B的赃物的赃物，并且，我们假设小偷得手可得价值为的赃物，如被抓住则要坐坐牢的负效用为一P(设其单位与脏物的价值同设其单位与脏物的价值同)，牢，坐牢的负效用为一设其单位与脏物的价值同，再设守卫睡觉而未被偷则有S的正效用睡觉遭偷则要被解雇，的正效用，睡觉而未被偷则有的正效用，睡觉遭偷则要被解雇，解雇的负效用为一D(也设其单位与的单位同)，而如果小偷不偷，也设其单位与S的单位同效用为一也设其单位与的单位同，而如果小偷不偷，则他既无得也无失，既无得也无失，守卫不睡则出一份力挣一份工资同样也是既无得也无失。也无失。根据上述设定，在该博弈中，根据上述设定，在该博弈中，小偷有偷和不偷两种可选策略，小偷有偷和不偷两种可选策略，守卫有睡和不睡两种可选策略，守卫有睡和不睡两种可选策略，双方博弈的得益矩阵如图（双方博弈的得益矩阵如图（返回）
7
定义：在博弈定义：在博弈G={S1，…，Sn;u1，…，un}中，博弈方的，，中博弈方i的策略空间为S 则博弈方i以概率分布策略空间为 i={si1,…,sik}则博弈方以概率分布则博弈方 pi=(pi1,…,pik)随机选择其个可选策略称为一个“混合战随机选择其k个可选策略称为一个随机选择其个可选策略称为一个“ 其中0≤ 都成立且p 略”，其中 ≤pik≤1对k=1, …k都成立且 i1+…pik=1 对都成立且相对于这种以一定概率分布在一些策略中随机选择的混合策确定性的具体的策略我们称为“纯策略” 略，确定性的具体的策略我们称为“纯策略”，而我们原来意义上的纳什均衡，意义上的纳什均衡，即任何博弈方都不愿单独改变策略的纯策略组成的策略组合现在可称为“纯策略纳什均衡” 当然，策略组成的策略组合现在可称为“纯策略纳什均衡”。当然，纯策略也可以看作混合策略的特例。纯策略也可以看作混合策略的特例。引进了混合策略的概念以后，引进了混合策略的概念以后，我们可将纳什均衡的概念扩大到包括混合策略的情况。对各博弈方的一个策略组合，到包括混合策略的情况。对各博弈方的一个策略组合，不管它是纯策略组成的还是混合策略组成的，它是纯策略组成的还是混合策略组成的，只要满足各博弈方都不会想要单独偏离它，我们就称之为一个纳什均衡。都不会想要单独偏离它，我们就称之为一个纳什均衡。