《第三章传统博弈理论(2动态博弈)》

合集下载

《第三章传统博弈理论(2动态博弈)》解读

“社会嵌入性”是指现代市场经济中交易或组织嵌入在参与人“社会网络” 中。格拉诺威特1985在AJS发表开创性论文《Economic Action and Social Structure: The Problem of Embeddedness》发起了一场“新经济社会学”运动：一方面批评了杜克海姆和帕森斯(1951)“过度社会化”的社会学传统；一方面批评了经济学效用理论“社会化不足”的缺陷，认为规范系统既是内生于市场或组织的参与者行为中，又是嵌入到具体的外部社会网络中。这篇文章中提出了著名的社会学概念“嵌入性(embeddedness)”：个体或企业的经济关系是嵌入到实际的社会网络中。
博弈论专题讲座
（Advances in Game Theory)
东北财经大学数学与数量经济学院刘德海
ldhai2001@
1
作业讲解
代理人
诚实不诚实不信任 0，0 信任

委托人不信任信任
0,0
诚实 5,5
代理人
不诚实 0
5， 5
张维迎《法律制度的信誉基础》一文的重复博弈模型试计算：（1）请将该动态博弈模型转化为静态博弈模型？
第四节纳什均衡的多重性：静态博弈的焦点均衡

思考：从博弈论角度，如何看待世界的多样性和最优性(普适性)？传统博弈理论：参与者是完全理性的，根据所处环境能够达到最优化目标。 ——多重均衡的精炼（最优化）：如何精炼出更好的均衡结果？演化博弈理论：参与者是有限理性的，只能达到满意解。 ——多重均衡存在的适用条件：根据不同的历史初始条件和外部随机事件干扰，存在演化的路径依赖现象。
16
举例1：台独与大陆的台海博弈

台独分子的“理性”目标设定：中国面临着本世纪初二三十年的战略机遇期，不希望有台海战争。台独分子觉得这是推进台独的大好时机，通过修宪等“切香肠”渐进方式来争取独立。台独分子的认知结构：要是中国威胁动武，陈水扁相信美国众议院亲台反华势力能发挥影响力，台海发生冲突后美国必会拔刀相助。中国面对美日联合干涉将知难而退，从而在美日卵翼下实现和平独立的台独梦想。

动态博弈理论与应用

动态博弈理论与应用第一章：引言动态博弈理论是博弈论的一种重要分支，研究的是受到时间和信息约束的博弈问题。

它从时间顺序和信息公开程度等维度对博弈过程进行建模和分析，是理论经济学、管理学、计算机科学等众多学科领域中的重要研究内容之一。

本文将从动态博弈理论的基本概念、模型和方法入手，介绍动态博弈理论的主要内容和应用情况。

第二章：动态博弈理论的基本概念动态博弈理论建立在静态博弈理论之上，它的最主要的特点在于参与者的决策与结果之间存在时间上的关联关系，即决策是按照时间顺序轮流做出的。

而参与者在做出决策前，只能知道自己的信息和其他参与者之前做的决策，不能预知未来的结果。

在这个基础上，动态博弈理论提供了一系列的模型和方法来分析博弈的结果及实现方式。

第三章：动态博弈理论的模型动态博弈理论的模型可以基于信息不完备、不确定性、策略可见性等多个方面进行分类。

其中，信息不完备的模型是最基础的，最经济学家最常使用的。

信息不完备模型中，博弈参与者的行动必须基于自己已知的信息，而不知道其他参与者的信息。

而在不确定性模型中，参与者不知道结果将会如何。

策略可见性模型则是最具有实际应用的模型，这种模型中，每个参与者知道所有的实际结果及其影响，即支配条件。

第四章：动态博弈理论的方法动态博弈理论中有许多方法，常用的包括完美均衡、子博弈完美均衡、可重复博弈、概率博弈等。

典型的完美均衡策略就是一个序列，每一项都是一个单步博弈策略，游戏结果取决于序列的每一步策略。

子博弈完美均衡则是针对复杂的大型博弈进行分析的一种方法。

若子博弈具有完备信息，则必须使用完全搜索算法来处理该问题。

而可重复博弈和概率博弈则是针对直接博弈不适合的情境，如合谋的情境、局部信息的分布等，而设计的两种不同类型的博弈方法。

第五章：动态博弈理论的主要应用动态博弈理论具有广泛的应用领域，例如竞争激烈的高科技行业、公共政策设计、外交谈判和金融衍生品等领域。

例如在金融衍生品市场中，动态博弈理论可以通过构建模型分析衍生品价格，为股票、债券和外汇等市场提供更完善的竞争分析和风险管理策略。

动态博弈

弈重复多次，其中每次博弈称为“阶段博弈”(stage game)。
例子：以囚徒困境为例，如果每次判刑不是很重，那么两
个囚犯在刑满释放之后再作案，作案之后再判刑，释放之后再作案，
如此等等，他们之间就是进行的重复博弈，其中每次作案就是一个
阶段博弈。
1.3：有限期重复博弈（完全信息）和默契合谋
（2）基本特征：
V=1/2π(m)+1/2δπ(m)+1/2δ ^2π(m)+1/2δ ^3π(m)+….
V'=π(m)+0*δ +0*δ ^2+0*δ ^3+…
0பைடு நூலகம்
0
1.4：无限期重复博弈（完全信息）和默契合谋分析：
（1）因为两个厂商是对称的，所以对于厂商二而言，上面的分析结果相同；（2）如果V>=V’（δ >=1/2），那么给定厂商一选择冷酷战略，厂商二的最优选择也是冷酷战略，同样的分析对于厂商一也成立，所以冷酷战略构成纳什均衡。
1.4：无限期重复博弈（完全信息）和默契合谋
3、上述条件之下，冷酷战略是否构成子博弈精炼纳什均衡？
在冷酷战略纳什均衡下，子博弈可以分为两类：（1）没有厂商曾经选择不合作（2）至少有一个厂商曾经选择不合作
在（1）的情况之下，子博弈构成纳什均衡，冷酷战略是无限期重复博弈的子博弈精炼纳什均衡，（合谋，合谋）是每个阶段博弈的均衡结果；在（2）的情况之下，子博弈构成纳什均衡，冷酷战略是无限期重复博弈的子博弈精炼纳什均衡，（不合作，不合作）是每个阶段的博弈的均衡结果（即伯特兰均衡的无限次重
1、阶段博弈之间没有“物质上”的联系，前一个阶段
的博弈不改变后阶段的博弈；
2、所有的参与人都观测到过去的博弈的历史，知道对

《第三章传统博弈理论(3不完全信息)》

据台媒报道，国民党将在2007年8月前，敲定08“总统”大选候选人。按照国民党内有关规定，如果国民党的候选人有两人以上，将按照初选制度办理，其中民调占70%、党员投票占30%。但如果只有一人成为国民党 “总统候选人”，就不用办理党内初选。民调相当于一个外部信号装置，党员选举相当于一个内部信号装置
8

[资料夹]朝核问题和六方会谈

朝鲜指控美国对其国家安全构成最大威胁，美国坚持朝鲜半岛无核化。
为解决问题，朝鲜一直要求与美国进行直接对话，并多次提议与美国签订互不侵犯条约，以图获得外交承认；但美国坚持不直接与“流氓国家” 接触，要求朝鲜先行放弃核计划，并坚持采取多边对话解决。
中国外交穿梭，先2003年4月23日－25日，中、朝、美三方在北京举行了三方会谈，中国作为中间人角色促成朝美双方进行直接沟通；然后8月份进入六方会谈阶段。 07年3月，美国首席谈判代表希尔与朝鲜代表团团长金桂冠在日内瓦就朝鲜核计划举行了为期两天的谈判。据美国首席谈判代表希尔称，朝鲜将全面公开其核计划，并在年底前关闭所有核设施。

Farrell J., Rabin M. Cheap Talk. The Journal of Economic Perspectives, 1996, 10(3): 103-118.
7
第五节纳什均衡的无效率问题：
相关均衡和信号装置

第二种实现途径：引入外部实体进行协调回忆：一般均衡理论中市场均衡价格的形成机制。

9
第五节纳什均衡的无效率问题：相关均衡和信号装置
boy
看球看电影
看球
看电影
girl
1， 1 0， 1
1， 0 2， 2

动态博弈

“战术勾结”
寡头之间的“不回避竞争法则”，是指至少有几个寡头厂商保证（通常以做广告的方式）自己的索价不高于其他任何竞争者。这样的许诺对于消费者来说似乎是件很好的事，但事实上这样的做法会提高价格。
寡占的斯塔克博格（stackberg）模型—— 动态的寡头市场产量博弈模型
u1=q1P(Q)-c1q1 =q1[8-(q1+q2)]-2q1 =6q1- q1q2-q12
最后，实施上述策略组合的最终结果，即路径终端处得益数组中的数字。
可信性和纳什均衡问题
相机选择和策略中的可信性问题动态博弈中博弈方的策略并没有强制力，
而且实施起来有一个过程，只要符合博弈方自己的利益，他们完全可以在博弈过程中改变计划。我们称这种问题为动态博弈中的“相机选择”（Contingent Play）。
逆推归纳法（backwards induction）
逻辑基础：动态博弈中先行动的理性的博弈方，在前面阶段选择行为时必然会考虑后行为博弈方在后面阶段中将会怎样选择行动，只有在博弈的最后一个阶段不再有后续阶段牵制的博弈方，才能做出明确的选择。而当后面阶段博弈方的选择确定以后，前一阶段博弈方的行为也就容易确定了。
q2应满足： 6－q1－2 q2 = 0 q2 =3－q1/2
厂商1 知道厂商2的这种决策思路，因此在选择产量水平 q直1时接就将知上道式厂代商入2自的己产的量得q2益*会函根数据，上这式样确厂定商，1的所得以益他函可数以实际上转化成了他自己产量的一元函数：
u1(q1,q2*) = 6q1－q1q2*－q12 = 6q1－q1(3－q1/2)－q12 = 3q1－0.5q12
乙讨价还价的筹码就是可以跟甲托时间
（当然拖延对乙的收益也有影响），拖延

动态博弈理论

动态博弈理论基本概念静态博弈：所有局中人同时行动；后者局中人的行动有先后顺序，但是，后行动者不能观测到先行动者的行动。

动态博弈：局中人的行动有先后顺序，后行动者可以观测到先行动者的行动。

静态博弈的表示：局中人集合；局中人的决策集；局中人的支付（收益）函数。

动态博弈的表示（博弈的扩展式表达）1、局中人集合；（其中包括虚拟局中人“自然”）2、局中人的行动顺序：谁在什么时候行动；3、局中人的行动空间（决策集）：在每次行动时，局中人的可供选择的决策；4、局中人的信息集：在每次行动时，局中人所知道的以前博弈过程的信息；5、局中人的支付函数：每次行动时，局中人的所得（它是所有行动的函数）；6、外生事件（“自然”的选择）的概率分布。

博弈树：多人有限策略的扩展式可以用博弈树表示例：有房产商A和B各可以开发一栋楼，开发成本为1亿。

若市场有两栋楼，当市场需求大时，每栋楼售价为1.4亿；当市场需求小时，每栋楼售价为7千万。

若市场只有一栋楼，当市场需求大时，售价为1.8亿；当市场需求小时，每栋楼售价为1.1亿。

房产商的决策选择为开发或不开发。

这样，共有下列8种可能结果：1、需求大，A开发，B不开发，则A的利润为0.8亿，B的利润为0；2、需求大，A不开发，B开发，则A的利润为0，B的利润为0.8亿；3、需求大，A开发，B开发，则A的利润为0.4亿，B的利润为0.4亿；4、需求大，A不开发，B不开发，则A的利润为0，B的利润为0；5、需求小，A开发，B不开发，则A的利润为0.1亿，B的利润为0；6、需求小，A不开发，B开发，则A的利润为0，B的利润为0.1亿；7、需求小，A开发，B开发，则A的利润为-0.3亿，B的利润为-0.3亿；8、需求小，A不开发，B不开发，则A的利润为0，B的利润为0；假设行动顺序为房产商A先行动，然后“自然”选择需求量（假设需求大或小的概率同为0.5）。

房产商B观察到房产商A行动和“自然”选择后，再选择行动。

第三章完全且完美信息动态博弈

第三章完全且完美信息动态博弈在动态博弈中，参与者需要根据对手的行为和策略来调整自己的行动，以便达到最佳的结果。

动态博弈可以分为完全信息动态博弈和不完全信息动态博弈。

完全信息动态博弈是指所有参与者都知道其他参与者的策略和收益函数，而不完全信息动态博弈则是指参与者不知道其他参与者的策略和收益函数。

在完全信息动态博弈中，参与者可以通过观察对手的行为来推断出对手的策略和收益函数。

这种博弈可以通过逆向归纳法来求解，即从博弈的阶段开始，逐步向前推导出每个阶段的最佳策略。

逆向归纳法是一种有效的求解完全信息动态博弈的方法，它可以帮助参与者找到最佳策略，从而实现最佳的结果。

然而，在现实世界中，完全信息动态博弈并不常见。

大多数博弈都是不完全信息动态博弈，参与者无法知道其他参与者的策略和收益函数。

在这种情况下，参与者需要通过观察对手的行为和策略来推断出对手的类型和收益函数。

这种博弈可以通过贝叶斯纳什均衡来求解，即参与者根据对手的类型和收益函数来选择自己的策略，以达到最佳的结果。

完全且完美信息动态博弈是指所有参与者都知道其他参与者的策略和收益函数，并且参与者能够观察到其他参与者的行为和策略。

这种博弈可以通过逆向归纳法和贝叶斯纳什均衡来求解，从而帮助参与者找到最佳策略，实现最佳的结果。

在完全且完美信息动态博弈中，参与者可以通过观察对手的行为和策略来推断出对手的类型和收益函数，从而调整自己的策略，以实现最佳的结果。

在完全且完美信息动态博弈中，参与者之间的互动是基于透明和预知性的。

每个参与者不仅清楚自己的策略选择和可能的收益，同时也了解其他参与者将如何根据这些信息做出反应。

这种透明度使得参与者能够做出更加精确的决策，因为他们能够预测对手的行动并据此调整自己的策略。

这种博弈的一个关键特点是，参与者之间的信息是对称的。

这意味着没有参与者拥有其他参与者所不知道的信息优势。

这种信息对称性使得博弈变得更加公平，因为它消除了信息不对称带来的不确定性。

《动态博弈模型》课件

子博弈精炼纳什均衡
在完全信息动态博弈中，子博弈精炼纳什均衡是指通过剔除不可置信威胁和承诺的策略，得到的均衡结果。
不完全信息动态博弈
不完全信息
在不完全信息动态博弈中，至少有一个参与者不拥有关于博弈的所有信息，包括其他参与者的类型、策略和支付函数。
贝叶斯纳什均衡
在不完全信息动态博弈中，贝叶斯纳什均衡是一个重要的概念，它是指所有参与者在给定自己类型和概率分布的条件下，采取的
劳动力市场
经典动态博弈模型用于研究劳动力市场的工资和就业问题，分析雇主和雇员之间的博弈关系。
在政治学中的应用
选举博弈
经典动态博弈模型用于分析选举中的竞选策略，如候选人如何制定竞选纲领、如何进行宣传等。
国际关系
该模型用于研究国家间的外交政策和国际合作，分析各国在利益冲突下的博弈行为。
立法博弈
触发战略
在重复博弈中，触发战略是指一种报复机制，如果某个参与者在某个阶段采取了不合作的策略，其他参与者会在未来的阶段采取报复措施。
04
动态博弈模型的求解方法
逆向归纳法
逆向归纳法是一种求解动态博弈的方法，通过逆向推理，从博弈的最后阶段开始分析，逐步向前推导，最终得出每个参与者的最优策略。
在求解过程中，逆向归纳法假设每个参与者都了解其他参与者的策略选择，并在此基础上选择自己的最优策略。
02
经典动态博弈模型介绍
囚徒困境
总结词
描述两个囚犯因相互背叛而导致双方都不利的结果。
详细描述
囚徒困境是一个经典的动态博弈模型，描述了两个囚犯因被警方逮捕而面临指控的情况。如果两个囚犯都保持沉默，他们都将得到较轻的刑罚；但如果其中一个囚犯背叛另一个，他将得到更轻的刑罚，而另一个囚犯将得到更重的刑罚。然而，如果两个囚犯都背叛彼此，他们都将得到更重的刑罚。因此，尽管合作是最佳策略，但每个囚犯都有动机背叛对方，导致双方都不利的结果。

博弈论(第三章-修改)

（2）里昂惕夫（Leontief）劳资模型（续）
而厂商的效用直接用利润来表示，它是收益和成本之差。假定厂商的收益是劳动雇佣数量的函数R（L），再假定厂商只有劳动成本，这样，厂商的总成本为工资率乘以雇佣劳动数量W x L，假定工会和厂商之间的博弈过程是这样的：先由工会决定工资率，然后厂商根据工会提出的工资率决定雇佣多少劳动力。假定工资率和雇佣数量都是连续可分的，因此博弈双方都有无限多的选择。
（0，2）
逆推归纳法的例子二
有5个海盗抢来100枚金币，大家决定了下面分赃的方式：由海盗一提出一种分赃的方式，如果同意这种方式的人达到半数，那么该提议就通过并付诸实施；若同意这种方式的人未达到半数，则提议不能通过且提议人将被扔进大海喂鲨鱼，然后由接下来的海盗继续重复提议过程。假设海盗个个都非常聪明，也不互相合作，并且每个海盗都想尽可能多得到金币，那么，第一个提议的海盗将怎样提议既可以使得提议被通过又可以最大限度得到金币呢？
针对其他博弈方策略的最佳对策，各博弈方都不愿
意改变策略的策略组合，具有一定的稳定性。
动态博弈的纳什均衡分析
例：“开发金矿的博弈” 甲有一价值4万元的金矿，但缺1万元的开发资金，
而乙正好有1万元资金可以投资。设甲想说服乙将这
一万元资金借给自己用于开发金矿，并许诺在采到金子后与乙对半分成，试用动态博弈的扩展式表示。
逆推归纳法的总结（1）逆推归纳法就是把多阶段动态博弈化为一系列的单人博弈进行分析；（2）逆推归纳法是严格下策反复消去法在动态博弈中
的应用。
（3）由逆推归纳法确定的各个博弈方在各阶段的选择都
是建立在后续阶段各个博弈方理性的基础上的，因
此自然排除了包含不可信的许诺；（4）逆推归纳法不适用于无限博弈和不完美信息博弈。

动态博弈

b 再来分析第19个市场，我们假设前面18个市场微硬都采取了斗争选择，而最后的第
c 以这样的方法一直推到第1个市场，微硬都会选择容纳。此时就会収现在为企业的斗争选择无法构成完美子博弈，不能形成可信的威胁，唯一的
完美子博弈那是均衡只有一开始采取接纳战略。
而乊上的考虑是基于在为企业是“理性的”，如果在为企业支付一定成在一开始就采取
先行动者与后行动者
1数量竞争的斯塔克伯格模型 2 序列价格竞争
3 序列质量选择
4 动态博弈中的承诺及其可信性 5 连锁店悖论
序列博弈简介序列博弈是指博弈双方有行动的先后顺序的博弈类型。我们将这种参与者行动选择具有
先后顺序类型的博弈称为动态博弈。行动的先后顺序会给其中一些参与者获得战略优势，先行动者获得收益就称为先行动优势。本章研究的重点是动态博弈。重复博弈。
成立，领导企业选择生产高质量产品，否则生产低质量产品。而在跟随者来说，不会选择与领导者相同质量的产品，因为同质产品会导致伯川德竞争，企业的利润会下降到0.
在乊前的模型分析中，我们假设的是领导企业在产量、价格或者质量这三个选择变量中
选择一个并且选择乊后不会做出改变。等到领导企业作出决定后，追随企业乊后会做出反应，这是典型的序贯博弈。在其纳什均衡中，产量是明显高于古诺模型的。但是对于领导企业来说最优的产量水平还是低于当前的产量水平更接近与古诺模型下的最有水平的。量而不会减产。相反，如果他预期到领导者会增产，那么追随者自身也会增产。博弈结果最终还是会倾向于古诺模型下的纳什均衡。
当产品存在质量的差别后，企业是生产高质量产品还是低质量产品成为企业面临的重要
决策问题。
假定有两家企业，企业1生产高质量的z1，企业2生产低质量的z2，生产高质量产品成本

动态博弈名词解释

动态博弈名词解释动态博弈 (Dynamic Game) 是指一种博弈模型，其中参与者需要在不断变化的环境中做出决策。

在动态博弈中，参与者需要考虑其他参与者的决策和行为，并根据这些决策和行为来调整自己的策略。

动态博弈通常分为以下几种类型:1. 合作博弈 (Cooperation Game):在这种博弈中，参与者需要相互合作才能实现最大化的收益。

例如，兵棋游戏就是一种合作博弈模型。

2. 非合作博弈 (Non-cooperation Game):在这种博弈中，参与者之间没有合作的可能性，每个参与者的目标都是最大化自己的利益。

例如，拍卖就是一种非合作博弈模型。

3. 多方博弈 (Multi-player Game):在这种博弈中，有多个参与者参与，每个参与者需要做出决策，并且这些决策会相互影响。

例如，政治选举就是一种多方博弈模型。

在动态博弈中，参与者需要考虑其他参与者的行为和决策，并根据这些决策和行为来调整自己的策略。

这种模型通常用于研究市场中的竞争和合作、组织内的协作和决策制定等领域。

动态博弈的分析方法包括策略组合、均衡和稳定性等。

策略组合是指参与者可以选择的所有策略集合，每个策略都是参与者可以选择的一种行动。

均衡是指参与者在决策过程中达到的一种稳定状态，即所有参与者都选择了与自己的策略相一致的行动。

稳定性是指参与者的最优策略不会因为其他参与者的决策和行为而发生变化。

动态博弈的应用范围非常广泛，包括政治、经济、组织、社会和军事等领域。

例如，在政治选举中，参与者需要考虑其他政治家的决策和行为，并根据这些决策和行为来调整自己的策略，以实现自己的政治目标。

在市场竞争过程中，参与者需要考虑其他竞争对手的决策和行为，并根据这些决策和行为来调整自己的策略，以取得最好的市场地位。

博弈第三章

从本博弈的分析可以看出，在一个个体都有私心，都只注重自身利益的社会中，完善公正的法律制度不但能保障社会的公平，而且还能提高社会经济活动的效率，是实现最有效率的社会分工合作的重要保障。
乙
借
甲分（2，2）打（-1，0）不分乙
不借（1，0）
不打（0，4）
法律保障不足的开金矿博弈 ——分钱打官司都不可信
无限回合讨价还价
S1 1000010000 2S
S S1 1000010000 2S
10000 S 1
*
10000 10000 S 1
*
委托人—代理人理论
一、委托人——代理人关系
• 经济活动和社会活动中有很多委托人——代理人关系，有明显的，也有隐蔽的。工厂和工人、店主和店员、客户和律师、市民和政府、基金购买者和基金管理人等都是。 • 委托人——代理人关系的关键特征：不能直接控制，监督不完全，信息不完全，利益的相关性 • 委托人——代理人涉及问题：激励机制设计、机制设计理论，委托合同设计问题等
是原博弈本身，我们不称它为原博弈的子博弈。即第一个节点不能作为子博弈的初始节点
1 进 2
不进
打击（3，6）
不打击（5，8）
（0，10）
乙借甲分（2，2）打（1，0）不分乙不打
不借
（1，0）
（0，4）
逆推归纳法
• 逆推归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始，逐步向前倒推以求解动态博弈的方法。
Rule2:
讨价还价每进行一个回合，存在一个消耗系数
• 第一阶段，甲的方案是自己得 s1 ，乙得 10000s1 ，乙可以选择接受或不接受，接受则双方得益分别为s1和10000- s1 ，谈判结束，如果乙不接受，则开始下一阶段； • 第二阶段，乙的方案是甲得 s2 ，自己得 10000- s2 ，由甲选择是否接受，接受则双方得益分别为 s2和（10000- s2 ），谈判结束，如甲不接受则进行下一阶段； • 第三阶段，甲提出自己得s，乙得10000-s，这时乙必须接受，双方实际得益为 2 s和 2 （10000-s）。

博弈论最全完整-讲解

Because We Had a Flat Tire”
“乘客侧前轮”看起来是一个合乎逻辑的选择。但真正起作用的是你的朋友是否使用同样的
逻辑，或者认为这一选择同样显然。并且是否你认为这一选择是否对他同样显然；反之，是否她认为这一选择对你同样显然。……以此类推。也就是说，需要的是对这样的情况下该选什么的预期的收敛。这一使得参与者能够成功合作的共同预期的策略被称为焦点。心有灵犀一点通。
例3：为什么教授如此苛刻？
问题是，一个好心肠的教授如何维持如此铁石心肠的承诺？
他必须找到某种使拒绝变得强硬和可信的方法。
拿行政程序或者学校政策来做挡箭牌在课程开始时做出明确和严格的宣布通过几次严打来获得“冷面杀手”的声
誉
导论
博弈均衡与一般均衡博弈论与诺贝尔经济学奖获得者
博弈论的基本概念与类型主要参考文献
即使决策或行动有先后，但只要局中人在决策时都还不知道对手的决策或者行动是什么，也算是静态博弈
完全信息博弈与不完全信息博弈
(games of complete information and games of incomplete information)
按照大家是否清楚对局情况下每个局中人的得益。
“各种对局情况下每个人的得益是多少” 是所有局中人的共同知识（common knowledge）。
据“共同知识”的掌握分为完全信息与不完全信息博弈。
完美信息博弈与不完美信息博弈
(games with perfect information and games with imperfect information)
了解自己行动的限制和约束，然后以精心策划的方式选择自己的行为，按照自己的标准做到最好。 • 博弈论对理性的行为又从新的角度赋予其新的含义— —与其他同样具有理性的决策者进行相互作用。 • 博弈论是关于相互作用情况下的理性行为的科学。

北京大学博弈论课件第3章完全信息动态博弈.ppt

参与者 1
S1
S2
参与者 2 V1
V2 V1
参与者 2 V2
（a1, b1, c1）参与者 3 U1
（a2, b2, c2） U2
（a3, b3, c3）（a4, b4, c4）
错误的博弈树构造方法
❖ 正确的博弈树构造方法
参与者 2 V1 （a1, b1, c1）
参与者 1
S1
S2
参与者 2
V2 参与者 3
斗争
（0, 20）
潜在进入者
不进入
默许
斗争进入
在位者默许
（0, 15）（-10, -10）
（5, 5）
横向博弈树
❖ 博弈树中包含若干“节点”，节点用小圆圈表示。 ❖ 位于博弈树最上端的节点称为“初始节点”。 ❖ 初始节点用空心小圆圈表示，其他节点均用实心小圆圈表示。 ❖ 在每个节点处均对应某个博弈参与者，将节点对应的博弈参与者标识在
POWERPOINT TEMPLATE
完全信息动态博弈 POWERPOINT TEMPLATE POWERPOINT TEMPLATE POWERPOINT TEMPLATE POWERPOINT TEMPLATE POWERPOINT TEMPLATE POWERPOINT TEMPLATE POWERPOINT TEMPLATE POWERP金OI融NT TEMPLATE
归纳法（Backward Induction）”。 ❖ 只有首先确保从博弈树任何最终节点向上回溯时路径唯一，
才能确保逆向归纳法的可操作性。
❖ 正确的博弈树构造方法
参与者 1
S1
S2
（a1, b1, c1） T1
参与者 2 T2
（a2, b2, c2） S1

于三章完全且完美动态博弈

2 S2，10000－S2； S2 , (10000 S2 ) 3 S ,10000 S ； 2 S , 2 (10000 S )
1
出 S1
2 接受不接受，出 S2
（ S 1,10 000-S 1) 接受
1 不接受，出S
[S 2,(10 000-S 2)] 图 3.11

U1= q1P(Q)-C1q1= q1[8-(q1+q2)]-2q1 =6q1–q1q2 – q1q1 U2= q2P(Q)-C2q2= q2[8 –(q1+q2)] – 2q2 =6q2 – q1q2 – q2q2
采用逆向归纳法：

先分析第二阶段厂商2的决策，厂商1的q1已决定，并且厂商2 知道q1，即对厂商2来说相当在给定q1 的情况下求使其U2 实现最大化的q2，q2满足： 6 – q1 – 2q2=0 q2=3-q1 /2

动态博弈的非对称性
先后次序，且后行动者能观察到此前选择行动博弈方的选择行动，地位是不对称的。［同样存在，信息综合症]。
3.2 可信性（可信度）和纳什均衡的问题

所谓可信性是指动态博弈中先行为的博弈方是否该相信后行为的博弈方会采取对自己有利的或不利的行为。后行为方将来会采取对先行为方有利的行为相当于一种“许诺”，而将来会采取对先行为方不利的行为相当于一种 “威胁”，因此我可将可信性分为“许诺的可信性”和“威胁的可信性”。
乙不借借
乙不借借
甲分不分
（ 1， 0）
甲分不分
（ 1， 0）
乙（ 2， 2）打不打
乙（ 2， 2）打不打
（ 1， 0）有法律保障的开金矿博弈

第三章完全且完美信息动态博弈

是一个??????ni1ssss?三逆向归纳法求解子博弈精炼纳什均衡三逆向归纳法求解子博弈精炼纳什均衡对于有限的完全信息动态博弈先行动的博弈方在选择自己的行动时必须先要考虑后行动的博弈方在后面阶段也就是原博弈的子博弈中的选择将是怎样的因此后面阶段或子博弈是动态博弈中首先需要样的因此后面阶段或子博弈是动态博弈中首先需要关注的将这个思路推而广之就得到了我们解析动态博弈的一般方法逆向归纳法
对于有限的完全信息动态博弈，先行动的博弈方在选择自己的行动时必须先要考虑后行动的博弈方在后面阶段（也就是原博弈的子博弈）中的选择将是怎样的，因此后面阶段或子博弈是动态博弈中首先需要关注的，将这个思路推而广之，就得到了我们解析动态博弈的一般方法——逆向归纳法。
定义: 逆向归纳法就是从动态博弈的最后一个阶
第三章完全且完美信息动态博弈
▪ 动态博弈的表示方法； ▪ 可信性和纳什均衡的问题； ▪ 子博弈和子博弈完美纳什均衡； ▪ 几个经典动态博弈模型； ▪ 有同时选择的动态博弈模型； ▪ 动态博弈分析的问题和扩展讨论。
第一节动态博弈的表示方法和特点
一、动态博弈的阶段和扩展形表示动态博弈中一个博弈方的一次行为选择称为一个 “阶段”（Stage）。动态博弈也称为 “序列博弈”（Sequential Games）；由于扩展形可以反映动态博弈中博弈方的选择次序和博弈的阶段，因此是表示（阶段数和博弈方可选行为数量较少的）动态博弈的最佳方法。动态博弈有时也被称为“扩展形博弈”（Extensive Form Game）。
根据上述假设，不难知道两厂商的得益函数分
别为：
u 1 q 1 [ 8 ( q 1 q 2 ) 2 ] q 1 6 q 1 q 1 q 2 q 1 2
和
u 2 q 2 [ 8 ( q 1 q 2 ) 2 ] q 2 6 q 2 q 1 q 2 q 2 2

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

——当参与者B认为，A会采取安全策略G（即Minmax策略），则均衡结果为（1,1）
5
第四节纳什均衡的多重性问题：焦点均衡

最后通谍博弈（Ultimatum game,简记为UG，Roth etc. 1991）：100元在两个人中分摊，其中一人首先提出方案，对方不接受则双方为0。

（2）划线法求解静态模型的纳什均衡解？（3）如果无限次重复博弈，达成{信任，诚实}的均衡结果，需要如何设计合适的触发策略？贴现因子的成立范围为多少？
分析：冷酷的触发策略设计为“当代理人诚实交易时保持信任，否则一旦不诚实则取消交易”；
无限期重复博弈，代理人诚实交易的收益：U诚实= 5+5δ+5δ2+…=5/(1-δ) 代理人不诚实交易的收益：U不诚实=10+0=10 当5/(1-δ)>10时，即δ>0.5时，双方将达成{信任，诚实交易}结局。

基本思想：动态博弈中，双方都具有理性的“共同知识”。在纳什均衡的基础上（可自我实施的稳定均衡），依据反向归纳法进一步剔除那些不可信的威胁和承诺。
子博弈完美均衡的定义：一个纳什均衡是子博弈完美纳什均衡，当该策略的每一个子博弈都产生一个纳什均衡，无论实际中是否能到达。存在性定理（Selten, 1965）：每个扩展式、完美信息博弈至少有一个纯策略子博弈完美纳什均衡。 1965年，发表了最著名论文《一个具有需求惯性的寡头博弈模型》（德文）。这篇文章成为子博弈精炼均衡的正式定义，为获得诺奖奠定了基础。

―社会嵌入性”是指现代市场经济中交易或组织嵌入在参与人“社会网络” 中。格拉诺威特1985在AJS发表开创性论文《Economic Action and Social Structure: The Problem of Embeddedness》发起了一场“新经济社会学”运动：一方面批评了杜克海姆和帕森斯(1951)―过度社会化”的社会学传统；一方面批评了经济学效用理论“社会化不足”的缺陷，认为规范系统既是内生于市场或组织的参与者行为中，又是嵌入到具体的外部社会网络中。这篇文章中提出了著名的社会学概念“嵌入性(embeddedness)‖：个体或企业的经济关系是嵌入到实际的社会网络中。
6

[资料夹] 2005年诺将得主—谢林（Schelling）

托马斯·克罗姆比·谢林（Thomas Crombie Schelling）(1921-) 是美国经济学家、马里兰大学公共政策学院教授，美国科学院院士，美国艺术与科学学院院士。研究领域是外交事务、国家安全、核策略和武器控制。

“通过博弈论分析改进了我们对冲突和合作的理解”，谢林与罗伯特· 奥曼2005年共同获奖。
抵赖坦白
抵赖
B
(-8,-8) (0,-10) (-10,0) (-1,-1) 博弈树（game tree）的构成：

(-8,-8) (0,-10)(-10,0) (-1,-1)
结点：包括初始结点、决策结点(作出决策)、终结点(对应参与者报酬)；若结点是有限的，则称有限次博弈。枝：从一个决策结到直接后续结的连线,每一个枝代表参与者一个行动；信息集：一个参与者无法作出区分的最大决策点集合（如图，囚徒B无法判断A的行动，因此其信息集为虚线连接）。子博弈：

（1）开始于博弈树的一个结点，该节点对应一个单独信息集；
（2）包含从节点开始的博弈树整个部分；
（3）从不分割一个信息集(针对后续的节点)
第四节纳什均衡的多重性：动态博弈和子博弈完美均衡
动态博弈的核心问题：

为了影响对方下阶段的行动，作出一些威胁或承诺。但这些威胁或承诺是否可信？
举例：

理论分析结果：首先提出方案的人应该选择99元。
实验结果：美国、南斯拉夫选50:50,日本、以色列选60:40。解释：人类决策考虑了公平等社会文化规范。最后通牒实验表明，人们宁愿什么也得不到，也不愿意放弃机会均等和程序公平。 ——“不患寡而患不均”《论语·季氏》世界银行《2006年发展报告：公平与发展》：总结10年来许多可控实验结果以及近期经济学研究的成果指出，世界上不同的文化和宗教都在关注公平与公正，公正是人们的一种偏好。
4

第四节纳什均衡的多重性：静态博弈的焦点均衡
T 参与者B T G 2， 2 0， 0
参与者A G
1/2，1/2 1， 1
静态博弈中多重均衡的选择：焦点原则和社会惯例

Schelling在《冲突的策略》（1960）提出，决策过程中考虑到对称、效率、公平、风险占优等原则，以及一些社会文化惯例。举例：如图博弈中，参与者将选择哪个策略？结果：在三个均衡中，精炼结果是帕累托效率的纯策略(2，2) 思考：在什么情况下会选择(1,1)?

西安交通大学人文学院院长边燕杰

格拉诺威特最著名的工作是在AJS发表的文章“The Strength of Weak Ties‖（后来形成专著 “Getting A Job ‖），其基本的论断是 ―弱关系假设”，即你的家庭成员和密友(―strong ties‖) 无法向一般熟人、较为疏远朋友等(―weak ties‖) 提供给你多样化的知识。
谢林最著名的著作《冲突的战略》（1960）开创了对议价和策略行为的研究，被认为是1945年以来西方影响最大的一百本书之一。 1971年，他发表了广为引用的关于种族动态研究的论文“种族隔离的动态模型”。其中解释了纯白人居住区是怎样迅速变为纯黑人居住区的，即使白人居民中没有人绝对反对居住在混合居住区中。（乌鲁木齐市南区）谢林还参与了有关全球变暖的争论。
第三章传统博弈理论的简介
主要内容：第一节传统博弈理论的研究范式；第二节纳什均衡的定义和几种实现途径；第三节纳什均衡的无效率：重复博弈和无名氏定理；第四节纳什均衡的多重性：焦点均衡和子博弈完美均衡；第五节纳什均衡的无效率：相关均衡和信号装置；第六节不完全不完美信息下纳什均衡存在性：贝叶斯均衡
16
举例1：台独与大陆的台海博弈

台独分子的“理性”目标设定：中国面临着本世纪初二三十年的战略机遇期，不希望有台海战争。台独分子觉得这是推进台独的大好时机，通过修宪等“切香肠”渐进方式来争取独立。台独分子的认知结构：要是中国威胁动武，陈水扁相信美国众议院亲台反华势力能发挥影响力，台海发生冲突后美国必会拔刀相助。中国面对美日联合干涉将知难而退，从而在美日卵翼下实现和平独立的台独梦想。
举例：如果试卷命题错误（策略），即使计算过程正确（理性），答案是否正确？该题目应该取消计分。

由于动态博弈的核心问题是“可信性”，因此子博弈完美均衡是求解动态博弈问题的基本均衡概念。

求解方法：后退归纳法。根据共同知识假设，参与者能够预见最后一期的行动，因此采取后退归纳法分析，从最后一个子博弈的结点出发，分析每一个子博弈的最佳策略（纳什均衡）；直至博弈开始阶段，得子博弈完美纳什均衡SPE。

[资料夹] 非数理博弈理论

主流的数理博弈论：采用数学语言和公理性的方法来进行研究的。谢林认为，决策主体的期望和行为无法通过纯粹的逻辑和数学推导而得。参与人在选择博弈战略时，不仅有数学上的考虑，也有传统、声誉、个性和社会等因素。谢林放弃传统经济学的抽象假设和理性概念，基于更接近现实的观察和众多的实际应用，运用小模型和熟练的语言技巧，分析人们之间的相互影响及个人的自我控制等冲突情形中的行为。该研究方法突破了新古典经济理论分析方法，创立了“非数理博弈理论”这一新的领域，从另一个角度完善和发展了现代博弈论。概念和理论框架：

钻井
出油0.55 1 无油0.45 800 0
复习：如何表述动态博弈问题？
1
－150
转让开采权
160

思考：如何表述动态博弈问题？启示：运筹学的决策理论中，动态决策（序贯决策）问题的表述方法 ——决策树是由决策点、事件点和结果构成的树图；采用逆序解法；决策准则常为最大收益期望值准则EMV。
（1）威胁和承诺（怀柔）运用与外交中：20世纪初，美国总统西奥多· 罗斯福提出“胡萝卜加大棒”政策，“说话温和，但带根大棒，就一定能成功。” （2）威胁和承诺运用于内政中：“宣帝作色曰：‘汉家自有制度，本以霸王道杂之，奈何纯任德教’” 《汉书· 元帝纪》，即法家的刑治与儒家的德治并用。
13
第四节纳什均衡的多重性：动态博弈和子博弈完美均衡
Bian, Yanjie . ―Bringing Strong Ties Back In: Indirect Connection, Bridges, and Job Search in China‖. American Sociological Review 62, no. 3 (1997): 366-385 .边燕杰. 找回强关系：中国的间接关系、网络桥梁和求职,《美国社会学评论》1997, 62:366-385.
第四节纳什均衡的多重性：静态博弈的焦点均衡

思考：从博弈论角度，如何看待世界的多样性和最优性(普适性)？传统博弈理论：参与者是完全理性的，根据所处环境能够达到最优化目标。 ——多重均衡的精炼（最优化）：如何精炼出更好的均衡结果？演化博弈理论：参与者是有限理性的，只能达到满意解。 ——多重均衡存在的适用条件：根据不同的历史初始条件和外部随机事件干扰，存在演化的路径依赖现象。

（1）议价和冲突管理理论。代表性著作《冲突的战略》(1960) ；（2）相互依存的选择和行为理论。代表性著作《微观动机与宏观行为》(1978)；（3）自我控制理论。代表作著作《选择与结果》(1984)。
[资料夹] “社会嵌入性”(social embeddedness)

《第三章 传统博弈理论(2动态博弈)》