《第三章传统博弈理论(2动态博弈)》解读

合集下载

博弈论(第三章)

劳资博弈
先由工会决定工资率，再由厂商决定雇用多少劳动力
max π (W , L ) = max [ R ( L ) − WL ]
L≥0 L≥0
max u[W , L* (W )]
W ≥0
R
斜率为W R(L) WL
W
W*
0
L (W )
厂商的反应函数
*
L
0
L* (W * )
L* (W )
u3 u2 u1 u0
第三节子博弈和子博弈完美（精炼）纳什均衡子博弈
A
借
B
不借 (1,0)
还 (2,2)
不还起诉
A 不起诉
(1,0)
(0,4)
第三节子博弈和子博弈完美（精炼）纳什均衡子博弈精炼纳什均衡
如果在一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈精炼纳什均衡”。
无不确定性的委托人—代理人模型
1
委托不委托
代理人的选择
激励相容约束：
w(E)-E> w(S)-S w(E)> w(S)+E-S
2
接受
拒绝
[R(0),0]
2
努力偷懒
[R(0),0]
[R(E)-w(E), w(E)-E]
[R(S)-w(S), w(S)-S]
参与约束：
2
接受 [R(E)-w(E), w(E)-E]
第四节经典动态博弈模型
斯塔克博格模型（ Stackelberg）
和古诺模型双方产量均为2的产量，总量为4相比较，斯塔克博格模型中两厂商的产量较高。厂商1的得益4.5大于古诺模型中厂商1的得益4，但厂商2的得益 2.25小于国内模型中厂商2的得益4。 *在动态博弈中，有先动优势，也有后动优势。信息多了，可能结果好，但也可能结果更糟。

《第三章传统博弈理论(2动态博弈)》解读

“社会嵌入性”是指现代市场经济中交易或组织嵌入在参与人“社会网络” 中。格拉诺威特1985在AJS发表开创性论文《Economic Action and Social Structure: The Problem of Embeddedness》发起了一场“新经济社会学”运动：一方面批评了杜克海姆和帕森斯(1951)“过度社会化”的社会学传统；一方面批评了经济学效用理论“社会化不足”的缺陷，认为规范系统既是内生于市场或组织的参与者行为中，又是嵌入到具体的外部社会网络中。这篇文章中提出了著名的社会学概念“嵌入性(embeddedness)”：个体或企业的经济关系是嵌入到实际的社会网络中。
博弈论专题讲座
（Advances in Game Theory)
东北财经大学数学与数量经济学院刘德海
ldhai2001@
1
作业讲解
代理人
诚实不诚实不信任 0，0 信任

委托人不信任信任
0,0
诚实 5,5
代理人
不诚实 0
5， 5
张维迎《法律制度的信誉基础》一文的重复博弈模型试计算：（1）请将该动态博弈模型转化为静态博弈模型？
第四节纳什均衡的多重性：静态博弈的焦点均衡

思考：从博弈论角度，如何看待世界的多样性和最优性(普适性)？传统博弈理论：参与者是完全理性的，根据所处环境能够达到最优化目标。 ——多重均衡的精炼（最优化）：如何精炼出更好的均衡结果？演化博弈理论：参与者是有限理性的，只能达到满意解。 ——多重均衡存在的适用条件：根据不同的历史初始条件和外部随机事件干扰，存在演化的路径依赖现象。
16
举例1：台独与大陆的台海博弈

台独分子的“理性”目标设定：中国面临着本世纪初二三十年的战略机遇期，不希望有台海战争。台独分子觉得这是推进台独的大好时机，通过修宪等“切香肠”渐进方式来争取独立。台独分子的认知结构：要是中国威胁动武，陈水扁相信美国众议院亲台反华势力能发挥影响力，台海发生冲突后美国必会拔刀相助。中国面对美日联合干涉将知难而退，从而在美日卵翼下实现和平独立的台独梦想。

动态博弈分析

弱纳什均衡，它们不稳定。
基于动态博弈的控制系统
• 基于动态博弈的控制系统设计，关键就是要将控制的目标状态设计成博弈的子博弈精炼纳什均衡。系统达到了纳什均衡，也就实现了控制目标。
策略式表示
Ｂ
策略
一
Ａ
策略
二
策略
三 1 ，0 0 ，1
策略
四 1，0 0，0
开发不开发
-3，-3 -3，-3 0，1 0，0
• 策略一：无论Ａ是否选择开发，Ｂ选择开发。
• 策略二：若Ａ选择开发，Ｂ也选择开发；若Ａ选择不开发，Ｂ也选择不开发。
• 策略三：若Ａ选择开发，Ｂ就选择不开发；若Ａ选择不开发，Ｂ就选择开发。 • 策略四：无论Ａ是否选择开发，Ｂ都选择不开发。
1. 完美纳什均衡：一个策略组合要成为完美纳什均衡，就必须在所有可能的路径上达到均衡，不仅包括均衡路径，还要包括其它不同的分支路径； 2. 对于一个参与人，他的完美均衡策略不仅可以保证其它参与人处于均衡路径上时他可以做出最佳反应，而且其它参与人处于非均衡（或者均衡路径之外）时，他依然可以做出最佳反应；
51 4 4 9 -1 0 0
2. 动态博弈的策略式表述
• 若博弈的阶段很多乃至无穷，或者参与人在一个阶段有很多可选择的行为，采用博弈树表述将变得困难或根本不行。如下棋，等。 • 此时，应选用策略式表示。
2. 动态博弈的策略式表述
• 一个例子：美中军事博弈
犯中国不犯
美国
犯
-2
-2
2 -4 2 2
完全按静态博弈分析，
• 静态博弈的收益矩阵 • 纳什均衡两个.
2.博弈的策略式表述
• B有两个决策节（信息集）每个决策节上有两个可选行动，因而B有四个纯策略，分别是：

动态博弈理论与应用

动态博弈理论与应用第一章：引言动态博弈理论是博弈论的一种重要分支，研究的是受到时间和信息约束的博弈问题。

它从时间顺序和信息公开程度等维度对博弈过程进行建模和分析，是理论经济学、管理学、计算机科学等众多学科领域中的重要研究内容之一。

本文将从动态博弈理论的基本概念、模型和方法入手，介绍动态博弈理论的主要内容和应用情况。

第二章：动态博弈理论的基本概念动态博弈理论建立在静态博弈理论之上，它的最主要的特点在于参与者的决策与结果之间存在时间上的关联关系，即决策是按照时间顺序轮流做出的。

而参与者在做出决策前，只能知道自己的信息和其他参与者之前做的决策，不能预知未来的结果。

在这个基础上，动态博弈理论提供了一系列的模型和方法来分析博弈的结果及实现方式。

第三章：动态博弈理论的模型动态博弈理论的模型可以基于信息不完备、不确定性、策略可见性等多个方面进行分类。

其中，信息不完备的模型是最基础的，最经济学家最常使用的。

信息不完备模型中，博弈参与者的行动必须基于自己已知的信息，而不知道其他参与者的信息。

而在不确定性模型中，参与者不知道结果将会如何。

策略可见性模型则是最具有实际应用的模型，这种模型中，每个参与者知道所有的实际结果及其影响，即支配条件。

第四章：动态博弈理论的方法动态博弈理论中有许多方法，常用的包括完美均衡、子博弈完美均衡、可重复博弈、概率博弈等。

典型的完美均衡策略就是一个序列，每一项都是一个单步博弈策略，游戏结果取决于序列的每一步策略。

子博弈完美均衡则是针对复杂的大型博弈进行分析的一种方法。

若子博弈具有完备信息，则必须使用完全搜索算法来处理该问题。

而可重复博弈和概率博弈则是针对直接博弈不适合的情境，如合谋的情境、局部信息的分布等，而设计的两种不同类型的博弈方法。

第五章：动态博弈理论的主要应用动态博弈理论具有广泛的应用领域，例如竞争激烈的高科技行业、公共政策设计、外交谈判和金融衍生品等领域。

例如在金融衍生品市场中，动态博弈理论可以通过构建模型分析衍生品价格，为股票、债券和外汇等市场提供更完善的竞争分析和风险管理策略。

《第三章传统博弈理论(3不完全信息)》

据台媒报道，国民党将在2007年8月前，敲定08“总统”大选候选人。按照国民党内有关规定，如果国民党的候选人有两人以上，将按照初选制度办理，其中民调占70%、党员投票占30%。但如果只有一人成为国民党 “总统候选人”，就不用办理党内初选。民调相当于一个外部信号装置，党员选举相当于一个内部信号装置
8

[资料夹]朝核问题和六方会谈

朝鲜指控美国对其国家安全构成最大威胁，美国坚持朝鲜半岛无核化。
为解决问题，朝鲜一直要求与美国进行直接对话，并多次提议与美国签订互不侵犯条约，以图获得外交承认；但美国坚持不直接与“流氓国家” 接触，要求朝鲜先行放弃核计划，并坚持采取多边对话解决。
中国外交穿梭，先2003年4月23日－25日，中、朝、美三方在北京举行了三方会谈，中国作为中间人角色促成朝美双方进行直接沟通；然后8月份进入六方会谈阶段。 07年3月，美国首席谈判代表希尔与朝鲜代表团团长金桂冠在日内瓦就朝鲜核计划举行了为期两天的谈判。据美国首席谈判代表希尔称，朝鲜将全面公开其核计划，并在年底前关闭所有核设施。

Farrell J., Rabin M. Cheap Talk. The Journal of Economic Perspectives, 1996, 10(3): 103-118.
7
第五节纳什均衡的无效率问题：
相关均衡和信号装置

第二种实现途径：引入外部实体进行协调回忆：一般均衡理论中市场均衡价格的形成机制。

9
第五节纳什均衡的无效率问题：相关均衡和信号装置
boy
看球看电影
看球
看电影
girl
1， 1 0， 1
1， 0 2， 2

动态博弈理论

动态博弈理论基本概念静态博弈：所有局中人同时行动；后者局中人的行动有先后顺序，但是，后行动者不能观测到先行动者的行动。

动态博弈：局中人的行动有先后顺序，后行动者可以观测到先行动者的行动。

静态博弈的表示：局中人集合；局中人的决策集；局中人的支付（收益）函数。

动态博弈的表示（博弈的扩展式表达）1、局中人集合；（其中包括虚拟局中人“自然”）2、局中人的行动顺序：谁在什么时候行动；3、局中人的行动空间（决策集）：在每次行动时，局中人的可供选择的决策；4、局中人的信息集：在每次行动时，局中人所知道的以前博弈过程的信息；5、局中人的支付函数：每次行动时，局中人的所得（它是所有行动的函数）；6、外生事件（“自然”的选择）的概率分布。

博弈树：多人有限策略的扩展式可以用博弈树表示例：有房产商A和B各可以开发一栋楼，开发成本为1亿。

若市场有两栋楼，当市场需求大时，每栋楼售价为1.4亿；当市场需求小时，每栋楼售价为7千万。

若市场只有一栋楼，当市场需求大时，售价为1.8亿；当市场需求小时，每栋楼售价为1.1亿。

房产商的决策选择为开发或不开发。

这样，共有下列8种可能结果：1、需求大，A开发，B不开发，则A的利润为0.8亿，B的利润为0；2、需求大，A不开发，B开发，则A的利润为0，B的利润为0.8亿；3、需求大，A开发，B开发，则A的利润为0.4亿，B的利润为0.4亿；4、需求大，A不开发，B不开发，则A的利润为0，B的利润为0；5、需求小，A开发，B不开发，则A的利润为0.1亿，B的利润为0；6、需求小，A不开发，B开发，则A的利润为0，B的利润为0.1亿；7、需求小，A开发，B开发，则A的利润为-0.3亿，B的利润为-0.3亿；8、需求小，A不开发，B不开发，则A的利润为0，B的利润为0；假设行动顺序为房产商A先行动，然后“自然”选择需求量（假设需求大或小的概率同为0.5）。

房产商B观察到房产商A行动和“自然”选择后，再选择行动。

第三章-第五节-演化博弈模型解读

设：群体比例的动态变化速度为
dx x U Y U dt
dx 则： x 2 x3 dt
当x=0时，稳定；
复制动态方程
当x>0时，最终稳定于x*=1
dx/dt
dx x 2 x3 dt
乙 Y 甲 Y N 1，1 0， 0 N 0 ，0 0，0
0
1
图1 签协议博弈的复制动态相位图 x*=0，x*=1为稳定状态，此时，dx/dt=0 但x*=1为ESS，即最终所有人都将选择“Y”
在方法论上，它不同于博弈论将重点放在静态均衡
和比较静态均衡上，强调的是一种动态的均衡。演化博弈理论源于生物进化论。
为什么将演化思想引入到博弈论中？
（1）博弈论对生物学的影响。博弈论的策略对应生
物学中的基因，博弈论的收益对应生物学中的适应度。在生物学中应用的博弈论与经济学中的传统博弈论最大区别就是非完全理性的选择。（2）演化化思想对社会科学的影响。例如，在市场竞争中，我们不必要去理性的想那个策略才是最优的，最后能够在市场存活下来的企业，一定是
若x<x*，为使x→x*，应满足F(x)>0;
若x>x*，为使x→x*，应满足F(x)<0.
F(x)=dx/dt，t↑，则x↓
F(x)
这意味着：
x* 0 x
当F'(x*)<0，x*为ESS
（三）协调博弈的复制动态和ESS
复制动态方程F(x)：
甲 A B
乙 A 50，50 0，49 B 49，0 60，60
x
（二）一般两人对称博弈
甲 S1 S2
乙 S1 a，a c， b S2 b ，c d，d
群体中采用S1的比例为x，S2的比例为1-x，对于甲

第三章完全且完美信息动态博弈

第三章完全且完美信息动态博弈在动态博弈中，参与者需要根据对手的行为和策略来调整自己的行动，以便达到最佳的结果。

动态博弈可以分为完全信息动态博弈和不完全信息动态博弈。

完全信息动态博弈是指所有参与者都知道其他参与者的策略和收益函数，而不完全信息动态博弈则是指参与者不知道其他参与者的策略和收益函数。

在完全信息动态博弈中，参与者可以通过观察对手的行为来推断出对手的策略和收益函数。

这种博弈可以通过逆向归纳法来求解，即从博弈的阶段开始，逐步向前推导出每个阶段的最佳策略。

逆向归纳法是一种有效的求解完全信息动态博弈的方法，它可以帮助参与者找到最佳策略，从而实现最佳的结果。

然而，在现实世界中，完全信息动态博弈并不常见。

大多数博弈都是不完全信息动态博弈，参与者无法知道其他参与者的策略和收益函数。

在这种情况下，参与者需要通过观察对手的行为和策略来推断出对手的类型和收益函数。

这种博弈可以通过贝叶斯纳什均衡来求解，即参与者根据对手的类型和收益函数来选择自己的策略，以达到最佳的结果。

完全且完美信息动态博弈是指所有参与者都知道其他参与者的策略和收益函数，并且参与者能够观察到其他参与者的行为和策略。

这种博弈可以通过逆向归纳法和贝叶斯纳什均衡来求解，从而帮助参与者找到最佳策略，实现最佳的结果。

在完全且完美信息动态博弈中，参与者可以通过观察对手的行为和策略来推断出对手的类型和收益函数，从而调整自己的策略，以实现最佳的结果。

在完全且完美信息动态博弈中，参与者之间的互动是基于透明和预知性的。

每个参与者不仅清楚自己的策略选择和可能的收益，同时也了解其他参与者将如何根据这些信息做出反应。

这种透明度使得参与者能够做出更加精确的决策，因为他们能够预测对手的行动并据此调整自己的策略。

这种博弈的一个关键特点是，参与者之间的信息是对称的。

这意味着没有参与者拥有其他参与者所不知道的信息优势。

这种信息对称性使得博弈变得更加公平，因为它消除了信息不对称带来的不确定性。

《动态博弈模型》课件

子博弈精炼纳什均衡
在完全信息动态博弈中，子博弈精炼纳什均衡是指通过剔除不可置信威胁和承诺的策略，得到的均衡结果。
不完全信息动态博弈
不完全信息
在不完全信息动态博弈中，至少有一个参与者不拥有关于博弈的所有信息，包括其他参与者的类型、策略和支付函数。
贝叶斯纳什均衡
在不完全信息动态博弈中，贝叶斯纳什均衡是一个重要的概念，它是指所有参与者在给定自己类型和概率分布的条件下，采取的
劳动力市场
经典动态博弈模型用于研究劳动力市场的工资和就业问题，分析雇主和雇员之间的博弈关系。
在政治学中的应用
选举博弈
经典动态博弈模型用于分析选举中的竞选策略，如候选人如何制定竞选纲领、如何进行宣传等。
国际关系
该模型用于研究国家间的外交政策和国际合作，分析各国在利益冲突下的博弈行为。
立法博弈
触发战略
在重复博弈中，触发战略是指一种报复机制，如果某个参与者在某个阶段采取了不合作的策略，其他参与者会在未来的阶段采取报复措施。
04
动态博弈模型的求解方法
逆向归纳法
逆向归纳法是一种求解动态博弈的方法，通过逆向推理，从博弈的最后阶段开始分析，逐步向前推导，最终得出每个参与者的最优策略。
在求解过程中，逆向归纳法假设每个参与者都了解其他参与者的策略选择，并在此基础上选择自己的最优策略。
02
经典动态博弈模型介绍
囚徒困境
总结词
描述两个囚犯因相互背叛而导致双方都不利的结果。
详细描述
囚徒困境是一个经典的动态博弈模型，描述了两个囚犯因被警方逮捕而面临指控的情况。如果两个囚犯都保持沉默，他们都将得到较轻的刑罚；但如果其中一个囚犯背叛另一个，他将得到更轻的刑罚，而另一个囚犯将得到更重的刑罚。然而，如果两个囚犯都背叛彼此，他们都将得到更重的刑罚。因此，尽管合作是最佳策略，但每个囚犯都有动机背叛对方，导致双方都不利的结果。

博弈论(第三章-修改)

（2）里昂惕夫（Leontief）劳资模型（续）
而厂商的效用直接用利润来表示，它是收益和成本之差。假定厂商的收益是劳动雇佣数量的函数R（L），再假定厂商只有劳动成本，这样，厂商的总成本为工资率乘以雇佣劳动数量W x L，假定工会和厂商之间的博弈过程是这样的：先由工会决定工资率，然后厂商根据工会提出的工资率决定雇佣多少劳动力。假定工资率和雇佣数量都是连续可分的，因此博弈双方都有无限多的选择。
（0，2）
逆推归纳法的例子二
有5个海盗抢来100枚金币，大家决定了下面分赃的方式：由海盗一提出一种分赃的方式，如果同意这种方式的人达到半数，那么该提议就通过并付诸实施；若同意这种方式的人未达到半数，则提议不能通过且提议人将被扔进大海喂鲨鱼，然后由接下来的海盗继续重复提议过程。假设海盗个个都非常聪明，也不互相合作，并且每个海盗都想尽可能多得到金币，那么，第一个提议的海盗将怎样提议既可以使得提议被通过又可以最大限度得到金币呢？
针对其他博弈方策略的最佳对策，各博弈方都不愿
意改变策略的策略组合，具有一定的稳定性。
动态博弈的纳什均衡分析
例：“开发金矿的博弈” 甲有一价值4万元的金矿，但缺1万元的开发资金，
而乙正好有1万元资金可以投资。设甲想说服乙将这
一万元资金借给自己用于开发金矿，并许诺在采到金子后与乙对半分成，试用动态博弈的扩展式表示。
逆推归纳法的总结（1）逆推归纳法就是把多阶段动态博弈化为一系列的单人博弈进行分析；（2）逆推归纳法是严格下策反复消去法在动态博弈中
的应用。
（3）由逆推归纳法确定的各个博弈方在各阶段的选择都
是建立在后续阶段各个博弈方理性的基础上的，因
此自然排除了包含不可信的许诺；（4）逆推归纳法不适用于无限博弈和不完美信息博弈。

动态博弈

案例：开金矿博弈版本3：法律保障不足的开金矿博弈 P1
不借
（1, 0) 起诉 (-1, 0) 不还 P1
借 P2 还
放弃 (0, 4)
(2, 2)
2· B 斯塔克尔贝里双头垄断模型 1· 博弈的时间顺序如下(1) 企业1选择产量q1 , (2) 企业2观察到q1 以后，然后选择产量q2 ; (3) 企业i 的收益由下面的利润函数给出：
自己避免小企业，小人物的无端指控. 办法之一就是在被指控之前就支付律师费用. 假定被告在被指控之前支付律师费用y , 那么，赔偿区域为 s [ rx , rx d y ], 纳什均衡解为
s rx (d y) 2
因为即使 rx d 2 c p 成立， ( d y ) 2 c p rx 也可能不满足, 从而原告将不会提出指控. 这样的承诺行动使被告节省成本 rx d 2 y . 因此，只要 y rx d 2 , 承诺行动就值得. 这就是为什么大公司、大人物雇佣律师的原因之一.
动态博弈
简单地讲，动态博弈就是参与者的行动选择必须是有先后顺序的博弈. 参与者的每一次行动选择叫做一步或一个时期. 直观地讲，动态博弈可以看作若干个静态博弈联合在一起看作一个博弈. 动态博弈分为完美信息和非完美信息动态博弈. 第二章完全信息动态博弈 1 完全信息博弈参与者的收益函数是共同知识的博弈 2 完全且完美信息动态博弈博弈进行的每一步当中，要选择行动的参与者都知道这一步之前博弈进行的
显然即使 rx c p , (即上法庭的期望收益小于诉讼成本), rx d 2 c p 的条件仍可能成立. 子博弈纳什均衡结果将是: 假定这个条件成立，原告提出指控要求. 原告的支付为 rx d 2 c p , 被告的支付为 rx d 2 , 案件私了. 该博弈模型的实际背景举例：因为被告打官司的成本不仅包括应诉的法律费用而且涉及声誉损失( d )，所以，被告越大（大人物大企业), d 越大, rx d 2 c p 的条件越可能满足. 这是为什么大人物常常受到无端指控的原因之一. 当然,大企业、大人物也可以通过他们的承诺行动使

动态博弈

b 再来分析第19个市场，我们假设前面18个市场微硬都采取了斗争选择，而最后的第
c 以这样的方法一直推到第1个市场，微硬都会选择容纳。此时就会収现在为企业的斗争选择无法构成完美子博弈，不能形成可信的威胁，唯一的
完美子博弈那是均衡只有一开始采取接纳战略。
而乊上的考虑是基于在为企业是“理性的”，如果在为企业支付一定成在一开始就采取
先行动者与后行动者
1数量竞争的斯塔克伯格模型 2 序列价格竞争
3 序列质量选择
4 动态博弈中的承诺及其可信性 5 连锁店悖论
序列博弈简介序列博弈是指博弈双方有行动的先后顺序的博弈类型。我们将这种参与者行动选择具有
先后顺序类型的博弈称为动态博弈。行动的先后顺序会给其中一些参与者获得战略优势，先行动者获得收益就称为先行动优势。本章研究的重点是动态博弈。重复博弈。
成立，领导企业选择生产高质量产品，否则生产低质量产品。而在跟随者来说，不会选择与领导者相同质量的产品，因为同质产品会导致伯川德竞争，企业的利润会下降到0.
在乊前的模型分析中，我们假设的是领导企业在产量、价格或者质量这三个选择变量中
选择一个并且选择乊后不会做出改变。等到领导企业作出决定后，追随企业乊后会做出反应，这是典型的序贯博弈。在其纳什均衡中，产量是明显高于古诺模型的。但是对于领导企业来说最优的产量水平还是低于当前的产量水平更接近与古诺模型下的最有水平的。量而不会减产。相反，如果他预期到领导者会增产，那么追随者自身也会增产。博弈结果最终还是会倾向于古诺模型下的纳什均衡。
当产品存在质量的差别后，企业是生产高质量产品还是低质量产品成为企业面临的重要
决策问题。
假定有两家企业，企业1生产高质量的z1，企业2生产低质量的z2，生产高质量产品成本

第三章扩展式博弈与完全信息动态博弈ppt课件

严格执行突发事件上报制度、校外活动报批制度等相关规章制度。做到及时发现、制止、汇报并处理各类违纪行为或突发事件。
1
L
x1
R
2
2
L x2 R
3
L x3 R
3
L x4 R L x5 R L x6 R L x7 R
严格执行突发事件上报制度、校外活动报批制度等相关规章制度。做到及时发现、制止、汇报并处理各类违纪行为或突发事件。
下图表示参与人3选择时，即不知道参与人2的选择，也不知道参与人1的选择的博弈情形。
严格执行突发事件上报制度、校外活动报批制度等相关规章制度。做到及时发现、制止、汇报并处理各类违纪行为或突发事件。
例如
• 在“新产品开发博弈”中，假设企业1先行动，企业2后行动，但企业2行动时不知道企业1的行动。
企业2行动时，只知道博弈要么到达点x2，要么达到点x3 ，但具体在哪一点上，企业2不清楚。也就是说，企业2 只知道自己位于决策结集合{x2, x3 }上，但不知道位于{x2, x3 }中哪一个决策结上。
严格执行突发事件上报制度、校外活动报批制度等相关规章制度。做到及时发现、制止、汇报并处理各类违纪行为或突发事件。
一、扩展式博弈
• 所谓扩展式博弈(extensive form game)是博弈问题的一种规范性描述。与战略式博弈侧重博弈结果的描述相比，扩展式博弈更注重对参与人在博弈过程中所遇到决策问题的序列结构的详细分析。
• 试用扩展式博弈对两个企业都知道市场需求，且企业1先决策，企业2观测到企业1的选择后再进行选择的博弈情形即完全信息动态的“新产品开发博弈”进行建模。

动态博弈分析

策略式表示
Ｂ
策略
一
Ａ
策略
二
策略
三 1 ，0 0 ，1
策略
四 1，0 0，0
开发不开发
-3，-3 -3，-3 0，1 0，0
• 策略一：无论Ａ是否选择开发，Ｂ选择开发。
• 策略二：若Ａ选择开发，Ｂ也选择开发；若Ａ选择不开发，Ｂ也选择不开发。
• 策略三：若Ａ选择开发，Ｂ就选择不开发；若Ａ选择不开发，Ｂ就选择开发。 • 策略四：无论Ａ是否选择开发，Ｂ都选择不开发。
2. 动态博弈的策略式表述
中国策略1 美国不犯犯策略2 策略3 策略4
-2 2
-2 2
-2 -2 -3 -5
2 -4 -3 -5
2 -4 2 2
2.动态博弈的策略式表述
• 在动态博弈中，参与人的策略是预先设定的，在博弈的各个阶段，针对各种情况作出相应的策略选择。 • 动态博弈的策略式表述，是一套完整的包含各种可能出现情况的应对策略，即“如果„发生，我将选择„策略”。
1. 策略1：在开发商Ａ先行动的情况下，开发商Ｂ可供选择的策略中，策略一只包括了上述两个纳什均衡中的后一种均衡，即（Ａ不开发，Ｂ开发），而没有包括前一种纳什均衡，即（Ａ开发，Ｂ不开发）； 2. 策略二:上述两种纳什均衡都没有包括； 3. 策略四只包括了上述两种纳什均衡中的前一种均衡，即（Ａ开发，Ｂ不开发），而未包括后一种纳什均衡，即（Ａ不开发，Ｂ开发）； 4. 只有策略三既包括了上述两种纳什均衡中的前一种均衡，又包括了后一种均衡。
不开发
0，1
0，0
0，1
0，0
• 序贯理性(sequential rationality) 是指：一个参与人在博弈的每

博弈第三章

从本博弈的分析可以看出，在一个个体都有私心，都只注重自身利益的社会中，完善公正的法律制度不但能保障社会的公平，而且还能提高社会经济活动的效率，是实现最有效率的社会分工合作的重要保障。
乙
借
甲分（2，2）打（-1，0）不分乙
不借（1，0）
不打（0，4）
法律保障不足的开金矿博弈 ——分钱打官司都不可信
无限回合讨价还价
S1 1000010000 2S
S S1 1000010000 2S
10000 S 1
*
10000 10000 S 1
*
委托人—代理人理论
一、委托人——代理人关系
• 经济活动和社会活动中有很多委托人——代理人关系，有明显的，也有隐蔽的。工厂和工人、店主和店员、客户和律师、市民和政府、基金购买者和基金管理人等都是。 • 委托人——代理人关系的关键特征：不能直接控制，监督不完全，信息不完全，利益的相关性 • 委托人——代理人涉及问题：激励机制设计、机制设计理论，委托合同设计问题等
是原博弈本身，我们不称它为原博弈的子博弈。即第一个节点不能作为子博弈的初始节点
1 进 2
不进
打击（3，6）
不打击（5，8）
（0，10）
乙借甲分（2，2）打（1，0）不分乙不打
不借
（1，0）
（0，4）
逆推归纳法
• 逆推归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始，逐步向前倒推以求解动态博弈的方法。
Rule2:
讨价还价每进行一个回合，存在一个消耗系数
• 第一阶段，甲的方案是自己得 s1 ，乙得 10000s1 ，乙可以选择接受或不接受，接受则双方得益分别为s1和10000- s1 ，谈判结束，如果乙不接受，则开始下一阶段； • 第二阶段，乙的方案是甲得 s2 ，自己得 10000- s2 ，由甲选择是否接受，接受则双方得益分别为 s2和（10000- s2 ），谈判结束，如甲不接受则进行下一阶段； • 第三阶段，甲提出自己得s，乙得10000-s，这时乙必须接受，双方实际得益为 2 s和 2 （10000-s）。

动态博弈

弈重复多次，其中每次博弈称为“阶段博弈”(stage game)。
例子：以囚徒困境为例，如果每次判刑不是很重，那么两
个囚犯在刑满释放之后再作案，作案之后再判刑，释放之后再作案，
如此等等，他们之间就是进行的重复博弈，其中每次作案就是一个
阶段博弈。
1.3：有限期重复博弈（完全信息）和默契合谋
（2）基本特征：
V=1/2π(m)+1/2δπ(m)+1/2δ ^2π(m)+1/2δ ^3π(m)+….
V'=π(m)+0*δ +0*δ ^2+0*δ ^3+…
0பைடு நூலகம்
0
1.4：无限期重复博弈（完全信息）和默契合谋分析：
（1）因为两个厂商是对称的，所以对于厂商二而言，上面的分析结果相同；（2）如果V>=V’（δ >=1/2），那么给定厂商一选择冷酷战略，厂商二的最优选择也是冷酷战略，同样的分析对于厂商一也成立，所以冷酷战略构成纳什均衡。
1.4：无限期重复博弈（完全信息）和默契合谋
3、上述条件之下，冷酷战略是否构成子博弈精炼纳什均衡？
在冷酷战略纳什均衡下，子博弈可以分为两类：（1）没有厂商曾经选择不合作（2）至少有一个厂商曾经选择不合作
在（1）的情况之下，子博弈构成纳什均衡，冷酷战略是无限期重复博弈的子博弈精炼纳什均衡，（合谋，合谋）是每个阶段博弈的均衡结果；在（2）的情况之下，子博弈构成纳什均衡，冷酷战略是无限期重复博弈的子博弈精炼纳什均衡，（不合作，不合作）是每个阶段的博弈的均衡结果（即伯特兰均衡的无限次重
1、阶段博弈之间没有“物质上”的联系，前一个阶段
的博弈不改变后阶段的博弈；
2、所有的参与人都观测到过去的博弈的历史，知道对

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

抵赖坦白
抵赖
B
(-8,-8) (0,-10) (-10,0) (-1,-1) 博弈树（game tree）的构成：

(-8,-8) (0,-10)(-10,0) (-1,-1)
结点：包括初始结点、决策结点(作出决策)、终结点(对应参与者报酬)；若结点是有限的，则称有限次博弈。枝：从一个决策结到直接后续结的连线,每一个枝代表参与者一个行动；信息集：一个参与者无法作出区分的最大决策点集合（如图，囚徒B无法判断A的行动，因此其信息集为虚线连接）。子博弈：
15

——理解：不仅整体上是纳什均衡，而且每一个小步骤都是纳什均衡。

第四节
纳什均衡的多重性:
例：扩展式囚徒困境坦白坦白
动态博弈和子博弈完美均衡
B × 抵赖坦白 × 抵赖
A ×抵赖
(-8,-8) (0,-10) (-10,0) (-1,-1)

思考：为什么动态博弈纳什均衡中，存在着一些不可信的威胁或承诺？回忆：纳什均衡的形成——理性的参与者+既定的策略。但是，事先给定的对方策略是否合理？

[资料夹] 非数理博弈理论

主流的数理博弈论：采用数学语言和公理性的方法来进行研究的。谢林认为，决策主体的期望和行为无法通过纯粹的逻辑和数学推导而得。参与人在选择博弈战略时，不仅有数学上的考虑，也有传统、声誉、个性和社会等因素。谢林放弃传统经济学的抽象假设和理性概念，基于更接近现实的观察和众多的实际应用，运用小模型和熟练的语言技巧，分析人们之间的相互影响及个人的自我控制等冲突情形中的行为。该研究方法突破了新古典经济理论分析方法，创立了“非数理博弈理论”这一新的领域，从另一个角度完善和发展了现代博弈论。概念和理论框架：

类比：决策问题是博弈的一种特例，其中一方是自然参与者——博弈树

Von Neumann和O. Morgenstern（1944）提出“扩展式”模型，又称博弈树。用来描述参与者的行动顺序和采取行动时拥有的信息。
例：扩展式囚徒困境坦白坦白抵赖
例：扩展式囚徒困境
A
抵赖坦白
抵赖
B
坦白
坦白
抵赖
A

西安交通大学人文学院院长边燕杰

格拉诺威特最著名的工作是在AJS发表的文章“The Strength of Weak Ties”（后来形成专著 “Getting A Job ”），其基本的论断是 “弱关系假设”，即你的家庭成员和密友(“strong ties”) 无法向一般熟人、较为疏远朋友等(“weak ties”) 提供给你多样化的知识。

理论分析结果：首先提出方案的人应该选择99元。
实验结果：美国、南斯拉夫选50:50,日本、以色列选60:40。解释：人类决策考虑了公平等社会文化规范。最后通牒实验表明，人们宁愿什么也得不到，也不愿意放弃机会均等和程序公平。 ——“不患寡而患不均”《论语·季氏》世界银行《2006年发展报告：公平与发展》：总结10年来许多可控实验结果以及近期经济学研究的成果指出，世界上不同的文化和宗教都在关注公平与公正，公正是人们的一种偏好。
第四节纳什均衡的多重性：静态博弈的焦点均衡

思考：从博弈论角度，如何看待世界的多样性和最优性(普适性)？传统博弈理论：参与者是完全理性的，根据所处环境能够达到最优化目标。 ——多重均衡的精炼（最优化）：如何精炼出更好的均衡结果？演化博弈理论：参与者是有限理性的，只能达到满意解。 ——多重均衡存在的适用条件：根据不同的历史初始条件和外部随机事件干扰，存在演化的路径依赖现象。
（2）划线法求解静态模型的纳什均衡解？（3）如果无限次重复博弈，达成{信任，诚实}的均衡结果，需要如何设计合适的触发策略？贴现因子的成立范围为多少？
分析：冷酷的触发策略设计为“当代理人诚实交易时保持信任，否则一旦不诚实则取消交易”；
无限期重复博弈，代理人诚实交易的收益：U诚实= 5+5δ+5δ2+…=5/(1-δ) 代理人不诚实交易的收益：U不诚实=10+0=10 当5/(1-δ)>10时，即δ>0.5时，双方将达成{信任，诚实交易}结局。

（1）议价和冲突管理理论。代表性著作《冲突的战略》(1960) ；（2）相互依存的选择和行为理论。代表性著作《微观动机与宏观行为》(1978)；（3）自我控制理论。代表作著作《选择与结果》(1984)。
[资料夹] “社会嵌入性”(social embeddedness)
Mark Granovetter
Bian, Yanjie . “Bringing Strong Ties Back In: Indirect Connection, Bridges, and Job Search in China”. American Sociological Review 62, no. 3 (1997): 366-385 .边燕杰. 找回强关系：中国的间接关系、网络桥梁和求职,《美国社会学评论》1997, 62:366-385.

“社会嵌入性”是指现代市场经济中交易或组织嵌入在参与人“社会网络” 中。格拉诺威特1985在AJS发表开创性论文《Economic Action and Social Structure: The Problem of Embeddedness》发起了一场“新经济社会学”运动：一方面批评了杜克海姆和帕森斯(1951)“过度社会化”的社会学传统；一方面批评了经济学效用理论“社会化不足”的缺陷，认为规范系统既是内生于市场或组织的参与者行为中，又是嵌入到具体的外部社会网络中。这篇文章中提出了著名的社会学概念“嵌入性(embeddedness)”：个体或企业的经济关系是嵌入到实际的社会网络中。

在预测动态博弈的可能结局时，纳什均衡存在多重性现象，其中包含一些不可信的威胁或承诺，如何剔：决策理论中，如何处理多阶段动态规划问题？
多阶段决策又称序贯决策：决策过程可以分为若干个相互联系的阶段，每个阶段需要作出决策，本阶段的决策影响到下一阶段的决策。动态规划的最优化原理（Bellman，1951）：作为整个过程的最优策略具有这样的性质，无论过去的状态和决策如何，对先前决策形成的状态而言，余下的决策必须最优。（简言之：最优策略的子策略总是最优的）根据贝尔曼最优化原理，逆推法求解动态规划问题。

基本思想：动态博弈中，双方都具有理性的“共同知识”。在纳什均衡的基础上（可自我实施的稳定均衡），依据反向归纳法进一步剔除那些不可信的威胁和承诺。
子博弈完美均衡的定义：一个纳什均衡是子博弈完美纳什均衡，当该策略的每一个子博弈都产生一个纳什均衡，无论实际中是否能到达。存在性定理（Selten, 1965）：每个扩展式、完美信息博弈至少有一个纯策略子博弈完美纳什均衡。 1965年，发表了最著名论文《一个具有需求惯性的寡头博弈模型》（德文）。这篇文章成为子博弈精炼均衡的正式定义，为获得诺奖奠定了基础。
6

[资料夹] 2005年诺将得主—谢林（Schelling）

托马斯·克罗姆比·谢林（Thomas Crombie Schelling）(1921-) 是美国经济学家、马里兰大学公共政策学院教授，美国科学院院士，美国艺术与科学学院院士。研究领域是外交事务、国家安全、核策略和武器控制。

“通过博弈论分析改进了我们对冲突和合作的理解”，谢林与罗伯特· 奥曼2005年共同获奖。
举例：如果试卷命题错误（策略），即使计算过程正确（理性），答案是否正确？该题目应该取消计分。

由于动态博弈的核心问题是“可信性”，因此子博弈完美均衡是求解动态博弈问题的基本均衡概念。

求解方法：后退归纳法。根据共同知识假设，参与者能够预见最后一期的行动，因此采取后退归纳法分析，从最后一个子博弈的结点出发，分析每一个子博弈的最佳策略（纳什均衡）；直至博弈开始阶段，得子博弈完美纳什均衡SPE。
4

第四节纳什均衡的多重性：静态博弈的焦点均衡
T 参与者B T G 2， 2 0， 0
参与者A G
1/2，1/2 1， 1
静态博弈中多重均衡的选择：焦点原则和社会惯例

Schelling在《冲突的策略》（1960）提出，决策过程中考虑到对称、效率、公平、风险占优等原则，以及一些社会文化惯例。举例：如图博弈中，参与者将选择哪个策略？结果：在三个均衡中，精炼结果是帕累托效率的纯策略(2，2) 思考：在什么情况下会选择(1,1)?
第三章传统博弈理论的简介
主要内容：第一节传统博弈理论的研究范式；第二节纳什均衡的定义和几种实现途径；第三节纳什均衡的无效率：重复博弈和无名氏定理；第四节纳什均衡的多重性：焦点均衡和子博弈完美均衡；第五节纳什均衡的无效率：相关均衡和信号装置；第六节不完全不完美信息下纳什均衡存在性：贝叶斯均衡

——当参与者B认为，A会采取安全策略G（即Minmax策略），则均衡结果为（1,1）
5
第四节纳什均衡的多重性问题：焦点均衡

最后通谍博弈（Ultimatum game,简记为UG，Roth etc. 1991）：100元在两个人中分摊，其中一人首先提出方案，对方不接受则双方为0。

14

——例如优秀毕业生

Bellman R: An introduction to the theory of dynamic programming, RAND Corp. Report, 1953
第四节纳什均衡的多重性：动态博弈和子博弈完美均衡

对于动态博弈，一种广泛认可的精练方法是子博弈完美均衡(SPE，Subgame Perfection Equilibrium)

《第三章传统博弈理论(2动态博弈)》解读

博弈论(第三章)

《第三章传统博弈理论(2动态博弈)》解读

动态博弈分析

动态博弈理论与应用

《第三章 传统博弈理论(3不完全信息)》

动态博弈理论

第三章-第五节-演化博弈模型解读

第三章完全且完美信息动态博弈

《动态博弈模型》课件

博弈论(第三章-修改)

动态博弈

动态博弈

第三章扩展式博弈与完全信息动态博弈ppt课件

动态博弈分析

博弈第三章

动态博弈

《第三章传统博弈理论(3不完全信息)》