扩展式博弈概述

合集下载

博弈论策略的扩展式和战略式表述

博弈论策略的扩展式和战略式表述下载温馨提示:该文档是我店铺精心编制而成，希望大家下载以后，能够帮助大家解决实际的问题。

文档下载后可定制随意修改，请根据实际需要进行相应的调整和使用，谢谢!并且，本店铺为大家提供各种各样类型的实用资料，如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等，如想了解不同资料格式和写法，敬请关注!Download tips: This document is carefully compiled by theeditor.I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!博弈论策略的扩展式与战略式表述：深度解析博弈论，作为经济学、社会学、心理学等领域的核心理论工具，主要研究决策者在相互影响的环境下如何做出选择。

博弈论2

3
二、扩展型博弈转化为策略型博弈例1 房地产开发博弈 A 开发 B 不开发（-3，-3）开发不开发
开发
B 不开发
（1，0）（0，1）
（0，0）
4
例2 考虑以下动态博弈。第一步：局中人1从{1，2}中选择一数x。第二步：局中人2知道x的值，从{1，2}中选择y。第三步：局中人1不知y，也忘了x，从{1，2}中选择z，博弈结束。对选定的x，y，z，局中人2给局中人1的费用为U1（x,y,z） U1(1，1，1)=-2； U1(1，1，2)=-1； U1(1，2，1)=3； U1(1，2，2)=-4； U1(2，1，1)=5； U1(2，1，2)=-2； U1(2，2，1)=2； U1(2，2，2)=6。
M (π , y ) = −cπ 2 − y − k y
− 2
c>0
β >0
k >1
产出y与通胀
−
π 间的关系可用如下菲力普斯曲线描述：
e
y = y+ β π − π
(
)
14
例工资奖金制度模型基本假设：1）一个雇主有两个雇员，雇员i（i=1，2）的产出为
'
y i = ei + ε i ，雇员努力的负效用为 g (e) ，g (e) > 0 '' g (e ) > 0 。扰动项 ε i 从分布密度为 f (ε ) 、均值为0的概率分
10
例
斯坦克尔伯格（Stackelberg）寡头竞争模型
例讨价还价博弈
例有点数为1，2，3的三张牌，先由A任抽一张，看后反放于桌上，并喊大（H）或小（L）。然后由B从剩下牌中任抽一张，看过后，B有两种选择： ①弃权，付给A一元； ②翻A的牌，当A喊H时，点数小者付给对方3元，当A喊L时，点数大者付给对方2元。要求：1）说明A、B各有多少纯策略？2）据理性原则淘汰具有劣势的策略。3）求双方的最优策略及各自的支付值。

第三章扩展型博弈论

假设甲先行动，商铺乙看到对方的选择后再决定是否进货，请求出子博弈完美纳什均衡？
如果甲先行动，但在博弈开始前商铺主乙有一次行动A的机会，请利用子博弈完美纳什均衡概念分析下述两种情况下的博弈结果
（1）A：商铺主乙逢人便说自己一定要进货，无论对方如何行动他都不会改变这个决定；
（2）A：商铺主乙与某个嘲笑他说大话的第三者丙打赌：如果自己到时不进货，向丙支付1500元；如果自己到时候进货，丙向他支付100元。并且，乙将这个赌局通知甲。
甲
甲
进乙
不进乙
进乙
不进乙
进
不进进
不进
进
不进进
不进
（-1000，-1000）（0，1000）（0，0）（-1000，-900）
（0，1100）（0，-1500）
（1000，0）
（1000，-1500）
作业：阅读“蜈蚣博弈”
拍卖人拿出一张10元钞票，请大家给这张
钞票开价，无底价，竞拍者可无限制的轮流叫价，每次叫价的增幅以5毛为单位，出价最高者可以得到这张10元钞票，但出价
即每阶段都选“不坦白”，A总得益贴现为
2 ( 2 ) ( 2 ) 2 .. . 2
当
1(6) 2 1 1
1 时，A选“不坦白”是最优的，即
当
1 5
时，A在没有人先选“坦白”时选“不坦白”是最优的，并且A 在之后每阶段都选“不坦白”是最优的选择。
乙
甲
坦白不坦白
坦白 -6，-6 -1，-8
最高和次高者都要向拍卖人支付出价数目的费用。
——苏比克拍卖模型
第四节
重复博弈
重复博弈
单次博弈重复进行构成的博弈过程，但博弈方的行为和博弈结果不一定是单次博弈的简单重复，其中，单次博弈可称为阶段博弈

4.3博弈扩展式向策略式表述的转化

博弈扩展式表述转化为策略式表述有时为了理论研究，借助策略式表述博弈的结果分析扩展式博弈，需要将扩展式博弈转化为策略式表述博弈。

扩展式博弈的策略定义是：参与人在其每一个信息集上都要给出一个行动方案。

扩展式博弈分析的重要工作内容就是确定每个参与人在其每个信息集上如何进行行动选择。

策略一般地，若参与人i 的信息集集合为H i ，信息集i ∈H i 上的行动集为A i (i ),该行动集上的行动为a i (i )∈A i (i ),则参与人i 的策略则可表示为h i k i ∈ Hi {a i (i )}若参与人在每个信息集上的行动可以随机化，则称该策略为行为策略（behavioral strategy ），可记为h i k i ∈ Hi {i (i )}，其中，i (i )∈（A i (i )）策略——一个例子请写出右图所示的博弈树双方各自的策略。

1有2个信息集，第一个信息集有三个行动，第二个信息集有2个行动。

因此共有六个策略。

可记参与人1的策略集为S 1={Aa ,Ab ,Ba ,Bb ,Ca ,Cb }。

这样表示的含义，以策略Bb 为例，表示的是参与人1在第一个信息集选行动B ，第二个信息集选行动b 。

同理，参与人2有两个信息集的策略集可以表示为S 2={lL ,lR ,rL ,rR }支付函数的确定确定了一个策略组合，就确定了相关路径。

通过对相关路径结果的分析，就可以确定参与人在该策略组合下的支付值。

以Aa VS lL 为例，这个策略组合确定的路径为所以在策略组合{Aa , lL }对应的支付向量为（4，1）参与人1的策略集为S 1={Aa ,Ab ,Ba ,Bb ,Ca ,Cb }，参与人2的策略集为S 2={lL ,lR ,rL ,rR }支付函数的确定分析策略组合{Ca , lL }对应的博弈路径。

参与人在博弈开始首先选择行动C ，然后到达虚拟参与人结点Chance 。

在Chance 点，两条路径出现的概率分别为1/4和3/4，对应的支付向量分别为(0, 0)和(8, 8)。

博弈论拓展型表格

博弈论拓展型表格通常被称为扩展式，是博弈论分析和解决多方参与复杂决策的重要工具。

下面我会为您简单介绍一下扩展式表格的结构和应用。

扩展式表格是一种用于博弈分析的结构化表示工具。

该表格由多个行为者（称为玩家）组成，每个玩家都有不同的可选策略，例如行动或不行动，而策略组合将会决定博弈结果的概率。

扩展式表格通常采用树状结构，每个分支都展示了一种策略的发展过程。

通常，扩展式表格可以由以下四个部分组成：
1. 玩家：参与博弈的玩家，每个玩家都有自己的策略集合。

2. 信息集：表明在某些必须在同一时间内作出决策的情况下，玩家可能无法判断对手所采取的策略，因此可以将这些相同的决策节点分到一个信息集中。

3. 行动：博弈中玩家可以选择的行动或策略。

4. 支付：在每个可能的情况下，如果某一方采取了一定策略，它将付出或获得多少报酬或利益。

在使用扩展式表格解决博弈问题时，通常会使用一些主要的博弈解决方法，如支配策略、纯策略，混合策略和子博弈平衡等，这些方法将有助于决策者分析博弈结果、推导出最优策略以及各玩家获得的报酬或利益。

总之，扩展式表格是一种博弈论分析工具，将博弈问题转化成了树状结构，有助于博弈分析和解决多方参与的复杂决策问题。

第4讲完全信息扩展博弈(1)：理论

研究生《博弈论与信息经济学》第四讲完全信息扩展式博弈：理论董志强 dongzhq@Spring,20061．什么是完全信息扩展式博弈？局中人的行动具有先后顺序。

完全信息：自然不首先行动，局中人的赢利是共同知识。

共同知识：令1K 2K 为参与人1和参与人2对状态集合Ω的知识函数。

一个事件E ⊆Ω是状态ω∈Ω中参与人1和2的共同知识(common knowledge between 1 and 2 in the state)，如果ω是无穷序列121221(),(),(()),(()),K E K E K K E K K E ……中每个集合的一个元素。

通俗地说，如果存在这样一个状态，该状态下1和2都知道事件E ，并且1和2都知道“对方知道事件E ”，并且1和2都知道『对方知道“对方知道事件E ”』……如此循环，至于无穷。

那么，事件E 就可以说是这个状态下参与人1和2的共同知识。

完美信息：每个局中人在做决策时候都知道以前所发生的所有事件。

显然，若没有完全信息，就不可能有完美信息；但是反过来，若没有完美信息，则可能有或可能没有完全信息。

Definition ：完美信息扩展博弈(extensive game with perfect information)有下列组成部分：• 一个参与人集合N ；• 一个序列集合H （有限或无限的）满足以下三个性质：空序列φ是H 的一个元素；如果1,,()k k K a H ∞=∈"（这里K 可以是无限的）且L K <，那么1,,()k k L a H ∞=∈"；如果一个无限序列1,()k k a ="对每个正数L 满足1,,()k k L a H =∈"，那么1,()k k a H =∈"。

H 的每个元素是一段历史（History ）；一段历史的每一组成部分都是一个参与人采取的行动。

如果k 是无限的，或者没有1K a +使1,,1()k k K a H ∞=+∈"，那么历史1,,()k k K a H ∞=∈"就是终点（terminal ）。

7.3扩展式博弈

7.3扩展式博弈扩展式博弈定义7.13扩展式博弈一个扩展式博弈Γ由下列要素组成由下列要素组成：：1、有限的有限的参与人集合参与人集合N ;2、行动集A ,它包括所有可能的行动它包括所有可能的行动，，不必是有限的不必是有限的3、结或者或者历史的集合历史的集合X .（1）初始结X ∈0x ，或空的历史或空的历史。

博弈从初始结开始开始。

（2）对于一些有限多的行动A a i ∈，每个}{\0x x X ∈采取的形式为),...,,(21k a a a x =，这里a 1,a 2…表示第一步表示第一步、、第二步第二步。

的行动的行动。

（3）如果对于一些K>1,K>1, }{\),...,,(021x X a a a k ∈,那么那么，，}{\),...,,(0121x X a a a k ∈−一个结或一段历史只是对在博弈中迄今已被采取的行动的一个完全的描述的行动的一个完全的描述。

}),({)(X a x A a x A ∈∈≡表示在历史}{\0x X x ∈之后轮到参与人行动时的该参与人可选择的行动集后轮到参与人行动时的该参与人可选择的行动集。

4、一个行动集A x A ⊆)(0以及在A(x 0)上的一个概率分布π被用于描述博弈中自然的行被用于描述博弈中自然的行动动。

自然总是首先行动的首先行动的，，并且只行动一次并且只行动一次，，以概率π随机的在A(x 0)中选择一个行动。

因此，}{\),...,,(021x X a a a k ∈意味着对于i=1且只有i=1i=1，，)(0x A a i ∈。

5、终点结集合A a X a x X x E ∈∉∈≡对于一切,),({}，。

每个终点结描述了由开始至结束的博弈的一个特殊的完全演变特殊的完全演变。

6、一个函数N x E X →}){(\:0U ι,表明在属于X 的每一个决策结上那个将轮到的采取行动的每一个决策结上那个将轮到的采取行动的参与参与人。

4.扩展式博弈与反向归纳策略

扩展式博弈的形式
完全信息的情况
①
L
②
R
②
l
2 0
r
2 1
l1Biblioteka 0r 3 1
不完全信息的情况
①
L
R
l
2 0
r
2 1
②
l
1 0
r
3 1
扩展式博弈的规则

在一个偏僻的山里，有一个村庄，村里有100对夫妇。在这个村里已经形成了约定成俗的规定，如果女人发现自己的丈夫对自己不忠的话，就会毫不犹豫的将他杀死，而且当天执行。当然，她必须有确切的证据来证明他丈夫的不忠。由于这个因素，某个女人发现某个男人不忠，她不会告诉那个不忠男人的妻子。但是，她会告诉其他人的妻子，并且女人们会相互的传递这一信息，因此最后，一个男人不忠，除了其妻子不知道外，其他女人都知道。事实上是，村子里的这100对夫妇的男人都不忠，但由于女人不会将她们知道的事实告诉不忠男人的妻子，每个女人不知道自己的男人不忠，因此，该村子一直很稳定，而没有发生妻子杀丈夫的行为。村子里有1个辈分很高的老太太，她德高望重，诚实可敬，对村子里的情况了如指掌。一天，这位老人对这这100个女人说了一句很平常的话： “你们的男人当中至少有一个是不忠的。”于是，村里发生了这样一个事情，前99天，村里风平浪静，但到了第100天，村里发生了一场大屠杀，所有的女人都杀死了她们的丈夫！为什么会这样？
结论

作为博弈方你不应该仅仅是个被动的参与人，满足于接受别人制定的博弈规则，而应该设法改变博弈使其对自己尽量有利

可置信的承诺能够促进长期利润，但承诺方也确实因此而对自己的行动施加了严格的限制。这种通过限制自己行动来获取竞争优势的做法被称为策略性行为

经典：博弈论-完全信息动态博弈

高需求低需求不完全信息情形下的博弈：需求方的信号承诺长协价格从年度定价到季度定价
2、博弈的扩展式表述的要素
博弈的扩展式表述包含以下要素：（1）参与人集合：i=1，2，…，n。此外，用N代表虚拟
参与人——自然。（2）行动顺序：谁在什么时候行动。（3）参与人的行动空间：（4）参与人的信息集：（5）参与人的策略集：（6）参与人的支付函数：（7）外生事件的概率分布。
博弈的收益矩阵
（1）高需求
开发开发商A 不开发
（2）低需求
开发开发商A 不开发
开发商B
开发
不开发
2, 2
4, 0
0, 4
0, 0
开发商B
开发
不开发
－1, －1
1, 0
0, 1
0, 0
博弈分类
按开发商博弈的先后顺序分：静态博弈：两个开发商同时决策，或后决策者不
能观察到先行动者的行动。动态博弈：博弈有先后顺序，且后决策者能观察
完全信息动态博弈图示：N A B
开发（2,2）
高需求
○
A
N
低需求
开发不开发开发不开发
不开发（4,0）
开发（0,4） B 不开发（0,0）
开发（-1,-1）不开发（1,0）
开发（0,1）不开发（0,0）
（4）不完全信息动态情形：ANB
开发商A不清楚市场的需求状态，决定是否开发；开发商B 在观察到市场需求和A的决策后决定是否开发。
到先行动者的行动后再行动。按开发商是否知道市场需求状态分：
完全信息博弈：若两个开发商都知道市场需求状态（高需求或低需求）。
不完全信息博弈：由自然决定市场的需求状态，两开发商不知道。共同知识：在市场各种可能状态和各开发商不同策略组合下的得益矩阵是双方的共同知识。

博弈的描述

后，局中人 1 从 52 张纸牌中抽出一张牌，自己看完牌的颜色后，决定是停牌（ fold ）还是加注 (raise) 。若是停牌，需要将牌出示给 2 看，然后博弈结束。此时，牌若是红色，局中人1赢，否则，则1输。若是加注，局中人 1 需再拿出一元钱作为赌注，然后局中人 2 决定是放弃（ pass ）还是追随 (meet) ，若放弃，局中人1赢，博弈结束；若追随，则2需要也拿出一元钱作为赌注，然后，1出示牌，若红色，1 赢，否则，1输。
Rf
Fr
Ff
(-2,2)
(1,-1)
(-1,1)
24
三、扩展式博弈的标准式表述

第一步：找出参与人的策略
参与人1的策略 S1={Rr,，Rf，Fr，Ff} 参与人2的策略 S2={M， P}
25
三、扩展式博弈的标准式表述

第二步：计算每一个策略组合下的报酬
策略组合（Rf, M）下参与人1和2的报酬

8
一、扩展式博弈（续5）
2、构成扩展式的要素
局中人集合
行动顺序
依赖行动的报酬采取行动时掌握的信息外生事件的概率分布
9
一、扩展式博弈（续）
3、扩展式的严格定义
节点：xm 枝： ( xm1 , xm ) 路径： {( x1 , x2 ), ( x2 , x3 ),, ( xm1 , xm )}
(2,-2)
(1,-1)
0
1
(1,-1)
(-2,2)
raise 2
(1,-1) (-1,1)
7
一、扩展式博弈（续4）
一个人不可能在他不知道有哪些选择的情况下作出有意义的选择。为了保证局中人在博弈的任何节点总是知道他面临的选择，如果两个决策节属于同一局中人的同一个信息集，那么他们的行动分支就必须相同。

第六讲博弈的扩展式表述

忽略沉没成本（sunk costs）以及理性预期（rational expectation）经济学思想的结合
完美信息动态博弈
战略式表述的局限：忽略参与人的行动顺序
NE的缺陷：部分NE包含不可置信的战略
精练NE的思路：利用（准确反映参与人行动顺序的）扩展式表述剔除包含不可置信战略的NE
Selten（1965）子博弈精练（subgame perfect）NE （SPNE）
子博弈：（完美信息博弈中），每一个决策结及其后续结构成一个子博弈
博弈本身构成自身的一个子博弈
房地产开发博弈中的三个子博弈
自身
两个只有开发商B决策的单人博弈
B
B
开发
不开发
开发
不开发
－3，－3
1,0
子博弈B1
0,1
0,0
子博弈B2
SPNE：一个战略组合
（1）它是整个博弈的NE
（2）其相关行动规则在每一子博弈上都是NE
一个在（从最后一个决策结开始的）子子博弈中NE所对应的战略构成的（从倒数第二个决策结开始的）（新的）子博弈的NE的特点：
（1）它将是从倒数第二个决策结开始的子博弈的NE
（2）它将满足从最后一个决策结开始的子博弈的NE的要求
以此类推
直到从初始结（initial node）开始的原博弈
“灵活务实型”
不论A开发还是不开发，B都不开发，记为（不开发，不开发）
含义：不论博弈到达B的哪一个信息集，B都选择不开发
“木呐保守型”
B的战略空间：（（开发，开发）；（开发，不开发）；（不开发，开发）；（不开发，不开发））房地产开发博弈的战略式表述：
开发商B
A 开发

扩展型博弈和策略型博弈

混合策略Nash均衡
• 当一个博弈没有纯策略Nash均衡时，人们考虑计算所谓混合策略Nash均衡。 • 局中人的一个混合策略是指他按照某个概率分布随机地选用各个纯策略；如果他有K个纯策略，那么他的一个混合策略可以表示为i=(pi1,…,piK)，其中pik是他选用第k个纯策略的概率。 • 当局中人使用混合策略时，各人的期望赢得等于他在每一个纯策略横断面上的赢得与该策略横断面出现的概率的乘积之总和。为简便计，i的期望赢得函数仍然用pi表示。
混合策略Nash均衡
• 无区别原则：如果*=(*i,*-i)是个混合策略Nash 均衡并且pi(*i,*-i) =M，那么对*i中局中人i以正概率选用的每一个纯策略si都有pi(si,*-i) =M。换句话说， *-i使得局中人i对于他实际采用的每个纯策略无区别。 • 根据无区别原则，通常可以求解一个利用优劣关系简化后得到的KK双矩阵博弈。
混合策略Nash均衡
• 局中人i的全体混合策略的集合记为i；注意一个纯策略也可以看作一个特殊的混合策略。 • 如果每个局中人都选用一个混合策略，就得到一个混合策略横断面。全体混合策略横断面的集合记为。 • 一个混合策略横断面*=(*1,…, *n)叫做混合策略 Nash均衡，如果如果对每个局中人i, 他选定的混合策略*i都是对所有其它局中人选定的混合策略 *-i的最优回应：pi(*)pi(*|i), *ii, iI。
二人策略型博弈Nash均衡的计算
• 可以按照定义找出所有的纯策略Nash均衡； • 如果策略型博弈比较复杂，可以用策略间的 “优”, “劣”关系化简，然后再寻找均衡。称i 的一个策略si劣于si (或si优于si)，如果不管其他人选定什么策略，si都比si使i得到更小的赢得。如果存在一个si，它优于i的任何其他策略，就称si为i的最优策略。显然，劣策略不可能构成 Nash均衡。所以，寻找Nash均衡时可以把劣策略划掉以简化策略型博弈。

扩展式博弈逆向归纳法

扩展式博弈逆向归纳法简介扩展式博弈逆向归纳法是一种用于解决博弈问题的方法，它通过逆向思维，从最终结果开始，逐步分析游戏的各种策略和决策点，最终找到最优的策略。

本文将详细介绍扩展式博弈逆向归纳法的基本原理和应用。

基本原理扩展式博弈逆向归纳法是一种数学模型，用于描述多方参与的博弈过程。

其基本原理是从最终结果开始逐步向前推导，推算每一步的最优策略。

这种逆向归纳的思维方式可以减少决策的不确定性，并找到最优解。

基本步骤扩展式博弈逆向归纳法可以分为以下几个基本步骤：1. 定义博弈的参与者和规则首先，需要明确博弈的参与者和规则。

博弈可以涉及两个或多个参与者，并存在着一定的规则和限制条件。

2. 定义博弈的终结条件和目标确定博弈的终结条件和目标。

博弈可能在某个特定的条件下终止，并存在着不同的目标，如最大化收益、最小化损失等。

3. 分析可能的决策点和策略在博弈中，存在着多个决策点和不同的策略选择。

需要系统地分析可能的决策点，并列出各个决策点中可能的策略选择。

4. 逆向归纳法推导最优策略从终结条件开始向前推导，利用逆向归纳法分析每一个决策点的最优策略。

逐步迭代，每一步都考虑所有参与者的最优策略，并根据不同的情形进行调整。

5. 检验和优化策略得出最优策略后，需要进行检验和优化。

可以进行数学模型的验证，或者通过模拟实验来检验策略的有效性。

如果策略不理想，可进行调整和优化。

应用领域扩展式博弈逆向归纳法具有广泛的应用领域，包括经济学、管理学、计算机科学等。

1. 经济学领域在经济学中，扩展式博弈逆向归纳法常常用于分析市场竞争和博弈策略。

例如，分析企业之间的定价策略，或者市场中的潜在垄断行为。

2. 管理学领域在管理学中，扩展式博弈逆向归纳法可以用于分析决策制定和资源分配问题。

例如，在制定企业的市场营销策略时，可以运用该方法来寻找最优的策略。

3. 计算机科学领域在计算机科学中，扩展式博弈逆向归纳法可以应用于人工智能算法和游戏设计中。

第11章扩展式博弈与纳什均衡

反向归纳是指从博弈的最终结局出发，游戏者总是选择对自己最有利的结果；一旦知道博弈的最终结果是什么，然后转向次结局的决策点，以同样的方式找出该点上的决策者会选择什么决策；然后回到次次结局的那个点→„→如此反复，直到博弈的初始点，在初始点上决策的那个游戏者决定博弈的最终结果。
中南财经政法大学经济学院

开发 N
A 不开发

N
大（1/2）大（1/2）小（1/2）（1/2）小 B B B B 开发不开发不开发不开发不开发开发开发开发（4,4）（8,0）（0,8）（-3,-3）（1,0）（0,0）（0,1）（0,0）
中南财经政法大学经济学院

开发 N
A
不开发

N
大（1/2）大（1/2）小（1/2）（1/2）小 B B B B 开发不开发不开发不开发不开发开发开发开发（4,4）（8,0）（0,8）（-3,-3）（1,0）（0,0）（0,1）（0,0）图8-1
中南财经政法大学经济学院来自A 坦白 B 坦白（-8,-8）

抵赖坦白

抵赖
B
抵赖
（0,-10）（-10,0）（-1,-1）
中南财经政法大学经济学院

B 坦白 A 坦白

抵赖坦白

抵赖
A
抵赖
（-8,-8）
（0,-10）（-10,0）（-1,-1）
中南财经政法大学经济学院

从扩展式表述构造策略式表述。以房地产开发博弈为例。假定博弈开始之前自然就选择了“低需求”，且已成为共同信息；A先决策，B在观测到A的选择后再决策。则博弈的扩展式表述如下图（8-6）。注意：A只有一个信息集，两个可选择的行动，因而 A的行动（策略）空间为SA=（开发，不开发）。但 B有两个信息集，四个纯策略，即①不论A是否开发，我开发；②A开发，我开发，A不开发，我不开发； ③A开发，我不开发，A不开发，我开发；④无论A是否开发，我不开发。若将B的信息集从左到右排列，上述策略可写成：{开发，开发}，{开发，不开发}， {不开发，开发}，{不开发，不开发}（如下表）。

第7讲不完美信息扩展博弈-刘岩–武大金融

▶ ▶ ▶
. . . . . . . . .
. .
. .
. .
. .
.
序贯均衡
7/28
信念系统（belief system）
▶
当一个信息集 I 包含多于一个节点时，该信息集的决策者需要形成一个关于其所处节点的（条件）概率分布 µ(h), h ∈ I ，才能计算其在该节点所做决策的期望效用。所有参与者持有相同的信念系统 µ。这样的分布 µ 称为一个信念系统；µ 与 σ 共同确定了整个博弈树上达到各个节点的概率分布，进而对每个参与者可以计算期望效用 Eµ,σ ui 。
Py T(x' Ih) = A(x')P ', (h' Ih)
3)
for all h, h', and x' such that t(h) = t(h'), h -< h', and x' E
(0) 191 (1)
(1)
2
( o) [11 l
(0-) (0)
r.n]
FIGURE
0
(1)
6.
信念系统在 2 的最后一个信息集不满足一致性；给定 3 的策略， 2 在其两个后续信息集上的信念应该保持一致。
▶ ▶
. . .
. .
.
. . . . . . . .
. . . . . . . .
. . . . . . . . .
. .
. .
. .
. .
.
序贯均衡
8/28
序贯理性（sequential rationality）
▶
序贯理性要求给定所有对手的策略选择 σ−i 和信念系统 µ，参与者 i 的策略选择 σi 需要在所有 i 做决策的信息集上都是最优的。简言之，序贯理性要求每一轮决策时所选策略都是给定所处状态下最优。子博弈完美 Nash 均衡（SPNE）即满足序贯理性。由于引入了 µ，序贯理性的适用范围比（SPNE）要广。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 如果要用扩展式博弈对一个博弈问题进行建模，那么除了要说明博弈问题所涉及到的参与人及每位参与人的支付函数以外，还必须对博弈过程中参与人所遇到的决策问题的序列结构，进行详细的解释，说清楚每个参与人在何时行动，以及参与人行动时可供选择的行动方案和所了解到的信息。
例子： “新产品开发博弈”
• 也就是说，除了“企业2行动时是否观测到企业1的选择”这一点，暂时无法从上图中知道以外，完全信息动态的“新产品开发博弈”的扩展式描述所需要的信息(或要素)，都可以从上图中得到。
• 如果还能够直接从博弈树中知道“企业2 行动时是否观测到企业1的选择”，那么给出博弈树，就意味着给出了完全信息动态的“新产品开发博弈”的扩展式描述。
• 对于第二种情形，企业2不知道企业1的选择，即不知道博弈是从x1到了x2还是从 x1到了x3。因此，当轮到企业2决策时，他不知道自己是在点x2上还是在点x3上。所以，“企业2行动时是否观测到企业1 的选择”这一问题，实际上就等价于 “企业2行动时是否知道自己是在博弈树中的点x2上还是在点x3上”。
将“企业1”标示在点x 1上，表示博弈开始于企业1的选择。
称为博弈树的结(node) 决策结
回过来再考察上图中的博弈树，可以得到这样的信息： (1) 博弈中的参与人是企业1和企业2； (2) 博弈中企业1先选择，企业2后选择； (3) 企业1选择时有行动“开发”和“不开发”，企业2选择的行动有“开发”和 “不开发”； (4) 博弈中企业的支付。
问题：
• 如何在博弈树中，将“企业2行动时是否观测到企业1的选择”这一信息表示出来？
•
在完全信息动态的“新产品开发博弈” 中，企业2决策时，企业1已经做出选择。此时，企业2面临的决策情形就有以下两种： (1) 企业2知道企业1的选择； (2) 企业2不知道企业1的选择。
• 对于第一种情形，企业2知道企业1的选择，即知道企业1选择了“开发”还是 “不开发”，因此，企业2知道博弈是从 x1到了x2还是从x1到了x3。这就意味着当轮到企业2决策时，他知道自己是在点x2 上还是在点x3上；
扩展式博弈的定义：
扩展式博弈包括以下要素： (1) 参与人集合 {1, 2,..., n} ； (2) 参与人的行动顺序，即每个参与人在何时行动； (3) 每个参与人行动时面临的决策问题，包括参与人行动时可供他选择的行动方案以及他所了解的信息； (4) 参与人的支付函数，即博弈结束时每个参与人得到的博弈结果。
扩展式博弈
主要内容：一、扩展式博弈二、扩展式博弈的战略及其Nash均衡三、两种博弈描述形式的比较
扩展式博弈
主要内容：一、扩展式博弈二、扩展式博弈的战略及其Nash均衡三、两种博弈描述形式的比较
一、扩展式博弈
• 所谓扩展式博弈(extensive form game)是博弈问题的一种规范性描述。与战略式博弈侧重博弈结果的描述相比，扩展式博弈更注重对参与人在博弈过程中所遇到决策问题的序列结构的的方法给出了博弈问题的扩展式描述。对于一些简单的博弈问题，这种文字表述的方法也许是简单可行的。但可以想象，如果我们遇到的是更为复杂的博弈问题，文字描述所给出的模型就会显得繁冗拖沓，极不直观。
• 因此，我们需要寻找一种简便易行的扩展式博弈的描述方式。下面我们就以 “新产品开发博弈”为例，介绍一种不仅简单方便，而且十分直观的扩展式博弈的描述方式——博弈树。
研究博弈问题的具体进程必须弄清楚的两个问题
(1) 每个参与人在什么时候行动(决策)； (2) 每个参与人行动时，他所面临决策问题的结构。这包括参与人行动时可供他选择的行动方案，以及参与人行动时所了解的信息。
• 上述两个问题构成了参与人在博弈过程中所遇到决策问题的序列结构。 • 对于一个博弈问题，如果能够说清楚博弈过程中参与人的决策问题的序列结构，那么就意味着知道了博弈问题的具体进程。
• 为了将“企业2行动时是否知道自己是在博弈树中的点x2上还是在点x3上”这一点说清楚，需要引入“信息集”(infor mation set)的概念。
•
在博弈树中，参与人i的一个信息集(用Ii表示) 是参与人i决策结的一个集合，它满足以下两个条件： (1) Ii中的每个决策结都是参与人i的决策结； (2) 当博弈到达信息集Ii(即博弈到达Ii中某个决策结)时，参与人i知道自己是在信息集Ii中的决策结上，但不知道自己究竟在Ii中哪个决策结上。
(4) 两个企业的支付如下：
对手不开发，获利润800万元需求大对手开发，获利润300万元开发(a )：投入2千万元资金对手不开发，获利润200万元企业需求小对手开发，赔400万元不开发(b )：不投入资金,利润为0
• 所谓博弈树就是由结和有向枝构成的 “有向树”。
企业1的选择最上端的一个点(用空心圆有“开发”和表示)，表示博弈的开始。 “不开发”，表示博弈达到分别用标有该点时企业的 “开发”和所得，其中， “不开发”的支付向量中的有向枝表示。第一个数字表示企业1的所得，第二个数字表示企业2的所得。
• 试用扩展式博弈对两个企业都知道市场需求，且企业1先决策，企业2观测到企业1的选择后再进行选择的博弈情形即完全信息动态的“新产品开发博弈”进行建模。
完全信息动态的“新产品开发博弈”的扩展式博弈包括以下要素： (1) 参与人是企业1和2； (2) 企业1先行动，企业2后行动； (3) 企业1行动时有两种选择——“开发”和 “不开发”，企业1行动时不知道企业2 的行动；企业2行动时有两种选择—— “开发”和“不开发”，但企业2行动时已经知道企业1的行动；