05 扩展式博弈
扩展形式博弈策略
扩展形式博弈策略
扩展形式博弈策略是博弈论中的重要概念,它涉及到多个参与者在一定条件下做出决策的过程。
扩展形式博弈策略可以用来分析个体之间的相互作用、利益冲突和合作等行为,并找到最优的决策方案。
在扩展形式博弈中,参与者的决策是按照一定顺序进行的,每个参与者都可以知道前面参与者的决策,从而做出自己的决策。
这种顺序性的决策过程使得参与者能够根据前面的决策结果做出最佳的反应,从而达到自己的最优利益。
扩展形式博弈策略的分析方法包括信息集、策略和结果的定义。
信息集是指一个参与者在决策过程中所拥有的信息的集合,策略是参与者在每个信息集下可能采取的行动,结果是每个信息集下每个策略的结果。
在分析扩展形式博弈策略时,需要根据参与者的利益目标和信息集的定义,确定每个参与者的最佳策略。
一般来说,参与者都会根据
自己的利益最大化原则来做出决策,因此最佳策略往往是使得自己获得最大利益的策略。
扩展形式博弈策略的分析可以帮助参与者在决策过程中找到最佳的策略,从而使得自己的利益最大化。
同时,扩展形式博弈策略的分析也可以用来研究合作行为和冲突行为,并提供决策方案。
总之,扩展形式博弈策略的分析是博弈论中的重要内容,它可以帮助参与者在决策过程中找到最佳策略,使得自己的利益最大化。
通过研究扩展形式博弈策略,我们可以更好地理解个体之间的相互作用和决策行为,为实际问题提供有效的解决方案。
扩展式博弈逆向归纳法
扩展式博弈逆向归纳法简介扩展式博弈逆向归纳法是一种用于解决博弈问题的方法,它通过逆向思维,从最终结果开始,逐步分析游戏的各种策略和决策点,最终找到最优的策略。
本文将详细介绍扩展式博弈逆向归纳法的基本原理和应用。
基本原理扩展式博弈逆向归纳法是一种数学模型,用于描述多方参与的博弈过程。
其基本原理是从最终结果开始逐步向前推导,推算每一步的最优策略。
这种逆向归纳的思维方式可以减少决策的不确定性,并找到最优解。
基本步骤扩展式博弈逆向归纳法可以分为以下几个基本步骤:1. 定义博弈的参与者和规则首先,需要明确博弈的参与者和规则。
博弈可以涉及两个或多个参与者,并存在着一定的规则和限制条件。
2. 定义博弈的终结条件和目标确定博弈的终结条件和目标。
博弈可能在某个特定的条件下终止,并存在着不同的目标,如最大化收益、最小化损失等。
3. 分析可能的决策点和策略在博弈中,存在着多个决策点和不同的策略选择。
需要系统地分析可能的决策点,并列出各个决策点中可能的策略选择。
4. 逆向归纳法推导最优策略从终结条件开始向前推导,利用逆向归纳法分析每一个决策点的最优策略。
逐步迭代,每一步都考虑所有参与者的最优策略,并根据不同的情形进行调整。
5. 检验和优化策略得出最优策略后,需要进行检验和优化。
可以进行数学模型的验证,或者通过模拟实验来检验策略的有效性。
如果策略不理想,可进行调整和优化。
应用领域扩展式博弈逆向归纳法具有广泛的应用领域,包括经济学、管理学、计算机科学等。
1. 经济学领域在经济学中,扩展式博弈逆向归纳法常常用于分析市场竞争和博弈策略。
例如,分析企业之间的定价策略,或者市场中的潜在垄断行为。
2. 管理学领域在管理学中,扩展式博弈逆向归纳法可以用于分析决策制定和资源分配问题。
例如,在制定企业的市场营销策略时,可以运用该方法来寻找最优的策略。
3. 计算机科学领域在计算机科学中,扩展式博弈逆向归纳法可以应用于人工智能算法和游戏设计中。
第三章扩展型博弈论
如果甲先行动,但在博弈开始前商铺主乙有一次行动A的机会, 请利用子博弈完美纳什均衡概念分析下述两种情况下的博弈结果
(1)A:商铺主乙逢人便说自己一定要进货,无论对方如何行 动他都不会改变这个决定;
(2)A:商铺主乙与某个嘲笑他说大话的第三者丙打赌:如果 自己到时不进货,向丙支付1500元;如果自己到时候进货,丙 向他支付100元。并且,乙将这个赌局通知甲。
甲
甲
进 乙
不进 乙
进 乙
不进 乙
进
不进 进
不 进
进
不进 进
不 进
(-1000,-1000) (0,1000) (0,0)(-1000,-900)
(0,1100)(0,-1500)
(1000,0)
(1000,-1500)
作业: 阅读“蜈蚣博弈”
拍卖人拿出一张10元钞票,请大家给这张
钞票开价,无底价,竞拍者可无限制的轮 流叫价,每次叫价的增幅以5毛为单位,出 价最高者可以得到这张10元钞票,但出价
即每阶段都选“不坦白”,A总得益贴现为
2 ( 2 ) ( 2 ) 2 .. . 2
当
1(6) 2 1 1
1 时,A选“不坦白”是最优的,即
当
1 5
时,A在没有人先选“坦白”时选“不坦白”是最优的,并且A 在之后每阶段都选“不坦白”是最优的选择。
乙
甲
坦白 不坦白
坦白 -6,-6 -1,-8
最高和次高者都要向拍卖人支付出价数目 的费用。
——苏比克拍卖模型
第四节
重复博弈
重复博弈
单次博弈重复进行构成的博弈过程,但博 弈方的行为和博弈结果不一定是单次博弈 的简单重复,其中,单次博弈可称为阶段 博弈
博弈论的extensive form
博弈论的extensive form博弈论是研究具有相互冲突和合作元素的情境下的决策制定的数学理论。
在博弈论中,一个游戏(博弈)可以被表示为扩展式(extensive form)或标准式(normal form)。
扩展式博弈也被称为树形结构,它详细地描述了游戏的所有可能的决策过程和时间顺序。
在扩展式博弈中,每个玩家根据游戏的历史(从根节点到当前决策点的路径)做出选择。
这种表示方法允许捕捉到玩家之间的行动顺序和信息传递,非常适合描述具有时间序列和信息不完全的动态决策过程。
扩展式博弈的主要组成部分包括:1. 历史(History):历史是一个有序集合,表示从博弈的开始到当前决策点所采取的行动序列。
在扩展式博弈的树形结构中,历史从根节点开始,每个节点代表一个决策点,节点之间的路径代表了行动的历史。
2. 玩家函数(Player Function):玩家函数P(h) 定义了在历史h 之后做出决策的玩家。
在扩展式博弈中,玩家函数确保了在每一个决策点,只有一个玩家负责做出选择。
3. 纯策略(Pure Strategy):纯策略是玩家在每个决策点上可能采取的行动集合。
一个玩家在扩展式博弈中的纯策略可以被表示为一个函数,该函数将历史映射到一个具体的选择上。
4. 博弈长度(Length of the Game):博弈长度l(G) 是指从根节点到叶节点的最长路径长度,它代表了博弈的持续时间。
扩展式博弈的优点在于它能够精确地描述玩家之间的决策顺序和信息结构,但它也有可能变得非常复杂,尤其是在参与者数量多或者决策序列长的情况下。
尽管如此,扩展式博弈是分析具有时序特征和信息不完全的决策问题的有力工具,特别是在经济学、政治学、心理学和人工智能等领域。
扩展式博弈与标准式博弈
• 却不知道:诸葛亮知道自己知道“实则虚之”的 用兵之道
2-2 扩展式博弈
• 扩展式博弈(extensive form game): • 描述工具是博弈树
Game tree: ultimatum bargaining game(分 配100元钱)
给B90( 9-1分) 给B10( 1-9分)
10
90
90
10
10
0
90
0
0
90
0
10
0
0
0
0
2-4 联盟博弈
– 吴、蜀之间存在利益冲突,并多次兵戎相见, 但两国为什么在赤壁之战中能结为联盟?
• 联盟:相互协调行动的一组博弈参与人 • 联盟价值:一个联盟的产出(收益)
2-4 几种著名的博弈例子
囚徒困境
1,-1
下中上 1,-1
-1,1
1,-1
强 齐 王中
弱
博弈描述的复杂性
——再谈田忌赛马
强
中
田中
田忌 弱
Hale Waihona Puke 忌弱强中强
齐王
弱
田忌 弱 强
田 忌
田 忌
中 弱
强 中
齐王 强 弱
齐王 强
弱
田忌 弱
田忌 强
弱
田忌
强 中
田忌 强
中
弱
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开 囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
(1)若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方 保持沉默,此人将即时获释,沉默者将判监10年。 (2)若二人都保持沉默(相关术语称互相“合作”),则二人同样判监 1年。 (3)若二人都互相检举(相关术语称互相“背叛”),则二人同样判监 8年。
上海财经大学《高级微观经济学I》扩展式博弈
0
13
A 扩展式博弈
• 例:约会博弈
d1.1
– H 1={d1.1 ,d1.2} – H 2={d2 .1, d2.2} – 信息集
Reading 2
Concert
d1.2
• I 11={d1.1 }; I 12={ d1.2}
2B
S
• I 2={d2 .1, d2.2}
d2.1
d2.2
B
S
B
S
3
High See
d1.1
raise
d2.1
Pass
Meet
Low
d1.2
raise
-1 See
1
d2.2
Pass
Meet
1
2
-1
-2
1
-2
-1
2
A 扩展式博弈
• 连续行动集:货币政策
– 第一阶段:中央银行宣布政策目标 π0 – 第二阶段:居民/企业形成通货膨胀预期πe – 第三阶段:中央银行决定实际政策 π
0
– a(I1.1)∈ A(I1.1) , a(I1.2)∈ A(I1.2)
– 2的信息集I2 ={d2}
– 策略: s2 =a(I2)
d1.1
C
d2
S
C
d1.2
1
S
C
3
4
3
2
5
18
A 扩展式博弈
• 策略(一般定义)
– 是参与者信息集Ii到行动集A(Ii)的函数
– s1 =a(I1)
d1
• a(I1)∈ A(I1)
• 例:三阶段蜈蚣博弈
1.1
S
C
2
2
4.扩展式博弈与反向归纳策略
扩展式博弈的形式
完全信息的情况
①
L
②
R
②
l
2 0
r
2 1
l1Biblioteka 0r 3 1
不完全信息的情况
①
L
R
l
2 0
r
2 1
②
l
1 0
r
3 1
扩展式博弈的规则
在一个偏僻的山里,有一个村庄,村里有100对夫妇。 在这个村里已经形成了约定成俗的规定,如果女人发现自己的丈夫对自 己不忠的话,就会毫不犹豫的将他杀死,而且当天执行。当然,她必须 有确切的证据来证明他丈夫的不忠。由于这个因素,某个女人发现某个 男人不忠,她不会告诉那个不忠男人的妻子。但是,她会告诉其他人的 妻子,并且女人们会相互的传递这一信息,因此最后,一个男人不忠, 除了其妻子不知道外,其他女人都知道。 事实上是,村子里的这100对夫妇的男人都不忠,但由于女人不会将她们 知道的事实告诉不忠男人的妻子,每个女人不知道自己的男人不忠,因 此,该村子一直很稳定,而没有发生妻子杀丈夫的行为。 村子里有1个辈分很高的老太太,她德高望重,诚实可敬,对村子里的情 况了如指掌。一天,这位老人对这这100个女人说了一句很平常的话: “你们的男人当中至少有一个是不忠的。”于是,村里发生了这样一个 事情,前99天,村里风平浪静,但到了第100天,村里发生了一场大屠杀, 所有的女人都杀死了她们的丈夫! 为什么会这样?
结论
作为博弈方你不应该仅仅是个被动的参与人,满足于接受别人制定的博 弈规则,而应该设法改变博弈使其对自己尽量有利
可置信的承诺能够促进长期利润,但承诺方也确实因此而对自己的行动 施加了严格的限制。这种通过限制自己行动来获取竞争优势的做法被称 为策略性行为
扩展式博弈优质内容
1.战略式博弈从本质上来讲是一种静态模型
• 战略式博弈从本质上来讲是一种静态模型, 它假设所有的参与人同时选择战略并实现 博弈在各种情形下的结果,至于博弈中参 与人何时行动,战略式博弈并不考虑。
• 虽然战略式博弈也可用来对动态博弈进行 建模,但从所得到的模型中,我们无法直 观地观察到动态博弈所具有的动态特性。
• 此时,可以采用博弈树对一个扩展式博弈 进行描述;
• 博弈树:就是由结和有向枝构成的“有向 树”。
企有最业“上1开端的发的选”一择和个点(用空心圆 “表不示开),发表”示,博弈的开始 。 分表别示用博标弈有达到 “该开点发时”企和业的 “所不得开,发其”中的, 有支向付枝向表量示中。的 第一个数字表 示企业1的所得, 第二个数字表 示企业2的所 得。
(4) 给出了博弈中各企业的支付。
• 除了“企业2行动时是否观测到企业1的选 择”这一点暂时无法从上图中知道以外, 完全信息动态的“新产品开发博弈” 扩 展式描述所需要的信息,都可以从上图中 得到。
• 问题:如何在博弈树中,将“企业2行动 时是否观测到企业1的选择”这一信息表 示出来?
• 在完全信息动态的“新产品开发博弈” 中,企业2决策时,企业1已经做出选 择。此时,企业2面临的决策情形就 有以下两种:
(1) 企业2知道企业1的选择;
(2) 企业2不知道企业1的选择。
• 对于第一种情形,企业2知道企业1的选择, 即知道企业1选择了“开发”还是“不开 发”,因此,企业2知道博弈是从x1到了x2 还是从x1到了x3。
• 对于第二种情形,企业2不知道企业1的选 择,即不知道博弈是从x1到了x2还是从x1到 了x3。
其中,对
si : Hi Ai (Hi )
第二章扩展式博弈
扩展式博弈
本章的主要内容
博弈论的启示 实际模型与虚拟模型 扩展式博弈:完美信息 扩展式博弈:不完美信息 策略是什么
第一节
博弈论的启示
博弈论主要在两个方面给我们帮助: 1、模型 它提供了一个研究复杂社会现象的框架, 可将其简化为可供分析的模型 2、方法 它提供了从这些与人们如何采取行动及人 们该如何采取行动相关的模型中,总结命 题的方法。
博弈论提供了对于人们行为背后逻辑的洞察, 还处于发展中。
第二节 实际模型与虚拟模型
实际模型 实际模型旨在呈现真实世界,是对真实世界的准确描 述,实际模型可能很复杂。 虚拟模型 虚拟模型是对真实模型的简化,并不一定是对真实模 型的准确描述。我们使用虚拟模型尽可能从本质上模 仿真实世界,并非复制真实世界。 构建虚拟模型 决定将哪些因素加入到虚拟模型中,就如同打包行李 去大学,你没有办法把所有需要的东西都塞进行李箱。 从本质上模仿,就是把最关键的因素加入模型,忽略 次要因素。有些时候,忽略次要因素更有助于研究关 键因素之间的关系。
扩展式博弈:不完美信息——信息集
在左图中,盖伊在决定杀死还是释放奥兰多之前,知道薇薇卡 是否交纳了赎金。信息集都是单节点,是一个完美信息博弈 (左图) 如果盖伊在决定杀死还是释放奥兰多之前,不知道薇薇卡是否 交纳了赎金。节点3和4共同构成一个信息集,这个信息集中包 含了两个节点,是一个不完美信息博弈(右图)
特征1:每一个节点都是初始节点 的后续节点,同时,初始节点是 唯一具有这一特征的节点。 特征2:除初始节点之外的任何一 个节点都只有一个直接前臵节点。 初始节点没有前臵节点。 特征3:从一个节点引出的不同分 枝具有不同的行动标签。 特征4:每一个信息集只包含一个 参与人的节点。 特征5:每个信息集中所有节点必 须具有相同数量的直接后继节点, 而且其中的所有节点是通过具有 相同集合行动标签的分枝而到达 这些后继节点的。
博弈的描述
后,局中人 1 从 52 张纸牌中抽出一张牌,自己看完 牌的颜色后,决定是停牌( fold )还是加注 (raise) 。 若是停牌,需要将牌出示给 2 看,然后博弈结束。 此时,牌若是红色,局中人1赢,否则,则1输。若 是加注,局中人 1 需再拿出一元钱作为赌注,然后 局中人 2 决定是放弃( pass )还是追随 (meet) ,若 放弃,局中人1赢,博弈结束;若追随,则2需要也 拿出一元钱作为赌注,然后,1出示牌,若红色,1 赢,否则,1输。
Rf
Fr
Ff
(-2,2)
(1,-1)
(-1,1)
24
三、扩展式博弈的标准式表述
第一步:找出参与人的策略
参与人1的策略 S1={Rr,,Rf,Fr,Ff} 参与人2的策略 S2={M, P}
25
三、扩展式博弈的标准式表述
第二步:计算每一个策略组合下的报酬
策略组合(Rf, M)下参与人1和2的报酬
8
一、扩展式博弈(续5)
2、构成扩展式的要素
局中人集合
行动顺序
依赖行动的报酬 采取行动时掌握的信息 外生事件的概率分布
9
一、扩展式博弈(续)
3、扩展式的严格定义
节点:xm 枝: ( xm1 , xm ) 路径: {( x1 , x2 ), ( x2 , x3 ),, ( xm1 , xm )}
(2,-2)
(1,-1)
0
1
(1,-1)
(-2,2)
raise 2
(1,-1) (-1,1)
7
一、扩展式博弈(续4)
一个人不可能在他不知道有哪些选择的情 况下作出有意义的选择。 为了保证局中人在博弈的任何节点总是知 道他面临的选择,如果两个决策节属于同 一局中人的同一个信息集,那么他们的行 动分支就必须相同。
第6章:扩展式博弈及其均衡)
开发
-0.3,-0.3 -0.3,-0.3 0.1,0 0,0.1 0,0 0,0.1
0.1,0 0,0
A
不开发
注意:均衡与均衡结果是不同的!!!
SA = A(h(O))
= {开发,不开发 ; }
SB = A(h(x1)) × A(h(x2 )) ={{开发,开发},开发,不开发}, { {不开发,开发},不开发,不开发} { }
定义1:设 S = (s , s ,..., s , S*为扩 ) 展式的一个Nash均衡,当且仅当 ∀i ∈Γ
* * 1 * 2 * n
s ∈argmaxUi (si , s−i )
* i * si∈Si
或者∀si ∈Si, i (si , s ) ≥ Ui (si , s )。 U
* −i * −i
所有参与人的一个纯战略组合
s = (s1, s2 ,..., sn )
决定了博弈树上的一个路径,例如(开发, {不开发,开发})决定了博弈路径: A (0.1,0) 开发 B 不开发
战略组合(不开发,{开发,开发})决定了 博弈路径: A (0,0.1) 不开发 B 开发
不同的纯战略组合可能决定同一个路 径,例如,战略组合(开发,{不开发, 开发})和(开发,{不开发,不开发}) 决定了: A (0.1,0) 开发 B 不开发
∀x1, x2 ∈ X ,
≺
x1 ≺ x2 ⇔ x1在 2之 x 前
1)传递性(transitivity):
≺满足:
∀x1, x2 , x3 ∈ X , 若 1 ≺ x2,x2 ≺ x3,则 x x1 ≺ x3
2)反对称性(asymmetricity):
∀x1, x2 ∈ X , 若 1 ≺ x2, x 则 x2 ≺ x1 不 立 成 。
第六讲 博弈的扩展式表述
完美信息动态博弈
战略式表述的局限:忽略参与人的行动 顺序
NE的缺陷:部分NE包含不可置信的战略
精练NE的思路:利用(准确反映参与人 行动顺序的)扩展式表述剔除包含不可 置信战略的NE
Selten(1965) 子博弈精练(subgame perfect)NE (SPNE)
子博弈:(完美信息博弈中),每一个 决策结及其后续结构成一个子博弈
博弈本身构成自身的一个子博弈
房地产开发博弈中的三个子博弈
自身
两个只有开发商B决策的单人博弈
B
B
开发
不开发
开发
不开发
-3,-3
1,0
子博弈B1
0,1
0,0
子博弈B2
SPNE:一个战略组合
(1)它是整个博弈的NE
(2)其相关行动规则在每一子博弈上都 是NE
一个在(从最后一个决策结开始的)子 子博弈中NE所对应的战略构成的(从倒 数第二个决策结开始的)(新的)子博 弈的NE的特点:
(1)它将是从倒数第二个决策结开始的 子博弈的NE
(2)它将满足从最后一个决策结开始的 子博弈的NE的要求
以此类推
直到从初始结(initial node)开始的原博 弈
“灵活务实型”
不论A开发还是不开发,B都不开发,记为(不 开发,不开发)
含义:不论博弈到达B的哪一个信息集,B都选 择不开发
“木呐保守型”
B的战略空间: ((开发,开发);(开发, 不开发);(不开发,开发);(不开发,不 开发)) 房地产开发博弈的战略式表述:
开发商B
A 开发
扩展型博弈和策略型博弈
混合策略Nash均衡
• 当一个博弈没有纯策略Nash均衡时,人们考虑计 算所谓混合策略Nash均衡。 • 局中人的一个混合策略是指他按照某个概率分布 随机地选用各个纯策略;如果他有K个纯策略,那 么他的一个混合策略可以表示为i=(pi1,…,piK),其 中pik是他选用第k个纯策略的概率。 • 当局中人使用混合策略时,各人的期望赢得等于 他在每一个纯策略横断面上的赢得与该策略横断 面出现的概率的乘积之总和。为简便计,i的期望 赢得函数仍然用pi表示。
混合策略Nash均衡
• 无区别原则:如果*=(*i,*-i)是个混合策略Nash 均衡并且pi(*i,*-i) =M,那么对*i中局中人i以正 概率选用的每一个纯策略si都有pi(si,*-i) =M。换 句话说, *-i使得局中人i对于他实际采用的每个 纯策略无区别。 • 根据无区别原则,通常可以求解一个利用优劣关 系简化后得到的KK双矩阵博弈。
混合策略Nash均衡
• 局中人i的全体混合策略的集合记为i;注意一 个纯策略也可以看作一个特殊的混合策略。 • 如果每个局中人都选用一个混合策略,就得到一 个混合策略横断面。全体混合策略横断面的集合 记为。 • 一个混合策略横断面*=(*1,…, *n)叫做混合策略 Nash均衡,如果如果对每个局中人i, 他选定的混 合策略*i都是对所有其它局中人选定的混合策略 *-i的最优回应:pi(*)pi(*|i), *ii, iI。
二人策略型博弈Nash均衡的计算
• 可以按照定义找出所有的纯策略Nash均衡; • 如果策略型博弈比较复杂,可以用策略间的 “优”, “劣”关系化简,然后再寻找均衡。称i 的一个策略si劣于si (或si优于si),如果不管其他 人选定什么策略,si都比si使i得到更小的赢得。 如果存在一个si,它优于i的任何其他策略,就 称si为i的最优策略。显然,劣策略不可能构成 Nash均衡。所以,寻找Nash均衡时可以把劣 策略划掉以简化策略型博弈。
博弈的扩展式表述_博弈论与信息经济学--PBL教程_[共5页]
59第3章 完全信息动态博弈 出怎样的分配方案才能够既不使自己被扔到大海里喂鲨鱼,又能使自己得到最多的金币?动态博弈由于添加了时间因素,因而更加贴近现实。
根据参与人是否相互了解收益情况,可分为“完全信息动态博弈”和“不完全信息动态博弈”,根据所有参与人是否都对自己选择前的博弈过程完全了解,可分为“完美信息动态博弈”和“不完美信息动态博弈”。
在本章中,我们首先对博弈的扩展式表达给出完整的定义,为动态博弈的分析奠定基础;其次,我们从扩展式表述博弈的纳什均衡分析逐步深入子博弈精炼纳什均衡,为动态博弈的分析提供可行的方法;接下来介绍完全信息动态博弈经典模型;最后,讨论重复博弈及无名氏定理。
3.1 博弈的扩展式表述在静态博弈中,所有参与人同时行动(或行动虽有先后,但没有人在自己行动之前观测到别人的行动);在动态博弈中,参与人的行动有先后顺序,且后行动者在自己行动之前能观测到先行动者的行动。
正如博弈论专家习惯于用战略式表述描述和分析静态博弈一样,他们也习惯于用扩展式表述(extensive form representation )来描述和分析动态博弈。
回顾一下,博弈的战略式表述包括3个要素:(1)参与人集合;(2)每个参与人的战略集合;(3)由战略组合决定的每个参与人的支付。
博弈的扩展式表述所“扩展”的主要是参与人的战略空间。
战略式表述简单地给出参与人有些什么战略可以选择,而扩展式表述要给出每个战略的动态描述:谁在什么时候行动,每次行动时有些什么具体行动可供选择,以及知道些什么。
简单地说,在扩展式表述中,战略对应于参与人的相机行动规则(contingent action plan ),即什么情况下选择什么行动,而不是简单的、与环境无关的行动选择。
具体来讲,博弈的扩展式表述包括以下要素。
(1)参与人集合:i =l, …, n ,此外,我们将用N 代表虚拟参与人“自然”;(2)参与人的行动顺序(the order of moves ):谁在什么时候行动;(3)参与人的行动空间(action set ):在每次行动时,参与人有些什么选择;(4)参与人的信息集(information set ):每次行动时,参与人知道些什么;(5)参与人的支付函数(payoff ):在行动结束之后,每个参与人得到些什么(支付是所有行动的函数);(6)外生事件(即自然的选择)的概率分布。
4.1博弈的扩展式表述方法
博弈论之博弈的扩展式表述方法21面旗子游戏A B两名对手之间有21面旗子,他们可以轮流移走这些旗子。
每次一方可以选择移走1支旗,2支旗或是3支旗。
不移旗,或是一次移动4支或4支以上的旗子是不允许的。
拿走最后1支旗的一方获胜,无论这支旗是最后1支,还是2支或是3支旗中的一支。
你的游戏策略是什么呢?21面旗子游戏A B21面旗子游戏A B 静态博弈动态博弈前向展望,后向推理参与人同时出招。
参与人的行动有先后顺序之分。
策略式表述博弈扩展式表述博弈博弈的扩展式表述参与人集合:i =1, … ,N ;参与人的行动顺序(the order of moves); 参与人的信息集(information set);信息集是对博弈过去发生历史的描述,表示参与人在做行动选择时,他对过去已经发生事实的了解。
记参与人i 的某个信息集为,k i = 1,…,K i 。
记参与人i 的信息集构成的集合为H i , 。
博弈的扩展式表述参与人集合:i =1, … ,N ;参与人的行动顺序(the order of moves);参与人的信息集(information set); 参与人的行动空间(action set) ;参与人i 的行动空间是定义在他的信息集上的可选行动集合。
记为 。
在信息集上的一个具体行动,记为 ,k i = 1,…,K i博弈的扩展式表述参与人集合:i=1, … ,N;参与人的行动顺序(the order of moves);参与人的信息集(information set);参与人的行动空间(action set) ;参与人的支付函数(payoff);描述各参与人在博弈结束后,各参与人的支付水平。
博弈的扩展式表述参与人集合:i=1, … ,N;参与人的行动顺序(the order of moves);参与人的信息集(information set);参与人的行动空间(action set) ;参与人的支付函数(payoff);外生事件的概率分布,即虚拟参与者“自然”的可能选择的概率分布。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• •
•
为了说明“企业2在行动时是处在x2点还是处在x3 点” ,需要引入信息集(information set)的概念。 信息集:信息集Ii是参与人i决策结的一个集合, 它满足以下两个条件: (1) Ii中的每个决策结都是参与人i的决策结; (2)当博弈到达Ii时,参与人i知道自己处在该 信息集中的某个决策结,但不知道是哪一个。 因此,信息集Ii可用来描述:当轮到参与人i行动 时,他所了解的信息,即他知道什么(知道自己 位于哪一个信息集上)、不知道什么(不知道自己 位于信息集中哪一个决策结上)。
• 给定一个博弈的扩 展式描述,可以得 到参与人的战略以 及参与人在各战略 组合下的支付,所 以,由一个博弈的 扩展式描述可以得 到该博弈的战略式 描述。
1 A x B 1 2 x x4 2 C D 2,1 1 x 3 x5 E F 1,1 x7 x6
1,2
3,0
2
1 A x B 1 2 x x4 2 C D 2,1 1 x 3 x5 E F 1,1 x7 x6
将“企业1”标示在点x 1上,表示博弈开始于 企业1的选择。
称为博弈树的结(node) 称为博弈树的结 决策结
考察上图中的博弈树,可以得到这样的信 息: (1) 博弈中的参与人是企业1和企业2; (2) 博弈中企业1先选择,企业2后选择; (3) 企业1选择时有行动“开发”和“不开 发”,企业2选择的行动有“开发”和 “不开发”; (4) 给出了博弈中各企业的支付。
• 动态博弈中的序列结构:
(1) 每个参与人在什么时候行动; (2) 每个参与人行动时,所面临的决策问题, 包括参与人行动时可供他选择的行动方 案、所掌握的信息。
扩展式博弈的定义 定义: 定义
扩展式博弈包括以下要素: (1) 参与人集合 Γ = {1, 2,..., n} ; (2) 参与人的行动顺序,即每个参与人在何 时行动; (3) 序列结构:每个参与人行动时面临的决 策问题,包括参与人行动时可供选择的 行动方案、所了解的信息; (4) 参与人的支付函数。
• 在“新产品开发博弈”中,假设企业1先行动, 企业2后行动,但企业2行动时不知道企业1的 行动。
企业2行动时,只知道 博弈要么到达点x2,要 么达到点x3 ,但具体在 哪一点,企业2不清楚。 也就是说,企业2只知 道自己位于决策结集合 {x2, x3 }上,但不知道位 于{x2, x3 }中哪一个决策 结上。
1,2
( A, E ) ( A, F ) 1 (B, E ) (B, F )
C 3, 0 1, 2 2, 1 2, 1
D 1, 1 1, 1 2, 1 2, 1
3,0
扩展式描述
战略式描述
三、两种博弈描述形式的比较
1. 战略式博弈从本质上来讲是一种静态模 型。 2. 扩展式博弈从本质上来讲是一种动态模 型。
L′
3
x3
R′ x7
L ′′
R ′′
L ′′
R ′′
L′
R ′′
L ′′
R′
下图表示参与人3选择时,既不知道参与人2的选 择,也不知道参与人1的选择。
1
L
2
x1
R
2
L′ x4
x2
3
R′
3
L′ x6
x3
3
R′ x7
L ′′
R ′′
L ′′
x5
R ′′
L′
R ′′
L ′′
R′
下图表示参与人3选择时,既知道参与人2的选择, 也知道参与人1的选择。
小偷 2
坦白
小偷 1 坦白
抵赖
-4, -4 -6,0
0,-6 -1,-1
抵赖
囚徒困境的战略式描述
小偷 1 坦白 小偷2 抵赖
坦白 小偷1 小偷 2 抵赖
坦白
抵赖
坦白
抵赖
坦白
抵赖
坦白
抵赖
-8, -8
0,-10
-10 , 0
-1,-1
-8 ,-8
0 ,-10
-10, 0
-1,-1
囚徒困境的扩展式描述
• 注意:到目前为止,对于战略式描述的博 弈问题,我们可以直接得到其Nash均衡。 但是,如果是扩展式博弈的话,则需要先 给出博弈的战略式描述,才能得到其Nash 均衡。 • 究其原因,主要在于Nash均衡本身只是一 个静态的解的概念 。
(4) 两个企业的支付如下:
对手不开发,获利润800万元 需求大 对手开发,获利润300万元 开发(a ):投入2千万元资金 对手不开发,获利润200万元 企业 需求小 对手开发,赔400万元 不开发(b ):不投入资金,利润为0
• 由于上述博弈较为简单,我们用文字描述 的方法给出了其扩展式描述。但对于更为 复杂的博弈问题,文字描述所给出的模型 就会显得繁冗拖沓,极不直观。 • 此时,可以采用博弈树对一个扩展式博弈 进行描述; • 博弈树:就是由结和有向枝构成的“有向 树”。
企业1的选择 最上端的一个点(用空心圆 有“开发”和 表示),表示博弈的开始 。 “不开发”, 表示博弈达到 分别用标有 该点时企业的 “开发”和 所得 ,其中, “不开发”的 支付向量中的 有向枝表示。 第一个数字表 示企业1的所得, 第二个数字表 示企业2的所 得。
• 设X为一决策结集合,用Ii(X)表示参与人 由决策结集X构成的一个信息集。 • 例如,I2({x2, x3})表示企业2的由决策结集 {x2, x3}构成的信息集,I2({x2})和I2({x3})分 别表示企业2的由决策结集{x2}和{x3}构成 的信息集。 • 在博弈树中,属于同一信息集的决策结一 般用虚线连接起来。 • 在以后的讨论中,我们假设博弈树中的博 弈都是从上往下进行的,因此,在不引起 歧义的情况下,我们不标出博弈树中枝的 方向。
Si =
I i ∈H i
∏ A (I )
i i
例如:
1 A x B 1 2 x x4 2 C D 2,1 1 x 3 x5 E F 1,1 x7 x6
1,2
3,0
• 参与人2的信息集为I2 ({x2}),参与人2在I2 ({x2}) 上的行动集为{C,D}。所以,参与人2的战略集 为{C,D} ; • 参与人1的信息集为I1 ({x1})和I1 ({x3}) ,其中参 1 ({ }) ({ 与人1在I1 ({x1})上的行动集为{A,B},在I1 ({x3}) 上的行动集为{E,F}。所以,参与人1的战略集为 {A,B}×{E,F} ,即{A,E}、{A,F}、{B,E}和{B,F}。
1
L
2
x1
R
2
L′
3
x2
R′
3 3
L′ x6
x3
R′
3
L ′′
x4
R ′′
L ′′
x5
R ′′
L′
R ′′
L ′′
x7
R′
• 对于多阶段的动态博弈问题,一般还假 设参与人满足“完美记忆”(perfect recall) 要求,即假设参与人不会忘记以前知道 和做过的事情。 • 在博弈分析中,如果没有“完美记忆” 假设,各种博弈结果都有可能出现,那 么我们也就无法对博弈进行预测。 • 但在现实生活中,不满足“完美记忆” 要求的情形比比皆是。例如,人们在玩 扑克时,往往会忘记自己曾经出过什么 牌或者对手曾经出过什么牌。
• 战略:参与人在博弈中的行动规则,它规 定了参与人在博弈中每一次轮到自己行动 的情形下,应该采取的行动。 • 在博弈树中,由于参与人在博弈中每一次 轮到自己行动的情形可以用一个信息集来 表示,因此,参与人在扩展式博弈中的战 略实际上就是参与人在每个信息集上的行 动规则。
• 用 Hi 表示博弈树中参与人i的信息集的集合,即 Hi=(Ii);用Ai(Ii)表示参与人i定义在信息集Ii上的 行动集, Ai(Hi)表示参与人定义在一种静态模型 • 战略式博弈从本质上来讲是一种静态模型, 它假设所有的参与人同时选择战略并实现 博弈在各种情形下的结果,至于博弈中参 与人何时行动,战略式博弈并不考虑。 • 虽然战略式博弈也可用来对动态博弈进行 建模,但从所得到的模型中,我们无法直 观地观察到动态博弈所具有的动态特性。
下图表示参与人3选择时,知道参与人1的选择, 但不知道参与人2的选择。
1
L
2
x1
R
2
L′ x4
x2
3
R′ x5 x6
L′
x3
3
R′ x7
L ′′
R ′′
L ′′
R ′′
L′
R ′′
L ′′
R′
下图表示参与人3选择时,知道参与人2的选择, 但不知道参与人1的选择。
1
L
2
x1
R
2
L′ x4
x2
3
R′ x5 x6
例子: 新产品开发博弈
• 试用扩展式博弈对两个企业都知道市场 需求,且企业1先决策,企业2观测到企 业1的选择后再进行选择的博弈情形即完 全信息动态的“新产品开发博弈”进行 建模。
完全信息动态的“新产品开发博弈”的扩 展式博弈包括以下要素: (1) 参与人是企业1和2; (2) 企业1先行动,企业2后行动; (3) 企业1行动时有两种选择——“开发”和 1 ——“ “不开发”,企业1行动时不知道企业2的 行动;企业2行动时有两种选择——“开发” 和“不开发”,但企业2行动时已经知道 企业1的行动;
第二章 完全信息动态博弈
扩展式博弈
主要内容: 一、扩展式博弈 二、扩展式博弈的战略及Nash均衡 三、两种博弈描述形式的比较
一、扩展式博弈
• 在静态博弈中,参与人同时进行决策,而 在动态博弈中,参与人的行动顺序有先有 后,此时用扩展式博弈对其进行描述; • 扩展式博弈(extensive form game):是博弈 问题的一种规范性描述。与战略式博弈侧 重博弈结果的描述相比,扩展式博弈更注 重对参与人在博弈过程中遇到决策问题时 序列结构的分析。