动态博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

逆向归纳法求解子博弈精炼纳什均衡
• 从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段
相应博弈方的行为选择,一直到第一个阶段的分析方法,这种分析方法称为 “逆向归纳法”,又称倒推法。
• 假定博弈有两个阶段,第一阶段参与人1行动,第二阶段参与人2行动,并且
2在行动前观察到1的选择。令 A1 是参与人1的行动空间, A2 是参与人2的 行动空间。当博弈进入第二阶段,给定参与人1在第一阶段的选择 a1 A1 , 参与人2面临的问题是:
• 前几个讲述的都是静态博弈, • 静态博弈的一个最显著特点就是决策者同时做出决策。然而现实中的许多决
策活动是有先后顺序的,如田忌赛马,往往是依次选择行为而不是同时选择 行为。对于这样的博弈问题,我们如何定义及我们该如何表述与分析呢?
同时并非单指时间同时,只要后行动 者不知道前行动者采取了什么具体行 动,都可视为“同时”

子博弈精炼纳什均衡
子博弈: (a)始于单结信息集的决策结n;(不包括博弈的第一个决策结) (b)包含博弈树中n之下所有的决策结和终点结; (c)没有对任何信息集形成分割。(即如果博弈树中n之下有一个决策结n', 则和n'处于同一信息集的其他决策结也必须在n之下,从而也必须包含于子博 弈中。)
子博弈精炼纳什均衡
• A只有一个信息集,两个可选行动,因而A的行动空间也即策略空间(开发, •
不开发)。 B有两个信息集,每个信息集上有两个可选行动,因而B有四个纯策略:(1) 不论A开发还是不开发,我开发;(2)A开发我开发,A不开发我不开发; (3)A开发我不开发,A不开发我开发;(4)不论A开发还是不开发,我不 开发。简记为:{开发,开发},{开发,不开发},{不开发,开发},{不开发, 不开发}。
动态博弈模型
利用逆向归纳法求解 首先考虑第 2阶段。给定企业 1 的产量q 1, 企业2的最优产量为 q2
* *
q 2 argmax ( (a ( - q 1 q 2) - c) q2 2 q 1 , q 2) 由一阶条件,得到企业 2的最优反应函数 q 2 R2 (q 1 ) a - q1 - c 2 a - q1 - c * 再考虑第 1阶段,预见到企业 2的反应函数q 2 R2 (q 1 ) 2 * 企业1 的最优产量q 1 argmax ( (a ( - q 1 R2 (q 1 )) - c) q1 1 q 1 , q 2)
用逆向归纳法分析该重复博弈,
先分析第二阶段,由于前一阶段已成事实,对本阶段不再有任何的影响,因 此实现自身当前的最大利益是两博弈方在该阶段决策中的唯一原则。此时, 第二阶段两囚徒的唯一的结果就是原博弈唯一的纳什均衡(坦白,坦白), 双方得益(-8,-8).
囚徒2
坦白
囚徒1 坦白 不坦白 -8,-8 -10,0
*
[ a (q 1
a - q1 - c ) c] q 1 2
*
由一阶条件,得到企业 1 的最有产量q 1 因此,St ackelberg 博弈的结果为 a -c a -c * * q1 ,q 2 2 4
a -c 2
重复博弈
• 在前面讨论的动态博弈基本上都有一个特征,这就是,参与人在前一个阶段
重复博弈基本 特征
所有参与人都观测到博弈过去的历史
参与人的总支付是所有阶段博弈支付的贴 现值之和或加权平均值
重复博弈分类
• 有限次重复博弈
给定一个标准博弈G(可以是静 态博弈也可以是动态博弈),重复进 行T次G,并且每次重复G之前的每个 阶段,博弈结果各博弈方都能观察到, 这样的博弈过程称为“G的T次重复博 弈”,记为G(T);而G则称为G(T)的“原 博弈”或“阶段博弈”。G(T)中的每次重 复博弈称为G(T)的一个“阶段博弈”
• 无限次重复博弈
给定一个标准博弈G,如果G将无限 次重复进行下去,且博弈方的贴现因 子都为 ,每次重复G之前,以前阶 段博弈的博弈结果各博弈方都能观察 到,这样的博弈过程称为“G的无限次 重复博弈”,记为 ( - ,) ,而G称 为 G( - ,) 的“原博弈”
有限次重复博弈
• 囚徒困境”式博弈的有限次重复(假设重复两次)
动态博弈 (参与人分步采取行动) 扩展式表述 (1)参与人集合;(2)参与人的行动顺序; (3)参与人的行动空间;(4)参与人的信 息集;(5)参与人的支付函数;(6)外生 事件(即自然的选择)的概率分布
• 博弈树是扩展形式的一种形象化表述。 • 博弈树的基本建筑材料包括结、枝和信息集。 • 1.结:结包括决策结和终点结两类。决策结是参与人采取行动的时点,终点 •
子博弈精炼纳什均衡
• 纳什均衡假定每一个参与人在选择自己的最优战略时假定所有参与人的战略
选择是给定的,就是说,参与人并不考虑自己的选择对其他人选择的影响。 因此,纳什均衡很难说是动态博弈的一个合理解。因此引入“子博弈精炼纳 什均衡”的概念。 引入“子博弈精炼纳什均衡”概念的目的是将那些包含不可置信威胁战略的纳 什均衡从均衡中剔Baidu Nhomakorabea,从而给出动态博弈结果的一个合理预测。
• 动态博弈指的是参与人的行动有先后顺序,且后行动者能够观察到先行动者

所选择的行动。 注:也就是说在动态博弈中的参与人不仅要考虑自己策略对自己的影响,也 要考虑自己策略对他人的影响。
扩展式博弈
博弈
静态博弈 (参与人同时采取行动) 战略式表述 1)参与人集合;(2)每个参与人的战略集合; (3)有战略组合决定的每个参与人的支付
房地产开发博弈1
• 注解:
(1)在上例中,决策结包括空心圆和所有6个实心圆,终点结包括对应8个支 付向量的点。 (2)开发商A有两个选择,分别用标有“开发”、“不开发”的两个枝表示。 (3)a》假定开发商B是在知道开发商A和自然的选择之后决策的,此时,博 弈树的7个决策结分割成7个信息集,其中一个(初始结)属于A,两个属于N, 四个属于B。每个信息集只包含一个决策结, b》假定行动顺序如前,但B在决策时并不确切地知道自然的选择。此时, B的信息集由原来的四个变成两个,每个信息集包含两个决策结。如果用虚线 将属于同一信息集的两个决策结连接起来,就得到了如下博弈树:
不坦白
0,-10 -1,-1
• 回到第一阶段,由于理性的博弈方在第一阶段知道第二阶段的结果必然是
(坦白,坦白),因此不管第一阶段的博弈结果是什么,双方在整个重复博 弈中的最终得益,都是在第一阶段得益的基础上各加-8,结果如下:
囚徒2 坦白
囚徒1 坦白 不坦白 -16,-16 -18,-8
不坦白
-8,-18 -9,-9
max u 2 (a1 , a 2 )
a 2 A2
2016
动态博弈模型
Stackelberg博弈模型 两个企业进行先后确定产量水平的两阶段动态博弈 第一阶段,作为领导者的企业1首先制定产量;第二阶段,作为跟随者的企业 2观察到企业1制定的产量水平后,按照利润最大化原则制定其产量。 假设两个企业的边际成本相等,c1 c 2 c - q1 q 2)其中a>0为常数, 市场需求函数为 p a ( 企业的战略选择,市场需求是共同知识。
• 设原博弈G有唯一的纯策略纳什均衡,令G重复进行T次的有限次博弈,重
复博弈G(T)有唯一的子博弈精炼纳什均衡,各博弈方每个阶段都采用G的纳 什均衡策略。
无限次重复博弈
• 考虑囚徒困境博弈
假定博弈重复无穷次
囚徒2
坦白
囚徒1 坦白 不坦白 -8,-8 -10,0
不坦白
0,-10 -1,-1
• 考虑下列所谓的“冷酷战略”:(1)开始选择抵赖;(2)选择抵赖直到有一
的行动选择决定随后的子博弈的结构,因此,此后一个决策结开始的子博弈 不同于从前一个决策结开始的子博弈,或者说,同样结构的子博弈只出现一 次。这样的动态博弈称为“序贯博弈” 动态博弈另一种重要的类型就是“重复博弈”,即同样结构的博弈重复多次, 其中的每次博弈称为“阶段博弈”。

阶段博弈之间没有“物质上”的联系(前 一阶段博弈不改变后一阶段博弈的结构)
完全信息动态博弈
15721546 马广庆
2016
目录
A
B C D E F
扩展式博弈
Lorem ipsum dolor sit amet, consectetur
扩展式博弈纳什均衡
Lorem ipsum dolor sit amet, consectetur
子博弈精炼纳什均衡
Lorem ipsum dolor sit amet, consectetur
逆向归纳法
Lorem ipsum dolor sit amet, consectetur
动态博弈实例分析
Lorem ipsum dolor sit amet, consectetur
重复博弈
Lorem ipsum dolor sit amet, consectetur
前言
• 智猪博弈 • 囚徒困境 • 古诺模型 • 市场进入阻扰模型 • 房地产开发博弈 • 田忌赛马
方选择了坦白,然后永远选择坦白。 • 我们首先证明冷酷战略是一个纳什均衡。假定囚徒j选择上述冷酷战略,冷 酷战略是不是囚徒i的最优战略呢? 如果i在博弈的某个阶段首先选择了坦白,他应该在该阶段得到0单位的支 付,而不是-1单位的支付,因此他的当前净得1单位。但他的这个机会主义行 为将触发囚徒j的“永远坦白”的惩罚,因此i随后的每个阶段的支付都是-8.因此, 如果下列条件满足,给定j没有选择坦白,i将不会选择坦白:

结是博弈行动路径的终点。 2.枝:在博弈树上,枝是从一个决策结到它的直接后续结的连线,每一个枝 代表参与人的一个行动选择。 3.信息集:博弈树上的所有决策结分割成不同的信息集。每一个信息集是决 策结集合的一个子集,该子集包括所有满足下列条件的决策结:(1)每一 个决策结都是同一参与人的决策结;(2)该参与人知道博弈进入该集合的 某一个决策结,但不知道自己究竟处于哪一个决策结。
2 0 ( - 8) ( - 8) -1 (1) 2 (1)

8 1 1 1
• 房地产开发博弈
开发商A和开发商B各自决定是否决定投入1亿元开发一栋新的写字楼 假定,如果市场上有两栋楼出售,需求大时,每栋售价1.4亿元,需求小时, 售价为7000万元;如果市场上只有一栋楼出售,需求大时售价为1.8亿元,需 求小时为1.1亿元。
(a)高需求时 开发商B 开发 开发商A 开发 4,4 0,8 不开发 8,0 0,0
开发商B
{开发,开发}
{开发,不开发} -3,-3 0,0
{不开发,开发} {不开发,不开发} 1,0 0,1 1,0 0,0
开发商A
开发 不开发
-3,-3 0,1
• 从战略式表述中,我们得到博弈的三个纯战略纳什均衡,分别为(开发,
{不开发,开发}),(开发,{不开发,不开发}),(不开发,{开发,开 发})。前两个均衡的结果是(开发,不开发)即A开发,B不开发。第三个 均衡结果是(不开发,开发)即A不开发,B开发。
房地产开发博弈2
扩展式表述博弈的纳什均衡
• 在引入博弈的扩展式表述后,让我们讨论扩展式表述博弈的纳什均衡。
注“行动”与”策略”的区别 第一步,将博弈的扩展式表述和战略式表述联系起来。 以房地产开发博弈为例。假定在博弈开始之前自然选择了“低需求”,并且已成 为参与人的共同知识,开发商A先决策,开发商B在观察到A的选择后决策。
• 扩展式表述博弈的战略组合s*=(s)是一个子博弈精炼纳什均衡,如果:
(1)它是原博弈的纳什均衡 (2)它在每一个子博弈上给出纳什均衡 简单地说,一个战略组合式子博弈精炼纳什均衡,当且仅当它在每一个子博 弈(包括原博弈)上都构成一个纳什均衡。 注:如果整个博弈是唯一的子博弈,纳什均衡与子博弈精炼纳什均衡是相同 的。
不开发
(b)低需求时
开发商B 开发 开发商A 开发 -3,-3 不开发 1,0
不开发
0,1
0,0
• 将上述博弈做如下修改:
(1)开发商A首先行动,选择开发或者不开发; (2)在A决策之后,自然选择市场需求的大小; (3)开发商B在观测到A和市场需求后,决定开发或不开发
对于这样的博弈,我们该如何定义?
相关文档
最新文档