博弈论_完全信息动态博弈
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
完全且完美信息动态博弈的子博弈
在完全且完美信息的动态博弈里,由于在每一 个阶段需行动的局中人对该阶段以前的行动组 合是完全了解的,所以在它的扩展式表述中, 该节点一定是单信息节点。 也就是说,每个信息集都是单节点信息集,因 此在完全且完美信息的动态博弈里,从任何一 个节点(不包括顶部节点和底部的终节点)出 发,都存在一个子博弈 对于取数游戏,若修改规则,可有更多子博弈
例子:私奔博弈
需看到的是,私奔决策是由卓文君做出的。她 需要做出这样的选择,是因为她已经知道她父 亲卓王孙反对把她嫁给穷书生司马相如。卓王 孙甚至不惜以断绝父女关系作为威胁,让她断 掉念头。 可以用一个完全且完美信息的动态博弈来描述 卓文君与其父亲之间的博弈。 第一步,卓文君在“私奔”与“断绝想法”中选择 第二步,父亲在“默认”与“断绝父女关系”选择
动态博弈的特征
收益函数
因行动组合的个数小于策略组合的个数,而且更为 直观,所以在动态博弈中,出于分析的方便,局中 人的支付函数是从行动组合到实数集的映射 当有n个局中人时,每个行动组合对应一个n维的实 数向量 但如果动态博弈仍然用策略式来表述的话,其支付 函数也仍然是从策略组合到实数集的映射 对于完全信息的动态博弈,支付函数对各方而言, 都是共同知识
例子
① 甲 ② 左 右 左 乙 ② 右
(2, 0)
(2, -1)
(1, 0)
(3, 1)
13
① 左 ② 甲 ① (-1, 2) 前 (0, 4) 后 (1, 0) (0, 0) 前 (4, -1) 后 (3, 3) 乙 甲
右
② 乙 ①
(3, 0, 0)
⑴
(1, 0, 3)
⑹
(2, 3, 1)
⑽
(3, 2, 9)
斯塔克尔贝格模型
Stackelberg双寡头竞争模型 某一个行业上,仅存在两家生产企业,它们之 间以产量进行竞争 与古诺模型不同的是,两家企业不是同时决定 其产量,而是存在一个领导者、一个跟随者 领导者先行动,可选择自己的产量;跟随者在 看到领导者的产量后,再选择自己的产量 我国电视行业的长虹,曾经担当过领导者角色
16
数学表述
首先,企业1选择产量q1≥0 然后,企业2可以观察到q1,并选择产量q2 ≥0 市场需求函数是:p(Q) =a-Q。其中,p是市 场价格,Q是总供给量,即Q =q1+q2 两企业的边际生产成本均为常数c>0,且固定 成本为0 对此完全且完美信息的两阶段博弈,使用逆向 归纳法来求解
劳资博弈
⑿
A
⑶
⑵
C
⑺
A
⑻
⑼
B
⑾
C
⒀
B
⑷ ⑸
(3, 2, 2)
(5, 5, 5)
(4, 2, 4)
(2, 3, 1)
支付向量中,给A、B、C 的支付分别排在第1、第2、 第3的位置
14
海盗分赃
话说有5个海盗A、B、C、D、E ,抢到了100 枚金币,大家决定分赃的方式是:先由海盗A 提出一种分配方案,即(x1, x2, x3, x4, x5) 如果同意海盗A的提议的人数达到半数,那么 该方案获得通过并付诸实施;如果未能达到半 数从而未能通过,则海盗A将被扔下海喂鲨鱼 接下来继续由海盗B提方案,重复上述过程 假设所有海盗都完全理性,且不合谋,并且每 个海盗都想尽可能多的获得金币。A怎样提议?
夺宝战
在桌子上放一定数量的火柴。 甲、乙两个人可轮流从中取走1根或2根。 谁取走最后的1根或2根,便获胜。 胜者得1元,负者输1元。 可用逆向归纳法,找出先行动的人必胜与必输 的规律。此例表明,在完全信息动态博弈中, 即使因博弈阶段较多而无法画出博弈树,逆向 归纳法也仍然是适用的。
15
逆向归纳法
以最简单的两阶段动态博弈为例,来正式地表 述逆向归纳法。 博弈的进行过程是:
2
完全信息
虽然动态博弈也可以转化为静态博弈来分析, 求出其纳什均衡解。作为动态博弈,它自身的 特征可在研究中加以利用和分析 完全信息博弈,是指博弈中每一个人的收益函 数在所有局中人之间是共同知识。如果收益函 数不是共同知识,则是不完全信息博弈 简言之,完全信息博弈与不完全信息博弈的区 别在于,博弈的结果对于所有局中人而言是否 是共同知识。
5
卓文君
私奔
父亲
默认
(1,-1)
断绝对司 马相如的 想法 断绝父女 关系
(-1,1)
(0,-2)
逆向归纳法
对上述博弈问题的分析,是使用逆向归纳法, 也就是从最后一步开始反推。 对于父亲,选择“默认”的支付结果是-1,选择 “断绝父女关系”的支付结果是-2,所以他的最 优选择是“默认” 对于卓文君,给定父亲在第二步的最优选择是 “默认”,她选择“私奔”的支付结果是1,选择 “断绝想法”的支付结果是-1,所以这个博弈的 纳什均衡是(卓文君“私奔”,父亲“默认”)
局中人1从可行集A1中选择一个行动a1 局中人2观察到a1后从可行集A2中选择一个行动a2 两人的收益分别为:u1(a1, a2)、u2(a1, a2)。
逆向归纳法
局中人2的优化问题:max u2(a1, a2),得出R2 (a1) 反推局中人1的选择:max u1(a1, R2 (a1))。看例子
动态博弈的特征
行动与策略
模仿棋是一个策略,是下围棋的几乎无数个策略中 的一个,但它涵盖了整个棋局过程 静态博弈里只有一个阶段,从而局中人的策略集与 行动集是一致的。但在动态博弈里,策略集与行动 集是不相同的。
行动组合与策略组合
在动态博弈中,每个局中人在每个阶段出一个行 动,构成行动组合。 例:(卓文君“断绝想法”、父亲“断绝父女关系”)
8
动态博弈的特征
行动组合与策略组合
每一个局中人各出一个策略,构成策略组合 既然行动集不同于策略集,那么行动组合自然也不 同于策略组合。 行动组合是策略组合的一种“精炼”的表述。当行动 阶段很多时,这种“精炼”的作用尤其明显。 围棋比赛的棋谱,就是对对弈双方行动组合的记录。 但是围棋行动步数非常之多,从而对完整行动计划 的描述方案(即策略)也几乎近于无穷。用策略组 合来描述一局棋的支付结果,是不可能的
卓文君
私奔
父亲
默认
(1,-1)
断绝对司 马相如的 想法 断绝父女 关系
(-1,1)
(0,-2)
11
①
0 1
②
0 1 0
②
1
①
0 1 0
①
1 0
①
1 2 0
①
1 2
(0,0)
(-1,1)
(-1,1)
(2, -2)
(-1,1) (2, -2) (-3,3)
(2, -2) (-3,3)
(4, -4)
图1.2.1 无“自然”的博弈树
例子:私奔博弈
在汉代,有个青年作家叫司马相如。 《子虚赋》、《上林赋》 他在被汉武帝重用之前,发生过一段与年轻寡 妇卓文君私奔的事情。 司马相如早年跟随梁王,但梁王太短命,宾客 星散。司马相如回到四川时,颇为落魄潦倒, 便去投奔一个好友。在好友所在的县城,有个 巨富叫卓王孙,后者有个才貌双全的年轻女儿 在家守寡,她就是卓文君。
在里昂惕夫(Leontif,1946)模型中,讨论了 一个企业主和一个垄断的工会组织(即作为企 业劳动力唯一的提供者)的相互关系。 工会对工人的工资水平提出要求,但企业主却 可以自主决定就业人数。 工会的效用函数是:U(ω, L) 其中ω为工会向企业提出的工资水平,L为就 业人数。假设U(ω, L)是关于ω、L的增函数。
9
动态博弈的特征
信息
存在完美信息博弈与不完美信息博弈的区分 区分的规则:每一个局中人在行动的时候,对此前 各局中人的行动组合是否完全了解和知道 取数游戏中,不是每一个人在每一步都知道之前的 行动组合,所以是不完美信息博弈
对于动态博弈,通常用扩展式进行表述和分析
在对动态博弈的分析过程中,由于行动组合比策略 组合通常要精炼得多,所以将使用行动、行动组合、 行动组合上的支付函数等概念。
完美信息
完美信息博弈是指在有先后行动的博弈中,博 弈进行到每一步时,要选择行动的局中人知道 这一步之前博弈的进行过程 如果要选择行动的局中人不清楚这一步之前博 弈的进行过程,就是不完美信息博弈 取数游戏就是完全但不完美信息博弈 简言之,完美信息博弈与不完美信息博弈的区 别在于,博弈的过程情况对博弈局中人而言是 否是共同知识。
1
①
0 1
②
0 1 0
②
1
①
0 1 0
①
1 0
①
1 2 0
①
1 2
(0,0)
(-1,1)
(-1) (2, -2) (-3,3)
(2, -2) (-3,3)
(4, -4)
图1.2.1 无“自然”的博弈树
取数博弈的策略式表述
局中人2 取与局中 永远取 取与局中 人1不相 0 人1相同 同 (0,0) (0,1) 局中 人1 (1,0) (1,1) (1,2) (0,0) (-1,1) (-1,1) (2,-2) (-3,3) (0,0) (-1,1) (2,-2) (-3,3) (4,-4) (-1,1) (2,-2) (-1,1) (2,-2) (-3,3) 永远取1 (-1,1) (2,-2) (2,-2) (-3,3) (4,-4)
6
不可信的威胁
从上述例子可以看到,当父亲说“如果你和他 好,就断绝父女关系”时,这一威胁是不可信 的。历史上的故事也正是如此。 卓文君不顾父亲的反对,和司马相如私奔而 去,两人在成都开酒吧为生。文君的父亲终究 不忍心女儿受苦,最后还是接纳了他们的婚姻 有时候,威胁并不可怕,它仅仅是威胁而已 需注意,此例不可效仿。
3
完全且完美信息动态博弈
先了解完全且完美信息动态博弈 概括地说,在完全且完美信息下,动态博弈的 中心问题是解的可信任性。 如果动态博弈按照静态博弈那样做分析,在所 求出的纳什均衡中,有一些是可信任的,而有 一些是不可信任的。 因此,需要对从静态博弈中求出的纳什均衡解 进行“精炼”,去掉不可信任的解,保留下可信 任的纳什均衡。这被称为子博弈完美纳什均衡
10
子博弈的例子
私奔博弈下从“父亲”那个节点开始截断 取数游戏下,从第2个人的任何一个节点开 始,都可取出一个子博弈 子博弈就像是做家族谱,谁是谁的后代,这个 信息必须完全准确、清晰。如果分不清楚谁是 谁的后代,从他开始的家族谱分支就不能单独 拿出来分析。也就是不能构成一个子博弈 第3个条件是希望能把子博弈当作一个独立的 博弈进行分析,并把分析的结果用于原博弈
12
子博弈精炼纳什均衡
定义3.2.3:在完全且完美信息的动态博弈 中,如果局中人的策略组合或行动组合在每一 个子博弈中都构成了纳什均衡,则称该纳什均 衡是子博弈精炼的,并称之为原博弈的子博弈 完美纳什均衡。 在私奔博弈中,(卓文君“私奔”,父亲“默认”) 这一个行动组合,构成子博弈纳什均衡 求解方法:逆向归纳法 看几个例子
子博弈
对完全且完美信息的动态博弈,主要使用子博 弈的方法进行分析 子博弈的定义:书上第81页 定义3.2.2:扩展式博弈中,满足下面三个条 件的博弈,称为该博弈的一个子博弈:
始于单节点信息集的决策节点n(n≠1) 包含博弈树中n之下所有的决策节点和终节点(不 在n之下的除外) 没有对任何信息集形成分割
博弈论_完全信息动态博弈
湖南科技大学商学院 2009-2010学年秋季学期 李宾
动态博弈
在静态博弈中,所有局中人都是同时选择自己 的策略。如果博弈中的局中人在选择自己的行 动时,有先后顺序的差异,就是动态博弈。 第一章绪论中的取数游戏就是动态博弈。
局中人的行动顺序:1→2 →1 行动空间:{0, 1},{0, 1, 2} r1 → r2 → r3。S = r1 + r2 + r3 若S为偶数,局中人1赢S点,局中人2输S点。 若S为奇数,局中人1输S点,局中人2赢S点。
在不同的阶段,同一个局中人的行动集可能不一样 比如:下围棋中空白点的变化 动态博弈的策略是指局中人在博弈开始前,对自己 各阶段行动的一个完整计划。 比如:围棋有一种下法是模仿棋。天元是棋盘的中 心,且为棋盘上唯一的非对称点,除天元外,棋盘 上的任一位点,总可以找到相应的对称点。 模仿棋的名声鹊起,起源是1929年吴清源与木谷实 的交手。当时吴清源第一步走在天元,然后模仿
动态博弈的特征
阶段和行动顺序
动态博弈中,局中人依照一定的约定规则依次进行 行动。每次行动称为一个阶段。 每个阶段至少有一个局中人要进行行动。 允许在一个阶段里有多人进行行动。
行动与策略
动态博弈中,当轮到局中人行动时,他在自己的行 动集里选择一个行动。 局中人i的行动集一般记为Ai
7
动态博弈的特征
行动与策略
4
例子:私奔博弈
由于司马相如是有名的文人,他的好友又是此 地的县令,所以作为当地的首富,卓王孙广邀 宾朋,宴请司马相如。 在酒席当中,司马相如用梁王赐给他的一把名 琴“绿绮”,弹奏了一曲“凤求凰”。卓文君听 后,当晚就夜奔出走,与司马相如私奔了。 故事就到此为止。问题是,从理性的角度看, 私奔的结果是怎样形成的呢?