博弈论-完全且完美信息动态博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


一年以后,我从艺校毕业了,老师的话从 那天开始一直刻在了我的心底:想想十年后的 自己。是的,当我意识到这是一个问题的时候, 我发现我整个人都觉醒了。 从学校毕业后,我忙于接拍各种各样的影 视剧。我始终记得,十年后我要做最成功的明 星,所以对角色我开始很认真地筛选。后来我 拍了《那时花开》,拍了《大明宫词》,我渐 渐被大家接受,也慢慢地尝到了成功的快乐。
房地产开发博弈
例2:两个房地产商A、B进行房地产开发博弈。市场需 求大、小的概率各占50%。投入:1亿。 假定市场上有两栋楼出售: 需求大时,每栋售价1.4亿, 需求小时,售价7千万; 如果市场上只有一栋楼 需求大时,可卖1.8亿 需求小时,可卖1.1亿 行动顺序:(1)开发商A首先行动,选择开发或不开发; (2)在A决策后,自然选择市场需求的大小; (3)开发商B在观测到A的决策和市场需求后,决定是否开发
美国 不犯我 我国
犯人
不犯人
A 注意:支付向 量的顺序与博 弈树上行动顺 序是对应的!
开发
不开发
N
大 小
1/2
N


1/2 1/2 1/2
B
不开发 开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4 )
(8,0 )
(-3,-3)
(1,0 )
(0,8 )
(0,0 )
(0,1 )
(0,0 )
房地产开发博弈
(1,5)
(-2,2) (0,10)
(0,10)
垄断者
抵抗
二、博弈树求解方法——逆推归纳法
从动态博弈的最后一个阶段博弈方的行 为开始分析,逐步倒推回前一个阶段相 应博弈方的行为选择,一直到第一个阶 段的分析方法,称为“逆推归纳法”。
逆向归纳法只适用于完美信息博弈。
我国 犯我
犯人 不犯人
(-2,-2) (2,-4) (3,-5) (1,1)


老师问我:“你确定了吗?” 我慢慢地咬紧着嘴唇回答:“Yes”,而且拉了很长的音。 老师接着说:“好,既然你确定了,我们就把这个目标倒 着算回来。 十年以后,你28岁,那时你是一个红透半边天的大明星, 同时出了一张专辑。”
“那么你27岁的时候,除了接拍各种名导演的戏以外, 一定还要有一个完整的音乐作品,可以拿给很多很多的唱片 公司听,对不对?” “25岁的时候,在演艺事业上你就要不断进行学习和思 考。另外在音乐方面一定要有很棒的作品开始录音了。” “23岁就必须接受各种培训和训练,包括音乐上和肢体 上的。”
5
第五人 100
4
0
3
1
2
0
1
1
第四人
第三人
100
0
99
1
0
0
1
第二人
第一人
98
0
98


如果是同意方案的人数超过半数就有效 呢? 如果是要求提议海盗之外的半数海盗同 意呢?
想想十年后的自己

十八岁之前,我是个不 知道自己想要什么的人,那 时我每天就在浙江艺术学校 里跟着同学唱唱歌,跳跳舞。 偶尔有导演来找我拍戏,我 就会很兴奋地去拍,无论多 小的角色。 如果没有老师跟我的那次 谈话,那么也许直到今天, 仍然没有人知道周迅是谁。


那是1993年5月的一天,教我专业课的赵老师突然找 我谈话:“周迅,你能告诉我,你对于未来的打算吗?” 我愣住了。我不明白老师怎么突然问我如此严肃的问题, 更不知道该怎么回答。 老师问我:“现在的生活你满意吗?”我摇摇头。 老师笑了:“不满意的话证明你还有救。你现在就想想, 十年以后你会是什么样?” 老师的话音很轻,但是落在我心里却变得很沉重。 我脑海里顿时开始风起云涌。沉默许久,我看着老师的 眼睛,忽然就很坚定地说:“我希望十年后的自己成为 最好的女演员,同时可以发行一张属于自己的音乐专 辑。”
博弈论 (Game Theory)
第三章
完全且完美信息动态博弈

扩展型博弈表述


扩展型博弈的策略及纳什均衡
子博弈精炼纳什均衡
“海盗分金”模型

话说5个海盗抢得100枚金币,他们 按抽签的顺序依次提方案:首先由1 号提出分配方案,然后5人表决,半 数同意方案才被通过,否则他将被 扔入大海喂鲨鱼,依此类推。求第 一个海盗的最优策略。
女 足球 芭蕾 男 芭蕾 足球 足球 (2,1)
(0,0) (0,0)
(1,2)

芭蕾
如果女的先行动,则
男 足球 芭蕾 女 芭蕾 足球 足球 (1,2)
(0,0) (0,0)
(2,1)

芭蕾
不是先行动者得益比后行动者得益多
女 足球 芭蕾 男 芭蕾 足球 足球 (2,10)
(0,0) (0,0)
(1,20)




“20岁的时候就要开始作曲,作词。在演戏方面就要接拍大一 点的角色了。” 老师的话说得很轻松,但是我却感到一阵恐惧。这样推下 来,我应该马上着手为自己的理想做准备了,可是我现在却什 么都不会,什么都没想过,仍然为小丫鬟小舞女之类的角色沾 沾自喜。我觉得有一种强大的压力忽然朝自己袭来。 老师平静地笑着说:“周迅,你是一棵好苗子,但是你对 人生缺少规划,散漫而且混乱。我希望你能在空闲的时候,想 想十年以后的自己,到底要过什么样的生活,到底要实现什么 样的目标。如果你确定了目标,那么希望你从现在就开始做。”
该动态博弈的战略式表述: 局中人:美国、中国 行动空间:美国“犯我”或“不犯我”, 中国“犯人”或“不犯人” 行动顺序:美国先行动,我国依美国的 行动而后动

支付:这样假设支付情况: 若美国“犯我”,中国“不犯人”,则支付向量 为(2,-4); 若美国“不犯我”,中国“犯人”,则支付向量 为(3,-5); 若美国“犯我”,中国“犯人”,则支付向量为 (-2,-2); 若美国“不犯我”,中国“犯人”,则支付向量 为(1,1)。
不开发
N
大 小
1/2
N


1/2 1/2 1/2
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4 )
(8,0 )
(-3,-3)
(1,0 )
(0,8 )
(0,0 )
(0,1 )
(0,0 )
房地产开发博弈
B知道自 然的选择;但 不知道A的 选择(或A、 B同时决策)
N

A
开发
不开发
N

1/2


1/2


只包含一个决策结的信息集称为单结信息集,如果博弈树 的所有信息都是单结的,该博弈称为完美信息博弈 。(博 弈中没有任何参与人同时行动,且后行动者能观察到先行 动者的行动,且所有参与人观察到N的行动)
B在决策 时不确切地 知道自然的 选择; B的决策 结由4个变 为 2个
B
不开发 开发
A
开发

练习

假设空中客车与波音两家公司在研发新型客机 方面展开激烈竞争。波音公司已在研发过程中 处在领先地位,而空客决定是否参与竞争。如 果空客不参与,它的受益为零,而波音则垄断 市场获得10亿美元。如果空客决定参与竞争, 则波音则需要决定是跟空客和平竞争还是打价 格战。如果和平竞争则双方各得3亿美元;如 果打价格战则个损失1亿美元。画出博弈树, 找出两家公司均衡策略。
扩展式表述的要素

参与人集合: i 1, , n 然” ;
,此外,虚拟参与人“自




参与人的行动顺序(the order of moves):谁在什么 时候行动; 参与人的行动空间(action set):在每次行动时,参 与人有些什么选择。 参与人的信息集(information set):每次行动时,参 与人知道些什么; 参与人的支付函数; 外生事件(即自然的选择)的概率分布
逆向归纳的过程实际上就是重复剔除劣战略的过 程,其前提是博弈规则和理性共识:每个人是理性 的,每个人知道每个人是理性的,如此等等。 逆向归纳法对理性要求很高。然而,也正是因为 人们的理性程度不同,才有了博弈的高下之分。关 于参与人理性程度不对称博弈理论的研究,至今仍 然是博弈论研究的一个努力方向。


根据博弈方是否相互了解得益情况,有 “完全信息动态博弈”和“不完全信息 动态博弈”之分; 根据是否所有博弈方都对自己选择前的 博弃过程完全了解,有“完美信息动态 博弈”和“不完美信息动态博弈”之分。
一、动态博弈的扩展式表述
如何用扩展式表述(extensive form representation)来描述序贯行动博弈? 例1:中美博弈 解放初,美国总是寻找各种机会来侵犯我国。 对此,毛主席提出了“人不犯我、我不犯人,人若 犯我、我必犯人”的战略方针。

芭蕾
看看斗鸡博弈有没有先动优势?
A 独木桥
进 退
进 退 -3,- 2,0 3 0,2 0,0
B
后动动优势
A进攻
左 上 50, 50 下 90, 10
B防守
右 80, 20 20, 80

先动优势产生原因:承诺 后动优势产生原因:灵活
信息集

信息集(information set)的概念:是决策结集合的一个 子集,该子集包括所有满足下列条件的决策结: 每一个决策结都是同一参与人的决策结; 该参与人知道博弈进入该集合的某个决策结,但不知道自 己究竟处于哪一个决策结。
(0,0)
练习:
甲 下

乙 左



(3,0)

(2,0)
(1,1)
(0,2)
练习:
甲 下

乙 左



(3,0)

(2,0)
(1,1)
(0,2)
分析动态博弈的思路:向前展望,向后推理,即 面向未来,思考现在,站在未来的立场思考现在的 行动方案。 网络诗歌


我站在未来的山坡上回头看 过去和现在如同不再有悬念的平静湖面 所有发生的一切都是如此清晰和必然
1/2
1/2
B
不开发 开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4 )
(8,0 )
(-3,-3)
(1,0 )
(0,8 )
(0,0 )
(0,1 )
(0,0 )
房地产开发博弈
表示B在行动前
A
开发
既观察不到A的
行动,也观察不 到N的行动 N
大 小
1/2
不开发
N


1/2 1/2 1/2
B
不开发 开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4 )
(8,0 )
(-3,-3)
(1,0 )
(0,8 )
(0,0 )
(0,1 )
(0,0 )
房地产开发博弈
三、策略式转化为扩展式
案例-囚徒困境
囚徒 B 坦白 抵赖
囚徒A 坦白 抵赖
-8,-8 0,-10 -10,0 -1,-1
练习
(2,0)
U
1 D 2 R 1
U’
(5,0)
D’ (4,2) L
(1,1)
例2:
U
1 D
(2,0) U’ 1 R 2 (5,0)
D’ (4,2) L
(1,1)
均衡为({U,U’};L),均衡结果为1选择U。
房地产开发博弈 A 开发 B 不开发 B
开发
不开发
开发
不开发
(-3,-3)
(1,0)(0,1)
注意:支付向量的 顺序与博弈树上行 动顺序是对应的!
开发
A
不开发
N
大 小
1/2
N


1/2 1/2 1/2
B
不开发 开发
B
不开发 开发
B
不开发 开发
B
开发
不开发
(4,4 )
(8,0 )
(-3,-3)
(1,0 )
(0,பைடு நூலகம் )
(0,0 )
(0,1 )
(0,0 )
房地产开发博弈
垄断者 容忍 进入 抵抗 进入者 不进入 容忍
完全信息动态博弈
动态博弈:参与人的行动有先后顺序,且后行动 者能够观察到先行动者的行动。 先行动者的选择影响后行动者的选择空间, 后行动者可以观察到先行动者做了什么选择,因 此,为了做出最优的行动选择,每个参与人都必 须这样思考问题:如果我如此选择,对方将如何 应对?给定他的应对,什么是我的最优选择?

市场进入博弈

例3:设想一个垄断企业因为产品可以卖高价 每年获得10亿元利润。假定别的企业进入要4 亿元投资。当别的企业进入时候,原有企业必 须决策:容忍还是抵抗。如果容忍双方各获得 利润5亿元,抵抗则各获得利润2亿元。这家企 业会如何行动?
n人有限战略的扩展式表 述:博弈树 (game tree) 我国 2人有限博弈的战略 式表述:支付矩阵 美国 不犯我 犯我 犯人
先动优势与后动优势
足球 男 芭蕾
女 足球 芭蕾 2,1 0,0 0,0 1,2
如果男的先行动,则
女 足球 芭蕾 男 芭蕾 足球 足球 (2,1)
(0,0) (0,0)
(1,2)

芭蕾
如果女的先行动,则
男 足球 芭蕾 女 芭蕾 足球 足球 (1,2)
(0,0) (0,0)
(2,1)

芭蕾
如果男的先行动,则

(-2,-2)
不犯人
犯人
(2,-4) (3,-5)
(1,1)
终点结
我国
决策结:行动的时点
不犯人
博弈树的结构



结(nodes):包括决策结和终点结。决策结是 参与人采取行动的时点;终点结是博弈行动路 径的终点。 枝(branches):枝是从一个决策结到它的直接 后续结的连线,每一个枝代表参与人的一个行 动选择。 信息集:
相关文档
最新文档