博弈论第三章完全且完美信息动态博弈

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

➢支付:这样假设支付情况: 若美国“犯我”,中国“不犯人”,则支付向量为(2,-4); 若美国“不犯我”,中国“犯人”,则支付向量为(3,-5); 若美国“犯我”,中国“犯人”,则支付向量为(-2,-2); 若美国“不犯我”,中国“不犯人”,则支付向量为(1,1)。
我国 犯我
犯人 (-2,-2) 不犯人 (2,-4)


1/2 1/2
B
开 发
(4,4)
不开 发
(8,0)
B
开 发
(-3,-3)
B
不开
不开
发开


(1,0) (0,8) (0,0)
B 不开



(0,1) (0,0)
房地产开发博弈
垄断者 容忍
进入
抵抗
(1,5) (-2,2)
进入者 不进入 垄断者
容忍 抵抗
(0,10) (0,10)
静态博弈用扩展式表述
第一,一个博弈可能有不止一个纳什均衡。
第二,在纳什均衡中,参与人在选择自己的战略时,把其他 参与人的战略当作给定的,不考虑自己的选择如何影响对手 的战略。这个假设在研究静态博弈时是成立的,因为静态博 弈下,所有参与人同时行动,无暇反应。但对动态博弈而言, 这个假设就有问题了。当一个人行动在先,另一个人行动在 后时,后者自然会根据前者的选择而调整自己的选择,前者 自然会理性地预期到这一点,所以不可能不考虑自己的选择 对其对手的选择的影响。
第三,与第二个问题相联系,由于不考虑自己选择对别人选 择的影响,纳什均衡允许了不可置信威胁的存在。
根据博弈方是否相互了解得益情况,有“完全信息动态博弈”和“不 完全信息动态博弈”之分;
根据是否所有博弈方都对自己选择前的博弃过程完全了解,有“完美 信息动态博弈”和“不完美信息动态博弈”之分。
一、动态博弈的扩展式表述
那是1993年5月的一天,教我专业课的赵老师突然找我谈 话:“周迅,你能告诉我,你对于未来的打算吗?” 我愣住了。我不明白老师怎么突然问我如此严肃的问题, 更不知道该怎么回答。
老师问我:“现在的生活你满意吗?”我摇摇头。 老师笑了:“不满意的话证明你还有救。你现在就想想, 十年以后你会是什么样?” 老师的话音很轻,但是落在我心里却变得很沉重。我 脑海里顿时开始风起云涌。沉默许久,我看着老师的眼睛, 忽然就很坚定地说:“我希望十年后的自己成为最好的女 演员,同时可以发行一张属于自己的音乐专辑。”
老师平静地笑着说:“周迅,你是一棵好苗子,但是你对人 生缺少规划,散漫而且混乱。我希望你能在空闲的时候,想想 十年以后的自己,到底要过什么样的生活,到底要实现什么样 的目标。如果你确定了目标,那么希望你从现在就开始做。”
一年以后,我从艺校毕业了,老师的话从那天 开始一直刻在了我的心底:想想十年后的自己。 是的,当我意识到这是一个问题的时候,我发 现我整个人都觉醒了。 从学校毕业后,我忙于接拍各种各样的影 视剧。我始终记得,十年后我要做最成功的明 星,所以对角色我开始很认真地筛选。后来我 拍了《那时花开》,拍了《大明宫词》,我渐 渐被大家接受,也慢慢地尝到了成功的快乐。
美国 不犯我 我国
犯人 (3,-5) 不犯人 (1,1)
例2:两个房地产商A、B进行房地产开发博弈。市场需 求大、小的概率各占50%。投入:1亿。 假定市场上有两栋楼出售: ✓ 需求大时,每栋售价1.4亿, ✓ 需求小时,售价7千万; 如果市场上只有一栋楼 ✓ 需求大时,可卖1.8亿 ✓ 需求小时,可卖1.1亿 行动顺序:(1)开发商A首先行动,选择开发或不开发; (2)在A决策后,自然选择市场需求的大小; (3)开发商B在观测到A的决策和市场需求后,决定是否开发
如何用扩展式表述(extensive form representation)来描述序贯行动博弈? 例1:
解放初,美国总是寻找各种机会来侵犯我国。对此, 毛主席提出了“人不犯我、我不犯人,人若犯我、我 必犯人”的战略方针。
该动态博弈的战略式表述: ➢局中人:美国、中国 ➢行动空间:美国“犯我”或“不犯我”,中国“犯人”或“不犯人” ➢行动顺序:美国先行动,我国依美国的行动而后动
… 得以避免死亡的号码201.202.204.208.216.232.264.328.456 得财富的号码最弱的200海盗和以后那些幸免死亡的
想想十年后的自己
十八岁之前,我是个不知 道自己想要什么的人,那时 我每天就在浙江艺术学校里 跟着同学唱唱歌,跳跳舞。 偶尔有导演来找我拍戏,我 就会很兴奋地去拍,无论多 小的角色。 如果没有老师跟我的那次 谈话,那么也许直到今天, 仍然没有人知道周迅是谁。
提出方案的海盗将被扔到海里 排名第二的海盗提出方案,重复上述过程,直到某一方案被执行,
游戏结束
所有海盗足够理性,并且都乐于更多的珠宝 在相同的条件下,所有海盗都乐于看到同伴被扔进大海 珠宝以颗为单位,也不允许几名海盗共有
最凶的一名海盗应提出什么样的分配方案才能使自己收益最大
剩下2名海盗2rd自己得100颗 剩下3名海盗 3nd可以贿赂1st,自己得到99颗 剩下4名海盗 4th可以贿赂2nd,自己得到99颗 剩下5名海盗 5th可以贿赂1st和3th,自己得到98颗 剩下6名海盗 6th可以贿赂2nd和4th,自己得到98课
“23岁就必须接受各种培训和训练,包括音乐上和肢体上 的。”
“20岁的时候就要开始作曲,作词。在演戏方面就要接拍大一 点的角色了。” 老师的话说得很轻松,但是我却感到一阵恐惧。这样推下 来,我应该马上着手为自己的理想做准备了,可是我现在却什 么都不会,什么都没想过,仍然为小丫鬟小舞女之类的角色沾 沾自喜。我觉得有一种强大的压力忽然朝自己袭来。
例囚徒困境博弈
A
坦白
抵赖
B
坦白
抵赖
B 抵赖
坦 白
(-8,-8) (0,-10)
B 抵赖
坦 白
(-10,0) (-1,-1)
A
坦 白
抵赖 坦 白
A 抵赖
(-8,-8) (0,-10) (-10,0) (-1,-1)
二、博弈树求解方法——逆推归纳法
从动态博弈的最后一个阶段博弈方的行为开始 分析,逐步倒推回前一个阶段相应博弈方的行 为选择,一直到第一个阶段的分析方法,称为 “逆推归纳法”。
所有海盗都足够理智,并且乐于得到更多的珠宝 在相同的条件下,宁愿保留同伴的性命(尽早结束游戏) 珠宝以颗为单位,海盗之间也不能共享(私人契约不能执行)
第一个人应提出什么样的方案才可以得到更多珠宝
5
4
3
2
1
第五人 100 100 0
1
2
第四人
0
1
2
0
第三人
99 0
1
第二人
97 0
第一人
97
如果是同意方案的人数达到或超过半数就有效呢?
参与人的行动有先后顺序,且后行动者能够观察到先行动者的行动。
先行动者的选择影响后行动者的选择空间,后行动者可以观察到先行动者 做了什么选择,因此,为了做出最优的行动选择,每个参与人都必须这样思 考问题:如果我如此选择,对方将如何应对?给定他的应对,什么是我的最 优选择?
前面我们介绍了纳什均衡的概念。但纳什均衡有三个问题。
逆向归纳法只适用于完美信息博弈。
我国 犯我
犯人 (-2,-2) 不犯人 (2,-4)
美国 不犯我 我国
犯人 (3,-5) 不犯人 (1,1)
A
注意:支付向 量的顺序与博 弈树上行动顺 序是对应的!
开发
N

1/2

1/2
不开发

1/2
N

1/2
B
B
B
B 不开发
… 剩下200名海盗 200th可以贿赂偶数号码海盗,自己得到1颗 剩下201名海盗 201st可以贿赂奇数号码海盗,自己不要 剩下202名海盗 202nd可以贿赂偶数号码海盗或者201st 剩下203名海盗 100偶数+自己,不足半数,必死,考虑支持前人 剩下204名海盗 100奇数(或者201st.202nd)+自己+203,幸免死亡 剩下205名海盗 100+自己,不足半数,必死 剩下206名海盗 100+自己+205,不足半数,必死
开发
N

1/2

1/2
不开发

1/2
N

1/2
B
B
B
B 不开发
不开发
不开发
不开发 开发
开发
开发
开发
(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0)
房地产开发博弈
信息集(information set)的概念:是决策结集合的一个子 集,该子集包括所有满足下列条件的决策结:
例3:设想一个垄断企业因为产品可以卖高价每年获得 10亿元利润。假定别的企业进入要4亿元投资。当别的 企业进入时候,原有企业必须决策:容忍还是抵抗。如 果容忍双方各获得利润5亿元,抵抗则各获得利润2亿元。 这家企业会如何行动?
序贯行动博弈的扩展式表述的要素:
➢ 参与人集合: i 1 ,,此外,,n虚拟参与人“自然” ; ➢ 参与人的行动顺序(the order of moves):谁在什么时
5
4
3
2
1
第五人 100 0
1
0
1
第四人
100 0
1
0
第三人
99 0
1
第二人
99 0
第一人
98
“海盗分金”模型(2)
500名海盗抢到了100颗珠宝,决定用民主的方式进行分配 海盗按照凶猛程度完全由上到下排好了座次,越凶猛号码越大 没有两名海盗是同等厉害的,每个人都清楚所有的排序 最厉害的海盗提出分配方案,所有海盗包括本人进行表决 如到50%或更多的海盗支持,则执行这一方案,游戏结束;否则
B在决策时不确切地
知道自然的选择;
A
B的决策结由4个变
为2个
开发
不开发
N

1/2

1/2N大来自小1/2 1/2
B
开 发
(4,4)
不开 发
(8,0)
B
开 发
(-3,-3)
B
不开
不开
发开


(1,0) (0,8) (0,0)
B 不开



(0,1) (0,0)
房地产开发博弈
B知道自然 的选择;但不 知道A的选择 (或A、B同时 决策)
采取行动的时点;终点结是博弈行动路径的终点。
枝(branches):枝是从一个决策结到它的直接后续
结的连线,每一个枝代表参与人的一个行动选择。
信息集:

我国 犯我
犯人 (-2,-2) 不犯人 (2,-4)
美国
不犯我 我国
决策结:行动的时点
犯人 (3,-5)
不犯人 (1,1)
终点结
A
注意:支付向 量的顺序与博 弈树上行动顺 序是对应的!
➢ 每一个决策结都是同一参与人的决策结;
➢ 该参与人知道博弈进入该集合的某个决策结,但不知道自 己究竟处于哪一个决策结。
只包含一个决策结的信息集称为单结信息集,如果博弈树 的所有信息都是单结的,该博弈称为完美信息博弈 。(博 弈中没有任何参与人同时行动,且后行动者能观察到先行 动者的行动,且所有参与人观察到N的行动)
老师问我:“你确定了吗?” 我慢慢地咬紧着嘴唇回答:“Yes”,而且拉了很长的音。 老师接着说:“好,既然你确定了,我们就把这个目标倒
着算回来。十年以后,你28岁,那时你是一个红透半边天的 大明星,同时出了一张专辑。”
“那么你27岁的时候,除了接拍各种名导演的戏以外,一定 还要有一个完整的音乐作品,可以拿给很多很多的唱片公司 听,对不对?” “25岁的时候,在演艺事业上你就要不断进行学习和思 考。另外在音乐方面一定要有很棒的作品开始录音了。”
A
开发
不开发
N

1/2

1/2
N


1/2 1/2
B
开 发
(4,4)
不开 发
(8,0)
B
开 发
(-3,-3)
B
不开
不开
发开


(1,0) (0,8) (0,0)
B 不开



(0,1) (0,0)
房地产开发博弈
表示B在行动前 既观察不到A的 行动,也观察不
A
开发
不开发
到N的行动
N

1/2

1/2
N
动态博弈描述工具——博弈树 博弈树求解方法——逆向归纳法 先动优势与后动优势
“海盗分金”模型(1)
5名海盗抢到了100颗珠宝,决定用民主的方式进行分配 抽签决定5人的顺序,由第1个人提出分配方案 如果超过半数人同意,则执行;否则第1个人被扔进大海喂鱼 由第2个人提出分配方案 如果超过半数人同意,则执行;否则第2个人被扔进大海喂鱼 依次进行直到某一个分配方案被执行
候行动; ➢ 参与人的行动空间(action set):在每次行动时,参与人
有些什么选择。 ➢ 参与人的信息集(information set):每次行动时,参与
人知道些什么; ➢ 参与人的支付函数; ➢ 外生事件(即自然的选择)的概率分布
博弈树的结构
结(nodes):包括决策结和终点结。决策结是参与人
相关文档
最新文档