序贯决策博弈概论ppt(85张)
合集下载
决策理论序贯决策分析课件

公平性和偏见
在序贯决策分析中,需要特别关注决 策的公平性和偏见问题,以避免不公 平的结果和歧视某些群体。
序贯决策分析的展望与未来发展方向
可解释性和透明度
为了解决模型可解释性问题,未来 的研究将更加注重开发具有良好可 解释性的序贯决策分析模型。
多模态数据处理
随着多模态数据的普及,未来的序 贯决策分析将更加注重对图像、文 本、音频等多种类型数据的处理和 分析。
02 序贯决策分析基础
序贯决策的定义与特点
序贯决策的定义
时序性
序贯决策是在一系列决策过程中,决策者 根据每个阶段的环境信息和历史信息,按 照一定的顺序和规则进行决策的过程。
序贯决策中的每个决策都有时间顺序,后 续决策依赖于先前的决策结果。
动态性
最优性
序贯决策中,环境状态和决策后果会随着 时间变化而变化。
优化资源配置和生产流程
VS
详细描述
生产计划决策需要考虑生产资源的配置和 生产流程的优化。通过序贯决策分析,企 业可以根据市场需求和生产能力制定合理 的生产计划,优化资源配置,提高生产效 率,降低生产成本。
案例三:供应链管理决策分析
总结词
协调各个环节实现整体最优
详细描述
供应链管理决策需要协调各个环节,包括采 购、生产、物流等,以实现整体最优。通过 序贯决策分析,企业可以综合考虑各个环节 的需求和约束,制定合理的供应链管理策略, 提高供应链的效率和稳定性。
05 序贯决策分析的挑战与 展望
序贯决策分析的挑战
数据复杂性
随着数据规模的扩大和数据类型的多 样化,序贯决策分析面临处理复杂数 据结构的挑战。
实时性要求
在许多应用场景中,如自动驾驶和实 时推荐系统,序贯决策分析需要在短 时间内做出决策,这要求算法具有高 效的计算能力和实时性。
在序贯决策分析中,需要特别关注决 策的公平性和偏见问题,以避免不公 平的结果和歧视某些群体。
序贯决策分析的展望与未来发展方向
可解释性和透明度
为了解决模型可解释性问题,未来 的研究将更加注重开发具有良好可 解释性的序贯决策分析模型。
多模态数据处理
随着多模态数据的普及,未来的序 贯决策分析将更加注重对图像、文 本、音频等多种类型数据的处理和 分析。
02 序贯决策分析基础
序贯决策的定义与特点
序贯决策的定义
时序性
序贯决策是在一系列决策过程中,决策者 根据每个阶段的环境信息和历史信息,按 照一定的顺序和规则进行决策的过程。
序贯决策中的每个决策都有时间顺序,后 续决策依赖于先前的决策结果。
动态性
最优性
序贯决策中,环境状态和决策后果会随着 时间变化而变化。
优化资源配置和生产流程
VS
详细描述
生产计划决策需要考虑生产资源的配置和 生产流程的优化。通过序贯决策分析,企 业可以根据市场需求和生产能力制定合理 的生产计划,优化资源配置,提高生产效 率,降低生产成本。
案例三:供应链管理决策分析
总结词
协调各个环节实现整体最优
详细描述
供应链管理决策需要协调各个环节,包括采 购、生产、物流等,以实现整体最优。通过 序贯决策分析,企业可以综合考虑各个环节 的需求和约束,制定合理的供应链管理策略, 提高供应链的效率和稳定性。
05 序贯决策分析的挑战与 展望
序贯决策分析的挑战
数据复杂性
随着数据规模的扩大和数据类型的多 样化,序贯决策分析面临处理复杂数 据结构的挑战。
实时性要求
在许多应用场景中,如自动驾驶和实 时推荐系统,序贯决策分析需要在短 时间内做出决策,这要求算法具有高 效的计算能力和实时性。
多阶段决策和序贯决策教材(PPT76张)

10.2风险型多阶段动态决策 10.2.3风险型多阶段动态决策问题
10多阶段决策和序贯决策
10.2风险型多阶段动态决策 10.2.3风险型多阶段动态决策问题
10多阶段决策和序贯决策
10.2风险型多阶段动态决策 10.2.3风险型多阶段动态决策问题
10多阶段决策和序贯决策
10.2风险型多阶段动态决策 10.2.3风险型多阶段动态决策问题
1、想要体面生活,又觉得打拼辛苦;想要健康身体,又无法坚持运动。人最失败的,莫过于对自己不负责任,连答应自己的事都办不到,又何必抱怨这个世界都和你作对?人生的道理很简单,你想要什么,就去付出足够的努力。 2、时间是最公平的,活一天就拥有24小时,差别只是珍惜。你若不相信努力和时光,时光一定第一个辜负你。有梦想就立刻行动,因为现在过的每一天,都是余生中最年轻的一天。 3、无论正在经历什么,都请不要轻言放弃,因为从来没有一种坚持会被辜负。谁的人生不是荆棘前行,生活从来不会一蹴而就,也不会永远安稳,只要努力,就能做独一无二平凡可贵的自己。 4、努力本就是年轻人应有的状态,是件充实且美好的事,可一旦有了表演的成分,就会显得廉价,努力,不该是为了朋友圈多获得几个赞,不该是每次长篇赘述后的自我感动,它是一件平凡而自然而然的事,最佳的努力不过是:但行好事,莫问前程。愿努力,成就更好的你! 5、付出努力却没能实现的梦想,爱了很久却没能在一起的人,活得用力却平淡寂寞的青春,遗憾是每一次小的挫折,它磨去最初柔软的心智、让我们懂得累积时间的力量;那些孤独沉寂的时光,让我们学会守候内心的平和与坚定。那些脆弱的不完美,都会在努力和坚持下,改变模样。 6、人生中总会有一段艰难的路,需要自己独自走完,没人帮助,没人陪伴,不必畏惧,昂头走过去就是了,经历所有的挫折与磨难,你会发现,自己远比想象中要强大得多。多走弯路,才会找到捷径,经历也是人生,修炼一颗强大的内心,做更好的自己! 7、“一定要成功”这种内在的推动力是我们生命中最神奇最有趣的东西。一个人要做成大事,绝不能缺少这种力量,因为这种力量能够驱动人不停地提高自己的能力。一个人只有先在心里肯定自己,相信自己,才能成就自己! 8、人生的旅途中,最清晰的脚印,往往印在最泥泞的路上,所以,别畏惧暂时的困顿,即使无人鼓掌,也要全情投入,优雅坚持。真正改变命运的,并不是等来的机遇,而是我们的态度。 9、这世上没有所谓的天才,也没有不劳而获的回报,你所看到的每个光鲜人物,其背后都付出了令人震惊的努力。请相信,你的潜力还远远没有爆发出来,不要给自己的人生设限,你自以为的极限,只是别人的起点。写给渴望突破瓶颈、实现快速跨越的你。 10、生活中,有人给予帮助,那是幸运,没人给予帮助,那是命运。我们要学会在幸运青睐自己的时候学会感恩,在命运磨练自己的时候学会坚韧。这既是对自己的尊重,也是对自己的负责。 11、失败不可怕,可怕的是从来没有努力过,还怡然自得地安慰自己,连一点点的懊悔都被麻木所掩盖下去。不能怕,没什么比自己背叛自己更可怕。 12、跌倒了,一定要爬起来。不爬起来,别人会看不起你,你自己也会失去机会。在人前微笑,在人后落泪,可这是每个人都要学会的成长。 13、要相信,这个世界上永远能够依靠的只有你自己。所以,管别人怎么看,坚持自己的坚持,直到坚持不下去为止。 14、也许你想要的未来在别人眼里不值一提,也许你已经很努力了可还是有人不满意,也许你的理想离你的距离从来没有拉近过......但请你继续向前走,因为别人看不到你的努力,你却始终看得见自己。 15、所有的辉煌和伟大,一定伴随着挫折和跌倒;所有的风光背后,一定都是一串串揉和着泪水和汗水的脚印。 16、成功的反义词不是失败,而是从未行动。有一天你总会明白,遗憾比失败更让你难以面对。 17、没有一件事情可以一下子把你打垮,也不会有一件事情可以让你一步登天,慢慢走,慢慢看,生命是一个慢慢累积的过程。 18、努力也许不等于成功,可是那段追逐梦想的努力,会让你找到一个更好的自己,一个沉默努力充实安静的自己。 19、你相信梦想,梦想才会相信你。有一种落差是,你配不上自己的野心,也辜负了所受的苦难。 20、生活不会按你想要的方式进行,它会给你一段时间,让你孤独、迷茫又沉默忧郁。但如果靠这段时间跟自己独处,多看一本书,去做可以做的事,放下过去的人,等你度过低潮,那些独处的时光必定能照亮你的路,也是这些不堪陪你成熟。所以,现在没那么糟,看似生活对你的亏欠,其 实都是祝愿。
决策理论与方法第6章序贯决策分析ppt课件

完整最新版课件
6
6.1 多阶段决策
三、应用举例
完整最新版课件
7
6.1 多阶段决策
三、应用举例
如不买此项技术,把这笔费用用在其他方面,在同样的 时期可获利8000元。那么,该公司应该如何决策? (1)是否买技术? (2)如果买技术,是否采取试销办法? (3)如果不试销,应大批生产,中批生产还是小批生 产?如果试销,又应该如何根据试销结果决定其行动?
完整最新版课件
8
6.1 多阶段决策
三、应用举例
例6-2 连续情况决策分析。某种设备可在高低两种不同 的负荷下进行生产,设在高负荷下投入生产的设备数量 为x,产量为g=10x,设备年完好率为a=0.75;在低负荷下 投入生产的设备数量为y,产量为h=8y,年完好率为 b=0.9。假定开始生产时完好的设备数量为100。 制定一个五年计划,确定每年投入高、低两种负荷下生 产的设备数量,使五年内产品的总产量达到最大。
第六章 序贯决策分析
6.1 多阶段决策 6.2 序贯决策 6.3 马尔可夫决策 6.4 群决策简介
完整最新版课件
1
6.1 多阶段决策
一、多阶段决策问题
在经济活动中,常常遇到这样的决策问题,由于它的特 殊性,需要将过程分为若干个相互联系的阶段,在它的 每一个阶段都需要做出决策,从而使整个过程达到最好 的活动效果。当各个阶段决策确定后,就组成了一个决 策序列,因而也就决定了整个过程的一条活动路线,这 种把一个问题可看作是一个前后关联的具有链状结构的 多阶段过程就称为多阶段决策过程。
完整最新版课件
12
6.2 序贯决策
二、序贯决策例子
例6-5 产品抽样检验问题。某工厂的产品每1000件装成 一箱出售。每箱中产品的次品率有0.01,0.4,0.9三种 可能,其概率分别是0.2、0.6、0.2。 现在的问题是:出厂前是否要对产品进行严格检验,将 次品挑出。可以选择的行动有两个:整箱检验,检验费 为每箱100元;整箱不检验。 如果顾客在使用中发现次品,每件次品除调换为合格品 外还要赔偿0.25元损失费。
第四讲 序贯决策博弈

序贯博弈中先行动的理性的参与人在前面阶段选择行为时必然会先考虑后行为参与人在后面阶段中将会怎样选择行为只有在博弈的最后一个阶段选择的不再有后续阶段牵制的参与人才能直接作出明确选择
第四讲 序贯决策博弈
序贯决策博弈的定义
◆参与人的决策有先有后,后决策的参与人知道
先决策的参与人已经做出的决策,这种决策 有先有后的博弈,称为序贯决策博弈,或简称为 序贯博弈。 ◆先行动者的选择影响后行动者的选择空间,后行 动者可以观察到先行动者做了什么选择,因此, 为了做出最优的行动选择,每个参与人都必须这 样思考问题:如果我如此选择,对方将如何应对 ?给定他的应对,什么是我的最优选择?
纳什均衡
◆
(1,0) (3,1)
(2,2) (5,1) (U,{U′,U〞}) (1,0) (3,1) (2,2) (5,1) 纳什均衡:(U,{D′,U〞}) (1,0)
(3,1)
(2,2) (5,1) (U,{U′,D〞}) (1,0) (3,1) (2,2) (5,1) (U,{D′,D〞})
若美国“犯我”,中国“不犯人”,则支付向量为(2,-4); 若美国“不犯我”,中国“犯人”,则支付向量为(3,-5); 枝 若美国“不犯我”,中国“犯人”,则支付向量为(1,1)。 n人有限战略的扩展式表 述:博弈树 (game tree) 犯我 我国 犯人 (-2,-2)
不犯人 2人有限博弈的博弈 树:
不开发
B
开发 (-3,-3)
x
不开发
B
开发
y’
不开发
对抗策略:A开发我不开发,A不开发我 开发——{不开发,开发} ;
不开发策略:不论A开发不开发我不开发 )——{不开发,不开发};
第四讲 序贯决策博弈
序贯决策博弈的定义
◆参与人的决策有先有后,后决策的参与人知道
先决策的参与人已经做出的决策,这种决策 有先有后的博弈,称为序贯决策博弈,或简称为 序贯博弈。 ◆先行动者的选择影响后行动者的选择空间,后行 动者可以观察到先行动者做了什么选择,因此, 为了做出最优的行动选择,每个参与人都必须这 样思考问题:如果我如此选择,对方将如何应对 ?给定他的应对,什么是我的最优选择?
纳什均衡
◆
(1,0) (3,1)
(2,2) (5,1) (U,{U′,U〞}) (1,0) (3,1) (2,2) (5,1) 纳什均衡:(U,{D′,U〞}) (1,0)
(3,1)
(2,2) (5,1) (U,{U′,D〞}) (1,0) (3,1) (2,2) (5,1) (U,{D′,D〞})
若美国“犯我”,中国“不犯人”,则支付向量为(2,-4); 若美国“不犯我”,中国“犯人”,则支付向量为(3,-5); 枝 若美国“不犯我”,中国“犯人”,则支付向量为(1,1)。 n人有限战略的扩展式表 述:博弈树 (game tree) 犯我 我国 犯人 (-2,-2)
不犯人 2人有限博弈的博弈 树:
不开发
B
开发 (-3,-3)
x
不开发
B
开发
y’
不开发
对抗策略:A开发我不开发,A不开发我 开发——{不开发,开发} ;
不开发策略:不论A开发不开发我不开发 )——{不开发,不开发};
第四章__序贯决策

这种局中人先动得益大于后行得益的情况,叫做先
动优势。
请比较:
女 足球
◆ (2,1)
足球 男●
●
芭蕾 × ◆ (0,0)
芭蕾 × 女 足球 × ◆ (-1,-1) ●
芭蕾
◆(1,2)
先动优势
当男方先动时,男方得2,女方得1,但当 女方先动时,男方得1,女方得2。
“先下手为强”
男
●
足球×
女●
足球
假设垄断企业的老板交给你这样的策略: {对抗,容忍},你明白应该如何行动吗?
策略就是一个完整的行动计划,使得你可 以把它交给另外一个人,让他知道如何代 表你去执行这个策略。
什么是计划:“如果对手选A,我将采取行 动X,如果…,我将采取行动…。”
行动与策略
在同时决策博弈中,行动就是策略。 但在序贯决策博弈中,行动是指每一个决
天生我材必有用,千金散尽还复来。0 1:12:43 01:12:4 301:12 1/13/2 021 1:12:43 AM
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。21. 1.1301: 12:4301 :12Jan- 2113-Jan-21
得道多助失道寡助,掌控人心方位上 。01:12: 4301:1 2:4301: 12Wedn esday, January 13, 2021
安全在于心细,事故出在麻痹。21.1.1 321.1.1 301:12: 4301:1 2:43Jan uary 13, 2021
加强自身建设,增强个人的休养。202 1年1月 13日上 午1时1 2分21. 1.1321. 1.13
第四章 序贯决策博弈
序贯决策博弈:局中人做出策略选 择时知道对手的策略选择。
序贯决策分析培训课件

人参加进行行动方案的选择活动。这些组织的成 员、代表就是群体决策者中的一员。作为群体决 策,其决策程序、决策评价标准与单个决策者的 决策有很大的差异,在决策原则、方法、许多方 面都有新的内容,因而应用单个决策者的决策方 法进行群决策在许多方面都受到了限制。 •
第四节 群决策简介
• 群体决策理论研究的问题一般具有三个前提:
第三节 马尔可夫决策
• 例6-7 我国出口某种设备,在国际市场上的销 售状况有两种:畅销和滞销。畅销每年可以获利 100万元,滞销时每年仅获利30万元。以一年为 一个时期,如果不采用广告推广产品或采取广告 措施,状态的转移矩阵分别为如表6-5、表6-6所 示。假定上一年处于畅销状态,每年的广告费为 15万元。为了保证今后3年的利润最大化,是否 应该采用广告措施?
(似然分布矩阵)见表6-2所示。
第一节 多阶段决策
表6-2 试销结果的准确度
第一节 多阶段决策
• 如不买此项技术,把这笔费用用在其他方面,在 同样的时期可获利8000元。那么,该公司应该如 何决策?
• (1)是否买技术? • (2)如果买技术,是否采取试销办法? • (3)如果不试销,应大批生产,中批生产还是小
态概率分布
P n P n1P
lim P (n) lim P n1P
n
n
第三节 马尔可夫决策
•得
1 k 1 k
1
k
Hale Waihona Puke 1kP1 k 1 k
• 记 1 2 ,则k
,且 P
• 此方程组为稳态方程
k
i 1
i 1
第三节 马尔可夫决策
• 四、马尔可夫应用实例 例6-6 某生产商标 为的产品的厂商为了与另
第四节 群决策简介
• 群体决策理论研究的问题一般具有三个前提:
第三节 马尔可夫决策
• 例6-7 我国出口某种设备,在国际市场上的销 售状况有两种:畅销和滞销。畅销每年可以获利 100万元,滞销时每年仅获利30万元。以一年为 一个时期,如果不采用广告推广产品或采取广告 措施,状态的转移矩阵分别为如表6-5、表6-6所 示。假定上一年处于畅销状态,每年的广告费为 15万元。为了保证今后3年的利润最大化,是否 应该采用广告措施?
(似然分布矩阵)见表6-2所示。
第一节 多阶段决策
表6-2 试销结果的准确度
第一节 多阶段决策
• 如不买此项技术,把这笔费用用在其他方面,在 同样的时期可获利8000元。那么,该公司应该如 何决策?
• (1)是否买技术? • (2)如果买技术,是否采取试销办法? • (3)如果不试销,应大批生产,中批生产还是小
态概率分布
P n P n1P
lim P (n) lim P n1P
n
n
第三节 马尔可夫决策
•得
1 k 1 k
1
k
Hale Waihona Puke 1kP1 k 1 k
• 记 1 2 ,则k
,且 P
• 此方程组为稳态方程
k
i 1
i 1
第三节 马尔可夫决策
• 四、马尔可夫应用实例 例6-6 某生产商标 为的产品的厂商为了与另
序贯决策博弈概述

第四章 序贯决策博弈
序贯决策博弈:局中人做出策略选 择时知道对手的策略选择。
实验 : 枪手博弈1
三个快枪手相互之间的仇恨到了不可 调和的地步。这天他们三在街上不期而遇, 每个人的手都握住了枪把,一场生死决斗 马上就要开始……
已知这三个人中甲枪法精准,十发八 中;乙的枪法也不错,十发六中,丙的枪 法拙劣,十发四中。假如三个人同时开枪, 决一死战,一枪后谁最后活下来的机会大 一些?
八种策略组合,纳什均衡在哪
该博弈有八种可能的策略组合: ( {足球},{(上)足球,(下)足球} ) ( {足球},{(上)足球,(下)芭蕾} ) ( {足球},{(上)芭蕾,(下)足球} ) ( {足球},{(上)芭蕾,(下)芭蕾} ) ( {芭蕾},{(上)足球,(下)足球} ) ( {芭蕾},{(上)足球,(下)芭蕾} ) ( {芭蕾},{(上)芭蕾,(下)足球} ) ( {芭蕾},{(上)芭蕾,(下)芭蕾} )
实 验 : 枪手博弈2
假设现在三个枪手决定轮流开枪,谁活下 来的机会大一些?
实验:海盗分宝
五个海盗抢到100颗宝石,他们决定按如下方 法来分配:先抽签决定顺序(1,2,3,4,5); 然后先由1号提出分配方案,其余的人进行 表决,当且仅当半数和超过半数的人同意 时,则按1号所提方案分配,否则将1号扔进 大海喂鲨鱼,当1号方案被否决,则由2号提 出分配方案,其余的人进行表决,以此类 推,假定这些海盗都是理性人,问第一个 海盗应提出怎样的分配方案才能获得通过 并使自己的收益最大?
用箭头排除确定法寻找纳什均衡
将以上策略在博弈书中用粗线表示。
将存在单独改变激励的策略用箭头标示。方法如下:
(1)找到第二阶段两根粗线所对应的支付。
(2)比较这两个支付前面的数字,如果大的数字所 对应的那条“树枝”是细的,则男方存在单独偏离 的动机,则男方的策略选择用箭头标示。
序贯决策博弈:局中人做出策略选 择时知道对手的策略选择。
实验 : 枪手博弈1
三个快枪手相互之间的仇恨到了不可 调和的地步。这天他们三在街上不期而遇, 每个人的手都握住了枪把,一场生死决斗 马上就要开始……
已知这三个人中甲枪法精准,十发八 中;乙的枪法也不错,十发六中,丙的枪 法拙劣,十发四中。假如三个人同时开枪, 决一死战,一枪后谁最后活下来的机会大 一些?
八种策略组合,纳什均衡在哪
该博弈有八种可能的策略组合: ( {足球},{(上)足球,(下)足球} ) ( {足球},{(上)足球,(下)芭蕾} ) ( {足球},{(上)芭蕾,(下)足球} ) ( {足球},{(上)芭蕾,(下)芭蕾} ) ( {芭蕾},{(上)足球,(下)足球} ) ( {芭蕾},{(上)足球,(下)芭蕾} ) ( {芭蕾},{(上)芭蕾,(下)足球} ) ( {芭蕾},{(上)芭蕾,(下)芭蕾} )
实 验 : 枪手博弈2
假设现在三个枪手决定轮流开枪,谁活下 来的机会大一些?
实验:海盗分宝
五个海盗抢到100颗宝石,他们决定按如下方 法来分配:先抽签决定顺序(1,2,3,4,5); 然后先由1号提出分配方案,其余的人进行 表决,当且仅当半数和超过半数的人同意 时,则按1号所提方案分配,否则将1号扔进 大海喂鲨鱼,当1号方案被否决,则由2号提 出分配方案,其余的人进行表决,以此类 推,假定这些海盗都是理性人,问第一个 海盗应提出怎样的分配方案才能获得通过 并使自己的收益最大?
用箭头排除确定法寻找纳什均衡
将以上策略在博弈书中用粗线表示。
将存在单独改变激励的策略用箭头标示。方法如下:
(1)找到第二阶段两根粗线所对应的支付。
(2)比较这两个支付前面的数字,如果大的数字所 对应的那条“树枝”是细的,则男方存在单独偏离 的动机,则男方的策略选择用箭头标示。
序贯决策博弈概述.pptx

主要内容
1、序贯博弈的定义和表示方法 2、寻找序贯博弈纳什均衡的“箭头排除确
定法”(旧版教材上称为虚线排除确定法) 3、寻找序贯博弈纳什均衡的“倒推法” 4、先动优势和后动优势 5、“倒推法”的缺陷
一、序贯博弈的定义和表示方法
假如某个垄断企业一年可以赚10亿元的利润,假 定别的企业为了进入该行业需要投资4亿元。当新 的企业准备进入时,原有垄断企业有两种决策
策点上局中人的决策变量或行动的具体抉 择。策略就是一个完整的行动计划。
策略组合
该博弈有八种可能的策略组合: ( {进入},{(上)容忍,(下)容忍} ) ( {进入},{(上)对抗,(下)对抗} ) ( {进入},{(上)对抗,(下)容忍} ) ( {进入},{(上)容忍,(下)对抗} ) ( {不进},{(上)容忍,(下)容忍} ) ( {不进},{(上)对抗,(下)对抗} ) ( {不进},{(上)对抗,(下)容忍} ) ( {不进},{(上)容忍,(下)对抗} )
“进入者” 的有两个纯策略:进入和不进 入
“垄断者”的有四个纯策略: 不管你怎样,我总是容忍——{容忍,容忍} 不管你怎样,我总是对抗——{对抗,对抗} 你进我对抗,你不进我忍——{对抗,容忍} 你进我忍,你不进我对抗——{容忍,对抗}
注:花括号第一项表示垄断者在上决策节点b,即进入者 选择进入时他要选择的行动,第二项表示垄断者在下决策 节点c,即进入者选择不进入时他要选择的行动。
第四章 序贯决策博弈
序贯决策博弈:局中人做出策略选 择时知道对手的策略选择。
实验 : 枪手博弈1
三个快枪手相互之间的仇恨到了不可 调和的地步。这天他们三在街上不期而遇, 每个人的手都握住了枪把,一场生死决斗 马上就要开始……
博弈论教程第四讲

印度德里经济学院巴苏(Kaushik Basu) 教授在1994 年美国经济学会年会上提交 的论文中提出的著名的"旅行者困境" (Travelers' Dilemma)。
4.4 倒推法
第四讲 序贯决策博弈
例如: 足球
女
●
足球 芭蕾
× ×
◆
( 2, 1) ( 0, 0) (-1,-1)
◆
男
●
芭蕾
女
●
足球 芭蕾
◆
◆(1,2)
进入者
●
进入 不进
◆
( 1, 5) (0,10)
◆
4.5 先动优势与后动优势
第四讲 序贯决策博弈
任何一方率先采取行动可能得到的支付,比他或者她 后行动可能得到的支付大。这种局中人先行得益大于后行 得益的情况,叫做先动优势(first-move advantage) 。 序贯情侣博弈:
该博弈有八种可能的策略组合: ( {足球},{(上)足球,(下)足球} ( {足球},{(上)足球,(下)芭蕾} ( {足球},{(上)芭蕾,(下)足球} ( {足球},{(上)芭蕾,(下)芭蕾} ( {芭蕾},{(上)足球,(下)足球} ( {芭蕾},{(上)足球,(下)芭蕾} ( {芭蕾},{(上)芭蕾,(下)足球} ( {芭蕾},{(上)芭蕾,(下)芭蕾}
情侣博弈 足球 男
●
女
(上)足球
◆
( 2, 1) ( 0, 0) (-1,-1)
●
(上)芭蕾 (下)足球
●
◆
芭蕾
◆
(下)芭蕾
◆ ( 1, 2)
4.3 序贯博弈的纳什均衡
第四讲 序贯决策博弈
女方的策略一共有四个: 一、追随策略:他选择什么,我就 选择什么; 二、对抗策略:他选择什么,我就 偏不选什么; 三、芭蕾策略:无论他选什么,我 都选我喜欢的芭蕾; 四、足球策略:无论他选什么,我 都选他喜欢的足球。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不制止
不仿冒 (0,10)
不仿冒 (5,5)
(2,2)
(10,4)
序贯决策博弈概论(PPT85页)
注意
同时,即使是同一个人在同一时点进行决策,也不一 定构成一个信息集,他还必须满足:在每一个决策点 他的行动选择集合必须是相同的。因为局中人在做行 动选择时并不知道自己位于哪个决策点,因此,他不 可能做出不同的行动选择。
第一节 博弈的正规型表示与展开型表示
一、如何将博弈的展开型形式转化为正规型表示
进入
容忍 垄断者
●
b
抵抗
◆ (1,5) ◆ (-2,2)
进入者 ●
a
不进
垄断者 容忍 ◆ (0,10)
●
c
案例:“进入障碍”博弈
抵抗 ◆ (0,4)
“进入障碍”的矩阵表达
垄断者
{容忍,容忍} {抵抗,抵抗} {抵抗,容忍} {容忍,抵抗}
序贯决策博弈概论(PPT85页)
B知道自
然的选择;
但不知道A
的选择(或A、
B同时决策)
A
开发
N
大
1/2
小
1/2
不开发
大
1/2
N
小
1/2
B
B
B
B 不开发
不开发
不开发
不开发 开发
开发
开发
开发
(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0)
房地产开发博弈
进 入 进 入 者不 进 入
1,5 0,10
-2,2 0,4
-2,2 0,10
1,5 0,4
二、如何将正规型的博弈转化为展开型
比前面简单,尤其是序贯博弈,但如果是同时博弈,如 何表示?
信息集
案例:情侣博弈
丈夫
足球
芭蕾
妻
足球
子 芭蕾
2, 1 0, 0
0, 0 1, 2
夫妻之争
信息集
根据同时博弈的定义,每个局中人决策时不知道别人的策略,即每个局中人在做自己的行动选择时,并不知道自己处在哪个决策节点上。例如妻子在选芭蕾时,并 不知道丈夫选的是芭蕾还是足球。
序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页)
信息集举例
序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页)
情爱博弈的扩展式表述
男
足球
芭蕾
女x
足球
芭蕾
女 x’
芭蕾
(1,2) (-1,-1)(0,0) (2,1)
女
足球
芭蕾
男x
足球
芭蕾
男 x’
芭蕾
(1,2) (-1,-1)(0,0) (2,1)
款投入一个长期项目。如果在该项目到期前银行被迫对
投资者变现,共可收回2r,这里D>r>D/2。不过,如果银 行允许投资项目到期,则项目共可取得2R,这里R>D。 有两个时间,投资者可以从银行提款:在银行的投资项目 到期之前或者在到期之后。为使分析简化,假设不存在 贴现。
序贯决策博弈概论(PPT85页)
足球 丈夫 ●
芭蕾
妻子 足球
●
芭蕾
妻子 足球
●
芭蕾
◆ (2,1) ◆ (0,0) ◆ (-1,-1) ◆(1,2)
注意
一个信息集罩住的必须是同一个局中人的决策点。 必须是同一个局中人在同一个时点的决策节点。
这两个 虚线罩 住的都 不是信 息集。
制止
(-2,5) 制止
A 仿冒
B
仿冒 B
不制止 A
局中人不能是别人对方“已经”做出的行动或决策,就等于同时行动或决策。 此时,我们用一个扁椭圆形的虚线的圈,把所论局中人的若干决策节点罩起来,成为他的一个
信息集。
即局中人知道博弈已经进行到他的这个信息集,但不知道博弈究竟进行到这个信息集中的哪个
决策节点。
信息集
妻子虽然知道博弈已经进行到她的信息集,但不知道 进行到信息集中的那个决策点,即她不知道丈夫会选 什么,因此是同时博弈。
A
●
序贯决策博弈概论(PPT85页)
B
●
B
●
◆ 该虚线罩住的不是信
息集。
◆ ◆
其必须满足:同集同
注,即从各个决策点
◆ 出发的策略选择数目
相同,名称也相同。
◆
序贯决策博弈概论(PPT85页)
单点集和非单点集
我们把不被扁椭圆虚线罩住的每个决策节点也给以信 息集的地位,称为单点集。
因此,每一个决策位置都是一个信息集,只有单点集 和非单点集之分。
但是当博弈走到一个非单点集的信息集时,面临决策的 局中人对于博弈迄今的历史是不清楚的,他不清楚博弈 具体走到了他的这个信息集里面的那个决策点。我们把 这种历史不清楚的博弈称为不完美信息博弈。
如果一个序贯博弈的每个信息集都是一个单点集,那么 该序贯博弈就是完美信息博弈,否则他就是不完美信息 博弈。
非单 点集
A●
序贯决策博弈概论(PPT85页)
B
●
B
●
◆
单点
集
◆
● ◆◆Βιβλιοθήκη ◆序贯决策博弈概论(PPT85页)
完美信息博弈和不完美信息博弈
当博弈走到一个单点集的信息集时,面临决策的局中人 对于博弈迄今的历史清清楚楚,他清楚了博弈具体走到 了他的这个决策节点而不是别的决策点。我们把这种历 史清楚的博弈称为完美信息博弈。
序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页) 序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页) 序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页) 序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页)
银行挤兑博弈案例
案例情况: 两个投资者每人存入银行一笔存款D,银行已将这些存
序贯决策博弈概论(PPT85页)
两个投资者的提款日期可以有如下可能: A、两个都提前,都得到r B、一个提前提取另一个不动,则第一人得D,另一人得
2r-D. C、两个在到期后提,各得R D、两个都不提,等到投资项目结束,都得到R E、如果一个人在期满后提取,另一人不动则分别得:
序贯决策博弈
第一部分 同时博弈与序贯博弈
主要内容
本章主要介绍: 1、如何用正规型表示和展开型表示来表述 同
一个博弈。 2、博弈论中的两个重要概念:信息集和不完
美信息。 3、考察包含同时决策行动和序贯决策行动的
复合型博弈(混合博弈)的纳什均衡。
第一节 博弈的正规型表示与展开型表示 第二节 同时决策与序贯决策的混合博弈 第三节 树形博弈的子博弈 第四节 子博弈精炼纳什均衡 第五节 完美博弈的库恩定理 第六节 动态博弈的运用
序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页)
A
开发
不开发
N
大
1/2
小
1/2
大
1/2
N
小
1/2
B
B
B
B 不开发
不开发
不开发
不开发 开发
开发
开发
开发
(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0)
房地产开发博弈
序贯决策博弈概论(PPT85页)
不仿冒 (0,10)
不仿冒 (5,5)
(2,2)
(10,4)
序贯决策博弈概论(PPT85页)
注意
同时,即使是同一个人在同一时点进行决策,也不一 定构成一个信息集,他还必须满足:在每一个决策点 他的行动选择集合必须是相同的。因为局中人在做行 动选择时并不知道自己位于哪个决策点,因此,他不 可能做出不同的行动选择。
第一节 博弈的正规型表示与展开型表示
一、如何将博弈的展开型形式转化为正规型表示
进入
容忍 垄断者
●
b
抵抗
◆ (1,5) ◆ (-2,2)
进入者 ●
a
不进
垄断者 容忍 ◆ (0,10)
●
c
案例:“进入障碍”博弈
抵抗 ◆ (0,4)
“进入障碍”的矩阵表达
垄断者
{容忍,容忍} {抵抗,抵抗} {抵抗,容忍} {容忍,抵抗}
序贯决策博弈概论(PPT85页)
B知道自
然的选择;
但不知道A
的选择(或A、
B同时决策)
A
开发
N
大
1/2
小
1/2
不开发
大
1/2
N
小
1/2
B
B
B
B 不开发
不开发
不开发
不开发 开发
开发
开发
开发
(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0)
房地产开发博弈
进 入 进 入 者不 进 入
1,5 0,10
-2,2 0,4
-2,2 0,10
1,5 0,4
二、如何将正规型的博弈转化为展开型
比前面简单,尤其是序贯博弈,但如果是同时博弈,如 何表示?
信息集
案例:情侣博弈
丈夫
足球
芭蕾
妻
足球
子 芭蕾
2, 1 0, 0
0, 0 1, 2
夫妻之争
信息集
根据同时博弈的定义,每个局中人决策时不知道别人的策略,即每个局中人在做自己的行动选择时,并不知道自己处在哪个决策节点上。例如妻子在选芭蕾时,并 不知道丈夫选的是芭蕾还是足球。
序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页)
信息集举例
序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页)
情爱博弈的扩展式表述
男
足球
芭蕾
女x
足球
芭蕾
女 x’
芭蕾
(1,2) (-1,-1)(0,0) (2,1)
女
足球
芭蕾
男x
足球
芭蕾
男 x’
芭蕾
(1,2) (-1,-1)(0,0) (2,1)
款投入一个长期项目。如果在该项目到期前银行被迫对
投资者变现,共可收回2r,这里D>r>D/2。不过,如果银 行允许投资项目到期,则项目共可取得2R,这里R>D。 有两个时间,投资者可以从银行提款:在银行的投资项目 到期之前或者在到期之后。为使分析简化,假设不存在 贴现。
序贯决策博弈概论(PPT85页)
足球 丈夫 ●
芭蕾
妻子 足球
●
芭蕾
妻子 足球
●
芭蕾
◆ (2,1) ◆ (0,0) ◆ (-1,-1) ◆(1,2)
注意
一个信息集罩住的必须是同一个局中人的决策点。 必须是同一个局中人在同一个时点的决策节点。
这两个 虚线罩 住的都 不是信 息集。
制止
(-2,5) 制止
A 仿冒
B
仿冒 B
不制止 A
局中人不能是别人对方“已经”做出的行动或决策,就等于同时行动或决策。 此时,我们用一个扁椭圆形的虚线的圈,把所论局中人的若干决策节点罩起来,成为他的一个
信息集。
即局中人知道博弈已经进行到他的这个信息集,但不知道博弈究竟进行到这个信息集中的哪个
决策节点。
信息集
妻子虽然知道博弈已经进行到她的信息集,但不知道 进行到信息集中的那个决策点,即她不知道丈夫会选 什么,因此是同时博弈。
A
●
序贯决策博弈概论(PPT85页)
B
●
B
●
◆ 该虚线罩住的不是信
息集。
◆ ◆
其必须满足:同集同
注,即从各个决策点
◆ 出发的策略选择数目
相同,名称也相同。
◆
序贯决策博弈概论(PPT85页)
单点集和非单点集
我们把不被扁椭圆虚线罩住的每个决策节点也给以信 息集的地位,称为单点集。
因此,每一个决策位置都是一个信息集,只有单点集 和非单点集之分。
但是当博弈走到一个非单点集的信息集时,面临决策的 局中人对于博弈迄今的历史是不清楚的,他不清楚博弈 具体走到了他的这个信息集里面的那个决策点。我们把 这种历史不清楚的博弈称为不完美信息博弈。
如果一个序贯博弈的每个信息集都是一个单点集,那么 该序贯博弈就是完美信息博弈,否则他就是不完美信息 博弈。
非单 点集
A●
序贯决策博弈概论(PPT85页)
B
●
B
●
◆
单点
集
◆
● ◆◆Βιβλιοθήκη ◆序贯决策博弈概论(PPT85页)
完美信息博弈和不完美信息博弈
当博弈走到一个单点集的信息集时,面临决策的局中人 对于博弈迄今的历史清清楚楚,他清楚了博弈具体走到 了他的这个决策节点而不是别的决策点。我们把这种历 史清楚的博弈称为完美信息博弈。
序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页) 序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页) 序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页) 序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页)
银行挤兑博弈案例
案例情况: 两个投资者每人存入银行一笔存款D,银行已将这些存
序贯决策博弈概论(PPT85页)
两个投资者的提款日期可以有如下可能: A、两个都提前,都得到r B、一个提前提取另一个不动,则第一人得D,另一人得
2r-D. C、两个在到期后提,各得R D、两个都不提,等到投资项目结束,都得到R E、如果一个人在期满后提取,另一人不动则分别得:
序贯决策博弈
第一部分 同时博弈与序贯博弈
主要内容
本章主要介绍: 1、如何用正规型表示和展开型表示来表述 同
一个博弈。 2、博弈论中的两个重要概念:信息集和不完
美信息。 3、考察包含同时决策行动和序贯决策行动的
复合型博弈(混合博弈)的纳什均衡。
第一节 博弈的正规型表示与展开型表示 第二节 同时决策与序贯决策的混合博弈 第三节 树形博弈的子博弈 第四节 子博弈精炼纳什均衡 第五节 完美博弈的库恩定理 第六节 动态博弈的运用
序贯决策博弈概论(PPT85页)
序贯决策博弈概论(PPT85页)
A
开发
不开发
N
大
1/2
小
1/2
大
1/2
N
小
1/2
B
B
B
B 不开发
不开发
不开发
不开发 开发
开发
开发
开发
(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0)
房地产开发博弈
序贯决策博弈概论(PPT85页)