博弈思维逆向归纳法
动态博弈中逆向归纳法求解问题
![动态博弈中逆向归纳法求解问题](https://img.taocdn.com/s3/m/7eb1fb9d51e2524de518964bcf84b9d528ea2ca7.png)
动态博弈中逆向归纳法是一种求解纳什均衡的方法。
在动态博弈中,博弈参与者的行为和策略是相互依存的,参与者需要考虑其他参与者的策略选择,从而做出自己的策略选择。
逆向归纳法的基本思想是从最后一个阶段开始,逆向推理,逐步确定每个参与者在每个阶段的最优策略选择。
具体来说,逆向归纳法的求解步骤如下:
1. 确定最后一个阶段的纳什均衡:在最后一个阶段,每个参与者的最优策略选择是与其他参与者的策略选择无关的。
因此,可以通过求解最后一个阶段的静态博弈来确定最后一个阶段的纳什均衡。
2. 逆向推导到前一个阶段:从最后一个阶段的纳什均衡出发,逆向推导到前一个阶段。
在前一个阶段,每个参与者的最优策略选择是与其他参与者在当前阶段的策略选择有关的。
因此,需要考虑其他参与者的策略选择,并利用逆向归纳法来确定每个参与者的最优策略选择。
3. 继续逆向推导到第一个阶段:重复上述步骤,直到推导到第一个阶段。
在第一个阶段,每个参与者的最优策略选择是与其他参与者的策略选择无关的。
4. 检查纳什均衡的稳定性:最后,需要检查所得到的纳什均衡是否稳定。
稳定的纳什均衡是指,如果某个参与者改变自己的策略选择,其他参与者的策略选择不会发生显著变化,从而使纳什均衡仍然成立。
需要注意的是,逆向归纳法的求解过程可能会非常复杂,特别是在动态博弈中。
因此,在实际应用中,需要根据具体情况选择适当的求解方法和工具。
从趣味推理题到逆向归纳法
![从趣味推理题到逆向归纳法](https://img.taocdn.com/s3/m/1f0e9d05eff9aef8941e0639.png)
从趣味推理题到逆向归纳法:喜欢博弈论的朋友必看网上看到这么一篇文章,上课老师讲的博弈论枯燥幼稚,唯独这篇文章又让我知道了什么是博弈,觉得很适合帮助理解完全信息动态博弈的基本思想(子博弈精炼纳什均衡和逆向归纳法),参考书上什么田忌赛马那些脑残例子贴切得多。
智慧的力量让人看到猛拍大腿,大叫一声“爽”五个海盗抢到了一百颗价值连城的宝石,他们决定先抽签决定自己的号码(1.2.3.4.5),第二步,由1号提出分配方案,然后五个人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则他将被仍到大海喂鲨鱼,1号死后,再由2号提出分配方案,然后四人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则也将扔进大海.....以此类推。
每个海盗都能很理智的判断得失,从而做出选择以最大化自己的利益,那么最后的分配结果如何?标准答案: 1号海盗分给3号1颗宝石,4号或5号海盗2颗,独得97颗。
分配方案为:97,0,1,2,0 或 97,0,1,0,2。
推理过程:从后向前推,如果1—3号海盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部宝石。
所以,4号唯有支持3号才能保命。
3号知道这一点,就会提出(100,0,0)的分配方案,对4号、5号一毛不拔而将全部宝石占为己有。
因为他知道4号一无所有但还是会投赞成票,再加上自己一票他的方案即可通过。
不过,2号推知到3号的方案,就会提出(98,0,1,1)的方案,即放弃3号,而给予4号和5号各一颗宝石。
由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他不希望他出局而由3号来分配。
这样,2号将拿走98颗宝石。
不过,2号的方案会被1号所洞悉,1号将提出(97,0,1,2,0)或(97,0,1,0,2)的方案,即放弃2号,而给3号一颗宝石,同时给4号(或5号)2颗宝石。
由于1号的解决方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案通过,97颗宝石可以轻松落入囊中。
博弈论基础读书笔记三完全信息动态博弈和逆向归纳法
![博弈论基础读书笔记三完全信息动态博弈和逆向归纳法](https://img.taocdn.com/s3/m/bc7b0e0353d380eb6294dd88d0d233d4b14e3f73.png)
博弈论基础读书笔记三完全信息动态博弈和逆向归纳法第⼆章完全信息动态博弈先来说明两个概念:1、是指在博弈中,参与⼈同时选择或虽⾮同时选择但后⾏动者并不知道先⾏动者采取了什么具体⾏动。
2、是指在博弈中,参与⼈的⾏动有先后顺序,且后⾏动者能够观察到先⾏动者所选择的⾏动。
这⼀章,我们来讨论关于完全信息(即参与者的收益函数是共同知识的博弈)动态博弈的问题。
在这⾥我们还将博弈分为两种:完美信息博弈:即要选择⾏动的参与者完全知道这⼀步之前所有的博弈过程。
完全但不完美信息博弈:即要选择⾏动的参与者不知道这⼀步之前的博弈过程。
进⾏这章之前先简要的解释⼀些东西:所有的动态博弈的中⼼问题都是可信任性。
下⾯给⼀个经典的⼿雷博弈的例⼦:第⼀,参与者1可以选择⽀付1000美元给参与者2或者是⼀分不给。
第⼆,参与者2观察参与者1的选择,然后决定是否引爆⼀颗⼿雷将两个⼈同炸死。
如果参与者2威胁参与者1如果他不付1000美元就引爆⼿雷,如果参与者1相信这个威胁,则最优选择是⽀付1000美元。
但参与者1却不会对这⼀威胁信以为真,因为它不可置信(参与者2不会蠢到因为1000美元⽽同归于尽,⾄于参与者1考虑参与者2是不是疯⼦的情况在第三章讨论)。
这个例⼦就是典型的完全且完美信息博弈。
在2.1节我们将在后⾯使⽤逆向归纳解,来求解这个问题。
在2.2节我们会丰富前⼀节的博弈模型使之成为完全但不完美博弈,我们会定义这种博弈的⼦博弈精炼解,它是逆向归纳法的延申。
在2.3节研究重复博弈,即多次重复⼀个给定博弈。
这⾥分析问题的中⼼使(可信的)威胁和对以后做出的承诺对当前⾏为的影响。
在2.4节中我们介绍分析⼀般的完全信息动态博弈所需要的⼯具。
不再区别信息是否是完美的。
本节和本章的重点都在语⾔,⼀个完全信息动态博弈可能会有多个纳什均衡,但其中⼀些均衡或许包含了不可置信的威胁和承诺,⼦博弈精炼纳什均衡则是通过了可信检验的均衡。
看到这⾥你可能还是⼀头雾⽔,但是⽆所谓,让我们⼀节⼀节的来讲,看到最后你在回头看前⾯的总结可能会更有利于你对本章的理解。
扩展式博弈逆向归纳法
![扩展式博弈逆向归纳法](https://img.taocdn.com/s3/m/f7c7b75e0a1c59eef8c75fbfc77da26924c59679.png)
扩展式博弈逆向归纳法简介扩展式博弈逆向归纳法是一种用于解决博弈问题的方法,它通过逆向思维,从最终结果开始,逐步分析游戏的各种策略和决策点,最终找到最优的策略。
本文将详细介绍扩展式博弈逆向归纳法的基本原理和应用。
基本原理扩展式博弈逆向归纳法是一种数学模型,用于描述多方参与的博弈过程。
其基本原理是从最终结果开始逐步向前推导,推算每一步的最优策略。
这种逆向归纳的思维方式可以减少决策的不确定性,并找到最优解。
基本步骤扩展式博弈逆向归纳法可以分为以下几个基本步骤:1. 定义博弈的参与者和规则首先,需要明确博弈的参与者和规则。
博弈可以涉及两个或多个参与者,并存在着一定的规则和限制条件。
2. 定义博弈的终结条件和目标确定博弈的终结条件和目标。
博弈可能在某个特定的条件下终止,并存在着不同的目标,如最大化收益、最小化损失等。
3. 分析可能的决策点和策略在博弈中,存在着多个决策点和不同的策略选择。
需要系统地分析可能的决策点,并列出各个决策点中可能的策略选择。
4. 逆向归纳法推导最优策略从终结条件开始向前推导,利用逆向归纳法分析每一个决策点的最优策略。
逐步迭代,每一步都考虑所有参与者的最优策略,并根据不同的情形进行调整。
5. 检验和优化策略得出最优策略后,需要进行检验和优化。
可以进行数学模型的验证,或者通过模拟实验来检验策略的有效性。
如果策略不理想,可进行调整和优化。
应用领域扩展式博弈逆向归纳法具有广泛的应用领域,包括经济学、管理学、计算机科学等。
1. 经济学领域在经济学中,扩展式博弈逆向归纳法常常用于分析市场竞争和博弈策略。
例如,分析企业之间的定价策略,或者市场中的潜在垄断行为。
2. 管理学领域在管理学中,扩展式博弈逆向归纳法可以用于分析决策制定和资源分配问题。
例如,在制定企业的市场营销策略时,可以运用该方法来寻找最优的策略。
3. 计算机科学领域在计算机科学中,扩展式博弈逆向归纳法可以应用于人工智能算法和游戏设计中。
stackelberg博弈逆向归纳法
![stackelberg博弈逆向归纳法](https://img.taocdn.com/s3/m/169380b67d1cfad6195f312b3169a4517723e5ea.png)
stackelberg博弈逆向归纳法Stackelberg博弈逆向归纳法引言:在博弈论的研究中,Stackelberg博弈是一种重要的博弈模型,它考虑的是一个领导者和一个追随者之间的策略选择问题。
在Stackelberg博弈中,领导者先行动,追随者在观察到领导者的行动后做出决策。
逆向归纳法是一种求解Stackelberg博弈的方法,本文将介绍Stackelberg博弈的基本概念和逆向归纳法的应用。
一、Stackelberg博弈的基本概念Stackelberg博弈是一种序贯博弈,由两个角色参与:领导者和追随者。
领导者先行动并选择策略,接着追随者观察到领导者的策略后做出决策。
与其他博弈模型不同的是,Stackelberg博弈中,领导者的行动对追随者的决策产生影响,而追随者的决策对领导者没有影响。
这种序贯性使得Stackelberg博弈与其他博弈模型的分析方法有所不同。
二、逆向归纳法的基本思想逆向归纳法是一种求解Stackelberg博弈的方法,它的基本思想是逆向推导追随者的最优反应函数,然后将这个反应函数代入领导者的目标函数中,从而求解出领导者的最优策略。
逆向归纳法的求解过程可以分为三个步骤:假设追随者的最优反应函数形式;代入反应函数求解领导者的最优策略;迭代求解追随者的最优反应函数。
三、逆向归纳法的应用实例为了更好地理解逆向归纳法的应用,我们以一个简单的Stackelberg博弈实例来说明。
假设某市场上只有两家公司A和B 在销售某种产品,公司A是领导者,先决定自己的销售策略,公司B是追随者,在观察到公司A的销售策略后做出决策。
我们假设公司B的最优反应函数是一个线性函数,即B的销售数量取决于A的销售数量。
接着,我们代入公司B的反应函数,求解公司A的最优销售策略。
假设公司A的目标是最大化利润,我们可以建立一个目标函数,考虑到市场需求和价格弹性等因素。
然后,我们将公司B的反应函数代入公司A的目标函数,求解出公司A的最优销售策略。
博弈行为中的演绎与归纳推理及其问题
![博弈行为中的演绎与归纳推理及其问题](https://img.taocdn.com/s3/m/53a2e91c6f1aff00bfd51e72.png)
博弈行为中的演绎与归纳推理及其问题作者:潘天群文章来源:自然辩证法研究200303【内容提要】博弈逻辑(game logic)是随着博弈论的迅速发展而形成的一个新的学科,它是一行动逻辑。
博弈逻辑研究的是理性的人在互动行动中即博弈中的推理问题。
在博弈行为中存在演绎推理和归纳推理。
正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中同样存在悖论或者“问题”。
博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是否有效的问题。
【关键词】博弈逻辑/演绎推理与归纳推理/逆向归纳法悖论/归纳推理的合理性【正文】中图分类号:BS12文献标识码:A1一种新的逻辑:博弈逻辑博弈论研究人类活动中的互动行为,在经济学中得到广泛的运用。
在博弈论中,人类的所有活动,只要是互动行为,均可以看成是博弈行动。
在此基础上,一种新的逻辑“博弈逻辑”(game logic)得以兴起,它是一种特殊的行动逻辑(action logic)。
博弈论研究多个理性人在互动过程中如何选择自己的策略。
理性的人是使自己的目标或得益最大化的人,在经济活动中理性的人即是使经济目标最大化的人——经济人。
理性人如何使得自己的“得益”最大?关键是“推理”。
博弈逻辑中存在着两种研究纲领。
第一种研究纲领是结合模态逻辑系统,建立新的博弈逻辑系统。
在这方面,日本筑波大学的金子守(Mamoru Kaneko)教授是这方面的权威。
近几年,他在国际刊物上发表了大量有关博弈逻辑方面的论文。
他不仅在模态逻辑系统的基础上建立了多个博弈逻辑(game logic)系统,而且,建立了与博弈逻辑密切相关的公共知识逻辑(common knowledge logic)系统。
第二种研究纲领是研究博弈活动中的实际“推理问题”,许多博弈论专家在此方面做了大量的工作。
对博弈逻辑做整体的分析不是这里的任务,本文的目的是简要论述博弈活动中的推理问题,属于第二种研究纲领。
根据博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。
博弈行为中的演绎与归纳推理及其问题(最终)
![博弈行为中的演绎与归纳推理及其问题(最终)](https://img.taocdn.com/s3/m/9efbd0875acfa1c7ab00ccab.png)
博弈行为中的演绎与归纳推理及其问题【内容撮要】博弈逻辑(game logic) 是随着博弈论的迅速进展而形成的一个新的学科,它是一步履逻辑。
博弈逻辑研究的是理性的人在互动步履中即博弈中的推理问题。
在博弈行为中存在演绎推理和归纳推理。
正如在传统逻辑中存在逻辑悖论一样,博弈逻辑中一样存在悖论或“问题〞。
博弈参与人运用演绎推理时存在逆向归纳法悖论,而运用归纳推理时存在归纳是不是有效的问题。
【关键词】博弈逻辑/ 演绎推理与归纳推理/ 逆向归纳法悖论/ 归纳推理的合理性【正文】1 一种新的逻辑:博弈逻辑博弈论研究人类活动中的互动行为,在经济学中取得遍及的运用。
在博弈论中,人类的所有活动,只假设是互动行为,均能够当作是博弈行动。
在此根底上,一种新的逻辑“博弈逻辑〞(game logic) 得以兴起,它是一种特殊的步履逻辑(action logic) 。
博弈论研究多个理性人在互动进程中如何选择本身的策略。
理性的人是使本身的目标或得益最大化的人,在经济活动中理性的人便是使经济目标最大化的人——经济人。
理性人如何使得本身的“得益〞最大?关键是“推理〞。
博弈逻辑中存在着两种研究纲领。
第一种研究纲领是结合模态逻辑系统,成立新的博弈逻辑系统。
在这方面,日本筑波大学的金子守(Mamoru Kaneko)传授是这方面的权威。
近几年,他在国际刊物上颁发了大量有关博弈逻辑方面的论文。
他不仅在模态逻辑系统的根底上成立了多个博弈逻辑(game logic) 系统,并且,成立了与博弈逻辑紧密相关的公共常识逻辑(common knowledge logic) 系统。
第二种研究纲领是研究博弈活动中的实际“推理问题〞,许多博弈论专家在此方面做了大量的工作。
对博弈逻辑做整体的阐发不是阿谁地址的任务,本文的目的是简要阐述博弈活动中的推理问题,属于第二种研究纲领。
依照博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。
但是,正如传统逻辑中存在着悖论〔演绎悖论和归纳悖论〕,在博弈逻辑中一样存在着悖论。
4.扩展式博弈与反向归纳策略
![4.扩展式博弈与反向归纳策略](https://img.taocdn.com/s3/m/ffbdc8cb2cc58bd63186bde6.png)
扩展式博弈的形式
完全信息的情况
①
L
②
R
②
l
2 0
r
2 1
l1Biblioteka 0r 3 1
不完全信息的情况
①
L
R
l
2 0
r
2 1
②
l
1 0
r
3 1
扩展式博弈的规则
在一个偏僻的山里,有一个村庄,村里有100对夫妇。 在这个村里已经形成了约定成俗的规定,如果女人发现自己的丈夫对自 己不忠的话,就会毫不犹豫的将他杀死,而且当天执行。当然,她必须 有确切的证据来证明他丈夫的不忠。由于这个因素,某个女人发现某个 男人不忠,她不会告诉那个不忠男人的妻子。但是,她会告诉其他人的 妻子,并且女人们会相互的传递这一信息,因此最后,一个男人不忠, 除了其妻子不知道外,其他女人都知道。 事实上是,村子里的这100对夫妇的男人都不忠,但由于女人不会将她们 知道的事实告诉不忠男人的妻子,每个女人不知道自己的男人不忠,因 此,该村子一直很稳定,而没有发生妻子杀丈夫的行为。 村子里有1个辈分很高的老太太,她德高望重,诚实可敬,对村子里的情 况了如指掌。一天,这位老人对这这100个女人说了一句很平常的话: “你们的男人当中至少有一个是不忠的。”于是,村里发生了这样一个 事情,前99天,村里风平浪静,但到了第100天,村里发生了一场大屠杀, 所有的女人都杀死了她们的丈夫! 为什么会这样?
结论
作为博弈方你不应该仅仅是个被动的参与人,满足于接受别人制定的博 弈规则,而应该设法改变博弈使其对自己尽量有利
可置信的承诺能够促进长期利润,但承诺方也确实因此而对自己的行动 施加了严格的限制。这种通过限制自己行动来获取竞争优势的做法被称 为策略性行为
博弈思维逆向归纳法
![博弈思维逆向归纳法](https://img.taocdn.com/s3/m/d792cdc8cf84b9d529ea7a08.png)
旅行者困境
一个类似囚徒困境的经典博弈案例是哈佛大学巴罗教授提出的著名 的“旅行者困境”:
两个旅行者从景德镇旅行回来,他们在同一间店买了同样的花 瓶。提取行李时,发现花瓶被摔坏了,于是向航空公司索赔。
“旅行者困境”: 从100到0
罗伯如 果是人彻底理性、能够算计到十几步甚 至几十步的话,那么他推论出的结果, 很可能并不符合自己的现实利益。
巴罗教授提出这个案例旨在警世:一方 面,它有启示人们在为私利考虑的时候 不要太“精明”,告诫人们精明不等于 高明,太精明往往会坏事;另一方面, 它对理性行为假设的适用性提出了警告。
魔瓶悖论
某日,你遇上了一个怪老头。怪老头拿出一个瓶子,说你可 以买走这个瓶子,瓶子能满足你的各种愿望;但同时,持有 这个瓶子会让你死后入地狱永受炼狱之苦,唯一的解法就是 把这个瓶子以一个更低的价格卖给别人。
你会不会买下这个瓶子?你会以什么价格买下这个瓶子呢?
你当然不愿意花太多的钱,在你的愿望被满足之前你至少还 得给自己留一点钱花;但你也不能花太少的钱,否则你会承 担着卖不出去的风险。
但是,理性分析后,我们得出了一个惊人的结论:任何人都 不应该以任何价格购买这个瓶子。
魔瓶悖论
严格的推理为什么会得到一个看似荒谬的结果呢?
这个推理有一个很强的前提条件,这也是很多趣味博弈问 题的基础——假设每个人都是最聪明的,他们所做的决策 都是最优的;并且每个人都知道,每个人都是最聪明的, 都将选择自己的最优策略;并且每个人都知道,每个人都 知道每个人是最聪明的;并且……这样无限循环下去。
但现实生活中,这个假设明显不成立。或许每个人都绝顶 聪明,但这一点并不是所有人都知道;即使所有人都知道, 也不是每个人都知道所有人都知道。这就是所谓的不完全 信息,它会对整个游戏的结果造成根本性的影响。
逆向归纳法
![逆向归纳法](https://img.taocdn.com/s3/m/225e632b17fc700abb68a98271fe910ef12daedf.png)
逆向归纳法
逆向归纳法(backward induction),是求解动态博弈均衡的方法,是博弈论中一个比较古老的概念,是指博弈参与人的行动存在着先后次序,并且后行动的参与人能够观察到前面的行动。
它的提出最早可以追溯到泽梅罗(1913)针对国际象棋有最优策略解的证明,后来人们将其推广到了更广泛的博弈中。
例如,在有限完美信息扩展型博弈中,就是用逆向归纳法(BI)来证明子博弈完美均衡(SPE)的存在以及求解SPE,其基本思路是从动态博弈中的最后一个阶段开始,局中人都遵循效用最大化原则选择行动,然后逐步倒推至前一个阶段,一直到博弈开始局中人的行动选择,其逻辑严密性毋庸置疑。
然而,当从终点往前推到某一决策点时,BI完全忽略了到达该决策点的以往历史行动,而这一历史行动当然会影响处于该决策点的局中人有关其对手将来如何采取行动的信念,例如,一个局中人如果观察到对手在过去没有按照BI进行行动选择,那么他就有理由相信他的对手仍会采取同样的模式进行下去,但是通过这种信念修正以后所做的选择就会与BI矛盾。
为了达到均衡解,为了能按BI进行推理求解,我们需要对局中人的信念或者说知识增加一些限制性条件,也就是说在什么样的前提下,BI是合理的,显然,仅仅要求每个局中人都理性是不够的,所有的局中人都必须知道所有的局中人都是理性的,所有的局中人都必须知道所有局中人都知道所有局中人
都是理性的……等等以至无穷,在这样的认知条件基础下,我们就不会偏离BI,即“在完美信息扩展型博弈中,理性的公共知识蕴含了BI”(Aumann1995)。
博弈树与逆向归纳法1
![博弈树与逆向归纳法1](https://img.taocdn.com/s3/m/e3f99aaed1f34693daef3e1e.png)
动态博弈与逆向归纳法假如欺负他人可以获得快乐,那你会欺负他人吗?大多数人的回答是不会,原因正如他们所指出的,欺负他人会担心他人的报复,这抵消了从欺负他人的行为中所能得到的快乐。
这个答案至少表明,你之所以现在没有欺负他人,并不因为不想欺负他人,而是因为你知道欺负他人会在将来给自己造成麻烦。
同样,当我们面临一些博弈对局的时候,我们应如何采取现在的行动,常常取决于每个行动在将来会产生什么后果,或者说在将来别人将如何反应。
在前面各章内容中,博弈是静态的——或者说是同时行动的。
而现实中的博弈常常是动态的、依序行动的,这就要求我们必须考虑人们在将来对我们的行动反应。
分析序贯行动博弈的一个重要思路就是:向前展望,向后推理(looking forward and reasoning backward),即面向未来,思考现在,站在未来的立场来确定现在的最优行动。
本章我们将通过一些例子来说明这一分析思路,其中有些例子很有趣,也很有挑战性。
§5-1 逆向归纳法1、美中军事政治博弈我们通过一个简单的例子来说明序贯博弈的(离散策略的)扩展式表达和逆向归纳法求解方法。
这个例子可以称做美中军事政治博弈,或者叫“毛泽东的对外军事政治战略”。
故事模型在我国解放初期,美国一直试图对我国实施打击。
此时,我国必须对美国采取应对之策。
就我国对美国可以采取的行动而言,无非是回击或不回击。
用更符合毛泽东的话来说,美国可以“犯我”或“不犯我”,而我们可以“犯人”或“不犯人”。
由此我们可以刻画出一个动态博弈:●博弈方:美国、中国;●行动空间:美国可选择的行动是“犯我”或“不犯我”;中国的选择是“犯人”或“不犯人”;●行动顺序:美国先行动;中国观察到美国的行动后再选择自己的行动;●赢利:我们这样假设赢利状况(数字是虚拟的);●如果美国“犯我”,中国“犯人”,恶战再所难免,则美国亏损2,中国亏损2;●如果美国“犯我”,中国“不犯人”,那么中国沦为美国的附庸,丧失国家主权,则美国获得2,中国亏损4;●如果美国“不犯我”,中国“犯人”,那么就是中国挑起战事,美国正好有借口纠合国际力量打击中国,则美国得3,中国亏损5;●如果美国“不犯我”,中国“不犯人”,各自和平地发展经济,则美国得1,中国得1。
浅析博弈行为中的演绎与归纳推理共8页文档
![浅析博弈行为中的演绎与归纳推理共8页文档](https://img.taocdn.com/s3/m/90822f58964bcf84b8d57b15.png)
浅析博弈行为中的演绎与归纳推理1一种新的逻辑:博弈逻辑博弈论研究人类活动中的互动行为,在经济学中得到广泛的运用。
在博弈论中,人类的所有活动,只要是互动行为,均可以看成是博弈行动。
在此基础上,一种新的逻辑"博弈逻辑"(game logic)得以兴起,它是一种特殊的行动逻辑(action logic)。
博弈论研究多个理性人在互动过程中如何选择自己的策略。
理性的人是使自己的目标或得益最大化的人,在经济活动中理性的人即是使经济目标最大化的人--经济人。
理性人如何使得自己的"得益"最大?关键是"推理"。
博弈逻辑中存在着两种研究纲领。
第一种研究纲领是结合模态逻辑系统,建立新的博弈逻辑系统。
在这方面,日本筑波大学的金子守(Mamoru Kaneko)教授是这方面的权威。
近几年,他在国际刊物上发表了大量有关博弈逻辑方面的论文。
他不仅在模态逻辑系统的基础上建立了多个博弈逻辑(game logic)系统,而且,建立了与博弈逻辑密切相关的公共知识逻辑(common knowledge logic)系统。
第二种研究纲领是研究博弈活动中的实际"推理问题",许多博弈论专家在此方面做了大量的工作。
对博弈逻辑做整体的分析不是这里的任务,本文的目的是简要论述博弈活动中的推理问题,属于第二种研究纲领。
根据博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。
然而,正如传统逻辑中存在着悖论(演绎悖论和归纳悖论),在博弈逻辑中同样存在着悖论。
2博弈逻辑中的演绎推理与归纳推理博弈论有两个假定:第一,博弈参与人是理性的;第二,博弈参与人的得益不仅取决于自己的行动,同时取决于其他人的行动。
每个理性的参与人在策略选取,使自己得益最大时,要充分考虑局中其他人的策略选取。
同时,每个参与人知道其他参与人与他有同样的想法。
在博弈中,"每个人是理性的"是公共知识(common knowledge),它是每个参与人进行策略选择或者推理的前提。
第四章 动态博弈与逆向归纳法
![第四章 动态博弈与逆向归纳法](https://img.taocdn.com/s3/m/e6bf6bcc050876323112120f.png)
几个基本概念
理性的局限性 至少有两个原因导致:一是人们的算计能力是 有限的,二是人们的理性本身也是有限的(比 如感情用事、冲动行事、冒险倾向等)。
序贯理性:每个参与人在其每一个行动时点上 序贯理性 都将重新优化自己的选择,并且会把自己将来 会重新优化其选择这一点也纳入当前的优化决 策当中。 序贯理性下将不会有后悔出现—因为满足序贯 理性所形成的路径,无论从后向前看,还是从 前向后看,都将是一条最优的道路。 非理性:常常是因后悔带来的。“悔不当初” 非理性 就是典型的例子。人们难以达到序贯理性的要 求。
博弈得益描述
文君先选择与司马断绝关系或者结婚,若与司马断绝 关系,则她失去一个心爱的人,得到 - 1 的赢利( 她 父亲则得到赢利 1,因为他终于如愿以偿让女儿没能 跟司马结婚);若选择结婚,则由文君的父亲做出反 应,他可以真的断绝父女关系,此种情况下,文君得 到 0 (困为她虽然跟爱人结婚得到 1,但是却因此失去 了父亲得到 - 1,总计得到 0),父亲得到 -1-1 =-2 (因 为看到文君与司马结婚心中不快得到 -1,又失去女儿 所得再增加-1);当然,既然生米煮成了熟饭,父亲也 可以默认,此时文君既得到爱人又没有失去父亲故获 得赢利 1,而父亲心中不快得到 - 1,但毕竟没有失去 女儿。
子博弈完美均衡的定义:一个策略组合只有在 子博弈完美均衡的定义 其路径既满足是整个博弈的均衡又满足该路径 上每一个子博弈的均衡的时候,才是子博弈完 美均衡。
练习
上 甲 下 (2,0) 左 (1,1) 乙 前 (0,2) 右 甲 后 (3,0)
4.2 序贯博弈
上 甲 下 (2,0) 左 (1,1) 乙
在博弈局势中,我们应站在将来的立场上思考 现在的行动选择。 ·一个人威胁在将来要对你进行制裁,但是在 将来这个制裁其实并不符他的利益,那么你不 应相信他的威胁。 现实中不同人的策略理性程度并不一样,这使 得现实中的策略博弈结果「可能( 暂时) 偏离均 衡路径。但是,从长期来看,理性不足的人们 之行为后果与高度理性的人们之行为后果是一 致的。因为人们会学习,策略会进化。
第十一讲 广延型博弈与反向归纳策略
![第十一讲 广延型博弈与反向归纳策略](https://img.taocdn.com/s3/m/478ca21e4b73f242326c5f22.png)
9
3
令 wi 0
ti
得
t10
t20
ac 3
即两国的最佳关税选择为
(ac, ac)
33
将这一结果代入得
hi
4a
9
c
ei
a
9
c
其正规型表示如下
2
抽
不抽 概率
1 抽 70,70 100,140 P
不抽 40,100 140,140 1-P
概率
r
1-r
日期1
• 这一博弈有两个纯策略纳什均衡 • (抽,抽)和(不抽,不抽), • 还有一个混合策略纳什衡, • 即各以4/7的概率在第1日 • 期抽回资金。
结果分析:
• 1.当信用环境非常好的情况下, • 客户的选择是在第1日期 • “不抽”,在第二日期“抽回”, • 双方获利最大(140,140)
这时博弈树变为
1 2
1
• 第一阶段,如果1的出价S1满足 • 1-S1≥δ (1-δ) • 即S1≤1-δ+δ2 • 则2不会拒绝
• 因此,1的最优出价
• S1=1-δ+δ2
• 这时 • S1=1-δ+δ 2>δ2
• 避免进入下一段谈判, • 双方获得的收益均达到最大。 •¥
最终的博弈路径 (子博弈精炼纳什均衡)为
第十一讲 广延型博弈与反向归纳策 略
广延型博弈适合于分析动态博弈过程,其强 调的重点在行动的时序性,以及参与人决 定策略时所拥有的信息集。
• 第一节 广延型博弈的定义与形式 • 一、广延型博弈的定义 • 信息完美(perfect information),是指每一
个参与人在其作决策时,对于以前所发生 的事件具有完全的信息。
逆向归纳均衡
![逆向归纳均衡](https://img.taocdn.com/s3/m/ac3e3b9cdc3383c4bb4cf7ec4afe04a1b071b0de.png)
逆向归纳均衡
逆向归纳均衡是一种解决复杂问题的方法,它通过从结果反推回原因,逐步逆向推导出问题的解决方案。
这种方法适用于许多领域,如数学、计算机科学、经济学等。
在数学方面,逆向归纳均衡常用于证明定理。
它从已知的结论开始,逆向推导出结论的前提条件,直到最终得到所有的前提条件。
这种方法是一种非常有用的证明技巧,可以帮助证明许多困难的数学问题。
在计算机科学中,逆向归纳均衡用于解决复杂的算法问题。
它通过从算法的输出结果开始,逆向推导出算法的输入条件,并逐步确定算法的执行过程。
这种方法可以帮助计算机科学家更好地理解算法的设计和实现。
在经济学中,逆向归纳均衡通常用于解决博弈理论中的问题。
它通过从博弈的结果开始,逆向推导出每个参与者的策略,并逐步分析每个参与者的最优策略。
这种方法可以帮助经济学家更好地理解博弈论的基本原理和应用。
总之,逆向归纳均衡是一种非常有用的解决问题的方法,它可以帮助人们更好地理解问题的本质和解决方案。
- 1 -。
博弈论 逆向归纳法
![博弈论 逆向归纳法](https://img.taocdn.com/s3/m/ef56d5b8d1d233d4b14e852458fb770bf78a3ba3.png)
博弈论逆向归纳法
博弈论逆向归纳法是一种求解博弈问题的方法。
该方法先从博弈的最终状态开始,逆向分析每个状态的最优策略,一直回溯到初始状态,得出整个博弈的最优策略。
逆向归纳法的核心是逆向思考,将博弈问题视为从终局状态开始逆向考虑,以确定每个状态的最优策略。
在逆向归纳法中,我们需要先确定最终状态的最优策略,然后逆向推导出每个状态的最优策略,直到初始状态。
逆向归纳法的优点是可以避免穷举全部可能的情况,大大缩短求解时间。
其应用范围包括博弈、决策和优化等领域。
需要注意的是,在使用逆向归纳法求解博弈问题时,需要考虑玩家的理性行为和信息不完全等因素。
只有在充分考虑这些因素后,才能得出可行的最优策略。
- 1 -。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
魔瓶悖论
某日,你遇上了一个怪老头。怪老头拿出一个瓶子,说你可 以买走这个瓶子,瓶子能满足你的各种愿望;但同时,持有 这个瓶子会让你死后入地狱永受炼狱之苦,唯一的解法就是 把这个瓶子以一个更低的价格卖给别人。
旅行者困境
一个类似囚徒困境的经典博弈案例是哈佛大学巴罗教授提出的著名 的“旅行者困境”:
两个旅行者从景德镇旅行回来,他们在同一间店买了同样的花 瓶。提取行李时,发现花瓶被摔坏了,于是向航空公司索赔。
航空公司知道花瓶的价格大概八九十元,但不知道两位旅客买 花瓶的确切价格。于是,航空公司请两位旅客在100元以内自己 写下花瓶的价格。
博弈游戏8: 饿狮博弈
请9位同学上台参与游戏。 9位同学是狮群里的狮子,且都十分饥饿。 9位同学排成一行,其从左至右的次序等于狮群里的地位等级,从左
至右逐级下降。即左边排第一者的为狮王,右边第一位为狮群里地位 最低者; 现在再请一位同学上台,扮演绵羊。这只绵羊误闯狮群。 只有狮王才能吃绵羊,其他狮子不能吃。 狮王吃掉绵羊后,会打瞌睡;当狮王打瞌睡时,低其一级的狮子会吃 掉狮王。但当其吃掉狮王后,它亦会瞌睡,低其一级的狮子也会吃掉 它。依此类推,当一只狮子吃掉其上级时,其下级会吃掉它。 请问:狮王应该吃掉绵羊吗?请大家在纸上写出答案,写上姓名、学 号及答案(吃或不吃),然后交上来。
这个推理有一个很强的前提条件,这也是很多趣味博弈问 题的基础——假设每个人都是最聪明的,他们所做的决策 都是最优的;并且每个人都知道,每个人都是最聪明的, 都将选择自己的最优策略;并且每个人都知道,每个人都 知道每个人是最聪明的;并且……这样无限循环下去。
但现实生活中,这个假设明显不成立。或许每个人都绝顶 聪明,但这一点并不是所有人都知道;即使所有人都知道, 也不是每个人都知道所有人都知道。这就是所谓的不完全 信息,它会对整个游戏的结果造成根本性的影响。
你会不会买下这个瓶子?你会以什么价格买下这个瓶子呢?
你当然不愿意花太多的钱,在你的愿望被满足之前你至少还 得给自己留一点钱花;但你也不能花太少的钱,否则你会承 担着卖不出去的风险。
但是,理性分析后,我们得出了一个惊人的结论:任何人都 不应该以任何价格购买这个瓶子。
Байду номын сангаас
魔瓶悖论
严格的推理为什么会得到一个看似荒谬的结果呢?
如果两人写的一样,航空公司将认为他们讲真话,就按他们写 的数额赔偿;如果两人写的不一样,航空公司就认定写得低的 旅客讲的是真话,按低的价格赔偿,同时,航空公司对讲真话 的旅客奖励2元,对讲假话的旅客罚款2元。
“旅行者困境”: 从100到0
罗伯特·巴罗
巴罗教授通过这个虚拟案例,揭示了如 果是人彻底理性、能够算计到十几步甚 至几十步的话,那么他推论出的结果, 很可能并不符合自己的现实利益。