博弈论作业
博弈论作业——精选推荐
博弈论作业1.海盗分金中如果假设需要同意的人超过半数提议才能通过,则理性结局又会是什么?如果200个人参加(只要半数即可通过)又将如何?500人呢?解:半数即可通过——倒推分析结果如下(1000,0)(999,0,1)(999,0,1,0)(998,0,1,0,1)下一步的分钱方案中,只需要把上一步得钱非0的强盗的得钱数改为0,而其它强盗则反之。
进而有非0和0的间隔分布,除了提出方案的强盗外,其它得钱非0的强盗得到1块钱。
因此有200个强盗分1000个金币的情形为 ( X, 0, 1, …, 0 )可得X=901因此有500个强盗分1000个金币的情形为 ( X, 0, 1, …, 0 )可得X=751超过半数才可通过——倒推结果如下(0,1000)(999,1,0)(997,0,2,1)(997,0,1,0,2)因此,5个强盗分1000个金币的情形为(997,0,1,0,2)2.在无限期的鲁宾斯坦模型中,假设分割只能是0.01的整数倍,即X只能为0,0.01;0.02;…….0.99或1,求δ=0.5和δ非常接近于1时的子博弈完美均衡(假设两个人的折现因子相同)两个人要分一块冰淇淋,甲将分得冰淇淋的x份额(x ≥ 0),乙将得到1-x的份额(1-x ≥ 0)。
两人进行轮流出价。
首先,甲提出一个划分方法(x,1-x),乙可以接受或拒绝这个提议,如果他接受了,则博弈结束,他们按照这种划分去切割冰淇淋;如果乙拒绝这个提议,那么他会提出一个划分方法(y,1-y),甲可以接受或者拒绝,博弈过程将这个方式持续进行下去,直到他们达成一个协议。
每当协议的达成拖延时,他们的得益会有一个折扣(贴现),两人的贴现因子由iδ (0<iδ<1)表示。
这种折扣代表了讨价还价的成本。
其它条件相同,对参与者而言,达成一个协议所需的时间越长,冰淇淋就会越小。
两人贴现相同,如果假定1δ=2δ=δ的话,上述讨价还价博弈的唯一的均衡结果将会是(1 / (1 + δ), δ / (1 + δ))。
大学博弈论试题及答案
大学博弈论试题及答案一、选择题(每题2分,共20分)1. 在博弈论中,非合作博弈是指:A. 参与者之间可以达成协议B. 参与者之间不能达成协议C. 参与者之间必须达成协议D. 参与者之间只能通过合作达到目标答案:B2. 纳什均衡是博弈论中的一个概念,它描述了一种情况,即:A. 所有参与者都处于最优策略B. 至少有一个参与者处于非最优策略C. 所有参与者都处于非最优策略D. 至少有一个参与者可以单方面改变策略以获得更好的结果答案:A3. 囚徒困境中,如果两个参与者都选择合作,那么:A. 他们都将获得最大收益B. 他们都将获得最小收益C. 他们都将获得中等收益D. 他们中的一个将获得最大收益,另一个获得最小收益答案:C4. 零和博弈是指:A. 一个参与者的收益等于另一个参与者的损失B. 参与者的总收益为零C. 参与者的总损失为零D. 参与者的总收益和总损失相等答案:B5. 在博弈论中,策略是指:A. 参与者的行动计划B. 参与者的收益C. 参与者的损失D. 参与者的支付结构答案:A6. 博弈论中的“混合策略”是指:A. 参与者随机选择策略B. 参与者总是选择相同的策略C. 参与者的策略是固定的D. 参与者的策略是预先确定的答案:A7. 博弈论中的“支配策略”是指:A. 无论对手选择什么策略,都是最优的策略B. 只有在特定情况下才是最优的策略C. 只有在对手选择特定策略时才是最优的策略D. 参与者总是选择的策略答案:A8. 博弈论中的“重复博弈”是指:A. 博弈只进行一次B. 博弈进行多次,但每次都是独立的C. 博弈进行多次,且参与者的记忆会影响后续决策D. 博弈进行多次,但参与者不能记住之前的决策答案:C9. 在博弈论中,如果一个策略在任何情况下都不是最优的,那么这个策略被称为:A. 支配策略B. 支配策略的反面C. 支配策略的替代D. 非支配策略答案:B10. 博弈论中的“共同知识”是指:A. 所有参与者都知道的信息B. 只有部分参与者知道的信息C. 参与者之间的秘密D. 参与者之间共享的信念答案:A二、填空题(每题2分,共20分)1. 在博弈论中,如果一个策略在任何情况下都不是最优的,那么这个策略被称为________。
博弈论作业
博弈论作业博弈论作业一、 下面的得益矩阵表示博弈方之间的一个静态博弈。
该博弈有没有纯策略纳什均衡?博弈的结果是什么?博弈方 2L C R博弈 T 方 M 1 B 答:此博弈有两个纳什均衡:1、ML 得益(3,4)2、TR 得益(4,2)二、 求出下图中得益矩阵所表示的博弈中的混合策略纳什均衡与得益。
博弈方 2L R博弈 T 方 B 1答:(一)求混合策略均衡1、博弈方1的概率P则对博弈方2而言,有1×P +2(1-P )=2×P +0(1-P )2-P =2PP =2/3当P ﹤2/3,2-P ﹥2P ,则q ﹡=1是最合适的策略,即选择L 。
当P =2/3,2-P =2P ,则q ﹡∈(0,1)是最适合反应。
当P ﹥2/3,2-P ﹤2P ,则q ﹡=0是最适合策略,即选择R 。
2、给定博弈方2的概率q则对博弈方1而言,有2×q +0(1-q )=1×q +3(1-q )2q =3-2qq =3/4当q ﹤3/4,2q ﹤3-2q ,则P ﹡=0是最合适的策略,即选择B 。
当q =3/4,2q =3-2q ,则P ﹡∈(0,1)是最适合反应。
当q ﹥3/4,2q ﹥3-2q ,则P ﹡=1是最适合策略,即选择T 。
所以:混合策略的均衡点为(2/3,3/4)。
(二)得益:∪1=2×P ×q +0×P ×(1-q)+1×(1-P)×q+3(1-P)(1-q)=2×2/3×3/4+1×1/3×3/4+3×1/3×1/4=3/2∪2=1×P ×q +2×P ×(1-q)+2×(1-P)×q+0(1-P)(1-q)=1×2/3×3/4+2×2/3×1/4+2×1/3×3/4=4/3三、 设一四阶段两博弈方之间的动态博弈如下图所示。
§博弈论作业题4道
企业战略决策和管理中的博弈作业:一、优利公司和埃克森公司是生产一种非常精密的摄象机的仅有的两家公司。
他们在商业杂志上投入或高或低的广告费。
他们的赢得矩阵如下所示:(单位:万美元)埃克森低高┏━━━━━━┳━━━━━┓低┃1200,1300┃1100,1200┃优利┣━━━━━━╋━━━━━┫高┃1300,1200┃1200,1100┃┗━━━━━━┻━━━━━┛1、优利公司在商业杂志上的广告支出是高还是低?答:在优利公司广告支出低的情况下:如果埃克森公司也支出低,优利公司可赢得1200万,如果埃克森公司支出高,优利公司则赢得1100万。
在优利公司广告支出高的情况下:如果埃克森公司支出低,优利公司可赢得1300万,如果埃克森公司支出高,优利公司则赢得1200万。
因此,优利公司为获得尽可能高的利润,只有选择广告支出高的策略。
2、埃克森公司的广告支出是高还是低?答:在埃克森公司广告支出低的情况下:优利公司支出低,埃克森公司可赢得1300万,如果优利公司支出高,埃克森公司则赢得1200万;在埃克森公司广告支出高时: 如果优利公司支出低,埃克森公司赢得1200万,如果优利公司支出高,埃克森公司仅赢得1100万。
因此,埃克森公司应选择低的广告支出策略。
3、每家公司是否都存在占优(最优)策略?答:埃克森公司与优利公司都存在各自的占优策略。
二、两家肥皂制造商:富特纳公司和梅森公司,在即将到来的广告战中或侧重于报纸,或侧重于杂志。
他们的赢得矩阵如下所示:(单位:万美元)梅森报纸杂志┏━━━━━┳━━━━━┓报纸┃800,900┃700,800┃富特纳┣━━━━━╋━━━━━┫杂志┃900,800┃800,700┃┗━━━━━┻━━━━━┛1、对每家公司来说是否存在占优策略?如果存在,各是什么?答:富特纳公司与梅森公司都存在占优策略。
富特纳公司广告投入侧重于杂志,梅森公司侧重于报纸。
2、每家公司的利润各是多少?答:富特纳公司与梅森公司在各自占优策略下的利润均为900万美元。
博弈论基础作业及答案
博弈论基础作业一、名词解释纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识见PPT二、问答题1.举出囚徒困境和智猪博弈的现实例子并进行分析。
囚徒困境的例子:军备竞赛;中小学生减负;几个大企业之间的争相杀价等等;以中小学生减负为例:在当前的高考制度下,给定其他学校对学生进行减负,一个学校最好不减负,因为这样做,可以带来比其他学校更高的升学率。
给定其他学校不减负,这个学校的最佳应对也是不减负。
否则自己的升学率就比其他学校低。
因此,不论其他学校如何选择,这个学校的最佳选择都是不减负。
每个学校都这样想,所以每个学校的最佳选择都是不减负,因此学生的负担越来越重。
请用同样的方法分析其他例子。
智猪博弈的例子:大企业开发新产品;小企业模仿;股市中,大户搜集分析信息,散户跟随大户的操作策略以股市为例:给定散户搜集资料进行分析,大户的最佳选择是跟随。
而给定散户跟随,大户的最佳选择是自己搜集资料进行分析。
但是不论大户是选择分析还是跟随,散户的最佳选择都是跟随。
因此如果大户和散户是聪明的,并且大户知道散户也是聪明的,那么大户就会预见到散户会跟随,而给定散户跟随,大户只有自己分析。
请用同样的方法分析其他例子。
2.请用博弈论来说明“破釜沉舟”和“穷寇勿追”的道理。
破釜沉舟是一个承诺行动。
目的是要断绝自己的退路,让自己无路可退,让自己决一死战变得可以置信。
也就是说与敌人对决时,只有决一死战,这样才可以取得胜利。
否则,如果不破釜沉舟,那么遇到困难时,就很有可能退却,也就无法取得胜利。
穷寇勿追就是要给对方一个退路,由于有退路,对方就不会殊死抵抗。
否则,对方退无可退,只有坚决抵抗一条路,因而必然决一死战。
自己也会付出更大的代价。
3.当求职者向企业声明自己能力强时,企业未必相信。
但如果求职者拿出自己的各种获奖证书时,却能在一定程度上传递自己能力强的信息。
这是为什么?由于口头声明几乎没有成本,因此即便是能力差的求职者也会向企业声明自己能力强。
博弈论智力题
A.逻辑推理2、请把一盒蛋糕切成8 份,分给8个人,但蛋糕盒里还必须留有一份。
3、小明一家过一座桥,过桥时是黑夜,所以必须有灯。
现在小明过桥要 1 秒,小明的弟弟要3 秒,小明的爸爸要6 秒,小明的妈妈要8 秒,小明的爷爷要12 秒。
每次此桥最多可过两人,而过桥的速度依过桥最慢者而定,而且灯在点燃后30 秒就会熄灭。
问:小明一家如何过桥?4、一群人开舞会,每人头上都戴着一顶帽子。
帽子只有黑白两种,黑的至少有一顶。
每个人都能看到其他人帽子的颜色,却看不到自己的。
主持人先让大家看看别人头上戴的是什么帽子,然后关灯,如果有人认为自己戴的是黑帽子,就打自己一个耳光。
第一次关灯,没有声音。
于是再开灯,大家再看一遍,关灯时仍然鸦雀无声。
一直到第三次关灯,才有劈劈啪啪打耳光的声音响起。
问有多少人戴着黑帽子?5、请估算一下CN TOWER电视塔的质量。
7、U2 合唱团在17分钟内得赶到演唱会场,途中必需跨过一座桥,四个人从桥的同一端出发,你得帮助他们到达另一端,天色很暗,而他们只有一只手电筒。
次同时最多可以有两人一起过桥,而过桥的时候必须持有手电筒,所以就得有人把手电筒带来带去,来回桥两端。
手电筒是不能用丢的方式来传递的。
四个人的步行速度各不同,若两人同行则以较慢者的速度为准。
Bono需花1分钟过桥,Edge需花2 分钟过桥,Adam 需花5 分钟过桥,Larry 需花10 分钟过桥。
他们要如何在17 分钟内过桥呢?11、有7克、2克砝码各一个,天平一只,如何只用这些物品三次将140克的盐分成50、90 克各一份?13、你有两个罐子,50个红色弹球,50 个蓝色弹球,随机选出一个罐子,随机选取出一个弹球放入罐子,怎么给红色弹球最大的选中机会?在你的计划中,得到红球的准确几率是多少?14、想象你在镜子前,请问,为什么镜子中的影像可以颠倒左右,却不能颠倒上下?16、如果你有无穷多的水,一个3 夸脱的和一个5 夸脱的提桶,你如何准确称出4 夸脱的水?21、假设一张圆盘像唱机上的唱盘那样转动。
博弈论作业——精选推荐
1、完全信息静态博弈参与人B参与人A UD求:的不同均衡结果(如智猪博弈,斗鸡博弈,囚犯困境,性别战,监督博弈等)。
(对不同模型要有相应的分析或阐述,不能举上课和教材中已经举过的例子。
)答:我喜欢金庸小说,就举一个有关武侠的例子。
话说第一次华山论剑,北丐洪七公败在了王重阳的手下,元气大伤,他在一个山洞里恢复元气,不巧正在这时欧阳克和杨康这两个大坏蛋来了,他们知道鼎鼎大名的北丐现在身负重伤,正是杀他的大好时机,谁要是能杀了他,欧阳锋一高兴定会传给他们几门绝世武功。
可是北丐是何等人物,与他动手即使能杀了他,自己也必然有所损耗,所以二人都在想该谁上去动手。
第一种情况,不论谁上去动手,自身都会受到-3的损耗,如果欧阳克上去动手,而杨康旁观,那么欧、杨从欧阳锋那里得到的奖励为8:2,如果两人一块动手,那么欧、杨得到的奖励为6:4,如果杨康动手,欧阳克旁观,那么杨、欧得到的奖励为7:3,由于欧阳克是欧阳锋的侄子,所以欧阳锋会偏爱欧阳克分别为3,5。
如果欧阳克旁观,在杨康动手与旁观情况下,他的收益分别是3,0,显然欧阳克动手的收益大,所以欧阳克一定会选择动手,在欧阳克动手的情况下,杨康一定会选择旁观,所以最后的结局是,欧阳克动手,杨康旁观,洪七公被杀掉。
换一种情况。
如果一方动手,另一方旁观,那么欧阳锋会认为旁观的这个人可见,如果欧阳克动手,那在杨康动手与旁观的情况下,他的收益分别为3,5。
如果欧阳克旁观,那在杨康动手与旁观的情况下,他的收益分别为1,0。
所以他一定会选择动手,对杨康来说,动手的收益分别为1,4,旁观的收益分别是0,0,所以他一定会选择动手,最终的结果一定是,欧、杨两人一起动手杀掉七公。
第三种情况。
由于洪七公是天下第一大帮丐帮帮主,杀掉他的人一定会得罪丐帮,得罪天下武林同道,以后难以立足江湖,自身会受到-3的损伤,此时的如果杨康选择旁观,那么它的收益分别为0,0。
所以杨康一定不会动手。
同样,欧阳克选择动手,收益分别是-1,1.如果选择旁观收益分别为1,0。
博弈论试题及答案
博弈论试题及答案【正文】博弈论试题及答案一、选择题1.博弈论是研究:A. 地理分布B. 人类视力C. 决策制定D. 古典文学答案:C2.下列哪个不是博弈论中常见的概念?A. 纳什均衡B. 优势策略C. 输家效应D. 零和博弈答案:C3.描述纳什均衡的最佳方式是:A. 所有参与者都达到最佳策略B. 至少有一个参与者达到最佳策略C. 所有参与者都达到次优策略D. 至少有一个参与者达到次优策略答案:A4.下列哪个案例体现了零和博弈的情况?A. 两国签订贸易协定B. 赌徒在赌博中争夺赌注C. 两家公司合作推出新产品D. 好友一起玩棋盘游戏答案:B5.下列哪个不是博弈论的应用之一?A. 经济决策B. 政治博弈C. 生物进化D. 音乐创作答案:D二、填空题1.博弈论最早由_____________等人于20世纪40年代提出。
答案:冯·诺依曼(John von Neumann)2.博弈论是研究参与者间的_____________和_____________的学科。
答案:互动行为;决策制定3.零和博弈是指参与者的利益总和恒为_____________。
答案:零4.博弈论中的最佳策略指的是在其他参与者采取某个策略时,使某一参与者的_____________最大化的策略。
答案:利益5.斯坦福大学的_____________教授以其对博弈论的突出贡献而获得2005年诺贝尔经济学奖。
答案:约翰·纳什(John Nash)三、简答题1.简要解释博弈论中的纳什均衡。
答:纳什均衡是博弈论中的一个重要概念,指的是在参与者选择自己最佳策略的情况下,不存在任何一个参与者可以通过单独改变自己的策略来获得更好收益的状态。
简言之,纳什均衡是一种理性选择下的稳定状态。
2.举例说明博弈论在实际生活中的应用。
答:博弈论在经济学、政治学、生物学等领域中都有广泛应用。
例如,在贸易谈判中,两个国家之间的博弈就是典型的博弈论应用。
博弈论考试题及答案
博弈论考试题及答案一、选择题(每题2分,共20分)1. 博弈论中的“囚徒困境”是指什么?A. 两个囚犯相互合作B. 两个囚犯相互背叛C. 两个囚犯中一个合作一个背叛D. 两个囚犯相互猜疑答案:B2. 以下哪个不是博弈论中的基本概念?A. 策略B. 收益C. 公平D. 纳什均衡答案:C3. 在零和博弈中,一个玩家的损失等于另一个玩家的收益,这意味着:A. 总收益为零B. 总收益为正C. 总收益为负D. 总收益不确定答案:A4. 博弈论中的“混合策略”是指:A. 玩家随机选择策略B. 玩家固定选择一种策略C. 玩家根据对手的策略选择策略D. 玩家不使用策略答案:A5. 以下哪个是博弈论中的“完全信息”博弈?A. 拍卖博弈B. 石头剪刀布C. 桥牌D. 信息不对称博弈答案:C6. 博弈论中的“重复博弈”指的是:A. 博弈只进行一次B. 博弈进行多次C. 博弈进行无限次D. 博弈进行有限次但次数未知答案:B7. 以下哪个是博弈论中的“动态博弈”?A. 零和博弈B. 非零和博弈C. 同时博弈D. 顺序博弈答案:D8. 在博弈论中,如果一个策略组合是纳什均衡,那么:A. 每个玩家都有动机单方面改变策略B. 每个玩家都满足于当前策略C. 至少有一个玩家不满意当前策略D. 所有玩家都不满意当前策略答案:B9. 博弈论中的“合作博弈”是指:A. 玩家之间可以形成联盟B. 玩家之间不能形成联盟C. 玩家之间只能通过竞争来获得收益D. 玩家之间只能通过合作来获得收益答案:A10. 以下哪个是博弈论中的“公共知识”?A. 每个玩家的收益函数B. 每个玩家的策略选择C. 每个玩家的偏好D. 每个玩家的个人信息答案:A二、简答题(每题10分,共30分)1. 简述博弈论中的“纳什均衡”概念。
答案:纳什均衡是指在一个博弈中,每个玩家都选择了自己的最优策略,并且没有玩家能够通过单方面改变策略来提高自己的收益。
在纳什均衡状态下,每个玩家的策略是对其他玩家策略的最优反应。
博弈论习题2
《博弈论》习题一、选择题1. 博弈论中,局中人从一个博弈中得到的结果常被称为(B):A. 效用;B. 损益;C. 决策;D. 利润2. 下列关于策略的叙述哪个是错误的(C):A. 策略是局中人选择的一套行动计划;B. 参与博弈的每一个局中人都有若干个策略;C. 一个局中人在原博弈中的策略和在子博弈中的策略是相同的;D. 策略与行动是两个不同的概念,策略是行动的规则,而不是行动本身。
3. 囚徒困境说明(A):A. 双方都独立依照自己的利益行事,则双方不能得到最好的结果;B. 如果没有某种约束,局中人也可在(抵赖,抵赖)的基础上达到均衡;C. 双方都依照自己的利益行事,结果一方赢,一方输;D、每个局中人在做决策时,不需考虑对手的反应4. 一个博弈中,直接决定局中人损益的因素是(A):A. 策略组合;B. 策略;C. 信息;D. 行动。
5、策略式博弈,正确的说法是(B):A. 策略式博弈无法刻划动态博弈;B. 策略式博弈无法表明行动顺序;C. 策略式博弈更容易求解;D. 策略式博弈就是一个支付矩阵。
6. 下列有关策略和纳什均衡的叙述正确的有(ABCD):A. 纯策略是博弈方采取“要么做,要么不做”的策略形式;B. 混合策略是博弈方根据一组选定的概率,在两种或两种以上可能的行为中随机选择的策略;C. 有些博弈不存在纯策略纳什均衡,但存在混合策略的纳什均衡;D. 有些博弈既存在纯策略纳什均衡,也存在混合策略的纳什均衡。
7、古诺模型体现了寡头企业的( C )决策模型。
A 成本B 价格C 产量D 质量8、伯特兰德模型体现了寡头企业的什么决策模型。
BA 成本B 价格C 产量D 质量9、用囚徒困境来说明两个寡头企业的情况,说明了:(C)A、每个企业在做决策时,不需考虑竞争对手的反应B、一个企业制定的价格对其它企业没有影响C、企业为了避免最差的结果,将不能得到更好的结果D、一个企业制定的产量对其它企业的产量没有影响10、子博弈精炼纳什均衡(C ):A. 不是一个一般意义上的纳什均衡;B. 和纳什均衡没有什么关系;C. 要求某一策略组合在每一个子博弈上都构成一个纳什均衡;D. 要求某一策略组合在原博弈上都构成一个纳什均衡。
博弈论十五道题以及答案
博弈论十五道题以及答案1.博弈理论在哪些方面扩展了传统的新古典经济学?2.法律和信誉是维持市场有序运行的两个基本机制。
请结合重复博弈理论谈谈信誉机制发生作用的几个条件。
3.经济发展史表明,在本来不认识的人之间建立相互之间的信任关系是经济发展的关键。
为什么?4.在传统社会中,即使没有法律,村民之间也可以建立起高度的信任。
请结合博弈理论解释其原因。
5.在旅游地很容易出现假货,而在居民小区的便利店则很少出现假货,请结合博弈论的相关理论进行解释。
6.你如何理解“Credible threats or promises about future behavior can influence current behavior”这句话的?7.有效的法律制度对经济发展具有什么作用?请结合博弈理论谈谈你的理解。
8.试用博弈理论解释家族企业为什么难以实行制度化管理?9.固定资产投资为什么可以作为一种可置信的承诺?10.以汽车保险为例谈谈因为信息不对称所可能产生的道德风险问题,并提出一种解决道德风险的方案。
11.以公司为例,谈谈所有者与经营者的分离可能产生的道德风险问题。
12.在波纳佩岛上,谁能种出特别大的山药,谁的社会地位就高,谁就能赢得人们的尊敬并可担任公共职务。
请结合信号传递模型谈谈波纳佩岛上的这种奇异风俗。
13.一位男生在女朋友过生日时送给女朋友三百元人民币,他的女朋友往往感觉受到了侮辱。
而他女朋友可能会欣然接受父母亲的现金礼物。
请解释其中可能的原因。
14.<圣经>(旧约)中记载了两个母亲争夺一个孩子的故事。
一次,两个女人为争夺一个婴儿争扯到所罗门王殿前,她们都说婴儿是自己的,请所罗门王作主。
所罗门王稍加思考后作出决定:将婴儿一刀劈为两段,两位妇人各得一半。
这时,其中一位妇人立即要求所罗门王将婴儿判给对方,并说婴儿不是自己的,应完整归还给另一位妇人,千万别将婴儿劈成两半。
听罢这位妇人的求诉,所罗门王立即作出最终裁决——婴儿是这位请求不杀婴儿的妇人的,应归于她。
博弈论作业
第1次作业1、考虑一个工作申请的博弈。
两个学生同时向两家企业申请工作,每家企业只有一个工作岗位。
工作申请规则如下:每个学生只能向其中一家企业申请工作;如果一家企业只有一个学生申请,该学生获得工作;如果一家企业有两个学生申请,则每个学生获得工作的概率为1/2。
现在假定每家企业的工资满足:W1/2<W2<2W1,则问:a .写出以上博弈的战略式描述b .求出以上博弈的所有纳什均衡(包括混合策略均衡)2、设古诺模型中有n 家厂商。
i q 为厂商i 的产量,12n Q q q q =+++L 为市场总产量。
P 为市场出清价格,且已知Q a Q P P-==)((当a Q <时,否则0=P )。
假设厂商i 生产产量i q 的总成本为i i i i cq q C C ==)(,也就是说没有固定成本且各厂的边际成本都相同,为常数)(a c c <。
假设各厂同时选择产量,该模型的纳什均衡是什么?当趋向于无穷大时博弈分析是否仍然有效?3、两个厂商生产一种完全同质的商品,该商品的市场需求函数为P Q -=100,设厂商1和厂商2都没有固定成本。
若他们在相互知道对方边际成本的情况下,同时作出产量决策是分别生产20单位和30单位。
问这两个厂商的边际成本各是多少?各自的利润是多少?4、五户居民都可以在一个公共的池塘里放养鸭子。
每只鸭子的收益v 是鸭子总数N 的函数,并取决于N 是否超过某个临界值N ;如果N N<,收益N N v v -==50)(;如果N N ≥时,0)(≡N v 。
再假设每只鸭子的成本为2=c 元。
若所有居民同时决定养鸭的数量,问该博弈的纳什均衡是什么?5、三对夫妻的感情状态可以分别用下面三个得益矩阵对应的静态博弈来表示。
问:这三个博弈的纳什均衡分别是什么?这三对夫妻的感情状态究竟如何?矩阵1: 妻子丈夫 活着 死了活着 1,1 -1,0死了 0,-1 0,0矩阵2: 妻子丈夫 活着 死了活着 0,0 1,0死了 0,1 0,0矩阵3: 妻子丈夫活着 死了 活着 -1,-1 1,0 死了0,10,06、两个个体一起参加某项工程,每个人的努力程度[0,1](1,2)i e i ∈=,成本为()(1,2)i c e i =,该项目的产出为12(,)f e e 。
博弈论基础作业及答案
博弈论基础作业一、名词解释纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识见PPT二、问答题1.举出囚徒困境和智猪博弈的现实例子并进行分析。
囚徒困境的例子:军备竞赛;中小学生减负;几个大企业之间的争相杀价等等;以中小学生减负为例:在当前的高考制度下,给定其他学校对学生进行减负,一个学校最好不减负,因为这样做,可以带来比其他学校更高的升学率。
给定其他学校不减负,这个学校的最佳应对也是不减负。
否则自己的升学率就比其他学校低。
因此,不论其他学校如何选择,这个学校的最佳选择都是不减负。
每个学校都这样想,所以每个学校的最佳选择都是不减负,因此学生的负担越来越重。
请用同样的方法分析其他例子。
智猪博弈的例子:大企业开发新产品;小企业模仿;股市中,大户搜集分析信息,散户跟随大户的操作策略以股市为例:给定散户搜集资料进行分析,大户的最佳选择是跟随。
而给定散户跟随,大户的最佳选择是自己搜集资料进行分析。
但是不论大户是选择分析还是跟随,散户的最佳选择都是跟随。
因此如果大户和散户是聪明的,并且大户知道散户也是聪明的,那么大户就会预见到散户会跟随,而给定散户跟随,大户只有自己分析。
请用同样的方法分析其他例子。
2.请用博弈论来说明“破釜沉舟”和“穷寇勿追”的道理。
破釜沉舟是一个承诺行动。
目的是要断绝自己的退路,让自己无路可退,让自己决一死战变得可以置信。
也就是说与敌人对决时,只有决一死战,这样才可以取得胜利。
否则,如果不破釜沉舟,那么遇到困难时,就很有可能退却,也就无法取得胜利。
穷寇勿追就是要给对方一个退路,由于有退路,对方就不会殊死抵抗。
否则,对方退无可退,只有坚决抵抗一条路,因而必然决一死战。
自己也会付出更大的代价。
3.当求职者向企业声明自己能力强时,企业未必相信。
但如果求职者拿出自己的各种获奖证书时,却能在一定程度上传递自己能力强的信息。
这是为什么?由于口头声明几乎没有成本,因此即便是能力差的求职者也会向企业声明自己能力强。
4博弈论基础作业及答案.doc
博弈论基础作业一、名词解释纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识见PPT二、问答题1 •举出囚徒困境和智猪博弈的现实例子并进行分析。
囚徒困境的例子:军备竞赛;中小学生减负;几个大企业之间的争相杀价等等;以屮小学生减负为例:在当前的高考制度下,给定其他学校对学生进行减负, 一个学校最好不减负,因为这样做,可以带來比其他学校更高的升学率。
给定其他学校不减负,这个学校的最佳应对也是不减负。
否则自己的升学率就比其他学校低。
因此,不论其他学校如何选择,这个学校的最佳选择都是不减负。
每个学校都这样想,所以每个学校的最佳选择都是不减负,因此学生的负担越来越重。
请用同样的方法分析其他例子。
智猪博弈的例子:大金业开发新产品;小企业模仿;股市中,大户搜集分析信息,散户跟随大户的操作策略以股市为例:给定散户搜集资料进行分析,大户的最佳选择是跟随。
而给定散户跟随,大户的最佳选择是自己搜集资料进行分析。
但是不论大户是选择分析还是跟随,散户的最佳选择都是跟随。
因此如果大户和散户是聪明的,并且大户知道散户也是聪明的,那么大户就会预见到散户会跟随,而给定散户跟随,大户只有自己分析。
请用同样的方法分析其他例子。
2•请用博弈论來说明“破釜沉舟”和“穷寇勿追”的道理。
破釜沉舟是一个承诺行动。
H的是要断绝自己的退路,让自己无路可退,让自己决一死战变得可以置信。
也就是说与敌人对决时,只有决一死战,这样才可以取得胜利。
否则,如果不破釜沉舟,那么遇到困难时,就很有可能退却,也就无法取得胜利。
穷寇勿追就是要给对方一个退路,由于有退路,对方就不会殊死抵抗。
否则,对方退无可退,只有坚决抵抗一条路,因而必然决一死战。
口己也会付出更大的代价。
3.当求职者向企业声明自己能力强吋,企业未必相信。
但如果求职者拿出自己的各种获奖证书吋,却能在一定程度上传递自己能力强的信息。
这是为什么?由于口头声明几乎没有成本,因此即便是能力差的求职者也会向企业声明自己能力强。
博弈论作业
-10,0 -8,-8
A
坦白
作业6
乙 不犯 甲 不犯 犯 不犯 犯 甲 犯
写出甲的策略集
作业7:田忌赛马
田忌和齐王各有三个马, 下马, 田忌和齐王各有三个马,上,中,下马,齐王 的上中下马分别比田忌的上中下马要好, 的上中下马分别比田忌的上中下马要好,但田 忌的上马比齐王的中马要好, 忌的上马比齐王的中马要好,田忌的中马比齐 王的下马要好。 王的下马要好。 赛三场,每马只能出场一次,胜一场得1分 赛三场,每马只能出场一次,胜一场得 分, 负一场得-1分 负一场得 分。 请写出博弈的标准式, 请写出博弈的标准式,博弈有没有纯策略纳什 均衡? 均衡
作业14 作业
两个厂商生产同质产品,厂商1先定价,厂 两个厂商生产同质产品,厂商 先定价, 先定价 商2后定价,分别为p1,p2 后定价,分别为 后定价 边际成本同为c 边际成本同为 q1=a1-b1p1+d1p2 q2=a2-b2p2+d2p1 求解SPNE 求解
作业15:三个厂商的动态博弈 作业 三个厂商的动态博弈
作业16:三个厂商的动态博弈 作业 三个厂商的动态博弈
P(Q)=a-Q,Q=q1+q2+q3,每个厂商的 每个厂商的 边际成本为C,没有固定成本。 边际成本为 ,没有固定成本。企业按照以 下顺序进行产出决策,( ,(1)企业1和企业 和企业2 下顺序进行产出决策,( )企业 和企业 同时决策产量q1, ,( ,(2)企业3观察 同时决策产量 ,q2,( )企业 观察 到q1,q2后,决策产量 。求解此博弈 , 后 决策产量q3。 的SPNE
a L R
T
1,1 0,0
L b
0,0 0,0
R
B
T
博弈论作业一
博弈论作业一一、判断题1.合作和协调是两个重要的社会问题,协调和合作的关键在于预期。
2.一项改革如果是帕累托改进,则该项改革肯定能够推行;如果仅仅是希克斯—卡而多意义上的改进,则改革不一定能够推行,3.如果交易成为零,则产权结构对资源配置效率无任何影响;如果交易成本为正,则产权结构一定会影响资源配置。
4.法律是一种激励机制,民法和刑法的关键区别在于外部性、制裁的可置信和复仇问题。
5.一个博弈一般由参与人、战略、信息、行动、支付和结果组成,而参与人、战略和支付称为博弈规则。
6.“人不犯我,我不犯人,人若犯我,我必犯人”是一个战略,而“犯人”是一个行动。
7.在单人决策中,一个人能够选择的行动越朵越好;在多人博弈中,一个人能够选择越多不一定越好。
8.在赤壁之战中,如果共同知识是成立的,则苦肉计不可行。
9.一个协议如果是纳什均衡,双方肯定会遵守协议。
因此,执行协议肯定对双方都有利。
10.如果一个博弈存在占优均衡,则均衡一定唯一的;如果剔除严格劣战略可解,均衡也是唯一的。
二简答题1.警察抓小偷. 在十字路口,小偷选择逃往左还是右边。
警察到达时不知道小偷逃跑方向。
他只能选择追过去还是不追。
警察能否抓到小偷完全取决于开始追的方向是正确还是错误,如果开始追对了方向则肯定能追到小偷,反之则不能。
如果警察停止追小偷他的支付为零,如果抓到小偷则支付为1,而如果追了没有追到支付为-1。
小偷被抓到则支付为-1,而没有抓到为1。
现在要求写出该博弈的战略式(标准式)。
2.a.求解所有的纳什均衡b.指出帕累托有效配置,该配置是否可以达到并说明理由。
3.a.该博弈是否有占优战略均衡?b.该博弈是否剔除严格劣战略可解?c.用以上博弈说明剔除严格劣战略的顺序与均衡结果无关。
4..丈夫(player 1)和妻子(player 2)必须独立决定出门是否带伞,下雨和不下雨的概率相同。
每个人的支付规则相同,如果下雨,带伞得-2,不带伞的得-5;如果不下雨,带伞的得-1,不带伞得1。
博弈论习题和参考答案与解析
博弈论?习题一、单项选择题1.博弈论中,局中人从一个博弈中得至口的结果常被称为〔〕. A?效用B.支付C.决策D.利润2.博弈中通常包括下面的内容,除了〔〕.A.局中人B.占优战略均衡C策略D?支付3.在具有占优战略均衡的囚徒困境博弈中〔〕.A.只有一个囚徒会坦白氏两个囚徒都没有坦白C?两个囚徒都会坦白D.任何坦白都被法庭否决了4.在屡次重复的双头博弈中,每一个博弈者努力〔〕.A.使行业的总利润到达最大B?使另一个博弈者的利润最小C?使其市场份额最大D.使其利润最大5.一个博弈中,直接决定局中人支付的因素是〔〕A.策略组合B.策略C信息D.行动6.对博弈中的每一个博弈者而言,无论对手作何选择,其总是拥有惟一最正确行为,此时的博弈具有〔〕0A.囚徒困境式的均衡B.一报还一报的均衡C.占优策略均衡D?激发战略均衡7.如果另一个博弈者在前一期合作,博弈者就在现期合作;但如果另一个博弈者在前一期违约,博弈者在现期也违约的策略称为〔〕.A.一报还一报的策略B.激发策略8.在囚徒困境的博弈中,合作策略会导致〔〕oA博弈双方都获胜B博弈双方都失败C使得先米取行动者获胜D使得后米取行动者获胜9.在什么时候,囚徒困境式博弈均衡最可能实现〔〕oA.当一个垄断竞争行业是由一个主导企业限制时B.当一个寡头行业面对的是重复博弈时C.当一个垄断行业被迫重复地与一个寡头行业博弈时D.当一个寡头行业进行一次博弈时一个企业米取的彳丁为10.与另一个企业在前一阶段采取的行为一致〞这种策略是一种〔〕A.主导策略B.激发策略C.一报还一报策略D.主导策略11-关于策略式博弈,正确的说法是〔〕0A.策略式博弈无法刻划动态博弈B.策略式博弈无法说明行动顺序C.策略式博弈更容易求解D.策略式博弈就是一个支付矩阵12.以下关于策略的表达哪个是错误的〔〕:A.策略是局中人选择的一套行动方案;B.参与博弈的每一个局中人都有假设干个策略;C.一个局中人在原博弈中的策略和在子博弈中的策略是相同的;D.策略与行动是两个不同的概念,策略是行动的规那么,而不是行动本身.13.囚徒困境说明〔〕:A.双方都独立依照自己的利益行事,那么双方不能得到最好的结果;B.如果没有某种约束,局中人也可在〔抵赖,抵赖〕的根底上到达均衡;C.双方都依照自己的利益行事,结果一方赢,一方输;D.每个局中人在做决策时,不需考虑对手的反响14.一个博弈中,直接决定局中人损益的因素是〔〕:A.策略组合B.策略C信息D.行动15.动态博弈参与者在关于博弈过程的信息方面是〔〕A不对称的B对称的C不确定的D无序的16.古诺模型表达了寡头企业的〔〕决策模型A本钱B价格C产量D质量17.伯特兰德模型表达了寡头企业〔〕决策模型.A本钱价格C产量 D 质量18.用囚徒困境来说明两个寡头企业的情况,说明了:〔〕A、每个企业在做决策时,不需考虑竞争对手的反响E. 一个企业制定的价格对其它企业没有影响C、企业为了预防最差的结果,将不能得到更好的结果D、一个企业制定的产量对其它企业的产量没有影响19.子博弈精炼纳什均衡〔〕:A.是一个一般意义上的纳什均衡;B.和纳什均衡没有什么关系;C.要求某一策略组合在每一个子博弈上都构成一个纳什均衡;D.要求某一策略组合在原博弈上都构成一个纳什均衡.20.在一般产品销售市场上,以下哪种原因导致了逆向选择.〔〕A产品质量的不确定性B私人信息C公共信息D产品价格21.完全信息动态博弈参与者的行动是〔〕A无序的B有先后顺序的C不确定的D因环境改变的22.市场交易中普遍存在的讨价还价属于哪种博弈.〔〕A完全信息静态博弈B完全信息动态博弈C不完全信息静态博弈D不完全信息动态博弈23.下面哪种模型是一种动态的寡头市场博弈模型〔〕A古诺模型B伯川德模型C斯塔克尔伯格模型D田忌齐威王赛马24?博弈方根据一组选定的在两种或两种以上可能行为中随机选择的策略为血玄〔、A纯策略B混合策略C激发策略D 一报还一报策略25.影响重复博弈均衡结果的主要因素是〔〕A博弈重复的次数B信息的完备性C支付的大小DA和B26.在动态博弈战略行动中,只有当局中人从实施某一威胁所能获得的总收益()不实施该威胁所获得的总收益时,该威胁才是可信的.A大于B等于C小于D以上都有可能二、判断正误并简要说明理由I,纳什均衡一定是上策均衡,上策均衡一定是纳什均衡.2?在一个博弈中博弈方可以有很多个.3.在一个博弈中只可能存在一个纳什均衡.4.由于零和博弈中博弈方之间关系都是竞争性的、对立的,因此零和博弈就是非合作博弈.5.在一个博弈中如果存在多个纳什均衡那么不存在上策均衡.6.曲于两个罪犯只打算犯罪一次〞所以被捕后才出现了不合作的问题即囚徒困境.但如果他们打算重复合伙屡次,比方说20次,那么对策论预测他们将采取彼此合作的态度,即谁都不招供.7,在博弈中纳什均衡是博弈双方能获得的最好结果.8.在博弈中如果某博弈方改变策略后得益增加那么另一博弈方得益减少.9,纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合.10.囚徒的困境博弈中两个囚徒之所以会处于困境,无法得到较理想的结果,是由于两囚徒都不在乎坐牢时间长短本身,只在乎不能比对方坐牢的时间更长.11.斯塔克博格产量领导者所获得的利润的下限是古诺均衡下它得到的利润.12.在有限次重复博弈中,存在最后一次重复正是破坏重复博弈中局中人利益和行为的相互制约关系〞使重复博弈无法实现更高效率均衡的关键问题.13.子博弈精炼纳什均衡不是一个纳什均衡.14.零和博弈的无限次重复博弈中,可能发生合作,局中人不一定会一直重复原博弈的混合战略纳什均衡.15.原博弈惟一的纳什均衡本身是帕雷托效率意义上最正确战略组合,符合各局中人最大利益:采用原博弈的纯战略纳什均衡本身是各局中人能实现的最好结果,符合所有局中人的利益,因此,不管是重复有限次还是无限次,不会和一次性博弈有区别.16.在动态博弈中,由于后行动的博弈方可以先观察对方行为后再选择行为 ,因此总是有利的.入计算与分析题1、A、B两企业利用广告进行竞争.假设A、B两企业都做广告,在未来销售中,A企业可以获得20万元利润,B企业可获得8万元利润;假设A企业做广告,B企业不做广告,A企业可获得25万元利润,B企业可获得2万元利润;假设A企业不做广告,B企业做广告,A企业可获得10万元利润,B企业可获得12万元利润;假设A、B两企业都不做广告,A企业可获得30万元利润,B企业可获得6万元利润.〔,〕画出A、B两企业的损益矩阵.〔2 〕求纯策略纳什均衡.2、可口可乐与百事可乐〔参与者〕的价格决策:双方都可以保持价格不变或者提升价格〔策略〕;博弈的目标和得失情况表达为利润的多少〔收益〕;利润的大小取决于双方的策略组合〔收益函数〕;博弈有四种策略组合,其结局是:〔1〕双方都不涨价,各得利润10单位;〔2 〕可口可乐不涨价,百事可乐涨价,可口可乐利润100,百事可乐利润-30 ;(3 )可口可乐涨价,百事可乐不涨价,可口可乐利润-20,百事可乐利润30 ;(4 )双方都涨价,可口可乐利润140,百事可乐利润35 ;画出两企业的损益矩阵求纳什均衡.3、假定某博弈的报酬矩阵如下:(1)如果(上,左)是上策均衡,那么,a>?, b>?, g<?, f>?(2 )如果(上,左)是纳什均衡,上述哪几个不等式必须满足4、北方航空公司和新华航空公司分享了从北京到南方冬天度假胜地的市场.如果它们合作,各获得500000元的垄断利润,但不受限制的竞争会使每一方的利润降至60000元.如果一方在价格决策方面选择合作而另一方却选择降低价格,那么合作的厂商获利将为零,竞争厂商将获利900000元.(1)将这一市场用囚徒困境的博弈加以表示.(2 )解释为什么均衡结果可能是两家公司都选择竞争性策略.5、博弈的收益矩阵如下表:⑴如果(上/左)是占优策略均衡/那么a、b、c、d、G、f、g、h之间必然满足哪些关系〔尽量把所有必要的关系式都写出来〕〔2 〕如果〔上,左〕是纳什均衡,那么〔1〕中的关系式哪些必须满足〔3 〕如果〔上,左〕是上策均衡,那么它是否必定是纳什均衡为什么〔4 〕在什么情况下,纯策略纳什均衡不存在6、猪圈里有一头大猪和_头小猪,猪圈的一头有一个饲料槽,另一头装有限制饲料供给的按钮.按一下按钮就会有,0个单位饲料进槽,但谁按谁就要付出2个单位的本钱.谁去按按纽那么谁后到;都去按那么同时到.假设大猪先到,大猪吃到9个单位,小猪吃到一个单位;假设同时到,大猪吃7个单位,小猪吃3个单位;假设小猪先到,大猪吃六个单位,小猪吃4个单位.求〔1〕各种情况组合扣除本钱后的支付矩阵〔2 〕求纳什均衡.7、设啤酒市场上有两家厂商,各自选择是生产高价啤酒还是低价啤酒,相应的利润〔单位:万元〕由以下图的得益矩阵给出:1〕有哪些结果是纳什均衡(2 )两厂商合作的结果是什么8、求出以下博弈的所有纯策略纳什均衡.9、求出下面博弈的纳什均衡(含纯策略和混合10、根据两人博弈的损益绸邛仲I答问题:(1) ◎出两人各自的金部策略.图示均衡点.(2 )求出斯塔克博格rstackelberg )均衡情况下的产量、价格和利润.(3)说明导致上述两种均衡结果差异的原因.13.下面的得益矩阵两博弈方之间的一个静态博弈,该博弈有没有纯策略的纳什均衡,博弈的结果是什么14.两个兄弟分一块冰激凌.哥哥先提出一个分割比例 ,弟弟可以接受或拒绝,接受那么按哥哥的提议分割,假设拒绝就自己提出一个比例.但这时候冰激凌已化得只剩1/2 了,对弟弟提议的比例哥哥也可以接受或拒绝,假设接受那么按弟弟的建议分割,假设拒绝冰激凌会全部化光.由于兄弟之间不应该做损人不利己的是“因此我们假设接受和拒绝利益相同时兄弟俩都会接受.求该博弈的子博弈完美纳什均衡.15?如果学生在测试之前全面复习,考好的概率为90%,如果学生只复习一局部重点,那么有50% 的概率考好.全面复习花费的时间tl = 100小时,重点复习之需要花费t2=20小时.学生的效用函数为:U二W-2巳其中W是测试成绩,有上下两种分数Wh和Wl, e为努力学习的时间.问老师如何才能促使学生全面复习16?在以下监工与工人之间的博弈中,试用划线法分析该博弈有无纯策略纳什均衡;如果没有,那么写出混合策略纳什均衡的结果.监工17 ?求解以下博弈的纳什均衡.博弈方29 18 ?某人正在打一场官司,不请律师肯定会输,请律师后的结果与律师的努力程度有关.假设当律师努力工作〔100小时〕时有50%的概率能赢,律师不努力工作<10小时〕那么只有15%的概率能赢.如果诉讼获胜可得到250万元赔偿,失败那么没有赔偿.由于委托方无法监督律师的工作,因此双方约定根据结果付费,赢官司律师可获赔偿金额的10%,失败那么律师一分钱也得不到.如果律师的效用函数为m 0.05e,其中m是报酬e是努力小时数,且律师有时机本钱5万元.求这个博弈的均衡.四、论述题Is解释"囚犯困境;并举商业案例说明.2、用〃小偷与守卫的博弈"说明〃鼓励〔监管〕悖论"博弈论?习题参考答案>单项选择题r 5 B. B. C.D ' A.11 15. B. C. A.6 10 C. A. A.D. C.16 20 C. B. C.21 26. B. B. C. B. D. A.,判断正误并简要说明理由1. F 上策均衡是比纳什均衡更严格的均衡.所以上策均衡一定是纳什均衡 一定是上策均衡,2. T 博弈类型按局中人数多少分为单人博弈、双人博弈和多人博弈3. IF 博弈双方偏好存在差异的条件下,一个博弈模型中可能存在多个纳什均衡4. T 零和博弈才旨参与博弈各方在严格竞争下,一方收益等于另一方损失与损失之和恒为零,所以双方不存在合作可能性而纳什均衡不 ,如性别战.,博弈各方收益 ,只能有一个5.T上策均衡是通过严格下策消去法〔重复剔除下策〕所得到的占优策略纳什均衡6.IF只要两囚犯只打算合作有限次,其最优策略均为招供.比方最后一次合谋,两小偷被抓住了,由于将来没有合作时机了,最优策略均为招供.回退到倒数第二次,既然已经知道下次不会合作,这次为什么要合作呢.依此类推,对于有限次内的任何一次,两小偷均不可能合作.7.F纳什均衡是上策的集合,指在给定的别人策略情况下,博弈方总是选择利益相对较大的策略,并不保证结果是最好的.团F局中人总是以自己的利益最大化选择自己的策略,并不以对方收益的变化为目标9.T纳什均衡是上策的集合,指在给定的别人策略情况下,没有人会改变自己的策略而减低自己的收益10.F局中人总是以自己的利益最大化选择自己的策略,并不以对方收益的变化为目标11.T虽然斯塔格伯格模型各方利润总和小于古诺模型〞但是领导者的利润比古诺模型时12..T无限次重复博弈没有结束重复确实定时间;而在有限次重复博弈中,存在最后一次重复,并且正是有结束重复确实定时间,使重复博弈无法实现更高效率均衡.13.F子博弈精炼纳什均衡一定是一个纳什均衡.14.F零和博弈的无限次重复博弈中,所有阶段都不可能发生合作,局中人会一直重复原博弈的混合战略纳什均衡.15.T原博弈惟一的纳什均衡本身是帕雷托效率意义上最正确战略组合,因此不管是重复有限次还是无限次,不会和一次性博弈有区别.16.F动态博弈是指各博弈方的选择和行动又先后次序的博弈.动态博弈的信息盯以是不对称的.所以策略分为先发制人和.斯塔克伯格博弈揭示“先发制人〞更有禾L而"后发制人"后行动的博弈方可以先观察对方行为后再选择行为反而处于不利境地.三、计算与分析题Is (1)(2)纯策略纳什均衡为(做广告,做广告),(不做广告,不做广告)得长价-20, 30140,35纳什均衡〔不涨价,不涨价〕,〔涨价,涨价〕.从帕累托均衡角度,为〔涨价,涨价〕3、〔 1〕如果〔上/左〕是上策均衡,那么,a>e b>d, g<c, f>h 〔2 〕如果〔上〕左〕是纳什均衡,a>e b>d,不等式必须满足新华航空北方航空 合作竞争50, 50 90, 00, 90 6, 65、 略纳什均衡为〔按,等〕 7、略8、纯策略纳什均衡〔氏甲〕,〔⑴不存在纯策略纳什均衡合作肓争⑵设甲选择"U"的概率为概率为1-P1乙选择"『的概率为P2,贝V选择" R" 的概率为1-P2对甲而言,最正确策略是按定的概率选〃上"和‘下’,使乙选择“左〃和〃右"的期望值相等即PI*8+ (l-PI) *0-P1*1+ (1-P1) *5解得PI = 5/12即⑸12, 7/12 )按5/12概率选〃上“、7/12概率选〃下"为甲的混合策略Nash均衡对乙而言,最正确策略是按一定的概率选“左“和“右",使乙选择〃上"和‘下’的期望值相等即P2*5+(l-P2)*0- P2*2 + (l-P2)*4即(4/7, 3/7肢4/7概率选‘左’、3/7概率选"右"为乙的混合策略Nash均衡10、略.11、见笔记12、见笔记.13、首先,运用严格下策反复消去法的思想,不难发现在博弈方1的策略中,B是相对于T的严格下策.把博弈方1的B策略消去后又可以发现,博弈方2的策略中C是相对于R的严格下策,从而也可以消去.两个博弈方各消去一个策略后的博弈是如下的两人2X 2博弈,己经不存在任何严格下策.再运用划线或箭头法,很容易发现这个2X2博弈有两个纯策略纳什均衡(M,L )和(1R ) 0由于两个纯策略纳什均衡之间没有帕累托效率意义上的优劣关系,一次性静态博弈的结果不能肯定.由于双方在该博弈中可能采取混合策略,因此实际上该博弈的结果可以是4个纯策略组合中的任何一个.14.假设哥的方案是SI: 1-S1淇中S1是自己的份额,弟的方案是S2: 1-S2, S2是哥的份额,那么可用如下的扩展形表示该博弈:Hi SiC5V2eS? 2)CO O)运用逆推归纳法先分析最后一阶段哥的选择.由于只要接受的利益不少于不接受的利益哥就会接受,因此在这个阶段只要弟的方案满足S2/2 $0,也就是S2$0,哥就会接受,否那么不会接受.由于冰激凌的份额不可能是负数,也就是说由于哥不接受弟的方案冰激凌会全部化掉〞因此任何方案哥都会接受.现在回到前一阶段弟的选择.由于弟知道后一阶段哥的选择方法,因此知道如果不接受前一阶段哥提出的比例,自己可以取S2=0,独享此时还未化掉的1/2块冰激凌;如果选择接受前一阶段哥的提议,那么自己将得到出1,显然只要l-Sn/2 ,即S1W1/2,弟就会接受哥的提议.再回到第一阶段哥的选择.哥清楚后两个阶段双方的选择逻辑和结果 ,因此他在这一阶段选择Sl = 1/2,正是能够被弟接受的自己的最大限度份额,超过这个份额将什么都不能得到,因此SI二1/2是最正确选择.综上,该博弈的子博弈完美纳什均衡是:哥哥开始时就提议按(1/2J/2)分割,弟弟接受.15.此题中老帅的调控于段高分和低分的差距.该博弈的扩•展形如下:只有当Ul» U2时学生才会选择全面复习.根据Ul» U2我们可以算出Wh- WD 400o这就是老师能有效全面复习需要满足的条件.其实在奖学金与成绩挂钩时,Wh- W1也可以理解成不同等奖学金的差额.16泄有纯策略均衡,只有混合策略均衡((0. 25,0.75 ),(0. 5,0. 5 ))17. 可以根据画线法求得有唯一纯策略均衡(上,左)18.参见第15题四、论述题1、解释〃囚犯困境〃,并举商业案例说明.(1)假设条件举例:两囚徒被指控是一宗罪案的同案犯.他们被分别关在不同的牢房无法互通信息.各囚徒都被要求坦白罪行.如果两囚徒都坦白,各将被判入狱5年;如果两人都不坦白,两囚徒可以期望被从轻发落入狱2年;如果一个囚徒坦白而另一个囚徒不坦白,坦白的这个囚徒就只需入狱1年,而不坦白的囚徒将被判入狱10年.(2)囚徒困境的策略矩阵表.每个囚徒都有两种策略:坦白或不坦白.表中的数字分别代表囚徒甲和乙的得益.囚徒乙3〕分析:通过划线法可知:在囚徒困境这个模型中,纳什均衡就是双方都〃坦白〃.给定甲坦白的情况下,乙的最优策略是坦白;给定乙坦白的情况下,甲的最优策略也是坦白.这里双方都坦白不仅是纳什均衡,而且是一个上策均衡,即不管对方如何选择,个人的最优选择是坦白.其结果是双方都坦白.4〕商业案例:寡头垄断厂商经常发现它们自己处于一种囚徒的困境.当寡头厂商选择产量时,如果寡头厂商们联合起来形成卡特尔,选择垄断利润最大化产量,每个厂商都可以得到更多的利润.但卡特尔协定不是一个纳什均衡,由于给尢双方遵守协议的情况下,每个厂商都想增加生产,结果是每个厂商都只得到纳什均衡产量的利润,它远小于卡特尔产量下的利润.2用〞小偷与守卫的博弈〃说明〃鼓励〔监管〕悖论〃.〔1〕假设条件举例:偷窃和预防偷窃是小偷和门卫之间进行博弈的一场游戏.门卫可以不睡觉,或者睡觉.小偷可以采取偷、不偷两种策略.如果小偷知道门卫睡觉, 他的最正确选择就是偷;如果门卫不睡觉,他最好还是不偷.对于门卫,如果他知道小偷想偷,他的最正确选择是不睡觉,如果小偷采取不偷,自己最好去睡觉.〔2 〕小偷与门卫的支付矩阵表〔假定小偷在门卫睡觉时一定偷成功,在门卫不睡觉时偷一定会被抓住〕:。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
课程名称:信息经济学与博弈论课程编号:SX0071F23 课程类型:非学位课考核方式:考查学科专业:管理科学与工程年级:2014 级姓名:学号:10076140185河北工程大学2014 ~ 2015学年第2学期研究生课程论文报告基于GA一RL的进化博弈求解主从博弈结构的供应链协调问题摘要:供应链协调问题多数基于主从博弈结构建模,但如果研究对象是相对复杂的供应链结构,理论求解主从博弈问题就变得困难。
因此从求解一对一的供应链协调问题开始,针对主从博弈问题的特点,利用个体学习的进化博弈仿真手段,设计了经销商利用经验分布的预期随机需求的信念更新模式与最优反应的决策模式,为生产商分别设计了基于强化学习的信念更新模式与基于遗传算法搜索策略空间的决策模式,并将两者有机结合,取得了博弈问题的均衡解并且验证该解与理论求解结果一致,为进一步求解复杂问题提供了新的途径。
关键词:供应链协调;进化博弈论;强化学习(RL);遗传算法(GA)Coordinating supply chain of Stackelberg game model based on evolutionary game with GA一RL Abstract: Problems of coordinating supply chain are based on Stackelberg game model, but if research object is complex supply chain, it is difficult to find equilibrium of Stackelberg game ,so evolutionary Game theory was introduced. According to characteristics of leaders and followers in Stackelberg game model, learning Meehan is designed for each Player respectively. An algorithm of reinforcement learning combined with genetic searching is proposed for leaders, and a learning model of best一reply is designed for followers(retailers).Keywords: supply chain coordination; evolutionary game theory; reinforcement learning(RL);genetic algorithm(GA)1引言供应链协调问题是研究如何订立协调机制使分散控制的供应链中个体与整体之间的目标一致,解决供应链中企业个体自身的优化目标与供应链整体的最优解相冲突的状况。
目前关于不同协调机制研究可以分为以下几类,一类是根据数量给予价格折扣,如根据经销商的销售量给予目标折扣(Sale re-bate)的问题[1],根据订货量给予线性折扣(Quantity discount)的问题[2];第二类是根据订货周期给予价格折扣,依据订货周期(order frequency)实行价格折扣的分销系统协调机制[3],为了分散供应商的库存风险,提供给提前定货经销商价格折扣,建立单周期模型研究在需求的不确定有限情况下生产商制定合适的价格折扣激励经销商提早订货[4],在他的模型里生产商可以改变经销商竞争状态(领导/跟随);第三类是弹性的订货数量,如弹性订货经销商可以以全部价格退还商品,类似的回购契约[5]经销商可以一定的折扣价格退还未售出的商品。
但由于数学求解的困难,上述模型多数是针对两周期一对一的供应链问题,并且很多研究也只证明了哪种形式的协调机制可以协调供应链[6],但协调机制的参数如何制定却无法给出.而现实中的供应链往往是包括多个企业的链状和网状结构,解决这类问题应用数学建模与理论求解有相当的难度,因此本文尝试应用进化博弈的分析框架[7]。
本文在对目标数量折扣问题证明与求解的基础上,通过进化博弈的手段求解这类问题的均衡,为求解复杂的供应链协调问题提供一个新的途径。
而对于进化博弈领域,基本没有对效用函数结构复杂博弈问题的研究。
因此对于个体学习的进化博弈也是一种新的尝试。
2模型假定模型中包括一个生产商(上游企业)和一个经销商(下游企业),他们都是风险中性的,面对的是报童问题(连续随机需求的订货问题):经销商必须在随机需求发生之前订购一定数量的产品.因此模型可以理解为如下过程:生产商向经销商提出某种协调机制形式和参数;假设这种协调机制被经销商接受,于是经销商在此基础上提出一定数量的订货[8]。
模型参数设置如下:q=经销商的订货量,p=经销商制定的市场零售价格,D=市场需求,分布为F(),需求的期望值为μ, c r=经销商每件产品的边际成本, C s=生产商每件产品的生产成本, g r=经销商的边际缺货损失成本, g s=生产商缺货损失成本,v=期末未售出产品残值令c=c r+c s, g=g r+g s,T=调机制(生产商与经销商之间的转移支付) [9]。
定义期望销售量:S q=Emin q,D=q1−F q+yf y dy=q0q−F yqdy期望剩余库存:I q=E q−D=q−S q期望缺货量:L q=E D−q=μ−S q因此经销商期望利润为:Eπγq,T=pS q+vI q−g r L q−c r q−T=p−v+g r S q−c r−v q−g rμ−T假设供应商可以保证任何可能发生的订货,则生产商的期望利润为[10]:Eπs q,T=T−g s L q−C s q=g s S q−g sμ−C s q+T供应链的整体利润就是企业的利润之和,即:Eπq=Eπγq,T+EπS q,T=P−v+g S q−gμ−c−v q 上述模型相当于一种生产商作为领导者的主从博弈间题.博弈过程分成两个阶段,第一阶段生产商决定决策变量一协调机制T的参数;第二阶段经销商观测到生产商的决策后,确定决策变量一订货量q。
作者已根据主从博弈的理论求解方法一逆向归纳法,从理论上求解博弈问题的均衡解为:q 0, q 0,πγ qW −πγ q 0 ωq 03进化博弈仿真求解供应链协调问题供应链协调问题的过程可以描述为:首先,生产商选择自己的行动一某种协调机制形式和参数;然后,经销商在此基础上选择自己的行动一订货量:最后,经销商销售产品,在销售周期结束之后,实现了市场的需求,经销商与生产商分别获得相应的收益一个基本的进化博弈模型的分析框架为:决策者在博弈重复进行的过程中,只能观察到部分外界环境和对手的信息,决策者 根据一定的信念更新规则对未来的收益做出预期,然后根据预期采取某种决策规则进行决策[11]。
因此针对供应链协调问题设计进化博弈实验模型的结构为:生产商根据对收益或者经销商订货量的预期采取行动:对经销商来讲,生产商的行动已知,经销商面对的是未知的随机需求,因此在决策之前根据对需求做出一定预期,而采取相应的订货量;最后根据需求、经销商的订货量、生产商的协调机制分别产生的经销商与生产商的利润;生产商根据历史上经销商的订货量和自己获得的利润,更新对它们预期,经销商则根据历史的需求信息,更新对需求的预期,通过决策规则确定下一周期的行动,进入下一周期的博弈[12]。
3.1经销商学习机制预期需求方法经销商在每个周期的博弈中面对的只有未知的随机需求,这里以经验分布作为对需求分布的预期.这种预期方法本质上是决策者对某一需求量发生的概率的预期,这个概率是这个需求量在历史上出现的频率。
[13]因此,如果在周期艺发生需求为d,,那么更新需求d 发生的概率Pt(d:)的预期:P t d i =p t −1 d i × t −1 +1t , P t d i =p t −1 d i × t −1 t ,j ≠i决策规则经销商在知道生产商的行动之后,并对每一个需求量发生的概率预期为尸(司,采取最优反应的决策规则在离散的需求分布下,经销商在生产商给定一定的目标数量折扣T 万时,最优订货量Q 满足:P d Q d=0≥p +g −c p +g −v ≥ P d Q −1d=0经销商学习机制算法形式如下:l)在博弈的开始艺t=0时,初始化对于需求的预测p 0 d i =0;2)重复(a)按照最优反应决策准则确定行动q t =argmax πt q r |T,σ,P d(b)如果在时刻t 发生需求为d,。
那么更新对于需求发生概率的预期为p t d i =p t −1 d i × t −1 +1, p t d i =p t −1 d i × t −1 , j ≠i 3.2生产商学习机制在进化博弈的分析中,个体的学习机制以强化学习为主,但传统的强化学习通常采取贪婪策略,对于初始状态有很强的依赖性,导致搜索广度不足.因此,本文引入遗传算法作为决策规则,遗传算法中采取复制,变异与交叉的策略来搜索策略空间,其中复制保留下了优良解的特点,而变异和交叉策略恰恰保证了对策略空间的搜索广度[14]。
信念更新规则—强化学习每一轮博弈之后。
生产商根据自己的历史策略与利润,采取强化学习更新行动.定义生产商的每一个行动的倾向值函数。
每个阶段博弈之后,生产商根据历史行动与利润,更新每一个行动的预期收益函数,得到的实际收益为:time t a i=time t−1a i+`1 ,πt a i=πt−1a i×time t−1a i+πt a it i对其他行动a j,j≠itime t a j=time t−1a j, πt a j=πt−1a j决策规则—遗传搜索策略当采取传统的遗传算法,利用每一轮博弈中企业得到利润函数作为适应值,因为外部的需求是一个随机变量,企业每一周期的利润会随着需求而波动,因此这种适应值会受短期利润的干扰。
因此将强化学习中对利润的预期反(。
,),作为遗传算法的适应值,并借鉴遗传算法的种群复制、交叉、变异规则,产生新策略。
遗传算法需要选定一组行动作为种群,对种群中的每个行动都要计算适应值,对于博弈问题,需要对每个行动都进行一次博弈,这里有两种可行的处理方法:其一为设置对应种群个数的个体,在每一轮博弈中,每个个体与对手随机匹配,进行博弈得到利润,进而计算每个个体在这一轮博弈中行动的适应值;第二种方法是,在确定一个种群之后,重复进行博弈,每一轮博弈中,决策者轮流采取种群中的行动,进而得到利润计算适应值。
当一个种群中的所有行动都完成博弈,按照遗传算法的规则产生下一代群体,继续进行博弈.在本文的模型中,我们选择的是第二种处理方法,为了区别遗传算法的遗传代数与博弈的周期,用坛表示代数.产生下一代种群的遗传规则依次为:复制规则:按照轮盘赌规则将种群中个体复制到下一代种群中[15];被选择保留下来交叉规则:因为生产商的行动空间为目标订货量与折扣系数,交叉操作就是在复制后产生的种群中,以交叉概率p。