完全信息静态博弈及其纳什均衡解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
此时的期望收益均为 0.75.
例 6.警察与小偷的故事。 特征:零和博弈。 小偷 警察 A B 3,0 1,2 2,1 3,0 A B
给定警察选择 A 地的概率 p,B 地的概率 1-p, 小偷: Ua=2(1-p) Ub=p Ua=Ub: p=2/3 给定小偷选择 A 地的概率为 q,B 地 1-q, 警察: U’a=3q+2(1-q) U’b=q+3(1-q) U’a=U’b: Q=1/3 于是警察的期望收益:7/3;小偷的期望收益:2/3.
第三章 完全信息静态博弈及其纳什均衡解 1. 完全信息静态博弈 定义 3.1.完全信息静态博弈。完全信息静态是指,博弈中的参与人同时采取行动,或 者尽管参与人行动的采取有先后顺序, 但后行动的人在行动时不知道先采取行动的人采取的 是什么行动; 同时博弈参与人的策略空间及策略组合下的支付是博弈中所有参与人的 “公共 知识” 。 两个特点: (1)静态; (2)完全信息。 完全信息静态博弈例子。 例 1:锤子-剪刀-布 例 2:交通行驶 甲 乙 左 右 1,1 0,0 0,0 1,1 左 右
拳击 q
歌剧 1-q
3,1 0,0
0,0 1,3
三个均衡:两个纯策略均衡(拳击,拳击)和(歌剧,歌剧)和一个混合策略均衡(随机策 略均衡): 若妻子选择“拳击”: U2’=1*p+0*(1-p) 若妻子选择“歌剧” U2’’=0p+3(1-p) U2’=U2’’ P=0.75 同样可得:q=0.25 混合策略均衡为(0.75[拳击]+0.25[歌剧],0.25[拳击]+0.75[歌剧])
5. 案例: 例 7.古诺模型。 两个厂商同时行动, 各自决定产量。 市场需求函数为 p=a-Q。 厂商的单位产品的成本 c。 这些是他们的公共知识。问:厂商所决定的生产产量 q1,q2 是多少采纳使他们利润最大? 分析:利润 L1,2=p× q1,2-c× q1,2 =(a-Q)× q1,2-c× q1,2 其中 Q=q1+q2
齐王 田忌 上中下 上下中 中上下 中下上 下上中 下中上
上中下
上下中
中上下
中下上
下上中
下中上
-3,3 -1,1 -1,1 -1,1 1,-1 -1,1
-1,1 -3,3 -1,1 -1,1 -1,1 1,-1
-1,1 1,-1 -3,3 -1,1 -1,1 -1,1
1 ,-1 -1,1 -1,1 -3,3 -1,1 -1,1
甲 乙 鹰 鸽


-3,-3 -2,2
2,-2 -1,-1
6.均衡的拓展:谢林的聚点均衡与奥曼的相关均衡 博弈论所研究的模型是现实的抽象。博弈论专家研究博弈期目的是为了预测,预测博
6
弈参与人的策略选择及博弈结果。然而,当一个博弈包含不止一个纳什均衡时,我们往往无 法对之预测。 为了解决这个问题,博弈论专家进行尝试。 焦点效应。在一个具有多重均的博弈中,某些事情使得一个博弈的参与人将注意力集 中到一个均衡,使他们预期并实现这个均衡,这便是谢林所说的焦点效应。 一个焦点均衡(focal equilibrium)就是一个具有某种使它显著地区别于所有其他均 衡之性质的均衡。 焦点又称为谢林点(Schelling point) ,这一概念最早由诺贝尔奖获得者谢林于 1960 年在《冲突的策略》一书中提出: “人们如果得知别人也正试图做出和自己同样的行为时, 常常能使他们的意图或期望达成一致。 大多数情况——或许每一种情况都能为此种博弈参与 人的合作提供一些线索,为每个人的期望提供‘聚点’ (focal point) ,其中每个人的期望 1 是别人期望他期望被期望去做的事。 ” 也就是说,聚点是在协调博弈中博弈参与人通过相互 期望所做出的共同选择形成的那个均衡点, 它显示出了博弈中人们在没有沟通的情况下的共 同选择倾向;或者说聚点就是参与人所选的最突出的那个解。 焦点均衡的两个例子。 例 1.谢林曾经有过这样的实验: “请选择下列数字中的一个,如果你们的选择相同,你们都将获胜。 ” 7 100 13 261 99 555 2 实验结果是在 41 人中 37 人选择了前三项,7 略微领先于 100,13 位于第三位。 可以看 出,在这三项中,选择人数按数字排列的位置呈递降趋势。在谢林的实验中,聚点在选择第 一个数上形成,协调博弈的结果与被选择对象呈现的次序有关。 “如果问到在所有正数当中 哪个是最明显独特的, 或者什么样的选择规则将导致明确结果, 人们将会受到这种事实的强 3 烈影响:即最普遍的选择是‘第一个’或‘最小’的那个正数。 ” 谢林进行的其他一系列实验也验证了这种“位置优先性” :在“正面”和“反面”二者 之间,聚点在选择“正面”形成;在十六个方块列成的矩阵之间,聚点在选择第一个方块时 形成。从谢林的实验可以看出,在无差异的选择对象之间,被试往往倾向于选择位置处于第 一个的对象。 另外的例子。 我们进行了一个关于协调博弈的实验: 请从‘2、7、8、9’这 4 个数字中选出一个数字,若你所选的数字为在座的同学中最多 的人所选的,那么你将是获胜者,请解释你的选择。 该博弈作为南京大学文化素质课“逻辑与科学方法基础”选课学生考试题之一,即该实 验是在考试中进行的 (本题略带欺骗的性质, 因为学生预先不知道该题做任何选择都给满分) 。 实验总人数:167 人。在实验之前,学生没有听说过该类测试,在实验中学生之间没有任何 交流。
表1 数字 人数 比例(%) 2 54 32.34% 7 15 8.98% 8 86 51.50% 9 7 4.19 其他 5 2.99%%
*
*
-1,1 -1,1 -1,1 1,-1 -3,3 -1,1
-1,1 -1,1 1,-1 -1,1 -1,1 -3,3
均衡策略是:齐王与田忌均随机化他的出马顺序,即双方都应当采取混合策略。对于齐
3
王与田忌,将“上” 、 “中” 、 “下”安排在第一次、第二次及第三次的概率是相同的,均为 1/3。每次比赛是上述 36 个可能性中的一个,并且它们是等可能性的。因此,当他们采取这 样的均衡策略下, 齐王能够 “赢” 的概率为 30/36=5/6, 田忌能够 “赢” 的概率为 6/36=1/6。 此时, 田忌的期望收益为:-3*6/36+1*6/36+-1*6/36=-1, 齐王的期望的收益为 1 例 2:交通通行中有三个纳什均衡点。这三个均衡为(左,左) 、 (右,右)和甲乙均以 1/2 走“左” ,1/2 的概率走“右” 。
非“完全信息静态博弈”例子:英式拍卖——动态博弈;第一密封价格及第二密封价格 拍卖——不完全信息博弈。 2. 纳什均衡及其判定 定义 3.2 纳什均衡。在一个 n 人博弈的标准式 G={S1,S2,„,Sn; u1,u2,„,un}中,一个 * * * * * * * * 策略组合{s1 ,s2 ,„,sn },若满足 ui(s1 ,„,si ,„sn )≥ui(s1 ,„si,„,sn )(i=1„n) ,则 * * * 称这个策略组合为{s1 ,s2 ,„,sn }为该博弈 G 的一个纳什均衡。 某策略组合是纳什均衡指的是, 在该策略组合上任何一个参与人的收益在其他人策略不 改变的情况下都至少是弱优的。 特点: (1)每个人没有单独改变策略的动机; (2)局部最优。 纳什均衡判定方法:用定义来判定:某点是均衡看它是否符合纳什均衡的定义。 求解纳什均衡的方法: (1)剔除严格被占优策略。 例 3:囚徒困境 甲 乙 不合作 2,2
1
不合作
合作
1,4
ຫໍສະໝຸດ Baidu
合作
4,1
3,3
缺点:只有当仅有一个纯策略均衡点的时候,该方法才是有效的。 (2)用定义来求解 (3)对于策略空间为连续的博弈,用求极值的方法来求得。
3. 纳什均衡存在定理: (纳什)定理 3.1.在一个 n 人博弈的标准式 G={S1,S2,„,Sn; u1,u2,„,un}中,如果 n 是 有限的,且对每个 i, Si 是有限的,则博弈至少存在一个纳什均衡。这里的均衡可能包含混 合策略均衡。 证明:略 例子 3:囚徒困境的均衡 例 1: “锤子-剪刀-布”的均衡?
2
与人采取某个策略的意志或忠诚程度。 混合策略体现了参与人选择纯策略的不确定性, 它的引入使博弈有完美的数学解。 然后, 该概念自上世纪 80 年代一直被人们认为“直觉上有问题的” 。混合策略的核心是随机性。但 它缺乏支持:人们怎么会通过投掷骰子来进行选择呢?人们不会随身带着随机发生器。 三个解释:第一,Ariel Rubinstein(1991)解释说,它反映我们对参与人的信息和进 行决策的过程没有足够的知识;但这种解释不令人满意。第二,想象一个参与人群体。混合 策略反映被选择的纯策略的分布;但这种解释不能说明个体进行这样选择时的选择。第三, Aumann and Brandenburger (1995)将纳什均衡重新解释成信念中的均衡而不是行动中的均 衡:参与人对其他人采取各个策略的可能性的信念。这种解释弱化了纳什均衡的解释力,因 为这是可能的:在这样的均衡中每个参与人实际上采取纯策略。 混合策略均衡案例: 例 4.田忌赛马 分析: 1. 田忌每次均输,是因为他采取了纯策略,对方也采取了纯策略——不是均衡点(表 中的对角线上的点) ; 2. 田忌改变策略,采取了孙膑的方法,偏离均衡点,此时,在对方不改变策略的情况 下收益提高,而获胜。此点(如图中*标明的点)是均衡点吗? 3. 均衡策略是什么?
5
因此,原问题变为: 求 L1,2=(a- q1-q2)× q1,2-c× q1,2 极值 根据纳什均衡定义,均衡点处满足: dL1,2/dq1,2=0 于是: q1,2=(a-c)/3
Q=q1+q2 P=a-Q
假如市场上只有一个企业,即:垄断下的市场情况如何: 企业所确定的产量为 Q: L=pQ-cQ =(a-Q)Q-cQ dL/dQ=0:a-Q-Q-c=0 Q=(a-c)/2 (小于两个企业的产量总和:2(a-c)/3) 此时的价格为:p=(a+c)/2 (大于两个企业时的价格:(a+2c)/3) 2 2 利润为(a-c) /4,(大于两个企业时的利润之和:2(a-c) /9) 例 8.鹰鸽博弈 三个均衡:(鹰,鸽)、(鸽,鹰)及一个混合策略均衡。
甲 乙 锤子 剪刀 布
锤子
剪刀

0,0 -1,1 1,-1
1,-1 0,0 -1,1
-1,1 1,-1 0,0
4. 混合策略与混合策略的均衡 纯策略与混合策略概念。 定义.3.3.一个策略是纯策略指的是参与人策略空间中的某个确定策略;而一个混合策 略是参与人策略空间上的一个概率分布,一般地,某个人 i 的策略空间为{si1,si2,„,sik}, 则参与人 i 在策略空间上的一个概率分布 pi=(pi1,pi2,„,pik)构成他的一个混合策略,其中 pi1+pi2+„+pik=1。 如:在取经的过程中猪八戒的策略空间为{西天取经,散伙(回高老庄)}, “采取西天 取经” (或“采取回高老庄” )是纯策略。而“70%的可能性采取西天取经、30%的可能性回高 老庄”为猪八戒的一个混合策略。沙僧采取纯策略(西天取经) ;而孙悟空也在采取混合策 略,只不过“西天取经”的概率比较高。由此可见,这里的混合策略中的概率分布体现了参
1 2 3
T. C. Schelling,The Strategy of Conflict. Harvard University Press, 1960, pp: 57. T. C. Schelling,The Strategy of Conflict. Harvard University Press, 1960, pp: 56. T. C. Schelling,The Strategy of Conflict. Harvard University Press, 1960, pp: 94. 7
4. 混合策略均衡的计算 因为参与人决不会使用较低期望支付的策略, 在一个纳什均衡中, 如果参与人的两个纯 策略都有正的概率,那么这两个策略在这个均衡中一定给他相同的期望支付。即在均衡中, 一个参与人必须对他在其随机策略中具有正概率的策略表现出无差异。 例 5.性别之战。
妻子 丈夫 拳击 p 歌剧 1-p
相关文档
最新文档