1.完全信息静态博弈实验指南(2020)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
西方经济学实验一:完全信息静态博弈实验指南
一、博弈论概述
博弈论(game theory)又被称为“对策论”、“赛局论”。博弈论是研究相互依赖、相互影响的决策主体的理性决策行为及这些决策的均衡结果的理论。
博弈主要包括局中人、行动、信息、战略、支付(效用)、结果和均衡等要素,其中,局中人、战略和支付是描述一个博弈所需的最少要素。局中人、行动和结果统称为“博弈规则”。
(1)依据博弈参与者相互作用时能否达成一个具有约束力的协议,可将博弈分为合作博弈和非合作博弈。如果有具有约束力的协议,就是合作博弈;如果没有,就是非合作博弈。
(2)依据博弈局中人行为的时间序列性,可将博弈分为静态博弈、动态博弈两类。静态博弈是指在博弈中,局中人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
(3)按照局中人对其他局中人的了解程度,可将博弈分为完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈过程中,每位局中人对其他局中人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果局中人对其他局中人的特征、策略空间及收益函数信息了解得不够准确,或者不是对所有局中人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。
目前经济学家们所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博理论复杂,在理论上的成熟度远远不如非合作博弈论。非合作博弈可分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈,其对应的均衡概念和理论研究的代表人物如表1所示。
(1)纳什均衡
纳什均衡(Nash equilibrium)的核心思想是:博弈的理想结局是,每个局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中人都不能因单方面改变自己的策略而获益。
纳什均衡有一个很重要的特点,是可以自我实施的,即信念和选择之间的一致性。就是说,基于信念的选择是合理的,同时支持这个选择的信念也是正确的。如果所有人都认为这个结果会出现,这个结果就真的会出现。
如果局中人事前达成一个协议,在不存在外部强制的情况下,每个人都有积极性遵守这个协议,这个协议就是纳
(2)混合战略纳什均衡
工人
偷懒 不偷懒
老板
监督 不监督员工不偷懒、老板不监督是最好的(总收益最大)但如果员工知道老板不监督,员工则偷懒;如果老板知道员工偷懒,老板则监督……形成一个循环。
假如老板认为员工偷懒的概率是P ,不偷懒的概率是1-P ,
从老板的角度看,监督的预期收益是: 1×P+(-1)×(1-P)=2P-1……(1) 不监督的预期收益为: (-2)×P+2×(1-P)=1-4P ……(2) 令(1)=(2),得P=1/3,这时,员工选择以1/3的概率偷懒,2/3的概率不偷懒,老板监督与不监督,老板的收益一样的。
假如员工认为老板监督的概率为Q ,不监督的概率为1-Q ,
这时,从员工的角度,偷懒的预期收益是: (-1)×Q+3×(1-Q)=3-4Q (3)
不偷懒的预期收益为: 2×Q+2×(1-Q)=2 (4)
要使员工的选择在这两者之间无差异,则令(3)=(4),得Q=1/4;意味着老板以1/4的概率监督,3/4的概率不监督,员工的的收益一样的。
因此,混合战略纳什均衡是:员工以1/3的概率偷懒,2/3的概率不偷懒;老板以1/4的概率监督,3/4的概率不监督。
***纳什均衡的存在性问题:(一般存在奇数个纳什均衡)
1、每一个有限博弈至少存在一个纳什均衡(纯战略或混合战略);
2、如果一个博弈存在两个纯战略纳什均衡,那么,一定存在第三个混合战略纳什均衡。 (3)高风险下的纳什均衡
在一些特殊情况下,即使犯错误的可能性很小也可能导致大的灾难(比如核电站,出问题就非常严重),纳什均衡就可能不会产生有说服力的解释。考虑如下博弈:
乙
甲
上下 这个例子说明,个体可能不想我们所假设的那样完全理性,在遇到高风险的情况下,人们会考虑风险,从而使得最终结果可能偏离纳什均衡战略。
(4)占优策略均衡
在一些特殊博弈中,一个局中人的最优策略选择可能并不依赖于其他局中人的策略选择,即无论其他局中人选择什么策略,他的最优策略是唯一的,这种最优策略被称为“占优策略”。该策略只要求行动者是理性的,对手是否理性不作要求。
在一个博弈里,如果所有局中人都有占优策略存在,那么占优策略均衡是可以预测到的唯一的均衡,因为没有一个理性的局中人会选择劣策略。
(5)重复剔除占优均衡
“劣”战略:无论对方选择什么,如果自己选择A 得到的收益总是小于选择B 得到的收益,A 就是相对于B 的劣战略。把这个劣战略剔除;然后再剔除剩下的博弈中对手的劣战略;继续这个过程,直到没有劣战略存在。如果剩下
的战略组合是唯一的,这个唯一的战略组合就是“重复剔除占优均衡”。
最初的智猪博弈收益矩阵
首先剔除小猪行动劣策略所得的收
益矩阵为: 其次,再剔除了大猪等待劣策略的
智猪博弈均衡
小猪
小猪 小猪
大猪 行动大猪 行动 大猪
行动等待等待 等待
理性共识:
0阶理性共识:每个人都是理性的,但不知道其他人是否是理性的;
1阶理性共识:每个人是理性的,并且知道其他每个人也都是理性的,但并不知道其他人是否知道自己是理性的;
2阶理性共识:每个人是理性的,并且知道其他每个人也都是理性的,并且知道其他人知道自己是理性的,但不知道其他人是否知道自己知道其他人都是理性的……三阶、四阶……n 阶依次类推。
重复剔除不仅要求每个人是理性的,而且要求每个人知道其他人都是理性的,每个人知道每个人知道每个人是理性的,如此等等,即理性是“共识”。
(1)囚徒困境:
假定有两个犯罪嫌疑人共同作案。警察抓住他们以后,分开拘押,并告诉他们:可以选择坦白,或是不坦白;如果一个人坦白,而另一个人不坦白,则坦白的一方会被立即释放,而不坦白的一方被判10年;如果两人都坦白,则会每人各判8年;如果两人都抵赖,因证据不足,则每人在关押1年后释放。那么,这两个犯罪嫌疑人该如何选择呢?该博弈体现了哪种均衡?
乙
甲
坦白 不坦白
我们假设局中人是理性的,都不想坐牢,能少坐牢尽量少坐牢。我们先考虑甲的选择,他面对的问题是:如果乙坦白的话,自己坦白判8年,不坦白判10年,那么坦白比不坦白好;如果乙不坦白,自己坦白会被立即释放,不坦白则判1年,坦白还是比不坦白好。因此,不论对方坦白不坦白,甲或乙自己的最优选择都是坦白。由囚徒困境我们可以看出,一个人的最优选择并不依赖于他人的选择,因此囚徒困境博弈有占优均衡,所以其结果很容易预测。
(2)智猪博弈
假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,谁先按按钮,谁会后到食槽边。而且按按钮的那一方就少吃2个单位的食物(按按钮的成本),若大猪按按钮,那么小猪先到槽边,大小猪吃到食物的收益比是4∶4,如果两只猪同时按按钮,它们同时到槽边,大小猪吃到的食物比是5∶1;如果小猪按按钮,那么大猪先到槽边,大小猪吃到的食物比是9∶-1;当然如果两只猪都选择等待,那么没有食物进入食槽,两只猪的收益比就为0:0。
小猪
行动 等待