博弈论与诚信机制

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

博弈论
一般分析框架与典型应用
中国人民大学信息学院王明明 mingmwang@
什么是博弈？

博弈论（game theory）是研究主体的行为发生直接相互作用时的决策以及决策均衡问题的在本性上，人们都倾向于以自我为中心，只关注自己的理解和自身的需要，但策略的艺术要求，要理解他人的立场、观念以及看重什么，并运用这种理解来指导行动。
•
如果某策略在博弈方的动态策略调整中会达到，又对少数偏离的扰动有稳健性，在进化博弈中被称为“进化稳定策略”(evolutionary stable strategy, ESS)•Fra bibliotek限理性博弈分析框架

通常假设博弈方有一定的统计分析能力和对不同策略效果的事后判断能力，但没有事先的预见和预测能力。因此，博弈分析的核心不是博弈方的在某个具体阶段最优策略选择，而是有限理性博弈方组成的群体成员的策略调整过程、趋势和稳定性。由于有限理性博弈方有很多理性层次，学习和策略调整的方式和速度有很大不同，需用不同的机制模拟博弈方的策略调整过程进化博弈分析的结论除了可以作为完全理性博弈分析结论的印证外，主要可以用来预测某些经济关系长期的变化趋势
2、中间人——信用评级机构，查询过去的交易记录

中介机构信用缺失信用信息垄断、分割
3、破釜沉舟
通过一些主动的、不可逆转的牺牲自己某些选择的自由从而达到自己所希望的结果
4、跬步前进
把承诺或威胁分解为许多小问题，重复使用分期付款、不要出现确定无疑的最后一轮
不对称信息与欺骗

现代社会经济活动信息不对称有加大的趋势

社会分工、专业化越来越细密商品技术含量的提高：搜寻商品、经验商品、信任商品

逆向选择：劣货驱逐良货，市场失灵

欺骗性交易的成本

欺骗性交易的成本不仅包括买者被骗取的部分，还应该包括正常交易不复存在带来的损失。在不发达国家，欺骗性交易是个严重的问题。有大量的证据可以证明，在不发达国家商品的质量差异要比发达地区大。
博弈方 2 鹿兔子鹿博弈方 1 兔子
5, 5 3, 0 0, 3 3, 3
动态博弈——相机选择和策略的可信性问题
借分 (2,2)
甲乙
不借（1，0）
不分（0，4）
借钱博弈

动态博弈中博弈方的策略并没有强制力，而且实施起来有一个过程，只要符合博弈方自己的利益，他们完全可以在博弈过程中改变计划。我们称这种问题为动态博弈中的“相机选择” （Contingent Play）。动态博弈的分析方法：逆推归纳

面临着中小企业的道德风险问题
可信的前提：信号成本与质量负相关欺骗的成本比提供承诺的质量成本更高保修包退、固定的经营场所、声誉

发送信号与信号甄别

信念-声誉

从动态博弈的角度，发送信号是一个改变信念的行动，信念的逐渐稳定就形成了参与人的声誉 “信念”（belief）在信息不对称的环境中对均衡结果非常重要，是期望收益最大化的因子

往往是二次信息，是对按特征与指标（不可变特征）分类的群体的整体评价：外部性、歧视自我强化的机制
声誉—信任—市场经济的灵魂

声誉可以作为显性激励契约的替代物

追求良好的声誉是为了获取长期收益，其实现是一个长期动态重复博弈的结果从长期来看，人们必须对自己的行为负完全责任。因此，即使没有显性激励合同，也不会欺骗，以改进自己的声誉与法律相比，信用机制是一种成本更低的维持交易秩序的机制

合作的条件：

贴现系数——未来的重要性——环境的稳定性识别欺骗

信息透明惩罚及其力度

某一结果的原因可能有多种，觉察和惩罚的缓慢将增加欺骗的动机

确保报复能力实验经济学：有害的激励效应（Detrimental Incentive Effects）：外在的激励趋向于减弱内在的动机巨大的威胁：边缘政策（brinksmanship）行为研究：修正“完全理性”的“经济人”假说

不完全信息博弈的均衡结果表明，与完全信息博弈相比：

质量较好的参与人在博弈中受到损失质量较差的参与人获益
不完全信息动态博弈：信号传递

由于行动有先后次序，后行动者可以观察到先行动者的行动。虽然参与人不能直接观测其他参与人的类型，但因为参与人的行动是类型依存的，每个参与人的行动都传递着有关自己类型的某种信息，后行动者可以通过观察先行动者所选择的行动获得有关后者偏好、战略空间等方面的信息，修正自己对其所属类型的先验概率判断，然后选择自己的行动。先行动者可以理性地预期到自己的行动将被后行动者所利用，就会设法传递对自己最有利的信息，而避免传递对自己不利的信息。因此，博弈过程不仅是参与人选择行动的过程，而且是参与人不断修正信念的过程。
怎样使承诺可信？
1、合同

合同规定违约责任大部分合同都会指定某个第三方负责合同的强制执行法院系统、政府部门——腐败和低效率不仅损害社会公正，而且使社会经济活动低效率非正规的执行机构，如黑社会——西西里黑手党给私有经济活动提供保护
有很多执行合同的组织和机构，但事实证明，它们都无法防止再谈判
-------普林斯顿大学 Avinash.K.Dixit
博弈论的基本分析概念与方法

参与人利益（效用）策略（行动）信息（类型、行动、共同知识）信念（类型的判断、类型与行动的依存关系）纳什均衡：“I’m doing the best I can given what you are doing；You’re doing the best you can given what I am doing.”
博弈方1 合作背叛合作 R=3,R=3 S=0,T=5 博弈方2
背叛
T=5,S=0
P=1,P=1
R：对合作双方的奖励 T：对背叛的诱惑 S：给笨蛋的报酬 P：对双方背叛的惩罚
智猪博弈——打破僵局小猪按按大猪等待 5 ，1 9，－1 4 ，4 0 ，0 等待
猎鹿博弈——信心的重要性

触发策略(Trigger Strategy)（冷酷策略）：

首先合作，一旦发现对方不合作则报复的策略触发策略是重复博弈中实现合作和提高均衡效率的关键机制，是重复博弈分析的主要构件之一。
进化博弈——有限理性的纳什均衡
有限理性意味着博弈方往往不会一开始找到最优策略，会在博弈过程中学习，通过试错寻找较好的策略，因而均衡是不断调整和改进而不是一次性选择的结果，而且即使达到了均衡也可能再次偏离。

复制动态方程——一种学习机制
dx x (u y u ) dt

博弈方学习模仿的速度取决于两个因素：

一是模仿对象的数量大小（可用相应类型博弈方的比例表示），这关系到观察和模仿的难易程度；二是模仿对象的成功程度（可用模仿对象得益超过平均得益的幅度表示），这关系到判断差异的难易程度和对模仿激励的大小。

经济发展与制度变迁

不同的制度安排会对人产生不同的激励，从而导致不同的行为反应。制度会影响效率。一种制度优于另一种制度，是因为它对应一种较高的效率水平。如果现行的决策规则相对于人们的希望来说总是不能产生令人满意的结果，那么参与人将会较大幅度地修改或者重设规则系统，并逐渐形成新的均衡：理想与现实的差距即“认知危机”达到临界规模时，就会发生制度变迁。通常政府被要求扮演改进规则的角色，但政府本身也是博弈参与人，有其自身的动机。
策略思维与策略行动

权力不是越大越好信息不是越多越好选择不是越多越好收益减少导致最终结果变好不一定投票给自己最喜欢的选项 ………..

博弈分类：

完全信息静态博弈完全信息动态博弈不完全信息静态博弈不完全信息动态博弈重复博弈进化博弈
囚徒困境——集体行动的难题
借分 (2,2) 打（1，0）
甲
乙
不借（1，0）
不分
乙
不打（0，4）
有法律保障的借钱博弈

典型应用：

宏观经济政策的动态一致性工会与雇主之间的博弈
蜈蚣博弈——动态博弈中的囚徒困境
红方蓝方红方蓝方红方
放弃接受
放弃接受
放弃接受
放弃接受
红方受益：40 蓝方受益：10
政府诚信、企业诚信与个人诚信

政府信用是指国家行政机关在社会经济管理中能履行约定而取得的信任。包括交易信用、制度信用、程序信用等。政府执行经济管理职能时，既是参与主体，又是规则制定者，其地位、职能、权力的特殊性决定了政府相对于企业、个人，信用行为具有独特性

博弈中处于信息强势地位效用函数复杂政府信用不能自行体现，必须通过国家公务人员的个人行为表现出来

传递信息的行为是需要成本的。假如这种行为没有成本，谁都可以效仿，那么，这种行为就达不到传递信息的目的。只有在行为需要相当大的成本，因而别人不敢轻易效仿时，这种行为才能起到传递信息的作用。
重复博弈——惩罚机制与合作建立

重复博弈：参与人从总收益最大化的角度进行决策，使参与人不得不考虑这一阶段的行为对后面阶段博弈的影响，即注重声誉
A
B
接受 2， 4
不完全信息静态博弈：贝叶斯纳什均衡

每个参与人仅知道其他参与人类型的概率分布而不知道其真实类型；他不可能准确地知道其他参与人实际上会选择什么战略，但是，他能正确地预测到其他参与人的选择是如何依赖于其各自的类型的决策目标就是在给定自己的类型和别人的类型依从战略的情况下，最大化自己的期望效用。

第一，从不首先背叛，即"善良的"；第二，对于对方的背叛行为一定要报复，不能总是合作，即" 可激怒的"；第三，不能人家一次背叛，你就没完没了的报复，以后人家只要改为合作，你也要合作，即"宽容性"。第四， “清晰性”，能让对方在三、五步对局内辨识出来，太复杂的对策不见得好。如"一报还一报" 就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。

重复博弈与信用发展

在博弈的初期，信用关系通常以利益得失的权衡为基础，博弈策略选择的过程是其所带来的收益和成本比较的过程，这时的信用关系可以说是一种“策略信用”。随着博弈次数的不断增加，掌握的对方的信息越来越多，对对方行为有了更多的预测依据，交易的不确定性和交易风险不断降低，这时双方的信用关系是一种“信息信用”。博弈继续进行下去，双方的信用关系将得到进一步强化和发展，产生衍生的信用关系，如“转移信用”，由于对某人非常信任，那么他对第三人的评价就成了是否信任第三人的依据。
20 80
160 40
80 320
640 160
求解蜈蚣博弈：
A 放弃接受 4， 1

B
接受
放弃 5， 5
2， 6

假设B能够向第三方签订一张2美元的债券，约定只要他没有选择“放弃”，进入下一阶段，就会失去债券，如果选择了放弃，债券最终还归还与他。这一做法将带来有效率的合作结果。
放弃接受 4， 1 放弃 5， 5

不可置信威胁引出信息经济学中一个很重要的概念“承诺行动”（commitment）。

承诺行动是当事人使自己的威胁战略变得可置信的行动。一种威胁在什么时候才是可置信的？只有当事人在不实施这种威胁时，就会遭受更大的损失时，威胁才是可置信的。所以，承诺行为就意味着当事人要为自己的诺言付出成本，尽管这种成本不一定真的发生。承诺行动会给当事人带来很大的好处，因为它会改变均衡结果。

谎言的最终结果，并不是能够系统地一直愚弄他人，而是减弱了或破坏了传递私人信息的社会机制的有效性，使人们不敢互相信任。最终，无论是掌握信息的一方，还是缺乏信息的一方，都因为信息沟通的成本剧增而遭受损失。
逆向选择可能的解决途径

独立的质量监督、认证机构信息中介第三方信用担保机构（先行赔付）
博弈论与诚信机制

个人理性的反终极目的性信息不对称与逆向选择

个人理性与集体理性的矛盾

解决途径一：重复博弈解决途径二：可置信的承诺

囚徒困境损害了每个参与人的利益，我希望向你表示合作的愿望，但你会相信我吗？

Axelrod R囚徒困境重复博弈计算机程序奥林匹克竞赛得分排在前面的策略的特点：