博弈论与诚信机制
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
A
B
接受 2, 4
不完全信息静态博弈:贝叶斯纳什均衡
每个参与人仅知道其他参与人类型的概率分布而 不知道其真实类型; 他不可能准确地知道其他参与人实际上会选择什 么战略,但是,他能正确地预测到其他参与人的 选择是如何依赖于其各自的类型的 决策目标就是在给定自己的类型和别人的类型依 从战略的情况下,最大化自己的期望效用。
博弈论与诚信机制
个人理性的反终极目的性 信息不对称与逆向选择
个人理性与集体理性的矛盾
解决途径一:重复博弈 解决途径二:可置信的承诺
囚徒困境损害了每个参与人的利益,我希望向你表 示合作的愿望,但你会相信我吗?
Axelrod R囚徒困境重复博弈计算机程序奥林 匹克竞赛 得分排在前面的策略的特点:
不可置信威胁引出信息经济学中一个很重要的 概念“承诺行动”(commitment)。
承诺行动是当事人使自己的威胁战略变得可置信的 行动。 一种威胁在什么时候才是可置信的?只有当事人在 不实施这种威胁时,就会遭受更大的损失时,威胁 才是可置信的。 所以,承诺行为就意味着当事人要为自己的诺言付 出成本,尽管这种成本不一定真的发生。 承诺行动会给当事人带来很大的好处,因为它会改 变均衡结果。
策略思维与策略行动
权力不是越大越好 信息不是越多越好 选择不是越多越好 收益减少导致最终结果变好 不一定投票给自己最喜欢的选项 ………..
博弈分类:
完全信息静态博弈 完全信息动态博弈 不完全信息静态博弈 不完全信息动态博弈 重复博弈 进化博弈
囚徒困境——集体行动的难题
触发策略(Trigger Strategy)(冷酷策略):
首先合作,一旦发现对方不合作则报复的策略 触发策略是重复博弈中实现合作和提高均衡效 率的关键机制,是重复博弈分析的主要构件之 一。
进化博弈——有限理性的纳什均衡
有限理性意味着博弈方往往不会一开始找到最优 策略,会在博弈过程中学习,通过试错寻找较好的 策略,因而均衡是不断调整和改进而不是一次性选 择的结果,而且即使达到了均衡也可能再次偏离。
传递信息的行为是需要成本的。假如这种 行为没有成本,谁都可以效仿,那么,这 种行为就达不到传递信息的目的。只有在 行为需要相当大的成本,因而别人不敢轻 易效仿时,这种行为才能起到传递信息的 作用。
重复博弈——惩罚机制与合作建立
重复博弈:参与人从总收益最大化的角度进行决 策,使参与人不得不考虑这一阶段的行为对后面 阶段博弈的影响,即注重声誉
博弈论
一般分析框架与典型应用
中国人民大学 信息学院 王明明 mingmwang@263.net
什么是博弈?
博弈论(game theory)是研究主体的行为 发生直接相互作用时的决策以及决策均衡 问题的 在本性上,人们都倾向于以自我为中心, 只关注自己的理解和自身的需要,但策略 的艺术要求,要理解他人的立场、观念以 及看重什么,并运用这种理解来指导行动。
谎言的最终结果,并不是能够系统地一直 愚弄他人,而是减弱了或破坏了传递私人 信息的社会机制的有效性,使人们不敢互 相信任。最终,无论是掌握信息的一方, 还是缺乏信息的一方,都因为信息沟通的 成本剧增而遭受损失。
逆向选择可能的解决途径
独立的质量监督、认证机构 信息中介 第三方信用担保机构(先行赔付)
重复博弈与信用发展
在博弈的初期,信用关系通常以利益得失的权衡 为基础,博弈策略选择的过程是其所带来的收益 和成本比较的过程,这时的信用关系可以说是一 种“策略信用”。 随着博弈次数的不断增加,掌握的对方的信息越 来越多,对对方行为有了更多的预测依据,交易 的不确定性和交易风险不断降低,这时双方的信 用关系是一种“信息信用”。 博弈继续进行下去,双方的信用关系将得到进一 步强化和发展,产生衍生的信用关系,如“转移 信用”,由于对某人非常信任,那么他对第三人 的评价就成了是否信任第三人的依据。
博弈方1 合作 背叛 合作 R=3,R=3 S=0,T=5 博弈方2
背叛
T=5,S=0
P=1,P=1
R: 对合作双方的奖励 T: 对背叛的诱惑 S: 给笨蛋的报酬 P: 对双方背叛的惩罚
智猪博弈——打破僵局 小猪 按 按 大猪 等待 5 ,1 9,-1 4 ,4 0 ,0 等待
猎鹿博弈——信心的重要性
面临着中小企业的道德风险问题
可信的前提:信号成本与质量负相关 欺骗的成本比提供承诺的质量成本更高 保修包退、固定的经营场所、声誉
发送信号与信号甄别
信念-声誉
从动态博弈的角度,发送信号是一个改变信念 的行动,信念的逐渐稳定就形成了参与人的声 誉 “信念”(belief)在信息不对称的环境中对 均衡结果非常重要,是期望收益最大化的因子
合作的条件:
贴现系数——未来的重要性——环境的稳定性 识别欺骗
信息透明 惩罚及其力度
某一结果的原因可能有多种,觉察和惩罚的缓慢将增加 欺骗的动机
确保报复能力 实验经济学:有害的激励效应(Detrimental Incentive Effects):外在的激励趋向于减弱内在的 动机 巨大的威胁:边缘政策(brinksmanship) 行为研究:修正“完全理性”的“经济人”假说
怎样使承诺可信?
1、合同
合同规定违约责任 大部分合同都会指定某个第三方负责合同的强制执行 法院系统、政府部门——腐败和低效率不仅损害社会 公正,而且使社会经济活动低效率 非正规的执行机构,如黑社会——西西里黑手党给私 有经济活动提供保护
有很多执行合同的组织和机构,但事实证明,它们都 无法防止再谈判
政府诚信、企业诚信与个人诚信
政府信用是指国家行政机关在社会经济管理中能 履行约定而取得的信任。包括交易信用、制度信 用、程序信用等。 政府执行经济管理职能时,既是参与主体,又是 规则制定者,其地位、职能、权力的特殊性决定 了政府相对于企业、个人,信用行为具有独特性
博弈中处于信息强势地位 效用函数复杂 政府信用不能自行体现,必须通过国家公务人员的个 人行为表现出来
博弈方 2 鹿 兔子 鹿 博弈方 1 兔子
5, 5 3, 0 0, 3 3, 3
动态博弈——相机选择和策略的可信性问题
借 分 (2,2)
甲 乙
不借 (1,0)
不分 (0,4)
借钱博弈
动态博弈中博弈方的策略并没有强制力,而且实施起来有一个 过程,只要符合博弈方自己的利益,他们完全可以在博弈过程 中改变计划。我们称这种问题为动态博弈中的“相机选择” (Contingent Play)。 动态博弈的分析方法:逆推归纳
复制动态方程——一种学习机制
dx x (u y u ) dt
博弈方学习模仿的速度取决于两个因素:
一是模仿对象的数量大小(可用相应类型博弈 方的比例表示),这关系到观察和模仿的难易 程度; 二是模仿对象的成功程度(可用模仿对象得益 超过平均得益的幅度表示),这关系到判断差 异的难易程度和对模仿激励的大小。
社会分工、专业化越来越细密 商品技术含量的提高:搜寻商品、经验商品、 信任商品
逆向选择:劣货驱逐良货,市场失灵
欺骗性交易的成本
欺骗性交易的成本不仅包括买者被骗取的部分, 还应该包括正常交易不复存在带来的损失。 在不发达国家,欺骗性交易是个严重的问题。 有大量的证据可以证明,在不发达国家商品的 质量差异要比发达地区大。
不完全信息博弈的均衡结果表明,与完全 信息博弈相比:
质量较好的参与人在博弈中受到损失 质量较差的参与人获益
不完全信息动态博弈:信号传递
由于行动有先后次序,后行动者可以观察到先行动者 的行动。 虽然参与人不能直接观测其他参与人的类型,但因为 参与人的行动是类型依存的,每个参与人的行动都传 递着有关自己类型的某种信息,后行动者可以通过观 察先行动者所选择的行动获得有关后者偏好、战略空 间等方面的信息,修正自己对其所属类型的先验概率 判断,然后选择自己的行动。 先行动者可以理性地预期到自己的行动将被后行动者 所利用,就会设法传递对自己最有利的信息,而避免 传递对自己不利的信息。 因此,博弈过程不仅是参与人选择行动的过程,而且 是参与人不断修正信念的过程。
20 80
Fra Baidu bibliotek
160 40
80 320
640 160
求解蜈蚣博弈:
A 放弃 接受 4, 1
B
接受
放弃 5, 5
2, 6
假设B能够向第三方签订一张2美元的债券,约定只要他没 有选择“放弃”,进入下一阶段,就会失去债券,如果选 择了放弃,债券最终还归还与他。 这一做法将带来有效率的合作结果。
放弃 接受 4, 1 放弃 5, 5
-------普林斯顿大学 Avinash.K.Dixit
博弈论的基本分析概念与方法
参与人 利益(效用) 策略(行动) 信息(类型、行动、共同知识) 信念(类型的判断、类型与行动的依存关系) 纳什均衡:“I’m doing the best I can given what you are doing;You’re doing the best you can given what I am doing.”
第一,从不首先背叛,即"善良的"; 第二,对于对方的背叛行为一定要报复,不能总 是合作,即" 可激怒的"; 第三,不能人家一次背叛,你就没完没了的报复, 以后人家只要改为合作,你也要合作,即"宽容性"。 第四, “清晰性”,能让对方在三、五步对局内辨 识出来,太复杂的对策不见得好。如"一报还一报" 就有很好的清晰性,让对方很快发现规律,从而 不得不采取合作的态度。
经济发展与制度变迁
不同的制度安排会对人产生不同的激励,从而导 致不同的行为反应。制度会影响效率。一种制度 优于另一种制度,是因为它对应一种较高的效率 水平。 如果现行的决策规则相对于人们的希望来说总是 不能产生令人满意的结果,那么参与人将会较大 幅度地修改或者重设规则系统,并逐渐形成新的 均衡:理想与现实的差距即“认知危机”达到临 界规模时,就会发生制度变迁。 通常政府被要求扮演改进规则的角色,但政府本 身也是博弈参与人,有其自身的动机。
•
如果某策略在博弈方的动态策略调整中会达到, 又对少数偏离的扰动有稳健性,在进化博弈中被称 为“进化稳定策略”(evolutionary stable strategy, ESS)
•
有限理性博弈分析框架
通常假设博弈方有一定的统计分析能力和对不同 策略效果的事后判断能力,但没有事先的预见和 预测能力。因此,博弈分析的核心不是博弈方的 在某个具体阶段最优策略选择,而是有限理性博 弈方组成的群体成员的策略调整过程、趋势和稳 定性。 由于有限理性博弈方有很多理性层次,学习和策 略调整的方式和速度有很大不同,需用不同的机 制模拟博弈方的策略调整过程 进化博弈分析的结论除了可以作为完全理性博弈 分析结论的印证外,主要可以用来预测某些经济 关系长期的变化趋势
借 分 (2,2) 打 (1,0)
甲
乙
不借 (1,0)
不分
乙
不打 (0,4)
有法律保障的借钱博弈
典型应用:
宏观经济政策的动态一致性 工会与雇主之间的博弈
蜈蚣博弈——动态博弈中的囚徒困境
红方 蓝方 红方 蓝方 红方
放弃 接 受
放弃 接 受
放弃 接 受
放弃 接 受
红方受益:40 蓝方受益:10
往往是二次信息,是对按特征与指标(不可变 特征)分类的群体的整体评价:外部性、歧视 自我强化的机制
声誉—信任—市场经济的灵魂
声誉可以作为显性激励契约的替代物
追求良好的声誉是为了获取长期收益,其实现 是一个长期动态重复博弈的结果 从长期来看,人们必须对自己的行为负完全责 任。因此,即使没有显性激励合同,也不会欺 骗,以改进自己的声誉 与法律相比,信用机制是一种成本更低的维持 交易秩序的机制
2、中间人——信用评级机构,查询过去的交易 记录
中介机构信用缺失 信用信息垄断、分割
3、破釜沉舟
通过一些主动的、不可逆转的牺牲自己某些选择 的自由从而达到自己所希望的结果
4、跬步前进
把承诺或威胁分解为许多小问题,重复使用 分期付款、不要出现确定无疑的最后一轮
不对称信息与欺骗
现代社会经济活动信息不对称有加大的趋 势