博弈论与信息经济学第七讲
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
22
社会资本是社会中人与人之间合作的能力。研 究发现,如果一个社会的社会资本比较低,那 这个社会的市场秩序就比较混乱,经济增长也 比较慢。 社会资本的核心是人与人之间的信任,即社会 成员对彼此诚实、合作行为的预期。 美国经济学家福山分析了信任对经济发展的重 要性。特别提到,华人社会可能是全世界最缺 少信任的一个社会。 比较研究发现:在美国、日本、德国,人与人 之间的信任度远远高于华人社会(包括香港和 台湾),也高于意大利和法国。
14
进一步的,更好些的策略是“宽恕地以牙 还牙”。
当你的对手背叛,在下一回合中你无论如何 要以小概率(大约是1%-5%)时而合作一下。 这是考虑到偶尔要从循环背叛的受骗中复原。 当错误传达被引入博弈时,“宽恕地以牙还 牙”是最佳的。 这意味着,有时你的动作被错误地传达给你 的对手:你合作但是你的对手听说你背叛了。
33
政府管制与企业信誉
信誉
需求曲线
供给曲线
x
管制
34
第七讲
贝叶斯纳什均衡
2
无限次重复囚徒困境
L L 1 R
1,1 *
0,5
2
R
5,0
4,4
3
在单次囚徒困境博弈中,囚徒最终会选 择背叛对方;
但,社会更多的机会是:我们不只一次选择。
所以,研究重复多次的囚徒困境博弈更 有意义。 如果有无限次和对手玩囚徒困境游戏, 结果会是怎样?
4
二、艾克斯罗德的比赛
纪念囚徒困境提出20周年,艾克斯罗德(密 歇根大学教授)举行了一次比赛:
31
政府管制是一种制度的安排,基于这种 制度安排的信任和基于企业信誉的信任 之间存在一种相互的替代和互补关系。 一般而言,企业和个人的信誉程度越高, 对管制的要求就减少;当信誉高过一定 点后,管制就不必要了。 在政府管制的初期,信誉程度会提高, 但是,超过一定程度,企业又慢慢不讲 信誉。
32
这是由于:政府管制越多,政府机关的 权利越大,政府的自由裁量权越多,未 来越不确定,企业就不讲信誉。 在政府管制的条件下,只有政府批准的 事才能办,企业会有垄断权利,获得垄 断租金,不会在乎信誉。 腐败伴随管制而生,管制越多,企业越 不在乎消费者,而只在乎政府。
9
相反,如果在第一阶段采用R战略,双方 都采取触发战略,则其收益: π=4/(1-δ) δ 当 4/(1-δ)〉5+ 1-δ 即:δ〉1/4 时,博弈方对于对方的触发 战略也采取触发战略,这是一个SPNE。
10
排在前面的程序有三个特点:
第一,从不首先背叛,即“善良的”; 第二,对于对方的背叛行为一定要报复,不能总 是合作,即“ 可激怒的”; 第三,不能人家一次背叛,你就没完没了的报复, 以后人家只要改为合作,你也要合作,即"宽容 性 "。
双方的这种战略在贴现率δ较大时构成无限 次重复博弈的一个SPNE。
8
我们假设1采用了这个战略,可以证明在 δ达到一定数值以后,这一战略也是2的 最佳反应函数。 如果选择一次L战略,会得到5单位收益, 但会引起对方的报复,所以自己也只得 选L,总收益: δ 2 π=5+1.δ+1 .δ + . . .=5+ 1-δ
11
第二轮游戏,63个程序。结果,第一名 的仍是“一报还一报” 。 前面的三个特点仍然有效,前15名里, 只有1名的程序是“不善良”的。 同时,好的策略还必须具有的一个特点 即“清晰性”,能让对方在三、五步对 局内辨识出来。
12
三、合作的进行过程及规律
群体是会向合作的方向进化,还是向不合作的方向 进化? 艾氏用生态学的原理来分析合作的进化过程; 对策者所组成的策略群体是一代一代进化下去的, 进化的规则包括 :
3.
4.
29
商业社会与作为信誉载体的企业
传统社会,生活环境较蔽塞,交往使欺骗行为广 为人知。Gossip是存储和传播信息的主要手段, 起维持信誉机制的作用。(Merry,1984) 现代社会被称为“匿名社会”(anonymous society),居民流动性大,交易双方缺少制约手段, 以个人为基础的信誉机制失灵。 但是,西方市场经济的发达除了完善的司法制度 外,还因为他们在更高的形态上复制出了四个相 应的条件。
21
信任与经济的增长
在市场经济中,信任是所有交易的前提。 经济的增长很大程度上基于分工的发展。没有 信任,社会分工和专业化无法实现。 二战之后,经济学家普遍认为,国家的经济增 长源于物质资本(physical capital),即国 民储蓄.但是发展中国的实践并没有证明这一 点。 70年代开始,经济学家转向强调“人力资本” (human capital) 。 进一步,90年代“社会资本”(social capital) 的重要性受到西方学术界的普遍关注。
18
厂商
高 买 低
消费者
不买
1,1
0,0
-1,2
0,0
19
对于厂商而言,提供高质量的商品是一个弱劣 策略,如果只博弈1次,则(不买,低)。 假如厂商的贴现因子δ≥1/2,则下列是SPNE: 厂商从生产高质量的商品开始;继续生产高质 量的商品;如果一次生产了低质量的商品,则 以后永远生产低质量的商品。 消费者选择购买,只要厂商没有过生产低质量 的商品,则继续购买;如果厂商生产过低质量 的商品,则不再购买。 均衡的结果是(购买,高)。
23
信任的基本分类:基于个性特征的信任,基于 制度的信任,和基于信誉的信任。
基于个性特征的信任是由先天的因素或后天的关系 所决定的。 基于制度的信任是由制度保证的信任,如由法律维 持的信任是一种典型的信任。
基于信誉的信任,是一个人为了长远的利益而 自愿地选择放弃眼前欺骗的机会。 现代社会,更多的还是基于制度的信任和基于 信誉的信任。
24
重复博弈与信任机制
不信任
消费者
0,0 5,5
诚实 信任
厂商
欺骗
-5,10
图--1 信任博弈
25
如果此博弈只进行一次,则根据逆向归纳法,容易求得 此博弈的纳什均衡解是:委托人选择不信任,代理人选 择欺骗。 如果双方有机会长期博弈,合作可能通过信誉机制而实 现。我们假定,在每一次博弈结束前,双方都预期有δ 的可能性下期交易的机会,并且结果相同。我们考虑委 托人的“触发战略”。 代理人该如何行动?如果欺骗,只有本期的10单位收入; 如果不欺骗,得到本期的5单位收入,有δ的概率在下期 得到5单位收入、、、、、总的期望收入:
5+5δ+5δ2+ 、、、=5/(1-δ) 只要5/(1-δ)≥10,即δ≥0.5,不欺骗就是代理人的
最佳选择.
26
通过重复博弈,建立了信誉机制.信誉机制的核 心在于:当事人为了合作带来的长远利益,愿意 抵挡欺骗带来的一次性诱惑.
收 益
欺骗
10单位 5/(1-δ)
A B
图—2 当前收益与未来收益
诚 实
20
重复博弈:中东地区的集市
经济学家的疑惑:既然有先进 国家的榜样,而且资金与技术也非遥不可及,落后 地区为何一直在贫困中挣扎? 在中东的某些市场,有各种摊贩,其有几个特点:
卖东西的规模小,买卖wk.baidu.com方萍水相逢; 多半是陌生人,成交前讨价还价占很长的时间。
交易的品质参差不齐,商品就可以夸大其词。在 讨价还价中,欺骗的伎俩普遍,品质倒在其次。 这些市场中,产品几十年、几百年都没有大的变 化。 制度经济学称之为“低度均衡”。
30
复制信誉机制的主要手段是现代组织,包括企业组织、 社团组织(如宗教团体、商会),以及中介组织。 个人的利益取决于组织的价值,而组织的价值依赖于其 信誉,则个人就会注重信誉。 在市场经济中,企业是将一次性博弈转化为重复博弈的 机制,是信誉的载体。市场有了长期的参与者,欺骗行 为易被观察到。 商号起着传统社会的姓氏的作用,企业用自己的商号加 总了其内部所有人的信息。所有人都要承担连带责任。 韦伯在100年前观察到,参加社团组织等于获得了一个 “社会印章”(a social seal of approval),得到一个 信誉认证。
6
无限次重复囚徒困境 L L 1 R
1,1 *
0,5
2
R
5,0
4,4
7
在该博弈的一次性博弈中,得益为较差的 (L,L),是它唯一的纳什均衡。 在无限次重复博弈中,我们假设两博弈方都 采用触发战略(tit for tat):
第一阶段采用R战略; 第t阶段,如果前t-1次的结果都是(R,R), 则继续采用R战略,否则采用L战略(包括自己 一旦采用L战略,以后也只能采用L战略)。
3.
4.
28
信誉机制发生作用的条件可以概括为:
1. 2.
博弈必须是重复的,交易关系有足够高的概率持续下去, 当事人在未来没有赌注,就不会放弃当期收益。 当事人必须有足够的耐心, δ可以理解为代理人的贴 现因子。说一个人有耐心,是说他的贴现因子高。有积 极性去建立信誉。 当事人的不诚实行为能被及时观察到。一般而言,信息 观察越滞后,信誉的建立越困难。当代理人可以欺骗两 次时,δ是多少? 当事人必须有足够的积极性和可能性对交易对手的欺骗 行为进行惩罚。“以牙还牙”是维持社会信用的必不可 少的手段。
第六讲
完全信息动态博弈的应用(续)
——从囚徒困境到合作
上一讲小结 重复囚徒困境的解
1
一、问题的提出
按照经济人(理性人)的假设,在人类社 会中广泛存在囚徒困境; 而在现实社会生活中,合作却是再寻常不 过的现象;
1.
2.
3.
人与人之间的合作在一个广泛不合作的环境里 是怎么发生的?(初始成活性 ) 又怎么能在动态的多样化的社会环境中持续下 去?(Robust\鲁棒性 ) 持续中的合作又怎么能避免被(背叛)破坏? (“稳定性 )
16
问题:一战时为何将毒气作武器使用,二战没
有这么作?但是又为何使用了核武器?
通过触发战略实现合作均衡
法国 使用毒气 德国 使用毒气 不使用 -8 ,-8 -10 , 3 不使用 3 , -10 0 , 0
参与人不固定时的重复博弈
以往的讨论都是假定博弈的参与人是相同的, 但是有时往往一方的参与人是不固定的。如消 费品市场。 假定只有一个厂商提供商品,每个消费者只购 买一次,每个阶段只有一个消费者。 在一个阶段中,消费者决定是否购买,而厂商 决定质量高/低。 消费者在购买时不知道商品的质量,但是知道 T-1期的质量。
时间
27
信誉机制发生作用的条件可以概括为:
1. 2.
博弈必须是重复的,交易关系有足够高的概率持续下 去,当事人在未来没有赌注,就不会放弃当期收益。 当事人必须有足够的耐心, δ可以理解为代理人的贴 现因子。说一个人有耐心,是说他的贴现因子高。有 积极性去建立信誉。 当事人的不诚实行为能被及时观察到。一般而言,信 息观察越滞后,信誉的建立越困难。当代理人可以欺 骗两次时,δ是多少? 当事人必须有足够的积极性和可能性对交易对手的欺 骗行为进行惩罚。“以牙还牙”是维持社会信用的必 不可少的手段。
得分规则与前面的矩阵相同,什么时候结束游戏 是未知的。 要求每个参赛者把追求得分最多的策略写成计算 机程序; 然后用单循环赛的方式将参赛程序两两博弈,以 找出什么样的策略得分最高。
5
第一轮游戏有14个程序参加,再加上艾克斯 罗德自己的一个随机程序(即以50%的概率选 取合作或不合作),运转了300次。 结果得分最高的程序是加拿大学者罗伯布写 的“一报还一报”(tit for tat)。 它是所有参赛程序中最简单的,只包含了四 行BASIC语言,并且赢得了比赛。
15
如何提高合作性呢?
“友善”。不要在对手背叛之前先背叛,仅仅 出于自私的原因,也不要首先打击其对手; 报复。不是一个盲目乐观者,始终报复; 宽恕。如果对手不继续背叛,它们会一再退却 到合作; 不嫉妒。不去争取得到高于对手的分数。
自私的个人为了其自私的利益会趋向友善、 宽恕和不嫉妒。关于重复囚徒困境研究的 重要结论之一,是友善的人能先完成交易
试错 ; 遗传 ,如果合作性好,他的后代的合作基因就多 ; 学习 。
13
艾克斯罗德群体演化实验
结果表明:“一报还一报”原来在群体中占1/63, 经过1000代的进化,结构稳定下来时,它占了 24%。 一些程序在进化过程中消失了。如前15名里“不 善良”的程序。 “一报还一报”的竞争优势在于能促使合作秩序 扩展,从而能够和合作伙伴一起胜过“总是背叛” 或“一有机会就背叛”的“小人”。 进化实验揭示了一个哲理:一个策略的成功应该 以对方的成功为基础。
社会资本是社会中人与人之间合作的能力。研 究发现,如果一个社会的社会资本比较低,那 这个社会的市场秩序就比较混乱,经济增长也 比较慢。 社会资本的核心是人与人之间的信任,即社会 成员对彼此诚实、合作行为的预期。 美国经济学家福山分析了信任对经济发展的重 要性。特别提到,华人社会可能是全世界最缺 少信任的一个社会。 比较研究发现:在美国、日本、德国,人与人 之间的信任度远远高于华人社会(包括香港和 台湾),也高于意大利和法国。
14
进一步的,更好些的策略是“宽恕地以牙 还牙”。
当你的对手背叛,在下一回合中你无论如何 要以小概率(大约是1%-5%)时而合作一下。 这是考虑到偶尔要从循环背叛的受骗中复原。 当错误传达被引入博弈时,“宽恕地以牙还 牙”是最佳的。 这意味着,有时你的动作被错误地传达给你 的对手:你合作但是你的对手听说你背叛了。
33
政府管制与企业信誉
信誉
需求曲线
供给曲线
x
管制
34
第七讲
贝叶斯纳什均衡
2
无限次重复囚徒困境
L L 1 R
1,1 *
0,5
2
R
5,0
4,4
3
在单次囚徒困境博弈中,囚徒最终会选 择背叛对方;
但,社会更多的机会是:我们不只一次选择。
所以,研究重复多次的囚徒困境博弈更 有意义。 如果有无限次和对手玩囚徒困境游戏, 结果会是怎样?
4
二、艾克斯罗德的比赛
纪念囚徒困境提出20周年,艾克斯罗德(密 歇根大学教授)举行了一次比赛:
31
政府管制是一种制度的安排,基于这种 制度安排的信任和基于企业信誉的信任 之间存在一种相互的替代和互补关系。 一般而言,企业和个人的信誉程度越高, 对管制的要求就减少;当信誉高过一定 点后,管制就不必要了。 在政府管制的初期,信誉程度会提高, 但是,超过一定程度,企业又慢慢不讲 信誉。
32
这是由于:政府管制越多,政府机关的 权利越大,政府的自由裁量权越多,未 来越不确定,企业就不讲信誉。 在政府管制的条件下,只有政府批准的 事才能办,企业会有垄断权利,获得垄 断租金,不会在乎信誉。 腐败伴随管制而生,管制越多,企业越 不在乎消费者,而只在乎政府。
9
相反,如果在第一阶段采用R战略,双方 都采取触发战略,则其收益: π=4/(1-δ) δ 当 4/(1-δ)〉5+ 1-δ 即:δ〉1/4 时,博弈方对于对方的触发 战略也采取触发战略,这是一个SPNE。
10
排在前面的程序有三个特点:
第一,从不首先背叛,即“善良的”; 第二,对于对方的背叛行为一定要报复,不能总 是合作,即“ 可激怒的”; 第三,不能人家一次背叛,你就没完没了的报复, 以后人家只要改为合作,你也要合作,即"宽容 性 "。
双方的这种战略在贴现率δ较大时构成无限 次重复博弈的一个SPNE。
8
我们假设1采用了这个战略,可以证明在 δ达到一定数值以后,这一战略也是2的 最佳反应函数。 如果选择一次L战略,会得到5单位收益, 但会引起对方的报复,所以自己也只得 选L,总收益: δ 2 π=5+1.δ+1 .δ + . . .=5+ 1-δ
11
第二轮游戏,63个程序。结果,第一名 的仍是“一报还一报” 。 前面的三个特点仍然有效,前15名里, 只有1名的程序是“不善良”的。 同时,好的策略还必须具有的一个特点 即“清晰性”,能让对方在三、五步对 局内辨识出来。
12
三、合作的进行过程及规律
群体是会向合作的方向进化,还是向不合作的方向 进化? 艾氏用生态学的原理来分析合作的进化过程; 对策者所组成的策略群体是一代一代进化下去的, 进化的规则包括 :
3.
4.
29
商业社会与作为信誉载体的企业
传统社会,生活环境较蔽塞,交往使欺骗行为广 为人知。Gossip是存储和传播信息的主要手段, 起维持信誉机制的作用。(Merry,1984) 现代社会被称为“匿名社会”(anonymous society),居民流动性大,交易双方缺少制约手段, 以个人为基础的信誉机制失灵。 但是,西方市场经济的发达除了完善的司法制度 外,还因为他们在更高的形态上复制出了四个相 应的条件。
21
信任与经济的增长
在市场经济中,信任是所有交易的前提。 经济的增长很大程度上基于分工的发展。没有 信任,社会分工和专业化无法实现。 二战之后,经济学家普遍认为,国家的经济增 长源于物质资本(physical capital),即国 民储蓄.但是发展中国的实践并没有证明这一 点。 70年代开始,经济学家转向强调“人力资本” (human capital) 。 进一步,90年代“社会资本”(social capital) 的重要性受到西方学术界的普遍关注。
18
厂商
高 买 低
消费者
不买
1,1
0,0
-1,2
0,0
19
对于厂商而言,提供高质量的商品是一个弱劣 策略,如果只博弈1次,则(不买,低)。 假如厂商的贴现因子δ≥1/2,则下列是SPNE: 厂商从生产高质量的商品开始;继续生产高质 量的商品;如果一次生产了低质量的商品,则 以后永远生产低质量的商品。 消费者选择购买,只要厂商没有过生产低质量 的商品,则继续购买;如果厂商生产过低质量 的商品,则不再购买。 均衡的结果是(购买,高)。
23
信任的基本分类:基于个性特征的信任,基于 制度的信任,和基于信誉的信任。
基于个性特征的信任是由先天的因素或后天的关系 所决定的。 基于制度的信任是由制度保证的信任,如由法律维 持的信任是一种典型的信任。
基于信誉的信任,是一个人为了长远的利益而 自愿地选择放弃眼前欺骗的机会。 现代社会,更多的还是基于制度的信任和基于 信誉的信任。
24
重复博弈与信任机制
不信任
消费者
0,0 5,5
诚实 信任
厂商
欺骗
-5,10
图--1 信任博弈
25
如果此博弈只进行一次,则根据逆向归纳法,容易求得 此博弈的纳什均衡解是:委托人选择不信任,代理人选 择欺骗。 如果双方有机会长期博弈,合作可能通过信誉机制而实 现。我们假定,在每一次博弈结束前,双方都预期有δ 的可能性下期交易的机会,并且结果相同。我们考虑委 托人的“触发战略”。 代理人该如何行动?如果欺骗,只有本期的10单位收入; 如果不欺骗,得到本期的5单位收入,有δ的概率在下期 得到5单位收入、、、、、总的期望收入:
5+5δ+5δ2+ 、、、=5/(1-δ) 只要5/(1-δ)≥10,即δ≥0.5,不欺骗就是代理人的
最佳选择.
26
通过重复博弈,建立了信誉机制.信誉机制的核 心在于:当事人为了合作带来的长远利益,愿意 抵挡欺骗带来的一次性诱惑.
收 益
欺骗
10单位 5/(1-δ)
A B
图—2 当前收益与未来收益
诚 实
20
重复博弈:中东地区的集市
经济学家的疑惑:既然有先进 国家的榜样,而且资金与技术也非遥不可及,落后 地区为何一直在贫困中挣扎? 在中东的某些市场,有各种摊贩,其有几个特点:
卖东西的规模小,买卖wk.baidu.com方萍水相逢; 多半是陌生人,成交前讨价还价占很长的时间。
交易的品质参差不齐,商品就可以夸大其词。在 讨价还价中,欺骗的伎俩普遍,品质倒在其次。 这些市场中,产品几十年、几百年都没有大的变 化。 制度经济学称之为“低度均衡”。
30
复制信誉机制的主要手段是现代组织,包括企业组织、 社团组织(如宗教团体、商会),以及中介组织。 个人的利益取决于组织的价值,而组织的价值依赖于其 信誉,则个人就会注重信誉。 在市场经济中,企业是将一次性博弈转化为重复博弈的 机制,是信誉的载体。市场有了长期的参与者,欺骗行 为易被观察到。 商号起着传统社会的姓氏的作用,企业用自己的商号加 总了其内部所有人的信息。所有人都要承担连带责任。 韦伯在100年前观察到,参加社团组织等于获得了一个 “社会印章”(a social seal of approval),得到一个 信誉认证。
6
无限次重复囚徒困境 L L 1 R
1,1 *
0,5
2
R
5,0
4,4
7
在该博弈的一次性博弈中,得益为较差的 (L,L),是它唯一的纳什均衡。 在无限次重复博弈中,我们假设两博弈方都 采用触发战略(tit for tat):
第一阶段采用R战略; 第t阶段,如果前t-1次的结果都是(R,R), 则继续采用R战略,否则采用L战略(包括自己 一旦采用L战略,以后也只能采用L战略)。
3.
4.
28
信誉机制发生作用的条件可以概括为:
1. 2.
博弈必须是重复的,交易关系有足够高的概率持续下去, 当事人在未来没有赌注,就不会放弃当期收益。 当事人必须有足够的耐心, δ可以理解为代理人的贴 现因子。说一个人有耐心,是说他的贴现因子高。有积 极性去建立信誉。 当事人的不诚实行为能被及时观察到。一般而言,信息 观察越滞后,信誉的建立越困难。当代理人可以欺骗两 次时,δ是多少? 当事人必须有足够的积极性和可能性对交易对手的欺骗 行为进行惩罚。“以牙还牙”是维持社会信用的必不可 少的手段。
第六讲
完全信息动态博弈的应用(续)
——从囚徒困境到合作
上一讲小结 重复囚徒困境的解
1
一、问题的提出
按照经济人(理性人)的假设,在人类社 会中广泛存在囚徒困境; 而在现实社会生活中,合作却是再寻常不 过的现象;
1.
2.
3.
人与人之间的合作在一个广泛不合作的环境里 是怎么发生的?(初始成活性 ) 又怎么能在动态的多样化的社会环境中持续下 去?(Robust\鲁棒性 ) 持续中的合作又怎么能避免被(背叛)破坏? (“稳定性 )
16
问题:一战时为何将毒气作武器使用,二战没
有这么作?但是又为何使用了核武器?
通过触发战略实现合作均衡
法国 使用毒气 德国 使用毒气 不使用 -8 ,-8 -10 , 3 不使用 3 , -10 0 , 0
参与人不固定时的重复博弈
以往的讨论都是假定博弈的参与人是相同的, 但是有时往往一方的参与人是不固定的。如消 费品市场。 假定只有一个厂商提供商品,每个消费者只购 买一次,每个阶段只有一个消费者。 在一个阶段中,消费者决定是否购买,而厂商 决定质量高/低。 消费者在购买时不知道商品的质量,但是知道 T-1期的质量。
时间
27
信誉机制发生作用的条件可以概括为:
1. 2.
博弈必须是重复的,交易关系有足够高的概率持续下 去,当事人在未来没有赌注,就不会放弃当期收益。 当事人必须有足够的耐心, δ可以理解为代理人的贴 现因子。说一个人有耐心,是说他的贴现因子高。有 积极性去建立信誉。 当事人的不诚实行为能被及时观察到。一般而言,信 息观察越滞后,信誉的建立越困难。当代理人可以欺 骗两次时,δ是多少? 当事人必须有足够的积极性和可能性对交易对手的欺 骗行为进行惩罚。“以牙还牙”是维持社会信用的必 不可少的手段。
得分规则与前面的矩阵相同,什么时候结束游戏 是未知的。 要求每个参赛者把追求得分最多的策略写成计算 机程序; 然后用单循环赛的方式将参赛程序两两博弈,以 找出什么样的策略得分最高。
5
第一轮游戏有14个程序参加,再加上艾克斯 罗德自己的一个随机程序(即以50%的概率选 取合作或不合作),运转了300次。 结果得分最高的程序是加拿大学者罗伯布写 的“一报还一报”(tit for tat)。 它是所有参赛程序中最简单的,只包含了四 行BASIC语言,并且赢得了比赛。
15
如何提高合作性呢?
“友善”。不要在对手背叛之前先背叛,仅仅 出于自私的原因,也不要首先打击其对手; 报复。不是一个盲目乐观者,始终报复; 宽恕。如果对手不继续背叛,它们会一再退却 到合作; 不嫉妒。不去争取得到高于对手的分数。
自私的个人为了其自私的利益会趋向友善、 宽恕和不嫉妒。关于重复囚徒困境研究的 重要结论之一,是友善的人能先完成交易
试错 ; 遗传 ,如果合作性好,他的后代的合作基因就多 ; 学习 。
13
艾克斯罗德群体演化实验
结果表明:“一报还一报”原来在群体中占1/63, 经过1000代的进化,结构稳定下来时,它占了 24%。 一些程序在进化过程中消失了。如前15名里“不 善良”的程序。 “一报还一报”的竞争优势在于能促使合作秩序 扩展,从而能够和合作伙伴一起胜过“总是背叛” 或“一有机会就背叛”的“小人”。 进化实验揭示了一个哲理:一个策略的成功应该 以对方的成功为基础。