囚徒困境从单次博弈到重复博弈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14 商业时代 ( 原名 《 商业经济研究》) 2009年2期
单次博弈中的“囚徒困境”
经典的“囚徒困境”博弈单次博弈,反 映了集体理性和个人理性的矛盾。假定每 个参与者(即“囚徒”)都是利己的,即都 寻求最大自身利益,而不关心另一参与者 的利益。参与者某一策略所得利益,如果 在任何情况下都比其他策略要低的话,此 策略称为“严格劣势”,理性的参与者绝不 会选择。另外,没有任何其他力量干预个 人决策,参与者可完全按照自己意愿选择 策略。
假设二人均为理性的个人,且只追求 自己个人利益,二人到底应该选择哪一项 策略,才能将自己个人的刑期缩至最短? 由于隔绝监禁,信息不明,二人并不知道 对方选择;而即使他们能交谈,还是未必 能够尽信对方不会反口。就个人的理性选 择而言,检举背叛对方所得刑期,总比不 坦白要来得低。试设想困境中两名理性囚 徒会如何作出选择:
类似的,如果 p、q ≥ 0.14,理性囚徒 将 t=1 到 T-1 阶段选择 D,在 t=T 时阶段选 择 C,非理性囚徒将自始至终选择 D。
如果这个博弈是无限期的,那么两个 囚徒都将永远选择 D,当然对于囚徒博弈 来说不可能无限期的进行。
结论
在现实生活中也存在有多种冲突问题 的模拟,如核裁军、工资谈判、传染病预 防、企业广告投入等,特别是经济活动中, 参加对策的各方利益并不是完全截然相反, 而是由某种共同的利益联结在一起,形成 既有对抗又有合作的复杂局面。比如两家 公司组成的卡特尔,在短期内,他们就不 会采取欺诈行为,而会共同规定一个价格, 为争夺市场的份额此时博弈的双方只要他 们相信今后还需要合作就一定会在第一次 博弈的基础上达成新的协议,结成行业联 盟。但它们就有可能定高价,使整个行业 利润最大,此时由于行业的高利润和高发 展前景,必然会不断出现新产品,必然会 有新的生产者进入市场。由于联盟内部成 员之间总是互不信任,暗中互相欺骗,就 导致联盟的短命使得该博弈过程不可能无 限期的重复进行下去。由于政府的介入,如 反不正当竞争和欺诈行为等,使得博弈的 双方又重新开始下一轮的博弈。
囚 徒困境是博弈论中非零和博弈的 代表性的例子,反映个人最佳选 择并非团体最佳选择。虽然困境 本身只属模型性质,但现实中囚徒困境的 例子屡见不鲜。
“囚徒困境”博弈是博弈论中的经典案 例。这个故事讲的是两个嫌疑犯 A 和 B,作 案后被警察抓住,被分别关在不同的审讯 室。警察为了得到所需的口供,告诉每个 人:如果两人都不坦白,每人以妨碍公务 罪各被判刑三年;如果两人都坦白,各判 刑十年;如果两人中一人坦白、另一人不 坦白,则坦白的人判刑两年、不坦白的人 判刑十二年。在这个博弈中,每个嫌疑犯 都有两种可选择的战略:坦白或不坦白。显 然每个囚徒的最优战略都是坦白。这是因 为假定 A 选择坦白的话、B 最好也选择坦 白,因 B 坦白判刑十年,而不坦白却要判 刑十二年;假定 A 选择不坦白的话,B 最好 还是选择坦白,因为 B 坦白的话就判刑二 年,而不坦白却要被判刑三年。即是说,不 管 A 坦白或不坦白,B 的最优选择都是坦 白。反过来,同样地,不管 B 是坦白还是不 坦白,A 的最优选择也是坦白。结果,两个 人都选择了坦白,各判刑十年。
首先讨论博弈只重复两次的情况:在 t=1 阶段,非理性一方会选择 D。在 t=2 阶 段,理性囚徒选择 C,而理性囚徒在 t=1 阶 段的选择将是非理性囚徒在 t=2 阶段的选 择,如表 2。
如果选择 X=D,Y=D, 理性囚徒 1 的期望支付是:-3+[q*(- 2)+(1-q)*(-10)]=8q-13; 理性囚徒 2 的期望支付是:-3+[p*(- 2)+(1-p)*(-10)]=8p-13 ...... 所以囚徒 1 和囚徒 2 对应于 X,Y 的选 择期望支付矩阵为 8q-20 ≥ 17q-22 且 -12 ≥ 8q-13 由此得出:p ≤ 1/8 且 q ≤ 2/9 再推得: 当q≤1/8时,X=C;当q≥2/9时,X=C。 同理可得:当 p ≤ 1/8 时,Y=C;当 p ≥ 2/9 时,Y=C,如表 3。 就是说如果理性囚徒 1(2)认为囚徒 2 (1)属于非理性的概率不大于 1/8,他将在 第一阶段选择坦白,如果不小于 2/9,则选 择不坦白。 其次讨论理性囚徒认为他的同伙属于 非理性的概率在 1/8 和 2/9 之间时,他将如 何选择。 假设囚徒 1 和囚徒 2 都是风险中性者。 当理性囚徒一方认为另一方属于非理 性的概率 p(q)≥ a 时,他将在第一阶段选择 不坦白。在每个囚徒都没有暴露自己是理 性的还是非理性的之前,理性囚徒选择不 坦白的概率为 1-a,选择坦白的概率为 a。 若满足: a*(8q-20)+(1-a)*(-12)≥ a*(17q- 22)+(1-a)*(8q-13) 则 q ≤(a+1)/ (8+a)。 令 a=(a+1)/(8+a),则 a=0.14。 所以,当一名理性囚徒认为同伙属于 非理性的概率 q ≥ 0.14 时,他将在第一阶 段选择不坦白,在第二阶段选择坦白。重 复三次的博弈均衡如表 4。 当博弈重复 4 次的情况如下: 在 t=1 阶段,类似于前面的讨论,囚徒 1 和囚徒 2 都将选择 D,那么他们都没有暴 露自己是理性的还是非理性的,那么在 t=2,3,4 阶段的博弈和前面讨论的 3 次重 复博弈的情况是一致的。 ∴ p, q ≥ 0.14 时,重复 4 次的博弈的 均衡,如表 5。 当博弈重复 n(T=n)次的情况:
(一)重复性囚徒困境博弈的理论 研究
在“重复性囚徒困境”研究方面,最有
囚徒 1
坦白 不坦白
表1
囚徒 2
坦白
不坦白
(-10,-10)
(-2,-12)
(-12,-2)
(-3,-3)
表2
概率
类型
t=1
t=2
p
非理性
D
Y
囚徒 1
1Βιβλιοθήκη Baidup
理性
X
C
q
非理性
D
X
囚徒 2
1-q
理性
Y
C
表3
Y
C
D
X
C (8q-20,8p-20) (-12,17p-22)
谢林仔细考察了博弈者相互之间的信 息沟通程度与博弈结果的相应关系,探讨 “协同博弈”(co-ordination games)形成 的条件。谢林对非零和模型的研究,表明 最大化个人功利的企图并不像在零和博弈 中那样等于最小化人的功利。
(二)重复性囚徒困境模型研究 如果重复囚徒困境将被精确地重复 N 次,已知 N 是一个常数,那么会产生另一 个事实:纳什均衡就是每次都背叛。用归 纳法证明:你也可以在最后的回合背叛,既 然你的对手将没有机会惩罚你。因此,你 们都将在最后的回合背叛。这时,你可以 在倒数第二回合中背叛,既然最后一回无 论你做什么,你的对手都将背叛。依此类 推。为了达到合作的目的,对两个参与者 来说未来必须是不确定的。给出一个数据 模型。假设囚徒困境的策略矩阵如表 1。 我们假设囚徒的支付是阶段博弈支付 贴现之和,并假定贴现因子等于 1。若双方 均为非理性的,那么他们每阶段都会选择 不坦白。在不完全信息情况下,假设囚徒 1 有两种类型,理性的和非理性的,概率分 别为 1-p 和 p,假设囚徒 2 也有两种类型, 理性的或非理性的,概率分别为 1-q 和 q, 为了叙述方便,用 C 代表“坦白(背叛)” ( C o n f e s s ) ,D 代表“不坦白(合作)” (Deny)。
艾克斯罗德的结论,肯定了纯由利己 主义者组成的世界中,建立互惠合作关系 的可能性。这一结论对于人类社会的意义 在于,即使在缺少政府权威的人群中,人 们合作或建立社会秩序也是可能的,因为 合作本身符合当事人长远的、根本的利益。 合作产生的条件就是:“人们重新相遇的机 会足够大”,即“合作是基于互利互惠的基 础;而且未来的影响十分重要,它足以保 证目前的互利互惠关系的稳定”。
刑 2 年的情况较佳。 假设一方是非理性的,另一方是理性
的,即博弈双方均不知道对方是不是理性 的,非理性一方(理解为讲义气重信誉的人 或担心坦白会受到出狱后的报复),假设他 只有一种策略,如果博弈是重复的,在第 一阶段,他必然选择不坦白,在以后阶段 他将选择同伙前一阶段的选择,即你不坦 白我就不坦白,你坦白我就坦白。而另一 方是理性的,他不管对方是否理性的,他 都将选择坦白。所以这次博弈的均衡是(不 坦白,坦白)。
对一次性囚徒困境博弈来说,无论对 手的行动可能是什么,最佳策略是简单地 背叛;但是在重复的囚徒困境博弈中,博 弈被反复地进行,参与者最佳策略依赖于 对手可能的策略,和他们怎样对背叛和合 作作出反应。因而每个参与者都有机会去 “惩罚”另一个参与者前一回合的不合作行 为。这时,合作可能会作为均衡的结果出 现。欺骗的动机这时可能被受到惩罚的威 胁所克服,从而可能导向一个较好的、合 作的结果。作为反复接近无限的数量,纳 什均衡趋向于帕累托最优。
假设双方均为非理性的,那么他们不 管同伙如何选择,他们都将选择不坦白,则 博弈的均衡是(不坦白,不坦白)。
重复博弈中的“囚徒困境”
重复博弈中的“囚徒困境”,是指相同 的博弈者会不断重逢,即不断重复面对相 似的囚徒困境的选择条件。重复为博弈产 生了新的动力结构。在重复性囚徒困境下, 理性博弈者将考虑,如果我拒绝合作,不 断背叛,为了减少你的损失你也背叛。通 过重复,博弈者可按对手以往选择而决定 当前选择。背叛有可能遭到惩罚,合作有 可能获得收益。
参考文献:
1. 张维迎. 博弈论与信息经济学[M]. 上海人民出版社,1 9 9 6
2 . 高鸿桢. 管理运筹学[ M ] .江西人民 出版社,1 9 9 7
3 . 胡运权,郭耀煌. 运筹学教程[ M ] . 清华大学出版社,1 9 9 8
全国贸易经济类核心期刊 15
D
(17q-22,-12) (8q-13,8p-13)
表4
类型
t=1
t=2
t=3
非理性
D
囚徒 1,2 理性
D
D
D
D
C
表5
类型 t=1 t=2 t=3 t=4
囚徒 1,2 非理性 D
D
D
D
理性
D
D
D
C
成就者当推罗伯特·艾克斯罗德、泰勒、哈 丁等人。在其《合作的进化》一书中,艾克 斯罗德用实验证明,在重复博弈条件下,一 次性囚徒困境下背叛的占优策略将会为有 条件合作的占优策略所取代,换言之,在 一次性囚徒困境中,选择不合作策略的博 弈者,在“重复性囚徒困境”中,将会采取 合作策略以最大化个人利益、即“有条件 合作”策略将是重复性囚徒困境下博弈者 的占优策略。
若对方不坦白、不背叛会让我获释,所 以会选择背叛;若对方背叛指控我,我也 要指控对方才能得到较低的刑期,所以也 是会选择背叛。二人面对的情况一样,所 以二人的理性思考都会得出相同的结论 - 选择背叛。背叛是两种策略之中的支配性 策略。因此,这场博弈中唯一可能达到的 纳什均衡就是(坦白,坦白)。
这场博弈的纳什均衡,显然不是顾 及团体利益的帕累托最优解决方案。以 全体利益而言,如果两个参与者都合作 保持不坦白,两人都只会被判刑 3 年,总 体利益更高,结果也比两人背叛对方、判
先驱论坛 Herald Forum
囚徒困境 从单次博弈到重复博弈
■ 杨 懋1 祁守成2(1、兰州工业高等专科学校管理工程系 兰州 730050 2、西北师范大学财务处 兰州 730070)
◆ 中图分类号:F224.32 文献标识码:A
内容摘要:本文从博弈论中的经典案 例“囚徒困境”入手,阐述了单次博弈 与重复博弈中的囚徒困境现象。随后 论证了囚徒困境在单次博弈与重复博 弈中的均衡区别,说明了在重复博弈 条件下合作产生的可能性。 关键词:囚徒困境 单次博弈 重复博 弈 合作
单次博弈中的“囚徒困境”
经典的“囚徒困境”博弈单次博弈,反 映了集体理性和个人理性的矛盾。假定每 个参与者(即“囚徒”)都是利己的,即都 寻求最大自身利益,而不关心另一参与者 的利益。参与者某一策略所得利益,如果 在任何情况下都比其他策略要低的话,此 策略称为“严格劣势”,理性的参与者绝不 会选择。另外,没有任何其他力量干预个 人决策,参与者可完全按照自己意愿选择 策略。
假设二人均为理性的个人,且只追求 自己个人利益,二人到底应该选择哪一项 策略,才能将自己个人的刑期缩至最短? 由于隔绝监禁,信息不明,二人并不知道 对方选择;而即使他们能交谈,还是未必 能够尽信对方不会反口。就个人的理性选 择而言,检举背叛对方所得刑期,总比不 坦白要来得低。试设想困境中两名理性囚 徒会如何作出选择:
类似的,如果 p、q ≥ 0.14,理性囚徒 将 t=1 到 T-1 阶段选择 D,在 t=T 时阶段选 择 C,非理性囚徒将自始至终选择 D。
如果这个博弈是无限期的,那么两个 囚徒都将永远选择 D,当然对于囚徒博弈 来说不可能无限期的进行。
结论
在现实生活中也存在有多种冲突问题 的模拟,如核裁军、工资谈判、传染病预 防、企业广告投入等,特别是经济活动中, 参加对策的各方利益并不是完全截然相反, 而是由某种共同的利益联结在一起,形成 既有对抗又有合作的复杂局面。比如两家 公司组成的卡特尔,在短期内,他们就不 会采取欺诈行为,而会共同规定一个价格, 为争夺市场的份额此时博弈的双方只要他 们相信今后还需要合作就一定会在第一次 博弈的基础上达成新的协议,结成行业联 盟。但它们就有可能定高价,使整个行业 利润最大,此时由于行业的高利润和高发 展前景,必然会不断出现新产品,必然会 有新的生产者进入市场。由于联盟内部成 员之间总是互不信任,暗中互相欺骗,就 导致联盟的短命使得该博弈过程不可能无 限期的重复进行下去。由于政府的介入,如 反不正当竞争和欺诈行为等,使得博弈的 双方又重新开始下一轮的博弈。
囚 徒困境是博弈论中非零和博弈的 代表性的例子,反映个人最佳选 择并非团体最佳选择。虽然困境 本身只属模型性质,但现实中囚徒困境的 例子屡见不鲜。
“囚徒困境”博弈是博弈论中的经典案 例。这个故事讲的是两个嫌疑犯 A 和 B,作 案后被警察抓住,被分别关在不同的审讯 室。警察为了得到所需的口供,告诉每个 人:如果两人都不坦白,每人以妨碍公务 罪各被判刑三年;如果两人都坦白,各判 刑十年;如果两人中一人坦白、另一人不 坦白,则坦白的人判刑两年、不坦白的人 判刑十二年。在这个博弈中,每个嫌疑犯 都有两种可选择的战略:坦白或不坦白。显 然每个囚徒的最优战略都是坦白。这是因 为假定 A 选择坦白的话、B 最好也选择坦 白,因 B 坦白判刑十年,而不坦白却要判 刑十二年;假定 A 选择不坦白的话,B 最好 还是选择坦白,因为 B 坦白的话就判刑二 年,而不坦白却要被判刑三年。即是说,不 管 A 坦白或不坦白,B 的最优选择都是坦 白。反过来,同样地,不管 B 是坦白还是不 坦白,A 的最优选择也是坦白。结果,两个 人都选择了坦白,各判刑十年。
首先讨论博弈只重复两次的情况:在 t=1 阶段,非理性一方会选择 D。在 t=2 阶 段,理性囚徒选择 C,而理性囚徒在 t=1 阶 段的选择将是非理性囚徒在 t=2 阶段的选 择,如表 2。
如果选择 X=D,Y=D, 理性囚徒 1 的期望支付是:-3+[q*(- 2)+(1-q)*(-10)]=8q-13; 理性囚徒 2 的期望支付是:-3+[p*(- 2)+(1-p)*(-10)]=8p-13 ...... 所以囚徒 1 和囚徒 2 对应于 X,Y 的选 择期望支付矩阵为 8q-20 ≥ 17q-22 且 -12 ≥ 8q-13 由此得出:p ≤ 1/8 且 q ≤ 2/9 再推得: 当q≤1/8时,X=C;当q≥2/9时,X=C。 同理可得:当 p ≤ 1/8 时,Y=C;当 p ≥ 2/9 时,Y=C,如表 3。 就是说如果理性囚徒 1(2)认为囚徒 2 (1)属于非理性的概率不大于 1/8,他将在 第一阶段选择坦白,如果不小于 2/9,则选 择不坦白。 其次讨论理性囚徒认为他的同伙属于 非理性的概率在 1/8 和 2/9 之间时,他将如 何选择。 假设囚徒 1 和囚徒 2 都是风险中性者。 当理性囚徒一方认为另一方属于非理 性的概率 p(q)≥ a 时,他将在第一阶段选择 不坦白。在每个囚徒都没有暴露自己是理 性的还是非理性的之前,理性囚徒选择不 坦白的概率为 1-a,选择坦白的概率为 a。 若满足: a*(8q-20)+(1-a)*(-12)≥ a*(17q- 22)+(1-a)*(8q-13) 则 q ≤(a+1)/ (8+a)。 令 a=(a+1)/(8+a),则 a=0.14。 所以,当一名理性囚徒认为同伙属于 非理性的概率 q ≥ 0.14 时,他将在第一阶 段选择不坦白,在第二阶段选择坦白。重 复三次的博弈均衡如表 4。 当博弈重复 4 次的情况如下: 在 t=1 阶段,类似于前面的讨论,囚徒 1 和囚徒 2 都将选择 D,那么他们都没有暴 露自己是理性的还是非理性的,那么在 t=2,3,4 阶段的博弈和前面讨论的 3 次重 复博弈的情况是一致的。 ∴ p, q ≥ 0.14 时,重复 4 次的博弈的 均衡,如表 5。 当博弈重复 n(T=n)次的情况:
(一)重复性囚徒困境博弈的理论 研究
在“重复性囚徒困境”研究方面,最有
囚徒 1
坦白 不坦白
表1
囚徒 2
坦白
不坦白
(-10,-10)
(-2,-12)
(-12,-2)
(-3,-3)
表2
概率
类型
t=1
t=2
p
非理性
D
Y
囚徒 1
1Βιβλιοθήκη Baidup
理性
X
C
q
非理性
D
X
囚徒 2
1-q
理性
Y
C
表3
Y
C
D
X
C (8q-20,8p-20) (-12,17p-22)
谢林仔细考察了博弈者相互之间的信 息沟通程度与博弈结果的相应关系,探讨 “协同博弈”(co-ordination games)形成 的条件。谢林对非零和模型的研究,表明 最大化个人功利的企图并不像在零和博弈 中那样等于最小化人的功利。
(二)重复性囚徒困境模型研究 如果重复囚徒困境将被精确地重复 N 次,已知 N 是一个常数,那么会产生另一 个事实:纳什均衡就是每次都背叛。用归 纳法证明:你也可以在最后的回合背叛,既 然你的对手将没有机会惩罚你。因此,你 们都将在最后的回合背叛。这时,你可以 在倒数第二回合中背叛,既然最后一回无 论你做什么,你的对手都将背叛。依此类 推。为了达到合作的目的,对两个参与者 来说未来必须是不确定的。给出一个数据 模型。假设囚徒困境的策略矩阵如表 1。 我们假设囚徒的支付是阶段博弈支付 贴现之和,并假定贴现因子等于 1。若双方 均为非理性的,那么他们每阶段都会选择 不坦白。在不完全信息情况下,假设囚徒 1 有两种类型,理性的和非理性的,概率分 别为 1-p 和 p,假设囚徒 2 也有两种类型, 理性的或非理性的,概率分别为 1-q 和 q, 为了叙述方便,用 C 代表“坦白(背叛)” ( C o n f e s s ) ,D 代表“不坦白(合作)” (Deny)。
艾克斯罗德的结论,肯定了纯由利己 主义者组成的世界中,建立互惠合作关系 的可能性。这一结论对于人类社会的意义 在于,即使在缺少政府权威的人群中,人 们合作或建立社会秩序也是可能的,因为 合作本身符合当事人长远的、根本的利益。 合作产生的条件就是:“人们重新相遇的机 会足够大”,即“合作是基于互利互惠的基 础;而且未来的影响十分重要,它足以保 证目前的互利互惠关系的稳定”。
刑 2 年的情况较佳。 假设一方是非理性的,另一方是理性
的,即博弈双方均不知道对方是不是理性 的,非理性一方(理解为讲义气重信誉的人 或担心坦白会受到出狱后的报复),假设他 只有一种策略,如果博弈是重复的,在第 一阶段,他必然选择不坦白,在以后阶段 他将选择同伙前一阶段的选择,即你不坦 白我就不坦白,你坦白我就坦白。而另一 方是理性的,他不管对方是否理性的,他 都将选择坦白。所以这次博弈的均衡是(不 坦白,坦白)。
对一次性囚徒困境博弈来说,无论对 手的行动可能是什么,最佳策略是简单地 背叛;但是在重复的囚徒困境博弈中,博 弈被反复地进行,参与者最佳策略依赖于 对手可能的策略,和他们怎样对背叛和合 作作出反应。因而每个参与者都有机会去 “惩罚”另一个参与者前一回合的不合作行 为。这时,合作可能会作为均衡的结果出 现。欺骗的动机这时可能被受到惩罚的威 胁所克服,从而可能导向一个较好的、合 作的结果。作为反复接近无限的数量,纳 什均衡趋向于帕累托最优。
假设双方均为非理性的,那么他们不 管同伙如何选择,他们都将选择不坦白,则 博弈的均衡是(不坦白,不坦白)。
重复博弈中的“囚徒困境”
重复博弈中的“囚徒困境”,是指相同 的博弈者会不断重逢,即不断重复面对相 似的囚徒困境的选择条件。重复为博弈产 生了新的动力结构。在重复性囚徒困境下, 理性博弈者将考虑,如果我拒绝合作,不 断背叛,为了减少你的损失你也背叛。通 过重复,博弈者可按对手以往选择而决定 当前选择。背叛有可能遭到惩罚,合作有 可能获得收益。
参考文献:
1. 张维迎. 博弈论与信息经济学[M]. 上海人民出版社,1 9 9 6
2 . 高鸿桢. 管理运筹学[ M ] .江西人民 出版社,1 9 9 7
3 . 胡运权,郭耀煌. 运筹学教程[ M ] . 清华大学出版社,1 9 9 8
全国贸易经济类核心期刊 15
D
(17q-22,-12) (8q-13,8p-13)
表4
类型
t=1
t=2
t=3
非理性
D
囚徒 1,2 理性
D
D
D
D
C
表5
类型 t=1 t=2 t=3 t=4
囚徒 1,2 非理性 D
D
D
D
理性
D
D
D
C
成就者当推罗伯特·艾克斯罗德、泰勒、哈 丁等人。在其《合作的进化》一书中,艾克 斯罗德用实验证明,在重复博弈条件下,一 次性囚徒困境下背叛的占优策略将会为有 条件合作的占优策略所取代,换言之,在 一次性囚徒困境中,选择不合作策略的博 弈者,在“重复性囚徒困境”中,将会采取 合作策略以最大化个人利益、即“有条件 合作”策略将是重复性囚徒困境下博弈者 的占优策略。
若对方不坦白、不背叛会让我获释,所 以会选择背叛;若对方背叛指控我,我也 要指控对方才能得到较低的刑期,所以也 是会选择背叛。二人面对的情况一样,所 以二人的理性思考都会得出相同的结论 - 选择背叛。背叛是两种策略之中的支配性 策略。因此,这场博弈中唯一可能达到的 纳什均衡就是(坦白,坦白)。
这场博弈的纳什均衡,显然不是顾 及团体利益的帕累托最优解决方案。以 全体利益而言,如果两个参与者都合作 保持不坦白,两人都只会被判刑 3 年,总 体利益更高,结果也比两人背叛对方、判
先驱论坛 Herald Forum
囚徒困境 从单次博弈到重复博弈
■ 杨 懋1 祁守成2(1、兰州工业高等专科学校管理工程系 兰州 730050 2、西北师范大学财务处 兰州 730070)
◆ 中图分类号:F224.32 文献标识码:A
内容摘要:本文从博弈论中的经典案 例“囚徒困境”入手,阐述了单次博弈 与重复博弈中的囚徒困境现象。随后 论证了囚徒困境在单次博弈与重复博 弈中的均衡区别,说明了在重复博弈 条件下合作产生的可能性。 关键词:囚徒困境 单次博弈 重复博 弈 合作