_囚徒困境_博弈的理论模型及现实思考

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表 2 t =T-1 阶段两个囚徒的收益矩阵
囚 徒 B 坦白 不坦白 囚徒 A 坦白 不坦白 ( )( ) -6, -6 -8, -3 ( )( ) -3, -8 -4, -4
“ 坦 白” 仍然是博弈双方的严格占 从表 2 中 可 以 看 出 , 优策略 , 因而 ( 坦白 , 坦白 ) 是博 弈 双 方 在 t =T-1 阶 段 唯 一 每 阶 段“ 囚 徒 困 境” 博弈的 的纯 N a s h 均衡 。 以此往上类推 , , 结果都是博弈双方采 用 “ 坦 白” 所以 T 次重复博弈的子博 弈精炼 N 坦 白” 策 略, a s h 均衡是每个博弈 阶 段 双 方 都 采 取 “ 。 即每一阶段的博弈结果都是 ( 坦白 , 坦白 ) 2. 4 不完全信息的动态博弈 在完全信 息 条 件 下 , 囚 徒 困 境” 博弈的每 T 次重复的“ , 坦白 , 坦 白) 但是在现实生活中由于信 阶段博弈结果都是 ( 息的不对称 , 这种结果并非总 是 发 生 , 我们常常看到屡次犯 案的犯罪团伙总是百般抵 赖 妄 想 逃 脱 法 律 的 惩 罚 。 国 外 经 济学家作试验也 表 明 , 在有限次重复博弈中合作行为也频 繁出现 , 因此需要将不完全信息引入重复博弈 。 在双方参与 者 都 是 理 性 的 情 况 下 , 依然可以采取逆向
进行博弈又怕对方背叛自 己 使 自 己 的 收 益 严 重 下 降 。 在 深 囚徒 困 境 ” 博 弈 的 4 个 基 本 模 型 后, 如何帮助这 入了解了 “ 囚徒 ” 走出 困 境 从 而 解 决 社 会 中 普 遍 存 在 的 问 题 , 成为 些“ 。 摆在笔者面前的重大问题 在“ 囚徒困境 ” 博弈 的 理 论 模 型 中, 囚徒 A 和囚徒 B之 所以会不约而 同 的 选 择 “ 坦 白” 策 略, 那是因为他们都想使 各自的收益尽 可 能 最 大 化 , 如果选择“ 不 坦 白” 策略则很可 不 坦 白” 策 能使得他们的收益达到最 低 。 要 想 他 们 去 选 择 “ 略, 则只能通过改变收益矩阵 中 的 收 益 来 实 现 , 而改变收益 则可以同过附 加 可 置 信 威 胁 来 实 现 。 所 谓 附 加 可 置 信 威 是指在一博弈过 程 中 , 参 与 者 A 选 择 一 个 战 略 后, 该战 胁, 略会减少参与者 B 的 收 益 而 不 会 减 少 A 本 身 的 收 益 , 那么 。 采取的这个战略对 来说就是可置信威胁 A B 还是以本文的博弈案例 为 模 型 , 现 附 加 一 个 前 提 假 设: 囚徒 A 知道囚徒 B 曾经还做一案 , 若 A 告发 B 则 可 使 B 多 判两年 , 但是只有在 A 选 择 “ 不 坦 白” 策略而 B 选择“ 坦 白” 策略时 A 才会告发 B, 此时囚徒 A 和 B 的收益矩阵见表 3。
1 引言
作者简介 : 宣飞 , 安徽大学经济学院金融学专业研究生 。
— 3 0 —
N o . 1 7, 2 0 1 1

现代商贸工业 M o d e r n B u s i n e s s T r a d e I n d u s t r y
Biblioteka Baidu
2 0 1 1 年第 1 7期
在此特假定 R=1。 采用逆向归纳法 , 先分 化问题便于分析 , , 阶段两囚徒的博弈策 略 选 择 这 是 一 个 完 全 信 息 条 析t =T 通过本文的 以 上 分 析 可 知 , 博弈的最终结 件下的静态博弈 , , 。现在再回 果会是 ( 坦白 , 坦 白) 双方的收益为( -3, -3) 到t 理性的博弈双方对于后一阶段的结果会 =T-1 阶 段 , , 非常清楚 , 双方都 不 愿 “ 吃 亏” 的结果必然是( 坦 白, 坦 白) 因此不管现阶段 的 博 弈 结 果 怎 样 , 双方的收益都是在本阶 此时双方的收益矩阵见表 2。 段收益的基础上加上 -3,
N o . 1 7, 2 0 1 1

现代商贸工业 M o d e r n B u s i n e s s T r a d e I n d u s t r y
2 0 1 1 年第 1 7期
“囚徒困境 ” 博弈的理论模型及现实思考
宣 飞 查章林 华德志 陈 磊
( ) 安徽大学经济学院 , 安徽 合肥 2 3 0 6 0 1 摘 要: 从剖析 “ 囚徒困境 ” 博弈的 4 个基本理论模型 入 手 , 深 入 研 究 导 致“ 囚 徒” 陷 入 困 境 的 原 因, 再结合现实生活的 实际 , 给出了解决 “ 囚徒困境 ” 问题的有效办法 。 “ 关键词 : 囚徒困境 ” 博弈 ; 理论模型 ; 现实思考 ( ) 中图分类号 : C 9 3 文献标识码 : A 文章编号 : 1 6 7 2 3 1 9 8 2 0 1 1 1 7 0 0 3 0 0 2 - - - 对于囚徒 A 来说, 无论 从表 1 的收益矩阵中可以看出 , “ ” “ ” , “ 囚徒 选择 坦 白 还 是 不 坦 白 他 的 占 优 策 略 都 是 坦 B 囚徒困境是 博 弈 论 中 非 零 和 博 弈 的 经 典 范 例 , 它最早 ” , 。 , 白 而对于囚 徒 来 说 情 况 也 是 如 此 因 此 在 完 全 信 息 B 是由 T u c k e r于 1 9 5 0 年提 出 。 它 是 建 立 在 具 有 个 人 理 性 的 理性的 囚 徒 A 和 B 相 互 博 弈 的 最 终 结 果 会 是 ( 坦 条件下 , 理性人的基础上 的 , 反映了个人最佳选择而非团体最佳选 , ) , ( , ) 。 白 坦白 而并非集体理性选择结果 不坦白 不坦白 但是现实生活中 择 。 虽然囚徒困 境 本 身 只 具 有 模 型 性 质 , 2 不完全信息的静态博弈 人 不 为 己, 天 诛 地 灭 ” 2. 类似囚徒困境 的 例 子 却 屡 见 不 鲜 。“ 在不完全信 息 条 件 下 , 两个囚徒采取行动并非是同时 这句古话虽然过于极端 , 但揭 露 了 人 性 中 的 理 性 自 利 一 面 。 他们双方对彼此采取 什 么 行 动 也 是 不 清 楚 的 。 但 是 , 在 的, 在很多时候 , 个体理性带来的 却 很 可 能 是 集 体 的 不 理 性 , 如 , 这种条件下 两 个 囚 徒 的 收 益 情 况 还 是 与 完 全 信 息 条 件 下 , 果每个人都仅按 照 自 利 的 原 则 行 事 其 结 果 往 往 是 所 有 人 具体如表 1 所示 。 在 不 完 全 信 息 的 静 态 博 弈 模 型 中 , 相同 , , 囚 徒 困 境” 正是对这一现象的 都遭受损失 。 博 弈 论 中 的 “ 由于双方博弈只 有 一 个 回 合, 因而理性的参与者都是从自 。 真实写照 。 可谓 “ 你我谁不是囚徒 , 天下何处无困境 ” , 己的收益最大 化 来 考 虑 的 他 们 不 存 在 合 作 的 可 能。 一 方 随着经济社 会 的 不 断 发 展 , 构建和谐社会成为我国社 , , 面 对于理性的 囚 徒 来 说 他 不知道囚徒 B何时采取行 A 囚徒困 会发展的首要 目 标 。 面 对 这 些 生 活 中 普 遍 存 在 的 “ , “ 动 也不知道 囚 徒 采 取 的 是 坦 白” 策略还是“ 不 坦 白” 策 B 境” 问题 , 需要我们深入研究囚徒困境博弈的经典理论模 , , “ ” 。 略 为了使自己的 收 益 达 到 最 大 化 他 会 选 择 坦 白 策 略 型, 结合我国现实 , 找到一条能 够 真 正 帮 助 我 们 走 出 困 境 的 , , 另一方面 对于理性的囚徒 来说 他也不知道囚徒 何 时 B A 道路 。 采取行动 , 不知 道 他 采 取 的 是 “ 坦 白” 策略还是“ 不 坦 白” 策 2 囚徒困境博弈的理论模型 , , “ ” 略 为了使自 己 的 收 益 达 到 最 大 化 他 也 会 选 择 坦 白 策 囚徒困境博 弈 模 型 随 着 博 弈 论 的 深 入 发 展 , 具有很多 在不完全信息条件 下 , 参与博弈的两个囚徒都为 略 。 所以 , 不同的形式 , 通常 分 为: 完 全 信 息 的 静 态 博 弈、 完全信息的 了使自己 “ 不吃 亏” 而会不约而同的采取“ 坦 白” 策 略, 最终 动态博弈 、 不完 全 信 息 的 静 态 博 弈 和 不 完 全 信 息 的 动 态 博 , 坦白 , 坦白 ) 构成了不完全信息状态下静 的博弈结果就是 ( 弈 。 在讨论囚徒 困 境 博 弈 的 各 种 理 论 模 型 之 前 , 先让我们 态博弈的 B a e s -N a s h 均衡 。 y 看看它的基本模 型 的 内 容 : 警察抓住了两个合伙犯罪的罪 2. 3 完全信息的动态博弈 由于缺乏足够的证据指证 他 们 的 罪 行 , 所以希望这两人 犯, 所谓动态博 弈 , 就是指博弈的参与者之间进行的并非 中至少有一人 供 认 犯 罪 , 就 能 确 认 罪 名 成 立。 为 此 警 察 将 只是简单的一次博弈 , 而 是 不 断 重 复 进 行。在 现 实 生 活 中, 这两个罪犯分别 关 押 以 防 止 他 们 串 供 , 并告诉他们警方的 动态博弈相较静 态 博 弈 更 为 常 见 , 比如犯罪团伙会被警方 。如果两人中只有一人坦白 政策是 “ 坦白 从 宽 , 抗 拒 从 严” 多次审讯 , 交易买卖会重复进 行 , 国际间的战争此伏彼起等 则坦白者 立 即 释 放 , 而 另 一 人 则 将 重 判 5 年 徒 刑; 如 认罪 , 等 。 与此同时 , 基本博弈的重复进行也并非只是简单博弈 则 他 们 将 各 判 3 年 监 禁。 当 然 罪 犯 果两个同时坦 白 认 罪 , 的相互累加 , 如商业中的 回 头 客 问 题 。 因 而 , 为了应对生活 知道如果他们两 人 都 拒 不 认 罪 , 则警方只能以较轻的妨碍 中存在的众多 “ 囚 徒 困 境” 问 题 并 成 功 走 出 困 境, 该动态博 公务罪判处他们 1 年徒刑 。 弈模型就更值得我们进行深入研究 。 2. 1 完全信息的静态博弈 在完全信息 条 件 下 的 动 态 博 弈 , 参与者们对彼此的行 在完全信息条件下 , 两个囚徒 A 和 B对彼此的行为都 动信息是完全了解的 , 而且双 方 都 知 道 博 弈 持 续 次 数 较 多 , 是完全清楚的 , 即他们在采取行动前会知道在自己采取这 一次博弈中采取 的 策 略 会 影 响 到 以 后 的 博 弈 收 益 , 作为理 项行动后对方 针 对 自 己 的 行 为 所 做 出 的 反 应 。 那 么 , 在上 性的双方参与者 , 他们都不会为了获取短期的收益而牺牲 表 1 即为两个 囚 徒 的 收 益 矩 阵 ( 收益向量的 述模型框架下 , 囚 徒 困 境” 模型来对其 长远利益 。 我们继续以表 1 所 示 的 “ 第一个数字为囚徒 A 的 收 益 , 收益向量的第二个数字为囚 动态博弈进行探讨 。 。 徒 B 的收益 , 下同 ) 在现实生活中 , 绝大多数 博 弈 都 是 在 有 限 次 内 进 行 的 , 表 1 两个囚徒的收益矩阵 很难无限制的进 行 下 去 , 故在本文中只讨论有限次的动态 囚徒 A 并 记 T 为 基 本 博 弈 的 重 复 次 数。由 于 博 弈 进 行 的 次 博弈, 囚 坦白 不坦白 数较多 , 耗费的时间也会较长 , 必须把支付的时间价值考虑 徒 ( , ) ( ) 坦白 -3 -3 -5, 0 记 R 为时间折现因子 。 在有 限 次 的 博 弈 中 , 由于时间 进去 , B ( ) ( ) 不坦白 0, -5 -1, -1 价值对博弈参与 者 双 方 的 影 响 程 度 是 相 同 的 , 因而为了简
相关文档
最新文档