从“囚徒困境”谈起——全球环境问题的一种方法论述评

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

从“囚徒困境”谈起——全球环境问题的一种方法论述评
肖巍
越来越多的人注意到，市场这只“看不见的手”在调节人类活动和环境公共物品的供需关系上往往无能为力，因此迫切需要寻找一种有利于环境保护的激励机制。

原则地说，对于全球性环境问题，各国必须承担“共同而有区别的责任”，在合作的基础上谋求集体理性的解决之道。

本文拟从一个著名的博弈论案例出发讨论这个问题。

（一）
由于自由主义经济模式的成功运作，人们普遍认为个体看似无规则的经济行为，通过市场关系的调节作用，总体上将呈现出一个比较合理的结果。

在古典经济学看来，每个经济人都是利己主义者，对自己利益有最好的判断，亦无不以追求自身利益最大化为动机，但其总的效果是社会资源得到了最合理的配置，客观上增进了社会的福利；而推动人类命运的“看不见的手”（市场）就是贯穿于此的基本理念。

通过市场导向集体有序，固然皆大欢喜，但在很多情况下也会“失灵”，特别是个体深思熟虑的理性行为可能导致集体非理性的后果，就是一个始料未及的问题。

从日常生活到国际政治经济领域，“经济人”（指受经济理性驱使，根据趋利避害原则行事的“人”；扩大到任何经济实体、利益集团乃至民族国家）之间斤斤计较、以邻为壑，乃至发生冲突而两败俱伤的例子亦屡见不鲜。

当今世界经济一体化的趋势愈来愈明显，工业化和国际分工使各“人”扮演的角色逐渐到位，但同时也正由于他们各行其是，互不合作，竟使人类陷入诸如全球环境退化的困境之中。

作为博弈论的一个经典例子，“囚徒困境”（Prisoner's dilemma， A. W. Tucker，约1950 ）就描述了追求利益最大化的理性人是怎样陷入自己埋设的困境的。

简单地说，所谓“囚徒困境”是指这样一种情况：两个被怀疑有罪但证据不足的囚徒，被地方检察官分别告知：如果两人都不坦白，他们将以携带作案工具而被指控，各判刑1年；如果两人都坦白了，他们将被各判处5年徒刑；但如果其中一人坦白了，而另一人不坦白，坦白者开释，而不坦白者将被判处10年徒刑。

这两个囚徒面临是否坦白的对策选择（alternative）或博弈。

作为囚徒甲，他的推理如下：假设乙坦白了，我不坦白，我将被判10年；我也坦白，只判5年；假设乙不坦白，我也不坦白，我也要被判1年；我若坦白了，则被获释。

所以，无论乙坦白与否，选择坦白
对“我”都比较有利，这是甲的理性选择。

囚徒乙也完全可以作出同样
的推理。

结果他们不约而同都选择了坦白，陷入了一个困境（显然，都选择不坦白对他们更有利；这里具体判刑几年并不重要，关键是囚徒可以理性地排出有利组合的次序，但如坦白与否的待遇相当接近，有人可能会尝试冒险）。

造成囚徒困境的预设包括：一、每个囚徒必须知道博弈规则及其后果；二、每个囚徒必须是理性的，即总可以作出对自己最有利的判断（譬如一个不那么理性的囚徒就很可能径直选择不坦白），这是最重要的；三、囚徒之间必须相互隔离，不可订立攻守同盟，亦无法获悉对方的选择倾向。

但后来的研究表明，弱化这些预设困境仍然成立。

首先，困境绝不限于“囚徒”，任何谋求对自己有利的理性双方（可用经济人或理性人代之）都可能陷入其中；“囚徒”也不限于两个，涉及多方的博弈可能复杂一些，但那不过是“大规模的”（large scale）囚徒困境；甚至“囚徒”之间是否联络，有否订立攻守同盟也不重要，因为只要这些协议没有约束力，谁也无法保证对方不背信弃义。

（有关“囚徒困境”的讨论可参见李伯聪、李军：《关于囚徒困境的几个问题》载《自然辩证法通讯》1996年第4期）
类似的大大小小困境可谓俯拾即是，“三个和尚没水吃”、“价格战”、“军备竞赛”等等都是非常典型的囚徒事例，谁都想占便宜，结果谁也占不到便宜，或占到便宜的效用相互抵消了。

这些行为又被称为“理性的无知”（rational ignorance），它表明“利己之心是如何导致不合作的、污染的和扩军备战的世界——一种恶劣、野蛮和使生命短促的生活方式”。

（［美］保罗·A·萨缪尔森、威廉·D·诺德豪斯：《经济学》，中国发展出版社1992年版，第926页）
值得一提的是，选择“坦白”（相当于囚徒之间的不合作）仅仅对囚徒双方不利，对检察官、对社会反而是某种合作，是有利的。

但如果把地球看作一个“大监狱”，我们大家就都是“囚徒”，便没有这个区别了。

因此如果把“囚徒”理解成“经济人”，把“坦白”换成“污染”，可以发现许多环境问题其实就是这样造成的：“第一，许多可再生资源都不归私人拥有，所以存在着许多个实际上的或潜在的使用者；第二，每个个人都有利用更多的资源的积极性，因为这样可以得到更多的个人利润。

这就是支配策略问题；第三，如果所有用户都以这种方式行为，资源就会面临过度开发的风险；第四，由于这种对背叛行为的刺激作用，任何协议的风险都是不稳定的。

”（［英］载维·皮尔思、杰瑞米·沃福德：《世界无末日—经济学、环境与可持续发展》，中国财政经济出版社1996年版，第293—294页）全球环境问题的深刻性在于，发达国家为了维持自己的强势地位不肯改弦易辙，放弃高消耗高消费的生产生活方式，甚至出口垃圾，转嫁危机；发展中国家既要解
决温饱，又在缺乏资金和技术的条件下走粗放的工业化道路，即使杀鸡取卵、牺牲环境也在所不惜。

这种局面如果继续下去，人类将不得不为之付出更大的环境代价；而如果维持现状或限制发展，那就等于将世界贫富之间的不公平合理化、持续化。

另一个与环境问题关系更密切的集体非理性例子就是所谓“公地的悲剧”（the tragedy of commons）。

有一个对所有牧民开放的公共牧场——公地，人畜数目与公地负载能力维持了大致平衡。

然而有一天，某个牧人思忖，如果我多养一头牲畜，正面效用是我个人可以从中获利；而负面效用是将多消耗公地资源，但损失是大家承担的。

没有理由阻止其他牧人也这样想，“这是每个分享公地的、具有理性的牧人都能够作出的。

但这个结论隐藏着重大的灾难，人们看不到全局，只一味地想在有限世界上无限增加他的畜群。

每个人都追求他自己的最大利益，相信自己在公地上的自由，最终必然是所有人的毁灭，公地自由只能带来全体牧人的毁灭。

”（G. Hardin, The Tradegy of the　commons, Science, Dec. 13, 1968）
类似地，还会有“公海的悲剧”，各方过度捕捞必然导致渔场日益衰竭，“公天的悲剧”、“公水的悲剧”，天空是公共的，水源是公共的，你排放一点污染，我也排放一点污染，久而久之，空气质量下降了，河流污浊不堪了。

每个人精打细算，都试图将公共资源（环境）转化为私有财富，而最终使全体的长远利益遭到了损害。

解决公地问题的直观办法就是再开辟一个新牧场，但如果我们把地球设想为一个最大的公地，“环境压力往往被看成是对稀少资源日益增长的需求以及较富有者生活水平日益提高产生的污染的结果。

但贫穷本身污染环境，以不同方式制造出环境压力。

那些贫穷饥饿的人们为了生存往往破坏他们附近的环境；他们砍伐森林，他们在草原上过度放牧，他们过度使用贫瘠的土地，越来越多的人拥入已很拥挤的城市。

这些变化的累积性影响是如此深远，以致使贫困成为一个全球性的重大灾难。

另一方面，在那些经济发展带来生活水平提高的地方，这种发展有时是通过采用从长远来说造成全球性破坏的方式而取得的。

以往很多生活水平的改善，是建立在使用越来越多的原料、能源、化学品、化学合成物和制造出污染的基础上的。

这种污染在统计生产工艺的成本时没有充分地计算在内。

这些趋势对于环境有着预见不到的影响。

因此，今天的环境挑战既来自发展的缺乏，也来自某些经济意料不到的后果。

”（联合国环境与发展委员会：《我们共同的未来》，世界知识出版社1989年版，第4页）至少在目前看来，太空移民还不可行，也就是说地球公地实际上是没有退路的。

迫于这种危及人类生存与发展的环境压力，国际社会开始重视环境保
护。

但环境是公共物品（public goods），向所有人开放，这就不排斥任何人的分享。

“由于某一集团的发起和努力而使空气质量得以改善，其他人也会无差别地感受到这种改善，他们不可能被排除在享受清洁空气的收益之外。

”（皮尔思等：《世界无末日》，第57页）从而便出现了一个所谓“搭便车”（free riding，免费享用公共物品而不承担责任）的情况。

可怕的是，搭便车行为具有传染性：你不付成本而获益，我付成本岂不吃亏了，于是我也不付，这就又陷入了一
个“囚徒困境”；或者说，如果人人都想搭便车，最终必然导致公地悲剧。

（二）
环境的公共性是环境问题的要害。

环境这样的公共物品因为没有进入市场而具有“外部效应” （external effect），即经济人行为对环境的效果，并没有通过交易方式（成本—效益）反映出来，而表现为市场作用之“外”的，或者说在这方面市场“失灵”了，　因此外部效应往往与“市场失
灵”（marketfailure，或市场缺陷）相提并论。

“外部效应，或外部性，是市场失灵；也就是说，它们是由于市场不能有效发挥其功能而产生的一种扭曲现象”。

除了市场失灵之外，还有“政府失
灵”（policy failure，或政策失灵），即政府“政策或干预的效率可能比允许市场自由配置资源的效率低。

低效率的干预可能包括补贴、价格控制、产量指标、交换控制、所有权控制等等。

”（同上书，第234、208页）例如政府补贴的水价没有反映水资源的实际价值，客观上就助长了浪费用水。

这种“扭曲”实际上还是一种市场失灵。

表面上看，外部效应是由市场失灵引起的，因为市场未将环境副产品纳入成本；更深刻的根源其实在于私人利益与公共利益、局部利益与全局利益，乃至眼前利益与长远利益的矛盾；只要经济人为了一己私利而置公共利益于不顾，这类问题就始终存在。

将外部效应“内部化”（进入市场，主要是产权明晰化）可以部分地解决问题，但我们必须看到，“对于整体利益和未来利益的维护是难以通过产权界定和市场来实现的，保护公地就越来越需要协调。

这种协调对于维护未来利益尤为必要，在现实社会中，利益的分散性表现在各个层面，如社会集团之间、地区之间，乃至国家之间。

上游的森林砍伐导致了下游的洪水频繁，此国的大气污染导致了彼国的酸雨，各种各样的利益冲突都能直接间接地影响环境问题，这类问题的解决就不再局限在经济学范围以内了。

”（戴星翼：《环境与发展经济学》，立信会计出版社1996年版，第132 页）也就是说，克服外部不经济，有经济手段比没有经济手段好，但经济手段不是万能的，保护我们所在地球的环境
（特别是诸如全球气候变化、臭氧层空洞等问题），还必须依靠超乎经济手段的约束机制。

在一次性囚徒博奕中，由于双方采取了不合作策略而陷入了困境。

然而在现实社会生活中，理性人之间并非只打一次交道（相当于只进行一次博奕），而往往重复打交道，这就产生了重复博奕的问题。

关于“重复囚徒困境”（iterated prisoner's diemma）是说：那两个囚徒以后又面临同样的选择。

已经吃过一次亏的囚徒将作何选择呢？或许困境又重演了，因为对应于每次博奕的策略选择都是独立的，囚徒们继续“理性地”犯错误；或许他们准备选择另一种策略。

为了研究这个问题，来自各门学科领域的博奕论专家被邀请设计各种推理程序（R. Axelrod，1980），稍后又有一大批计算机爱好者参加进来，在计算机上进行“重复囚徒困境”的循环赛，而“重复”的选择堪称五花八门，不同的选择对应于不同的结局，但最好的结局是——合作。

令人惊讶的是，在所征集到的各种参赛程序中，胜利者是一个最简单的策略；这个策略被称为“针锋相对”（Tit for Tat，或“一报还一报”），它以一着“合作”应对开始，随后总是重复对手上一步的棋着，经过几轮回合，便获得了比较有利的结局，形成了一种更为适宜的环境。

（见Martin A. Nowak、Robert M. May、Karl Sigmund：《互助的算术》，载《科学》1995年第10期）
这种策略表明，“鼓励合作，一个好的方式就是清楚地表明你愿意回报”（［美］罗伯特·艾克斯罗德：《对策中的制胜之道——合作的进化》，上海人民出版社1996年版，第95页）。

事实上，出现不合作的情况往往是彼此怀疑对方的诚意，而合作的必要条件是：“按照你愿意别人对你的方式来对别人，但只有他们也按同样的方法行事才行。

”（《经济学》，第926页）这就必须同时强调对犯规者的惩罚（即报复，否则就等于纵容背叛），“这种威胁可能会促使每一个参与人都在第一回合采用最有效的手段，或每一个参与人将在几个回合之后采取对协议妥协的态度。

通常可以在不断修改的国际协议中看到这种针锋相对策略”。

（《世界无末日》，第294页）
针锋相对策略将构成一种“纳什均衡”（Nash equilibrium），纳什均衡是指这样一种（策略）组合，所有对局者不再愿意选择其它策略来打破的均衡。

在先前的囚徒博弈中，尽管双方知道都选择不坦白比选择坦白更有效用，但他们基于自身利益最大化的考虑还是选择了坦白，因为这样使自己有机会获释（如果对方不坦白），至少可避免大的风险（我不坦白，对方却坦白了），这种稳定性就构成了纳什均衡；而选择不坦白却不构成纳什均衡，即使他们订立了一个攻守同盟，因为它的执行还是个未知数。

因此，也可以把纳什均衡理解为，如果对局
者达成了一项协议，那么该协议必须具有约束力，使对局者不敢尝试犯规；如果犯了规而没有惩罚，任何协议等于一纸空文。

“‘针锋相对’的成功是由于它的善良性、可激怒性、宽容性和清晰性。

它的善良性意味着它决不首先背叛，这个特性防止它陷入不必要的麻烦；它的可激怒性使对方一旦尝试背叛后就不敢坚持；它的宽容性有助于恢复双方合作；它的清晰性使得它的行为方式容易被辨识，一旦被识别，就容易看出与之相处的最好方式就是与它合作。

”（艾克斯罗德：《对策中的制胜之道》，第134—135页）事实上，合作的博奕（cooperative game）与非合作的博奕（noncooperative game ）的主要区别就看是否能达成一个具有约束力的协议，如果能，就是前者，反之，就是后者。

饶有意味的是，生物学家也提供了一组非常有趣的实验结果：生物的进化除了生存竞争以外，还有合作，合作普遍存在于相同种类，甚至不同种类的个体之间，“一个能够从其他个体得到有利的反应的个体会有更多的后代，而且这些后代将继续这个能从其他个体引出有利反应的行为模式。

因此，在适当的条件下，基于回报的合作在生物世界是稳定的”。

（见《互助的算术》，载《科学》1995年第10期；《对策中的制胜之道》，第16页）就此而言，人类除了谋求相互之间的合作之外，也应该做一个自觉的生态合作者。

遗憾的是，理性的人却往往疏忽于此，他只看重眼前利益，为了谋求一时效用而不惜破坏生态。

由于相互识别和记住它们之间的重复相互作用，高级生物会被吸引遵循鼓励合作的策略；而在较低级生物体中，合作或许表现为借助其最邻近对手的相互作用，产生自组织的空间结构持续存在。

通过计算机模拟的博奕结果进一步表明，只要对局者反复相遇，并彼此记住以往对局的结果；即使在权威缺位的情况下，也可以进行不同程度的合作（从昆虫的协作到人们邻里互助的情景）。

推广开去，传统经济学过分强调竞争，而忽视了对合作的研究，“解决个人理性与集体理性的之间冲突的办法不是否认个人理性，而是设计一种机制，在满足个人理性的前提下达到集体理性。

……从囚徒困境中，我们可以引出一个很重要的结论：一种制度（体制）安排，要发生效力，必须是一种纳什均衡。

否则，这种制度安排便不能成立。

”（张维迎：《博奕论与信息经济学》，上海三联书店1996年版，第11—17页）
解决全球性的环境问题，《我们共同的未来》（联合国环境与发展委员会，1987）中的一段话很能说明主旨，“只有为了共同的利益，对公共资源的调查、开发和管理进行国际合作和达成协议，可持续发展才能实现。

但生命攸关的不仅仅是共同的生态系统和公共领域的持续发展，而且还有世界各国的持续发展，它们的发展程度不同地取决于
其合理管理的程度。

出于同样原因，如果没有各国对于全球公共领域的权利和义务的协商一致的、公正的和可行的国际准则，那么，随着时间的推移，人类对有限资源需求造成的压力将破坏生态系统的完整性。

人类的后代将陷入贫困。

”（《我们共同的未来》，第246 页）为了避免出现不可收拾的环境困境，至少可以从以下几个方面着手促进环境合作：
一是增大关于未来的影响。

如果未来变得足够重要的话，合作就是稳定的；着眼于未来，合作无疑比对抗更有利于生存与发展。

当然，这就必须帮助穷人（国）获得生存的能力，改变他们没有未来的状况。

二是改变收益值，也就是使合作的长期收益大于不合作的短期所得，或者对不合作的惩罚大到各方不得不选择合作。

环境合作在很大程度上就是通过具有强约束的国际公约和协议，迫使不合作者付出更大的代价。

三是合作必须建立在有“回报”的基础上（而不是空泛的道义说教上）。

回报是合作延续的基本条件，并保证各方都能从中获利。

而要求回报的基本特征就是坚持公平原则（“针锋相对”也是一种公平策略），由于短期内可能看不到环境合作的好处，难免有人开小差，因此合作的回报机制必须与对不合作的惩罚相结合。

四是识别合作执行的能力。

合作不能口惠而实不至，必须落实到行动，从贸易往来到国际公约，识别执行能力对于合作关系之延续也是非常重要的，国际机构应对各国承诺的环保措施进行认真核实，以保证环境合作的公正性和持续性。

合作往往是从小群体开始的，但合作的趋势不可逆转，合作水平将上升，合作范围会扩大，这就是“合作的进化”（the evolution of　cooperation）。

“促进好的结果不仅是告诉对策者关于双方合作比双方背叛的所得更多这一事实，而且还是一个明确相互作用的特征从而得到一个长期的稳定的合作进化的问题。

”（《对策中的制胜之道》，第107页）20世纪国际关系的一个重要趋势就是从对抗走向合作，和平与发展已经成为当今世界的两大主题，原本剑拔弩张的政治领域尚且如此，人们更没有理由拒绝环境领域的合作。

这或许就是“囚徒困境”及其重复解给我们的启示。

（三）
个体理性追求自身利益最大化本身无可厚非，但如何使之导向集体理性，而不是导向非理性，必须依靠某种激励性的机制。

市场就是这样一种机制，因为市场激励经济人个体理性的行为（竞争）达到集体理性（供需平衡）。

但是，市场也有“失灵”的时候，有激励不到的地方，“最紧迫的环境问题是与价值被低估的可再生因而就有柘竭危险
的资源相联系的。

如空气和水这样的可再生资源，吸收排放物和废弃物的能力是有限的。

如果污染超出了这个能力，生态系统就会迅速恶化。

当人们为了满足需要而过度开采渔业和森林资源时，就会超过临界点，造成生态系统的破坏和物种的丧失。

”（世界银行：《1992年世界发展报告》，中国财政经济出版社1992年版，第36页）在这种情况下，如何使个体理性导向集体理性呢？
根据“集体行动”理论（M. Olson，1965；亦被认为是公共选择理论），集体利益所包含的个体利益可能有两种情况，一是排他性的（exclusive），即产生“零和博奕”的结果（一方赢便意味着另一方输，总和为零；零和博奕是一种不合作博奕，这种博奕致力于如何把对方的利益转到“我”手中）；二是相容性的（inclusive），个体利益相互包容，个体所得并不相互抵消，即产生“正和博奕”的结果（双方都是赢家，赢得之和为正；如通过合作创造新的利益。

反之，负和就是双方皆输，如“囚徒困境”）。

这两种集体（团）的行动逻辑迥然不同，较之排他性（“分蛋糕”）的集团，相容性（“把蛋糕做大”）集团更倾向于实现共同利益（譬如实现环境效益），导向集体理性。

但这仅仅提供了某种可能性，考虑到利益集团有大小之分，一般说来，较小集团的成员容易看到集体行动的回报，因此比较赞同集体行动，而且小集团防止“搭便车”也比较容易。

这是集体行动理论的第一个结论。

但当集团足够大时，就难以防止“搭便车”了，为此必须设计一种“有选择激励”（selective incentives）机制。

“激励必须是‘选择性的’，这样那些不参加为实现集团利益而建立的组织，或者没有以别的方式为实现集团利益作出贡献的人所受到的待遇与那些参加的人才会有所不同。

这些选择‘性的激励’既可以是积极的，也可以是消极的，就是说，它们既可以通过惩罚那些没有承担集团行动成本的人来进行强调，或者也可以通过奖励那些为集体利益出力的人来进行诱
导。

”（［美］奥尔森：《集体行动的逻辑》，上海三联书店1995年版，第41—42页）这种机制是一套鼓励合作，促进个体行为与集体利益相一致的赏罚分明的制度。

集体行动理论的第二个结论是：具有激励机制的集团比没有这种机制的集团更容易组织起集体行动。

从而体现为一种制度安排，它弥补了市场的缺陷，因此也可以将制度解释为“集体行动控制个人行动”（［美］康芒斯：《制度经济学》（上），商务印书馆1981年版，第87页），重要的是选择一个既能保证个体得益，又能促进集体理性的机制、制度。

通常在一国范围内，政府可以通过使环境政策制度化来产生激励，政府权威的干预主要是促使外部效应“内部化”，包括制订环境政策，改。