博弈论的应用-浅析博弈论经典模型

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅析博弈论经典模型

--囚徒困境模型及其启示

一、博弈论概述

博弈论又名“对策论”、“赛局理论”，属应用数学的一个分支，表示在多决策主体之间行为具有相互作用时，各主体根据所掌握信息及对自身能力的认知，做出有利于自己的决策的一种行为理论。简单说来就是一些个人或其他组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自取得相应结果的过程。由于冲突、合作、竞争等行为是现实世界中常见的现象，因此很多领域都能应用博弈论，例如军事领域、经济领域、政治外交，解决诸如战术攻防、国际纠纷、定价定产、兼并收购、投标拍卖甚至动物进化等问题。

二、博弈论的基本原理

从上述定义中可以看出，一个完整的博弈一般由以下几个要素组成：博弈的参加者，各博弈方各自选择的全部策略或行为的集合、博弈方的得益、结果、均衡等。

1、参与者指的是博弈中选择行动以最大化自己效用的决策主体(可以是个人，也可以是团体)。

2、行动是指参与人在博弈进程中轮到自己选择时所作的某个具体决策。

3、策略是指参与人选择行动的规则，即在博弈进程中，什么情况下选择什么行动的预先安排。

4、信息指的是参与人在博弈中所知道的关于自己以及其他参与人的行动、策略及其得益函数等知识。

5、得益是参与人在博弈结束后从博弈中获得的效用，一般是所有参与人的策略或行动的函数，这是每个参与人最关心的事情。

6、均衡是所有参与人的最优策略或行动的组合；均衡结果是指博弈结束后博弈分析者感兴趣的一些要素的集合，如在各参与人的均衡策略作用下，各参与人最终的行动或效用集合。

上述要素中，参与人、行动和结果统称为博弈规则，博弈分析的目的是使用博弈规则来决定均衡。

三、博弈的分类

博弈的分类根据不同的标准也有不同的分类。

根据参与人的多少，博弈可以分为二人博弈和多人博弈。

根据参与人是否合作，博弈可以分为合作博弈和非合作博弈。合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

根据各方得益的不同情况，博弈可以分为零和博弈和变和博弈。零和博弈中各方利益之间是完全对立的。变和博弈有可能存在合作关系，争取双赢的局面。

根据行为的时间序列性，博弈可以分为静态博弈、动态博弈。静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。

根据参与人对其他参与人的了解程度，博弈可以分为完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解

的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。

四、纳什均衡

假设有n个局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己利益最大化。所有局中人策略构成一个策略组合。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。纳什均衡，从实质上说，是一种非合作博弈状态。

纳什均衡达成时，并不意味着博弈双方都处于不动的状态，在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态，以下的囚徒困境就是一个例子。

五、博弈论的经典模型—“囚徒困境”

这个博弈问题是1950年图克提出的，它虽然非常简单，但却很好地反映了非合作博弈的根本特征，而且这个博弈模型正是解释众多经济现象，研究经济效率问题的非常有效的基本模型和范式。该博弈模型提出后曾引发了大量的相关研究，对博弈论的发展起了不小的推动作用。故事如下：

警察抓住了两个罪犯，但是警察局却缺乏足够的证据指证他们所犯的罪行。如果罪犯中至少有一人供认犯罪，就能确认罪名成立。为了得到所需的口供，警察将这两名罪犯分别关押，防止他们串供或结成攻守同盟，并分别跟他们讲清了他们的处境和面临的选择：如果他们两人都拒不认罪，则他们会被以较轻的妨碍公务罪各判一年徒刑；如果两人中有一人坦白认罪，则坦白者立即释放而另一人将重判10年徒刑；如果两

人都坦白认罪，则他们将被各判8年监禁。问：两个罪犯会如何选择（即是坦白还是抵赖）？

下面可将整个博弈过程的结果用一矩阵形式表示出来。这种矩阵称为博弈的“得益矩阵（支付矩阵）”。

表3.1A与B的得益矩阵

囚徒B坦白囚徒B不坦白

囚徒A坦白（－8，－8）（0，－10）

囚徒A不坦白（－10，0）（－1，－1）可见:(1)对于囚徒A来说,囚徒B有“坦白”和“不坦白”两种可能的选择。如果B选择“坦白”,则对A来说,“不坦白”得益为-10,“坦白”得益为-8。如果B选择“不坦白”,则A“不坦白”得益为-1,“坦白”得益为0。若A只考虑自身的利益,则“坦白”为他的最优选择。

(2)同样的,对于囚徒B来说,囚徒A有“坦白”和“不坦白”两种可能的选择。如果A选择“坦白”,则对B来说,“不坦白”得益为-10,“坦白”得益为-8。如果A选择“不坦白”,则B“不坦白”得益为-1,“坦白”得益为0。若B只考虑自身的利益,则“坦白”为他的唯一选择。

由于法对罪犯分别审讯，因而这个问题可以归结为非合作博模型

。其中,局中人集合

,1代表囚徒A,2代表囚徒B。两个人具有相同的策略集合:

,其中C代表坦白,D代表抗拒的策略。对于策略组合

两个局中人的支付函数如下: