博弈中最优策略的产生

合集下载

博弈论是如何求出最优解

博弈论是如何求出最优解

博弈论是如何求出最优解
北京⼤学⼯商管理⾼级研修班:博弈论是如何求出最优解
作为现实归纳的抽象数学问题,博弈论怎样对其求出最优解、从⽽为在理论上指导实践提供可能性?现代博弈理论由匈⽛利⼤数学家冯·诺伊曼于20世纪20年代开始创⽴,1944年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济⾏为》,标志着现代系统博弈理论的初步形成。

对于⾮合作、纯竞争型博弈,诺伊曼所解决的只有⼆⼈零和博弈——好⽐两个⼈下棋、或是打乒乓球,⼀个⼈赢⼀招则另⼀个⼈必输⼀招,净获利为零。

在这⾥抽象化后的博弈问题是,已知参与者集合,策略集合(所有棋着) ,和盈利集合(赢⼦输⼦) ,能否且如何找到⼀个理论上的“解” 或“平衡” ,也就是对参与双⽅来说都最“合理”、最优的具体策略?怎样才是“合理” ?应⽤传统决定论中的“最⼩最⼤”准则,即博弈的每⼀⽅都假设对⽅的所有功略的根本⽬的是使⾃⼰最⼤程度地失利,并据此最优化⾃⼰的对策,诺伊曼从数学上证明,通过⼀定的线性运算,对于每⼀个⼆⼈零和博弈,都能够找到⼀个“最⼩最⼤解”。

通过⼀定的线性运算,竞争双⽅以概率分布的形式随机使⽤某套最优策略中的各个步骤,就可以最终达到彼此盈利最⼤且相当。

当然,其隐含的意义在于,这套最优策略并不依赖于对⼿在博弈中的操作。

⽤通俗的话说,这个著名的最⼩最⼤定理所体现的基本“理性”思想是“抱最好的希望,做最坏的打算” 。

北⼤在职研修班报名咨询电话:⽂⽼师 186******** 微信号:149529886 公众微信:chinagaoduan
北⼤在职研修班:/news.asp?sid=6&cid=21。

博弈论名词解释

博弈论名词解释

博弈论名词解释博弈论是一种研究冲突和合作决策的数学理论。

在博弈论中,玩家通过制定决策来实现自己的利益,同时也要考虑其他玩家的决策对自己利益的影响。

博弈论的研究对象是在有限的资源和信息条件下,决策制定者之间的相互作用。

以下是一些常见的博弈论名词解释:1. 纳什均衡(Nash equilibrium):是指在博弈过程中,每个玩家依据其他玩家的行为选择自己的最佳策略,而没有动机单方面改变策略。

纳什均衡是一种稳定状态,即每个玩家的策略都是最优的。

2. 零和博弈(zero-sum game):是指一个玩家的收益与另一个玩家的损失完全相等,总收益为零。

在零和博弈中,一个玩家的利益的增加必然导致另一个玩家的利益的减少,双方利益存在完全的对立关系。

3. 非零和博弈(non-zero-sum game):是指一个玩家的利益的增加不一定导致另一个玩家的利益减少。

在非零和博弈中,玩家之间的利益可以相互协调、互利互惠。

4. 博弈树(game tree):是博弈论中常用的一种图形表示方式,用于展示博弈过程中的决策步骤和可能的结果。

博弈树由顶点和边组成,顶点表示玩家的决策点,边表示不同的行动选择。

5. 最优策略(optimal strategy):在博弈论中,最优策略是指玩家的最佳选择,使得在对手的任何策略下,自身获得最大利益。

最优策略可能根据玩家的目标和信息不同而变化。

6. 合作与背叛(cooperation and defection):博弈论中常涉及到的两个关键概念。

合作指玩家之间通过协调行动来获得共同利益,背叛指玩家为了自身利益而选择对方不合作。

7. 博弈矩阵(game matrix):是一种表示博弈参与者和策略选择关系的表格。

博弈矩阵以参与者为行,以策略选择为列,用数字表示参与者在不同策略下的收益情况。

8. 支配策略(dominant strategy):在博弈论中,一种策略如果在所有可能的对手策略下都能带来最佳结果,则被称为支配策略。

博弈论与纳什平衡

博弈论与纳什平衡

博弈论与纳什平衡博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。

纳什(John Nash)编制的博弈论经典故事"囚徒的困境",说明了非合作博弈及其均衡解的成立,故称"纳什平衡"。

所有的博弈问题都会遇到三个要素。

在囚徒的故事中,两个囚徒是当事人(players)又称参与者;当事人所做的选择策略(strategies)是承认了杀人事实,最后两个人均赢得(payoffs)了中间的宣判结果。

如果两个囚徒之中有一个承认杀人,另外一个抵赖,不承认杀人,那么承认者将会得到减刑处理,而抵赖者将会得到最严厉的死刑判决,在纳什故事中两个人都承认了犯罪事实,所以两个囚徒得到的是中间的结果。

类似的:我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。

在互联网这个原始丛林中:最优策略是如何产生的呢?一、博弈中最优策略的产生艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。

也就是说,个人可以完全按照自己利益最大化的企图进行决策。

在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。

社会实践中有很多合作的问题。

比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。

在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。

对策论以著名的囚犯困境来描述这个问题。

A和B各表示一个人,他们的选择是完全无差异的。

选择C代表合作,选择D代表不合作。

如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。

博弈论倒推法

博弈论倒推法

博弈论倒推法博弈论倒推法是一种运用于博弈论的策略分析工具,它的核心思想是从最终状态开始反向推导,得出每个参与者的最优策略。

这种方法在解决一些博弈模型中的问题时非常有效,并被广泛应用于经济学、政治学、管理学等领域。

博弈论倒推法的基本步骤如下:1.确定博弈模型:首先要明确博弈模型的参与者、决策阶段、策略选择和最终结果。

这可以通过建立博弈矩阵或博弈树来描述。

2.反向分析:从博弈的最终状态开始向前推导。

即从最终状态出发,通过逆向构建博弈树或者回溯博弈矩阵的方式来找出每个参与者在每个决策节点的最优策略。

3.渐进逼近最优策略:在反向分析的过程中,不断将当前状态下的最优决策向后传递,直到达到初始状态。

在每个决策节点上,计算每个参与者的期望收益,并选择收益最大的策略。

博弈论倒推法的核心在于找到每个决策节点上参与者的最优策略。

这些最优策略的确定需要根据参与者的目标、策略选择、对手的可能策略等因素进行考虑。

倒推法的优点是能够有效地分析复杂的博弈模型,帮助分析者理解参与者的决策过程,提供理论依据和决策支持。

然而,在实际应用中,博弈论倒推法也存在一些局限性。

首先,倒推法要求博弈模型具有明确的决策阶段和确定的结果,但在现实生活中,许多博弈情境往往缺乏这些条件。

其次,倒推法假设参与者都是理性的并追求最大化收益,但在实际情况中,参与者的行为往往受到其他因素的影响,如个人价值观、情感因素等。

尽管倒推法存在一些局限性,但在许多博弈模型中仍然是一种非常有效的分析方法。

它可以帮助分析者理解参与者的决策过程,预测博弈结果,并提供决策支持。

随着博弈论的不断发展和应用,倒推法也在不断完善和拓展,为各个领域的决策问题提供更准确、更全面的分析方法。

总之,博弈论倒推法是一种有效的策略分析工具,可以帮助理解和解决博弈模型中的问题。

通过从最终状态开始反向推导,确定每个参与者的最优策略。

然而,倒推法在应用中也需注意其局限性,并综合考虑其他关键因素,确保分析结果的准确性和可靠性。

占优支配博弈论的观点

占优支配博弈论的观点

占优支配博弈论的观点
占优支配博弈论是一种博弈理论,其观点主要包括以下几点:
1.占优策略:在博弈中,如果某个策略对于其他所有策略都具有优势,那么这个策略就是占优策略。

占优策略是无论对手如何行动,自己都能取得最优结果的策略。

2.占优均衡:当每个玩家都采用占优策略时,形成的博弈结果称为占优均衡。

占优均衡是博弈中最稳定、最常见的结果。

3.优势策略:在某些情况下,某个策略的优势不仅在于对其他策略的优势,还在于对自己其他策略的优势。

这样的策略被称为优势策略。

4.劣势策略:与优势策略相对,如果某个策略对于自己的其他策略都是劣势,那么这个策略就是劣势策略。

5.纳什均衡:在博弈论中,如果每个玩家都采用最优策略,并且这种策略是相对于其他玩家的策略而言的,那么形成的博弈结果称为纳什均衡。

纳什均衡是博弈论中的基本概念之一,也是经济学中常用的分析工具。

博弈论课后习题答案

博弈论课后习题答案

博弈论课后习题答案博弈论课后习题答案博弈论是一门研究决策和策略的学科,它涉及到多个参与者之间的相互作用和决策过程。

在博弈论的学习过程中,习题是非常重要的一部分,通过解答习题可以加深对博弈论概念和原理的理解。

下面是一些常见博弈论习题的答案,希望对大家的学习有所帮助。

1. 两人囚徒困境博弈在囚徒困境博弈中,两个囚犯被关押在不同的牢房里,检察官给每人提供了一个选择:合作(合作供认)或背叛(沉默)。

如果两人都合作,那么每个人的刑期都会较短;如果两人都背叛,那么每个人的刑期都会较长;如果一个人合作而另一个人背叛,那么背叛的人将会获得较短的刑期,而合作的人将会获得较长的刑期。

答案:在囚徒困境博弈中,每个囚犯都会追求自己的最大利益。

根据博弈论的原理,无论对方选择什么,背叛都是最优策略。

因此,两人都会选择背叛,最终导致双方都获得较长的刑期。

2. 石头剪刀布博弈石头剪刀布是一种常见的博弈游戏,两个参与者同时出示石头、剪刀或布,根据两者的选择,结果会有不同的得分。

答案:在石头剪刀布博弈中,每个参与者都有三种选择,而且每种选择的胜负关系都不同。

根据博弈论的原理,最优策略是随机选择,使得对手无法预测自己的选择。

这样做可以最大程度地减少对手的获胜概率。

3. 拍卖博弈拍卖是一种常见的博弈形式,参与者通过竞价来争夺一个物品或服务。

在拍卖中,不同的拍卖规则和策略会对结果产生影响。

答案:在拍卖博弈中,最常见的策略是以自己的估值为基准进行竞价。

如果一个参与者的估值高于其他参与者,那么他可以通过竞价来获得物品或服务。

然而,如果其他参与者也有较高的估值,那么竞价将会继续上升,直到只剩下一个竞价者。

在这种情况下,最高的竞价者将会获得物品或服务,但是他需要支付他的竞价。

4. 价格战博弈价格战是一种常见的博弈形式,不同的公司通过调整价格来争夺市场份额。

在价格战中,公司的利润和市场份额会受到价格策略的影响。

答案:在价格战博弈中,最优策略取决于对手的策略和市场需求。

博弈论公式大全

博弈论公式大全

博弈论公式大全
博弈论中的公式和定理有很多,以下是一些常见和重要的博弈论公式:
1. 纳什均衡公式:对于任意的策略组合s1,s2,如果对于所有的i,pi(s1, s2) >= pi(si(1), s2) 和 pi(s1, s2) >= pi(s1, si(2))都成立,则称(s1, s2)为纳什均衡。

2. 零和博弈公式:在零和博弈中,一方的收益等于另一方的损失,即总和为零。

常见的零和博弈有剪刀石头布游戏、赌博等。

3. 优势策略均衡公式:如果对于任意的对手策略s2,玩家i的策略s1都是最优的,则称(s1, s2)为优势策略均衡。

4. 纯策略与混合策略公式:在博弈论中,玩家的策略可以分为纯策略和混合策略。

纯策略是指玩家在每个信息集上选择固定的行动,而混合策略则允许玩家以一定的概率在多个行动中进行选择。

5. 贝叶斯均衡公式:在非完全信息博弈中,如果每个玩家都采用贝叶斯纳什均衡策略,那么这个策略组合就是贝叶斯均衡。

6. 最大最小值定理:对于完全二叉树博弈,如果每个节点都有正的权重,那么最大最小值就是所有叶子节点的权重的最大最小值。

7. 尼姆定理:在非零和博弈中,如果每个玩家都追求自己的最大收益,则至少有一个玩家会获得零收益。

8. 约翰逊定理:在完全信息博弈中,如果存在一个玩家有严格优势策略,那么这个玩家将获得所有收益。

9. 拉姆齐定理:在非完全信息博弈中,如果每个玩家都采用最优混合策略,那么这个策略组合就是拉姆齐最优。

以上是一些常见的博弈论公式,它们在博弈论的研究和应用中发挥着重要的作用。

博弈论中最经典的十句话

博弈论中最经典的十句话

博弈论中最经典的十句话1、博弈不是靠运气,而是靠策略和决策。

意思:成功的博弈不是依赖运气,而是需要基于深入的思考和分析,制定出最优的策略。

2、在博弈中,不要被一时的得失所左右,要有长远的眼光,看到更广阔的未来。

意思:在博弈过程中,不要在乎一时的得失,要把眼光看的更远,往远处看,才能看到好的未来。

3、当对手知道了你的决定之后,就能做出对自己最有利的决定。

意思:如果对手知道你的决定,他们可能采取对自己最有利的行动,因此保密和伪装自己的意图是重要的策略之一。

4、在博弈中,无法改变的情况下,我们只能改变自己的决策和策略。

意思:当无法改变外部条件时,我们需要调整自己的决策和策略以适应变化。

5、博弈是一门艺术,需要大胆、智慧和灵活的思维来解决复杂的问题。

意思:博弈需要大胆、智慧和灵活的思维来解决复杂的问题,通过运用艺术性思维,可以更好地应对复杂的博弈局面。

6、博弈不仅仅是竞争,更是合作和谈判的过程,要善于发现双方的共同利益。

意思:博弈不仅仅是竞争,也可以适合做和谈判的过程,通过发现双方的共同利益,可以达到更好的结果。

7、在博弈中,战胜对手的关键是了解对方的思维和心理,然后采取相应的策略。

意思:通过了解对手,可以采取针对性的策略来获得优势。

8、博弈是一门学科,需要持续不断地学习和适应,才能在变化莫测的局势中保持优势。

意思:博弈是一门需要不断学习和适应的科学。

在不断变化的局势中,只有持续学习和适应才能保持优势。

9、在博弈中没有永远的赢家,只有不同时间段的制胜者。

意思:博弈的结果是动态变化的,没有绝对的胜利者,每个参与者都是根据当前的游戏规则和对手的策略来制定自己的策略,从而在不同的时间段内获得优势。

10、在博弈中,要时刻保持冷静,不被情绪左右,从而做出明智的决策。

意思:在博弈中保持冷静的重要性。

情绪可能会影响决策的质量,因此需要保持冷静,以便做出明智的决策。

博弈论划线法

博弈论划线法

博弈论划线法概述博弈论划线法是博弈论中的一种解题方法,通过划线法来确定博弈参与者的最优策略。

在博弈论中,两个或多个参与者在一定的规则下进行决策,每个参与者的决策会影响其他参与者的利益。

使用划线法,可以简化复杂的博弈过程,帮助参与者找到最佳策略。

基本原理博弈论划线法的基本原理是通过逐步排除策略,找出每个参与者的最优策略。

步骤博弈论划线法的步骤如下:步骤一:列出博弈矩阵首先,需要将博弈问题转化为矩阵形式,将参与者的不同策略与其对应的收益进行排列组合。

这个矩阵被称为博弈矩阵。

步骤二:划线在博弈矩阵中,从每一行中选择该行的最小值(或最大值),并在该值的右上方和下方划一条线。

接着,在未划线的行中,找出最小值(或最大值),并在该值的右上方和下方划一条线。

如此继续,直到矩阵的所有行和列都被划线为止。

步骤三:寻找最优策略根据划线的情况,可以将博弈矩阵分为四个部分:划线的行与列、划线的行不划线的列、不划线的行划线的列以及不划线的行和列。

根据这四个部分,可以确定每个参与者的最优策略。

•如果一个参与者的最优策略在划线的行与列中,那么他应该选择划线行对应的策略中的最小值(或最大值)。

•如果一个参与者的最优策略在划线的行不划线的列中,那么他应该选择划线行对应的策略中的最大值(或最小值)。

•如果一个参与者的最优策略在不划线的行划线的列中,那么他应该选择划线列对应的策略中的最小值(或最大值)。

•如果一个参与者的最优策略在不划线的行和列中,那么他应该选择不划线行和列对应的策略中的最大值(或最小值)。

步骤四:检查最优策略将找到的每个参与者的最优策略带入博弈矩阵,检查是否存在一个策略组合,使得每个参与者都无法通过改变策略来获得更好的收益。

如果存在这样的策略组合,则该组合是稳定的纳什均衡。

应用场景博弈论划线法可以应用于各种博弈情境,例如商业竞争、决策制定等。

它可以帮助参与者理解不同决策对自己利益的影响,找到最佳策略,预测其他参与者的行为,并推导出可能的博弈结果。

博弈论最优策略的产生

博弈论最优策略的产生

博弈论最优策略的产生博弈论是研究决策者在特定环境中做出最优策略选择的一门学科。

博弈论的最优策略产生涉及到多个因素,包括信息的完备性、决策者的目标和约束条件、对手的策略以及决策者的风险偏好等。

在产生最优策略时,需要考虑以下几个关键因素:1.完备信息:决策者在博弈过程中必须了解自己所面临的问题和环境,包括可能发生的事件、对手的策略和自己的目标。

如果信息不完备,决策者必须根据已有的信息和经验来进行决策,这就引入了不确定性因素,对最优策略的产生会产生一定的影响。

2.决策目标和约束条件:决策者在博弈过程中都有自己的目标和约束条件。

这些目标和约束条件可以包括经济利益、社会效益、可行性、合法性等。

最优策略的产生需要考虑到这些目标和约束条件,找到一个可以在达到目标的同时满足约束条件的策略。

3.对手的策略:博弈论是研究多个决策者之间相互作用的学科,其中对手的策略选择会直接影响到最优策略的产生。

决策者需要分析和预测对手的策略,以此来调整自己的策略。

对手的策略可以通过博弈论模型、历史数据和分析方法等来进行推测。

4.风险偏好:决策者在博弈过程中有不同的风险偏好,即对风险的接受程度和处理能力。

有的决策者更加谨慎,更倾向于选择保守策略,而有的决策者则更加冒险,更倾向于选择具有高风险高回报的策略。

最优策略的产生需要考虑到决策者的风险偏好,并找到一个可以在风险偏好范围内的最优策略。

在产生最优策略时,可以运用一些方法和工具来进行分析和计算。

常用的方法包括博弈论模型、优化模型、数学建模、数据分析等。

例如,可以通过博弈论模型来构建博弈过程,分析不同策略的结果和收益,进而找到一个能够最大化收益或最小化损失的最优策略。

同时,也可以运用优化模型和数学建模的方法,将博弈问题抽象为一个数学模型,通过求解这个模型来产生最优策略。

此外,在产生最优策略时,也需要运用数据分析的方法,通过对历史数据和趋势的分析来评估不同策略的有效性和可行性。

总之,博弈论的最优策略产生是一个复杂的过程,需要综合考虑多个因素,包括信息的完备性、决策者的目标和约束条件、对手的策略以及决策者的风险偏好等。

博弈论笔记

博弈论笔记

耶鲁公开课—博弈论笔记第一节、名词解释优势策略(Dominant strategy ):不论其他局中人采取什么策略,优势策略对一个局中人而言都是最好的策略。

即某些时候它胜于其他策略,且任何时候都不会比其他策略差。

注:1、“优势策略”的优势是指你的这个策略对你的其他策略占有优势,而不是无论对手采用什么策略,都占有优势的策略。

2、采用优势策略得到的最坏的结果不一定比采用另外一个策略得到的最佳的结果略胜一筹。

严格劣势策略(strictly dominated strategy):被全面的严格优势策略压住的那个策略,也就是说不是严格优势策略以外的策略。

弱劣势策略:原来不是严格劣势策略,但是经过剔除严格劣势策略后,这个策略就成了严格劣势策略。

例:囚徒困境囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。

就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。

试设想困境中两名理性囚徒会如何作出选择:若对方沉默、背叛会让我获释,所以会选择背叛。

若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。

背叛是两种策略之中的支配性策略。

因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

例:协和谬误20世纪60年代,英法两国政府联合投资开发大型超音速客机,即协和飞机。

该种飞机机身大、装饰豪华并且速度快,其开发可以说是一场豪赌,单是设计一个新引擎的成本就可能高达数亿元。

难怪政府也会被牵涉进去,竭力要为本国企业提供更大的支持。

项目开展不久,英法两国政府发现:继续投资开发这样的机型,花费会急剧增加,但这样的设计定位能否适应市场还不知道;但是停止研制也是可怕的,因为以前的投资将付诸东流。

随着研制工作的深入,他们更是无法做出停止研制工作的决定。

博弈论最优策略的产生

博弈论最优策略的产生

博弈论最优策略的产生一、博弈中最优策略的产生艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。

也就是说,个人可以完全按照自己利益最大化的企图进行决策。

在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。

社会实践中有很多合作的问题。

比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。

在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。

对策论以著名的囚犯困境来描述这个问题。

A和B各表示一个人,他们的选择是完全无差异的。

选择C代表合作,选择D代表不合作。

如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。

显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。

如果一方选C,一方选D,总体得5分。

如果两人都选D,总体得2分。

对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。

在矩阵中,对于A来说,当对方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。

因此,无论对方选C或D,对A来说,选D都得分最多。

这是A单方面的优超策略。

而当两个优超策略相遇,即A,B都选D时,结果是各得1分。

这个结果在矩阵中并非最优。

困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。

在数学上,这个一次性决策的矩阵没有最优解。

如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。

既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。

博弈论简述

博弈论简述

该条目对应的页面分类是博弈论。

博弈论(Game Theory),也称对策论或竞赛论目录[隐藏]∙ 1 博弈论简介∙ 2 博弈论的发展∙ 3 博弈论的基本概念∙ 4 博弈的类型∙ 5 博弈论的意义∙ 6 博弈论分析∙7 博弈论与纳什平衡o7.1 博弈中最优策略的产生o7.2 合作的进行过程及规律o7.3 艾克斯罗德的贡献与局限性∙8 博弈论与非对称信息博弈论、管理博弈论的比较[1]∙9 博弈论案例分析o9.1 案例一:博弈论在企业人力资本投资中的应用[2]o9.2 案例二:博弈论在企业经营活动的应用策略[3]o9.3 案例三:博弈论在企业管理中的应用[4]∙10 参考文献[编辑]博弈论(Game Theory),博弈论是指研究多个个体或团队之间在特定条件制约下的对局中利用相关方的策略,而实施对应策略的学科。

有时也称为对策论,或者赛局理论,是研究具有斗争或竞争性质现象的理论和方法,它是应用数学的一个分支,既是现代数学的一个新分支,也是运筹学的一个重要学科。

目前在生物学、经济学、国际关系学、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

主要研究公式化了的激励结构(游戏或者博弈(Game))间的相互作用,是研究具有斗争或竞争性质现象的数学理论和方法,也是运筹学的一个重要学科。

博弈论图(点击放大)博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。

表面上不同的相互作用可能表现出相似的激励结构(incentive structure),所以他们是同一个游戏的特例。

其中一个有名有趣的应用例子是囚徒困境悖论(Prisoner's dilemma)。

具有竞争或对抗性质的行为成为博弈行为。

在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。

为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。

比如日常生活中的下棋,打牌等。

博弈论介绍及最优策略求解思路

博弈论介绍及最优策略求解思路

博弈论介绍及最优策略求解思路博弈论,是一门研究决策制定和策略选择的学科。

它是应用数学的一部分,主要研究在多个参与者之间进行决策时的相互影响和最优策略选择。

博弈论广泛应用于经济学、社会科学、运筹学、计算机科学等领域,并在现实生活中有着重要的应用价值。

博弈论的基本概念包括参与者、策略和收益。

参与者是指参与博弈的个体或团体,策略是指他们在可选的行动中进行选择的方式,收益是指参与者在不同策略下获得的效益。

在博弈论中,参与者之间的决策是相互影响的。

每个参与者都希望通过选择最优策略来最大化自己的收益。

然而,参与者的决策会受到其他参与者决策的影响,从而形成一个相互作用的决策过程。

博弈论最常见的模型是博弈矩阵。

博弈矩阵是一个二维表格,其中每行代表一个参与者的策略,每列代表另一个参与者的策略。

矩阵中的每个元素表示对应参与者选择不同策略组合时的收益。

通过分析博弈矩阵,可以确定参与者的最优策略。

博弈论中,最优策略的求解可以采用多种方法,其中最常见的两种方法是纳什均衡和支配策略。

纳什均衡是指在一个博弈中,所有参与者都选择了最优策略,而且没有任何参与者能够通过单方面改变策略来获得更好的收益。

纳什均衡是博弈论中的核心概念,通过寻找纳什均衡可以确定博弈最优策略。

纳什均衡的求解可以通过数学方法,如线性规划、差分方程等,或借助计算机进行迭代计算。

支配策略是指在一个博弈中,存在一种策略可以在任何情况下都能获得更大的收益。

通过排除其他策略,可以找到支配策略,并将其作为最优策略。

当博弈存在支配策略时,求解最优策略变得相对简单。

除了纳什均衡和支配策略,还有其他的求解方法,如混合策略、演化博弈等。

混合策略是指参与者以一定的概率分配在不同的策略上进行选择,演化博弈是指通过模拟博弈过程中参与者的策略变化,寻找最优策略。

总结起来,博弈论是一门研究决策制定和策略选择的学科,通过分析博弈矩阵和采用不同的求解方法,可以确定最优策略。

纳什均衡和支配策略是最常用的求解方法,但也可以采用其他方法。

博弈思维——根据对方的选择,确定自己的最优选择

博弈思维——根据对方的选择,确定自己的最优选择
因此,目标必须明确,并时时提醒自己不要偏离目标,一切行为都为目标服务。
2.探索和拟定各种可能的备选方案。
目标明确之后,就要围绕目标寻找各种可能的方案并尽可能安全,因为每一种可能的方案都有可能成为最后的决策。众多的备选方案是针对实际行为中可能出现的情况而制定的,在进行对比分析、组合、概率分析以及心理分析之后,方可选中某一方案作为最后方案。
问题是踏板和食槽分置于猪圈的两端,如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。踩踏板的猪付出劳动跑到食槽的时候,坐享其成的另一只猪已吃了不少。
如果两只猪同时踩踏板,同时跑向食槽,大猪吃进7份,得益5份,小猪吃进3份,实得1份;如果大猪踩踏板后跑向食槽,这时小猪抢先,吃进4份,实得4份,大猪吃进6份,付出2份,得益4份;如果大猪等待,小猪踩踏板,大猪先吃,吃进9份,得益9份,小猪吃进1份,但是付出了2份,实得-1份;如果双方都在等待,两只猪的所得为0。
目标不明确,或行动中途为了一些小事情而忽略了目标,情况就会变得非常糟糕。
温德尔.威尔基曾于1940年与富兰克林.罗斯福对垒,参加总统角逐。威尔基极富感召力,机智、勇敢,竞选能力强,对手罗斯福又有一个不利因素——美国有总统不能连任三届的传统。威尔基白天乘着火车在一个个小站向数千群众发表动人的讲话,每次都有几百人听得心悦诚服,过来同他握手。然而,到一天结束时,他已疲惫不堪,声音全哑了。当他在竞选临近结束时上电台向千百万人发表讲话时,只能嗓子嘎嘎地断断续续吐出一些字句。这就是说,威尔基高兴之时忘记了自己的目标是竞选总统,是向全美人民发表讲话,而不仅仅是向有限的人民讲话,不仅仅是取得有限的人的支持和高兴。所以,他失败了。
对于大多数人来说,无论在工作还是生活中,我们不仅仅是“小猪”,还要有成为“大猪”的意识,比如扶危济困、救贫救弱、助人为乐,这是社会发展至今道德规范了的,我们能从中获益很多。

博弈论的经典案例6篇

博弈论的经典案例6篇

博弈论的经典案例6篇篇一:博弈论与经典案例赏析如何运用博弈的思想约会女孩如何和自己喜欢的女孩约会,对男孩来说是个很困难的事。

电影中,主人公纳什在酒吧碰见一位美丽的女孩,于是想要与之约会,却发现他的同伴也喜欢那位女孩,于是,他需要想到一种方法,让自己能够和那位女孩约会,当然,他做到了。

显然,在这样一个约会的空间里,有这样几方博弈者:女孩方,纳什,纳什的同伴。

如果纳什和他的同伴们同时去追求这样一位女孩,那么,女孩便处于优势方,她就具有更高的选择权,选择和谁约会。

而这,假使该女孩对纳什及其同伴的选择概率一样,均为q〔0篇二:周樾关于博弈论的一个精彩案例周樾:关于博弈论的一个精彩案例(海盗与金币)在读MBA时,数据模型与决策课堂上教师讲了一个博弈论的案例有点意思,我在推理之后感觉收获很多。

所以整理如下:有五个海盗分别是ABCDE,都非常理性、聪明。

他们找到了100个金币,需要想方法分配金币。

海盗有严格的等级制度,A>B>C>D>E。

海盗有分配原那么:等级最高的海盗提出一种分配方案。

所有的海盗投票决定是否承受分配,包括提议的这个海盗。

方案如果有≥1/2的人同意,那么通过。

假设没通过,那么提议者将被扔进海里,然后由下一个最高职位的海盗提出新的分配方案。

直到最后。

假设你是A,你如何分配?你首先是活命,其次是获得最多的金币。

课堂上很多同学给出了答案,但教师都摇头。

有的说平均分配原那么,每人20金币,但这显然不行,后面4个海盗会投反对票干掉你。

有的说自己少一点,给别人多一点。

这很好理解,A给自己分配的少,以防止被扔进海里,毕竟保命要紧。

但这也不行,一那么没有完成获得最多金币的任务,二那么后面的人都是“海盗〞,不会因为你的一点低调就放过你,仍然会被干掉。

还有的说自己说服另外其中两个海盗干掉另外两个然后平分金币,但这还是不行,因为有前提海盗都是理性的。

越是想不出答案,越有点意思了。

应该如何设计分配方案,保证自己既活命、又收获最多金币呢?教师继续引导我们,如果正向思维经过努力想不通,或者非常复杂,尝试逆向思维,相当于从未来的世界返回到现实的世界。

囚徒困境与仁者无敌

囚徒困境与仁者无敌

囚徒困境一般在入门的博弈论教科书的第一章都有介绍。

甲乙同案犯,隔离审讯。

如果两个都不招,因为证据不充分,两人都只能判1年。

如果一方招了,属立功表现,功罪相抵,无罪释放;而另一方则属抗拒从严,判10年。

但如果两人都招了,则各判 5 年。

结果大家都知道:两个人争先恐后地招了,结结实实地各判了5年。

基于个人理性的正确选择降低了大家的福利。

道理很简单。

重要的是能够举一反三。

其实,人们在生活中处处都有囚徒困境:幼儿园小朋友互相分享玩具(给他玩,不给他玩);情窦初开的男女互相表白爱情(表白,不表白);公共走廊卫生的维持(不扔垃圾,扔垃圾);老板与下属的关系(信任,不信任);商场上,生意伙伴的非正式合同,或君子协定(不违约,违约);竞争对手打价格战(不降价,降价);国家间的对抗(和平,战争),等等。

虽然括号内前者都是大家想要达到的目标,自私(理性选择)的结果却是大家不得不接受后者。

小朋友仍在自己玩自己的玩具,虽然慢慢有点厌烦;韶华已逝的男女偶然发现当年对方暗恋的都是自己,徒呼奈何;你扔垃圾我也扔垃圾的结果是公共走廊难以找到下足之地;怕下属营私而事必躬亲的老板丧失了业务机会;怕对方违约的商人自己也没有做成买卖;怕竞争对手降价后独占市场的商家们竞相杀价,把一个又一个行业做烂;怕吃亏的国家之间也是永远战火绵连。

可谓“你我谁不是囚徒,天下何处无困境!”当然,家人、熟人、朋友间,因为爱、友情、伦理道德、社会规范(如面子)的存在,很多囚徒困境往往可以被克服。

在这些情境里,人们并不完全是理性的经济人。

但公司里,商场上,还有国家之间,要解决囚徒困境就没那么容易了。

本文开头朋友慨叹的商场残酷,相当于在囚徒困境的选择中,不可单方面选有利于双方的选择(如上例中的信任、不违约、不降价)。

否则,你拿的结果是四种结果中最差的一种,赔了夫人又折兵。

既然如此,仁者无敌又从何说起?妙门在于,上述囚徒困境说的都是一次性博弈(One short game),一锤子买卖。

博弈论占优策略

博弈论占优策略

博弈论占优策略博弈论(占优策略)占优策略:是指这样一种特殊的博弈:无论其他参与人如何选择自己的策略,该参与人的最优策略选择是惟一的。

例一:囚徒困境两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。

在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。

这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。

n但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。

而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。

当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。

从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。

但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。

这种想法的诱惑力实在太大了。

但他也意识到,他的同伙也不是傻子,也会这样来设想他。

所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。

而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。

所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。

企业在信息化过程中需要与咨询企业、软件供应商打交道的。

在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。

互动博弈运行优化策略

互动博弈运行优化策略

互动博弈运行优化策略
互动博弈运行优化策略是一种在游戏理论中常用的方法,旨在帮助参与者做出最优的决策。

在互动博弈中,不同参与者的决策会相互影响,因此确定最优策略是至关重要的。

要优化互动博弈的运行,我们可以采取以下策略:
1. 分析博弈参与者的动机:在确定优化策略之前,我们首先要了解博弈参与者的动机和目标。

了解他们的利益、偏好和目标可以帮助我们预测他们的行为,并相应地制定策略。

2. 使用博弈论模型:博弈论模型是研究互动博弈的工具。

通过使用这些模型,我们可以描述博弈参与者之间的策略和可能的结果。

通过分析不同策略的结果,我们可以找到最优的决策方案。

3. 考虑信息的不对称性:在互动博弈中,博弈参与者的信息可能不对称,即某些参与者拥有比其他参与者更多的信息。

为了优化博弈的运行,我们需要考虑这种不对称信息,并制定相应的策略,以充分利用信息差异。

4. 采取合作策略:在某些情况下,通过合作可以实现博弈参与者的共同利益。

因此,采取合作策略是一种优化博弈运行的有效方法。

合作可以通过制定奖惩机制、达成协议或分享信息等方式实现。

5. 使用演化算法:演化算法是一种通过模拟适应性进化来找到最优解的算法。

在博弈优化中,演化算法可以帮助我们模拟博弈参与者的决策过程,并找到最优的策略。

互动博弈在现实生活中普遍存在,了解和优化博弈的运行对于制定有效的决策至关重要。

以上提到的优化策略可以帮助我们在互动博弈中找到最优解,并最大化参与者的利益。

博弈中最优策略的产生

博弈中最优策略的产生

博弈中最优策略的产生首先,我们需要了解博弈的基本概念。

博弈是指两个或多个参与者之间进行的决策过程,在博弈中,每个参与者的决策会影响其他参与者的收益。

参与者的目标是通过选择最佳策略来最大化自己的收益。

在博弈中,最优策略指的是在给定决策条件下,能够最大化自己收益的策略。

最优策略的产生是一个多阶段的过程,主要包括以下几个步骤:1.确定博弈的类型:博弈可以分为合作博弈和非合作博弈。

合作博弈中,参与者可以合作以实现共同的目标,而非合作博弈中,参与者更多地考虑个人利益并选择自己的策略。

确定博弈类型有助于我们理解参与者之间的关系以及他们的动机。

2.制定博弈模型:博弈模型是一个数学描述,用于表示参与者的策略选择、各种可能的决策和相应的收益。

制定博弈模型需要考虑博弈参与者的信息、决策空间和收益函数等因素。

3.寻找纳什均衡:纳什均衡是博弈理论中的一个重要概念,是一种策略组合,其中任何一个参与者都不会单方面改变自己的策略来提高自己的收益。

寻找纳什均衡需要解决博弈模型中的最优化问题,通过优化算法和数学方法来确定最优策略。

4.考虑对手的行为:在博弈中,参与者的策略选择受到其他参与者的行为影响。

因此,了解对手的策略和动机对于确定最优策略至关重要。

可以使用对手建模的方法来预测对手的决策,并据此调整自己的策略。

5.进行博弈分析:一旦确定了博弈模型和参与者的策略,可以进行博弈分析以评估不同策略对参与者收益的影响。

博弈分析可以帮助参与者理解博弈的结果,并找到最优策略。

在博弈中产生最优策略的过程中,还有一些其他的考虑因素:1.不确定性:博弈中的决策往往受到不确定因素的影响。

这种不确定性可以通过概率论和统计学来建模,以便更好地预测博弈结果,并制定相应的最优策略。

2.时间因素:一些博弈是动态的,参与者需要在不同时间点做出决策。

在这种情况下,最优策略的产生需要考虑长期和短期的目标,并采取相应的策略序列来最大化整个博弈过程中的收益。

3.合作与竞争:博弈中参与者之间存在着合作和竞争的关系。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

博弈中最优策略的产生 艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。

也就是说,个人可以完全按照自己利益最大化的企图进行决策。

在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。

社会实践中有很多合作的问题。

比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。

在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。

对策论以著名的囚犯困境来描述这个问题。

A和B各表示一个人,他们的选择是完全无差异的。

选择C代表合作,选择D代表不合作。

如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。

显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。

如果一方选C,一方选D,总体得5分。

如果两人都选D,总体得2分。

对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。

在矩阵中,对于A来说,当对方选 C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。

因此,无论对方选C或D,对A来说,选D都得分最多。

这是A单方面的优超策略。

而当两个优超策略相遇,即A,B都选D时,结果是各得1分。

这个结构在矩阵中并非最优。

困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。

在数学上,这个一次性决策的矩阵没有最优解。

如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。

既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。

如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。

这样,合作的动机就显现出来。

多次对局下,未来的收益应比现在的收益多一个折现率Ψ,Ψ越大,表示未来的收益越重要。

在多人对策持续进行下去,且Ψ比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。

假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。

对这种对策者,当然合作下去是上策。

假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。

对于总是不合作的人,也只能采取不合作的策略。

艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。

他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。

第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。

结果得分最高的程序是加拿大学者罗伯布写的“一报还一报”(tit for tat)。

这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。

艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即“善良的”;第二,对于对方的背叛行为一定要报复,不能总是合作,即“可激怒的”;第三,不能人家一次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即“宽容性”。

为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公开发表。

第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。

结果,第一名的仍是“一报还一报”。

艾氏总结这次游戏的结论是:第一,“一报还一报”仍是最优策略。

第二,前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是“不善良的”,后15名中,只有1个总是合作的是“善良的”。

可激怒性和宽容性也得到了证明。

此外,好的策略还必须具有的一个特点是“清晰性”,能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。

“一报还一报”就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。

合作的进行过程及规律 “一报还一报”的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾氏用生态学的原理来分析合作的进化过程。

假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。

人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。

第二,遗传。

一个人如果合作性好,他的后代的合作基因就多。

第三,学习。

比赛过程就是对策者相互学习的过程,“一报还一报”的策略好,有的人就愿意学。

按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。

这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。

实验结果很有趣。

“一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。

另外,有一些程序在进化过程中消失了。

其中有一个值得研究的程序,即原来前15名中唯一的那个“不善良的”哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。

这个程序一开始发展很快,但等到除了“一报还一报”之外的其它程序开始消失时,它就开始下降了。

因此,以合作系数来测量,群体是越来越合作的。

进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。

“一报还一报”在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。

它赖以生存的基础是很牢固的,因为它让对方得到了高分。

哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。

它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。

那么,在一个极端自私者所组成的不合作者的群体中,“一报还一报”能否生存呢?艾氏发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的 5%或更多成员是“一报还一报”的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。

反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上的。

这就说明,社会向合作进化的棘轮是不可逆转的,群体的合作性越来越大。

艾克斯罗德正是以这样一个鼓舞人心的结论,突破了“囚犯困境”的研究困境。

在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。

那么,如何提高合作性呢?首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以维持双方的合作。

(火车站的小贩为什么要骗人?为什么工作中要形成小组制度?换防的时候一方总是要小小地进攻一下的,在中越前线就是这样)第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。

第三、要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合作。

第四、能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步进行,以促使对方采取合作态度。

第五、不要嫉妒人家的成功,“一报还一报”正是这样的典范。

第六、不要首先背叛,以免担上罪魁祸首的道德压力。

第七、不仅对背叛要回报,对合作也要作出回报。

第八、不要耍小聪明,占人家便宜。

艾克斯罗德在《合作的进化》一书结尾提出几个结论。

第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。

比如,第一次世界大战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不攻击对方的粮车给养,到大反攻时再你死我活地打。

这个例子说明,友谊不是合作的前提。

第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。

但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。

这时,预见性是有用的,学习也是有用的。

当游戏中考虑到随机干扰,即对策者由于误会而开始互相背叛的情形时,吴坚忠博士经研究发现,以修正的“一报还一报”,即以一定的概率不报复对方的背叛,和 “悔过的一报还一报”,即以一定的概率主动停止背叛。

群体所有成员处理随机环境的能力越强,“悔过的一报还一报”效果越好,“宽大的一报还一报”效果越差。

艾克斯罗德的贡献与局限性 艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。

(刘邦和项羽的战争)艾氏所发现的“一报还一报”策略,从社会学的角度可以看作是一种“互惠式利他”,这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能复盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。

比如,哥伦布登上美洲大陆时,与印地安人最初的交往就开始于互赠礼物。

有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。

研究这种行为,将对我们理解社会生活有很重要的意义。

囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题——“社会悖论”,或“资源悖论”。

人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。

人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。

艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,“投桃报李”、“人不犯我,我不犯人”都体现了“tit for tat”的思想。

但这些东西并不是最优的,因为“一报还一报”在充满了随机性的现实社会生活里是有缺陷的。

对此,孔子在几千年前就说出了“以德报德,以直报怨”这样精彩的修正策略,所谓“直”,就是公正,以公正来回报对方的背叛,是一种修正了的“一报还一报”,修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。

相关文档
最新文档