博弈论ch8
第二章博弈论
【例】找出下列博弈的重复剔除占优战略均衡。
B
L
M
P
u
4,3 5,1 6,2
A
d
2,1 8,4 3,6
e
3,0 9,6 5,8
u
A
d
e
B L 4,3 2,1 3,0
P 6,2 3,6 5,8
A
u
B L 4,3
P 6,2
A
u
B L 4,3
注意:重复剔除的占优战略不仅要求每个参 与人是理性的,而且要求“理性”是参与人 的共同知识。
◦ 雇主认为受教育水平高的人是高能力的, 所以支付高工资。
什么是理性?
——博弈论中,有一个基本的假定就是,所 有的博弈参与者都是理性的。通俗地讲就是 大家都是明白人,谁也不比谁更傻,你想到 的别人也想到了,而别人想到的你也能想得 到。
纳什均衡
性别战博弈——不存在重复剔除的占优战略均衡
女方
看足球
听音乐会
看足球 男方
听音乐会
3,1 0,0
0,0 1,3
◦ 也称贝叶斯博弈。在完全信息博弈中,参 与人的收益函数是共同知识,而在不完全 信息博弈中,至少有一个参与人不能确定 其他参与者的收益函数。
不完全信息动态博弈的例子
【例】:张三和李四过几天就要进行搏斗,张三很 想知道李四是不是强者?
最初,张三判断李四是强者的概率为0.8,是 弱者的概率是0.2,所以,张三不敢轻敌。后来, 张三观察到李四不喜欢吃辣椒,由此推断李四不是 强者。
一个博弈可能会有多个纳什均衡,究竟哪一个会出 现,需要知道博弈进行的具体过程。
【例】 A
B
L
M
P
u
0,3 3,0 5,2
博弈论
博弈论是一种处理竞争与合作问题的数学决策方法;研究竞争中参加者为争取最大利益应当如何做出决策的数学方法;根据信息分析及能力判断,研究多决策主体之间行为相互作用及其相互平衡,以使收益或效用最大化的一种对策理论;研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题。
博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。
博弈论思想古已有之,我国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论著作。
博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展。
博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
近代对于博弈论的研究,开始于策墨洛(Zermelo),波雷尔(Borel)及冯·诺伊曼(von Neumann)。
1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。
1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系。
1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。
纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。
此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。
今天博弈论已发展成一门较完善的学科。
博弈的分类根据不同的基准也有所不同。
一般认为,博弈主要可以分为合作博弈和非合作博弈。
它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。
从行为的时间序列性,博弈论进一步分为两类:静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
博弈论知识简要
寻找混合策略纳什均衡的思路
• 令各博弈方随机选择纯策略的概率分布,满足使其 他博弈方采用不同策略的期望得益相同,从而计算 出各个博弈方随机选择各纯策略的概率。
• 在猜硬币博弈中,设盖硬币方出正面的概率为p, 出反面的概率为1-p。则猜硬币方猜正面的期望得 益为p·1+(1-p)·(-1)=2p-1,猜反面的期望得益 是p·(-1)+(1-p) ·1=1-2p,令二者相等,得p=1/2。 盖硬币方的混合策略是以(1/2,1/2)的概率随机 选择正面和反面。类似的,可以计算出猜硬币方的 混合策略。
S
i
1,2,...
表示 Si 中的某个特定策略。在静态博弈中,Si 中包含
的所有
S
i
就是第
i 个参与人的所有可选择的行动;ui
是第 i 个参与人的得益函数,它是所有参与人选择的
某个特定策略组合的函数,即
ui
ui
S1
,...,
S
i
,...,
S
n
。
•例 两寡头的产量博弈中,参与人就分别是编号为1和2的两个 企业;其各自的策略选择就是选择各自的产量;其各自的 策略空间就是其各自所能够生产的各种产量的集合。如果 假设两个企业,都能够生产大于0的任何数量的产量,那
下选择什么行动的预先安排; • 行动:参与人在博弈过程中轮到自己选择时所作的某个具体决策; • 得益:参与人从博弈中获得的效用,一般是所有参与人的策略
或行动的函数,这是每个参与人最关心的东西;
• 信息:参与人在博弈中所知道的关于自己以及其他参与人的行 动、策略及其得益函数等知识;
• 均衡:所有参与人的最优策略或行动的组合;
精炼贝叶斯均衡 泽尔腾等
博弈论知识点总结完整版
博弈论知识点总结完整版博弈论是数学和经济学中一个重要的分支,研究决策制度下的相互作用和决策策略。
它是通过数学模型来描述和分析不同参与者的决策行为和决策结果,并找到最优的决策策略。
下面是博弈论中的一些重要知识点的总结。
1.博弈的定义和基本概念:-博弈是指参与者在一定的规则下做出决策,并根据其他参与者的决策结果来确定自己的收益或损失。
-参与者称为博弈者,他们的决策称为策略,策略的组合称为策略组合。
-博弈可以是合作博弈或非合作博弈,合作博弈强调协作,非合作博弈强调竞争。
2.标准博弈:-标准博弈是博弈论中最基础的形式,参与者之间的策略和收益都是确定的。
-标准博弈可以是零和博弈(总收益为零)或非零和博弈(总收益不为零)。
3.纳什均衡:-纳什均衡是指在博弈中,不存在一个参与者可以通过改变自己的策略来获得更高收益的情况。
-纳什均衡是博弈论中的核心概念,它描述了博弈中的稳定状态。
-一个博弈可能有一个或多个纳什均衡,也可能没有纳什均衡。
4.基本博弈:-二人零和博弈是一种特殊的博弈,其中一个参与者的利益是另一个参与者的损失。
-石头、剪刀、布是一个典型的二人零和博弈,存在一个纳什均衡策略。
-行棋游戏如国际象棋、围棋也是二人零和博弈,但策略空间较复杂。
5.博弈理论的扩展:-广义博弈是对博弈理论的扩展,考虑了更复杂的情况,如多人博弈、不完全信息博弈等。
-多人博弈是指博弈中有多个参与者,每个参与者都会影响其他参与者的决策。
-不完全信息博弈是指博弈中参与者对其他参与者的信息是不完全的。
6.博弈论在经济学中的应用:-博弈论在经济学中有广泛的应用,如市场竞争、拍卖等。
-例如,决定定价策略的厂商可以使用博弈论来确定最优的定价策略。
-拍卖是一种常见的博弈形式,在博弈过程中参与者可以选择不同的竞标策略。
7.演化博弈:-演化博弈是博弈论的一个重要分支,研究博弈在一定的演化过程中的演化规律。
-演化博弈通过数学模型来描述和分析参与者的策略演化和演化结果。
第8章 博弈论
经济学原理
18
四种主要的均衡类型
完全信息 不完全信息
静态
动态
完全信息 不完全信息 NE:纳什均衡 纳什均衡 静态 静态( 静态(BNE) BNE:贝叶斯纳什 ) 贝叶斯纳什 贝叶斯 (NE) ) 均衡 子 完全信息 不完全信息 SPNE:子博弈精练 纳什均衡 动态 动态 SPBE:子博弈精练 子 (SPNE) (SPBE) ) 贝叶斯纳什均衡 贝叶斯纳什均衡
经济学原理 11
8.3.2 纳什均衡 纳什均衡
纳什均衡 纳什均衡(Nash Equilibrium) :在博弈分析中,纳什均衡是 Equilibrium) :在博弈分析中 纳什均衡是 博弈分析中, 所有参与人的最优战略组合。 注意: •均衡的战略组合包含了所有参与者的最优战略,是最优战 略的组合; •均衡战略组合是每一个参与者最优战略的交集,每个参与 人肯定存在最优战略,但是如果不存在交集,就没有均衡的 战略组合。 •均衡意味着:给定A的战略SA,B有最优战略SB;给定B的 均衡意味着:给定A的战略SA, 有最优战略SB;给定B 战略SB, 有最优战略SA,(SA,SB)就是均衡战略。 战略SB,A有最优战略SA,(SA,SB)就是均衡战略。
经济学原理
14
纳什均衡的简单解法 纳什均衡的简单解法
给定一方的选择,另一方的选择是最优的; 反过来,给定另一方的该选择,一方的选择 也是最优的,则该选择组合是纳什均衡。
B 坦白 A 坦白 不坦白 -8,-8 -10,0 10, 不坦白 0,-10 -1,-1
经济学原理
15
两小猜枚的支付矩阵和均衡 两小猜枚的支付矩阵和均衡
经济学原理
8
囚徒困境的标准表达式
李四( 李四(B) 坦白 张三 (A) 坦白 不坦白 -8,-8 -10,0 10, 不坦白 0,-10 -1,-1
高级微观经济学 第八章 博弈论
第八章 博弈论前面章节对经济人最优决策的讨论,是在简单环境下进行的,没有考虑经济人之间决策相互影响的问题。
本章讨论这个问题,建立复杂环境下的决策理论。
开展这种研究的的理论叫做博弈论,也称为对策论(Game Theory)。
最近十几年来,博弈论在经济学中得到了广泛应用,在揭示经济行为相互制约性质方面取得了重大进展。
大部分经济行为都可视作博弈的特殊情况,比如把经济系统看成是一种博弈,把竞争均衡看成是该博弈的古诺-纳什均衡。
博弈论的思想精髓与方法,已成为经济分析基础的必要组成部分。
第一节 博弈事例博弈是一种日常现象,例如棋手下棋,双方都要根据对方的行动来决定自己的行动,双方的目的都是要战胜对方,互不相容,互相影响,互相制约。
一般来讲,博弈现象的特征表现为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中,一方的行动取决于对方的行动,每个当事人的收益都取决于所有当事人的行动。
当所有当事人都拿定主意作出决策时,博弈的局势就暂时确定下来。
博弈论就是研究这种不相容现象的一种理论,并把当事人叫做局中人(player)。
博弈论推广了标准的一人决策理论。
在每个局中人的收益都依赖于其他局中人的选择的情况下,追求收益最大化的局中人应该如何采取行动?显然,为了确定出可行的策略,每个局中人都必须考虑其他局中人面临的问题。
下面来举例说明。
例1.便士匹配(Matching Pennies)(二人零和博弈)设博弈中有两个局中人甲和乙,每个局中人都有一块硬币,并且各自独立安排硬币是否正面朝上。
局中人的收益情况是这样的:如果两个局中人同时出示硬币正面或反面,那么甲赢得1元,乙输掉1元;如果一个局中人出示硬币正面,另一个局中人出示硬币反面,那么甲输掉1元,乙赢得1元。
对于这个博弈,每个局中人可选择的策略都有两种:正面朝上和反面朝上,即甲和乙的策略集合都是{正面,反面}。
当甲和乙都作出选择时,博弈的局势就确定了。
显然,该博弈的局势集合是{(正面,正面),(正面,反面),(反面,正面),(反面,反面)},即各种可能的局势的全体,也称为局势表,即表1。
博弈论
博弈论1 引言博弈论包括局中人,策略和支付函数三个要素。
有n个局中人参入的博弈称为n人博弈, n≥ 2。
每个局中人有个支付函数,其收益或损失由所有局中人的策略按照该支付函数计算。
每个局中人采用的策略可以是其多个策略中的某一个,或者是策略的某种概率分布。
前者称为纯策略博弈,后者称为混合策略博弈。
纯策略可以看作是混合策略的特殊情形。
根据局中人之间的关系,博弈分为合作博弈和非合作博弈。
每个局中人都希望使自己的利益最大化。
但是在非合作博弈中,由于局中人的利益是互相冲突的,只能寻求一组策略使每个局中人较为满意。
一组策略是指由每个局中人的一种策略构成的策略组合。
如果存在一个策略组合,无论那个局中人单方面地改变其策略,不会使其收益增加,只可能使其收益减少,这个策略组合就叫做納什均衡(或納什均衡解、納什均衡点)。
以下是关于納什均衡的正式定义及其存在性定理(见[1])。
Formal definitionLet (S,f) be a game with n players, where S i is the strategy set for player i, S = S1⨯S2⨯…⨯S n is the set of strategy profiles and f = (f1(x), f2(x), … , f n(x)) is the payoff function for x∈S. Let x i be a strategy profile of player i and x-i be a strategy profile of all players except for player i. When each player i∈ {1, 2, … , n} chooses strategy x i resulting in strategy profile x = (x1, x2, … , x n) then player i obtains payoff f i(x). Note that the payoff depends on the strategy profile chosen, i.e., on the strategy chosen by play i as well as the strategies chosen by all the other players. A strategy profile x*∈S is a Nash Equilibrium (NE) if no unilateral deviation in strategy by any single player is profitable for the player, that is∀i, x i∈S i: f i(x i*, x-i*) ≥f i(x i, x-i*).Nash’s Existence TheoremIf we allow mixed strategies, then every game with a finite many pure strategies has at least one Nash Equilibrium.(有限策略的非合作n人博弈至少有一个納什均衡)2 二人博弈2.1 纯策略博弈局中人I有m个策略A1, A2, … , A m,局中人II有n个策略B1, B2, … ,B n,不同策略下双方的收益如表2.1所示([2]p72)。
ch8 博弈论
在零和博弈中,甲想要使得自己的支付最大, 而乙却想要甲的支付最小化。
对于乙所采取的每一个策略,甲都会选择一个相应的策 略来最大化自己的收益,即
max{ f1 j , f 2 j , , f mj }
i
为了使得甲的支付最小化,乙会事先选择一个策略来最 小化上述的最大值,即
min max{ f1 j , f 2 j ,, f mj }
f 21 , g21
f 22 , g22
f2n , g2n
xm
f m1 , g m1 f m 2 , gm 2
f mn , gmn
两人博弈的支付矩阵
接人博弈的扩展式表述
东出站 口出 西出站口 出
A
信息集
Information SetB 东 -等西 -等
东 -等
B
西 -等
(1,1)
二、重复剔除严格劣势策略
在这个例子中,无论大猪选择什么,对小 猪来说, “按”得到的支付都严格小于 “等待”,我们把这种类型的策略叫做严 格劣势策略。
不论其他参与人选择什么,若有一策略产 生的支付总是严格小于某些其他策略,则 这种策略就是所谓的“严格劣势策略”。
假定大猪知道小猪是理性的,则会预测到小猪一 定不会选择严格劣势策略;表现在收益矩阵中就 是小猪选择按按钮的那一列全部被删除。
小猪 大猪 按按钮 等待 3,1 7,-1 2,4 0,0 按按钮 等待
大猪只能在剩下的两格中选择,此时“等待”成
了严格劣势策略,把它剔除,所以最终的均衡是 猪选择“按按钮”、而小猪选择“等待” 。
上例中寻找均衡的思路是:先找出某个参与人的 严格劣势策略(假定存在),把它剔除,重新 构造一个不包含已剔除策略的新博弈;然后再 剔除新博弈中某个参与人的严格劣势策略;这 样一直重复下去,直至剩下唯一的策略组合。 该策略组合就是博弈的均衡解。这种方法称为 “重复剔除严格劣势策略”。
博弈论
9、动态博弈:指参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。
10、合作博弈:合作博弈亦称为正和博弈,是指博弈双方的利益都有所增加,或者至少是一方的利益增加,而另一方的利益不受损害,因而整个社会的利益有所增加的。
11、非合作博弈:指在策略环境下,非合作的框架把所有的人的行动都当成是个别行动。
合作博弈存在的两个基本条件是:
(1)对联盟来说,整体收益大于其每个成员单独经营时的收益之和。
(2)对联盟内部而言,应存在具有帕累托改进性质的分配规则,即每个成员都能获得比不加入联盟时多一些的收益。
2、战略式表述:战略式表述将战略局势抽象为三个基本要素:
(a)博弈的参与者集 N=(1,2,...,n);
1、囚徒困境:从博弈中的两个利益主体出发选择行为,结果是既没有实现两人总体的最大利益,也没有真正实现自身的个体最大利益,比如经济领域的寡头竞争、公共产品的供给。
2、纳什均衡:假设有n个局中人参与博弈,如果某情况下无一参与者可以独自行动而增加收益(即为了自身利益的最大化,没有任何单独的一方愿意改变其策略的[1] ),则此策略组合被称为纳什均衡。
(b)每个参与者的战略集Si,∨i∈N;
(c)每个参与者的支付函数集Ri,∨i∈N.
因此,一个标准式表述的博弈可以表示为G=<N,{Si},{Ri}>标准式表述主要用来表示静态博弈。标准式博弈也叫做战略博弈。
3、拓展式表述:扩展式表述在标准式表述的基础上,扩展了描述博弈局势的要素,比如参与者的行动顺序以及外生事件的一般用来表述动态博弈。扩展式表述一般包含六个要素:
4、战略和行动的联系:
战略指当一个公司成功地制定和执行价值创造的战略时,能够获得战略竞争力
博弈论课件
05 “囚徒困境”在现实中启发
04 “囚徒困境”博弈
魔发奇缘(Tangled)
04 “囚徒困境”博弈
规则1:隔离审讯 规则2:
假如两人都招供,各判5年有期徒刑 假如只有一个人招供,招供者免于刑罚,不招供者判 8 年
有期徒刑
假如两人都不招供,各判1年
这一困境可由后面支付矩阵来直观地表示。
03 博弈论要素
支付矩阵
参与博弈的多个参与者的得益可 以用一个矩阵或框图表示,这样 的矩阵或框图就叫做支付矩阵。
03 博弈论要素
性别之战博弈的支付矩阵
丈
芭蕾舞
夫
足球赛
芭蕾舞
妻 子
足球赛
(2,1)
(0,0)
(0,0)
(1,2)
录
目
Contents
01
小故事 博弈论概念
02
03
博弈论要素 “囚徒困境”博弈
囚徒困境反映的社会问题
录
目
Contents
01
小故事 博弈论概念
02
03
博弈论要素 “囚徒困境”博弈
04
05 “囚徒困境”在现实中启发
05 “囚徒困境”在现实中的启发
以在淘宝购物为例
假如你出高价买到了高质量的商品, 那么对你的得益是7,卖家的得益也是7
假如你出低价买到了高质量的商品,
那么你的得益回报是10,卖家的得益是-5 假如你出高价买到了低质量的商品,
博弈论
研究各博弈参与主体在其行为相互依存、相互作用时的 决策以及这种决策的均衡问题的理论。
03 博弈论要素
关于纳什
1950 - 1951 ,约翰 . 纳什发表了两篇关于非合作博弈的重要文 章,塔克定义了“囚徒困境”的经典例子。奠定了非合作博弈 论的基石。 1994年,诺贝尔经济学奖授予了三位博弈论专家:纳什、泽尔 腾和海萨尼。标志着博弈论在经济学中的地位正式得到承认。
第八章博弈论简要课件
11
第八章 博弈论
四、重复博弈和序列博弈
➢静态博弈是指局中人同时决策或虽非同时 决策,但后决策者不知道先决策者采取什么 策略的博弈。 ➢动态博弈是指局中人决策有先有后,后决 策者能观察到先决策者决策情况下的博弈。
12
第八章 博弈论
动态博弈的例子
进入
在位者甲
合作 斗争
进入者乙
(400 ,500) ( -100 ,100)
6
第八章 博弈论
3、策略集合: 是指所有局中人可能采取 的行动方案总和。例如:都坦白,都抵赖, 坦白与抵赖,抵赖与坦白 4、收益: 是指在每种组合情况下,局中 人采取特定策略得到的结果。例如:判3年, 6年,释放等
7
第八章 博弈论
三、上策均衡和纳什均衡
1、上策: 是指不管其他局中人采取什么策 略,某一局中人都采取自认为对自己最有 利的策略。 2、均衡: 是指博弈中所有局中人都不想改 变自己策略的一种相对静止状态。
1
第八章 博弈论
博弈论字面的意思是游戏策略,及用类 似游戏中解决问题的方法,揭示解决社会、 经济及其他领域问题的策略、对策,因此有 的还把博弈论译成对策论。准确的说博弈论 是在给定的条件下寻求最优策略,这里给定 的条件包含其他人的策略以及本人的决策对 其他决策主体的影响。
2
第八章 博弈论
策略性活动在社会、经济、政治生活中 大量存在,也可以说,整个社会、经济、政 治生活都是博弈行为。因此,博弈论作为一 种方法,广泛的应用在经济、政治、军事、 外交中,只是博弈论在经济学中应用的最广 泛、最成功。如前面介绍过的古诺均衡,就 属于经济学中的博弈过程。
8
第八章 博弈论
3、上策均衡: 不管其他局众人采取什么策 略,每个局中人都选择了对自己最有利的策 略所构成的一个策略组合。 4、纳什均衡: 是指参与博弈的每一局中人 在给定其他局中人策略的条件下选择上策所 构成的一种策略组合。 注:所有上策均衡都是纳什均衡,但不能反 过来说所有纳什均衡都是上策均衡。
博弈论Chapter 8
• (4) Nature chooses a value for the state of the world, according to distribution G(θ), which puts equal weight on 0 and 10. Output is then q = Min (a +θ; 10). • (Thus, output is 0 or 10 for the low-ability agent, and always 10 for high-ability.)
• It is usually assumed that the players can make a binding contract at some point in the game;
• which is to say that the principal can commit to paying the agent an agreed sum if he observes a certain outcome.
Applications of the principal-agent model
•
Adverse Selection
• Players: The principal and the agent • The Order of Play: • (1) Nature chooses the agent's ability a, unobserved by the principal, according to distribution F(a). • (2) The principal offers the agent one or more wage contracts w1(q); w2(q); …
博弈论概述
博弈论概述博弈论是研究决策制定者之间相互作用的一门学科。
在博弈论中,决策者被称为"玩家",他们的决策会影响其他玩家的利益。
博弈论的目标是研究玩家在不同情境下的最佳决策策略,以及这些策略对整体结果的影响。
以下是博弈论的一些基本概念和要点:1.玩家(Players):博弈中的参与者被称为玩家。
这可以是个体、公司、国家等。
2.策略(Strategies):玩家在博弈中采取的行动或决策被称为策略。
每个玩家可以有多种可能的策略。
3.支付(Payoffs):博弈的结果被称为支付,它反映了每个玩家在博弈结束时的效用或利润。
4.博弈矩阵(Game Matrix):通过博弈矩阵,可以清晰地表示玩家的策略选择和相应的支付。
博弈矩阵通常用于描述二人零和博弈。
5.纳什均衡(Nash Equilibrium):纳什均衡是指在博弈中,每个玩家都选择了最优的策略,给定其他玩家的选择,没有一个玩家有动机单方面改变自己的策略。
6.博弈形式(Normal Form)和博弈扩展形式(Extensive Form):博弈形式描述了一次性的、同步进行的博弈,而博弈扩展形式描述了具有序列和时间概念的博弈。
7.博弈的分类:博弈可以分为合作博弈和非合作博弈、零和博弈和非零和博弈、完全信息博弈和不完全信息博弈等。
8.博弈的应用领域:博弈论在经济学、政治学、社会学、生物学、计算机科学等多个领域都有广泛应用。
博弈论提供了一种分析人们在决策过程中相互作用的方式,它的应用范围涵盖了众多领域。
在博弈中,每个玩家都追求自己的最大利益,因此博弈论可以帮助人们更好地理解和预测复杂的决策场景。
博弈论
PPT模板下载基地
田忌赛
• 博弈论是二人在平等的对局中各自利用对 方的策略变换自己的对抗策略,达到取胜 的目的。
• 1928年,冯· 诺依曼证明了博弈论的基本原 理,从而宣告了博弈论的正式诞生。
囚徒困境(prisoner‘s dilemma)
• 在小企业经营中,学会如何“搭便车”是 一个精明的职业经理人最为基本的素质。 在某些时候,如果能够注意等待,让其他 大的企业首先开发市场,是一种明智的选 择。这时候有所不为才能有所为!
囚徒困境支付表
智猪博弈
假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪 食槽,另一头安装着控制猪食供应的按钮,按一下按钮会 有10个单位的猪食进槽,但是谁按按钮就会首先付出 2个 单位的成本,若大猪先到槽边,大小猪吃到食物的收益比 是9∶1;同时到槽边,收益比是7∶3;小猪先到槽边,收 益比是6∶4。那么,在两头猪都有智慧的前提下,最终结 果是什么呢?
结果:小猪选择等待
• 在大猪选择行动的前提下,小猪也行动的话,小猪可得到 4个单位的纯收益(吃到6个单位食品的同时也耗费2个单位 的成本,以下纯收益计算相同),而小猪等待的话,则可 以获得大猪吃剩的1个单位的纯收益,所以等待优于行动 ;在大猪选择等待的前提下,小猪如果行动的话,小猪的 收入将不抵成本,纯收益为-1单位,如果小猪也选择等待 的话,那么小猪的收益为零,成本也为零,总之,等待还 是要优于行动。
• 假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分 别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出 的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证 据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人 坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表 明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两 人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅 的罪名将两人各判入狱1年。
第八章 博弈论
非对称 博弈
迭代剔除劣策略
❖ 古怪的一对
▪ 局中人:同宿舍的两个同学A,B
▪ 策略:3小时,6小时,9小时
▪ 收益:
同学A\B 3小时 6小时 9小时
3小时 -13,-8
-4,-1 1,2
6小时 -1,-4 4,-1 1,-1
9小时 7,-4 4,-4 1,-4
那么称策略 是局中人i的弱占优策略。
这里 si 表示除了局中人i以外的局中人选择的策略向量 ❖ 在囚徒困境博弈中,“坦白”就是严格占优策略
严格劣策略
❖ 严格劣策略:如果不管其他的局中人选择什么样的策 略,局中人i的策略 的收益严格的小于他所有其他策 略的收益,那么称策略 是局中人i的严格劣策略。
❖ 在囚徒困境博弈中,“抗拒”就是严格劣策略
• 当策略是劣的,但不是严格劣的,剔除的顺序可能 会导致不唯一的结局;
• 不是所有的博弈都存在劣策略
B\G
F
S
F
3,1
0,0
S
0,0
1,3
最优反应(BR)
Lesson1:学会换位思考,分析对手的收益和行动
如果在其他局中人采取某个已知策略时, 策略a比你的任何其他策略都好,则称a为关于 该已知策略的最优反应
-4,-1 1,2
6小时 -1,-4 4,-1 1,-1
9小时 7,-4 4,-4 1,-4
迭代剔除劣策略
❖ 古怪的一对 • 对A:如果B选3小时,-13<-4<1,选9小时; 如果B选6小时,-1<1<4,选6小时; 3小时是严格劣策略,在博弈中不选择
同学A\B 3小时 6小时 9小时
博弈论(轮流讨价还价模型)
• 这在我们的生活中是非常常见的现象: 非常急切想买到物品的买方往往要以高一些的价格购 得所需之物;急切于推销的销售人员往往也是以较低的价 格卖出自己所销售的商品。正是这样,富有购物经验的人 买东西、逛商场时总是不紧不慢,即使内心非常想买下某 种物品都不会在商场店员面前表现出来;而富有销售经验 的店员们总是会劝说顾客,“这件衣服卖得很好,这是最 后一件”之类的陈词滥调。 又例如,在农贸市场买菜时,退休老太太有充分多的 时间去捕捉价格信息和与小贩讨价还价,她们有足够的耐 心与小贩周旋,因而菜贩们一般不会在她们那里赚多少钱。
1 1t 1 xi
t 1 2
参与人2的支付的贴现值是
2 (1 xi )
• 先讨论有限期博弈的情况(逆向归纳法求解) • 首先假定博弈只进行两个时期 T=2时,最后阶段参与人2出价,如果他提出x2=0,参 与人1会接受,因为参与人1不再有出价的机会。
• 参与人2在t=2时得到1单位等价于在t=1时的δ 2单位,如 果参与人1在t=1时出价1- x1≥δ 2,参与人2会接受。 • 子博弈精炼均衡结果是参与人1得到x= x1=1-δ 2,参与人2 得到1-x=δ 2
• 假定T=3,在最后阶段,参与人1出价,他可以得到的最大 份额是x1=1。 • 参与人1在t=3时的1单位,等价于t=2时的δ 1单位,如果 参与人2在t=2时出价x2=δ 1,参与人1将会接受。 • 参与人2在t=2时的(1-δ 1)单位,等价于t=1时的δ 2(1δ 1)单位,如果参与人1在t=1时出价1- x1=δ 2(1-δ 1), 参与人2将会接受。 • 子博弈精炼均衡结果是x=1-δ 2(1-δ 1)
博弈论
1. 混合扩充
g ( g ij ) mn 甲和乙的收益矩阵分别为: f ( f ij ) mn ~ ~ ~ 博弈G的混合扩充为博弈 G ( X , Ef ; Y , Eg) :
m n m n T Ef ( p , q ) p i q j f ij pi q j f ij p f q ~ i 1 j 1 i 1 j 1 ( p, q) S m n m n Eg( p, q) pi q j g ij pi q j g ij p g q T i 1 j 1 i 1 j 1 ~ 博弈G = (X, f ; Y, g)为常和博弈当且仅当G 的混合扩充 G 为常和博 ~ 弈。当G 是常和博弈时,G 与G 具有相同的收入常和。 ~ G的混合扩充 G 的古诺均衡(最优解)叫做G的混合均衡(混合最 优解)。换句话说,G的混合局势( p*,q*)叫做的混合均衡(混合最优 解),是指( p*,q*)满足如下条件: ~ ~ max{ Ef ( p, q*) : p X } Ef ( p*,q*) min{Ef ( p*,q) : qY }
Ef ( p*, q*) p 2(2q* 1) 0 p* 0.5 p* (0.5, 0.5) Ef ( p*, q*) q 2(2 p* 1) 0 q* 0.5 i.e. q* (0.5, 0.5)
博弈的标准形式与分类
博弈的基本要素:局中人 (玩家,players)、策略(strategies)、收 益(payoff)。局中人以策略定胜负,目标是收益最大化。 策略博弈(game of strategies):以策略定胜负的博弈。 博弈的标准形式(normal form of a game):G = (Xi, fi)n,其中 n 为局 中人人数,用 Xi 为局中人 i 的策略集合,S = X1 X2 Xn 为 G 的 局势集合,fi : S R 为局中人 i 的收益函数。 局势:当每个局中人 i 都确定了自己的策略 xiXi 时, (x1, x2,, xn) 就代表着博弈G的一种局势。 按照博弈的三大基本要素,可以对博弈进行如下分类。 按局中人数分:二人博弈、多人博弈; 按策略集合分:有限博弈、无限博弈 按收益函数分:常和(零和)博弈、非常和(非零和)博弈 按博弈性质分:非合作博弈、合作博弈 按行动次序分:同时移动博弈、先后移动博弈 (序贯博弈) 以上分类可以结合起来,从而产生更加仔细的分类。比如,二人 零和有限博弈(矩阵博弈)、多人非合作无限博弈等等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
说明在t+1阶段,B惩罚了A,而A 未惩罚B; 在t+2阶段,B选择其在t+1阶段的
战略:“不合作”作为对A在t+1阶
段该惩罚而未惩罚的惩罚。
多重交易关系与合作行为
交易关系Ⅰ 合作 合作 3, 3 不合作 -1, 4 合作 不合作 交易关系Ⅱ
合作
5, 5 9, 0
不合作
0, 9 4, 4
不合作
问题
为什么买于“坐贾”而非“行商”?为什 么车站旁边的劣质品那么多? 企业存在的一个原因是创造一个“长期参 与人”,因其考虑长期利益而遵章守纪、重 视信誉。
海尔砸冰箱事件
一、研究重复博弈的意义
重复博弈问题普遍存在 在重复博弈中,参与人的战略空间变 得复杂 提供了用非合作博弈理论来研究合作 博弈的框架 提供了研究人类行为模式变化的工具
四、重复博弈与战略空间的扩展
如果上述博弈重复多次,那么每个参与人就有多
个可以选择的战略,如:
ALL-D:不论过去什么发生,总是选择不合作;
ALL-C:不论过去什么发生,总是选择合作;
合作-不合作交替进行; 触发战略(trigger strategies):只要对手合作,该参与 者也合作;但对方任何背叛就会“触发”规定时间长度的惩
可激怒:是指对方出现背叛行动时,它能够及时识别并一
定要采取背叛的行动来报复,不会让背叛者逍遥法外; 宽容:是指它不会因为别人一次背叛而长时间怀恨在心或 者没完没了地报复,而是在对方改过自新、重新回到合作轨 道时,能既往不咎地恢复合作;
简单:是指它的逻辑清晰,易于识别,能让对方在最短的
时间内识别出来其策略所在; 不嫉妒:是指它不耍小聪明,不占对方便宜,不在任何双 边关系中争强好胜。
只要
43 0.25 40
合作就会出现; 如果欺骗两次才被发现,只有当δ≥0.5时,合作才可能出 现;
惩罚与合作
Abreu(1986):最大合作战略是使用最严厉的
可信惩罚;
维护合作并不需要无限期的惩罚,只要惩罚期足
够长就可以了;
胡罗卜加大棒;从合作开始,一直合作,直到
艾克谢罗德竞赛实验具体设计
“囚徒困境”博弈
乙 甲 合作 对抗 合作 2,2 4,-1 对抗 -1,4 0,0
结果:取胜策略为— — 礼 尚 往 来 ( titfor-tat)
目的:集高手于一室,相 互较量,找出合作的最 佳策略。
礼尚往来(tit-for-tat)策略的特征
善良: 是指它第一步总是向对方表示善意。
每个人都是自私的
没有权威干预个人决策
要研究的问题:
人们为什么要合作? 人什么时候合作,什么时候又是不合作的?
如何使别人与你合作?
实验的方式:组织一场计算机模拟竟赛
参加者都扮演“囚徒困境”中的一个囚徒; 把自己的策略编成计算机程序,进行捉对博弈,在合作与背叛之 间作出选择; 以单循环赛的方式玩200次。
境式的博弈中也可能达成合作,不过如果参与人的目光短
浅,那么合作仍难以达成。
囚徒困境式的有限次重复博弈不可能达成合作 问题: 人的生命是有限的,我们所经历的所
有重复博弈都是有限次的,为什么我们能观察
到那么多的合作呢?
不知道博弈何时结束 只要博弈的次数足够长,可近似 看作是无限次的 前一个博弈将对进入后一个博弈 带来影响
2 3
为什么不是一个精炼纳什均衡?
假设A在t=5时没有合作,根据TFT战略,在t=6时,B 应该选择惩罚A (不合作)。B会这样吗? 如果B相信A采取的是TFT策略,那么
B如果对A实施惩罚,预期的收入流为:
R,S,R,S,R,…
如果B原谅A,预期的收入流为:
T,T,T,T,T,…
尽管“tit-for-tat”是成功率最高的战略(Axelrod1984)
影响重复博弈均衡结果的因素
参与人在短期利益与 长期利益之间权衡
重复博弈的次数
影响因素
信息完备性
当一个参与人的支付函数不为其它参 与人所知时,该参与人可能有积极性建 立一个“好”声誉,以换取长远利益。
无限次 有限次
完全信息 不完全信息
二、有限次重复博弈
“囚徒困境”——价格大战
企业B
低价 高价
这与投鼠忌器是一个道理,你讨厌老鼠,但是你没有办法,
因为你心疼那个盘子。
过去行动的历史是可以观察到的,参与人就可以依
据其他人之前的行动来决定自己的选择,因而,有
了更多的战略可以选择,均衡结果可能与一次博弈 大不相同。 重复博弈理论的最大贡献是对人们之间的合作行 为提供了理性解释:在囚徒困境中,一次博弈的唯 一均衡是不合作(即坦白)。但如果博弈无限重复, 合作就可能出现。
合作 不合作
合作 不合作
5+V, 5+V 9, 0
0, 9 4+V, 4+V
4 V (δ随V的增加而减少) δ ≥ 5 V
应用
家庭学血缘关系;
朋友关系;
同学关系; 老乡关系(保姆市场);
图示
经济 诱惑 非合作 区域 合作 区域 0.5 感情系数
家族企业的困境:杀熟
如果惩罚对惩罚者本身的损害太大,惩罚就是不可信的。
行为的信息传递
假如欺骗两次才被发现:
V ( 不合作, Grim ) Pδ 2 R δR δ 2 P δ 3 P δ 4 P R(1 δ) 1 δ
RT RT R P R P
含义
欺骗行为越难以被发现,欺骗发生的可能性越大;或者说, 合作越困难; 在前面的例子,R=4,T=3,P=0。如果欺骗一次就被发现,
罚期,其间以非合作来回击。
最有名的两个触发策略
冷酷战略(Grim strategies):从合 作开始,一直到有一方不合作,然后永远选 择不合作。 礼尚往来(tit-for-tat):从合作开始, 之后每次选择对手前一阶段的行动;
艾克谢罗德竞赛实验
在开始研究合作之前,艾克谢罗设定了2个前提:
满足:
一般化:未来收益的重要程度
R>T>P>S; S+R<T+T
无名氏定理(Folk Theorem)
在无限次重复博弈中,如果参与人对未来足够重 视( δ足够大),那么,任何程度的合作都可以通 过一个子博弈精炼纳什均衡得到;
这里“合作程度”定义为这个博弈中合作出现的
频率;
子博弈是指从某个阶段(不包括第一阶段)开始,
CH8 重复博弈与合作行为
研究重复博弈的意义
有限次重复博弈
无限次重复博弈
重复博弈战略空间的扩展
重复博弈的应用
一次性博弈的情形
表1 简单的互惠合作 乙 合作 对抗 合作对双方有
明显的好处,所以
合作就产生了。
甲
合作 对抗
10,10
5,0
0,5
0,0
表2 对抗合作博弈 乙 合作 甲 合作 对抗 5,5 10,0 对抗 0,10 1,1 (对抗,对抗)是 唯一的纳什均衡。
在对方与自己步调不一致时,则在下一阶段用不 合作来严厉地惩罚对方,即给对方当头一棒。 这个 战略要求不仅惩罚该合作时不合作的对手, 而且惩罚该惩罚时不惩罚的对手,惩罚不惩罚者又 是给惩罚者的一根胡萝卜。
假设A首先不合作
t A B R S t+1 S或P R或P
在t+2阶段,B
选择 “合作”
社会关系与合作行为
更一般地讲,市场交易常常镶嵌在复杂的社会关系中,这
种关系可以提高交易的合作程度,这也是人们愿意发展社
会关系的原因。 比如,在交易关系Ⅱ中,假定除了这一交易外,当事人双 方之间还存在另外的社会关系,这一社会关系对每一方的 现值为V; 如果交易中出现欺骗, 这一价值就不存在; 合作的条件为:
支付函数
双方都不合作;
V (all d , all d ) P P δP δ P δ P 1 δ
2 3
“囚徒困境”的一般表示
参与人B 合作 T,T R,S 不合作 S,R P,P
对δ的解释:
贴现率;
博弈继续的概率 二者的结合
参与人A 合作 不合作
T P RT R , 1 1 R P
解释
R-T可以理解为不合作的诱惑; R-P= (R-T)+(T-P);
条件说明:
合作的剩余(利益)
给定未来的重要程度,不合作的一次性诱惑(R-T) 相对于合作带来的利益(R-P)越小,合作的可能性 越大; 给定不合作的诱惑和合作带来的利益,未来越重要, 合作的可能性越大;
Grim strategies
如果未来足够重要,精炼纳什均衡:
T V (合作, Grim ) T δT δ T δ T 1 δ
2 3
2 3
δP V ( 不合作, Grim) R δP δ P δ P R 1 δ
合作条件:
如果下列条件满足,合作就是均衡的结果:
RC 5(1 δ δ 2 δ t 2 ) 5δ t 1 5 ( δ t δ t 1 δ ) 1 δ t 1 5δ t 5 5δ t 1 1 δ 1 δ
合作的达成的条件
如果RC≥RU,合作就可以得到维持。 只要双方对未来都 4δ t 由 RC RU 5δ t 1 0 有足够的信心,双 1 δ 5 方可以达成合作。 得 δ 9 结论: 如果博弈的重复是有限次的,那么囚徒困境式的博弈中 是不可能达成合作的; 如果博弈是无限次的,那么眼光长远的参与人在囚徒困
包括此后所有阶段的重复博弈。