策略与博弈

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

策略与博弈Strategies and Games

获取讲义或者演示稿邮箱:
wagongnvwa@
密码:31115085
交流信息或交作业邮箱:
shuxm02@




博弈的游戏
游戏1 拿子游戏(Nim和Marienbad)

有两堆火柴,以及两个局中人。游戏从局中人1开
始,此后两个局中人轮流行动。在每个局中人的轮次
里,他可以从两堆火柴的任何一堆中拿走任何(整数)
数量的火柴。只要任何一堆火柴中尚有剩余的火柴,则
要求每个局中人拿走一定数量且不能空手而返,但是每
次只能从其中一堆中取火柴。

在撃米佑蜗窋Nim中,无论哪个局中人,取走最后
一根火柴者都算赢。在Marienbad中,谁难走最后一
火柴者就算输。




感兴趣问题

在拿子游戏中,任何一个人是否存在赢的策略。
也就是是否存在这样的策略,只要在你的轮次中使用
它,不管以后游戏如何进行,可以保证你稳操胜券?

游戏分析 Nim游戏

如果两堆火柴数目相同,称为两堆平衡,则局中
人2存在赢策略。反之,如果两堆不平衡,则局中人
1存在赢策略。对于平衡问题,局中人2仿照局中人1
在另外一堆中拿子;对于非平衡问题,局中人1通过
第一次拿子,使得两堆平衡,然后,回到平衡问题,
局中人2和1的位置置换。
Nim拿子游戏是否存在其他策略?如果火柴堆不止两
思考 堆,你认为会发生什么?试试Marienbad游戏,找出
赢的策略。




游戏2 投票

假设有两个竞争议案A与B;3个议员,投票人1,2
和3,他们投票决定是否通过这些议案。结局可能会有
两个:要么通过A和B中的一个,要么议员们没有通过任
何一项议案(延缓而代之以现行法律)。投票过程如下:
首先,让议案A和B相互竞争;然后,竞争的获胜方与原
法律相互竞争,为了简便,我们将原来的法律成为摱疾
赞成敚∟)。在两轮投票中的每一轮,获多数的法案胜
出。三个议员在可适用的选择中有如下偏好:
投票人1:A>N > B
投票人2:B > A > N
投票人3:N > A > B

A >B:喜欢议案A甚于喜欢议案B




感兴趣问题
如果三个议员都撜媸禂投票,谁将胜出;如果存在
摬徽媸禂投票,那么谁将胜出第一轮,第二轮呢?

游戏分析

比较系统的分析方法:首先,注意到在第二轮投票
中每个投票人有可能真实地投票。这是因为如果议员对
不太喜欢的议案投赞成票,那就可能让他通过,因为这
显然比阻止它通过更加糟糕(为什么?)。因

此,如果
A在第一轮中胜出,最终结局就 A,而如果B在第一轮
胜出,最后结局是N。每个理性的议员都了解这点。所
以,在第一轮关于A和B的竞争投票时,他们实际上是在
A和N之间投票。因而,投票人1和投票人2在第一轮中
投票给A,于是A最终被选中。

思考 策略投票和真实投票有什么不同?结局呢?




游戏3 囚徒困境 最古老的博弈论问题之

两个囚徒,Calvin和Klein被怀疑犯罪而被逮捕拘
押。地方检察官Kash分别同他们谈话,告诉他们,
她或多或少有点证据证明他们有罪。但如果他们认罪
的话,就可以使她的工作稍微容易一些(同时也帮助
了他们自己)。她对每个人提供如下政策:撊献铮
并为政府翻出证据来,并揭发另一个同伙棗你将用
不着服刑。当然,如果另外一个同伙也认罪的话,你
的认罪价值将大大减少。出现这种情况,你们每个人
将服刑5年。但是,如果你拒绝认罪,就要意识到我
们将以另外一个同伙的招供而逮捕你,于是你将服刑
15年。在我们不能够从你们任何一个那里得到认罪
的情况下,我们将有足够的证据将你们送进监狱1
年。




问题的表示形式:

Calvin\klein 认罪 不认罪
认罪 5,5 0,15
不认罪 15,0 1,1

上表中各项为囚禁期限。对于(认罪、不认罪)
项的第一个数字表示Calvin认罪,而klein不认罪时分
别对Calvin的判刑期限(0年)与对klein的判刑期限
(15年)。由于这些都是囚禁期限,因此较小的数
优于较大的数。
游戏分析 如果两个人合作,最好的结果就是(不认
罪,不认罪)。问题是,在押期间,两人无法合
作,只能看成两个独立的理性人。经过分析得到
最后结果为(认罪,认罪)。




两个大国的军备竞赛(削减军费,增加军
思考1 费);争执的双方(离婚、劳务争端)等(请
律师、不请律师)。

利用囚徒困境,说明个体理性和集体理性之间
思考2 的矛盾。

思考3 看看下面的例子是不是囚徒困境?

价格战,恶性广告竞争,初等和高等的应试教育.

在囚徒困境模型中,如果把服刑时间修改一下,
思考4 会有什么结果?又在这个博弈中,如果嫌疑犯存
在行动的先后顺序,会怎么样?




博弈要素
参与人或者局中人,局中人可以是个体,
players 也可以是团体,自然;局中人是一个理性决策
人:

以自己的利益最大化作出行动选择。局中
人可以是两个,也可以是多个,记I={1,2,,n}
策略,例如,乒乓球团体比赛的运动员出场
strategies 顺序就是一个策略;这里所说的策略,是局中人
在竞争中,为了对抗其他局中人所采取的一个完
整的办法,并不是某一步采取的办法。例如,下
象棋的摰蓖放跀,只能算是策略的一个组成部
分,并非完整的策略。局中人所有的策略的集
合,就构成了该局中人的策略集合,可以是有限
的,也可以是无限的。用Si表示第i个局中人的策
略集合。每个局中人都从自己的集合中选出一个
策略,得到一个博弈结果,这样的每个局中人的
策略放在一起,就构成一个局势




payoffs
支付函数,或者叫赢得函数,表示可能的对局结果。
支付函数定义在局势集合上的函数。用Hi表示第i个人的
支付函数。
对策模型(博弈模型)
{
=
Γ I {
= ,1 ,
2 , }
n
",Si,i∈,IHi s(),i I
∈ }
对策过程

每个局中人都从自己的策略集合中选出一个策略
s(i),s(i) ∈Si,就组成一个局势
s {
= )
1
( (2) (n)
s ,s , ,s
" }∈ ∏Si
1 i≤
≤ n
把局势带入每个人的支付函数中,获得Hi(s)。




案例1 二人决斗模型(支付函数连续,多元函数表达)

有两个人决斗,这两个人从相距1的地方同时起步,
迎面走向对方,只能前进,不能后退,他们在决斗开
后任何地点都可以开枪,每个人只有一发子弹,如果
个人开了枪而没有击中对方,那么他的对手知道他已用
掉了仅有的一发子弹,就可以走到面对面的地方,然后
开枪,一定击中对方,现开枪的当然可能先击中对方
但距离较远的时候击中的概率比较小,后开枪击中对方
概率大,但是有可能先被对方击中。所以要选择合适的
距离开枪。
规定胜利者得到支付为1,败者支付为-1,双方同
时开枪,都击中对方或者都没有击中对方的时候,支付
都为0。




分析
I={1,2}; 局中人集合
局中人1的策略为x:距离x处开枪;局中人2的

策略
为y:距离y处开枪。策略集合分别为
S 策略
1 {
=x | x∈ ]
1,
0
[ }
S 集合
2 {
=y| y∈ ]
1,
0
[ }
S1 S
×2 {
= ,
x
( )
y |0 x
≤ ≤ 0
,1 y
≤ }
1
≤ 局势集合
y 局势集合 局中人2的策略
1 一个局势点
S2 局中人1的策略
0 1 x
S1




支付函数

局中人1
??
1 p1 )
x
( ?
+( ?
1
)[
1 p1 )]
x
( =p
2 1 )
x
( ?1 x>y
?
H1 ,x
( )
y ?
= ?
1 p1 ?
1
)[
x
( p2 )]
x
( ?
+( ?
1
)[
1 p1 p
)]
x
( 2 )

x
( =p1 )
x
( ?p2 )
x
( x=y
?
??
( p
)
1 2 )y
( ?
+1 ?
1
[ p2 )]
y
( =?
1 p
2 2 )y
( x

局中人2
??
1 p2 )
y
( ?
+( ?
1
)[
1 p2 )]
y
( =p
2 2 )
y
( ?1 y>x
?
H2 ,x
( )
y ?
= ?
1 p2 ?
1
)[
y
( p1 )]
x
( ?
+( ?
1
)[
1 p2 p
)]
y
( 1 )

x
( =p2 )
y
( ?p1 )
y
( y=x
?
??
( p
)
1 1 )
x
( ?
+1 ?
1
[ p1 )]
x
( =?
1 p
2 1 )
x
( y



案例2 布什上校(支付离散,矩阵表达)

在一场战斗中,布什上校有两个步兵团可以自由分
派到一对地点(1,2 1,3 1,4 2,3 2,4 3,4);而萨达姆上
校只有一个步兵团派往四个地点(1,2,3,4)的任何一处。
如果一个团到达无人争夺的地点,那么它就赢得这
处;如果敌方一个团也来到同一地点,那么它们将进
战斗而陷入困境。赢可以获得一个单元效用;陷入困境
则产生零效用。
萨达姆\布什 1,2 1,3 1,4 2,3 2,4 3,4
双 1 0,1 0,1 0,1 1,2 1,2 1,2
支 2 0,1 1,2 1,2 0,1 0,1 1,2

矩 3 1,2 0,1 1,2 0,1 1,2 0,1

4 1,2 1,2 0,1 1,2 0,1 0,1




占优策略型对策
案例分析 囚徒困境

Calvin\klein 认罪(a1) 不认罪(a2)
认罪(b1) 5,5 0,15
不认罪(b2) 15,0 1,1
如果Calvin是个理性的个体,他的策略有撊献飻和摬蝗
罪斄街郑绻≡癫蝗献铮琄lein不管认罪不认罪,他的
判刑都比Calvin年限少,故对Calvin不利。所以Calvin认为
他的两个策略中,撊献飻策略比摬蝗献飻策略好。同样的分
析,Klein也会认为撊献飻比摬蝗献飻策略好。所以,最后,
两个囚徒的合理的博弈结果应该是撊献飻,撊献飻,各判5
年。这里我们记:

撊献飻优于摬蝗献飻 b1﹥>b2,a1 ﹥>a2




又记:H1(a1,b1)=5=a11 H1(a1,b2)=15=a12
H1(a2,b1)=0=a21 H1(a2,b2)=1=a22

则 ?5 ?
15 ?11
a 12
a ?
?
? ?
?
=
?
? ?
?
?0 1 ??21
a 22
a ?

21
a 11
a
> , 22
a 12
a
>
注意:数字越小越优
? (
1
H ,
1
a )
1
b > (
1
H a2, )
1
b
即 ?
? (
1
H ,
1
a b2) > (
1
H a2,b2)

于是,得到如下定义




不管其他局中人选择怎样的策略,局中人i的策略s
强 i
优 盈利严格大于他的其他任何其他策略的盈利,即

略 Hi s(i',s i)
? H
> i s(i,s i)
?
对一切 s i 和 s i都
? 成立。
则称策略s 抜强优于局中人i的所有其他策略。

其中,s-i表示除了局中人 i 外的其他所有局中人的策略
向量。

在囚徒困境中,局中人1的策略a1=撊献飻,就是他
的所有策略的强优策略;同理,局中人2的策略b1=撊
罪斠彩撬乃胁呗灾械那坑挪呗浴K裕詈缶质
为(a1,b1)。




思考1 在博弈对策中,一个局中人如果存在强优策
略,是否存在两个或者两个以上的强优策略?(利
用定义判别)

思考2 分析案例2,布什上校和萨达姆上校是否分别存
在强优策略?

如果局中人i存在强优策略s 抜,那么他的其他策
略si都称为强劣策略。对于局中人i来说,没有理由
选择强劣策略。

对于局中人i来说,并不是强优策略都存在,比如:

左 右 局中人2
顶 ? 3,

7 3
,
5 ?
局中人1 ?
? ?
?
底 ?,
7 0 ,
3 ??
1




弱 如果不管其他局中人选择怎样的策略,局中人i的策
优 略s 抜盈利不小于他的其他任何其他策略的盈利,即

略 Hi s(i',s i)
? H
≥ i s(i,s i)
?
对一切 s i 和 s i?都成立。
则称策略s 抜弱优于局中人i的所有其他策略。

其中,s-i表示除了局中人 i 外的其他所有局中人的策略
向量。
左 右 局中人2
顶 ?7 3, 3,
5 ?
局中人1 ?
? ?
?
底 ?7,0 ,3?1?
强优策略和弱优策略统称优策略。




非 对于局中人i的策略s # *
i 和si ,若对于其他局中人的所
劣 有策略向量s-i,有

略 Hi(s*i,s i
?) H
≥ i(s#i,s i
?)
而对于其他局中人的某些策略向量s1-i,有

Hi s(*i,s i)
? H
> i s(#i,s1 i)
?

则称s #i为局中人i的劣策略。如果一个策略不是劣策
略,则称为非劣策略。前面所讲的优策略是非劣策略的
特殊类型。

一般来说,局中人i有许多策略。下面两件事必有
一件真: (1)可能存在一个优策略;(2)必然存在一个
非劣策略。




案例3 (伯川德)价格竞争模型

假设双寡头垄断市场中的两个公司都可以开出三个价
格中的任何一个棗高、中、低。不管哪个公司开出较低
的价格就可以得到整个市场。如果两个公司开价相同,则
他们将平分市场。他们的价格局势造成的收益矩阵如下:

公司1\公司2 高 中 低
高 6,6 0,10 0,8
中 10,0 5,5 0,8
低 8,0 8,0 4,4

利用优策略概念,求解两个公司的最终局势(价格对)。
分析 由盈利矩阵可以观察出,对于两个公司,摳邤价格
策略劣于撝袛价格策略,于是,每个

公司都没有理
由选择这个摬顢策略。于是撎蕹龜这个策略,得到:




公司1\公司2 中 低
中 5,5 0,8
低 8,0 4,4
从这个新的盈利矩阵可以看出,对任何一家公司,
摰蛿价格策略优于撝袛价格策略,故最后两家公司的有效
局势为(低,低)。
思考1 在一个没有品牌的市场(产品完全一样)旁边有
个价格低的小商贩,你认为顾客趋向如何?

思考2 举例分析两家相邻的食品店和折扣家电的商店的情
况。




案例4 古怪的一对

奥斯卡和金棕榈共阻一套房间。他们对整洁优美有明
显的不同观点,从而,对于是否愿意花费必要的时间打扫
房间也存在不同的看法。假使每周至少花费12小时的工作
才能保持住所有的干净,至少9小时的清洁工作才能使得
房间过得去,而少于9小时则房间肮脏不堪。又假使两个
人都可以奉献3、6或9小时进行打扫。奥斯卡和金棕榈都
同意过得去的适宜住房有效值为2。但是在清洁住所的效
用值方面两个人看法不一致:奥斯卡认为它值10个效用单
位,而金棕榈认为它值5。他们两关于肮脏房间的令人不
愉快性也有不同的估价:奥斯卡认为它值-10个有效单
位,而金棕榈认为它值-5。每个人的盈利是由来自干净房
间的有效值减去他打扫房间花费时间数。例如,奥斯卡和
金棕榈都花费6小时打扫房间,干净的房间使得奥斯卡获
得盈利4,而金棕榈获得盈利-1。




分析 根据提示,计算得到如下盈利矩阵:

奥斯卡\金棕榈 3小时 6小时 9小时
3小时 -13,-8 -1,-4 7,-4
6小时 -4,-1 4,-1 4,-4
9小时 1,2 1,-1 1,-4
首先,由于金棕榈棗懒虫认为每周花费9个小时打扫
房间是不可行的(都是-4,这简直是发疯!);这个
策略劣于每周6小时,故剔除这个策略,得到如下关联
盈利矩阵:

奥斯卡\金棕榈 3小时 6小时
3小时 -13,-8 -1,-4
6小时 -4,-1 4,-1
9小时 1,2 1,-1




对于这个新的盈利矩阵来说,每周工作3小时是劣
策略,故剔除这个策略,得到:


奥斯卡\金棕榈 3小时 6小时
6小时 -4,-1 4,-1
9小时 1,2 1,-1

对于这个新的盈利矩阵,对奥斯卡来说,6小时是
劣策略(爱干净),故奥斯卡选择9小时扫地,这样,
对于

金棕榈来说,6小时又是劣策略,故最后局势为
(9小时,3小时)。(或者6小时是金棕榈的劣策略,
故金棕榈不会选择6小时,而选择3小时,对于奥斯卡
来说,6小时又成了劣策略,故最后局势仍然为(9小
时,3小时)。




案例5 选举联合国秘书长

联合国1996年12月选举1997~2001年5年期的联合
国秘书长。候选人之一是来自埃及的波.波.加利
(Boutros Boutros-Ghali),他是1992~1996年期间的秘书
长。他在寻求连任,却一开始面临来自美国政府的强
反对(1996年夏季末,美国政府宣布反对加利,美国政
府说加利在联合国内部没有足够地消除浪费以及管理上
的失误。政治观察家们推测美国的决策大多按照总统的
政治主张做出的。克林顿总统(反对加利连任的共和党
占上风)的选举即将来临)趋向于妇女秘书长,提及的
有可能性的妇女为挪威首相布鲁特莱特(Glo Harlern
Brundtland,11月辞去首相职务,全力竞选秘书长)。
但是,联合国的非洲成员希望有第二任非洲秘书长。另
一个非洲人----并且是由丰富的联合国经验的人----来自加
纳的安南(Kofi Annan),不久他的名字在竞选中浮出
水面。




博弈分析
局中人 美国1 非洲2

博 弈 首先美国投票并着手否决三个候选人A(安
过 程 南)、B(加利)、H(布鲁特莱特)中的一个,
然后,非洲投票否决两个剩下候选人中的一个。
且选举开始知道两个局中人的偏好顺序:

美国:H>A>B
非洲:B>A>H

盈 利 如果最中意的人当选的话,盈利为1,如果较中
意的人当选,盈利为0,不喜欢的人当选的,盈
利为-1。




策 略
局中人1:A B H

局中人2:有三个分量(X,Y,Z),X表示,如果局中人1否
决A,局中人2的否决;Y表示剧中人1否决B,局中人2的否
决;Z表示局中人1否决H,局中人2的否决。那么,局中人2的
策略为:HAA HHA HAB HHB BAA BHA BAB BHB

博弈矩阵为:

1\2 HAA HHA HAB HHB BAA BHA BAB BHB
A -1,1 -1,1 -1,1 -1,1 1,-1 1,-1 1,-1 1,-1
B 1,-1 0,0 1,-1 0,0 1,-1 0,0 1,-1 0,0
H -1,1 -1,1 0,0 0,0 -1,1 -1,1 0,0 0,0




局中人2(非洲)的偏好是B优于A,A优于H,故局中
人2的策略HHA优于其它任何策略(不管局中人1(美国)
用哪一个策略),也就是如果加利有资格的话,非洲将会
否决其他任何候选人。另外一方面,从矩阵中可以看出,
HHA这一列(局中人2的盈利)不小于任何一列,故也决
定了HHA为弱优策略。这样上述博

弈矩阵变成:

1\2 HHA
A -1,1
B 0,0
H -1,1
这是可以看出,局中人1(美国)否决A或者H是劣策
略,(也就是说,否决安南或者布鲁特莱特,为加利打开
了大门)。所以,最后美国在第一轮否决加利,第二轮
洲否决了布鲁特莱特。折中候选人安南就被选为秘书长。




占优策略剔除法说明

在第I轮,局中人i的劣策略集合表示为

i
D (I) { i
=s S
∈ ,s
i i }
是劣策略
理性的局中人都不会采用劣策略,对每个局中人这
个说法都成立。

在第II轮,局中人i可以在留给自己的策略集合Si-Di(I)中
作进一步的决定,看看他们中间是否有新的策略成了劣
策略。在采用剔除法剔除劣策略构成了Di(II)。这样不断
循环下去,直到出现占优策略为止。

算例 案例3、案例4、案例5的计算




1\2 中心
剔除过程演示 壹 策略剔除法
中间 2,5
1\2 左 中心 右
顶 4,5 1,6 5,6 1 第二轮剔除结果
中间 3,5 2,5 5,4 1\2 中心
底 2,5 2,0 7,0
顶 1,6
局中人2的右策略与中
2 中间 2,5
心策略相比,是劣策略

I 2 中心>左
1\2 左 中心 局中人1 1\2 左 中心
顶 4,5 1,6 的底策略
中间 3,5 2,5 与中间相 顶 4,5 1,6
比,是劣
底 2,5 2,0 中间 3,5 2,5
策略 第一轮剔除结果




剔除过程演示 贰 划线法

1\2 左 中心 右 1\2 左 中心 右
顶 4,5 1,6 5,6 顶 4,5 1,6 5,6
中间 3,5 2,5 5,4 中间 3,5 2,5 5,4
底 2,5 2,0 7,0 底 2,5 2,0 7,0
合成
给定局中人 再给定局中
2的每个策 1\2 左 中心 右 人1的每个策
略,对局中 顶 4,5 1,6 5,6 略,对局中
人1的相应 中

间 3,5 2,5 5,4 人2的盈利最
盈利最大值 大值划线
划线 底 2,5 2,0 7,0
两个值都划线的对应的策略就
是两个局中人的最佳策略。




结果与剔除顺序有关

当策略之间的劣与优是强(非弱)的时候,最后结
果与剔除顺序没有关系,但是当策略之间的劣与优是弱
的(非强)的,则最后结果与剔除顺序有关。

案例6

一个市场存在一个垄断企业,另一个新的企业希望
入这一市场,垄断者为了保持自己的垄断地位,需要对
入者进行阻挠。这种对策中,进入者有两种策略:摻霐
与摬唤霐;垄断者也有两种策略:撃頂与撟枘訑。他们
的盈利函数如下:
进入者1\2垄断者默 许 阻 挠
进 入 40,
50 -10,
0
不进入 0,300 0,300




1\2 默 许 阻 挠 1\2 默 许 阻 挠
进入 40,
50 -10,
0 划线法 进入 40
,50 -10,
0
不进入 0,300 0,300 不进入 0,300 0,300
1\2 默 许 阻 挠
进入 40,
50 -10,
0 根据划线法,该问题有
两个最后局势: (进入,默
不进入 0,300 0,300 许)和(不进入,阻挠)。
但是,根据根据剔除法,我
剔 1\2 默 许 们根据占优策略剔除劣策
除 略,而只能得到一个最后
法 进入 40,
50 势。所以今后在求解占优策
不进入 0,300 略的时候,最好用划线法。


1\2 默 许
进入 40,
50




纳什均衡博弈论的第一个重量级概念

优 局中人i的策略si*与其他局中人的策略向量s-i*,如
反 果他们满足:
应 * * *
H s
( ,s )
? H
≥ s
( ,s )
? s
? S

策 i i i i i i i i

则称si*是关于s-i*的最优反应。也就是假定其他局
中人取定策略组合s-i*,那么局中人i采用的最好策略就
是si*。
在对策中使用最优反应策略,必须有两个假设:
每个局中人必须采用自己猜测其他局中人的策
略组合的最优反应策略。

这种猜测必须是正确的。




案例7 豪泰林竞争模型

假定有一个长度为1的线性城市,消费者均匀分布在
这个区间内,有两个商店(工厂)位于这个城市的两端,
出售同质产品,记商店1在x=0处,商店2在x=1处,,每
个商店的单位成本为c。消费者一单位的交通成本为t,他
们需要一个单位的商品,而且为这一个单位商品最多
支付s。两家商店的价格如何?
p1+tx 实际支付 p2+t(1-x)
分析 1 x 2
p1 p2

D1(p1,p2)=x D2(p1,p2)=1-x

D为需求函数




p ? +
2 p1 t
需求分界点 p + = + ? ? =
1 tx p2 t 1
( x) x 2t
? p2 ?p1 +
D1(p1,p2) =x = t
?
? 2t
需求函数 ?
? p2 ?p1 +t
?D2(p1,p2) =1?x =1?
? 2t

?H1 p(1,p2)=p(1 ? 1 =1
D
)
c p
( 1 ? p
)(
c 2 ?p1 +t)
对策支付 ?
? t
2
函数(盈利) ?
? 1
?H2 p
( 1,p2)=p
( 2 ? D
)
c 2 = p
( 2 ? p
)(
c 1 ?p2 +t)
? t
2




求解最优反应策略(定价)

给定p2*,对p1求偏导,得到

p + +
2 * c t
p

=
1 * ( p 2 *) 2
给定p p *
1 p
= *
2 c
= t
+
1*,对p2求偏导,得到
p + +
1 * c t
p * ( p =
2 1 *) 2
商店1猜测商店2采用(价格)策略p
解释1 2*,那么商
店1的最优反应策略是采用(价格)策略p1*(也就是
说,如果商店1采用其它策略,他的盈利就会减
少);同样,商店2猜测商店1采用(价格)策略p1*,
那么,商店2最优反应策略是采用(价格)策略p2*。
也就是说,p1*和p2*互为最优反应。




解释2 商店1和2的最优反应是建立在外部环境给定
的情况下的最优反应。这两个最优反应需要根
外部环境参数变化而变化,因为
p1*=p2*=c+t
当c和t发生改变的时候,两个最优反应都相应发生
改变。

当c和t增加超过一定限度,即总支付超过了消
解释3 费者的支付能力(最多愿意支付),那么,消费者
就从商店1和商店2流失。由于

p1* p
+ 2 * t
+ 3
p1* tx
+ s
≤ ? s
≤ ? c + t s

2 2
即c和t也应该受到消费者的支付能力的约束!!




在案例7中,局中人(两个商店)分别猜测对方会
纳 用策略(价格)p
什 1*和p2*,谁偏离了这个策略,都会吃
亏。所以,局中人都有没有偏离(p1*,p2*)的动机。也就
均 是说,在这个对策中,局中人分别选择策略(p
衡 1*,p2*)是
稳定的。称这样的策略向量(p1*,p2*)为纳什均衡。

策略向量s*=(s1*,s2*,,sn*),如果满足条件:
Hi(si*,s i*)
? H
≥ i(si,s i*)
? i I



则称s*是纳什均衡。

也就是说,如果局中人i正确的猜测其它局中用人的
策略向量为s-i*,那么,他的最优反应是si*,如果偏离了
这个策略,他的盈利就会下降。同样的道理,每个局中
人都有这样的猜测,那么,谁都不会偏离这个均衡策略
向量。即纳什均衡具有稳定性。




局中人都存在强优策略,那么,这种由强优策略组成
思考1 的策略向量是不是纳什均衡?


思考2 纳什均衡是唯一的吗?利用弱优策略说明。


思考3 是不是所有的对策都有纳什均衡?


思考4 局中人都有多个策略,他们怎么达到纳什均衡?想
一下在商业竞争中,为什么存在商家谈判?

思考5 对于弱优策略型,用剔除法会不会剔除纳什均衡?




纳什均衡的补充说明

行动指令 纳什均衡s*犹如行动指令。如果这个策略向量
是局中人提出的,没有一个人愿意采用其它策略,
那么它就是一个稳定的指令。

廉价磋商 局中人在通过实际博弈过程中通过讨论他们
的选择来进行协调。只有在纳什均衡上达成的协
议才能够被所有局中人付诸行动;在非纳什均衡
上达成的任何协议,至少有一个人不忠于这样的
协议。
理性自省 每个局中人可能自问他期望的博弈结局将是
什么,某些候选的结局似乎不合理,因为有些局
中人可以比他们正在做的获益更好,也就是说,
可能有局中人没有采用最优反应。当处在纳什均
衡的时候,没有一个人愿意在其他人都选择最
反应的时候犯错误。




聚焦点

纳什均衡形成了局中人的聚焦点。也就是说,纳什均
衡比其他策略向量更加引人注目,因为它具有异于其他策
略向量的特点,那就是纳什均衡下,每个局中人都是最优
反应。
例如 在两个人面前摆着一块蛋糕,让这两个人各自
默写出一个0到1的分法比例值,即自己愿意占这块
蛋糕的比例。当两个人想法相等且可行的时候,他
们就可以分享这块蛋糕,否则,他们将一无所获!

在这个问题中,两个人都会聚焦到1/2这个分配
比例上,所以(1/2,1/2)是一个合理的纳什均衡。
当然这里有很多纳什均衡,但是,人们最容易想到
的就是这个分法就是各占一半。




案例8 动物王国里的纳什均衡

动物为了争夺配偶、稀缺生活资源、后代的繁衍资源

发生战斗,一旦发生争斗,战斗的代价十分昂贵,比如
失去臂或者腿甚至生命。生长在墨西哥的荒漠的荒漠蜘
蛛,雌蜘蛛在网里产卵,由于这样的网很难建搭,因此,
网是稀少的。雌蜘蛛经常为了争夺已有的网而争斗,或者
接近争斗;两只雌蜘蛛并排在网前,猛烈地摇晃蜘蛛网。
当一只蜘蛛撤退下来而留下另外一只单独占有蜘蛛网时
冲突就结束了。

生物学家们试图解释两个特定的事实:

多数冲突无需战斗而得到解决。冲突胜利者常常从
失败者那里获得撐稚鼣的必须品(作为奖励)。

当奖励较高时候,战斗的可能性更大!




利用已经学到的知识,建立如下博弈矩阵:

蜘蛛1\蜘蛛2 认输(c) 战斗(f)
认输(c) 5,5 0,10
战斗(f) 10,0 x,x

其中,拥有一张蛛网的价值是10,如果两只蜘蛛战斗,
肉体损伤超过了拥有蛛网的价值,那么,x<0。否则,
x>0。

??? 这个博弈的纳什均衡是什么呢?

X<0 存在两个纳什均衡,
蜘蛛1\蜘蛛2 认输(c) 战斗(f) 一只准备战斗,另外
认输(c) 5,5 0,10 一只认输。这时肉体
损伤太大,赢得蜘蛛
战斗(f) 10,0 x,x 网的奖励不大!!




x>0

这时候,唯一的纳什均
蜘蛛1\蜘蛛2 认输(c) 战斗(f) 衡为(战斗,战斗),
认输(c) 5,5 0,10 也就是说,较高的奖励
导致了更多的战斗!!
战斗(f) 10,0 x,x


不发生战斗时,我们如何预测哪一个纳什均衡会发生
呢?
研究发现:赢得蜘蛛网与两件事情有关棗占有状态和
体重。如果体重大致相当,占有者保住蛛网;如果体重相
差悬殊(通过摇晃蛛网的剧烈程度可知),体重大的占有
蛛网,另外一只逃走!这时候,对蜘蛛1,有x<0,对蜘蛛
2,有x>0,这样的话,蜘蛛1体重小,而蜘蛛2的体重大,
蜘蛛2因为战斗蒙受的损失小一些,故蜘蛛1逃走,蜘蛛2正
想打架。




案例9 古诺双头卖主垄断模型

两家公司以同类产品(从顾客的角度看,两家公司
的产品相差不多,或者无法区别!)在市场上竞争。两
家公司面临单纯的需求曲线:
P=a-bQ
a>0,b>0,Q=Q1+Q2是公司1和公司2的总产量。
现在假设每家公司的成本函数相同,并且边际成本
是常数c>0。问:每家公司将

生产多少?
步骤:
(1) 一家公司对另外一家公司的产量的预测;
(2) 然后决定自己生产的数量。
(公司1可以自问:公司2将要生产Q2*,我应该生产多少)




模型分析 两家企业竞争模型

总产量 Q1+Q2* P
市场价格
a
市场价 a-b(Q1+Q2*)
Q
总收益 [a b
? (Q1 Q
+ 2*)]Q1 市场供给量

总成本 cQ1

总利润 1
H ( 1
Q ,Q2*) [
=a b
? ( 1
Q Q
+ 2 1
Q
*)] ? 1
cQ

a c
? bQ
? 2 *
Q1* = 2b




公司1对公司2的产量Q2*的最优反应函数:

?a ?c ?bQ2 * a ?
, Q2*≤ c
?
? 2b b
R1(Q2*) ?
=? a ?c
?0 , Q2* >
? b
公司2对公司1的产量Q1*的最优反应函数:
?a ?c ?bQ1* a ?
, Q *
Q2 1 ≤ c
?
? 2b b
R2(Q *)
1 ?
=
(a-c)/b ? a ?c
R1 ?0 , Q *
1 >
? b
(a-c)/2b

R2
Q1 (Q1*,Q2*) 纳什均衡
(a-c)/2b (a-c)/b




结论 古诺纳什均衡

a c
? 3
生产数量 Q *

1 Q
= 2* = b3
1 2
产品价格 p = a + c
3 3 4

(a c ) 2
?
公司利润 9
9 b

P=10-Q,c=1
例如




思考1 在案例10种,两家公司联合决决定产量(卡特尔模
型),其结果会怎么样?利用案例10的结果对比。

卡特尔模型 Max L(Q1,Q2)=[a-b(Q1+Q2)-c](Q1+Q2)

生产数量 a c
? 2.25
4 b
a + c
产品价格 5.5
2
( a c ) 2
?
公司利润 8 b 10.125

P=10-Q,c=1
例如




思考2 针对今日之欧佩克(OPEC,石油输出国组织),利
用布诺纳什均衡分析,为什么近期欧佩克乐意投资新的
油田开采和提高价格?(与非OPEC博弈的囚徒困境)
思考3 留意一个国家的主要产品的生产,是不是可以
用古诺模型解释?(例如,汽车、飞机、军火、石
油)
思考4 在一个卡特尔组织内,有组织成员存在欺骗:
私自提高产量,会有什么后果?(譬如,欧佩克和
非欧佩克之间)
思考5 古诺模型中,反应函数曲线倾斜向下(递减,
对手增加,自己减少),每个公司有没有占优策略。
如果有,反应曲线应该是什么形状?(∩?)
思考6 如果,古诺模型的局中人不止两个(N个公
司),或者需求曲线不是直线型,你能够将计算过
程推广并得到结论吗?
思考7 你能够处理处理公司1和公司2两个决策时间不
一致所带来的问题吗?




案例10 智猪博弈 搭便车问题
笼子里有两只猪,一只比较大,一只比较小。笼子
长,一头有一个按钮,另一头是饲料的出口和食槽。
下按钮,将有相当于10个单位的猪食进槽,但是按按钮后
跑到食槽所需付出的摾投瘮,加起来相当于2个单位的猪
食。问题是按钮和食槽分置在笼子两端,按按钮的猪付出
劳动跑到食槽的时候,坐享其成的另一头猪早已吃了不少。
如果大猪先到,大猪呼啦啦吃到9个单位,小猪吃到1个单
位;如果同时到达,大猪吃到7个单位,小猪吃到3个单
位;如果小猪先到,小猪可以吃到4个单位,大猪吃到6个
单位。问?小猪和大猪的决策结果如何?

博弈矩阵 大猪\小猪 按 等
按 5,1 4,4
等 9,-

1 0,0




博弈求解

大猪\小猪 按 等 纳什均衡
按 5,1 4,4 (按,等)
等 9,-1 0,0

主要消费体大猪起到主动作用,次要消费体小猪坐享其
成。这就是搭便车问题。

思考1 股份制企业里,为什么大股东挑起监督经理的重任?

思考2 大国与小国结盟,为什么国防支出主要是大国承担?

思考3 在我国,生产化学药品有关的企业实力相当的企业
很多?能否把化学药品的排污等问题交给企业来管
理?




思考4 在我国,教育属于公共资源,是否存在搭便车的现
象?举例说明(教育收费,各类不相关费用的发生)


思考5 为什么在我国,主要河流的两岸企业的污染屡禁不
止?

三家居民住在一起,公用一条多年失修的道路。
思考6 中一家较富裕,另外两家很拮据。你认为这条道路
会有人修理吗?是谁修?

思考7 能否用搭便车问题解释欧佩克和非欧佩克成员之间
的价格、产量、利润之间的博弈问题。

贫富差距较大的今天的中国,为什么公共形象的城
思考8 市建设发展如此之快?而公共交通、公共教育、公
共医疗等发展如此之慢?




案例11 公共问题 公共资源悲剧

公共资源的两个特征:
(几乎)人人都享用,限制享用(环境问题)是行不
通的和不可取的(公园问题)。
资源枯竭,使用资源人越多,使用资源越密集,未来
资源就越少。

有大小为y>0的公共资源。两个局中人的每一个都
问题 可以提取一个非负量c1和c2用于消费,假设c1+c2≤y。

1 资源只考虑一个周期

均衡分配就是c1=c2=y/2。




2 资源只考虑2个周期

第1周期 c1+c2

第2周期 y-(c1+c2)

合理假设 消耗资源量x,带来的效用为ln(x)

分析问题 在第2个周期,剩余资源每个局中人分一半。
于是局中人1在假设局中人2第一周期消费资源
量为c2*基础上,最优反应就是取c1,使得效用
最大:
y c
?1 c
max f (c ?
1) = )
1
c
ln( ln( 2
+ )
2





c
局中人1的最优反应为 2
y
y c
? R
2 *
R 1
1(c2*) = 2 y/2
同理,局中人2的最优反应为 R2
c
y c
? 1
o
1 *
R y/2 y
2 (c1*) = 2y
求解均衡 c *
1 c
= 2* =3
也就是第一个周期每人消费y/3单位,第二个周期
每人消费y/6单位。每个人的效用为ln(y/3)+ln(y/6)。




思考1 资源合理利用(社会最优,刚才的是个人最优)
况怎样?
y c
?1 c
max f (c ?
1,c2) ln(
= c1) ln(
+ c2) 2
+ ln( 2 )
2
y
c1* c
= 2* =4

这种社会最优与个人最优的区别在那里?资源的
思考2 配方式有什么不同?

在个人最优情况下第一周期攫 2/3消费,留下
1/3;在社会最优情况下,第一周期消 1/2,留下
1/2。故对于公共资源,我们正在经历一场悲剧!!




思考3 发生公共悲剧的原因是什么?

局中人1消减一个单位资源留到第2个周期,但
是,在第2个周期,由于平分的作用,他只得到其中
的一半,另外一半给了对手!所以,每个人都不
在第一个周期少消耗!!

在公共资源模型中,如果局中人增加到N个,第一周
思考4 期消耗情况怎样?留下多少到第二周期?
y c
?1 (
?N ?)
1 c
max f1(c1) = c
ln( 1) ln(
+ )
N
y
c1 =c 2 = =
" c N = N 1

相关文档
最新文档