第11章-博弈论教材全篇
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
田忌
齐王 b1 b2 b3 b4 b5 b6
a1
3 1 1 1 1 1
a2
1 3 1 1 1 1
a3
1 1 3 1 1 1
a4 1 1 1 3 1 1
a5
1 1 1 1 3 1
a6
1 1 1 1 1 3
2-2 具有鞍点的博弈
通过下面的例3说明,什么是局中人的最优纯策略, 如何求出这个纯策略以及博弈解和博弈值的概念。
博弈的三个要素的矩阵表示(局中人A的收益)
局中人B
局中人A
策
a1
a2
略
am
b1
c11 c21
cm1
策
b2
c12 c22
cm 2
略
bn
c1n c2 n
cmn
局中人A的收益函数可用如下的矩阵表示:
c11
A
c21
cm1
c12 c22
cm 2
c1n c2n
cmn
二人零和博弈也称为矩阵博弈。
博弈论的研究建立在下述假设前提下:即参与博弈 的各局中人都是理性的。
“博弈中一个理性的决策必定建立在预测其他局中人 的反应之上。一个局中人将自己置身于其他局中人的 位置,并为他着想从而预测其他局中人将选择的行为, 在这个基础上该局中人决定自己最理想的行动。”
博弈的三个要素,即局中人,策略集和收益函数 构成了博弈信息,根据不同信息可对博弈做如下 分类:
同样乙方应从收益表中每列找出最大正数(恰为乙 方输掉的数值),为了减少损失,应从这些数字中 求出最小数,它所对应的列策略为乙方的最优纯策 略。
计算过程如下:
对局中人甲,先从每一行中求出最小值
min6,1, 8 8,min3, 2,6 2, min3,0, 4 3,再求出其中的最大值 max8, 2, 3 2。数字2对应的行策略
E1 6x1 4x2 6x1 4(1 x1),E2 3x1 8x2
3x1 8(1 x1),甲希望不论乙采取什么策略,
1.按局中人对信息掌握情况分为:完全信息博弈和不 完全信息博弈;
2.按局中人采取行动的次序分为:如果同时采取行动 或在互相保密情况下采取行动,称为静态博弈;如果 采取行动有先后,后采取行动的人可以观察到前面人 采取的行动,称为动态博弈。
我们只研究完全信息静态博弈。 完全信息是指所有局中人对其他局中人各自策略集以及 不同局势下的收益函数都有完全的了解。
早期工作 1912年E.Zermelo “关于集合论在象棋对策中 的应用” 1921年E.Borel 引入最优策略 1928年J.V.Neumann证明了一些猜想
产生标志 1944年J.V.Neumann和O.Morgenstern 《对策论与经济行为》
发展成熟 Nash均衡、经济博弈论、信息不对称对策和 广义对策
夫
决
运
胜
筹 帷
博弈论
于 千
幄
里
之
之
中
Game Theory
外
主要内容
引言 完全信息静态博弈(有鞍点的博弈、混合策略、
纳什均衡) 完全信息静态博弈(非零和的情况、纳什均衡)
ቤተ መጻሕፍቲ ባይዱ
§1 引 言
在社会活动、经济管理、军事活动中,经常会遇到 具有竞争性或利益相对抗的现象,例如下棋、打桥 牌、体育竞赛、市场竞争、军事斗争等。竞争的各 方总是想用最好的策略击败对方,取得尽可能好的 结果,这就是博弈现象。
公司都知道,如果在一个区内建两个超市,则两个 市场平分该区业务;如果某区建一个超市,则独揽 该区业务,若某区无超市其业务平均分散在三个超 市中,每个公司都想把超市建在营业额最多的地方。 (1)将该问题表达成一个矩阵博弈,并写出甲公司 的收益矩阵; (2)甲、乙两公司的最优策略是什么?在两公司都 取得最优策略时,它们各占有多大的市场份额?
约翰·纳什(JOHN F.NASH)美国人 (1928- )
约翰·海萨尼(JOHN C. HARSANYI)美国人
(1928-)
莱因哈德·泽尔腾 1930年生于德国
1994年,三人获得诺贝尔经济学奖,在非合作博 弈的均衡分析理论方面做出了开创性贡献,对博 弈论和经济学产生了重大影响。
1996年诺奖授予两位博弈论与信息经济学研 究专家莫里斯、维克瑞
例3:
乙 甲
a1 a2 a3 a4
b1 b2 b3
6 1 8 32 6 19 1 12 3 0 4
博弈过程的描述:从收益表中可知,甲方的最大
收益是19,他当然希望得到这个值,于是甲使用
策略 a3对付乙。但是乙方已估计到甲方的心理而
使用策略 b3对付甲,使他不但得不到19,反而要
输掉12。此时甲也估计到乙方的心理,使用策
a2为局中人甲的最优纯策略。
对局中人乙,先求每列的最大值,max6,3,19,3 19, max1,2,1,0 2,max8,6, 12,4 6,再求其中的最 小值min19,2,6 2,数字2对应的列策略b2为乙方的
最优纯策略。
则局势(a2,b2 )为该博弈的解,其博弈的值为VG 2。
1
3
0 2
3 1
2 1
2 1
1 0
0 3
3 2
1 0
0
3
0 3 0
最优纯策略为(a2,b2),博弈值VG 0。
2 1 0 3 1 1 0 3 2 0 max 3 2 1 1 3
2033 min
3.有鞍点的博弈是少数情况,大量的博弈问题不存 在鞍点,齐王的收益矩阵就不存在鞍点。
课堂讨论题目
博弈问题的实例1:甲、乙二人游戏,每人出一个或 两个手指,同时又把猜测对方所出的指数叫出来。 如果只有一个人猜测正确,则他所赢得的数目为二 人所出指数之和,否则重新开始。写出该对策中各 局中人的策略集合及甲的收益矩阵,并回答局中人 是否存在某种出法比其他出法更为有利。
博弈问题的实例2:某城市由汇合的三条河分割为 三个区,城市居民中40%住在A区,30%住在B区, 30%住在C区。现有甲、乙两公司要在市内修建超 级市场,甲公司建两个,乙公司建一个。每个
我们称c22 2为收益矩阵的鞍点。博弈G S1, S2; A
称为有鞍点的博弈。
一般地,给定矩阵博弈G S1, S2; A,其中
c11 c12
A
c21
c22
cm1 cm2
c1n
c2n
,对局中人甲有
max i
min j
cij,
cmn
对局中人乙有
min j
max i
cij。
定理:矩阵博弈G S1, S2; A,其中A
2001年诺奖授予阿克洛夫、斯彭斯、斯蒂格 利茨,表彰他们在柠檬市场、信号传递和信号 甄别等非对称信息理论研究中的开创性贡献
2005年诺奖授予有以色列和美国双重国籍的 罗伯特·奥曼和美国人托马斯·谢林,以表彰他 们在博弈论领域作出的贡献
什么是博弈论?
所谓博弈是指局中人按一定规则,在充分考虑其他 局中人可能采取的策略的基础上,从自己的策略集 中选取相应策略,并从中得到回报的过程。 博弈是一种特殊的决策。在决策论中,决策者的对 手是大自然;在博弈论中,代替大自然的是有理性 的人,因而任何一方做出决定时,都必须考虑其他 对手可能作出的反应。
0 2 3
A
0
3 4 ,c11 0,c21 0都是鞍点.即局中人
2 0 3
甲采取a1, a2两个策略,局中人乙采取b1策略可达到
博弈的均衡,双方不输不赢。
2.策略的优超性。 策略优超性的定义:
在矩阵博弈的收益矩阵A cij 中,如果有
ckj clj,j 1, 2, , n,且至少有一个取 号, 则称局中人甲的策略ak 优超于策略al,可将第l行划掉; 如果有cik cil ,i 1, 2, , m,且至少有一个取 号, 称局中人乙的策略bk 优超于策略bl,可将第l列划掉。
2-3 无鞍点矩阵博弈的混合策略
1. 2×2无鞍点矩阵博弈的特殊解法
例4 乙
甲
b1 b2
行最小值
a1
6
3
3
a2
4
8
4(max)
列最大值 6
8
(min)
该矩阵博弈显然不存在鞍点。对他们的博弈过程 作出如下的描述: 如果甲方采取策略a2,他至少可赢得4,乙方为了 减少损失将采取策略b1,由于不存在鞍点,甲认为 采取策略a1比a2更好,如果乙能估计到甲的做法, 则采取策略b2更好一些,这时乙的损失是3而不是 6。至此,甲又要采取策略a2,于是产生了循环。这 说明对于甲、乙来说,都不存在最优纯策略,也就
说明:这种做法可能会丢掉一些最优解,但不会影 响博弈的结论,如果上面的不等式有严格不等式, 就不会出现丢解的现象了。
利用优超性化简收益矩阵
1
A
0
2
2 1 1
0 1 1
A
0 2
1 1
1
1
A
1 1
1
1
利用策略的优超性化简下面的矩阵博弈,并求出局 中人的最优纯策略和博弈值。
2 1 0 3
博弈可表为 G S1, S2; A
例1 写出“石头、剪子、布”游戏的收益矩阵。石 头赢剪刀1分,布赢石头1分,剪刀赢布1分。
解:甲的策略集为{石头,布,剪刀} 乙的策略集为{石头,布,剪刀}
乙 石头 布
甲
石头
0
-1
布
1
0
剪刀
-1
1
剪刀
1 -1 0
例2 写出齐王和田忌赛马中齐王的收益矩阵。 (赢一场得一千金)
cij
在
mn
纯策略意义下有解的充分必要条件是
max i
min j
cij
min j
max i
cij
ci j,其中ci j 称为收益
矩阵的鞍点,也是博弈的值,记为VG ci j所对应的
局势(ai ,bj )称为博弈G的解,ai ,bj分别称为局中
人甲、乙的最优纯策略。
几点说明:
1.在有鞍点的矩阵博弈中,鞍点可以不唯一。例如:
例如,在齐王和田忌赛马的博弈中,双方都有六个 策略: (上,中,下),(上,下,中),(中,上,下),(中,下,上), (下,中,上),(下,上,中),这六个策略形成一个策略 集合。 相应每个局中人的策略选择形成的策略组称为一个 局势。
3.收益函数(Payoff function):指一局博弈后各局 中人的输赢得失,用正的数字表示局中人的赢得, 负的数字表示局中人的损失。显然,收益函数的取 值与局中人选定的策略有关,于是一局博弈的“得 失”是“局势”的函数。
略 a2 ,使乙得不到12反而输掉6。当甲方使用策 略 a2 时,乙方使用任何策略都要输,当然他希望
输得少一些,因此乙方只能使用策略 b2 ,这时甲
赢得2,乙输掉2,达到了平衡,博弈结束。
我们注意到,博弈论是研究有理智的局中人在每 一个局势下采取的行动。他们在选择策略时,要 考虑到对方总是采取对自己最不利的策略来对抗。 基于这一原则,最优策略不是冒险性的结果,而 是审慎的留有余地的周密安排。 如果双方都不存在冒险心理,为了达到最佳结局, 甲必须计算他的每个策略与乙的各策略博弈后的 结果,从而求出使用每个策略带来的最坏收益, 再从这些最坏收益中选出一个最大收益值,这个 值对应的行策略就是甲方的最优纯策略。
§2 完全信息静态博弈(一)
2-1 二人零和博弈
设博弈中只有局中人A,B;
局中人A的策略集为 S1 a1, a2 ,, am;
局中人B的策略集为 S2 b1, b2 ,, bn.
cij表示局中人A采取策略ai,局中人B采取策略bj 时A的收益(这时局中人B的收益为 cij ),cij为ai和 bj的二元函数,即cij F (ai ,bj ),(ai ,bj )称为局势。
是说甲、乙在博弈过程中,不能只使用一个策略,
而应当以适当的比例交替使用各个策略,这就是混
合策略的概念。
设甲以概率x1, x2分别选取策略a1, a2。乙以概率 y1, y2分别选取策略b1,b2。显然有x1 x2 1, y1 y2 1。现在计算甲、乙的期望收益。
当乙方采取策略b1 , b2时,甲方的期望收益为
解:
S1 a1, a2, a3, a4, a5, a6,S2 b1,b2,b3,b4,b5,b6
a1 (上,中,下),a2 (上,下,中),a3 (中,上,下), a4 (中,下,上),a5 (下,中,上),a6 (下,上,中)。 S2中的各策略与S1对应的策略相同。
齐王的收益矩阵:
构成博弈的三个要素:
1.局中人(Players):是指参与竞争的各方,它可以 是一个人,也可以是一个集团,但局中人必须是有决 策权的主体,而不是参谋或从属人员。在博弈中局中 人可以有两方,称为二人博弈;也可以有多方,称为 多人博弈,在多人博弈中又可分为结盟和不结盟的情 况。 2.策略(Strategies):指局中人所拥有的对付其他局 中人的手段、方案的集合。在静态博弈中,策略必须 是一个独立的完整的行动,而不能是若干相关行动中 的某一步。