博弈论及其在决策中的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

并称之为纯策略集合。
并记支付矩阵为A={aij}, G {S1, S2 , A}
那么,矩阵博弈可简记为
它表示出了一个博弈的三个要素。
21
例4: 设某个矩阵博弈为G={S1,S2,A}
其中策略集分别为S1={α1,α2,α3}.
S2={β1,β2,β3},
β1,β2,β3,
α1,
此类对策也 称为有鞍点 的博弈均衡 解,或者是 称纯策略意 义下有解
恰好等于 每列中的最大值当中的最小者
在例子中,max i
min j
aij

a23

2

min j
max i
aij

a23
2 相等
26
但有些矩阵博弈在纯策略意义下无解
例如,小孩们玩的“石头、剪子、布”游 戏这个博弈就没有纯策略意义下的解。
若某个策略S*=(S1*,S2*,…,Sn*)∈S,使 得满足某种均衡性质和条件,则称该策略S*为S 的均衡点(或均衡解),对应的支付为均衡支付 P(S*)
17
博弈论的分类
策略型博弈(Strategic form): 用支付矩阵表示。 如例1,例2。
扩展型博弈 ( Extensive form):用对策树表示。 如例3。
19
§6.2 两人零和博弈(矩阵博弈)
对于这种特殊博弈问题的支付矩阵,可用普通矩 阵(即只写出第一局中人的得益,省略第二局中 人的得益)表示。
假设,各局中人的策略和支付是“共同知识 (common knowledge )”,即每一局中人不但 知道自己的策略集合和支付,而且也知道对方的 策略集与支付,还知道对方知道我知道这些。
所以,用混合策略的概念更具有一般性。
28
在混合策略意义下,得益就成为期 望得益的概念
在局势(x, y)下,局中人Ⅰ得到的 期望(平均值的含义)支付为
mn
E(x, y)
aij xi y j xT Ay
i1 j 1
而局中人Ⅱ的期望支付为 -E(x,y)
29
定义2 :设矩阵对策为G=(S1,S2,A)
发展至今,博弈论已经成功应用于经济、 管理、军事、政治等诸多领域,已经成为 经济研究和决策的重要工具。
6
本章简明介绍博弈论的基本概念、 基本方法及其在决策中的应用
博弈现象普遍存在于军事、政治、经济、 管理、科技等竞争活动中。虽然,博弈来 源于竞争,但并非所有竞争都构成博弈。
例如,小孩之间玩投掷一颗筛子的竞赛, 谁掷出的点数多则为获胜者,这不是博弈, 但如果玩石头、手绢等游戏就构成博弈。
15
所以,构成博弈有三个要素:
1.局中人或参与人(player):有权决定选择何种策略的参 加者。
根据局中人的多少,分为两人对策和多人对策
2. 策略(Strategy)和策略集:在每局对策中,参加对策的局中 人都有可供实际选择的完整的行动方案,成为策略集合。 其中,一种方案成为一个策略。如,{石头,剪子,布} 就是一个策略集。
到了20世纪80年代,博弈论已经受到 世界各国经济与管理学家的重视,并 认为是经济理论分析和决策的核心方 法,列为西方经济学有关专业学生的 一门必修课程。
在此期间,博弈论的思想、概念和方 法在经济学和管理学杂志上大量涌现, 在世界范围内兴起一股学习和研究博 弈论的热潮。
4
特别是在1994年10月份,瑞典皇家科学院宣布 该年度的诺贝尔经济学奖授予美国普林斯顿大学
我国早在古代时期的《孙子兵法》就闪烁着 对策论的思想光辉。田忌与齐王赛马的故 事就是一个经典的博弈故事。
2
1944年,冯·诺依曼(Von·Neumann) 与摩根斯坦(Morgenstern)合著发表了 《对策论与经济行为》一书,开创了对策 论的系统化、公理化的研究。
3
博弈在经济决策中的应用
所以要构成一个博弈问题,必须具备一定 条件
7
§6.1 博弈论的基本概念
例1:儿时的游戏:“石头、剪子、布”。规则 为每人从中确定一种出法,出法确定后,就决定 了一个“局势”,并确定每个人的输赢。
游戏规则规定:获胜者得1分,输者得 -1分,出 现平手时各得0分,则可以把各种可能的局势和 得分情况表示为如下一个矩阵:
并称该对策G的值为2。
6 2 6
注意到这里的元素a23满足不等式
ai3 a23 a2 j (i 1,2,3; j 1,2,3)
有下面的定义
24
定义1:对于矩阵博弈G=(S1,S2,A)
如果有某个局势满足
( i* , j* ), 满足aij* ai* j* ai* j (i 1,2,.., m; j 1,2,..., n)
并称x*,y*分别为两局中人的最优策略。
E( x*,y* )称为对策G在混合扩充下的值
30
TH2:矩阵对策G=(S1,S2,A)
在混合扩充意义下,对策G有解的充分必 要条件是
max min E(x, y) min max E(x, y)
分别是定义在纯策略集S1和S2上的概率分布(即每个
分量上的数值是概率的含义,且分量数值之和为 1),则称它们分别是局中人Ⅰ、Ⅱ的混合策略, (x,y)称为混合局势。
这样,以前的纯策略可以看作是混合策略的特殊 情况。
实际上,当局中人Ⅰ选取纯策略αi时,可以看作
他选取了混合策略 ei (0,..., 0,1,0,..., 0)T
博弈的所有参与者称为局中人(player),当然至 少有两个 ;并且利益完全一致的多个参与者应视 为一个局中人。如打桥牌中的相对而坐的两个人 算作一个局中人。
每一局中人都有一套可供选择的方案或办法对付 对方,这样的一套备选方案称为策略或战略 (strategy);
局中人各自选定某一策略之后就会形成某种局势
现在的问题是,局中人要独立的选择自己的策略, 并且在不知对方到底要选取哪个策略的条件下, 要使得自己得到最大的得益(或赢得)。
20
先介绍一般概念和符号表示:
假设两个局中人为Ⅰ、Ⅱ,局中人Ⅰ有m 个纯策略α1,α2,…,αm.
局中人Ⅱ有n个纯策略β1,β2,…, βn
记为
S1 {1, 2 ,..., m}, S2 {1, 2 ,..., n }
如果厂商Ⅰ率先进入市场,并选择一种产 出水平,然后厂商Ⅱ再进入市场,并选择 相应的产出水平,这一市场竞争过程可用 “对策树”描述如下:
12
(3,2) (2,4) (6,3)
(4,6)
Biblioteka Baidu
上面的为终 点
B1
B2
厂商Ⅱ
B1
B2
厂商Ⅱ
A1
A2
厂商Ⅰ
底下的为顶点
进入市场有先后顺序时的决策树
13
在以上例子中,可以看到
支付矩阵为
α2,
1 4 2
α3
A


5
3
2

6 2 6
由于局中人都是理性人,每一局中人必然会考 虑到对方会设法使自己获益最少,同时自己又 力求在各种可能情况下谋求自己的最大利益。
22
因此,局中人Ⅰ应该在最不利的情况下寻找最大赢得,
即应在
min j
aij
(i
第6章 博弈论及其在决策中的 应用
内容概览 §6.1 博弈论的基本概念 §6.2 零和博弈(矩阵博弈) §6.3 二人非零和博弈 §6.4 博弈论在经济决策中的应用
1
博弈论(Game Theory) ,又称对策论,策略 运筹学等,是研究竞争策略运筹的科学, 或者说是研究具有竞争、冲突等问题的科 学,其应用始终与经济决策有密切的联系, 在市场竞争中大有用武之地。
上述两种博弈中,若各局中人之间不能协商或订 立有约束力的协议,称为非合作博弈。
否则,若局中人之间存在有约束力的协议,称为 合作博弈。
18
其中,重点介绍两人零和博弈,又 称矩阵博弈。意思是满足两条件
1. 局中人有两人:可以是公司、个人或团体, 也可以是大自然等虚拟的局中人
2. 零和:,在每一局势下,两人的支付之和 为0
甲 乙 石头
剪子 布
石头 (0,0)(1,-1)(-1,1)
剪子 (-1,1)(0,0)(1,-1)
8

(1,-1)(-1,1)(0,0)
在这个例子中,有玩者、策略及其策略集合、 以及损益函数(支付函数) 1.局中人或参与人(player):两个小孩
2. 策略(Strategy)和策略集:{石头,剪子,布}

1,2,3)中求最大
而局中人Ⅱ也应在最不利的情况下寻找最大赢得,即
应在
min i
(aij
)


max
i
aij
(
j

1,2,3)
中求最大
即,二人都遵循“小中取大”原则来选取策略,即在 最不利的各种可能之中寻找最有利的策略。
23
由于
max i
min j
aij
a23
2

max j
(
max
0 1 1
1 0
1

1 1 0
10
例2:囚徒困境问题
支付矩阵为
囚徒B
坦白
抵赖
囚徒A
坦 白

(8,8)
(0,10)
抵 赖
(10,
0)
(1,1)
此例中两人得益之和不等于0,称为二人非零和 博弈。
11
例3 :两厂商生产产量的博弈问题
某地区有Ⅰ、Ⅱ两个厂商生产同一类产品, 为了占领市场,各自制定了自己的产销计 划,假设两个局中人各有两种产出水平, 记为(A1,A2)和(B1,B2).
则称局势
(i*, j* )
为对策G的解, 此时,αi* 和βj* 分别为
二局中人的最优纯策略,
称 ai* j* 为对策G的值。
25
TH1:矩阵博弈G=(S1,S2,A)
在纯策略意义下有解 的充分必要条件是
max i
min j
aij
min j
max i
aij
即每行中的最小值当中的最大者
3.支付函数(Payment): 得到的分数。 一般双方会形成一个得益矩阵
9
而且,在此问题中
同一局势下,两个局 中人的得益之和等于 0,这样的博弈模型 称为二人零和博弈。
对于这类特殊的二人 零和博弈,其得益矩 阵可简化为只写出第 一个局中人(或参与 人)的得益即可,在 上例中,支付矩阵可 简化写为:
根据策略集中元素个数多少,可分为有限对策与无限对策 3.支付函数(Payment): 又称为赢得函数,是指每一局对策结
束之后,对其中一个局中人来说,其得到的成果(也许 是物质或现金之类的收入或支出),统称为得益。常常 以某一函数统一表示。
16
博弈模型的表示
一般形式:G={I,S,P} 其中,I表示居中人的集合; S为策略集合; P表示支付函数。
(situation),其中两个局中人各有所得,称为 支付或得益(payment)或支付函数(payoff function),它依赖于局势 。
若列出的是矩阵形式则称为支付矩阵 。
14
博弈模型的三个要素
局中人(参与人,player) 策略(战略, strategy) 支付函数(得益, 赢得, payment)
i
aij
)

min j
max i
aij

a23

2
可知,局中人Ⅰ应选择α2,局中人Ⅱ 应选择β3,这时局势(α2,β3)是
β1,β2,β3,
最稳定的,称该局势为该对策的均衡 α1,
解。
α2,
策略α2和β3分别称为局中人Ⅰ和Ⅱ α3 的最优纯策略;
1
A


5
4 3
2
2

数学教授约翰·纳什(J. Nash)、加州大学教 授约翰·哈萨尼(J. Harsanyi) 和德国波恩 大学教授瑞哈德·泽尔滕 (Reinhard·Selten) 三人,以表彰他们把 博弈论应用到现代经济分析所做的贡献, 使得博弈论在世界范围内影响更大。
5
1994年、2001年和 2005年诺贝尔经济 学奖都颁发给了在博弈论方面做出了突出 贡献的数学家和经济学家,更加显示了博 弈论在经济学研究和应用中的地位。
X,Y分别为两局中人的混合策略集。对于x∈X, y∈Y, E(x,y)是局中人Ⅰ的期望支付,则称G*={X,Y,E} 为G的混合扩充。
如果存在x*∈X, y*∈Y,使得 E(x, y*) E(x*, y*) E(x*, y)
对一切x∈X, y∈Y都成立,则称(x*,y*)为混合扩充 中的解,
但我们还是可以凭直觉设想得出答案,该 博弈中的每个局中人应该以1/3的等可能性 随机地选取各种策略,才是最优的。
于是,在没有纯策略意义下的最优解的情 况下,就产生了混合策略的概念。
27
定义:设
混合策略的概念
x (x1, x2 ,...,xm )T
y ( y1, y2 ,...,yn )T
相关文档
最新文档