数学建模第十讲博弈模型word版本

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
全体局势的集合S可用各局中人策略集的笛卡尔 乘积表示,即S=S1× S2×… × Sn
赢得函数:当局势出现后,对策的结果也就确定 了。也就是说,对任一局势s∈S,局中人i可以得到 一个赢得Hi(s)。
显然, Hi(s)是局势s的函数,称之为第i局中人的 赢得函数。
10.1 二人零和对策
1﹒二人有限零和对策: 是指有两个参加对策的局中人, 每个局中人都只有有限个策略可供选择,在任一局势 下,两个局中人的赢得之和总等于零。
②选择原则
局中人Ⅰ按最大最小原则,局中人Ⅱ按最小最大 原则。即局中人Ⅰ从所有最小的赢得中选择最大的赢 得的策略,局中人Ⅱ从所有最大的损失中选择最小的 损失的策略。
例 设有一矩阵G={S1 , S2;A},其中S1={α1,α2, α3, α4} 和S2={ β 1, β 2, β 3} 局中人Ⅰ的赢得矩阵为
2﹒策略集 一局对策中,可供局中人选择的一个实际可行
的完整的行动方案,称为一个策略。设i为局中人,i 的所有策略构成的集合Si称为i的策略集。
3﹒赢得函数(支付函数)
局势: 在一局对策中,各局中人所选定的策略形 成的策略组称为一个局势。即若设si是第i个局中人的 一个策略,则n个局中人的策略组s={s1, s2,…, sn} 就是一个局势。
因此局中人Ⅱ的策略应为β 2 。 总之,局中人Ⅰ﹑Ⅱ的最优察纯策略分别为α2 ,β 2。
4﹒矩阵对策的解 定义1 设G={S1 , S2;A}为矩阵对策,其中
S1={α1,α2, …,αm},S2={ β 1, β 2, …, β n} , A= (aij)m×n
若等式
max
i
min
j
aij=minj
问题分析:问题中所涉及的要素
(1)决定者—甲、乙嫌疑犯两人; (2)可用的决定—坦白、不坦白;
(3)甲乙的收益(支付)--获刑年数 。
对策行为的三要素
1﹒局中人 在一个对策行为中,有权决定自己行动方案的对
策参加者,称为局中人。通常用I表示局中人的集合。 如果n个局中人,则I={1,2,…,n}。它可以是一个 人,也可以是一个集团或一个自然现象。
max
i
aij
=ai*j*
成立,记VG= ai*j* 。则称VG为对策G的值,称上 述等式成立的纯局势( α i* , β j* )为G在纯策略下的 解(或平衡局势), α i*与β j*分别称为局中人Ⅰ﹑Ⅱ 的最优纯策略。
根据定义1可知,上例中( α 2 , β2 )是在纯策 略下的解。对策值VG=a22=2 ,i*=2,j*=2 。
2﹒二人零和对策模型(矩阵对策模型)
设Ⅰ﹑Ⅱ分别表示两个局中人,且它们的纯策略
集分别为S1={α1,α2, …,αm}和S2={ β 1, β 2, …, β n}。记局
中人Ⅰ对任一纯局势(
a11 a12 …a1n A= . . … .
αi, β j )的赢得值为aij,并称 为局中人Ⅰ的赢得矩阵。
am1 am2 …amn 局中人Ⅱ的赢得矩阵为﹣A。
通常,将矩阵对策记成G={Ⅰ,Ⅱ;S1 , S2;A} 或G={S1 , S2;A} 。
3﹒局中人如何选取对自己最有利的纯策略?
①局中人的“理智行为”
双方都不想冒险,都不存在侥幸心理,而是考虑 到对方必然会设法使自己的所得最小,从各自可能出 现的最不利的情形中选择一种最为有利的情形作为决 策的依据。
定理1 矩阵对策G={S1 , S2;A}在纯策略意义下有解 的充要条件是:存在纯局势( α i* , β j* )使得对一切 i=1,2, …,m, j=1,2, …,n, 均有aij*≤ ai*j* ≤ ai*j 。
定理的直观解释:如果ai*j*既是矩阵A=(aij)m×n中 第i*行的最小值,又是第j*列的最大值,则ai*j*是对策 的值,且(α i* , β j* )是在纯策略意义下的解。
(1)游戏决定者—甲、乙儿童两人; (2)游戏者的决定—石头、剪子、布; (3)游戏的收益(支付)--胜得分为 1,负得分为 -1,平得分为 0 。
问题二:囚徒困境
甲乙两个嫌疑犯因同一罪行被逮捕,如果双方均 坦白,则各获刑3年,如果双方均不坦白,则各获刑 2年,如果其中一人坦白,另一人不坦白,则坦白一 方宽大释放,另一方获刑5年,两个嫌疑犯各自应采 取什么策略才能使自己的刑期最短。
矩阵对策的混合策略
定义3 设G={S1 , S2;A}为矩阵对策,其中 S1={α1,αwk.baidu.com, …,αm},S2={ β 1, β 2, …, β n} ,A=(aij)m×n 。
第十讲 对策模型
10.1 二人零和对策模型 10.2 进攻与撤退的选择 10.3 二人常数和对策模型 10.4 二人非常数和对策模型
对策行为
问题一:
甲、乙两名儿童玩“石头—剪子—布”的游戏。 石头胜剪子,剪子胜布,布胜石头。那么,甲、乙 儿童如何做,使自己获胜的可能最大?
问题分析:问题中所涉及的要素
﹣6 1 ﹣8
A=
32 4 9 ﹣2 ﹣10
求出局中人Ⅰ﹑Ⅱ的最优策略。
﹣3 0 6
解:根据选择的原则,分析局中人的选择的策略
⑴局中人Ⅰ的策略:纯策略α1,α2, α2, α4可能带来的最 小赢得分别﹣8,2,﹣10,﹣3 所以,最小赢 得中最大的值为2。因此局中人Ⅰ的策略应为α2
⑵局中人Ⅱ的策略:纯策略β 1, β 2, β 3可能带来的最大 损失分别9,2,6 。 所以,最大损失中最小的值为2。
定理1的一个等价命题:
定义2 设f(x,y)为一个定义在x∈A ,y∈B上的实值 函数,如果存在x* ∈A,y* ∈B,使得对一切x∈A ,y∈B, 有f(x,y*) ≤f(x*,y*) ≤ f(x*,y) , 则称(x*,y*) 为函数f(x,y) 的一个鞍点。
定理1的等价命题:矩阵对策G在纯策略意义下有 解,且VG=ai*j*的充要条件是: ai*j*是矩阵A的一个鞍 点(也称为对策的鞍点)。
定理的对策意义:一个平衡局势(α i* , β j* )具有 这样的性质,当局中人Ⅰ 选择了纯策略α i* 后,局中 人Ⅱ为了其所失 最小,只能选择β j* ,否则就可能失 去更多;反之,当局中人Ⅱ 选择了纯策略β j* 后,局 中人Ⅰ为了得到 最大的赢得,只能选择α i* ,否则就 会赢得更少 。双方在局势(α i* , β j* )下达到一个平衡 状态。
相关文档
最新文档