数学建模第十讲博弈模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
矩阵对策的混合策略
定义3 设G={S1 , S2;A}为矩阵对策,其中 S1={α1,α2, …,αm},S2={ β 1, β 2, …, β n} ,A=(aij)m×n 。 m ∑ xi = 1 } S1*={x∈Em | xi≥0 , i=1,2, …,m , i=1 n ∑ yj =1 } S2*={y∈En | yj≥0 , j=1,2, …,n , j=1 则S1*和 S2*分别称局中人Ⅰ和Ⅱ的混合策略集(或策 略集); x∈ S1*, y∈ S2*分别称为局中人Ⅰ和Ⅱ的 混合策略;对x∈ S1*, y∈ S2*,称(x,y)为一个混合 局势(或局势)。 记
第十讲
对策模型
10.1 二人零和对策模型
10.2 进攻与撤退的选择 10.3 二人常数和对策模型 10.4 二人非常数和对策模型
对策行为
问题一: 甲、乙两名儿童玩“石头—剪子—布”的游戏。 石头胜剪子,剪子胜布,布胜石头。那么,甲、乙 儿童如何做,使自己获胜的可能最大? 问题分析:问题中所涉及的要素 (1)游戏决定者—甲、乙儿童两人; (2)游戏者的决定—石头、剪子、布; (3)游戏的收益(支付)--胜得分为 1,负得分为 -1,平得分为 0 。
4﹒矩阵对策的解 定义1 设G={S1 , S2;A}为矩阵对策,其中 S1={α1,α2, …,αm},S2={ β 1, β 2, …, β n} , A= (aij)m×n 若等式 max min aij=min max aij =ai*j*
i j j i
成立,记VG= ai*j* 。则称VG为对策G的值,称上 述等式成立的纯局势( α i* , β j* )为G在纯策略下的 解(或平衡局势), α i*与β j*分别称为局中人Ⅰ﹑Ⅱ 的最优纯策略。
3﹒局中人如何选取对自己最有利的纯策略?
①局中人的“理智行为” 双方都不想冒险,都不存在侥幸心理,而是考虑 到对方必然会设法使自己的所得最小,从各自可能出 现的最不利的情形中选择一种最为有利的情形作为决 策的依据。 ②选择原则
局中人Ⅰ按最大最小原则,局中人Ⅱ按最小最大 原则。即局中人Ⅰ从所有最小的赢得中选择最大的赢 得的策略,局中人Ⅱ从所有最大的损失中选择最小的 损失的策略。
3﹒赢得函数(支付函数)
局势: 在一局对策中,各局中人所选定的策略形 成的策略组称为一个局势。即若设si是第i个局中人的 一个策略,则n个局中人的策略组s={s1, s2,…, sn} 就是一个局势。 全体局势的集合S可用各局中人策略集的笛卡尔 乘积表示,即S=S1× S2×… × Sn 赢得函数:当局势出现后,对策的结果也就确定 了。也就是说,对任一局势s∈S,局中人i可以得到 一个赢得Hi(s)。 显然, Hi(s)是局势s的函数,称之为第i局中人的 赢得函数。
2﹒双矩阵对策G在混合策略意义下的解 设G*={S1*, S2*;E1,E2}是矩阵对策G={S1, S2;A,B} 的混合扩充,如果存在x*∈ S1* ,y*∈ S2*,使得对一切 x∈ S1* ,y∈ S2*,有 E1 (x,y*) ≤ E1 (x*,y*) E2 (x*,y) ≤ E2 (x*,y*)
例 设有一矩阵G={S1 , S2;A},其中S1={α1,α2, α3, α4} 和S2={ β 1, β 2, β 3} 局中人Ⅰ的赢得矩阵为 ﹣6 1 ﹣8 3 2 4 求出局中人Ⅰ﹑Ⅱ的最优策略。 A= 9 ﹣2 ﹣10 ﹣3 0 6 解:根据选择的原则,分析局中人的选择的策略 ⑴局中人Ⅰ的策略:纯策略α1,α2, α2, α4可能带来的最 小赢得分别﹣8,2,﹣10,﹣3 所以,最小赢 得中最大的值为2。因此局中人Ⅰ的策略应为α2 ⑵局中人Ⅱ的策略:纯策略β 1, β 2, β 3可能带来的最大 损失分别9,2,6 。 所以,最大损失中最小的值为2。 因此局中人Ⅱ的策略应为β 2 。 总之,局中人Ⅰ﹑Ⅱ的最优察纯策略分别为α2 ,β 2。
德军 盟军 强化缺口 原地待命 东进 向西进攻 盟军胜1场 盟军胜2场 盟军败2场 向东撤退 无战斗 无战斗 盟军胜1场
对策模型
• 对策参与者集合N={1,2}(1为盟军,2为德军) • 盟军行动S1={α1,α2, α3}(强化缺口/原地待命/东进); 德军行动S2={ β 1, β 2,} (向西进攻/向东撤退)
1﹒双矩阵对策纯策略意义下的解
双矩阵对策记成G={S1 , S2;A,B} ,A、B分 别为局中人Ⅰ和Ⅱ的赢得矩阵。
若存在 ai*j* =min max aij =
j i
bi*j* =min max bij
i j
则称局势( α i* , β j* )为G在纯策略意义下的解 (或称纳什均衡点), α i*与β j*分别称为局中人 Ⅰ﹑Ⅱ的最优纯策略。
电 视 台 1
西部片 连续剧 喜剧片
电视台2 西部片 连续剧 35 15 45 58 38 14
喜剧片 60 50 70
试确定两家电视台各自的策略
10.4二人非常数和对策模型
囚徒困境:甲乙两个嫌疑犯因同一罪行被逮捕,如 果双方均坦白,则各获刑3年,如果双方均不坦白, 则各获刑2年,如果其中一人坦白,另一人不坦白, 则坦白一方宽大释放,另一方获刑5年,两个嫌疑犯 各自应采取什么策略才能使自己的刑期最短。 双矩阵对策记成G={S1 , S2;A,B} 。两个局中 人,的纯策略集分别为S1={α1,α2, …,αm}和S2={ β 1, β 2, …, β n},A、B分别为局中人Ⅰ和Ⅱ的赢得矩阵。
根据定义1可知,上例中( α 2 , β2 )是在纯策 略下的解。对策值VG=a22=2 ,i*=2,j*=2 。
定理1 矩阵对策G={S1 , S2;A}在纯策略意义下有解 的充要条件是:存在纯局势( α i* , β j* )使得对一切 i=1,2, …,m, j=1,2, …,n, 均有aij*≤ ai*j* ≤ ai*j 。 定理的直观解释:如果ai*j*既是矩阵A=(aij)m×n中 第i*行的最小值,又是第j*列的最大值,则ai*j*是对策 的值,且(α i* , β j* )是在纯策略意义下的解。 定理的对策意义:一个平衡局势(α i* , β j* )具有 这样的性质,当局中人Ⅰ 选择了纯策略α i* 后,局中 人Ⅱ为了其所失 最小,只能选择β j* ,否则就可能失 去更多;反之,当局中人Ⅱ 选择了纯策略β j* 后,局 中人Ⅰ为了得到 最大的赢得,只能选择α i* ,否则就 会赢得更少 。双方在局势(α i* , β j* )下达到一个平衡 状态。
问题一求解
10.2 进攻与撤退的抉择
背 景
• 1944年6月初,盟军在诺曼底登陆成功. • 到8月初的形势:
盟军(加一)
盟军(英二)
盟军(美一) 强 化 盟军 缺口 (预备队)
Fra Baidu bibliotek
德军 进攻
撤退
东进
原地 待命
盟 军 ( 美三 )
双方应该如何决策 ?
问题分析与模型假设
• 对策参与者为两方(盟军和德军) • 盟军有3种使用其预备队的行动:强化缺口,原地 待命,东进;德军有2种行动:向西进攻或向东撤退. • 对策双方完全理性,目的都是使战斗中己方获得 的净胜场次(胜利场次减去失败场次)尽可能多.
定理1的一个等价命题:
定义2 设f(x,y)为一个定义在x∈A ,y∈B上的实值 函数,如果存在x* ∈A,y* ∈B,使得对一切x∈A ,y∈B, 有f(x,y*) ≤f(x*,y*) ≤ f(x*,y) , 则称(x*,y*) 为函数f(x,y) 的一个鞍点。 定理1的等价命题:矩阵对策G在纯策略意义下有 解,且VG=ai*j*的充要条件是: ai*j*是矩阵A的一个鞍 点(也称为对策的鞍点)。
3.混合对策求解方法 下列线性规划问题的解就是局中人Ⅰ的最优混 合策略x*
max v1
m ∑ aijxi ≥ v1 , j=1,2, …,n i=1 m ∑ xi = 1 i=1 xi≥0 , i=1,2, …,m
问题一求解
3.混合对策求解方法 下列线性规划问题的解就是局中人Ⅱ的最优混 合策略y* min v2 n ∑ aijyj ≤ v2 , i=1,2, …,m j=1 n ∑ yj =1 j=1 yj≥0 , j=1,2, …,n
10.1
二人零和对策
1﹒二人有限零和对策: 是指有两个参加对策的局中人, 每个局中人都只有有限个策略可供选择,在任一局势 下,两个局中人的赢得之和总等于零。 2﹒二人零和对策模型(矩阵对策模型) 设Ⅰ﹑Ⅱ分别表示两个局中人,且它们的纯策略 集分别为S1={α1,α2, …,αm}和S2={ β 1, β 2, …, β n}。记局 中人Ⅰ对任一纯局势( αi, β j )的赢得值为aij,并称 a11 a12 …a1n 为局中人Ⅰ的赢得矩阵。 . . … . A= am1 am2 …amn 局中人Ⅱ的赢得矩阵为﹣A。 通常,将矩阵对策记成G={Ⅰ,Ⅱ;S1 , S2;A} 或G={S1 , S2;A} 。
i 1
T 3 2
2
E1 ( x, y) xAy xi aij y j
i 1 j 1
E2 ( x, y) E1 ( x, y)
局中人Ⅰ求解 局中人Ⅱ求解
10.3二人常数和对策模型
在晚8点至晚9点这时间段,两家电视台在竞争 100万电视观众收看自己的电视节目,并且电视台必须 实时公布自己在下一时段的展播内容,电视台1可能选 择的展播方式及可能得到的观众如下表
对策行为的三要素
1﹒局中人
在一个对策行为中,有权决定自己行动方案的对 策参加者,称为局中人。通常用I表示局中人的集合。 如果n个局中人,则I={1,2,…,n}。它可以是一个 人,也可以是一个集团或一个自然现象。 2﹒策略集
一局对策中,可供局中人选择的一个实际可行 的完整的行动方案,称为一个策略。设i为局中人,i 的所有策略构成的集合Si称为i的策略集。
问题二:囚徒困境 甲乙两个嫌疑犯因同一罪行被逮捕,如果双方均 坦白,则各获刑3年,如果双方均不坦白,则各获刑 2年,如果其中一人坦白,另一人不坦白,则坦白一 方宽大释放,另一方获刑5年,两个嫌疑犯各自应采 取什么策略才能使自己的刑期最短。 问题分析:问题中所涉及的要素
(1)决定者—甲、乙嫌疑犯两人; (2)可用的决定—坦白、不坦白; (3)甲乙的收益(支付)--获刑年数 。
2﹒矩阵对策G在混合策略意义下解的定义
定义4﹒设G*={S1*, S2*;E}是矩阵对策G={S1, S2;A}的 混合扩充,如果 max min E(x,y) = min max E(x,y) x∈ S1* y∈ S2* y∈ S2* x∈ S1*
记其值为VG 。则称VG为G*的值,称满足上述等式的 混合局势(x*,y*)为G在混合策略意义下的解(或简称解), x*和y*分别称为局中人Ⅰ和Ⅱ的最优混合策略(或简称 最优解)。 定理2 矩阵对策G= {S1, S2;A} 在混合策略意义下有解 的充要条件是:存在x*∈ S1* ,y*∈ S2*,使(x*,y*)为E(x,y) 的一个鞍点,即对一切x∈ S1* ,y∈ S2*,有 E(x,y*) ≤ E(x*,y*) ≤ E(x*,y)
A {aij }32
1 0 2 0 2 1
无鞍点
混合策略
盟军的混合策略集
S1={x=(x1, x2, x3) | 0 xi 1, xi 1 }
i 1 3
德军的混合策略集 S2={ y=(y1, y2) 赢得函数 | 0 yi 1, yi 1 }
局中人Ⅰ的赢得函数记成 m n E(x,y)=xAyT = ∑ ∑ aijxiyj i=1 j=1 这样得到的一个新的对策记成G*={S1*, S2*,E},称G* 为对策G的混合扩充。
1﹒纯策略与混合策略的关系
①纯策略是混合策略的特例。局中人Ⅰ的纯策略αk 等价与混合策略x=(x1﹐ x2﹐ …﹐ xm) ∈ S1*,其中当 i=k时,xi =1,当i≠k时,xi =0 。 ②混合策略x=(x1﹐ x2﹐ …﹐ xm)∈ S1*,可设想成当 两个局中人多次重复进行对策G时,局中人Ⅰ分别 采取纯策略α1,α2, …,αm的频率。