数学建模第十讲博弈模型

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

矩阵对策的混合策略
定义3 设G={S1 ， S2；A}为矩阵对策，其中 S1={α1,α2, …,αm}，S2={ β 1, β 2, …, β n} ，A=（aij）m×n 。 m ∑ xi ＝ 1 } S1*={x∈Em | xi≥0 , i=1,2, …,m , i=1 n ∑ yj ＝1 } S2*={y∈En | yj≥0 , j=1,2, …,n , j=1 则S1*和 S2*分别称局中人Ⅰ和Ⅱ的混合策略集（或策略集）； x∈ S1*， y∈ S2*分别称为局中人Ⅰ和Ⅱ的混合策略；对x∈ S1*， y∈ S2*，称(x,y)为一个混合局势(或局势)。记
第十讲
对策模型
10.1 二人零和对策模型
10.2 进攻与撤退的选择 10.3 二人常数和对策模型 10.4 二人非常数和对策模型
对策行为
问题一: 甲、乙两名儿童玩“石头—剪子—布”的游戏。石头胜剪子，剪子胜布，布胜石头。那么，甲、乙儿童如何做，使自己获胜的可能最大？问题分析：问题中所涉及的要素（1）游戏决定者—甲、乙儿童两人；（2）游戏者的决定—石头、剪子、布；（3）游戏的收益（支付）--胜得分为 1，负得分为 -1，平得分为 0 。
4﹒矩阵对策的解定义1 设G={S1 ， S2；A}为矩阵对策，其中 S1={α1,α2, …,αm}，S2={ β 1, β 2, …, β n} ， A= （aij）m×n 若等式 max min aij=min max aij =ai*j*
i j j i
成立，记VG= ai*j* 。则称VG为对策G的值，称上述等式成立的纯局势（ α i* , β j* ）为G在纯策略下的解（或平衡局势）， α i*与β j*分别称为局中人Ⅰ﹑Ⅱ 的最优纯策略。
3﹒局中人如何选取对自己最有利的纯策略？
①局中人的“理智行为” 双方都不想冒险，都不存在侥幸心理，而是考虑到对方必然会设法使自己的所得最小，从各自可能出现的最不利的情形中选择一种最为有利的情形作为决策的依据。 ②选择原则
局中人Ⅰ按最大最小原则，局中人Ⅱ按最小最大原则。即局中人Ⅰ从所有最小的赢得中选择最大的赢得的策略，局中人Ⅱ从所有最大的损失中选择最小的损失的策略。
3﹒赢得函数（支付函数）
局势: 在一局对策中，各局中人所选定的策略形成的策略组称为一个局势。即若设si是第i个局中人的一个策略，则n个局中人的策略组s={s1， s2，…， sn} 就是一个局势。全体局势的集合S可用各局中人策略集的笛卡尔乘积表示，即S=S1× S2×… × Sn 赢得函数：当局势出现后，对策的结果也就确定了。也就是说，对任一局势s∈S，局中人i可以得到一个赢得Hi(s)。显然， Hi(s)是局势s的函数，称之为第i局中人的赢得函数。
2﹒双矩阵对策G在混合策略意义下的解设G*={S1*, S2*;E1,E2}是矩阵对策G={S1, S2;A,B} 的混合扩充，如果存在x*∈ S1* ,y*∈ S2*,使得对一切 x∈ S1* ,y∈ S2*，有 E1 (x,y*) ≤ E1 (x*,y*) E2 (x*,y) ≤ E2 (x*,y*)
例设有一矩阵G={S1 ， S2；A}，其中S1={α1,α2, α3, α4} 和S2={ β 1, β 2, β 3} 局中人Ⅰ的赢得矩阵为 ﹣6 1 ﹣8 3 2 4 求出局中人Ⅰ﹑Ⅱ的最优策略。 A= 9 ﹣2 ﹣10 ﹣3 0 6 解：根据选择的原则，分析局中人的选择的策略 ⑴局中人Ⅰ的策略：纯策略α1,α2, α2, α4可能带来的最小赢得分别﹣8，2，﹣10，﹣3 所以，最小赢得中最大的值为2。因此局中人Ⅰ的策略应为α2 ⑵局中人Ⅱ的策略：纯策略β 1, β 2, β 3可能带来的最大损失分别9，2，6 。所以，最大损失中最小的值为2。因此局中人Ⅱ的策略应为β 2 。总之，局中人Ⅰ﹑Ⅱ的最优察纯策略分别为α2 ，β 2。
德军盟军强化缺口原地待命东进向西进攻盟军胜1场盟军胜2场盟军败2场向东撤退无战斗无战斗盟军胜1场

对策模型
• 对策参与者集合N={1,2}(1为盟军，2为德军) • 盟军行动S1={α1,α2, α3}(强化缺口/原地待命/东进)；德军行动S2={ β 1, β 2,} (向西进攻/向东撤退)
1﹒双矩阵对策纯策略意义下的解
双矩阵对策记成G={S1 ， S2；A，B} ，A、B分别为局中人Ⅰ和Ⅱ的赢得矩阵。
若存在 ai*j* =min max aij =
j i
bi*j* =min max bij
i j
则称局势（ α i* , β j* ）为G在纯策略意义下的解（或称纳什均衡点）， α i*与β j*分别称为局中人 Ⅰ﹑Ⅱ的最优纯策略。
电视台 1
西部片连续剧喜剧片
电视台2 西部片连续剧 35 15 45 58 38 14
喜剧片 60 50 70
试确定两家电视台各自的策略
10.4二人非常数和对策模型
囚徒困境:甲乙两个嫌疑犯因同一罪行被逮捕,如果双方均坦白，则各获刑3年，如果双方均不坦白，则各获刑2年，如果其中一人坦白，另一人不坦白，则坦白一方宽大释放，另一方获刑5年，两个嫌疑犯各自应采取什么策略才能使自己的刑期最短。双矩阵对策记成G={S1 ， S2；A，B} 。两个局中人，的纯策略集分别为S1={α1,α2, …,αm}和S2={ β 1, β 2, …, β n}，A、B分别为局中人Ⅰ和Ⅱ的赢得矩阵。
根据定义1可知，上例中（ α 2 , β2 ）是在纯策略下的解。对策值VG=a22=2 ，i*=2，j*=2 。
定理1 矩阵对策G={S1 ， S2；A}在纯策略意义下有解的充要条件是：存在纯局势（ α i* , β j* ）使得对一切 i=1,2, …,m, j=1,2, …,n, 均有aij*≤ ai*j* ≤ ai*j 。定理的直观解释：如果ai*j*既是矩阵A=(aij)m×n中第i*行的最小值，又是第j*列的最大值，则ai*j*是对策的值，且(α i* , β j* )是在纯策略意义下的解。定理的对策意义：一个平衡局势(α i* , β j* )具有这样的性质，当局中人Ⅰ 选择了纯策略α i* 后，局中人Ⅱ为了其所失最小，只能选择β j* ，否则就可能失去更多；反之，当局中人Ⅱ 选择了纯策略β j* 后，局中人Ⅰ为了得到最大的赢得，只能选择α i* ，否则就会赢得更少。双方在局势(α i* , β j* )下达到一个平衡状态。
问题一求解
10.2 进攻与撤退的抉择
背景
• 1944年6月初，盟军在诺曼底登陆成功. • 到8月初的形势：
盟军(加一)
盟军(英二)
盟军(美一) 强化盟军缺口 (预备队)
Fra Baidu bibliotek
德军进攻
撤退
东进
原地待命
盟军 ( 美三 )
双方应该如何决策？
问题分析与模型假设
• 对策参与者为两方（盟军和德军） • 盟军有3种使用其预备队的行动：强化缺口，原地待命，东进；德军有2种行动：向西进攻或向东撤退. • 对策双方完全理性，目的都是使战斗中己方获得的净胜场次（胜利场次减去失败场次）尽可能多.
定理1的一个等价命题：
定义2 设f(x,y)为一个定义在x∈A ,y∈B上的实值函数，如果存在x* ∈A,y* ∈B,使得对一切x∈A ,y∈B，有f(x,y*) ≤f(x*,y*) ≤ f(x*,y) , 则称(x*,y*) 为函数f(x,y) 的一个鞍点。定理1的等价命题：矩阵对策G在纯策略意义下有解，且VG=ai*j*的充要条件是： ai*j*是矩阵A的一个鞍点(也称为对策的鞍点)。
3.混合对策求解方法下列线性规划问题的解就是局中人Ⅰ的最优混合策略x*
max v1
m ∑ aijxi ≥ v1 , j=1,2, …,n i=1 m ∑ xi ＝ 1 i=1 xi≥0 , i=1,2, …,m
问题一求解
3.混合对策求解方法下列线性规划问题的解就是局中人Ⅱ的最优混合策略y* min v2 n ∑ aijyj ≤ v2 , i=1,2, …,m j=1 n ∑ yj ＝1 j=1 yj≥0 , j=1,2, …,n
10.1
二人零和对策
1﹒二人有限零和对策：是指有两个参加对策的局中人，每个局中人都只有有限个策略可供选择，在任一局势下，两个局中人的赢得之和总等于零。 2﹒二人零和对策模型（矩阵对策模型）设Ⅰ﹑Ⅱ分别表示两个局中人，且它们的纯策略集分别为S1={α1,α2, …,αm}和S2={ β 1, β 2, …, β n}。记局中人Ⅰ对任一纯局势（ αi, β j ）的赢得值为aij,并称 a11 a12 …a1n 为局中人Ⅰ的赢得矩阵。 . . … . A＝ am1 am2 …amn 局中人Ⅱ的赢得矩阵为﹣A。通常，将矩阵对策记成G={Ⅰ，Ⅱ；S1 ， S2；A} 或G={S1 ， S2；A} 。
i 1
T 3 2
2
E1 ( x, y) xAy xi aij y j
i 1 j 1
E2 ( x, y) E1 ( x, y)
局中人Ⅰ求解局中人Ⅱ求解
10.3二人常数和对策模型
在晚8点至晚9点这时间段，两家电视台在竞争 100万电视观众收看自己的电视节目，并且电视台必须实时公布自己在下一时段的展播内容，电视台1可能选择的展播方式及可能得到的观众如下表
对策行为的三要素
1﹒局中人
在一个对策行为中，有权决定自己行动方案的对策参加者，称为局中人。通常用I表示局中人的集合。如果n个局中人，则I={1，2，…，n}。它可以是一个人，也可以是一个集团或一个自然现象。 2﹒策略集
一局对策中，可供局中人选择的一个实际可行的完整的行动方案，称为一个策略。设i为局中人，i 的所有策略构成的集合Si称为i的策略集。
问题二:囚徒困境甲乙两个嫌疑犯因同一罪行被逮捕,如果双方均坦白，则各获刑3年，如果双方均不坦白，则各获刑 2年，如果其中一人坦白，另一人不坦白，则坦白一方宽大释放，另一方获刑5年，两个嫌疑犯各自应采取什么策略才能使自己的刑期最短。问题分析：问题中所涉及的要素
（1）决定者—甲、乙嫌疑犯两人；（2）可用的决定—坦白、不坦白；（3）甲乙的收益（支付）--获刑年数。
2﹒矩阵对策G在混合策略意义下解的定义
定义4﹒设G*={S1*, S2*;E}是矩阵对策G={S1, S2;A}的混合扩充，如果 max min E(x,y) = min max E(x,y) x∈ S1* y∈ S2* y∈ S2* x∈ S1*
记其值为VG 。则称VG为G*的值，称满足上述等式的混合局势(x*,y*)为G在混合策略意义下的解(或简称解)， x*和y*分别称为局中人Ⅰ和Ⅱ的最优混合策略(或简称最优解)。定理2 矩阵对策G= {S1, S2;A} 在混合策略意义下有解的充要条件是：存在x*∈ S1* ,y*∈ S2*,使(x*,y*)为E(x,y) 的一个鞍点，即对一切x∈ S1* ,y∈ S2*，有 E(x,y*) ≤ E(x*,y*) ≤ E(x*,y)
A {aij }32
1 0 2 0 2 1
无鞍点
混合策略
盟军的混合策略集
S1={x=(x1, x2, x3) | 0 xi 1, xi 1 ｝
i 1 3
德军的混合策略集 S2={ y=(y1, y2) 赢得函数 | 0 yi 1, yi 1 ｝
局中人Ⅰ的赢得函数记成 m n E(x,y)=xAyT = ∑ ∑ aijxiyj i=1 j=1 这样得到的一个新的对策记成G*={S1*, S2*,E},称G* 为对策G的混合扩充。
1﹒纯策略与混合策略的关系
①纯策略是混合策略的特例。局中人Ⅰ的纯策略αk 等价与混合策略x=(x1﹐ x2﹐ …﹐ xm) ∈ S1*,其中当 i=k时，xi =1，当i≠k时，xi =0 。 ②混合策略x=(x1﹐ x2﹐ …﹐ xm)∈ S1*,可设想成当两个局中人多次重复进行对策G时，局中人Ⅰ分别采取纯策略α1,α2, …,αm的频率。