(数学建模教材)7第七章对策论
对策论讲义
对策论讲义对策论【教学内容】对策论的基本概念,纳什均衡,矩阵对策,二人的无限零和对策,有限的二人非零和对策,n人合作型对策与n人合作型对策。
【教学要求】要求学生理解对策论的基本概念,掌握矩阵对策的求解方法;理解纳什均衡的概念及相应的求解方法、理解二人的无限零和对策及有限的二人非零和对策问题,了解n人合作型对策与n人合作型对策。
【教学重点】对策论的基本概念、矩阵对策及求解、纳什均衡与求解、二人的无限零和对策,有限的二人非零和对策。
【教学难点】建立对策的模型求解。
【教材内容及教学过程】对策论来自于生活。
简单的问题如游戏,决策者的策略对最终结果有着举足轻重的影响,但决策者的策略选择也要考虑其它策略者的策略选择,现实生活中一个坏的策略选择未必带来坏的结果(原因是他方选择了对自己不利,对前者有利的策略),对策论的研究中排除了对方犯错误的可能性,每个决策者都在考虑到他方的各种策略后,选择对自己最有利的策略。
对策论解决的问题大的象经济生活中的经营决策、市场竞争,政治、军事活动中的竞选、谈判、联合和战争等,从这点来说对策论大有用武之地。
本章先介绍了对策论的基本概念,然后通过例子介绍了纳什均衡的概念及求解方法,重点介绍了二人零和对策(矩阵对策)与求解,接着介绍二人的无限零和对策、有限的二人非零和对策。
最后介绍n人合作型对策与n人合作型对策,目的是让学生通过本章学习,对其基本方法有所掌握与了解,为以后的实际应用打好基础。
i.§1.1 对策的三要素第一节引言从前述可看出对策论是研究具有斗争或竞争性质现象的数学理论和方法。
根据不同性质的问题,可建立不同的对策模型。
尽管对策模型的种类可以千差万别,但本质上都必须包含3个基本要素:1.局中人局中人即在一个对策行为中,有权决定自己行动方案的对策参加者。
通常用I表示局中- 1 -人的集合,如果有n个局中人,则I=?1,2,3,…n两个局中人。
?。
一般要求一个对策中至少要有对策中关于局中人的概念是广义的。
对策模型
0.12m 0.42=0.611 m=0
设三人中靶的概率分别为 0.6,0.5,0.4。 , , 。
P(无胜者 无胜者)=1-P(甲获胜 甲获胜)-P(乙获胜 获胜)-P(丙获胜 获胜) 无胜者 甲获胜 =1-0.097-0.136-0.611=0.156
•由上可知三人获胜的概率分别是 0.097,0.136,0.611(无胜 由上可知三人获胜的概率分别是 无胜 者的概率是0.156); 者的概率是 •可见这是一种不公平的竞赛。这是“鹬蚌相争、渔人得 可见这是一种不公平的竞赛。这是“鹬蚌相争、 可见这是一种不公平的竞赛 的竞争。在自然界里,有时弱者反而生存下来, 利”的竞争。在自然界里,有时弱者反而生存下来,就类 似这种情形. 似这种情形
A 的 策 略 低 价 低 价 高 价 高 价
A 的策略 低价 低价 高价 高价
B 的策略 低价 高价 低价 高价
A 的利润 A :5 万 A :9 万 A :3 万 A :7 万
B 的利润 B :3 万 B :2 万 B :6 万 B :5 万
•两个企业竞争的结果是怎样的呢? 两个企业竞争的结果是怎样的呢? 两个企业竞争的结果是怎样的呢 A的想法 的想法 •如果 实行低价,那么我应该实行低价才能获取较高利润 如果B实行低价 如果 实行低价, 如果B实行高价 (5万),如果 实行高价,那么我也应该实行低价才能 万),如果 实行高价, 获取较高利润( 万)。因此 因此, 获取较高利润(9万)。因此,他决定实行低价。 B的想法 的想法
•不难说明 每个射手的最优策略是首先进攻较强的对手 不难说明,每个射手的最优策略是首先进攻较强的对手 不难说明 每个射手的最优策略是首先进攻较强的对手. •假设游戏规则为:每轮打靶时大家同时射击 并且首先进攻 假设游戏规则为 每轮打靶时大家同时射击 假设游戏规则 每轮打靶时大家同时射击,并且首先进攻 较强的对手;即 甲应先向乙射击 甲应先向乙射击,乙 丙应先向甲射击. 较强的对手 即:甲应先向乙射击 乙、丙应先向甲射击
数学建模论文(对策论)定稿
LF2011080006对策论的浅谈河北省廊坊市管道局中学初二(1)班乔子涵指导老师:苏秀珍摘要:对策论是现代数学的一个重要分支,在军事、公安、经济和日常生活各个方面,都很有用处。
以解决一个侦查员跟踪间谍的事件做切入点,将“石头剪子布”游戏作为数学模型,引入表上游戏与混合策略,利用数学方法解决实际的对策论问题。
关键词:对策论;表上游戏;混合策略。
一、问题的提出侦查员小王接到命令,去跟踪一个重要的间谍“熊”。
现在,“熊”在一间密室里和另外两个间谍碰头。
小王只知道“熊”是3个人中最高的一个,但是无法看到他们3个人碰头的情况,因而也不知道3个人中哪个身材最高。
小王只能在门口等待他们出来。
他想:这三个间谍如果不一块出来,可能最先出来的是“熊”,也可能最后出来的是“熊”,也可能中间那一个是“熊”,我应该跟踪哪一个呢?3个间谍在密室里也考虑呢,为了防备外面有人盯梢,谁先出去好呢?这就是一个对策论的问题。
对策论是现代数学的一个重要分支,在军事、公安、经济和日常生活各个方面,都很有用处。
由于对策论经常用智力游戏——打扑克、下棋等做模型,所以又叫博弈论。
博就是赌博,弈就是下棋。
其实,赌博如果去掉输赢财物的规定,就是智力游戏。
一般的对策问题都是这样:双方各有一些可以采取的策略,一旦双方的策略都确定了,就会出现一定的结果,问题是双方怎样找到最好的策略?二、问题的分析与建模我们平时玩的“石头、剪子、布”手势游戏,就可以作为对策论的一个例子:在这个问题里,甲和乙各有3种可以采取的策略。
结果如何?我们列出一个输赢表来。
这是甲的得分表。
“0”表示平局,“-1”表示输,“1”表示赢。
我们把对策论问题列成这样的表,就成了“表上游戏”。
这种表是由若干行和若干列数字组成。
甲可以指定其中的某一横行,乙可以指定其中的某一直行。
规定他们同时说出他们指定的横行和直行。
在这两行的交叉点上的数,就是甲得到的分数。
例如在这个表格里:0 1 -1-1 0-1 1 01如果甲指定第一横行,乙指定第一直行,甲就得到0分,也就是说平局。
对策论
在日常生活中,经常可以看到一些具有相互斗 争或竞争性质的行为,
如下棋、打牌、体育比赛等 还有企业间的竞争、军队或国家间的战争、政治斗 争等,都具有对抗的性质。
这种具有竞争或对抗性质的行为称为对策行为。
在这类行为中,各方具有不同的目标和利益。为实 现自己的目标和利益,各方必须考虑对手可能采取 的行动方案,并力图选择对自己最为有利或最为合 理的行动方案。
在田忌赛马中
局中人集合I={1,2}
齐王和田忌的策略集合可分别用S1={α1,…,α6}, S2={β1,…,β6}
齐王的任一策略αi和田忌的任一策略βj就构成了一个 局势sij
如果α1 =(上,中,下), β1 =(上,中,下), 则在局势s11下,齐王的赢得为H1(s11)=3,田忌的赢 得为H2(s11)=-3
6 1 8 3 2 4 A 9 1 10 3 0 6
局中人Ⅰ当然也会猜到局中人Ⅱ的这种心理,转而出α4来对 付,使局中人Ⅱ得不到10,反而失掉6; …… 如果双方都不想冒险,都不存在侥幸心理,而是考虑到对方 必然会设法使自己所得最少这一点,就应该从各自可能出现 的最不利情形中选择一个最有利的情形作为决策一句。 这就是所谓的“理智行为”,也是对策双方实际上可以接收 并采取的一种稳妥的方法。
对策问题举例:市场购买力争夺问题
据预测,某乡镇下一年的饮食品购买力将有4000万元。乡镇企 业和中心城市企业饮食品的生产情况是:乡镇企业有特色饮食品 和一般饮食品两类,中心城市企业有高档饮食品和低档饮食品两 类产品。他们购买这一部分购买力的结局表如下。
乡镇企业所得(万元)
乡镇企业 的策略 出售特色饮食品
即局中人Ⅰ、Ⅱ的策略集分别为
对策论(Theory of Games)
队。
在对策中总是假定每一个局中人都是理智 的,聪明的决策者或竞争者,即对任一局 中人来讲,不存在利用其它局中人决策的 失误,来扩大自身利益的可能性。 通常用I表示局中人的集合,如果有n个局 中人,则I={1,2……n},一般要求一个对
齐得分 齐 上中 下
田
上中下 3
上下中 1 中上下 1
中下上 1
下中上 1
下上中 -1
上下 中上 中下
11 3 -1 13 11 -1 1 11
中下 上
-1 1 1 3 1 1
下中 上
1 1 -1 1 3 1
下上 中
1 1 1 -1 1 3
下面为齐王在各种局势下赢得千金的数值
3 1 1 1 1 -1 1 3 1 1 -1 1 A= 1 -1 3 1 1 1 -1 1 1 3 1 1 1 1 -1 1 3 1 1 1 1 -1 1 3
注意
• 当各局中人选定了自己的策略后,竞争 的结果就确定了,而且该结果是量化的。 对每一方而言可能是得也可能是失。我 们用支付来描述量化的得失。
• 支付又可称为赢得。这赢得应从广义上 去理解,可能为正也可能为负。
• 一个局中人得到的赢得或支付不一定就 是从对方来,即不一定是你赢我就输。 可能是双方都有利,即其赢得可能双方 都为正。如,进行贸易谈判的双方其结 局往往是对双方都有利。
这个问题是两人有限零和对策,即矩阵对 策。我们可以列出甲、乙两人在一局比 赛中的各种局势下的赢输分数。因为这 是零和对策,故只需知道甲、乙任何一 方在各种局势下的分数,就能够知道对 分的情况了。甲、乙两人在各种局势下 的得分情况如表所示
电子课件第七章
7.3.1 矩阵对策(两人有限零和对策)的表示
一般地:用Ⅰ、Ⅱ表示两个局中人,局中 人Ⅰ有m个策略,即α1,α2,…,αm;局中人Ⅱ有n 个策略,即β1,β2,…,βn。
当Ⅰ选取策略αi,Ⅱ选取策略βj,就形成 一个局势(αi,βj),这时局中人Ⅰ的收益为 aij,局中人Ⅱ的收益为aij(共有mn个局势)。 矩阵A (a ij)称为局中人Ⅰ的收益矩阵,即
7.1 引言
在实际生活中,许多游戏都反映了对策论 的思想。例如,在人们非常熟悉的“石头、剪 刀、布”的游戏中,我们的问题是:对方如何 行动,而我又将如何应对才能取得胜利?这实 际上就涉及到了对策论的核心问题,即对策论 以对方的行为作为自己决策的依据,并寻求最 佳。但对策论不仅仅是指游戏,它研究的是当 人们的行为存在相互作用时的策略行为及其后 果。社会生活中的许多现象,都带有相互竞争 与合作的特征,可以说,一切都在博弈或对策 之中。
7.3.2 矩阵对策 (两人有限零和对策)的纯策略
同样,局中人Ⅱ采取策略β1、β2、β3时,他 的损失分别为(对应列的最大元素)9、2、6。 因此,他的最优策略(按min max准则)是β2, 可保证损失不超过2。
结果,局中人Ⅰ按max min准则选取策略α2, 局中人Ⅱ按min max准则选取β2,双方都得到 了他们预想的收益,这是一种最稳妥的行为。 我们把称(α2, β2)称为对策G的最优局势。
10
3 0 6
试研究双方策略。
7.3.2 矩阵对策 (两人有限零和对策)的纯策略
解 由A可以看出,局中人Ⅰ的最大收益值是9, 要想达到这个目的,他就得选策略α3。然而局 中人Ⅱ也在考虑,因为局中人Ⅰ有出α3的心理 状态,要想使自己有较大的赢得,就想选β3作 为对策。这样不仅不能使局中人Ⅰ得到9,反 而会失去10(即得10)。同样,局中人Ⅰ也 会想Ⅱ有出β3的可能,于是Ⅰ想出α4来对付Ⅱ, 使他不但得不到10反而输掉6,等等。
对策论
对策的三要素: 对策的三要素:
局中人: 局中人:有权决定自己行为方案的对局参加者
称为局中人。案例中,敌我双方的决策者为局中 称为局中人。案例中, 当对局中局中人只有两人时,称为二人对策。 人。当对局中局中人只有两人时,称为二人对策。
策略: 策略:对局中一个实际可行的方案称为一个策
略。案例中,敌我双方各有二个策略。 案例中,敌我双方各有二个策略。
经测算,双方均可得到如下估计: 经测算,双方均可得到如下估计:
局势1 局势1:
盟军的侦察机重点搜索北线,日本舰 盟军的侦察机重点搜索北线, 队也恰好走北线。由于气候恶劣,能见度差, 队也恰好走北线。由于气候恶劣,能见度差,盟 军只能实施两天的轰炸。 军只能实施两天的轰炸。
局势2 盟军的侦察机重点搜索北线, 局势2:盟军的侦察机重点搜索北线,日本舰
定理7 定理7-1:矩阵对策 G = { S1,S2;A}
在纯策略意义下有解的充分必要条件是:存在 在纯策略意义下有解的充分必要条件是: 一个局势( ),使得对一切 一个局势( α*i*, β*j *),使得对一切 =1, j=1, i=1,2,… m, j=1,2…n 均有 aij*≤ai*j* ≤ ai*j
矩阵对策的最优纯策略
设定 最稳妥策略 对策的解 例子
设
两人有限零和对策
局中人: 局中人:两人 策略集: 策略集
定
S 1 = {α 1 , α 2 ,..., α m } S 2 = { β 1 , β 2 ,..., β n }
局势集: 局势集: S1 × S 2 = {(α i , β j ) i = 1,2,..., m; j = 1,2,..., n} 支付函数: 支付函数:H 1 (α i , β j ) = a ij 和 H 2 (α i , β j ) = − a ij
对策论
·实验5 对策论一、实验目的1、了解对策论建模的方法和模型的算法;2、了解带线性规划的基本原理和解法;3、掌握Matlab 优化工具箱求解线性规划的基本用法;二、实验要求掌握对策论建模的方法以及如何用MATLAB 去实现;能够掌握Matlab 优化工具箱中linprog 的基本用法,能够对控制参数进行设置,能够对不同算法进行选择和比较。
三、实验内容1.主要命令和注意事项线性规划模型:min z=cX..s t AX b £Aeq Xbeq ?VLB ≤X ≤VUB在Matlab 中可通过linprog 函数来实现,其调用形式为:[1] x=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB ) [2] x=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB, X 0)[3] [x,fval,exitflag,output,lambda]=linprog (c ,A ,b ,Aeq,beq, VLB ,VUB, X 0,options )返回最优解x及x处的目标函数值fval. 注意:[1] 若没有等式约束:Aeq X beq ?, 则令Aeq=[ ], beq=[ ].[2]其中X 0表示初始点例 max 1234560.40.280.320.720.640.6z x x x x x x =+++++123456..0.010.010.010.030.030.03850s t x x x x x x +++++ 140.020.05700x x + 250.020.05100x x + 360.030.08900x x +1,2,6j x j ?解 编写M 文件如下:c=[-0.4 -0.28 -0.32 -0.72 -0.64 -0.6];A=[0.01 0.01 0.01 0.03 0.03 0.03;0.02 0 0 0.05 0 0;0 0.02 0 0 0.05 0;0 0 0.03 0 0 0.08];b=[850;700;100;900];Aeq=[]; beq=[];vlb=[0;0;0;0;0;0]; vub=[];[x,fval]=linprog(c,A,b,Aeq,beq,vlb,vub)2.实验内容(1)求解线性规划123min 542z x x x =-++ 123.. 68s t x x x -+123 2410x x x ++ 1 -13x # 202x #30x ³.(2)求解线性规划12max 64z x x =+ 12.. 23100s t x x + 12 42120x x + 12,0x x ³.(3)P94 ex6安徽师范大学数计 学院实验报告专业名称数学与应用数学实验室2号实验楼#201 实验课程Matlab实验名称对策论姓名张顺强学号100701185同组人员无实验日期2013.4.10。
数学建模---对策论模型
纯局势(i*,j*)为对策在纯策略下的解(亦称均衡局势)。
i*和j*分别称为局中人Ⅰ和Ⅱ的最优纯策略。
3.方法步骤: 上例求解过程可简单的表述如下:
7 1 8
A 3
2
4
16 4 3
其步骤是:
3 0
5
第一步:分别确定A各行中的最小值,并在该数字上加圈表示;
第二步:分别确定A各列中的最大值,并在该数字上加框表示;
=8xy-6y-x+8
= 8( x
3 )( 4
y
1 8
)
7
1 4
这就是说,局中人 I 分别以概率 X * (3 , 1) 选用1,2 时,至
44
少赢得 7
1 4
,同理,局中人Ⅱ分别以概率Y *
(1 8
,
7) 8
选用策略1,2,
至多损失 7 1 。但当 X * (3 , 1) 或Y * (1 , 7) 时,则会受到更大的
3.赢得函数(支付函数)
(1)局势:对策中,每一局中人所选定策略形成的策略组
合称一个局势。设局中人1从自己的策略集S1={1,2 …,m}中 选定策略i,局中人2从自己的策略集S2={1, 2 …, n}选定策 略j,则(i, j)就构成两人对策中的一个局势。
在n个对策中,设si表示第i局中人的一个策略,则n个局中 人的策略组合形成的局势为S=(s1,s2,…sn)。
aij
8
2
max i
a
i
*
j
2
3
3
V1
max i
min j
aij
2 ,V2
min j
max i
aij
2 ,V1
V2
对策论
对策型决策当决策系统中的自然状态是由竞争对手的策略(行动方案)决定的时候,这种情况下的决策就构成了对策型决策。
与上不同的是此时的自然状态的出现是由人决定的,甚至是比你聪明的对手出的招数。
对策论是研究对策型决策的数学学科,即在不完全知道对方行动或意图的条件下构建和研究的数学决策模型。
对策论(Game Theory)又称为博弈论,是研究带有竞争与对抗问题的理论与方法。
在现实生活中,我们常常看到双方对抗、竞争的现象,例如从日常生活中的下棋、游戏到政治、军事上的斗争,以及经济领域各个企业的相互竞争,均属此类现象。
最著名的例子是田忌赛马和乒乓球团体赛队员出场名单及出场顺序。
在有对抗性和竞争性现象中,斗争的各方总是希望自己一方最终取得胜利或获的尽可能好的结局。
但是总会遭遇对方的干扰、破坏、抵抗或进攻。
在这种情况下人们想获得尽可能好的结局,必须考虑对手可能怎样采取策略,从而选取自己的一个好的对付策略。
对策型决策的三要素:1局中人:具有决策权的双方(或多方)称为局中人。
如棋局中的对弈双方,战争中敌我双方的司令员等。
2 策略:是指决策者为了战胜对手所可能选择的行动方案。
所有策略一起构成一个策略集。
每个局中人各有一个策略集。
3 局势和支付函数:在对策型决策问题中,每一个局中人从各自的策略集中任取一个策略,组成的策略组称为一个局势。
局势直接导致的结果是局中人是失败还是成功,对它的定量表述在一般经济问题中称为支付函数。
支付函数是以局势为自变量,以局中人的得失为因变量的函数。
我们下面主要讨论零和对策和矩阵决策。
所谓零和决策是指:若在任意局势中,全体局中人的得与失相加等于零,这种决策称为零和决策。
又当只有两个局中人且他们的策略集均是有限集时,支付函数可用矩阵表示,称此时的零和对策为矩阵决策。
矩阵对策及其数学模型:局中人Ⅰ的m个纯策略S1={α1,α2,…αm}。
局中人Ⅱ的n个纯策略S2={β1,β2,…βn}。
支付矩阵:A=(aij )m*n称为局中人Ⅰ的赢得矩阵(或局中人Ⅱ的损失矩阵),即aij 表示在局势(αi,βj)的情况下局中人Ⅰ赢得的值(等于局中人Ⅱ损失值)。
对策论建模
对策论建模引例:随机游动最优停止问题——暑期第五次作业一 模型适用范围对对策问题进行分析,可以采用对策论建模。
对策论亦称博弈论或竞赛论,是研究具有对抗或竞争性质现象的数学理论和方法。
如:随机游动比赛,田纪赛马型比赛,囚犯问题,市场竞争的决策问题……等二 游动问题的模型的建立 1.模型准备1.1 两人有限零和对策问题 1)局中人 2)策略集 3)赢得函数[3]1.2 鞍点引入鞍点的定义如下:设两人零和对策问题的赢得矩阵为()ij m n B b ⨯=(这里m=n=k ),若存在正整数0i 、0j , 00,i m j n ≤≤,使得{}{}00max min min max ij ij i j jjiib b b ==成立,则称局势(0i α,0i β)为对策问题的鞍点或平衡点,00ij b 为对策的最优值,i α、0j β分别称为局中人Ⅰ和Ⅱ的最优纯策略。
2.游戏平衡状态的分析 3.两人零和对策模型的建立 3.1 确定赢得矩阵 3.2 寻找游戏的平衡点 4.平衡点稳定性的判断模型求解结果分析 模型检验三 对策论模型 名词解释:1 局中人——一个对策中,有权决定自己行动方案的对策参加者称为局中人,用I 表示局中人的集合。
如果有n 个局中人,则{}1,2,I n = 。
2 策略——对策中,可供局中人选择的一个实际可行的完整的行动方案称为一个策略。
参加对策的每一局中人i 的策略集记为i S3 赢得函数——一个对策中,每一局中人所出策略形成的策略组称为一个局势。
即设i s 是第i 个局中人的一个策略,则n 个局中人的策略形成的策略组()12,n s s s s = ,s 就是一个局势。
若记S 为全部局势的集合,则12n S S S S =⨯⨯ ,当一个局势s 出现后,应该为每一局中人i 规定一个赢得值(或损失值)()i H s 。
则()i H s 是定义在S 上的函数,称为局中人i 的赢得函数。
·根据所研究的问题的不同性质,所建立的对策论的模型是不同的。
第7章对策论
7
二、求解 1·稳妥性原则 局中人在公开对策的前提下,都从最坏处着想,在最坏的环境中争取最好的结果。
例1-4 某企业决定由职工代表大会选举行政负责人,经提名产生候选人甲和乙。他们根据企业的 发展战略和群众关心的事业各自提出了企业改革的方案。甲提出了四种:1,2,3,4; 乙提出了三种:1,2,3。他们的参谋人员为使竞争对本方有利,予先作了个民意抽样 测验。因各方提供的不同策略对选票吸引力不同。测验选票经比较后差额如下表
解:建模,设局中人甲为:贮煤量决策者; 局中人乙为:未来冬季气候。
费用总和=秋季贮煤量费用+冬季补购煤量费用
aij 乙 甲 1(10 吨)
2(15 吨)
3(20 吨)
1 (较暖) -(10×340)=-3400
-(15×340)=-5100
-(20×340)=-6800
2 (正常)
-(10×3Hale Waihona Puke 0+5×420)=-5500
局势的得失总和为0。
七、对策的分类
2
联合对策
结 盟 对
策
合作对策
零和
静 态
二人
对 策
不
有 限
非零和 零和
结
盟
多人
对
非零和
策
对 策
二人
零和
无 限
非零和
多人
零和
动
态 对
微分对策
非零和
策
3
1.2 支付矩阵有鞍点的二人有限零和对策
一、特点
1·策略公开。 2·得失确定且总和为零:一方所得必为另一方所失,局中人利益冲突(对抗对策)。
例1-2.两小孩玩石头、剪刀、布的游戏:甲、乙两小孩出的手势都有可能是石头、剪刀、布,
运筹学与最优化方法课件--第七章--对策论模型--2012
海萨尼
值得一提的是纳什,他发表奠定 其在博弈论中重要地位的学术论文时,年 仅22岁,被人称为“一个天才”。1959年, 纳什被精神病医生诊断为“妄想性精神分 裂”,饱受精神病折磨40余年。
泽尔滕
二、基本概念
例1 市场上的某种商品仅由甲,乙两厂生产, 它们都 想通过内部改造,获得更多的市场份额,且两厂分别都有 三个可行方案.据预测,当双方采取不同的方案后甲厂的 市场占有份额(百分比)变动情况如下:
(五)静态博弈和动态博弈
1.静态博弈:是指所有博弈方同时或可看作同时选择策 略、采取行动的博弈。 2.动态博弈:是指博弈方的选择、行动有先有后,而且后 选择、后行动的博弈方在自己进行选择、行动之前可以看在 他之前选择、行动的博弈方的选择、行动的博弈。
(六)完全信息博弈和不完全信息博弈
1.完全信息博弈:是指每一参与者都拥有所有其他参 与者的特征、策略集及得益函数等方面的准确信息的博弈。 2.不完全信息博弈:是指参与者只了解上述信息中的 一部分的博弈。 将博弈的信息特征和行为时间特征结合起来,可以进一 步把博弈细分为下面四种类型的非合作博弈,得到四种均衡:
博 弈 论
美藉匈牙利数学家冯·诺依曼(John Von Neuman) 和美藉奥地利经济学家摩根斯顿(Morgenstern)相识于 普林斯顿大学,他们于1944年出版了经典著作《博弈论 与经济行为》,为现代博弈论的发展奠定了基础。
纳什
美国的数学家、经济学家纳什(John Nash), 美籍匈牙利经济学家海萨尼(John C. Harsanyi) 和德国经济学家泽尔滕(R.Selten)因对博弈论的卓 越贡献而获得1994年度的诺贝尔经济学家。
信息博弈 纳什均衡 完全信息动态博弈 子博弈精炼纳什均衡
运筹学课件——对策1
对策论的产生,发展和应用 对策论的产生 发展和应用
早期工作 (1)191献。策梅罗设法证明了,对于每一个严格争利 严格争利 的二人完备信息 完备信息对局,或者其中一个对策者有一个确定的胜局 完备信息 纯策略,或者二个都有可靠的平局纯策略。这个结果适用于象 棋一类的棋类对局,证明胜局策略或平局的存在是一回事,而 找出它们就是另一回事了。到目前为止,还没有人找出一局象 棋的胜局策略或平局策略,甚至不知道到底是某一方有一胜局 策略,还是双方都有平局策略.
(2)策略 一局对策中,可供局中人选择的一个实际可行 实际可行 的完整的行动方案称为一个策略。 的完整的行动方案 策略的全体称为策略集,策略集可以是有限或无限 的。若策略集为有限集称为有限对策,否则称为无 限对策。 参加对策的每个局中人(i∈I)都有自己的策略集, S i 一般,每一局中人的策略集中至少应包括两个策略。
•
(2) 对于对策论的产生作出了重要贡献的另一位数学
家是法国人波涅尔,1921--1927年间他发表了一系 列文章,建立了对策论的数学基础。但是,波涅 尔没有证明对策论的核心定理——极小极大定理, 他还轻率地预言这个定理是不能证明的。
(3)1928年冯·诺意曼证明了博弈论的基本原理,从 而宣告了博弈论的正式诞生.(德国数学家冯-诺意 曼简洁明确地证明了极小极大定理)。
发展成熟 Nash均衡、经济博奕论、信息不对称对策和广义 、 对策.
标准型,广义型和合作型等基本的博弈模型,解的概 标准型,广义型和合作型等基本的博弈模型, 念及分析方法,构建了博弈论的理论框架. 念及分析方法,构建了博弈论的理论框架.
(4) 谈到博弈论就不能忽略博弈论天才纳什,纳什的开创性论文《n人博 弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什 均衡的概念和均衡存在定理。 此外,塞尔顿、哈桑尼的研究也对博弈 论发展起到推动作用。为此,美国的数学家、经济学家纳什(John
数学建模的对策论方法
数学建模的对策论方法1 数学建模的概念数学,作为一门研究现实世界数量关系和空间形式的科学,在它产生和发展的历史长河中,一直是和人们生活的实际需要密切相关的。
作为用数学方法解决实际问题的第一步,数学建模自然有着与数学同样悠久的历史。
两千多年以前创立的欧几里德几何,17世纪发现的牛顿万有引力定律,都是科学发展史上数学建模的成功范例。
进入20世纪以来,随着数学以空前的广度和深度向一切领域渗透,以及电子计算机的出现与飞速发展,数学建模越来越受到人们的重视。
当需要从定量的角度分析和研究一个实际问题时,人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律等工作的基础上,用数学的符号和语言作表述,也就是建立数学模型,然后用通过计算得到的结果来解释实际问题,并接受实际的检验。
这个建立数学模型的全过程就称为数学建模。
2 对策论的基本概念对策论也叫博弈论(Game Theory),它研究互动情形下人们如何进行决策、以及这种决策如何达到均衡的问题,是运筹学的一个分支。
它是20世纪40年代形成并发展起来的。
系统地创建这门学科的数学家,现在一般公认为是美籍匈牙利数学家、计算机之父——冯·诺依曼。
博弈论已经成为经济学的标准分析工具之一。
20世纪50年代,纳什(Nash)建立了非合作博弈的“纳什均衡”理论,标志着博弈的新时代开始,是纳什在经济博弈论领域划时代的贡献,是继冯·诺依曼之后最伟大的博弈论大师之一。
最初用数学方法研究对策论是在国际象棋中开始的——如何确定取胜的着法。
由于是研究双方冲突、制胜对策的问题,所以这门学科在军事方面有着十分重要的应用。
近年来,数学家还对水雷和舰艇、歼击机和轰炸机之间的作战、追踪等问题进行了研究,提出了追逃双方都能自主决策的数学理论。
策略和利益相互依存。
对策论主要研究公式化了的激励结构间的相互作用。
是研究具有斗争或竞争性质现象的数学理论和方法。
它考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
对策论基本概念与策略要求
局中人1
出1指 出2指
局中人2 出1指
5 -5
出2指 -5 5
局中人1从局中人2该如何选择策略,已获得利益?
对策论的基本概念和策略要求
例2 囚徒困境。两个嫌疑犯作案后被警察抓住,分别被关在 不同的屋子里审讯。警察告诉他们:如果两人都坦白,各 判刑8年;如果两人都抵赖,由于证据不充分,两人将各 判刑2年;如果其中一人坦白,,另一人抵赖,则坦白者 立即释放,抵赖者判刑10年。在这个例子中两人嫌疑犯 都有两种策略:坦白或抵赖。可以用一个矩阵表示两个嫌 疑犯的策略的损益
对策论的基本概念 和策略要求
对策论的基本概念和策略要求
由“齐王赛马”引入
§1 对策论的例子 §2 矩阵对策论的基本概念 §3 矩阵对策的最优纯策略 §4 矩阵对策的混合策略
§5 其他类型的对策
对策论的基本概念和策略要求
对策论或博弈论(Game Theory) 是研究具有对抗和竞争性行 为问题的数学理论与方法。是运筹学的重要分支学科
A= 1 -1 3 1 1 1 -1 1 1 3 1 1 1 1 1 -1 3 1 1 1 -1 1 1 3
对策论的基本概念和策略要求
§2 矩阵对策的最优纯策略
例4 甲、乙两队进行球赛,双方各可排出三种不同的 阵容。设甲队为局中人Ⅰ,乙队为局中人Ⅱ,每一
种阵容为一个策略,有S1 ={α1 , α2 , α3},S2 = {β1 , β2 , β3}。根据 以往两队比赛的记录,甲队
对策论的基本概念和策略要求
但是否每个矩阵对策一定存在鞍点呢?回答是否定的。现在考 察下例。
例5 已知矩阵对策G,其中: 问:G是否存在鞍点?
1 3
A
4
2
解因
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章 对策论§1 引言社会及经济的发展带来了人与人之间或团体之间的竞争及矛盾,应用科学的方法来 解决这样的问题开始于 17 世纪的科学家,如 C.,Huygens 和 W.,Leibnitz 等。
现代对 策论起源于 1944 年 J.,V on Neumann 和 O.,Morgenstern 的著作《Theory of Games and Economic Behavior 》。
对策论亦称竞赛论或博弈论。
是研究具有斗争或竞争性质现象的数学理论和方法。
一般认为,它既是现代数学的一个新分支,也是运筹学中的一个重要学科。
对策论发展 的历史并不长,但由于它所研究的现象与人们的政治、经济、军事活动乃至一般的日常 生活等有着密切的联系,并且处理问题的方法又有明显特色。
所以日益引起广泛的注意。
在日常生活中,经常看到一些具有相互之间斗争或竞争性质的行为。
具有竞争或对 抗性质的行为称为对策行为。
在这类行为中。
参加斗争或竞争的各方各自具有不同的目 标和利益。
为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并 力图选取对自己最为有利或最为合理的方案。
对策论就是研究对策行为中斗争各方是否 存在着最合理的行动方案,以及如何找到这个合理的行动方案的数学理论和方法。
§2 对策问题对策问题的特征是参与者为利益相互冲突的各方,其结局不取决于其中任意一方的 努力而是各方所采取的策略的综合结果。
先考察一个实际例子。
例 1(囚徒的困境) 警察同时逮捕了两人并分开关押,逮捕的原因是他们持有大 量伪币,警方怀疑他们伪造钱币,但没有找到充分证据,希望他们能自己供认,这两个 人都知道:如果他们双方都不供认,将被以持有大量伪币罪被各判刑 18 个月;如果双 方都供认伪造了钱币,将各被判刑 3 年;如果一方供认另一方不供认,则供认方将被从 宽处理而免刑,但另一方面将被判刑 7 年。
将嫌疑犯 A 、 B 被判刑的几种可能情况列 于表 1。
表 1表 1 中每对数字表示嫌疑犯 A 、B 被判刑的年数。
如果两名疑犯均担心对方供认并希 望受到最轻的惩罚,最保险的办法自然是承认制造了伪币。
从这一简单实例中可以看出对策现象中包含有的几个基本要素。
2.1 对策的基本要素(i )局中人 在一个对策行为(或一局对策)中,有权决定自己行动方案的对策参加者,称为局 中人。
通常用 I 表示局中人的集合.如果有 n 个局中人,则 I = {1,2,L , n }。
一般要求 一个对策中至少要有两个局中人。
在例 1 中,局中人是 A 、B 两名疑犯。
(ii )策略集 一局对策中,可供局中人选择的一个实际可行的完整的行动方案称为一个策略。
参 加对策的每一局中人 i , i ∈ I ,都有自己的策略集 S i 。
一般,每一局中人的策略集中 至少应包括两个策略。
-154-嫌疑犯 B供认不供认 嫌疑犯 A供认不供认(3,3) (0,7) (7,0) (1.5,1.5)(iii )赢得函数(支付函数)在一局对策中,各局中人所选定的策略形成的策略组称为一个局势,即若 s i 是第 i 个局中人的一个策略,则 n 个局中人的策略组s = (s 1 , s 2 ,L , s n )就是一个局势。
全体局势的集合 S 可用各局中人策略集的笛卡尔积表示,即S = S 1 ⨯ S 2 ⨯L ⨯ S n当局势出现后,对策的结果也就确定了。
也就是说,对任一局势, s ∈ S ,局中人 i 可以得到一个赢得 H i (s ) 。
显然, H i (s ) 是局势 s 的函数,称之为第 i 个局中人的赢 得函数。
这样,就得到一个向量赢得函数 H (s ) = (H 1 (s ),L , H n (s )) 。
本节我们只讨论有两名局中人的对策问题,其结果可以推广到一般的对策模型中 去。
2.2 零和对策(矩阵对策) 零和对策是一类特殊的对策问题。
在这类对策中,只有两名局中人,每个局中人都只有有限个策略可供选择。
在任一纯局势下,两个局中人的赢得之和总是等于零,即双 方的利益是激烈对抗的。
设局中人Ⅰ、Ⅱ的策略集分别为 S 1 = {α1 ,L ,αm }, S 2 = {β1 ,L , βn } 当局中人Ⅰ选定策略αi 和局中人Ⅱ选定策略 β j 后,就形成了一个局势 (αi , β j ) ,可见 这样的局势共有 mn 个。
对任一局势 (αi , β j ) ,记局中人Ⅰ的赢得值为 a ij ,并称ϒ a 11 'a a 12 a 1n / LL L L∞ a a A = ' 2n ∞ 2122' L ≤a m 1L ∞ a mn ƒL a m 2 ' ∞ 为局中人Ⅰ的赢得矩阵(或为局中人Ⅱ的支付矩阵)。
由于假定对策为零和的,故局中 人Ⅱ的赢得矩阵就是 - A 。
当局中人Ⅰ、Ⅱ和策略集 S 1 、 S 2 及局中人Ⅰ的赢得矩阵 A 确定后,一个零和对策 就给定了,零和对策又可称为矩阵对策并可简记成G = {S 1 , S 2 ; A } 。
例 2设有一矩阵对策 G = {S 1 , S 2 ; A } ,其 中 S 1 = {α1 ,α2 ,α3} ,S 2 = {β1 , β2 , β3 , β4 } ,ϒ 12 - 6 2 0 30 18 - 10- 22/ ∞ A = ' 14 10 ''≤- 6 ∞ 16 ∞ƒ从 A 中可以看出,若局中人Ⅰ希望获得最大赢利 30,需采取策略α1 ,但此时若局中人Ⅱ采取策略 β4 ,局中人Ⅰ非但得不到 30,反而会失去 22。
为了稳妥,双方都应考 虑到对方有使自己损失最大的动机,在最坏的可能中争取最好的结果,局中人Ⅰ采取策 略α1、α2、α3 时,最坏的赢得结果分别为-155-min{12,-6,30,-22} = -22 min{14,2,18,10} = 2 min{-6,0,-10,16} = -10其中最好的可能为 max{-22,2,-10} = 2 。
如果局中人Ⅰ采取策略 α2 ,无论局中人Ⅱ采取什么策略,局中人Ⅰ的赢得均不会少于 2。
局中人Ⅱ采取各方案的最大损失为 max{12,14,-6} = 14 , max{-6,2,0} = 2 ,max{30,18,-10} = 30 ,和 max{-22,10,16} = 16 。
当局中人Ⅱ采取策略 β2 时,其损失不会超过 2。
注意到在赢得矩阵中,2 既是所在行中的最小元素又是所在列中的最大 元素。
此时,只要对方不改变策略,任一局中人都不可能通过变换策略来增大赢得或减 少损失,称这样的局势为对策的一个稳定点或稳定解。
定义 1 设 f ( x , y ) 为一个定义在 x ∈ A 及 y ∈ B 上的实值函数,如果存在 x *∈ A ,y *∈ B ,使得对一切 x ∈ A 和 y ∈ B ,有f ( x , y *) ≤ f ( x *, y *) ≤ f ( x *, y )则称 ( x *, y *) 为函数 f 的一个鞍点。
定义 2 设 G = {S 1 , S 2 ; A } 为矩阵 对策,其 中 S 1 = {α1 ,α2 ,L ,αm } , S 2 = {β1 , β2 ,L , βn }, A = (a ij )m ⨯n 。
若等式max min a ij = min max a ij = a i * j *(1)i j j i成立,记V G = a i * j * ,则称V G 为对策 G 的值,称使(1)式成立的纯局势 (αi * , β j * )为对策 G 的鞍点或稳定解,赢得矩阵中与 (αi * , β j * ) 相对应的元素 a i * j * 称为赢得矩阵的鞍 点,αi * 与 β j * 分别称为局中人Ⅰ与Ⅱ的最优纯策略。
给定一个对策 G ,如何判断它是否具有鞍点呢?为了回答这一问题,先引入下面定理 1 设 G = {S 1, S 2 ; A } ,记 μ = max min a ij , ν = - min max a ij ,则必有ijjiμ +ν ≤ 0 。
证明 ν = max min(-a ij ) ,易见 μ 为Ⅰ的最小赢得,ν 为Ⅱ的最小赢得,由于 G j i是零和对策,故 μ +ν ≤ 0 必成立。
定理 2 零和对策 G 具有稳定解的充要条件为 μ +ν = 0 。
证明:(充分性)由 μ 和ν 的定义可知,存在一行例如 p 行,μ 为 p 行中的最小元 素,且存在一列例如 q 列, -ν 为 q 列中的最大元素。
故有a pq ≥ μ 且 a pq ≤ -ν又因 μ +ν = 0 ,所以 μ = -ν ,从而得出 a pq = μ , a pq 为赢得矩阵的鞍点,(α p , βq ) 为 G 的稳定解。
(必要性)若 G 具有稳定解 (α p , βq ) ,则 a pq 为赢得矩阵的鞍点。
故有μ = max min ≥ min = a pqa ij a pj i jj -ν = min max ≤ max = a pq a ij a iq j i i-156-从而可得 μ +ν ≥ 0 ,但根据定理 1, μ +ν ≤ 0 必成立,故必有 μ +ν = 0 。
上述定理给出了对策问题有稳定解(简称为解)的充要条件。
当对策问题有解时, 其解可以不唯一,当解不唯一时,解之间的关系具有下面两条性质:性质 1 无差别性。
即若 (α , β ) 与 (α , β ) 是对策G 的两个解, 则必有 i 1 j 1 i 2 j 2 a i j 1 1 = a i j 。
2 2性质 2 可交换性。
即若 (α , β ) 和 (α , β ) 是对策 G 的两个解,则 (α , β ) 和i 1 j 1 i 2 j 2 i 1 j 2 (α , β ) 也是解。
i 2 j 1 §3 零和对策的混合策略具有稳定解的零和问题是一类特别简单的对策问题,它所对应的赢得矩阵存在鞍 点,任一局中人都不可能通过自己单方面的努力来改进结果。
然而,在实际遇到的零和 对策中更典型的是 μ +ν ≠ 0 的情况。
由于赢得矩阵中不存在鞍点,此时在只使用纯策 略的范围内,对策问题无解。
下面我们引进零和对策的混合策略。
设局中人Ⅰ用概率 x i 选用策略 αi ,局中人Ⅱ用概率 y j 选用策略 β j ,m∑ x i n= ∑ y j= 1 ,记 x = (x 1,L , x ) , y = ( y 1,L , y n)TT,则局中人Ⅰ的期望赢得为mi =1j =1E (x , y ) = x T Ay 。
记**S :策略α1 ,L ,αmS :策略β1 ,L , βn1 2 x 1 ,L , x my 1 ,L , y n概率 概率分别称 S *与S *为局中人Ⅰ和Ⅱ的混合策略。