博弈论game theory
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.5.2 正和博弈:任意策略组合中,局中人的支付之和总为 非零常数,会产生合作的机会。
1.5.3 变和博弈:局中人的支付之和并非常数。支付之和有 大小排序的问题。
1.5.4 关于支付的信息可以是完全的,也可以是不完全的 具有完全信息的博弈——知道所有局中人的博弈支付。 具有不完全信息的博弈——至少有部分局中人不完全了
无限策略博弈,结果为无限,只能用数集或函数表示。
n
结果数量 ji i1
其中i 1,2, ,n;n是局中人的数量;ji是局中人i的策略数量。
§1.5按博弈中的得益(支付)对博弈分类
零和博弈、正和博弈、变和博弈
1.5.1 零和博弈:任意策略组合中,局中人的支付之和总为 零,局中人总是对立,在重复博弈中没有合作的机会。
先来后到博弈
B
进
不进
A
(0,10)
和平共处
(-2,3) (5,5)
1.6.2重复博弈 同一个博弈反复进行的博弈过程称为重复博弈。构成重
复博弈的一次性博弈称为“原博弈”或“阶段博弈”。本教 程所指的重复博弈是指原博弈为静态博弈的博弈过程。
有限次重复博弈:原博弈重复的次数是确定的。 无限次重复博弈:没有事先确定的重复次数。 大多数情况下,无法在事前、事中验证博弈的次数是否 有限。局中人关心的不是原博弈的结果,而是整个博弈的总 体结果。所以,重复博弈是一种特殊的动态博弈。
例子 三人决斗,开枪射杀对手,以保存自己。命中率和
每一轮的开枪次序如下。
命中率
次序
A
30%
ຫໍສະໝຸດ Baidu
1
B
70%
2
C
100%
3
A在第一轮的策略是什么?A最怕什么?首轮之后谁的存 活几率最高?
1.1.2 博弈的基本要素——非正式的定义
博弈的参加者——局中人(players) 独立决策、独立承担结果的个人或组织
策略(strategies)和行为集 一局博弈中,供局中人选用的若干方案
局中人有占优策略。如果某策略组合中的每一个策略都是局 中人各自的占优策略,此策略组合称为占优均衡。
囚徒困境中的(坦白,坦白)就是占优均衡,坦白是每 个囚徒的占优策略。但并不是每个博弈,每个局中人都有占 优策略。
A坦 B
白不 坦 白
坦
白 -8,-8
旧技术 1,10,1 2,2,2
§1.4按照策略对博弈分类
1.4.1 根据策略多少,博弈可分为: 有限策略博弈和无限策略博弈。 有限策略博弈是指所有局中人的策略均为有限时的博弈。
1.4.2 局中人的策略数可能不一样。 有时,在同一博弈中,某些局中人存在有限的策略,而
另一些局中人有无限策略。 1.4.3 有限策略博弈的结果为有限个,用策略式或扩展式表示。
博弈论
Game Theory
焦未然
目录
基本概念
完全信息静态博弈
完全且完美信息动态博弈
不完全信息静态博弈
重复博弈
进化博弈 合作博弈
完全但不完美信息动态博弈 不完全信息动态博弈
CH1基本概念
§1.1博弈和博弈论
1.1.1博弈的基本描述——博弈即游戏 游戏的基本特征:有规则、有结果、有策略、相互依赖性
1.6.3关于博弈进程的信息 具有完美信息的局中人:对历史有完美的知识。反之,
就是具有不完美信息的局中人。 若局中人全是完美信息局中人,则该动态博弈称为完美
信息动态博弈;否则就是不完美信息动态博弈。
CH2 完全信息静态博弈 §2.1 博弈的解法
2.1.1占优策略 局中人的最优策略不依赖于其他局中人的选择,则称该
(2)扩展型——博弈树 由棱和节点构成
B
A
root
outcome
§1.2一些典型博弈
1.2.1 Tucker的囚徒困境
B
A坦
白不 坦 白
坦
白 -8,-8
0,-10
不 坦 白 -10,0
-1,-1
1.2.2抛硬币
猜硬币者 正
盖硬币者
面反 面
正
面 -1,1
1,-1
反
面 1,-1
-1,1
1.2.3田忌赛马
1.2.4石头、剪刀、布
A
石头 剪刀
布
石头 0,0 1,-1 -1,1
B
剪刀 -1,1 0,0 1,- 1
布
1,-1 -1,1 0,0
§1.3按局中人的数量对博弈分类
1.3.1单人博弈 退化为一般的最优化问题 (1)单人迷宫
入口
A左B左
0
局
A左B右
M
A
B
中
A右B左
0
人
出口(奖金M)
A右B右
0
单人迷宫
田忌 上中下 上下中 中上下 中下上 下上中 下中上 上中下 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 上下中 1,-1 3,-3 1,-1 1,-1 1,-1 -1,1 齐 中上下 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 威 王 中下上 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 下上中 1,-1 1,-1 1,-1 -1,1 3,-3 1,-1 下中上 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3
(1)两党制与多党制 两党政见会趋于中间立场,这是一个均衡。 三个政党就不存在均衡。
选民的分布
选民的政治倾向
(2)三厂商竞争优势博弈
厂商3 使用新技术
厂商3 使用旧技术
厂商2 新技术 旧技术
厂商1 新技术 旧技术
厂 商 1
新技术 旧技术
2,2,2 5,0,5
新技术 5,5,0 10,1,1
厂
商2
0,5,5 1,1,10
解其他局中人的博弈支付。
§1.6按博弈的过程对博弈分类
1.6.1静态博弈和动态博弈
静态博弈 所有局中人 同时进行决策(选择策略)的 博弈。
动态博弈 局中人先后 依次进行选择,并且后选择的 局中人在选择之前可以看到此 前其他局中人选择的博弈。
注意:在动态博弈中,缺 失了对称性,策略区别于步骤。 打击
(2)运输商与自然的博弈
自然 好 天 气 坏 天 气
运输商
(75%) (25%)
水
路 -7000
-16000
陆
路 -10000
-10000
从单人博弈的角度看,局中人拥有的信息越多,其所获得 的支付越多。这一规律在多人博弈中是不成立的。
1.3.2多人博弈 依存关系更复杂,存在“破坏者”——“损人不利己者”
局中人的得益(payoffs)——支付 博弈结果的量化 局中人在博弈中得到的效用 策略组合的函数
博弈的次序(orders) 局中人决策是否同时
1.1.3博弈的表示方法 (1)正规型(策略型)——Payoff Matrix
A坦 B
白不 坦 白
坦
白 -8,-8
0,-10
不 坦 白 -10,0
-1,-1
1.5.3 变和博弈:局中人的支付之和并非常数。支付之和有 大小排序的问题。
1.5.4 关于支付的信息可以是完全的,也可以是不完全的 具有完全信息的博弈——知道所有局中人的博弈支付。 具有不完全信息的博弈——至少有部分局中人不完全了
无限策略博弈,结果为无限,只能用数集或函数表示。
n
结果数量 ji i1
其中i 1,2, ,n;n是局中人的数量;ji是局中人i的策略数量。
§1.5按博弈中的得益(支付)对博弈分类
零和博弈、正和博弈、变和博弈
1.5.1 零和博弈:任意策略组合中,局中人的支付之和总为 零,局中人总是对立,在重复博弈中没有合作的机会。
先来后到博弈
B
进
不进
A
(0,10)
和平共处
(-2,3) (5,5)
1.6.2重复博弈 同一个博弈反复进行的博弈过程称为重复博弈。构成重
复博弈的一次性博弈称为“原博弈”或“阶段博弈”。本教 程所指的重复博弈是指原博弈为静态博弈的博弈过程。
有限次重复博弈:原博弈重复的次数是确定的。 无限次重复博弈:没有事先确定的重复次数。 大多数情况下,无法在事前、事中验证博弈的次数是否 有限。局中人关心的不是原博弈的结果,而是整个博弈的总 体结果。所以,重复博弈是一种特殊的动态博弈。
例子 三人决斗,开枪射杀对手,以保存自己。命中率和
每一轮的开枪次序如下。
命中率
次序
A
30%
ຫໍສະໝຸດ Baidu
1
B
70%
2
C
100%
3
A在第一轮的策略是什么?A最怕什么?首轮之后谁的存 活几率最高?
1.1.2 博弈的基本要素——非正式的定义
博弈的参加者——局中人(players) 独立决策、独立承担结果的个人或组织
策略(strategies)和行为集 一局博弈中,供局中人选用的若干方案
局中人有占优策略。如果某策略组合中的每一个策略都是局 中人各自的占优策略,此策略组合称为占优均衡。
囚徒困境中的(坦白,坦白)就是占优均衡,坦白是每 个囚徒的占优策略。但并不是每个博弈,每个局中人都有占 优策略。
A坦 B
白不 坦 白
坦
白 -8,-8
旧技术 1,10,1 2,2,2
§1.4按照策略对博弈分类
1.4.1 根据策略多少,博弈可分为: 有限策略博弈和无限策略博弈。 有限策略博弈是指所有局中人的策略均为有限时的博弈。
1.4.2 局中人的策略数可能不一样。 有时,在同一博弈中,某些局中人存在有限的策略,而
另一些局中人有无限策略。 1.4.3 有限策略博弈的结果为有限个,用策略式或扩展式表示。
博弈论
Game Theory
焦未然
目录
基本概念
完全信息静态博弈
完全且完美信息动态博弈
不完全信息静态博弈
重复博弈
进化博弈 合作博弈
完全但不完美信息动态博弈 不完全信息动态博弈
CH1基本概念
§1.1博弈和博弈论
1.1.1博弈的基本描述——博弈即游戏 游戏的基本特征:有规则、有结果、有策略、相互依赖性
1.6.3关于博弈进程的信息 具有完美信息的局中人:对历史有完美的知识。反之,
就是具有不完美信息的局中人。 若局中人全是完美信息局中人,则该动态博弈称为完美
信息动态博弈;否则就是不完美信息动态博弈。
CH2 完全信息静态博弈 §2.1 博弈的解法
2.1.1占优策略 局中人的最优策略不依赖于其他局中人的选择,则称该
(2)扩展型——博弈树 由棱和节点构成
B
A
root
outcome
§1.2一些典型博弈
1.2.1 Tucker的囚徒困境
B
A坦
白不 坦 白
坦
白 -8,-8
0,-10
不 坦 白 -10,0
-1,-1
1.2.2抛硬币
猜硬币者 正
盖硬币者
面反 面
正
面 -1,1
1,-1
反
面 1,-1
-1,1
1.2.3田忌赛马
1.2.4石头、剪刀、布
A
石头 剪刀
布
石头 0,0 1,-1 -1,1
B
剪刀 -1,1 0,0 1,- 1
布
1,-1 -1,1 0,0
§1.3按局中人的数量对博弈分类
1.3.1单人博弈 退化为一般的最优化问题 (1)单人迷宫
入口
A左B左
0
局
A左B右
M
A
B
中
A右B左
0
人
出口(奖金M)
A右B右
0
单人迷宫
田忌 上中下 上下中 中上下 中下上 下上中 下中上 上中下 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 上下中 1,-1 3,-3 1,-1 1,-1 1,-1 -1,1 齐 中上下 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 威 王 中下上 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 下上中 1,-1 1,-1 1,-1 -1,1 3,-3 1,-1 下中上 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3
(1)两党制与多党制 两党政见会趋于中间立场,这是一个均衡。 三个政党就不存在均衡。
选民的分布
选民的政治倾向
(2)三厂商竞争优势博弈
厂商3 使用新技术
厂商3 使用旧技术
厂商2 新技术 旧技术
厂商1 新技术 旧技术
厂 商 1
新技术 旧技术
2,2,2 5,0,5
新技术 5,5,0 10,1,1
厂
商2
0,5,5 1,1,10
解其他局中人的博弈支付。
§1.6按博弈的过程对博弈分类
1.6.1静态博弈和动态博弈
静态博弈 所有局中人 同时进行决策(选择策略)的 博弈。
动态博弈 局中人先后 依次进行选择,并且后选择的 局中人在选择之前可以看到此 前其他局中人选择的博弈。
注意:在动态博弈中,缺 失了对称性,策略区别于步骤。 打击
(2)运输商与自然的博弈
自然 好 天 气 坏 天 气
运输商
(75%) (25%)
水
路 -7000
-16000
陆
路 -10000
-10000
从单人博弈的角度看,局中人拥有的信息越多,其所获得 的支付越多。这一规律在多人博弈中是不成立的。
1.3.2多人博弈 依存关系更复杂,存在“破坏者”——“损人不利己者”
局中人的得益(payoffs)——支付 博弈结果的量化 局中人在博弈中得到的效用 策略组合的函数
博弈的次序(orders) 局中人决策是否同时
1.1.3博弈的表示方法 (1)正规型(策略型)——Payoff Matrix
A坦 B
白不 坦 白
坦
白 -8,-8
0,-10
不 坦 白 -10,0
-1,-1