常态型_策略型博弈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Example: Example:
• 注意,D 严格支配 U – 删除 U • 此后,L 严格支配 C – 删除 C • 此后,D 严格支配 M – 删除 M • 此后,L 严格支配 R – 删除 R
L U M D 1 0 3 0 5 1 4 3
C 3 -2 1 5 2 6 4
R -1 4 2
• 最后就剩下 (D, L),它是一个唯一的 NEQ ,
• • 博弈者1有一个纯策略集, {S1, S2, …, Sm} 博弈者1有一个纯策略集, {t1, t2, …, tn}
策略 Si 是博弈者 1 对博弈者 2 的策略 tj 的最佳回应 最佳回应,当且仅当 最佳回应 博弈者 1 所有的其它策略满足以下条件, U1(Si|tj) ≥ U1(Sk|tj) ,就所有的 k ≠ I 而言
策略
混合策略 (Mixed Strategy)
就纯策略所进行的博彩 lottery over the pure strategies (给每一个纯策略所赋予的几率 probabilities assigned to
each pure strategy)
Example: US-Soviet 军备竞赛 US美方可以用一个混合策略: {½ 裁军, ½ 扩军}
决策者
C C 3 3 0 5 1 0 1 1号决策者从DD之所得
2
D 5
2号决策者的策略
1 1号决策者的策略
D
2号决策者从CD之所得
策略(Strategies) 策略(Strategies)
策略
(Strategy)
§ 关于一个博弈格局的完整计划; 关于一个博弈格局的完整计划;
关于策略的选择要在博弈开始之前就决定了; 这一策略计划,即使交给别人,也必须能够执行. 例如: 例如:
美方可以用一个混合策略: 裁军
Soviets
裁军 扩军
3 3 0 5 1 0
5 1
{¼ 裁军, ¾ 扩军}
US
扩军
Game is written down in terms of pure strategies. However, strategies can be probabilistic
最佳回应 (best reply) 例子: 例子: 美-苏军备竞赛
Si 是对 tj 的严格最佳回应 (strictly best reply),当且仅当
U1(Si|tj) > U1(Sk|tj) 就所有的 k ≠ I 而言
Best Reply to a Best Reply to a…
Consider what happens if two players iterate best replies:
纳什均衡
正式定义
有两个博弈者1 和 2 ,各自的策略集为 {S1, S2, …, Sm} 和 {t1, t2, …, tn}, 相应地,一对策略 Si* 和 tj* 就形成了一个均衡, 这两个策略正好是对各自对对方的最佳回应:
当且仅当
U1(Si*|tj*) ≥ U1(Sk|tj*), 所有 k ≠ i 以及 U2(tj*|Si*) ≥ U2(tk|Si*), 所有k ≠ j 所有
既然选择一个严格被比支配策略总是带来一个更小的利益功效,博弈者 既然选择一个严格被比支配策略总是带来一个更小的利益功效 博弈者 严格被比支配策略总是带来一个更小的利益功效 就没有选择严格被支配策略的动机, 因此,我们可以把严格被支配策略从选 严格被支配策略的动机 就没有选择严格被支配策略的动机 因此 我们可以把严格被支配策略从选
纳什均衡
就一个简单的 2x2博弈而言, 只需要查看是否有人会从背离一个特定的 结果而获利: 2 C Prisoner’s Dilemma 1
• CC 是一个 NEQ?
D 3 5 0 0 1 1
C D
3 5
不是. 给定 1方 选择 C, 2方 就会选择 D; 对1同理.
• DD 是一个 NEQ?
是. 对博弈双方而言, 1 > 0.
苏方
裁军 裁军 扩军
3 3 0 5 1 0
5
美方
扩军
1
就苏方而言,对美方选择扩军的最佳回应 扩军, 因为 最佳回应是扩军, 最佳回应 U2(扩军 扩军 扩军|扩军 裁军|扩军 扩军 扩军)=1 > U2(裁军 扩军 裁军 扩军)=0
最佳回应
我们假设博弈者所做的选择是为了使自己的利益功效最大化.
假设
提出至少三个问题:
女方
纳什均衡
就一个简单的 2x2博弈而言, 只需要查看是否有人会从背离一个特定的结果而获 利:
2 L 协调博弈 Coordination game
• LR 是一个 NEQ?
R 1 0 0 0 1 1
1
L R
1 0
不是.给定 1 选 L, 2 就回选 L; 对1同理.
• LL 是一个NEQ?
是. 对双方而言, 1 > 0; 注意, RR也是ຫໍສະໝຸດ Baidu个NEQ.
被支配策略 (Dominated Strategies)
寻找被支配策略,是寻找纳什均衡(NEQ)的一种方法 形式化定义: 形式化定义 S1 严格支配 (strictly dominates) S2 iff strictly U1(S1|tj) > U1(S2|tj) for all j
如果 S1 严格支配 S2, 那么,无论对方(博弈者 2)选择什么策略 (tj),S1 总能比 S2给己方(博弈者 1) 带来更大的利益功效. t
协调博弈( 协调博弈(Coordination Games) Games) 博弈
General class of games:
• Heads/Tails: Two people flip coin. If match, both win. • Two people pick a number between 0 and 100. If same, both get $. • Meet someone in NYC.
非合作性博弈理论(Noncooperative Game Theory) Theory) 非合作性博弈理论(
前面所论记的, 前面所论记的,还是非策略性的决策
§ 只涉及到一个人/一个国家的决策; § 还没有必要把别人的决策考虑进来。
“博弈”是关于理性的策略互动的模型 博弈”
策略型(常态型) 策略型(常态型)博弈
2 1
展开型博弈
1 2
§ 同时选择 § 顺序选择但互不知道对方选什么
策略型(常态型) 策略型(常态型)博弈
决策者(Player) 策略(strategies) 功效(utilities for outcomes)
基本因素
例子: 囚犯悖论( 例子: 囚犯悖论(Prisoner’s Dilemma) Dilemma)
are best replies to each other).
Note
没有博弈者可以因为单独背离纳什均衡而得到任何利益好处(No player has an incentive to deviate unilaterally from the NEQ). 给定每个博弈者 都选择纳什均衡策略,纳什均衡策略使利益功效最大化 对博弈者而言,纳什均衡并不一定都是她最希望的到的结果或“最好的”结果.
例子: “两性之争 例子: “两性之争” (Battle of 两性之争”
the Sexes) Sexes) H = 滑冰 B = 巴赫音乐会
男方
H女方 B H B 1 3 0 0 1 0 3 0
• 不能通过 IESDS求解。 • 但 HH 与 BB 都是纯策略 NEQ
协调博弈 协调博弈 Coordination Game
存在两个国家 国家1 可以选择无威胁, T, 或不去威胁国家2; 如果不去威胁的话,结局是维持现状, SQ 国家2 可以选择抵抗, R, 或不抵抗; 如果不抵抗,结局就是默许, Acq2 国家1可以选择动武, F, 或不动武; 如果不动武,结局就是投降, Cap1, 动武则导致战争, War
R
R
Nation 2' s strategies : { R, R }
2 对扩军的最佳回应是扩军 5 1 对扩军的最佳回应是扩军
2 对扩军的最佳回应是扩军
3 3 0 5 1 0
US
扩军
1
1 对扩军的最佳回应是扩军 如此等等…
均衡 Equilibrium: (扩军, 扩军) 扩军, 扩军) Now assume that players, seeing the game, do this all in their heads and identify the equilibrium strategies of the game.
Nation 1' s strategies : { TF, T F, T F, T F }
TF 战争
T F 投降1
默许2 默许2 现状 现状
TF 现状 T F 现状
策略
纯策略(Pure 纯策略(Pure Strategy)
每个博弈者所具有的具体的确切的选择 (non-probabilistic)
均衡(Equilibrium): 一种谁都没有动机去另作它选的策略互动状态 均衡(Equilibrium) (no one has an incentive to deviate) deviate)
Best Reply to a Best Reply to a…
Example:
Soviets
裁军 裁军 扩军 2 开始选择 裁军 1 对裁军的最佳回应是扩军
纳什均衡(Nash Equilibrium) Equilibrium) 纳什均衡(
一对策略形成一个纳什均衡, 一对策略形成一个纳什均衡,当且仅当那对策略相互之间都是最 佳回应( 佳回应(A pair of strategies forms a Nash Equilibrium (NEQ) iff the strategies
例子: 例子: 美-苏军备竞赛
1的纯策略: {扩军, 裁军} 2的纯策略 {扩军, 裁军} 纯策略: 纯策略
裁军
苏联
裁军 扩军
3 3 0 5 1 0
5 1
美国
扩军
Game is written down in terms of pure strategies. However, strategies can be probabilistic
Soviets
裁军 裁军 扩军
3 3 0 5 1 0
5
US
扩军
1
给定上述利益动机, 如果苏方选择裁军,美国的最佳行动是什么? 美国的“最佳回应” 是扩军.
最佳回应
最佳回应, 策略 S 是对 t 的最佳回应, 如果这一策略可以带来的利益功 效要大于比任何别的策略所带来的利益功效. 效要大于比任何别的策略所带来的利益功效
项中删除掉。 项中删除掉。
被支配策略
2 C 1 C D 3 3 0 5 1 2 0 1 D 5
例1:
• 对博弈者1而言,D 严格支配 C ,因为
U1(D|C)=5 > 3 and U1(D|D)=1 > 0
• 对博弈者2而言也如此, • 由于对博弈双方而言,D 都是严格支配策略,因此,
DD 是一个 NEQ.
1 chooses a strategy 2 chooses best reply strategy 1 chooses its best reply to that strategy 2 chooses its best reply to that strategy
…
Eventually, this may stabilize: 1 will have strategy Si that is a best reply to 2’s tj and 2’s tj will be a best reply to Si
例 2:
• 博弈双方谁都没有一个严格被支配策略. • 但是,严格被支配策略不是NEQ的必要条件. • 仍然存在两个纯策略 NEQ.
L 1 L 1 R 0 1 0 0 1
R 0 1
重复支配(Iterated Dominance) Dominance) 重复支配(
如果我们能够不断地把严格被支配策略删除掉,直到每个博弈者在 如果我们能够不断地把严格被支配策略删除掉,直到每个博弈者在博弈格 不断地把严格被支配策略删除掉 局中只剩下一个策略,那删除剩下的那一对策略,就是一个NEQ。(Iteratively 局中只剩下一个策略,那删除剩下的那一对策略,就是一个 。( Eliminate Strictly Dominated Strategies,IESDS). , )