第六讲 混合策略和监督博弈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2,-2 0,0
出石头和出布的学生,哪个多?
仁慈的教授
张三 平时勤快 平时偷懒
教授
放过
不放过
3 ,2
-1,1
-1,3
0, 0
第二节 扩展分析
一、智猪博弈中的混合策略
在前述的智猪博弈中,当A<1时,任一方去按的净收 益都大于0,在确知对方去按的条件下,一方将选择 等待。在确知对方等待的条件下,一方的选择是去按。 因此两种明显存在的均衡结局为(9,1-A)和(6A,4),其整体的净收益都为10-A。然而,究竟哪种 组合会在实际中出现呢?
哈哈,刚偷学了,和老婆猜了五次都赢了
浪费纳税人的钱、简直比日本人都可恶
真他妈一群脑残,这东西能破解的了吗
大学就干这些?
科学家真他妈辛苦啊,这个难度的问题几天就
观察出来了!!
科学家不应研究3岁小孩都能知道的“石头剪子
布”哪招能赢这样高端的问题,应该去研究他
们自己脑子里为什么会进水这样简单的问题。 真是拿着纳税人的钱开玩笑,吃饱了撑的!
雇主检查的概率H/(W+F),雇员偷懒的概率C/(W+F)
3个问题:
T检查 (C F ) (V W C )(1 ) T不检查 (W ) (V W )(1 )
ຫໍສະໝຸດ Baidu
2、求解雇主支付W为多少时,其期望收益最大?
雇主的期望收益=-Wβ +(V-W)(1-β) =V-W-Vβ = V-W-V(1-C/(W+F))
Sn ;u1, …,un }中,假定参与人i 有K个纯
战略:SI={ si1,…,siK},那么,概率分布 σi=(σi1, …,σiK)称为i的一个混合策略, 这里σiK=σ(sik)是i选择sik的概率,对于所 有的k=1, …,K , 0≤σiK≤1,∑σiK=1.
随机药物检测
运动员 服药 未服药
特别提示: 能够降低协调成本的制度(技术), 是一种更好的制度(技术)。
第十四章 监督博弈
第一节 雇主与雇员的监督博弈
V是雇员的贡献,即雇员为雇主创造的价值。 W是雇员的工资,除了员工偷懒被雇主查到的情况,雇主是要给雇员发工资的。 H是雇员的付出,当雇员不偷懒时,雇员的收益将损失H,即努力工作的成本。 C是检查的成本,当雇主选择检查的时候,雇主的收益将减少C。 F是雇主发现雇员偷懒时的惩罚即没收雇员所交的抵押金。
当雇主支付的工资额为 CV F 望收益最大。
时,雇主的期 +F
此时,雇主的期望收益是:T=V-2 雇员的期望收益:T不偷懒 W H 双方总的期望收益是:
CV
T总=V-H-CV/(W+F)
当W=
CV F
CV
时,双方总的期望收益是:
T总=V-H-
若干推论
雇主的期望收益会随着F的增加而上升。
所的研究人员通过实验发现了石头剪刀布的一个 制胜策略。研究人员招募了360名学生,将他们 分成六组,随机配对玩300轮石头剪刀布游戏, 在每一轮中获胜的学生将会获得少量人民币奖励 。通过观察学生使用的策略,他们发现了获胜者 或失利者习惯使用的游戏策略。
简单说,如果你的剪刀输给了对手的石头,那么下一 轮你更有可能出能战胜石头的布;而如果你是获胜者 ,那么下一轮你更有可能沿用相同的出手。赢家保持 现状输家做出改变的策略(胜留败走)。 石头剪刀布的制胜策略:如果你是输家,下一轮换用 能打败对手的出手;如果你是赢家,下一轮不要再使 用原来的出手。也就是说,你用石头打败了对手的剪 刀,那么下一轮你不能再出石头,而应该出剪刀,因 为对方很有可能会出布。
特别提示: 选一些难学的专业,成功的路并 没有你想象的那么拥挤!
谢
T H A N K
谢
Y O U
IOC
抽检
未抽检
1,-1
-1,1
-1,1
1,-1
点球射门
攻方的策略是:攻左边,或攻右边 守方的策略是:守左边,或守右边 (以守方的方向为准)
守 左边 右边 左边 -1,1 1,-1 右边 1,-1 -1,1
攻
石头、剪子、布
浙江大学发研究报告:石头剪刀布百战百胜策略
浙江大学、浙江工商大学和中科院理论物理研究
3个问题:
1、求解混合策略纳什均衡。
2、求解雇主支付W为多少时,其期望收益最大? 3、如何理解雇员所交的抵押金?
一、混合策略纳什均衡
微分法(P152-153)
1、根据所设的策略集(各个策略选择的概率)
求出雇主与雇员的期望收益。
2、将雇主的期望收益对α求导,结果为0,解 出β。再将雇员的期望收益对β求导,结果 为0,解出α。
二、懦夫(斗鸡)博弈中的混合策略
懦夫(斗鸡)博弈
鹰鸽博弈 参与人 A
参与人B 老鹰 鸽子 A-C , A-C 0 , 2A 2A, 0 A, A
老鹰 鸽子
当A<C时,老鹰策略的概率α*=A/C。
各自的期望收益是=A(1- A/C )
双方总期望收益是=2A(1- A/C )
特别提示: 利益冲突需要协调,协调成本过 高,不如不协调。
第六讲 混合策略与监督博弈
第十三章 混合策略 第十四章 监督博弈
第十三章 混合策略
第一节 概念及说明
纯策略和混合策略
纯策略:如果一个策略要求参与者在每一个给定
信息情况下只选择一种特定的行动。 混合策略:如果一个策略要求参与者在给定信息
情况下以某种概率分布随机地选择不同的行动。
混合策略
在n个参与人博弈的战略式表述G={S1 ,…,
雇员的期望收益会随着F的增加而减少。 总的期望收益和支付的工资W和抵押金F的大小
无关,只和雇员的贡献V、雇员的劳动力机会
成本H和监督成本有关。
T总=V-HCV
二、抵押金
V代表雇员创造的
价值,t代表雇员
为公司服务的时间,
W代表薪水。
课堂讨论:
A企业起薪高,涨薪慢;B企业起 薪低,涨薪快。你会选哪一个?
运用均衡的理念(P154)
当达到纳什均衡的时候,任何一方都不愿意改 变自己的策略。
即对于雇主来说:
T检查 (C F ) (V W C )(1 ) T不检查 (W ) (V W )(1 )
当T检查=T不检查的时候达到均衡。 同理,对于雇员来说:T偷懒 ( F ) (W )(1 )
T不偷懒 (W H ) (W H )(1 ) T偷懒 T不偷懒
混合策略均衡解:当雇员以H/(W+F) 的概率偷懒,雇主以C/(W+F)的概率 检查,达到均衡状态。
若干推论
H越大,雇主越容易检查。
C越大,雇员越容易偷懒。
W越大,雇员越少偷懒,雇主越少检查。 F越大,雇员越少偷懒,雇主越少检查。
课堂测试
假设我和你一起玩“石头、剪子、布”的游戏,
如果我告诉你说,我准备出“石头”,请问: 你会出什么?(赌注为10元) 请问:事先的告知会影响你的选择吗?
特别提示:
小得失相信人,大得失怀疑人!
石头剪子布(高级版)
石头
剪子
布
石头
剪子 布
0 ,0
-1,1 5,-5
1,-1
0,0 -2,2
-5,5
出石头和出布的学生,哪个多?
仁慈的教授
张三 平时勤快 平时偷懒
教授
放过
不放过
3 ,2
-1,1
-1,3
0, 0
第二节 扩展分析
一、智猪博弈中的混合策略
在前述的智猪博弈中,当A<1时,任一方去按的净收 益都大于0,在确知对方去按的条件下,一方将选择 等待。在确知对方等待的条件下,一方的选择是去按。 因此两种明显存在的均衡结局为(9,1-A)和(6A,4),其整体的净收益都为10-A。然而,究竟哪种 组合会在实际中出现呢?
哈哈,刚偷学了,和老婆猜了五次都赢了
浪费纳税人的钱、简直比日本人都可恶
真他妈一群脑残,这东西能破解的了吗
大学就干这些?
科学家真他妈辛苦啊,这个难度的问题几天就
观察出来了!!
科学家不应研究3岁小孩都能知道的“石头剪子
布”哪招能赢这样高端的问题,应该去研究他
们自己脑子里为什么会进水这样简单的问题。 真是拿着纳税人的钱开玩笑,吃饱了撑的!
雇主检查的概率H/(W+F),雇员偷懒的概率C/(W+F)
3个问题:
T检查 (C F ) (V W C )(1 ) T不检查 (W ) (V W )(1 )
ຫໍສະໝຸດ Baidu
2、求解雇主支付W为多少时,其期望收益最大?
雇主的期望收益=-Wβ +(V-W)(1-β) =V-W-Vβ = V-W-V(1-C/(W+F))
Sn ;u1, …,un }中,假定参与人i 有K个纯
战略:SI={ si1,…,siK},那么,概率分布 σi=(σi1, …,σiK)称为i的一个混合策略, 这里σiK=σ(sik)是i选择sik的概率,对于所 有的k=1, …,K , 0≤σiK≤1,∑σiK=1.
随机药物检测
运动员 服药 未服药
特别提示: 能够降低协调成本的制度(技术), 是一种更好的制度(技术)。
第十四章 监督博弈
第一节 雇主与雇员的监督博弈
V是雇员的贡献,即雇员为雇主创造的价值。 W是雇员的工资,除了员工偷懒被雇主查到的情况,雇主是要给雇员发工资的。 H是雇员的付出,当雇员不偷懒时,雇员的收益将损失H,即努力工作的成本。 C是检查的成本,当雇主选择检查的时候,雇主的收益将减少C。 F是雇主发现雇员偷懒时的惩罚即没收雇员所交的抵押金。
当雇主支付的工资额为 CV F 望收益最大。
时,雇主的期 +F
此时,雇主的期望收益是:T=V-2 雇员的期望收益:T不偷懒 W H 双方总的期望收益是:
CV
T总=V-H-CV/(W+F)
当W=
CV F
CV
时,双方总的期望收益是:
T总=V-H-
若干推论
雇主的期望收益会随着F的增加而上升。
所的研究人员通过实验发现了石头剪刀布的一个 制胜策略。研究人员招募了360名学生,将他们 分成六组,随机配对玩300轮石头剪刀布游戏, 在每一轮中获胜的学生将会获得少量人民币奖励 。通过观察学生使用的策略,他们发现了获胜者 或失利者习惯使用的游戏策略。
简单说,如果你的剪刀输给了对手的石头,那么下一 轮你更有可能出能战胜石头的布;而如果你是获胜者 ,那么下一轮你更有可能沿用相同的出手。赢家保持 现状输家做出改变的策略(胜留败走)。 石头剪刀布的制胜策略:如果你是输家,下一轮换用 能打败对手的出手;如果你是赢家,下一轮不要再使 用原来的出手。也就是说,你用石头打败了对手的剪 刀,那么下一轮你不能再出石头,而应该出剪刀,因 为对方很有可能会出布。
特别提示: 选一些难学的专业,成功的路并 没有你想象的那么拥挤!
谢
T H A N K
谢
Y O U
IOC
抽检
未抽检
1,-1
-1,1
-1,1
1,-1
点球射门
攻方的策略是:攻左边,或攻右边 守方的策略是:守左边,或守右边 (以守方的方向为准)
守 左边 右边 左边 -1,1 1,-1 右边 1,-1 -1,1
攻
石头、剪子、布
浙江大学发研究报告:石头剪刀布百战百胜策略
浙江大学、浙江工商大学和中科院理论物理研究
3个问题:
1、求解混合策略纳什均衡。
2、求解雇主支付W为多少时,其期望收益最大? 3、如何理解雇员所交的抵押金?
一、混合策略纳什均衡
微分法(P152-153)
1、根据所设的策略集(各个策略选择的概率)
求出雇主与雇员的期望收益。
2、将雇主的期望收益对α求导,结果为0,解 出β。再将雇员的期望收益对β求导,结果 为0,解出α。
二、懦夫(斗鸡)博弈中的混合策略
懦夫(斗鸡)博弈
鹰鸽博弈 参与人 A
参与人B 老鹰 鸽子 A-C , A-C 0 , 2A 2A, 0 A, A
老鹰 鸽子
当A<C时,老鹰策略的概率α*=A/C。
各自的期望收益是=A(1- A/C )
双方总期望收益是=2A(1- A/C )
特别提示: 利益冲突需要协调,协调成本过 高,不如不协调。
第六讲 混合策略与监督博弈
第十三章 混合策略 第十四章 监督博弈
第十三章 混合策略
第一节 概念及说明
纯策略和混合策略
纯策略:如果一个策略要求参与者在每一个给定
信息情况下只选择一种特定的行动。 混合策略:如果一个策略要求参与者在给定信息
情况下以某种概率分布随机地选择不同的行动。
混合策略
在n个参与人博弈的战略式表述G={S1 ,…,
雇员的期望收益会随着F的增加而减少。 总的期望收益和支付的工资W和抵押金F的大小
无关,只和雇员的贡献V、雇员的劳动力机会
成本H和监督成本有关。
T总=V-HCV
二、抵押金
V代表雇员创造的
价值,t代表雇员
为公司服务的时间,
W代表薪水。
课堂讨论:
A企业起薪高,涨薪慢;B企业起 薪低,涨薪快。你会选哪一个?
运用均衡的理念(P154)
当达到纳什均衡的时候,任何一方都不愿意改 变自己的策略。
即对于雇主来说:
T检查 (C F ) (V W C )(1 ) T不检查 (W ) (V W )(1 )
当T检查=T不检查的时候达到均衡。 同理,对于雇员来说:T偷懒 ( F ) (W )(1 )
T不偷懒 (W H ) (W H )(1 ) T偷懒 T不偷懒
混合策略均衡解:当雇员以H/(W+F) 的概率偷懒,雇主以C/(W+F)的概率 检查,达到均衡状态。
若干推论
H越大,雇主越容易检查。
C越大,雇员越容易偷懒。
W越大,雇员越少偷懒,雇主越少检查。 F越大,雇员越少偷懒,雇主越少检查。
课堂测试
假设我和你一起玩“石头、剪子、布”的游戏,
如果我告诉你说,我准备出“石头”,请问: 你会出什么?(赌注为10元) 请问:事先的告知会影响你的选择吗?
特别提示:
小得失相信人,大得失怀疑人!
石头剪子布(高级版)
石头
剪子
布
石头
剪子 布
0 ,0
-1,1 5,-5
1,-1
0,0 -2,2
-5,5