04混合策略与随机行动

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

于是,《三国演义》中的这一情节就应作 如下改写: 诸葛亮抛出一枚硬币,决定关羽是守华 容道呢还是另一条道……,而曹操也掷出一枚 硬币,决定是走华容道呢还是走另一条路。平 均看来,曹操有1/2的概率逃脱,而关羽也只 有1/2的概率抓住曹操。如果说关羽在华容道 上抓住了曹操,则纯属偶然、并非孔明比曹操 计高一筹所致!
混合策略
法则
在纯冲突博弈(零和博弈)中,如果让你的对手事先看清 楚你的真实选择对你不利,那么你可以通过随机选择自己 备选的纯策略而获益。你的混合比例应该是这样的:对手 采取任何特定的备选纯策略,都不可能利用你的选择, 即,当你以混合策略对付他的混合策略中任一纯策略时, 你得到的平均赢利都相等。
怎样随机行动?
商业与其他对抗中的混合策略
• 商界、政界和战争 • 非零和博弈
商业与其他对抗中的混合策略
• 例如:折扣券博弈问题
商业与其他对抗中的混合策略
• • • • • 例1:折扣券博弈问题 目的? 1、都不发行 2、都发行 3、一个发行,另一个不发行
如何占得先机?
商业与其他对抗中的混合策略
如何占得先机?
• 例2:飞机折扣票博弈 • 航空公司告诉你折扣,不告诉你剩余的空 位 • 你随机选择时点进行订票
• 例3:飞机折扣票博弈 • 航空公司告诉你折扣,不告诉你剩余的空 位 • 你随机选择时点进行订票
例4 监督博弈
守卫
睡Leabharlann Baidu
小 偷
不睡

不偷
V,-D -P,0 0,S 0,0
混合战略: 守卫以n概率选择睡觉,以1-m的概率选择不睡 小偷以m概率选择偷,以1-n概率选择不偷
激励悖论
S
守卫 得益((睡)
S m 0 1 -D - D’
小偷 偷的概率
加重对守卫的处罚:短期中的效果是使守卫真正尽职 在长期中并不能使守卫更尽职,但会降低盗窃发生的概率
激励悖论
小偷 得益(偷)
V n
0
-P
1
守卫 睡的概率
- P’
加重对小偷的处罚:短期内能抑制盗窃发生率 长期并不能降低盗窃发生率,但会使得守卫更多的偷懒
两人只能玩混合战略博弈,齐威王
分别以1/6随机的概率选择出上、中、下
马的任一排列,田忌也如此。由于齐威
王存在绝对优势,他平均看来仍然会赢
田忌一千斤铜。
例子2 如果曹操与诸葛亮一样聪明: 三国演义中的华容道博弈
在《三国演义》中,曹操在赤壁大 战中一败涂地,率残兵败将向许都方向 逃窜。诸葛亮命关羽率兵在途中阻截曹 军。当时,第一批拦截大军是赵云率领 的,第二批拦截大军是张飞带队的,第 三批才是关羽率部伏击。由于曹军兵多 将广,前二批伏击军不能逮住曹操,只 是抢劫一些军械马匹之类。
(1)以50:50(抛硬币)的比例随机地选择左边或右边。 如果守门员选择左边,你混合策略成功的概率: ½ *58%+ ½ * 93%= 75.5% 如果守门员选择右边,你混合策略成功的概率: ½ *95%+ ½ * 70%= 82.5%
混合策略
50:50是你最佳混合策略吗?
(2)以40:60(在你的口袋里放一本书,如果页眉最后一位 数是1到4选左,0到5则选右)的比例随机地选择左边 或右边。 如果守门员选择左边,你混合策略成功的概率: 0.4*58%+ 0.6* 93%= 79% 如果守门员选择右边,你混合策略成功的概率: 0.4*95%+ 0.6* 70%= 80%
(3)以x:1-x的比例随机地选择左边或右边。 如果守门员选择左边,你混合策略成功的概率: x*58%+ (1-x)* 93% 如果守门员选择右边,你混合策略成功的概率: x*95%+ (1-x) * 70% 两者相等,求得选x=0.383
混合策略
不管守门员选择他的左边还是右边,你的最佳混合比 例都会使你得到相等的成功率
混合策略—案例
• 混合战略NE • 随着人数n的增加,p减小,即人越多,每 个人选择报案的概率就会越小,如果n=1, 则p=1 • 社会心理学与博弈分析
混合策略—案例
小孩玩的游戏“石头,剪子,布”, 也是一种博弈。但是,这个博弈有一种 有趣的特征,即给定一方的任何选择, 另一方都有制胜对方的战略,所以,给 定一方任何一个战略,对方都有制胜这 个战略的战略,因而这个战略不是最优 的。任何“纯战略”都不是最优的,纯 战略是“石头,剪子,布”中的任何一 个。
但是,依《三国演义》作者罗贯中 的逻辑,孔明总是比曹操计高一筹,按 博弈论的术语来说,就是孔明的理性程 度要比曹操高上一阶。孔明也知道曹操 知道孔明的打算,于是令关羽正好在点 火的华容道上等着曹操。《三国演义》 中的这个故事很可能是作者编造的,因 为在《三国志》中并无这一情节。这里, 罗贯中假设了曹操在智力上比孔明差一 些,才有华容道上被关羽抓住,要不是 关羽旧情难忘,曹操就死无葬身之地了。
混合策略—案例
– 分析:
• 参与人:n个 • 每个参与人的战略集:{打电话,不打电话} • 效用:没有任何人打,所有人0支付; 打,v-c; 不打,但其他人至少有一个人打,v
混合策略—案例
– 纯战略NE
• 当只有两个参与人的时候(公共产品提供的斗 鸡博弈)——两个NE • n个人的时候: 假设有m个人提供,m>1 or m=1 n个NE
零和博弈
实 验 办法是将行动随机化。
混合策略
混合策略:
参与人在每一个给定信息的情况下以某种概率分布随机地 选择不同的行动。 例如:乒乓球员以60%的概率选择正手发球,40%的概
率选择反手发球。
什么是纯策略?
混合策略
如果你是踢球人,这两个纯策略中你更喜欢哪一种? (70%) 你能不能做得更好?
例5 为什么一般人总是小错不断,大错 不犯;偷税漏税的一般是中小企业,大 企业会老老实实地交税?
税务部门不会对所有企业的交税情 况每一次都去检查,因为这样做的成本 太高,得不偿失。所以,税务部门总是 随机地对企业的交税情况进行检查。
企业也是随机地在交税与偷漏税之 间进行选择。税收部门与企业间进行的 是混合战略博弈。因为如果企业总是交 税,税务部门就最好不检查;但给定不 检查,企业就会偷漏税。所以,两者只 有在随机地检查与不检查,企业随机地 在偷漏税与交税之间选择,才会达成均 衡。
(4)以0.383:0.617的比例随机地选择左边或右边。 如果守门员选择左边,你混合策略成功的概率: 0.383*58%+ 0.617* 93%=79.6% 如果守门员选择右边,你混合策略成功的概率: 0.383*95%+ 0.617 * 70% =79.6%
混合策略
那么守门员的策略怎样?
守门员的最佳策略是使踢球者选择左边和选择右边的成功 率相等的策略。 守门员应当分别以41.7%和58.3%的比例选择自己的左边 和右边,使踢球者成功的概率为79.6%. 混合策略纳什均衡?
避免他人占得先机,唯一的途径就是保持出 人意料的元素。 --这一元素源于随机化策略的应用 但是:独立随机选择有“出错”的危险。
进行合作!
商业与其他对抗中的混合策略
• 可口可乐和百事可乐 • 52个星期,分别发放26周优惠券 • 没有出现两家同时的情况
• 计算:如果两家独立以50%概率随机选择 任何一周发放优惠券,那么他们各自发放 26周而不会出现同时发放的概率是 • 1/10005(10亿的10亿次方)
待曹军冲过赵云、张飞两道关后, 进入关羽的伏击地带。但是,当时关羽 与曹操相遇的地方有两条道,一条是华 容道,除此外还有另一条道。诸葛亮令 关羽伏兵于华容道,并且要求关羽在华 容道上点燃树枝冒出烟雾引曹操到来。 当时关羽不解,问诸葛亮,“如果在伏 兵之处点火,岂不令曹兵看见而改走另 一条道逃脱?”诸荀亮叫关羽不要再问, 只如此照办即可。
实验抛硬币
抛硬币翻出正面之后再抛一次,这时出正面的可能性与抛 出反面的可能性相等。
无规律的随机行动(点名4/18=22%,不点名78%)。 例如:一个秘密的、足够复杂以致让人难以破解的规则。 举例:秘密
混合策略—案例
• 报案(reporting a crime)
– n个人目睹一桩罪行,每个人都希望报警, 但是都倾向于其他人打电话。特别的,假定 能从报警中得到v单位的收益,而打电话的 人需要付出c单位的成本,v>c>0。分析这 个问题的纯战略NE和混合战略NE。
例如:官僚作风--连续出“布” 雪崩---连续出石头
排除策略--省略一个
随机:秘密的,足够复杂以至难以让人破解的规则
例子1 田忌赛马新编
春秋战国时期,齐威王常与旗下大将田 忌赛马。规则是:每次赛三局,每一局齐威王 与田忌各出一匹马比赛奔跑速度。每一局中的 胜者赢败方一千斤铜。田忌有上、中、下三匹 马,而齐威王也有上、中、下三匹马。每次比 赛,第一局田忌出上马,齐威王也出上马;第 二局田忌出中马,齐威王也出中马;第三局, 田忌出下马,齐威王也出下马。齐威王的上马 比田忌的上马好,齐威王的中马也比田忌的中 马好,齐威王的下马还是比田忌的下马好。于 是,每次比赛的结果都是田忌连输三局。
这个故事曾经被很多人当作博弈论的例子 来演绎,但实际上这个故事与博弈论无关。博 弈论会假定所有局中人都是理性的,不能假定 一些局中人聪明而另一些局中人却是傻子。当 田忌出下马时,齐威王最好的选择是出下马而 不是上马。孙膑的计谋中假定齐威王是傻子, 当田忌出下、上、中马时,他仍然按上、中、 下马出,当然要输了。事实上,当田忌出下马 时,齐威王应出下马,但齐威王出下马时,田 忌不应出下马而是出中马,但此时齐威王又应 出中马而不是下马了,……。这样,博弈不会 有纯战略的均衡。
田忌的谋士孙膑了解了田忌的困境 后,就打听到这样一个消息:尽管齐威 王的上、中、下三匹马都要比田忌的对 应上、中、下三匹马好,但碰巧的是田 忌的上马可胜齐威王的中马,田忌的中 马可胜齐威王的下马。于是,孙膑为田 忌献计:下一次比赛中第一局时田忌出 下马对齐威王的上马输一局,第二局田 忌出上马对齐威王的中马,第三局田忌 出中马对齐威王的下马,这样可连赢两 局,最后净胜一千斤铜。田忌依计而行, 果真赢回一千斤铜。
但是,如果我们不假定曹操比孔明 要笨一些,而是相反假定曹操与孔明一 样聪明,则曹操又知道孔明知道曹操知 道孔明的打算,曹操就会知道关羽在华 容道上等着他呢?此时曹操就避开华容 道走另一条路。但是,这还没有完,因 为若孔明知道曹操知道孔明知道……。 显然,最终的结果是曹操与孔明玩混合 战略博弈,曹操随机地以1/2的概率选择 走华容道和另一条路,孔明也以1/2的概 率令关羽守华容道或另一条路。
当曹操冲破赵云、张飞的阻截后, 来到华容道前,看见华容道上静悄悄的, 但有烟火萦绕。曹操大笑道:“孔明以 为我会上他的当,故意叫人在华容道上 点火让我走另一条道,而他却伏兵于这 条道上好逮住我呢!我偏不上他的当!” 于是,曹操令大军径直上华容道上而去, 结果与关羽大军撞个正着。
曹操为何进了孔明的圈套呢?这里 的道理是这样的:孔明知道曹操是聪明 人,而聪明人见华容道上有烟火会认为 华容道上有伏兵,于是会避开华容道而 走另一条路。如果孔明令关羽在另一条 路等着,曹操就被逮住了。但是,曹操 不仅聪明,而且还聪明过人,他也知道 孔明的如此盘算来诱他上钩,他偏不上 当,知道点火的华容道上无人,孔明的 队伍在另一条道上呢!于是他选择走华 容道。
但是,我们知道,玩这个游戏是总 是以对方不易猜出的随机方式出招。事 实上,可以通过数学证明,当双方都以 每个战略按1/3的概率出招时,达成一种 双方都不愿改变这种概率分布的局面。 这被称为“混合战略纳什均衡”,而这 种以随机方式选择纯战略的博弈被称为 “混合战略博弈”。
实验显示:
“陷入无意识但仍可预测的模式”
混合策略与随机行动
赛场
混合策略提出
点球射门 攻方的策略是:攻左边,或攻右边 守方的策略是:守左边,或守右边(以守方的方向为准)

左边 右边
左边 攻
右边
58,42
95,5
93,7
70,30
得益:进球得分的百分比。根据1995-2000年间 意大利、西班牙和英国最高联盟的数据
严格竞争博弈
就一次游戏而言,猜测对方的策略,保密自己的策略。 在多次反复游戏中,避免任何的倾向性和规律性。
混合策略
你的连续更优的混合策略比例就是如何使自己在守门 员选择左边时和选择右边的成功概率差距缩小。
58%--70%--12%
75.5%-- 82.5%--7.3% 79% --80%--1% x--y--0
混合策略
不管守门员选择他的左边还是右边,你的最佳混合比 例都会使你得到相等的成功率
相关文档
最新文档