运筹优化问题及其启示

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

－1，－1 0，－8 －8 ，0 －5，－5
5 /41
囚徒困境举例

赫鲁晓夫你在哪里？美国杜克大学。请问破的是哪只轮胎？
6 /41
智猪博弈（举例）
笼子里有两头猪，一头大猪，一头小猪。笼子很长，一头有一个按钮，另一头是饲料的出口和食槽。按一下按钮，将有相当于10份的猪食进槽，但按钮后跑到食槽要消耗2份猪食并花费时间，而坐享其成的另一头猪早已吃掉不少。
按照他的提案进行分配，否则将被扔进大海喂鲨鱼

3. 如果1号死了，再由2号提出分配方案，然后大家4人进行表决，当且仅当超过半数人同
意时，按照他的提案进行分配，否则将被扔入大海喂鲨鱼

4. 依此类推，直到找到一个每个人都接受的方案
20 /41

假设每个海盗都是很聪明的人，都能很理智的判断得失第一个海盗提出怎样的分配方案才能使自己得到最多的宝石呢？
小猪按钮
不按钮
9
0
9
0
1
0
-1
0
不按
“按”是小猪的严格下策纳什均衡：“小猪躺着大猪跑”
大猪不按
按
4，4 0，0
8 /41

改变规则
改变方案一：投食量减半，两者都不去按钮，结果
该游戏规则设计失败
改变方案二：投食量增倍，两者都会去按钮,该游
戏规则成本过高，竞争不激烈
改变方案三：改量加移位，食量减半，
1 /41

启示
信息的不完全会造成博弈结果的差异。为了避免信息不对称造成的困境，我们应该在行动之前尽可能掌握有关信息。二手自行车市场等

2 /41
囚徒困境
甲、乙一起携枪准备作案，被警察发现抓了起来，分别审讯，如果

两人都不坦白，各判1年 1人坦白则免予起诉，另1人重判8年 2人都坦白，则各判5年假设甲、乙都是理性的，且具有完全信息甲、乙坦白还是不坦白？
14 /41

奖赏与惩罚启示在赏罚的作用上，二者侧重点不同。赏是用人的激励机制，而罚则是纠正机制。要想引导别人自觉体现价值，为事业奋斗尽力，用赏是最好的办法；但是在资源有限而且存在利益冲突的博弈中，要想使自己的一个威胁对多人有效，用赏是不现实的。

在这种情况下用可信威胁，使可能犯规的人害怕受到直接或间接的惩罚和制裁，从而采取合作。

23 /41

先发优势和后发劣势
1号看起来最有可能被喂鲨鱼，但他牢牢地把握住
先发优势，结果不但消除了死亡威胁，还收益最大。这不正是全球化过程中先进国家的先发优势吗？
而5号看起来最安全，甚至还能坐收渔人之利，却
因不得不看别人脸色行事而只能分得一小杯羹。这难道不是后发劣势的写照？
24 /41

1974年，旅居海外的著名作家梁实秋回到台北安度晚年。
19 /41
逆推归纳法－强盗分宝石

5个海盗抢了100颗宝石，每颗大小一样并且价值连城。他们决定采取以下策略分宝石,3,4,5）， 2. 首先，由1号提出分配方案，然后大家 5人进行表决，当且仅当超过半数的人同意时，

16 /41

唐鞅策略的启示：你只要观察对手就可以了：当对手无论怎样都处于同样的威胁之下，进而对他自己的具体策略无所适从的时候，你的策略就是最佳的随机策略。也只有这样的策略才能阻止一群对手发现你的有规律的策略行动，从而免受威胁。
17 /41
序号策略：破解合谋

唐鞅策略的一个缺点是:无法对付大臣们的合谋。如果大臣们知道宋康王不可能把他们都杀掉，他们很可能合伙冒犯他。在这种情况下，由于宋康王只能杀一个，其他人因为冒犯宋康王而获得的名誉收益就会激励他们这样做。
10 /41
枪手博弈

在美国一个西部的小镇上，有三个快枪手相互之间仇恨到了不可调和的地步。这一天三个人在街上不期而遇，每个人的手都握住枪把，气氛紧张到了极点。因为每个人都知道，一场生死决斗马上就要开始了。三个枪手对于彼此之间的实力对比都了如指掌：枪手甲枪法精准，十发八中；枪手乙枪法不错，十枪六中；枪手丙枪法拙劣，十枪四中。加入三人同时开枪，谁活下来的机会大一些？

11 /41

现在换一种玩法，三个人轮流开枪，谁的机会更大？情形一：开枪的顺序为：甲、乙、丙；情形二：开枪的顺序为：乙、甲、丙；情形三：开枪的顺序为：丙、乙、甲。
12 /41

枪手博弈的启示
这个故事告诉我们：在多人博弈中常常由于复杂关系的存在，而导致出人意料的结局。一位参与者最后能否胜出，不仅仅取决于自己的实力，更取决于实力对比关系以及各方的策略。

古董商买猫一个古董商去一个偏僻的农村淘宝。在一个农户家里，他发现这家主人用珍贵的茶碟作猫食碗，于是假装对这只猫十分喜爱，要从主人手里买下。猫主人不卖，为此古董商出了大价钱。成交之后，古董商装做不在意地说：
“这个碟子它已经用习惯了，就一块送给我吧。”猫主人不干了：“你知道用这个碟子，我已经卖出多少只猫了？”
如何施加威胁呢？
15 /41
唐鞅策略：随机惩罚

据说宋康王极度暴虐，凡有人来劝谏的，都别他射杀。他杀人愈多，臣下对他反对更甚；有一天，宋康王问唐鞅说，我杀了那么多人，为什么臣下更不怕我了呢？

唐鞅说，你杀的都是有罪过的人，那些没罪过的人当然不怕你了。要是不分好坏，想杀谁就杀谁，臣下肯定都怕你。宋康王听从此计，随意地想杀谁就杀谁，不就唐鞅也被杀了，大家果然很怕他。
按钮与食槽同侧，多劳者多得，不劳
者不得
9 /41

智猪博弈的启示
占有更多资源者必须承担更多的义务（欧佩克）弱者搭便车的资源配置并不是最佳状态领导制定激励制度
奖励力度太大,个个百万富翁,成本高,积极性不一定高(增量)
奖励力度不够大,见者有份,努力的员工不会有动力（减量）奖励并非人人有份,针对个人(提成),节约成本,消除“搭便车”现象

如果大猪先吃，大猪吃到9份，小猪吃到1份如果同时吃，大猪吃到7份，小猪吃到3份如果小猪先吃，大猪吃到6份，小猪吃到4份
谁应该去按按钮呢？
7 /41
大猪收益按钮同时按钮大猪按钮份数 7 6
小猪收益
小猪按不按
得益
5 4
份数
3 4
得益
1 4
大猪不按
按
5，1 9，-1
小猪
4，4 0，0
21 /41
逆推过程 1 2 3 4 0 1 2 0 5 100 0 1 2
97 结果:
97 0
99 0 1
(97,0,1,0,2)或者(97,0,2,0,1)
22 /41
强盗分金的启示

在该模型中，任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么，并用最小的代价获取最大收益，拉拢“挑战者”分配方案中最不得意的人们 “不谋万事者，不足谋一时；不谋全局者，不足谋一域。 ” ——《孙子兵法》
逆推归纳法－动态规划

动态规划的理论基础是最优性原理。它是一种解决多阶段决策（序贯决策）过程最优化的一种数学方法。应用：最优路径问题、资源分配问题、生产调度、库存、装载、排序、设备更新、最优工艺等
25 /41
3 /41
囚徒乙不坦白囚徒甲坦白
0，－8 －5，－5
坦
白
不坦白
－1，－1
－8 ， 0
博弈结果：甲、乙二人都坦白，各判5年
4 /41

划线法囚徒2 不坦白坦白囚徒 1 不坦白坦白
－1，－1 0，－8 －8，0 －5，－5

箭头法
囚徒2 不坦白坦白囚徒 1 不坦白坦白

宋康王策略是，可以把大臣排序，告诉一号大臣，如果敢冒犯国君，就会杀掉，这显然会让一号大臣老实下来；接下来告诉二号大臣，如果一号老实，而你不老实，我就会把你杀掉；一直下去就可以了。
18 /41

这样的策略可以用在与一群对手进行谈判的场合。他的成功关键在于，当随机进行惩罚时，每个人可能宁愿惩罚而选择不合作；但是只要让惩罚有一种明确的联动机制，依次分配下去，除非你面对的是一群非理性的对手，否则这样的威胁一般是可信的，可以顺从你的要求。
13 /41
奖赏与惩罚

春秋时期，鲁国北边着火，火势蔓延，快要威胁到国都，鲁哀公亲自救火，但他旁边只有几名随从，而其他人都去追赶被火逼出来的野兽，哀公生气，找孔子来问计。
孔子分析原因：追赶野兽的没有惩罚；救火的没有奖赏；哀公说：赏罚应该分明；孔子说：现在危难时刻，来不及奖赏救火的人；再说，奖赏花费很大；哀公下令“不救火的与战争投降背判同罪，追赶野兽的，与擅入禁地者同罪，于是，火很快被扑灭”。