运筹优化问题及其启示
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-1,-1 0,-8 -8 ,0 -5,-5
5 /41
囚徒困境举例
赫鲁晓夫你在哪里? 美国杜克大学。请问破的是哪只轮胎?
6 /41
智猪博弈(举例)
笼子里有两头猪,一头大猪,一头小猪。笼子很长,一头有 一个按钮,另一头是饲料的出口和食槽。按一下按钮,将 有相当于10份的猪食进槽,但按钮后跑到食槽要消耗2份猪 食并花费时间,而坐享其成的另一头猪早已吃掉不少。
按照他的提案进行分配,否则将被扔进大海喂鲨鱼
3. 如果1号死了,再由2号提出分配方案,然 后大家4人进行表决,当且仅当超过半数人同
意时,按照他的提案进行分配,否则将被扔入大海喂鲨鱼
4. 依此类推,直到找到一个每个人都接受的方案
20 /41
假设每个海盗都是很聪明的人,都能很理智的判断得 失 第一个海盗提出怎样的分配 方案 才能使自己得到最多 的宝石呢?
小猪按钮
不按钮
9
0
9
0
1
0
-1
0
不按
“按”是小猪的严格下策 纳什均衡:“小猪躺着大猪跑”
大 猪 不按
按
4,4 0,0
8 /41
改变规则
改变方案一:投食量减半,两者都不去按钮,结果
该游戏规则设计失败
改变方案二:投食量增倍,两者都会去按钮,该游
戏规则成本过高,竞争不激烈
改变方案三:改量加移位,食量减半,
1 /41
启示
信息的不完全会造成博弈结果的差异。为了避免信 息不对称造成的困境,我们应该在行动之前尽可能 掌握有关信息。 二手自行车市场等
2 /41
囚徒困境
甲、乙一起携枪准备作案,被警察发现抓了起来,分 别审讯,如果
两人都不坦白,各判1年 1人坦白则免予起诉,另1人重判8年 2人都坦白,则各判5年 假设甲、乙都是理性的,且具有完全 信息甲、乙坦白还是不坦白?
14 /41
奖赏与惩罚启示 在赏罚的作用上,二者侧重点不同。赏是用人的激励 机制,而罚则是纠正机制。要想引导别人自觉体现价 值,为事业奋斗尽力,用赏是最好的办法;但是在资 源有限而且存在利益冲突的博弈中,要想使自己的一 个威胁对多人有效,用赏是不现实的。
在这种情况下用可信威胁,使可能犯规的人害怕受到 直接或间接的惩罚和制裁,从而采取合作。
23 /41
先发优势和后发劣势
1号看起来最有可能被喂鲨鱼,但他牢牢地把握住
先发优势,结果不但消除了死亡威胁,还收益最大 。这不正是全球化过程中先进国家的先发优势吗?
而5号看起来最安全,甚至还能坐收渔人之利,却
因不得不看别人脸色行事而只能分得一小杯羹。这 难道不是后发劣势的写照?
24 /41
1974年,旅居海外的著名作家梁实秋回到台北安度晚 年。
19 /41
逆推归纳法-强盗分宝石
5个海盗抢了100颗宝石,每颗大小一样并且价值连城。他们决 定采取以下策略分宝石,3,4,5), 2. 首先,由1号提出分配方案,然后大家 5人进行表决,当且仅当超过半数的人同意时,
16 /41
唐鞅策略的启示: 你只要观察对手就可以了:当对手无论怎样都处于同 样的威胁之下,进而对他自己的具体策略无所适从的 时候,你的策略就是最佳的随机策略。也只有这样的 策略才能阻止一群对手发现你的有规律的策略行动, 从而免受威胁。
17 /41
序号策略:破解合谋
唐鞅策略的一个缺点是:无法对付大臣们的合谋。如果 大臣们知道宋康王不可能把他们都杀掉,他们很可能 合伙冒犯他。在这种情况下,由于宋康王只能杀一个 ,其他人因为冒犯宋康王而获得的名誉收益就会激励 他们这样做。
10 /41
枪手博弈
在美国一个西部的小镇上,有三个快枪手相互之间仇 恨到了不可调和的地步。这一天三个人在街上不期而 遇,每个人的手都握住枪把,气氛紧张到了极点。因 为每个人都知道,一场生死决斗马上就要开始了。 三个枪手对于彼此之间的实力对比都了如指掌:枪手 甲枪法精准,十发八中;枪手乙枪法不错,十枪六中 ;枪手丙枪法拙劣,十枪四中。加入三人同时开枪, 谁活下来的机会大一些?
11 /41
现在换一种玩法,三个人轮流开枪,谁的机会更大? 情形一:开枪的顺序为:甲、乙、丙; 情形二:开枪的顺序为:乙、甲、丙; 情形三:开枪的顺序为:丙、乙、甲。
12 /41
枪手博弈的启示
这个故事告诉我们:在多人博弈中常常由于复杂关系 的存在,而导致出人意料的结局。一位参与者最后能 否胜出,不仅仅取决于自己的实力,更取决于实力对 比关系以及各方的策略。
古董商买猫 一个古董商去一个偏僻的农村淘宝。在一个农户家 里,他发现这家主人用珍贵的茶碟作猫食碗,于是假装对 这只猫十分喜爱,要从主人手里买下。 猫主人不卖,为此古董商出了大价钱。 成交之后,古董商装做不在意地说:
“这个碟子它已经用习惯了,就一块送给 我吧。”猫主人不干了:“你知道用这个 碟子,我已经卖出多少只猫了?”
如何施加威胁呢?
15 /41
唐鞅策略:随机惩罚
据说宋康王极度暴虐,凡有人来劝谏的,都别他射杀 。他杀人愈多,臣下对他反对更甚; 有一天,宋康王问唐鞅说,我杀了那么多人,为什么 臣下更不怕我了呢?
唐鞅说,你杀的都是有罪过的人,那些没罪过的人当 然不怕你了。要是不分好坏,想杀谁就杀谁,臣下肯 定都怕你。 宋康王听从此计,随意地想杀谁就杀谁,不就唐鞅也 被杀了,大家果然很怕他。
按钮与食槽同侧,多劳者多得,不劳
者不得
9 /41
智猪博弈的启示
占有更多资源者必须承担更多的义务(欧佩克) 弱者搭便车的资源配置并不是最佳状态 领导制定激励制度
奖励力度太大,个个百万富翁,成本高,积极性不一定高(增量)
奖励力度不够大,见者有份,努力的员工不会有动力(减量) 奖励并非人人有份,针对个人(提成),节约成本,消除“搭便车”现 象
如果大猪先吃,大猪吃到9份,小猪吃到1份 如果同时吃,大猪吃到7份,小猪吃到3份 如果小猪先吃,大猪吃到6份,小猪吃到4份
谁应该去按按钮呢?
7 /41
大猪收益 按钮 同时按钮 大猪按钮 份 数 7 6
小猪收益
小猪 按 不按
得益
5 4
份数
3 4
得益
1 4
大 猪 不按
按
5,1 9,-1
小猪
4,4 0,0
21 /41
逆推过程 1 2 3 4 0 1 2 0 5 100 0 1 2
97 结果:
97 0
99 0 1
(97,0,1,0,2)或者(97,0,2,0,1)
22 /41
强盗分金的启示
在该模型中,任何“分配者”想让自己的方案获得通过的 关键是事先考虑清楚“挑战者”的分配方案是什么,并用 最小的代价获取最大收益,拉拢“挑战者”分配方案中最 不得意的人们 “不谋万事者,不足谋一时;不谋全局者,不足谋一域。 ” ——《孙子兵法》
逆推归纳法-动态规划
动态规划的理论基础是最优性原理。它是一种解决多阶 段决策(序贯决策)过程最优化的一种数学方法。 应用:最优路径问题、资源分配问题、生产调度、 库存、装载、排序、设备更新、最优工艺等
25 /41
3 /41
囚 徒 乙 不坦白 囚 徒 甲 坦 白
0,-8 -5,-5
坦
白
不坦白
-1,-1
-8 , 0
博弈结果:甲、乙二人都坦白,各判5年
4 /41
划线法 囚徒2 不坦白 坦白 囚 徒 1 不坦白 坦白
-1,-1 0,-8 -8,0 -5,-5
箭头法
囚徒2 不坦白 坦白 囚 徒 1 不坦白 坦白
宋康王策略是,可以把大臣排序,告诉一号大臣,如 果敢冒犯国君,就会杀掉,这显然会让一号大臣老实 下来;接下来告诉二号大臣,如果一号老实,而你不 老实,我就会把你杀掉;一直下去就可以了。
18 /41
这样的策略可以用在与一群对手进行谈判的场合。他 的成功关键在于,当随机进行惩罚时,每个人可能宁 愿惩罚而选择不合作;但是只要让惩罚有一种明确的 联动机制,依次分配下去,除非你面对的是一群非理 性的对手,否则这样的威胁一般是可信的,可以顺从 你的要求。
13 /41
奖赏与惩罚
春秋时期,鲁国北边着火,火势蔓延,快要威胁到国 都,鲁哀公亲自救火,但他旁边只有几名随从,而其 他人都去追赶被火逼出来的野兽,哀公生气,找孔子 来问计。
孔子分析原因:追赶野兽的没有惩罚;救火的没有奖 赏; 哀公说:赏罚应该分明; 孔子说:现在危难时刻,来不及奖赏救火的人;再说 ,奖赏花费很大; 哀公下令“不救火的与战争投降背判同罪,追赶野兽 的,与擅入禁地者同罪,于是,火很快被扑灭”。
5 /41
囚徒困境举例
赫鲁晓夫你在哪里? 美国杜克大学。请问破的是哪只轮胎?
6 /41
智猪博弈(举例)
笼子里有两头猪,一头大猪,一头小猪。笼子很长,一头有 一个按钮,另一头是饲料的出口和食槽。按一下按钮,将 有相当于10份的猪食进槽,但按钮后跑到食槽要消耗2份猪 食并花费时间,而坐享其成的另一头猪早已吃掉不少。
按照他的提案进行分配,否则将被扔进大海喂鲨鱼
3. 如果1号死了,再由2号提出分配方案,然 后大家4人进行表决,当且仅当超过半数人同
意时,按照他的提案进行分配,否则将被扔入大海喂鲨鱼
4. 依此类推,直到找到一个每个人都接受的方案
20 /41
假设每个海盗都是很聪明的人,都能很理智的判断得 失 第一个海盗提出怎样的分配 方案 才能使自己得到最多 的宝石呢?
小猪按钮
不按钮
9
0
9
0
1
0
-1
0
不按
“按”是小猪的严格下策 纳什均衡:“小猪躺着大猪跑”
大 猪 不按
按
4,4 0,0
8 /41
改变规则
改变方案一:投食量减半,两者都不去按钮,结果
该游戏规则设计失败
改变方案二:投食量增倍,两者都会去按钮,该游
戏规则成本过高,竞争不激烈
改变方案三:改量加移位,食量减半,
1 /41
启示
信息的不完全会造成博弈结果的差异。为了避免信 息不对称造成的困境,我们应该在行动之前尽可能 掌握有关信息。 二手自行车市场等
2 /41
囚徒困境
甲、乙一起携枪准备作案,被警察发现抓了起来,分 别审讯,如果
两人都不坦白,各判1年 1人坦白则免予起诉,另1人重判8年 2人都坦白,则各判5年 假设甲、乙都是理性的,且具有完全 信息甲、乙坦白还是不坦白?
14 /41
奖赏与惩罚启示 在赏罚的作用上,二者侧重点不同。赏是用人的激励 机制,而罚则是纠正机制。要想引导别人自觉体现价 值,为事业奋斗尽力,用赏是最好的办法;但是在资 源有限而且存在利益冲突的博弈中,要想使自己的一 个威胁对多人有效,用赏是不现实的。
在这种情况下用可信威胁,使可能犯规的人害怕受到 直接或间接的惩罚和制裁,从而采取合作。
23 /41
先发优势和后发劣势
1号看起来最有可能被喂鲨鱼,但他牢牢地把握住
先发优势,结果不但消除了死亡威胁,还收益最大 。这不正是全球化过程中先进国家的先发优势吗?
而5号看起来最安全,甚至还能坐收渔人之利,却
因不得不看别人脸色行事而只能分得一小杯羹。这 难道不是后发劣势的写照?
24 /41
1974年,旅居海外的著名作家梁实秋回到台北安度晚 年。
19 /41
逆推归纳法-强盗分宝石
5个海盗抢了100颗宝石,每颗大小一样并且价值连城。他们决 定采取以下策略分宝石,3,4,5), 2. 首先,由1号提出分配方案,然后大家 5人进行表决,当且仅当超过半数的人同意时,
16 /41
唐鞅策略的启示: 你只要观察对手就可以了:当对手无论怎样都处于同 样的威胁之下,进而对他自己的具体策略无所适从的 时候,你的策略就是最佳的随机策略。也只有这样的 策略才能阻止一群对手发现你的有规律的策略行动, 从而免受威胁。
17 /41
序号策略:破解合谋
唐鞅策略的一个缺点是:无法对付大臣们的合谋。如果 大臣们知道宋康王不可能把他们都杀掉,他们很可能 合伙冒犯他。在这种情况下,由于宋康王只能杀一个 ,其他人因为冒犯宋康王而获得的名誉收益就会激励 他们这样做。
10 /41
枪手博弈
在美国一个西部的小镇上,有三个快枪手相互之间仇 恨到了不可调和的地步。这一天三个人在街上不期而 遇,每个人的手都握住枪把,气氛紧张到了极点。因 为每个人都知道,一场生死决斗马上就要开始了。 三个枪手对于彼此之间的实力对比都了如指掌:枪手 甲枪法精准,十发八中;枪手乙枪法不错,十枪六中 ;枪手丙枪法拙劣,十枪四中。加入三人同时开枪, 谁活下来的机会大一些?
11 /41
现在换一种玩法,三个人轮流开枪,谁的机会更大? 情形一:开枪的顺序为:甲、乙、丙; 情形二:开枪的顺序为:乙、甲、丙; 情形三:开枪的顺序为:丙、乙、甲。
12 /41
枪手博弈的启示
这个故事告诉我们:在多人博弈中常常由于复杂关系 的存在,而导致出人意料的结局。一位参与者最后能 否胜出,不仅仅取决于自己的实力,更取决于实力对 比关系以及各方的策略。
古董商买猫 一个古董商去一个偏僻的农村淘宝。在一个农户家 里,他发现这家主人用珍贵的茶碟作猫食碗,于是假装对 这只猫十分喜爱,要从主人手里买下。 猫主人不卖,为此古董商出了大价钱。 成交之后,古董商装做不在意地说:
“这个碟子它已经用习惯了,就一块送给 我吧。”猫主人不干了:“你知道用这个 碟子,我已经卖出多少只猫了?”
如何施加威胁呢?
15 /41
唐鞅策略:随机惩罚
据说宋康王极度暴虐,凡有人来劝谏的,都别他射杀 。他杀人愈多,臣下对他反对更甚; 有一天,宋康王问唐鞅说,我杀了那么多人,为什么 臣下更不怕我了呢?
唐鞅说,你杀的都是有罪过的人,那些没罪过的人当 然不怕你了。要是不分好坏,想杀谁就杀谁,臣下肯 定都怕你。 宋康王听从此计,随意地想杀谁就杀谁,不就唐鞅也 被杀了,大家果然很怕他。
按钮与食槽同侧,多劳者多得,不劳
者不得
9 /41
智猪博弈的启示
占有更多资源者必须承担更多的义务(欧佩克) 弱者搭便车的资源配置并不是最佳状态 领导制定激励制度
奖励力度太大,个个百万富翁,成本高,积极性不一定高(增量)
奖励力度不够大,见者有份,努力的员工不会有动力(减量) 奖励并非人人有份,针对个人(提成),节约成本,消除“搭便车”现 象
如果大猪先吃,大猪吃到9份,小猪吃到1份 如果同时吃,大猪吃到7份,小猪吃到3份 如果小猪先吃,大猪吃到6份,小猪吃到4份
谁应该去按按钮呢?
7 /41
大猪收益 按钮 同时按钮 大猪按钮 份 数 7 6
小猪收益
小猪 按 不按
得益
5 4
份数
3 4
得益
1 4
大 猪 不按
按
5,1 9,-1
小猪
4,4 0,0
21 /41
逆推过程 1 2 3 4 0 1 2 0 5 100 0 1 2
97 结果:
97 0
99 0 1
(97,0,1,0,2)或者(97,0,2,0,1)
22 /41
强盗分金的启示
在该模型中,任何“分配者”想让自己的方案获得通过的 关键是事先考虑清楚“挑战者”的分配方案是什么,并用 最小的代价获取最大收益,拉拢“挑战者”分配方案中最 不得意的人们 “不谋万事者,不足谋一时;不谋全局者,不足谋一域。 ” ——《孙子兵法》
逆推归纳法-动态规划
动态规划的理论基础是最优性原理。它是一种解决多阶 段决策(序贯决策)过程最优化的一种数学方法。 应用:最优路径问题、资源分配问题、生产调度、 库存、装载、排序、设备更新、最优工艺等
25 /41
3 /41
囚 徒 乙 不坦白 囚 徒 甲 坦 白
0,-8 -5,-5
坦
白
不坦白
-1,-1
-8 , 0
博弈结果:甲、乙二人都坦白,各判5年
4 /41
划线法 囚徒2 不坦白 坦白 囚 徒 1 不坦白 坦白
-1,-1 0,-8 -8,0 -5,-5
箭头法
囚徒2 不坦白 坦白 囚 徒 1 不坦白 坦白
宋康王策略是,可以把大臣排序,告诉一号大臣,如 果敢冒犯国君,就会杀掉,这显然会让一号大臣老实 下来;接下来告诉二号大臣,如果一号老实,而你不 老实,我就会把你杀掉;一直下去就可以了。
18 /41
这样的策略可以用在与一群对手进行谈判的场合。他 的成功关键在于,当随机进行惩罚时,每个人可能宁 愿惩罚而选择不合作;但是只要让惩罚有一种明确的 联动机制,依次分配下去,除非你面对的是一群非理 性的对手,否则这样的威胁一般是可信的,可以顺从 你的要求。
13 /41
奖赏与惩罚
春秋时期,鲁国北边着火,火势蔓延,快要威胁到国 都,鲁哀公亲自救火,但他旁边只有几名随从,而其 他人都去追赶被火逼出来的野兽,哀公生气,找孔子 来问计。
孔子分析原因:追赶野兽的没有惩罚;救火的没有奖 赏; 哀公说:赏罚应该分明; 孔子说:现在危难时刻,来不及奖赏救火的人;再说 ,奖赏花费很大; 哀公下令“不救火的与战争投降背判同罪,追赶野兽 的,与擅入禁地者同罪,于是,火很快被扑灭”。