博弈论(本科)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
博弈论
第一节、基本概念
1、定义:
是描述和研究行为者之间策略相互依存和相互作用的决策理论。
2、基本类型:
(1)静态与动态
(2)完全信息与不完全信息
3、基本要素:
参与者;策略;支付矩阵;顺序;概率。
第二节、基本的博弈策略
一、占优策略(静态、完全信息)
无论其他参与者采取什么策略,某参与者唯一的最优策略。
注意:不论是同时选择,还是先后选择,均衡结果是相同的。
不常见。
二、纳什均衡:
如果给定其他参与者的最优策略,某参与者的最优策略。
1、单一的纳什均衡(静态、完全信息)
海滩定位博弈(动态、完全信息)
2、两个纳什均衡(动态、完全信息)
3、经典模型与应用
智猪博弈:大股东与小股东;大户与散户;大企业与小企业等。
斗鸡博弈(两个纳什均衡):抢占市场;夫妻矛盾;两军对垒等。
三、最大最小策略:
最大化最小所得的策略。
(静态、不完全信息)
第一、保守,而非利润最大化。
第二、对对手的“完全理性”或“完全信息”缺乏信心。
第三、对手的错误选择将给自己造成严重后果。
案例:两厂商决策是否研发新产品,厂商1目前具有竞争优势。
(2)厂商1如何最大化预期收益:
1无法确定2是否投资,但知道2不投资的可能性只有10%,1是否投资?
投资的预期收益:0.1×(-100)+0.9×20 = 8
不投资的预期收益:0.1×0+0.9×(-10)= -9
1应该投资。
如果1认为2不投资的可能性是30%,1是否投资?
投资的预期收益:0.3×(-100)+0.7×20 = -16
不投资的预期收益:0.3×0+0.7×(-10)= -7
1不应该投资。
四、混合策略(动态、不完全信息)
纯策略:参与者有一确定的最优策略。
混合策略:不存在确定的最优策略,参与者根据各种结果出现的概率,以一定的概率随机选择各种策略。
零和博弈
每个人都想猜透对方的策略,而又不想让对方猜透自己的策略。
只能统一对待。
流浪汉只有在政府不救济时才会找工作。
(1)政府的最优策略:
政府不可以选择救济或不救济的纯策略,因为流浪汉相应的策略使政府的效用降低。
政府应以某一概率选择救济(p)或不救济(1-p),使流浪汉找工作和游荡的预期效用相同。
p×2+(1-p)×1 = p×3+(1-p)×0
p=0.5
当政府救济与否的概率都是0.5时(混合策略),则流浪汉
找工作的预期效用:0.5×2+0.5×1=1.5;
游荡的预期效用:0.5×3+0.5×0=1.5;
流浪汉找工作或游荡(纯策略),或者以任何概率选择找工作和游荡(混合策略)的预期效用都一样。
这是政府的最优策略。
因为,如果救济的概率大于不救济的概率,流浪汉游荡的预期效用大于找工作的预期效用,流浪汉会选择游荡(纯策略),政府也就要选择不救济(纯策略),流浪汉又找工作,政府又救济……,不能达成市场均衡。
反之亦然。
(2)流浪汉的最优策略:
流浪汉不可以选择找工作或游荡的纯策略,这会使政府选择相应的救济或不救济的纯策略使流浪汉的效用降低。
流浪汉应以某一概率选择工作(r)或游荡(1-r),使政府救济和不救济的预期效用相同。
r×3+(1-r)×(-1)=r×(-1)+(1-r)×0
r=0.2
当流浪汉找工作的概率是0.2,游荡的概率是0.8时,则政府
救济的预期效用:0.2×3+0.8×(-1)= -0.2;
不救济的预期效用:0.2×(-1)+ 0.8×0 = -0.2;
政府救济或不救济(纯策略),或者以任何概率选择救济和不救济(混合策略)的预期效用都一样。
这是流浪汉的最优策略。
因为,如果找工作的概率大于0.2,政府救济的预期效用会大于不救济,政府会选择救济(纯策略),流浪汉又会游荡,政府又不救济……,不能形成均衡。
反之亦然。
(3)纳什均衡:
政府与流浪汉博弈的最终结果是:政府以0.5的概率选择救济,以0.5的概率选择不救济;流浪汉以0.2的概率选择找工作,以0.8的概率选择游荡。
如果最初的策略组合不是这样,博弈的最终结果应该如此。
例如,政府救济的概率最初是0.2,则流浪汉 找工作的预期效用:0.2×2+0.8×1=1.2; 游荡的预期效用:0.2×3+0.8×0=0.6;
流浪汉找工作的预期效用大于游荡的预期效用,流浪汉是否一定找工作呢?流浪汉如果一定找工作,则政府就会救济,流浪汉又会选择游荡,政府又会不救济,……。
流浪汉应选择某一概率的混合策略,使政府救济与否的期望效用相同。
政府又会根据流浪汉的混合策略调整自己救济与否的概率,使流浪汉找工作与否的期望效用相同,……。
双方反复调整,最终达成上述的均衡结果。
应用领域:税收检查与偷税;交通检查与违章;环保检查与排污等。
综合案例:
(2)纳什均衡;
(3)机器厂的最大最小策略;
(4)如果炼钢厂及时交货的可能性是90%,机器厂是否全部购买? (5)如果是70%呢?
(6)混合策略中的纳什均衡。
第三节、合作与非合作博弈
——从1元钱竞拍游戏谈起
一、囚犯困境(静态)
非合作博弈(坦白、坦白)
——双方的优势策略,也是最大最小策略 ——最差的结局
——个人理性与团体理性的冲突,对“看不见手原理”的挑战。
合作博弈(不坦白、不坦白) ——双方最好的结局 ——合作需要条件。
二、合作的不稳定性(静态)
——不合作是协议双方的优势策略。
卡特尔协议中的欺骗行为
三、重复博弈(动态)
一次性静态博弈的结果是不合作,原因是利己的动机和欺骗行为不会受到惩罚。
重复博弈可以导致合作的结果,前提是双方都采取以牙还牙(针锋相对)策略。
1、无限次重复博弈
在“针锋相对”策略的前提下可以实现长期合作,博弈的均衡解是(合作、合作)。
例如,商家与消费者之间的博弈。
诚信的重要性,也是一种生产要素。
2、 有限次重复博弈
次数确定的有限次博弈的均衡解是(不合作、不合作)。
不能确定次数的有限次博弈相当于无限次博弈,合作的解是可以存在的。
四、讨价还价策略 (静态、完全信息)
第四节、策略举措(威胁与承诺)
通过自己的策略来影响对手的行为,使对手做出有利于自己的选择。
一、无威胁的策略举措
例如: 自己首先提高价格,希望对手也提高价格,实现双赢。
该举措有风险,实行的前提是该举措能低成本撤销。
二、有威胁的策略举措
1、不可信的威胁
进入与抵制(1)万美元
2、可信的威胁
第一,改变支付矩阵
在位者威胁进入者,将通过降价和扩大生产规模来抵制进入。
如对方不进入,该扩张是不必要的,会减少200万利润。
如对方进入,该扩张可抵制对方,保持利润水平不变。
第二,限制性定价——低成本信号。
短期内会降低利润,但如果抵制成功,可增加垄断下的长期利润。
第三,在业内形成敢作敢为、不计成本的“非理性”声誉。
思考:台海危机
第五节、序列博弈(动态)
一、先占策略
在许多场合,率先行动的一方具有很大优势。
例如:斯塔克尔伯格模型,勃兰特模型,卡特尔(垄断)。
如果不可能率先行动,可以向对方发出可信的威胁。
昂贵的宣传、定购原材料、甚至开始出售产品订单等。
案例:政府对垄断的扶持
(1)、政府不干预下的支付矩阵
(2)、政府扶持下的支付矩阵
二、博弈树
三、反向归纳(有限次博弈)
习题1
(2)国家台如果要打击对手可以如何行动,它的代价与风险是什么?
地方台如何避免?
(3)如果国家台可以率先行动,做出博弈树。
习题2
厂商1和2分别决策生产产品A 或B ,根据支付矩阵回答下列问题,并解释原因。
(1
(2)该博弈是否有纳什均衡?
(3)纳什均衡是否最好的结果,如何通过讨价还价实现双赢?(4)如果双方都采用极大化极小策略,结果是什么?
(5)如果厂商1可以首先决策,做出博弈树。