博弈论与信息经济学第六讲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14
几种特殊的情况,贴现因子与T的关系 δ1=δ2=0时,不论T为多少,SPNE的结果是 x=1.两个人都是绝对无耐心的,则第一个 出价的人得到全部蛋糕。 如果δ1=0,δ2>0,则结果是x=1-δ2。 如果δ1=δ2=1,双方都有无限的耐心,结 果依赖于博弈的次数。 一般而言,如果0<δi<1,均衡的结果依赖 于δ的相对比例,还有博弈的时间长度T 和谁在最后出价。当T趋向于无限时,则 会有唯一的均衡结果X=1/(1+δ)。
讨价还价博弈的分析框架,对中国过去近二十年 的改革以及改革中的各种现象及问题给出了一个 综合性的理论分析)
《中国的外交:从策略到原则》
33
34
4
杜邦公司的震慑博弈
70年代,杜邦公司预测到全球未来对二氧 化钛的需求达到50万吨以上; 于是,为了垄断该市场,决定增加50万吨 的生产能力,给予对手一个震慑; 通过扩建现有工厂,新建13万吨的新厂, 使得杜邦公司保持了二氧化钛的垄断地位 达25年。
5
(二)工会与厂商的博弈
Leontief于1946年提出。此博弈的过程是:工会 决定工资,厂商根据工资的高低决定雇佣人数。 工会的效用是工资(W)和雇佣人数(L)的函数; 厂商只有一个目标,即利润(R)。 厂商只有劳动成本W×L,厂商利润:
12
在分析无限期博弈之前先讨论一下有限 期的情况,如果有限,可以使用逆向归 纳法分析。 先假设两个阶段,T=2,2来出价,他提 出X2=0,参与人1会接受,因为他没有出 价的机会。
t=1 t=2
2,δ 2)
(1-δ
(X 2,1-X 2) (0,1)
13
(X 1,1-X 1)
1. 现在假定T=3,最后阶段由参与人1出价,
25
重复博弈与信任机制
不信任
委托人
0,0 5,5
诚实 信任
代理人
欺骗
-5,10
图--1 信任博弈
26
如果此博弈只进行一次,则根据逆向归纳法,容易求 得此博弈的纳什均衡解是:委托人选择不信任,代理 人选择欺骗。 如果双方有机会长期博弈,合作可能通过信誉机制而 实现。我们假定,在每一次博弈结束前,双方都预期 有δ的可能性下期交易的机会,并且结果相同。我们 考虑委托人的“触发战略”。 代理人该如何行动?如果欺骗,只有本期的10单位收 入;如果不欺骗,得到本期的5单位收入,有δ的概 率在下期得到5单位收入、、、、、总的期望收入:
29
资本的概念? 收入(一系列事件)决定资本的价值。 Capital是一个流,重要的是把所有的未 来收入贴现到今天,今天怎么看这些收 入? 所谓贴现(discount),就是从今天的 角度来看未来的价值。这里涉及到一个 预期。 投资活动面向未来,但是决策是在今天。 “买不买这棵果树”,“买不买这个学 位”?
19
我们假设1采用了这个战略,可以证明在 δ达到一定数值以后,这一战略也是2的 最佳反应函数。 如果选择一次L战略,会得到5单位收益, 但会引起对方的报复,所以自己也只得 选L,总收益: δ 2 π=5+1.δ+1 .δ + . . .=5+ 1-δ
20
相反,如果在第一阶段采用R战略,双方 都采取触发战略,则其收益: π=4/(1-δ) δ 当 4/(1-δ)〉5+ 1-δ 即: δ〉1/4 时,博弈方对于对方的 触发战略也采取触发战略,这是一个 SPNE。
15
聪明的猴子
朝三暮四与朝四暮三 哪 一个更优?
16
第六讲
完全信息动态博弈的应用
——讨价还价与重复博弈
上一讲小结 子博弈完美纳什均衡的两个应用 轮流出价的讨价还价模型 重复囚徒困境的解
17
无限次重复囚徒困境
L L 1 R 2 R
பைடு நூலகம்
1,1 *
0,5
5,0
4,4
18
在该博弈的一次性博弈中,得益为较差的 (1,1)的(L,L)是它的唯一的纳什均衡。 在无限次重复博弈中我们假设两博弈方都采用 触发战略(trigger strategy):在第一阶段采用R战略; 在第t阶段,如果前t-1次的结果都是(R,R), 则继续采用R战略,否则采用L战略(包括自己 一旦采用L战略,以后也只能采用L战略)。 双方的这种战略在贴现率δ较大时构成无限次 重复博弈的一个SPNE。
时间
28
票据贴现是收款人或持票人将未到期的银行 承兑汇票或商业承兑汇票向银行申请贴现, 银行按票面金额扣除贴现利息后将余款支付 给收款人的一项银行授信业务。票据一经贴 现便归贴现银行所有,贴现银行到期可凭票 直接向承兑人收取票款。 假设今年的1元钱存入银行,利息为r,则 到明年就变成(1+r)元,从今年的观点看, 明年的盈利1元相当于今年的δ=1/(1+r)。 显然,0<δ≤1, δ是明年的贴现因子。当 然每年的贴现因子都可以不同,但我们都假 设它是一个相同的值。
31
降低不耐程度的方法: 1. 远见 。人无远虑,必有近忧。和知识水 平有关,有时也和工种有关。 2. 自制力。贫困地区的自制力问题,限制 无奈,导致投资。 3. 习惯 投资理论:放弃当前消费的报酬,投资 机会的提高会降低无奈水平,提高投资。
32
一系列不同对手之间的讨价还价看做市场 信息的流动和匹配。 《一般均衡的策略基础:动态匹配与讨价还 价博弈》,道格拉斯· 盖尔著,韦森总译校, 上海三联书店。 《控制权、腐败和企业改革》(用一个纳什
21
参与人不固定时的重复博弈
以往的讨论都是假定博弈的参与人是相同的, 但是有时往往一方的参与人是不固定的。如消 费品市场。 假定只有一个厂商提供商品,每个消费者只购 买一次,每个阶段只有一个消费者。 在一个阶段中,消费者决定是否购买,而厂商 决定质量高/低。 消费者在购买时不知道商品的质量,但是知道 T-1期的质量。
Maxw≥0„ W, L* (W)‟
W W*
I2 I1 I0
L* (W*)
8
L* (W)
L
第六讲
完全信息动态博弈的应用
——讨价还价与重复博弈
上一讲小结 子博弈完美纳什均衡的两个应用 轮流出价的讨价还价模型 重复囚徒困境的解
9
(一)轮流出价的讨价还价模型
讨价还价是经济生活中的极重要部分, 从日常的货物买卖到国际贸易以及政治 谈判,都存在讨价还价问题。 讨价还价模型是一个可观察行动的多阶 段博弈。 Rubinstein 于1982年建立了一个轮流出 价模型(Alternating offers):
π= π(W,L)=R(L)- W×L
第一步,厂商对工会决定的任意工资W,决定一个 最优的雇佣数L。 MaxL≥0π(W,L)= MaxL≥0„ R(L)-WL‟ 必须使π对L的导数π'(W,L)= R‘(L)-W=0
6
求解的结果R‘(L)-W=0
R 斜率为w R(L) WL
L
L* (w)
7
第二步,回到第一阶段工会的选择。工会 了解厂商的决策规则。所以工会的问题是:
10
在此模型中,两人分一块蛋糕, 1先出价,如2接受,则博弈结 束, 按1的方案分配;如2拒绝, 则由2出价,如1接受,则博弈也 结束,否则再由1出价、、、、、 直到一个参与人的出价被接受。 这个博弈从理论上讲有无限多个纳什均衡, 但是Rubinstein证明它的SPNE是唯一的。
11
用x表示参与人1的份额,用(1-x)表示参与 人2的份额,用x1和(1- x1)表示1出价时参 与人1和2的份额,用x2和(1- x2)表示2出 价时参与人1和2的份额。 假定参与人1和2的贴现因子(discount factor) 分别为δ1和δ2。 如果博弈在t期结束,则: 参与人1得到 π1=δ1t-1X1 参与人2得到 π2=δ2t-1 (1- x1);
第六讲 完全信息动态博弈的应用
—讨价还价与重复博弈
上一讲小结 子博弈完美纳什均衡的两个应用 轮流出价的讨价还价模型 重复囚徒困境的解
1
子博弈完美纳什均衡
Statements need to be backed up by sufficient threats to make them credible.
24
重复博弈:中东地区的集市
早期的制度学派一直未理解的事情:落后 国家和地区为何一直在贫困中挣扎?既然有 先进国家的榜样,而且资金与技术也非遥不可及,而这些国 家地区似乎静止不动,与发达国家的距离越来越远。 在中东的某些市场,有各种摊贩。品种繁多,但是其有 几个特点:卖东西的规模小,买卖双方萍水相逢,多半是 陌生人,成交前讨价还价占很长的时间。 由于交易的产品品质参差不齐,每个东西的特色就可以 夸大其词。在讨价还价中,欺瞒诈骗的伎俩得到淋漓发挥。 双方都要在言词上胜过对方,品质倒在其次。 所以在这些市场中,产品几十年、几百年都没有大的变 化。 新制度经济学把这种均衡称为“低度均衡”。
5+5δ+5δ2+ 、、、=5/(1-δ) 只要5/(1-δ)≥10,即δ≥0.5,不欺骗就是代理人
的最佳选择.
27
通过重复博弈,建立了信誉机制.信誉机制的 核心在于:当事人为了合作带来的长远利益,愿 意抵挡欺骗带来的一次性诱惑.
收 益
欺骗
10单位 5/(1-δ)
A B
图—2 当前收益与未来收益
诚 实
它可以得到x1=1。 参与人1在T=3时1单位的收益等于T=2时 的δ1,所以在T=2时参与人2出价X2=δ1 而参与人2在T=2时的(1-δ1)收益等 于T=1时δ2(1-δ1)。 这时,SPNE的结果是x=1-δ2(1-δ1)
问题: T=4时SPNE的结果是什么? • 最终均衡值X*为(1-δ2)/(1-δ1δ2)
2
第六讲
完全信息动态博弈的应用
——讨价还价与重复博弈
上一讲小结 子博弈完美纳什均衡的两个应用 轮流出价的讨价还价模型 重复囚徒困境的解
3
子博弈完美纳什均衡的两个应用
(一)Stackelberg 动态寡头市场博弈模型:
假设在寡头市场上有两个厂商,一方较强,一方 较弱,较强的一方先行动,较弱的一方跟进。 这里,厂商选择的是产量: q 1 Leader Follower q2 这个模型说明,在信息不对称的game中,信息较 多的博弈方并不一定获得更多的收益。 这种现象的根源在于,先行动者吃准后行动者是一 个理性的,不可能为了赌气或其他原因而采取不 理性的行为。
22
厂商
高 买 低
消费者
不买
1,1
0,0
-1,2
0,0
23
对于厂商而言,提供高质量的商品是一个弱劣 策略,如果只博弈1次,则(不买,低)。 假如厂商的贴现因子δ≥1/2,则下列是SPNE: 厂商从生产高质量的商品开始;继续生产高质 量的商品;如果一次生产了低质量的商品,则 以后永远生产低质量的商品。 消费者选择购买,只要厂商没有过生产低质量 的商品,则继续购买;如果厂商生产过低质量 的商品,则不再购买。 均衡的结果是(购买,高)。
30
今天的资本可以产生利息,利息是资本 的价格,是时间的价值。
利息是一个古老的话题,在奥地利学派看来, 工人也可以成为资本家。
经济学家费雪:“不耐”、投资理论。 不耐,是时间的偏好,把今天看得很重 (儿童)。
不耐程度与收入有关(与资本的稀缺关系不 大)。可以通过信贷机制制止不耐,不应该 制止高利贷。
几种特殊的情况,贴现因子与T的关系 δ1=δ2=0时,不论T为多少,SPNE的结果是 x=1.两个人都是绝对无耐心的,则第一个 出价的人得到全部蛋糕。 如果δ1=0,δ2>0,则结果是x=1-δ2。 如果δ1=δ2=1,双方都有无限的耐心,结 果依赖于博弈的次数。 一般而言,如果0<δi<1,均衡的结果依赖 于δ的相对比例,还有博弈的时间长度T 和谁在最后出价。当T趋向于无限时,则 会有唯一的均衡结果X=1/(1+δ)。
讨价还价博弈的分析框架,对中国过去近二十年 的改革以及改革中的各种现象及问题给出了一个 综合性的理论分析)
《中国的外交:从策略到原则》
33
34
4
杜邦公司的震慑博弈
70年代,杜邦公司预测到全球未来对二氧 化钛的需求达到50万吨以上; 于是,为了垄断该市场,决定增加50万吨 的生产能力,给予对手一个震慑; 通过扩建现有工厂,新建13万吨的新厂, 使得杜邦公司保持了二氧化钛的垄断地位 达25年。
5
(二)工会与厂商的博弈
Leontief于1946年提出。此博弈的过程是:工会 决定工资,厂商根据工资的高低决定雇佣人数。 工会的效用是工资(W)和雇佣人数(L)的函数; 厂商只有一个目标,即利润(R)。 厂商只有劳动成本W×L,厂商利润:
12
在分析无限期博弈之前先讨论一下有限 期的情况,如果有限,可以使用逆向归 纳法分析。 先假设两个阶段,T=2,2来出价,他提 出X2=0,参与人1会接受,因为他没有出 价的机会。
t=1 t=2
2,δ 2)
(1-δ
(X 2,1-X 2) (0,1)
13
(X 1,1-X 1)
1. 现在假定T=3,最后阶段由参与人1出价,
25
重复博弈与信任机制
不信任
委托人
0,0 5,5
诚实 信任
代理人
欺骗
-5,10
图--1 信任博弈
26
如果此博弈只进行一次,则根据逆向归纳法,容易求 得此博弈的纳什均衡解是:委托人选择不信任,代理 人选择欺骗。 如果双方有机会长期博弈,合作可能通过信誉机制而 实现。我们假定,在每一次博弈结束前,双方都预期 有δ的可能性下期交易的机会,并且结果相同。我们 考虑委托人的“触发战略”。 代理人该如何行动?如果欺骗,只有本期的10单位收 入;如果不欺骗,得到本期的5单位收入,有δ的概 率在下期得到5单位收入、、、、、总的期望收入:
29
资本的概念? 收入(一系列事件)决定资本的价值。 Capital是一个流,重要的是把所有的未 来收入贴现到今天,今天怎么看这些收 入? 所谓贴现(discount),就是从今天的 角度来看未来的价值。这里涉及到一个 预期。 投资活动面向未来,但是决策是在今天。 “买不买这棵果树”,“买不买这个学 位”?
19
我们假设1采用了这个战略,可以证明在 δ达到一定数值以后,这一战略也是2的 最佳反应函数。 如果选择一次L战略,会得到5单位收益, 但会引起对方的报复,所以自己也只得 选L,总收益: δ 2 π=5+1.δ+1 .δ + . . .=5+ 1-δ
20
相反,如果在第一阶段采用R战略,双方 都采取触发战略,则其收益: π=4/(1-δ) δ 当 4/(1-δ)〉5+ 1-δ 即: δ〉1/4 时,博弈方对于对方的 触发战略也采取触发战略,这是一个 SPNE。
15
聪明的猴子
朝三暮四与朝四暮三 哪 一个更优?
16
第六讲
完全信息动态博弈的应用
——讨价还价与重复博弈
上一讲小结 子博弈完美纳什均衡的两个应用 轮流出价的讨价还价模型 重复囚徒困境的解
17
无限次重复囚徒困境
L L 1 R 2 R
பைடு நூலகம்
1,1 *
0,5
5,0
4,4
18
在该博弈的一次性博弈中,得益为较差的 (1,1)的(L,L)是它的唯一的纳什均衡。 在无限次重复博弈中我们假设两博弈方都采用 触发战略(trigger strategy):在第一阶段采用R战略; 在第t阶段,如果前t-1次的结果都是(R,R), 则继续采用R战略,否则采用L战略(包括自己 一旦采用L战略,以后也只能采用L战略)。 双方的这种战略在贴现率δ较大时构成无限次 重复博弈的一个SPNE。
时间
28
票据贴现是收款人或持票人将未到期的银行 承兑汇票或商业承兑汇票向银行申请贴现, 银行按票面金额扣除贴现利息后将余款支付 给收款人的一项银行授信业务。票据一经贴 现便归贴现银行所有,贴现银行到期可凭票 直接向承兑人收取票款。 假设今年的1元钱存入银行,利息为r,则 到明年就变成(1+r)元,从今年的观点看, 明年的盈利1元相当于今年的δ=1/(1+r)。 显然,0<δ≤1, δ是明年的贴现因子。当 然每年的贴现因子都可以不同,但我们都假 设它是一个相同的值。
31
降低不耐程度的方法: 1. 远见 。人无远虑,必有近忧。和知识水 平有关,有时也和工种有关。 2. 自制力。贫困地区的自制力问题,限制 无奈,导致投资。 3. 习惯 投资理论:放弃当前消费的报酬,投资 机会的提高会降低无奈水平,提高投资。
32
一系列不同对手之间的讨价还价看做市场 信息的流动和匹配。 《一般均衡的策略基础:动态匹配与讨价还 价博弈》,道格拉斯· 盖尔著,韦森总译校, 上海三联书店。 《控制权、腐败和企业改革》(用一个纳什
21
参与人不固定时的重复博弈
以往的讨论都是假定博弈的参与人是相同的, 但是有时往往一方的参与人是不固定的。如消 费品市场。 假定只有一个厂商提供商品,每个消费者只购 买一次,每个阶段只有一个消费者。 在一个阶段中,消费者决定是否购买,而厂商 决定质量高/低。 消费者在购买时不知道商品的质量,但是知道 T-1期的质量。
Maxw≥0„ W, L* (W)‟
W W*
I2 I1 I0
L* (W*)
8
L* (W)
L
第六讲
完全信息动态博弈的应用
——讨价还价与重复博弈
上一讲小结 子博弈完美纳什均衡的两个应用 轮流出价的讨价还价模型 重复囚徒困境的解
9
(一)轮流出价的讨价还价模型
讨价还价是经济生活中的极重要部分, 从日常的货物买卖到国际贸易以及政治 谈判,都存在讨价还价问题。 讨价还价模型是一个可观察行动的多阶 段博弈。 Rubinstein 于1982年建立了一个轮流出 价模型(Alternating offers):
π= π(W,L)=R(L)- W×L
第一步,厂商对工会决定的任意工资W,决定一个 最优的雇佣数L。 MaxL≥0π(W,L)= MaxL≥0„ R(L)-WL‟ 必须使π对L的导数π'(W,L)= R‘(L)-W=0
6
求解的结果R‘(L)-W=0
R 斜率为w R(L) WL
L
L* (w)
7
第二步,回到第一阶段工会的选择。工会 了解厂商的决策规则。所以工会的问题是:
10
在此模型中,两人分一块蛋糕, 1先出价,如2接受,则博弈结 束, 按1的方案分配;如2拒绝, 则由2出价,如1接受,则博弈也 结束,否则再由1出价、、、、、 直到一个参与人的出价被接受。 这个博弈从理论上讲有无限多个纳什均衡, 但是Rubinstein证明它的SPNE是唯一的。
11
用x表示参与人1的份额,用(1-x)表示参与 人2的份额,用x1和(1- x1)表示1出价时参 与人1和2的份额,用x2和(1- x2)表示2出 价时参与人1和2的份额。 假定参与人1和2的贴现因子(discount factor) 分别为δ1和δ2。 如果博弈在t期结束,则: 参与人1得到 π1=δ1t-1X1 参与人2得到 π2=δ2t-1 (1- x1);
第六讲 完全信息动态博弈的应用
—讨价还价与重复博弈
上一讲小结 子博弈完美纳什均衡的两个应用 轮流出价的讨价还价模型 重复囚徒困境的解
1
子博弈完美纳什均衡
Statements need to be backed up by sufficient threats to make them credible.
24
重复博弈:中东地区的集市
早期的制度学派一直未理解的事情:落后 国家和地区为何一直在贫困中挣扎?既然有 先进国家的榜样,而且资金与技术也非遥不可及,而这些国 家地区似乎静止不动,与发达国家的距离越来越远。 在中东的某些市场,有各种摊贩。品种繁多,但是其有 几个特点:卖东西的规模小,买卖双方萍水相逢,多半是 陌生人,成交前讨价还价占很长的时间。 由于交易的产品品质参差不齐,每个东西的特色就可以 夸大其词。在讨价还价中,欺瞒诈骗的伎俩得到淋漓发挥。 双方都要在言词上胜过对方,品质倒在其次。 所以在这些市场中,产品几十年、几百年都没有大的变 化。 新制度经济学把这种均衡称为“低度均衡”。
5+5δ+5δ2+ 、、、=5/(1-δ) 只要5/(1-δ)≥10,即δ≥0.5,不欺骗就是代理人
的最佳选择.
27
通过重复博弈,建立了信誉机制.信誉机制的 核心在于:当事人为了合作带来的长远利益,愿 意抵挡欺骗带来的一次性诱惑.
收 益
欺骗
10单位 5/(1-δ)
A B
图—2 当前收益与未来收益
诚 实
它可以得到x1=1。 参与人1在T=3时1单位的收益等于T=2时 的δ1,所以在T=2时参与人2出价X2=δ1 而参与人2在T=2时的(1-δ1)收益等 于T=1时δ2(1-δ1)。 这时,SPNE的结果是x=1-δ2(1-δ1)
问题: T=4时SPNE的结果是什么? • 最终均衡值X*为(1-δ2)/(1-δ1δ2)
2
第六讲
完全信息动态博弈的应用
——讨价还价与重复博弈
上一讲小结 子博弈完美纳什均衡的两个应用 轮流出价的讨价还价模型 重复囚徒困境的解
3
子博弈完美纳什均衡的两个应用
(一)Stackelberg 动态寡头市场博弈模型:
假设在寡头市场上有两个厂商,一方较强,一方 较弱,较强的一方先行动,较弱的一方跟进。 这里,厂商选择的是产量: q 1 Leader Follower q2 这个模型说明,在信息不对称的game中,信息较 多的博弈方并不一定获得更多的收益。 这种现象的根源在于,先行动者吃准后行动者是一 个理性的,不可能为了赌气或其他原因而采取不 理性的行为。
22
厂商
高 买 低
消费者
不买
1,1
0,0
-1,2
0,0
23
对于厂商而言,提供高质量的商品是一个弱劣 策略,如果只博弈1次,则(不买,低)。 假如厂商的贴现因子δ≥1/2,则下列是SPNE: 厂商从生产高质量的商品开始;继续生产高质 量的商品;如果一次生产了低质量的商品,则 以后永远生产低质量的商品。 消费者选择购买,只要厂商没有过生产低质量 的商品,则继续购买;如果厂商生产过低质量 的商品,则不再购买。 均衡的结果是(购买,高)。
30
今天的资本可以产生利息,利息是资本 的价格,是时间的价值。
利息是一个古老的话题,在奥地利学派看来, 工人也可以成为资本家。
经济学家费雪:“不耐”、投资理论。 不耐,是时间的偏好,把今天看得很重 (儿童)。
不耐程度与收入有关(与资本的稀缺关系不 大)。可以通过信贷机制制止不耐,不应该 制止高利贷。