贝叶斯均衡
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不完全信息动态博弈 要求: 1、在各个信息集,博弈方必须具备一个关于博弈达到该 信息集中每个节点可能性的判断,即博弈达到该信息集中 各个节点概率分布。 2、各博弈方的策略是序列理性的,即博弈方的行为及以 后阶段的后续策略(针对有可能的情况如何应对的完整计 划)必须使自己的期望得益最大。 3、在均衡路径上的信息集处,博弈方的可能性的判断由 贝叶斯法则和各博弈方的均衡决策决定。 4、在不处于均衡路径上的信息集处,博弈方的可能性的 判断由贝叶斯法则和各博弈方在此处可能有的均衡决策决 定。
足球 芭蕾 (0,0) 足球 (2 m ,1) (0,0) (1,2 f ) 芭蕾
它除了有纯策略均衡(足球,足球)(芭蕾,芭 蕾)外,还有一个混合策略(x*,y*),其中 x*=(2/3,1/3),y*=(1/3,2/3)。这个混合策略为一系 列纯策略意义下的贝叶斯纳什均衡的极限。
定义
在不完全信息静态博弈(也称为贝叶斯博弈)中,参与人 同时行动,没有机会观察到别人的选择。给定其他参与人 的战略选择,每个参与人的最优战略依赖于自己的类型。 由于每个参与人仅知道其他参与人有关类型的分布概率, 而不知道其真实类型,因而,他不可能知道其他参与人实 际上会选择什么战略。但是,他能够正确地预测到其他参 与人的选择与其各自的有关类型之间的关系。因此,该参 与人的决策目标就是:在给定自己的类型,以及给定其他 参与人的类型与战略选择之间关系的条件下,使得自己的 期望效用最大化。 贝叶斯纳什均衡是一种类型依赖型战略组合。在给定自己 的类型和其他参与人类型的分布概率的条件下,这种战略 组合使得每个参与人的期望效用达到了最大化。
信号传递博弈的精炼贝 叶斯均衡是一个策略组 合 (m * ( ), a * ( )) 和信号接收者对信号发 送者的类型推断
p( | m)
*
满足: ( )m * ( ) arg max u i (m, a (m * ); ) 1
m
(2)a * (m) arg max *u 2 (m, a; )
c2 T2
即求解优化问题: max [a q1 q 2 (c H ) c1 ]q1 (1 )[a q1 q 2 (c L ) c1 ]q1
q1
2 由以上结果联立,可以 求得贝叶斯纳什均衡结 果: a 2c1 c H (1 )c L * q1 3 a 2c H c1 1 * q 2 (c H ) (c H c L ) 3 6 a 2c L c1 * q 2 (c L ) (c H c L ) 3 6
不完全信息下的古诺模型
设两个企业生产同质产品,进行产量竞争。分别以 q1、q2表示产量,记Q= q1+q2。产品价格由市场 逆需求函数p(Q)=a-Q决定,企业i的成本为 ci(qi)=ci· i。其中c2是企业2的私人类型。企业2的 q 类型空间为T2={cH,cL},(cH>cL), cL的概率为:p {c2=cH}= , {c2=cL}=1- 。
i
h (2)pi ( i | a i )是使用贝叶斯法则从先 验概率 p i ( i | i )观测 h * 到的a i 和最优策略s i ()得到的
信号传递博弈的精炼贝叶斯均衡
信号传递博弈是不完全信息动态博弈模型 中的一个简单又重要的博弈模型。模型中 有两个参与人——信号发送者和信号接收 者,信号发送者具有私人类型 , 的概率 分布是共同知识。博弈按照海萨尼转换下 的信号传递博弈的时序进行。
( )企业2对于企业 的策略反应函数。 1 1 固定q1及c 2,求s 2 (c 2 ) q 2,最大化企业2的利润 2, 即求解优化问题: max 2 (a q1 q 2 c 2 )q 2
q2
2 a q1 c 2 由 0知a q1 q 2 c 2 0,解得q 2 (c 2 ) q 2 2 a q1 c L a q1 c H , q 2 (c H ) 2 2 (2)求企业 关于企业2的策略反应函数。 1 故q 2 (c L ) 固定企业的策略 2 (c 2 ),最大期望支付 1 p (c 2 ), s
进入 (10,10) 进 H 不进入 (0,20) 如 L 进入 (15,10) 者 不进入 (0,20)
( )海萨尼从不完全信息 1 模型的特征入手,引入 一个概念类型: t i Ti , i 1,2,, n。Ti 为局中人i的类型空间, i 为局中人i的类型。 t t i 对局中人i是已知的,对于其他局 中人是随机变量,但i的概率 t 分布是共同知识。 (2)海萨尼在模型中引入 一个虚拟局中人 ,称为自然。它的行 0 动空间为A0 Ti ,即n个局中人的类型空间的 乘积空间。自然所
信号接收者的推断满足
p{1 | m1} 1 p{1 | m2 } 0 p{ 2 | m1} 0 p{ 2 | m2 } 1
例:有两个局中人:市场潜在进入者和在位 者,他们的生产成本可能是高成本H也可能 是低成本L,但不为对方所了解,而H、L的 概率分布为他们的共同知识,支付矩阵为:
在 潜 在 默许 H 抵制 默许 位 者 L 抵制 (10,8) (10,15) (10,16) (0,20) (0,40) (0,40) | (2,8) (20,20) (2,16) (0,20) (0,40) (0,40)
(0)自然按概率分布 p( )选择信号发出者的 私人类型 ,并告知信号发出者,信号接收 者不知 ,但知其分布类型 p( )。 (1)信号发出者了解 后选择信号m并发射 信号,m所在空间成为信号空间。 (2)信号接收者观察到信号m后形成对信号 发出者的私人类型的判断——后验分布 p( | ) 然后选择行动a。 (3)根据行动参与人获得相应支付。
信号要求: 1、信号接收者能够在观察到m后对发出者的 私人类型进行判断,得出后验分布。 2R、信号接收者采取行动使其期望支付最大 化。 2S、信号发出者采取行动使其支付最大化。 3、信号接收者对信号集中持有推断必须决定 于贝叶斯法则和发送者的决策。
满足以上条件的策略组合和推断为信号传 递博弈的精炼贝叶斯均衡。
不完全信息动态博弈模 型的精炼贝叶斯均衡是 一个策略组合 s ( ) ( s1 (1 ), , s n ( n ))
* * *
和一个后验概率 ( p1 , p 2 , , p n ), 满足: p (1)对所有居中人 ,及每个信息集 i h
h s * ( s i , i ) arg max pi ( i | a i )u i ( si , s i ; i ) si
利用 阶条件可得: 1 1 q
[a q 2 (c H ) c1 ]q1 (1 )[a q 2 (c L ) c1 ]q1
用贝叶斯均衡解释混合策略均衡
以性别战博弈为例 博弈矩阵为
足球 芭蕾 足球 (2,1) (0,0) (0,0) (1,2) 芭蕾
私人信息和共同信息的区别: 1、私人信息
2、共同信息 共同知识 共同知识:并非是每个人都知道的知识 两个例子:脏脸问题 信封之谜 脏脸问题: 甲、乙、丙三人都戴红帽子,他们可以看到对方的帽子颜 色,但看不到自己帽子的颜色,问甲自己戴什么颜色的帽 子?问乙自己戴什么颜色的帽子?问丙自己戴什么颜色的 帽子?都回答不出。但一个旁观者告诉他们“他们至少有 一人戴红帽子”,问甲自己戴什么颜色的帽子?问乙自己 戴什么颜色的帽子?最后问丙自己戴什么颜色的帽子?甲、 乙不知,丙却知道自己的是红帽子。
他们没人都知道他们至少有一人戴红帽子,也知 道对方也知道他们至少有一人戴红帽子,但是对 甲而言,他不知道乙知道丙知道他们至少有一人 戴红帽子,所以该信息虽然每人都知道,但不属 于共同知识。 信封之谜: A有两个儿子M、N,他要给两个儿子一些钱,钱 的数额分别写在给他们的信封中,并告诉他们, 钱的数额为10n-1和10n(其中n为1-7之间的数), M的信封中为1000,N的信封中为10000,A问他 们是否要交换,他们均同意,A又问你们确定要 交换,他们还是都同意, A又问你们确定要交换, 他们还是都同意, A再次问你们确定要交换,结 果N不同意M同意。
a *
(3) p( | m)是信号接收者用贝叶斯 法则从的 先验概率p ( )和观测到的信号得到的
信号传递博弈求解
分离均衡 信号发送者选择满足 u1 (m1 , a * (m1 );1 ) u1 (m2 , a * (m2 );1 )
u1 (m2 , a * (m2 ); 2 ) u1 (m1 , a * (m1 ); 2 )
i 1 n
选的行动是t (t1 , t ,, t n ),即它为每个局中人选择了类型t i。 i (3)海萨尼把静态博弈转 换为了动态博弈,博弈 时序为: ①自然选择t (t1 , t ,, t n ) A0 Ti ,
i 1 n
②自然把t i 仅通知局中人 而不通知其余局中人 i ③局中人i (i 1,2,, n)同时选择行动 i Ai a
(4)对给定的n 1个局中人的行动组合 a1 , a 2 , , a n ; t1 , t 2 , , t n ), ( 局中人i可获得支付u i u i (a1 , a 2 , , a n ; t1 , t 2 , , t n )。
* * * 称策略组合( s1 (), s 2 (), , s n ())为不完全信息静态博弈 的贝叶斯
贝Baidu Nhomakorabea斯均衡及其应用
• • • • • • • • • •
预备知识(共同知识) 静态博弈中的贝叶斯均衡 不完全信息下的古诺模型 用贝叶斯均衡解释混合策略均衡 显示原理 动态博弈中的贝叶斯均衡 信号传递博弈的精炼贝叶斯均衡 单一价格二手车模型 就业市场信号博弈 信息不完全条件下的囚徒困境问题
不完全信息博弈: 不完全信息意味着至少有一个参与人有多个类型。不完全 信息博弈是指、至少有一参与人不知道其他参与人的支付 函数。比如说, 你想去买件衣服时, 你并不清楚衣服的最低 价, 你和某人谈恋爱, 但在结婚前, 双方都是展现最好的一 面, 双方都不是很了解对方的很多品质, 等等, 这样的例子 举不胜举。在古代, 人们已经开始用到不完全信息博弈了。 比如在《三国演义》中, 周瑜伪造假降书, 诱骗曹操杀了蔡 摺、张允二将。曹操遂派蔡中、蔡和两兄弟假装降周瑜, 企图夺取东吴情报。周瑜识破曹操的诡计, 将计就计, 对黄 盖施以苦肉计。这一博弈中, 曹操只知道自己的部下蔡中、 蔡和是假降, 但不知道周瑜的情报周瑜知道蔡中、蔡和是 假降, 但曹操不知道周瑜知道自己是假降, 曹操不知道周瑜 已经识别了自己的计划。也就是说曹操的信息对周瑜的信 息是不完全的, 但周瑜很清楚曹操计谋, 于是周瑜就将计就 计。这一博弈属于不完全信息博弈。
纳什均衡,对于 i, t i Ti 及si* (t i ) ai*,如果ai*最大化局中人 的 i
* 期望支付,即 i* (t i ) arg max u i ( s i (t i ), ai ; t1 , , t n ) pi (t i | t i ) s ai ti
显示原理
对任何贝叶斯博弈的任何贝叶斯纳什均衡s* 都可以重构为一个激励相容的直接机制。 这里的重构为经过适当的设计,可构成一 个新的贝叶斯博弈,对于局中人的任何一 个类型组合t=(t1,t2,…,tn),每个局中人在新 的博弈下贝叶斯均衡的支付与原博弈中贝 叶斯均衡下的支付完全一样。
完美贝叶斯均衡
足球 芭蕾 (0,0) 足球 (2 m ,1) (0,0) (1,2 f ) 芭蕾
它除了有纯策略均衡(足球,足球)(芭蕾,芭 蕾)外,还有一个混合策略(x*,y*),其中 x*=(2/3,1/3),y*=(1/3,2/3)。这个混合策略为一系 列纯策略意义下的贝叶斯纳什均衡的极限。
定义
在不完全信息静态博弈(也称为贝叶斯博弈)中,参与人 同时行动,没有机会观察到别人的选择。给定其他参与人 的战略选择,每个参与人的最优战略依赖于自己的类型。 由于每个参与人仅知道其他参与人有关类型的分布概率, 而不知道其真实类型,因而,他不可能知道其他参与人实 际上会选择什么战略。但是,他能够正确地预测到其他参 与人的选择与其各自的有关类型之间的关系。因此,该参 与人的决策目标就是:在给定自己的类型,以及给定其他 参与人的类型与战略选择之间关系的条件下,使得自己的 期望效用最大化。 贝叶斯纳什均衡是一种类型依赖型战略组合。在给定自己 的类型和其他参与人类型的分布概率的条件下,这种战略 组合使得每个参与人的期望效用达到了最大化。
信号传递博弈的精炼贝 叶斯均衡是一个策略组 合 (m * ( ), a * ( )) 和信号接收者对信号发 送者的类型推断
p( | m)
*
满足: ( )m * ( ) arg max u i (m, a (m * ); ) 1
m
(2)a * (m) arg max *u 2 (m, a; )
c2 T2
即求解优化问题: max [a q1 q 2 (c H ) c1 ]q1 (1 )[a q1 q 2 (c L ) c1 ]q1
q1
2 由以上结果联立,可以 求得贝叶斯纳什均衡结 果: a 2c1 c H (1 )c L * q1 3 a 2c H c1 1 * q 2 (c H ) (c H c L ) 3 6 a 2c L c1 * q 2 (c L ) (c H c L ) 3 6
不完全信息下的古诺模型
设两个企业生产同质产品,进行产量竞争。分别以 q1、q2表示产量,记Q= q1+q2。产品价格由市场 逆需求函数p(Q)=a-Q决定,企业i的成本为 ci(qi)=ci· i。其中c2是企业2的私人类型。企业2的 q 类型空间为T2={cH,cL},(cH>cL), cL的概率为:p {c2=cH}= , {c2=cL}=1- 。
i
h (2)pi ( i | a i )是使用贝叶斯法则从先 验概率 p i ( i | i )观测 h * 到的a i 和最优策略s i ()得到的
信号传递博弈的精炼贝叶斯均衡
信号传递博弈是不完全信息动态博弈模型 中的一个简单又重要的博弈模型。模型中 有两个参与人——信号发送者和信号接收 者,信号发送者具有私人类型 , 的概率 分布是共同知识。博弈按照海萨尼转换下 的信号传递博弈的时序进行。
( )企业2对于企业 的策略反应函数。 1 1 固定q1及c 2,求s 2 (c 2 ) q 2,最大化企业2的利润 2, 即求解优化问题: max 2 (a q1 q 2 c 2 )q 2
q2
2 a q1 c 2 由 0知a q1 q 2 c 2 0,解得q 2 (c 2 ) q 2 2 a q1 c L a q1 c H , q 2 (c H ) 2 2 (2)求企业 关于企业2的策略反应函数。 1 故q 2 (c L ) 固定企业的策略 2 (c 2 ),最大期望支付 1 p (c 2 ), s
进入 (10,10) 进 H 不进入 (0,20) 如 L 进入 (15,10) 者 不进入 (0,20)
( )海萨尼从不完全信息 1 模型的特征入手,引入 一个概念类型: t i Ti , i 1,2,, n。Ti 为局中人i的类型空间, i 为局中人i的类型。 t t i 对局中人i是已知的,对于其他局 中人是随机变量,但i的概率 t 分布是共同知识。 (2)海萨尼在模型中引入 一个虚拟局中人 ,称为自然。它的行 0 动空间为A0 Ti ,即n个局中人的类型空间的 乘积空间。自然所
信号接收者的推断满足
p{1 | m1} 1 p{1 | m2 } 0 p{ 2 | m1} 0 p{ 2 | m2 } 1
例:有两个局中人:市场潜在进入者和在位 者,他们的生产成本可能是高成本H也可能 是低成本L,但不为对方所了解,而H、L的 概率分布为他们的共同知识,支付矩阵为:
在 潜 在 默许 H 抵制 默许 位 者 L 抵制 (10,8) (10,15) (10,16) (0,20) (0,40) (0,40) | (2,8) (20,20) (2,16) (0,20) (0,40) (0,40)
(0)自然按概率分布 p( )选择信号发出者的 私人类型 ,并告知信号发出者,信号接收 者不知 ,但知其分布类型 p( )。 (1)信号发出者了解 后选择信号m并发射 信号,m所在空间成为信号空间。 (2)信号接收者观察到信号m后形成对信号 发出者的私人类型的判断——后验分布 p( | ) 然后选择行动a。 (3)根据行动参与人获得相应支付。
信号要求: 1、信号接收者能够在观察到m后对发出者的 私人类型进行判断,得出后验分布。 2R、信号接收者采取行动使其期望支付最大 化。 2S、信号发出者采取行动使其支付最大化。 3、信号接收者对信号集中持有推断必须决定 于贝叶斯法则和发送者的决策。
满足以上条件的策略组合和推断为信号传 递博弈的精炼贝叶斯均衡。
不完全信息动态博弈模 型的精炼贝叶斯均衡是 一个策略组合 s ( ) ( s1 (1 ), , s n ( n ))
* * *
和一个后验概率 ( p1 , p 2 , , p n ), 满足: p (1)对所有居中人 ,及每个信息集 i h
h s * ( s i , i ) arg max pi ( i | a i )u i ( si , s i ; i ) si
利用 阶条件可得: 1 1 q
[a q 2 (c H ) c1 ]q1 (1 )[a q 2 (c L ) c1 ]q1
用贝叶斯均衡解释混合策略均衡
以性别战博弈为例 博弈矩阵为
足球 芭蕾 足球 (2,1) (0,0) (0,0) (1,2) 芭蕾
私人信息和共同信息的区别: 1、私人信息
2、共同信息 共同知识 共同知识:并非是每个人都知道的知识 两个例子:脏脸问题 信封之谜 脏脸问题: 甲、乙、丙三人都戴红帽子,他们可以看到对方的帽子颜 色,但看不到自己帽子的颜色,问甲自己戴什么颜色的帽 子?问乙自己戴什么颜色的帽子?问丙自己戴什么颜色的 帽子?都回答不出。但一个旁观者告诉他们“他们至少有 一人戴红帽子”,问甲自己戴什么颜色的帽子?问乙自己 戴什么颜色的帽子?最后问丙自己戴什么颜色的帽子?甲、 乙不知,丙却知道自己的是红帽子。
他们没人都知道他们至少有一人戴红帽子,也知 道对方也知道他们至少有一人戴红帽子,但是对 甲而言,他不知道乙知道丙知道他们至少有一人 戴红帽子,所以该信息虽然每人都知道,但不属 于共同知识。 信封之谜: A有两个儿子M、N,他要给两个儿子一些钱,钱 的数额分别写在给他们的信封中,并告诉他们, 钱的数额为10n-1和10n(其中n为1-7之间的数), M的信封中为1000,N的信封中为10000,A问他 们是否要交换,他们均同意,A又问你们确定要 交换,他们还是都同意, A又问你们确定要交换, 他们还是都同意, A再次问你们确定要交换,结 果N不同意M同意。
a *
(3) p( | m)是信号接收者用贝叶斯 法则从的 先验概率p ( )和观测到的信号得到的
信号传递博弈求解
分离均衡 信号发送者选择满足 u1 (m1 , a * (m1 );1 ) u1 (m2 , a * (m2 );1 )
u1 (m2 , a * (m2 ); 2 ) u1 (m1 , a * (m1 ); 2 )
i 1 n
选的行动是t (t1 , t ,, t n ),即它为每个局中人选择了类型t i。 i (3)海萨尼把静态博弈转 换为了动态博弈,博弈 时序为: ①自然选择t (t1 , t ,, t n ) A0 Ti ,
i 1 n
②自然把t i 仅通知局中人 而不通知其余局中人 i ③局中人i (i 1,2,, n)同时选择行动 i Ai a
(4)对给定的n 1个局中人的行动组合 a1 , a 2 , , a n ; t1 , t 2 , , t n ), ( 局中人i可获得支付u i u i (a1 , a 2 , , a n ; t1 , t 2 , , t n )。
* * * 称策略组合( s1 (), s 2 (), , s n ())为不完全信息静态博弈 的贝叶斯
贝Baidu Nhomakorabea斯均衡及其应用
• • • • • • • • • •
预备知识(共同知识) 静态博弈中的贝叶斯均衡 不完全信息下的古诺模型 用贝叶斯均衡解释混合策略均衡 显示原理 动态博弈中的贝叶斯均衡 信号传递博弈的精炼贝叶斯均衡 单一价格二手车模型 就业市场信号博弈 信息不完全条件下的囚徒困境问题
不完全信息博弈: 不完全信息意味着至少有一个参与人有多个类型。不完全 信息博弈是指、至少有一参与人不知道其他参与人的支付 函数。比如说, 你想去买件衣服时, 你并不清楚衣服的最低 价, 你和某人谈恋爱, 但在结婚前, 双方都是展现最好的一 面, 双方都不是很了解对方的很多品质, 等等, 这样的例子 举不胜举。在古代, 人们已经开始用到不完全信息博弈了。 比如在《三国演义》中, 周瑜伪造假降书, 诱骗曹操杀了蔡 摺、张允二将。曹操遂派蔡中、蔡和两兄弟假装降周瑜, 企图夺取东吴情报。周瑜识破曹操的诡计, 将计就计, 对黄 盖施以苦肉计。这一博弈中, 曹操只知道自己的部下蔡中、 蔡和是假降, 但不知道周瑜的情报周瑜知道蔡中、蔡和是 假降, 但曹操不知道周瑜知道自己是假降, 曹操不知道周瑜 已经识别了自己的计划。也就是说曹操的信息对周瑜的信 息是不完全的, 但周瑜很清楚曹操计谋, 于是周瑜就将计就 计。这一博弈属于不完全信息博弈。
纳什均衡,对于 i, t i Ti 及si* (t i ) ai*,如果ai*最大化局中人 的 i
* 期望支付,即 i* (t i ) arg max u i ( s i (t i ), ai ; t1 , , t n ) pi (t i | t i ) s ai ti
显示原理
对任何贝叶斯博弈的任何贝叶斯纳什均衡s* 都可以重构为一个激励相容的直接机制。 这里的重构为经过适当的设计,可构成一 个新的贝叶斯博弈,对于局中人的任何一 个类型组合t=(t1,t2,…,tn),每个局中人在新 的博弈下贝叶斯均衡的支付与原博弈中贝 叶斯均衡下的支付完全一样。
完美贝叶斯均衡