演化博弈非常好的ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经典博弈中的完全理性与现实相差太远。众多人 类行为表现出人的理性是有限的,由于受认知能 力的限制,有限理性的人类通常是根据习惯、常 规以及经验法则行事,人类不可能如博弈论所描 述的那样,通过复杂的计算获得最佳反应战略。 但是,人类懂得学习,通过学习来比较,纠正错 误,所以说,人类又是理性动物。从某种意义上 来说,人类的学习和生物的演化没有本质区别, 将进化论思想引入到博弈论,形成了演化博弈论。 1973年,约翰•梅纳德•史密斯(John Maynard Smith)提出演化博弈论。
① ② ③
因为F(x) =x(1-x)[(a-b-c+d)x+(b-d)],该复制动态最多有3个稳定状 态,分别为x*=0、 x*=1、 x*=(b-d)/(a-b-c+d)。 一个稳定状态必须对微小扰动具有稳健性才能称为进化稳定策略。 这相当于要求当干扰使x出现高于x*时, dx/dt=F(x) 必须小于0,即 F’(x*) <0 。这就是微分方程的稳定性定理。 如 F(x) =x(1-x)(1-6x) ,不难解出x*=0、 x*=1、 x*=1/6。 进一步证明,只有1/6才是ESS。因为F’(1/6) <0 ,而F’(0) >0 , F’(1) >0 。根据图2也可以看出只有1/6才是进化稳定策略。
假设在某一范围内有2只雄蛙。如果都不叫,雌蛙不来,都没有交 配的机会;如果1只叫,会吸引1只雌蛙,2只雄蛙都有获得交配的 机会,但机会不一样,叫的机会为m,0.5<m<1,但鸣叫的要付出成 本z;如果都鸣叫,则个能吸引p只雌蛙获得交配的机会,m<p<1, 各有成本z。如表4。 该博弈的NE取决于p、m、z的相对水平。首先,如果m-z<0,由于 p<1,必有p-z<1-m,两只雄蛙都不叫,不叫为NE。其次,如果mz>0,但p-z<1-m仍然成立,则存在两个NE,还存在一个混合NE。 最后,如果m-z>0,p-z>1-m,则都鸣叫为NE。结果可归结为m和z 坐标平面中的几个不同区域(图3)。
1
x
0
X*
2、蛙鸣博弈的复制动态和ESS
“黄梅时节家家雨,青草池塘处处蛙”,青蛙为什么鸣叫呢?为什么有 的青蛙叫,有的不叫呢?演化博弈强调与生物进化论的关系,这里把 青蛙特定器官、行为的进化作为一般2*2对称博弈进行分析。 现代青蛙演变成了雄蛙能够非常响亮地鸣叫,而雌蛙则有相当好的听 力。雄蛙之所以如此热衷于“歌唱”,当然不是要给人类提供免费的 音乐会,而是为了获得更多的交配和繁殖后代的机会,把自身的基因 最大限度的遗传下去。 “歌唱”相当于竞赛,但“歌唱”也要成本的,一是要耗气力,消耗 能量;二是可能给天敌发现的机会。另外,雄蛙在鸣叫上还存在“搭 便车”现象。在这个博弈中,鸣叫的雄蛙并不总是获利较多的,因此 现实中的雄蛙既有鸣叫的,也有不叫的。 所以,我们还可忍受青蛙的“歌唱”,也才会写出上面这样优美的诗 句。(后两句是什么?)
这个博弈称为协调博弈 (coordination game),有两个 局中 A 50,50 49,0 NE:(A,A),(B,B)。后者明显 人1 B 0,49 60,60 帕累托由于前者。通常的预测 结果是(B,B)。 如果考虑风险因素,那么前者 2、博弈方能够对上一阶段的结果 进行总结,对策略进行调整。这 是更好的预测。 种学习和调整策略的方式,就是 由于现实中的理性是不完全的, “最优反应动态”(Best 因此要在有限理性的基础上来 Response Dynamics)的思路或 分析这个模型。 者说学习调整机制。
在演化博弈中,认为参与人的选择行为可以依据前人 的经验、学习与模仿他人行为、受遗传因素的决定等。 因而演化博弈把具有主观选择行为的参与人扩展为包 括动物、植物在内的有机体,动植物参与者的支付可 被了解为某种适应程度。把博弈论的分析与应用从研 究人类的竞争行为扩展为研究有机体的策略互动关系。 这个领域的开创性工作是由英国生物学家约翰·梅纳 德·史密斯(John Maynard Smith)和G.R.普里斯 (G.R.Price)1973年进行的。演化博弈现在正逐渐 被广泛应用于社会经济学领域。
8.2 引例:鹰鸽博弈 引例:
1、鹰鸽博弈
鹰鸽策略模型是博弈中的一个经典模型。为了争夺资源(比如土地、 食物、政权、配偶等),群体中的成员之间要进行斗争,设每个成员 为博弈中的局中人,局中人可以采取两种策略,一种是恶意的强硬进 攻策略“攻击对方”(不顾一切争斗下去,直到一方失败退出竞争为 止),称之为“鹰策略”,用“H”表示;另一种是善意的平和宽容策 略“和平相处”(允许对方分享利益,不主动争斗,在对方进攻时只 是虚张声势地吓唬一番,一旦争斗起来,为避免两败俱伤,采取退让 策略,但也可能给予一定的报复),称为“鸽策略”,用“D”表示。 2、假设有一群鸟,一部分(25%)采用H,另一部分(75%)采用D, 其支付矩阵如下表1。
1、一般两人对称博弈的复 制动态和ESS
如表3是一个简单的2*2对称博弈, 如果不给出收益的具体数值,该博 弈有哪些NE并不清楚。考虑该博弈 的有限理性问题,对于有限理性的 博弈方来说,能否知道NE并不重要, 不管是否NE策略,任何策略都可能 有部分博弈方会采用。 在一个群体中,有比例为x的人采用 策略1,(1-x)的人采用策略2。采 用两种策略的博弈方的期望收益和 群体平均收益分别为:
由于是一群鸟在博弈,那么每只鸟的每次博弈碰到另一只鸟采用H策略 的概率就有25%,而碰到采用D策略的鸟的概率为75%,这样可以计算 期望收益。假定z为鹰在整个种群中的比例(这里为0.25)。因此(1-z) 即为鸽子所占的比例。鹰的收益期望为: EV(H)=(-25z)+14(1-z)=14-39z 而鸽子的收益期望为: EV(D)=(-9z)+5(1-z)=5-14z 这里,EV(H)=4.25, EV(D)=1.5 。
8.1 有限理性
在新古典经济学和大多数的博弈论中都假定,人是 追求收益最大化的,并且可以无误地选择最优反应 战略。但很多人认识到人的真实理性是有限的。赫 伯特·西蒙研究认为,如果人们在某一问题有满意解 时,就不会再去寻找最优解。 在经典博弈论中,假设参与人具有使自己支付最大 化的主观意识与对于对手策略的最优反应能力,在 实际中,这种假设可能是不现实的。譬如在“象棋” 中,棋手不可能在每一步都能够采取最优的反应行 动。因而有必要把参与人的完全理性行为假设推广 为不完全理性行为的假设。
第8章 演化博弈 章
凤凰鸣兮,于彼高岗;梧桐生兮,于彼朝阳。 一群人鱼贯进入一个房间参加一个聚会,门口 有多种不知道品牌的饮料,颜色也相差不大, 每个人倒一杯饮料进入房间,最后,这几种饮 料剩余的情况是怎么样的呢? 游戏:每个人写一个1~100中的一个整数,最 后,最接近平均数的2/3的人获得优胜。
乙 方
策略1 策略2
b, c d, d
甲 策略1 方 策略2
a,a c, b
根据上述收益得到复制动态方程: dx/dt = x (R1 - Ra) =x(1-x)[(a-b-c+d)x+(b-d)]. 令:dx/dt=F(x) F(x)为x的单元函数。
R1 = x*a +(1-x)b R2 = x*c +(1-x)d Ra = xR1 +(1-x) R2
8.4 复制动态和演化稳定性: 两人对称博弈
有限理性博弈方有多种不同的理性层次,学习的速度 差别也很大。最优反应动态是具有较快学习速度的有 限理性博弈方的策略调整和策略稳定性。下面讨论学 习速度较慢的动态策略调整及其稳定性。 分析框架是这种博弈方组成的大群体成员的随机配对 反复博弈。这一节讨论群体中博弈方是相似的,即进 行的博弈是博弈位置无差异的两人对称博弈。下一节 讨论群体成员是有差异的,进行非对称博弈的情况。
种群收益与种群的繁殖是成比例的, 所以两个种群都会不断增长。 显然,鹰的增长速度要快于鸽子。 这样,鹰和鸽子的比例就会改变, 鸟 最后,鹰和鸽子的比例会是多少呢? A 这就是一个演化战略,即ESS.
鸟B H H D
-25, -25 -9, 14
D
14, -9 5, 5
8.3 最优反应动态
1、协调博弈的快速学习模 型(表2) 局中人2 A B
关于信任博弈
Berg等人于1995年首先对信任博弈进行了研究,假设两 个参与者P(提议者,Propose)和R(响应 者,Responder),P首先从实验组织者那里得到数量为m 的钱,然后自行决定把数额为x的钱交给R(0 ≤ x ≤ m)。 实验者再把3x的钱奖励给R。最后,R可以自由返回给P 数额为y的钱。根据逆向归纳法,实验的结果应该是:不 管P给了R的x是多少,R的最优策略是y=0,因此P的最优 策略应该是x=0。但实验的实际结果完全不是这样,大 部分的提议者总会把一定数量的钱交给R,而大部分的R也 会把一部分奖励分给P,而且,x和y之间有很强的正相关。
假设有5个局中人环山而居,如图1。每 个人都与左右邻居反复博弈。 由于每个人是有限理性的,所以,第一次 可能既采用A,也可能采用B策略。初次 博弈总共有32种情况(?),右边给出 了两种情况。32种中有不少实质上是相 同的,根据采用A策略的数量和分布,总 共有“0A”、 “1A”、 “2A相邻”、 “2A不邻”、 “3A相连”、 “3A不相 连”、 “4A”、 “5A”共8中情况。 5个局中人从各种可能的初次博弈情况出 发,在反复学习调整过程中,最终结果会 怎么样?是否初始博弈的情况不同,收敛 性和稳定状态也会不同
B B
A
A B
B A
A
Байду номын сангаас
A A
假设 xi(t) 为在t 时期的邻居中 i 采用策略 A 邻居的数量,该数量有0、1、 2三种可能。采用B 邻居的数量相应为2- xi(t) ,也有0、1、2三种可能。 针对第t期的情况, i 采用A的得益为: xi(t) *50+[2-xi(t)]*49= xi(t)+98 , 采用B则得益为: xi(t) *0+[2-xi(t)]*60= 120-60xi(t)。 因此根据最优反应动态机制,当 xi(t)+98 >120-60xi(t) 时,即 xi(t) >22/61,局中人 i 在 t+1 期会采用 A ; 而当 xi(t)<22/61 时,会采用 B 策略。 由于xi(t) 只能取0、1、2,所以,i 在t期,如果邻居中有采用A的,下一 期也采用A,如果没有,下一期就采用B。这里i在下一期采取的策略跟 上一期没有关系。 5个局中人都适应上述规则,所以,初次博弈为“0A”时,以后都还是采 用B策略;而其余的各种情况,经过或多或少时期的最优反应动态法则 的调整,最终都会收敛到所有局中人都采用A的稳定状态。(可以对前 面2种情况演练一下)
爱克斯罗德以竞赛的方法,让持不同策略的对手把策略编成程序,在计 算机上轮流相遇,反复进行囚徒困境博弈模拟的循环赛,并累计各自得 分,以别胜负。这样的竞赛进行了两次。 第一次参赛的有15种策略,分别出自经济学、心理学、社会学、政治 学和数学领域的专家。循环赛的结果出人意料——获得冠军的是 “针 锋相对”(TFT)策略。这个策略是以诚信开始,然后跟踪对方上一步 的策略,以诚信回报诚信,以欺骗报复欺骗。得分名列前茅的程序有如 下三个特点:①从不首先选择欺骗,即策略是“善良的”;②对于对方 的欺骗一定要报复,即“可激怒的”;③不能人家一次背叛,就没完没 了地报复,以后只要人家改过,也要合作,即“宽容的”。 第二次比赛吸引了来自6个国家的63个程序参加,比赛结果,第一名仍 是TFT策略程序。这一次,艾克斯罗德又进行了总结,发现在63个程序 中的前15名,只有第8 名的程序是“不善良的”(或者说是“恶意 的”),而后15名中只有一个是“善良的”。而前面总结的三个特点 仍然有效,可激怒性和宽容性也得到了证明。在这里还有一个启示: TFT策略的成功是以对方成功为基础的,选择TFT的选手,在与某一个 对手博弈时,得分不可能超过对手,最多是与对手打个平手,但他的总 分最高。他赖以生存的基础很牢固,因为他让对手得了高分。