博弈论的数学模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
博弈论的数学模型
作者:竺可桢学院01混合班
王大方何霈邹铭
摘要
博弈论现在得到了广泛的应用,涉及到人的决策问题都可以用博弈论的模型加以解释。本文首先用数学的方法表述实际生活中的博弈行为,并导出一般情况下的博弈的结果,进而讨论一些不同的外部约束条件对博弈过程的影响。我们用经济学中的垄断竞争现象作为博弈问题的一个实例,讨论生产者在不同状态下的决策,进而分析双方共谋的动机和可能性。
(一)基本博弈模型的建立
一, 博弈行为的表述
博弈的标准式包括:
1.1.博弈的参与者。
2.2.每一个参与者可供选择的战略集。
3.3.针对所有参与者可能选择的战略组合,每一个参与者获得的利益在n人博弈中,用Si为参与者i的可以选择战略空间,其中任意一个特定的纯战略为s i,其中任意特定的纯战略为s i,s i∈Si,
n元函数u i(s1,s2,……s n), 当n个博弈者的决策为s1,s2,……s n时,表示第I各参与者的收益函数。
二, 博弈的解
当博弈进入一个稳定状态时,参与者选择的战略必然是针对其他参与者既定战略的
最优反应,在此状态下没有人愿意单独背离当前的局势。这个局势叫纳什均衡:在n个参与者标准式博弈,G={ S1,S2,……S n;u1,u2,……u n}中,若战略组合{s1*,s2*,……s n*}满足对每一个参与者i,s i*是针对{ s1*,s2*,……s i-1*,s i+1*……s n*}的最优反应战略,,目标战略组合{s1*,s2*,……s n*}为该博弈的纳什均衡。即:u i { s1*,s2*,……s i-1*,s i*,s i+1*……s n*}≥u i { s1*,s2*,……s i-1*,s i,s i+1*……s n*},对一切s i∈Si均成立。
纳什于1950年证明在任何有限个参与者,且每个参与者可选择的纯战略为有限个的博弈中,均存在纳什均衡。(包括混合战略)混合战略指认某种概率分布来取一个战略空间中的战略,在本文中不加讨论。
在一般情况中,纳什证明保证了我们的均衡分析有意义。
三, 博弈实例:单阶段博弈古诺竞争
在古诺竞争中,少数厂商通过改变产量来控制价格,以使他们的收益最大化。
我们作如下假设:
1.1.厂商生产的商品是相同的,消费者没有对某家厂商的偏好。
2.2.市场上价格与供给量的函数为p=a-bQ,且供给增加不会导致过剩,而仅仅使价格降低,即厂商可以将生产的产品全部售出。
3.3.厂商都是理性的,即面对既定的情况都做出决策使自己利益最大化。
4.4.信息是完全的,每个厂商都知道其他厂商时理性的,且每个厂商知道别人是理性的这一事实为所有参与者的共识。
(二)博弈模型的求解与讨论
为了简单起见,我们从一家企业的情况做起:
只有一家企业时,目标收益函数u=Q(a-bQ)
针对max u 的解为Q0=a/2b,u0=a2/4b
当有两家企业时,设产量分别为Q1,Q2,则
p=a-b(Q1+Q2)
u1(Q1,Q2)=p*Q1=Q[a-b(Q1+Q2)]
u 2(Q 1,Q 2)=p*Q 2=Q[a-b (Q 1+Q 2)]
纳什均衡点Q 1*,Q 2*为方程组
/ =0 (1)
/=0 (2) 的解。 整理,得到
2bQ 1+bQ 2=a (3)
bQ 1+2bQ 2=a (4)
解得 Q 1*=Q 2*=a/3b ,对应的u 1=u 2=a 2/9b
纳什均衡点是一个极值点,一旦达到该点时双方都没有率先改变的动机。
下面我们讨论纳什均衡点的孤立性,即在对方初始决策不在纳什均衡时,双方能否通过理性的利益最大化策略使博弈形势变化至纳什均衡点。
(1)式表示厂商1的最优函数,在给定对方产量Q 时它根据(1)来使自己收益最大, 由
(3)式, 厂商最优函数为Q 1=(a-bQ 2)/2b 同样(2)时表示厂商(2)的最优函数,由(4)式,厂商2的最优函数为Q 2=(a-bQ 1)/2b
这是两条直线,如图,交点E 为纳什均衡点。
AB 为厂商1的最优函数,CD 为厂商2的最优函数,
当双方的初始选择点为A ,即Q 1=0,Q 2=a/b ,A 在厂商1最优函数上,故厂商1不会改变,但厂商2针对Q 1=0的最有点为C ,于是双方的决策点转移到C ,在C 点厂商1会调整自己的产量时双方决策点到F ,然厂商2又会调整策略到CD 上,以此类推,最后将到达E 点,在第一象限的任何初始选择点,按以上分析双方都能经过一系列调整到达E 点。
在完全信息的假设下,上面这一系列的调整过程在任何一方决策之前就能被预测到,任何一个厂商都回绝的任何一个异于E 点的决策都不是在给定条件下最好的选择,于是双方会不约而同的按E 点做出产量决策。但是当
Q 1=Q 2=1/2 * a/2b (5) 时双方才能获得最大收益。
Q 1=Q 2=1/2 * a 2/4b (6)
这一方面说明纳什均衡点并不是一个最好的决策点,另一方面也说明与独家垄断比起来两家厂商的竞争提高了社会效应,社会总产量从a/2b 增加到了2/3 * a/b=2a/3b 。
当厂商数增加至n 家时,模型变为
p=a-b*∑n i=1Q i (7)
u i =p*Q i ,i=1,2,……n (8) 1u ∂1Q ∂2u ∂2Q
∂
/ =0 I=1,2……n (9) 由归纳法可证明(9)可化为方程组(以矩阵形式表示) = a/b * (1)
由线性代数分析可知,该方程组有唯一非零解
Q 1*=Q 2*=…Q n *=a/(n+1)b,
u i *=a 2/(n+1)2b
社会总产量为na/(n+1)b 。
这说明h 厂商垄断竞争也必有纳什均衡点,同样方法可证明纳什均衡点不是孤立的,于是理智的各方均会按均衡点做产量决策。
另外n 越大,竞争越彻底,社会总产量越高。当n 很大时,总产量趋于a/b ,此时价格p 为0,这时价格p 为0,此时这个模型不适用。因为在n 较小,(一般小于5)时垄断厂商才有能力通过自己的产量来控制价格。
厂商们的整体最好选择是Q 1*=Q 2*=……Q n *==a/2nb, 分别能获得收益,a 2/4nb 。显然n 越大,厂商们理性博弈的结果和他们的最好选择点间的差距越大。
(三)多阶段博弈与共谋
以上可以看出,作为博弈者的厂商很有必要共谋限制产量,但最好的选择点是不稳定的,率先违约的一方都能获取额外利润,因此需要一些条件来约束双方的行为。另外共谋只有在长期过程中才有效益,双方需要不断检查是否已经违约,并决定自己是否要违约,每次这样的过程就是上文的单阶段博弈。
这里的信息条件为每企业在n 阶段可以观察的前n-1阶段博弈结果。规则为一旦对方违约,自己就违约,且永不守约,这为双方所共识。
我们新引入一个时间贴现因子v ,0 a 2(1+v+v 2+……)/8b=a 2/[8(1-v )b] (10) 对先违约的一方,根据对方a 2/4b 的产量,由(3)和(4),它的最优产量为3a/8b ,该阶段收益为 [a-b (3/8+1/4)a/b]*3/8*a/b=9a 2/64b (11) 此后双方都明白共谋破裂,均按a/3b 的均衡产量生产。设一方在N 阶段违约,则收益为a 2(1+v+v 2+……v N-1)/8b+9v N /64*a 2/b+v N+1*a 2/[(1-v )ab] (12) (12)-(10),得 [v N /64-v N+1/72(1-v )]*a 2/b 解得 当v<0.529时,先违约方有利,且违约越早, 额外利润最高。此时共谋很难达成。 (四)共谋与监督问题的深入 长期博弈中,人们需要一套更为复杂的机制来维持一种非纳什均衡,以维持利益的最大化。和之前的那个模型不同,在每一次作单阶段博弈时,人们不仅仅通过前一次的结果,而是通过一种长期的经验来对对手做出判断。这里涉及一个信誉问题,他是一个标证不确定因素的概率,这样的模型使得我们可以根据对手不同的策略作出最有利于自己的决断。合作的结果一般出现在离博弈结束较远的阶段,而在最后几个阶段的博弈中博弈者往往只注重当前的利益。 我们提出的维护声誉的策略是“投桃报李”,即下一次作的决策与对手上一次的决策相同,i u ∂i Q ∂21 (111) 2....11112....1: ::::11....12⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭12::n Q Q Q ⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭11::1⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭