《博弈论基础》课程期末论文(秋冬)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

诚信考试沉着应考杜绝违纪
《博弈论基础》课程期末考试试卷
开课学院:公共管理学院,考试形式:开卷,允许带___________入场
考试时间:所需时间:2周
考生姓名: __学号:专业: ___
写在前面的话:
1、由于信息不对称,成绩取决于您所传递的学识与才能,而不是您实际所拥有的真实状况。

因此,希望您至少在某些题目上有出色的表现。

2、要求您独立完成所有题目,您的答案(主要指论述题)与其他同学如有明显雷同,纯属相互抄袭,绝非巧合。

3、本试卷题目的难度一定足以充分展示您的才能,希望您能够尽可能完成所有的题目,以便最大限度地显示您的水平,无愧于您作为浙大学子的盛誉。

4、所有答案的总字数不得少于5000字,也尽量不要超过20000字。

5、每题20分,共100分,如果您在某些题目上有突出的表现,也可以额外加分(总分小于100分的前提下)。

6、希望您和任课老师博弈的均衡结局是:您竭尽全力并出色地完成了所有的题目,迫使老师不得不给您一个高分。

7、一律使用打印稿,在4月11日晚上上交打印稿的同时,能够把电子稿通过电子邮件(地址:jwh0422@)发送到任课教师的邮箱。

1、完全信息静态博弈
参与人B
参与人A U
D
的不同均衡结果(如智猪博弈,斗鸡博弈,囚犯困境,性别战,监督博弈等)。

(对不同模型要有相应的分析或阐述,不能举上课和教材中已经举过的例子。


例1:
假设:在一家企业里,上司给A、B二人布置了一件任务,要求他们共同完成。

同时假设:①上司只看最终结果而不管两人实际付出的工作;②A比B更有能力(即耗费相同精力可以创造更大效益),而且老板是知道这一点的。

若二人通过合作出色地完成了任务,老板会发6000元奖金,A 得4000,B得2000;若一人偷懒另一人勉强完成任务,只注重结果的老板会发3000元奖金,A得2000,B得1000;若两人均偷懒,则A扣除600元奖金, B扣除300元。

此外,选择工作会耗费相当于1500元奖金的精力。

则二人的收益矩阵如下:
分析同智猪博弈,选择偷懒为B的严格优势战略,从而博弈结果会是A工作,B偷懒。

这就是我们平时所说的“搭便车”现象了。

这样的结果解释了为何能力更大的人总是被大家期望去承担更多的义务,而且他们也通常会这样做。

毕竟,他们占有了更多的资源。

对于某个领域的新手来说,应该学会如何借助平台上已有的资源和经验,而不是仅凭自己的力量去单打独斗,这样才能获得更快更好的发展。

在智猪博弈里,利用他人的努力来为自己谋求利益的人是最大的受益人,因为他不必付出什么劳动就能获得利益。

在博弈过程中,可以考虑如何让对手心甘情愿地按照自己的期望去行动。

但从总体看来,如果所有人都报这样的心态去行动,整个社会的收益必然会受到损害,发展进度也会减慢甚至倒退回去。

对于一个企业的管理者或是引领社会发展的带头人来说,应该注意多关注一下每个人付出的努力和由于他的付出给整个企业或社会而带来的收益,尽可能地实现按贡献分配,同时结合按劳分配,使得多劳者多得,贡献大者多得。

才能优化社会资源,推动整体的发展。

例2:
假设:老师和学生都是理性人,二者在决策的过程中不会考虑道德成本,而且只要老师监考尽职,学生舞弊行为一定被发现。

构建矩阵。

假设以下参数:
①监考老师认真监考的成本 B1(考前清理考场,考中巡视,留
意学生,发现舞弊现象的后期处理,恶化与学生关系);认真监考的收益 A1(学校的奖励,目前还没有)。

②不认真监考的成本 C2(被巡视发现批评,通报,纪律处分),
监考老师不认真监考的收益 R2(更多的闲暇时间支配;聊天,看报纸,发短信等,学生及格率提高,博得学生喜欢)。

③学生诚信考试的收益 C1。

④学生舞弊考试的收益 G2(舞弊及格后不用重修,有资格评选
奖学金,竞选部长,简历光彩);学生舞弊的成本 M(取消该门成绩或者更为严重的惩罚)。

基于以上的参数,得出以下矩阵(第一个数字代表老师,第二个数字代表学生):
纳什均衡解的确定:此博弈非纯策略纳什均衡,它是一个混合策略意义上的纳什均衡。

学生舞弊的概率(设为 P)和监考老师不认真监考的概率(设为 Q)的确定:
①在 p,q 的条件下,老师获得的效用为:
UT=(1- P)(A1- B1)(1- Q)+(A1- B1)(1- Q)P+(A1+R2)Q(1- P)+(R2- C2)PQ
=A1 - C + B1Q + R2Q - A1QP - QPC2
得到 P=(B1+R2)/(R2+C2)
所以老师的效用最大时,学生作弊的概率为:P*=(B1+R2)/(R2+C2)②在 P,Q 概率的条件下,学生获得的效用为:
US=C1(1- P)(1- Q)- M(1- Q)P+C1Q(1- P)+(C1+G2)QP
=C1- C1P- MP+MPQ+C1PQ+G2PQ
得到 Q*=(M+C1)/(C1+G2+M)所以学生的效用最大时,
老师监考不利的概率为:Q*=(M+C1)/(C1+G2+M)
均衡意义:通过对上述均衡的推导,我们一定程度可以解释为什么高校会有那么频繁的作弊现象。

①由于学生的作弊概率与老师认真监考的成本 B1 和不认真监考的收益 R2 成正比,与老师认真监考的收益A1 和不认真监考的成本 C2 成反比,而在现实学校生活中,老师认真监考的收益很小,甚至得不到学校任何奖励,而不认真监考的成本也很小,惩罚实际上都流于形式了,在上述两种背景下,P 会变的很大。

再加上老师监考时很无聊,会使得 B1 很大,这样不认真监考,一定程度可以提高自己所教学生的成绩,这样老师额外的 R2 会更大,在上述背景下,P 会变大。

因此在当前对监考老师的奖惩制度以及老师的全程负责制度会使得 P 变的很大,这样层出不穷的作弊现象出现也就不足为奇了。

②老师不认真监考的概率 Q 与 GI 和 M成正比,而对于大多数舞弊者来说,他们诚信考试所获得的收益是很小很小的,又因为当前对作弊惩罚措施比较弱,使得 M 比较小,这样 Q 就比较小:又 Q 与G2 成反比,而在学校的制度中,将考试不及格与奖学金的评选,社团部长的竞选资格等联系在一起,就使得 G2 非常大,这样使得 Q 比较小。

因此在对学生不及格的一些过重惩罚措施和对舞弊者惩罚的过轻处理,使得老师不认真监考的概率很小,这样就为学生作弊创造了条件。

例3:
“石头、剪子、布”的博弈
记得在课上,老师讲过,两个人在玩“石头、剪子、布”的游戏时,如果A说出要出“石头”,那么B会出什么?我做如下分析:博弈模型如下:
从纯理性角度来看,如果双方都知道该规则,且都想获胜。

那么,A说了自己出石头,B就必然出布;但A考虑到B的想法,又会改出剪刀;B猜到A想到了自己原来的想法,就会出石头;……如此下去,双方不可能出同一种手势,游戏也就会成为一个无法找到均衡点的死循环了。

这个博弈是一次性的零和博弈,因为我们会把提示信息纳入考虑范围,因此采用混合策略并不是最佳选择。

A说自己要出石头,B做出决定首先要考虑信息的真实性。

信息真实,则应该出布;信息虚假,A的目的应该是让自己出布,A自己要出剪刀,所以B应该出石头。

不管信息是怎么样的,出剪刀的比例是最小的。

在一个利益相反的博弈中,博弈方要做的是保护好自己的信息,假若透露,那么是真实的可能性应该小于虚假性的可能性。

因此B出石头的可能性就比出其他手势的可能性的要大。

况且,石头最容易变换成其他手势,便于见机行事,临时改变。

如果我是那个说要出“石头”的A,实际上会出什么是要根据具体情况来定的。

如果是教小孩子学游戏规则,肯定会出石头;如果是想不计信誉损坏地赢得对方,就会猜想对方可能推导到哪里,之后多推一步赢得比赛。

不过,对方可能推导到哪里是难以估计的,所以随意出一个手势或者就按原说法出石头可能反而会有更大的胜算。

我认为,“言语”必然是能够在利益对立的博弈中起作用的。

通过言语,博弈的双方可以传达许多信息。

在“石头、剪子、布”的博弈中,如果A可以使得B相信自己一定会出石头,那么B就会选择出布,而A此时只需改出剪刀就可以轻易地赢得比赛。

但是,A的信誉度在B的心中,恐怕再难以恢复了。

对于A,长久来看,这可能是一个更大的损失。

除了使对方相信自己,言语还可以威胁对方不战而败,从而不费吹灰之力便赢得比赛;而叙述(甚至编造)对方亲友的灾难,用其他事物诱惑对方分散注意力等,也可以降低对方的战斗力。

但是,这些做法都已经带有了恶性竞争的因子,长此以往,对社会积极公开的发展是极为不利的。

例4:
人民公社化中的利益分配问题。

暂且研究两人之间的利益分配对比问题。

假设:总量为2a,c为参与劳动的体力消耗。

在这个博弈中,两人都偷懒为均衡点,这是典型的多劳不多得的博弈,即类似于智猪博弈。

历史的教训告诉我们,这样的分配方式是万分可怕的,最终的结果就是起初大家有粮食吃,有劳动的积极性;随着时间的推移,劳动积极性下降,粮食供应量下降,最终什么都没有了。

这样的博弈是对多劳者的歧视,虽然没有歧视就是不公平,但是歧视的对象的错误就是更大的不公平。

这种状态下的利益分配是完全不合理的,最终导致新生的政权处于崩溃的边缘。

这样的教训是惨痛的。

2、游戏规则与游戏结局
举3个实例说明“游戏的规则决定了游戏的结局”,然后再举3个实例说明“游戏的规则未必能够决定游戏的结局”,然后对在什么条件下“游戏的规则决定了游戏的结局”提出您自己的看法。

游戏与规则
我们知道,游戏,是生活中一种常见的博弈。

但是,常常人们只是去体现游戏带给我们的快乐,但是很少有人却想到去了解游戏背后的规则。

因为,有些游戏是游戏的规则决定了游戏的结局,当然也存
在着有些游戏的规则并不能决定游戏的结局。

首先看游戏规则并不能决定游戏的结局,这个主要是根据博弈双方智力水平有关。

比如说,我们知道,在国外流行一种棋,叫做tic -tac-toe,翻译过来叫做圈叉棋。

也就是在3*3的9个方格子,先下者画圈,后下者画叉,每人可以在任意没有对方棋子的封闭方格里下一次,看谁先连成一行(一列,斜线)3个就判胜。

这个游戏,就是博弈的以一种,由于最初始的规则定义,如果下棋的双方智商足够高,那么,最终的结果一定是和棋。

但是,如果有一方不能很好的考虑游戏规则的前提下,那么就可能带来不同的结局。

我们先考虑先手,先手有两种下法:胜率最大的走法和最稳固的走法。

也就是说,先手一定不会输,最差的结果是和棋,也有可能回赢。

我们看看胜率最大的走法:一开始走角格胜率最大(威胁最大)。

若对方不走中心格,你一定可以走成“双二”。

分两种情况: 1、对方走边格,不妨设他走了第一列第二行,你走第三列第一行,对方只能走第二列第一行,你再走第三列第三行即可以必杀。

2、对方走角格,不妨设他走了第一列第三行,你走第三列第一行,对方只能走第二列第一行,你再走第三列第三行即可以必杀。

当然,这种情况是建立在对方第一步不在中心各的情况下,也就是说,这不是必胜的游戏,同时也就证明了,这个规则并不能决定游戏的结局。

第二种就是我们知道的常见的棋类了,像象棋围棋,这种游戏,规则就不一定能够决定结局了。

因为如果决定了结局,我们就可以找到如上面提到的必胜走法。

那么就没有博弈的必要了。

当然,还有一些可以用来比赛的正规游戏,其实,我们如果把所有的一种有输赢的博弈都看成是一种游戏,那么,对于结局为止的游戏,那么制定的规则都不能决定游戏的结局。

比如说一些体育运动项目,比赛等,都可以看作是广义的游戏,它们也有它们的游戏规则,但是,这些规则并不能决定游戏结局,游戏结局只要还是取决于游戏者的智力水平和自身判断能力。

再谈谈游戏规则决定游戏结局。

有一个游戏,叫做摆硬币。

即在一个方形的桌面上,双方轮流摆相同规格的硬币,规定硬币不能重叠,如果谁不能再在桌面上摆上硬币,谁就输。

根据这个规则,我们可以推出,先摆的人一定胜利,摆法如下:第一个人先摆在桌面的正中心,第二个人无论摆在哪里,第一个人只要相应的摆在中心对称的位置,那么一定是第二个人先不能在桌面上摆下硬币,因此,在这种游戏规则下,这个游戏的结局是一个必然的。

然后,刚才上述谈到的圈叉棋,如果我们更改一下规则,改成反过来玩,即先3*3的9个方格子,先下者画圈,后下者画叉,每人下一次看谁先连成一行(一列,斜线)3个就判输。

那么这个时候先手有必胜策略。

因为第一手下在中心位置,然后看画叉的人走的地方,只需在这个叉关于中心对称的地方画圈即可。

其次,我们再更改一下规则,改成不分圈叉,每个人在下的时候都可以选择是画圈还是画叉,既3*3的9个方格子,下棋的人既可以画圈又可以画叉,每人下一次看谁先连成一行(一列,斜线)3个就判胜。

这种棋先下者也有必胜策略:在中心画圈,对方肯定不能再画
圈了,只能画叉,然后看画叉的人走的地方,只需在这个叉关于中心对称的地方画叉即可。

必胜方法:在中心画圈,不管对面叉是话横竖,还是斜角画叉,保证画圈的斜角能3个的那个斜角位置是圈,就能利用小三角2条边都能成3。

那么,由上述三例我们可以看见,有些游戏确实根据规则有必胜情况,那么,什么样的规则才会确定必胜的情况呢?个人认为,对于游戏不能决定结局的情况有以下几点:一、游戏规则如果存在游戏的发生状况不能有人来决定,即只能是在统计学上有比较,那么在进行有限次游戏的基础下,游戏规则不能决定游戏的结局比如说,在游戏规则情况下,每一方胜的情况出现几率不相同,即胜率不相同,只能说明这是个不公平的游戏,但是,在进行有限次的游戏下,是不能预计到游戏的结局的。

举个例子,比如说两个人在一副去掉大小王的扑克牌里面抽牌,规定,抽出的点数如果是偶数则是A胜利,点数是奇数则为B胜利。

那么在这个规则下,A的胜率有4/9,而B的胜率有5/9,但是每个人并没有必胜的策略,也就是说,这个规则是不能决定结局的。

二、游戏的胜利条件是根据比赛者的能力决定的,而不是通过规则决定,这个例子就更加常见了,一些体育竞技项目,棋类竞技项目,凡是一些能够用比赛的方法进行的游戏,规则并不能决定结局,因为这些游戏很大一部分取决于参赛者的非智力因素。

那么对于游戏规则能够决定游戏结局的情况,一般我们就认为是不公平游戏,或者说是必胜游戏,这一类游戏不像上述提到的情况,跟概率和人的因素是无关的,主要是取决与游戏本身,也就是说,无
论是谁来进行游戏,结局都只有一种。

这种游戏有以下几个特点,第一,先手必胜型:也就是说,先手能够具有第一步占据中心位置,从而后续手段只要进行与后手进行的手段形成“中心对称”即可,最终后手会形成“无子可动”的局势从而造成输的结果。

二、后手必胜型,这种游戏就是不存在中心位置,对于先手的任何一种做法,后手总能找到与之对应的做法,从而造成先手“无子可动”的局势。

三、制定的规则,可以通过枚举形式使得每种情况都是指向同一个结局,就好比上述提到的圈叉棋的改进规则,对于棋盘上每个点的走法都可以枚举出来,然后再判断其结果,如果指向同一种结局,那么在此种游戏规则下,游戏结局就是既定了的。

因此,对于规则是否决定了游戏的结局,只要还是要考察这种规则的性质,因此,我们进一步可以想到,生活中一些比赛,其实并不是我们自己能力的不足,往往有些时候是因为规则的限制,从而导致了我们一种有心无力的感觉,通过对规则的审视,从而能够让我们更好的了解竞争与游戏。

3、雇主与雇员的监督博弈
这里,V是雇员的贡献,W是雇员的工资,H是雇员的付出,C是检查的成本,F是雇主发现雇员偷懒对雇员的惩罚(没收抵押金)。

同时,我们假定H<W<V,W>C。

雇员
雇主检查
不检查
1)求解混合战略纳什均衡。

2)求解雇主支付W为多少时,其期望收益最大?
3)与雇主不能没收雇员的抵押金F相比,前述两个问题答案的差别在哪
里?如何理解这种差别?
4)收取抵押金的雇主如何建立雇员对其的信任机制?
5)从社会福利最大化角度看,作为政府是否应禁止雇主向雇员收取抵押
金?为什么?
6)监督博弈的模型是否可以用来解释教育主管部门对高校的评估检查?如
果可以,请加以分析。

答:设α、β分别为雇员的偷懒几率和雇主的检查几率。

(1)、
Π(雇主)=αβ(-C+F)+(1-α)β(V-W-C)+α(1-β)(-W)
+(1-α)(1-β)(V-W)
=(F+W)αβ-Vα-Cβ+V-W
对Π(雇主)求导,其中α为常量,β为变量。

在导函数为零时,
Π(雇主)获得最大收益,即是一个混合纳什战略均衡点。

事实上,Π’(雇主)=(F+W)α-C
令Π’(雇主)=0,求得:
α=C/(F+W)
说明当雇员的偷懒几率为C/(F+W)时,雇主的检查几率无论为多少,其收益总是不变。

另一方面,Π(雇员)=αβ(-F)+(1-α)β(W-H)+α(1-β)W
+(1-α)(1-β)(W-H)
=- (W+F)αβ+ Hα+W-H
和上面对雇主的处理方式一致,对Π(雇员)求导,得到:
Π’(雇员)=- (W+F)β+H
令Π’(雇员)=0,求得:
β=H/(F+W)
说明当雇主的检查几率为H/(F+W)时,雇员的偷懒几率无论为多少,雇员的收益不变。

(2)、对雇主而言,Π(雇主)= (F+W)αβ-Vα-Cβ+V-W
代入(1)中求得的α、β值
Π(雇主)=V-W-CV/(W+F)
当W+F=CV/(W+F)时,Π(雇主)可以取得最大值。

即,Π(雇主)的收益将会得到最大值。

(3)当F=0时,α=C/W,β=H/W。

显然,α、β的值都变大,而使雇主获得最大收益的W值也将变大。

无法没收雇员的抵押金的情况下,雇员的偷懒的状况将加剧,雇主的检查力度也将提升,同时,需要以一定的相对高的工资来维持自己的最大化利益。

这样的运营状况是一种高成本的运营:雇主要花费更多来进行检查而偷懒的状况并不能好转,因为雇员的损失减少;雇主付出的工资将会增加,整个收益效果大幅度下降,不符合雇主的利益。

这就如同一个人向出租店借用一台相机,交了500元的押金。

由于知道出租店不能没收自己的押金,在使用过程中就显得不那么小心,结果损坏了,出租店只能获得比如300元的赔偿,而仍需要将押金还给那个人。

如果出租店可以没收租用者的押金,那么,这个人将会小心使用,否则,损坏后的赔款将是800元。

这里,就一定程度上,用抵押金的方式,约束了租用者。

(4)、首先,要用一种公平的方式,每人收取抵押金。

而后,在雇主
和雇员的监督博弈中,履行制定的策略,没收抵押金的应该给予通报,是所有雇员知道,谁将得不到抵押金。

最后,在返还抵押金的时候,如数还给该得到抵押金的雇员。

这只是如何操作抵押金的极小的一个方面。

重要的一个方面是,从第一题的结果看出来,抵押金越大,偷懒的几率会减小,那么雇主可以适当得制定抵押金的数额,从心理上先对雇员的偷懒状况做一个约束,而后,以一定几率的检查,确实使那些偷懒的雇员及损失工资又损失自己交的抵押金,那么雇员的偷懒状况将会走向平衡点,这样,雇主和雇员之间的信用平衡已经初步建立,最后,适当提高工资,对信用状况好的员工降低抵押金,以示区别对待,或者说是一种“歧视”,使得抵押金制度更趋向与公平。

(5)、政府不应该禁止雇主向雇员收取抵押金。

不妨假设禁止收取抵押金,看看会出现什么情况。

首先,如上面的分析,禁止收取抵押金,雇员的偷懒状况会严重,雇主的收益将下降。

雇员的偷懒浪费的是原材料,雇主收益下降造成雇主的纳税额下降,社会福利的资金来源主要为国家财政,雇主的纳税额下降,将会造成国家的财政收入下降,这里跳过了地方财政这一环节,而事实上,这是同一回事,只不过地方财政的反应更为灵敏。

财政收入的下降造成福利事业的资金不足,解决途径将会有两条:1、降低福利标准;2、提高个人税种税率。

如此,雇员的纳税额将会上升然而受到的福利待遇却在下降。

生活质量难以保证,其工作积极性将受到打击,那么雇主的收益率将会更低,于是出现失业上升等等问
题。

如此,形成恶性循环。

当然,上面的分析(猜测)有些夸张。

然而还是忽略了几个问题:1、雇员不交抵押金,雇主和雇员之间的信用基础少了一块基石。

2、雇员不交抵押金,可支配的财产增加了一些,但是这与雇主集中抵押金,作为一笔可流动资金投入市场所产生的效益向比较,将会是微小的,所以不缴纳抵押金的结果会是,社会再生财富的减少。

无论从哪个角度,都可以发现,不缴纳抵押金的后果是:社会财富的减少,福利事业的减缩。

缴纳抵押金,可以解决上面提出的一系列问题,当然,我认为重要的问题是诚信机制的建立。

抵押金的缴纳可以为此机制的建立奠定一定的基础。

(6)、我认为可以。

试分析如下:
首先,教育部门与高校之间的关系确实为一种监督和被监督的关系。

其次,教育部门对高校的评估检查类似于雇主对雇员的检查。

检查内容涉及高校运营的各个方面,现在需要弄清楚的是其中高校的贡献、高校的“工资”还有抵押金是什么,以及它对教育部门和高校意味着什么。

高校的贡献可以认为是它为祖国选拔了人才、储备了人才、输送了人才。

高校的“工资”我认为是三个方面:1、根据高校贡献而来的教育部门的教育经费。

这一笔资金能够促进高校的运营体制的优化
和改善。

2、根据高校贡献而来的教育项目的获得。

3、高校的名誉。

这三点形成的是一个良性循环过程:高校有了经费就能够拨款完成一些重要的项目,项目的完成需要师生的共同的努力,在名誉的基础上,高校容易获得高素质的生源,即是选拔人才的一个环节,而后,以项目等其他内容的带动培养人才、储备人才、输送人才。

最后一个问题是,“抵押金”是什么?我个人认为是高校在教育部门和公众之间的信誉。

现在提出建设诚信社会,把诚信作为一种抵押金也是可能的,况且信用在人际交往之间发挥越来越大的作用。

回到高校的问题。

高校以它的信誉为抵押,比如向教育部门做出承诺:这个项目,或者用几年时间完成多少人才培养等等。

而后,就回到雇主和雇员的关系问题上。

“抵押金”已经交了,高校需要去实现,如果“偷懒”,结果显而易见,会被教育部门检查到或者评估不合格,这样,高校失去自己的“抵押金”,同时可以说失去了学生给高校的“抵押金”,学生给高校的抵押金是什么?还是信任,是学生对高校的信任。

于是高校一个“偷懒”,失去的是双重的信誉。

好,又回过来想,在这场博弈中,高校明白自己失去“抵押金”的结果,那么就不会去“偷懒”,从而教育部门不用打动干戈去检查,节省下检查的花费,用于教育事业的支出,将会带动教育事业的良好发展。

再想一想如果不进行评估检查,结果很明显。

高校放着架子,不干实事,不能培养学生,还浪费了社会的资源,教育部门就要加大力度检查,于是花费增加,又有可能进入到类似社会福利问题中夸张的。

相关文档
最新文档