基于有限理性的最优反应动态分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
倒地老人为何不敢扶
—基于有限理性的最优动态反应博弈南京青年彭宇到底有没有撞倒徐老太太,现在成了一笔糊涂账。彭宇一口咬定自己当初是好心帮助那位徐老太太,将她扶起往医院,反被诬告。法官的判决未能认定这究竟是否属实,而是以“如果彭宇是见义勇为做好事,应更该抓住撞倒原告的人,而不是去扶”、“如果不是彭宇撞的老太太,他完全不用送她去医院”、“如果不是他撞的,应该不会垫钱”等为理由,责令彭宇对老太进行赔偿。
“彭宇案”对于中国社会的影响令人难以置信,倒地老人该不该扶在网上引发空前争议。在之后的五年中,扬州小伙怕惹事扶起倒地老太又松手,武汉老人倒于菜市场无人敢扶,佛山幼童小悦悦被车碾压在地,18路人视而不见。每当这些惨剧发生后,人们就会再次提起并归咎于彭宇一案造成的负面影响。网友惊叹,一个老太竟剥夺了无数老人的权利。
那么,是什么力量使一件根本称不上大案的民事案件影响如此深远呢?
先从一些假设开始:假定一个由五个有限理性的人组成的小社会,他们具有相当快的学习能力,虽然在复杂局面下缺乏判断能力和预见性,但是每个人都能在本期找到和采用针对前期其他人策略的最佳反应策略。这种“最优反应动态”的设定是较为符合现实的,因为完全理性对于博弈方的要求太过严苛,而现实中人们往往囿于适应能力、遇见能力、冲动心理、偶然因素而存在理性局限。
假设博弈方的博弈内容是下图中得益矩阵表示的两人对称静态博弈: A B
B
我们这里把A策略视为冷眼相对,相互敌视之意,而B策略则为相互信任和帮助。通过纳什均衡分析不难发现,该博弈有两个纯策略纳什均衡(A,A)和(B,B),在这两个均衡结果中,后者明显帕累托优于前者。
但是,回到现实中来,如果你面前有一位倒地的老人,你上前搀扶,老人又知恩图报,这样对应上述的(B,B)结果,自然是皆大欢喜(这看起来似乎是一个动态博弈,但如果把这个问题一般化为人与人之间的诚信问题,用这样一个静态化的模型也不难解释)。但是如果你怀疑老人有可能在你扶起她之后反诬你是肇事者,或者你生怕被反诬的风险(尤其你听说过彭宇案,认为扶起老人是一件高风险零收益的冒险),那么你更有可能出于明哲保身的态度而选择冷眼旁观。也就是说,由于自身的理性局限,对对方理性的不信任以及对风险的敏感度,风险上策均衡(A,A)显然是更符合实际的结果。
现在,我们将这个博弈扩展到这个五人小社会中,按照上述的假设,博弈方缺乏交互动态关系和预见能力,但能够马上对上一期的博弈结果进行总结,并作出相应的策略调整。这与现实中人们“一朝被Array蛇咬,十年怕井绳”的心理十分相似。
另外,假设5个博弈方分别处于右图中
圆周上的五个位置上,每个行为人都与各自的左右邻居相互博弈。现实中我们每个人也正是通过自身的一言一行影响周围的人,进而不断把这种影响辐射到社会上去的,因此也可以看做一个较为符合逻辑的假定。
可以肯定的是,既然博弈方都是有限理性的,那么初次进行博弈时每个位置既可能选择A,也可能选择B。现在以仅有一个博弈方选择A为例,观察整个社会的策略调整和最终稳定状态。
假设x为在初期某博弈方的邻居中采用A策略的人的个数,显然x有0、1、2个可能值。那么,在本期中,该博弈方
采用A策略的收益为:x·1+(2-x)·2=4-x;
采用B策略的收益为:x·(-1)+(2-x)·3=6-4x
故当4-x>6-4x,即x>2/3时,该博弈方将会在下一期中选择A 策略。也就是说,在本期中,只要左右邻居中有一个人选择A,那么下一期此人便会选择A,只有左右邻居在本期全部选择B,那么下一期选择B策略才是最佳选择。根据这个法则,我们可以推演出整个群体反复策略调整的具体过程:
从上述分析可以看出,除了初始选择是所有人都采取B外,其他所有初始情况都将稳定收敛于全选A的状态,而且这个均衡具有稳健性,即便出现少数博弈方偏离A,最优反应动态也将推动他很快回到均衡上来。
这是一个十分令人沮丧的结果,它意味着我们的社会只要存在哪怕一小部分人道德观念缺失,缺乏信任感和乐于助人的品质,那么这种风气将会如瘟疫般很快弥漫全社会,最终整个社会道德的沦丧。而且在现实生活中迅速的信息传播速度,违反诚信的高收益和低成本,不合理的制度使得这一趋势不断加快。以至于出现一桩桩冲破道德底线的悲剧。
当然,这个模型的偏差之处在于,片面的认为所有人都是有限理性的,但在现实中,我们仍然可以看到很多人愿意去相信和帮助别人,他们不管对方如何,自己把信守规则当成自己的道德义务,希望通过自己的努力去影响别人,试图挣脱这个怪圈。但是根据上面的分析,我们可以看出个人的努力是难以撼动这个模型所固有的稳健型的。而真正具有可操作且行之有效的方法在于制度。
一、奖励制度,对于助人为乐的现象予以物质和名誉奖励;
二、惩罚措施,包括助人和被助者两方面,可以借鉴国外经验:
例如法国1994年修订的《法国刑法典》就有“怠于给予救助罪”,而新加坡则规定被救者如果事后反诬救助者,则须亲自上门向救助者赔礼道歉,并施以其本人医药费1至3倍的处罚。正因为有“道歉+赔偿”,新加坡再没有发生过类似的事情,公民在实施见
仍然假设x为某博弈方的邻居中采用A策略的人的个数。那么此时,在本期中,该博弈方采用A策略的收益为:x·(1-a)+(2-x)·(2-a)=4-2a-x;
采用B策略的收益为:x·(-1)+(2-x)·3=6-4x
故当4-2a-x>6-4x,即x>(2a+2)/3时,该博弈方将会在下一期中选择A策略。因此,只需令(2a+2)/3>1,即a>0.5,此时的结果令人振奋:在本期中,除非左右邻居全部选择A,下一期此人才会选择A,只有有一个人选择B,那么下一期选择B策略才是更有利的选择。这样不仅克制住了各个博弈方选择A策略的不理智冲动,而且掐断了原先的最优反应动态中A策略向四周蔓延的路径。最终的博弈结果将极具稳健性地收敛于博弈方全选择B。
因此,我认为倒地老人不敢扶的惨剧并不仅仅是道德问题,而更