囚徒困境进化博弈求解及其现实意义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

囚徒困境进化博弈求解及其现实意义

A 、B两个囚犯同时被警方抓获,然后被分开审问,A、B同属于一个犯罪团伙,于是在囚徒困境的基础上又进一步发展成了升级版综合博弈,即坦白时警方给予的较轻处罚与团伙给予的处罚之间的博弈,不坦白时警方给予的较重惩罚与团伙给予的忠诚奖励之间的博弈,从而形成了更为复杂的综合博弈。

先不妨对于警方和团伙方进行单独分析,得出以下结论:

1)警方:

(a 、c均代表一个小于0的量化惩罚系数,系数越小,代表惩罚越严重;而a

(b 代表一个小于0 的量化惩罚系数,系数越小,则代表团伙对坦白的人实施的报复就越大,d 代表一个大于0 的奖励系数,即被抓捕的罪犯很好的保护了组织,组织将对其忠诚给予奖励)综合两个博弈,得出囚徒困境进化博弈:

3)现实社会>,且<,、、<

使用博弈均衡分析法:

1、当A选择坦白时:B必须在坦白与不坦白间进行博弈,即比较a+b与2a+d的大小。三种情

况:

当 A 选择不坦白时,同样 B 必须在坦白与不坦白之间做出抉择,即比较 b 与 c+d 的大小。

三种情况:

1)b-d >c ,

会选择坦白

2)b-d

3) b-d =c , B 会犹豫不决

2) 3) a+b > 2a+d ,即 b-d >a ,B 会选择坦白。

1)

2、

3、同理以B为“拟先手”对A 的行为进行判断亦可得到上述相类似的情况。

4、综合1、2、3 可得到下面四种情况即对应的行为选择分析图表:对其中的系数关系进行进一步分析可

得:

(1)当a+b>2a+d,即b-d>a 时,即A、B中如果一人坦白,另一人知情后一定会坦白

现实情况模拟:a+b>2a+d,即b-d>a的现实意义是,犯罪分子选择坦白时受到的警方惩罚是a, 并且一旦选择坦白他将彻底失去团伙内部给予忠诚分子的奖励d,并且担上了组织的惩罚b ,而选择坦白的最大伤害a 比放弃组织奖励d 并担上组织惩罚b 的伤害更大,所以当其中一名囚犯知道另一名囚犯会坦白,或者即使只是猜测,他都会义无反顾地选择坦白。

若其中一人选择不坦白或者可能选择,假设是A 不坦白,则有:

1> 若同时-c >d-b 成立,则

此时只有一个帕累托最优,即(A,B)=(坦白,坦白)= (a+b,a+b)。

现实情况模拟:-c>d-b,即代表其中的一名囚犯B如果知道另一名囚犯A会选择不坦白,那囚犯B选择放弃不坦白而得到得收益(-c )比选择不坦白所得到的收益(d-b )更大,所以这时B会放弃不坦白,综上所述,如果放弃组织的奖励并担上组织的报复所受到的伤害都不如两人都不坦白受到较轻惩罚的话,那么无论另一名囚犯选择何种态度,都不影响该囚徒做出坦白的行为选择。现实建议:如果警方希望迫使这样的两个囚犯坦白,至少应该使他们即使都不坦白受到的较轻惩的伤害处程度仍大于他们担

上内部惩罚并放弃忠诚奖励的伤害程度,这样警方就能轻而易举的使犯人招供,这种类型的犯人可以归类为“软弱型罪犯” ,只要稍加审理即可使案件告破。

2>若同时b-c

此时就拥有了两个帕累托最优,(A,B)=(坦白,坦白)=(a+b,a+b),(A,B)=(不坦白,不坦白)= (c+d,c+d )。

现实情况模拟:由1>可知,如果犯人放弃组织忠诚奖励并担上组织惩罚所受到伤害介于两个囚犯都坦白所受到的惩罚伤害与两个囚犯都不坦白所受到的惩罚伤害之间的话,那么囚犯完全可能会在坦白与不坦白间徘徊不定,甚至可能由于先前的协约,而导致警方的审讯很难达到预期效果。现实建议:此时的囚犯容易在坦白与不坦白间徘徊,对于他们而言似乎只有唯一确定另一名囚犯坦白了或者不坦白,他们才会做出选择,这时警方可以适当的诱之以利害,于是此处有给警方提出了一个新的要求,即对认罪态度好,积极配合警方办案的罪犯在给予惩罚上的宽大措施以外,还要对其以后的生活安全提供一定的保障,这样才能引导其逐渐偏向坦白的一面,而一旦其中一人选择了坦白,那么另一个人也就不攻自破了,此种类型的罪犯可归类为“连锁软弱型罪犯” ,只要诱之利害,保其后顾之忧,攻破其一,就能使案件告破。

(2)当a+b<2a+d,即b-d

现实情况模拟:当囚犯受到的组织惩罚系数减去奖励系数的到的值(b-d)仍旧要小于坦白时受到的最大惩罚的系数a,即囚犯选择坦白将放弃组织忠诚奖励并担上组织惩罚所受到的伤害比选择坦白受到的警方最大惩罚的伤害还要大,则此时的囚犯一旦知道知道对方选择坦白,那么自己绝对会选择不坦白。此时的囚犯像互相两块异极相对的磁铁,必然无法走到一块去,而且作为警方的一员也应该对此种情况下的囚犯表现人道的理解,即只要其中一个囚犯坦白了团队的犯罪信息,则不可过多的为难另一名选择沉

默的囚犯,因为这是将团伙内部惩罚的伤害减到最低,因为保护坦白的罪犯也是需要付出成本的,这可以看作经济学上所说信息成本,要获取罪犯的犯罪信息而需要付出的成本,成本过大,可以视情况放弃该信息,以起到更大范围的保护和获得更多社会收益。

若其中一人选择不坦白,假设是A,则有:

1> 若同时-c >d-b 成立,则

此时亦会出现两个帕累托最优解,即(A,B)=(坦白, 不坦白)=(b,2a+d ),(A,B)=(不坦白,坦白)= (2a+d,b )。

现实情况模拟:-c > d-b ,囚犯B知道或者猜测到另一名囚犯A 将选择不坦白,则那么囚犯B将选择坦白,因为B 选择不坦白所得到的组织奖励和不必承担组织惩罚的收益(d-b)仍旧小于放弃两人都不坦白时的较小惩罚的收益(-c ),于是便产生了两种相似的最可能结果,A 坦白B不坦白,A不坦白B坦白。现实建议:对于此种情况的犯罪团伙,已经较难从他们口中得出有益的信息了,即信息成本相对较高,不过好在两人都不愿同时选择不坦白,都打心里希望对方就是那个坦白的人,对于这样的罪犯不需要过多采用单独审问,可适当让他们关在一起,使其自相残斗,不定时的提出来单独审问,最终必然导致其中一人受不了另一个囚犯的威逼,而坦白,从而使案件得以告破。但是具体该如何让罪犯感觉必须尽快迫使其中一人坦白,鉴于个人经验尚浅,此处就不给出具体实施方法了。此种类型的囚犯可以归类为“异心反抗型罪犯” ,只要让其自相残斗,并使其感觉警方的忍耐时间有限,只要其中一人受不了另一人威逼,自然会合盘托出犯罪事实,从而使案件得以深入。

2>若同时-c

此时将出现唯一的帕累托最优解,即(A,B)=(不坦白,不坦白)= (c+d,c+d )现实情况模拟:-c

相关文档
最新文档