重复的囚徒困境博弈代码思路

合集下载

重复的囚徒困境博弈代码思路
假设招募了全班共m个人参加重复博弈，采用循环赛制，即一共有m/(m−1)2场博弈；每场n（无穷，很大，事先不确定）轮。

我们被告知博弈矩阵（如下图）以及参加的总人数，还被告知，比赛采用串行方式，即两个人把n轮做完，再换两人。

我们要以一个函数的方式提供自己的策略。

该函数的输入是自己和对手到当前为止已给出的行为（策略的一部分），返回自己下一次的行为。

总得分是我参与的所有博弈（n(m−1)次）的得分之和。

每个人给出自己的策略函数后，我们还需要写程序模拟一个循环赛程序（调用那些函数），试用不同的n，分别算出每个人的总分，并进行讨论。

为了设计出得分高的策略，自己的函数要分析自己和对手到当前为止已给出的行为，预测对方的下一次行为。

给出自己的反应时，我们还要考虑到，自己如此行动会成为此后博弈的已知信息，这会不会
影响未来的合作？总之，我们需要预测对方的行动，做出最有利于多次博弈总收益的回应。

最好是能猜出对方的策略函数。

比如说，“一报还一报”策略可能被很多人采纳，那么就可以在自己的策略函数中设置一些判断条件。

如果对方真的采用“一报还一报”策略，最有利于自己的策略就是永远选择合作。