博弈中的老师点名
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现在给出如右图所示的支付矩阵,博弈参与人为 老师和学生甲,他们各自的战略选择也不同,老师 的战略组合(S1)为点名(S11)和不点名(S12), 同
同 点名 不点名 学 逃 -4,3 4,4 甲 不逃 3,5 1,2
学甲的战略组合(S2)为逃课(S21)和不逃课(S22)。上面已经提到了混合战略纳什均 衡,是指参与人的混合战略是相对于其他参与人混合战略的不确定性,各博弈参 与人只能通过对对方的观察或者其它的渠道, 了解到对方的行为习惯和其它信息, 并对这些信息加以理性的分析,然后推测出对方采取各种不同行动的概率,以这 些概率为参考选择自己行动的概率。在这里,可以假设老师点名的概率为 q,则 不点名的概率为 1-q,即学生甲推断老师将使用混合战略(q,1-q),这时他就可以根 据(q,1-q)来确定自己的混合战略,当然也要参考给出的支付矩阵。在这里有必要 补充说明一下,图中支付矩阵的数据只是为了便于问题的研究,容易得出结论, 并没有给出像“囚徒困境”一样的解释,意义可以自定。 对于老师采取的(q,1-q)混合战略,假设用未知数(r,1-r)表示学生甲对应的混合 战略,其中他选择逃课的概率为 r。如果老师的混合战略为(q,1-q),则同学甲选 择逃课的期望收益为-4q+4(1-q)=4-8q, 选择不逃课的期望收益为 3q+1(1-q)=2q+1。 从而 q>3/10 时,同学甲的最优反应为不逃课,即(r=0);当 q<3/10 时,同学甲 的最优反应为逃课,即(r=1);当 q=3/10 时,任何可行的 r 都是最优反应。类 似的,如果同学甲的预期混合战略为(r,1-r),则老师选择点名的预期收益为 3r +5(1-r)=5-2r, 选择不点名的预期收益为 4q+2(1-q)=2+2q。 从 而,当 r<3/4 时,老师的最优反应是点名,即(q=1);当 r>3/4 时,老师的最优反应是不点名,即(q=0);当 r=3/4 时, 任何可行的 q 都是最优反应。 以上分析反映到坐标中, 如右图。图中的交点 A,即老师的混合战略(q,1-q)=(3/10, 7/10)与同学甲的混合战略(r,1-r)=(3/4,1/4)就是原博弈的一个纳什均衡,也 就是通过观察发现老师点名的概率小于 30%,就大可以逃课。这里我加入一下对 这一结果的主观理解,以便对老师的疑惑加以解释。老师点名的概率 30%以下, 就选择逃课这容易理解,因为逃课也不会被抓。为什么学生逃课率达 75%了,老 师反而不点名了,这主要是从老师的情感角度出发,如果一个班来上课的人数仅 仅为 25%,我觉得也就没有点名的必要了,一方面,点名只是对老师自身心理的 一种伤害,因为学生这么大规模的不去上课,必定反映出这个老师的魅力或者能 力有问题,点名也只是徒增伤感,另一方面,不用点名也已可以看出出勤率了, 多点也是无益。
12), 同学乙的战略组合(S2)为交假条(S21)和不交假条(S 22)。在每一组战略组合被选定后,两人的收益由右图双变量矩阵中对应单元的数
据所表示。横行中每个单元的前面数字代表同学乙的收益,列行中同学乙的收益 也放在前面。在数据设计上,战略组合(交,点名)即(S21,S11 ),表示同学乙可 以让同学甲请吃饭,所以收益为4,同时老师发现同学甲是因病不来上课,心里 要比他无故旷课感到舒服一些,所以收益也是正值4;战略组合(不交,点名)
从博弈论角度看逃课
摘要:作为大学生,每个人似乎都逃过课,在逃课时也总是有所顾及,那就是老 师是否会点名,本文我就从博弈论课程的角度看看逃课的时机如何选择,怎样可 以使逃课成为一门“艺术”。我主要引用了经济学中经典的“囚徒困境”模型和 混合战略均衡存在性理论,从这些方面来分析问题,当然由于能力的限制,也只 是一些肤浅的见解。 关键词:逃课 点名 “囚徒困境” 混合战略均衡 人人都说大学是自由开放的“象牙塔”,如果和大学以前的学习相比,大学生活 的确是自由和轻松多了,没有了固定的教室,没有了老师随时随地的耳提面命, 也没有了早晚自习和讨厌的书面作业(也不排除偶尔有作业,但和以前相比实在 是可以忽略不计),就连上课也几乎没有了固定的作息时间,更重要的是没有一 个固定的机制可以督促学生一定要去上课。尽管学校可以让任课教师上课点名, 也可以让辅导员老师中途抽查,但是道高一尺、魔高一丈,想逃课总是会有办法 逃过学校的“法眼”。下面我就从博弈论课程的角度就逃课的有关问题进行分析。 一、“囚徒困境”中的“代假—点名”模型 这是从完全信息静态博弈的角度来进行的分析,就是假定老师和学生之间的 信息是对称的、完全的,并且各自所做的思考和行动都是处于理性的角度,同时 彼此也都知道彼此是理性的。现在的题设是这样一种情况,同学甲今天不想去上 数学课,想逃课但又想到老师可能会点名,于是他想到这样一个法子,找到同学 乙 (此同学是一个爱财的小气鬼, 只要给他利益他就会认真的办好交代给他的事) , 于是同学甲告诉同学乙: “如果老师点名, 你帮我想办法搞定, 到时候请你吃饭。 ” 同时同学甲还提示同学乙,可以在必要的时候以生病为借口替同学甲请假。于是 二人商量的对策是同学乙带同学甲写好请假条, 在课堂上假条给不给老师由同学 乙决定。但二人的约定是:如果老师点名了,同时同学乙将假条给了老师,同学 甲既逃了课,又没有被抓住,则同学甲请同学乙吃饭;但如果老师点名了,可同 学乙没有交假条的话,则同学甲就要被记旷课一次,有所损失,此时同学乙也将 受到同学甲的训斥,在精神上也要受到损失。 基于以上的叙述,下面用博弈论模型表述,采用如右图 老师 所示的双变量矩阵来描述。 其中老师和同学乙各自有两 同 点名 不点名 中选择,但不同于“囚徒困境”的是他们各自的选择是不 学 交 4,4 -1,0 同的。老师的战略组合(S1)为点名(S11)和不点名老师点名了,但同学乙没有交请假条,这时老师因为抓住一个 逃课的学生,可以很好了解到学生的学习态度(假设老师能通过点名的方式了解 到学生的学习态度,并且抓住逃课的还能够得到某方面的奖励,如学校迎评中为 提高学生的出勤率, 鼓励老师抓逃课生) 收益为正值5, , 但同学乙要受到训斥, 故收益为-3;战略组合(交,不点名)即(S21,S12),表示同学乙做了无用功,因 为只有老师点名同时他交了请假条,同学甲才会请他吃饭,所以同学乙吃力不讨 好,收益为-1,对老师而言无所谓,收益为0;战略组合(不交,不点名)即(S 22,S12),表示老师不点名,同学乙也不交请假条,彼此都无损无获,故彼此收 获均为0。 在这个博弈中,首先可以采用微观经济学中博弈 老师 矩阵的“画线法”找出纳什均衡,如右图所示。最后得 同 点名 不点名 到的纳什均衡为战略组合(交,点名)即(S21,S11 ), 学 交 4,4 -1,0 在(S21,S11 )中,老师和同学乙的收益都得到了最大 乙 不交 -3,5 0,0 化,即 U(S21,S11 )>U(S2i,S1i ),i=1,2 恒成立。 其实(S21,S11 )这一 纳什均衡可以用现实解释,作为老师有督促学生来上课 的职责,因为大学生失去了必要约束,就缺少了自制力,所以老师就有必要用点 名这种手段来刺激学生。作为学生,也应该尊重老师的劳动和学校纪律,上课既 是一种权利也是一种义务,就算不去上课也要有合适的理由,至少一个请假条是 完全必要的。 二,混合战略均衡中的逃课问题 上面从一个完全信息静态博弈的方向讨论了老师点名与代同学请假的纳什均 衡,题设中假设条件太多,而且从现实中感觉有些假设是不太合理的,但经济学 就是建立在许多假设之上的,目的只是为了使问题一般化,容易研究,便于得出 更具一般性的有借鉴意义的结论。 下面我们从一个更加理性的角度,来分析老师点名与学生逃课之间的最优战 略组合,即混合战略。在现实中,老师上课点名与学生逃课之间的必然联系是不 明显的,但也不排除有些老师见来上课来的人少,采用点名来奖励来的同学,同 时给那些没来的同学一个小小的惩罚。在这里为了符合混合战略的有关条件,我 们假设老师也是在学生不来上课就点名, 老师和学生之间是一种行为的互动关系。 现在仍然假设同学甲想逃课,不同于“囚徒困境”的是,这回他更加理性,他选择 逃课还是不逃课时,都会竭力的猜测老师会不会点名。出于对对方行为的猜测, 就不存在纳什均衡了,因为老师和学生这时的最优行动是不确定的,而博弈的结 果必然要包括这种不确定性。 混合战略也就是反映了这种博弈参与人对其他参与 人行为的不确定性。 在任何有限博弈中, 都存在纳什均衡, 当然也包括混合战略, 只是在混合战略中纳什均衡的存在性比较特殊, 这种纳什均衡只是每一个参与人 的混合战略是其他参与人混合战略的最优反映。 老师