考试作弊甄别技术的研究进展团体作弊的甄别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
骆
方
王欣夷
徐永泽
封
慰
(北京师范大学,北京100875)
考试作弊甄别技术的研究进展:
团体作弊的甄别
收稿日期:2020-09-16
修回日期:2020-10-07
基金项目:作者简介:国家自然科学基金2018年度青年科学基金项目“大数据视角下大规模考试中的作弊甄别方法研究”
(61807005)
骆
方(1979—),女,北京师范大学心理学部,教授;
王欣夷(1997—),女,北京师范大学心理学部,在读硕士生;
徐永泽(1991—),男,北京师范大学中国基础教育质量监测协同创新中心;封
慰(1993—),男,北京师范大学心理学部。
随着标准化考试的日益普及,作弊的手段与方式越来越多,逐渐趋向组织化和产业化,团体作弊现象越来越普遍。
一些作弊考生参与大规模的跨考场团体作弊,作弊呈现出隐蔽性强、抄袭率高、涉及面广等新特点[1]。
团体作弊不仅破坏了考试作为选拔手段的公信力,也破坏了社会公平,其危害程度远大于个体作弊。
团体作弊可分为试题泄露导致的团体作弊、行政舞弊与高科技作弊3种。
3种作弊方式虽均形成跨考场的作弊团体,但作弊方式的差异导致它们表现出不同的特点。
考后作弊甄别作为维护考试公平、确保考试分数可靠的必要手段之一,一直是教育和心理测量学的重要研究课题。
随着科技的发展,作弊手段不断升级,对作弊甄别方法也提出新的挑战。
本文针对不同类型的团体作弊,介绍目前的团体作弊甄别技术,以期为我国考试作弊甄别提供技术参考。
1试题泄露甄别方法
试题泄露是指作弊考生在考试开始前获取部
分试题的原题或答案,或者在参加形式较为固定的考试前询问已经参加过此类考试的考生来获得部分试题信息[2-5]。
如果试题大范围泄露,考试就变成对特定题目记忆的考查,无法考查考生的能力,影响考试的有效性。
通过这种方式作弊的考生一般在泄露试题上的作答表现更好,与其他试题的作答表现有明显不同。
一些研究者使用个人拟合检测指数来量化考生在泄露试题与其他试题上的作答差异程度,个人拟合检测指数异常的考生通常被认定为作弊考生[2,6-7]。
下面介绍2个应用个人拟合检测指数的研究。
Zhang 等提出甄别试题泄露导致团体作弊的方
法:首先使用个人拟合指标l z 与一个预先确定的阈值判断考生的作答模式是否存在异常;接着对标记
CHINA EXAMINATIONS
2020年第11期(总第343期)
November 2020
No.343
2020年第11
期
为异常的考生建立题目异常分数矩阵,当考生对某些题目有预先了解时,正确回答这些题目的次数要比基于他们能力预测的次数多;最后计算考生对之间的相似性,并利用因素分析发现选定的考生之间的集群[8]。
在真实数据上使用这种方法时,2000名考生中,有4.2%的考生在第一阶段被标记为异常考生,这些异常考生中只有18%左右的考生被聚成团伙,因此使用这种方法需要事先对考生是否对试题有预先了解进行筛选,然后对异常考生进行分组,异常考生的筛选依赖于第一阶段,因此可能会出现检出率较低、误判率较高的现象[8]。
Belov 通过模拟研究检验了试题泄露检测指数
的有效性,发现对于抄袭比率低的场合,检测率不
佳[7]。
此外,当作弊考生获取全部的试题或答案时,不会表现出泄露试题与未泄露试题之间作答的差异,这种方法也就不再适用。
2行政舞弊甄别方法
行政舞弊是指教师或管理人员参与的非法作
弊活动。
由于一些地区将对学校的评价、教师的薪酬与学生成绩紧密挂钩,因此在利益的刺激下,学校或者教师可能会通过考试前对考生进行培训、考试时提供答案或延长考试时间、考后更改考生的作答等手段帮助考生获取好成绩。
行政舞弊的特点是作弊团体的组成信息往往是已知的,教师或学校管理人员以班级或学校为单位进行作弊,研究者通常会基于自然班级和学校来筛选行政作弊团体。
Jacob 等提出一种利用异常分数波动和班级异常作答模式检测行政舞弊的方法[9]。
异常分数波动需要某班级连续3年特定学科成绩百分位数排名,其计算公式为:
SCORE cbt =()rank_gain c ,b ,t 2
+()
1-rank_gain c ,b ,t +12
其中rank_gain c ,b ,t 代表班级c 在科目b 上t 年的百分位数排名。
在第一年取得大幅成绩进步,而在第二年成绩进步较小却获得较大SCORE cbt 的班级,很可能是作弊班级。
同时,他们还给出3个判断班级作答模式是否异常的指标:1)班级学生给出最不常见
相同答案的可能性;2)班级学生作答间的相关及不同题目间相关的差异;3)同一分数考生间作答的差异[9]。
这种将异常分数波动和班级异常作答模式结合起来进行作弊团体甄别的效果较好,但甄别时需要同一科目连续3年的成绩限制了它的使用。
Vista 提出一种用于大规模考试甄别行政舞弊
的两阶段方法[10]。
在利用团体信息(学校、班级)对考生进行分组后,第一个阶段计算所有考生与本次
考试中作答几乎全部正确的考生两两配对的ω指标,以较为宽松的α水平进行初步筛选,标记作弊嫌疑考生占比超过5%的组;第二阶段,对标记的组,在组内随机抽取500对考生,两两配对计算ω指标,以较为严格的α水平进行筛选,最终将作弊嫌疑考生占比过高的组判定为行政作弊团体,这种方法的检出率接近100%[10]。
行政舞弊的甄别方法使用预先可以得到的分组信息,如班级、学校等,直接以团体为单位进行作弊甄别,检出率较高;但直接以团体为单位进行甄别无法确定所涉及的考生个体是否作弊,因此需要事后对考生本人是否参与作弊进行彻底调查。
3高科技作弊甄别方法
高科技作弊是指在信息技术不断发展的背景
下,利用多种电子设备通过无线网络与考场外枪手进行试题和答案传输的一种作弊行为[11]。
高科技作弊的手段包括(但不限于)使用手机、计算器、电子扫描笔、无线耳机等可连接互联网或通信的设备,考生通过短消息或电子邮件将试题快速传送给考场外部枪手,并且通过相同的方式接收枪手的答案[12]。
近年来,在全世界的各类考试尤其是高利害考试中,使用高科技设备作弊的事件时有发生,严
重损害了考试的公平性。
高科技作弊具有大规模、有组织、团体性、答案可以跨考场传播的特点,作弊团体内的考生作答之间存在异常相似性[2]。
按照作答类型,试题可以分为客观题和主观题。
在传统的抄袭作弊中,客观题比主观题更容易抄袭。
在监考比较严格的情况下,主观题抄袭较难发生;但
·
·38
是在高科技作弊场景下,一些电子设备具有高度隐蔽性,主观题的答案要点可以通过语音和文字的方式传递给考生,主观题抄袭也逐渐成为普遍现象。
已有的作弊甄别指标多适用于一个考场内2个考生间的抄袭,将其运用到高科技作弊场景中使用时,需要根据高科技作弊的特点进行改进。
以下介绍高科技作弊场景下客观题和主观题的甄别方法。
3.1客观题的作弊甄别
Wollack等在相似性指标M4的基础上,提出使用最近邻聚类的方法筛选作弊团体。
这种方法的检出率比较高,但是检测出的作弊团体可能是异质的,即不同的作弊团体考生被划分在同一个团体中,导致误判率较高[13]。
Belov等将图论的思想运用于作弊团体甄别,将每个考生视为图中的一个点,根据划定的相似性指标ω的阈值来判断2名考生,即2点之间是否连线(代表二者有抄袭关系),然后在图中基于考生之间的连线关系寻找作弊团体;他们将作弊团体定义为具有一定规模的团,团内所有考生两两间均须有线段连接,通过建立团大小的分布来选取阈值,从图中存在的最大团开始逐步筛选,大于或等于阈值的团均被认作作弊团体[14]。
这种方法的甄别效果比较稳定,误判率较低,但检出率也偏低。
上述2种方法为解决高科技客观题作弊甄别提供了参考:先筛选具有作弊嫌疑的考生对,再通过聚类或图论的方式寻找作弊团体,依据的原理都是作弊团体内部的作答相似性大于作弊团体与非作弊人员的相似性。
2种方法共同的局限性在于使用相似性指标需要人为划定临界值,临界值选取不当会影响甄别效果。
3.2主观题的作弊甄别
论述、写作等主观题一直是我国大规模考试的常用题型。
主观题的作弊甄别一般是依靠评卷专家组来判定,对于同一科目,当考生作答的“错同率”达到一定比率,即认定为雷同卷。
这种依靠专家判定的方式,费时费力,而且在大规模考试中,仅凭人力难以逐个核查数以万计的主观题。
作业查重、论文查重、代码查重、邮件过滤和内容原创度审核等都属于文本抄袭检测的研究范畴,这些领域的研究成果对主观题作弊甄别有一定的借鉴意义。
文本抄袭检测是指通过一定算法,利用不同的特征提取方式,使用合适的相似度计算方法,得到具体量化的相似度数值,并以此对词语、短文本、文档或者代码之间的相似程度进行衡量的方法。
文本特征构建后,可以分为内部和外部2种检测模式。
外部检测模式是指将待检测的文本与其他文本进行配对,以2个文本间的相似程度来衡量其是否存在抄袭嫌疑。
内部检测模式是指不借助其他的外部文本,仅依靠该文本自身的内部风格特征,对每一个独立的文本进行抄袭检测的方法,内部风格特征差异越大,文本内容越异常。
例如,有研究者曾选取古代常用的14个虚词,对《红楼梦》进行词频统计,分析全书的前
后部分在14个虚词上的使用差异,发现前80回和后40回在14个常用虚词的使用上存在较大差异[15]。
在参考内、外部检测模式的基础上,笔者提出相似度检测法和文本风格检测法。
相似度检测法是利用Bert模型和余弦公式对考生的作答文本进行相似度计算,按照一定的阈值对考生作答进行聚类,构建类别相似度的Z分数矩阵,并将类别和相似度转化为类似于客观题的题目和选项,通过设定的指标来甄别作弊考生。
文本风格检测法的思路是:如果一场考试是由考生独立完成的,那么不管是在得分的部分,还是根据要求结合材料论述和引申的部分,考生的写作风格都不会有较大的差异;因此如果一名考生在得分部分和引申部分存在较大的写作风格差异,说明该考生可能一部分是自己作答,另一部分则是抄袭枪手传输的答案。
利用上述差异可以找出存在作答异常的考生。
写作风格的差异有2种定义方法:第一种是比较考生在“个人引申”和“得分要点”2个部分使用虚词情况的差异程度,第二种是比较考生在2个部分的词汇丰富程度、停用词使用频率、平均句子长度、平均单词长度等方面的差异程度。
本研究发现,单独使用相似度检测法或文本风格检测法时,虽然都能达到较高的检出率,但是无法将误判率控制在可接受的范围内。
进一步分析
骆方等:考试作弊甄别技术的研究进展:团体作弊的甄别·
·39
2020年第11
期
发现,内、外部检测法适用的范围不同:内部检测法对主观题作答字数较多、得分较高的考生更敏感,检测效果更好;外部检测法对主观题作答字数较少、得分相对较低的考生更敏感。
基于这些特点,在主观题作答字数较多、得分较高的考生中,内部检测法权重设定为0.9,外部检测法权重为0.1;对于主观题作答字数较少、得分较低的考生,外部检测法权重设定为0.9,内部检测法权重为0.1;对中等水平考生的甄别,内部检测法指标权重设定为0.4,外部检测法权重为0.6。
通过不同指标分配权重的设定,检测效果有较大提升,能够在检出率100%的情况下,将误判率控制在10%以下。
随着科技的发展,高科技作弊手段隐蔽性越来越强,越来越难以防范,例如大规模考试中往往存在多个作弊团体,枪手的能力水平往往较高,同一作弊团体内的考生收到相同的答案后可能会进行不同比率的抄袭,这都使得作弊甄别难上加难[16]。
因此,在未来的研究中,应将主观题和客观题的甄别方法结合使用,从而取得更好的甄别效果。
参考文献
[1]彭恒利,孔祥.标准化考试作弊甄别的理论与方法[M].北京:北
京语言大学出版社,2015:39.
[2]BELOV D I.Detection of test collusion via Kullback-Leibler divergence [J].Journal of Educational Measurement,2013,50(2):141-163.
[3]BELOV D paring the performance of eight item preknowledge detection statistics[J].Applied Psychological Measurement,2016,40
(2):83-97.
[4]ZHANG J.A sequential procedure for detecting compromised items
in the item pool of a CAT system[J].Applied Psychological Measure⁃
ment,2014,38(2):87-104.
[5]ECKERLY C A.Detecting preknowledge and item compromise[M]//
CIZEK G J,WOLLACK J A.Handbook of quantitative methods for detecting cheating on tests.New York:Routledge,2017:101-123.
[6]KARABATSOS paring the aberrant response detection per⁃
formance of thirty-six person-fit statistics[J].Applied Measurement in Education,2003,16(4):277-298.
[7]BELOV D I.Detecting item preknowledge in computerized adaptive
testing using information theory and combinatorial optimization[J].
Journal of Computerized Adaptive Testing,2014,2(3):37-58.
[8]ZHANG Y,SEARCY C A,HORN L.Mapping clusters of aberrant
patterns in item responses[C]//The National Council on Measurement in Education.The 2011Annual Meeting of the National Council on Measurement in Education.New Orleans:Routledge,2011:55.
[9]JACOB B A,LEVITT S D.Rotten apples:An investigation of the
prevalence and predictors of teacher cheating[J].Quarterly Journal
of Economics,2003,118(3):843-877.
[10]VISTA A.Implementation of the Omega (ω)index to detect large-scale systematic cheating[J].European Journal of Educational Re⁃
search,2019,8(1):307-322.
[11]SRIKANTH M,ASMATULU R.Modern cheating techniques,their
adverse effects on engineering education and preventions[J].Inter⁃
national Journal of Mechanical Engineering Education,2016,42
(2):129-140.
[12]聂蕾.考生的常用作弊手段及防范策略[J].科技风,2020(7):237.
[13]WOLLACK J A,MAYNES D.Detection of test collusion using cul⁃
ster analysis[M]//CIZEK G J,WOLLACK J A.Handbook of quanti⁃tative methods for detecting cheating on tests.New York:Rout⁃ledge,2017:124-150.
[14]BELOV D I,WOLLACK J A.Detecting groups of test takers in⁃
volved in test collusion as unusually large cliques in a graph[R].Newtown:the Law School Admission Council,2018.
[15]王阳阳.基于朴素贝叶斯与BP 网络神经分类方法的《红楼梦》
文本特征差异研究[J].统计与决策,2018,34(13):121-125.[16]CRITTENDEN V L,HANNA R C,PETERSON R A.The cheating
culture:A global societal phenomenon[J].Business Horizons,
2009,52(4):337-346.
Research Progress of Cheating Detection Technology in Examinations:
Detection of Group Cheating
LUO Fang,WANG Xinyi,XU Yongze,FENG Wei
(Beijing Normal University,Beijing 100875,China )
Abstract:With the popularization of standardized tests,group cheating has become more and more common,and its harm is far greater than that of individual cheating.Group cheating mainly include three types:group cheating caused by test items leaking,administrative cheating and high-tech cheating.Due to the different ways of cheating,
·
·40
(责任编辑:张
卫)
test cheaters show different characteristics in their responses.In the case of leaked test items,cheaters usually show a higher level than their ability,so clusters of cheaters can be found based on the number of times that cheaters have performed higher than their ability,and the similarity between two examinees.For administrative cheating,it is usually possible to determine the range of cheaters,such as the class,school,or ing the known information of the examinee cluster,the cheating is directly detected according to the abnormal increase of the score
or the high similarity within the cluster.For the multiple choice item cheating using high-tech,because the plagiarism items and the group of candidates are unknown,the researchers use clustering or group screening method to identify cheating groups.For the constructed-response item cheating in high-tech,the external detection method of text plagiarism and the internal detection method are combined to realize the recognition of text copy.This paper
systematically summarizes the forms,characteristics and corresponding detection methods of group cheating in order to provide reference for the detection of cheating in exams to examination institution.Keywords:detection of cheating in examinations;group cheating;test items leaking;administrative cheating;high-tech cheating;examination security
Enlightenment of Integration of Scientific Labor Value into the Biology Items of Gaokao for
Education and Teaching:Taking Biology Items of 2020Gaokao as an Example
CHEN Qiulai
(No.1Middle School of Guangze County,Nanping 354100,China )
Abstract:As Gaokao plays an important guiding role in education and teaching,how to guide the students to set up correct labor value through the items of Gaokao,to give full play to its role of morality education,is the reform direction of Gaokao in the new era.Through analyzing the integration of scientific labor value into the biology items of 2020Gaokao,it is found that the biology items,creating the practical situation of productive labor,can convey the concept of creative labor value and green production and living value,thus guiding students to enhance scientific labor awareness.The enlightenments to implement the labor education value into the education and teaching of biology are:a )to guide students to set up correct labor value with the assistance of history of science and inquiry history resources;b )to guide students to set up creative labor value through carrying out inquiry learning
activities;c )to guide students to strengthen the sense of scientific labor by insisting on integrating theory with practical production and living.
Keywords:Gaokao;biology of Gaokao;labor education evaluation;scientific labor concept
(责任编辑:张丽)
(上接第31页)
骆方等:考试作弊甄别技术的研究进展:团体作弊的甄别·
·41。