PISA对学生测试投入的测评及其启示

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



王正昱
(北京师范大学,北京100875)
PISA 对学生测试投入的测评及其启示
收稿日期:2020-03-22
基金项目:作者简介:中央高校基本科研业务费专项资金资助项目“基础教育质量监测评价结果应用的有效路径研究”
(2019NTSS39)

刚(1985—),男,北京师范大学中国基础教育质量监测协同创新中心,讲师;王正昱(1995—),男,北京师范大学中国基础教育质量监测协同创新中心,在读硕士生。

测试投入(test-taking effort )是指考生尽自己最大的努力作答测试的程度[1]。

学生的测试投入能够反映学生的测试动机,是学生个人特点、测试特点、测试表现期望及测试价值认知等因素综合作用的结果。

随着大规模测试在教育治理中发挥的作用日益增强,人们对测试效度和数据质量的要求不断提高,学生在该类测试中的投入程度也逐渐受到人们的关注。

作为21世纪初最具国际影响力的大规模测试项目,PISA 在学生测试投入方面进行了较为深入的探索。

本文对有关学生测试投入的研究与实践进行分析,并基于PISA2018数据对学生测试投入现状进行探究,以期对大规模测试的优化有所启示。

1学生测试投入研究的兴起
进入21世纪以后,大规模测试已经成为了解和
诊断教育改革与发展状况的重要途径,为教育决策与实践提供了大量的证据支持,如PISA 、TMISS 、PIRLS 等国际大规模测试,均在国际教育治理中扮演重要角色。

越来越多的国家(地区)开始探索采用大规模测试对教育质量进行监测评价,以期为本
国(地区)的教育问责与改进提供服务。

学生的测试表现被视为衡量教育质量并进一步分析教育系统的重要依据,甚至被直接用于教育问责;因此,测试的效度,即学生的测试表现能否准确反映学生的真实能力尤为重要。

然而,学生的测试表现不仅取决于学生的能力,还可能受到测试投入的影响,低利害属性的测试可能会降低学生的测试投入。

PISA 等大规模测试关注的重点是国家或区域层面的教育系统,旨在帮助人们更好地理解教与学以及相关的限制或促进因素,为教育政策制定者、实践者和研究者提供相应的证据信息[2]。

这就意味着,学生参与测试既不会得到金钱等物质奖惩,也无法获得有关测试结果的反馈信息,更不会影响学生未来的升学;因此,人们有理由怀疑学生在测试时可能不够投入。

如在美国、德国等国家,当有人因为学生在PISA 测试中的表现低于预期而对教育系统进行批评时,有研究者认为该结果有可能是学生在测试中
不够投入导致的[3]。

对我国4省市参加PISA2018测试的学生进行访谈发现,少部分学生在测试前就坦言对测试不感兴趣,认为该测试占用其学习时间。

CHINA EXAMINATIONS
2020年第5期(总第337期)
May 2020No.337
虽然关于学生的测试投入是否影响以及在多大程度上影响学生测试表现这一问题尚无定论,但诸多研究者倾向认同这一影响的存在。

如Wise等对12个实证研究的整合分析发现,高投入者的测试表现显著高于低投入者,表现差异为0.58个标准差[1]。

由美国教育研究协会、美国心理协会和美国国家教育测量协会联合开发的《教育与心理测验标准》(Standards for Educational and Psychological Test⁃ing)也强调,需要收集、报告有关学生测试投入的信息,并在解释其测试表现时加以考虑。

20世纪80年代末90年代初,已有研究者开始关注学生测试投入问题。

进入21世纪,有关学生投入的研究日趋增多,因此出现了较为完善的测评方法和大量的实证研究。

PISA在2003年的测试中首次对学生的测试投入进行测评,并在后续轮次的测试中根据测试方式的变化进一步丰富了这方面的工作。

PISA2018报告中,首次报告了学生的测试投入测评结果。

2学生测试投入的测评方法
有关学生测试投入的测评方法和工具较多,其中最常见的是自我报告法和反应时法。

2.1自我报告法
自我报告法是指考生在测试结束后,通过填答量表等工具对自己在测试中的投入程度进行评价,测评的结果为自我报告投入(self-report effort, SRE)。

自我报告法得到广泛应用的原因主要有2个:一是自我报告法对测试形式没有特殊要求,适用于纸笔测试和基于计算机的测试,实施方便且成本较低;二是学生填答自我报告工具时无需复杂的认知卷入,不会形成过多的认知负担。

Sundre等人开发的学生意见量表(Student Opinion Scale,SOS)是最为常见的自我报告工具。

该量表从重视和努力2个维度测评学生的投入程度,包括10个题项,采用5点李克特量表(1=非常不同意,2=不同意,3=中立,4=同意,5=非常同意)进行评价,见表1[4]。

大量研究表明,该量表具有较好的信效度,内部一致性信度在0.80~0.89之间[5]。

研究者可以单独使用“努力”分量表测评学生的测试投入,也可用2个量表的合成分表示学生的投入程度。

PISA采用“努力衡量表”(effort thermometer)让学生对其测试投入进行评价,见图1[6]。

该量表只有3个10分制的题项,分别测量学生在想象的重要情境、PISA测试情境以及成绩纳入学校分数的测试情境(高利害的测试情境)中的努力程度。

相较于SOS 量表,该量表更为简单,且可以比较学生在不同测试情境中的投入程度;但也有研究者批评该量表缺乏理论框架和心理测量学的实证支撑[7]。

图1PISA测试中的努力衡量表
维度题项
在这些测试中表现得好对我很重要
我不好奇我在测试中相较于别人表现得怎么样
我不关心在这些测试中考得怎么样
这些测试对我来说很重要
我想知道我能在这些测试中表现得怎么样
在这些测试中,我努力地参与其中
在这些测试中,我尽了最大的努力
我本可以更努力地进行这些测试
在完成测试时,我没有全神贯注
在参加这些测试时,我能够坚持到完成测试
重视:在测
试中表现得
好对于学生
而言的重要
程度
努力:在完
成测试方面
的努力水平
和持久性
表1SOS量表的维度与题项
李刚等:PISA对学生测试投入的测评及其启示·
·31
2020年第5

两状态混合模型认为,考生的反应时分布可以视为快速猜测行为反应时分布和问题解决行为反应时分布的混合,可表达为:F Oi =ρi F Gi +(1-ρi )F Si ,其中F Oi 是指观测到的题项i 的反应时分布,ρi 是指快速猜测行为的比率,F Gi 是指快速猜测行为反应时分布,F Si 是指问题解决行为反应时分布。


自我报告法虽然被广泛应用,但也存在一些不足:首先,学生对自己投入程度的估计可能存在偏差,部分在测试中表现不佳的学生可能为获得他人认可而夸大自己的努力程度,部分学生可能将自己的失败归因于缺乏努力而不是缺乏能力。

其次,没有认真对待测试的学生可能也不会认真对待测试投入量表。

最后,自我报告法只能反映考生整体投入程度,无法体现学生对每个题项的投入程度,更无法呈现投入程度的动态变化。

2.2反应时法
基于对自我报告法的反思,随着基于计算机的测试在大规模测试中的广泛运用,Wise 等提出反应时法[8]。

反应时是指在基于计算机的测试中,从题项出现到考生完成该题项作答所用的时间,多用秒计算。

反应时法将学生作答反应时间超过一定阈值的题项数占测试总题项数的比例视为衡量学生测试投入的指标,也被称为反应时投入(response time effort ,RTE )。

反应时法将学生的作答行为分为快速猜测行
为和问题解决行为,其中:快速猜测行为指投入度较低的考生没有花费必要的时间完整地阅读题干和选项并进行思考就作出回答;问题解决行为指学生基于必要的阅读和思考进行作答,体现了较高的投入程度[9]。

具体计算方法如下:对于第i 个题项,学生j 在该题项上的反应时为RT ij ,该题项的反应时阈值为T i ,则学生在该题项上的作答类型SB ij (问题解决行为计为“1”,快速猜测行为计为“0”)表达式为:
SB ij =
{
1if RT ij ≥T i 0otherwise

学生j 的RTE j 为:
RTE j =
∑SB
ij
k
.
其中:k 是测试的总项目数,RTE 取值范围介于0~1之间,越接近1表示投入程度越高。

该方法中,确定阈值T i 是RTE 计算的核心,需考虑以下6个因素:1)已有的对考生的明确要求,如已经书面要求学生作答不得少于一定时间;2)题项的表面信息,如题项的字符数;3)反应时频率分布的特征分析结果;4)两状态混合模型(two-state mixture model )估计结果①;5)反应时和反应精度分布的特征分析;6)平均项目反应时所占百分比[10]。

反应时法有以下优势:第一,反应时数据的收集在后台进行,不会给考生增加负担;第二,反应时是对学生作答过程的客观记录,不夹杂考生的主观判断,结果更客观;第三,可以收集每个题项的反应时,可呈现测试投入的动态变化。

有实证研究指出,反应时法可以更为准确地筛选出投入程度低的考生[11]。

该方法也存在一些不足:一方面,反应时法依托基于计算机的测试,无法在纸笔测试中实现,且由于测试方式和内容的日益多样化,如计算机自适应测试和计算机交互测试等,反应时法的运用将更为复杂;另一方面,考生可能会因为反应迟缓或注意力不集中而延长反应时间,也可能会因为熟练掌握知识或者题项过于简单而快速作答,这对阈值设置提出了挑战。

自PISA2012开始,许多国家(地区)开始采用基于计算机的测试,到PISA2015和PISA2018,基于计算机的测试已经成为主流,这为反应时法的应用创造了条件。

由于PISA2018阅读采用的是计算机自适应测试,故PISA2018只计算了数学和科学领域的
反应时投入。

PISA2018将基于短文本的题项阈值定为5秒,以此来区分快速猜测行为和解决问题行为;同时,PISA2018数据库给出学生在每个题项上采取第一个行为的反应时、采取行为的次数以及完成该题的反应时。

·
·32
注:越南、摩尔多瓦、约旦、乌克兰、北马其顿、罗马尼亚、阿根廷与黎巴嫩因仍然采用纸笔测试无法获得RTE 数据。

表2
PISA2018部分参测国家(地区)学生的测试投入数据
3PISA2018学生测试投入分析
PISA2018共有来自全球79个国家(地区)的约
60万15岁在校生参加测试。

北京、上海、江苏与浙江的12058名学生代表我国4省市各类中学约99.2万名15岁在校生参加测试。

3.1学生测试投入整体情况
PISA2018全体参测学生的测试投入情况见
表2。

从自我报告投入看,OECD 国家学生的测试投入均值为7.6,我国学生测试投入均值为8.98,位居第二,日本、卢森堡、黎巴嫩的学生在PISA 测试中的
投入程度最低。

在将PISA 表现计入学校成绩的高利害测试中,OECD 国家的学生投入均值为9.1,我国学生为9.63,位居第一,美国居于次席,黎巴嫩、文莱和日本相对较低。

总体而言,一些国家(地区)的学生在低利害和高利害测试中都保持较高投入,如我国和土耳其;一些国家(地区)的学生更愿意在
高利害测试中投入精力,如美国、加拿大、丹麦。

从反应时投入看,各国(地区)学生投入程度均较高,都在90%以上,其中:OECD 国家的学生测试投入均值为96.7%,最高的是墨西哥,最低的是卡塔尔,我国学生的均值为95.4%,位居第52位。

由测试结果可以看出,国家(地区)层面的自我报告投入与反应时投入结果并无直接关系。

PISA 报告指出,出现这种情况的一种可能是反应时投入对学生投入欠缺的行为并不敏感,如一些学生的不投入体现为长时间但不集中注意的阅读,而非快速猜测;另一种可能是自我报告投入并没有真正反映出学生的测试动机[6]。

总之,对这2种测评方法的运用与完善仍需深入研究。

3.2测试投入与素养表现、自我概念、测试难度的
关系
已有研究认为,投入程度与测试表现、测试难度存在相关,且可以作为学生自我效能感的预测变
李刚等:PISA 对学生测试投入的测评及其启示·
·33
2020年第5

SRE
1.00
科学RTE -0.02 1.00数学RTE -0.030.15***
1.00阅读素养表现-0.006数学素养表现-0.0020.01
科学素养表现-0.02-0.12
PISA 难度感知
-0.03***
0.05***0.02*
阅读能力感知0.11***
阅读难度感知-0.03
***
SRE
科学RTE 数学RTE
注:*表示p <0.05,**表示p <0.01,***
表示p <0.001。

表3
测试投入程度与素养表现、自我概念与
测试难度的相关系数
量[12]。

本研究对我国学生PISA2018测试数据进行分析(见表3),发现:1)学生的自我报告投入、反应时投入与学生的素养表现之间相关不显著,但芬兰、新加坡等一些国家的学生测试投入与表现存在显著相关,这说明测试投入对测试表现的影响可能存在较大的文化差异。

2)学生自我报告的阅读测试投入与其对阅读能力的自我感知存在显著正相关,与其对阅读难度的感知存在显著负相关,即学生认为自己能力越高、阅读越容易,其测试投入越高。

这在一定程度上说明,对自己能力越自信的学生可能参与测试越积极。

3)学生对PISA 难度的感知与其自我报告的测试投入存在显著负相关,与其反应时投入存在正相关。

产生这一结果可从2个角度解释:一种可能是试题难度大可能会降低学生的投入程度,但学生并不一定会采取快速猜测,而有可能进行更多无效的阅读;另一种可能是学生虽然认为自己投入不足,但仍然全力以赴。

4启示
第一,对工具研发的启示。

有研究发现,相较
于非认知测试,79%的考生在认知需求较高的测试中投入更低[13]。

特别是对能力水平较低的学生,即便他认可测试的重要意义,也可能因为试题较难而降低投入程度。

因此,测试开发者需要考虑认知负
担的问题:一方面可以采用矩阵抽样等技术,使测试在覆盖应有内容的基础上,尽可能缩短测试时间;另一方面需要平衡好认知负担和高阶能力测评的需求,如开发一些让学生感到有趣的新题型,以便对高阶能力进行有效评价的同时能够保证学生的投入度。

PISA 的经验告诉我们,让测试情境与日常生活紧密相连、增强测试交互性是激发学生测试兴趣的有效手段。

平衡考生认知负担与测评需求的另一重要方法是推行计算机自适应测试(comput⁃erized adaptive testing ,CAT )。

该测试可以根据学生的作答反应推送更符合其能力水平的试题,避免试题过难或过易可能带来的投入减弱。

同时,开发自适应测试时不仅要考虑学生的能力水平,还要考虑学生对题目难度的感知、测试的动机和投入等情况,如自我适应性测试(self-adapted testing ,SAT )便是一种有趣的尝试。

SAT 与CAT 的不同之处在于,前者是考生自主选择而非计算机选择推送的试题的难度,即考生选择一个难度类别并作答该类别试题,在作答结束后可以收到结果反馈,然后考生选择下一组试题的难度。

研究发现该方式可以有效降低考生的测试焦虑[14],但需要注意这种方式可能会延长学生的测试时间。

第二,对测试管理的启示。

学生的测试投入对测试数据的质量具有重要意义,应当通过合理的激励来鼓励学生更加积极地参与测试。

对此,人们首先想到的是为考生提供经济激励,但有研究发现经济激励可能并非有效手段,如Baumert 等实验研究发现,给予经济激励并没有显著提升考试的测试表现和投入程度[15];而且,对大规模测试而言,经济激励的成本较大。

结合PISA 测试的经验,以下是一些可供选择的激励策略:1)参测学校可以在测试前通过动员会、宣传册等方式,帮助学生了解测试的作用和意义。

如我国负责组织PISA 测试的机构会在测试前要求参测学校召开测试动员会,给学生发放《与PISA 的亲密接触》《给学生的一封信》等动员材
·
·34
料。

2)教师可以结合学生的实际情况向学生传达合理的期望,即期望学生在测试中尽全力取得好的表现,考生会为了获取教师的认可而提高自己的投入程度。

3)考试的组织方可以通过线上平台等形式反馈群体的最终测试结果,以及学生个人表现所处的水平等信息,让后续参加测试的学生认为测试并非与自己毫无关系,从而更加投入。

第三,对数据管理的启示。

为提高测试数据质量,可以采用动机过滤(motivation filtering)程序对数据进行甄别筛选。

该程序认为,低投入考生的测试表现数据是存疑的,可能会导致人们低估这些学生的能力水平,因此在基于学生能力表现的数据分析中应该将其从样本中删除。

Sundre等指出,严格的动机过滤程序不仅不会影响测试数据的可靠性,还会提高对学生能力水平估计的有效性[16];但有关动机过滤的诸多问题仍待进一步研究解答,如自我报告法和反应时法哪种更适用于动机过滤、动机过滤的阈值如何设定等。

此外,还应当加强对测试投入数据的分析,如组织方可以考虑在大规模测试中加入有关测试投入的测评内容,在部分基于计算机的测试中加强对反应时的研究等。

对投入数据的分析可以从2方面入手:一是基于其提升测试的科学性,如基于投入数据进行动机过滤或者对非认知因素(如自我效能感、自我概念等)测评进行三角互证;二是加强对学生测试投入本身的研究,完善学生测试投入的工具与方法,并基于此分析学生测试投入的特征。

参考文献
[1]WISE S L,DEMARS C E.Low examinee effort in low-stakes assess⁃ment:Problems and potential solutions[J].Educational Assessment, 2005,10(1):1-17.
[2]GREANEY V,KELLAGHAN T.Assessing National Achievement Levels in Education[R].Washington,DC:The World Bank,2008.
[3]O’NEIL H F,ABEDI J,MIYOSHI J,et al.Monetary incentives for low-stakes tests[J].Educational Assessment,2005,10(3):185-208.[4]SUNDER D L,MOORE D L.The student opinion scale:A measure of examinee motivation[J].Assessment Update,2002,14(1):8-9.
[5]SUNDRE D L.The Student Opinion Survey(SOS):A Measure of Examinee Motivation:Test Manual[R/OL].[2020-02-10].https:// /donna_l_sundre/15/.
[6]OECD.PISA2018results:What students know and can do[R/OL]. [2020-02-10].https:///pisa/publications/pisa-2018-resultshtm.htm.
[7]SCHÜTTPELZ-BRAUNS K,KADMON M,KIESSLING C,et al. Identifying low test-taking effort during low-stakes tests with the new Test-taking Effort Short Scale(TESS):development and psy⁃chometrics[J].BMC Medical Education,2018,18(1):101. [8]WISE S L,KONG X.Response time effort:A new measure of exam⁃inee motivation in computer-based tests[J].Applied Measurement in Education,2005,18(2):163-183.
[9]SWERDZEWSKI P J,HARMES J C,FINNEY S J.Two approaches for identifying low-motivated students in a low-stakes assessment context[J].Applied Measurement in Education,2011,24(2):162-188.
[10]KONG X J,WISE S L,BHOLA D S.Setting the response time threshold parameter to differentiate solution behavior from rapid-guessing behavior[J].Educational and Psychological Measurement, 2007,67(4):606-619.
[11]RIOS J A,LIU O L,BRIDGEMAN B.Identifying low-effort exam⁃inees on student learning outcomes assessment:A comparison of two approaches[J].New Directions for Institutional Research,2014(161):69-82.
[12]SOLAND J.Can item response times provide insight into students’motivation and self-efficacy in math?An initial application of test metadata to understand students’social-emotional needs[J].Edu⁃cational Measurement:Issues and Practice,2019,38(3):86-96.
[13]BARRY C L,HORST S J,FINNEY S J,et al.Do examinees have similar test-taking effort?A high-stakes question for low-stakes testing[J].International Journal of Testing,2010,10(4):342-363.
[14]PITKIN A K,VISPOEL W P.Differences between self-adapted and computerized adaptive tests:A meta-analysis[J].Journal of Ed⁃ucational Measurement,2001,38(3):235-247.
[15]BAUMERT J,DEMMRICH A.Test motivation in the assessment of student skills:The effects of incentives on motivation and perfor⁃mance[J].European Journal of Psychology of Education,2001,16(3):441-462.
[16]SUNDRE D L,WISE S.Motivation filtering:An exploration of the impact of low examinee motivation on the psychometric quality of tests[C].Chicago,IL:Annual Meeting of the National Council on Measurement in Education,2003.
(下转第72页)
李刚等:PISA对学生测试投入的测评及其启示·
·35
2020年第5

Research on the Construction of Comments Index System for the Unqualified Examinees
in the Interview of National Teacher Certification Examination
WU Zhengsheng
(Ningbo Educational Examination Institute,Ningbo 315000,China )
Abstract:The National Teacher Certification Examination (NTCE ),being a high-stake testing system,the interview which is easy to be influenced by subjective scoring has become the focus of NTCE.Whether the interview comments are written in a standard way or not is the core content.Based on the investigation of the current situation,this paper analyzes the problems in the writing of the interview comments.According to the national unified evaluation standard of NTCE interview,and based on the results of questionnaire,semi-structured interview and literature analysis,the interview comments index system of unqualified examinees in the NTCE,which consists of 8first-level indexes and 22second-level indexes,is proposed.
Keywords:National Teacher Certification Examination;interview;comments index system
(责任编辑:周黎明)
The Assessment of Students ’Test-taking Effort in PISA and Its Enlightenment
LI Gang,WANG Zhengyu
(Beijing Normal University,Beijing 100875,China )
Abstract:Students ’test-taking effort in large-scale assessments may influence their performance,which may affect test validity.The self-report method and the response time method are currently the most commonly used methods to assess students ’test-taking effort.PISA uses these two methods and reports the situation of students ’test-taking effort in the participating countries/regions.Based on the experience of PISA,suggestions for improvement of large-scale test tool development,test management and data management are put forward in this paper.
Keywords:PISA;large-scale assessment;test-taking effort
(责任编辑:张丽)
(上接第35页)
·
·72。

相关文档
最新文档