语言测试的分类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

语⾔测试的分类
第⼆章语⾔测试的分类
语⾔测试的分类决定着测试的形式,题⽬的类型。

语⾔测试⼤体上可以从⽤途、构建、考察重点、评分⽅式、对测试分数的解释等⽅⾯进⾏分类。

正如Henning(2001)指出的,语⾔测试有多少个⽬的,就会有多少种测试类别。

语⾔测试的分类能够帮我们弄清“为什么测试?”、“测试什么?”、“怎样测试?”等问题。

对于语⾔测试类型的了解能够帮助教师更有效地组织测试,更好地实现英语语⾔测试的信度和效度,更科学地根据测试的⽬的权衡信度、效度之间的关系。

第⼀节以测试⽤途为标准的分类
从测试⽤途⾓度进⾏分类,⼤致可以将语⾔测试分为五种测试形式,即⽔平测试(proficiency tests)、成绩测试(achievement tests)、分级测试(placement tests)、潜能测试(apititude tests)和诊断性测试(diagnostic tests)。

1. ⽔平测试(proficiency tests)
⽔平测试是⽤来测量⼈们的某⼀语⾔能⼒,往往与被测试者先前所受的语⾔训练⽆关。

⽔平测试多针对于来⾃不同学校,不同国家,不同语⾔背景的受试者,因此⽔平测试与他们过去的学习内容、课程⽬标、课程⼤纲等没有直接联系。

这⾥的⽔平更强调以某⼀特定⽬标为基础的,对于语⾔的充分驾驭。

⽔平测试的⽬的之⼀是⽤来选拔。

这种选拔可以是为某⼀⼯作岗位进⾏的招聘,此时的测试⽬标着重于受试者能否胜任某⼀⼯作,测试内容往往与这⼀⼯作中的实际场景相关,如联合国译员考试。

这种选拔也可以是升学选拔,此时的测试内容是向前看的,如测量学⽣是否具有⾜够的语⾔能⼒来跟上⼤学中的课程和学业,如美国的托福考试,英国的剑桥英语⽔平证书测试(University of Cambridge Certificate of Proficiency in English)等。

⼤多数试题内容来⾃国外⼤学本科⽣教材。

升学选拔⽔平测试在范围上有所区分,有的只是针对于⼤学中某⼀具体专业,如艺术专业;⽽有的则是针对于所有专业,如⽜津EFL考试。

现以雅思考试为例对⽔平测试做⼀具体说明。

雅思即国际英语⽔平测试(International English Language Testing System),简称IELTS。

IELTS的考试中⼼遍布全球105个国家。

考试可分为两种类型,学术类和培训类。

学术类IELTS(Academic IELTS)适合于计划申请报读国外⾼校本科或研究⽣课程的考⽣,专门测试考⽣是否具备⼀定的英语语⾔能⼒完成本科或研究⽣课程。

因此如果计划店铺深造或接受⾼等教育,应选择学术类IELTS考试。

普通培训类IELTS(General Training)是针对去英语国家完成中学教育,学习⾮学位培训课程,以及赴加拿⼤、澳⼤利亚、新西兰等国移民定居的⼈员,主要测试在⼀般的社会和教育情景下的基本⽣存技能(basic survival skills)。

因此如果计划完成初级教育,接受⾮学术类培训,⼯作或移民到英语国家,应选择培训类IELTS考试。

IELTS考⽣需要参加听⼒、阅读、写作和⼝语四项测试。

每项测试不同的技能。

听⼒要求考⽣理解⽇常⽣活中的⼝语和⾮正式场合的⼝语,⽐如在讲座,研讨时使⽤的⼝语,雅思的听⼒部分就是测试考⽣在这⽅⾯做得如何;阅读部分主要考察考⽣从许多信息来源中快速、准确地收集找到主要信息的能⼒,此部分主要针对⽇后学习中常⾯对的问题,即在学习中没有时间阅读书单上所有的书。

写作部分测试考⽣在收集和组织信息后,以⽂章或报告的形式表述想法的能⼒;⼝语部分测试考⽣谈论⾃⼰的情况,表达对各种问题看法的能⼒。

总之,雅思的所有考试都⾯对今后学习中常出现的情况,即在时间紧迫的情况下寻找信息,快速思维,并恰当地做出反应。

我国的⽔平测试主要是全国公共英语等级考试,教育部和许多单位派遣店铺⼈员的标准之⼀就是通过全国公共英语等级考试的第五级。

⽔平测试往往事关重⼤,因此在⽔平测试试卷的设计上⼀定要有信度和效度。

很多⽔平测试都往往委托于专业的考试机构。

同时⽔平测试的出题机构应⼴泛吸收应试者的见意,使⽔平测试具有正⾯的“回波效应”(backwash effect)。

2. 成绩测试(achievement tests)
成绩测试⽤来测量学⽣对于所学知识的掌握,与所学课程直接相关,⽬的在于评价学⽣个体、⼩组或班级在学习⽬标实现⽅⾯的成功度。

成绩测试⼀般包括:终结性成绩测试(final achievement tests)和进程性成绩测试(progress achievement tests)。

终结性成绩测试在学科结束时进⾏。

试卷命题⼀般由年级组、学校教务部门、教育部官⽅命题机构等负责。

考试内容与教学内容相关。

就考试内容⽽⾔可分为基于教学⼤纲的内容模式和基于教学⽬标的内容模式。

前者的考试内容多数是学⽣所熟悉的,但问题在于如果⼤纲设计不合理或教材选取不当,考试结果将会误导师⽣。

例如,某⼀课程⽬标是发展学⽣的⼝语能⼒,但是课程本⾝和测试内容是要求学⽣在充分的准备下发表对家乡、对天⽓的看法,那么测试结果就不能反映出学⽣是否达到了课程⽬标所要求的程度。

基于教学⽬标的内容模式使测试内容与课程⽬标直接相关,其优势在于⾸先使课程设计者更精细地描述⽬标;其次使测试结果更好地反映学⽣是否达到了课程⽬标所要求的程度;同时对于⼤纲的制作和教材选择有更好地规范作⽤。

Hughes认为:“它能为个⼈和群体的成绩提供更精确的信息,并为教学提供更有益的‘回波效应’(backwash
effect)”(Hughes 2000:11)。

终结性成绩测试的试题⼀般是主观性和客观性试题相结合,试卷制作较为规范。

每学年的期末考试、我国的中考及⾼考,严格来说都应属于终结性成绩测试,因为这些测试都是以教学⼤纲为内容的测试,并且试题多是检验学⽣对已学知识的掌握。

进程性成绩测试,顾名思义,是测量学⽣在学习过程中的进步。

对于进程的衡量可以通过建⽴短期⽬标来实现。

教师多采⽤突击测验的形式来检查学⽣的学习进程,并使学⽣时刻保持警觉。

因此进程性成绩测试的试卷制作相对不太严格,每⼀份试卷都具有其独特性,并且多根据具体任课教师对班级成员的了解及其⾃⾝制定的阶段性⽬标为命题依据。

进程性成绩测试作为⼀种有效的测试⽅法,能够对教学和学习动机产⽣有益的回波效应。

好的进程性成绩测试能够⿎励学⽣学习⽬标语⾔并获得⾃信,还能推动学习并巩固已学知识。

成绩测试⽅法应当与教学中所使⽤的⽅法相⼀致。

例如,教学中使⽤的是交际能⼒教学法,那么成绩测试的⽅法也应为交际能⼒测试⽅法⽽不是结构主义测试⽅法,否则就会导致考试不公平的问题。

近年来对于标准化试题的争议多源⾃于测试⽅法与教学⽅法的分歧。

⽬前,⾃我评估(self-assessment)测试⽅法逐渐融⼊到成绩测试中。

所谓的“⾃我评估测试⽅法”就是⿎励学⽣参与到评估中,能对⾃⼰在不同情景中所表现出的语⾔能⼒给予评价。

3. 分级测试(placement tests)
分级测试是根据学⽣的不同能⼒将学⽣分为不同的等级或不同的班级。

分级考试的试卷设计应当量体裁⾐,即在分级测试前要弄清不同级别的主要教学特点,然后根据这些教学特点设计具体的测试内容。

分级测试的试题难度应包括不同难度⽔平的题⽬,即遍布从最简单到最难题⽬的两极之间。

对于百分制的测试⽽⾔,最好以10分为⼀个段,每个分数段都有学⽣,以便于分班。

分级测试符合现代教育理论所强调的因材施教,即针对不同⽔平的学⽣采取不同的教学⽅法和教学内容。

但是分级测试也应考虑学⽣的⼼理承受能⼒,避免挫伤学习者的学习积极性。

分班分级所导致的压⼒不仅影响到学习能⼒较弱的学⽣,也会影响到尖⼦班⾥的优秀⽣。

⼼理学研究表明,压⼒⼤造成的过强学习动机反⽽会使学习者⼼情过分紧张、焦虑、影响记忆理解能⼒。

因此如何恰当地使⽤这⼀测试⽅法,还有待于进⼀步的探讨。

4. 潜能测试(apititude tests)
语⾔潜能测试也叫做预测性测试(prognostic tests),是通过衡量学⽣在⼀门陌⽣语⾔中的语⾔表现,以预测其是否有学好这门语⾔的潜⼒。

语⾔学习潜⼒受到多⽅⾯因素的影响,如智商、年龄、动机、记忆⼒、语⾔敏感度和语法结构敏感度等。

语⾔潜能测试与之前所学的知识⽆关,很多情况下是学⽣以前从未接触过的语⾔。

⼀些专家认为在实际操作中不太可能对应试者的语⾔潜能进⾏全⾯的测试,因此多数测试只是衡量考⽣某⼀部分的潜能如听、译领域的潜能。

词汇测试常被认为是有效的潜能测试⽅法,因其与智商紧密相连并且能反应出应试者对这⼀领域的兴趣。

测试语⾔多采⽤⼈⼯语⾔,多关注⾳位区分能⼒和系统运⽤语⾔结构的能⼒,潜能测试题⽬数量较多,如The Modern Language Aptitude Test。

5. 诊断性测试(diagnostic tests)
诊断性测试⽤来识别学⽣在学习⽅⾯的优势和劣势,从⽽确定未来的教学⾛向。

诊断性测试较关注于学⽣在哪些⽅⾯犯了错误,并借此找出补救的办法。

从⼴义上说,诊断性测试可以帮助改进教学,调整教学计划,进⾏个别指导。

现⾏课堂中采⽤的诊断性测试多是教师根据教学重点、难点及本班实际情况⾃⾏进⾏的⼩测验,从⽽及时发现学⽣的问题,尤其是普遍性问题,以此给教师提供依据,对前⼀阶段的教学进⾏反思,对今后的教学给予指导。

这种诊断性测试得分应在平均80%以上,以⿎励学⽣的学习。

“诊断性测试可以作为形成性评价的组成部分,将⼀个学期的试卷存⼊学习档案就会使学⽣清楚地看到⾃⼰的学习进展情况”(武尊民2008:32)。

这种课堂上的诊断性测试,从本质上来说,与成绩测试尤其是进程性成绩测试相吻合。

正如Heaton所说:“尽管诊断性测试的术语被⼴泛使⽤,但⼏乎没有什么测试是只被做为诊断性测试⽽构建的”(Heaton 2000:173)。

成绩测试和⽔平测试经常被⽤于诊断性测试之中。

原因在于,从⼤的⽅⾯,例如从语⾔技巧的⾓度⽽⾔,⼀套综合性试卷就可以帮助我们判断某⼀学⽣在听说读写译五个⽅⾯哪个⽅⾯最强,哪个⽅⾯最弱。

在写作和⼝语⽅⾯,在现有的成绩测试和⽔平测试中,我们也可以根据测量标准,很容易地判断出学⽣在写作或⼝语中较弱的⽅⾯,例如词汇匮乏,或是不能较好地使⽤连接⼿段等。

但是对于⾮常具体的内容,现有的测试⼿段和模式很难构建出真正具有诊断性特征的测试内容。

例如,对于语法⽅⾯的考察,就缺少真正意义上的诊断性测试。

假设我们想诊断学⽣是否具有对某两种相似语法结构或时态进⾏区分的能⼒,那么数量太少的题⽬尤其是选择题则不能实现诊断的信度和效度,因为样本过少则不能排除运⽓及猜题之嫌。

此时的样本应尽可能的丰富,并应包含每⼀种它们能够实际应⽤的情景。

但是,⼤量的样本之需常常使试题出题⼈和使⽤者避⽽远之。

那么,是不是因此就要遗弃单纯的诊断性测试呢?显⽽易见,诊断性测试本⾝的意义就已否认了这种观点。

尤其是在现代社会,⼈们⼤⼒提倡终⽣学习,⾃主学习。

诊断性测试对于⾃主学习的意义是巨⼤⽽⼜明显的。

对于这种⽭盾的解决⽅法就要向计算机系统寻求帮助了。

第⼆节以测试构建为标准的分类
从测试构建的⾓度进⾏分类,英语语⾔测试可以分为直接测试(direct tests)和间接测试(indirect tests)。

换句话说,这种分类形式取决于测试者是想直接地测量语⾔实际运⽤能⼒,还是想间接地反映出某种语⾔能⼒。

1. 直接测试(direct tests)
当某⼀测试使应试者精确并直接地表现出我们想要测量的能⼒时,那么该测试就被视为直接测试。

直接测试的结果能够直接反映应试者在某⼀⽅⾯的语⾔能⼒。

如我们想考察学⽣的写作能⼒,就可以让他写⼀篇作⽂。

再⽐如我们想考察学⽣的语⾳语调,就可以让他读⼀
⼩段⽂章。

直接测试较适⽤于产出性的语⾔技能,如阅读和写作。

直接测试的优势在于:⾸先,如果我们很清楚想要测量的语⾔能⼒有哪些,那么就可以相对直接地创造出相应的情景,使考⽣产出的⾏为在该能⼒所要求的⾏为范围之内;其次,对于产出性技能,很容易直接地给予评估和阐释;此外,对于直接测试的准备则会督促考⽣多次训练相应的技能,对教学和学习有很好的回波效应。

直接测试的选材要求尽可能真实,最理想的考试环境应当是现实中的实际环境⽽⾮⼈为策划出来的交际环境。

因此这也是直接测试的瓶颈所在。

因为任何的现⾏的直接测试从本质上来说都不可能是完全真实的。

McNamara(2003)曾举过这样的例⼦
来说明这个问题,在为移民健康从业⼈员进⾏的英语⼝语测试中,所设置的对话、⾓⾊扮演都发⽣在医⽣和患者之间,场景相对真实,但是显⽽易见这种⾏为本⾝并不存在,医⽣并不是真正地在向患者提供服务。

McNamara进⼀步引⽤⼀位著名作家的话来解释这⼀点,即“每个⼈都意识到评估⼝语能⼒的对话只是⼀种测试⽽不是真的发⽣在茶话会上(tea
party)”(McNamara 2003:9)。

Henning也曾指出:“许多语⾔测试都应被视为⾃然场景(natural-situational)到⾮⾃然策划场景(unnatural-contrived)所构成的连续体(continuum)当中的⼀点”(Henning 2001:5)。

因此,测试的直接性只是相对⽽⾔,例如⼝语中的采访形式要⽐完形填空直接;语境化的词汇测试要⽐同义词匹配⾃然直接。

就信度和效度⽽⾔,直接测试效度好⽽信度差。

直接测试能更为直观地反映出考⽣的语⾔能⼒,接近真实⽣活中的语⾔表现,因此效度好。

但是由于直接测试的题⽬往往是主观性测试题⽬,因此评分所具有的主观性相对较⾼,导致其信度较差。

直接性测试要避免场景构建失真,同时要注意简化的评分⽅式也会影响有价值的直接语⾔能⼒数据。

2. 间接测试(indirect tests)
间接地观察⾔语⾏为的测试称为间接测试。

间接测试的结果不能直接反映语⾔能⼒,但是可以提供判断语⾔能⼒的信息。

Lado在1961年提出了间接测试语⾔能⼒的⼀种⽅法,即让学⽣判断所给出的词汇中哪些词汇可以构成同⾳词汇对。

这种题型在我国初、⾼中英语测试中⼴泛应⽤,即给出⼀个词,然后让学⽣从四个选项中选出⼀个与所给出词汇发⾳相同的词。

间接性测试的优势在于适⽤范围较⼴,并且其结果也更具概况性。

但问题在于如何判断某⼀能⼒的构成成分,这些构成成分的测试分数是否能够真正反映出考⽣对该能⼒的掌握程度。

在实际操作中,如语法知识的考察中,间接性测试只能从语法单项中进⾏取样测试,考试结果只能反映所取样的内容,⽽不能说明所有语法知识的掌握程度。

间接性测试与直接性测试相⽐较效度差,但信度⾼,这主要是由于间接性测试多采⽤客观性试题。

对于直接性测试和间接性测试的选择受成本效益、信度和效度等因素的影响。

第三节以考察重点为标准的分类
John. B. Carroll(1961)⾸先提出了分⽴式测试(discrete point tests)和综合性测试(integrative tests)之分。

这两种测试的差别在于考察重点的不同。

1. 分⽴式测试(discrete point tests)
分⽴式测试是将知识和能⼒分成若⼲⼩的单元,然后⼀项⼀项地进⾏测量。

因此分⽴式测试具有诊断性的意义。

分⽴式测试受到结构主义理论的影响,即语⾔有许多成分组成,掌握⼀种语⾔就是要掌握这些组成成分。

分⽴式测试的每个题⽬⼀般只考查⼀个语⾔点,⽽且多采⽤单项选择的形式。

例如:Before the first non-stop flight was made in 1949, it ___ necessary for all planes to land for refuelling.
A.would be
B. has been
C. had been
D. would have been
(1996年1⽉CET-4:25题)
这道题主要考察如果before引导的时间状语从句是⼀般过去时,那么主句的时态应为过去完成时态。

分⽴式测试试题应避免在单项选择中设置两个以上的考点。

例如:Research findings show we spend about two hours ____ every night, no matter what we ____ during the day.
A. dream, must have done
B. dreaming, should have done
C. dream, would have done
D. dreaming, may have done
对于这道题,学⽣如果答对,则可以判断出学⽣掌握了spend sth doing sth的⽤法,同时⼜掌握了虚拟语⽓中may have done 的⽤法。

但是如果答错,则很难判断学⽣知道什么不知道什么。

2. 综合性测试(integrative tests)
综合性测试⽤来同时测量学⽣的多种语⾔能⼒,需要考⽣综合多种语⾔能⼒来完成某⼀语⾔任务。

因此综合性测试不具有诊断
性的意义。

综合性测试是⼀种较为流⾏的测试形式,包括⽆选项完形填空、听写、⼝语⾯试、写作、记笔记、翻译等
例如:PETS5级第⼆部分中的英语知识应⽤部分就属于综合性测试。

这部分采⽤⽆选项完形填空的形式,在⼀篇250-300词的⽂章中留出20个空⽩,要求考⽣根据短⽂内容填空,使补全后的⽂章意思通顺、前后连贯、结构完整。

其中约有12题考查语法和语段结构,8题考查词汇。

考试⼤纲中明确了这部分的考查⽬的,即该部分不仅考查学⽣对诸如连贯性和⼀致性等语段特征的辨识能⼒,还考查学⽣对⽤于⼀定语境中规范的语⾔成分的掌握,这些规范的语⾔成分主要是词汇和语法结构。

现举⼀⼩段为例:
Mrs. Thomas believes that the ___ between older and younger writers is ___ too dramatic to be accounted for simply by the possibility that people get better at writing as they grow ___. She attributes it to a failure to teach the most effective methods, pointing out that the differences between ___ groups coincides with the abandonment of formal handwriting instruction in classrooms in the sixties. “The 30-year-olds showed a huge range of grips, ___ the over 40s group all had a uniform …tripod? grip.”(全国英语等级考试考试⼤纲第五级1999:27)考⽣要得分就必须⾸先读懂⽂章,因此会使⽤⼀定的阅读技能。

考⽣要对⽂章所处的语境有⼀定的背景信息,在填空的过程中,考⽣要考虑所填词汇的形式,与前后⽂的搭配,还要考虑整篇⽂章的逻辑结构,连接⼿法等。

考⽣还要掌握介词短语、转折词汇等的使⽤⽅法。

在此段中,考⽣只有明⽩上⽂意义才能做出正确的判断。

第四节以评分⽅式为标准的分类
Pilliner(1968)指出,按照试卷评分⽅式的不同,英语语⾔测试可分为主观性测试(subjective tests)和客观性测试(objective tests)。

1. 主观性测试(subjective tests)
主观性测试和客观性测试的区别在于评分⽅式的不同。

主观性测试需要评分⼈对答案做出观念性判断,这种判断往往基于评分⼈的经验和所受过的相关训练。

主观性测试的题⽬主
要有简述题、翻译题、作⽂、⼝试等。

但这些题⽬在主观性的程度上有所不同,例如⾃由写作⽐基于阅读的简答题明显具有更⾼的主观性。

主观性测试由于需要评分⼈做出主观性的判断,因此在信度上明显稍差。

⼀篇作⽂,让不同的评分⼈去评阅,就会出现不同的分数,甚⾄相差很多的分数,这主要是由于评分⼈的观点、知识背景等各不相同。

信度是主观性测试⼀直追求的⽬标。

实现主观性测试的信度主要要考虑以下⼏点:①对评分⼈给予⾜够的培训。

主观性测试的评分⼈最好要有相关的经验,在每次评分前,都要针对本次测试的主观性试题进⾏培训,以熟悉试题内容、评分标准。

同时还要进⾏试评,每轮试评后,应对每⼀位评分⼈的评分结果进⾏分析,如果某位评分⼈的分数总是与标准分数相差甚远或不符合标准,则应不再使⽤该评分⼈。

以雅思为例,根据《IELTS评分、分数报告和解释》,对于受考官主观性影响较强的写作和⼝语考试部分,IELTS官⽅强调:考官均须按照已制定的明确标准进⾏招聘及培训,且须每两年接受检验证明其评分符合标准。

②在评分初始,就要确定可接受的答案,考试结束后应该⽴即选样。

例如作⽂测试,应当选取不同层次的样本,供评分⼈进⾏讨论,当所有评分⼈意见⼀致后,才可以进⾏⼤规模评阅。

对于简述题、翻译题等,考试结束后也应当⽴即选取⼀定数量的样本,在试评中应注意把握不准是否给分的语⾔点,尤其是共性的问题,然后进⾏讨论订⽴标准,并告知所有评分⼈引起他们的注意。

③使⽤多名独⽴评分⼈。

⼀般来说,对于主观题应⾄少有两名独⽴评分⼈,两⼈应在不知道对⽅所给分数的前提下进⾏各⾃的评分,最后由他⼈汇总两位评分⼈的分数,进⾏⽐较。

如果相差太⼤,则退回重评或交予权威专家进⾏评判。

④避免给予应试者过多选择的权利。

在主观性测试中,应避免让考⽣从⼀系列题⽬中选取某⼀题⽬回答。

例如,在写作中提供多个题⽬,让学⽣从中选取⼀个题⽬进⾏写作,这只会⼲扰测试的信度,并有不公平之嫌。

主观性测试的效度较好,因其能够直接地考查考⽣的语⾔应⽤能⼒,同时命题相对简单。

但是主观性测试对考⽣的回答内容缺少控制,尤其是当考⽣掌握了⼀些语⾔策略之后。

⽐如在⼝语考试中,考⽣可能会采⽤迂回策略来避免使⽤⾃⼰不会的单词或表述⽅法。

因此就⽆法判断考⽣是否已掌握了某些测试所要考查的内容。

主观性测试需要较多的⼈⼒和物⼒,因此更适⽤于⼩规模测试,如班级测试等。

对于⼤规模测试,则应根据具体情况安排好主观性测试试题的数量,使主观性测试题⽬数量适当,避免过多。

在实际教学中,很多教师不太清楚主观性测试具体的题型,认为只要是写单词就是主观性测试题。

教师应当对此进⾏有效的区分才能保障试题的效度和信度。

教师应当明确主观性试题应涉及学⽣的语⾔产出,应当使学⽣展⽰实际运⽤语⾔的能⼒。

武尊胜等⼈在1999年对长江以北地区初中毕业、升学考试英语试卷进⾏评价时就发现⼀些⾃认为主观题占到40%的试卷实际上⼀个主观性试题也没有。

“有的安排在书⾯表达部分的题⽬,实际上只是控制性写作题⽬,留有10个空,让学⽣在读了短⽂之后填写”(武尊胜2008:27)。

由于该题⽬不涉及语⾔产出,应属于客观性试题。

因此,教师有必要学习此⽅⾯的知识。

2. 客观性测试(objective tests)
客观性测试是指不需要评分⼈主观判断、答案唯⼀或固定的测试形式。

客观性测试不需要对评分⼈进⾏培训,也不需要评分⼈的专业性判断,甚⾄直接使⽤阅卷机就可以完成阅卷⼯作。

客观性测试的典型题⽬是单项选择题。

但是单项选择题不是唯⼀的客观性测试题型,单词拼写、动词填空、正误判断、配伍题等都是客观性试题。

客观性测试内容较为⼴泛,⽐较适合分离式测试。

但这也使客观性测试只能间接反应考⽣语⾔能⼒,同时加强了考试内容取样的主观性。

客观性测试效度差,它往往只要求考⽣涂卡、打钩等,答题存在猜测性因素,⽆法考察考⽣的实际语⾔应⽤能⼒。

客观性测试信度好,唯⼀或固定的答案保持了评分标准的准确性。

客观性测试能够对语⾔点有所控制,阅卷省时省⼒。

但有⼀点我们需要注意,客观性测试并不是完全客观的,决定考点的过程、制作试题的过程本⾝就是主观的。

很多教师倾向于使⽤单项选择题,认为出题容易,评分省⼒。

但事实上单项选择题的命题⼗分困难,并耗时耗⼒。

单项选择题由题⼲、答案和⼲扰项组成,每⼀个项⽬的编写都要求命题⼈精⼼地考虑。

单项选择题要符合多种条件,如每⼀个单选题都应只有⼀个答案,每道题只能测试⼀个语⾔点,每个选项放⼊题⼲中都能保证语法正确,这看似简单,但实际做起来却很难。

对题⼲内容也有很多要求,如,题⼲必须准确,不可有⽆关的、混淆所测试问题的内容,否则考⽣就⽆法明⽩题⼲,⽆法做出选择,也就⽆法判断考⽣对所要测试的问题的掌握程度。

此外,能放到题⼲中的词就不能在选项中重复出现。

⼲扰项则要求即不能太难,⼜能起到⼲扰的作⽤,此外还要保障考⽣只能通过直接选择来回答,不能通过排除等⼿段来答对。

对于客观性试题的争论⼀直都有,Fry曾经⽤这样的⼀段话来批评客观性测试中的单项选择题:“所谓猩猩的分数(orangoutang score)就是指⼀只训练有素的猩猩在标准化阅读测试中所得到的分数。

⼀只饥饿的猩猩被放在了配备长⽅形窗户和四个按钮的⼩笼⼦⾥,来接受这样的训练,即每次当阅读教师将⼯整打印的阅读测试单项选择题放在长⽅形窗户上时,⼤猩猩如果想要得到⾹蕉,所要做的就是任意地按任何⼀个按钮。

这些按钮上都分别标有A、B、C、D四个字母”(Fry 1971:360)。

当然这是对客观性测试尤其是单项选择题的极端看法。

Heaton(Heaton 2000:26-27)曾就客观性测试的两种误解进⾏了澄清,他认为第⼀种误解源⾃于客观性测试的外观形式,从这个⾓度看,客观性测试似乎很简单。

但实际上并不简单,出题⼈不仅需要选择和构建试题项⽬,⽽且还要分析学⽣在每⼀项⽬上的表现,并且据此重新书写项⽬,直到测试具有⼴泛的区分辨别能⼒(discrimates widely)。

第⼆种误解是认为单项选择题⿎励猜题。

Heaton认为选项的数量可以有助于降低猜题的⼏率,此外从经验上来说,即使考⽣在回答时有猜题的⾏为,但是这种猜测⼤多是基于所掌握的部分知识。

第五节以对测试分数的解释为标准的分类
不论举⾏任何测试都是有⽬的的,测试结果可以⽤来反应这⼀⽬的。

常模参照性测试(norm-referenced tests)和标准参照性测试(criterion-referenced tests)正体现了对于测试结果进⾏解释的不同参照标准。

1. 常模参照性测试(norm-referenced tests)
所谓“常模”,刘润清认为:“常模是指⼀群类型相同的⼈在⼀类考试中的成绩,这个
常模⼀般⽤该考试的平均分与标准差来表⽰”(刘润清2000:13)。

因此,常模参照性测
试是指对同⼀次测试的结果进⾏⽐较,参照考试⽬的与要求设定合格分数线。

合格分数线
的设定主要以平均分数为依据。

现以四、六级⼤学考试为例,⾃2005年6⽉起,⼤学英
语四、六级考试的原始分数在经过加权、等值处理后,参照常模转换为均值为500、标准
差为70的常模正态分数。

四、六级考试报道总分计算公式为:
公式中X表⽰每个考⽣加权、等值处理后的原始分数,Mean表⽰常模均值,SD表⽰常模
标准差。

常模正态分数的特点是能够报道考⽣在常模群体中所处的百分位置。

如某考⽣四级报
道总分是550分,则根据⼤学英语四级考试(CET-4)报道分数百分位对照表,可判断其
在常模群体中的百分位是76%,表⽰这名考⽣的英语成绩优于常模群体中76%的⼈。

如某
考⽣六级报道总分是600分,则根据⼤学英语六级考试(CET-6)报道分数百分位对照表,可判断其在常模群体中的百分位在87%~92%之间,表⽰这名考⽣的英语成绩⾄少优于常模
群体中87%的⼈,但不会优于92%的⼈。

常模参照性测试以与其他考⽣的分数进⾏⽐较来衡量某⼀考⽣的成绩,确定其在全体
考⽣中的位置,因此常模参照性测试适⽤于选拔性测试,我国⽐较重要的考试⼤都是常模
参照性测试,如中考、⾼考、研究⽣⼊学考试等。

常模参照性测试的选拔性⽬的决定了其。

相关文档
最新文档