英语测试信度效度 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

英语测试信度效度
1引言
据全国大学英语
四、六级考试委员会与英国文化委员会的合作研究结果认为：CET4和CET6(简称)是一项信度极高的考试，每次考试客观题的内部信度都达
0.9以上;效度相当高，回收问卷中有92%的教师认为CET能反映学生
的实际英语水平。

作者以为这里所指的信度和效度的界定很模糊，就
某次具体的测试来说，信度和效度是受特定条件限制的，不可能是绝
对的。

迄今为止，我国的高考、研究生入学考试、公共英语等级考试(PET)，包括CET等大规模英语测试还是以客观性题型为主，主观题只
占10%或20%左右。

就评分方法来说，因客观性试题答案的唯一性，可
用机器阅卷，从而保证了测试结果的客观性和一致性，无疑具有相对
较高的信度，但不足之处就是效度难以保证。

同时大量采用主观性、
直接性试题的测试在阅卷信度上也令人怀疑。

这样的困惑总是或多或
少存地在于考试的开发、设计和评估过程中。

我们能否使信度和效度同时最大化呢？信度和效度又应如何整合而达
到适当的(appropriate)平衡？Bachman和Palmer在其测试理论中认为可设置“可接受的最低水准”(minimumaccepbrlevel)的效度或信度等
质量指标从而使得语言测试的“效用性”(usefulness)原则中各特征
之间达到适度平衡。

因为测试总是在一定的价值判断、测试目标、社
会环境等约束条件下实行的，本文尝试探索在可行性条件下，测试的
总效用(overallusefulness)最大化时效度和信度之间可能存有的关系。

2效度和信度的基本概念及特点
如果我们想阐释一次特定的考试成绩是否准确反映了学生的语言水平，那么在设计和使用测试时，信度和效度是我们首要注重的特征。

Bachman把信度定义为“测试的一致性”(consistencyofmeasurement)。

简言之，就是测试结果的可信度、可靠度。

例如，我们能够这样来检
验测试的信度：使用同样一份试卷，在两种不同的场合、环境中，在
较短的时间间隔内，施与同样的学生，如果测试结果基本吻合，那么
证明该测试是有信度的。

一份试卷的测试结果如果缺乏信度，就没有
使用价值，同时也减弱了考试的公正性。

当然，要完全消除不一致性(inconsistency)也是不可能的，我们能做的是尽量把影响不一致性的
不利因素控制在最低水准，以便于提升测试信度。

信度所涉及的问题是个体测试成绩在多大水准上是由测试误差或其它
因素所影响的。

效度所注重的问题是个体测试成绩在多大水准上和个
体语言水平相关。

因而，我们研究信度的目的是使测试误差造成的影
响最小化，研究效度旨在使我们想要检测的语言水平的效果最大化，
它们是两个相互补充的目标。

一项测试若没有信度，也就无所谓效度。

信度是效度的前提或必要条件。

权衡信度和效度，效度是首要的。

不
过Underhill和Heaton指出信度和效度特征在本质上是互相冲突的。

测试效度较高的试题有时测试信度较低。

反之，测试信度较高的试题
有时测试效度较低。

Morrow也认为想把测试任务设计得既具有可信性
又具有真实性不可能的。

Hughes却说虽然测试的各种特征相互排斥，
但是这并不意味着我们能够完全放弃这些特征。

3对信度和效度在理论上能达到适当平衡的可行性研究
评价英语测试最重要的原则是总效用性(overallusefulness)。

Bachman和Palmer(1996：18)把某一特定测试的“总效用性”看作是
由六个因素构成的，即效用性(Usefulness)=信度(Reliability)+构想
效度(Constructvalidity)+真实性(Authenticity)+互动性(Interactiveness)+冲击力(Impact)+适用性(Practicality)。

这里需
要说明的是：Bachman和Palmer之所以把“构想效度”作为“效用性”六大特征之一，是因为构想效度(上节已提到)关系到我们根据测试成
绩所作的解释的意义性和适切性。

前五者均与测试成绩的使用相关，
而“适用性”与测试的方法相关，能够在很大水准上决定测试的可行性。

评价一次考试是否有效用需要综合考察这些因素，在它们之间寻
求最佳的平衡点，而这个平衡能否实现取决于适用性的大小。

对于大
规模考试，考试策划者需在试卷设计和考试任务设置时重点考虑信度
和效度，而对于一般学校考试，教师就应多考虑考试任务的真实性、
互动性和对教学的冲击力(或称后效作用)。

4在英语测试实践中把握好信度和效度的平衡关系
以上已经大致证明：信度和效度作为评估测试质量的两个基本特性，
两者虽然在一定水准上是相互矛盾的，但完全能够通过相互协调使之
达到适切的平衡，以保证测试的总效用性最大化。

这个结论给我们的
启示是：在英语测试的设计和命题过程中，不能绝对、片面、盲目地
追求或强调某一方面而以失去另一方面为代价，只有综合平衡二者的
关系才能获得最大的总效用。

4.1考试内容能否体现新的语言教学观
语言测试随着语言观的发展而发展，也随着教学理念、教学模式的更
新而更新。

八十年代中期开始流行的交际功能观和九十年代以后兴起
的任务教学法(task-basedlanguageteachingapproach)都对语言测试
的改革提出了新的要求。

现行的
四、六级考试题型还是以结构主义语言测试理论为基础的多选题为主，某些语言项目的测试与实际语言水平的相关性不高，很难体现当代语
言教学观提倡的英语交际使用水平方面的考查。

Bachman和
Palmer(1996)也强调测试任务和目标语使用任务(target-languageusetask)的一致性。

看来革新CET的试卷结构、题型设置是
关键。

为了提升考试的效度，能够通过调整主观题和客观题的比例(3：2或1：1)，多采用直接测试法，增加听力和写作测试的权重，增大口
试考核力度并设最低分，变化题型等手段。

也可通过采取大题量小分值，细化评分标准，综合使用整体评分法(holisticgrading)和分析评
分法(analyticmarking)等措施来提升考试信度。

4.2能否产生正面反拨效应
测试是教和学的导向。

问题是如何提升测试的正面反拨效应，减少负
面反拨效应。

四、六级考试长期以来采用固定不变的模式，客观上造成了学生猜题、押题，教师偏向应试教学，产生了不良的教学效果。

Hughes提出了若
干提升正面反拨效应的建议：测试要培养水平;测试内容要覆盖面广并
具有一定的不可预测性;尽量使用直接测试法；成绩测试要与教学目标
相结合，使用尺度参照等。

这些建议多数涉及效度，也与信度相关。

信度和效度是影响反拨效应的重要因素，准确处理好两者的关系能使
测试产生积极有利的反拨效应。

5结束语
测试的最终目的是服务于教学。

作为教师，重视语言测试理论的研究，掌握命题的原则，在试卷编制过程中把握好信度、效度及其它评价指
标之间最佳的平衡关系，将有利于优化各类英语测试的质量，更有效
地推动英语教学的发展。

英语测试信度效度。