语言测试 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

语言测试中关于效度理论的研究

提要效度是任何语言测试之根本，缺乏效度证据支持的测试将不具有基于分数的推论和推广价值。在效度一元化的今天，能够证明分数解释有效的一切证据都可纳入效度研究范围针对内部效度外部效度以及构念效度予以理论探讨，揭示不同效度证据的概念内涵，以期指导相关测试的建构和研发。关键词语言测试效度

语言测试是检验学生语言水平的重要手段，要设计好一套测试题，需要遵循一定的标准，如效度信度、区分度等。其中，效度是一个非常重要的标准。效度，指测试是否考查了设计者想要考查的内容，或者说在多大程度上考查了想要考查的内容效度的高低是衡量语言测试最重要的指标，它是语言测试的基本出发点。效度已发展成为一个涵盖面极广的一元化概念，曾经不同类别的效度如今被视为不同的效度证据来源，它们同为基于测试分数所作推断的科学性贡献力量。

一效度的种类

根据评价效度的方法不同，效度可分为内部效度、外部效度和结构效度。内部效度包括表面效度、内容效度，外部效度包括同期效度和预期效度。在以上各种效度中，结构效度高于一切，它为某项语言测试提供语言学理论基础，是解释考试分数所反映的考生实际语言能力的依据。

一、内部效度

1.表面效度

表面效度是指，测试表面看上去测量了其声称要测量的知识或能力的程度，它其实是未经过专业检验的效度。表面效度实际上是一种主观印象判断，测试是否迎合了相关利益人的期待、设想，表面效度尽管不是一个科学的概念，但仍不能就此忽视。缺乏表面效度的测试不易被受试教师或教育机构所接纳，亦不应被投入使用。即便被使用，基于测试分数的推断也不能真实反映受试语言能力，因为受试对缺乏表面效度的测试会产生偏见，由此触发消极抵触情绪，实际作答不能客观反映其真实语言能力测试开发者在设计和引进新颖的间接测量技术时，应保证其是测量某语言能力的有效，表面效度证据可以通过访谈受试或向其发放调查问卷获得有关受试对该测试的态度和反应等信息来搜集。

2.内容效度

在一项测试中，如果应该考查的语言要素和技能都有所体现，那么这个测试被认为具有内容效度。为了判断一项测试是否具有内容效度，我们需要一份以教学大纲为基础，对要考查的语言要素和技能做出具体规定的考试大纲。考试大纲是命题的依据，它和试题内容的对比是判断试题内容效度的基础内容效度是非常重要的。它的重要性在于，一次测试的内容效度越大，那么它就是一个越准确的衡量尺度，如果一次测试没有完全包括考试大纲所规定的主要内容，那么这次测试就谈不上具有内容效度，而且会带来负面影响这是因为没有被测试的部分往往被教与学双方所忽略，从而影响了语言教学的效果。

Kerlinger指出，内容效度是指测量工具内容方面的代表性和抽样充分性.内容效度是以对测试内容的系统分析为基础，考核测试是否包含了足够多的欲测量目标领域的样本。该样本应覆盖目标领域所有的主要方面，且各方面的比例应合理。例如语法测试应包含相关语法结构的适当抽样，而相关语法结构的具体内容则取决于测试目的。

内容效度重要性源于：首先，内容效度越高，它便越有可能准确测量其声称测量的目标，如果测试规范中的主要方面未被表征或未被充分表征，测试结果的准确性便值得怀疑。其次，

不具备内容效度的测试将产生负面的反拨效应，测试中未涉猎的领域在教学中也易被忽视。在实践中，往往是容易测什么便测什么，而非考虑测试项目的重要性有效遏制该做法的途径是编写详尽的测试规范，保证测试内容对规范合理体现。

二、外部效度

1.同期效度

是指一次测试的结果同另一次时间相近的有效测试的结果相比较，或同教师对学生的评估相比较而得出的系数，即两个值的比例如，一组学生刚刚参加了大学英语四级考试，接着又考我们自己设计的一套题目，如果两次得分情况相似，说明我们设计的测试具有较高的同期效度。同期效度是将测试分数与受试大致相同时间段内参与的另一测量结果加以比较，其目的是诊断现在，说明考试是否能判断受试目标能力当前的现状，另一测量工具可以是同一测试的平行版本或其他现有测试，也可以是受试对其语言能力的自我评价，亦或受试的老师或学科专家对其相关语言能力予以的评价。

同期效度通过对同一组受试在两个不同测量工具中得到的分数的相关关系算得，通常用相关系数加以表示，该系数的浮动范围是从到 -1.0到+1.0。

验证同期效度对效标的选择很重要，前提是效标测量工具有效且该测量与被验证的测试测量的目标（构念）应一致。随着语言学理论发展的不断深入，学者们对语言能力的认识也日渐深刻，提出了全新的语言能力模型，基于新的语言能力构成模型设计的语言测试的效度，显然不能通过已经落伍的语言测试加以验证。

2.预期效度

是拿一次测试的结果同后来的语言能力相比较，或同教师后来对学生的评估相比较而得出的系数。例如，一组学生今年参加了我们自己设计的测试，明年又参加了A级考试，如果两次得分情况相近，说明我们的试题具有较高的预期效度。

考察预期效度需要注意几个问题：首先，在验证测试的预测效力时，往往忽视测量能力的问题。举个极端的例子，假如利用数学考试成绩来预测学生在未来语言课程中的表现显然是不合适的，源于测试测量的能力和将要预测的表现之间不匹配，而另外一些对能力匹配忽视的情况则不容易引起关注，如基于多项选择语法测试结果对学生进行写作能力分班，此时并非能力的完全不匹配，而是该语法测试仅仅测量了效标能力的某些方面。

三、结构效度

所谓结构效度，是说一套试题要以一定的语言行为理论和语言学习理论为依据来考查语言要素和技能。编制效度认为某种学习理论存在于语言知识和技能的习得之上。汉特和施密特（1990）认为，结构效度是一个定量问题，而不是区别如“有效”或“无效”这样的定性的问题；它是一个程度问题。结构效度可以通过测量倾向的独立变量（结构）和替代的独立变量（指标，标志）之间的交互作用来确定。在我国，目前还没有形成一种独立的语言行为理论和学习理论。许多语言测试的试卷包含传统语法、结构语法、转换生成语法和功能语法的各种理论，试卷的结构效度不高。可见，尽快形成一种独立的语言行为理论和学习理论已成为提高语言测试结构效度的当务之急。

二、提高效度常用的方法

明确考试的目的决定与考试的相同的内容决定。在设计一套试卷时，设计者首先要明白此次测试的目的，然后严格按照这个目的展开设计工作。考试的目的是什么，就要设计与目的想适应的内容如果测试的内容完全不符合测试目的，那么这个测试就称不上有效度。考试的方法也是提高效度的一个重要方面，有什么样的考试方法就要设计什么样的试卷。如果是