浅论语言测试的效度
浅谈语言测试的信度与效度
二、信度与效度的相互关系
语言测试以语言能力为测量目标,而语言能力是抽象的,是通过具体的语言行为体现出来的,所以难以直接测量。另外任何测试都不必要,更不可能测量所有的语言行为,因此语言测试的目的是通过对受试者语言行为样本的测量结果来推测受试者的语言能力。语言测试涉及两方面的内容:首先作为一种测
量工具,它必须保证测量结果的可靠性,也就是信度要求。显而易见,用一把本身具有很大伸缩性的尺子来测量物体的长度,其结果必然不可信;同时,语言测试以语言能力为测量目标,它的内容和形式与语言能力应有最大的相关性,亦即效度要求。语言测试的信度说明考试结果与语言行为的关系,语言测试的效度反映所测试的语言行为与语言能力的关系。没有信度意味着测试结果不可信,不是受试
者语言行为的真实反映,我们就难以藉此测量任何东西。没有效度只有信度的测试也毫无意义,因为它准确地测量了与语言能力不太相关或毫不相关的东西。在此情况下,我们同样无法从考试结果中推测受试者真正的语言能力。要实现一个语言测试的目的,信度与效度缺一不可,这是二者关系的统一性一面。另一方面矛盾和对立构成了二者关系的主要特征。
谈语言测试的信度与效度
2000年3月第8卷 第1期 西安外国语学院学报Journal of Xi an F oreign Languages U niversityM ar.2000Vol.8N o.1谈语言测试的信度与效度赵成发(复旦大学大学英语教学部上海200433)中图分类号:H0 文献标识码:A 文章编号:1008-4703(2000)01-0011-05信度与效度原是计量学中的两个重要概念,20世纪30年代被引入语言测试领域。
60年代,以L a-do等为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。
可以说,语言测试理论及实践上的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试永恒的主题。
一、信度与效度的概念语言测试的信度是指测试结果的可靠程度。
语言测试信度的高低主要说明的是测试结果在多大程度上反映了受试者真实的语言行为。
影响信度的因素很多,它们存在于语言测试的每个环节中。
对试卷本身来说主要是样本的大小(size of sample)和区及各种组织之间的横向协作与联合。
这样一来,新亚欧大陆桥就不仅成为一条国际性贸易大通道,而且会成为一条经济、科技等多种领域使用和东西方文化交流的桥梁。
第二,充分发挥连云港市的桥头堡作用。
我国长江三角洲经济区的形成和迅速发展,有两个至关重要的因素,一是有黄金水道之称的长江,一是有中心城市上海的辐射作用。
上海凭着沿江与沿海交汇点独特的地理优势,率先发展起来,从而带动长江三角洲区域经济的发展。
陇兰经济带有一个协作与联合的纽带新亚欧大陆桥还不够,还必须有一个能像上海一样发挥作用的中心城市。
连云港作为沿线与沿海的交汇点,其地理位置的优势不亚于上海,完全可以把连云港市建设成为新亚欧大陆桥沿线省区共有的出口产品加工区,外贸基地和窗口。
连云港市也将对大陆桥沿线省区产生新的、更大的渗透力。
进一步增强新亚欧大陆桥东桥头堡和陇兰经济带的龙头地位。
对语言测试效度及其证据来源的一些认识和思考
对语言测试效度及其证据来源的一些认识和思考作者:陈雨珣来源:《青年文学家》2009年第16期摘要:效度是语言测试最重要的准则之一,本文考查了效度概念中传统习惯划分的四个类别:标准效度、表面效度、内容效度和结构效度。
发展至今,结构效度成为其中最被广泛接受和最受研究的效度证据。
随着概念的发展,效度的证据来源也有了新的诠释,文章对五种证据来源作了说明。
关键词:效度结构效度表面效度内容效度标准效度证据来源【中图分类号】H31【文献标识码】A【文章编号】1002-2139(2009)-16-0075-01一、语言测试中的效度语言测试的首要目的是为研究者提供一个测量个体语言能力的指标。
效度是测试的有效性最重要也是最必要的准则,它体现了实现测试结果的有效程度。
效度通常被定义为一个研究对研究者所意图测量的特定概念所能反映或评测的程度。
语言测试中,效度关系到测量被测试者语言能力的研究是否成功,可用来判断某一项评分的解释是否合理,而这个解释也涵括了测试的意义及合理性。
这就要求测试中应充分考虑作为基础的评分指向的证据来源,以及评分应用的社会影响。
因而效度并非测试或测评的附属产物,而是测试结果涵义的产物。
二、效度的四个类型效度传统习惯上被分为四个类别:表面效度,内容效度,标准效度和结构效度。
表面效度涉及测量方法及其过程是如何呈现的。
包括它是否以合理的方式获取研究员试图得到的信息,它看起来是否设计良好,以及它看起来能否可靠地动作。
不同于内容效度,表面效度不需要架设理论来获得支持。
表面效度仅仅意味着表面的有效性。
由于表面效度的模糊性和主观性,心理测试学者们很久前便放弃了这个概念。
内容效度以测量方法所能反映的测量领域的程度为基础,找出测试内容是否反映了测试的要求。
乍看之下。
内容效度似乎类似于表面效度,但二者是有区别的。
在内容效度中,证据是在考官评判的协商中获得的。
简而言之,表面效度可以由~个人确立。
而内容效度需要一个专家小组来检测。
十一语言测试的效度
十一语言测试的效度1 效度(validity)● A measure is valid if it does what it is intended to do, which is typically to act as an indicatorof an abstract concept (for example height, weight, time, etc.) which it claims to measure.The validity of a language test therefore is established by the extent to which it succeeds in providing an accurate concrete representation of an abstract concept (for example proficiency, achievement, aptitude).●效度就是测验测到它打算测的东西的程度,或者说,是根据测验分数所作出的推论的恰当性程度。
一项语言测试,它测的到底是什么;对设计者打算测量的某种心理属性,它测得的程度如何;根据测试的结果,可以作出怎样的推论与解释。
诸如此类的问题都与测试的效度有关。
2 效度的种类效度通常有如下几种:●结构效度/构念效度/构想效度(construct validity)●内容效度(content validity)●效标关联效度(criterion-related validity),包括⏹同期效度/同时效度(concurrent validity)⏹预期效度(predictive validity)●表面效度/表层效度(face validity)(1)结构效度/构念效度/构想效度(construct validity)●概念构想效度是指测验成绩能够解释心理学理论上的某种结构或特质的程度。
英语语言测试中效度的测量与估计
英语语言测试中效度的测量与估计沈阳师范大学大学外语教学部 许亚楠一、效度的基本概念(一)效度的定义及分类不同的语言测试学家对于效度这一概念的界定也不尽相同。
巴奇曼在《语言测试要略》中认为,“效度是对实证证据和理论原理在多大程度上支持基于测试的推断和行为的充分性和适当性的综合评价判断”。
换句话说,效度其实就是指一项测试中测量结果的准确性和有效性的程度,即测量是否达到了预期的目的。
效度通常可以分为构念效度、内容效度、预测效度、表面效度以及方法效度五种。
构念效度是指我们对于根据测试成绩对评价测试结果的解释是否是恰当且有意义的,即在多大程度上可以说一次测试成绩能够反映考生具备所考查的语言能力。
内容效度是指测试内容反映测试目的以及能够达到预期考查效果的程度。
预测效度是指测试结果能够在某种程度上预测出学生在未来学习中的表现和成就。
表面效度指的是一项测试能够测量出它想要测量的内容,这一概念其实和内容效度是有交叉的。
方法效度则一般用来评价测试方式与测试目标之间的关系。
(二)影响测试效度的因素测试效度的高低受到许多方面因素的影响,主要包括测验组成、测验实施、被试主观状态、效度效标和样本选择五个方面。
测验的效度与测验的取材和长度、测试题的难度、区分度及其编排方式等密切相关。
要想保证测验效度,主试应该适当控制测验环境,例如场地、材料、考试说明、考试时间等。
另外,被试对测验的态度、情感以及自身的身体健康状况都会影响测验结果的准确性和有效性,同时选择合适的效标也是估计效度所要依据的条件。
最后在样本选择上要尽可能地增加样本容量以减少测量误差,使所得的测量结果处于相对稳定的状态。
(三)提高效度的方法测试者可以通过控制系统误差、精心编制量表、妥善组织测验、扩充样本容量、增加测验长度等方法来有效提高测试效度。
效度的高低主要受到没有校准仪器、测试题目和指导语具有暗示性、答案有明显的组型等系统误差的影响,所以必须严格控制这些干扰因素。
浅析语言测试中信度与效度两者之间的关系
浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位,是从属于应用语言学这一学科的。
在过去语言测试在应用语言学中处于边缘地位,而在长达三十多年的发展中,语言测试现已发展成为一个相对独立的学科,已经在学术上占有了一席之地。
通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导,也可以衡量教学任务和教学大纲的执行情况,但是这些都是基于科学的语言测试能够得到良好的反馈情况,反之,如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率,所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。
一套设计比较科学的测试应该是具有信度,效度,难度和区分度四点特征,信度与效度是难度和区分度的基础,同时也是语言测试的两大根本要求,只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。
信度指的是测量的一致性,一个实验或测试的信度指它在重复测量时产生同样结果的程度,也就是说测量的稳定性是否一致。
影响信度的因素很多,其不仅存在于考试过程中的各个环节,也存在于阅卷的过程中,如试卷中的试题长度偏长,项目种类多,那么测试的信度就会提高,反之则会降低,考试分数集中于某一点或某一个区域时信度也会有所降低;考试期间考生时间充裕那么估算能力考试的信度也相对较高等等,这些都是存在于考试过程中各个环节的部分举例,在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一,如在评阅主观性的题目时(作文,口语等),阅卷者在评分时就具有很大的主观色彩,而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时,不容易取得一致,也会使得测试的信度不稳定。
效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断,也就是考试是否检测到了它所要检测的东西,是否达到了它的预定目标。
效度共分为三种不同的类型,其不同类型的效度测试有各自不同的测试着重面,内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的,如果测试的样本能够充分代表总体,那么测试在内容上就是有效的,反之效度则不高;预测效度和共时效度都是属于与标准有关的效度,预测效度是标志测试者将来能力的标准,如通过摸底考试分班,共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致,也就是说验证的是我们所做的假设是否有效。
第七章 语言测试的效度研究
第六章语言测试的效度研究本章将研究所有语言测试中最重要的问题:效度问题。
效度是测试评估中最重要的指标。
一项测试如果从设计目的角度讲不是有效的,那么测试分数的推断和解释自然不会准确(Alderson et al. 1995:170)。
Messick(1992:89)指出,众多测试设计者承认其有义务提供证明测量结果富有价值的效度证据,但遗憾的是很少有人真正这样去做。
Hughes,Porter以及Weir认为提供令人满意的效度证据是任何严肃测试必不可少的条件。
第一节效度的概念效度是教育和心理测量学中的一个概念,由来已久。
Kelly(1927:14)指出“效度问题就是一项测试是否真正测量了它声称所要测量的东西”。
Lado(1961:321)提出了这样的问题:“一项测试测量了它应该测量的东西了么?如果是,那它就是有效的。
”上述是对效度进行的概括性或普遍定义。
下面我们从不同维度解读效度概念。
Henning(1987:89)对效度的理解偏重测试的设计目的,该定义为:一般来说,效度是指一项测试或测试一部分测量它声称测量内容的合适性(appropriateness)。
测试有效是指它测量了它应该测量的东西。
当效度用来描述一项测试时,它应该与“for”连用。
任何一项测试只有针对特定的目的才有效。
该定义突出了测试研发和使用的目的性。
测试使用最普遍的问题之一就是测试误用,即测试不是本着最初的设计目的而得以运用,当然这并不是说一项测试不能有效于多个目的,无论它出于何种目的被运用,其有效性证据必须要建立并加以呈现。
我们不能简单地说“该测试有效”,而应回答下面的问题“你是怎么知道该测试有效的?”以及“该测试有效性体现在哪里?”Henning的定义中还考虑到了效度的程度问题:测试相对其设计目的或多或少是有效的,即效度不是一个“要么有要么无”的概念,而是一个相对概念(Alderson et al. 1995:170)。
Weir认为效度存在于测试分数的解释中,而非测试本身。
语言测试中的效度与信度
- 200-校园英语 /语言测试中的效度与信度西南科技大学/邹微 杨纾凡【摘要】语言测试是检验学生语言习得效果最直接的手段,是语言教学的有机组成部分。
本文旨在对语言测试的信度和效度进行分类阐释,并分析影响语言测试信度与效度的主要因素,同时,对二者的关系进行分析,以期为考题设计者命制考题提供借鉴和参考,使语言测试真正服务于语言教学。
【关键词】语言测试 语言教学 信度 效度一、引言随着语言教学的不断推进,语言测试逐渐从应用语言学中分离出来,成为一门独立的学科。
Bachman 曾说“在教育程序中,语言测试的基本运用是给教学评估提供重要的信息。
”测试是检验学生学习效果最直接的方式,有效、可靠的测试,其结果能够帮助教师了解学生的学习水平,是因材施教的一个重要参照。
同时,测试也是评估教师教学效果的重要手段之一,为教师下一步教学计划的制定、教学方法的调整、教学重难点、目标的明确提供了依据。
评估一项测试的指标主要有“信度、效度、区分度和实用性,其中以信度和效度最为重要。
”二、效度效度,简而言之就是测试的有效性,是指该测试是否测试出命题人想要检测的内容、达到命题人预期的测试目的。
它是测试最基本的出发点。
“波尔斯基和梅西克视效度为外语测试的主要问题,其范畴包括内容效度、标准相关效度、构卷效度和表面效度等。
”1.内容效度。
内容效度,是指试题的内容是否考查了出题人想要考查的语言技能及语言要素等。
如,一个专项的语法考试,出题人需按照教学大纲的要求,大纲里规定有哪些语法是必考,那么出题人在出题的时候就必须考虑到这些语法点,考题的内容必须要覆盖大纲里规定的所有必考点,这样的考试才能算的上是有内容效度的。
内容效度是衡量测试效度的一把重要的尺子,在教学过程中,通过内容效度较高的测试,教师能更好地制定教学计划,了解教学的重难点,进而明确语言教学的方向。
2.标准相关效度。
标准相关效度指的是“测试与某一个独立并且相当可靠的学生能力测量工具”之间的关联程度。
二外德语语言测试信效度的实证分析
二外德语语言测试信效度的实证分析本文旨在通过实证分析探讨二外德语语言测试的信效度问题。
为了达成这个目标,本文选择了以下几个方面进行分析和讨论:一、二外德语语言测试的特点和目的;二、二外德语语言测试的信度问题;三、二外德语语言测试的效度问题;四、二外德语语言测试的解决方案。
一、二外德语语言测试的特点和目的二外德语语言测试是指对学生在德语作为外语学习中的语言能力进行测试。
它是德语教学中的重要组成部分,也是评估学生语言能力的一种常用工具。
一般来说,二外德语语言测试通常包括听力测试、口语测试、阅读测试和写作测试等不同的测试科目。
其目的是准确评估学生在德语语言方面的能力,以便于针对性地进行教学和提高。
测试信度是指测试的稳定性或一致性,也就是说,同一测试工具在不同场合或不同时间所得到的成绩应该是一致的。
二外德语语言测试的信度问题非常重要,因为只有测试结果可靠,我们才能准确地进行评估。
为了确保测试的信度,在测试的设计和实施过程中,需要注意以下几个方面:1. 测试题目的设计应该具有代表性,以保证测试内容的全面性和客观性。
2. 在测试中应该使用多种不同的题型,以确保测试的多样性,并尽可能减小因为测试题型的单一造成的测试误差。
3. 测试的各个环节应该尽量精细,以确保测试的一致性和可重复性。
4. 在测试中应该建立科学合理的评分体系,并严格遵循评分标准进行评分,以便于保证不同考官之间的一致性。
1. 测试题目的设计应该具有较高的实用性,以符合测试目的和要求,体现学习者的语言能力水平。
2. 在测试中应该尽量减少测试干扰因素的影响,例如测试方法、测试场所等因素,以保证测试结果的有效性。
3. 在测试中应该注意对不同测试难度的测试项目进行筛选和校验,以确保测试类别之间的一致性和有效性。
为了解决二外德语语言测试的信效度问题,需要采取以下一些措施:1. 对测试题目进行认真筛选和校验,保证测试题目的代表性和一致性。
3. 在测试中使用多种不同的题型,保证测试的多样性和有效性。
论语言测试中的信度与效度
出 了以下几 点要 求 , 即在 设 计 测试 内容 时要 充 分 考 虑 题 目是 否适合 每 一 位 受试 者 的经 验 或 水 平 ; 就 测 试 内容本 身来 说 , 是 否存 在选 择项 表述模 糊 、 过难 或 偏 易 的 问题 等 。诸 如此类 客 观存 在 的人 为 因素都 会 影 响 考试 效度 本身 的有 效性 _ 6 J 。
二、 信 度
( 一) 概 念及 测量 方法
一
致化 , 使 之更 容 易让 受 试 者接 受 并 真 正 理 解题 目的 要求 ; 对 于 那 些 模 棱 两 可 的 选 项 也 要 尽 量 避 免 出 现 J 。此外 , 考生 在考 试 前 应充 分 熟 悉 考 试题 型并 训 练相 应应 对技 巧 , 使 之 表 现 能 达 到 预期 效 果 。 更
一
效度 。表面效度 , 就是指测试表面上 的可信程度 , 特 点是 会对 受试 者 的 回应有 一定 的影 响作 用 。如果 一 项测试表面上不可信 , 就很难吸引受试者 的注意力 ,
更 不 用说 用积 极 的心 态 应 试 , 这 样 得 到 的测 试 效 度
必 将 大打 折扣 。内容 效 度 , 通 常评 估 的是 与 所 测 试 项 目相关 的领 域 , 包 括 测试 的 内容 、 主题 以及评 分 标 准等 。一项 测 试 的 内容 效 度 越 高 , 结 果 就 越会 接 近 最 初 的测试 目标 。结构 效度 中的结构 指 的是语 言 能 力 理论 中假 设 的 基 础 能 力 或 特 征 J 。如 果 一 种 考 试 表 明能够 测 试某 个 能 力 结 构 , 比如 阅读 能力 或 写 作 能力 , 它 就具 有 结 构 效 度 J 。尺 度 关 联 效 度 主要
浅谈语言测试中的效度问题
英 语 教学 大 纲 》 规定 的 教 学 目标 考 核 修完 大 学 英 语
。
以
。
大 学 英语 课 程 的 教
,
经 验 效 度 是指 语 言测 试 的 结 果 与对 应 试者 语 言 能 力 的 评估 在 多 大程 度 上相 一 致 为两 种 一 种 是共 时效 度
种 是 预 示 效度
,
学 目的 是 培 养 学 生 具 有 较 强 的 阅 读 能 力 和 一 定 的 听 说 写 译能 力 使学 生 能 以 英语 为 工 具 获 取 专 业 所 需 信 息 并 为 进一 步 提 高英 语水 平 打 下 较好 的
。
信度 但这 只 是 个 理想 化 的 目 标 因 为做 到这 一 点
往往 是不 可 能 的
。
在 编制试 题时 既 不 能为 了追 求
,
水平 测 试用来 衡量 学生 的 语 言 能 力 即 看学 生
是 否 达 到 某 一 水 平 从 而 决定其 是 否 能胜 任 某 一 任
,
,
信度 而忽 视 效 度 也 不 能 为 了 追 求 效 度 而 放 弃 信
学 习 语 言的 潜 力
度
。 。
高 的 信度 但 它却 能够考 查学生 实际 应 用 语 言的 能
力 具 有 较高 的 效 度
, 。
语 言潜 能 测 试 以 某种 语 言 行 为
,
因 此 一 套好 的 试题 应 包 括
, 。
,
理 论和 学 习 理 论 为 依 据 因 此 首 先 要 考 虑 编 制 效
,
标准
容
。
。
效 度 指测 试 是否 考查 了设 计 者想 要 考查 的
,
浅论语言测试的效度
浅论语言测试的效度[摘要] 信度与效度是语言测试两大基本要求,信度与效度的关系问题是语言测试的根本问题。
考试的效度指的是考试在多大程度上测出预期要测量的东西,信度指的是考试结果的可靠性。
本文重点介绍了效度的含义,对效度的测量方法以及效度与信度的关系等问题做了详细的阐述。
[关键词] 语言测试效度信度[Abstract] As a branch of applied linguistics, language testing has developed into a relative independent subject. Validity and reliability is the most important two criteria of language testing and the relationship of both is the ultimate issue. This article makes comments on the two criteria in detail. Validity is concerned with if a test measures accurately what it is intended to measure. Reliability means the quality of being reliable on consistency. This article puts emhasis on validity and also explains the testing methods of validity as well as the relation between validity and reliability.[Key words] Language testing validity reliability一、引言语言测试学作为应用语言学的一个分支,现已发展成一个相对独立的学科。
从“命题说话”探讨普通话水平测试的效度
从“命题说话”探讨普通话水平测试的效度【摘要】普通话水平测试采用计算机辅助测试的方式,信度固然有所提升,但效度有所下降。
本文以测试的第四项“命题说话”为例,从表面效度、内容效度、结构效度、反拨作用等方面,探讨普通话水平测试的效度。
【关键词】普通话水平测试;命题说话;效度;反拨作用普通话水平测试作为国家实施的汉语语言能力测试的载体,合理而准确的考试内容设计、精确严密的量化计分是完全必要的,也是不可缺少的。
如何让这种代表着普通话测试发展方向的测试方式能够更好地生存、发展,得到更多的认可和参与度,这里就不得不提到测试的效度。
普通话水平测试的效度是指测试是否考了它所要考的,是测试最重要的属性。
也就是说测试的形式和内容要有代表性,要能够准确、全面、充分地体现要测试所要达到的目的。
本文以普通话水平测试中第四项“命题说话”(以下简称“说话题”)为对象,对普通话水平测试的效度进行分析。
1 说话题的表面效度表面效度是指普通话测试从表面看上去是否有效以及被人接受的程度,表面效度高的测试容易引起应试者的兴趣,吸引他们参加测试。
“说话题”是普通话测试中唯一没有文字依据的一项,目的是测查应试人在脱离文字凭借的情况下说普通话所能达到的规范程度。
说话题的分值为40分,占普通话水平测试总分的40%,占重要地位,换句话说,普通话水平测试是否能够达到一定的水平,关键就看这一题。
测试的表面效度较高。
测试评分采用由测试中心将应试人说话题的考试电脑录音通过打分平台随机发给2-3位测试员,这几位测试员采用上网、背靠背打分的方式,在测试评分差别不大的情况下取其平均分作为应试人最后的得分。
一旦几位测试员的评分差别较大,超出了允许值,则请另外几位测试员再次打分,最大程度避免测试员主观因素对评分的影响,保证了说话题最后得分的公平公正,同时也保证了测试的有效性。
2 说话题的内容效度内容效度是指普通话水平测试的内容是否具有代表性,是否能够准确、全面而充分的展示要测试的内容,从而达到测试目的。
浅论校内英语测试的信度和效度
、
信度 ( lb i) 效 度 (ait) r i iy ̄ ea l t v li dy
信 度 与 效度 原 是 计量 学 中 的 两 个 重 要概 念 .是 在上 世 纪 3 0年代 被 引入 语 言 测 试领 域 。上 世 纪 6 0年 代 .对 这 两个 概 念 . L d 等 为代 表 的结 构主 义 测 试 学 家进 行 了 系统 的 阐述 以 a0
“ 响 ” 不 同 的称 谓 , “ x i p c ”D vd B k r 1 9 ) 影 有 如 t t m a t( a i a e , 9 1 、 e
“
度。 根据 结 构 主 义 测试 学 家 的 传统 解 释 . 言 测 试 的 效度 是 指 语 测 试 是 否 考 了 它 所 要 考 的 测 试 效 度 有 五 种 :结 构 效 度 ( nt c vl i ) 内 容 效 度 ( netvl i ) 同 期 效 度 c s ut ai t 、 o r dy c t a dt 、 o n i y
d (z fsm l  ̄ 区 分 度 ( sr n tn等 。语 言 测 试 的 效 X i o a pe se ) d ci a o1 i mi i
度 表 明 一种 相 关 性 ( lv n e ,即测 试 与 测 斌 目标 的 关 联 程 r eac) e
的环节. 在语 言 教 学 中处 于 重要 的地 位 。 为教 学 提 供 目标 并 它 为 教 师和 学 生 成功 地 实现 这 些 目标 提 供 现实 依 据 语 言测 试 影 响 教学 . 在 教 学界 似 乎 已经 成 为 大 家 的 共 识 。 种 所谓 的 这 这
面的。 在教 学 上 , 它会 导 致 应试 教育 。 导致 学生 高 分 低 能 。 心 在 理上 . 会 使 学生 产 生 焦虑 感 。 它 但也 有 人 认 为 它会 促 进 学 生 语 言水 平 的 提 高(oee l19) N lnt ,9 2。设 计 良好 的教 学 测 试 会 给 教 a 学带来裨益. 产生 正 反拨 作 用 , 设 计 不 当的 则 给 正常 教 学带 而 来 负 面 影 响 。 至 冲 击 正常 教 学 。 因此 , 测 语 言测 试 成 功 与 甚 检 否 就 要看 它对 教学 产 生 什 么样 的影 响 本 文 拟从 语 言 测 试 质 量 的信 度 和 效 度 的 角 度 来 讨 论 大 学 校 内 英 语 测 试 存 在 的 问 题 . 提 出一 些 改 进 的方 法 。 望 能 起 到抛 砖 引玉 的 作 用 。 并 希
语言测试的效度与信度
2.信度在实施阶段的考虑 .
• 实施阶段的任务是制定具体的、可操作的考试大纲, 详细说明试题包 括的内容。换言之,在此阶段必须制作出 完整的试卷。图1所示, Bachrnan的语言模式把测试方法 作为影响测试成绩的三大类因素之 一。因此,对试卷中每 个部分所采用的测试方法必须做出严格的要求。 否则,不 恰当的测试方法将导致考生成绩的极大差异,使测试成绩 失去信度。 • 例如,多项选择方法(multiple-choice)的最明显的 优越性就是它的评 分具有很高的信度,属于客观测试方法。 但是,某些语言领域的技能 如写作、口语表达能力若采用 多项选择方法测试则很难测试出受试者 的真实语言能力, 测试信度有所降低。综合填空方法(Gloze-test)则 较适合 测试阅读能力。不难看出,正确的测试方法能够可信、有 效 地诱导出反映某种语言能力的行为。某些测试方法只适 用于测试特定 的语言能力,而无法用于其他语言能力。基 于我们对测试方法对成绩 的影响的了解还十分粗浅,我们 无法推荐究竟用何种测试方法去测试 具体的语言能力。 • Lyle F.Bachman(1990)在选定测试方法方面提出了 很好的建议。 “(1)测试任何一种语言能力时,至少采用两 种或更多的测试方法。 (2)如果一份试题可能重复使用时, 尽量有目的地变换测试方法。” 此举,一方面加深对测试方 法的理解,一方面降低由于测试方法选择 不当而导致的测 试结果不一致的误差源,从而提高试题的信度。在实 施阶 段,保证试题的信度还可以从其他方面人手。比如,尽可 能增 大试题量或严格限制考生自由选择的范围来提高信度。 由于上述做法 能够提高测试信度,因此在实施阶段的作用 应得到极大的重视。
3.信度在考后阶段的考虑 .
从考后阶段的主要任务来看,提高信度应把 重点放在 培训阅卷员上,同时必须提供详细准确的标准答 案。由 于任何考试的评分方法不可能全部使用多项选择, 对错 一目了然。因此,主观题的评分必须首先规定正确答 案。 另外,说明若遇到部分正确的答案时应如何打分。标 准 答案规定愈清楚、细致,就愈可提高评分信度,也就更 有助于提高整个测试成绩的信度。培训阅卷员也是一条保 证评分信度的有效途径。在评阅主观题时,阅卷员必须经 过严格的岗前培训,统一批改试卷,然后将各评卷员评阅 过的卷子进行比较,也可由有经验的专家对其评阅进行分 析审核,那些严重偏离标准答案的阅卷员或停用,或对其 所评试卷进行再次审核。阅卷员的评分差异性是影响考后 阶段测试信度的较大的误差源,应千方百计降低或杜绝, 从而提高信度。
语言测试的信度和效度及其关系
科技信息 2008年第 17期 SCIENCE &TECHNOLOGY INFORMATION我们知道 , 测试是教与学的向导 , 而为了让它发挥出向导的作用 , 一份好的试卷是必不可少的 , 而且是至关重要的 . 一般情况下 , 我们判断一份试卷的好坏的主要标准是:是否有信度、效度、区分度、实用性、全面性、公正性及后期效应。
其中, 以信度和效度最为重要。
一、语言测试的信度语言测试的信度, 又叫可靠性, 是指考试结果的可靠性和稳定性。
即看学生的分数是否稳定, 如果同一个学生做同一套试卷 , 做的几次的结果都是一致的 , 那么我们说这次考试是有信度的; 反之 , 如果分数忽高忽低就说明信度不高 , 那么表明考试的信度不高。
信度可以分为复测的效度、判卷的效度和每一个测试项目的效度。
同一学生不管考多少次, 所得的分数都是一样, 那么就说这个分数有复测的可靠性。
影响分数的一个很重要的因素就是判卷人, 在判卷过程中, 不同的判卷人对同一试卷也会做出不同的反映; 同一个人在不同的时间对同一试卷给的分数也是不一样的。
试卷不仅要达到其整体的可靠性, 而且每一题都必须能达到这个标准, 那才是一份有信度的试卷。
与能力无关却又会影响试卷信度评判的因素有很多,例如:1. 考试条件差, 天气热、考场周围太吵闹等。
2. 考试条件不一样。
同一个学生在安静与吵闹的环境中做同一份试卷,其结果不一样。
3. 监考施策。
不同的老师对考生的松与严, 看见考生作弊或违纪不勒令禁止。
4. 题目要求不清, 学生根本无法弄清题义, 也就无法真实的反映考生的水平。
5. 保密工作做的不好, 泄题事件发生。
6. 评分。
主观测试的评分常常因评卷人而异, 难以达到较高的信度; 客观试卷的评分不受评卷人的影响因此信度较高。
7. 样品数量太小, 样本不足。
8. 身体及心理状态不好等等, 这些因素都会影响到信度。
因此, 为了提高信度, 我们必须对症下药, 采取各种措施。
英语语言测试的有效性与可靠性探讨
英语语言测试的有效性与可靠性探讨在当今全球化的时代,英语作为一门国际通用语言,其重要性不言而喻。
无论是在教育领域、职业发展还是国际交流中,英语语言能力的评估都至关重要。
而这一评估主要通过英语语言测试来实现。
然而,要确保这些测试能够准确、公正地衡量考生的英语水平,就必须关注其有效性和可靠性。
有效性是指一个测试能够准确测量出它所要测量的内容的程度。
对于英语语言测试来说,这意味着它应该能够真实反映考生在实际生活中运用英语进行听说读写的能力。
如果一个测试重点考查的是语法规则和词汇记忆,而忽略了实际的交流能力,那么它的有效性就值得怀疑。
例如,某些传统的英语测试可能过于注重选择题和填空题,考生可以通过死记硬背知识点来获得高分,但在实际的交流场景中却无法自如地运用英语。
这样的测试结果并不能真实反映考生的语言能力,也就无法为教育决策、职业选拔等提供有价值的参考。
可靠性则是指测试结果的一致性和稳定性。
一个可靠的测试在不同的时间、不同的地点、由不同的考官进行评分,都应该能够得到相对一致的结果。
如果一个测试的评分标准模糊不清,或者考题的难度波动过大,那么测试结果就可能会出现较大的偏差。
比如,同一位考生在两次参加相同的英语测试时,如果成绩相差悬殊,而期间其英语水平并没有明显变化,那么就说明这个测试的可靠性存在问题。
为了提高英语语言测试的有效性,测试设计者需要明确测试的目的和目标受众。
是为了评估学生在学校的英语学习成果?还是为了筛选求职者的英语能力?不同的目的需要不同的测试内容和形式。
例如,对于学校的英语测试,应该涵盖课程大纲中的重点知识和技能,同时也要注重考查学生对语言的综合运用能力。
而对于职业英语测试,可能更侧重于与工作相关的英语场景,如商务写作、会议交流等。
此外,采用多样化的测试题型也是提高有效性的重要手段。
除了常见的选择题、填空题,还应该增加主观题,如写作、口语表达等。
这样可以更全面地考查考生的语言输出能力。
同时,结合真实的语言材料,如新闻报道、学术文章、影视作品等,让考生在实际的语境中运用英语,也能增强测试的有效性。
浅谈语言测试效度
浅 谈 语 言测 试 效 度
郑 玮
( 长春金 融 高等专科 学校 基础 部 , 吉林 长春 1 3 0 0 2 2 )
摘要 : 测试效度是语 言测试 学领域至 关重要 的概念之 一 , 也是 众多语 言 学家科研 的重点 。它是测试 质量 审定 的主要依 据, 直接 关 系到测试质量 的高低。 因此有必要对语 言测试 的效度及相 关研 究成果进行 整理和 分析 ,  ̄z. 4 t 3 对 此的理解 , 以
总体 来讲 , 效度 是测 试 领 域里 最 为重 要 的 概念 之一 , 人们 以此 来 衡量 测 试 的得 体 性 。假 设 一 个 测 试准 确地 测试 出 了它 想要测 试 的受 试者 的真 实 的语 言水 平 和技巧 , 那 么 这 一测 试 就 是效 度 高 的。反 之
亦然 。
现 J 。这 种再 现越真 实 地 反 映受 试 者 的语 言 能 力 , 道 出了效度 的实质 , 简 而言 之 ,
就是考 试达 到其 预期测 试意 图的程 度 。如 果一 种测 试没 能测试 出预期 要 测试 的东西 , 那 么 这 一 测试 便 不具 有相应 的效 度 , 以至 于不 能 提供 关 于受 试 者语
测 量任 务 ,达到 了预期 测试 的 目标 。
我 们 也 从 后 来 的 测 试 效 度 研 究 成 果 中 看 到 了
H u g h e s 关 于效度 定义 的局 限性 。在 2 0 0 0年 , M c N a —
m a r a提 出了他 的独到 见解 , 他 强调 了受 试 者在 测 试 过 程 中的表 现应是他 真实语 言水 平 和技巧 的精 准再
素。 ’ ’[
量考 试科学 与 否 的标 准 。B a c h m a n 指 出, “ 效度 是 测
浅谈语言测试效度
浅谈语言测试效度作者:郑玮来源:《吉林省教育学院学报·上旬刊》2013年第06期摘要:测试效度是语言测试学领域至关重要的概念之一,也是众多语言学家科研的重点。
它是测试质量审定的主要依据,直接关系到测试质量的高低。
因此有必要对语言测试的效度及相关研究成果进行整理和分析,加深人们对此的理解,以期对语言测试起到积极的作用。
关键词:效度;表面效度;内容效度;结构效度;尺度相关效度中图分类号:GH319文献标识码:A文章编号:1671—1580(2013)06—0072—03语言测试的质量主要可以通过信度、效度、真实性、相互作用性、后效作用和可行性来进行评估。
其中,效度是所有出题人最为看重的测试质量审定的主要依据,它直接关系到测试质量的高低。
在语言测试这一领域里,这一概念被反复提及和讨论。
语言学家们普遍认为效度是测试中最为重要的用以衡量考试科学与否的标准。
Bachman指出,“效度是测试应用中最为重要的指标”。
[1]一、效度的定义在语言测试领域,许多语言学家致力于效度的研究,他们从不同的角度阐释了效度这一概念。
Bachman 的定义如下:测试的效度是指考试在多大程度上测出预期要测量的东西或者说考试在多大程度上完成了预期的测量任务,达到了预期测试的目标。
[2]Bachman 的定义道出了效度的实质,简而言之,就是考试达到其预期测试意图的程度。
如果一种测试没能测试出预期要测试的东西,那么这一测试便不具有相应的效度,以至于不能提供关于受试者语言能力真实水平的有价值的信息。
Henning (1987: 89)则这样诠释效度:测试效度所指的是测试的得体性,即测试的内容是否检测了想要检测的内容。
如果一种测试在某种程度上达到了它设计的预期目的,那么这一测试就是有效的。
而这种有效是相对的,仅对一些测试目的而言,并非所有测试目的。
[3]Henning的定义更加明确了效度与测试目的的关系。
效度并非万能的,它不是无所不包的。
论语言测试的信度和效度
一、 信度 2 3*’,&+,’,.4 5
信度指测试结果的稳定性 5 67389&97: ; 或一致性 5 <%=6967-=<: ; 。 语言测试信度的高低主要说明的是 测试结果在多大程度上反映了受试者真实的语言 水平。 也就是说, 只要被测量的对象本身没有变化, 用同样的 “ 尺子 ” 去测量, 总会得到同样的结果。 但 语言测试的对象是人, 人的因素是不稳定的, 所以 测试的目的是要衡量其中相对稳定的东西。
三、 信度和效度的关系
信度和效度是语言测试中两个重要的标准。 两者之间存在着密切的关系: 既相互依存, 又相互 排斥。 语言测试以语言能力为测量目标, 而语言能 力是抽象的, 是通过具体的语言行为体现出来的, 难以直接测量。 另外, 任何测试都不必要更不可能 测量所有的语言行为, 因此语言测试的目的是通
!" #$% &%’()*(’(#+ )", -)’(,(#+ ./ 0)"12)1% 3%4#("1
!"# $%&’, ()#* +,& - +./.% 0’%1.23%456 7&89%’: ;<=;;;6 >?%’& @ 5*4#6)7#8 !"#$%"$& ’&(’)#$ )( " *+"#,- ./ "001)&2 1)#$%)(3 ’),(4 5-)( "+’),1& 6"7&( ,.66&#’ .# ’-& ’8. )60.+’"#’ ,+)’&3 +)" )# $+&"’ 2&’")19 +&1)"*)1)’: "#2 ;"1)2)’:4 <&1)"*)1)’: 6&"#( ’-& =%"1)’: ./ *&)#$ +&1)"*1& .# ,.#()(’&#,:4 >"1)2)’: 6&"#( ’-& =%"1)’: ./ *&)#$ ;"1)2 .+ +&"1)?"’).# ./ ’-& 0%+0.(&(4 5-& "+’),1& "1(. &@01")#( ’-& ,1"(()/),"’).#(A ,"1,%1"’)#$ 6&’-.2( "( 8&11 "( ’-& +&1"’).# *&’8&&# ’-& ’8. ,+)’&+)"4 B’ ,"# *& ,.#(’+%,’);& /.+ ’-& &;"1%"’).# ./ 1"#$%"$& ’&(’)#$4 9%+ :.6,48 A&’:,&:. 4.34%’:B 2.A%&/%A%45B 1&A%9%45
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅论语言测试的效度
[摘要] 信度与效度是语言测试两大基本要求,信度与效度的关系问题是语言测试的根本问题。
考试的效度指的是考试在多大程度上测出预期要测量的东西,信度指的是考试结果的可靠性。
本文重点介绍了效度的含义,对效度的测量方法以及效度与信度的关系等问题做了详细的阐述。
[关键词] 语言测试效度信度
[Abstract] As a branch of applied linguistics, language testing has developed into a relative independent subject. Validity and reliability is the most important two criteria of language testing and the relationship of both is the ultimate issue. This article makes comments on the two criteria in detail. Validity is concerned with if a test measures accurately what it is intended to measure. Reliability means the quality of being reliable on consistency. This article puts emhasis on validity and also explains the testing methods of validity as well as the relation between validity and reliability.
[Key words] Language testing validity reliability
一、引言
语言测试学作为应用语言学的一个分支,现已发展成一个相对独立的学科。
信度与效度原是计量学中的两个重要概念,30年代被引入语言测试领域,60年代以Lado等人为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。
可以说语言测试理论和实践上的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试的永恒主题。
二、效度( Validity)
效度是一个相对概念。
效度的有效性总是相对于一定的目的、功能和范围而言。
效度具有相对性:任何测验的效度是对一定的目标来说的,或者说测验只有用于与测验目标一致的目的和场合才会有效。
同时,效度具有连续性,测验效度通常用相关系数表示,它只有程度上的不同,而没有“全有”或“全无”的区别。
根据美国心理学会1974年出版的《教育与心理测试标准》一书,考试的效度可分成三大类:内容效度(Content Validity)、构想效度(Construct Validity)和效标关联效度(Criterion-related Validity)。
(一)内容效度(Content Validity)
内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是
否是所欲测量的行为领域的代表性取样。
或者说,考试的题目在多大程度上能代表它所要测量的目标。
它可以从三个方面进行判断:(1)测试内容是否和测试目标有关,(2)测试内容(试题)是否具有代表性,(3)测试内容是否适合测试对象。
内容效度的评估方法主要有以下三种方法:
1.专家判断法
确定一个测验是否有内容效度,最常用的方法是请有关专家对测验题目与原定内容的符合性做出判断,看测验的题目是否代表规定的内容。
如果专家认为测验题目恰当地代表了所测的内容,则测验具有内容效度。
由于这种估计效度的方法,是一个逻辑分析的过程,所以内容效度有时又称“逻辑效度”。
2.统计分析法
除了描述性语言外,内容效度的的确定也可采用一些统计分析方法。
例如计算两个评分者之间的评定的一致性,虽然考察的是评分者的判断信度,但由于来自两个独立的评者,因此符合越高越能反映测验的内容效度。
3.经验推测法
通过实践来检验效度
(二)构想效度(Construct Validity)
考试的构想效度指考试实际测得的东西与理论所假设的能力要素或心理特征相吻合的程度。
就预言测试而言,构想效度指考试结果能在多大程度上解释人的语言能力及与语言相关的心理特征。
由于我们需要借助理论构想来判断考试成绩是否能代表一个人的真实能力,所以构想效度也称理论效度。
构想效度是一个相对的概念,它是相对一定的理论构想而言的。
测验构想效度的方法比较复杂,而且手段也很多。
构想效度的主要缺点是,有些构想概念模糊,没有一致的定义,确定效度时没有明确的操作步骤,没有单一的数量指标来描述有效程度。
构想效度的估计方法主要有以下四种:
1. 测验内法
测验内法这类方法主要是通过研究测验内部结构,如测验的内容以及题目间的关系等来分析测验的构想效度。
测验的内容效度可以作为构想效度的证据;测验的同质性指标可以推断测验是测量单一特质还是测量多种特质,从而为评估测验构想效度提供证据;分析被试对题目的反应特点也可以作为构想效度的证据。
2. 测验间法
通过对几个测验的比较研究,找出它们所测的共同特质,这样便可确定这些测验是否具有构想效度。
相容效度是构想效度的一个证据。
区分效度是构想效度的又一个证据,一个有效的测验不仅应与其他测量同一构想的测验有关,而且还必须与测量不同构想的测验无相关;因素分析法也是建立构想效度的常用方法,通过对一组测验进行因素分析,可以找到影响测验分数的共同因素,这种因素可能就是我们要测量的语言能力(构想)。
3.效标关联法
如果一个测验与效标具有高相关,那么该测验所预测的效标的性质与种类就可以作为测验所测量的构想的指标。
4.实验操作法
通过控制某些实验条件,观察其对测验分数的影响,也可以获得构想效度的信息。
例如,在进行一个关系重大的考试前,对被试施测焦虑测验,如果考前的焦虑分数比平时显著提高,则说明该焦虑测验有较高的构想效度。
(三)效标关联效度(Criterion-related Validity)
效标效度又称实证效度,反映的是测验预测个体在某种情境下行为表现的有效性程度。
被预测的行为是检验效度的标准,简称效标。
根据效标资料是否与测验分数同时获得,又可分为同时效度和预测效度两类。
效标效度的评估方法主要有以下三种:
1.相关法
相关法是评估效标效度最常用的方法,它是求测验分数与效标资料间的相关,这一相关系数称为效度系数。
计算效度系数最常用的是积差相关法,因这测验分数和效标资料通常都是连续变量。
但在特殊情况下,也可采用其他方法。
当测验成绩是连续变量,而效标资料是二分变量时,计算效度系数可用点二列相关公式或二列相关公式。
点二列相关与二列相关的区别是前者其中一个变量是真正的二分称名变量,而后者两个变量原来都是连续变量,其中一个由于某种原因,被人为地分为两个类别,变成了二分称名变量。
当测验分数为连续变量,效标资料为等级评定时,可用贾期朋我系列相关公式计算。
2. 区分法
区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。
3. 命中率法
命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。
正命中率高低常随划分测验分数成功与失败的临界分数的高低而变
化。
显然,临界分数越高,正命中率也越高,反之,临界分数越低,则正命中率也越低。
三、效度与信度的相互关系
效度和信度是评估考试质量最重要的指标。
它们之间的关系是单向的。
任何测试都难以兼有极高的信度和极高的效度。
以离散型测试为主要特征的结构主义语言测试能保证高信度;而强调以真实的语言为测试内容的交际测试能保证高效度。
一个测量工具要有效度必须有信度,没有信度就没有效度;但是有了信度不一定有效度。
考试结果只有可靠、稳定,才能从中得出一定的结论;如果不可靠、稳定,就不可能从中得出任何结论。
因此,失去了可靠性,有效性也不复存在。
四、结束语
从以上对测试效度的分析可以看出,效度是语言测试的一个重要属性,也是衡量一份试题好坏必不可少的重要指标。
然而,影响测试效度的因素很多,必然给语言测试的实施带来一定的困难,这有待于我们在今后的语言测试的实践中不断探索和总结。
此外,我们在追求测试效度的同时,切不可忽略测试的信度。
参考文献:
[1]Bachman, L. F. , ﹠A. S. Palmer.1996. Language Testing in Practice.Oxford: Oxford University Press.
[2]李筱菊.1995,英语测试的科学与艺术.湖南教育出版社.
[3]舒运祥.1998,外语测试的理论与方法.世界图书出版公司.
[4]陈纪梁,陶伟. 2000.浅论语言测试的信度[J]. 山东师大外国语学院学报(04) .
个人简介:
常利:女,讲师,现任教于上海电机学院外语学院,研究方向:语言测试学。