大学专业英语的测试信度与效度研究

合集下载

英语测试中的效度、信度和真实性

【摘要】英语考试种类繁多，有国家四六级，ＡＢ级，还有面向社会的ＰＥＴＳ考试出国试命题的角度出发，分析一份试卷的效度、信度和真实性，对一线的教学工作者而言知道如何确定试卷的质量，在以后的教学中会有很重要的应用价值。
一
它指的是考生在完成某一测试任务时．其语言能力的哪些方面参与了完成该测试任务的活动．参与的程度如何．与情景真实性真实性不同．交际真实性强调的是考生与测试任务之间
无所知的学生而言根本测不出他们的写作能力。所以．这个的交际关系。题目对后者而言效度很低．因为我们要测的是他们的写作能力４．３如何提高语言测试交际真实性而不是摄影知识能力需要指出的是．语言测试的效度是一个般来说．提高测试的情景真实性要容易些．而提高交际相对概念例如．把剑桥商务英语证书考试来测试非英语专业的真实性要难些Ｂａｃｈｅｒｍａｎ提出用以提高语言测试交际真实的学生英语水平效度就很低性的四项措施Ｈ：在设计考题时可以具体说明考生只有使用何２．信度种策略才能完成任务提供机会即给考生提供充足的时间、必信度是指考试结果的可靠性和稳定性．它通常以两次考试要的信息和＿Ｔ－具等考试任务要得当任务太难会影响考生的结果相关系数来表示．系数越高，信度也就越高影响信度的因策略的应用。考试任务要有趣味性。通过提高考试的情景真实素很多，主要有外部环境和个人因素，同时试卷的量是否足够性可以提高考试任务的趣味性大，区分度是否高，难易度是否适中，评分是否客观等因素也影４．４编写试题的真实性原则响着信度、语言的测试目的就是为教学服务的．要考察考生在实际的３．信度和效度的关系环境下使用语言的能力．所以试题的编写要遵循试题的真实性信度和效度是衡量测试质量最重要的两个指标．他们之间原则例如．下面的例子中：是相互依从．相互排斥的关系从方向而言它们是单方向的．即１ｗｏｕｌｄｔａｋｅａｒｔｕｍｂｒｅｌｌａｗｉｔｈｍｅ

英语测试中的效度、信度和真实性

英语测试中的效度、信度和真实性作者：陈莉燕王军来源：《课程教育研究·上》2014年第01期【摘要】英语考试种类繁多，有国家四六级，AB级，还有面向社会的PETS考试出国人员的GRE＼TOFEL等。

本文从各种英语考试命题的角度出发，分析一份试卷的效度、信度和真实性，对一线的教学工作者而言知道如何确定试卷的质量，在以后的教学中会有很重要的应用价值。

【关键词】英语测试效度信度真实性【中图分类号】G718.5 【文献标识码】A 【文章编号】2095-3089（2014）01-0096-01如何评判一份试卷的质量？如何测试各种语言技能和如何设计各种测试题目？我们知道一套试卷最终设计好了之后，我们更应该知道它的质量如何？也就是它是否符合语言测试的要求？所以，需要对试卷质量进行评估，评估的主要标准是什么？一般就是它的效度、信度和真实性。

下面分别讨论之。

1.效度效度，又称有效性。

它是指一套测试卷所考的是否就是设计人所要考的内容，或者说，在多大程度上考了想要考的。

所以，效度的高低是衡量一套语言测试卷最重要的指标，它是语言测试的出发点，是基点，因为一项效度很低的语言测试是没有实际意义的。

例如，测试听力的考试中出现了写作，这种测试效度是很低的。

例如，Is photography an art or science？这种题目效度很低，因它似乎是对有摄影知识的学生才起作用，对摄影一无所知的学生而言根本测不出他们的写作能力。

所以，这个题目对后者而言效度很低，因为我们要测的是他们的写作能力而不是摄影知识能力。

需要指出的是，语言测试的效度是一个相对概念。

例如，把剑桥商务英语证书考试来测试非英语专业的学生英语水平效度就很低。

2.信度信度是指考试结果的可靠性和稳定性，它通常以两次考试结果相关系数来表示，系数越高，信度也就越高。

影响信度的因素很多，主要有外部环境和个人因素，同时试卷的量是否足够大，区分度是否高，难易度是否适中，评分是否客观等因素也影响着信度。

国内英语测试信度与效度研究述评

ＣｏｌｌｇｎＬｇｕｅｇｅｏｆＦｏｒｅｉａｎａｇｅＳｔｄｉｕｅｓ。ＧｕｇｘｉＮｏｒａｎｍａＩ
Ｕｉｅｓｔ，Ｇｕｎｖｒｉｙ …ｎ，Ｇｕｇｉ４０４，ＣｈＲａｎｘ５１０ｉａ）
ＡｂｔａｔＴｈｓｐｐｒｒｖｅｏｓｉｔｄｆｔｅｒｌｂｌｙａｄｖｌｉｙｏｇｉｈｔｓｖｒｓｒｃ：ｉａｅｅｉｗｓｄｍｅｔｓｕｙｏｈｅｉｉｔｎａｉｔｆＥｎｌｅｔｏｅｃａｉｄｓ
．
ｒｓａｃｒｏｏｓｄｅｅｒｈａｅｐｒｐｅ．
ＫｅｒｓＥｎｉｈｔｓ；ｔｓｅｉｂｌｔｙｗｏｄ：ｇｌｓｅｔｅｔｒｌａｉｉｙ；ｔｓａｉｉｙｅｔｖｌｄｔ
一
、
引
信度、效度和可行性是语言测试的三个根本问题，中效度最为重要，其因为效度是语言测试的基本出发点（惠中，９８５）杨１９：５。信度则是效度的前提条件。信度（ｅｉｉｔ）指测试分数的稳定性和一致性程度，ｒＩｂｌｙ是ａｉ它所
ｌｉｙａｄｒｌｂｌｙｏｇｉｈｔｓｅｅｏｓｓｅｄｌｎｔｅｐｓｙａｓｏｉｈｔｅｓｕｙｉｉｔｎｅｉｉｔｆＥｎｌｅｔｄｖｌｐｔａｉｉｈａｔ１ｅｒ，ｆｗｈｃｈｔｄｎｄａｉｓｙ１
关键词：英语测试；试信度；试效度测测

大学英语成绩测试中的信度和效度

等因素，只是收集手头现成的试题，把一些无任何价值、又
不相干的题堆积起来，测试内容则过多地重视英语知识点的测试而不是英语自身，准化测试题型成为英语试题库标中的主要测试形式。试卷的老套和模式的僵化只能检测学生的语言知识点，而无法检测学生运用语言的能力。这种传统的设计测试卷的方法对教学和学习效果能否提供公正
试成绩与真实水平相一致的程度。信度受测试环境、劳、疲
焦虑等因素的影响，与语言能力无关。而这些影响因素越小，测试的信度就越大。考试信度的大小说明考试的可靠
程度。我们可以用信度系数，即表明信度的大小统计量，来表示信度的大小。信度系数越大，明测量的可信程度就表越大。信度系数的最大值为１。效度是指大学英语成绩测
性，保证较高的评分者信度。
第二，再测信度指同一个被测试卷先后两次测验成绩所得结果的一致性程度。再测信度主要测量所测结果短期
内不会随着时间的推移而改变，保持一定的稳定性和一致
性。再测信度的高低与测量时间的间隔有密切关系。时间
间隔越长，信度越低；反之，时间间隔越短，信度就越高。所以，再测信度适合于速度测量。第三，复本信度指被测试卷在两个等级测验上成绩的
量工具在多大程度上反映了我们想要测量内容的真实含义。效度有两层含义：一是考试内容；二是考试测出的程度。效度是针对测试目的、测量结果而言的。效度是最大

试论高职英语测试中信度与效度的平衡

力，旨在通过题目测试考生对四级大纲范围内的词汇、组、词句型、法、用法等知识点的掌握情况。要准确翻译除了掌语惯握和应用所学的英语知识外，更重要的是要学会分析，于发善现考点。通过对上面７道历年四级真题的分析，难看出：拟不虚语气是近几午大学英语四级考试的一个必考知识点。针对这
原形” 的结构。ｓｏｌ在此为助动词，身无实际意义，以省ｈｕｄ本可略．种主语从句由连词ｔａ￣导．用于句型 “ｔｓａ＋ｍ．这ｈｔＩ常Ｉｉｗｓｉ／ｐｒｎａｖａｌｉｅａｉ，ｔ．ａ…” ，如：ｓｉｐｒｎｏｔｆｄｉｂｅｍｐｒｔｅｅｃｈｔ中例ａｓ／ｖｔＩｉｍｏａｔｔｔｔａｈｓｏｌ）ｗｒａｄ或是用于 “ｔｓａ＋ｄｉｄｒｑｅｔｈｔｅ（ｕｄｏｋｈｒ．ｈＩｉｗｓａｖｓ／ｕｓ／ｅｅ．ｅ／ｇｅｔ，ｔ．ａ…” 中。由此可以看出在样题Ｅ中。ｄｓｇｓｄｅｔｔｕｅｃｈＩｉｔｓｓｇｅｔ后面的主语从句的谓语动词形式必须用 “ｓｏｌ）ｕｇｓｄｅ（ｈｕｄ＋动词原形 ” “ 装 ” 以用ｆ，ｓｌ “ 窗户旁 ” 以用介词。；安可ｉｉｔｌ在ｘｎａ，可ｂ，ｅｒ者ｂｓｅ因此翻译为：ｕｇｓｄｔａｔｅａｒｙｎａ或ｅｉ。ｄＩｉｓｇｅｔｔｈｉｔｓｅｈ

大学英语网络测试的信度与效度分析

２测试的信度
有关结构效度的定义．很多的研究学者给出了比较复杂且相对不同的定义。首先Ａｉｄｅｒｓｏｎ，ｅｔａ１．（１９９５）将结构效度看作是“ 测试能够在何种程度上检测出某种特性或性质” 。所谓的构成效度。并不是一个具体的东西，而是一个抽象的心理学概念。它所测试出的这种特性．是经过多次实际考试．综合分析考试结果与预测结果之后所得出的效度的概念曾经一度被划分为许多详细的分支．现在有有被众多学者的研究主流又转变为将其进行统一。本文之前所提到的．ＡＰＡ、ＡＥＲＡ和ＮＣＭＥ联合委员会的定义“ Ｖａｌｉｄｉｔｙｉｓａｕｎｉｔａｒｙｅｏｎｃｅｐｔ． ” 换句话说．诸多被细分的效度概念我们可以用一个结构效度来统一联系起来。３＿３效度的验证目前，不同学者对结构效度的验证方法有着不同的见解比如．Ｌ．Ｊ．Ｃｒｏｎｂａｃｈ和Ｐ．Ｅ．Ｍｅｅｈｌ提出了五种验证方法．即分组区分法（ｇｒｏｕｐｄｉｆｆｅｒｅｎｃｅｓ）、相关矩阵与因素分析法（ｅｏｒｒｅｌａｔｉｏｎｍａｔｒｉｃｅｓａｎｄｆａｃｔｏｒａｎｌａｙｓｉｓ）、内部结构研究（ｓｔｕｄｉｅｓｏｆｉｎｔｅｒｎａｌｓｔｕｅｒｔｕｒｅ）、不同场合下的变化研究（ｓｔｕｄｉｅｓｏｆｃｈａｎｇｅｏｖｅｒｏｃｃａｓｉｏｎｓ）、过程研究（ｓｔｕｄｉｅｓｏｆｐｒｏ．

基于TEM4听力测试标准的英语专业期末听力测试信度和效度分析——

右、语速为每分钟１２０个单词的录音材料，错误率不超需要被考查的内容，考试的结果能不能用来评判预定要
过８％。与此对应的ＴＥＭ４听力测试结构包括听写和听测试的语言能力。作为评价测试的另外一个重要标准，
力理解两个方面，听写就是《大纲））Ｅ部分的具体表现形它所反应的是测试与测试目标之间的一种相关性即关
第．晶
ｏｕｒｎａｌ太ｏｆ原Ｔ城ａｉｙ市ｕａ职ｎ业Ｕｒ技ｂａｎ术Ｖ学ｏｃ院ａｉｔ学ｏｎ报ａｌＣ
总４听力测试标准的英语专业期末听力测试信度和效度分析
测试信度和效度
语专业学生的语言基础知识，以评估学生的英语综合技能的国家级水平测试。根据《高等学校英语专业英语教
１．测试信度
测试信度（ｔｅｓｔｒｅｌｉａｂｉｌｉｔｙ）是指考试结果的可信度或
学大纲》（下文中简称《大纲》，２０００）的规定，它对高校英者说可靠度。邹申（２００５）把它定义为考分的一致性语专业的学生在不同阶段应达到的英语水平提出了具（ｃｏｎｓｉｓｔｅｎｃｙｏｆｔｅｓｔｓｃｏｒｅｓ）。信度通常是评价测试的其中
语专业学生的英语听力教学就有很重要的指导作用，那队与他人之间的对话等，如果测试结果显示这套试题确
么如何正确利用它的指导作用是值得英语教师们研讨实测出了学生在规定方面的能力，从理论上来说，这套

大学英语测试中多项选择词汇题和阅读选词填空信度、效度比较

教师的协助下，４０对０名调查对象进行了测试。通过对收集数据的整理分析，者发现，笔多项选择词汇题与总成绩（两次测试总分
词汇是语言的重要要素，词汇测试是语言测试的重要组成部
分，大部分标准测试中都有词汇项目。通过何种词汇测试形式有效地衡量学生的词汇水平是测试设计者必须仔细考虑的问题。
试最流行的题型是 “ 四选一” 多项选择。在题目下提供几个答案，
Байду номын сангаас
项选择词汇题由于难易度合适，区分度良好，与其它题型得分相关性显著，因此表现出较高的信度。相比而言，阅读选词填空难
度系数较高，响了此题的区分度和相关系数，影因此信度系数要
大学英语词汇测试主要有两种题型：多项选择题和阅读选词填空
的平均分）的相关系数为０６，．而阅读选词填空与总成绩的相关５系数只有０，过计算答对率获得的难度系数值分别为：３１通多项选择词汇题，．１阅读选词填空，．。双列相关系数计算得出０；７０３３的数据表明多项选择词汇题中有１道题（２题）共０区分度未达标，
分布数据； ④此次试题与以往试题相比的等值数据等（筱菊，李
３）７。
率普遍较低，这直接导致了该题型信度不高。
３多项选择词汇题和阅读选词填空效度比较
测试的效度是指考试在多大程度上测出预期要测量的东西，
或者说考试在多大程度上完成了预期的测量任务，到了预期测达

对大学英语机辅口语测试任务的信度及效度研究

一
信度是指测试的稳定性。效度是指根据测试成绩得出的具体推断是否合理，有意义，有作用。信度和效度有密切的关系，但又不能混淆起来。只有信度较高的测试才能有较高的效度，但是，效度较高不能保证信度也一定较高。可以这样说，信度和效度的关系是单方面的。信度差则效度差，但效度差不一定信度差。因此可以得出结论：只有机辅口试具有高信度，才能为它的高效度提供保障。
（）分信度３评
中国观代装备
为难度最大的，其他数值居中。
（）构效度２结
旨先，评分信度取决于评分标准。评分标准是否具体，准确，便于操作，直接决定了评分的信度。此次测试评分采
用百分制，第一题２分，第二题５分，第三题３分，满分０００
或背诵，②复述故事，③看图说话或看短片回答问题，④给
定题目进行即席讲话，⑤双人对话或小组讨论，等等。前两
个任务主要考查学生的语音语调，任务③④重点测试学生的
连贯表达能力，最后一个任务交际性最强，可测试出学生根
据情景作出适当反应的能力。在此次我校进行的测试中采用了三种题型① 自命题演讲，②给定题目进行即席讲话，③双人对话，分别测试学生上述三方面的口语能力。
掌握得很好。三个部分的试题从易到难呈梯形递增，而且从
学生成绩的分布也体现了区分度。
（）２施测信度所谓施测信度，是指测试的准备形式和测试过程是否具有可靠性。在这方面，机辅口试具有很高的信度。该测试在统一时间进行，学生在语言实验室同时考同一套题，同时录音，保证了测试的公平与保密。机辅口语测试统一预先录音提问，发音标准清晰，音量速度适中，问题在屏幕上同时出

大学英语四、六级计算机口语测试效度、信度和可操作性研究

大学英语四、六级计算机口语测试效度、信度和可操作性研究一、本文概述随着全球化进程的加速，英语作为国际交流的主要语言，其重要性日益凸显。

大学英语六级考试作为中国规模最大的英语水平考试，其口语测试部分对于评估学生的英语口语能力至关重要。

本文旨在深入研究大学英语六级计算机口语测试的效度、信度和可操作性，以期为提高该测试的科学性和公正性提供理论支持和实践指导。

本文将阐述计算机口语测试的基本原理和优势，包括其与传统口语测试的区别以及其在评估英语口语能力方面的独特作用。

本文将重点分析大学英语六级计算机口语测试的效度，即测试内容是否能够真实、准确地反映考生的英语口语能力。

为此，我们将通过对比分析不同测试方法的结果，评估测试内容与真实语境的契合度以及测试分数的预测能力。

本文还将关注大学英语六级计算机口语测试的信度，即测试结果的稳定性和可靠性。

我们将通过统计分析大量考生的测试数据，评估测试分数的内部一致性、重测信度以及评分者信度，以揭示测试结果的稳定性和可靠性。

本文将探讨大学英语六级计算机口语测试的可操作性，即测试实施的便捷性和实用性。

我们将从测试设计、测试过程、评分方法等方面分析测试的可操作性，并提出改进建议，以期提高测试的效率和公平性。

本文旨在全面、系统地研究大学英语六级计算机口语测试的效度、信度和可操作性，以期为提高该测试的科学性和公正性提供有益参考。

二、文献综述近年来，随着语言测试理论的发展以及计算机技术的广泛应用，计算机口语测试逐渐成为语言评估领域的研究热点。

特别是针对大学英语六级考试的计算机口语测试，其效度、信度和可操作性成为了众多学者关注的焦点。

在效度研究方面，学者们普遍认为计算机口语测试能够较为全面地评估考生的口语能力。

通过对比传统面试口语测试和计算机口语测试的结果，一些研究发现两者之间存在较高的相关性，表明计算机口语测试在评估考生口语水平方面具有较高的效度。

同时，计算机口语测试还能够通过提供标准化的测试环境和评分标准，减少测试过程中的人为因素干扰，提高评估的公正性和客观性。

英语口语测试的信度和效度研究

键，指我们把一项测试成绩作为要测试的能力是
或结构的指示物对它所能进行解释的程度。结构
表性；比如，再尽量使试卷的评分客观一些。评分
效度是一个动态的过程，根据测试成绩所作的解释永远不能说是绝对有效的，只是一个相对的它概念。讨论测试效度必须与具体的测试目的相结合，否则是没有意义的。对于某些测试理论家，结构效度是测试效度的一种形式，实质上是评定它测试在多大程度上有效地基于其基础理论，，即测
这种困境，于测试有效性是相对而非绝对的。在
不一致性的不利因素控制在最低程度，以便于提高测试信度。信度主要是看学生的分数是否稳
定，如果分数忽高忽低，就说明信度不高。信度是
受许多因素影响的，比如测试的时间、境、生环学的健康状况、题目的理解等等。例如不同的环对境对听力测试的影响是很大的，些靠近喧闹街那道教室里的学生是很难将注意力放在听力材料上
可靠则要看评分标准是否客观、准确，评分过程是
否一致。测试效度可通过对学生进行访谈或问卷调查的方式，了解他们对测试的态度、映和感反
条件：度与效度。Ｂｃｍａ［（９６把信度定信ａｈｎ３１９）
手段。而口语测试的信度与效度的把握则是测试

信度和效度名词解释

信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。

一般多以内部一致性来加以表示该测验信度的高低。

信度系数愈高即表示该测验的结果愈一致、稳定与可靠。

例如，用同一个量表对同一组被试在不同时间进行测量，如果每次测量结果都很相近，就说明这个量表的信度较高。

2. 信度的类型- 重测信度：用同一种测验，对同一组被试者，前后施测两次，再根据被试者两次测验分数计算其相关系数，即得重测信度。

它反映了测验跨时间的稳定性。

例如，在一个月内，对同一批学生使用相同的智力测验进行两次测试，两次测试结果的相关性就是重测信度。

- 复本信度：复本是内容、形式、难度等方面与原测验相似的测验。

复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。

有A、B两套英语水平测试题，它们在题型、难度等方面相似，对同一组学生先进行A卷测试，过一段时间再进行B卷测试，然后计算两次成绩的相关系数就是复本信度。

- 内部一致性信度：主要反映的是测验内部题目之间的关系，表示测验能够测量相同内容或特质的程度。

例如，在一个包含多个项目的人格测验中，内部一致性信度高意味着各个项目之间测量的是人格的同一个方面，常用的计算方法有克伦巴赫α系数等。

- 评分者信度：用于衡量不同评分者对同一组被试评分的一致性程度。

在一些主观性较强的测验中，如作文评分、面试评分等，评分者信度就非常重要。

如果不同评分者对同一篇作文或同一个面试者的评分比较接近，那么评分者信度就较高。

3. 影响信度的因素- 被试样本：被试样本的同质性（相似性）程度会影响信度。

如果被试样本的同质性高，信度可能会较低，因为他们在测验所测特质上的差异较小；反之，异质性高的被试样本可能会使信度较高。

例如，在一个只针对高智商学生的智力测验中，由于学生的智商都比较高且接近，可能会导致信度系数较低。

- 测验长度：一般来说，测验的题目数量越多，信度越高。

因为较长的测验能够更全面地测量被试的特质，减少随机误差的影响。

浅论校内英语测试的信度和效度

、
信度（ｌｂｉ）效度（ａｉｔ）ｒｉｉｙ￣ｅａｌｔｖｌｉｄｙ
信度与效度原是计量学中的两个重要概念．是在上世纪３０年代被引入语言测试领域。上世纪６０年代．对这两个概念．Ｌｄ等为代表的结构主义测试学家进行了系统的阐述以ａ０
“ 响 ” 不同的称谓， “ ｘｉｐｃ ”ＤｖｄＢｋｒ１９）影有如ｔｔｍａｔ（ａｉａｅ，９１、ｅ
“
度。根据结构主义测试学家的传统解释．言测试的效度是指语测试是否考了它所要考的测试效度有五种：结构效度（ｎｔｃｖｌｉ）内容效度（ｎｅｔｖｌｉ）同期效度ｃｓｕｔａｉｔ、ｏｒｄｙｃｔａｄｔ、ｏｎｉｙ
ｄ（ｚｆｓｍｌ￣区分度（ｓｒｎｔｎ等。语言测试的效Ｘｉｏａｐｅｓｅ）ｄｃｉａｏ１ｉｍｉｉ
度表明一种相关性（ｌｖｎｅ，即测试与测斌目标的关联程ｒｅａｃ）ｅ
的环节．在语言教学中处于重要的地位。为教学提供目标并它为教师和学生成功地实现这些目标提供现实依据语言测试影响教学．在教学界似乎已经成为大家的共识。种所谓的这这
面的。在教学上，它会导致应试教育。导致学生高分低能。心在理上．会使学生产生焦虑感。它但也有人认为它会促进学生语言水平的提高（ｏｅｅｌ１９）Ｎｌｎｔ，９２。设计良好的教学测试会给教ａ学带来裨益．产生正反拨作用，设计不当的则给正常教学带而来负面影响。至冲击正常教学。因此，测语言测试成功与甚检否就要看它对教学产生什么样的影响本文拟从语言测试质量的信度和效度的角度来讨论大学校内英语测试存在的问题．提出一些改进的方法。望能起到抛砖引玉的作用。并希

大学英语校内测试信度、效度分析

２大学英语校内测试信度分析
几个方面：速阅读，力理解，细阅读，词汇与结构，型填快听仔完
空，翻译，词形转换和作文。历年统计结果显示，有题型中，所听
力，细阅读．仔和词汇与结构区分度良好，易度合适，且都呈难而正态分布。完型填空，翻译和作文历年来得分率仅在５％一２
主观题的评分采用集体评阅，一细化评分标，水作业，统流以提高评分的信度。（）了确保试题在难度、分度等方面的稳５为区定性，证考试的客观公，校正努力实施教考分离，立大保学建
＼倍度指标试题分、测试时＼相天系数卜ｆ度系数（）ａ足甭ｌ｝态分佰难度系数分度不达标题目数
５％，形转换更低，分率仅为４％一５％，明试题偏难，７蒯得２３说正
态分ｌ据表明，型、译和词形转换多呈非正态分布。反，布数完翻相
套形式、容与原试题平行的试卷，同样的学生在连续的时间内让
差．分率，目区分度，易度，数分布情况等，得题难分而且要详细
分析学生的弱项．提改进意见，包括教学和命题两方面。４对（）
中图分类号：Ｇ４６２

论英语语言测试的信度和效度

论英语语言测试的信度和效度摘要:信度和效度是英语语言测试中两个比较重要的评价标准，也是衡量测试是否有效且可靠的重要因素。

信度是指测试结果的可靠性，可信性以及稳定性；效度是指语言测试的科学性和有效性，即考试达到预定目标的程度。

本文将深入探讨信度和效度的两个概念，并进一步阐述两者之间的关系。

关键词：英语语言测试；信度；效度；语言测试是一门具有语言教学的综合性科学，并运用一系列科学而又具有实践性的方法来客观评估学生的语言运用能力。

语言测试的标准包括信度，效度，真实度，区分度，实用性等。

在这些衡量标准中，信度和效度是两个非常重要的衡量维度，也是必须在英语语言测试中应用到的两个衡量标准。

信度和效度这两个概念最初于1930年引进到语言测试这个领域中的。

以Lado为代表的结构主义测试者，他系统地阐述并论证了信度和效度这两个概念，认为语言测试已经形成了一个科学体系，成为一个独立的学科。

从整体上看，语言测试在理论和实践上都偏向于信度和效度。

此外，信度和效度是评价学业测试的重要依据。

两者之间的关系是学术考试的基本问题，学术考试的最终目标是为语言教学服务。

因此，两者的作用在于是否对英语教学产生重要影响，是否能够支撑英语教学，是否能够实现教学目标，又是否能和学习的过程相契合。

语言测试不仅能够检查学生掌握知识的能力和水平，还能够发现学生学习中存在的潜在问题，并能够为教师之后的教学提供有效的指导和帮助。

鉴于此，本文将深入探讨信度和效度的两个概念，并进一步阐述两者之间的关系。

1.语言测试中的信度和效度信度又称有效性，是指测试结果的可靠性、可信性和稳定性，要求其结果不受受试群体和试题的干扰，从而反映被测试者真实的语言行为。

简而言之，测试结果应当客观真实地反映，不受其他因素影响。

如果一份英语试卷了信度，也就不能客观公正地反映被测试者的语言行为，那么这份试卷就失去了它的使用价值。

因此，同一份测试题在不同场合下测试，得到的结果在很大程度上保持一致，则该测试的信度是比较高的（冯彤，2003）。

大学英语网络测试的信度与效度分析

大学英语网络测试的信度与效度分析0 引言2008年，教育部实施大学英语四级机考试点改革。

从此，大学英语四级无论是从形式上还是从内容上都有了较大的变化。

由于整个社会对大学英语四级的认知度都比较高，而且考生只有在大学就学期间才可以参加这项考试。

因此，各个学校的大学英语教学也纷纷以大学英语四级考试为目标，制定相应的教学计划，对教学活动进行调整。

辽宁工业大学从2009年开始，进行大学英语网络测试实践以来，已经进行了23场全校范围的测试，参加人数超过了二万人次。

目前，已经形成了较为完善的测试硬件系统，和较为成熟的测试机制与体系。

基于以上背景，本文通过分析辽宁工业大学英语网络测试的实施过程与结果，考察这项测试的效度与信度，为今后大学英语教学的组织与进行，大学英语网络测试的创新与完善提供相应的依据。

1 高质量考试的标准大学英语四级考试是一项由专家团队精心打造的考试，经过多年的验证，被社会广泛认可，可以当之无愧地称作“高质量考试”。

那么，辽宁工业大学的大学英语网络测试，是否也是一项“高质量考试”呢？Bachman & Palmer将以下六大要素作为决定测试质量优劣条件，分别为信度（reliability）、效度（construct validity）、真实性（authenticity）、交互性（interactiveness）、影响性（impact）、可行性（practicality）。

所谓真实性，是指考生在测试过程中能够正确解答某个问题，是否等于其在实际场合下也具备与之相对应的能力。

所谓交互性，是指考生在完成测试任务过程中个人特征的参与程度和形式。

所谓影响性，是指测试对于这个社会、教育制度、或是此项制度中的个人所造成的影响，同时还包括测试的波及效应（washback effect）。

最后的可行性与前面几项要素不同，它包括测试以何种方式实施、甚至于最初的测试能否能够实施的问题。

但是，正如Bachman & Palmer所说，决定测试质量的最主要因素应属信度和效度。

信度和效度在大学英语成绩测试中的作用

信度和效度在大学英语成绩测试中的作用
张利萍’ ，但冰洁，汪洁。，曾华
（１．２．贵州师范大学大学外语教学部，贵州贵州阳职业技术学院基础部，贵州贵阳５５０００８）
摘要：成绩测试（ＡｃｈｉｅｖｅｍｅｎｔＴｅｓｔ）是大学英语教学中不可缺少的重要环节，是评价学生学期学习成绩和教师教学效
５５０００１；３．贵阳中医学院大学外语教学部，贵州贵阳５５０００２；４．贵
果的有效手段。而信度和效度则是评估成绩测试的两个最为可靠的质量指标，但两者在本质上互相冲突。为了保证成绩测试的总效用达到最大化，我们要在构成试卷时力求在信度和效度之间寻找最佳的平衡点，以构建科学而合理的大学
ｍａｋｅｕｐａｓｃｉｅｎｔｉｉｆｃａｎｄｒｅｓｏａｎｂｌａｅａｃｈｉｅｖｅｍｅｎｔｔｅｓｔｐａｐｅｒｏｆｃｏｌｌｅｇｅＥｎｌｇｉｓｈ．
ห้องสมุดไป่ตู้
ＺＨＡＮＧＬｉ－ｐｉｎｇ，ＤＡＮＢｉｎｇ－ｊｉｅ，ＷＡＮＧ — Ｊｉｅ，ＺＥＮＧＨｕａ４
（１．２．ＩｎｓｉｔｔｕｔｅｏｆＦｏｒｅｉｇｎＬａｎｇｕａｇｅｓＥｄｕｃａｔｉｏｎ，ｆＧｕｉｚｈｏｕＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｇｕｉｙａｎｇ５５０００１，Ｃｈｉｎａ；

《大学体验英语听说自主学习系统》测试平台信度及效度分析

《大学体验英语听说自主学习系统》测试平台信度及效度分析刘英;张伟明【摘要】运用SPSS软件,从数据统计学角度分析了<大学体验英语听说自主学习系统>测试平台的信度与效度.研究分析表明:(1)信度值为(0.758),达到了可接受的信度值(0.7);(2)效度方面,试卷的结构合理,口语部分考查了学生的口语表达能力及反应能力.听力郜分考查了学生的听力理解能力及学生的瞬间反应能力.鉴于该份试卷作为听说自主训练的一个考查试卷,认为其信度已经达到了一个理想值,且结构效度合理.【期刊名称】《韶关学院学报》【年(卷),期】2010(031)004【总页数】5页(P153-157)【关键词】《大学体验英语听说自主学习系统);测试;信度;效度【作者】刘英;张伟明【作者单位】韶关学院外语学院,广东韶关512005;广东电视大学外语系,广东广州510091【正文语种】中文【中图分类】H3192007年修订的《大学英语课程教学要求》明确指出：“大学英语的教学目标是培养学生的英语综合应用能力，特别是听说能力，使他们在今后学习、工作和社会交往中能用英语有效地进行交际，同时增强其自主学习能力……”［1］为培养学生的听说能力，给他们创造自主学习的条件，我校建立了大学英语听说自主学习体验中心，选用了高等教育出版社《大学体验英语听说自主学习系统》软件以及其测试软件，《大学体验英语听说自主学习系统》测试平台2008年1月投入使用。

为了解大学英语听说自主学习体验中心在培养学生听说能力方面的情况，我校每学期都利用大学英语视听说测试软件系统对学生进行测试。

以2008级学生的期终测试成绩为测评依据，对《大学体验英语听说系统》测试平台进行了信度、效度分析，并就该平台的可信度以及有效度进行了合理的评估。

测试是教学过程的一个有机组成部分，也是有效学习的一个保障系统［2］。

随着计算机辅助语言教学软件的深入发展，语言测试平台也成为研究的热点。

大学英语专业-简明英语测试教程-重点

考试信度：考分的一致性。

考试效度：考试达到其预期测试意图的程度。

直接考试：学生被要求直接运用被试的技能或能力。

间接考试：测试那些相关技能、以达到评估能力的目的。

诊断考试：此类考试旨在了解学生在某个阶段中学习上的长处与短处，其最终目的是为了给教师提供教学效果或质量方面的信息。

整体评分法：把作文视作一完整的篇章，根据对其总体印象打分。

原始分数：未经处理或未加权重的分数。

考试：用来获取某些行为的方法，其目的是从这些行为中推断出个人具有的某些特征。

交互性：指在考试所设计的任务中学生的参与程度。

1.根据考试的方式，考试的分类：1直接考试(①侧重考试形式的真实性②便于从总体上考查产出性技能，如口语能力、写作能力、翻译能力等③从命题人员的角度出发,直接考试具有比较明确的测试目标)2间接考试(①不强调考试形式上的真实性,即考试形式无需与实际语用环境相一致②由于不受语用环境的限制,所选择测试的技能可以更具有代表性和概括性③间接考试可选用多项选择题型,可以提高考试信度。

)2.常用的口试形式及特点：①朗读：学生事先在规定时间里浏览朗读材料，然后朗读。

材料的长度视考试难度或学生水平而定，可以是单句，也可以是段落。

但是，朗读作为口试形式只测试学生的语音语调等，无法检查整体口语能力。

②看图说话：给学生一幅或多幅图片，让他们描绘或叙述图中所发生的事件。

③简短说话：是一种弹性口试形式，即在难度上有伸缩性，可以是一个三言两语的形式，也可以是一个时间较长的形式。

④对话：在一个假设情景中进行，学生之间或学生与考官之间根据情景要求进行对话。

对话者既要运用一些常用会话技能，同时还要运用解决沟通问题的技能。

⑤小组讨论：学生们就一个话题展开交流，一般控制在三四个人左右。

⑥面试型口试：基本上采取问答形式，但又不同于简单的一问一答形式。

考官通过各种提问技巧，从多个层面来观察学生的口语能力。

3.如何评阅作文，特点？⑴整体评分法①节省评阅时间②阅卷人员注重作文的整体质量③它的问题主要表现在阅卷人员对标准的理解和掌握上，以及所定档次标准瑜现实作文之间的吻合性。

大学英语成就测试信度效度研究

大学英语成就测试信度效度研究王艺玮;王晓军【期刊名称】《海外英语(上)》【年(卷),期】2013(000)011【摘要】就大学英语成就测试存在的质量问题，依据当代语言测试相关理论，对宁夏大学物理电气信息专业2011级学生期末试卷进行统计分析，通过与相关理论标准对照，发现试卷总体质量良好，试题区分度方面存在一些问题。

这些问题应引起高校英语老师的关注，以便使试卷得到改进从而保证高校英语成就测试的客观与公正。

%To investigate the quality of college English achievement test, this article makes an analysis of achievement tests of 2011 grades students who are majoring in the School of Circuits and Systems in Ningxia University with reference to modern testing theory and associate criteria. And this article finds out that the overall quality of this achievement test is good but the item discrimination exist some quality problems. Highly attention from teachers and developers should be paid in order to improve the test quality and guarantee the objectiveness and fairness of college English achievement test.【总页数】2页(P44-45)【作者】王艺玮;王晓军【作者单位】宁夏大学外国语学院，宁夏银川750021;宁夏大学外国语学院，宁夏银川750021【正文语种】中文【中图分类】H0【相关文献】1.西北少数民族地区成就测试信度效度研究 [J], 王晓军2.对大学英语机辅口语测试任务的信度及效度研究 [J], 李琳3.浅析加强大学英语测试中信度和效度研究的必要性 [J], 李兰兰4.大学英语测试中信度和效度的个案研究--以吕梁学院为例 [J], 樊红红5.大学英语成就测试信度效度研究 [J], 王艺玮;王晓军因版权原因，仅展示原文概要，查看原文内容请购买。

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大学专业英语的测试信度与效度研究Reliability & Validation Study of College Specialized English重庆大学外语学院黄萍副教授Huang Ping College of Foreign Languages, Chongqing University 400044[摘要]全国大学英语四、六级考委会立项的科研项目“大学英语专业阅读阶段完成之后的测试方式及构卷研究”是对大学专业英语能否进行统一测试的研究。

本文从一套诊断性大学专业英语试题入手，从333个学生的答题分数与其四级考试分数、专业英语期末考试成绩相对比，对该套大学专业英语测试题的信度与效度进行了分析与研究，并从学生的反馈中得出结论：大学专业英语统一测试是必要的，也是可行的。

[Abstract] The research project “The Testing Method and Structure of College Specialized English after Reading Period” sponsored by the National College English CET 4&6 Committee is to study the feasibility of the College Specialized English Test in China. This thesis analyzed the results from 333 students who had a diagnosed test and studied the reliability and validation through comparing with the students’ CET 4 test scores and the specialized English achievement test scores. From the students’ feedback we can conclude that the College Specialized English is feasible and essential.[关键词] 可行性，信度，效度，方差，统计学[Key Words] feasibility, reliability, validation, SD, statistics1998年6月，由全国大学英语四、六级考委会立项，重庆大学外语学院承接了科研项目“大学英语专业阅读阶段完成之后的测试方式及构卷研究”。

项目研究的目的是对大学专业英语进行统一测试的可行性进行研究，其具体过程是通过对西南地区各高校大学专业英语的现状调查，对专业英语测试的内容、方式及构卷进行诊断性测试，为大学英语能进行统一地专业英语测试提出可行性方案，并为大学专业英语测试最终能进行全国统一测试奠定基础，对统一考试可能出现的问题和困难提出意见及可能解决的办法，以进一步推动大学专业英语测试的尽快实施，并对提高专业英语考试的效度与信度，使考试更具有合理性和科学性提出建设性的意见。

一．大学专业英语测试研究目的本研究由大学英语考委会立项，在重庆大学外语学院以及国家级专家韩其顺教授的指导下进行的。

目的在于探讨专业英语统一测试是否可行，会存在哪些问题，是否有解决办法，其效度与信度怎样，测试的内容与方法与效度和信度的关系，构卷的方法与研究等。

研究是基于《大学英语教学大纲》中对专业英语阶段的要求来进行的，因此，专业英语测试的内容与构卷也严格围绕着大纲的要求制定。

鉴于大学专业英语测试的目的是为了检查对教学大纲的执行情况，因此，测试内容力求反映大纲的要求。

我们认为，大学英语专业英语测试与大学四、六级考试的测试重点是截然不同的，大学英语专业英语测试应着眼于语言的运用(use)，而不是在于语言的习惯(usage)。

语言学家认为语言内容的测试是从语言的交际需要中分离出来的。

本考试的目的是为了促进培养既懂专业又懂英语的技术人才，使他们进入社会后能用英语作为工具和手段，满足自己工作的需要。

因此，与CET-BAND4不同，它强调的不是学习者语言习惯的形式的准确性，而是通过具有意义的语言实践掌握语言习惯的模式，即它所强调的是语言的适切性(appropriacy)。

二．大学专业英语测试信度与效度课题小组在国家级专家韩其顺教授的指导下，设计了专业英语诊断性（Diagnose ）试题。

2000年4月16日，我们在重庆大学对400多个学生（有效试卷333份）近十个专业的学生进行了试测。

为了有效地对该试题进行分析，我们让被试学生在答题纸上写上了四级通过分数，并在考试完成后对学生就本次考试进行了问卷回答。

以下是我们对受试者答卷进行的统计分析。

从考试结果来看，受试者成绩频数分布曲线图如下:1020304050600~25~30~35~40~45~50~55~60~65~70~分数段频数图1 专业英语测试成绩分布曲线图所有受试总分分布情况是否呈正态分布呢？检验其偏态值SK , 结果为-0.27; 检验其峰值Kurt , 结果为-0.001。

从成绩分布曲线图上来看，虽然出现一个小双峰形态，但双峰紧邻平均数大致呈对称分布。

由此可以认为，本次专业英语测试总分基本呈正态分布。

根据测试结果，进行了内部一致性信度计算。

我们采取了较为实用的信度计算方法，没有采用再测信度、等值测试信度。

本测试包含了若干客观和半客观性命题，不能采用分半信度计算方法和库德-理查逊公式法进行计算，因而采用克龙巴赫所创造的α 系数公式。

该公式为：α = SS Ti K K 221(1∑--）其中， α为信度系数；K 为题目数；Si2为各题各被试得分的方差； ST2为各被试所得总分的方差。

表1 专业英语测试信度与效度分析（注：*表示在0。

05水平上相关，**表示在0.01水平上相关）由表1可知，①从学生本次考试与国家四级成绩来比较，科技英语班r=0.389**，P< 0.05；商务英语班r=0.463****，P<0.001；说明本次考试是有效的，有很大的信度与效度。

②从学生本次考试与科技英语班学生期末考试成绩相比较（期末考试题采用由东南大学《新科技英语》教材项目组的试题），r=0.63****，P< 0.001; 学生本次考试与商务英语班期末考试成绩相比较(试题采用剑桥商务英语等级证书考试题), r=0.465****，P< 0.001，也说明本次考试是有效的，有很大的信度与效度。

③从单项比较来看，我们对商务英语班用大学英语四、六级口语考试判分（两个口语测试员为大学英语考委会正式聘用的口语测试员），所得的相关系数也很高，r=0.56****，P< 0.001。

④除科技英语班翻译与本次考试的相关性不大外，其他各单项都与本次考试是相关的，且相关性很大。

而就其科技英语班翻译与本次考试的相关性不大的原因在于，该翻译试题在一次练习中学生已做过，因此，其成绩与本次考试不相关，从另一方面可以看出，我们所研究的相关性与试题的效度与信度是很有关的。

表2. 专业英语测试信度与效度分析（*表示相关，**表极其相关）由表2可知，①从学生本次考试与国家四级成绩来比较,总的来讲,相关性是很大的, r=0.417*****，P<0.001。

表明本次考试是有效的，有很大的信度与效度。

材料专业的四级成绩与本次考试不太相关的原因是：可能是因为四级考试数据不太准确，34人考试只有27人有四级考试成绩。

②对以上五个专业的单项测试与本次考试的相关性研究来看，除了金压专业外，其他专业的听力与本次考试的相关性都很高，而金压专业只有r=0.135，P>0.2 与本次考试不太相关，我们发现，金压专业的四级成绩与本次考试也刚好相关，r=0.448*，P<0.05就其原因，学生大多数来自农村，其听力本来就不太好，而本次考试的听力又以主观性试题为主，所以，学生考试听力与本次考试不太相关，这从听力与本次考试的难度值也可以看出，听力的难度是最大的。

③对以上五个专业的相关性研究发现，专业好的学生，不管是四级成绩，还是单项测试与本次考试的相关性都很大，反之亦然。

三. 大学专业英语测试的可行性专业英语测试是属于专门用途英语领域的一门测试。

人们通常认为要使它具有较高的效度，就必须为每一个专业单独设计一套试题，这种看法虽然有一定道理，但如要为每一个专业都设计一套题的话，专业英语就很难有一个较为统一的标准，就不可能做到较大规模的专业英语测试，也就难以真正推动和促进专业英语教学。

本测试的目的就是试图在一套题中测试出各专业英语的共同性，我们这样设计的理由是，第一，专业英语的领域太广，如果要把各专业领域在测试中都能涵盖，那么，一次考试就可能包含许多专业的测试题，这样不仅仅要花太多的人力、物力，而且很难保证各专业在同一次考试中的难易度；第二，各专业英语在语言风格上有很大的不同，如法律英语与科技英语，专业术语也不同，但是，各专业在文体上是有关系的，如文摘的格式、绪论、定义、结束语的格式等，此外，语法也有其共同性，如无人称、陈述客观、准确、语言规范、文体质朴、逻辑性强等都是专业英语的共同特点；第三，教育部通过专业目录的调整后，专业划分过细的现象不存在了，大学英语教学大纲虽然要求学生通过专业英语的学习，能听、读懂本专业文献，能说、写、翻译本专业有关文献，但是，正如以上所说，各专业英语的文体都有其相同之处，我们设计出的专业英语测试题主要是检验各高校是否完成了大学英语教学大纲所要求的任务，而不是测试学生是否懂得本专业英语内容；第四，现代科学发展的一个显著特点是跨专业跨学科研究，大学毕业生毕业后也有可能从事其他专业的工作，如学文的改行学计算机，从时代发展的角度来看，专业英语测试内容完全可以测试专业英语的共同性，加强其使用性。

我们正是基于以上理由，大胆地尝试了用一套专业英语试题来测试各专业英语，以达到标准一致、评分一致以及实用性强、针对性强。

为了更好地说明我们的这套试题的可行性，请看我们对商务英语、材料、电力、工业设计、计算机、金属锻压等几个不同专业学生的测试结果来看其显著性差异：表3.专业英语测试组各对平均数之间q值与临界值比较通过方差分析，我们发现至少有一对平均数差异显著，因而进一步进行了q检验，来确定哪些对平均数的差异达到显著水平。

结果发现，97工设组与其他五组（97金压组除外）的平均数q值超过了0.05水平的临界值，其中有两对超过了0.01水平的临界值，即差异极为显著。

97工业设计专业受试组的平均数仅为37.3，与其他受试组的表面差异也比较大，检验结果也说明这一组的平均数异常，差异显著，其他各组间的平均数均无显著差异。

大学专业英语的测试信度与效度研究

英语测试中的效度、信度和真实性

英语测试中的效度、信度和真实性

国内英语测试信度与效度研究述评

大学英语成绩测试中的信度和效度

试论高职英语测试中信度与效度的平衡

大学英语网络测试的信度与效度分析

基于TEM4听力测试标准的英语专业期末听力测试信度和效度分析——

大学英语测试中多项选择词汇题和阅读选词填空信度、效度比较

对大学英语机辅口语测试任务的信度及效度研究

大学英语四、六级计算机口语测试效度、信度和可操作性研究

英语口语测试的信度和效度研究

信度和效度名词解释

浅论校内英语测试的信度和效度

大学英语校内测试信度、效度分析

论英语语言测试的信度和效度

大学英语网络测试的信度与效度分析

信度和效度在大学英语成绩测试中的作用

《大学体验英语听说自主学习系统》 测试平台信度及效度分析

大学英语专业-简明英语测试教程-重点

大学英语成就测试信度效度研究

《大学体验英语听说自主学习系统》测试平台信度及效度分析