术语解释

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、术语解释

1. 效度

一份试卷是否有效,即试卷的效度(validity),指的是这份试卷是否测量了它所要测量的东西,是否达到了它所预定的测试目的。一份英语试卷应该测试的是英语语言本身,而不是其它学科的知识。例如,包含下列试题的试卷,尽管全是英语,但是用于测试学生的英语水平,其有效性就有问题,因为它实际上还在测试数学运算知识。

A group of workers are paid £700 for decorating a house. The head of the group

receives twenty-five percent of this amount and the other five members share the rest equally.

How much does each of the five other workers receive?

效度是个相对概念,而不是绝对概念。效度的相对性指条件的相对性和程度的相对性。一份试卷是否有效是指这份试卷是否符合原先预定的目的、功能和范围等特定条件,而不是一般的目的、功能和范围。例如,原先设计用于水平考试目的的试卷对于诊断考试可能不一定十分有效。在甲校有效的试卷拿到乙校就可能就是那么有效了。所谓程度的相对性是指效度只有高低之分,而没有全部有效和全部无效之分。这是因为个人或群体的语言能力特征只能通过其行为样本间接地推测,而不可能直接测得,所以推测结果不可能绝对有效。因此,效度高低是就程度而言。实践中,人们往往规定一个界限,作为参考标准。效度的评估,可以从四个方面考虑,它们为内容效度、构想效度、预测效度和共时效度。

2. 信度与效度的关系

会不会出现这种情况,月队虽然多次测试都得出同样脸结果,但实际上却仍然没能达到我们所要考查的目的妮?当然会有这种情况。想知道课桌的长度却去称它的重量,就是一例。同样的道理,分列式测试的评分固然可靠,但是否有效呢?我们最终的兴趣所在,是学生运用英语进行交际的能力。遗憾的是,分列式测试恰恰没有直接衡量出这一点,它考查的只是词汇和语法。这就是有效性的问题。也就是说,可靠的测试不一定都有效。正如称重量得不出长度一样,考语法也不一定能检查出学生的理解能力。

我们再看看问题的另一个方面。一个不可靠的测试可能是有效的吗?我们说,只要测试的结果是可靠的,就能引出一定的结论;但如果结果不可靠,就不可能从申得出任何结论。因而,失去了可靠性,有效性也就不复存在了。确定了可靠性后,才能谈到它是否有效。正因为如此,赞成分列式测试的人才指出,综合性测试的评分往往是不可靠的。同一篇作文可能会得到两个不同的分数。既然评分不可靠,还有什么有效性可言呢?

再举两个例子:其一,如果我要考查你们的英语水平,方法是让你们在一分钟之内写出你能想得起来的所有的英语单词,根据写出的单词的数量来判定你们英语水平的高低。这种测试可靠吗?可能很可靠。但这是考查你们英语知识的有效方法吗?你们认为这样的测试公平合理吗?当然不。它检查不出你们运用英语的能力,只是检查了你们写字的速度。所以即使它很可靠,也仍然不是考查英语水乎的有效方式。

其二,假设你在课堂上向学生宣布:《明天我要检查大家最近三周的学习情况,重点是现在完成时和现在进行肘。"可是第二天你却用了教育局出的英语期申考试的试卷。这个

考试可靠吗?换句话说,如果把这份试卷分两次考完,学生会不会得到同样的分数?我们相信他们的分数会是基本不变的,因为教育局为了保证测试的可靠性,是肯定会下一番功夫的。但它对你所宣布的测试目的却是无效的。你的目的是检查最近三周的学习情况,重点是现在完成时和现在进行时的用法,而教育局的这份试卷里可能只有一、两个题是有关现在完成肘和现在进行时的。那些回家后认真复习了这三周功课的学生会抱怨说:"这次测试包括了词汇、翻译等多种项目,但是只有一、两个题是检查现在完成时和现在进行时的用法的。"他们是在抱怨你这次测试虽然可靠,但对于你所宣布的那个目的来说却是无效的。

再举一个语言天赋测试的例子。假设有很多学生报考我校,想学习英语,但我们只能招收两个英语班。·那么这些机会应该给哪些学生呢?我们可以进行一次语言天赋测试,看谁学习语言的能力最强。问题是考什么内容。知果我们考的是他们己经学会了多少英语,这也许是可靠的,但用这个测试来判断学生学习英语的潜在能力,却不是有效的。

再从分数差异的角度分析可靠性和有效性的问题。每次测试,学生的分数都不尽相同。无论是高校招生考试·学校的期中考试、"托复"测试或课堂成绩测试,可以肯定,学生不会都得相同的分数。这就是分数差异。导致分数差异的原因很多,按照差异的性质可以归为三类(图1)。

现在分别对它们加以分析。

不可靠差异

可靠的无效差异

可靠的有效差异

图1

有些差异来自学生的情绪。人人都有顺心的时候,也有烦恼的时候。有的学生早上一醒来心情就很好,家里人也都和颜悦色。起床后,吃了可口的早饭,就愉快地去学校参加测试。一切称心如意,测试也顺顺当当。另一个学生一起床就跟妹妹吵了一架。接着又因为公共汽车晚点,上学迟到了。他急急忙忙地跑进教室,气喘吁吁地坐下来匆忙答题。显然。我们很难指望他会发挥出自己的最好水平。有些分数差异就是出于这类与测试无关的小事造成的。这样的事每天都会重演吗?当然不会。比如因汽车误点而迟到的学生,下次可能会早些动身,以免再迟到。由这些情况造成的分数差异是偶然性的,叫做不可靠差异。引起不可靠差异的偶然因素,每人每天部可能遇到,难以预料,学生自己控制不了,教师也爱莫能助。

假如你们参加一次重要测试,知高校招生考试,偏偏赶上了不顺心的日子,那是很令人遗憾的。你的成绩会因此受到影响,造成不可靠的分数差异。

3. 总体、样本和抽样

在心理、教育以及其他许多领域的调查研究中,绝大部分不可能也没有必要对所要研究的总体中的每一个个体,逐一进行调查研究。一般的做法是,从总体中抽取一部分个体作为研究样本,然后应用参数估计或假设检验等统计方法,根据样本的研究结果对总体特征进行推论,如下图。

样本

这种推论的可靠性,一方面依赖于研究过程中无关变量的控制和数据处理的准确性,另一方面则依赖于样本的代表性。如果样本不能很好地代表总体,即使无关变量控制得很好,统计方法运用得确切,对总体的推论也是缺乏可靠性的。

考试实际上也是一个抽样过程。我们不可能在几小时内,把学生几年甚至十几年中掌握的语言知识和技能(总体)都考一遍,而是抽取一部分内容(样本)进行考核。然后根据考试成绩推断学生的总体语言能力。因此,试题的代表性具有很重要的意义。

4. 构想效度

1)结构效度的概念

“结构效度”这一词是由柯龙巴赫(Cronbach)和米海尔(Meehl)于1954年首创。所谓结构效度是指测验对于人的假设属性或理论概念测量到的程度。这些假设属性或理论概念是决定人们外部行为的内隐或潜在的特性。但是这种特性无法给于操作性的定义。它所支配的行为也无法直接观察到。也可以说,在现实世界中并没有与这种属往直接相对应的东西存在,而是一种假设存在的属性。例如,智力、成就动机、语言流利、焦虑、等等。而教育测量有时虽然也涉及到假设结构的问题,但大多数目的在于测量学生对知识、技能的掌握程度,而且测验的内容与特定的知识或行为有一对一的配合形式,对于这种属性一般都能予以操作性的定义。因此它不属于假设的结构。

对于这种假设的心理属性,在现实中并没有效标能够加以测量,在检定测验的结构效度时,也无法直接得到效标分数,只能寻求其它方法估计效标分数。检定结构效度的目的,既不在于考查测验对效标的预测效果,也不在于考查测验内容的代表性程度,其目的在于从理论上探究所建构的假设属性或理论概念是否能够成立。

2)结构效度的建立过程

在编制测验时,建立结构效度的过程有以下几个步骤:

相关文档
最新文档