测量测量与评价重点

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

名词解释

测量:根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程。

教育测量: 针对学校教育影响下学生各方面的发展,侧重从量的规定性予以确定和描述的过程。

评价:衡量、判断人物或事物的价值。

教育评价:按照一定的价值标准和教育目标,利用测量和非测量的种种方法系统地收集资料信息,对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断,并为教育决策提供依据的过程。

测量单位:用于表示与其相比较的同种量大小的约定定义和采用的特定量。(度娘)

参照点:用数字对事物在量上的规定性予以确定,就需要有一个测量或计算的起点,这个起点叫参照点。

命名量表:最低水平的一种量表,这种量表是用来对事物或人的心理现象进行分类的。P4 顺序量表:用于对事物或人的心理现象进行分类,但这种分类是以所测属性的数量大小为基础进行的。比率量表:除了具有量的大小和相等单位外,还具有绝对的零点。最高水平的量表是比率量表。等距量表:比顺序量表高一个层次,它不但能在一个连续体上表示事物量的大小,而且具有相同的测量单位。等距量表的零点是相对的。

形成性测量与评价:在教学过程中经常实施的,在性质上大致相当于现在的中小学单元测验。诊断性测量与评价:对经常表现出学习困难的学生所作的测量与评价。

终结性测量与评价:用于教学结束后,在性质上相当于现在学校中所举行的期末考试。常模参照测量与评价:将被试水平与测验常模相比较,以评价被试在团体中的相对地位的一种测量与评价类型。

标准参照测量与评价:将被试的表现与既定的教育目标或行为标准相比较,以评价被试在多大程度上达到该标准。

潜力参照测量与评价:将被试实际水平与其自身潜在水平(潜力)相比较,以评价被试有无充分发挥自身潜力为目的。

最佳行为测量与评价:以测量被试的最佳行为表现为目的,以成就或能力的高低作为评价基础。典型行为测量与评价:测量与评价其是否具备某种(或某些)典型行为。

纸笔测验:纸笔测验的内容是以文字的形式表现的,被试也用文字作答,是最为普通的一种测量与评价方式。

操作测验:操作测验的内容是通过图形、仪器、工具、实物、模型等形式表现的,被试通过指认、手工操作向主试提供答案。

计算机自适应测验:用项目反应理论建立题库,并由计算机根据被试能力水平自动选择测题,最终对被试能力作出估计的一种新型测验。(度娘)

测验标准化:由测量专家严格按照测验编制程序而编成的一种测验。

高厉害测验:

信度:测量结果的稳定性程度,是指对无系统的随机误差的控制。

效度:一个测验或量表实际能测出其所要测量的特性的程度。

真分数:反映被试某种心理特质真正水平的数值。P58/ 被试的真分数是观测分数(或说测量

实得分数)的数学期望值。P308

随机误差:量结果与同一待测量的大量重复测量的平均结果之差。(度娘)系统误差:在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差。(度娘)

平行测验:如果两个题目不同的测验测的是同一特质,并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布(x 和s )都是一致的,则这两个测验被称作是彼此平行的测验。(度娘)

重测信度:用同一个量表(测验或评价表)对同一组被试施测两次所得结果的一致性程度。复本信

度:两个平行测验测量同一批被试所得结果的一致性程度。

等值性系数:可以反映出两个测验是否是真正的平行测验。等值稳定性系数:不仅反映出测验内容的抽样误差,而且也反映了被试本身状况的改变。内部一致性信度(同质性信度):测验内部所有题目间的一致性程度。

分半信度:将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。评分者信度:多个评分者给同一批人的答卷进行评分的一致性程度。

测量标准误:测验中所得测值偏离真分数的程度。

内容效度:测验题目样本对于应测内容与行为领域的代表性程度。

实证效度:以实践的效果来作为检验测验是否有效的标准。

效标关联效度:指测评结果与衡量测评有效性的参照标准结果的一致性程度。(度娘)/测量分数对于学生在一外部效标上成绩的预测程度。

效标:检验测验效度的外在的、客观的标准。P63

观念效标:效标与测量:

同时效度:测验分数与效标资料的取得约在同一时间内连续完成,计算这两种资料的相关系数就是代表测验的同时效度。

预测效度:在测验分数取得一段时间后才获得效标资料,计算这两种资料间的相关系数就是代表测验的预测效度。

结构效度:测验能够测量到理论上所定义的某一心理结构或特质的程度。

表面效度:在被试或非专业人士看来,测验表面上是否存在有效地测量着应测特质量的程度。难度:被试完成题目作答任务时所遇到的困难程度。

区分度:题目区别被试水平能力的量度。

通过率:正确作答人数和参加考试总人数的比值。/ 根据一定的规则,对参加测试的对象进行筛选,所有通过筛选的对象与所有参加测试的对象的比值。

标准化难度系数:

鉴别指数:衡量题目区分程度的一个指标。

猜测度:

主观题:鼓励被试积极地组织所学的材料,表达自己的观点。(没有明确统一的标准答案,评分易受评阅者主观因素影响,因而误差较大。)

客观题:答案明确,作答简便,在限定的时间内测验可以包含足够数量的试题,能保证对知识内容的覆盖。(评分客观,它们的正确答案可以在测验前就已准备好,不同评分者各自独立评分,所得结果基本上是相同的。)二值记分题:每个题目只有两种评分结果。

多值记分题:至少有 3 种可能的记分结果。

教育目标:人们在教育活动之前,预先设想和确定的关于教育活动最终期望达成的结果。测验目标:学生的受教育结果。P96

概括性问题教育评价表:根据评价目标概括提出一系列问题加以系统了解的评价表式。指标结构性教育评价表:根据评价目标逐层分解评价指标,形成具有评价指标体系、指标权重结构以及定性定量具体评价标准的教育评价表。

原始分数:未经任何处理或转换的分数,是考生在一份试卷中所得的卷面分数。

导出分数:以常模团体的原始分数为基础,用统计学方法,导出一种新的、具有特定意义的、能反映个体发展在其团体中相对位置情况的分数量表或符号系统。

常模:一个有代表性的样组在某种测验上的表现情况。

常模团体:在建立测验常模过程中实际受测被试样组。

全国常模:测试样组在全国范围内进行抽样所建立的常模。P126

地区常模:测试样组限在本地区中抽样所建立的常模。P126

相关文档
最新文档