第二章教育测量的质量指标1
教学测量与评价
3、被试同时接受性质相似的两个测验,可能减少完成测验的积极性;
4、虽然两个复本测验的题目材料不同,但被试一旦掌握了解题的某一模式,就能触类旁通,有可能失去复本的意义。
3、折半信度(分半信度)
就是将测验分半,再求被试在每一半测验上所得分数的相关系数。
这一阶段教育评价仍然受泰勒模式的影响,注重教育目标的研究;
迅速发展时期(1958—1972年)
这一阶段泰勒模式受到挑战,出现了不少新的教育评价理论与模式;
专业化发展阶段(1973年以后)
这时期教育评价发展具有一个显著特点:就是走向专业化。
第二章 教育测量的质量指标
衡量教育测量的质量,可采用四个指标:
以教学为对象的教育评价,只是教育评价的一个方面,用逻辑学术语讲,教育评价是一个上位概念,而教学评价仅是一个下位概念。
区别:
教育评价的范围比教学评价要广得多,它不仅关注教学评价,还有学校管理评价、教师评价、学生评价、课程评价、总务评价等等。
3、教育评价与教育督导
联系:
两者皆以党和国家的教育方针、政策、法规为依据;
目的都是为了加强对教育工作的科学管理,全面提高教育质量;
督导工作过程主要有监督、检查、评价、指导、反馈若干环节,评价是诸环节的核心,无论是监督和检查,还是指导和反馈,都离不开评价这个手段。
区别:
评价只是督导工作内容的一部分,只构成督导工作的前提和基础,而不是其全部;
首先根据内容、形式、题数、平均数、标准差、难度、测题间相关以及分布形态相等的原则,将试题分成两半,或者将从易到难排列的测题,按照测题序号,奇数测题为一组,偶数测题为一组,分成两半;
教育数据类别与测量质量指标
第二节 教育测量的质量特性
教育数据类别与测量质量指标
一、教育测量的信度和效度
n 一个高质量的测验,它的结果是可靠而 且是有效的;
n 可靠性(信度)和有效性(效度)是评 价测验质量的两个重要指标。
教育数据类别与测量质量指标
n 当一个测验多次测量的结果一致时,它 就被认为是可靠的;
n 估计测量一致性程度的指标被称为信度。
6
90
97
85
97
7
80
89
48
89
r
0.91
0.26
教育数据类别与测量质量指标
相关系数与相关程度表一览表表
|r|
相关 程度
0 ≤0.3
零相 关
微相关
0.3<|r| ≤0.5
切实相关
0.5< |r| ≤0.8
密切相关
>0.8
1.0
高度相 完全相
关
关
教育数据类别与测量质量指标
八、差异显著性检验
★假设检验的基本原理 1.假设 n 虚无假设(零假设):是关于当前样本所属的 总体(指参数)与假设总体(指参数)无区别 的假设,一般H0表示。 n 备择假设(研究假设):是关于当前样本所属 的总体(指参数)与假设总体(指参数)相反 的假设,一般用H1表示。 由于直接检验备择假设的真实性困难,假设检 验一般都是从虚无假设出发,通过虚无假设的 不真实性来证明备假设的真实性。
2. 标准差(σ或S)
标准差概念:标准差是指离差平方和后平均的 方根。
教育数据类别与测量质量指标
问题1:某班甲乙两组在一次测验中的
成绩分别为65,68,71,72,74 (均分为70分)和 30,50,86, 90,94(均分为70分)。如何评 价两组的学习情况?
教育测量的质量指标
教育测量的质量指标引言教育测量是评估学生学习成果和教学效果的重要手段。
通过对学生的能力、知识、技能等方面进行测量,可以了解他们的学习状况以及教学的有效性。
然而,要确保教育测量的质量,需要依据一系列的指标进行评价和监控。
本文将介绍教育测量的质量指标,并讨论其意义和应用。
1. 可靠性可靠性是指测量工具在重复使用中能够得到相似结果的程度。
一个可靠的测量工具应该在不同的时间、不同的场合和不同的评估者之间产生一致的结果。
常用的衡量可靠性的指标包括内部一致性、重测信度和等价性。
内部一致性(Cronbach’s Alpha)内部一致性是指测量工具中各项指标之间相互关联的程度。
通过计算各项指标的相关系数,可以评估测量工具内部一致性的高低。
一般来说,Cronbach’s Alpha系数在0.7以上被认为是可接受的,越接近1表示内部一致性越高。
重测信度(Test-Retest Reliability)重测信度是指在不同时间进行相同测量的结果之间的相关性。
通过将同一测量工具在两个不同时间点进行测试,并计算其相关系数,可以评估测量工具的重测信度。
一般来说,相关系数应该大于0.7才被认为是可靠的。
等价性(Parallel Forms Reliability)等价性是指在不同测量工具中相同或类似的项目之间的一致性。
通过将不同但具有相似性质的测量工具同时应用于被测对象,并计算其相关系数,可以评估测量工具的等价性。
一般来说,相关系数应该大于0.7才被认为是等价的。
2. 效度效度是指测量工具能够准确地衡量所要测量的内容的程度。
一个有效的测量工具应该与被测对象所具有的实际水平或其他标准进行相关。
常用的衡量效度的指标包括内容效度、构造效度和效标关联效度。
内容效度(Content Validity)内容效度是指测量工具中各项指标是否能够全面、恰当地反映所要测量的内容。
通过专家评价、内容分析等方法,可以评估测量工具的内容效度。
一般来说,测量工具应该包含全面的内容领域,并且各项指标与内容领域高度相关。
教育测量与评价测量指标
一、信度概述
(一)什么是信度 信度是指测量结果的稳定性或可靠性程度。 一般地说,一个好的测量必须具有较高的信度, 也就是说,一个好的测量工具,只要遵守操作 规则,其结果就不应随工具的使用者或使用时 间等方面的变化而发生较大的变化。 必须从以下两个方面去理解测量的信度: 信度指实测值(X)和真值(T)相差的程度; 信度指两次重复测量或等值测量之间的关联程度。
例三
• 对初中一年级学生进行地理成绩测验,每答对1题得1分,答错1 题得0分,其测验结果如下表,试估计该测验的折半信度? • 学生序号 题 序 • 1 2 3 4 5 6 • 1 1 0 0 0 0 0 • 2 0 0 0 1 0 0 • 3 1 0 1 0 0 0 • 4 1 1 0 0 1 0 • 5 1 0 0 1 0 0 • 6 1 1 1 0 1 1 • 7 1 1 1 1 0 1 • 8 1 1 0 1 1 0 • 9 0 1 1 0 0 1 • 10 1 1 1 1 1 1
3、折半信度(分半信度)
• 就是将测验分半,再求被试在每一半测验上所 得分数的相关系数。 • 首先根据内容、形式、题数、平均数、标准差、 难度、测题间相关以及分布形态相等的原则, 将试题分成两半,或者将从易到难排列的测题, 按照测题序号,奇数测题为一组,偶数测题为 一组,分成两半; • 然后计算每个被试在两个分半测验分数的积差 相关系数,再用斯皮尔曼—布朗公式加以校正。 • 斯皮尔曼—布朗公式为
• 学生序号 1 2 3 4 5 6 7 8 9 10 • X 19 19 18 17 16 15 15 14 13 12 • Y 20 17 18 18 17 15 13 15 12 12
教育测量与评价教案 第4次课 效度
又称经验效度或统计效度,是以测验分数和效标之间的相关系数来表示测验的效度高低的。
效标就是足以显示测验所欲测量的特性的变量或足以显示测验所欲测量的特性的变量,作为检定效度的参照尺度。
效标关联效度又可分为同时效度和预测效度。
同时效度指测验与当前效标之间的关系程度;预测效度指测验与将来的效标之间的关联程度。如用全国高考的成绩作为效标来检验高中毕业会考的成绩,计算两者的相关系数就是会考的同时效度;而用大学一年级的成绩作为效标来检验高考的成绩,两者的相关系数就是高考的预测效度。
效标关联效度的计算主要通过计算相关系数求得,可用积差相关、二列相关或点二列相关、四格相关和多元相关系数等。(参见有关教育统计学教材)。
(三)结构效度
指一个测量能实际测量出理论上的概念或心理特性的程度。它的目的在于用心理学的概念来说明分析测验分数的意义,也就是说从心理学的理论观点就测验的结果加以解释和探讨。
首先,测量的效度始终是对一定的测量目的而言的。一般而言,任何测量都有某种特定的目的和功能,判断效度高低,就是判断测验达到目的的程度。
其次,测量的效度也是对测量的结果而言的。一种测量工具只能经过实际测量,才能根据出来的结果判断它的效度。所以也可以把效度理解为测量的结果正确反映所欲测量的特性或功能的程度。对于任何一种测量来说,只有当它的测量结果真实、正确地反映所欲测量的功能和特性时,才能认为这种测量是较为有效地或效度较高的。
教案4
课时安排
2学时
教学次序
第4次课
授课题目
第二章教育测量的质量指标
§3效度
教学目标
掌握教育测量与评价的效度的概念和计算方法,了解效度的影响因素,理解提高效度的方法
教学重点
效度的计算方法
试题质量分析
(6)陡峭型分布 说明试题中中等难 度的项目较多。 呈这种分布的试题 几乎无法区分不同 程度的学生,分数 分布过于集中。
集中趋势(central tendency)在统计学中是 指一组数据向某一中心值靠拢的程度,它反 映了一组数据中心点的位置所在。 二、平均分
平均数是表示一组数据集中趋势的 量数。
三、标准差 一组测验分数,只有平均分是不足 以表明其分布状况的。 标准差:描述一组数据离散情况的 最常用、最可靠的统计量数。S, σ
2 ( X X ) i i 1 N
N
三、标准差 标准差反映组内各值间的分散程度。
一个较大的标准差,代表大部分数 值和其平均值之间差异较大;一个 较小的标准差,代表这些数值较接 近平均值。
(3)负偏态分布 说明试题难度偏 低,难度较低的 项目比例偏大。
(4)双峰型分布 说明试题存在两极 分化现象,即难度 偏高的和难度偏低 的项目较多,而中 等难度的项目偏少, 项目难度的分布不 够合理。
(5)平坡型分布 说明试题中各种难 度的项目比例接近。 呈这种分布的试题 区分度较高,但分 数之间的差异偏大。
4、控制难度的基本方法
一般来说影响题目难度的主要因素有: ①考查知识点的多少;
②考查能力的复杂程度或层次的高低; ③考生对题目的熟悉程度;
④命题的技巧性。
四、区分度(discrimination) 每个试题将考生水平 ( 能力 ) 区分开来的 程度。 一般常用两个极端组通过率的差异作为 区分度的指标。
rxx
2r 2 0.455 = =0.625 1 r 1 0.455
信度系数多大为宜? 信度在0.8以上基本合格,一般要求 0.9以上。 对于学科测验,信度系数要求达到 0.9 以上,智力测验要求达到 0.8 以
《教育测量与评价》复习资料
《教育测量与评价》复习资料教育测量与评价第⼀章教育测评概述第⼀节教育测量概述⼀、什么是测量(⼀)测量的定义⼀般认为,测量是根据法则给事物分派数字。
具体来说,是指根据⼀定的法则和程序,对事物或现象在数量上的规定性加以描述和确定的过程。
这⾥包含了测量应有的三个特性:1、法则。
2、事物。
3、数字。
(⼆)测量的三要素1、单位。
2、参照点。
3、量表。
⼆、什么是教育测量(⼀)教育测量的定义教育测量是根据测量学的原理和⽅法对教育现象及其属性从量的规定性上予以确定和描述的过程。
(⼆)教育测量的特点1、测量结果的间接性。
2、度量单位的相对性。
3、测量对象的复杂性。
4、测量⽬的的针对性。
第⼆节教育评价概述⼀、什么是评价评价就是根据某种价值观对事物及其属性进⾏判断、衡量,或者说是衡量、判断⼈或事物的价值。
⼆、什么是教育评价教育评价是根据⼀定的价值观或价值标准,运⽤可⾏的科学⼿段(包括测量或⾮测量),通过系统地搜集信息、分析解释,对教育现象进⾏价值判断,从⽽为不断优化教育和教育决策提供依据的过程。
三、教育评价与教育测量的关系测量是依据⼀定的法则和程序,对事物或现象在数量上的规定性加以描述和确定的过程;评价是泛指根据⼀定的观念和标准衡量、判断⼈物或事物的价值。
测量的结果只有通过评价的解释才能揭⽰其实际意义。
测量是依据,评价是测量的具体体现。
测量关⼼的是数量的多少,评价关⼼的是价值的⾼低;测量是纯客观的,评价带有主观性;测量是⼀种单⼀的活动,评价则是⼀种综合的活动。
教育测量就是借助⼀定的⼯具,给教育现象赋值,来获取评价对象数量的⽅法。
教育测量是教育评价获得数据资料的重要⼿段。
教育测量可以为教育评价提供价值判断的基本数量事实,是教育评价的基础;教育评价是教育测量过程的延续,是对教育测量结果的解释与应⽤。
值得指出的是,教育评价并⾮⼀定以教育测量为基础,有时教育评价和教育测量是同义词。
⽐如,当教师对学⽣的成绩进⾏测验时,可以说是测量学⽣的成绩或评价学⽣的成绩。
教育测量与评价教案 第5次课 难度 区分度
五、控制题目难度的方法
一般说来影响题目难度的主要因素有:
(1)考查知识点的多少;
(2)考查能力的复杂程度或层次的高低;
(3)考生对题目的熟悉程度(如本来比较容易的题目会因考生均未注意而造成很难,或者本来较难的题目会因考生普遍练习而变得容易);
一、概念
难度指测验试题的难易程度。
在教育测量中,客观题的难度一般用正确回答试题的人数与参加测验的总人数的比值来表示。
即P=R/N。R为答对的人数,N为参加测验的人数。
因此,这里难度实际代表的是易度。
难度是试题对学生知识和能力水平的适合程度的指标。试题难度不但对题目的区分度有影响,而且对试卷的信度和效度也有较大影响。
区分度自然越高越好,但要做到这一点较难。一般说来,可参照以下标准,对于有些要求不高的测验,有些试题的区分度低一些是容许的。
教学资源
朱德全.教育测量与评价[M].北京:高等教育出版社.2016
讨论、思考题、作业:
思考题:如何控制测验的难度?
教后小结
第五节区分度
一、概念
区分度指测验对考生实际水平的区分程度,用符号D来表示。具有良好的区分度的测验,实际水平高的应该得高分,实际水平低的应该得低分,所以区分度又叫鉴别力。它是评价试题质量,筛选试题的主要指标和依据。
区分又分为正区分(D>0)、零区分(D=0)和负区分(D<0),正区分又叫积极区分,负区分又叫消极区分。
很明显,难度是一个相对概念,难度的高低与被试的水平直接相关。一种测量对这一组被试是高难度的,可能对另一组被试是低难度的。也就是说,难度是由参与测量的被试群体的整体水平决定的。
教育测量的质量指标--信度概述
ΣX=280 ΣY=286 ΣX2=6594 ΣY2=6912 ΣXY= 6420
n 判别两组数据谁好谁差,不能只靠对平均数的 统计和比较,关键是确定这两组数据偏离各
自的平均数的大小。为了消除数据容量的影 响,我们借鉴研究加权平均数的方法,选用 各个偏差的平方的平均数,来描述一组数据
偏离其平均数的大小,这就是方差。
n 根据假设,实得分数的方差应等于真分数的方差加上 测量误差的方差。即:
(二)信度指统计量与参数之间的接近程度
❖统计量是指样本上的各种数字特征。(如样本平均数 、标准差等);参数是总体上的各种数字特征(如总体 平均数、标准差等)。 ❖在统计学中,统计量越接近参数,这个统计量的可靠 性越高。而要知道统计量与参数的接近程度,可以对参 数进行区间估计。
(二)信度指统计量与参数之间的接近程度
把多次测量的实测值的平均值作为真值的近似
值),E表示误差。
n
)
E=x-T
(公式1-2
(一)信度指实测值和真值相差的程度
n 1、试比较以下两次测量结果(只进行 一次)的信度:
n 用尺子量100cm高的一个儿童,得到1cm 的绝对误差;量185cm高的一位运动员 ,也得得到1cm的绝对误差。
•要比较两种测量结果的信度,一定要看误差分数( E)对于真分数(T)所占的百分数是多少。这个百 分数表示该实得分数(x)的相对误差。其计算式如 下:
一、信度的概念
➢ 信度(reliability):指的是测量结果的 稳定性和可靠的程度,亦即测量的结果是否 真实、客观地反映了考生的实际水平,可记 为rxx。
➢ 具体而言,可以从以下三方面来理解测量的 信度:
教育测量与评价
教育测量与评价》复习纲要第一章:教育测评概述第一节:教育测量概述1、教育测量的特点有测量结果的间接性,度量单位的相对性,测量对象的复杂性,测量目的的针对性。
第二节:教育评价概述国外学者关于教育评价的观点:①泰勒:确定教育目标在实际上被理解到何种程度的过程;②克龙巴赫:评价是为决策提供信息的过程;③斯克里文和豪斯:评价是一种对优缺点和价值的评估,是一种既有描述又有判断的活动;④大桥正飞夫:教育评价就是对照教育目标,对教育行为产生的变化进行价值上的判断。
教育评价具有导向功能、监督检查功能、激励功能、筛选择优功能、诊断改进功能。
1在教育、教学活动开始之前,为使计划更有效地实施而进行的预测性、摸底性评价是诊断性评价。
形成性评价指在教育、教学活动计划实施的过程中,对计划、方案执行情况进行的评价。
总结性评价指某一教育、教学活动项目,是告一段落或完成以后进行的评价。
第三节:教育测评的发展阶段美国的教育测验运动分三个时期:1904-1915开拓期,1915-1930为兴盛期,1930-1940为批判期。
1931年塞蒙兹主张人格测量应用评定发、问卷法、交谈法、轶事记录法等。
1904年桑代克发表了《精神与社会测验学导论》,标志着教育测验运动的开始。
1963年,克龙巴赫发表了《通过评价改革课程》。
第二章:教育测量的质量指标第一节:信度计算信度的几种常用的方法:①稳定性系数:又称为重测信度,它是指用同一测验试卷,在先后两个不同时间内同一组被试进行测验,两次测验实得分数的相关系数。
这是估量信度最简单的方法。
②等值性系数:先实施第一次测验,然后在最短的时间内实施第二份等值的测验,再求他们得分的相关系数,这个相关系数就是信度的等值性系数。
③内部一致性系数:把一次测验人为地分成两部分,比较两个部分的一致程度,从而估计信度系数。
估计方法有两种:分半信度和库德尔-理查森公式法。
④论文式测验信度系数;⑤评分者信度。
测量误差的来源基本可分为三类:第一类误差产生于测验的本身;第二类误差与特定的实施条件有关;第三类误差包括被试本身的变化。
教育学第二章 教育测验信度和效度
(2)记分方法:
• 对于定距量表:
1.两个评分者:积差相关系数
2.多个评分者:α系数
• 对于顺序量表:
1.两个评分者:二列等级相关
2.多个评分者:肯德尔(Kandall)和谐 系数(又叫多列等级相关)
目标参照性测验的信度系数
前面提到的几个信度系数都用于常模参照性测验
(1)估计测题组的信度
测题组根据所考察的目标进行划分;然后,对 每个测题组采取常模参照性测验的信度估计方法。
(2)阶段比较法
第一次测验
第二次测验
经过学习训练后,第一次测验中通过的学生在第 二次测验中通过率较高,则说明信度高。
(3)复本信度估计法 rtt=(a+d)/n
(3)说明:
1.重测时间间隔的确定,应综合考虑练习效 应、记忆效应、个体成长等因素;对于任何个体, 重测的时间间隔一般不应超过6个月。
2.适用于速度测验,而不适用于难度测验
3.应注意提高被试对重测的积极性和兴趣。
积差相关系数的求法
◆对数据的要求: 1.成对数据 2.两列数据要呈正态分布 3.定距量表获得的数据 4.两列变量之间的关系的是线性的
例3:用6个论文题的测验对5个学生施测,结果 如下,试估计其内部一致性信度。
1题 2题 3题 4题 5题 6题 X X2 1 343214 2 634546 3 131245 4 622153 5 531242 ∑xi ∑xi2
评分者信度(Scorer reliability):是指
评分者所评分数之间的相关系数。
3.适用于速度测验,也适用于难度测验,是考察 信度最可靠、使用最广泛的方法。
教育数据类别与测量质量指标
四、集中量
2. 加权平均数( ) 是不同比重数据(或平均数)的平均数
或. N表示各组的频数;X 表示各组的平均数。
教育数据类别与测量质量指标
n 例1:一个学生某门课期中考试成绩为 72分,期末考试成绩为86分,而期考试 占总成绩的40%,期末占60%,这个 学生的学期总分是多少?
教育数据类别与测量质量指标
教育数据类别与测量质量指标
n 问题3:设某考区已录取高中学生语文平 均分为69分,标准差为12.5分,而未录 取高中的学生语文平均分为40分,标准 差为12.5分。比较他们语文成绩的离散 程度。
CV1=12.5/69 *100%=18.12%;
CV2=12.5/40 *100%=31.25%。
未录取学生的离散程度大。
程度。
教育数据类别与测量质量指标
要获得较高的构想效度:
n 理论构思必须结构严谨,符合逻辑,层次分明, 形成某种“构思网络”;
n 对研究的各种变量作出明确、严格的说明; n 给变量下明确的操作定义,并制定相应的、客
观的测量指标; n 消除或控制影响构思效度的因素。
教育数据类别与测量质量指标
影响构思效度的因素
正态分布:是一种连续型随机变量的概率
分布。
二项式分布中当
p=q
时,且n很大时,二项式分布接近于正态分布
表2:一个学生做10题正误题做对不同题数的概率分布
(做对每题的概率p=1/2;做错的概率为1/2)
做对题数
012
3
4
5
6
78
9 10
出现方式数
1 10 45 120 210
252 210 120 45 10
n 效度不仅受随机误差的影响,还受系统 误差的影响。
第二章教育测量的质量指标1
PPT文档演模板
第二章教育测量的质量指标1
(二)等值性系数( coefficient of equivalence )
n 以A、B两型英语复本测验对初中三年级10个学 生施测,为避免由测验施测顺序所造成的误差, 其中5个学生先做A型测验,休息15分钟后,再 做B型测验;而另5个学生先做B型测验,休息15 分钟后,再做A型测验。10个学生A型测验结果 记为X,B型测验结果记为Y,其测验的复本信度 如何?
PPT文档演模板
第二章教育测量的质量指标1
(二)等值性系数( coefficient of equivalence )
n 缺点:
n 1、编制两个完全相等的测验是很困难的,如果 两个复本过分相似,则变成再测形式,而过分不 相似,又使等值的条件不存在;
n 2、两个复本测验有可能在某种程度上测量了不 同的性质,这就会低估测验的信度;
n 估计方法有两种: n 1、分半法(Split-half method):是将一次测验分成两
个假定相等而独立的两部分来记分。通常是以题目的奇数 为一组,偶数为一组,计算两级的相关系数,最后用斯皮 尔曼-布朗公式校正,求得整个测验的信度系数。
n 斯皮尔曼-布朗公式为:
rxy 为两组测验分数的相关系数, rtt表示整个测验的 信度系数。
PPT文档演模板
第二章教育测量的质量指标1
•问题:为什么不直接用奇数题总分与偶数 题的部分计算出的相关系数作为整个测验 的信度系数而要加以校正?
•这是因为测验的长度(指量表中所包含的题目 数)对信度的大小有一定的影响,测验越长,信 度越高。
•而用分半法,实际上等于把整个测验长度减小 了一半,所以按分成两半的资料求出的信度必然 低于整个测验的信度。
现代教育教育测量
教育测量与评价要点第一章 教育评价概述一、基本概念1. 测量:根据法则给事物分派数字,法则为标准,事物为对象,数字为结果。
P32. 教育测量:根据测量学的基本原理和方法对教育现象及其属性进行数量化得研究过程,教育测量具有间接性。
P63.评价:根据某种价值观对于物质其属性进行判断、衡量,评价的本意是评论货物的价格。
P94. 教育评价:根据一定的教育价值观或教育目标,运用可行的科学手段,通过系统地搜索信息、分析解释,对教育现象进行价值判断,从而为不断优化教育和教育决策提供依据过程。
P11二、基本知识1. 测量的三个要素:单位(如米、克,教育测量的单位不能直接加减乘除);参照点(计算的起点,有绝对零点和相零点);量表(测量工具)。
P52. 量表的四种类别:类别量表、顺序量表、等距量表、比率量表。
P63. 教育测量的特点:①测量结果的间接性;②度量单位的相对性(数据要转换);③测量对象的复杂性;④测量目的的针对性。
P64. 哲学史上三种价值观:①客观主义价值观;②主观主义价值观;③辩证唯物主义价值观。
P95. 国外学者关于教育评价的观点:①泰勒:确定教育目标;②克龙巴赫:为决策提供信息;③斯克里文和豪斯:对优缺点和价值的评估;④大桥正飞夫:对行为产生变化的价值判断。
P106. 教育测量的历史知识:① 《学记》记载中国在西周实行了教育考评;② 科举制(606-1905)具有代表性;③ 1702年英国剑桥大学首先用笔试代替口试;④ 1845年美国在初等教育中以笔试代替口试;⑤ 1864年英国费舍收集学生成绩样本汇成《量表集》开启了标准化测量的萌芽;⑥ 1897年莱斯的拼字测验推动教育测验的发展;⑦ 冯特的测量方法和高尔顿的统计方法对教育测量产生重大影响;⑧ 1905年法国比纳-西蒙智力量表具有经典型;⑨ 1904年美国的桑代克为教育测量之父,其名言:“凡是存在的东西都有数量,凡是有数量的东西都可以测量”。
⑩ 教育测量分三个时段,1904-1915开拓期,1915-1930为兴盛期,1930-1940为批判期。
第二章-教育测量与评价的类型和功能
(4)人格测量与评价(个性测量与评价):人格测量与 评价的目的在于测量与评价被试的人格心理特征,诸如气质 、性格、兴趣、态度、动机、适应性等方面的心理特征。
用于人格测量与评价的量具主要分为两类: 一类是自陈人格问卷;另一类是投射测验。
教育测量与评价的类型(七)
按测量与评价量具有的标准化程度分类,教育测量与评价 可分为:
(2)非标准化测量与评价: 非标准化测量与评价的测验编制相对自由,没有严格按照测 验编制程序进行。 教师自编测验常由教师依照自己的教学需要和教学目标而自 行编制的测验,是一种非标准化测验。
按被试行为表现的性质分类
教育测量与评价的类型(六)
按测量与评价的材料(测验材料)分类,教育测量与评价 可分为:
(1)文字测量与评价(文字测验、纸笔测验): 文字测量与评价的测验内容是以文字的形式表现的,被试也 用文字作答的一种测量与评价的方式。 对于不同教育背景的被试,这种测量与评价的有效性将受到 一定程度的影响。
教育测量与评价的类型(六)
——格朗兰 德
检查、考核、评估和监督等方面的作用,通过对教师 、目标和过程等方面管理来行使其教育管理的功能。
对教育目标和质量的管理 对教育过程的管理 对学校的管理 对教师的管理 对学生的管理
思考题
学校教师自编课堂成就测验发挥了哪些功能? 哪些功能没有发挥? 如何更好地发挥这些功能?
“评价的主要目的是改进学习和教学,所以 评价结果的其它用途,都是第二位或补充 性的”。
按解释测量结果或评价结果时的参照点分类,教育测量与评价可分为 :
(1)常模参照测量与评价:常模参照测量与评价是将被试水平与测验 常模相比较,以评价被试在团体中的相对地位的一种测量与评价类型。
教育测量的质量指标概述
•表2-1:
(答对的题数) 1 2 3 4 5 6 7 8 9 10
A5
所B 4
评 的 等
C D
3 2
级E 1
1 3 10 5 4 2 1 6 8 8 4 31 2459831 1 13211 11211
•解:(1)设期末考试的等第为y,空间想像力测 验答对的题数为x,列出二重交叉次数分布表:
• 为了证明这个论点,他们让刚入高中的103名学生作10道 题,测量其空间想像力。为避免知道了某些学生的刚入高中 时的成绩影响以后考试的评分,试卷暂不评阅。立体几何学 完后,进行考试,按得分多少把成绩分为五等(A、B、C、D 、E)分别得5、4、3、2、1分。这时才评阅入学时的试卷, 统计出期末得5、4、3、2、1分者在入学测验中分别答对1道 题至10道题的人数(见表2-1)。
• ⑵学生的心理活动、心理特征与其外部表现之间, 一般仅具有相关关系而无函数关系,外部行为并不 能准确无误地反映某种心理状态。
• ⑶教育测量的对象不是物而是有主观能动性的人。 人能有意识地调节自己的外部行为,掩盖自己的内 心活动,这就增加了认识其精神现象的难度。
二、效度的统计学原理及其与信度的关系 1、效度的统计学原理
采用求统计量的公式进行计算,其公式有以下三种形式 :
内容效度主要应用于成就测验、学科测验、选拔和分类 职业测验。
内容效度不适合用于能力倾向和人格测验。
(二)效标关联效度
• 又可称为经验效度或统计效度,是以测验分数和 效标之间的相关系数来表示测验效度的高低的。
• 效标就是足以显示测验所欲测量的特性的变量或 足以显示测验所欲预测的特性的变量。它是用来 检验测验效度的外在的、客观的标准和尺度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020年7月9日星期四
第二章 教育测量的质量指标
衡量教育测量的质量,可采用四个指标 :
信度 主要对整个测量而言。
效度 难度
主要对测量的项目而言。 区分度
•2
第一节 信度
一、信度的概念 二、信度系数的类型 三、信度对于教育测量的意义 四、提高信度的方法
误差分数 -2 +1 +2 +1 -2 0 2.8
实得分数 16 10 17 22 10 15 20.8
•11
•12
(二)信度指统计量与参数之间的接近程度
❖统计量是指样本上的各种数字特征。(如样本平均数 、标准差等);参数是总体上的各种数字特征(如总体 平均数、标准差等)。 ❖在统计学中,统计量越接近参数,这个统计量的可靠 性越高。而要知道统计量与参数的接近程度,可以对参 数进行区间估计。
•3
一、信度的概念
➢ 信度(reliability):指的是测量结果的 稳定性和可靠的程度,亦即测量的结果是否 真实、客观地反映了考生的实际水平,可记 为rxx。
➢ 具体而言,可以从以下三方面来理解测量的 信度:
•4
(一)信度指实测值和真值相差的程度
x=T+E (公式1-1)
x表示实测值,T表示真值(是未知的,可以
把多次测量的实测值的平均值作为真值的近似
值),E表示误差。
)
E=x-T
(公式1-2
•5
(一)信度指实测值和真值相差的程度 1、试比较以下两次测量结果(只进行
一次)的信度: 用尺子量100cm高的一个儿童,得到1cm
的绝对误差;量185cm高的一位运动员 ,也得得到1cm的绝对误差。
•6
•要比较两种测量结果的信度,一定要看误差分数( E)对于真分数(T)所占的百分数是多少。这个百 分数表示该实得分数(x)的相对误差。其计算式如 下:
•
相对误差=E/T×100% 公式(1-3)
•把上述两次测量(设为甲和乙)和绝对误差分数和 真分数代入上式,得:
•
相对误差(甲)=1/100×100%=1%
•
相对误差(乙)=1/185×100%=0.54%
•据此,度量乙的信度要比度量甲的信度高。
• 最大绝对误差=E/x ×100% 公式(1-4)
•7
根据假设,实得分数的方差应等于真分数的方差加上 测量误差的方差。即:
公式(1-5)
•8
2、怎样估计对一组人或一个人测量多次的实测 值与真值(真分数)的差异程度呢?
于率是。,即信:度(rxx)可定义为真分数的方差与实得分数方差的比
公式(1-6)
公式(1-7)
可见, 越小,测量的信度就越高。信度的取值范围 为[0,1]。 •9
•13
(二)信度指统计量与参数之间的接近程度
❖我们不妨将测量的平均值看做平均数抽样分布中的一个平 均数,真值视为平均数抽样分布的总平均数(μ),这样一 来,只要能估计出实得分数分布的标准差——测量的标准误 ,就可以利用区间估计的公式,算出实测值与真值的接近程 度,从而计算出测量结果的信度。
•14
•例:根据对一组人(设n>30)进行某种智力因素测验 的结果,计算出有关统计量如下,求真分数的置信区间 (或真值在什么数值的范围内)。
2、怎样估计对一组人或一个人测量多次的实测 值与真值(真分数)的差异程度呢?
判别两组数据谁好谁差,不能只靠对平均数的 统计和比较,关键是确定这两组数据偏离各
自的平均数的大小。为了消除数据容量的影 响,我们借鉴研究加权平均数的方法,选用 各个偏差的平方的平均数,来描述一组数据
偏离其平均数的大小,这就是方差。
400 420 441 440 529 529 625 625 650 676 702 783
ΣX=280 ΣY=286 ΣX2=6594
ΣY2=6912
ΣXY= 6420
估计稳定性系数的基本程序:
测验A1 适当时距 测验A2
•18
(一)稳定性系数
相关系数可以用不同方法计算,这取决于数据 的性质。最为普遍的是皮尔逊积差相关系数:
• X为第一次测验的实得分数;
•
Y为第一次测验的实得分数;
•
N为应试者数.
•19
(一)稳定性系数
用一个算术四则的速度测验12个小学生,得分 记为X,为了考察测量结果的可靠性,于3个月 后再测一次,得分记为Y,问测验结果是否可 靠?
例:对5个人的某种智力因素的测验结果如表1-1 ,试估计测量的信度。
表1-1 测量5个学生的某种分数
学生
真分数 误差分数 实得分数
A
18
-2
16
B
9
+1
10
C
ห้องสมุดไป่ตู้
15
+2
17
D
21
+1
22
E
12
-2
10
•10
• •
•学生 •A •B •C •D •E •平均数 • 方差
真分数 18 9 15 21 12 15 18
•16
三、信度系数的类型
(一)稳定性系数 (二)等值性系数 (三)内部一致性系数 (四)论文式测验的信度系数 (五)评分者信度
•17
(一)稳定性系数( coefficient of stability
)
又称重测信度,是指用同一量表对相同 被试者(一组人)在不同时间测验两次 的实得分数的相关系数。
•15
(三)信度指两次重复测验或等值测验 之间的关联程度
统计学中估计事物或现象间数量变动的一致性, 主要采用相关分析的方法,即计算出两种变量的 相关系数(rxy)。
在使用相关系数表示信度的高低时,相关系数可 称为信度系数(coefficient of reliability) 。它是对相同应试者的同一特性的两次测量分数 的相关系数,是测量结果的一致性的指标。
10
26
11
26
12
27
A2
X2
Y
20 400 21 400 21 441 20 484 23 529 23 529 25 529 25 576 26 625 26 676 27 676 29 729
Y2
400 441 441 400 529 529 625 625 676 676 729 841
XY
序号 1 2 3 4 5 6 7 8 9 10 11 12 X 20 20 21 22 23 23 23 24 25 26 26 27 Y 20 21 21 20 23 23 25 25 26 26 27 29
•20
A1
X
01
20
02
20
03
21
04
22
05
23
06
23
07
23
08
24
09
25