教育评价与测量

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

教育评价的质量
一、信度
测验的信度是指测验结果的可靠性或可靠程度。所谓 可靠性是指对同一组对象进行两次相同测量所得结果 的一致性和稳定性程度。常用的信度估计方法有: (1)计算测验内部各项目的得分的一致性,得到同质 性信度; (2)用同一测验对同一组被试,前后测验两次,据两 次测验分数计算其相关系数,得到再测信度; (3)当一种测验只能施行一次且没有复本时,可按测 验题目的奇偶数分两半计分,求相关系数,经校正得 到分半信度。
二、从教育测量走向教育评价
1.教育测量学科的诞生
1904年美国心理学家桑代克出版了论著《精神与 社会测量导论》,被公认是教育统计学、教育测 量学、教育评价学等学科的第一本著作,首次较 系统地介绍了教育统计方法及编制测验的基本原 理,标志着教育测量理论的诞生。
2.进入教育评价的时代
泰勒在1940年的“八年研究”报告书中,首次提出 “教育评价”的概念。他认为评价是一种确定行为 实际变化程度的过程,并形成了泰勒“行为目标评 价模式”,他本人因此被称为当代教育评价之父。
古代教育制度规定,20户人家设一私塾,500户 的县设一学堂,12500户的行政区设学校,国都设大 学。大学每年招收学生,每隔一年考查一次,第一年 考查学生分析课文的能力和志趣;第三年考查学生的 专业思想是否巩固,同学之年能否相亲相助;第五年 考查学生的知识是否广博,对教师是否敬爱;第七年 考查学生研究学问的本领和识别朋友的能力,合格的 就叫“小成”。到第九年,学生对于学业已能触类旁 通,他们的见解行动已能坚定不移,这就叫做“大 成”。
教育评价与测量
教育评价与测量的发展历史
一、中国是考试的故乡,是考试制度的发源 地。
现在学者一般认为,考试制度在西周初见端 倪,西周选士是我国考试制度的萌芽阶段。
“一年视离经辨志,三年视敬业乐群,五年视博习亲师,七 年视论学取友,谓之小成;九年知类通达,强立而不返, 谓之大成。”——《学记》
“古之教育,家有塾,学有庠,术有序,国有 学。比年入学,中年考校,……”
例如,在一次普通话比赛中,三名评委A、B、C对 40名选手的评分如表所示,试检验三名评委的评 分标准是否一致。
t检验是一种参数检验,主要涉及两个样本所来 自的两个总体的方差是否相等。
如果是比较两组测试结果的均值时,可以用 检验。当涉 及多组样本的均值比较问题时,还用 检验进行两两比较是 不合适的,因为它会大大降低检验的可信度,此时应当用 到方差分析。
二、评价指标设计的方法
1.特尔斐法 2.关键特征调查法 3.层次分析法
教育评价信息的处理
一、常用数据的处理方法
1.针对类别数据的处理方法:计算次数、众数、百 分比、卡方检验、列联相关
2.等级数据的处理:计算中位数、百分位数、肯德 尔和谐系数、等级相关
3.等距数据的处理:计算平均数、标准差、积差相 关、t检验、F检验
二、效度
效度是指一个测验或量表实际能测出其所要 测量的特性的程度。应该包括测验项目的难 度和区分度。
目前广泛使用的是弗兰士和米希贝尔(French 和Michbel)提出的分类法,把效度分为内容 效度、结构效度和效标关联效度三种。
3.项目反应理论(Item Response Theory,IRT)
二、测验的类型
1.常模参照测验
2.标准参照测验
三、测量的数据类型
1.称名量表和称名量表数据 2.顺序量表和顺序量表数据 3.等距量表和等距量表数据 4.比率量表和比率量表数据
离散型数据和连续型数据
四、数据的数字特征
1.集中量数:众数、中位数、均值 2.离散量数:全距、四分位差、方差、标准差、差
异系数
五、数据的正态分布形态
1.正态分布是一种连续型随机变量的概率分布,也 称其为常态分布。
2.负偏态分布也称为右偏态分布 3.正偏态分布也称为左偏态分布
六、原始分数转换
1.百分等级和百分位数 2.Z标准分数和T分数
教育评价的标准
一、影响评价标准的因素
教育目标、评价对象和条件、科学理论、评价需 要与意图
x2检验(Chi-square Test):既可用于推断 某个变量是否服从某种特定分布的拟合度 检验,也可用于推断两个离散型变量是否 存在依从关系的独立性检验或推断几次重 复试验的结果是否是相同的同质性检验。
例:某位老师调查了32位学生最喜欢的媒体类型: 报刊、电视、电影、网络,结果是依次受欢迎人 数是4、5、8、15。如果理论上每类媒体期望的人 数应该都是8。
三、第四代教育评价理论
1.测量时代:1900-1930 2.描述时代:1930-1940 3.判断时代:1950、1960-1989 4.应答性模式:1989至今
教育测量的一般原理
一、测量理论
1.经典测验(Classical Test Theory,CTT) 2.概化理论(Generalizability Theory, GT)
此类问题中要检验的假设是:
H0:四类媒体同样受欢迎 H1:某类媒体比较受欢迎
肯德尔和谐系数(Kendall’s W):是一种应 用平均秩检验法的结果。首先将多个样本 数据混合按升序排列,并求出每个观测值 的秩,然后对各个样本的秩分别求平均值, 再计算Kendall’s W。 Kendall’s W和谐系数检 验主要用于分析若干个评判者的评判标准 是否一致。
F检验,与t检验直接比较两组平均数的做法不同 的是,方差分析把“平均数之间差异是否显著” 的问题转化为“平均数组间变异是否显著”的问 题,通过“组间变异”与“组内变异”的对比,进 行F检验,从整体上同时比较多组的平均数之 间是否存在显著差异。由于F分布统计量是一 个方差比,故称这种检验方法为方差分析。
二、评价信息的统计推断
统计推断是运用样本信息来推断总体情况的有效 方法,它包括参数估计和假设检验两个基本部分。
(样本wenku.baidu.com数字特征称为统计量,总体的数字特征称为参 数。)
1.参数估计 常用的置信区间:
0.95置信区间=0.05显著性水平,其意思是,估计 正确的概率为95%,出现错误的概率为5%,此时Z 值为1.96。 0.99置信区间=0.01显著性水平,其意 思是,估计正确的概率为99%,出现错误的概率 为1%,此时Z值为2.58。 2.参数假设检验
零假设:即假设两组数据的参数(如平均数)无本 质差异,用表达式表示则为:
H0:u1=u2
备择/研究假设:即假设两组数据的参数有本质差异。 用表达式表示则为:
H1:u1 ≠ u2
注意事项:
当样本数量N≥30时,采用Z检验,反之采用t检验。
如果评价者只关心两个平均数之间是否存在显著差异,而 不关心差异的方向,可采用双侧检验法。如果评价者可预 测某一平均数应大于或小于另一平均数时,则可采用单侧 检验法。如,样本的平均数大于总体平均数时,则采用左 侧检验;样本平均数小于总体平均数时,可采用右侧检验。
相关文档
最新文档