教育评价常用的工具与方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

( 2 )测验的难度要适中 : 难度即测验的难易程 度 , 当测验难度太大时 , 被试得分普遍太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分 普遍较高 , 呈正偏态分布。太难太易的测验都 使被试得分差异减小 , 使实得分数方差减小 , 从而降低测验信度。
( 3 )测验的内容尽量同质 : 性质相同的测验内 容 , 对被试也要求相同的能力、知识和技能 ; 而内容不同质的测验 , 则要求被试不同的能力、 知识和技能。因而为了提高测验信度 , 测验内 容应尽量同质。
总之,标准化测验具有命题标准化、题型标准化、 评分标准化、计分标准化等特点,因此; 标准化测验不会因测验实施者的不同而不同 受测者的成绩可以相互比较 可以客观地了解个人在集体中的相对位置。
常用的标准化测验有标准化考试、智力测验、学 力测验、人格测验和性向测验等。
然而, 建立参照量表通常需要以有代表性的总体为基 础,因此,标准化样本容量必须足够大,通常 是2000以上,对于应用很广的测验样本通常要 上万。因此,标准化测验的设计与实施不是教 师个人能完成的。
二、标准测验的质量要素(P127) 1、信度。是指测验的一致性、稳定性或可靠性。 可从以下几方面来提高测验的信度 : ( 1 )适当延长测验的长度 : 测验的长度主要指量表所包含的题目多少。对 一个测验来说 , 测验的题目越少 , 得分越容易 受偶然因素的影响 , 故测验的信度越低。 反之 如果测验题目较多 , 即测验长度延长 , 扩大了 被试得分范围 , 可在一定程度上排除偶然因素 的影响 , 从而提高测验信度。但是测验信度的 增加并不是等比例提高信度系数。当信度系数 较小时 , 延长测验长度信度系数增加较大 ; 当 信度系数已经较大时 , 延长测验长度对信度系 数的影响就较小了。而且 , 在延长测验长度时 , 还需考虑其他因素的影响 , 如被试在回答问题 时是否疲倦或产生厌烦情绪 , 是否节省时间、 物力和财力 , 测题是否附合测验目的等。
( 4 )测验的时间要充分 : 对某一测验而言 , 应 保证绝大多数被试在规定时间内完成测验 ; 否 则 , 如果被试不能从容回答所有问题 , 就不能 反映被试的真实水平。 ( 5 )测验的程序要统一 : 包括测验的题目统一 , 指导语、 回答问题的方式、分收试卷的方法、 测验时间等都要统一。 ( 6 )评分要客观 : 评分是否客观对测验信度有 直接的影响。对于客观性题目 , 评分标准明确 , 评分容易做到客观 ; 但对于主观性题目 , 受评 分者影响较大 , 不易做到客观。为了尽可能客 观评分 , 应制定明确而易掌握的评分标准 , 尽 量做到一卷多评 , 或一人只评一题等。
教育评价工具是指对评价对象进行评价时 所采用的方式和手段。
教育评价方法是指评价的ຫໍສະໝຸດ Baidu序和角度;
巴登(BUVTON,W.H.)在《活动指南》 (THE GUIDANCE OF ACTIVICE)一 书中,把教育评价工具列出了以下12种: 1.传统的论文式考试 2.改良的论文式考试 3.标准测验(智能测验、学习能力测验、 人格测验、性向测验) 4.教师自制的客观测验(填空法、完成法、 真伪法、选择法) 5.问题情景测验(直接方法、间接方法)
2、效度。是指测验的有效性或准确性。它 是获得高质量的、有意义评价的决定性 要素。没有效度的话,测量数据就不能 带来正确的评价。 提高测验效度的方法 : (1)控制系统误差 : 系统误差是影响测验 效度的主要因素。它主要包括仪器不准 , 题目和指导语有暗示性 , 答案安排不当 ( 被试可以猜测 ) 等 , 控制这些因素可以 降低系统误差 , 提高效度。
6.行动观察记录(自然观察、时间样本观 察、情景样本观察、真相观察) 7.自我诊断测验(自陈法) 8.问卷法 9.接谈法 10.创作,作品分析 11.实验报告、研究报告,作品,实演及其 他业绩之分析 12.个案研究 以上这些工具,在我国基本上以采用,只 是名称不同,有的常用面不广
第一节 测验法
一、标准测验(正式测验) 标准测验,又称标准化考试,,是根据现代考试理论, 运用现代统计手段,严格按照科学程序设计与实施, 并且有统一标准的考试。它一般是由专家在对优秀测 验的诸种条件进行研究的基础上,亲自编制而成的, 除了测验试题外,还应经过科学手续制定一定的评价 标准即常模。当使用这种测验试题进行考试时,只要 把测验后的结果同这一常模作对比分析,便可判断被 试者的程度。由于这种考试的试题和常模是经过科学 程序制作而成的,故测验分数比较稳定,可靠性强, 测验分数不会因考试地点、时间及工作人员的不同而 发生变化。而且这种考试的代表性很高,适用范围很 广,小到一个地区,大到全国,甚至全世界。如美国 专为外国留学生设计的英语水平考试(TOEFL),就 是一种适用于全世界范围所有国家和地区考生的标准 化考试。为了保证考试的有效性,同时也为了保证考 试的稳定性和代表性,这种考试的题置一般都很大, 且以客观性试题为主。
(2) 精心编制测题和测验量表 : 首先测题内容要适 合测验目的 , 如知识性测题就不能全面反映被 试的智力水平 , 它主要测量其知识水平。其次 , 测题要清楚明了 , 用语要让被试理解 , 排列由 易到难。第三 , 测题的难度和区分度要合适。 (3) 严格按照测验程序进行测量 , 防止测量误差 : 要严格按照测验手册进行测量 , 不能作过多的 解释 , 按标准评分 , 两次测验间隔要适当。 (4) 样本容量要适当 : 当样本容量增大时 , 样本 对总体的代表性提高 , 样本大 , 被试的内部差 异增大 , 扩大了真分数的方差 , 使效度提高。 样本容量一般不应低于 30 。另外 , 抽样方法 也很重要 , 一般用随机抽样 , 当群体很大时 , 可分层抽样 , 样本容量扩大时 , 其代表性才随 之增大。
编制和实施标准化测验的要求: 1.要有测验大纲和测验指导书,规定测验的范围、 内容、要求、方式、题型和评分计分方法。 2。要按照测验大纲制定出“命题细目表”,具 体规定每一考察目标和教学内容在整份试卷中 占的比重。 3.进行预测,计算各题的难度、区分度和整份试 卷的信度及效度,调整试卷的整体难度,使学 生的测验成绩呈正态分布。 4.实施过程中要统一规范、统一时间、统一环境, 测验后要统一阅卷步骤和要求,严格规定评分 标准 5.建立参照量表,提供解释分数的常模,以便把 测验的原始分数转换成标准分数,使测验结果 有明确的统计学意义
相关文档
最新文档