11 评价研究方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一讲评价研究方法
第一节评价研究的基本概念
评价,就是指依据明确的目标,按照一定的标准,采用科学方法,测量对象的功能、品质和属性,并对评价对象做出价值性的判断。
在评价研究中,可以通过问卷调查、量表测量来收集资料,但它只是评价研究中的收集资料的工具,而不等同于评价研究。
一、评价研究的特征
评价研究的特征表现在评价的目标性与价值性的判断。
(一)评价的目标性
评价的目标性是指评价研究是一项具有明确的目的和目标的研究活动。
评价的目的是指通过评价活动后所期望达到的结果。
通常有三种不同类型的期望结果。
比较评等,这属于相对性评价,目的是通过对两个不同对象的评价,以期对这两个对象的差异性做出判断。
假如用a和b代表两个不同对象,比较评等就是要判断是否存在a>b或a<b。
达标衡量,这属于绝对性评价,是以某一对象作为比较的标准(a0),经过对另一对象a的评价研究,对对象a做出是否达到a≥a0的判断。
发展比较,这属于自我评价,是以自身的前后状况进行比较,通过对对象a不同时期的评价研究,对对象a做出是否存在a2≥a1的判断。
评价目标是要做出上述评价结论的依据。
在教育技术学研究中常用的评价依据是:
条件水平,例如拥有教学环境和资源的数量和质量。
品质水平,例如对教学软件通常是从教育性、科学性、技术性、艺术性等方面进行品质评价的。
效果水平,例如对于教学效果,是从教学目标来分类,即从认知、理解、应用、分析、综合、评价等出发,判断目标达到的程度。
管理水平,例如在教育技术学研究中,着重在对教学资源的开发、运用、流通、发展方面的管理。
(二)评价研究的价值判断性
评价研究的价值判断性表现在评价过程中,需要根据目标分解出若干评价要素(项目),由评判者依据一定的标准,对评价对象的各项功能、品质和属性进行等级的判断。
在获得逐项的评判结果之后,还要根据各项目的重要程度制定权重,把各项目的评判等级与权重综合,从而对总体做出等级比较、达标状况或发展程度的判断。
二、评价研究的要素
评价研究由三个基本要素构成:
(一)评价对象
这是指被评价、被研究的人或者事物。
在教育技术学研究中,评价对象主要是教学过程、教学资源、学生学习效果,教育技术事业的管理等多方面。
(二)评价指标体系
它是评价研究工作的工具,通过它有目的地进行资料的搜集、整理、分析;同时,它又是评价判断的依据,依据它作出价值性的判断。
评价指标体系包括有评价要素(指标项)、评价标准和指标权重三个部分。
(三)评判者
评判者包括组织领导机关、研究人员、专家、同行、教师、学生以及评价对象自身。
评价研究的三要素及其关系可用图11-1表示。
图11-1评价研究的要素
三、评价研究的基本步骤
评价研究的基本步骤可用图11-2来表示:
图11-2 评价研究的基本步骤
(一)建立评价指标体系
评价指标体系包括三个部分,即:
评价要素,它是反映被评对象特征的各个成分;评价标准,它是衡量事物特征各个成分的比较基准;指标权重,它是指各个成分在总体中所具有的重要程度的标志。
如果是要对于某个研究方案进行评价,则可以按照如下的步骤:识别方案的目的与目标(因变量);用行为的词语重述目的与目标(操作定义);构造内容有效(适当)的测验以测量在行为上陈述的目的和目标(因变量的测量);识别和选择与测验组相对比的控制(建立自变量),如果没有这一步,就是形成性评价。
二)资料的收集
为了进行评价,通常通过多种途径收集有关资料,主要有:访问调查、个案调查、问卷调查、量表测量(专家评判)。
(三)资料的鉴别
把所收集的资料按照评价指标要素分类整理,鉴别资料的可使用价值。
(四)价值判断
按照评价指标体系所给出的标准对每个成分要素资料进行比较、判断,作出价值等级的归属。
(五)评价结果的综述
综合各个要素的得分及其权重,得出评价总分,并根据总分和各要素得分率,作出对品质的等级评定或差异比较,或达标程度,或发展程度的价值性的描述和判断。
四、评价的类型
教育技术学研究中的评价,根据事物发展的进程,在不同的时期,有不同的目的和重点,大致可分为诊断性评价、形成性评价、总结性评价三类。
(一)诊断性评价
诊断性评价是在事物发展进程的某一阶段开始之前所作的评价。
它是了解人们对这一事物某一发展阶段的兴趣、态度,以及发展所必须具备的条件存在程度等。
诊断性评价的目的是为了摸清条件、基础,发现问题,诊断原因,根据评价的结果,可以修订阶段发展目标,提出指导发展的计划。
对于一项事业的发展,例如,计划要设计与开发一门网络课程,诊断性评价实际是对制作条件的评价,对人们思想准备的评价。
这些评价有助于进行决策,并对今后的工作有指导作用。
对于学生的学习,诊断性评价就是在一个新的学习阶段(如单元、学期或学年)开始之前进行的一种事前考核(或称前测),它要了解学生为学习新内容所必须预备的知识、技能和经验等实际掌握的程度,了解学生对计划学习的内容的兴趣、爱好和要求;根据评价的结果,按照学生的条件和预备知识、技能、经验的掌握程度,修订教学目标、方法,或作出必要的决策(如进行合理编班,编写必要的指导性资料,决定制作辅助教学软件等)。
(二)形成性评价
形成性评价是一种在事物发展进程中所作的评价,具有反馈的功能。
其目的是监督事物的发展,并调整、修正发展进程。
这类评价是按照原来预定的发展目标作为评价依据的。
由于形成性评价的宗旨是判断发展中的材料是否适宜,研究者往往要求小规模实验组中的受试者填写问卷和参加作业测验,研究者随后评价材料的成功或失败并据以重新编写方案。
对于一项事业,如在网络课程的开发过程中,形成性评价实际是检查进度、检查阶段成果,发现
问题,以修订进度和解决存在问题。
对于学生学习,形成性评价就是通过平时的小测验、期中考试、作业等测量手段来进行评价,它起着督促学生学习,有助于改进教师教学的作用。
形成性评价技术变化不定,不象总结性评价那样有系统性。
(三)总结性评价
总结性评价是一种在事物发展某一个阶段之后所进行的评价,这种评价目的是了解整体的效果,提供一个总体评价成绩的资料。
总结性评价往往又具有后继新阶段的诊断性评价的作用。
对于一项事业的完成,例如,网络课程开发完成后,总结性评价实际上就是对工作质量,存在问题的评价,目的是形成经验,以备后期参考。
对于学生学习,总结性评价往往通过期终考试、毕业考试、毕业设计、毕业实习等测量手段来进行评价,评定学生掌握知识和技能的程度并给出评定成绩。
对上述三类评价的特点进行归纳,如表11-1所示。
第二节评价指标体系的设计
评价对象是客观的事物。
系统科学理论指出,任何客观的事物都是系统与要素的统一体。
任何客观事物都是由若干相互联系、相互作用的要素组成的有机体。
要素是构成系统的组成单元,系统的组成单元又可分为不同的层次。
在一个稳定的系统中,一方面,要素之间相互独立,彼此存在,有着差异性;另一方面,要素之间又按一定比例,相互联系和相互作用,形成一定的层次结构。
根据这一基本原理,我们可以把评价对象根据某种特定的目标分解为若干层次,每个层次又可分解出若干组成要素,依据每个要素和每一结构层次所起的作用和功能形成评价指标体系。
因此,指标实际上是目标在一个方面的规定,它是具体的、可测的、行为化和操作化了的目标。
一、指标体系设计的原则
指标在评价中的地位决定了指标体系的设计必须从下列原则出发,并满足下列条件。
(一)与目标的一致性
指标既然是目标的具体化、行为化和操作化,那么它就必须充分地反映目标,要与教育目标或管理目标相一致。
指标与目标的一致性还蕴含着体系内各条具体指标的一致性,不能把两条相互冲突的指标放在同一体系中。
同一体系内有两条指标相互冲突,说明这两条指标至少有一条是不符合目标的,在实践中,它必然会造成人们思想的混乱,使评价工作无所适从。
因此,这类情况需要引起我们的特别重视。
(二)直接的可测性
指标的直接可测性就是指标作为具体的目标,可用操作化的语言加以定义,它所规定的内容可通过实际观察加以直接测量,以获得明确的结论。
众所周知,培养学生良好的思想品质是我们应用教育技术开展教与学活动的一个目标。
学生思想状态的总体变化无疑是反映学校思想政治工作优良程度的一个标志。
但是,我们不能把思想作为评价的指标,因为思想是人体大脑内部的一种活动,它不具有直接可测性,我们至今还无法直接观察人的思想,测量人的思想。
然而,这并不是说思想不可测,只是说它无法直接测量。
我们可以把这一目标转化成可测量的指标间接地测量。
比如,我们可以通过学生在各项集体活动中的表现,把这些反映人的思想本质的行为作为思想状态的指标。
这些指标把“良好的思想”这一抽象的目标具体化,就把这一不可直接测量的目标可测化了。
(三)体系内指标的相互独立性
评价的指标体系是由一组相互间有着紧密联系的指标结合而成的。
但是,体系内的各条指标又必须是相互独立的,就是说在同一层次的各条指标必须不存在任何包含与被包含的关系,相互不重叠,不存在因果关系,不能从这一条导出那一条。
为什么评价的指标必须是独立的?原因主要有二:其一是指标不独立,两条指标实质上反映了同一事物,说明其中有一条是冗余的,它的存在对整个指标体系没有贡献,无疑还加大了整个评价的工作量,因而也就降低了评价的可行性。
其二,更重要的是,指标不独立,则在指标体系中,同一指标重复计算了两次,实际上是加大了这一条指标的权重。
比如,如果把知识与能力看成是具有同等的重要性,那么,这两条指标的权重则是相等的。
如果在能力中又加进智力这一条,则能力的权重就会出现倍于知识的情况。
在权重集合中,这种偏差的出现无疑极大地影响了整个评价的科学性。
(四)指标体系的整体完备性
指标的整体完备性就是指标体系的指标全面性。
指标体系不应遗漏任一重要的指标,能够全面地、毫无遗漏地再现和反映教育目标和管理目标。
(五)指标的可比性
指标的可比性就是指标必须反映被评价对象共同的属性。
这种属性的一致性,是可比的前提,也是可比的基础。
例如,高等教育的评价指标体系,每一所高等学校都有其特殊之点,但是指标不能反映这些特殊点。
某些院校在办学方面具有自己的特色,这些特色是其一定办学水平的表现,但是作为对评价对象共同使用的指标,不能反映这些特殊性,因此,可以通过自报、自填项目的方式加以弥补。
(六)可接受性
指标的可接受性具有两层含义:其一是符合我国的国情,从实际出发提出指标才是可接受的。
其二是按指标进行评价是可行的。
这意思是,第一有足够的信息可利用;第二有足够的人力物力可利用;第三有切实可行的量化方法可利用。
上述指标体系的设计原则是对指标体系设计者提出的要求。
同时也为指标体系的设计、修改和完善指出了途径和方法。
二、目标分解
指标必须与目标相一致,可以通过分解目标的方式来形成指标体系。
这是建立指标体系的基本途径。
对于复杂的系统,还可以在目标与指标之间设置若干中间过渡环节。
中间环节通常称之为次级目标。
因此,我们可以把目标分解为三个基本层次,如图11-3所示,它分为总体指标(零级指标)、结构指标(一级指标)、单项指标(二级指标)三部分。
在教育技术学研究中,最常见的评价对象是管理与应用水平的评价。
它包括的范围很广,如学校教育技术工作水平的评价,校园网建设水平的评价等。
对于这些对象的评价,其结构指标部分有两种分类方法,一种是把管理状况作为单项列入结构指标中,另一类则把它分散列入条件与工作状态指标之中,如图11-4所示。
三、评价标准的建立
(一)标准的概念
标准就是衡量事物的准则。
1.评价标准的构成
评价标准主要由三个因素构成:
标准的强度与频率:这是指评价标准要求的规范行为所表现的程度或相对次数。
这是评价标准的主要组成部分。
标号:这是不同强度和频率的标记符号,通常用字母(如A、B、C)、汉字(如甲、乙、丙)或数字(如1、2、3)来表示。
标号没有独立意义,只有当我们赋予它某种意义时,它才具有意义。
标度:这是测量的单位标准。
它可以是经典的测量尺度(如类别、顺序、等距、比值尺度),也可以是模糊集合尺度;可以是量化的单位,也可以是非数量化的标号。
也就是说,标度可以是定量的,也可以是定性的。
标准体系是指各种标准的内容、标度之间,存在着密切的内在联系,它们相互依存、相互补充、相互制约,并形成一个有机的整体。
2.标准体系的特征:
完整性:这是指评价的标准互相补充,共同构成一个完整的整体。
如果不具有这种完整性,就会使标准的作用受到限制。
完整性是反映标准间的配套性的特征。
协调性:这是指各种标准之间在相关性质的规定方面互相衔接、互相一致、协调发展。
它反映了标准体系的统一性与和谐性。
比例性:这是指各种标准之间存在着一定的数量比例关系。
它反映了标准体系的量的统一性和配比性。
(二)标准的形式
标准的描述有三种常见的方式,即描述式标准、期望评语量表式标准以及客观可数等级式标准。
在实际进行评价研究时,往往是同时使用几种标准形式,而很少单独使用一种形式。
1.描述式标准
描述式标准就是运用文字描述每个不同要素的等级,并赋给每个等级的分值。
表11-2就是一个实例。
这是一种使用广泛的标准形式,但这种标准形式要求所描述的各要素概念明确、清楚、合理、方便判别。
2.期望评语量表式标准
这种标准是根据目标要求,写出期望达到的评语或要求,同时把该项指标分为若干等级,每个等级赋以分值,评判者根据达到期望评语或要求的程度逐项打分。
表11-3是关于教学工作的若干期望评语及其量表。
3.客观可数等级式标准
对于某些条件指标,可以采用客观、可数的定量数值作为标准,标准分成不同的等级,凡达到一定的数额者则可归属到某一等级之中。
如表11-4给出的是一个关于评价普通中学电教工作条件的部分可数等级标准形式。
四、指标加权
(一)加权的意义
在数学上,为了显示若干量数在总量中所具有的重要程度,分别给予不同的比例系数,这就是加权。
在评价研究中,根据不同的测评目的、测评对象、测评时间和测评角度,将对不同的指标,指派不同的比例系数,这就是评价研究的指标加权。
在评价研究的计量化中,加权是一个相当重要的组成部分,一个良好的计量体系必然有良好的加权方法和加权数学模型。
反之,离开了成功的加权,良好的计量体系就成了一句空话。
因此,加权是使评价指标体系取得可比性和客观性的基本保证。
权数分为两种,即自重权数与加重权数。
所谓自重权数就是以权数作为指标的分值(或分数),或者以权数直接作为等级的分值。
所谓加重权数就是指在各指标的已知分值(即自重权数)前面设立的权数。
如表11-5所示,表示加重权数的一个例子。
在这种情况下,项目评判得分应为:
为项目加重权数,为等级分值即自重权数。
(二)加权的方式
在评价研究中,有各色各样的加权方式被广泛地使用着,它们各有利弊,不尽完善。
通常可以归纳为三种基本方式,即总体加权、局部加权和单项加权。
1.总体加权
总体加权就是对评价的总分加权。
这是指对不同时期、不同类型的评价所得总分,不是采用直接比较,而是分别分配以权数,然后把经加权后的总分进行比较。
常用的总体加权方式有两种,其方法如表11-6所示。
2.局部加权
局部加权实际是对系统的结构指标,即对第一级指标的加权。
它可以是对其中一个一级指标加权,也可以对各个指标加权。
例如,对于教育技术水平评价的四项一级指标中,并非是完全平均的,而是有所侧重,各项一级指标的重要程度就体现在局部加权的各项权数上,如表11-7所示:
表11-7中是指总体的满分值。
假定全部评价满分时,总体分值为100分,则=100,指标权数以百分数或小数表示。
3.单项加权
单项加权是直接对指标内各要素加权。
即对第二级指标的加权。
单项权数可以是自重权数,也可以是加重权数;可以是先派到结构,再派到要素。
单项加权只对有关要素负责,但它影响到结构乃至总体的得分。
表11-8某学校对教师科研成果表示在卫星教育电视收视状况评价研究中,某一项指标的各因素采用单项加权的情况。
各单项得分。
注:
①获市级以上奖为优,区级为良,校级为中。
②在市级以上发表文章为优,区级为良,校级为中。
(三)权数的获得
加权的方法大体分为两种:经验加权和统计加权。
1.经验加权
经验加权通常是由富有经验的专家和有关研究人员商定,把人们长期的工作经验和丰富的学识作为指派权数的依据。
这种方法简便易行,但它实质上是使主观判断数量化,带有主观成分,因而会影响计量的准确性和合理性,必须谨慎使用。
2.统计加权
这种方法是设计一项重要程度意见表,让一部分有关人员对各项指标的重要程度进行投票,把投票结果按统计公式进行计算,以确定权数值。
例如,对于多媒体教学软件综合评判共有教育性(有利于创新能力培养等)、科学性(科学知识表述等)、技术性(交互性的体现等)、艺术性(界面简洁美观等)四项结构指标,我们邀请N=24名对教学软件开发有丰富经验的人员进行投票,其结果如表11-9所示。
我们可以利用排序指数公式进行运算。
根据
按表11-9,共有4个指标,则为对某一指标、对某一重要程度的投票人数;把表10-12的数据代入公式便分别得到4项指标的权重:
五、评价指标体系
评价指标体系又称评判表,它是评判人员进行评判活动的依据,评判总表通常包括几个基本项目:(1)结构指标项;(2)单项指标项;(3)权重系数;(4)评判等级;(5)评判得分。
有些评判总表还把评判标准列在表内,有些则另行列举。
表11-10为网络课程绩效评价指标体系。
表11-11为广州东风东路小学教师掌握现代教育技术水平的评价指标体系。
表11-12是对该评价指标体系的说明。
注:1.打★号指标只对35岁以下的教师作要求。
2.得分=权重×等级分值。
3.一般教师80分为满分,骨干教师100分为满分。