增值评价综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.1增值评价简介
2.1.1增值评价的缘起和发展
针对学校效能的增值性评价起源于詹姆斯·科尔曼1966年向美国国会提交的《关于教育机会平等性的报告》,简称“科尔曼报告”(Coleman Report),该报告虽然没有直接提出学校效能的增值性评价问题,但其研究结论却引发了世界范围内对学校效能的争论,催生了学校效能增值性评价的出现(Rivkin, Hanushek, Kain, 2005)。

自20世纪70年代以来,以“科尔曼报告”为起点,学校效能的增值评价研究在世界范围内逐渐发展起来。

20世纪80年代中期以前,增值性评价的应用一直受到统计技术发展水平的限制。

80年代末,多水平模型技术的发展与完善,为增值性评价提供了精确可信的分析方法。

由于英美两国统计技术的发展以及现实的强大需要,多水平模型和增值性评价方法率先在这两个国家得到了充分的应用。

1983年,《国家处于危机之中:教育改革势在必行》(A Nation at Risk: The importance for educational reform)报告的出台,美国全国上下对教育状况的关注水平空前提高。

1989年,美国总统召开五十州州长教育峰会,思考教育问题,制定行动方案,并最终形成了六项国家教育目标。

随后,为响应新的教育目标,美国各州掀起教育改革的热潮,并提出了学校问责制的概念。

1992年,应此热潮,田纳西州政府率先采用增值评价系统作为州教育促进法案的一部分。

达拉斯州也从增值的角度探讨了判断高效能学校的量化程序,并发展了适用于该州的增值性评价系统;此外,北卡罗莱那州、德克萨斯州等也将增值性评价应用于其教育问责制主体框架之中。

随着联邦教育法《不让一个孩子掉队》(No Child Left Behind)的出台,增值评价受到越来越多教育工作者的认可和政策制定者的青睐,正逐渐成为美国教育评价的主流方式。

在英国,20世纪80年代末以来,政府每年都公布所有学校以原始分数表示的学生成绩排名表。

由于原始分数没有考虑影响学生成绩而学校自身又难以控制的因素,如生源质量等,因而不能公正、客观地反映学校效能。

为解决评价上的问题,研究者提出了“增值”概念。

英国的增值性评价同美国类似,也是首先从地区水平上发展起来的。

国家统一课程的建立及链接国家数据的新资源的出现,为增值性评价在整个国家内推行提供了可能。

英国政府于20世纪90年代接受了增值评价法,2002年在全英格兰和威尔士推行学校效能的增值评价模式,2004年和2005年试点,2006年全面开展学校效能的“多元”增值评价,并将增值评价指标作为一项重要的创新性指标加入到现有的评价指标体系中。

此外,随着增值性评价理论的完善,统计技术和相应软件的发展,这一评价方法也逐步在其他
国家和地区推广和实施。

2.1.2增值评价的概念
为理解增值评价的概念,我们可以把它想象成为一个身体生长的曲线。

家长将孩子靠墙站直,然后用铅笔在墙上标记出孩子在2岁、3岁、4岁等时的身高。

从这些数据中,家长可以画出一个图来形容孩子身高的增高。

常常,父母会发现孩子的身高曲线并不像儿科医生所画的图标那么平滑顺畅。

而是,存在“凹陷”和“突起”。

孩子可能还会突然快速长高。

另外,还有可能存在测量误差——孩子可能没有站直,或者家长没有正确使用测量工具。

我们把这个过程引用到教育中来。

假设学校每年都会测试学生的数学成绩,这些分数被用来建构每个学生的数学成绩增长曲线。

每个学生的增长曲线都会出现“凹陷”和“突起”,正如儿童的身高增长曲线一样。

通过审查每个学生的成绩曲线,由于有“凹陷”的原因存在,我们不能得出任何结论。

然而,如果我们聚合许多学生的成绩信息,我们就可以发现某所学校四年级的学生存在一个“凹陷”,这个凹陷可以明显地告诉我们,四年级的课程或者教育需要有待进一步考查(Sanders, 1998)。

通过跟踪每个学生的进步以及测量图形的偏向(deflection),每个学生实际上在担任他们自己的控制信息。

这个过程过滤掉了大多数社会经济地位的干扰,这也是以前人们使用学生学业分数来评估学生成绩时的担忧。

教育评价领域中,增值性评价是指通过追踪研究设计,收集学生在一段时间内不同时间点上的标准化测验成绩;基于学生自身测验成绩的纵向比较,并考虑其他不受学校或教师控制的因素对学生成绩的影响(如学生的原有成绩水平、人口学因素、家庭背景信息以及学校周围地区的经济发展水平等);使用多水平模型对数据进行统计分析,可以将上述因素对学生成绩的影响与学校或教师对学生成绩的效应分离开来,追踪学生在一段时间内学业上的变化,考察学校或教师对学生学业成绩影响的净效应,进而实现对学校或教师效能较为科学、客观的评价。

教师增值评价,这个概念既简单又很有吸引力,指的是基于教师所教学生在过去的学年中学业成绩提高的幅度来评价教师。

经常被称为“增值”,这个概念和实现增值的统计方法在过去的几十年中,都是州立法以及州、国家级教育会议争论的话题。

近来,增值的概念和实践在学校、学区以及各个州仍然是方兴未艾。

增值模型的结果已经在诊断教师职业发展需求上起到越来越重要的作用。

然而,具体实施这个看似简单的想法却是非常复杂的,面临着统计和实践方面的挑战。

增值评价模型要求追踪个体学生几年中在不同学科上学业成就的提高,以此来估计教师对学业成就提高的贡献。

2.1.3增值评价的特点
第一,增值性评价实现了关注点的变化。

教育评价中,最常用的评价方式是使用学生成绩原始分数的平均分或升学率作为评价指标,确定学校或教师的工作是否有效。

有研究发现,使用原始分数作为学校或教师效能的指标是不准确的,甚至会有误导作用。

此外,这种评价方式导致人们过于关注一次考试的结果,过分关注少数尖子生的培养,忽视了大多数学生的发展,损害了教育过程中的公平性。

而增值性评价则是基于每个学生的进步来计算学校或教师对学生学业增长的影响,这样就使学校和教师的关注点从个别学生身上转移到更加实质性的问题——每个学生的进步状况如何。

第二,增值性评价保证了更加公平的比较。

增值性评价将每个学生的当前成绩与过去成绩进行比较,关注学生的进步和成长,而不是学生成绩的绝对水平,从而改变了以往将学生的学业成绩与平均值或任意制定的标准进行比较的做法。

由此对学校或教师效能的评价都是基于学生的进步或增值,这一评价标准的确立,实现了教育评价过程中比较的公平性,有利于激发生源质量差的学校促进学生进步的动力。

第三,增值性评价与绩效责任紧密相连。

问责制目前已成为各个国家进行学校效能研究的主要方面,它要求使用学生标准化测验的成绩作为评价对象,以使教育对学生的学习成果负责。

评价是问责制的重要组成部分,评价的科学性直接关系到问责制实施的效果。

增值性评价本身的特点,为问责制提供了一个良好的评价框架,能够提供对学校和教师更为公平的考察。

第四,增值性评价具有潜在的诊断性功能。

单纯的增值性评价不能识别学生成绩差的原因,但是增值性评价是基于追踪设计的研究,因此它能够根据详尽的数据描述识别出学生的成功与失败之处,这将成为学校和教师发现问题作出决策的起点。

此外,利用增值性评价的信息,可同时为教师提供形成性评价和终结性评价的信息,从而为教师的自我提升提供依据。

第五,增值性评价能够满足所有学生的需要。

增值性评价的基本理念是学校和教师应该保证所有水平的学生都以相同的速率取得学习上的进步,即每个学生在一年内的学业增值幅度应当相同。

这就要求学校和教师不能只关注成绩好的学生,而要兼顾所有学生的发展和进步。

根据每个学生的需要,采取相应的教学措施,从而促进每个学生的进步,满足所有学生的需要。

2.1.4增值评价的作用
第一,有利于提高学校教育评估的科学性。

一所把入校时成绩优秀的学生培养成优秀的毕业生,未必算得上高水平、高效能的学校,而一所能把入校时成绩
平平或较低的学生培养成优秀的毕业生才称得上是真正的高水平、高效能学校。

第二,有利于教育评估目的的实现。

教育评估根本目的是促进学校改进工作。

教育增值消除了一般学校和薄弱学校的不公平感,给一般学校和薄弱学校希望。

给“名校”、“重点中学”带来适度压力,促使他们不只是在录取学生上做文章,更要注意在改进学校管理和教学工作上做文章,从而促进区域教育的均衡发展。

第三,促进学校特色发展。

增值评价可以为学校提供详尽或概括的数据,得出有关学校教育教学的各种有用信息,发展学校的特色。

进一步分析影响学校效能的因素,准确地发现效能不理想的学校存在的问题,并能有效地去帮助其改善工作。

第四,有利于实施素质教育。

教育增值不仅指知识技能上的增值,它也包括思想品德和其他心理品质上的增值。

素质教育的核心是两个全面,即面向全体学生和实施全面发展的教育。

以教育质量为一级评价指标,其次级指标常常是优秀率和升学率等,这样会把学校和教师的注意力导向部分尖子学生身上,屡禁不止的校内分班就是最好的确证。

教育增值是每个学生个别教育增值的总括反映,这必然把学校和教师的注意力引向全体学生,或更关注基础差的学生,使素质教育更易落到实处。

将学校的注意力从以前的注重生源转向注重学生的培养过程中来,更好地促进学生发展。

第五,可为学生和家长择校提供理性指引。

以往家长只能根据学校向社会宣传的升学率为孩子择校,这种单一的教育质量指标带有较大的欺骗性。

只有向社会提供不同中学的教育增值水平,才能为学生和家长理智地择校提供更多的依据,为他们择校提供理性指引。

俄亥俄州众议员Callendar(2004)认为,增值评价的好处在于它不是通过和一个整体的平均分比较来描述学生的进步,而是通过和每个学生上一年的成绩对比来描述学生的进步。

因而这样能保证父母和教师能一起合作以确定学生能得到他们要求的教育质量。

增值评价的政策影响是深远的。

准确设计的增值评价可以让家长、纳税人以及教育决策者更清楚地看到学校是否有效并满足了个体学生的需求。

这个客观的标准可以引导我们将一些稀缺的资源分配给那些起作用的学校。

另外,增值评价为我们测量教师培训和职业发展项目的效能提供了可能。

通过转向一个更加以学生为中心的教育系统,我们将可以保证在俄亥俄州没有一个孩子会落后。

1
2.2国外增值评价研究综述
1Callender. J. (2004). Value-Added Student Assessment. J ournal of Educational and Behavioral Statistics, 29 (1), 5.
由于增值评价模型的发展及成熟主要是由田纳西州的桑德斯教授发起来的,并使增值评价称为田纳西州州议案的规定条款之一。

之后,由于增值评价的公平性和可操作性,田纳西州美国许多其他州,如北卡罗莱那州、德克萨斯州等。

因此,为了对增值评价有一个比较全面深刻的了解,本研究主要全面系统地介绍田纳西州增值评价系统模型,从该增值评价系统的背景、样本、所使用的模型、以及相关评价结果进行综述,以得出对本研究有利的研究思路。

2.2.1田纳西州增值评价的背景
在美国全国,各州,以及学区正在提高学生的学业标准。

同时,全美正在努力尝试让教师和学校管理者为他们所提供的教育质量负责。

田纳西州州长Ned McWherter在1992年3月签署了教育改进法案(Education Improvement Act),这个法案给在很大程度上提高了全州教育的经费。

同时,立法委员也要求实施问责制来确保新增加的经费能被用于学生学业成就的提高。

虽然有证据表明无论何种学生,即使是那些基础薄弱的学生,也能在适当的教育环境中取得成功,但是要将成绩不好的学生的成绩提高到一个新的标准确实是非常困难。

要教师和学校管理者为学生的成绩负责,而没有考虑到学生原有成绩显然是不公平的,甚至从长期来看是有反作用的。

这些政策会使教育者反感,使得教师或者学校管理者更不愿意给最需要帮助的学生提供服务。

要教育者对学生成绩负责而不考虑那些超过教师或者学校管理者控制的因素,将会使提高标准的这个运动丧失威信(Ballou, Sanders, Wright, 2004)。

目前,田纳西州增值评价系统(TVAAS)是全世界最权威的增值评价体系之一,世界各地的增值评价大部分都是借鉴TVAAS的模式。

田纳西州增值评价系统,是一个用与课程高度相关的尺度(scales)每年测量学生一次,跟踪学生的进步,聚集每个学生的“凹陷”和“突起”,然后提供一个公平,客观的方法来测量学区、学校以及单个教师在促进学生学业进步时的效能。

我们知道,评价的过程在统计和计算上是非常复杂的。

为了确保公平,敏感和可信,在适应学生真实数据结构的同时,该方法必需解决许多困难的问题。

学生转学、缺考。

教师是以单独的个体(self-contained classrooms)、团队、学科分组还是结合其他的模式工作。

一些学生留级。

一些学生跳级等等,而这些还只是需要解决的问题的一小部分。

而增值评价系统则可以解决这些以及其他更多的问题。

该评价方法利用心理测量学家已经改善好的方法从标准化测验中来构建测量尺度。

TVAAS建立在混合模型理论和方法统计优势的基础上,利用现代电脑快速的运算能力,引进新的算法的优势,使得大量方程能够得到更加便捷的解决。

田纳西州增值评价系统,以及相应学校晋级、入学率和辍学率的测量方法,
已经被作为田纳西州新教育问责制系统所采用。

TVAAS,在教育改进法案中称为“桑德斯模型”,是被指定的用来评价学区(school systems)、学校、教师在促进学生学业成就提高上的效能的方法。

因而,增值评价直接将学生学业成就的提高与教育评价连接起来了。

TVAAS要求每个学生每年在几个学科上的测试在全州范围内是收敛的(convergence),同时也要求必需使用“桑德斯模型”的统计方法。

根据1991年制定的这种考试制度,每个2-8年级的学生在五个科目上每年测试一次,这五个科目分别是——数学、阅读、语言艺术、自然科学和社会科学。

这些基本测试的原始题目来自CTBS/4商业考试。

这些测试是由田纳西州的教育者早在90年代选定的,这些教育者认为这些测试比当时其他的测验更加接近田纳西州的课程。

然而,田纳西州教育改进法案要求新鲜的,每年都不一样的等价测验形式。

这个要求避免了以往人们对分数膨胀以及由教师“为考试而教”而产生许多不良后果的担心,如教师根据以往考试猜题等。

因为教育法案的这个要求使得测验的题目是不能被预期。

除了基本的测试,为了使TVAAS方法能够得以在高中课程中得以延伸使用,田纳西州的法律要求课程末端(end-of-course)测试应该被组织与实施。

在过去的三年中,五所高中已经开始进行数学,并得出了学区、学校和教师在这些学科上的表现报告。

最近,该州教育委员会提出在未来的三年内要将这些测试加入到其他学科领域中去。

最初,许多人怀疑这种学生学业成就数据的使用方式,统计混合模型理论和方法的使用是否能够基于学生学业进步的比率从而对系统、学校和教师效能产生公平的,客观的,无偏的估计。

然而,来自统计和教育评价协会(communities)的详细的外部审核已经证明TVAAS的属性正如之前所说的那样。

增值评价的得出的这些信息可以为学区、学校以及教师的效能提供好的问责和诊断信息。

从1993年开始,每个服务小学和初中生,即3-8年级学生的学区和学校效能的增值评价报告,以及被选中的五所高中的数学课程方面的学区和学校效能的增值评价报告已经颁发给了教育者以及公众。

尽管教师报告没有呈现出来,但是增值评价系统已经给教师和他们的管理者提供了教师效能的评估报告。

增值评价结果显示,从1991年开始,全州8年级数学、语言艺术以及自然科学的平均分数增长缓慢。

社会科学的平均分数与往年持平,8年级的阅读理解平均分数呈现缓慢的下降趋势。

最低效能的学校比例在缓慢上升。

最近的国家教育进步评估(National Assessment of Educational Progress)的数学成绩的结果已经验证了来自田纳西州增值评价系统数据库的数学成绩变化趋势的结果。

例如,虽然TVAAS报告显示,8年级的数学平均成绩增长缓慢,但
是田纳西州仍是为数不多的四年级数学成绩从1992年到1966年上升的几个州之一。

尤其是来自NAEP的报告说田纳西州学生分数高于平均分的人数增多。

2.3国内增值评价研究综述
相比国外对教师增值评价研究,国内在这方面的研究比较薄弱。

而且,目前国内的研究主要关注的是学校效能的增值研究,尚未发现专门对教师进行增值评价的研究。

2.3.1学生个体变量对成绩的影响
边玉芳,林志红(2007)[2]的研究结果显示,学生变量(中考成绩、性别和生源地)对理科考生高考总分变异的解释力是37% ,其中中考成绩解释了33%。

学生的两个变量(中考成绩、性别)能够解释文科考生高考总分变异的52%,其中中考成绩解释了50%。

说明学生中考成绩对文、理科考生的高考成绩有极大的影响。

马晓强、彭文荣、托马斯(2006)的研究结果也得出了类似的结论,不同学校高考成绩的校际差距,60%左右可归因于所招收学生在中考成绩上的差异。

[1]
2.3.2学校背景因素对成绩的影响
王家美、戴海琦等人(2009)对江西省上饶市30所高级中学语文学科进行增值评价研究表明。

其使用的模型是:
水平一:水平二:
该模型以高考成绩减去中考成绩的差()作为应变量,估计出以往模型的各个系数,然后将这些系数代入模型中求出,然后将,再在各个学校求平均,得出各个学校学生高中语文学习的纯增值。

研究表明,用原始分进行估计与用增值分进行估计,大约有20%左右的学校其评估结果有非常显著的差异。

公办学校语文增值略高于民办学校语文增值;重点中学的语文平均增值要高于非重点中学,重点中学更注重学生整体的进步。

不能能力水平的学生在语文增值上存在明显的差异,即高中语文学习受到学生学习能力水平的影响。

学习能力达到中等水平及以上的学生语文增值不存在差异,但是学习能力低于中等水平时,学习能力就会比较显著地影响其语文学习。

马晓强、彭文荣、托马斯(2006)研究表明,不同学校高考成绩的校际差距,60%左右可归因于所招收学生在中考成绩上的差异;如果再将学生详细的家庭背景与学校背景因素考虑在内,则可解释80 %左右的高考成绩校际差距。

边玉芳,林志红(2007)[2]研究结果显示,学校之间的差异对理科考生的高考总分有52%的影响力,对文科考生的高考总分有40%的影响力,表明校际差异对文、理科考生高考总分成绩都有着极大的影响;学校对学生学业成绩的作用一部分与学校的教育教学有关,另一方面也与学校基本条件相关。

也就是说,学校基本条件与教育教学综合过程共同对学生起作用,把造成学生的学业成绩差异只归因于学校教育教学的差异是不恰当的。

2.2.3 增值评价方法与原始评价方法的差别
增值评价结果与高考分数之间存在较大差异。

有1/ 3 的学校存在此种情况:采用原始分数评价时的学校排名与采用增值评价时的学校排名间的差距在20 名以上。

在高考分数排名中较高的学校,其学校效能并不一定也相应较高,反之亦然。

不同学科间的学校效能相关显著。

学校在提高男生、女生以及不同学习能力的学生学业进步幅度上不存在分化和区别对待现象。

[3]
2.4 小结
增值性评价作为一种新的教育评价思路,近年来得到越来越广泛的关注,并引发了大量的相关研究。

它为传统的教育测验分数的分析提供了新的视角,能够帮助我们实现对学校和教师效能的客观评价。

但是,作为一种发展中的方法,它自身仍然存在一些争议。

如目前增值性评价存在几类多水平统计分析模型,这些统计模型对学生数据的处理方式不尽相同,那么到底哪种模型是最佳模型,怎样的模型才能体现学生学习的真实状况,如何根据不同的教育状况确定合适的增值模型等问题。

尽管存在一些尚未解决的问题,增值性评价作为一种新的教育评价方法,与传统的评价方式相比,仍然有许多不可替代的优越之处。

与仅以一次测验成绩的结果为标准的评估相比,增值性评价在评价的科学性和客观性上已达到了较高的水平。

随着统计技术和方法的不断完善,以及教育和心理测量领域相关理论和实践应用的发展,增值性评价面临的一些问题也将会迎刃而解。

这一方法也必将以其独特的优势在教育评价领域发挥越来越重要的作用,得到越来越多地认可和广泛应用,为教育评价领域方法的创新带来了新的希望。

相关文档
最新文档