福建省第三届小学语文教研员研修班暨学业测试与评价研讨活动
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
加强评价改革研究促进教学质量提升——福建省第三届小学语文教研员研修班暨学业测试与评价研讨活动概况及材
料整理
4月16-17日,福建省第三届小学语文教研员研修班暨学业测试与评价研讨活动在福州举行,各设区市、各县(市、区)小学语文教研员、省《小学语文考试评价改革研究》课题实验学校代表等一百多人参加。
研讨活动以加强评价改革研究、促进教学质量提升为主题,围绕“如何把握小学语文考试评价改革的正确方向”“如何加强小学语文考试质
量分析”“如何有效开展小学语文考试评价改革课题研究”“如何建
构适合我省实际的小学语文学业质量评价框架”“如何搭建课题研究
成果展示及资源共享平台”等问题展开讨论,课题实验学校汇报实验成果。
省普教室还邀请到国家课题项目组北京教科院基教研中心李英杰老师,李老师结合2008年教育部组织的学业水平测试情况做《小学语文学业质量评价研究》报告。
陈峰主任到会讲话。
陈主任要求要加强小学语文考试评价的研究,把握住大方向,即以语文课程标准为指导,体现学科特点,规范考试命题,如,命题人员要先参加培训,命制试卷前先制定双向细目表,考试后要做好试卷和考试质量分析;要建立考试评价研究团队,团队中的核心组成员由省级教研员和各设区市教研员组成,每半年集中研讨一次,交流、分享研究成果;要加大研究成果的推广力度,促进整体质量提升。
一、小学语文学业质量评价研究
李英杰老师是北京教科院基教研中心的教研员,教育部中小学学业质量评价课题核心组成员,李老师详细介绍了教育部中小学学业质量评价框架的建立、测试工具的研制和测试结果的分析与反馈等情况,还回答了大家提出的问题。
(以下是根据现场讲座笔记整理,未经本人同意。
) 1.评价框架。
评价框架要回答评价什么、怎么评价、评价到什么程度,相当于给孩子量身高的尺子。
首先要把握学业质量评价的性质。
测验有常模参照测验、标准参照测验等等,常模参照测验,根据个体在某个特定群体中的相对位置,来解释个人表现的测验方法,主要目的是对考生的能力作出区分,为选拔升学等提供依据,如高考。
标准参照测验,参照一个事先规定好的尺度或标准来解释个体行为表现的测验方法,主要目的是用于反馈,学业质量评价属于标准参照测验。
其次,学业质量评价要深入解读课程标准,分析影响语文能力发展的因素,形成能力框架,以考查学生正确理解和运用祖国语文为核心的语文素养水平。
什么是“素养”?
“素养”是指人通过长期的学习和实践,在不断的修习过程中培养起来的一种个性品质,包括内在的心理品质和外显的行为品质特征。
素养的高低,与人的经验的丰富程度和组织化(或称“结构化”)的程度密切相关。
一个人在某一方面的经验越丰富,且这些经验的内在联系性越好(即组织化或结构化程度高),这个人在这方面的素养也就越高。
什么是“语文素养”?
“语文素养”是一个人的言语活动经验,包括口头言语和书面言语活动的经验。
语文素养高的人总是在较为丰富的言语实践活动中不断积累,并不断地组织、优化自己的言语经验结构。
语文素养的形成过程,是人不断地修习语言的过程,是与人的言语实践过程相一致的,是人的言语经验的终身发展过程,最基本、最关键的是言语活动。
一个人的语文素养水平能用纸笔测试的并不多,我们在分析课程标准的总目标的基础上,建立了以识字与写字能力、语文积累(这两方面整合成“积累与运用”)、阅读能力和习作能力为主的测试基本框架,而口语交际能力非纸笔测验所及,只能在一定范围内进行操作测验。
(1)积累与运用评价框架。
“积累与运用”主要考查字词、古诗词和课外阅读等,比如,字音主要是能读准多音字、能分辨常见误读和能用汉语拼音纠正地方音等等。
(2)阅读评价框架。
课程标准中对阅读目标的描述是一个比较复杂的多角度的系统,有46条之多。
我们在反复研究筛选和吸取国外研究成果的基础上,确定了四种基本阅读能力,即提取信息能力、整体感知能力、形成解释能力和做出评价能力。
(3)习作评价框架。
着重考查学生恰当运用语言文字,文从字顺地表达真情实感的能力,同时考查学生书写的情况。
如下图:
根据测试框架编制双向细目表→筛选测试材料→初步编制试题→内部审题、调整、小范围试测→大样本试测、调整试题、组卷→专家评审、修改、定稿。
3.双向细目表。
课程标准→评价框架→双向细目表→测验试卷。
“双向细目表”,是使试题的取样对教学内容与教学目标有较好的代表性,既能覆盖学科教材的全部内容,又能反映各部分内容和各认知层次的相对比重,还能确定各部分内容和各认知层次测验题目的数量比率,使测试更加有效。
如,
小学语文双向细目表
题量分
值
考查能力
题
量
分
值
具体描述试题编号
试题类
型
题目
水平
预估
难度
答案
满
分
积20 40 读准字音 4 8 能读准多音字C3AO011 单选题 C 0.9 C 2
累与运用
能分辨出常见误读C3AO021 单选题 C 0.8 A 2
能利用汉语拼音纠正地方音C3AO031 单选题 C 0.85 D 2
能读准多音字C3AO041 单选题 B 0.75 D 2 认清字形 4 8
能分辨同音字的误用C3AO051 单选题 C 0.93 A 2
能分辨形近字的误用C3AO061 单选题 C 0.87 A 2
能分辨同音字的误用C3AO071 单选题 B 0.78 C 2
能分辨音同形近字的误用C3AO081 单选题 C 0.86 B 2 理解词义9 18
能理解常用词语的基本意思,并
分辨词义间较明显的差别
C3AO091 单选题 C 0.9 D 2 能理解常用词语的基本意思,并
分辨词义间的差别
C3AO101 单选题 C 0.8 C 2 能理解常用词语的基本意思,并
分辨词义间的细微差别
C3AO111 单选题 A 0.67 A 2 能理解常用词语的基本意思,并
分辨词义间的细微差别
C3AO121 单选题 A 0.69 B 2 能理解常用关联词语的基本意
思,并在语境中恰当运用
C3AO131 单选题 B 0.74 A 2 能理解常用词语的基本意思,并
在语境中恰当运用
C3AO141 单选题 B 0.77 C 2 能理解常用词语的基本意思,辨
析词语的差别,并在语境中恰当
运用
C3AO151 单选题 A 0.69 C 2 能理解常用成语的基本意思,并
在语境中恰当运用
C3AO161 单选题 C 0.84 D 2 能理解常用成语的基本意思,并
在语境中恰当运用
C3AO171 单选题 B 0.75 C 2 积累和运
用
常见古诗
3 6
能准确记忆课程标准推荐的古
诗文
C3AO181 单选题 C 0.88 B 2 能正确理解课程标准推荐的古*C3AO191 单选题 B 0.75 B 2
文诗文
能正确理解课程标准推荐的古
诗文
C3AO201 单选题 C 0.8 C 2 阅
读13 45
为了获得
文学体验
的阅读
6 24
能从一个文段中提取出直接陈
述的信息
C3AO211 单选题 B 0.77 A单一 3
能利用文本信息对相关问题做
出合理的解释
C3AO221 单选题 C 0.82
B单一
C多元
4
能利用文本信息对相关问题做
出合理的解释
C3AO231 单选题 A 0.65
B单一
A多元
4
能利用文本信息对相关问题做
出合理的解释
C3AO241 单选题 B 0.75
D单一
B多元
4
能从文章中提取隐含信息并做
出推论
C3AO251 单选题 A 0.6 B单一 3
能整体感知故事的主要内容C3AO261 单选题 C 0.82
A单一
C多元
4
为了获取
信息的阅
读
5 17
能从一个文段中提取出直接陈
述的信息
C3AO271 单选题 C 0.85 A单一 3
能整体感知段落的主要内容C3AO281 单选题 B 0.75
C单一
A多元
4
能从多个文段中提取隐含信息,
并进行简单比较
C3AO291 单选题 A 0.65 B单一 3
能整体感知文章的主要内容C3AO301 单选题 B 0.75
D单一
B多元
C关联
5
能在整体感知文章内容的基础
上联系实际进行解释
C3AO311 单选题 B 0.7
A多元
C关联
5 为了完成
任务的阅
读
1 4
能合理使用文本信息解决生活
中的问题
C3AO321 单选题 A 0.6 冰心 3
习
作1 15 习作 1 15
能够围绕给定的话题展开想象,
清楚地叙述一个完整的故事,语
言通顺连贯
C3AO331 开放题 A 0.75 25
4.阅读命题过程。
命题人员集中选文→模拟出测试题→学生阅读文章、做题、说出自己思考的过程(形成口语报告)→整理分析问题→筛选或修改文章→拟出不同认知水平的答案、修改预设答案(选择题)。
“口语报告”是预设答案非常重要的一环,有利于寻找孩子真实的、可能的认知水平,然后根据孩子的真实的、可能的认知水平来预设题目。
(1)测试材料的筛选原则。
为了保证测试材料的有效,必须遵循以下五条原则,①测试材料用于提供一个尽可能接近学生日常学习活动的具体的情境,以使学生的能力能在具体的、规定性的活动中得以尽可能的展现;②测试材料要符合学生的经验水平;③有利于设计测试活动;
④避免各种的不公平(如,偏向于某一性别、某一区域的社会群体等)
⑤为实现测试目标,材料必须进行必要的修改,等等。
(2)测试材料的类别。
①为获得文学体验而进行的阅读。
这类阅读测试主要以文学性文本(童话故事、寓言、小说、写人记事的散文等)作为测试材料,关注学生对作品内容的整体感受,对作品中形象、情感、语言的领会和理解,以及对作品的内容和形式的理解和评价。
②为获取信息而进行的阅读。
这类阅读测试主要以说明、解释性的文本(常见的说明事物事理的说明文和科学小品、简单的议论文、新闻报道等)作为测试材料,关注学生对主要事实、观点的把握,对概念、原理、事物特征等的理解和解释。
③为完成任务而进行的阅读。
这类阅读测试主要以实用性文本(产品说明书、广告等)为测试材料,关注学生从文本中获取相关信息,并利用获得的信息解决实际问题,完成特定任务的能力。
(3)试题编制的理论基础。
老师们对本次测验中阅读能力单选题的答案不唯一,不同选项的分值不同存在疑问,这是为什么?
这是以SOLO学习结果分类系统为理论基础。
“SOLO”(Structure of the Observed Learning Outcome)即可观测的学习结果的结构,是1982年香港大学教育心理学教授比格斯(Biggs,John B.)和克莱斯(Collis,Kevin F.)在研究皮亚杰认知发展阶段理论的过程中提出的。
他们认为总体认知结构发展的每一个阶段,都还会有几个不同的水平。
这些水平可以通过学生在回答某个具体问题时所表现出来的思维结构
的复杂性来体现,它是可以直接检测的。
这种根据学生在问题回答中思维结构的复杂性判断学生认知发展水平的评价方法,就称为SOLO学习结果分类评价法。
solo分类方法对学生能力水平的描述依次分为:前结构、单一结构、多元结构、关联结构、拓展结构。
前结构:学生缺乏与所面对问题有关的简单知识, 或为以前所学的无关知识所困扰,没有形成对问题的理解,找不出任何解决问题的办法,回答问题逻辑混乱,或同义反复。
单一结构:学生回答问题时,只能联系单一因素,只关注题干中的相关内容,找到一个线索就立即跳到结论上去。
多元结构:学生找到越来越多的、正确的相关特征,回答问题时,能联系与事件相关的多个因素,但不能将它们有机整合。
关联结构:学生能够整合各个因素,了解各因素之间的内在关系,使其成为一个有机整体。
能够回答或解决较为复杂的具体问题。
拓展结构:能够归纳问题并进行抽象概括,结论具有开放性且更抽象,能拓展问题本身的意义。
这代表着一种更高层次的学习能力, 这一层次的学生表现出更强的钻研和创造意识。
比如,《在903本书里睡过觉的蚂蚁》的测试题:这个故事讲了什么道理?(3分)
A 不应骄傲,要谦虚。
(前结构)(0分)
B 只有认真读书,才能有真学问。
(多元)(2分)
C 不要只追求表面的东西,要有真才实学。
(关联)(3分)
D 对一传十、十传百的事情,不要轻易相信。
(单一)(1分)
5.习作命题过程。
习作题目命制最基本要求是保证所有的学生都有东西可写。
习作命题更关键的是习作评分标准的制定,常见的有两种:即分项法和整体法。
整体法(Holistic Scale)让训练有素的评分人员对待评阅的作文通读一遍或几遍 ,然后依据一定的评分标准 ,根据这篇作文给评分人员留下的整体或笼统印象 ,给出一个分数或者等级,优点是速度快,缺点是误差大。
分项法(Analytic Scale)把一篇作文分解为若干要点,如内容、结构、文章连贯性、语法、词汇等,不同的要点也可作不同的加权处理,各要点得分的总和即为全篇得分,优点是反馈信息更丰富,缺点是耗时长。
例如,作文题目:今天森林里格外热闹,因为森林运动会就要召开了。
请你展开想象,写一写运动会中发生的故事。
评分标准:满分25分
二、互动答问
1.问:阅读目标中的“评价”目标在小学阶段要不要考?如果要,怎么考?
答:要考。
一般在小学第三学段。
我们在五、六年级就考查了“评价”目标。
一方面,是让孩子以开放题的形式表达自己的观点,如,六年级关注孩子对文章的内容、情感、观点等是否有自己的看法或评价,要求结合文本以及自己的经验来验证。
比如《自然之道》这篇文章,你对向导的所作所为有什么看法?如何看待向导这个人——对人物进行
评价,“好”,为什么“好”、“不好”为什么“不好”等等,要结合文本来说;另一方面,考查文章的语言表达、文章结构、文章风格等要特别小心,稍不注意就过。
比如,挑自己喜欢的句子,从内容和形式两方面进行评说,是第四学段的重点。
2.问:双向细目表中“题目水平”的ABC等级是怎样来的?
答:主要通过三个步骤得出来。
先是命题之初有一个初步的判断——某道题是“基础的”还是“高一点的”能力水平;然后通过小范围的试测进行统计分析,调整预估;第三是真正的测试,计算每道题的难度。
3.问:口语交际能力非常重要,但是又不能用纸笔测试,怎么办?
答:口语交际能力是语文素养的重要组成部分,一定要加强指导和训练。
我前面讲了,语文素养中能够用纸笔测试的并不多,我们一定要扭转“不考就不教、不考就不练”的局面。
另外,在小范围里面,口语交际能力还是可以用操作或者面试的形式考核的。
4.问:阅读能力全都用选择题来考查,行吗?
答:总体看,题型要丰富些、是变化的,更重要的是考查什么能力,能否有效地测量到要测量的心理特质,即提高效度;其次,我们关注的是孩子的核心能力,而不是关注某个知识点,研究发现,在某一能力的检测上,只要有三到六道题就能够考查出该能力了;第三,选择题,孩子选的速度快,不受书写的限制。
5.问:阅读中的表达能力以什么形式考查?
答:表达能力主要在习作中考。
同一道题考查单项能力还是多项能力,要看考试的目的而定。
如果主要是用于反馈,则单项更好,更便于诊断和改进。
如,某道题考查学生提取信息的能力就不涉及概括能力,这样,就清楚地判断提取信息的能力如何。
表达能力在习作中考查,给学生更充分的时间和空间。
6.问:习作命题,如何防止学生“套作”?
答:考试中的“套作”,彻底杜绝是不可能的。
一是从出题上,尽量给学生提供大的空间和自由度,让所有学生都想写、有东西写;二是正确认识“套作”,任何一个人的习作都是从模仿开始的,模仿多了、模仿丰富了,再加上自己的思考和老师的引导,就结构化、组织化了,也就是自己的了;三是关键在平时教学中的指导,而在考试中可“宽容”一些,比如,在不影响成绩的情况下,给“套作”一个标记,做好统计,在反馈中提出来,再加以指导。
标准测验主要是为了改进,而不仅仅是一个分数。
7.问:如何处理好课内与课外的关系?
答:“课内得法,课外受益。
”课文仅是一个“例子”,关键是凭借“例子”培养学生的语文素养。
当然在命题中要课内与课外兼顾,比如,第一部分“积累与运用”主要是课内的;第二、三部分主要是课外的材料,但所要考查的能力都是“课内”要培养的。
8.问:不同年级在能力点的考查上有什么区别?
答:教学也好、测试也好,都要体现目标的阶段性和连续性,尤其是年级特点。
比如,三年级刚刚开始学习习作,那么习作的比例就小一些,而阅读——三年级则进入“大量阅读”的时期,所以阅读的分量就重一些。
其次,同一能力点也因年级的不同而有所不同,总的是渐进的,比如,同是考查学生提取信息的能力,低、中年级主要是单一信息,到高年级主要是多个信息和隐含信息,等等。
三、布置工作
普教室小幼科陈建志科长介绍省《小学语文考试评价改革研究》课题背景、目标、基本思想和研究内容,给出我省小学语文考试各学段“积累与运用”“阅读”和“习作”权重框架,第一学段大致为4:4:2;第二学段大致为3:4:3;第三学段大致为2:4:4,强调要加强考试过程管理和结果运用研究,比如,形成性考试重在激励;诊断性考试重在改进;终结性考试重在衡量。
1.以设区市为龙头,建立以设区市教研员为核心的《小学语文考试评价改革研究》课题实验指导团队,每一次命题前都要集中培训,确保命题的质量。
2.下大力气研究和完善“小学语文学业水平测试评价”框架,比如,各块的权重比例、年级要求、课内与课外关系等等。
非纸笔测试的内容也要纳入研究和管理中,比如,口语交际能力、综合性学习能力等等。
3.分工研制小学各年级纸笔测试卷,建设省级题库。
各设区市要把年级分配到各县(市、区),分工负责,协同研究。
一要领会基本思想和考试目的;二要规范操作,在研读课程标准和制定评价框架的基础上编制双向细目表,然后命题组卷;三要做好参考答案和评分标准。
4.具体时间安排。
7月15日之前,各县(市、区)把试卷送到设区市,设区市汇总后送到省里;9月15日之前,各县(市、区)做好试卷质量和考试质量分析并送到设区市,设区市汇总后送到省里。
由省里组织召开全省质量分析会议。
5.省里每年召开一次命题培训会议,培训教研员和骨干教师,力争通过培训取得命题资格的人员才能上岗。
小学语文考试命题的实践和思考
福建省普通教育教学研究室黄国才
小学语文学科是教育部规定要考试的科目。
怎样让考试符合素质教育的精神、让考试反映新课程改革的成果、让考试真正发挥“检验和改进学生的语文学习和教师的教学,改善课程设计,完善教学过程,从而有效地促进学生的发展”的作用,是我们研究和实践的出发点、也是研究和实践的归宿。
怎么做呢?
不断地学习、思考、实践,不断地改进和完善。
本人在第二届省小学语文教研员研修班(东山)提交的论文《小学语文考试评价改革一二三四》中提出小学语文考试评价要做“加减法”,即“一减、二加、三关注、四相信”(“一减”,即减考试次数、减考试内容、减考试点评价的权重;“二加”,即增加口试、增加成长记录、增加评语;“三关注”,即关注个体差异、关注语文实践、关注情意习惯;“四相信”,即相信学校(校长)、相信老师、相信学生、相信家长),文章经修改后在《江西教育》2009年第3期发表,感兴趣的老师可以去阅读。
我想,在“加减法”做好之后,关键点就落在“命题”上。
怎样让命题更科学、更有效,真正考查出学生的语文素养。
这同样需要我们不断地学习、思考、实践,不断改进和完善的。
这一次,我命了一份试卷,从内心里感到要命好题真的不容易!可以毫不夸张地说,我做了十多年的教研员,命了十多年的试题,加起来
还不如这一次命题、这一份试卷所得的多。
为什么?因为这次是我们三个人反复琢磨、反复推敲的。
在命题前,陈老师、丁老师把命题意图给我说了,然后我再次学习课程标准阶段目标、学习教育部的学业水平测试卷、学习上海教育考试学院雷院长关于大规模考试命题技术的培训材料后开始命题。
命好后,丁老师、陈老师逐题斟酌,稍有瑕痴马上改、马上换,然后再斟酌。
所以我说,十多年命题加起来还不如这一次收获大。
这份卷接受了三双眼睛的审视,现在期待接受一百三十双眼睛的审视,希望在座的教研员以批判的精神再来审读它,集思广益,群策群力完善它。
说到命题,“四度一表”绕不过。
“四度一表”就是信度、效度、难度、区分度和双向细目表。
下面,我试图用最通俗的语言、结合这份卷子说一说这“四度一表”。
一、“四度”。
1.信度。
通俗地说,就是考试结果的可信程度。
比如,要量一个物体的长度,你是用标准的钢尺量还是用弹性很大的橡皮尺量?显然,用钢尺量可信程度更高,因为它测量的结果更接近物体的实际长度,每次量的结果出入不会太大,也就是误差小,而橡皮尺由于弹性大,你拉紧一点与放松一点,量的结果可能就不同,误差大。
我们的试卷就要像用“钢尺”量物体长度一样,能够更准确地测出你要检测的东西。
当然,考试不同于物理测量,我们不可能用同一份试卷反复考同一拨人,那样肯定越考越好。
我们要做得就是尽量减少误差。
这里还有一个评分者信度。
评分者信度指的是多个评分者给同一批人的答卷进行评分的一致性程度。
评卷中,客观题的评分很少出现误差,但主观题的评分常常存在误差,有时误差还很大,尤其是习作。
我看到一个例子,说有人在1983年高考作文试卷中取出一个考生的作文《一幅漫画的启示》,连同教育部规定的评分标准复印后寄给近百名中学教师评分。
收回的67位教师的评分统计表明,这篇作文所评分数从6分到25分之间,分数达17种之多,最高与最低分相差19分。
因此,评分者信度也是影响考试信度的一个重要因素,应该重视。
所以,有专家说,客观题出题难、评卷易;主观题出题易、评卷难。
一份试卷,客观题和主观题的比例应该适当,尤其是考查学生的阅读能力和习作能力,应以主观题为主,即“能级”越高,主观题越多。
信度的计算很复杂,我讲不了。
2.效度。
顾名思义,就是一次测试的有效程度。
说得明白一点,就是我想要测什么,结果就测出了什么。
比如,我想测记忆能力,就测出了记忆能力;想测概括能力,就测出了概括能力。
与考试命题关系密切的是内容效度,即看考试题目能不能体现教学目标与教材要求。
如果说一份试卷的题目涵盖了语文教学所要达到的各项教学目标及教材的重要内容,那么我们就说这份试卷、这次测验具有较高的内容效度。
如何分析内容效度呢?
常用逻辑分析法,即制定“题目双向细目表”,把所有题目按考试内容分布和考查目标分布进行双向分类。
一般地先制定题目双向细目表。