试卷编制的方法与技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

s=
∑ ( x − x)
i =1 i
n
2
n
3.差异系数 .
标准差较准确地反映了一组分数的离散程度, 标准差较准确地反映了一组分数的离散程度,它 与原数据的单位相同,是一种绝对差异量数. 与原数据的单位相同,是一种绝对差异量数. 如果各组数据单位不同, 如果各组数据单位不同,或虽然单位同但平均数 相差甚远时,不能直接用标准差比较, 相差甚远时,不能直接用标准差比较,这时应使 用差异系数. 用差异系数 差异系数是一组数据的标准差与平均数的百分比, 差异系数是一组数据的标准差与平均数的百分比, s 用CV表致性或可靠性 的一个指标, 的一个指标,即用一个或一组测验对同一 被试群体施测多次, 被试群体施测多次,所得结果的一致性的 程度, 程度,以及测验分数所反映被试真实水平 即真分数)的可靠性程度. (即真分数)的可靠性程度.
1994~1996年高考数学(理科) 年高考数学(理科) 年高考数学 试卷统计数据对比表
二、衡量试卷质量的主要指标
1. 难度
难度是指试卷( 难度是指试卷(题)的难易程度.一 的难易程度. 般用试卷( 般用试卷(题)的得分率或答对率(P)表 的得分率或答对率( ) 示,所以难度事实上是容易度.P值在 值在0~1 所以难度事实上是容易度. 值在 之间,数值越大,说明试卷( 之间,数值越大,说明试卷(题)越容 易.
诊断、形成、终结性测验 诊断、形成、 对照表
种类 目的 特点 时间 教学开始 教学进程中 教学结束
诊断性 预测摸底 比较正规 测验 形成性 矫正改进 测验 终结性 测验 鉴定 灵活 正规
按测验的对象分类
(1)个别测验 ) 每次仅以一个被试为对象. 每次仅以一个被试为对象. 优点是主试对被试者的言语、 优点是主试对被试者的言语、情绪有较多 的控制机会,能进行细致的观察. 的控制机会,能进行细致的观察. 缺点是费时多,手续复杂, 缺点是费时多,手续复杂,对主试专业素 质要求较高. 质要求较高.
1 r效 = ∑ Di k i =1
k
内容效度
测验的题目对所要测量的内容具有代表 性的程度称作内容效度 内容效度. 性的程度称作 内容效度 . 它反映测验题 目在所要测量的内容范围和教学目标内 取样是否充分和确切的问题, 主要用于 取样是否充分和确切的问题 , 学科成绩测验. 学科成绩测验. 内容效度一般不用数量化指标来表示, 内容效度一般不用数量化指标来表示 , 主要依靠在某种依据的基础上作出逻辑 分析. 分析.
2.测验 .
测验是指对通过一定的仪器和试 题所引起的受测者的行为样本进行测 量的系统程序. 量的系统程序.
3.测验的种类
按测验的功用分类 (1)学绩测验 )学绩测验. 测量个人(或团体) 测量个人(或团体)经过一定形式的 学习活动后对知识和技能的掌握程度. 学习活动后对知识和技能的掌握程度.
(2)能力测验 ) 指一般能力测验、 指一般能力测验、特殊能力测 验、潜在能力测验(又称能力倾向 潜在能力测验( 测验). 测验).
4.测量的要素 .
测量的三要素: 测量的三要素: ①参照点 参照点分绝对零点和相对零点. 参照点分绝对零点和相对零点. 教育测量所应用的参照点都是相对零点. 教育测量所应用的参照点都是相对零点. ②统一的单位 ③量具(测量工具) 量具(测量工具) 教育测量常用的工具是试卷. 教育测量常用的工具是试卷.
四、试卷的命制技术
1.命题 .
1.1 . 1.2 . 1.3 . 1.4 . 2.1 . 2.2 . 2.3 . 2.4 . 3.1 . 3.2 . 3.3 . 3.4 . 3.5 .
命题的意义 命题的依据 命题的原则 命题的操作 试题的功能 试题的题型 试题的质量 试题的编制 试卷的结构 试卷的设计 试卷的编制 试卷的审校 试卷的难度
试卷编制的方法 及其命题技术
南通市教育科学研究中心
袁亚良
主要内容
一、教育测量学的基本概念 二、衡量试卷质量的主要指标 三、试卷测试结果的分析指标 四、试卷的命制技术
南通数学网
一、教育测量学的基本概念
要搞好命题工作,我们的教师必须具有一定的教 要搞好命题工作, 育测量学的知识和专业知识。 育测量学的知识和专业知识。 1. 教育测量 教育测量 教育测量有广义和狭义之分. 教育测量有广义和狭义之分. 从广义上说, 从广义上说 , 教育测量泛指运用测量手段对 教育活动所进行的量的测定. 教育活动所进行的量的测定. 从狭义上讲, 从狭义上讲 , 教育测量专指按一定规则对学 生的知识、智能、个性发展、 生的知识 、 智能 、 个性发展 、 思想品德等所进行 的量的测定. 的量的测定. 通常所提及的多是狭义上的教育测量. 通常所提及的多是狭义上的教育测量.
(2)目标参照测验 ) 参照被测达到目标的程度来解释分数的 测验,叫做目标参照测验,也称作标准 测验,叫做目标参照测验,也称作标准 目标参照测验 参照测验. 参照测验.
常模参照测验和 目标参照测验对照表
种类 常模参 照测验 目标参 照测验 参照系 归属 作用 理想分布 群体水平 相对评价 比较 全距大, 全距大, 选拔 正态分布 教育目标 绝对评价 鉴定 负偏态
CV =
x
⋅100%
某市中考成绩英语的标准差S 例题 某市中考成绩英语的标准差 1=15, , 平均分85分 满分 平均分 分(满分120分),政治的标准差 分),政治的标准差 S2=10,平均分 分(满分 分),试比较 ,平均分50分 满分70分),试比较 两科的差异情况. 两科的差异情况.
解:英语学科的差异系数为 英语学科的差异系数为 CV=15÷85=17.6%, ÷ , 政治学科的差异系数为 CV=10÷50=20% . ÷ 因此,政治学科分数的离散程度大. 因此,政治学科分数的离散程度大.
(2)形成性测验 ) 是指在教学活动的进程中所实施的、 是指在教学活动的进程中所实施的、 以改进教学为目的的测验, 以改进教学为目的的测验,这种测验形 式灵活, 式灵活,师生可以通过形成性测验了解 前段教与学的状况, 前段教与学的状况,以便采取措施及时 矫正. 矫正.
(3)终结性测验 ) 是指在学期学年或某一门课程 终了时举行的测验, 终了时举行的测验,其目的在于鉴 定教师的教学和学生的学习、 定教师的教学和学生的学习、甚至 一门课程的编制. 一门课程的编制.
4.标准分数 .
标准分数是以平均分为参照点, 标准分数是以平均分为参照点,标准差为 度量单位的分数. 度量单位的分数.它具有重要理论价值和 应用价值. 应用价值. 不改变分布形态的标准分数, 不改变分布形态的标准分数,定义式为
xi − x z= s
某生高考物理成绩105分,所在省 例题 某生高考物理成绩 分 的物理平均分68.4分,标准差为 的物理平均分 分 标准差为28.9分, 分 求他的标准分数. 求他的标准分数. =(105-68.4)÷28.9 解:Z =( - ) ≈1.266.
三、试卷测试结果的分析指标
1.算术平均数 .算术平均数——平均分 平均分 一组数值的总和除以数据的 总频数所得的商称为算术平均数, 总频数所得的商称为算术平均数, 简称平均数. 简称平均数.
x1 + x2 + ⋯ + xn x= n
2.标准差 .
标准差是反映全体考生分数之间的离散程 度和差异情况.它与平均分一起使用, 度和差异情况.它与平均分一起使用,决 定了某次考试分数分布情况. 值越大, 定了某次考试分数分布情况.s 值越大,表 示部分考生离平均分的“差距越大” 示部分考生离平均分的“差距越大”,也 就是分数分布较广; 值越小, 就是分数分布较广; s 值越小,则分数分 布较窄或说“集中在平均分附近” 布较窄或说“集中在平均分附近”.
项目 平均分 标准差 难度 分半信度 α—信度 信度 1994年 年 83.12 25.50 0.550 0.8339 0.7580 1995年 年 88.36 24.00 0.590 0.8506 0.8867 1996年 年 82.79 25.30 0.550 0.8500 0.8884
4. 效度
效度是反映一份试卷有效性或准确性的指 效度 是反映一份试卷有效性或准确性的指 标. 每一种效度有其特定的适用范围,主要有: 每一种效度有其特定的适用范围,主要有: 效标效度,内容效度,结构效度. 效标效度,内容效度,结构效度.
由于客观上的种种原因, 由于客观上的种种原因,难以 确定有效的效标,因此, 确定有效的效标,因此,效度 的计算, 的计算,采用求平均区分度代 计算公式是 公式是: 替,其计算公式是:
(2)团体测验 ) 是指在同一时间内由一位主试对多数人实 施的测验. 施的测验. 优点是时间经济而且不一定找专业素质高 的人担任主试. 的人担任主试. 缺点是对被试的行为不能有效的控制和细 致观察. 致观察.
按解释分数和方法分类
(1)常模参照测验 ) 指参照被测群体的实际水平解释分数的测 验叫做常模参照测验. 验叫做常模参照测验.群体的平均分数一 常模参照测验 般可以反映群体的水平,称为常模. 般可以反映群体的水平,称为常模. 常模
2.试题 .
3.试卷 .
1.命题 .
1.1 命题的意义 . 命题的意义可以概括为:没有命题, 命题的意义可以概括为:没有命题,测试 就无法进行;没有科学、 就无法进行;没有科学、合理和高质量的 命题,测试的质量就难以保证, 命题,测试的质量就难以保证,测试就无 法达到预期的目的,教育教学就难以得到 法达到预期的目的, 健康的发展. 健康的发展.
(3)人格测验 ) 测量动机、兴趣,态度,气质, 测量动机、兴趣,态度,气质, 情感、信念、 情感、信念、价值观等除能力以外 的个性特征和倾向. 的个性特征和倾向.
按测验的目的分类
(1)诊断性测验(也称作配置性测验) )诊断性测验(也称作配置性测验) 是指在教学活动的一定阶段,如学年、 是指在教学活动的一定阶段,如学年、 学期或教学某一课程章节之初进行的测验, 学期或教学某一课程章节之初进行的测验, 其目的在于了解学生的知识基础和情感发 展状态,对即将学习的内容的准备状况, 展状态,对即将学习的内容的准备状况, 使教师、管理人员心中有数, 使教师、管理人员心中有数,以便合理编 组织教学、恰当处理教学内容. 班、组织教学、恰当处理教学内容.
有关考试难度水平估计一览表
最易 容易 适中题 较难 难度 章节 考试 高考 竞赛 0.95 0.85 20% 40% 30% 0.70 30% 30% 20% 0.50 10% 20% 20% 30% 30% 20% 难 0.30 很难 0.10
一般情况下,测验的平均难度接近 一般情况下,测验的平均难度接近0.50时, 时 分数趋于正态分布, 分数趋于正态分布,否则分数分布将出现 偏态.就整个测验而言,当平均难度为0.5 偏态.就整个测验而言,当平均难度为 且题目组间的相关为零的情况下, 且题目组间的相关为零的情况下,分数呈 正态分布,而难度值越小,则题目越难, 正态分布,而难度值越小,则题目越难, 低分段人数必然较多.难度值越大, 低分段人数必然较多.难度值越大,题目 越容易,分数将大部分集中在高分区. 越容易,分数将大部分集中在高分区.这 在分数的分布上, 样,在分数的分布上,就会呈现出两种不 同的偏向,前者为正偏态, 同的偏向,前者为正偏态,后者为负偏 态.
2. 区分度
是试题对不同考生的知识、 是试题对不同考生的知识、能力水平的鉴 别程度. 别程度.如果一个题目的测试结果使水平 高的考生答对(得高分), ),而水平低的考 高的考生答对(得高分),而水平低的考 生答错(得低分), ),它的区分能力就很 生答错(得低分),它的区分能力就很 强.题目的区分度反映了试题这种区分能 力的高低.一般认为, 力的高低.一般认为,区分度的数值达到 了0.3,便可以接受;达到了 以上为好的 ,便可以接受;达到了0.3以上为好的 题目; 以上为优秀题目; 题目;在0.4以上为优秀题目;低于 的题 以上为优秀题目 低于0.3的题 区分能力差. 目,区分能力差.
相关文档
最新文档