对外汉语教学测试
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对外汉语教学的测试
教育测量与评价
教育测量也称考试、测试。考试的目的是要作评价,作判断。 根据考试的用途、手段和评价标准,可以将考试作如下分类:
(一)根据测试用途分类 成就测试,能力测试,能力倾向测试 1. 成就测试 也称成绩测试,测试目的在于测量学生在某个学习阶段学到
了什么,包括: A)各学科的单科/综合测试。 B)教学阶段的安置、形成、诊断和总结性测试。 安置性测试的典型例子是摸底考试和分班考试。 形成性测试考察学生进步的情况,对阶段性教学内容掌握的
IQ的测试属于这类考试。
3.能力倾向测试
又称学习能力测验,它介于成就测验与能 力测验之间,既测知识也测能力,目的在 于测量学生的潜在学习能力及学术发展趋 向。潜在能力指个体从未来教育或训练中 最可能发展并受益的能力,一般分为两种:
A)一般学习能力测试。 B)特殊能力倾向测试。 高考属这类考试。
复本信度:两平行测 验对同组被试施测 所得结果的一致性 程度;
试题同质性信度
r信
k (1 k 1
i2 2
)
σ2i:每道试题方差; Σ2:全卷方差;
k :试卷中试题数目
教师自编测验 的信度指标范 围为0.7以上。
同质性信度:测验内 部所有题目间的一 致性程度。
效度
含义
种类
公式
指标范围
是测验的准确 性,是测验能 够测出它所欲 测的特质的程 度,即测验实 际测量出其所 要测量特性的 程度。
试题卷面的 难度值范围 是0.6~0.7
难度记为 P, 在教育测量 中,
P=R/N
R:答对该题的人数 N:参加测验总人数
• 1、难度的两种数学定义:
• (1)P=1—x/w x为某题得分的平均分数, w为该题的满分。这种定义法,难度值小时 表明试题容易,值大ห้องสมุดไป่ตู้表明试题难,最小 值为0,最大值为1。
根据评分者和评分方法分类
客观试题 由被试者从可供选择项中确定正确(最佳)或错
误答案的题目。这类题目包括是非题、多选题、 配对题等,这类题目答案唯一,评分不受主观因 素影响,在条件许可的情况下,还可以用机器阅 卷评分。有时我们也把介于主观性题目与客观性 题目之间的限制性题目如简答题、填充题也归类 于客观题,全部由客观性题目组成的测验称之为 客观性测验。
主观性试题 极端分组法
公式 D=PH-PL
计算步骤: 按测验总分从高到低排序; 测验总分最高的27%的被试 作为高分组,最低的27%的 被试为低分组; 分别求出这两组被试通过试题 的百分比; 将算得有关数据带入上公式。
公式 D X H X L
N (H L) XH:高分组总分;XL:低分组总分;H:该题最高分;L:该 题最低分;N:考生总人数的25%
D=PH-PL
PH指高分组通 过的百分比,高 分组为总分数 最高的27%
PL指低分组通 过的百分比,低 分组为总分数 最低的27%
通常用D表示, 取值范围为+ 1.00至-1.00。 D越高则质量越 好。 0.2以下应淘汰 0.2-0.3 合格 0.3-0.4 良好 0.4-1 性能佳
区分度计算
客观性试题 极端分组法
情况。 诊断性测试是针对个体或个别教学内容掌握情况的考试,意
在对个别学生或特定的教学内容掌握的情况作精确的了解。 总结性测试的典型例子是学期、学年考试、会考也属这一类
型。
2. 能力测试
测验目的在于测量个体的不因外界环境的 影响而轻易改变的、较稳定的、表现在认 知能力方面的心理特质,比如观察力、记 忆力、理解力、概括力、空间想象力、判 断推理能力等等。
• (2)P=x/w 这种定义法,难度值小时表 明试题难,值大时表明试题容易,最小值 为0,最大值为1。
区分度
含义
意义
公式
指标范围
指测验对学业 水平不同的考 生的区分程度 或鉴别力。
具有良好区分 度的项目,能 将不同水平的 考生区分开来, 即在该项目上 水平高的考生 得高分,水平 低的考生得低 分。
根据人数多寡分类
团体测试 个人测试
考察测试质量的几个测量学指标
难度、区分度、效度、信度 1.难度 难度:被试完成题目(item)任务时所遇
到的困难程度。 难度系数:定量地刻画被试作答题目时困
难程度的量值。P
难度
难度
指标适用范围
计算公式
难度是指测验 项目的难易程 度,试题的难 度可以用试题 的通过率来表 示。
主观试题
由考生以自己的答案来回答所提出的问题。 考生在处理问题方式、回答内容的选择、 回答内容的组织及答题重点等方面均有相 当的自由。这类试题包括论述题、证明题、 作文题等,因为这类题目的答案不唯一, 评分易受主观性因素的影响,故称之为主 观性题目。
评分受评阅人主观判断的影响。
根据评价标准分类
计算步骤: 按测验总分由高到低排序; 分别确定测验总分的前27%和后27% 作为高低分组; 列出试题分析表; 将数据带入公式计算。
信度
含义
种类
公式
指标范围
即测试的稳定 性和和可靠程 度,信度是反 映测量中随机 误差大小的指 标。包括重测 信度、复本信 度、同质性信 度。
重测信度:同一测验 对同组被试先后两 次施测所得结果的 一致性程度;
Case 2
家长看到孩子成绩单上的数学测验成绩为82分,语文 测验成绩为70分,父母们对此是如何评价的?
Case 3
某学校负责人在学期结束时的总结会上对某学科教师 说他的教学效果不好,其依据是该学期学生在此学科 上的考试平均成绩低于其他学科。
标准分的意义:
该生与全体考生比较所处的位置
根据测试材料和形式分类 语言与文字测试 非语言与文字测试
内容效度:是指测 验内容对于其所欲 测之行为领域的代 表性程度。 效标关联效度:是 指一个测验对处于 特定情境中的个体 的行为进行预测的 有效性。 结构效度:是指测 验对于被称作某一 理论概念或特质测 量的程度。
常模参照测试 标准参照测试
根据是否运用标准化方法分类
标准化测试 非标准化测试 标准化的含义
题目的标准化(客观试题) 指导语的标准化 施测过程的标准化 评分的标准化 解释的标准化
最重要的是分数解释的标准化
原始分==〉标准分 原始分数的误区 case 1
有老师对学生说,你上次数学测验的的成绩是78分, 这一次测验只得了71分,你为什么退步了?
教育测量与评价
教育测量也称考试、测试。考试的目的是要作评价,作判断。 根据考试的用途、手段和评价标准,可以将考试作如下分类:
(一)根据测试用途分类 成就测试,能力测试,能力倾向测试 1. 成就测试 也称成绩测试,测试目的在于测量学生在某个学习阶段学到
了什么,包括: A)各学科的单科/综合测试。 B)教学阶段的安置、形成、诊断和总结性测试。 安置性测试的典型例子是摸底考试和分班考试。 形成性测试考察学生进步的情况,对阶段性教学内容掌握的
IQ的测试属于这类考试。
3.能力倾向测试
又称学习能力测验,它介于成就测验与能 力测验之间,既测知识也测能力,目的在 于测量学生的潜在学习能力及学术发展趋 向。潜在能力指个体从未来教育或训练中 最可能发展并受益的能力,一般分为两种:
A)一般学习能力测试。 B)特殊能力倾向测试。 高考属这类考试。
复本信度:两平行测 验对同组被试施测 所得结果的一致性 程度;
试题同质性信度
r信
k (1 k 1
i2 2
)
σ2i:每道试题方差; Σ2:全卷方差;
k :试卷中试题数目
教师自编测验 的信度指标范 围为0.7以上。
同质性信度:测验内 部所有题目间的一 致性程度。
效度
含义
种类
公式
指标范围
是测验的准确 性,是测验能 够测出它所欲 测的特质的程 度,即测验实 际测量出其所 要测量特性的 程度。
试题卷面的 难度值范围 是0.6~0.7
难度记为 P, 在教育测量 中,
P=R/N
R:答对该题的人数 N:参加测验总人数
• 1、难度的两种数学定义:
• (1)P=1—x/w x为某题得分的平均分数, w为该题的满分。这种定义法,难度值小时 表明试题容易,值大ห้องสมุดไป่ตู้表明试题难,最小 值为0,最大值为1。
根据评分者和评分方法分类
客观试题 由被试者从可供选择项中确定正确(最佳)或错
误答案的题目。这类题目包括是非题、多选题、 配对题等,这类题目答案唯一,评分不受主观因 素影响,在条件许可的情况下,还可以用机器阅 卷评分。有时我们也把介于主观性题目与客观性 题目之间的限制性题目如简答题、填充题也归类 于客观题,全部由客观性题目组成的测验称之为 客观性测验。
主观性试题 极端分组法
公式 D=PH-PL
计算步骤: 按测验总分从高到低排序; 测验总分最高的27%的被试 作为高分组,最低的27%的 被试为低分组; 分别求出这两组被试通过试题 的百分比; 将算得有关数据带入上公式。
公式 D X H X L
N (H L) XH:高分组总分;XL:低分组总分;H:该题最高分;L:该 题最低分;N:考生总人数的25%
D=PH-PL
PH指高分组通 过的百分比,高 分组为总分数 最高的27%
PL指低分组通 过的百分比,低 分组为总分数 最低的27%
通常用D表示, 取值范围为+ 1.00至-1.00。 D越高则质量越 好。 0.2以下应淘汰 0.2-0.3 合格 0.3-0.4 良好 0.4-1 性能佳
区分度计算
客观性试题 极端分组法
情况。 诊断性测试是针对个体或个别教学内容掌握情况的考试,意
在对个别学生或特定的教学内容掌握的情况作精确的了解。 总结性测试的典型例子是学期、学年考试、会考也属这一类
型。
2. 能力测试
测验目的在于测量个体的不因外界环境的 影响而轻易改变的、较稳定的、表现在认 知能力方面的心理特质,比如观察力、记 忆力、理解力、概括力、空间想象力、判 断推理能力等等。
• (2)P=x/w 这种定义法,难度值小时表 明试题难,值大时表明试题容易,最小值 为0,最大值为1。
区分度
含义
意义
公式
指标范围
指测验对学业 水平不同的考 生的区分程度 或鉴别力。
具有良好区分 度的项目,能 将不同水平的 考生区分开来, 即在该项目上 水平高的考生 得高分,水平 低的考生得低 分。
根据人数多寡分类
团体测试 个人测试
考察测试质量的几个测量学指标
难度、区分度、效度、信度 1.难度 难度:被试完成题目(item)任务时所遇
到的困难程度。 难度系数:定量地刻画被试作答题目时困
难程度的量值。P
难度
难度
指标适用范围
计算公式
难度是指测验 项目的难易程 度,试题的难 度可以用试题 的通过率来表 示。
主观试题
由考生以自己的答案来回答所提出的问题。 考生在处理问题方式、回答内容的选择、 回答内容的组织及答题重点等方面均有相 当的自由。这类试题包括论述题、证明题、 作文题等,因为这类题目的答案不唯一, 评分易受主观性因素的影响,故称之为主 观性题目。
评分受评阅人主观判断的影响。
根据评价标准分类
计算步骤: 按测验总分由高到低排序; 分别确定测验总分的前27%和后27% 作为高低分组; 列出试题分析表; 将数据带入公式计算。
信度
含义
种类
公式
指标范围
即测试的稳定 性和和可靠程 度,信度是反 映测量中随机 误差大小的指 标。包括重测 信度、复本信 度、同质性信 度。
重测信度:同一测验 对同组被试先后两 次施测所得结果的 一致性程度;
Case 2
家长看到孩子成绩单上的数学测验成绩为82分,语文 测验成绩为70分,父母们对此是如何评价的?
Case 3
某学校负责人在学期结束时的总结会上对某学科教师 说他的教学效果不好,其依据是该学期学生在此学科 上的考试平均成绩低于其他学科。
标准分的意义:
该生与全体考生比较所处的位置
根据测试材料和形式分类 语言与文字测试 非语言与文字测试
内容效度:是指测 验内容对于其所欲 测之行为领域的代 表性程度。 效标关联效度:是 指一个测验对处于 特定情境中的个体 的行为进行预测的 有效性。 结构效度:是指测 验对于被称作某一 理论概念或特质测 量的程度。
常模参照测试 标准参照测试
根据是否运用标准化方法分类
标准化测试 非标准化测试 标准化的含义
题目的标准化(客观试题) 指导语的标准化 施测过程的标准化 评分的标准化 解释的标准化
最重要的是分数解释的标准化
原始分==〉标准分 原始分数的误区 case 1
有老师对学生说,你上次数学测验的的成绩是78分, 这一次测验只得了71分,你为什么退步了?