教育统计与测量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i i 2 i i
2
令x = X i X;y = Yi Y 可得 r =
∑ xy
n σ xσ y
=
∑ xy ∑x ∑y
2
2
相关系数的取值范围在-1~1之间,其绝对值越大, 之间,其绝对值越大, 相关系数的取值范围在 之间 表明两变量间的线性关联越强。 表明两变量间的线性关联越强
高数X 李安 李连杰 赵明 何其兵 郭宇 成小亮 露思 玛丽 汤姆 杰克
X i max:第i题的总分值; kP 1 选择题的难度系数校正 CP = , K为选项数 k 1
Xi Pi = X i max
X i:考生第i题的平均得分; :考生第i
高低分组法:两端组被试(各27%)得分率的均值 高低分组法
PH + PL P = 2
题目的区分度
区分度:题目区分被试能力、水平的能力,又称鉴 区分度 别力。 D 区分度的估计方法 相关法:计算题目得分与总分相关。其中 相关法 积差相关适用于多值计分题目; 积差相关 点二列相关适用于二值计分题目。 点二列相关 高低分组法:以高分组和低分组在特定题目上得 高低分组法 分率之差作为衡量区分度的指标。
问题叙述清楚、明确。 答案要简短具体,使被试可以用简洁的语言来回 答,避免繁琐的计算和长篇大论。 避免只出机械记忆性的题目,应注重知识的应用。
16 14 12 10 8 6 4 2 0 <60 60-69 70-79 80-89 >90 系列1
分数分布形态
注: (1)各分数段的区间大小应根据实际需要确定。 (2)一般要求学生的成绩分布为正态或负偏态。
二、教育测量的质量特性
教育测量的特点:间接性、相对性 测验的信度 测验的效度 题目的难度 题目的区分度
提高测验信、效度的方法
测验中题目的数量应适当,不能太少。 紧密围绕教学大纲和教学目标命题。 考核内容应全面,并能有效代表学生应掌握的知识 领域。 测验的整体难度适当,不同类型、不同难度的题目 应保持恰当比例。 少出偏题、怪题,一般应以考察基础知识和基本能 力为主。
题目的难度
难度: 难度 被试完成题目(item)任务时所遇到的困难程度。 难度系数: 难度系数 定量地刻画被试作答题目时困难程度的量值。P 难度系数的估计 全体考生得分率(或失分率) 全体考生得分率
选择题
编制原则
题干意义完整,问题表述明确 题干及选项的语言均应简明,避免滥用否定结构、 复杂句式 诱答项应具有似真性 同一测验中各题目应尽量保持独立,避免相互牵 连 正确答案不能有明显组型
特点
填空题
主要用于考察被试对基本知识的记忆和理解能力。 受被试猜测影响小,评分较客观。 无法测量高级的学习结果。 使用过多容易造成被试的死记硬背。
绪论
概念
教育统计学:是运用数理统计的原理和方法研 究教育问题的一门应用科学。 教育测量学:对学校教育影响下学生各方面的 发展,定量地予以确定和描述的学科。
学习教育统计与测量的意义
教育科学研究的基本方法 定量分析的重要工具 教育工作者的必备知识
一、教育统计初步知识
集中量数: 代表一组数据典型水平或集中趋势的量。 集中量数 差异量数: 代表一组数据离散程度、变异程度的量。 差异量数 相关系数: 用于描述两个或多个变量间关联程度的量。 相关系数 正态分布 学生成绩的初步分析
复本信度: 平行测验 平行测验对同组被试施测 施测所得结果 复本信度 两平行测验 施测
的一致性程度。
同质性信度:测验内部所有题目间的一致性程度。
复本信度的估计方法
高数X 高数 李安 李连杰 赵明 何其兵 郭宇 成小亮 露思 玛丽 汤姆 杰克 ∑ 71 68 78 62 64 66 71 73 77 70 700 高数Y 高数 77 88 82 76 78 75 84 80 83 87 810 x=X- X +1 -2 +8 -8 -6 -4 +1 +3 +7 0 0 y= Y- Y -4 +7 +1 -5 -3 -6 +3 -1 +2 +6 0 x2 1 4 64 64 36 16 1 9 49 0 244 y2 16 49 1 25 9 36 9 1 4 36 186 xy -4 -14 8 40 18 24 3 -3 14 0 86
教育统计与测量
职教学院 张阔
主要参考文献
黄光扬主编:《教育测量与评价》, 华东师范大学出版社,2002年。 张厚粲主编:《心理与教育统计学》, 北京师范大学出版社,2004年。 A. Anastasi : 《Psychological Testing》, Prentice Hall Inc. ,1997。
题目分析之三:作答反应分析
目的: 对教与学过程中可能存在的问题进行诊断。 内容:选择题中不同选项被选频数的分析;学生集中出现的错 误反应及其原因等。示例: 题号 1 2 组别 H L H L A 5 12 14 15 选答人数 B C D 31 4 3 10 13 7 8 16 5 15 7 6
未答
鉴别力指数 D = PH PL
多值计分题目(如简答、论述) 多值计分题目(如简答、论述)
题目分X 里沙 露思 玛丽 汤姆 杰克 总分Y
1 2 3 4 5 15
30 80 80 60 100 350
x=X- X y= Y- Y -2 -40 -1 0 1 2 10 10 -10 30
x2 4 1 0 1 4 10
题目的区分度
区分度的一般评价标准 0.2以下 应淘汰; 0.2—0.3 合格题目,可能需加以改进; 0.3—0.4 良好; 0.4—1 性能颇佳。 测验题目难度与区分度的关系 题目难度、区分度与测验信、效度之间关系复杂。 测验中题目的总体难度过高或过低,都会导致测验 的总体区分能力降低。所以一般说来,中等难度的 题目应占40—60%。
化学Y
x=X- X +1 -2 +8 -8 -6 -4 +1 +3 +7 0 0
y= Y- Y -4 +7 +1 -5 -3 -6 +3 -1 +2 +6 0
x2 1 4 64 64 36 16 1 9 49 0 244
y2 16 49 1 25 9 36 9 1 4 36 186
xy -4 -14 8 40 18 24 3 -3 14 0 86
90 + 80 + 78 + 77 + 70 + 69 + 49 Xp = = 73.29, 7 81 + 65 + 55 + 50 + 42 7 5 Xq = = 58.6,p = ,q = 5 12 12
rpb = X p Xq
σx
73 .29 58 .6 7 5 pq = × × = 0 .5 14 .47 12 12
最为常见一种概率分布形态,在理论和实践中均 有广泛的应用。 密度函数 ( x )
Y= n 2π σ e
2
2σ 2
简记 N ( , σ
2
)
特征:单峰、对称 决定分布的中心位置,σ决定峰高和宽窄。
学生成绩的初步分析
分段统计
分数段 <60 60-69 70-79 80-89 >90 人数 1 7 15 15 5
78 77 73
离差 X - M
+8 +7 +3 +1 +1 0 -2 -4 -6 -8
离差平方 (X–M)2
64 49 9 1 1 0 4 16 36 64
Md=70.5 M0=71 Mean=70 Range=16
71 71 70 68 66 64 62
∑X=700
∑(X-M)=0
X)
∑(X–M)2=244
y2 1600 100 100 100 900 2800
xy 80 -10 0 -10 60 120
∑
区分度估计值:题分与总分的积差相关系数。 区分度估计值:题分与总分的积差相关系数。 积差相关系数
∑ (X r=
i
X )(Yi Y )
y
n σ xσ
=
∑ xy ∑x ∑y
2
2
=
120 10 × 2800
X =T + E =V + I + E
2 2 2 2 2 σ X = σ T + σ E = σ V + σ I2 + σ E 2 2 rxy = σ V / σ X
从某种意义上说,效度比信度更重要。
测验的效度
效度的种类及其分析方法 内容效度:测验题目样本对于应测内容与行为领域的 内容效度 代表性程度。 逻辑分析 结构效度:测验反映某种理论构想的准确性程度。 结构效度 因素分析 效标关联效度:测验对于特定情境下个体行为进行预 效标关联效度 测的有效性程度。 相关分析 效标:判断测验效度(预测有效性)的外部标准。
= 0.72
二值计分题目(如选择、填空、判断) 二值计分题目(如选择、填空、判断)
学生 A
总分 题分
B 81 0
C 80 1
D E 78 1 77 1
F 70 1
G 69 1
H 65 0
I 55 0
J 50 0
K 49 1
L 42 0
90 1
区分度估计值:题分与总分的点二列相关系数 区分度估计值:题分与总分的点二列相关系数
集中量数和差异量数
算术平均数 X 或 M
1 X = n
n
全距 Range = max min 平均差 ∑ 方差
σ
2
∑X
i =1
i
Xi X n
中位数: 中位数 按大小顺序排列,
位于中间位置的数。
Md
∑ (X =
i
X)
2
n
众数: 众数 出现频数最多的数。
M0
标准差
σ =
(X i X )2 ∑
n
分数
名人谈教育统计与测量
从事教育的人若不懂教育统计学就不能称为教育科学家。 心理学家、教育学家 艾伟 在一些教育科学论文里大都是抽象文字描述和典型事例 说明,缺乏定量分析,很难说有多高的科学性。 姚依林 “统计是制定政策的主要依据” 怎样运用数据和我们的科学水平有关,停留在生动和突 出事例来说明问题这样的水平是危险的,容易犯宽大的毛 病,结果会导致脱离实际的偏向。 费孝通 “开展教育社会学研究”
测验的信度
信度(reliability):测验的稳定性、可靠性程度。 信度 信度的统计定义
X = T + E
2 X
σ
= σ
2 T 2 T
+ σ /σ
2 X
2 E
r xx = σ
信度的种类 重测信度:同一测验对同组被试先后两次施测 先后两次施测所得结果 重测信度 同一测验 先后两次施测
的一致性程度。
标准化测验编制的一般程序 教师自编测验
选择题
优点
可以测量学生多种层次的学习结果 评分标准统一、客观,有利于提高评阅的速度 允许较大的试题容量,可以保障题目的覆盖范围和代表性 可根据学生对似真选项的选择情况进行诊断
缺点
无法了解被试作答时的思维过程 难以考核被试的综合能力 具有似真性的干扰选项有时不好编制 存在猜中答案的几率
难度P 难度 0.48 0.16
区分度D 区分度 0.5 0.05
0 1 0 0
正常: 正常 H组选择正确答案最多,其他均匀分布. 异常:H、L组对不正确答案选择过多表明题目或教学存在疏 异常 失; H、L组对正确答案选择很接近说明题目缺乏鉴别力。
Leabharlann Baidu
三、测验编制的一般原理与方法
题目类型及其测量功能
选择题 填空题 判断题 简答题 论述题
71 68 78 62 64 66 71 73 77 70 400
77 88 82 76 78 75 84 80 83 87 210
∑
244 186 σx = = 4.94 σy = = 4.31 10 10
rxy
∑xy = =
nσxσy
86 = 0.40 10×4.94×4.31
正态分布和正态曲线
编制原则
题意要明确,限定要严密,以保证空白处应填答案的唯 一性。 题目中空白部分以一处为宜,过多则使题干支离破碎。 所有空白处的线段长度应一致,避免产生暗示作用。 若答案是数字,应指明单位或数字的精确程度。
简答题
特点
适合于考察被试对基本知识、概念和原理的掌握、 记忆情况。 编制简单、灵活。
编制原则
σ=
∑ X M 平均差=
n
=4
σ
2
∑ (X =
∑(X X )
i
2
2
i
n
= 24.4
n
= 4.9
相关系数
积差相关:两变量均为正态连续变量 积差相关 两变量均为正态连续变量,(一般n≥30)。
∑ (X r=
i
X )(Yi Y )
n σ xσ y
=
∑ (X X )(Y Y ) ∑ (X X ) ∑ (Y Y )
244 186 σx = = 4.94 σy = = 4.31 10 10
rxy
∑xy = =
nσxσy
86 = 0.40 10×4.94×4.31
测验的效度
效度(Validity):测验的有效性程度,即测验 效度 实际测量出其所要测量特性的程度。 效度始终是针对一定测量目的而言的 效度只有程度上的差异 效度要从多方面、多角度加以验证 效度的统计定义
2
令x = X i X;y = Yi Y 可得 r =
∑ xy
n σ xσ y
=
∑ xy ∑x ∑y
2
2
相关系数的取值范围在-1~1之间,其绝对值越大, 之间,其绝对值越大, 相关系数的取值范围在 之间 表明两变量间的线性关联越强。 表明两变量间的线性关联越强
高数X 李安 李连杰 赵明 何其兵 郭宇 成小亮 露思 玛丽 汤姆 杰克
X i max:第i题的总分值; kP 1 选择题的难度系数校正 CP = , K为选项数 k 1
Xi Pi = X i max
X i:考生第i题的平均得分; :考生第i
高低分组法:两端组被试(各27%)得分率的均值 高低分组法
PH + PL P = 2
题目的区分度
区分度:题目区分被试能力、水平的能力,又称鉴 区分度 别力。 D 区分度的估计方法 相关法:计算题目得分与总分相关。其中 相关法 积差相关适用于多值计分题目; 积差相关 点二列相关适用于二值计分题目。 点二列相关 高低分组法:以高分组和低分组在特定题目上得 高低分组法 分率之差作为衡量区分度的指标。
问题叙述清楚、明确。 答案要简短具体,使被试可以用简洁的语言来回 答,避免繁琐的计算和长篇大论。 避免只出机械记忆性的题目,应注重知识的应用。
16 14 12 10 8 6 4 2 0 <60 60-69 70-79 80-89 >90 系列1
分数分布形态
注: (1)各分数段的区间大小应根据实际需要确定。 (2)一般要求学生的成绩分布为正态或负偏态。
二、教育测量的质量特性
教育测量的特点:间接性、相对性 测验的信度 测验的效度 题目的难度 题目的区分度
提高测验信、效度的方法
测验中题目的数量应适当,不能太少。 紧密围绕教学大纲和教学目标命题。 考核内容应全面,并能有效代表学生应掌握的知识 领域。 测验的整体难度适当,不同类型、不同难度的题目 应保持恰当比例。 少出偏题、怪题,一般应以考察基础知识和基本能 力为主。
题目的难度
难度: 难度 被试完成题目(item)任务时所遇到的困难程度。 难度系数: 难度系数 定量地刻画被试作答题目时困难程度的量值。P 难度系数的估计 全体考生得分率(或失分率) 全体考生得分率
选择题
编制原则
题干意义完整,问题表述明确 题干及选项的语言均应简明,避免滥用否定结构、 复杂句式 诱答项应具有似真性 同一测验中各题目应尽量保持独立,避免相互牵 连 正确答案不能有明显组型
特点
填空题
主要用于考察被试对基本知识的记忆和理解能力。 受被试猜测影响小,评分较客观。 无法测量高级的学习结果。 使用过多容易造成被试的死记硬背。
绪论
概念
教育统计学:是运用数理统计的原理和方法研 究教育问题的一门应用科学。 教育测量学:对学校教育影响下学生各方面的 发展,定量地予以确定和描述的学科。
学习教育统计与测量的意义
教育科学研究的基本方法 定量分析的重要工具 教育工作者的必备知识
一、教育统计初步知识
集中量数: 代表一组数据典型水平或集中趋势的量。 集中量数 差异量数: 代表一组数据离散程度、变异程度的量。 差异量数 相关系数: 用于描述两个或多个变量间关联程度的量。 相关系数 正态分布 学生成绩的初步分析
复本信度: 平行测验 平行测验对同组被试施测 施测所得结果 复本信度 两平行测验 施测
的一致性程度。
同质性信度:测验内部所有题目间的一致性程度。
复本信度的估计方法
高数X 高数 李安 李连杰 赵明 何其兵 郭宇 成小亮 露思 玛丽 汤姆 杰克 ∑ 71 68 78 62 64 66 71 73 77 70 700 高数Y 高数 77 88 82 76 78 75 84 80 83 87 810 x=X- X +1 -2 +8 -8 -6 -4 +1 +3 +7 0 0 y= Y- Y -4 +7 +1 -5 -3 -6 +3 -1 +2 +6 0 x2 1 4 64 64 36 16 1 9 49 0 244 y2 16 49 1 25 9 36 9 1 4 36 186 xy -4 -14 8 40 18 24 3 -3 14 0 86
教育统计与测量
职教学院 张阔
主要参考文献
黄光扬主编:《教育测量与评价》, 华东师范大学出版社,2002年。 张厚粲主编:《心理与教育统计学》, 北京师范大学出版社,2004年。 A. Anastasi : 《Psychological Testing》, Prentice Hall Inc. ,1997。
题目分析之三:作答反应分析
目的: 对教与学过程中可能存在的问题进行诊断。 内容:选择题中不同选项被选频数的分析;学生集中出现的错 误反应及其原因等。示例: 题号 1 2 组别 H L H L A 5 12 14 15 选答人数 B C D 31 4 3 10 13 7 8 16 5 15 7 6
未答
鉴别力指数 D = PH PL
多值计分题目(如简答、论述) 多值计分题目(如简答、论述)
题目分X 里沙 露思 玛丽 汤姆 杰克 总分Y
1 2 3 4 5 15
30 80 80 60 100 350
x=X- X y= Y- Y -2 -40 -1 0 1 2 10 10 -10 30
x2 4 1 0 1 4 10
题目的区分度
区分度的一般评价标准 0.2以下 应淘汰; 0.2—0.3 合格题目,可能需加以改进; 0.3—0.4 良好; 0.4—1 性能颇佳。 测验题目难度与区分度的关系 题目难度、区分度与测验信、效度之间关系复杂。 测验中题目的总体难度过高或过低,都会导致测验 的总体区分能力降低。所以一般说来,中等难度的 题目应占40—60%。
化学Y
x=X- X +1 -2 +8 -8 -6 -4 +1 +3 +7 0 0
y= Y- Y -4 +7 +1 -5 -3 -6 +3 -1 +2 +6 0
x2 1 4 64 64 36 16 1 9 49 0 244
y2 16 49 1 25 9 36 9 1 4 36 186
xy -4 -14 8 40 18 24 3 -3 14 0 86
90 + 80 + 78 + 77 + 70 + 69 + 49 Xp = = 73.29, 7 81 + 65 + 55 + 50 + 42 7 5 Xq = = 58.6,p = ,q = 5 12 12
rpb = X p Xq
σx
73 .29 58 .6 7 5 pq = × × = 0 .5 14 .47 12 12
最为常见一种概率分布形态,在理论和实践中均 有广泛的应用。 密度函数 ( x )
Y= n 2π σ e
2
2σ 2
简记 N ( , σ
2
)
特征:单峰、对称 决定分布的中心位置,σ决定峰高和宽窄。
学生成绩的初步分析
分段统计
分数段 <60 60-69 70-79 80-89 >90 人数 1 7 15 15 5
78 77 73
离差 X - M
+8 +7 +3 +1 +1 0 -2 -4 -6 -8
离差平方 (X–M)2
64 49 9 1 1 0 4 16 36 64
Md=70.5 M0=71 Mean=70 Range=16
71 71 70 68 66 64 62
∑X=700
∑(X-M)=0
X)
∑(X–M)2=244
y2 1600 100 100 100 900 2800
xy 80 -10 0 -10 60 120
∑
区分度估计值:题分与总分的积差相关系数。 区分度估计值:题分与总分的积差相关系数。 积差相关系数
∑ (X r=
i
X )(Yi Y )
y
n σ xσ
=
∑ xy ∑x ∑y
2
2
=
120 10 × 2800
X =T + E =V + I + E
2 2 2 2 2 σ X = σ T + σ E = σ V + σ I2 + σ E 2 2 rxy = σ V / σ X
从某种意义上说,效度比信度更重要。
测验的效度
效度的种类及其分析方法 内容效度:测验题目样本对于应测内容与行为领域的 内容效度 代表性程度。 逻辑分析 结构效度:测验反映某种理论构想的准确性程度。 结构效度 因素分析 效标关联效度:测验对于特定情境下个体行为进行预 效标关联效度 测的有效性程度。 相关分析 效标:判断测验效度(预测有效性)的外部标准。
= 0.72
二值计分题目(如选择、填空、判断) 二值计分题目(如选择、填空、判断)
学生 A
总分 题分
B 81 0
C 80 1
D E 78 1 77 1
F 70 1
G 69 1
H 65 0
I 55 0
J 50 0
K 49 1
L 42 0
90 1
区分度估计值:题分与总分的点二列相关系数 区分度估计值:题分与总分的点二列相关系数
集中量数和差异量数
算术平均数 X 或 M
1 X = n
n
全距 Range = max min 平均差 ∑ 方差
σ
2
∑X
i =1
i
Xi X n
中位数: 中位数 按大小顺序排列,
位于中间位置的数。
Md
∑ (X =
i
X)
2
n
众数: 众数 出现频数最多的数。
M0
标准差
σ =
(X i X )2 ∑
n
分数
名人谈教育统计与测量
从事教育的人若不懂教育统计学就不能称为教育科学家。 心理学家、教育学家 艾伟 在一些教育科学论文里大都是抽象文字描述和典型事例 说明,缺乏定量分析,很难说有多高的科学性。 姚依林 “统计是制定政策的主要依据” 怎样运用数据和我们的科学水平有关,停留在生动和突 出事例来说明问题这样的水平是危险的,容易犯宽大的毛 病,结果会导致脱离实际的偏向。 费孝通 “开展教育社会学研究”
测验的信度
信度(reliability):测验的稳定性、可靠性程度。 信度 信度的统计定义
X = T + E
2 X
σ
= σ
2 T 2 T
+ σ /σ
2 X
2 E
r xx = σ
信度的种类 重测信度:同一测验对同组被试先后两次施测 先后两次施测所得结果 重测信度 同一测验 先后两次施测
的一致性程度。
标准化测验编制的一般程序 教师自编测验
选择题
优点
可以测量学生多种层次的学习结果 评分标准统一、客观,有利于提高评阅的速度 允许较大的试题容量,可以保障题目的覆盖范围和代表性 可根据学生对似真选项的选择情况进行诊断
缺点
无法了解被试作答时的思维过程 难以考核被试的综合能力 具有似真性的干扰选项有时不好编制 存在猜中答案的几率
难度P 难度 0.48 0.16
区分度D 区分度 0.5 0.05
0 1 0 0
正常: 正常 H组选择正确答案最多,其他均匀分布. 异常:H、L组对不正确答案选择过多表明题目或教学存在疏 异常 失; H、L组对正确答案选择很接近说明题目缺乏鉴别力。
Leabharlann Baidu
三、测验编制的一般原理与方法
题目类型及其测量功能
选择题 填空题 判断题 简答题 论述题
71 68 78 62 64 66 71 73 77 70 400
77 88 82 76 78 75 84 80 83 87 210
∑
244 186 σx = = 4.94 σy = = 4.31 10 10
rxy
∑xy = =
nσxσy
86 = 0.40 10×4.94×4.31
正态分布和正态曲线
编制原则
题意要明确,限定要严密,以保证空白处应填答案的唯 一性。 题目中空白部分以一处为宜,过多则使题干支离破碎。 所有空白处的线段长度应一致,避免产生暗示作用。 若答案是数字,应指明单位或数字的精确程度。
简答题
特点
适合于考察被试对基本知识、概念和原理的掌握、 记忆情况。 编制简单、灵活。
编制原则
σ=
∑ X M 平均差=
n
=4
σ
2
∑ (X =
∑(X X )
i
2
2
i
n
= 24.4
n
= 4.9
相关系数
积差相关:两变量均为正态连续变量 积差相关 两变量均为正态连续变量,(一般n≥30)。
∑ (X r=
i
X )(Yi Y )
n σ xσ y
=
∑ (X X )(Y Y ) ∑ (X X ) ∑ (Y Y )
244 186 σx = = 4.94 σy = = 4.31 10 10
rxy
∑xy = =
nσxσy
86 = 0.40 10×4.94×4.31
测验的效度
效度(Validity):测验的有效性程度,即测验 效度 实际测量出其所要测量特性的程度。 效度始终是针对一定测量目的而言的 效度只有程度上的差异 效度要从多方面、多角度加以验证 效度的统计定义