第四章 教育测验的质量分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
形成题库,随机抽取
四是采用多种测试方法
多角度、多途径测量和评价学生
五是科学设置答题要点和评分细则 六是严格挑选、培训评卷人员,多个评分者评分。
(二)测验的效度
1.含义:效度是指有效性程度。测验的效度,是指
测验实际测量出其所要测量的特质的程度。即测验在 多大程度上测量到了所要测的东西。 衡量测验有效性的主要依据:达到测验目的的程度。 信度和效度的关系:
(二)测验项目的区分度




项目区分度是指测验题目对其学业水平不同的考生的区分程度 或鉴别能力,即通过测试考出学生的不同水平,把优秀学生、 一般学生和困难学生区别开来。 区分度是试题区别被试水平能力的量度,区分度高的项目,能 将不同水平的被试区分开来。 如果一个项目,实际水平高的被试能顺利通过,而实际水平低 的被试不能通过,该项目就具有较高的区分度。 区分度是测验质量的一个重要指标,说明的是试题对于测验目 的来说的有效性程度。 项目区分度一般由被试在某项目的得分与实际能力水平(一般 用测验总分表示)之间的相关系数来表示,相关程度越高,该 项目区分度就越高。
杂程度等

第四,题目的变化动态。
题目的迷惑性、干扰性,题目设置的灵活程度,题目
隐含的已知条件等
测验难度水平的确定*
测验题目难度水平的适当与否,取决于测验的目的、
性质和题目的形成。
测验是为了了解被试在某方面知识技能的掌握情况,这时
难度高低不用过多考虑,只要认为是重要的内容就可以选 用。但如果测验目的是为了选拔,测验的平均难度就应该 和选拔率大致相同。
L另外,被试的主观态度、测验内容取样是否恰当、
施测情境是否良好、测验时间是否充裕等,也都会影 响测验的信度。
4.提高测试结果信度的措施*
一是适当增加测试的机会
不要轻易的定型 注意评价和测量的连续性
二是适当增加试题的数量,合理安排试卷结构
尽可能多的覆盖全部教学内容
三是提高试题的代表性
(4)测验内容的同质性
测验内容的同质性,是指测验测量的行为特征的
一致性。 测验内容同质性越高,其内部相依性越大,显然 会提高测验的信度。 性质相同的测验内容,对应试者也要求相同能力、 知识或技能。 这种测验的信度高于内容庞杂和要求不同的能力、 知识或技能的测验。 在编制试卷时,应注意试题样本所测量的行为特 征越集中越好。行为特征越集中,同质性越好, 测验结果的可靠性越高。
计算方法

1.相关系数估计法
估计区分度时可选用点二列相关系数、二列相关系数、积差
相关系数等方法。

2.高低分组表示法* D 客观试题:
PH PL
D为区分度,PH和PL分别表示高分组和低分组试题的难度值。 在100名考生中,高分组27人,其中20人答对某道试题,低
分组27人,其中5人答对某道试题,则该试题的区分度为: D=PH-PL=0.74—0.19=0.55。
多高合适,取决于测验的目的、性质以及项目的形 式。
难度的计算方法*
1.采用二分法记分的客观性试题:
R P N
P为项目难度,R为答对该项目人数,N为被试的人数
2.主观试题难度的计算:
X P W
用通过率代表难度时,P值越大,其难度越小;P 值越小,其难度越大。
W为该题满分分数, i为第道题平均分数 X

评分者信度:肯德尔和谐系数
3.影响测验信度因素*

(1)测验长度与结构
一般来说,测验越长,信度值就越高。 一方面测验加长,可能改进项目取样的代表性,
从而能更好地反映受测者的真实水平;另一方面, 测验的项目越多,在每个项目上的随机误差就可 以互相抵消。

(2)题型设计和搭配是否恰当
(3)测验的难度
试题难度和测验的信度没有直接关系,但试题的
难度直接影响测验分数的分布。 试题太难或太容易都会缩小分数分布区间,使测 验的信度降低。 如果其他条件相同,分数分布的范围越大,对学 生的区分作用就越明显,则信度高。要使分数的 分布范围增大,就必须考虑试题的难易程度。一 般情况下,如果试题的平均难度控制在中等水平, 则可获得理想的分数分布。


高低分组表示法:根据总成绩取被试的高分组(前 27%被试)和低分组(后27%),分别求两组的通过 率,再求难度。 1 RH RL PH PL 客观性试题: P ( )
2 NH
NL
2
如在100名考生中,高分组27人,其中20人答对某道试题,
低分组27人,其中5人答对某道试题,则该试题的难度为: PH=20÷27=.74;PL=5÷27=0.19;P=(0.74十 0.19)÷2=0.47
当P值接近于0.5时,题目把被试做最大程度的区分。
测验的难度直接影响测验分数的分布形态,影响测验
的区分度。一般情况下,测验的平均难度应保持在0.5 左右,并且各项目间应有一个合理的难度梯度,如最难 试题占5%,较难试题占15%,中等试题占60%,较易 试题占15%,最易试题占5% 各题目难度可在0.50+0.20之间,这样能有效地区分不 同水平的被试。
质量分析的意义

中小学教师必备的技能之一。 质量分析是保证测验科学性、建立测验试题库的前 提和基础。
通过对项目的统计分析,可以为进一步修改和筛选项目
提供依据; 分析的目的在于发现和淘汰劣质和不合适的项目,尽量 保证所选项目的科学性,可以很大程度地改进测验的可 靠性与有效性; 测验编制是一项细致而繁杂的工作,因此若所编制侧验 皆为一次性使用,可谓巨大的人力资源的浪费,而项目 分析后可以达到各项指标要求的项目保留下来,日积月 累后就可以建立起高质量的题库,以备后用。
第四章 教育测验的质量分析
• 学习重点:
– 理解难度和区分度、信度和效度四个概念 – 掌握估计方法 – 能运用所学方法分析测验质量,并能修订 和改进测验工具
一、测验质量分析概述

测验的质量分析包括定性和定量分析两个方 面,其中定量分析是依据预测所得数据资料, 运用科学统计技术,对测验的可靠性、有效 性以及测验题目的难度、区分度等所作的客 观分。


D DiWi / Wi
通常要求试题的区分度在0.30以上。如果试题区分度 在0.20以下,则表示试题的区分性很差,属于不合格 的试题,应当删除;区分度为0.20~0.29,表示试题 基本合格,但需要修改;区分度为0.30—0.39,表示 试题属于良好,若能修改则更好;区分度在0.40以上 为优秀,表示试题能起到很好的区分作用。

主观性试题:
XH XL P X max

P值越大,其难度越小;P值越小,其难度越大
影响测验项目难度的因素*

第一,学生对试题的熟悉程度。
一是对题型的熟悉程度 二是对题目内容的熟悉程度
第二,题目包含信息量的多少。 第三,题目结构的复杂程度。

题目的类型、知识的综合程度和知识间联系的复
测验的信度不高,其效度也不会高; 用提高信度的方法,去提高效度,也达不到目的; 效度高的测验其信度一定高。
2.效度的估计方法
(1)内容效度及其估计方法
内容效度是指测验试题对欲测量内容或行为目标代表性程
度。即测验内容目标与欲测内容目标的一致性程度。 如学业测验,选择所学内容的一部分编成试题加以测量,如 果测验的试题能较好地代表要测量的内容,则测验的内容效 度就高;反之则低。 最常用方法是专家评价法:由有关学科专家和有经验教师 在系统分析教学大纲、教科书和测验试题的基础上,对试 题与原定内容范围的符合程度做出判断。 确定内容效度时,主要是检验测验试题反映的内容、目标、 试题比例等与原编题计划的内容范围、比例是否符合,并 对其符合程度做出恰当的判断。
(5)被试者差异
被试的能力或特性的分布范围宽窄影响测试的信度。
被试的能力全距越宽,或者说被试的差距越大,则测验
结果的可靠性越高。
(6)评分的客观
信度系数是根据实得分数算出的,评分是否客观对信度
影响很大。 客观性测验评分标准明确,评分客观,故有助于提高测 验的信度; 主观性测验,由于评者对评分标准的把握难以统一,导 致评分误差较大,从而影响测验信度。
2.估计测验信度的主要方法
(1)重测信度。也叫稳定性系数,是估计
测验跨时间的一致性的指标。用同一种测验 对同一组被试先后施测两次,被试两次测验 分数间的相关系数即为重测信度。 一般用积 差相关系数来表示。 易受两次测验间隔时间长短和间隔期间被试 活动的影响。
复本信度


也叫等值稳定性系数,是估计测验间跨形式的一致 性指标。用同一测验的两个版本(即A、B卷)在短 时间内,对同一组被试施测两次,两次测验得分间 的相关系数即为复本信度。一般用积差相关系数。 所谓等值的测验或复本,是指两种形式相同的测验, 其具体试题不同,但这些试题都是从同一领域中选 出的,其题型、题数、难度、区分度、指导语、时 限等方面应相似或相同,两次等值测验的成绩如果 相关程度较高,则说明在测量被试某种行为特性时 不同试题组间的一致性较高,也说明了试题取样具 有充分的代表性。
1965年美国测验专家伊贝尔根据长期的经验, 提出用鉴别指数评价项目性能的标准 。 区分数指数(D) 评 价 0.40以上 非常良好 0.3—0.39 良好,修改后会更佳 0.2—0.29 尚可,但需修改 0.19以下 必须淘汰



区分度与难度之间的关系:项目难度影响项目得 分的标准差,并将直接影响项目区分度的大小。 当题目难度水平接近或等于0.5时,题目的区分 度最大。 编拟测验时,要求各项难度适当分散,接近中等 难度的项目多些。使所有项目的平均难度接近 0.5,并形成一个合理的难度梯度分布。这样不 仅能保证多数项目具有较高的区分度,而且可以 保证整个测验对被试具有较高的区分能力。
三、整体分析:利用测验结果对试卷进行 的分析和评价
பைடு நூலகம்
(二)测验的信度
1.概念:信度是指可靠性或一致性程度。
测验的信度,是指测验结果的可靠性或一致性程
度。即一个测验对同一组被试在不同时间上所得 测验结果的一致性。

信度通常是以估计的方法求得信度系数,以 它的大小来表示测验信度的高低。常用相关 系数来表示。
rhh 是两半试题得分的相关系数

采用斯布校正公式的条件是:分半后两组试题 在平均得分、标准差、测题的组间相关、分数 的分布形态及内容上大致相同,即两部分试题 等值。但是在测验中往往不能完全满足这些条 件,这时,可采用弗朗那根公式和卢伦公式 (方差法) 2 S a S b2 rXX 2(1 ) 2 St
rXX
S 1 S
2 d 2 t
库理方法

库德—理查逊根据测题和测验成绩分析中可供利用的 数据,提出了一系列估计测验同质性信度的公式,用 这些方法,无需把测验题目分成两半,而是根据所有 测题的内部一致性来估计测验的信度。库理法最常用 的公式是K—R20。公式为
rk R20

p i q i K (1 2 ) K 1 St
二、测验项目的分析:对各个试题的分析
(一)测验项目的难度
界定:是指测验项目的难易程度。
表示:通常用答对该项目的人数比例来表示 。
一道试题,如果大部分被试都能答对,则该题的难度较
小;如果大部分被试都不能答对,则该题的难度大。 试题类型不同,表示方法不同
难度分析的主要目的是为了筛选项目,项目的难度
K为测验题目数; p i 、q i分别为每个题目的通过率和未 S t2 为测验得分的方差 通过率; 适用于客观性试题的测验,不适合主观性试题的测验
克伦巴赫α系数法
S i2 K a (1 2 ) K 1 St
α为测验的同质信度; S t2 为测验成绩的方差; S i2 为每一测题得分的方差;K为测验的题目总数 适合于主观性测验
同质性信度


又叫内部一致性系数,是估计测验内部测题间的一致 性程度的指标。估计同质性信度可采用分半法、库理 法、克伦巴赫系数法等。 分半信度:最常用的信度估计方法,斯皮尔曼-布朗校 正公式。其程序是,先按正常的程序实施测验,并将 全部试题分为相等的两半(一般采用奇偶题分半), 再计算被试在两半试题上得分的相关系数(积差相关 系数),最后用下面的斯布公式进行校正。 2rhh rXX 1 rhh

主观性试题:
XH XL D N ( H L)
XH表示高分组的总得分,XL表示低分组的总得分,N表示考
生总人数,H表示该题的最高得分,L表示该题的最低得分。

整个试卷的区分度:所有试题(包括客观试题和主观 试题)区分度的平均值,计算方法为: 将每道题目的区分度与满分值相乘的积相加,然后将 其总和除以试卷的满分值,所得的商即为整个试卷的 区分度。
相关文档
最新文档