第四章教育测验的质量分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

形成题库，随机抽取
四是采用多种测试方法
多角度、多途径测量和评价学生
五是科学设置答题要点和评分细则六是严格挑选、培训评卷人员,多个评分者评分。
（二）测验的效度
1．含义：效度是指有效性程度。测验的效度，是指
测验实际测量出其所要测量的特质的程度。即测验在多大程度上测量到了所要测的东西。衡量测验有效性的主要依据：达到测验目的的程度。信度和效度的关系：
（二）测验项目的区分度

项目区分度是指测验题目对其学业水平不同的考生的区分程度或鉴别能力，即通过测试考出学生的不同水平，把优秀学生、一般学生和困难学生区别开来。区分度是试题区别被试水平能力的量度，区分度高的项目，能将不同水平的被试区分开来。如果一个项目，实际水平高的被试能顺利通过，而实际水平低的被试不能通过，该项目就具有较高的区分度。区分度是测验质量的一个重要指标，说明的是试题对于测验目的来说的有效性程度。项目区分度一般由被试在某项目的得分与实际能力水平（一般用测验总分表示）之间的相关系数来表示，相关程度越高，该项目区分度就越高。
杂程度等

第四，题目的变化动态。
题目的迷惑性、干扰性,题目设置的灵活程度,题目
隐含的已知条件等
测验难度水平的确定*
测验题目难度水平的适当与否，取决于测验的目的、
性质和题目的形成。
测验是为了了解被试在某方面知识技能的掌握情况，这时
难度高低不用过多考虑，只要认为是重要的内容就可以选用。但如果测验目的是为了选拔，测验的平均难度就应该和选拔率大致相同。
L另外，被试的主观态度、测验内容取样是否恰当、
施测情境是否良好、测验时间是否充裕等，也都会影响测验的信度。
4.提高测试结果信度的措施*
一是适当增加测试的机会
不要轻易的定型注意评价和测量的连续性
二是适当增加试题的数量，合理安排试卷结构
尽可能多的覆盖全部教学内容
三是提高试题的代表性
（4）测验内容的同质性
测验内容的同质性，是指测验测量的行为特征的
一致性。测验内容同质性越高，其内部相依性越大，显然会提高测验的信度。性质相同的测验内容，对应试者也要求相同能力、知识或技能。这种测验的信度高于内容庞杂和要求不同的能力、知识或技能的测验。在编制试卷时，应注意试题样本所测量的行为特征越集中越好。行为特征越集中，同质性越好，测验结果的可靠性越高。
计算方法

1.相关系数估计法
估计区分度时可选用点二列相关系数、二列相关系数、积差
相关系数等方法。

2.高低分组表示法* D 客观试题：
PH PL
D为区分度，PH和PL分别表示高分组和低分组试题的难度值。在100名考生中，高分组27人，其中20人答对某道试题，低
分组27人，其中5人答对某道试题，则该试题的区分度为： D＝PH-PL＝0.74—0.19＝0.55。
多高合适，取决于测验的目的、性质以及项目的形式。
难度的计算方法*
1.采用二分法记分的客观性试题：
R P N
P为项目难度，R为答对该项目人数，N为被试的人数
2.主观试题难度的计算：
X P W
用通过率代表难度时，P值越大，其难度越小；P 值越小，其难度越大。
W为该题满分分数， i为第道题平均分数 X

评分者信度：肯德尔和谐系数
3.影响测验信度因素*

（1）测验长度与结构
一般来说，测验越长，信度值就越高。一方面测验加长，可能改进项目取样的代表性，
从而能更好地反映受测者的真实水平；另一方面，测验的项目越多，在每个项目上的随机误差就可以互相抵消。

（2）题型设计和搭配是否恰当
（3）测验的难度
试题难度和测验的信度没有直接关系，但试题的
难度直接影响测验分数的分布。试题太难或太容易都会缩小分数分布区间，使测验的信度降低。如果其他条件相同，分数分布的范围越大，对学生的区分作用就越明显，则信度高。要使分数的分布范围增大，就必须考虑试题的难易程度。一般情况下，如果试题的平均难度控制在中等水平，则可获得理想的分数分布。

高低分组表示法：根据总成绩取被试的高分组（前 27%被试）和低分组（后27%），分别求两组的通过率，再求难度。 1 RH RL PH PL 客观性试题： P ( )
2 NH
NL
2
如在100名考生中，高分组27人，其中20人答对某道试题，
低分组27人，其中5人答对某道试题，则该试题的难度为： PH＝20÷27＝.74；PL＝5÷27＝0.19；P＝(0.74十 0.19)÷2＝0.47
当P值接近于0.5时，题目把被试做最大程度的区分。
测验的难度直接影响测验分数的分布形态，影响测验
的区分度。一般情况下，测验的平均难度应保持在0.5 左右，并且各项目间应有一个合理的难度梯度，如最难试题占5％，较难试题占15％，中等试题占60％，较易试题占15％，最易试题占5％各题目难度可在0.50+0.20之间，这样能有效地区分不同水平的被试。
质量分析的意义

中小学教师必备的技能之一。质量分析是保证测验科学性、建立测验试题库的前提和基础。
通过对项目的统计分析，可以为进一步修改和筛选项目
提供依据; 分析的目的在于发现和淘汰劣质和不合适的项目，尽量保证所选项目的科学性，可以很大程度地改进测验的可靠性与有效性; 测验编制是一项细致而繁杂的工作，因此若所编制侧验皆为一次性使用，可谓巨大的人力资源的浪费，而项目分析后可以达到各项指标要求的项目保留下来，日积月累后就可以建立起高质量的题库，以备后用。
第四章教育测验的质量分析
• 学习重点：
– 理解难度和区分度、信度和效度四个概念 – 掌握估计方法 – 能运用所学方法分析测验质量，并能修订和改进测验工具
一、测验质量分析概述

测验的质量分析包括定性和定量分析两个方面，其中定量分析是依据预测所得数据资料，运用科学统计技术，对测验的可靠性、有效性以及测验题目的难度、区分度等所作的客观分。

D DiWi / Wi
通常要求试题的区分度在0.30以上。如果试题区分度在0.20以下，则表示试题的区分性很差，属于不合格的试题，应当删除；区分度为0.20～0.29，表示试题基本合格，但需要修改；区分度为0.30—0.39，表示试题属于良好，若能修改则更好；区分度在0.40以上为优秀，表示试题能起到很好的区分作用。

主观性试题：
XH XL P X max

P值越大，其难度越小；P值越小，其难度越大
影响测验项目难度的因素*

第一，学生对试题的熟悉程度。
一是对题型的熟悉程度二是对题目内容的熟悉程度
第二，题目包含信息量的多少。第三，题目结构的复杂程度。

题目的类型、知识的综合程度和知识间联系的复
测验的信度不高，其效度也不会高；用提高信度的方法，去提高效度，也达不到目的；效度高的测验其信度一定高。
2.效度的估计方法
（1）内容效度及其估计方法
内容效度是指测验试题对欲测量内容或行为目标代表性程
度。即测验内容目标与欲测内容目标的一致性程度。如学业测验，选择所学内容的一部分编成试题加以测量，如果测验的试题能较好地代表要测量的内容，则测验的内容效度就高；反之则低。最常用方法是专家评价法：由有关学科专家和有经验教师在系统分析教学大纲、教科书和测验试题的基础上，对试题与原定内容范围的符合程度做出判断。确定内容效度时，主要是检验测验试题反映的内容、目标、试题比例等与原编题计划的内容范围、比例是否符合，并对其符合程度做出恰当的判断。
（5）被试者差异
被试的能力或特性的分布范围宽窄影响测试的信度。
被试的能力全距越宽，或者说被试的差距越大，则测验
结果的可靠性越高。
（6）评分的客观
信度系数是根据实得分数算出的，评分是否客观对信度
影响很大。客观性测验评分标准明确，评分客观，故有助于提高测验的信度；主观性测验，由于评者对评分标准的把握难以统一，导致评分误差较大，从而影响测验信度。
2．估计测验信度的主要方法
（1）重测信度。也叫稳定性系数，是估计
测验跨时间的一致性的指标。用同一种测验对同一组被试先后施测两次，被试两次测验分数间的相关系数即为重测信度。一般用积差相关系数来表示。易受两次测验间隔时间长短和间隔期间被试活动的影响。
复本信度

也叫等值稳定性系数，是估计测验间跨形式的一致性指标。用同一测验的两个版本（即A、B卷）在短时间内，对同一组被试施测两次，两次测验得分间的相关系数即为复本信度。一般用积差相关系数。所谓等值的测验或复本，是指两种形式相同的测验，其具体试题不同，但这些试题都是从同一领域中选出的，其题型、题数、难度、区分度、指导语、时限等方面应相似或相同，两次等值测验的成绩如果相关程度较高，则说明在测量被试某种行为特性时不同试题组间的一致性较高，也说明了试题取样具有充分的代表性。
1965年美国测验专家伊贝尔根据长期的经验，提出用鉴别指数评价项目性能的标准。区分数指数（D）评价 0.40以上非常良好 0.3—0.39 良好，修改后会更佳 0.2—0.29 尚可，但需修改 0.19以下必须淘汰

区分度与难度之间的关系：项目难度影响项目得分的标准差，并将直接影响项目区分度的大小。当题目难度水平接近或等于0.5时，题目的区分度最大。编拟测验时，要求各项难度适当分散，接近中等难度的项目多些。使所有项目的平均难度接近 0.5，并形成一个合理的难度梯度分布。这样不仅能保证多数项目具有较高的区分度，而且可以保证整个测验对被试具有较高的区分能力。
三、整体分析：利用测验结果对试卷进行的分析和评价
பைடு நூலகம்
（二）测验的信度
1.概念：信度是指可靠性或一致性程度。
测验的信度，是指测验结果的可靠性或一致性程
度。即一个测验对同一组被试在不同时间上所得测验结果的一致性。

信度通常是以估计的方法求得信度系数，以它的大小来表示测验信度的高低。常用相关系数来表示。
rhh 是两半试题得分的相关系数

采用斯布校正公式的条件是：分半后两组试题在平均得分、标准差、测题的组间相关、分数的分布形态及内容上大致相同，即两部分试题等值。但是在测验中往往不能完全满足这些条件，这时，可采用弗朗那根公式和卢伦公式（方差法） 2 S a S b2 rXX 2(1 ) 2 St
rXX
S 1 S
2 d 2 t
库理方法

库德—理查逊根据测题和测验成绩分析中可供利用的数据，提出了一系列估计测验同质性信度的公式，用这些方法，无需把测验题目分成两半，而是根据所有测题的内部一致性来估计测验的信度。库理法最常用的公式是K—R20。公式为
rk R20

p i q i K (1 2 ) K 1 St
二、测验项目的分析：对各个试题的分析
（一）测验项目的难度
界定：是指测验项目的难易程度。
表示：通常用答对该项目的人数比例来表示。
一道试题，如果大部分被试都能答对，则该题的难度较
小；如果大部分被试都不能答对，则该题的难度大。试题类型不同，表示方法不同
难度分析的主要目的是为了筛选项目，项目的难度
K为测验题目数； p i 、q i分别为每个题目的通过率和未 S t2 为测验得分的方差通过率；适用于客观性试题的测验，不适合主观性试题的测验
克伦巴赫α系数法
S i2 K a (1 2 ) K 1 St
α为测验的同质信度； S t2 为测验成绩的方差； S i2 为每一测题得分的方差；K为测验的题目总数适合于主观性测验
同质性信度

又叫内部一致性系数，是估计测验内部测题间的一致性程度的指标。估计同质性信度可采用分半法、库理法、克伦巴赫系数法等。分半信度：最常用的信度估计方法，斯皮尔曼-布朗校正公式。其程序是，先按正常的程序实施测验，并将全部试题分为相等的两半（一般采用奇偶题分半），再计算被试在两半试题上得分的相关系数（积差相关系数），最后用下面的斯布公式进行校正。 2rhh rXX 1 rhh

主观性试题：
XH XL D N ( H L)
XH表示高分组的总得分，XL表示低分组的总得分，N表示考
生总人数，H表示该题的最高得分，L表示该题的最低得分。

整个试卷的区分度：所有试题(包括客观试题和主观试题)区分度的平均值，计算方法为：将每道题目的区分度与满分值相乘的积相加，然后将其总和除以试卷的满分值，所得的商即为整个试卷的区分度。

第四章 教育测验的质量分析

第四章教育测验的质量分析