心理测量第6章项目分析

合集下载

第六章测验的项目分析

难度区分度猜测问题多选题的项目分析
• 信度和效度分析是对测验质量的整体评价。 • 项目分析是对测验中每一个测题的质量进行的分析。 • 项目分析的目的是通过分析改进项目统计量进而提高测验的信度和效度。 • 项目分析包括分析质的分析和量的分析。
第一节项目的难度
一、难度的意义
• 难度一般是指测验项目的难度，当然也可指一个测验的难度。后者是其所包含的所有测题难度的综合指标。我们这里所讲的是项目的难度。 • 从心理学角度看，难度是被试在作答项目时心智操作感到的难易程度。
• 提出者 – 美国测验学家：伊贝尔（L. Ebel）
测题鉴别指数与评价标准
区分度（D） 0.40以上 0.30－0.39 评价
非常良好良好，如能改进则更佳
0.20－0.29
0.19以下
尚可，仍需再改进
劣，必须淘汰或加以修改
极端组的划分
• 高低组的比率介于25%---33% • 标准化测验采用27% • 样本人数过少时，可以用50%作为分界点。 • 此方法只利用了一部分信息，精确性差一些。
（二）非0、1记分项目
X P X max
某题的平均得分
该题的满分值
例4-4：某试卷中一论述题为20分，10 名参加测验者得分为 10、18、14、8、 18、3、14、10、 9、8。试问该题的难度是多少？
112 X 11 .2 10 11 .2 P 0.56 20
• 2、极端分组法
三、区分度与难度的关系
• 难度是区分度的必要条件
– 难度愈接近.50，试题区别作用愈大。 – 较难项目，对高水平被试区分能力高 – 较易项目，对低水平被试区分能力高
– 中等项目，对中等水平被试区分能力高

(整理)心理与教育测量重点全部

第一章心理与教育测量概论1、测量就是依据一定的法则使用量具对事物的特征进行定量描述的过程。

所谓一定的法则，是指任何测量都要建立在科学规则和科学原理基础之上，并通过科学的方法和程序完成测量过程。

所谓事物的特征，是指所要测量的事物的特定属性。

所谓量具，是指测量中所使用的工具。

所谓定量描述，是指任何测量的结果总是对事物特征的量的确定。

2、任何测量都必须具备两个基本要素，即测量的参照点和测量的单位。

参照点有两种，一种是绝对参照点，即以绝对的零点作为测量的起点。

另一种是相对参照点，即以人为确定的零点为测量的起点。

理想的测量单位应当具备两个条件：一是要有确定的意义，二是要有相等的价值。

3、测量量表分为4种：1）命名量表，是最低水平的量表，它只是用数字代表事物或对事物进行分类；2）顺序量表，如第1名，第2名；3）等距量表，不仅能代表事物的类别，等级，而且具有相等的单位，等距量表没有绝对的零点；4）比率量表，是最高水平的测量量表，有绝对的零点。

心理与教育测量的量表属于顺序量表。

心理与教育测量属于顺序量表。

★4、心理测验实质上是对行为样本的客观的和标准化的测量。

编制一个测验应当具备下列4个基本条件：1）行为样本。

从人的大量行为中抽取与欲测量的心理特质直接有关的一组行为进行测量，并依据对这一组行为的测量结果推断其心理特质和教育成就。

这一组被抽取出来的，作为直接的测量对象的行为就是行为样本。

2）标准化标准化就是指测验的编制、实施、记分以及测量分数解释的程序的一致性。

测验的标准化要具备下列条件：a、测验内容的标准化；b、施测条件的标准化；c、评分规则的标准化；d、测验常模的标准化。

3）难度或应答率4）信度和效度5、心理与教育测验的种类：按测量对象：智力测验、能力倾向测验、成就测验、人格测验。

按测量方式：个别测验，团体测验。

按测验内容的形式：文字测验，非文字测验按测验功能：成就测验与预测测验，难度测验与速度测验，描述测验与诊断测验。

心理测量学第六章-测验题目性能与题目编写(项目分析).PPT

根据题干从备选项中选出正确选项的题目。单项选择题指只有唯一正确选项的选择题。 2、特点功能： ①评分标准明确，评分客观，有利于减少评分带来的评分误差。 ②有利于对基础知识和基本技能进行考查。
③选择题适合考查较低层次的能力，如识记能力、较低的理解能力等，而不宜考查较高层次的能力，如综合能力、创造性和独立思维能力。
一、区分度的定义
（一）定义 ❖ 测验项目对所测量的心理特性水平差异的区分能力或鉴别。（二）作用 ❖ 测验是否有效度的“指示器”。 ❖ 若区分度高，则水平高者得分高，水平低者得分低；若区分
⑤行为情景判断题设问方式一般有四种形式：一是要求受测者选择最优行为项，二是要求受测者选择最差行为项，三是要求受测者同时选择最优和最差行为项，四是要求受测者针对每一行为项的有效性做出评价。应根据实际选择具体方式。
第二节测验题目的难度与难度控制
一、难度的定义二、难度的计算三、测验难度水平的确定四、难度的等距变换五、测验的难度对测验分数分布的影响
的差异等于第2题和第3题间的差异。（二）解决方式：等距变换，即把难度P转换成标准分数Z。 ❖ Z分数(0，+1σ)约占全体人数的34%,(1σ,2σ)间占全体人数的
13.5%。 ❖ 项目A通过率为84%(难度为0.84)，难度值为-1σ。 ❖ 项目B通过率为16%(难度为0.16)，难度值为+1σ。 ❖ 项目C通过率为50%(难度为0.50)，其难度为0。
②论述题和计算题不仅能够考查考生较低层次的能力目标，而且能够比较好地考查较高层次的能力目标。
③论述题和计算题能够反映考生的思维过程，因而能比较有效地考查考生接受信息、鉴别和选择信息的能力，分析、推理、综合应用知识的能力，能鉴别出考生对问题解决的程度。

第六章心理健康与社会适应能力的测量与评价

第二节心理健康测量工具的编制
? 虽然从事心理健康测量工作并不一定要编制心理健康测量工具，因为测量用的工具可向专门机构订购或直接从市场上购买，但如果想使心理健康测量工作开展的有声有色，就少不了测量工具的制作。
? 心理健康测量中典型的测量工具是测验或量表。
一、编制心理健康测验的操作流程
一般地，编制心理健康测验的流程主要由以下6个环节构成。 1.确定测验的目的； 2.确定测验的性质； 3.确定测验的内容； 4．建立测验的指标体系； 5.编写和筛选题目； 6.对测验的标准化处理； 7.对测验的技术分析和鉴定； 8．编写测验指导书。
1.从统计的角度来确立标准； 2.从症状角度来确立标准； 3.从内心体验的角度来确立标准； 4.从解决问题能力的角度来确立标准。
由此看来，单从某一种角度来确立心理健康的评判标准，是很难满足心理健康测量的需要的。比较明智的做法是，多变换些角度，用多种标准来考察，效果将会好得多。
二、不同年龄阶段心理健康的测量
?
心理症状发生率与外在压力成正比，而与个体的自我强度成反比。
综上所述，社会适应与心理健康具有密切关系。
二、社会适应能力测量
社会适应能力测量的目的旨在了解被试者在自然条件下所表现出来的对社会成熟度、与学习能力有关的行为等。测量的方法主要有：临床谈话法、实验法、社会测量法和问卷调查法。前两种主要用于低龄儿童和有生理缺陷人群的研究，用得比较普遍的是社会测量法和问卷调查法。
? 适应行为量表；
? 卡特尔十六种人格因素量表；
三、社会适应能力的评价
（一）心理健康的模式（二）社会智力的模式（三）社会胜任力的模式（四）自我监督的模式（五）压力应对的模式
四、社会适应不良及自我调节

项目分析

项目的区分度
- 定义
定义：指测验项目对被试心理品质水平差异的区别程度。定义：指测验项目对被试心理品质水平差异的区别程度。区分度高的项目，能将不同水平的被试区分开来；区分度高的项目，能将不同水平的被试区分开来；区分度低的项目，则不能很好地鉴别被试水平。低的项目，则不能很好地鉴别被试水平。区分度一般用D表示，取值范围介于± 之间，值越大，区分度一般用D表示，取值范围介于±1之间，值越大，区分效果越好。分效果越好。为正值，称为积极区分。 D为正值，称为积极区分。为负值，称为消极区分。 D为负值，称为消极区分。称为无区分。 D为0，称为无区分。评价测验项目的区分度高低依赖于对被试水平的准确测量，评价测验项目的区分度高低依赖于对被试水平的准确测量，一般称为效标分数。一般称为效标分数。
项目的难度- 计算
1、二分法记分的项目 1）通过率 P=R/N 2）两端分组法
当被试人数较多时，则可以根据测验总成绩将被试分为三组：当被试人数较多时，则可以根据测验总成绩将被试分为三组：分数最高的27%的被视为高分组N 分数最低的27%的被试为低分组N 27%的被视为高分组 27%的被试为低分组分数最高的27%的被视为高分组NH，分数最低的27%的被试为低分组NL，中间46% 的被试为中间组。分别计算高分组（和低分组（中间46% 的被试为中间组。分别计算高分组（ PH）和低分组（ PL）的通过率，再求试题的难度：的通过率，再求试题的难度：
项目的区分度
区分度与信度的关系
一般来讲，测验的信度随区分度的提高而增长。一般来讲，测验的信度随区分度的提高而增长。信度的增长速度较区分度快，因此要提高信度，提高区分度是方法之一。信度的增长速度较区分度快，因此要提高信度，提高区分度是方法之一。美国测量学家R.L.艾伯（1962）的发表的研究结果如下：美国测量学家R.L.艾伯（1962）的发表的研究结果如下： R.L.艾伯 P rxx -----------------------------------------0.1225 0.000 0.1600 0.420 0.2000 0.630 0.3000 0.840 0.4000 0.915 0.5000 0.949 -----------------------------------------------

戴海崎《心理与教育测量》(第3版)课后习题(第4章测量信度——第6章测验的项目分析)【圣才出品】

第4章测量信度1．各种信度系数所对应的误差来源是什么？答：信度主要包括重测信度、复本信度、分半信度、同质性信度、评分者信度，各种信度系数所对应的误差来源分别简述如下：（1）重测信度系数对应的误差来源重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。

除去主试，施测环境和被试等方面的误差，它的独特误差来源主要有：①施测过程中所产生的遗忘和练习效应；②在两次施测的间隔时间内，被试在所要测查的心理特质方面获得了学习机会。

（2）复本信度系数对应的误差来源复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。

它的误差来源有：①不能获得严格意义上的平衡测验；②施测过程中产生的顺序效应和迁移效应；③在两次施测的间隔时间内，被试在所测量的心理特质上获得了学习机会。

（3）分半信度系数对应的误差来源分半信度是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。

它的误差来源是：不同的分半方法的分半信度不同，可能是由于将测验分为相平行的两半的方法不同而产生误差。

（4）同质性信度系数对应的误差来源同质性信度也称内部一致性系数，它是指测验内部所有题目之间的一致性程度。

克龙巴赫α值还是所有可能的分半信度的平均值，它只是测量信度的下界的一个估计值。

即，α值大，必有测量信度高；但α值小时，却不能断定测量信度不高。

它的误差来源产生于题目是否同质，这包括两个方面：①所有题目都测的是同一种心理特质；②所有题目得分之间都具有较高的正相关。

（5）评分者信度系数对应的误差来源评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。

在心理与教育测量工作中，客观题的评分很少出现误差，但主观题的评分常常会造成误差。

它的误差来源主要是多个评分者之间的个体差异，对相同答案的不同评定，这种个体差异不可能完全消除，只能最大程度低依赖正规的测查程序和统计方法来减小它。

心理与教育测量第六章

组被试在要计算难度的项目上的平均分。F为满分值。
特其分数式中别。：代表PPH 和高低PHP分L2组分PL答别对代人表=数高(R，分H/组NNH与H和+低NRLL分分/N组别L)的代/2通表过高率低。分组RH总和人RL
编辑ppt
6
举例：请分别用通过率法和高低分组法计算下列两题难度
编辑ppt
7
计算公式
其中p、q为答对和答错的人数比率。和答错该项目的被试的总分平均数，准差。
与对应于答对为所有X 被p 试X总q 分的标
x
编辑ppt
17
举例：请计算该题区分度
编辑ppt
18
（二）二列相关
适用范围
题分和总为均为连续变量，但人为地将其中一个变量（既可以是总分，也可以是题分）区分为二分变量（例如，将总分为及格和不及格两类）。
心理与教育测量
编辑ppt
1
第六章测验的项目分析
测验项目的难度测验项目的区分度分析猜测问题与猜测率多重选择题的项目分析
编辑ppt
2
第一节测验项目的难度
难度的意义项目难度的计算测验难度水平的确定难度的等距变换难度对测验的影响
编辑ppt
3
一、难度的意义
难度分类
项目难度和测验难度。本章主要讲项目难度。
2、对于正确答案
主要考察高分组和低分组被试在正确答案上的选答率是否是正差，及这一差距是否足够大。只有当高分组和低分组被试在正确答案上的选答率是正差，且这一差距足够大时，这时题目质量较佳。
编辑ppt
43
3、对距是否足够大。只有当高分组和低分组被试在正确答案上的选答率是负差，且这一距差足够大时，这时干扰项的设置比较合理，否则干扰项设置不合理，应对干扰项进行删除或修改。

心理与教育测量知识点汇总

心理与教育测量知识点汇总e心理与教育测量知识点汇总第一章心理与教育测量概论一、名词解释1. 测量：依据一定的法则使用量具对事物的特征举行定量描述的过程。

2. 测量的参照点：测量工作中必须有一具量的起点，那个起点就叫做测量的参照点。

3. 量表：可以使事物的特征数量化的数字的延续体算是量表。

4. 心理与教育测量：依据一定的心理学和教育学的理论，使用测验对人的心理特质和教育成就举行定量描述的过程。

5. 测验的标准化：是编制测验的一具重要步骤，是指测验的编制、实施、记分以及测量分数解释的程度的一致性。

二、简答与论述1. 简述理性测量单位应具备的条件？P4一是要有确定的意义，即对同一单位，所有的人的明白基本上相同的，别允许作出别同的解释；二是要有相等的价值，即第一具单位与第二个单位之间的距离等于第二个单位与第三个单位之间的距离。

然而在某些事情下，要具备这两个条件是相当困难的。

2. 简述四种测量量表及其特点？P5-6①命名量表，是最低水平的测量量表，它不过用数字代表事物或用数字对事物举行分类。

数字不过事物的符号，没有任何数量的意义，别能举行代数运算。

可举行的统计办法有百分比、次数、众数和X2检验。

②顺序量表，是次低水平的测量量表，别仅可以指代事物的类不，而且可以表明别同类不的大小、等级或事物具有某种特征的程度。

在顺序量表中，数字只表示等级、大小和程度的顺序，它既没有相等的单位，也没有绝对的零点，所以别能举行代数运算。

可举行的统计办法有中位数、百分位数、等级相关系数和肯德尔和谐系数等。

③等距量表，是较高水平的测量量表，别仅可以指代事物的类不、等级，而且具有相等的单位，能够举行加减运算。

但它没有绝对零点，别能举行乘除运算。

可举行的统计办法有平均数、标准差、积差相关系数以及t检验和f检验。

④比率量表，也叫等比量表，是最高水平的测量量表，除了具有类不、等级、等距的特征外，还具有绝对的零点，可举行加减乘除运算。

可举行的统计办法除了与等距量表相同外，还与几何平均数、变异系数相同。

戴海崎《心理与教育测量》笔记和课后习题详解(测验的项目分析)

第6章测验的项目分析6.1 复习笔记一、测验的难度（一）难度的定义难度是指测验项目的难易程度。

（二）难度的计算测验的计分方法不同，项目难度的计算方法也有所不同。

1．二分法记分项目的难度（1）通过率如果不考虑被试作答是猜测成功的机遇，二分法记分测验项目的难度通常以通过率来表示，即以答对或通过该项目的人数的百分比来表示：。

式中，P代表项目难度，N为全体被试数，R为答对通过该项目的人数。

以通过率表示项目的难度时，通过人数越多，P值越大，其难度越小；通过人数越少，P值越小，难度越大，题目越难。

（2）极端分组法当被试人数较多时，则可以先将被试依照测验总分从高到低排列，分成三组，总分最高的27%被试称为高分组（），总分最低的27%被试为低分组（），分别计算高分组和低分组的通过率，然后求项目的难度。

式中分别表示高分组和低分组的通过率；表示高分组和低分组通过该项目的人数；分别代表高分组和低分组的人数。

2．非二分法记分项目的难度对于论述题，每个项目不只有答对和答错两种可能结果，而是从满分至零分之间有多种可能结果。

对这类项目，常常用下面的公式来计算其难度。

式中x为被试在某一项目上的平均得分，为该项目的满分。

（三）测验难度水平的确定进行难度分析的主要目的是为了筛选项目，项目的难度水平取决于测验的目的、项目形式以及测验的性质。

（1）如果测验的目的是为了了解被试在某方面知识技能的掌握情况，可以不必过多地考虑难度，只要教育者认为重要的内容就可以选用，甚至那些100%通过或通过率为0的项目都可以采用。

（2）如果测验的目的是用于选拔录用人员，就应该将项目的难度控制在接近录取率左右，即较多地采用那些难度值接近录取率的项目。

（四）难度的等距变换通过率P无法指出难度之间差异的大小，对于作进一步的难度分析带来了困难，必须设法将它转换成等距量表。

（1）当样本容量很大时，测验分数将接近正态分布。

此时，可以根据正态分布曲线表，将试题的难度P作为正态曲线下的面积，转换成具有相等单位的等距量数，即Z分数。

戴海琦《心理与教育测量》课后习题与答案

心理与教育测量课后习题及答案戴海琦版第一章心理与教育测量概论练习与思考练习与思考：1.与物理测量相比拟，说明心理测量的特点。

2.为什么人们不能象对物理测量那样容易承受心理测量？〔此题为思考题〕3.如何才能证明心理测量的必要性和可能性？解答要点：１.〔1〕从依据的法那么来说，心理与教育测量依据的法那么在很大程度上只是一种理论。

〔2〕从测量的容来说，心理与教育测量的容是复杂的，隐的，其测量只能是间接的。

〔3〕相对与物理测量的定量分析的准确度而言，心理与教育测量定量分析的准确度很低。

３.〔1〕从心理与教育测量的理论根底来看，心理测量是可能的。

〔2〕人的心理现象和知识水平如同其他一切物理现象一样是有差异的，这种差异既有质的方面，也有量的方面，因此有必要测定出这些差异的数量。

第二章心理与教育测量的产生与开展>>练习与思考练习与思考1.简述古代中国对心理与教育测量的奉献及其特点。

2.心理与教育测量从卡特尔到比的开展过程中可以看出什么特点？〔此题为思考题〕3.推孟和韦克斯勒在智力测验开展过程中各有什么奉献？解答要点：１.在古代中国，在测验实践和测验理论方面都对心理与教育测量作出了奉献并具有自己的特点。

一、在测验实践方面的奉献。

1、在能力测量方面。

早在2500年前，思想家和教育家孔子凭自己的经历观察，首先评定学生能力的个别差异，并将人的智力分成中上之人、中人和中下之人三个等级。

董仲舒已论及到注意测验。

邵把人的才能划分为12种类型。

6世纪中叶，中国江南出现了类似现在的婴儿开展测验的"周岁试儿"习俗。

出现于清代的益智图、九连环可以认为是最早的创造力测验。

2、在人格测量方面。

孔子把人分为狂者、狷者和中行3种。

邵根据阴阳、五行和形体的关系及其人的行为表现，把人的性格划分成12种类型。

3、在教育测量方面。

世界上最早的教育测量出现于中国西周奴隶时期。

据记载，在西周的"国学"中已经建立具有相当系统性的教育测量制度。

心理测量第六章测量效度

构想效度的概念是1954年提出的，是处理效度的一种新方法。
在心理学上，所谓构想是指用来解释人类行为的理论框架或心理特质，它是心理学中抽象的假设性的概念、特性或变量。如智力、焦虑、内向、动机、创造性等都可称为构想。
构想效度主要涉及的是心理学的理论概念问题，是指测验对某一理论上的构想或特质测量的程度，即测验的结果是否能证实或解释某一理论的假设、术语或构想，解释的程度如何。
3．考察测验的同质性可以为评估构想效度提供证据。
这种方法以测验的内在一致性系数（比如库德—理查逊的K-R20、K-R21公式以及 α系数等）为指标，判断测验测的是单一性质还是多种性质，看它与所预期的结构的相符度，也就是测验的同质性问题，从测验的一致性就可以为构想效度提供证据。
（二）测验间方法
四、效度与信度的关系
（一）高信度是高效度的必要而非充分的条件
（二）测验的效度受它的信度制约
信度系数的平方根是效度系数的最高限度
第二节内容效度
一、内容效度的性质二、确定内容效度的方法三、内容效度的特点四、内容效度的应用与评价
一、内容效度的性质
内容效度指的是测验题目对欲测的有关内容或行为范围取样的适当性，从而确定测验是否是所欲测量的行为领域的代表性取样。即测验用的测题对整个测验内容范围的代表性程度。由于这种测验的效度主要与测验内容有关，所以称内容效度。
（一）测验内方法
这类方法主要是通过研究测验内部构造（如测验的内容、对题目作反应的过程、以及题目间或分测验间的关系）来分析测验的构想效度。
主要包括：
1．测验的内容效度可以作为构想效度的证据。
对测验所取样的内容或行为范围确定后，就可利用这些资料来定义测验所要测的构想效度的性质。即确定了测验的内容效度便提供了有关构想效度的证据。

戴海琦《心理与教育测量》习题答案

第一章心理与教育测量概论1、与物理测量相比较,阐明心理测量得特点。

３、如何才能证明心理测量得必要性与可能性？ﻫ解答要点:1。

(1)心理与教育测量依据得法则在很大程度上只就是一种理论、ﻫ(2)心理与教育测量得内容就是复杂得,内隐得,其测量只能就是间接得、ﻫ(3)心理与教育测量定量分析得精确度很低。

3.(1) 从心理与教育测量得理论基础来瞧,心理测量就是可能得、ﻫ(2)人得心理现象与知识水平如同其她一切物理现象一样就是有差异得,这种差异既有质得方面,也有量得方面,因此有必要测定出这些差异得数量。

1。

简述”心理特质”得含义、第三章经典测量理论得基本假设ﻫ2。

心理测量得误差来源主要包括哪些？ﻫ３。

ＣTT模型及其假设得重要内容就是1。

心理特质指表现在一个人身上所特有得相对稳定得行为方式,什么？ﻫ答案要点:ﻫ就就是人得心理特质。

(1)特质就是一组具有内部相关得行为得概括,具有一定得抽象性。

ﻫ (2)特质就是可以综合不同刺激,使人对这些刺激做出相同得反应"、(3)特质就是一个人身上比较稳定得特点。

(4)特质分多个层次有机组合而成得。

(5)可以对人得行为进行某种预测。

2.心理测量得误差主要来自3个方面:测量工具、被测对象与施测过程。

3、CTＴ模型就是:经典测验理论假定,观察分数(记为X)与真分数(T)之间就是一种线性关系,并只相差一个随机误差(记为Ｅ)。

即:X=Ｔ+E其主要内容为:(１)若一个人得某种心理特质可以用平行得测验反复测量足够多次,则其观察分数得平均值会接近于真分数、ﻫ(２)真分数与误差分数之间得相关为零、ﻫ(3)各平行测验上得误差分数之间相关为零。

ﻫ第四章测量信度1、指出各种信度系数所对应得误差来源。

3。

已知某态度量表用道题,被试在各题上得分得方差分别就是0、80,0、８1,0.79,0。

78,0。

8０,0、82,测验总分得方差为16.０0,求α值、ﻫ4。

怎样提高测量信度？解答要点:ﻫ１。

心理学考研专业课心理测量知识点项目分析

心理学考研专业课心理测量知识点：项目分析1、项目分析是指：一组分析被试对测验项目的反应的统计方法，而广义的项目分析则还包括内容效度分析和项目编写的分析。

2、最简便的难度指标通过率：所谓通过率就是在回答某个项目的样本中，正确回答该项目的人数的百分比。

3、项目难度与测验难度的确定：（1）对题目难度来说，如果项目过难或过易，就会造成被试基本上都答错或基本上都答对了，也就是P值接近0或1，这样也就不能区分被试能力的差异。

大体而言，项目难度为.50时最理想，此时项目具有最大鉴别力。

（2）在实际操作时，一般只需使项目的平均难度接近.50而各个项目的难度在.50±.20之间变化。

如果测验是用于选拔或诊断，则最好多选一些难度与录取线接近的项目。

在项目选择上还有一个要注意的问题是：当项目形式是选择题时，要考虑到让P值大于概率水平，否则项目是无效的。

4、鉴别力分析的设想基础：如果单个项目与测验测的是同11、一特性，那么我们可以预期在测验上得高分的人正确回答这一问题的概率大，而在测验上得低分的人正确回答这一问题的概率低。

鉴别力分析就是在这一设想的基础上进行的。

项目的鉴别力就是其对于所测量的心理特性的区分能力5、鉴别力分析的一般方法：鉴别力指数、项目-总分相关、项目间相关。

6、鉴别力指数是：运用极端组计算项目鉴别力的一种简单方法。

公式为：D=PH－PL是高分组在项目上的通过率，而是低分组在项目上的通过率。

当D＜.19是，项目差，必须淘汰；但D在.20~.29之间时，项目尚可，但必须修改；当D 在.30~.39之间时，项目良好，但还是最好稍做修改；而当D.＞40时，项目完全可以被接受，但一般测验，D＞.30项目就可以接受了。

7、项目总分相关是：被试在项目上的得分与其总测验分的简单相关。

8、难度水平与鉴别力：难度水平直接限制了一个项目的鉴别力。

如果当P值接近.50，项目最可能具有高的鉴别力。

但是，P值接近.50并不能保证项目有高的鉴别力，只能说在统计上已经没有限制了。

第六章项目分析

2.大部分被试的得分是比较高还是比较低？
3.分数正偏态分布是说明测验较难还是相对比较容易？
分数分布形态：负偏态
『想一想』负偏与难度关系？
1.大家想一想，测验分数分布是负偏态分布，说明了什么情况？
2.大部分被试的得分是比较高还是比较低？
3.分数负偏态分布是说明测验较难还是相对比较容易？
2.负偏态分布：即大多数被试的得分集中在高分端，说明题目偏易，应该增加一些较高难度的项目。
分数分布形态：正态
六、难度水平的确定
项目的难度水平多高合适，取决于测验的目的以及测验的性质。
1.当测验为教育测验和总结性测验时，可以不过多考虑难度，只要教育者认为重要的内容就可选用。
2.当测验目的是选拔录用人员时，难度视录取率而定。
现已知有80人参加某一个测验，其中答对第一题的人数是32人，答对第二题的人数是48人。
请问： 1、这两道题的难度差距是多少？
第二节测验的区分度 Test discrimination
一、区分度的意义：项目的效度
（一）区分度（discrimination）：又称鉴别力，是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。
题组成的，其中第一题上端27%的被试 P=0.75，下端27%的被试P=0.35，它的鉴别力多大，该题可以接受吗该怎样作答？
3.项目特征曲线：
1.00
A
通 0.50 过率
0.00
低
B
C D
中
高
能力
项目特征曲线分析：
题号
1 2 3 4
质量评价
？？？？
态度
？？？？
项目特征曲线分析：
一、难度的意义

心理与教育测量学重点总结

3.提高测量信度的方法有哪些？（学会计算提高测验长度提高测验信度）答：①适当增加测验的长度；②控制题目的难度分布，使其处于中等水平；③努
力提高每道题目的区分度；④选取适当的被试团体，努力提高测试在各个同质亚团体上的信度；⑤规范施测程序，统一施测环境，严格控制误差。
第五章测量效度
掌握概念： 1.效度：指一个测验所能测量到其想要测量的心理特质的程度。 2.表面效度：指测验的表面看起来与其所测验内容之间的一致性程度。 3.内容效度：指测验所能测量到的心理特质的内容与其想要测量的心理特质的内
5.影响效度的因素有哪些？答：①测验本身：a.测题中所用的词汇或句型不能太难；
b.测题的指导语应该清楚； c.测题中不能提供额外线索； d.测题的难易顺序编制要合理； e.选择题的正确答案不能有明显的组型； f.测题的难度要适当； g.测题数目要适当； ②测验的实施：a.指导语标准化；
b.排除意外干扰； c.按照标准化的程序进行客观评分； ③所选校标的性质； ④测验的信度。
2.简述心理测验的基本条件。答：标准化测验的技术指标有常模、信度和效度。
（1）常模：指某种心理测验在某一人群中测查结果的标准量数，即可比较的标准。常模形式有：均数、标准分（如 Z 分、离差智商、T 分）、百分位、划界分等。常模的制定要通过标准化的取样过程，样本的代表性要好。（2）效度：指测验结果的有效和真实性，即某种测验测查到所要测查内容的程度效度高是心理测验的充分必要条件。有内容关联效度、效标关联效度和结构关联效度。（3）信度：指测验分数反复测量的可靠性，反映测量误差。有分半信度、重测信度和α系数等。
2.验证内容效度的方法有哪些？答：①逻辑分析法；②克伦巴赫估计法；③再测法。
3.验证结构效度的方法有哪些？答：①测验内方法：a.内容效度法；b.口语报告法；c.相关分析法；

6心理测量第六章经典测验理论——效度

A、表面效度 B、区分效度 C、构想效度 D、效标效度
练习题
5、已知rxx=0.31 rxy=0.42，如果需要吧效度系数提高到0.65，那么测验的长度需要增加几倍？ 6、假设某学者自编了一套智力测验，并在几十万人中进行了使用，那么该测验是否有效？ 7、假设使用某种测验选拔员工100人，经过一段时间的工作检验，得到一下四组数据，正确接受42人，正确拒绝34人，错误接受10人，错误拒绝14人，请算出该测验选拔的总命中率
四、影响效度的因素
严格的说，凡是与测量目的无关的因素都会影响测量的效度，一切产生误差的环节都可能影响到效度： 1、测验信度 2、测验的长度 3、效标因素 4、被试样本的代表性 5、干扰变量 6、功利率
• • • • • •
测验长度和信效度关系测验长度 10 20 30 60 120 信度系数 0.300 0.462 0.562 0.720 0.837 效度系数 0.400 0.496 0.548 0.619 0.668
6功利率测验长度和信效度关系测验长度信度系数效度系数1003000400200462049630056205486007200619120083706682400911067948009540713练习题1如果研究表明高考分数和大学学习成绩有高度的正相关那么可以认为高考分数有a表面效度b预测效度c构想效度d同时效度2河南大学教科院是研究教学型学院如果以学生对教师的评价作为教师的的工作绩效那么这个效标可以被认为是a适当的b污染的c有缺陷的d无效的练习题3假设你测量一个人的智力你测量了他的饭量假设以馒头为标准测量了10次他每次都吃5个馒头得到一个平均值5再乘以30作为智商你的测量程序是a不可信也无效b不可信但有效c可信但无效d既可信又有效练习题5假设某学者自编了一套智力测验并在几十万人中进行了使用那么该测验是否有效

心理测量课件_第六章效度

绩效度量
100% 80% 60% 40% 20% 0%
变异来源
效度内部误差时间抽样未解释
被解释的变异比例
效度的种类
• 证明一个测验是有效的(validation)，必须保证在以下三方面均是有效的
• 内容(content) • 效标关联或实证(criterion-related or empirical) • 构想或结构(construct) • 不能只独立地保证一方面。
• 会聚（辐合）效度(convergent validation)
– 如，一个艺术能力测验与其他艺术能力测验、创造力测验以及去当地艺术博物馆的频率等有高相关
• 区分效度(discriminant validation)
– 如，一个艺术能力测验与耐力（力量）测验或与去体育馆的频率等没有相关
14
因素分析
• 测验=预测源 • 行为=效标 • 效标效度是基于数据的( data based)
– 一个选拔测验与工作绩效的相关 – 一个成就测验与年级的相关 – 一个诚实测验与偷窃的相关
两种效标关联效度
• 预测效度(predictive validity)：
– 测验对未来表现预测得有多好
– 他会患焦虑症吗？
效标的适当、缺陷与污染
• 效标适当(relevance)：实际测量的效标中应测量的部分（B+E区）
• 效标缺陷(deficiency)：实际效标没有覆盖的终极效标部分（A+D区）
• 效标污染(contamination)：实际效标中与要测量的东西无关的部分（C+F区）
终极效标 A B C
E DF
• 其中使用的测验技术包括：结构化面试，评价中心，纸笔考试（专业知识）等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

错率（用符号Q来表示）代表难度。
Q=1-P
二、难度的计算方法
（一）二分法记分的项目
PH PL P 2
高分组——总分前27%的人组成的小组低分组——总分最后27%的人组成的小组
（二）非二分记分的项目
X P 100% X max
难度的校正公式
在是非题或选择题中，由于有猜测的成分，被试的得分可能被夸大，不能真正反映测验的难度，为平衡机遇对难度的影响，可用吉尔福特的公式矫正：
第一节项目的难度
一、定义
难度（ difficulty ），顾名思义，是指项目的难易程度。难度分析主要用于最高作为测验。在典型作为测验中，不存在难易问题，一般称“通俗性”。
R P 100 % N
P值越大，表示题目越简单；数值大小
与实际的含义恰好相反，准确地说，应该
叫“易度”。因此有人用未通过率或者答
DP i Pu
说明：PH为高分组在某项目上的通过率
PL为低分组在该项目上的通过率
确定的标准，测验结果只与既定标准比较
而不在被试之间作比较。因此，测验分数
的变异性不是标准参照测验的必要条件。
所以，常模参照测验的项目分析方法不完全适用ຫໍສະໝຸດ 标准参照测验。1.难度分析
由于标准参照测验的目的是为了考察被试对某方面的知识技能的掌握情况，因此，只要能反映教育目标或者教育者认为重要的内容，无论其难度为多少，都可以编入测验。例如，我们在教学开始之前，为了了解学生的准备状态所进行的前测，多数题目将产生很低的通过率，但这些题目应该保留，因为它们表明了哪些东西需要学习。
如果高分组对正确答案的选择与低分组相
等或者低于后者，说明所考察的东西与水平无关；
如果一个题目被试未答人数过多或者选择
各个备选答案人数相等，则说明题目过难或者题意不清，使得被试无法作答或者凭猜测作答。
标准参照测验的项目分析
标准参照测验主要用于判断被试是否掌
握了某些知识技能，是否达到了一个事先
在进行了一段教学之后，为了检查学生的掌握情况所进行的后测，即使每个题目都有很高的通过率，这些题目也是可用的，因为它们反映了教学的效果。同一道题在教学前后对学生进行测验，学生的得分如果为FP模式（F为失败，P为通过），则说明教学取得了较好的效果或题目较好；如果为FF模式，说明教学效果太差或者题目太难了；如果为PP模式，说明题目太容易了；如果为PF模式，则说明这个题编制的有问题或者教学上出现了错误。
说明：Ps为达标组在某项目上的通过率
Pn为未达标组在该项目上的通过率
方法二
用同一测验对同一组被试在教学前后各施测一次，分别统计各项目前后测的通过率，二者之差便是项目的区分度。其公式为：
RB RA S N
说明：RA为前测通过的人数
RB为后测通过的人数
方法三
取两组条件相近的考生，一组接受过同测验有关的学科的教学，另一组没有接受过此种教学。施测同一测验后，分别统计每组考生答对某题的人数，两组考生通过率之差便是该题的区分度，其公式为：
KP 1 CP K 1
CP为矫正后的通过率 P为实得通过率 K为备选答案数目
三、难度水平的确定
项目的难度 :理论上P值越接近于0.50，区别力越高。测验的难度
第二节项目的区分度
一、定义项目区分度（item discrimination）, 也叫鉴别力，是指测验项目对被试的心理特性的区分能力。二、计算方法㈠鉴别指数㈡相关法
如果所有被试都选择了同一个错误答案，可能
是编制测验时把答案定错了，也可能是在教学中发生了错误；
如果某个错误答案没有一个被试选择，说
明该选项不具迷惑性，错得过于明显，一般说来，除非有2%以上的人选择，否则这个备选答案就应该修改；
如果高分组被试的选择集中在两个答案上，
二者选择几率相近，说明该题可能有两个正确答案或者另一个答案也有道理；
2.区分度分析
标准参照测验一般分数变异较小，因此不适合用相关法来计算区分度，但是可以采用类似鉴别指数的方法，即比较两组的通过率。
方法一：
根据测验分数将被试分为达标组与未达标组，然后分别计算它们在某一项目上的通过率，两组考生通过率之差，便是该项目的区分度，其公式为：
D Ps Pn
狭义的项目分析一般是指分析被试对测验项目的反应的统计方法，主要是进行定量分析。而广义的项目分析一般包括定性分析和定量分析。定性分析又叫质的分析，对内容取样的适当性、题目的思想性以及表达是否清楚等方面加以分析，主要包括内容效度、题目编写的恰当性和有效性等的分析。定量分析是对预测结果进行统计分析，确定项目的难度、区分度、备选答案的适宜性等。
D PH PL
1．点二列相关
2．二列相关
3．相关法
1965年，美国测验专家伊贝尔（L.Ebel）根据长期的经验提出用鉴别指数评价项目性能的标准：
表2-2 项目鉴别指数与评价标准鉴别指数（D） 0.4以上 0.3—0.39 0.2—0.29 0.19以下项目评价很好良好，修改后会更好尚可，但需修改差，必须淘汰
区分度与难度的关系
D
1.0
0.8 0.6 0.4 0.2
0
0.2
0.4
0.6
0.8
1.0
P
四、项目分析的特殊问题
选择反应模式的分析
对于选择题，除了分析其难度和区分度外，还要分析被试对每个备选答案的反应情况。一般主要做以下分析：
如果正确的备选答案被所有被试所选择，说明
该题目太容易或者题目中可能提供了某种暗示；