第4章测验的项目分析

合集下载

第4章项目分析

所谓真分数是指被测者在所测特质（如能力、知识、个性等）上的真实值。

我们通过一定测量工具（如测验量表和测量仪器）进行测量，在测量工具上直接获得的值（读数），叫观测值或观察分数。
8
4.2 项目分析----经典测量理论模型

由于有测量误差存在，所以，观察值并不等于所测特质的真实质，换句话说，观察分数中包含有真分数和误差分数。
22
4.2.2 难度分布及其控制 (三) 难度分布的控制
（1）对题目难度的控制
主要从考核的知识点及其能力层次等方面进行控制。考核单一知识点的题目相对考核较多同类知识点的题目要容易。考核能力层次相对要低（如识记和记忆）的题目，其难度相对低，而对于考核能力层次高（如理解、综合应用）的题目，其难度相对会高。
9
4.2 项目分析----经典测量理论
4.2.1 难度计算方法
常模参照测验
（一）二分法记分项目的难度

1、得分率法/通过率法得分率指所有被试在题目上的平均得分占题目满分的百分比。

10
4.2 项目分析----经典测量理论
4.2.1 难度计算方法常模参照测验（一）二分法记分项目的难度

2、极端分组法

(4)语言准确规范。
(5)借助选项分析提供的信息对不良选项进行修改，以提高题目区分能力。
35

4.3 项目分析的特殊问题

下列哪一个最有可能是单纯型精神分裂症患者的症状： A 幻听 B 瘫痪 C 记忆丧失 D 厌食

36
4.3 项目分析的特殊问题
一、客观题中的猜测问题与猜测率

猜测误差：（1）猜相对于不猜引起的误差（2）是否猜的对引起的误差

第四章-心理测验的难度与区分度教案资料

其基本假设是测验得高分的被试即为高能力被试，测验得低分的被试即为低能力被试。
心理测量学
江西师大心理与教育统计测量中心
1、相关系数法
（1）点二列相关法
心理测量学
江西师大心理与教育统计测量中心
1、相关系数法
（2）积差相关法
心理测量学
江西师大心理与教育统计测量中心
2、极端分组法（鉴别指数法）
二、区分度的计算
1、相关系数法
点二列相关积差相关
2、用极端分组法计算区分度：
D表示区分度 PH表示高分组的难度 PL表示低分组的难度
D=PH—PL
1、相关系数法
该方法的基本思想是，若题目有好的区分度，则高能力的被试在该题上应得高分，低能力被试应得低分，即被试在题目上的得分应与测验总分相一致。
（把和代入P=(PH+PL)/2 ，计算这个题目的难度系数。
难度计算实例
例4-1 下表是随机抽取22名被试在某数学测验中四道题目的得分情况，每题的满分分别为1分、2分、3分和4分，请分析其难度。
哪道题最难？
三、难度系数变换
上述所得难度系数，不论是得分率还是失分率，都属于顺序变量，不具有相等的单位，因此，通过p值比较并不能客观指出题目难度之间的差异大小。
好坏的成分不同测验，目的不同，难度值不同。
奥林匹克测验？选择补习功课的学生？
第四章心理测量的难度与区分度
2 第二节项目的区分度
心理测量学
一、区分度的定义
定义：
指测验对考生实际水平的区分程度或测验对被试特质差异的区分能力，用符号D表示。
具有良好区分度的测验，实际水平高的应该得高分，实际水平低的应该得低分。所以，区分度又叫鉴别力。

第四章量表的设计和应用

5，具有排序功能。 ④评判回答者态度强弱的依据是他在所有陈述语上
的得分总和。
△李克特量表的制作和使用步骤
第一步：明确测量问题的含义和测量要求，提出一组（10—20条）与问题有关的陈述语。
第二步：设计答案并进行量化（即记分），规定总分、计分办法和评价标准。
第三步：进行试测，并根据试测结果对所有陈述进行辨别力检验，淘汰辨别差的陈述语。
第五步，对反常现象作出解释，评估量表的有效性。
一般要求一致性系数在0.9以上。
3、语意差别量表
语意差别量表是把一系列正反义成对的形容词之间分为七个等级为答案形式的用来测量被测人对研究事物的感觉或评价意见并据此来描绘事物“轮廓”或“形象”的一种测量表，它主要用于测量某种事物在人们心目中的形象或给人的感觉。
（五）比较型答案的设计
比较型答案是要求回答者对所列答案进行比较，并排出先后顺序的一种回答方式，具体又分为两两对比、强迫排序等形式。
详见“量表的种类”

对号入座式
强迫排序问题回答方式分编号排队式
简单编号式 P101
（六）评估打分型
评估打分型答案主要应用于评估量表中，多以表格形式出现，操作办法是：评估者依据事先制定的统一打分标准，根据自己对评估对象的了解和认识，在每一个测量项目上公正客观地打出评估数，然后，对评估分进行统计和分析，最后根据统计分析结果对评估对象作出评价。
设计时应注意：
1、答案应包含所有不同程度的态度。 2、要根据测量对象的具体情况，确定合理的等
级数。 3、答案记分时要确定合理的起点。 4、要根据问题答案的可能情况和测量要求，确
定答案是采用平衡式还是非平衡式。 5、在对答案进行排序的同时，如果还要进行定

心理测量4项目分析

.40
.39
.35
.34
.33
.34
.36
.34
.31
.30
.27
.26
.24
.62
.57
.54
.56
.50
.51
.53
.57
.51
.52
.50
.49
.44
.51
.31
.28
.25
.27
.20
.21
.20
.56
.57
.49
.49
.44
.44
.40
.71
.65
.64
.60
.52
.52
.52
.77
.64
– 在人格测验中，类似的指标是“通俗性”。即取自相同总体样本中，能在答案方向上回答该题的人数。
– 两种指标的计算方法是相同的
– 难度的计算 • 二分法记分的项目（1、0记分） – 公式（通过率）：P=R／N×100% »P 指项目的难度（通过率） »R 答对或通过该项目的人数 »N 全体被试人数
– 区分度与难度呈现的是一种曲线（倒“U”的关系）。
• 难度为0.5时，区分度最高 • 难度较高或较低时，区分度中等 • 非常高或非常低的难度时，区分度也很低
– 不同水平被试中区分度与难度的关系
• 较难的题目对高水平被试有较高的区分度 • 中等难度的题目对中水平被试有较高的区分度 • 较容易的题目对低水平被试有较高的区分度
举例：第一题10名被试中8人答对，其难度为：
P1=8／10×100% =80%
• 样本例数较大时的计算方法 – 根据测验总成绩将被试分为三组 » 高分组（NH）：分数最高的27％ » 中间组：分数居中的46％ » 低分组（NL）：分数最低的27％ – 计算高分和低分组的通过率 – 计算两组平均通过率作为难度指标公式：P=(PH+PL)／2 » P 指难度（通过率） » PH 指高分组通过率 » PL 指低分组通过率

戴海崎《心理与教育测量》(第3版)课后习题(第4章测量信度——第6章测验的项目分析)【圣才出品】

第4章测量信度1．各种信度系数所对应的误差来源是什么？答：信度主要包括重测信度、复本信度、分半信度、同质性信度、评分者信度，各种信度系数所对应的误差来源分别简述如下：（1）重测信度系数对应的误差来源重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。

除去主试，施测环境和被试等方面的误差，它的独特误差来源主要有：①施测过程中所产生的遗忘和练习效应；②在两次施测的间隔时间内，被试在所要测查的心理特质方面获得了学习机会。

（2）复本信度系数对应的误差来源复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度，其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。

它的误差来源有：①不能获得严格意义上的平衡测验；②施测过程中产生的顺序效应和迁移效应；③在两次施测的间隔时间内，被试在所测量的心理特质上获得了学习机会。

（3）分半信度系数对应的误差来源分半信度是指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。

它的误差来源是：不同的分半方法的分半信度不同，可能是由于将测验分为相平行的两半的方法不同而产生误差。

（4）同质性信度系数对应的误差来源同质性信度也称内部一致性系数，它是指测验内部所有题目之间的一致性程度。

克龙巴赫α值还是所有可能的分半信度的平均值，它只是测量信度的下界的一个估计值。

即，α值大，必有测量信度高；但α值小时，却不能断定测量信度不高。

它的误差来源产生于题目是否同质，这包括两个方面：①所有题目都测的是同一种心理特质；②所有题目得分之间都具有较高的正相关。

（5）评分者信度系数对应的误差来源评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。

在心理与教育测量工作中，客观题的评分很少出现误差，但主观题的评分常常会造成误差。

它的误差来源主要是多个评分者之间的个体差异，对相同答案的不同评定，这种个体差异不可能完全消除，只能最大程度低依赖正规的测查程序和统计方法来减小它。

第四章编制教育测验的一般原理与方法

客观性试题
客观性试题的功用
客观性试题主要是因为评分客观而得名，它的正确答案在测验前就
已准备好，不同评分者各自独立评分，所得结果基本上是相同的。客观性试题一般适用于测量知识的掌握、理解、应用、分析几个层次的教学目标。客观性试题的答案明确，作答简便，因而在限定的时间内测验可以包含足够数量的试题，能保证对知识内容的覆盖。客观性试题的类型常用的类型有：（1）选择题；（2）是非题；（3）配合题；（4）填空题；（5）简答题。
（2）空白处所填写的应是关键词语，并且要和上下文有密切的关系，使被试不至于填写困难。例：1996年我国科技界有新发明。
填空题
（3）题目中空白地方不能太多，以免句子变得支离破碎，不利于被试理解题意。
例：连接市与的是河
（4）尽量将空白放在句子的后面或中间，而不要放在句子开头。
例：发明了蒸汽机
填空题
（5）所有空白处的线段长度应当一致，不能随正确答案文字的多少而长短不一，以免产生暗示作用。
（6）若答案是数字，应指明单位和数字的精确程度。
简答题
较适合于测量被试被基本知识、概念和原理
的掌握、记忆情况。 1. 优点
编制较为简单、灵活；增加知识考核的准确度和深度；不受猜测因素的影响
解释性测验题
在典型选择题的基础上，经教育测验专家改良
后，发展成解释性测验题（interpretiveexercise question)。解释性测验题一般是先提供一段文章、一幅图画、一种情境、一张表格等引导性材料，然后以此为基础提出一系列客观性问题。
比较适合测量富有结构的知识、理解能力以及
作文题
2. 编制原则
（1）根据考试目的、考试对象来确定作文文体和要求；（2）根据社会需要、现实生活和学生实际设计命题，作文命题要直接测量语文素养和书面表达能力；（3）作文命题不能过于抽象，要让学生有话可说，有内容可写，有思路可走，有发挥的余地；（4）避免材料或话题出现测验偏倚，在确定选材和写作意图时，要考虑对所有被试都是公平的，并且试题应符合被试的心理特征。

心理测量第4章心理与教育测量的信度

库德-理查逊公式
K-R20公式
K-R21公式
克伦巴赫系数
库德-理查逊公式只适用于答对一题得一分，答错无分的测验，不适用于项目多重记分的测验，针对这一需要，克伦巴赫提出了系数的方法。其公式为：
K为测验题目数，为某一题目分数的变异数，为测验总分的变异数
采用SPSS计算信度
数据库
两次施测期间被试的学习效果没有差别
计算再测信度应满足以下几个假设；
两次测验的时间间隔要适当
应注意提高被试的积极性
再测法适用于速度测验和人格测验，而不适用于难度测验
采取此法时应注意以下几个问题：
用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料，可作为预测被试将来行为的依据。其缺点是易受练习和记忆的影响。
S为相同尺度的标准分数的标准差，rxx、ryy分别为两个测验的信度系数。然后再将标准分数的差异与1.96SE（0.05水平）进行比较，即可得出两个测验的差异是否显著。
例：韦克斯勒对104名14岁半至15岁半的儿童，间隔一个月时间前后测了两次，求得全量表的稳定性系数为0.95，实测分数的标准差为15，则测量的标准误为：
同质性信度计算方式
结果
输入40题
评分者信度
标准化测验一般都有较为严格的评分程序。对于客观性试题来讲，评分所引起的误差是可以忽略不计的，但是对于一些主观题来讲，评分者之间的变异是产生误差的重要原因之一。
考察评分者信度的方法是随机抽取部分试卷，由两个或多个评分者独立按评分标准打分，然后求其间的相关。在计算相关时，如果是两个评分者，则采用积差相关或等级相关的方法，一般认为经过训练的成对评分者之间的一致性达0.90以上，评分才是客观的。如果是多个评分者则采用和谐系数来估计信度。其公式为：

水文测验学(第四章)

Cs=Ws/V
4、输沙率Qs、Qb（kg/s）
Qs Qc s
单位时间内通过河流某一横断面的悬移质/推移质的干沙重量，称为悬移质输沙率Qs/推移质输沙率Qb
5、断沙 CS（kg/m3）
悬移质断面平均含沙量
6、单样含沙量（单沙）
断面上有代表性的垂线或测点的悬移质含沙量
7、侵蚀模数Ms[t/(km2▪a)
步骤
（一）垂线平均含沙量的计算
用积深法或垂线混合法取样，经处理直接得到垂线平均含沙量。用逐点法取样，需用算术平均法或面积包围法计算垂线平均含沙量。
1、畅流期
取样点的含沙量
一点法二点法三点法五点法
Csm 1Cs0.6
C sm

q s 0.2
0.2
q s 0.8 0.8
缺点：①不能克服泥沙的脉动影响；②取样时，严重干扰天
然水流；③采样器关闭时口门击闭影响水流；④器壁粘沙。
取样测点要求：输沙率测验时，因断面内测沙点较多，脉动
影响相互可以抵消，每个测沙点只需取一个水样。在取单位水样含沙量时，采用多点一次或一点多次的方法。
普通瓶式采样器由容积为500～ 2000ml的玻璃瓶制成，瓶口加有橡皮塞，塞上装有进水管和排气管，调整进水管和排气管出口的高差ΔH，选用粗细不同进水管和排气管，可以调整进口流速。
流域内单位面积上每年的输沙总量
第二节悬移质泥沙测验（ Suspended Sediment Test）
二、悬移质泥沙测验仪器及使用
（一）常用采样器
横式采样器属于瞬时采样器，器身为圆管，容积 500～3000ml，两端有筒盖，取样时张开两盖，将采样器下放至测点位置，水样自然的从筒内流过，操纵开关关闭桶盖。

第4章心理测验

1、看：用一支点燃的火柴在儿童面前慢慢移动，看儿童眼睛是否能跟随物体移动。 8、图片之认识：给儿童看一图片，然后询问他图片上某物在何处。 15、重述句子：每个句子有15个字母，先说一次给儿童听，然后要其背诵。 22、比较重量：把五个重量不同（18、15、12、9和6克）的物品依此排列。
（2）斯坦福-比内量表：因美国斯坦福大学的推孟修订而得名。他使用比率智商和离差智商概念，以IQ作为个体智力水平的指标，将适用年龄扩展到1· 5-18岁，选取了 2100名常模样本。（吴天敏修订） • 比率智商的计算方法是用智力年龄(MA)和实际年龄(CA)之比乘以100，即 • 智商（IQ）=（MA/CA）*100 • 离差智商：IQ=100+15Z • 其中Z是指被试者分数标准化后的分数。Z 的计算公式为：Z=(X+)/S
第四章心理测验在人事测评中的应用
第一节心理测验的一般原理
一、心理测验的定义 • 肖鸣政：通过一系列手段，将人的某些心理特征数量化，来衡量人的智力水平和个性方面差异的一种科学选择方法。
阿纳斯塔西(A. Anastasi)：心理测验实质上是行为样组的客观的和标准化的测量。
1.行为样组（是对行为的测量，且是一组典型，有代表性的行为样本）行为样组要典型，具有代表性。测验题目的性质和数量要有代表性，能获得所要预测的心理行为。例如，音乐能力测试中，对音高、音色、音量、节拍的辨别判断等题目能体现某个人在音乐方面的基本能力。 2.标准化（题目、实施过程、记分、结果解释、常模） • 测验的编制、实施、记分以及对测验结果的解释都要有严格的标准，必须一致，要保证测验的条件对所有的被试相同、公正。还要建立常模，给测验分数提供比较的标准，从而对测验分数进行解释。 3. 难度客观测量（保证区分度） • 测验题目乃至整个测验的难度水平必须客观。自制的心理测验都要经过试测，从试测中通过项目的人数多少来确定难度。 4.信度（可靠性） • 测验要可靠，同一组被试使用同一测验施测两次后得到的分数应该一致，或者同一组被试经过一次测验以后再用一个等同形式的测验再测一次，两次所得的分数应一致。 5.效度（有效性） • 测验是有效的，测验应该确实能测量到它所要测量的东西。必须严格按照测量目标选择测验材料，测验内容丰富、难度适当，排除无关因素的影响。

人员测评理论与方法第4章-心理测验及其应用

3/3/2020
42
能力性向测验的应用
技能技巧测验：对应聘人技能技巧的实际水平的测验，属于成就测验。多用于雇用、委派、调动、提升、训练等人力资源管理工作。测验的方式大多是作业实例测验：SRA听写技巧测验、西沙尔•宾纳特速记熟练测验，业务打字测验、明尼苏达工程类推测验、普度电工测验、 DAT语言使用测验等。
投射技术定义：
广义：是指那些把真正的测评目的加以隐蔽的一切间接测评技术。狭义：是指把一些无意义的、模糊的、不确定的图形、句子、故事、动画片、录音、哑剧等呈现在被测评者面前，不给任何提示、
说明或要求，然后问被测评者看到、听到或想到了什么。
3/3/2020
54
投射技术的理论根据
• 被测评者在模糊不清的刺激面前的反应行为
心理测验是对一组行为样本的测量。
心理测验是对模拟行为的测量。
心理测验是一种标准化的测验。
心理测验是一种力求客观化的测量。
3/3/2020
27
心理测验的种类
3/3/2020
心理测验的种类
认知测验（认知行为）
成就测验：主要测评人的知识与技能，是对认知活动结果的测评。斯坦福成就测验
智力测验：主要测评认知活动中较为稳定的行为特征，是对认知过程或认知活动的整体测评。斯坦福－比奈智力测验
3/3/2020
48
卡特尔16因素个性问卷
• 以下为问卷中的部分题目：
• 3、我有足够的能力应付各种困难： • A.是的；B.不一定；C.不是的。 • 4、即使是关在铁笼里的猛兽，我见了也会感到惴惴不安： • A.是的；B.不一定；C.不是的。 • 5、我总是不敢大胆批评别人的言行： • A.是的；B.有时如此；C.不是的。 • 6、我的思想似乎： • A.比较先进；B.一般；C.比较保守。

戴海琦《心理与教育测量》课后习题与答案

心理与教育测量课后习题及答案戴海琦版第一章心理与教育测量概论练习与思考练习与思考：1.与物理测量相比拟，说明心理测量的特点。

2.为什么人们不能象对物理测量那样容易承受心理测量？〔此题为思考题〕3.如何才能证明心理测量的必要性和可能性？解答要点：１.〔1〕从依据的法那么来说，心理与教育测量依据的法那么在很大程度上只是一种理论。

〔2〕从测量的容来说，心理与教育测量的容是复杂的，隐的，其测量只能是间接的。

〔3〕相对与物理测量的定量分析的准确度而言，心理与教育测量定量分析的准确度很低。

３.〔1〕从心理与教育测量的理论根底来看，心理测量是可能的。

〔2〕人的心理现象和知识水平如同其他一切物理现象一样是有差异的，这种差异既有质的方面，也有量的方面，因此有必要测定出这些差异的数量。

第二章心理与教育测量的产生与开展>>练习与思考练习与思考1.简述古代中国对心理与教育测量的奉献及其特点。

2.心理与教育测量从卡特尔到比的开展过程中可以看出什么特点？〔此题为思考题〕3.推孟和韦克斯勒在智力测验开展过程中各有什么奉献？解答要点：１.在古代中国，在测验实践和测验理论方面都对心理与教育测量作出了奉献并具有自己的特点。

一、在测验实践方面的奉献。

1、在能力测量方面。

早在2500年前，思想家和教育家孔子凭自己的经历观察，首先评定学生能力的个别差异，并将人的智力分成中上之人、中人和中下之人三个等级。

董仲舒已论及到注意测验。

邵把人的才能划分为12种类型。

6世纪中叶，中国江南出现了类似现在的婴儿开展测验的"周岁试儿"习俗。

出现于清代的益智图、九连环可以认为是最早的创造力测验。

2、在人格测量方面。

孔子把人分为狂者、狷者和中行3种。

邵根据阴阳、五行和形体的关系及其人的行为表现，把人的性格划分成12种类型。

3、在教育测量方面。

世界上最早的教育测量出现于中国西周奴隶时期。

据记载，在西周的"国学"中已经建立具有相当系统性的教育测量制度。

戴海崎《心理与教育测量》(第4版)笔记和课后习题考研真题详解

戴海崎《心理与教育测量》（第4版）笔记和课后习题（含考研真题）详解完整版>精研学习网>无偿试用20％资料全国547所院校视频及题库资料考研全套>视频资料>课后答案>往年真题>职称考试第1章心理与教育测量概论1.1复习笔记1.2课后习题详解1.3典型题（含考研真题）详解第2章心理与教育测量简史2.1复习笔记2.2课后习题详解2.3典型题（含考研真题）详解第3章经典测验理论的基本假设3.1复习笔记3.2课后习题详解3.3典型题（含考研真题）详解第4章测量信度4.1复习笔记4.2课后习题详解4.3典型题（含考研真题）详解第5章测量效度5.1复习笔记5.2课后习题详解5.3典型题（含考研真题）详解第6章测验的项目分析6.1复习笔记6.2课后习题详解6.3典型题（含考研真题）详解第7章心理与教育测验的编制与实施7.1复习笔记7.2课后习题详解7.3典型题（含考研真题）详解第8章常模参照测验8.1复习笔记8.2课后习题详解8.3典型题（含考研真题）详解第9章目标参照测验9.1复习笔记9.2课后习题详解9.3典型题（含考研真题）详解第10章测验等值10.1复习笔记10.2课后习题详解10.3典型题（含考研真题）详解第11章学绩测验11.1复习笔记11.2课后习题详解11.3典型题（含考研真题）详解第12章能力测验（上）12.1复习笔记12.2课后习题详解12.3典型题（含考研真题）详解第13章能力测验（下）13.1复习笔记13.2课后习题详解13.3典型题（含考研真题）详解第14章人格测量14.1复习笔记14.2课后习题详解14.3典型题（含考研真题）详解第15章其他心理与教育测验15.1复习笔记15.2课后习题详解15.3典型题（含考研真题）详解第16章测量应用实务16.1复习笔记16.2课后习题详解16.3典型题（含考研真题）详解第17章测量理论与应用的新发展17.1复习笔记17.2课后习题详解17.3典型题（含考研真题）详解。

心理测量重点

第一章一．什么是测量？测量的三个要素是什么？测量就是根据一定的法则给事物指派数字。

事物及其属性——测量的对象法则——指导测量的规则和程序，数字——测量结果的表示方式。

二．测量有哪四种水平？其各自的特点是什么？（1）类别测量根据法则指派给事物的数字仅是事物的符号或称呼，没有任何数量大小的含义。

这种测量又可分为两类：代号，类别所适用的统计方法主要是次数统计，如频数、众数、百分比、卡方检验等。

（2）等级测量指派给事物的数字具有等级性和序列性，但不表示数与数之间的差距是相等。

适用的统计方法有中位数、百分位数、等级相关等。

（3）等距测量数字不但有大小关系，而且具有相等的单位，但没有绝对的零点。

可以做加减运算，但不能做乘除运算。

适用的统计量有平均数、标准差、积差相关、t检验、F检验等。

（4）比率测量数字不但具有相等的单位，而且具有绝对的零点。

所得的值可以进行加减乘除运算，适用的统计量除以上几种外还可以计算几何平均数、变异系数等。

三．什么是心理测量？理解心理测量的性质（特点）所谓心理测量，就是根据一定的心理学理论，使用一定的操作程序，给人的行为和心理属性确定出一种数量化的价值。

1、心理测量的间接性2、心理测量的相对性3、心理测量的时空性4、心理测量的客观性四．什么是心理测验？心理测验的三个要素是什么？心理测验实质上是对行为样组的客观和标准化的测量。

行为样本标准化：测验的一致性测验内容的标准化，施测条件的标准化，评分规则的标准化，测验常模的标准化客观性：科学性五．极限行为测验、典型行为测验、常模参照测验、标准参照测验？极限行为（最高行为）测验：要了解个体在某种心理特质或行为表现上的最佳表现水平。

典型行为测验：要了解被试在某种心理特质或行为上最一般、最具有代表性的表现。

常模参照测验：将被试测验结果的分数与常模分数相比较来解释被试的成绩。

标准参照测验：将被试测验结果的分数与一个既定的标准比较来解释被试的成绩。

第二章信度一．什么是测量误差？什么是系统误差与随机误差？测量的误差是指在测量过程中由那些与测量的目的无关的变化因素所产生的一种不准确或不一致的测量效应。

第四章难度

难度=1-P（通过率），P值越大，题目越易；常模参照性考试（选拔性）：0.4—0.6为宜，
标准参照性考试（水平性）：0.6—0.8为宜。
二、难度的计算
难度的计算与测验项目的类型有关。客观性试题的难度的计算方法原始定义法极端分组法主观性试题的难度的计算方法
平均分数法
极端分组法
（一）客观性试题的难度的计算方法
X H X L (2 NL) P 2 N ( H L ) • XH：高分组所得总分；
• XL：低分组所得总分；H：该题最高分；L：该题最低分；N：考生总人数的27％（P109）
• 极端分组法计算主观性试题难度的步骤：
• （1）按测验总分依次排序，确定比例各为25%的
高分组和低分组；
• 测验试题的平均难度接近0.5最好，控制在0.5±0.2之间；
• （不是要求每道试题难度值都等于0.5）
• 如果选拔优生，难度值应当偏小，选20%优生参加竞赛，难度可以为0.2；
• 如果筛选差生，难度值应当偏大，选80%差生补习，难度可以为0.8；
• 常模参照测验中，大多数试题难度在0.3~0.7之间，少数题目在这一范围两边，整个试卷平均难度为0.5左右（ 0.45-0.55之间）。
第四讲难度内容： 1.难度的概念 2.难度的计算 3.难度对测验的影响 4.测验难度的控制
一、难度的含义
– 难度是指测验项目的难易程度，记为 P
– 在教育测量中
• P＝正确回答试题的人数/参加测验的总人数
• 1、难度是测验中项目分析的重要内容。 • 2、测验项目的难度对测验的信度和效度都有直接影响。 • 3、教育测量中，一般以能够正确回答的人数与参加测验的总人数之比作为难度指标。 • 4、难度的数值实际表示的是易度，与试题的实际困难程度相反。 • 5、难度是一个相对概念，难度的高低与被试的水平直接相关。难度应该是测验对某类被试的难度如何。

第四章教育测验的质量分析

形成题库，随机抽取
四是采用多种测试方法
多角度、多途径测量和评价学生
五是科学设置答题要点和评分细则六是严格挑选、培训评卷人员,多个评分者评分。
（二）测验的效度
1．含义：效度是指有效性程度。测验的效度，是指
测验实际测量出其所要测量的特质的程度。即测验在多大程度上测量到了所要测的东西。衡量测验有效性的主要依据：达到测验目的的程度。信度和效度的关系：
（二）测验项目的区分度

项目区分度是指测验题目对其学业水平不同的考生的区分程度或鉴别能力，即通过测试考出学生的不同水平，把优秀学生、一般学生和困难学生区别开来。区分度是试题区别被试水平能力的量度，区分度高的项目，能将不同水平的被试区分开来。如果一个项目，实际水平高的被试能顺利通过，而实际水平低的被试不能通过，该项目就具有较高的区分度。区分度是测验质量的一个重要指标，说明的是试题对于测验目的来说的有效性程度。项目区分度一般由被试在某项目的得分与实际能力水平（一般用测验总分表示）之间的相关系数来表示，相关程度越高，该项目区分度就越高。
杂程度等

第四，题目的变化动态。
题目的迷惑性、干扰性,题目设置的灵活程度,题目
隐含的已知条件等
测验难度水平的确定*
测验题目难度水平的适当与否，取决于测验的目的、
性质和题目的形成。
测验是为了了解被试在某方面知识技能的掌握情况，这时
难度高低不用过多考虑，只要认为是重要的内容就可以选用。但如果测验目的是为了选拔，测验的平均难度就应该和选拔率大致相同。
L另外，被试的主观态度、测验内容取样是否恰当、
施测情境是否良好、测验时间是否充裕等，也都会影响测验的信度。

健康评估第四章心理评估

2.具体评估的内容
具体评估的内容如下： ①外观，包括评估对象的身高、体重，以及外貌与年龄是否相符，服装是否合适、平整、清洁等； ②个人卫生习惯是否良好等； ③心理行为，如情绪反应等； ④社会行为，如言谈举止，对事务的处理能力等； ⑤医疗行为，如治病过程； ⑥与家人的互动行为等； ⑦评估对象人格的个性化特征（如内向或外向、乐观或悲观、敏感或迟钝等）、情绪状况、压力来源与应对及有利资源等。
一、认知的基础知识
任务二认知的评估
三、相关护理诊断/合作性问题1. 自我健康管理无效与疾病、认知障碍等有关。2. 持家能力障碍与长期疾病等有关。3. 单侧身体忽视与脑卒中有关。4. 感知觉紊乱与知识缺乏、疾病等有关。5. 急性或慢性意识障碍与感觉器官、精神疾病、药物滥用等有关。6. 记忆力受损与脑组织病变有关。7. 活动计划无效与认知障碍等有关。8. 语言沟通障碍与疾病、创作后反应等有关。
角色扮演
课堂讨论
1. 情绪与情感对健康的影响。2. 在综合性医院住院的患者常见的异常情绪有哪些?如何做好其心理护理?
请围绕沈老师的病情设计恰当的问题，并扮演沈老师的角色,体验沈老师在疾病治疗不同阶段(术前、术后)的感受。作为沈老师的责任护士，请对沈老师的焦虑情绪开展心理评估。
任务三情绪与情感的评估
角色扮演
课堂讨论
1. 认知活动的组成及评估的方法。2. 认知对心理活动的重要性。
请围绕李阿姨的病情设计恰当的问题，并扮演李阿姨的角色,体验李阿姨疾病后的感受。作为李阿姨的责任护士，请对李阿姨的状况开展心理评估。
任务一自我概念的评估
任务三情绪与情感的评估
案例4-2-3导入沈老师，35岁，实验中学高三年级语文老师。她在学生心目中是一位温柔贤淑、才华横溢的好老师；在家人心目中则是一位贤妻良母。沈老师在8个月前洗澡时无意中发现右乳外上象限有一个黄豆大小的肿块，无痛、质中、活动度可，因工作忙等原因未及时就医。近2个月来，沈老师自觉肿块明显增大，已达蚕豆大小，无痛、质硬，其丈夫非常担心，坚持要陪同她到医院就诊。B超检查结果显示“右乳实质性占位，考虑恶性肿瘤可能性大”；进一步诊断检查：右乳肿块针吸细胞学检查见可疑恶性细胞。这一诊断对沈老师及其家人来说如同晴天霹雳。请问：沈老师目前最主要的心理问题是什么？护士就其病情如何开展心理评估？

第四章测量信度

五、评分者信度
评分者信度（Scorer
Reliability）指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中，如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时，评分者信度等于两者评分的相关系数（积差相关或等级相关）。 2、当评分者人数大于2时，评分者信度采用肯德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数，N是被评的对象数，Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件

要构造出2份或2份以上真正平行的测验。被试有条件接受两次以上的测验。
复本信度的优缺点
优点：
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点：
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节信度的定义
一、什么是信度

信度指测量结果的稳定性、一致性程度。一个好的测量工具必须具备好的信度，也就是说它多次测量的结果应该相对的稳定、一致。

信度反映的是测量中随机误差的大小，随机误差小，则信度高；反之，则信度低。
测验题目本身并不能提供信度的估计值，信度统计来自于测验分数。也就是说，在检验信度之前必须要实施心理测验，以获得测验分数。
遗忘和练习的效果基本相互抵消；（3）在两次施测的间隔期内，被试所要测查的心理特质没有获得更多的学习和训练；（4）被试有条件接受两次相同的测验，取决于时间、经费等因素。

第四章心理与教育测量的信度

仅适用于(0,1)记分测验。
同质性信度 pq rXX = 1- 2 K -1 SX
p 和 q 分别为题目的平均通过率和平均失败率。
仅适用于(0,1)记分，且所有题目的难度接近的测验。
同质性信度的计算及使用条件
D. 克龙巴赫α系数：适用于任何计分方式的测验。
概化理论的发展测验情景关系说测验设计任务
5
6
G研究 D研究
D研究的指标
7 8
对概化理论的评价
一、测验分数方差的测量学意义
1、测验分数方差有目标测量分数方差和误差分数方差。
2、误差来源的多样性与总分方差结构的复杂性。
3、经典测量理论处理分数方差的办法：假定X=T+E，有σ
X 2=σ T 2+σ E 2，
重测信度的使用条件
1、所测量的心理特质必须是稳定的
2、遗忘和练习的效果基本上相互抵消
3、两次测验间隔，被试要测的特质没有学习和训练
重测信度练习
例3：10名学生接受了某测验，分数记为X，为考察该测
验的信度，一星期后，对这10个学生重新测了一次，分数
记为Y，根据两次测验结果，求该测验信度。
学生号 01 Xi 31 Yi 30
rXX = K rij
1+ K -1 rij
r ij 为项目间相关系数的平均数。 Κ为测验项目数，
同质性信度的计算及使用条件
B. 库德-理查逊公式(K-R20)：
n pi q i K 1- i 1 2 rXX = K -1 SX
Κ为测验题目数，pi为通过第i题的人数比例，qi为未通过第i题的人数比例，SX2为测验总分的变异数。
平行测验A

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二级评分IRT模型例：逻辑斯蒂模型单参数模型（拉希模型）；双参数模型和三参数模型。多级评分IRT模型连续型IRT模型
优点及运用

能力参数估计的不变性。即个体独立于测验项目参数估计的不变性。即测验独立于个体提供被试能力估计值的精确度指标被试能力和项目难度在同一量表上，为测验编制、测题分数的报告和解释提供了便利。
三、区分度与难度的关系
四、区分度的相对性

（一）不同的计算方法，所得区分值不同（二）样本容量大小影响相关法区分度值的大小（三）分组标准影响鉴别指数值（D ）（四）被试样本的同质性程度影响区分度值的大小
第三节

猜测问题与猜测率

一、客观测验题中的猜测问题与猜测率（一）客观测验题中的猜测问题（二）猜测率（三）猜测误差的来源二、项目难度受猜测影响的校正 CP=（KP-1）/（K-1）或 CP=P-q/（K-1）式中CP为校正后通过率，P为实际通过率，K为备选答案数目；q=1-p。 S=R-W/（K-1）式中S为校正后的得分，R为被试答对的项目数，W为被试答错的项目数，K为项目的选项数目。
（二）非二分法记分项目的难度
X
全体考生在该题上均分；
X max
该题的满分。
整个试卷的难度计算：试卷的难度是指一份试卷的总体难易程度，其由试卷中每道题的难度决定。其计算办法为：将每道题目的难度与满分值相乘的积相加，然后将其总和除以试卷的满分值，所得的商即为整个试卷的难度。
例题

例1. 在200个学生中，答对某项目的人数为120 人，则该项目的难度为多少？例2. 在370名被试中，选为高分组和低分组的被试各有100人，其中高分组有70人答对第1题，低分组有40人答对第1题，求第1题的难度。例3. 数学测验的第七题满分为15分，该题考生的平均得分为9.6分，则该题的难度是多大？
四、测验难度水平的确定
（1）常模参照能力测验： A. 一整套题目的整体难度应在0.30～0.70之间，平均难度在0.450.55之间，难度为0.50的题应该居多。这样保证分数成正态分布，有最大的离散程度。
B.当题目之间正相关时，题目难度值应分布的广些，但平均难度应以 0.50为好。
C.当题目有猜测可能时，题目的难度应适当加大。

ห้องสมุดไป่ตู้
（二）测验分数的离散程度与测验难度
——太难或太易离散性都小,难度中等离散程度最大。
第二节项目的区分度

一、区分度的意义（一）区分度的意义区分度(项目效度)是指测验项目对被试心理品质水平差异的区分能力。（二）区分度的取值区分度（D）的取值范围介于-1.00至+1.00之间。通常D为正值，称作积极区分；D为负值为消极区分；D为0称作无区分作用。具有积极区分作用的项目，其D值越大，区分的效果越好。
第四章

测验的项目分析
学习目标： 1、掌握测验项目难度的意义，难度指标的计算及项目难度对测验的影响； 2、掌握测验项目区分度的意义，区分度的求法、区分度对测验质量的影响； 3、了解难度与区分度的关系；
项目分析的概念

项目分析是根据被试的反应对组成测验的各个题目（项目）进行分析，从而评价其功用的程序和方法。目的是对项目进行选择和改良
测验等值的假设

公平性如果测验x和测验y的等值对每一个被试都是公平的，则对每一定水平的被试，无论他接受的是测验x或者测验y都不会低估或高估其实际水平。
D.选拔性测验还要考虑录取率。一般要求使通过率等于录取率。
（2）标准参照能力测验 P=1.0或P=0有可能也是好题。
（3）人格测验
P ≧ 0.95或P ≦0.95的题目考虑删除。
五、测验的难度对分数分布的影响

（一）测验分数的分布形态与测验难度测验的难度可以由分数的分布提供
——分数成偏态分布测验过难或太容易;分数正态分布的测验难度适中.

三、难度的等距变换

1.难度存在的缺陷:不是等距数据，如0.6\0.7\0.8。 2.难度转化为Z分数（见右图） 3.难度转换为美国教育测量服务中心采用的难度指标 △ =13+4×Z 式中，△表示题目难度，Z表示由P值换得来的标准分数。△值
越大，则难度愈大，△ 值愈小，难度越低。
第四节项目分析的特殊问题

一、多重选择题的项目分析
（一）多重选择题的作用和优点（二）用多重选择题的项目分析可以解决的问题（三）具体分析的步骤为： 1、按被试测验的总分，从高到低依次排列试卷。 2、从最高分依次向下取全部试卷的27%作为高分组。 3、从最低分依次向上取全部试卷的27%作为低分组。 4、分别登记高分组与低分组选中各选择项的人数（亦可将人数换为人数比例），然后登记。 5、根据登记结果进行选择项的质量分析。

例题：高分组在某一项目的通过率为0.75，低分组的通过率为0.35，则该项目的鉴别指数为多少？判断项目鉴别指数的指标: 0.40以上，优良； 0.30～0.39，良好，如能修改更好； 0.20～0.29，尚可，仍需修改； 0.19以下，劣，必须淘汰。
（二）主观性试题的区分度计算
XH 为高分组总分，XL 为低分组总分，H为该题最高分，L为该题最低分，N为考生总人数的25%（27%）。例：参加考试1658人，取其25%那就是415人。前 415人书面表达总得分为8719分；后415人的总得分为 5812分。书面表达最高位满分25分。最低得分为4分。经过计算区分度为0.3335。
猜测校正公式的应用

①对全体校正公式的应用有A、B两个测验项目，项目A为四重选择题，通过率为0.58；项目B为五重选择题，通过率为0.56；试比较两题的难度。 ②对个体校正公式的应用某被试参加由100道四重选择题组成的测验，结果是答对82道题，答错18道题，该被试的实得分数为（每题1分）多少？
P
N
P：试题的难度； R：答对该题的人数； N：总人数。 P值越大，则难度越小。
2、极端分组法
极端组的划分:

PH PL P 2

一般情况下,根据效标或测验总分将被试排队，取27%的高分端被试组成高分组，另外27%低分端被试组成低分组。其余46%被试不作分析。标准： 1、确保标准正确，高分组大于低分组成绩； 2、使两组容量足够大。注意： 1、27%为习惯取法 2、比率不能太小（如10%），则所选出的两组过于极端，很可能夸大题目的区分度。样本小（n<100时），则不宜用27%的规则，可取50%为分界点。 3、使用极端分组法主要是为了计算简便，但这种方法只利用了一部分信息，比用全部信息计算的结果准确性差些。
项目反应理论的重要特点：

1. 项目的难易度的估计不因样本不同而不同； 2. 被试能力的估计不因测验的改变而改变； 3. 测量误差的估计对每一位被试单独给出。要为项目参数建立一个指标体系要为被试的能力建立一个指标体系
应用：测验等值

概念：对测量同一种心理特质的不同测验分数或项目参数，通过一定的数学模型，转换成同一单位系统中的量数，以有利于相互比较的方法。
二、区分度的计算

（一）项目鉴别指数法
1、谐度分析：也就是内容一致性分析，其目的是检查个别试题与整个测验的作用的一致性。 a、这种方法较适合于二分法记分的测验项目。 b、鉴别指数的计算方法: D=Ph-Pl。将被试依照总分从高到低排列，然后将总分最高的27%和最低的27%的被试分别定为高分组和低分组。 2、效度分析：目的：在于检验每一个题项是否具有某种鉴别作用。它是以外部效标为依据，分别求出各效标组在某一试题上通过人数百分比，以其差数作为效度指标。效度分析的方法和步骤与前述的谐度分析相似，所不同的是参照标准。

例：多项选择题的项目分析
（四）对选择项的反应模式的分析
反应分析：检讨被测者对各个项目如何进行回答。

（1）如果正确的备选答案被所有的受测者所选择，说明该项目太容易或者可能是项目中提供某种暗示，使正确答案过于明显。（2）如果某个错误答案没有任何被试选择，则说明该项目不具有迷惑性，错得过于明显，除增加阅读时间外，不起任何作用。一般说来，除非有2%以上的人选择，否则该备选答案应该修改或删掉。（3）如果所有被试都选择了同一个错误答案，可能是编制测验时把正确答案搞错了，也可能是在教学中发生了错误。（4）如果高分组被试的选择集中在两个答案上，二者选择率接近，说明该题可能本来就有两种正确答案，或者在某种意义上另一个选择项也有一定的道理。（5）如果高分组对正确答案的选择率与低分组相等或低于后者，说明该题所考察的东西与被试水平无关，即不具有鉴别力，此题应删除或作大的修改。（6）如果一个题目被试未作答的人数较多（速度性测验除外），或选择各个备选答案的人数相等，说明该项目可能过难或题意不清，被试无法作答或凭猜测作答。
IRT的基本假设

潜在特质空间的单维性假设大多数项目反应模型都假设完全潜在空间是单维的。局部独立性假设被试对一个测验项目的反应不受他们对其他测验项目反应情况的影响。项目特征曲线假设（ICC）反映了被试对某一测验项目的正确反应概率与该项目所对应的能力或特质水平之间的函数关系。
项目反应模型

第一节项目的难度

一、项目难度的意义难度是指测验项目的难易程度。难度一般用于能力测验。对于人格问卷的题目P值表示“通俗度、流行度”用理解某项目的人数占总人数的百分比表示。二、项目难度的计算测验的记分方法不同，项目难度的计算方法也有所不同。（一）二分法记分项目的难度 1.通过率 R

第4章 测验的项目分析

第4章 项目分析

第四章-心理测验的难度与区分度教案资料

第四章 量表的设计和应用

心理测量4项目分析

戴海崎《心理与教育测量》(第3版)课后习题(第4章 测量信度——第6章 测验的项目分析)【圣才出品】

第四章 编制教育测验的一般原理与方法