心理测量学第六章-测验题目性能与题目编写(项目分析).PPT

合集下载

心理测量学第六节心理测验的编制程序

❖
❖ 常用的心理测验常模有百分位常模，标准分常模，发展常模及商数等。
例：16PF成人的男常模
编制测验说明书
❖ 测验的目的与功用 ❖ 测验的理论依据 ❖ 测验实施方法 ❖ 测验的标准答案和计分方法 ❖ 常模资料 ❖ 测验的基本特征（信度、效度等）
瑞文标准推理测验（目的与功用）
❖ (Raven's Standard Progressive Matrices简称 SPM)是英国心理学家瑞文(J.C.Raven)1938年设计的非文字智力测验。
能力。 ❖ (5)机械记忆——对事物进行强记的能力。 ❖ (6)知觉速度——准确迅速观察和识别事物的能力。 ❖ (7)一般推理——根据已知判断推出未知判断的能力。
目标分析三种情况
❖ 工作分析 ❖ 对特定概念下定义 ❖ 确定测验的具体内容
描述性的显示测验，目标分析的主要任务是确定显示的内容和技能，从中取样。
二、预测和项目分析
❖ （一）预测 ❖ （二）项目分析
预测应注意问题
❖ (1)预测对象应取自将来正式测验时准备施用的群体，虽然人数不必太多，但要具有代表性。
❖ (2)预测的情境应力求同正式测验的情境一致。 ❖ (3)预测的时限可以适当延长，以便每一受测
者都能将题目做完。 ❖ (4)施测者应对受测者的反应加以记录。
目标分析三种情况
对于选拔和预测功
❖ 工作分析 (job analysis)
用的预测性测验. 两个步骤：一是确定哪些心理特征和
行为可能使要预测
❖ 对特定概念下定义的活动成功，二是
建立衡量被试是否
❖ 确定测验的具体内容成功的标准。
目标分析三种情况
❖ 工作分析 ❖ 对特定概念下定义 ❖ 确定测验的具体内容

心理测量学课件六ppt幻灯片课件

2
4.1 参照常模的分数
智力测验是对心理能力进行测量与诊断的技术之一，起源于本世纪初法国著名心理学家比奈（A，Binet）。后来不少心理学家、教育家和精神病学家对它的价值、方法与技术进行了广泛研究和尝试，到三四十年代，智力测验在西方蓬勃兴盛，甚至狂热了一阵，之后逐渐平稳发展，迄今已成为心理测量中最
11
不通过为0分，连续5题得0分便停止测验。最后根据测验总分和被试实足年龄，可从指导手册的常模表中查得被试的智商，如某4岁零3个月的儿童得分为9，则可知其智商为108。
12
➢ 中国比内测验必须个别施测，并且要求主试必须受过专门训练，对量表相当熟悉且有一定经验，能够严格按照测验手册中的指导语进行施测。
3
为成熟的领域之一。在我国，自1979年心理测量恢复以来，心理学家们先后修订了一批世界公认的智力量表，并且已经或正在编制我国自己的量表。目前，智力测验在心理研究和社会实践中应用越来越广泛。
4
(二) 常见的智力测验
1、比奈智力量表比奈和西蒙出于诊断异常儿童智力的需要，于1905年编制了世界上第一个智力量表即比奈一西蒙智力量表。由于最初的比奈一西蒙量表十分简陋，且标准化程度较低，后人便纷纷对它进行了修订，其中美国斯坦福大学的推孟教授所作的修订工作最负盛名，被广泛采用。修订后的量表称作斯坦福一比奈量表。
心理测量学课件六ppt
1905年，法国心理学家比奈和医生西蒙在该理论的影响下，出于鉴定异常儿童智力的需要，合作编制了世界上第一个智力量表。以后的智力测验几乎皆以智力一般因素理论为基础，并遵循比西量表的模式，只不过测验内容的细节有所不同。需要指出的是，智力的评估指标几经改进之后，离差智商成为最广泛使用的指标。

心理测量学 PPT课件

因此，心理咨询师有必要了解心理测量的理论和技术。
❖
心理测量学知识部分的主要包括的内容有：第1节概述第2节测验的常模第3节测验的信度第4节测验的效度第5节项目分析第6节测验编制的一般程序第7节心理测验的使用
参考书目
❖ 主要依据国家职业资格培训教程的《心理咨询师（基础知识）》考试中的《心理测量知识》部分进行。这本书的主要参考教材有： 1．郑日昌、蔡永红和周益群著，《心理测量学》，人民教育出版社， 1999 2．龚耀先主编，《心理评估》，高等教育出版社，2003 3．姜长青主编，《心理测验学》，吉林教育出版社，2004 4．戴海崎、张锋和陈雪枫主编，《心理与教育测量》，暨南大学出版社，2002 5．顾海根编著，《学校心理测量学》，广西教育出版社，1999 6．宋维真、张瑶主编，《心理测量学》，科学教育出版社，1987 7．彭凯平编著，《心理测验——原理与实践》，华夏出版社，1990
的人数百分比。百分等级55的分数表示在常模，样本中有55%的人低于这个分数。
最早的一个范例是葛塞尔发展程序表（二）智力年龄
比内-西蒙量表中首先使用智力年龄的概念：基础年龄与在较高年龄水平的题目上获得的附加月份之和。计算方法：假如某儿童6岁组的题目全部通过，7岁组通过 4题，8岁组通过3题，9岁组通过2题，其智龄为：6（岁） +42（月）+32（月）+22（月）=6岁+18月=7岁6个月。（三）年级当量
第一节概述
【考查要点】 1．测量的含义； 2．不同的测量量表：命名、顺序、等
距和等比量表； 3．测验观：错误的和正确的； 4．不同的测验种类。
第一单元、测量与测量量表
一、什么是测量 • 测量就是依据一定的法则用数字对事物加以确定。 • 定义中包括三个主要的元素：（1）事物（2）数字

心理测量学概述课件(PPT 57页)

注意：不要滥用和过度依赖量表。
18.11.2019
10
第六单元心理测验的发展史
一、科学心理测验的产生与发展科学心理测验的先驱：高尔顿、卡特尔。高尔顿设计了测量差异的方法，被看作心理测验的开端；第一个提出相关的概念。卡特尔（1890）在《心理》上发表《心理测验与测量》，这是心理测验第一次出现在心理学文献中。产生：1905年，世界第一个正式的心理测验产生——比内-西蒙智力测验。发展：1操作测验的发展
（四）等比量表
数字既有相等的单位，又有绝对零点。可进行加减乘除运算。如，体重，长度等。
18.11.2019
6
第二单元心理测验的基本概念
一、心理测验的定义心理测验：依据心理学理论，使用一定的操
作程序，通过观察人的少数有代表性的行为，对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。（四个方面理解）
18.11.2019
29
第二单元效度评估的方法
一、内容效度（一）什么是内容效度
内容效度：测验题目对有关内容或行为取样的适用性，从而确定测验是否是所欲测量的行为领域的代表性取样。
要编制较高内容效度的心理测验需要：1对所测量的心理特性有个明确的概念，并划定出那些行为与这种心理特性有关，又较密切。2测验题目应是所界定的内容范围的代表性取样。
欲K：提长改高度变信是后度原的，来长题的度数K与倍的原时增长的加度信公之度式比估为.计r：xx。:原：k测验rr的kxkx((11信rrk度xkx))； rkk:测验
18.11.2019
26
三、测验难度洛德：五选一：0.70；四选一：0.74；三选
一：0.77；二选一：0.85.
四、时间间隔两到四周，不超过六个月。

心理测试量与结果分析 ppt课件

• 明尼苏达多项人格调查问卷（MMPI）
运
心理评定量表
用
• 精神病评定量表、躁狂状态评定量表、抑郁量表、焦虑量表、恐怖量表
较多的
心理测试量与结果分析
。
什么是心理测量科学的测量与衡量测量科学性的标准现代几种对心理测量有影响的人格理论结构化人格测试几种心理测评工具的应用非结构化人格测试的几种测评工具
信度低效度也低
信度高效度低
心理测试量与结果分析
效度高信度也高
2.2 效度的评估方法
• 内容效度 • 构想效度 • 效标效度
心理测试量与结果分析
2.2.1 内容效度
定义
评估方法具体操作
特性
内容效度
（逻辑效度）
是看该测验是否是所欲测量行为领域的代表性取样。
专家判断法
统计方法
（测题是否有代表性）
• 根据两个维度的分析，可以把人分成稳定的内倾型、稳定内外倾型，不稳定内倾型和不稳定外倾型四种类型。
• 艾森克认为居中间位置的人占多数，只是少数人属极端典型的类型。
心理测试量与结果分析
人格的海洋（OCEAN ）——大五人格理论
• 外倾性（extraversion）：好交际对不好交际，爱娱乐对严肃，感情丰富对含蓄;表现出热情、社交、果断、活跃、冒险、乐观等特点。
经验
推测法
三步骤： 1）定义好测验的总体
范围。 2）编制双向细目表 3）制定评定量表来测
量测验的整个效度
1）内容效度的前提是测验分析者和测验使用者定义的内容范围一致。
1）评分者一致性 2）复本信度 3）再测法
通过实践来检验效度
2）内容效度还有时间特性。

《心理测量学》全套精品课件第六章

CP=（KP-1）/（K-1）（6.11）或
CP=P-q/K-1
(6.11')
式中CP为校正后通过率，P为实际通过率，K为
备选答案数目；q=1-p。
如果要比较两个选项数目不同的测题难度，必须应用公式（6.11）分别将两个测题的难度进行校正，然后才能进行比较分析。
例：有A、B两个测题，项目A为四重选择题，通过率为0.58；项目B为五重选择题，通过率为0.56；试比较两题的难度。
3．φ 相关 ad-bc
rφ= √(a+b)(c+d)(a+c)(b+d)
4．积差相关

三、区分度与难度的关系
难度（Ｐ） 1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
区分度（Ｄ） 0
0.20 0.40 0.60 0.80
1 0.80 0.60 0.40 0.20
四、对选择项的反应模式注意从以下几个方面进行分析：
（一）如果正确的备选答案被所有的受测者所选择，说明该项目太容易或者可能是项目中提供某种暗示，使正确答案过于明显。
（二）如果某个错误答案没有任何被试选择，则说明该项目不具有迷惑性，错得过于明显，除增加阅读时间外，不起任何作用。一般说来，除非有2%以上的人选择，否则该备选答案应该修改或删掉。
公式（6.11）是对全体被试而言的，即根据被试团体在某项目上的通过率而计算校正难度。
若对某个被试来说，参加由多个项目所组成的测验，同样有必要对他们的得分进行校正，以求出能反映出他真实水平的校正分数，校正公式只需将公式（6.11）稍作变换即得下式： S=R-W/（K-1）（6.12）式中S为校正后的得分，R为被试答对的项目数，W为被试答错的项目数，K为项目的选项数目。

心理测量学(基础知识)PPT课件

P355 16
心理咨询师培训课程-—《心理测量学》
五、心理测验的发展简史
1. 现代心理测验的开始
波林：在测验领域，“19世纪80年代是高尔顿的10年，90年代是卡特尔的10年，20世纪头10年则是比内的10年。”
（1）英国的高尔顿（F.Galton）。受达尔文进化论的影响，最早关注个体气质特点与智能差异，即个性差异；为了研究差异的遗传性，设计了差异测量的方法，这可被看作是心理测验的开端；高尔顿提出相关的概念，并由他的学生皮尔逊（K.Pearson）发展出积差相关，为心理测验奠定了统计学基础，使心理测验的信度、效度评估和进行因素分析成为可能。其实际测量集中在1884后的6年。
（2）人格测验：艾森克人格问卷（ EPQ）、卡特尔16 种人格因素问卷（16PF）、明尼苏达多项人格调查表（MMPI）等。这些测验可以达到了解、诊断和预测的目的；
（3）心理评定量表：精神病评定量表、躁狂状态评定量表、抑郁量表、恐怖量表等。这些测验主要用来进行临床诊断和疗效评估。
12/22/2019
P351 13
心理咨询师培训课程-—《心理测量学》
正确看法
第一，心理测验是心理学研究和实际工作中的有效工具，可以帮助人们收集有关人的心理特征、心理状态的资料，获得对人的心理活动规律性的认知和进行科学决策；
第二，心理测验作为研究方法和测量工具，尚不完善，其使用中会带来系统的和随机的误差，所以可信但不能全信、可靠但不是绝对可靠的。“无用论”和“万能论”都是错误的；
12/22/2019
P353 12
心理咨询师培训课程-—《心理测量学》
三、如何看待心理测验
错误看法
第一，万能论：心理测验测验完美无缺，可以解决一切问题；第二，无用论：侵犯隐私，违背民主原则，种族歧视，宿命论等；第三，心理测验就是智力测验：

心理测量ppt优秀课件

因素五（报答）
因素六（成绩）
因素5包括5个项目：为减轻父母的负担和压力；为不让父母失望；为报答父母的养育之恩、给他们争光。这些项目主要体现当前大学生为回报家庭、父母而学习的需要倾向，称之为“报答型动机”。
因素6包括9个项目：为能够得到奖学金；为继续学习深造(升本、考研、或出国等)；为了不因考试不好而丢面子；不甘人后、希望在各方面不断超越他人。这些动机基本与大学生当前的学习结果直接相关，是一些基于争取好的成绩表现、并避免对自己的消极评价的近景性动机，类似于成就目标中的成绩目标倾向，所以将其命名为“成绩目标型动机”。
问卷各维度题目呈现
就业与生活
目前我对家里的住房条件很满意。我想获得更高的社会地位和权利。我对我每个月的生活费很满意。我考各种证书只是为了更容易就业。我目前面临的最大的苦恼是就业形势很严峻。我觉得只有努力学习才能找到一份好工作。我认为努力学习是拥有一个美满家庭的前提。
求知
社会奉献
我学习知识首先考虑它是否对社会有用。我想成为一名合格的社会主义建设者和接班人。我想学好本领更好的建设家乡。我努力学习是为了为民族振兴、祖国强盛尽一份力。我想符合社会主义建设的要求，成为一名合格的“四有新人”
。我很认同“为中华之崛起而读书”这句话。作为学生，学习是我的责任和义务。
五
很不符合
不太符合
级
不能肯定
评分
评分制
有些符合
制很符合
问卷呈现
大学生调查问卷亲爱的同学：
您好！这是本小组的一次课题作业，希望您先详阅每一题的题目，再根据您自己的看法选择一项符合您情况的选项，在相应的选项上划“√”。对于您所填写的答案无所谓好坏对错之分，且问卷所得的结果只做团体性的分析，不做任何个别呈现。注：本问卷采用五级评分制： 1——很不符合 2——不太符合 3——不能肯定 4——有些符合 5——很符合

心理测量学(详细)PPT课件

（二）教学目的通过学习，要求学生掌握心理测量的基本知识、心理测量的编制和实施、以及良好
测量所要求具备的基本条件。更重要的是，通过本课程的学习要使学生熟练掌握不同心理测量的实际应用。
（三）教学内容本课程的主要教学内容有：心理测量的基本内涵及其评价和测量的一般步骤和方
法两部分。内容涉及一般测量解析，测量的要素及量表类型，测验信、效度、难度和区分度，测量的一般步骤和方法，智力测验、人格测验等心理测验，以及心理测量的综合应用和心理测量理论的新发展等内容。
6
第二章经典测验理论的基本假设
教学要点：通过本章的学习，掌握经典测验理论的基本假设，心里特之及其特性，
心里测量的误差和种类，以及真分数的含义等内容。教学时数：[6学时]
教学内容：一、心理特质（Trait）及其可测性假设
1．经典测验(Classical Test Theory ,CTT)理论 2．特质假设
3
二、测量的要素及量表类型 1．测量的要素识记：单位（Unit），参照点(Reference Point)，量表(Scale) 2．量表类型（1）称名量表称名变量只说明某一事物与其他事物在名称、类别或属性上的不同，并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。（2）顺序变量顺序变量是指可以就事物的某一属性的多少或大小按次序将各事物加以排列的变量，具有等级性和次序性的特点。（3）等距变量等距变量除能表明量的相对大小外，还具有相等的单位。（4）比率变量比率变量除了具有量的大小、相等单位外，还有绝对零点。
5
（五）心理测量的道德准则 1．心理测量工作者的素质要求（1）心理测量工作的知识结构.（2）对心理测量的态度 2．心理测量工作者的道德准则（1）测验的保密和控制原则（2）测验中个人隐私的保护

心理测量学(项目分析)PPT课件

由于计算机的方便使用，可以上下50% 作为划分高低组的标准，或者多分几组，对区分度和难度作详细分析。因为只取上下两端，只利用了一部分资料，浪费了很多信息，有可能得出错误结论。
2021/3/12
心理测量学郭志峰 7
难度公式（通过率）
公式3：
CP KP1 K 1
CP为校正后的通过率，P为实得通过率，K为备选答案数目。
相关的显著性检验：Z大于1.96为显著相关
Z rb
1 • pq yN
2021/3/12
心理测量学郭志峰 21
项目特征曲线
❖item characteristic curve, ICC
❖ 项目特征曲线描述了效标分数不同的被试在该项目上的通过率。
❖ 曲线坡度越陡，鉴别力越好，预测的误差越小。
正
区分度的计算
❖ 注意： ▪ 要求二分变量的分布是正态。 ▪ 要求连续变量分布是单峰对称
2021/3/12
心理测量学郭志峰 17
区分度的计算
（2）皮尔逊积差相关适用于两个连续变量。如
语文科分数与总考分（不划分）
r xy
x•
Sx
N
y
Sy
rxy
xy N Sx Sy
2021/3/12
心理测量学郭志峰 18
❖ 当题目之间正相关时，题目难度值应分布的广些但平均难度应以0.50为好。
❖ 对于选择题来说，难度一般应大于猜测概率；当题目有猜测可能时，题目的 P 值应适当加大。
2021/3/12
心理测量学郭志峰 10
测验难度水平的确定
❖ 效标参照测验、掌握测验：不考虑难度； ▪ P=1.0或P=0有可能也是好题
69
7 8

心理测量学第六章项目分析

CV 9 . 80 14 . 44 0 . 22 ;

题目B的方差为3.88,
3 . 88 6 . 89 0 . 29 ;
CV

由于题目满分较高，所以，题目A的方差大于题目B的的方差，但变异系数却是题目B大于题目A。题目B的区分能力优于题目A，这一点可以直观地从这一组简单的数据中看出。当数据数目较多的时候，就难以直观地看出，需要借助统计手段。
AD - BC

A B C
D A C B D

A=在测验和效标中均通过的人数 B=在测验上通过而在效标未通过的人数 C=在测验上未通过而在效标上通过的人数 D=在测验和效标中均未通过的人数。

φ相关系数的显著性考验公式为：
0 . 05
1 . 96 N

(一) 方差方差是标准差的平方，是反映一组数据离散程度的指标。一个题目得分的离散程度越高，鉴别能力自然也较高，因此，方差可以作为区分度的一种指标。请看题目和题目的得分： A：6 5 4 4 3 3 3 3 3 2 2 1 0 B：4 3 3 3 3 3 3 3 3 3 3 3 2

难度差的计算公式
D Ph Pl

D=鉴别指数 Ph=高分组难度(通过率) Pl=低分组难度(通过率)
（六）题目特征曲线

另一种简单、形象的题目区分度分析方法是绘制题目特征曲线。题目特征曲线反映了题目的通过率与效标（或测验总分）之间的关系。
第三节难度与区分度的关系

我们以通过率P作为难度的指标，以方差

度
一、难度定义与计算难度是题目的难易程度的指标。难度(Df)以正确回答的人数在全体受测者中的比例来定义。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

根据题干从备选项中选出正确选项的题目。单项选择题指只有唯一正确选项的选择题。 2、特点功能： ①评分标准明确，评分客观，有利于减少评分带来的评分误差。 ②有利于对基础知识和基本技能进行考查。
③选择题适合考查较低层次的能力，如识记能力、较低的理解能力等，而不宜考查较高层次的能力，如综合能力、创造性和独立思维能力。
一、区分度的定义
（一）定义 ❖ 测验项目对所测量的心理特性水平差异的区分能力或鉴别。（二）作用 ❖ 测验是否有效度的“指示器”。 ❖ 若区分度高，则水平高者得分高，水平低者得分低；若区分
⑤行为情景判断题设问方式一般有四种形式：一是要求受测者选择最优行为项，二是要求受测者选择最差行为项，三是要求受测者同时选择最优和最差行为项，四是要求受测者针对每一行为项的有效性做出评价。应根据实际选择具体方式。
第二节测验题目的难度与难度控制
一、难度的定义二、难度的计算三、测验难度水平的确定四、难度的等距变换五、测验的难度对测验分数分布的影响
的差异等于第2题和第3题间的差异。（二）解决方式：等距变换，即把难度P转换成标准分数Z。 ❖ Z分数(0，+1σ)约占全体人数的34%,(1σ,2σ)间占全体人数的
13.5%。 ❖ 项目A通过率为84%(难度为0.84)，难度值为-1σ。 ❖ 项目B通过率为16%(难度为0.16)，难度值为+1σ。 ❖ 项目C通过率为50%(难度为0.50)，其难度为0。
②论述题和计算题不仅能够考查考生较低层次的能力目标，而且能够比较好地考查较高层次的能力目标。
③论述题和计算题能够反映考生的思维过程，因而能比较有效地考查考生接受信息、鉴别和选择信息的能力，分析、推理、综合应用知识的能力，能鉴别出考生对问题解决的程度。
④论述题和计算题可以根据试题相应情境进行不同层次、不同角度的设问，如可以是单问，可以是多问，也可以是分步设问，使试题的考查目标比较明确。
中心建议用转换过的分数来表示试题难度值，公式为： Δ=13+4*Z
❖ Δ为难度指标，Z为由P转换得来的标准分数。 ❖ 例：上面A、B、C三题的Δ（难度值）为： ❖ 项目A:P=0.84，Z=-1， Δ=13+4*（-1）=9 ❖ 项目B:P=0.16，Z=+1， Δ=13+4*1=17 ❖ 项目C:P=0.50，Z=0， Δ=13+4*0=13 （四）“Δ”的解释 ❖ Δ值越大，试题越难；Δ值越小，试题越容易。
目。它用于考查被试分析、综合、评价直至创新、创造等高层次能力。
▪ 计算题指主要是通过计算或运算来解答的题目。计算题内容量有大有小，常常用于考查被试的应用能力。一般要求给出条件完备无冗余，答案唯一。
2、特点功能：
①论述题有利于考生独立地、创造性地解题。试题的能力考查涉及的知识面可以比较大，而且要求考生通过分析去找出所涉及的知识并找出它们的内在联系。试题从定性分析到定量计算，工作量一般比较大。
③跟所测领域个人的工作经验、工作年限有统计显著意义的相关。
④有些情景判断测验作探索性因素分析,可提取出一个大的一般因素,这时测验的内部一致性系数可为0. 86
⑤对员工的工作绩效有较好的预测力,平均效度系数为0. 36
3、行为情景判断题编制
①题目编制前应先确定所测特质的结构，然后在这一所测特质结构下征集或编写问题情景及行为反应项
日常生活中或工作中的具体情景，并针对该情景提供若干解决这一情景下具体问题的行为选项，并要求受测者进行选择/评价的题型。
2、特点功能： ①与一般认知能力有较强的相关,平均达0. 54 ②跟大五人格因素的多项因素有中度以上的相关,如
跟责任心的相关为0. 26 ,跟情绪稳定性的相关为0. 32 ,跟宜人性的相关为0. 25
❖ 对于一道题目来说，当P=0.50，数据的分散程度最佳。
难度
离散程度
信度
六、合理难度及合理难度分布的控制（1）对题目难度的控制 ▪ 主要从考核的知识点及其能力层次等方面进行
控制。 ▪ 考核单一知识点的题目相对考核较多同类知识
点的题目要容易。
▪ 考核能力层次相对要低（如识记和记忆）的题目，其难度相对低，而对于考核能力层次高（如理解、综合应用）的题目，其难度相对会高。
能
三、填空题 1、特点功能： ①考查的能力层次范围比较广，主要考核识记和
理解能力。 ②填空题要求考生把问题的最后答案或结论正确
无误地表达出来，在一定程度上是对考生的严谨、严密、认真、细致的工作作风和科学态度的检查。
③评分简单，误差也相对要小。
④填空题只要求考生写出最后答案，而不必写出解题的具体过程，因此，从试卷上看不出考生的推理、分析等思考过程
▪ 因而可以通过控制题目考核的知识点及其能力层次来达到控制试题难度。
（2）对试卷难度分布的控制控制试卷难度分布是在控制试题难度的前提下进
行，它主要是通过控制不同难度题目的比例从而达到所需的难度分布。
第三节测验题目的区分度及其提高
一、区分度的定义二、确定区分度的方法三、区分度的相对性四、区分度与难度的关系
2、填空题编制 ▪ 试题的空格处应考查有意义的关键性内容或
词语。 ▪ 每小题的空格数不宜过多，填写的字数也不
能太多。 ▪ 空格部分统一用下划线表示，长度应能满足
答题需要 ▪ 若空格处考核计算能力并要求填写数字，应
在空格后标明数字的单位
三、论述题与计算题 1、定义： ▪ 论述题指对某一问题或议题进行综合论述的题
二、难度的计算
2.极端分组法
❖ 当被试人数较多时，则可根据测验总成绩将被试分成三组：总分最高的27%（25%、33%）被试者为高分组（NH）, 总分最低的27%被试者为低分组（NL）。分别计算高分组和低分组的通过率，以两组通过率的平均值作为每一题的难度。其公式为：
P=(PH+PL) / 2 ❖ 式中P代表难度，PH和PL分别代表高分组和低分组通过率。 ❖ 例：370名被试参加考试，高分组和低分组各100名，高分
第一节测验题目的类型、功能与编制
一、测验题目类型 ▪ 题目主要可分为客观题和主观题两大类。 ▪ 客观题一般有标准唯一的答案，被试的作答
只有与标准答案完全一致才视为答对，否则视为答错。 ▪ 主观题无标准唯一答案，只有一个参考答案，被试的作答与参考答案相近或基本一致就可视为答对。
▪ 客观题主要包括选择题（含自陈式选择题）、填空题、是非判断题、匹配题、行为情景判断题等。
组70人答对第一题，低分组40人答对此题，则此题难度为：
❖ P=(70/100+40/100)/2=(0.7+0.4)/2=0.55
二、难度的计算
（二）非二分法计分的项目
❖当测验项目是问答题或其他不能用二分法计分的形式时，得分是一个连续变量。对于这类型题目，一般用下面的公式计算难度：
P = X / Xmax ❖ 式中 X 为全体受测者在该题上的平均分， Xmax 为
②问题情景应是现实生活中可能发生的，且有一具体的问题需要受测者来解决，解决问题的行为/方法不应是唯一的而是多样化的
③问题情景应尽量叙述完整，清晰，语言规范，字数介于100-300
④一般是根据相关有丰富经验的专家来确定行为项的优劣，然后将受测者的作答与专家的评定进行比较，从而确定具体的计分方式及评价标准
▪ 主观题主要包括名词解释、简答题、计算题、证明题、论述题、案例分析题、作文题等。
▪ 单项选择题 ▪ 多项选择题 ▪ 自陈式选择题 ▪ 是非判断题 ▪ 名词解释题 ▪ 简答题
▪ 计算题 ▪ 证明题 ▪ 论述题 ▪ 案例分析题 ▪ 组合题 ▪ 行为情景判断题
二、选择题 1、定义：选择题指给出题干及备选项，要求被试
五、难度对测验的影响
1、难度对测验分数分布形态的影响 ▪ 当测验题目过难时，测验分数呈负偏态分布； ▪ 当测验题目过易时，测验分数呈正偏态分布； ▪ 当测验题目趋近中等难度，测验分数基本可呈正态
分布。
难度影响测验分数的分布形态 ❖难度大，正偏态
❖难度低，负偏态
▪ 2、难度对测验分数离散程度的影响 ▪ 测验过难或过易，会使测验分数相对地集中低分端
⑤论述题、计算题在评分过程具有一定的主观性。
⑥论述题、计算题的最大缺点是阅卷评分的工作量比较大，对阅卷人员的要求比较高，阅卷工作的费用较大。同时论述题、计算题评分误差较难控制，在控制不好的情况下，评分误差可能会很大。
四、行为情景判断题 1、定义： ▪ 行为情景判断题多见于心理测验中，它指给出一个
制在0.15为好。 (2)取决于测验的性质 ❖ 速度测验；难度不宜太高；每个项目应基本相等。 ❖ 难度测验；要适当；则要求难度值在0.5左右。 ❖ 无论是速度测验，还是难度测验，都应防止被试得满分。 (3)取决于测验的形式 ❖ 对于选择一）不同项目难度比较存在困难 ❖ 以通过率作为难度指标，是以顺序量表表示难度。 ❖ 例:三道题目难度为0.60、0.70、0.80，不能说第1题和第2题间
或高分端，这样被试的差异较小，即测验分数的离散程度很小，只有当测验趋近中等难度时，测验分数分布范围较广，离散程度就会大。
❖测验过难或过易，会使得测验分数相对集中在低分端或者高分端，从而使得分数全距缩小。
❖ 根据信度公式rxx=1-σE2/σX2可知，分数分布范围越广，测验信度较高，反之则信度值较低。
④选择题的命题技术要求较高，尤其是干扰项的设置。
3、选择题编制 ①题干要描述清楚。应让答题者明白问题是什
么，希望答题者解决什么。 ②题干中应尽量避免出现与考核内容无关的材
料 ③设问应尽量正向，尽量少出现如“下面哪个
是不对的？”的设问
▪ 题干文字的字体应尽量一致，以减轻考生的阅读负担
▪ 备选项应避免出现逻辑上的包含关系 ▪ 备选项的长度、结构、语言表达要尽量一致 ▪ 增加干扰项的迷惑性 ▪ 干扰项的设置应能反应考生缺乏特定的知识或技