第五章经典测验理论——信度

合集下载

心理测量学测验的信度

（四）时间间隔
智力的时间变化
间隔期
信度系数
同日或次日 1年
2～2.5年 5年 9年
0.90～0.95 0.85 0.80
0.75～0.80 0.78
年龄的时间变化
年龄越低，信度越低
间隔六年，rXX的变化
第一次 4 9
11
第二次 10 15 17
rXX 0.73 0.87 0.92
思考
▪ 如何提高测量的信度?
成熟标志
三大支柱
20世纪50年代 Gulliksen
《心理测验理论》
基本假设信度效度
▪ Classical Test Theory（CTT）
基本假设与真分数
1、真分数
测验所得未加工
理论定义真正特质水平
操作定义无数次测量结果的均值
▪ 经典测验理论（CTT）假定：
观察分数（X）与真分数（T）之间是一种线性关系，并只相差一个随机误差（E）。
▪ 适当增加测验的长度; ▪ 使测验项目的难度分布接近正态; ▪ 努力提高试题的区分度; ▪ 选取适当的被试团体; ▪ 主试严格执行测验规程; ▪ ……
几点说明
▪ 1.有多少种误差,就有多少种估计信度的方法. ▪ 2.上面介绍的各种计算方法仅适用于常模参照测验. ▪ 3.标准参照测验的信度问题必须以概化理论为依据. ▪ 4.不同类型的测验，信度的要求是不一样的. ▪ 5.用不同方法估计的信度也会有所差异.
类型产生原因
特点
效能
指标
随机不易控制的误差偶然因素
方向和大小上完全随机
影
影响一致
信
响性度
准
系统恒定、有规稳定地存在于每确不影效

测验的信度问题定

.
5.2.1再测信度
概念：同一测验让同一组被试做两次，两次测验中间隔一段时间。计算两次测验分数之间的相关，其相关系数表明该测验随着时间的推移是否保持稳定。
使用再测信度时要注意练习效应和学习效应，注意选择合适的时间间隔。
.
5.2.2复本信度
复本测验是指在性质、内容、题型、难度等方面都一致的两份或多份测验。同一组被试在复本测验上所得结果的相关系数就是复本信度。
.
5.2.3 内部一致性信度
内部一致性是指同一测验里的各题目或各部分题目是否测了同一个东西。如果测验的各个题目测的都是同一个东西，这些题目间就有一致性，反之，题目之间则没有一致性。
估计内部一致性信度的方法有很多种，这些方法大致可以归为两类。一类是通过测验两半的相关来估计，另一类是通过题目的方差来估计。
.
5.3 影响信度的几个因素
被试的异质性程度被试的异质性程度越高，真分数的方差就越大，信度也就越高。
时间限制在严格的时间限制下，被试的答题速度对分数有明显的影响，也就是说被试真分数的方差不仅包括被试对题目反应的差异，也包含了被试答题速度的差异。在这种情况下，信度系数就被高估了。
.
测验的长度
测验太难或太容易时，分数的范围就会缩小，从而降低信度。当测验难度水平为0.5时，信度最高。题目区分度
题目的区分度与测验信度关系密切。区分度好的试题对被试的真分数估计得较准确，测量误差较小。如果一份试卷中题目的区分度都很好，测验的信度就会很高。
.
5.4 信度系数的用途
一．评价测验信度系数是衡量测验好坏的一个重要
根据区间估计的方法，假定一个测验的标准误是 SEM=10，被试得分X=50，如果我们想使推测的正确率达到95%，被试的真分数就落在观测分上下1.96个标准误的范围内，即 (X-1.96SEM)≤T≤(X+1.96SEM)，结果是30≤T≤70。这表明，被试的真分数落在30到70分之间的可能性有95% 。

心理与教育测量学-戴海琦-第三版-重点问答题及答案

第一章、心理测量概述1、心理测量的含义、特点;测量的含义;要素；以及测量的量表(1）心理测量的含义：依据一定的法则，对人的心理特质进行定量描述的过程.（2）心理测量的特点–间接性：与物理的直接测量不同，从外显行为推测,以间接了解人的心理属性;–相对性：测量的结果是与其所属团体比较而言。

–客观性：即测验的标准化，是对一切测量的基本要求。

（3)什么是测量:测量是根据法则给事物分派数字（S。

S。

Stevens）事物：测量对象，在心理测量中，想测量的当然是心理能力和人格特点；数字：代表某一事物或事物某一属性的量;法则：测量所依据的规则和方法.（4）测量的要素：参照点:①测量工作中测量对象的数量的固定原点②绝对参照点：以绝对的零点作为测量起点，如长度/高度③相对参照点:相对零点，如温度[水冰点]、海拔［海平面]单位①理想的单位一是要有确定的意义,不能有不同解释②其次应有相同的价值，即两个单位点之间差异相等。

（5）测量的量表：量表：任何可以使事物数量化的值或量的渐进系列.①命名量表：数字仅仅代表分类，无任何意义；不可比较,如男女②顺序量表：可比较，没有相同单位和零点，不能加减；如名次③等距量表：可比较，有相同单位无绝对零点，可加减，不可乘除；适用多种统计方法：平均数、标准差等,如温度④比例量表：最理想的量表，有等距的的单位和绝对零点，有倍数关系；如年龄.2、什么是心理测验,如何理解心理测验？心理测验的类型；心理测量的功能；（1)什么是心理测验：心理测验实质上是行为样本的客观的和标准化的测量.①行为样本：有代表性的题目②标准化：测验的编制、实施、计分和分数解释的一致性。

③难度的客观测量：测验的编制、实施等过程中减少主试和被试的随意性程度即标准化，测验的难度水平应确定④信度：测验结果的一致性⑤效度：测验结果的有效性和正确性.（2）、心理测验的类型：①测验对象分：智力测验、能力倾向测验、成就测验、人格测验②按测量方式分：个别测验和团体测验③按测验材料性质分:文字测验和非文字测验④按测验功能分：成就测验与预测测验，难度测验与速度测验,描述测验与诊断测验。

心理测量学中的信度和效度分析

心理测量学中的信度和效度分析心理测量学是研究心理测量方法与技术的学科，旨在通过反映被测者的心理特征和过程，揭示其心理素质、智力水平等信息。

而在心理测量过程中，信度和效度分析是两个重要的概念。

一、信度分析信度是指测量工具在测量同一心理特征或过程时的稳定性和一致性。

换句话说，信度反映了测量工具在同一被测者群体中的结果是否稳定，并且是否能复现。

具体来说，信度分析主要从可靠性和稳定性两个方面来考量。

1.可靠性可靠性是指测量工具的结果是否稳定且一致。

在心理测量学中，一种常用的方式是通过内部一致性来评估可靠性，最常见的统计方法是Cronbach's α系数。

Cronbach's α系数介于0和1之间，数值越大代表内部一致性越高，通常要求α系数达到0.7以上为可靠。

2.稳定性稳定性是指测量工具在不同时间或在不同条件下所得到的结果是否一致。

为了评估测量工具的稳定性，常用的方法是再测法和半分法。

再测法是指在不同时间或条件下对同一样本重复测量，然后通过计算相关系数来评估稳定性。

而半分法则是将测量工具的题目分成两部分，分别进行测量并计算两部分得分的相关系数。

二、效度分析效度是指测量工具是否能够准确地测量所要测量的心理特征或过程。

也就是说，效度是评估测量工具是否真的测量到了我们想要测量的东西。

效度分析主要从描述效度、判别效度和预测效度三个方面来考量。

1.描述效度描述效度是指测量工具是否能够全面、准确地描述被测者的心理特征或过程。

具体来说，可以通过专家评定法和内容效度等方法来评估描述效度。

专家评定法是通过请相关领域的专家对测量工具进行评定，包括评估题目的合理性、适用性等方面。

而内容效度是指测量工具的题目是否充分、恰当地涵盖了被测者的心理特征或过程。

2.判别效度判别效度是指测量工具能否区分不同的心理特征或过程。

为了评估判别效度，常用的方法是构太效度。

构太效度是通过与已知测量工具或理论进行比较，来确定测量工具是否能够与其他相关测量工具或理论得到一致或相似的结果。

4. 信度

在测量理论中，信度被定义为：一组测验分数的真变异数与总变异数（实得变异数）的比率。
rxx=ST2 / Sx2 式中，rxx代表测量的信度，ST2代表真分数的变异数， Sx2
代表是实得分数的变异数，即总变异数。
该定义有两点需要注意：
第一、信度指的是一组测验分数或一列测量的特性，而不是个人分数的特性；
2. 假设用A、B两型创造力复本测验对初中一年级10个学生施测。结果如表所示，X1 ，X2 分别代表A、 B两型测验。求该测验的复本信度。
测
被试
验 1 2 3 4 5 6 7 8 9 10
X1 20 19 19 18 17 16 14 13 12 10 X2 20 20 18 16 15 17 12 11 13 9
（一）定义与计算
１．定义用同一种测验，对同一组受试者，前后施测两次，再根据受试者两次测验分数计算其相关系数，即得重测信度。
即测验时距（几分－几年）再测验
此种信度能表示两次测验结果有无变动，反映测验分数的稳定程度，故又称稳定性系数。
２．计算方法
计算使用皮尔逊积差相关公式的变式： ∑ Ｘ１Ｘ２－ ∑Ｘ１ ∑Ｘ２／Ｎ
2. 两次测验的时间间隔要适当，若太短，由于测验太相似被试可能厌倦，若太长可能又会因新的学习而产生干扰。
（五）使用复本信度的局限
1. 只能减少但不能完全消除练习和记忆的影响； 2. 由于第二个测验只改变了题目的具体内容，已经掌握的解题原则可以很容易地迁移到同类问题。 3. 对许多测验来说，建立复本是十分困难的。
rxx NＳ１Ｓ２
式中Ｘ１、Ｘ２为同一被试的两个分数，Ｓ１、Ｓ２为两次测验的标准差，Ｎ为被试人数。
（二）误差来源
1. 测验本身：测验所测的特性本身就不稳定，例如情绪。

第五章测试与测试理论

例如，、两组各有位学生参加同一次语文测验，两组各有6位学生参加同一次语文测验例如，A、B两组各有位学生参加同一次语文测验， A组的分数为、85、75、65、55、45，B组的分组的分数为95、、、、、，组的分组的分数为数为73、72、71、69、68、67。这两组的平均数数为、、、、、。都是70，组的标准差为18.71分，B组的标准差都是，但A组的标准差为组的标准差为分组的标准差），说为2.37分（此数据是在统计软件中运行获得），说分此数据是在统计软件中运行获得），组学生之间的差距要比B组学生之间的差距大明A组学生之间的差距要比组学生之间的差距大组学生之间的差距要比得多。得多。
举例例如，一次测验的考生人数为例如，一次测验的考生人数为100人，按考试成绩取前面人按考试成绩取前面27 人和后面27人构成高分组和低分组人构成高分组和低分组。人和后面人构成高分组和低分组。第一题，无论是高分组或是低分组无一人选择，第一题，选项 C无论是高分组或是低分组无一人选择，说明无论是高分组或是低分组无一人选择 C对该试题没有贡献，应予修改或删除。对选项 A，高分组对该试题没有贡献，对该试题没有贡献应予修改或删除。，和低分组几乎有相同的选择，说明该选项有意义含糊之处，和低分组几乎有相同的选择，说明该选项有意义含糊之处，也需要修改。本题的难度和区分度比较合适。也需要修改。本题的难度和区分度比较合适。第二题，高分组和低分组对正确选项选择的人数一样多，区第二题，高分组和低分组对正确选项选择的人数一样多，分度为0，四个错误选项也具有同等的迷惑力。分度为，四个错误选项也具有同等的迷惑力。这很可能是因为题目的编制不当，因此需要进一步修改。因为题目的编制不当，因此需要进一步修改。第三题，低分组的答对人数反比高分组的答对人数多，第三题，低分组的答对人数反比高分组的答对人数多，区分度出现负值，这样的题要么删掉，要么重新编制。度出现负值，这样的题要么删掉，要么重新编制。第四题，高分组的学生有％以上的学生答错，第四题，高分组的学生有80％以上的学生答错，低分组的无一人答对，可见题太难。一人答对，可见题太难。而且答错者较多地集中在选项 C上，上说明选项的迷惑力太强了。说明选项的迷惑力太强了。

测验信度名词解释

测验信度：评估测验结果的可靠性一、测验信度的定义测验信度是指测验的准确性和可靠性。

它可以用来衡量测验题目是否能够准确地反映测试受试者的知识水平和能力。

它是测试设计者判断测试有效性的一个重要指标，是衡量测试成绩的重要指标。

测验信度可以通过计算测试的内部一致性来衡量，例如，Cronbach's alpha信度系数可以用来衡量测试的内部一致性。

通过计算每一道题的相关系数，可以判断测试的可靠性。

此外，测试的外部一致性也可以用来衡量测试的信度，例如，可以通过计算两个测试的相关系数来衡量测试的外部一致性。

测验信度的重要性不言而喻，它不仅可以用来衡量测试的准确性，而且可以帮助我们判断测试的可靠性，从而帮助我们决定测试的有效性。

因此，测验信度是测试设计者判断测试有效性的一个重要指标，是衡量测试成绩的重要指标。

二、测验信度的重要性测验信度是衡量测验结果可靠性和效力的重要指标。

它可以帮助我们评估测验的准确性，以确保测验结果的有效性。

测验信度可以帮助我们识别测验中存在的偏差，并有效地避免测验结果的偏离。

例如，一项测验可能会受到某些环境因素的影响，而测验信度可以帮助我们确定这些因素的影响程度，以便采取相应的措施来消除这些影响。

测验信度还可以帮助我们识别测验中存在的歧义和错误，以降低测验结果的不准确性。

例如，在一项测验中，如果某些语句模糊不清，测验信度可以帮助我们检查这些语句是否会影响测验结果。

此外，测验信度还可以帮助我们识别测验中的缺陷，从而提高测验的准确性。

例如，一项测验可能会因为缺乏足够的参考标准而出现结果偏差，而测验信度可以帮助我们识别这些缺陷，从而确保测验结果的准确性。

总之，测验信度是衡量测验结果可靠性和效力的重要指标，可以帮助我们确保测验结果的有效性，从而改善测验的准确性。

三、测验信度的应用测验信度是衡量测验的可靠性和准确性的重要指标。

它可以用来衡量测验的可靠性和准确性，以及测验的有效性。

测验信度的应用可以帮助我们评估测验的有效性，确定测验的有效性，以及测验的准确性。

信度

三、等值稳定性系数
等值稳定性系数是用两个平行的（等值的）测验，间隔适当时距施测于同一组被试得到两组测验分数，求这两组测验分数的相关，其相关系数就是等值稳定性系数。
等值稳定性系数的模式是：
测验A 适当时距测验B
计算方法同稳定性系数和等值性系数。
等值稳定性系数也是采用复本对被试施测，但等值性系数的测验要求两次测验的时间间隔尽可能短，而计算等值稳定性系数的两次测验却要求有一个适当的时距。
3.用来对两种测验分数进行比较
来自不同测验的原始分数是无法直接进行比较的，只有将它们转换成相同尺度的标准分数才能进行比较。
如，某班期末考试，小明的数学成绩是 80分，语文成绩是70分。另外，已知小明所在班级的数学平均成绩是70分，标准差是10分，语文平均成绩是60分，标准差是7分。
校正公式有：
（1）斯皮尔曼－布朗（Spearman-Brown）公式
rxx
2r hh 1 rhh
（公式5－7）
式中，rhh 是两半测验分数的相关系数，
rxx为整个测验的信度估计值。
采用斯皮尔曼－布朗（Spearman-Brown）公式进行校正时，假定两半测验等值，亦即两半测验具有相同的平均数和标准差。当假定不能满足时，可以采用下面两个公式来估计信度。
（一）分半法（分半信度）
（二）其它计算内部一致性系数的方法
back
分半信度（Split-half reliability）: 分半信度就是将测验题目分成等值的两半，分半求出量表题目的总分，再计算两部分总分的相关系数。
分半的方法很多，常见的方法是把一个量表按题目番号分为两半，一半是奇数题，另一半数偶数题。求出每个人的奇数题的总得分和偶数题的总得分，然后求出奇数题总得分和偶数题总得分的相关系 15 17 12 11 13 9

《测量的信度》课件

社会背景：被测量者的社会背景会影响其反应和表现
Part Three
选择经过验证的测量工具，确保其可靠性和有效性定期对测量工具进行校准和维护，确保其准确性确保测量工具的使用符合操作规程和标准定期对测量工具进行评估和更新，确保其先进性和适用性
培训内容：测量原理、测量方法、测量工具使用等
操作步骤：对同一对象进行多次测量，然后计算平均值
注意事项：确保每次测量的条件一致，避免因条件变化导致的误差
应用领域：广泛应用于科学研究、工程测量等领域
Part 即测量工具能够稳定地、可靠地测量出被测对象的真实水平
效度：测量工具的准确性和有效性，即测量工具能够准确地、有效地测量出被测对象的真实水平
信度是指测量工具的稳定性和可靠性，效度是指测量工具的准确性和有效性。在实际应用中，信度和效度需要平衡，不能只追求一方而忽视另一方。
提高信度的方法包括增加测量次数、采用更稳定的测量工具等。
提高效度的方法包括选择更合适的测量工具、采用更科学的测量方法等。
Part Five
心理测量：通过信度检验，确保测量工具的准确性和可靠性
,
汇报人：
01 02 03 04
05
Part One
信度是指测量工具或方法的可靠性和稳定性信度越高，测量结果越接近真实值信度包括内部一致性、重测信度和分半信度等信度是测量工具或方法质量的重要指标
信度是测量工具质量的重要
指标
信度反映了测量工具的稳定
性和可靠性
信度高的测量工具可以提供更准确的测量
添加标题
添加标题
考试评价：通过信度测量，确保考试的公平性和有效性
教育研究：通过信度测量，提高教育研究的科学性和准确性

问卷的信度和效度

一是产生于问卷测验过程中的误差，称为测量误差(meas-urement error)，也称为随机误差(random error)；
二是由问卷的质量造成的误差，称为系统误差(system error)。与两类误差相对应，在问卷测验结果分析中引入了信度(reliability)和效度(validity)的概念，信度和效度是衡量问卷整体质量的重要指标，一份好的问卷应同时具有较高的信度和效度。
2、解释问卷分数解释问卷测验的分数包括两个方面的内容:一是解释问卷测验的个人分数；二是比较问卷测验分数的差异。
(1)解释个人分数:实际问卷中，问卷者往往希望通过一次问卷了解答卷者的真实分数。因为存在测量误差，我们只能根据已有信息答卷者的真实得分进行估计。根据数理统计知识，我们可以采用区间估计的方法，利用答卷者的实得分数估计其真实得分：
1、在相同条件下所得问卷测验结果的一致程度。
2、不同研究者用同一种问卷同时测验所得结果的一致程度。
3、同一研究者用同一种问卷在不同时间内测验所得结果的一致程度。
4、同一答卷者在不同时间内对同一种问卷测验的稳定程度等。
根据研究的不同角度，信度分为“外在信度”(external reliability)与“内在信度”(internal reliability)两大类：
式中、为同一答卷者两次测验得分，、为同一问卷两次测验的平均分，s1、s2是同一问卷两次测验得分的标准差，N是参与该次测验的答卷者数。
重测信度反映了问卷在不同测验时间上的稳定性，故又称稳定性系数。重测信度可以作为预测答卷者将来行为表现的依据。
重测信度也存在着局限性:
(1)问卷前后两次测验结果易受答卷者练习和记忆的影响，两次测验的间隔时间也会影响重测信度。间隔时间长，答卷者因受环境影响而发生变化，其对第二次测验结果将产生影响；如果间隔时间短，则答卷者对第一次测验的记亿会对第二次测验产生影响，这些都将影响到重测信度。

心理测量第三篇—信度

二、概化理论的基本原理和概念
1.测量目标——希望测量的实体，如能力、成就等特性。 2.侧面——一组特定的测量条件，其中条件的数量为该侧面的水平。
例题：如果要求每个被试写两篇题目不同的短文，并由三名评分者给所有短文评分测量目标：被试的写作水平；侧面：题目和评分者；水平数：分别为2和3。
二、测验长度的影响
一般说来，在—个测验中增加同质性的题目，可以使信度提高。
二、测验长度的影响
假设有一个包括10个题目的测验，信度为0.50，若把测验增加到50个题目，其信度将增加到：
二、测验长度的影响
当由于测题过少而导致信度较低时，增加多少个题目可以达到理论的信度指标，可以用下式来推算：
一、概化理论对经典测验理论的发展
2.概化理论的诞生及其特点 (1)诞生：1972年，克朗巴赫出版《行为测量的可靠性：测验分数和剖面图的概化理论》，正式形成了概化理论(GT)。 (2)特点：克朗巴赫指出：“概化分析超越经典信度分析之处在于它明确问到，这个分析过程如何计算误差?每个来源的变异有多大?”
一、测量的标准误的含义及其作用
5.测量的标准误差的解释
比如：以95%的置信度为标准，则Z0.95=1.96，
它表示真分数有95％的可能性落在范围内。
二、直接估计标准误差
1.公式：估计信度rtt要求每个人都有两个测验分数，估计Se也是一样要求每个人要有成对的分数，每个人成对的分数由复份法、再测法、分半法获得。
（二）分半信度
2.“斯皮尔曼—布朗公式”校正
条件：两个分半测验分数的变异性相等。
（二）分半信度
当两个分半测验分数的变异性不等时：费拉南根(Flanagan)公式：

信度与效度

分半信度实际上反映的只是两半测验项目之间的相关系数，由于在其他条件相同的情况下，测验越长，信度越高，因而分半法经常会低估信度，必须通过一些公式去加以修正，借以估计整个测验的信度。
同质性信度
同质性主要代表测验内部所有题目间的一致性。当各个测题的得分有较高的正相关时，不论题
目的内容和形式如何，其测验为同质的。相反，即使所有题目看起来好像测量同一特质，
所谓真分数就是一个测量工具在测量没有误差时，所得到的纯正值。
这实际上是个循环定义，因为一个量具若测得真值，便没有误差。
真分数的操作定义是，经过无数次测量所得的平均值。
可见，真分数是一个在理论上构想出来的概念，在实际测量中是得不到的，因为一个测量工具无论多么精确，也会有误差，我们只能通过改进量具来接近真值，而不能完全得到它。
但相关很低或为负相关时，其测验为异质的。
此外，对于一些复杂的、异质的心理学变量，采用单一的同质性测验是不行的，因而常常采用若干个相对异质的分测验，并使每个分测验内部具有同质性，这样每个分测验就能用来预测异质效标的某一方面。
评分者信度
评分者信度用于测量不同评分者之间所产生的误差。为了衡量评分者之间的信度高低，可随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。
把任何一个测验成绩都看做是真分数和测量误差的和，这是经典测量理论的基本思想 X=T+E
这里X为实得分数或观测分数，T是假设的真分数，E是测量误差。
关于测量误差(E)有以下假设：
1)如果对一个人测量无数次，其平均误差为0，即 E=0
2)真分数和测量误差是相互独立的，即rTE=0 3)误差分数和实得分数的相关为0，即rEX=0

测验的信度

心理测量学——测验的信度学习笔记第三节测验的信度第一单元信度的概念第二单元信度评估的方法第三单元信度与测验分数的解释第四单元影响信度的因素第一单元信度的概念一、信度的定义信度是指同一被试者在不同时间内用同一测验（或用另一套相等的测验）重复测量，所得结果的一致程度。

在测量理论中，信度被定义为：一组测量分数的真分数方差与总方差（实得分数的方差）的比率。

二、信度的指标（一）信度系数与信度指数信度指数是真分数标准差与实得分数标准差的比值。

信度指数的平方就是信度系数。

（二）测量标准误测量误差分布的标准差，即为测量的标准误。

第二单元信度评估的方法一、重测信度二、复本信度三、内部一致性信度四、评分者信度信度的类型与估计方法重测信度（test-retestreliability）–又称稳定性系数。

它的计算方法是采用重测法，即使用同一测验，在同样条件下对同一组被试者前后施测两次测验，求两次得分间的相关系数。

–最适宜的时距随测验的目的、性质和被试特点而异，一般是两周到四周较宜，间隔时间最长不超过六个月。

内部一致性信度（internalconsistencyreliability）–分半信度（split-halfreliability）采集者退散是在测验实施后将测验按奇、偶数分为等值的两半，并分别计算每位被试在两半测验上的得分，求出这两半分数的相关系数。

分半法经常会低估信度，必须修正，借以估计整个测验的信度。

–同质性信度（homogeneityreliability）同质性主要代表测验内部所有题目间的一致性。

当各个测题的得分有较高的正相关时，不论题目的内容和形式如何，则测验为同质的。

相反，即使所有题目看起来好象测量同一特质，但相关很低或为负相关时，则测验为异质的。

–评分者信度（scorerreliability）–随机抽取若干份测验卷，由两位评分者按评分标准分别给分，然后再根据每份测验卷的两个分数计算相关，即得评分者信度。

1心理测量第一章：心理测量导论

什么是心理测验？
假如你向树林深处走去，你觉得将会遇到什么呢？ A、人 B、动物 C、土人 D、仙女。如果是你，你会选择哪一个答案？你会觉得这个题是用来测什么的？

什么是心理测验？

A 型.....你是个坚守常规的人，你不会作有损伦理之事，更不会发生不伦之恋。你也会要求你的恋人对你从一而终，所以恋爱中的你是个心胸异常狭窄的人。试问一个毫无量度的人，有人会受得了吗？ B 型.....你是个不爱发脾气的人，所以很易相处。你喜欢的恋爱方式是经过时间累积而逐渐酝酿出来的感情。你能包容恋人的一切，即使对方做错了事，你也不愿和他争吵。但一味的忍气吞声，可能会助长对方得寸进尺。
测验标准和伦理规范
行业标准：《教育和心理测验标准》，1999 美国教育研究协会(American Educational Research Association AERA) 美国心理学会(American psychological Association APA) 美国国家教育测量学会(National Council on Measurement in Education NCME)
什么是心理测量？

a、类别量表（nominal scale）：无参照点无单位二无量表
什么是心理测量？
b、等级量表（ordinal scale）无参照点单位没有相等价值。
什么是心理测量？
c、等距量表（interval scale）相对参照点相等的单位
什么是心理测量？
d、等比量表（ratio scale）绝对参照点相等单位最完善的量表
一般说来，心理量表大多数是等级量表和等距量表。
什么是心理测量？

测验信度效度_2023年学习资料

4同质性信度-同质性信度：考虑测验内容是否异质，同质-性是测同一种心理行质或行为，测验所有题目间-性质的一性，同质性是测验单一特质的必要条-件。判别标准：题目间呈高正相关。数据采集方-法：施测一次测验，算出所有题得分，求出各-题目的相关，-同质性信度也是一种构思效度，或叫结构效度。
5评分者信度-评分信度：考虑测验随机误差来源是评分者-间的差别，由评分者造成，用积差相关法求得不-同评分者评分值间的相关。-2个评分者用斯皮尔曼等级相关法，3人以上用-肯德尔和谐系统。
彭响信度的因素-1样本特征：样本团体得分分布的影响，样本越分散信-度越高；样本团体异质性的影响，异质性越高度越高；-样本团体平均能力水平的影响，平均能力越低信度越高-2测验的长度：测验越长题目越多，测验的内容取样越有代-表性；测验越长被试的猜测因素影响越小，信度就高。-3测验的难度：测验难度对信度有间接影响。对于人格测验、兴趣、态度、价值观等测验，不存在难度问题。-从理论上说，只有难度水平为50%时，才能使测验分数-分布围最大，求得的信度也最高。-4测量的时间间隔：时间间隔只对重测信度和不同时测-量的复本有影响，时间越短信度越高。
4表面效度-它是一个测验看起来好像是测量所要测的东-西的程度，不是效度，不反映测验正测量的东西-只是外行人一种评价。
彭响效度的因素-1测验本身因素，包括：测验题目质量，测验长度，-测验实施中的干扰，被试因素，增加测验误差，低测-验效应。-2测验施测的样本性质，样本同质性越高，效度越低。-不同团体对同一测验反应可能不同；同一测验效度团-体性质不同；样本团体的异质性-3效标的性质：若其它条件一样，所测量的行为或心理-特质与效标行为或特越相似，效度系统就越高
信度的作用和意义-作用：1解释预测个人分数的意义-2解释真实分数与实得分数间的关系-3确定测验好坏的一个指；最理想r=1.00-意义：1信度系统为样本测验分数的总方差中有-多少比例是真分数方差，也就是测验的总变异 -真分数造成的变异占百分之几2测量的标准误-是有多大可能性真实分数在某一分数范围内。并-且可以预测实得分数测时可能的变化情况。

第五章心理测量工具的评价指标

第五章心理测量工具的评价指标正如任何一个测量工具一样，心理测量工具也有它自身的评价指标。

在心理测量学中，信度、效度、项目区分度和有效的常模都是检验心理测量工具是否具有可靠性、有效性、鉴别性、可比性等良好测量特征的技术指标。

因此，了解相关技术指标的内涵和计算方法对于从事心理测量的人力资源管理部门工作人员来说具有重大意义。

第一节心理测量的信度在进行心理测量时，最重要的心理测量学指标之一就是信度（reliability）。

任何一项好的测量都必须有良好的信度，这是人事测评的中心问题，同时它也是标准化测评的一项基本要求和原则。

一、信度的定义信度指的是测量数据和结果的一致性或可靠性程度，它用于分析测量工具测量的前后一致性水平，并以这种一致性的程度来判断测量工具或测量方法的可靠性。

也就是说使用的测评工具可以稳定地测到它所要测量的事物的程度。

我们在选择和使用测评工具或方法时，信度必须是考虑的重要问题。

测验信度越高，表示测验结果越可信，但也无法期望两次测验结果完全一致，信度除受测验工具本身的影响外，亦受很多其它因素的干扰，如所测量的被试样本特征等。

因此没有一份测验是完全可靠的，信度只是一种程度上大小的差别而已。

一致性高的测量工具是指同一群人接受性质相同内容相同的测验测量后，在各结果间显示出的较强的正相关。

稳定性高的测量工具则是指同一批被试在不同的时间接受同样的测验时，结果间的差异很小。

二、信度与误差在进行心理测量时，信度指的是测验分数未受测量误差(errors of measurement)影响的程度。

测量误差指由与测量目的无关的因素产生的不准确或不一致的效应。

测量误差愈小，测量结果愈可靠；换言之，如果测量的结果能反应受试者真实的特征，而不因其他因素而影响测验结果，那么这个测验所测量的结果是可靠的。

测量误差通常包括两种不同类型的误差，即系统误差和随机误差。

系统误差是由与测量目的无关的因素引起的一种恒定而有规律的效应，它稳定地存在于每一次测量中，此时虽然每次的测量值具有一致性，但不正确。

5心理测量第五章经典测验理论——信度

5 0.5 0.5 0.25
题目5 0 0 1 0 1 0 0 0 1 1
4 0.4 0.6 0.24
题目6 0 0 1 0 1 0 0 0 1 1
4 0.4 0.6 0.24
四、估算信度系数的方法
克伦巴赫（ Cronbach）α系数非0、1计分，如人格测验、态度测验 0、1计分的测验同样可以采用大多测验采用克伦巴赫（ Cronbach）
质方面没有获得过学习和训练注意提高被试的积极性
二、估算信度系数的方法
2、复本信度平行测验信度 parallel form reliability 对一组被试用两个复本测验（平行测
验）施测，计算积差相关系数，就是复本信度。
被试测验A（X）测验B（Y）
X2
Y2
XY
01
8
9
64
81
72
α系数来表示，使用范围广泛
被试题目1 题目2 题目3 题目4 题目5 题目6 总分Xt Xt2
01
3
4
3
2
1
4
17
289
02
6
3
4
5
4
6
28
784
03
1
3
1
2
4
5
16
256
04
6
2
2
1
5
3
19
361
05
5
3
1
2
4
2
17
289
∑X
21
15
11
12
18
20
97 1979
∑X2
107
47

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

四、估算信度系Leabharlann 的方法3、内部一致性系数、 a、分半信度：实施一次测验后，将、分半信度：实施一次测验后，测验分为等值的两半，测验分为等值的两半，分别计算被试在两半测验上的得分，试在两半测验上的得分，再计算其相关系数。相关系数。此相关系数就代表了两半测验在内容取样上的一致性程度
四、估算信度系数的方法
三、估算信度系数的意义
1、信度系数也可反映测量中随机误差的大小、 2、确定测验是否可以接受、 rXX＝1.00，理想化的＝，能力和成就测验（最佳行为测验），），应能力和成就测验（最佳行为测验），应0.90以上以上人格、兴趣、态度（典型行为测验）人格、兴趣、态度（典型行为测验）应0.80－0.85 －当rXX＜0.70，不能用，或扔，或重编题目＜，不能用，或扔，当rXX≥0.70，可用于团体间的比较，当rXX≥0.85时，可用于鉴别个人时 3、可更加精确解释个人分数，在多大程度是可信的、可更加精确解释个人分数，
四、估算信度系数的方法
大多采用克伦巴赫（大多采用克伦巴赫（ Cronbach）系数或系数来）系数或α系数来表示，因为很多测验都是无所谓对错的多选题目，表示，因为很多测验都是无所谓对错的多选题目，如人格测验、如人格测验、态度测验等
有些量表是测量单一心理特质的，比如抑郁量表、有些量表是测量单一心理特质的，比如抑郁量表、焦虑量表，可计算全量表的α系数系数；焦虑量表，可计算全量表的系数；有些量表由多种分量表构成，分别测量不同的心理特质和内容，种分量表构成，分别测量不同的心理特质和内容，如16PF、韦氏智力量表，应计算各分量表的系、韦氏智力量表，应计算各分量表的α系无需全量表的。数，无需全量表的。
要计算分半信度，要计算分半信度，首先遇到的问题是如何分半，如何分半，直接分成前后两个部分是不可取的，因为前后量部分项目（不可取的，因为前后量部分项目（题在类型和难度上都有所不同，目）在类型和难度上都有所不同，而且会受到受练习效应或疲劳等因素的影响，影响，通常采用奇偶分半法
四、估算信度系数的方法
四、估算信度系数的方法
在数据达不到这一要求时(方差不齐性）在数据达不到这一要求时方差不齐性）方差不齐性卢仑/卢龙卢龙Rulon公式：公式：卢仑卢龙公式 rXX＝1－Sd2/ Sx2 ＝－弗朗那根Flanagan公式：公式：弗朗那根公式 rXX＝2[1－（－（Sa2+ Sb2）/ Sx2] ＝－（）
二、信度的历史
德莫维尔：德莫维尔：取样误差皮尔逊：皮尔逊：积差相关斯皮尔曼：两事物间联系的证据及其测量》斯皮尔曼：《两事物间联系的证据及其测量》提出信度理论的大部分概念桑代克：桑代克：第一本心理测量学著作心理与社会测量理论导论》《心理与社会测量理论导论》库德－理查森库德－克伦巴赫
测验应有一个合理的长度。测验应有一个合理的长度。实际上，实际上，Spearman-Brown公式的通用公式的通用形式是这样的：形式是这样的： rxx＝nrhh /1＋（－1）rhh ＋（n－）＝＋（其中n为测验题目增加或缩减的倍数为测验题目增加或缩减的倍数，其中为测验题目增加或缩减的倍数，rxx 是现有测验的长度。是现有测验的长度。
四、估算信度系数的方法
b. 间隔一段时期进行第二次施测：间隔一段时期进行第二次施测：其相关系数既反映测验形式上的变也反映时间上的变化，化，也反映时间上的变化，这种相关系数称为稳定性与等值性系数。关系数称为稳定性与等值性系数。从数值上，从数值上，稳定性与等值性系数应既小于稳定性系数，既小于稳定性系数，又小于等值性系数。系数。
五、影响信度的因素
3、测验的长度、一般说来，测验题目越多，一般说来，测验题目越多，就是样本越测验结果越稳定，信度越大。多，测验结果越稳定，信度越大。但实际上编制量表要权衡，题目越大，但实际上编制量表要权衡，题目越大，测验越费时，测验成本越大，不经济。测验越费时，测验成本越大，不经济。而且，测验越长，被试越疲劳，而且，测验越长，被试越疲劳，越不愿合作，也可能降低信度。合作，也可能降低信度。
四、估算信度系数的方法
b、同质性信度、（homogeneity reliability））同质性信度主要反映测验能够测量相同内容或特质的程度，内容或特质的程度，或者说所有测验题目得分之间的一致性。目得分之间的一致性。
四、估算信度系数的方法
Kuder-Richardson库德－理查森公式，适合库德－理查森公式，库德 0、1计分德，就是是非题计分德，、计分德 K－R20 －当题目难度接近时，当题目难度接近时，每个项目德通过率应基本相等，本相等，我们就不用逐个题目计算通过率 K－R21 －难度：某题目上，难度：某题目上，答对人数和总人数的百分比
四、估算信度系数的方法
估计重测信度时，应注意以下几点：估计重测信度时，应注意以下几点：重测时间间隔重测信度应用于不太容易受重复因素影响的测验，的测验，所测量的心理特性必须是稳定的两次实测的间隔期，两次实测的间隔期，被试所测得的心理特质方面没有获得过学习和训练注意提高被试的积极性
四、估算信度系数的方法
2、复本信度平行测验信度 parallel form reliability 对一组被试用两个复本测验（对一组被试用两个复本测验（平行测施测，计算积差相关系数，验）施测，计算积差相关系数，就是复本信度。本信度。
四、估算信度系数的方法
复本信度的估计可分为两种情况：复本信度的估计可分为两种情况： a. 即刻施测或连续施测：其相关系即刻施测或连续施测：数大小只反映两个复本测验的题目差异所带来的变异情况。差异所带来的变异情况。这种情况下，复本信度称为等值性系数
分半之后，分半之后，每半测验的题目只相当于原测验的1/2，也就是说，样本数少了一半。这样，，也就是说，样本数少了一半。这样，测验结果更不稳定（信度偏小，需要修正）测验结果更不稳定（信度偏小，需要修正）斯皮尔曼－布朗（斯皮尔曼－布朗（ Spearman-Brown)公公式：rXX＝2rhh /1＋rhh ＝＋ Spearman-Brown公式要求：两半测验的公式要求：公式要求方差相等。方差检验，方差齐性检验，方差F检验方差相等。(方差检验，方差齐性检验，就是方差是不是一致) 是方差是不是一致
四、估算信度系数的方法
1、重测信度（test-retest reliability）、重测信度（）再测信度（稳定性系数）再测信度（稳定性系数）用同一测验，用同一测验，对同一组被试进行前后两次施测，所得相关系数就叫重测信度。施测，所得相关系数就叫重测信度。重测信度反映测验跨时间的稳定性，又称为稳信度反映测验跨时间的稳定性，定性系数。定性系数。公式：公式：皮尔逊积差相关
一、什么是信度？什么是信度？
信度（信度（Reliability）是指测量结果的一致性或）稳定性。稳定性。信度的大小用信度系数来表示定义1：一被测团体的真分数变异数（方差）定义：一被测团体的真分数变异数（方差）与观察分数的变异数之比。与观察分数的变异数之比。定义2：定义：一被测团体的真分数与观察分数的相关系数的平方。相关系数的平方。定义3：一个测验X与其平行测验的相关定义：一个测验与其平行测验X’的相关与其平行测验系数。系数。
四、估算信度系数的方法
4、评分者信度、主观题时要考虑评分者信度。主观题时要考虑评分者信度。如果是两个评分者，如果是两个评分者，计算积差或等级相关系数。级相关系数。如果是多个评分者，如果是多个评分者，需计算 Kendal肯德尔和谐系数肯德尔和谐系数
五、影响信度的因素
1、被试团体、样本团体越异质（差异大），），信度系数越高样本团体越异质（差异大），信度系数越高 2、测验的难度、太难，被试只能猜测，做随机反应了，太难，被试只能猜测，做随机反应了，测验分数主要取决于随机的误差，分数主要取决于随机的误差，那么信度就趋尽零，太容易了，分数很接近，尽零，太容易了，分数很接近，同样会降低信度，所以通常的难度是中等水平0.5 信度，所以通常的难度是中等水平