经典真分数测量理论
信效度检验公式

信效度检验公式信度和效度是衡量测量质量的重要指标,也是人类测量活动中最为困难的研究内容。
一直以来,经典测量理论中关于信度和效度的理论公式都是错误的;甚至发展到现代测量理论之后,关于信度或效度的理论基础还是以前错误的理论公式。
因此,亟需纠正以前的错误。
一、真分数模型及其假设经典测量的真分数模型来源于物理测量,这个模型首先是将观察分数进行分解:[1]X = T +E1 +E2(1)式中X表示观察分数,T表示真分数,E1表示系统误差分数,E2表示随机误差分数。
方程(1)表明观察分数与真分数和误差分数之间的关系是线性的。
这其实是真分数模型的第一个假设。
注意这里并不是X一定大于T,因为误差分数可为正数也可为负数。
对方程(1)两边求方差,得出方程(2):σ2X = σ2T+σ2E1 +σ2E2 + 2rTE1σTσE1 + 2rTE2σTσE2+ 2rE1E2σE1σE2(2)真分数模型的另外一个假设是真分数与误差分数的相关为0,加上随机误差与系统误差的相关也为0,在此基础上得出方程(3):σ2X = σ2T+σ2E1+σ2E2(3)方程(3)表示观察分数的方差等于真分数的方差、系统误差的方差以及随机误差的方差之和。
然而,问题就出在方程(3)上!由于真分数与误差分数的相关不一定为0,所以方程(3)并不一定成立。
实际上方程(2)有3种情况:(1)如果真分数与误差分数的相关为0,则公式(2)退化为(3)。
此时观察分数的方差大于真分数的方差。
(2)如果真分数与误差分数的相关为正相关,则观察分数的方差大于真分数的方差。
(3)如果真分数与误差分数的相关为负相关,则观察分数的方差不一定大于真分数的方差。
从以上简单分析可以看出,经典测量理论的真分数模型以及假设均存在不足。
正是在经典测量理论存在诸多局限的背景下,现代测量理论应运而生了。
项目反应理论是现代测量理论的杰出代表。
虽然项目反应理论对经典测量理论的很多不足作了改进,但仍然存在很多问题:首先,项目反应理论不是从重建概念体系开始,而是重在建立数学模型。
经典真分数测量理论

经典真分数测量理论Classical True Score Measurement Theory(CTS)人们将以真分数理论为核心理论假设的测量理论及其方法体系统称为经典测验理论(CTT),•也称真分数理论(CTS)。
真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即真分数(True Score) 。
而通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数) ,叫观测值或观察分数(Observed Score)。
由于有测量误差存在,所以,观察值并不等于所测特质的真实值,即观察分数中含有真分数和误差分数(Error Score)。
而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。
真分数理论三个假设及两个推论真分数理论假设(1):真分数具有不变性这一假设的实质是指真分数所指代的被测者的某种特质必须具有某种程度的稳定性,至少在所讨论的问题范围内,或者在一个特定的时间内,个体具有的特质为一个常数,保持恒定。
真分数理论假设(2):真误差是完全随机的【假设公理一】:测量误差是一个平均数为零的正态随机变量。
在多次测量中,误差有正有负。
如果测量误差为正值,观测分数就会高于其实际的分数(真分数);如果测量误差为负值,则观测分数就会低于其实际的分数,即观察分数会出现上下波动的现象。
但是,只要重复测量次数足够多,这种正负偏差就会两相抵消,测量误差的平均数恰好为零。
用数学式表达为:E(E)=0。
【假设公理二】:测量误差分数与所测的特质或者说真分数之间相互独立。
不仅如此,测量误差之间、测量误差与所测特质外其它变量间,也相互独立。
或者说,他们之间的相关为零【注释:如果承认这种交互作用,则只能用GT来解释和计算】。
真分数理论假设(3):观测分数是真分数与误差分数的和S=T+E【含义】:观察分数与真实分数之间是线性关系,而不是其它关系。
相差的就是误差分数。
真分数理论推论(1)真分数等于观察分数的平均数(T=E(X))(Gulliksen,1950)【含义】:若一个人的某种心里特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数。
经典测量理论

•经典测量理论
•真分数理论
经典测量理论
经典测量理论(CTT)的核心概念是真分数,它的基本 假设就是对真分数、观察分数和测量误差之间关系的描述。
CTT数学模型 X=T+E(用语言表达就是:观察分数X和真 分数T之间的关系是线性关系,并且两者只相差一个随机 误差E)
真分数理论:
• 为什么会有真分数理论呢? • 起源: 19世纪末兴起→20世纪30年代形成比较完整的体系→20世纪50年代格里克 森使它具有了玩呗的数学理论形式→1963年洛德与诺维克的《心理测验分数 的统计理论》将经典真分数理论发展至巅峰,实现了向现代测量理论的转换。
三、引申
• (1) 再一次测量中,被试观察分数的方差等于其真分数方差与误差分数方 差之和。 • (2)真分数可以分为两部分:与测量目的有关的差异Sv² 与测量目的无关的 差异Si² 。 • (3)一次测验中,一个团体的实测分数之间的变量异性是由测量目的有关 的变异数Sv² 、稳定但出自无关的变异数Si² 和测量差异的变异数Se² 所决定的。
ห้องสมุดไป่ตู้
CTT理论之不足
• CTT的测量指标受样本性质的影响。难度统计与被试能力高低有 关,区分度、信效度统计与被试的同质性、异质性有关。抽样变动 是CTT无法解决的问题。 • CTT假设所有被试的测量标准误差都相等,这是不太可能的,因 为不同能力组在测验上的稳定性是不同的。(即真分数与测量误差 并不彼此独立)
一、真分数
• 定义:真分数是指测量没有误差时所得到的真值。
• 操作性定义:是无数次测量结果的平均值。(测量越多越接近真分数但无法 消除系统误差。当误差接近于真分数时,我们就说误差较小。真分数通常用T 表示。)
二、真分数数学模型及其假设
测验的信度问题定

5.2.1再测信度
概念:同一测验让同一组被试做两次, 两次测验中间隔一段时间。计算两次测 验分数之间的相关,其相关系数表明该 测验随着时间的推移是否保持稳定。
使用再测信度时要注意练习效应和学习 效应,注意选择合适的时间间隔。
.
5.2.2复本信度
复本测验是指在性质、内容、题型、难度 等方面都一致的两份或多份测验。同一组 被试在复本测验上所得结果的相关系数就 是复本信度。
.
5.2.3 内部一致性信度
内部一致性是指同一测验里的各题目或各部分题 目是否测了同一个东西。如果测验的各个题目测 的都是同一个东西,这些题目间就有一致性,反 之,题目之间则没有一致性。
估计内部一致性信度的方法有很多种,这些方法 大致可以归为两类。一类是通过测验两半的相关 来估计,另一类是通过题目的方差来估计。
.
5.3 影响信度的几个因素
被试的异质性程度 被试的异质性程度越高,真分数的方差就越大, 信度也就越高。
时间限制 在严格的时间限制下,被试的答题速度对分数有 明显的影响,也就是说被试真分数的方差不仅包 括被试对题目反应的差异,也包含了被试答题速 度的差异。在这种情况下,信度系数就被高估了。
.
测验的长度
测验太难或太容易时,分数的范围就会缩小,从 而降低信度。当测验难度水平为0.5时,信度最高。 题目区分度
题目的区分度与测验信度关系密切。区分度 好的试题对被试的真分数估计得较准确,测量误 差较小。如果一份试卷中题目的区分度都很好, 测验的信度就会很高。
.
5.4 信度系数的用途
一.评价测验 信度系数是衡量测验好坏的一个重要
根据区间估计的方法,假定一个测验的标准误是 SEM=10,被试得分X=50,如果我们想使推测的 正确率达到95%,被试的真分数就落在观测分上 下1.96个标准误的范围内, 即 (X-1.96SEM)≤T≤(X+1.96SEM),结果是30≤T≤70。 这表明,被试的真分数落在30到70分之间的可能 性有95% 。
几个心理统计与测量概念

几个心理统计学和测量学概念一、真分数理论:真分数的含义:在经典测量理论中,人的心理特质测量之后应表现为一个数值。
然而,测量的误差总是存在,这就使得测得的数值往往难以和该特质的真实水平完全一致,它总会略高于或略低于其真实水平,某些时候甚至还会严重偏离其真实水平。
就像我们平时的考试,有时会觉得测验成绩低估了自己的能力,有时又高估了自己的能力,这些都是对误差现象的描述。
为了研究的方便,心理学家斯皮尔曼引入了真分数的概念。
真分数的操作定义是无数次测量结果的平均值。
真分数(平均数):X =1/N(∑X i)人们将以真分数为核心假设的测量理论及其方法体系,统称为经典测验理论(CCT),也称真分数理论。
真分数理论是最早实现数学形式化的测量理论。
同时,把实测的分数称作该特质的观察分数(实得分数)。
当观察分数接近真分数时,就说这次测量的误差较小。
从真分数的定义可以看出,真分数只是一个理论上构想的概念,因为无论什么测量工具都不可能没有误差。
我们只能通过改进测量工具,完善操作方法来使观察值尽量接接近真分数。
一般来说,只要观察分数与真分数之间的误差不是太大,或者说误差被控制在可接受的范围内,那么我们的测量就可以被看作是可接受的测量了。
二、测量误差测量误差是指在测量过程中,那些与测量目的无关的因素所导致的测量结果不准确或者不一致的效应。
包含两层意思:误差是由与测量目的无关的变量引起的;误差是不准确或不一致的测量结果。
准确性与一致性的关系可以用靶环射击图说明。
A:准确性、一致性差 B:一致性高、准确性差; C、准确性、一致性高误差的种类:1、随机误差:指那些与测量目的无关的偶然因素引起的误差,这些结果的方向和大小是随机的;2、系统误差:指由与测量目的无关的因素引起的一种恒定而有规律的效应。
这种误差稳定的存在于每一次测量中,尽管测量的结果比较一致,但实测结果与真实水平之间存在差异。
误差来源:测量工具;测量对象(焦虑、经验、教育、动机、练习、生理、反应倾向);测量过程(环境、时间、主试、干扰、评分)误差控制:要想控制误差,就必须使测验标准化,即测验的编制、施测、评分及对分数的解释都必须标准化,这样才能有效控制导致误差的因素,以减少误差,使测验分数可信、有效。
【心理学考研】测量心理学测试题二

【比邻学堂】心理测量学测试题第二章经典测量理论【本章习题精练】一、判断题1.系统误差具有稳定性,因此一些系统误差是可以避免的。
2.随机误差是难以控制的,在测量中是无法避免的。
3.CTT假设真分数是不变的,所以测量的任务就是估计真分数并通过改进测量工具等方法来是观测分数等于真分数。
4.真分数中包括随机误差和系统误差。
5.测量特质单一表示同质性信度高,同样,同质性信度高也可推出测量特质单一。
678912.的影响。
345.。
67度P为8910111213.有 2.2分(该题满分为5分),那么该题的区分度约为__________。
14.信度系数和效度系数的数量关系可以表达为__________。
15.若以测量信度趋向于1,则该测量的标准误趋向于__________。
16.效度定义的数学表达式__________。
17.若某题通过率为0.5,则D最大为__________。
18.如果某测验的信度系数为0.9,那么该测验中真分数造成的变异占__________、由误差分数造成的变异占__________。
三、单项选择题1.测量过程中由不可控制的偶然因素引起的误差称为A.系统误差B.恒定误差C.测量误差D.随机误差2.某次考试中,由于老师的粗心而给错了一道题的标准答案,导致学生的成绩产生的误差是A.系统误差B.恒定误差C.测量误差D.随机误差3.CTT数学模型的假设公理不包括A.真分数(T)和误差分数(E)之间的相关为零B.各平行测验上的误差分数(E)之间相关为零C.观察分数(X)和误差分数(E)之间的相关为零D.一个人的某种心理特质用平行测验反复测量多次,则其误差分数(E)的均值会接近04.在经典测量的真分数模型下,公式中,由于系统误差造成的变异是A.B.C.D.5.Thorndike关于经典测量理论提出的观点是A.“心理特质是一种客观存在”B.“凡客观存在的事物都有其数量”C.“凡有数量的东西都可以测量”D.“心理特质可以测量”6.下列选项属于测验稳定性或多次测量结果一致性程度的是A.信度B.标准化C.效度D.常模7.关于各类信度系数及其主要的误差方差来源,下列描述不正确的是A.重测信度的主要误差方差来源是时间取样B.分半信度的主要误差方差来源是内容取样C.同质性信度的主要误差方差来源是内容的异质性D.重测复本信度的主要误差定方差来源是评定者间差异8.下列关于重测信度的说法错误的是A.重测信度要求我们测量的特质是稳定的B.两次测量之间需要保证适当的间隔时间C.重测信度可以提供测验结果是否随时间而变化的资料D.重测信度适合测量那些随时间变化而变化的特质9.已知经过矫正的分半信度为0.89,则原来一半测验的信度系数为A.0.84 B.0.94 C.0.80 D.1.0610.对于创造力测验或投射测验最适合用以下哪种信度估计方法A.评分者信度B.同质性信度C.分半信度D.重测信度11.已知迷死他赵,凉音,眼泪三位老师对君君侠同学和度同学的试卷进行打分,求该试卷的信度君君侠度迷死他赵 1 2凉音 2 1眼泪 2 1A.1/9 B.1/16 C.3 D.27/1612.同质性信度主要代表A.两半测验间的一致性B.所有题目间的一致性C.所有题目与分测验间一致性D.所有分测验间的一致性13.一次测验结束后,将测验按一定的标准分为等值的两半来求相关系数。
心理测量 第三章 经典测验理论的基本假设

SV2是由所要测量的变因引起的,SI2是由 其它变因引起的(系统误差)。
将公式(3-3)代入公式(3-2)可得到 如下公式: SX2 = SV2 + SI2+ SE2 (3-4)
一组测验分数之间的变异数(SX2)是由 与测量目的有关的变异数(SV2)、稳定 的但出自无关来源的变异数(SI2)和测 量误差变异数(SE2)所决定的。
1)误差是由与测量目的无关的变因引起 的; 2)误差是不准确或不一致的测量结果。Fra bibliotek
准确性和一致性的结果是由于两种不同 的误差所导致:随机误差和系统误差 随机误差是由与测量目的无关的偶然因 素引起而又不易控制的误差。它使多次 测量产生了不一致的结果。这种误差的 方向和大小的变化完全是随机的,无规 律可循。
对于一个团体来说,实得分数、真分数 和测量误差之间有如下关系: SX2 =ST2 + SE2 (3-2)
在一次测量中,被试观察分数的方差等 于其真分数方差与误差分数方差之和。
真分数仍可以分成两个部分:与测量目 的有关的变异(SV2)和与测量目的无关 的变异(SI2),可用公式:
ST2 =SV2 + SI2 (3-3)
心理特质的可测性
虽然心理特质具有内隐性,我们不可能象测量 重量或长度那样直接测量人的心理特质,而只 能通过测量个人在特定情境中的外显行为来推 断他的心理特质。 但心理特质是一种相对稳定的东西,我们可以 通过各种途径对它进行测量。
第二节 测量误差及其来源
误差是在测量中与目的无关的变因所产 生的不准确或不一致的效应。
这里的测量误差(E)指的是引起测量不一致 性的变因产生的效应,即指随机误差,不包括 系统误差,后者不引起分数的改变,因而包含 在真值中。
测量02经典测验理论的基本假设

系统误差只影响准确性
测量误差的来源
测量工具:
心理测量工具通常是一套以测验为 核心的刺激反应系统——量表
若项目所测量的东西与我们欲测量 的目的之间出现偏差,则测量会出 现误差
量表是否稳定和是否真正测到我们 要测的东西是造成误差的两种主要 原因。
根据CTT模型和假设,推导出如下公式:
S2X= S2T +S2E S2T= S2V + S2I
S2X= S2V + S2I +S2E
测量误差的来源
测量对象:
造成测量误差的主要原因是受测试者 真正水平是否得到正常发挥。 例如:
过分疲劳,焦虑;生病 测验的技能,技巧方面不足 被试的心理状况:如动机强弱不同
测量误差的来源
施测过程:
主要是由于一些偶然因素所造成的 (恒定因素比较容易控制)。 例如:
物理环境方面 主试方面 评分记分环节
把实测分数称作该特质的观察分数—— Observed Score
当观察分数接近真分数时,就说这次测 量的误差较小。
数学模型及其假设
X(观察分数)=T(真分数)+E(误差)
——经典测验理论的数学模型 若一个人的某种心理特质可以用平行的测验反复测量足够 多次,则其观察分数的平均值会接近于真分数
E(X)=T 或 E(E)=0 真分数和误差分数之间的相关为零
ρ(T,E)=0
各平行测验上的误差分数之间相关为零
ρ(E1,E2)=0
数学模型及其假设
在问题的研究范围之内,反映个体某种心 理特质水平的真分数是假定不会变的,测 量的任务是估计这一真分数的大小
观察分数被假定等于真分数于误差分数之 和
5 真分数理论及其有关假设(2)

n
(6)
N
rTE
(T T )( E E )
i 1 i i
(T T ) ( E E )
2 i 1 i i 1 i
n
n
0
2
(7)
2 SX
2 ( T T ) i i 1
n
N
2 ( E E ) i i 1
n
N
(8)
S S S
2 X 2 T
正值,代表受测者真实能力的分数;
操作定义:对一个人进行无数次测量所得到的平均值;
真分数(True Score)是经典测验理论(Classical Test Theory, CTT)的一 个核心概念,通常用 X 或T来代表;
二、真分数的数学模型
用Xt 或X表示实测分数, Xe 或E表示误差分数,这三者之 间的关系与物理测量中三者之间的关系相似,据此可以 得到真分数的基本方程式:
2 E
小结:
• 首先,反映个体某种心理特质水平的真分数是假定不 会变的,测量的任务就是估计这一真分数的大小; • 其次,观察分数被假定等于真分数与误差分数之和;
• 第三,测量误差完全随机的,并服从均数为0的正态分 布。
• 第四,真分数是对一个人实施无数次测量所得分数的 平均值。
Xt X Xe 或 X T E
公式意味着:实测分数是真分数和误差分数的函数,由这 两者共同决定;
三、真分数理论的三个基本假设
Hypothesis 1:误差分数的平均数是零,即:
E 0
Hypothesis 2:误差分数与真分数相互独立,即相关为零,即:
RET 0 或 ,
Hypothesis 3:两次测量的误差分数之间相关为零,即:
3_经典心理测量理论-模型、假设_20140321

3-16
真分数理论产生的背景
1. 心理特质和心理过程难以直接观察和测量。 2. 行为样本是心理特质或心理过程的外在表现。心理测量是建立
在对行为样本取样的基础之上的。 3. 对行为样本的取样必然会出现测量误差。 4. 需要有一种数学化的形式来界定误差的大小及测量结果的准确
性。
真分数的含义
o 真分数(True Score)指的是研究者想测量的被试某种心理 特质的真正水平的测试分数。
ρ
2 XT
=
1
−
σ σ
2 T
2 E
2014/3/28
北京师范大学心理学院徐建平
3-29
真分数理论的推论(续)
6.复本测验的观察分数之变异数相同
σ
2 X′
=σ
2 X
7.复本测验分数与另一测验分数间的相关系数相同
ρ
2 XY
=
ρ
2 X ′Y
8.复本测验分数间的相关系数为单一测验之真实分数和
观察分数的变异数之比值
o 主要目的是估计测验分数的准确值,描述随机误差的影响程度, 解决的是测验信度问题。
o 19世纪末兴起,20世纪30年代趋于成熟。
o 20世纪50年代,Gulliksen提出真分数模型。 o 1968年Lord & Novick的《心理测验分数的统计理论》,将其
推向巅峰。
2014/3/28
北京师范大学心理学院徐建平
随着观测次数的无限增加而趋近于零
2014/3/28
北京师范大学心理学院徐建平
3-9
测量误差的来源
o 测量工具
n 心理测量工具通常是一套以测验为核心的刺激反应系统——量 表
n 若项目所测量的东西与我们欲测量的目的之间出现偏差,则测 量会出现误差
(优选)第四讲测量的基本理论

心理测量学
概化理论模型的建立依赖于对测验情境关系的 详细调查。
测验情境关系是指测量目标与各测量侧面所组 成的一种关系结构。
心理测量学
1、测量目标
测量目标:测量者希望通过测量用测量值描绘 的心理品质。
确定测量目标的方法:问“测谁”和“测什 么”。
一般一场测量目标只能一个 研究同一测量问题测量目标一经确定不能改变。
分数。
心理测量学
测验情境关系说结论:
情境关系中的测量目标、测量侧面、侧面的水 平变化,会引起测验误差的来源,误差的大小、 真分数的种类以及测验信度的变化,进而引起 测验分数的解释范围发生变化。
心理测量学
(二)测验设计的模型与种类
测验设计的任务(两个方面): (1)界定测量目标和测量侧面的个数及名称、
心理测量学
(三)G研究
G研究目的:用方差分量分析,定量估计观察 领域中测量目标方差和各个测量侧面方差,以 及其间的交互作用的方差。
心理测量学
方差分量分析(二步):
1、分解总体方差为测量目标主效应方差、 各测量侧面主效应方差和各种交互效应方差。
2、应用样本方差估计各种效应的期望均方 差。
心理测量学
(优选)第四讲测量的基 本理论
心理测量学
1、测验分数方差的测量学意义 测验分数方差有目标分数方差和误差分数方
差之区别。如: 被试真正能力水平间的分数方差是目标分数
方差。 同一被试不同次测验分数间的方差是误差方
差。 同一作品多个评分间的方差也是误差方差。
心理测量学
2、误差来源的多样性与总分方差结构 的复杂性
一、项目反应理论的发展:
(一)、经典测验理论 (二)、项目反应理论的发展
(一)、经典测验理论
心理测量_3

心理测量一.经典测量理论及其模型经典测量理论的含义:又称为真分数理论,它对实得分数、真分数及测量误差的关系进行了一系列理论假设。
1.实得分数与真分数存在线性关系。
X=T+E2.测量误差的平均数为0。
E(E)=03.测量误差与真分数独立。
r TE=04.实得分数方差等于真分数方差与随机误差方差之和。
局限性:1.信度估计精度不高2.误差指标笼统单一,不精细。
3.各种参数的估计对样本的依赖性太大4.参数指标之间的配套性较差二.信度1.定义:测量的一致性或可靠性程度,是测量结果的稳定性程度。
(已考)(受随机误差影响)r xx= S2T /S2X2.估计:(1)重测信度:(积差相关)使用前提:A心理特性是稳定的B遗忘和练习的效果基本上互相抵消C间隔时间内,没获得学习或训练(2)复本信度:(积差相关)使用前提:A构造出两份或以上的真正平行测验B被试有条件接受2次测验C间隔时间内,没获得学习或训练(3)分半信度:A斯皮尔曼-布朗:r xx = (两半方差相等)B弗朗那根:r xx =C卢仑:r xx =使用前提:只能施测一次或没有复本(4)同质性信度:(内部一致性系数)A.KR 公式:r xx =B.KR 公式:r xx =C.克龙巴赫a系数:(信度下界的估计值,a高,信度必高,a低,信度不一定低)D.荷伊特信度:r xx =(5)评分者信度:(肯德尔和谐系数)3.影响因素(已考)(1)被试(2)主试(3)施测情景(4)测量工具(5)测验内容(6)间隔时间4.改进:(1)适当增大测验长度(2)使测验的难度接近正态,控制在中等水平(3)选择恰当的被试(4)提高试题的区分度(5)主试严格执行施测规程序三、效度1.定义:测量的正确性,即一个测验或量表所能够测量出其所要测量的东西的程度。
(是随机误差和系统误差的综合反映。
)r2xy=S2V /S2X2.估计:(1)内容效度:A用于成就,职业测验。
B确定方法是逻辑分析法,统计分析,再测法。
心理与教育测量学重点总结

力提高每道题目的区分度;④选取适当的被试团体,努力提高测试在各个同 质亚团体上的信度;⑤规范施测程序,统一施测环境,严格控制误差。
第五章 测量效度
掌握概念: 1.效度:指一个测验所能测量到其想要测量的心理特质的程度。 2.表面效度:指测验的表面看起来与其所测验内容之间的一致性程度。 3.内容效度:指测验所能测量到的心理特质的内容与其想要测量的心理特质的内
5.影响效度的因素有哪些? 答:①测验本身:a.测题中所用的词汇或句型不能太难;
b.测题的指导语应该清楚; c.测题中不能提供额外线索; d.测题的难易顺序编制要合理; e.选择题的正确答案不能有明显的组型; f.测题的难度要适当; g.测题数目要适当; ②测验的实施:a.指导语标准化;
b.排除意外干扰; c.按照标准化的程序进行客观评分; ③所选校标的性质; ④测验的信度。
2.简述心理测验的基本条件。 答:标准化测验的技术指标有常模、信度和效度。
(1)常模:指某种心理测验在某一人群中测查结果的标准量数,即可比较的 标准。常模形式有:均数、标准分(如 Z 分、离差智商、T 分)、百分位、划 界分等。常模的制定要通过标准化的取样过程,样本的代表性要好。 (2)效度:指测验结果的有效和真实性,即某种测验测查到所要测查内容的 程度效度高是心理测验的充分必要条件。有内容关联效度、效标关联效度和结 构关联效度。 (3)信度:指测验分数反复测量的可靠性,反映测量误差。有分半信度、重 测信度和α系数等。
2.验证内容效度的方法有哪些? 答:①逻辑分析法;②克伦巴赫估计法;③再测法。
3.验证结构效度的方法有哪些? 答:①测验内方法:a.内容效度法;b.口语报告法;c.相关分析法;
心理测量中测验质量分析的统计原理与SPSS操作

精品课件
19
1.4 测验的效度分析
效度的种类
效标效度:一个测验的总分与某个 外在标准之间的相关。
内容效度:一个测验的总分与各分 测验量表之间的相关程度。但内容 效度更主要是由专家评定获得。
结构效度(构想效度):测验结构 的理论建构的合理性程度。
精品课件
20
1.4 测验的效度分析
精品课件
24
3 信度分析(可靠性分析)在 SPSS中的实现
通过可靠性分析中的方差分析表,或Kappa一 致性检验,直接计算评分者信度
Analyze—Scale—Reliability Analysis: Items—Model(信度分析模型):Alpha— Statistics—ANOVA Table:F test;Friedman chi-square;Cochran chi-square—Ok
一般要求题总相关值在0.6以上的题目 为好;如果达不到这个要求时,应再 看多重相关的平方值,在0.3以上尚可 以保留,而低于0.3应淘汰。
精品课件
10
1.2 测验的项目分析
鉴别指数(D):即根据某种标准 (测验总分)划分两个极端组(高分 组和低分组)在该题上通过率的差: D=PH-PL(PH:高分组通过率;PL: 低分组通过率)
精品课件
7
1.2 测验的项目分析
区分度:题目有效地区分被试某 种心理特质的不同水平的程度。 它反映了一个题目的鉴别能力, 又称题目的鉴别度。
从本质上讲,题目的区分度是测 验预测效度的微观表现,是测验 有效性的根本保证,它的高低是 取舍和修改题目的主要依据。
精品课件
8
1.2 测验的项目分析
区分度主要以效标为参照标准,考察被 试在每个题目上的反应与其在效标上的 表现之间的相关程度。
经典测量理论、概化、项目反应理论

(3) CTT主要关注的是个体之间的差异,而GT除了 个体之间的差异以外,还关注个体的绝对水平。
(4)在CTT中,测量误差的估计方法导致同一个测 量量表往往表现出多种测量信度并存现象,如重 测信度、复本信度、同质信度等,这些信度系数 之间没有必然的内在关系。而GT则采用具有内在 逻辑关系的概化系数、可靠性系数或信噪比等指 数来反映各种因素可能对测验分数的影响程度。
(4)能力量表与难度量表不配套
在经典测量理论中,被试能力量表是卷面总分,项目 的难度量表是题目难度。因而不能提供不同能力水平 的被试如何对项目进行反应的预测信息,找不到验证 某个项目是否匹配某种能力水平被试的计量方法,这 使得在选题时带有一定盲目性,失去了精确指导测验 编制的作用。
2019/4/27
(2)CTT把测验分数简单划分为真分数和误差分数两个部分, 误差分数是单一的、含混的、随机的,这就导致不能有效地 解释影响人的心理活动因素的多样性,从而在实践上对控制 误差缺乏有效指导。GT采用方差分析方法,充分考虑了影响 分数的所有误差来源,并进一步提出绝对误差和相对误差的 划分及其对绝对误差和相对误差的度量。
在实际的教育和心理测量问题中, 如果前一个项目的 内容为后一个项目的正确反应提供暗示或其它有效的 信息, 局部独立性的假设就会遭到破坏, 例如所谓的 链状试题就会出现这种情况。
局部独立性是建立在统计的意义上的,对每一个测验 者来说, 对整个试题作出某种反应的概率等于对组成 试卷的每个项目的反应的概率的乘积。
2019/4/27
(三)项目特征曲线假设
项目反应理论的一个关键就是在被试者对项目作出 的反应或作出反应的概率与被测试者的潜在特质之 间建立某种函数关系。所谓的项目特征曲线(item charecteristic curve, ICC), 就是相应函数关系的图象。
心理测量的理论基础 1经典测验理论

误差的来源 1.测验本身 ①测验题目取样不当,缺乏代表性。 1.测验本身 测验题目取样不当,缺乏代表性。 测验题目格式不妥。 引起的误差 ②测验题目格式不妥。
③测验题目难度过高或过低。 测验题目难度过高或过低。 测验题目或指导语用词不当。 ④测验题目或指导语用词不当。 测验时间过短。 ⑤测验时间过短。 2.施测引起 ①物理环境 2.施测引起 ②施测者方面 的误差 ③意外干扰 评分不客观,计算、登记分数出错。 ④评分不客观,计算、登记分数出错。 3.受测者方 ①物理环境 3.受测者方 面的误差 ②施测者方面 ③生理因素 ④学习发展和教育 ⑤测验经验
定义—结构— 定义—结构—项目 当对特质或所需测量的心理结构做出了准 确定义以后,测验的编制者就需要思考可 以帮助识别特质的项目的类别和项目的具 体内容。 例如:测验编制者如果认为历史知识可以 是智力的一个成分的话,那么 “唐朝的开 国皇帝是谁?” 国皇帝是谁?”这样的项目就有可能出现 在测验中。同样,如果社会判断也被认为 是智力的成分的话,那么“为什么要对权 是智力的成分的话,那么“ 力设立合适的监督机制?” 力设立合适的监督机制?”就可能作为项 目出现在测验中。
特质的词汇学假设
特质内涵非常广,美国心理学家Allport 特质内涵非常广,美国心理学家Allport (1936)在研究中发现在英语词汇中包含 1936)在研究中发现在英语词汇中包含 有上千种描述心理特质的词汇。这些词汇 同智力、特殊智能、认知风格、调节能力、 兴趣、态度、性取向和偏好、精神病学 (Psychopathology)、一般性人格、特殊 Psychopathology)、一般性人格、特殊 人格有很大关系。新的研究发现进一步扩 展了特质的内涵。
在一些测验中,会有一些任务需要让受测者模拟出施测者 所希望了解的真实行为反应,但是,很显然,一些行为是 不大可能在测试的情境下产生。所获取到得行为样本是为 了预测未来的部分行为。 了预测未来的部分行为。 例如,在人事测评中会有一些任务(如无领导小组讨论) 需要受测者模拟出工作中的行为,从而来预测受测者的工 作绩效。在法庭受理案件的事务中,心理学所做的不是预 测工作,而是“以事后聪明” 测工作,而是“以事后聪明”的方式理解被告犯罪时的心 理状态。 现存的任何测验和评估手段都无法做到完整、客观的重现 被告在过去案发期间的心理状态。但是,行为样本的搜集 从一定程度上可以为我们了解被告在过去的情境中的心理 状态提供重要线索。 此外,一些其他的评估工具,如历史案例资料,被告的在 特定时段的个人日记都是对被告的评估工作有重要价值的 工具。
心理测量学真分数与信度和效度讲解

rX1 X 2
N X1 X 2
x x
1 2
根据真分数和误差的性质,可推导出 2 T X1 X 2 2 X
r
则
rX1 X 2 r
2 XT
2 2 T -代表真分数的变异; X -代表实得分数的变异, 即
总变异。 由此,我们可以看出,信度系数可以用数学语言定义为:真 分数方差与观测分数方差的比率,或者是信度指数的平方。
信度\效度关系的数学表达
rxy rxx
rxt rxy ryy
rXY表示实得效度系数(程序X 得分与外部效标Y分数之间的相 关),rXX表示测量程序的信度。 式中显示:信度是效度的极限值 或上限。换言之,由于测量的不 可信而降低了效度。
但是,在一些效标或预测因子中存在 某种程度的不可信是不可避免的。
rXT
T X
式中: rXT -代表信度指数; T -真分数的标准差;
X -实得分数(观测分数)的标准差。
信度系数(reliability coefficient) :可定义为平行测验分数
之间的相关系数。 如果用 x1 和 x2 分别表示一组受测者在两套平行 测验中所得的离差分数,则:
4.信度信息的解释 要解释信度信息,须作以下区别: (1) rX 1 X 2 ——观测分数变异中可归因于受测者真分数 中变动的比例部分 (2)( rX1 X 2 )2——一份平行测验上所得的观测分数变异 中能用另一份平行测验的观测分数的变异预测的比例部分 (3) rXT ——真分数和观测分数的相关
真分数与信度/效度
上传 目的 刘景波(snr5aliu) 仅用于学习交流
心理测量的误差种类
•误差定义,误差是由测量中与目的无关的因 素引起的不准确或不一致的效应。 •心理学研究中的误差按其性质可分为三类,
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
经典真分数测量理论Classical True Score Measurement Theory(CTS)人们将以真分数理论为核心理论假设的测量理论及其方法体系统称为经典测验理论(CTT),•也称真分数理论(CTS)。
真分数是指被测者在所测特质(如能力、知识、个性等)上的真实值,即真分数(True Score) 。
而通过一定测量工具(如测验量表和测量仪器)进行测量,在测量工具上直接获得的值(读数) ,叫观测值或观察分数(Observed Score)。
由于有测量误差存在,所以,观察值并不等于所测特质的真实值,即观察分数中含有真分数和误差分数(Error Score)。
而要获得对真实分数的值,就必须将测量的误差从观察分数中分离出来。
真分数理论三个假设及两个推论真分数理论假设(1):真分数具有不变性这一假设的实质是指真分数所指代的被测者的某种特质必须具有某种程度的稳定性,至少在所讨论的问题范围内,或者在一个特定的时间内,个体具有的特质为一个常数,保持恒定。
真分数理论假设(2):真误差是完全随机的【假设公理一】:测量误差是一个平均数为零的正态随机变量。
在多次测量中,误差有正有负。
如果测量误差为正值,观测分数就会高于其实际的分数(真分数);如果测量误差为负值,则观测分数就会低于其实际的分数,即观察分数会出现上下波动的现象。
但是,只要重复测量次数足够多,这种正负偏差就会两相抵消,测量误差的平均数恰好为零。
用数学式表达为:E(E)=0。
【假设公理二】:测量误差分数与所测的特质或者说真分数之间相互独立。
不仅如此,测量误差之间、测量误差与所测特质外其它变量间,也相互独立。
或者说,他们之间的相关为零【注释:如果承认这种交互作用,则只能用GT来解释和计算】。
真分数理论假设(3):观测分数是真分数与误差分数的和S=T+E【含义】:观察分数与真实分数之间是线性关系,而不是其它关系。
相差的就是误差分数。
真分数理论推论(1)真分数等于观察分数的平均数(T=E(X))(Gulliksen,1950)【含义】:若一个人的某种心里特质可以用平行的测验反复测量足够多次,则其观察分数的平均值会接近于真分数。
真分数理论推论(2)在一组测量分数中,观察分数的变异数(方差)等于真分数的变异数(方差)与误差分数的变异数(方差)之和。
S2X= S2T + S2E【注释】:这里的误差分数方差是随机误差的方差,系统误差的方差包含在真分数方差中,可以理解为:真分数方差=与测量目的相关方差*与测量目的无关的系统性方差经典测量理论在真分数理论假设的基石上构建起了它的理论大厦,主要包括信度、效度、项目分析、常模、标准化等基本概念。
Measurement ErrorMeasurement error (or error variance) is a term that describe the VARIANCE in scores on a test that is not directly related to the purpose of the test.The performances of students on any test will tend to vary from each other, but their performances can vary for a variety of reasons.•These variables fall into two general sources of variance:(a) those creating variance related to the purpose of the test (called meaningfulvariance), and(b) those generating variance due to other extraneous sources (called measurementerror, or error variance).•In order to minimize all those undesirable test-purpose-unrelated variance in students’ scores, test developers must use the following tables as carefully as possible.为保证有效性抽样,一般得先从目标能力A中选出一个有效的能力抽样a ,然后找出能表征这个能力抽样a的行为b,那么这些行为就应该是全部目标行为的有效抽样了。
假设命题(1)B ---》A⏹假设命题(2)a ---》A⏹假设命题(3)b ---》a⏹推导命题(4)b ---》B•上述(1),(2),(3)假设关系确定后,我们推出b-B 之间的命题关系。
⏹推导命题(5)b ---》A•根据所测试的行为抽样推论出目标能力。
⏹考试就此结束了吗?⏹语言测量是对语言行为的属性进行量化;⏹所以语言行为抽样b 的测量最终要体现在分数或等级上;即测量结果反馈F。
⏹假设命题(6):F 是b 的正确标示,即F ---》b⏹假设命题(1)B ---》A⏹假设命题(2)a ---》A⏹假设命题(3)b ---》a⏹推导命题(4)b ---》B•上述(1),(2),(3)假设关系确定后,我们推出b-B 之间的命题关系。
⏹推导命题(5)b ---》A•根据所测试的行为抽样推论出目标能力。
⏹假设命题(6)F ---》b•语言行为抽样 b 的测量最终要体现在分数或等级上⏹推导命题(7)F ---》AIn generaltest reliabilityis definedasthe extent to which the resultscan be consideredconsistent or stablePersonal attributes that are not related to language ability include:•individual characteristics such as- cognitive style and- knowledge of particular content areas•group characteristics such as- sex- race- ethnic backgroundRandom factors are largely unpredictable and temporary such as1) Mental alertness or emotional state, and2) Uncontrolled differences in test method facets e.g., changes of test environment from one day to the nextThe degree to which a test is consistent, or stable, can be estimated by calculating a reliability coefficient.两个原则性问题:针对信度,回答问题:How much variance in test scores is due to measurement error?针对效度,回答问题:What specific abilities account for the reliable variance in test scores?The point is that, a test can be reliable without being valid. In other words, a test can consistently measure something other than that for which it was designed (这是因为信度是考试分数本身的属性,而效度是对考试分数解释和使用的准确性,所以两者虽密切联系,却性质不同).Hence test reliability and validity, though related, are different test characteristics.In fact, reliability can be viewed as a precondition for validity, that is, a test cannot be valid unless it is first reliable.Validity is especially important when it is involved in the decisions that teachers regularly make about their students.Teachers certainly want to base their admissions, placement, achievement, and diagnostic decisions on tests that are actually testing what they claim to measure.Adopting, developing, and adapting tests for such decisions is difficult enough without having to also worry about whether the tests are measuring the wrong student characteristics, abilities, proficiencies, etc.【基本问题】1)测量什么属性;2)对所欲测量的属性所测到的程度。
1)效度是针对测验结果而言的。
即测验效度是测验结果的有效性程度。
不是测验本身。
(2)效度是针对测验特定目的而言的。
它不具备普遍性。
所以在评价一个测验的效度时,必须考虑到其特殊用途,指明其对测量什么有效。
(3)效度只有程度上的差异。
它不是“有”和“无”的差别。
使用“高”、“中”、“低”来描述。
考试效度研究并不是检验考试内容本身,也不是检验考试分数本身的“效度”(考试分数本身不存在效度,仅仅存在信度问题--LP),而是检验解释和使用考试分数的方式的效度。
Content Relevanceinvolves the specification of ability domain (Bachman, 1990:42-4, about operationally defining constructs);requires the specification of the test method facets (ibid:119)(e.g., what it is that the test measures, the attributes of the stimuli that will be presented to the test-takers, the nature of the responses that the test taker is expected to make…);Content Coveragewish to have a well-defined domain that specified the entire set, or population, ofpossible test tasks;then, we could follow a standard procedure for random sampling (or stratified random sampling, in the case of heterogeneous domains) to insure that the tasks required by the test is representative of that domain.Authenticity“…define authenticity as the degree of correspondence of the characteristics of a given language test task to the features of a TLU task…”(Bachman & Palmer, 1996:23)特定考试任务特征与TLU任务特征之间的符合程度例如,在研发阅读考试时,我们应该选择那些特征(内容、语篇结构、题材、题材等)与实际阅读环境中必读材料特征相符合的篇章作为考试用篇章。