第四章 测量信度

合集下载

第四章 心理测验的信度与效度

第四章 心理测验的信度与效度
信度系数可以解释为测验的总变异中,真分数造成的变 异占百分之几。如,当rxx=0.90时,我们可以说实得分 数中有90%的变异是真分数造成的,仅10%来自测验的误 差。rxx=1.00,则表示完全没有测量误差,所有的变异 均来自真实分数;同样,信度系数也告诉测量的误差比 例是多少。
27
2、确定信度可以接受的水平

SE Sx 1 rxx
(公式5-4)
式中SE表示测量的标准误,即误差分布的标准差; Sx表示一次测量分数的标准差;rxx表示信度系数。
32
我们可以用测量的标准误来估计个人测验的真分数 的大小。
如果选用95%的可靠性水平(置信水平),即显著 性水平(a值)为.05,Z ,2 真分数有95%的可能落入 X ±1.96SE ,即X ±1.96 SE的范围之内,也可以 写成X-1.96SE T X+1.96 SE,SE则用公式5 -4代入。或有5%的可能落入这范围之外。这实际 上也表明了再测时分数改变的可能范围。
被试有条件接受两个测验。
17
(三)内部一致性信度
1、定义:
反映的是题目之间的关系,表示测验能够测量相同内容 或特质的程度。
2、方法:
(1)分半信度: 通常是先把一份测验按题目的奇偶顺序或其它方法分 成两个尽可能平行的半份测验,然后计算两半之间的 相关,即得到分半信度系数。
18
ABCDE FGH I J X1 16 15 13 13 11 10 10 9 8 7 X2 15 16 14 12 10 9 11 8 6 7
2、注意事项: 所测量的心理特性必须是稳定的。 遗忘和练习的效果基本上是相互抵消的。 在两次施测的间隔时期内,被试在所要测验的心理特 质方面没有获得的更多的学习和训练。 易受练习和记忆的影响,两次测试的时间间隔要适当, 一般是2~4周较宜,间隔时间最好不超过6个月。

第四章心理测量的信度

第四章心理测量的信度

第四章心理测量的信度一、单项选择题。

1.当代信度理论的大部分要点是()。

(4.1.63)A斯皮尔曼 B皮尔逊 C桑代克 D库德2.重测信度的大小等于同一组被试在两次测验上所得分数的()。

(4.2.67)A.克伦巴赫α系数B.皮尔逊积差相关系数C.肯德尔和谐系数D.肯德尔W系数3.关于重测信度说法正确的是()。

(4.2.67)A.每一种信度系数都能说明信度B.重测信度高,说明分数受被试状况和测验情境变化的影响小C.所有的测验都可以计算重测信度D.重测信度不仅反映了随机误差的影响,也反映了被试心理特点的长期变化4.关于重测信度下列说法正确的是()。

(4.2.67)A每一种信度系数都能说明信度。

B重测信度高,说明分数受被试状态和测验情境变化的影响小。

C所有的测验都可以计算重测信度。

D重测信度不仅反映了随机误差的影响,也反映了被试心理特点的长期变化。

5.关于重测信度下列说法不正确的是()。

(4.2.69)A任何一个测验都可能有不止一个再测信度系数。

B一份完备的测验应有很多重测系数,分别与不同的测验间隔时间相对应。

C重测相关很低意味着测验不可信。

D重测相关很低可能是被试被研究的特性发生了改变。

6.等值性系数取决于平行测验的得分之间的相关,且两次测验的时间间隔极短,所以若等值性系数偏低肯定是由于()造成的。

( 4.2.71)A.学生自身变化B.题目取样不同C.主试的反应D.测试环境变化7.分半信度只适用于()。

(4.2.7 4)A.难度测验B.速度测验C.=非标准化测验D.成就测验8.同质性信度是指测验的()的一致性程度。

(4.2.74)A.题目内容B.题目形式C.所有题目间D.各维度题目9.下列估计信度的方法需施测2次的是()。

(4.2.80)A.分半信度 B.同质性信度C.评分者信度D.再测信度10.下列哪项不是影响信度的因素()。

(4.3.82)A.样本团体平均水平B.题目数量C.系统误差D.施测情境11.人格测验的信度应达()以上。

第四章测量信度

第四章测量信度

第四章 测量信度一、填空题1、 根据一组被试在 两个平行或两个复本 测验上的得分计算的相关系数即为复本信度。

2、各种估计信度的方法都是对测验的一致性进行估计,但由于误差来源不同,它们研究的侧面各不相同,说明的是信度的不同方面。

其中,再测信度可用来估计________________________,复本信度可用来估计_________________,等值稳定性系数可用来估计_______________________,内部一致性系数可用来估计测验跨项目或两个分测验之间的一致性,评分者信度可用来估计测验跨评分者的一致性。

3、用同一个测验,对同一组被试前后施测两次,对两次测验分数求相关,其相关系数就叫 重测信度 。

4、一般认为经过训练的成对评分者之间的一致性达 0.90 以上,评分才是客观的。

5、再测信度又叫__________。

6、增加测验长度对信度产生的效果可用XXXX KK r K Kr r )1(1-+=公式来计算。

7、利用两平行形式测验测查同一批被试所得的两批观察分数,求其间的相关系数,跟____一样,也可求得测验的信度系数。

这种用平行形式相关求得的信度系数,因为特别强调两测验形式的____,所以又叫____。

8、复本信度又叫( )系数。

二、单项选择题信度的定义1、如果某测验的信度系数为0.80,那么该测验中真分数造成的变异占( A )A 80%B 20%C 64%D 36%2、信度之于效度正如(B )。

A 准确性之于一致性B 一致性之于准确性C 偏差数之于常模D 常模之于偏差数3、在能力测验中,代表测验量表的稳定性和一致性的指标是( C )。

(华南师大2001研) A 效度B 区分度C 信度D 难度4、信度指的是测量的( C )。

A 正确性B 针对性C 一致性D 有效性5、信度指数的( B )就是信度系数。

7、关于信度的指标正确的是( C )。

A 信度系数,即实得分数方差与真分数的方差的比值B 信度指数即是信度系数C 测量标准误与信度呈负相关D 测量标准误与信度呈正相关(相似题目)关于信度的指标,说法错误的是( D )。

心理测量 第4章 心理与教育测量的信度

心理测量 第4章 心理与教育测量的信度

两个测验必须在项目的内容、形式、数量、难易、 时限、指导语等方面相同或相似; 两次测验的时间间隔要适当;

尽管复本信度的估计方法避免了再测法的 缺点,应用范围较广,但它本身也有一定的局 限性:

复本法只能减少而不能完全排除练习和记忆的影响; 对于许多测验来说,建立复本是相当困难的; 由于第二个测验只改变了题目的内容,已经掌握解 题原则,可以很容易迁移到同类问题中去。
2 K为测验题目数,Si2 为某一题目分数的变异数,Sx 为测验 总分的变异数
采用SPSS计算信度
数 据 库
同 质 性 信 度 计 算 方 式
结果
输入40题
结果
评分者信度
标准化测验一般都有较为严格的评分程序。
对于客观性试题来讲,评分所引起的误差是可 以忽略不计的,但是对于一些主观题来讲,评 分者之间的变异是产生误差的重要原因之一。
测验的信度。
根据统计学里讲的区间估计的方法,
我们可以得知:个人在每次测量中所得分
数X有95%的可能性在真分数加减1.96个
标准误的范围内,即
X 1.96SE T X 1.96SE

两种测验分数的比较 来自不同测验的原始分数是无法直接 比较的,只有参照统一团体的平均分数, 将它们转换成相同尺度的标准分数(如T分 数或Z分数),才能进行比较。为了说明个 人在两种测验上的差异,我们可以用差异 标准误来检验其差异的显著性,其公式:
信度是测量过程中随机误差大小的反应 信度可以用来解释个体测验分数的意义 信度可以帮助不同测验分数之间进行比较

一个测验有多个信度估计值,因而误差估计值也有 多个,我们在实际工作中要注意选择最适合某一特 殊情况的信度估计来解决问题。

第四章 测验信度作业

第四章 测验信度作业

第四章测量信度一、单选题1.速度测验的信度应以( c )取得。

dA.奇偶法 B.筛选法 C.反应时法 D.重测法2.在其他条件均等的情况下,测验长度和信度之间的关系是( d )。

bA.测验越长,信度越低B.测验越长,信度越高C.没有关系D.上述说法都不正确3.计算一项测验的分半信度最常用的方法是比较( b )。

A.测验的前半部分与后半部分的得分。

B.奇数项目与偶数项目的得分。

C.将测验随机分为两部分,比较这两部分的得分。

.D.上述方法都可以。

4.一个40道题目的测验其奇偶分半后的信度为0.50,那么该测验的信度接近多少?( b )A. 0.50B. 0.67C. 0.80D. 1.05.当测验的信度减少(接近0)时,测量的标准误将会怎样变化(c )?A.减小,趋向于零。

B.只要趋向于1.0,它就会要么增大,要么减小。

C.增大,趋向于测验的标准差。

D.增大,逼近无限大。

6.再测信度所考虑的误差来源是(d )所带来的随机影响。

A.形式的不同B.题目的不同C.考生的不同D.时间的不同7.在考查评分者信度时,如果三人以上评阅数份试卷,则需计算( a )。

A.肯德尔和谐系数B.等级相关系数C.皮尔逊积差相关系数D.克伦巴赫α系数8.(a )是指在不同时间内用同一测验(或用另一套相等的测验)重复测量同一被试者,所得结果的一致程度。

A.信度B.效度C.难度D.区分度9.信度只受(d )的影响。

bA .系统误差 B.随机误差 C.恒定效应 D.概化理论10.复本信度又称等值性系数。

它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系效。

复本信度反映的是测验在( c )上的等值性。

dA.时间B.题目C.评分D.内容11.分半信度通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试者在两半测验上的得分,求出这两半分数的相关系效。

这个相关系数就代表了( d )内容取样的一致程度。

第4章 测量的信度与效度

第4章 测量的信度与效度
2 2 X T2 E
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识,分析其是属于系统 误差还是属于随机误差。 系统误差会使调查结果有误,所以应尽量避免。 随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是:真分数的方差在总体方差中所占的比 重,即信度系数:
当题目间的相关系数越大时,α系数也会越大。 当题目数目n越多时,S
2 H
n 值越大, 越接近于0, 2 SH n 1
2 S i
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以加入分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。 克朗巴哈α系数适用于项目多重计分的测验数据或问卷 数据,可以用该系数测量Likert量表的信度。 在基础研究中,信度至少应达到0.8才可接受; 在探索性研究中,信度只要达到0.7就可以接受; 在旅游调查测量实践中,信度只要达到0.6即可接受。 α系数通常与量表题目数量有关,题目数量越多,α系 数就越大。
理想(甚佳,信度 佳(信度高) 很高) 非常理想(信度非 非常理想(甚佳, 常好) 信度很高)
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例,8个题项均为正向题, 受试样本数有6位,采用Likert 5点量表填答,获得调查 结果如下表:
题号 样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24

第四章 测量信度

第四章 测量信度

分析结果
信度类型 重测复本 分半信度 rXX 0.70 0.80 误差源 时间、内容 内容取样 误差的方差
两者之差
评分者信度 0.92
总误差方差 真分数方差
时间取样
评分者差异
1-0.70=0.3 1-0.80=0.2 0.3-0.2=0.1 1- 0.92=0.08 0.2+0.1+0.08=0.38 1-0.38=0.62
二、信度的统计定义

2 T rXX 信度是被试团体真分数方差与实得分数方差之比:2 X
T2
X2
E2
E2
T2
X2

信度是被试团体真分数与实得分数相关系数的平方:
2 rXX TX
rXX XX
理论定义
操作定义

信度是一个测验X(A卷)与它的任意一个平行测验 (B卷)的相关系数。
分析


散点图 计算
散点图


整段范围

样本团体平均能力水平的影响

团体平均水平太高或太低,使测验分数的分 布变窄,低估测量的信度

典型测验的信度高低水平
测验类型 成套成就测验 学术能力测验 成套倾向性测验 客观人格测验 兴趣问卷 态度量表 低 .66 .56 .26 .46 .42 .47 中 .92 .90 .88 .85 .84 .79 高 .98 .97 .96 .97 .93 .98
各种信度反映的误差来源比较
信度类型 重测信度 等值性系数 等值稳定性系数 分半信度 同质性信度 评分者信度 误差来源 时间 内容 时间和内容 内容 内容 评分者之间的差异

心理测量 第四章 测量信度

心理测量 第四章 测量信度

例题
• 在一次测验中有一学生得80分,这是否反 映了他们的真实水平?如果再测一次他的 分数将改变多少?已知该次测验的标准差 为5,信度系数为0.84。 • 首先计算SE: • SE= 5 √ (1-0.84) =2 • T=80 1.96 2 = 76.08~83.92 • 我们可以说该学生的真正分数有95%的可 能性落在76与84分之间。
2.信度可以帮助进行不同测验分数 的比较
• 来自不同测验的原始分数是无法直接比较 的,而必须将它们转换成相同尺度的标准 分数才能进行比较。 • 例:某班期末考试,张生语文、数学的成 绩转换成T分数(平均数为50、标准差为10) 分别为65和70,由此我们可以知道张生的 数学比语文考得稍好些,但二者差异是否 有意义,仍不清楚。
• 由于SX2=ST2+SE2, • 所以信度还可表示为: • XX=(SX2-SE2)/ SX2=1- SE2/ SX2 • 信度在1(完全可信)与0(不可信)之间
• 由于真分数的变异数是不能直接测量的,因此信 度是一个理论上构想的概念,由于我们无法得到 测验的真正信度,我们只能用一些指标对它进行 估计。
二、复本信度
• 1.含义与计算 • 任何测验都只是所有可能题目中的一份取 样,所以可能编制许多平行的等值测验, 叫做复本。 • 复本信度(alternate-form reliability)就是 指用两个复本测验测量同一批被试所得结 果的一致性程度。 • 其大小等于同一批被试在两个复本测验上 所得分数的积差相关系数。
三、分半信度
• 分半信度(split-half reliability)指的是将一个测 验分成对等的两半,根据所有被试在这两半测验 上所得分数的一致性程度。 • 分半信度系数可以和等值性系数一样解释。因为 这两半测验基本上相当于最短时距施测的两个平 行的复本,由于只需要对一个测验进行一次施测, 考察的是两半题目之间的一致性,所以这种信度 系数有时也被称为内部一致系数。 • 虽然分半信度也可当作内部一致性的测量,但我 们将归类为等值的特例,与其它等值性测量唯一 不同之处是在测验施测后才分成两个。

第四章测量的信度与效度ppt课件

第四章测量的信度与效度ppt课件
力等难度测验
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ (二)复本信度(Alternate-form reliability) ➢ 1.含义与计算 ➢ 是指两个平行测验测量同一批被试所得结果的一
致程度,其大小等于同一组被试在两个复本测验 上所得分数的积差相关系数。计算公式同重测信 度。
2. 信度的测量学定义(操作性定义)
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
3. 误差方差与信度的关系
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ 二、信度的估计方法 ➢ (一)重测信度(test-retest reliability) ➢ 1.含义与计算 ➢ 重测信度是指用同一量表对同一组被试测试两次
所得结果的一致程度,其大小等于同一组被试在 两次测验上所得分数的积差相关系数。即:
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ 当评分者人数为2时,评分者信度等于两个评 分者给同一批被试答卷所给分数的相关系数。 如果是多个评分者,评分者信度采用肯德尔和 谐系数进行估计。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。

《测量的信度》课件

《测量的信度》课件

社会背景:被测 量者的社会背景 会影响其反应和 表现
Part Three
选择经过验证的测量工具,确保其可靠性和有效性 定期对测量工具进行校准和维护,确保其准确性 确保测量工具的使用符合操作规程和标准 定期对测量工具进行评估和更新,确保其先进性和适用性
培训内容:测量原 理、测量方法、测 量工具使用等
操作步骤:对同一 对象进行多次测量, 然后计算平均值
注意事项:确保每 次测量的条件一致 ,避免因条件变化 导致的误差
应用领域:广泛应 用于科学研究、工 程测量等领域
Part 即测量工具能够稳定地、可靠地测量出被测对象的 真实水平
效度:测量工具的准确性和有效性,即测量工具能够准确地、有效地测量出被测对象的 真实水平
信度是指测量工具的稳定性和可靠性,效度是指测量工具的准确性和有 效性。 在实际应用中,信度和效度需要平衡,不能只追求一方而忽视另一方。
提高信度的方法包括增加测量次数、采用更稳定的测量工具等。
提高效度的方法包括选择更合适的测量工具、采用更科学的测量方法等。
Part Five
心理测量:通过信 度检验,确保测量 工具的准确性和可 靠性
,
汇报人:
01 02 03 04
05
Part One
信度是指测量工具或方法的可靠性和稳定性 信度越高,测量结果越接近真实值 信度包括内部一致性、重测信度和分半信度等 信度是测量工具或方法质量的重要指标
信度是测量工 具质量的重要
指标
信度反映了测 量工具的稳定
性和可靠性
信度高的测量 工具可以提供 更准确的测量
添加标题
添加标题
考试评价:通过信度测量,确保考 试的公平性和有效性
教育研究:通过信度测量,提高教 育研究的科学性和准确性

第四章 信度理论

第四章  信度理论
信度的理论定义 影响信度的几个因素

信度与误差的关系 三种误差


抽样误差:抽样产生的误差
测量误差:偶然因素引起的不易控制的误差

系统误差:由与测量无关的因素引起的具有一定系
统性和规律性的误差

误差对信度的影响 抽样误差:不影响信度


测量误差:是影响信度的主要因素
系统误差:不影响信度
信度的理论定义


误差是随机的,即误差的平均数等于0,且呈正态分布
误差分数与真分数之间无相关
则获得分数、真分数和误差分数之间具有如下关系

2 t 2
2 e

2 t

2 t 2 t 2 2 t
2 e 2 t
测验的长度:测验所包含的测题的数量。
测验的长度越大,信度越高。
nrll rnn 1 n 1rll
对于预期信度的测验长度调整
rnn 1 rll n rll 1 rnn
被试的能力全距
1 r rnn 1 2 n
2 0
真分数模型 提出者:Charles Spearman(相关研究) 历史: 1904 逻辑性 测量分数易犯错误 1913 数学性
1904 Spearman:测验分数之间的相关低 于“真正客观值”之间的相关 1907 Spearman:易犯错误的度量 1913 Spearman:真正客观值
经典真分数 模型
信度的理论定义


从逻辑上讲,信度是一组测验分数中真分数方差 与获得分数方差的比率。 测验分数的含义
Xt X Xe
真分数的意义
无限次重复同一测验所得分数的平均数 真分数的获得完全依赖于所采用的测量过程

第四章测量的信度

第四章测量的信度
3.重测信度实质: 主要考察了一个测量工具是否能 够保证在不同时间测量结果的一致性,表示测 验结果的稳定性。故称之为稳定性系数( Coefficient of Stability)
一般来说, 重测的时间间隔越短, 那么各种施测情境 的变化就越小, 重测信度系数就会越大。
重测信度系数较大时, 说明该测量工具前、后两次 的测量结果比较一致。结果具有较好的跨时间上的 稳定性。
定义2: 信度是被试团体真分数与实得分数相关系数的平 方
定义3: 信度是一个测验X(A卷)与它的任意一个平行测验 (B卷)的相关系数
由于真分数的方差无法统计,可转化为: rxx=(S2x-S2E)/S2x =1- S2E/S2x 该定义有两点需要注意: 第一、信度指的是一组测验分数或一列测量的特性,
X―1.96SE<T≤X+1.96SE
• 例:在一个智力测验中,某个被试的IQ为100,这是否反 映了他的真实水平? 如果再测一次,他的分数将改变多 少?
• 已知该智力测验的标准差为15,信度系数为.84,则其IQ
的测量标准误和可能范围为: 勇于开始,才能找到成

功的路
注意几点: (1)SE对真分数做的是区间估计,不可能由此得到一
课后作业
1.某智力测验的信度r=0.75,某次施测得到标准差为 3.00,则该测验的测量标准误是多少,若某被试得分 为100,试估计其真分数1- =.95的置信区间
2. 某测验的信度为0.75。要使该测验的信度达到 0.90,须增加多少题目(原测验长度的多少倍) ?
3.一个包含10个题目的测验,信度为0.50,若增至 50个题目,其信度将是多少?

真分数的估计区间为:
X-1.个人测验的真分数的大小 。

第四章测量信度.ppt

第四章测量信度.ppt

第一节 信度概述
信度:测验结果一致性的判断 (一个测验可靠性和稳定性的指标)
一个好的测验在多次测量同一个人的 时候结果应该是基本一致的.
一、信度与测量误差
1.经典测量理论的假设
X T E T V I X V I E
式中,X为观察分数,T为一般真分数, E为随机误差分数,V为目标真分数,I为 非目标真分数(系统误差)。
分半信度?使用时需注意的问题?在估计测验的分半信度时虽然要求把一个测验的所有题目随机地划分成对半的两个部分但是在实践中对测验分半时为了尽量减少无关因素的影响通常需要考虑题型题分题目测试先后顺序等因素的平衡问题比如按照题目顺序奇偶分半就是一个经常选择的方法
第四章 测量信度
本章提要
测量信度的概念及作用 信度的估计方法 影响信度的主要因素 提高信度的常用方法
项目同质性 当被试在同一测验里表现出跨项 目的一致性时,就称测验具有项目同质性。 也就是测验里各测题得分为正相关时,即为 同质,反之测题间相关为零则为异质。
三、内部一致性信度(同质性信度)P56
1.含义 ➢内部一致性信度主要评价了测验各随 机组成部分之间是否测量了相同的心 理特质,因此,它反映的是题目内容 的抽样一致性程度。
测量标准误差(standard error of measurement)是测量误差的假设分布的标准 差。用下列公式能够容易地计算测量标准误差:
SEM SDt 1 rXX
式中,SDt表示测验分数的标准差,rXX表示信 度系数。
四、信度的标准与作用P51
1.信度是评价测验质量的重要指标之一。
测验类型
4.使用重测信度时需要注意的问题 ➢两次施测时间间隔的长短会影响重测信度 系数估计值的大小,因此,在报告重测信 度系数时应该报告间隔的时间长度。 ➢应该根据已有的相关研究结论考虑所测心 理特质本身的稳定性程度,以确定前后两 次施测时间的间隔究竟应该多长比较合适 时,不应该随便选择间隔时间的长短。

第四章 测量信度

第四章  测量信度

五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时,评分者信度等于两者 评分的相关系数(积差相关或等级相关)。 2、当评分者人数大于2时,评分者信度采用肯 德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数,N是被评的对象数,Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件

要构造出2份或2份以上真正平行的测验。 被试有条件接受两次以上的测验。
复本信度的优缺点
优点:
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点:
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节 信度的定义
一、什么是信度

信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。

信度反映的是测量中随机误差的大小,随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
遗忘和练习的效果基本相互抵消;(3)在两次施测 的间隔期内,被试所要测查的心理特质没有获得更多 的学习和训练;(4)被试有条件接受两次相同的测 验,取决于时间、经费等因素。

第四章测量信度解读

第四章测量信度解读

➢ 2.使用的前提条件和范围
➢ 分半信度通常是在只能施测一次或没有复本的情况下使 用。其中使用斯皮尔曼—布朗公式时要求全体被试在两 半测验分数的变异数相等。当测验无法分成对等的两半 时,无法使用。
➢ 四、同质性信度(Homogeneity reliability)
➢ 1.含义
➢ 同质性信度也叫内部一致性系数,它是测验内部所有题目 间的一致性程度。这里的一致性有两种含义:一是所有题 目都测的是同一种心理特质,二是所有题目得分之间都具 有较高的正相关。同质性信度就是一个测验所测内容或特 质的相同程度。
➢ 3.不同测验分数的比较
第二节 信度的估计方法
➢ 一、重测信度(test-retest reliability) ➢ 1.含义与计算
➢ 重测信度是指用同一量表对同一组被试测试两次所 得结果的一致程度,其大小等于同一组被试在两次 测验上所得分数的积差相关系数。即:
r xy
Ns x s y
在SPSS中计算重测信度的步骤: Analyze→correlate→bivariate→ variables→ pearson
第一节 信度概述
➢ 一、什么是信度 ➢ 1. 信度的描述定义
➢ 信度(reliability)是指测量结果的稳定性程度 或一致性程度。
➢ 2. 信度的测量学定义(操作性定义)
➢ 3. 误差方差与信度的关系
➢ 二、信度的作用
➢ 1. 评价测验
➢ 信度是测量过程中所存在的随机误差大小的反映。信度低,测量随 机误差大,测量结果就会与真分数发生较大偏离。
➢ 2.重测信度使用的条件
➢ (1)所测量的心理特质必须是稳定的 ➢ (2)遗忘和练习的效果基本上相互抵消 ➢ (3)在两次测试时间间隔内,被试在所要测查的心理

戴海崎《心理与教育测量》(第4版)章节题库(测量信度)【圣才出品】

戴海崎《心理与教育测量》(第4版)章节题库(测量信度)【圣才出品】

第4章测量信度一、单项选择题1.某测验的信度为0.64,实得分数的标准差为5,该测验的标准误为()。

A.0.36B.1.04C.3.00D.4.36【答案】C【解析】根据标准误的公式,代入数据,得:2.重测信度的主要误差源是()。

A.内容取样B.时间取样C.统计方法D.评分者【答案】B【解析】重测信度是指同一个测验先后施测于同一批被试,比较这两次测验结果的一致性程度。

其中时间的长短是影响其信度的关键因素。

如果时间太短则被试可能存在记忆;如果时间太长,则被试的流失率或者被试本身的成熟发育等会影响实验结果。

3.衡量测验跨时间一致性的信度称为()。

A.重测信度B.复本信度C.同质性信度D.评分者信度【答案】A【解析】不同的信度考查的内容不同。

重测信度衡量测验跨时间的一致性。

复本信度(连续施测)衡量测验两个平行测验内容之间的一致性,复本信度(间隔施测)衡量两个平行测验内容之间跨时间的一致性。

分半信度衡量一个测量的两半内容之间的一致性。

评分者信度衡量评分者间的一致性。

4.将测验对等分半后,两半测验得分的相关系数为0.60,校正后该测验的分半信度是()。

A.0.70B.0.75C.0.80D.0.85【答案】B【解析】利用分半法计算测验的信度,可能会低估原长度测验的信度,所以需要用斯皮尔曼-布朗公式对分半信度系数进行修订,根据校正公式可知校正后该测验的分半信度是0.75。

5.同质性信度主要反映测验内部()间的一致性。

A.两半测验B.题目与分测验C.所有题目D.分测验与测验【答案】C【解析】同质性信度主要反映的是所有题目间的一致性。

当各个测题的的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。

相反,表面看起来题目都是测的是同一特质,但各个题目间相关很低或负相关时,则测验为异质的。

分半信度测的是两半测验的一致性。

6.在不同时间内用同一测验重复测量同一被试者,所得结果的一致程度称为()。

A.信度B.效度C.难度D.区分度【答案】A【解析】A项,信度主要是指测量结果的可靠性或一致性,可用重测信度、复本信度、内部一致性信度、评分者信度进行评估。

第四章 测量信度

第四章 测量信度
复本信度(Alternate-form Reliability) 指用两个平行测验测量同一批被试所得结果 的一致性程度。其大小等于同一批被试在两个 复本测验上所得分数的皮尔逊积差相关系数。
复本信度又叫平行性信度,它反映的是跨型式 的一致性 。
施测 A型
连续施测或间隔施测 相关系数
施测 B型
平行测验的概念
增题目长度与新测验信度的关系。
第一节 信度的定义
一、什么是信度
信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。
信度反映的是测量中随机误差的大小。随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
平行测验(A、B卷)必须是真正等值的,它们 测量的是同一特质,具有大致相当的内容范围、 题型、长度、难度、区分度、指导语、时限等, 只是具体的题目不同。
在统计学上,真正的平行测验在测量同一批被 试时,应具有相同的平均数和标准差,并且被 试在分数分布形态上相似。
由于平行测验的题目不相同,所以不存在记忆 效应。
弗朗那根公式:rxx = 2 [ 1-( S2a + S2b )/ S2x ]
卢仑公式:
rxx = 1- S2d / S2x
其中rxx是测验的分半信度, S2a 、 S2b表示被试 在两半测验上得分的方差,S2x表示被试在整个测验 上得分的方差, S2d表示被试在两半测验上得分之差 的方差。
四、同质性信度
rKK
K (1 K 1
pi
S
2 X
qi
)
(KR20公式)

第四章 心理与教育测量的信度

第四章 心理与教育测量的信度

仅适用于(0,1)记分测验。
同质性信度 pq rXX = 1- 2 K -1 SX
p 和 q 分别为题目的平均通过率和平均失败率。
仅适用于(0,1)记分,且所有题目的难度接近的测验。
同质性信度的计算及使用条件
D. 克龙巴赫α系数:适用于任何计分方式的测验。
概化理论的发展 测验情景关系说 测验设计任务
5
6
G研究 D研究
D研究的指标
7 8
对概化理论的评价
一、测验分数方差的测量学意义
1、测验分数方差有目标测量分数方差和误差分数方差。
2、误差来源的多样性与总分方差结构的复杂性。
3、经典测量理论处理分数方差的办法: 假定X=T+E,有σ
X 2=σ T 2+σ E 2,
重测信度的使用条件
1、所测量的心理特质必须是稳定的
2、遗忘和练习的效果基本上相互抵消
3、两次测验间隔,被试要测的特质没有学习和训练
重测信度练习
例3:10名学生接受了某测验,分数记为X,为考察该测
验的信度,一星期后,对这10个学生重新测了一次,分数
记为Y,根据两次测验结果,求该测验信度。
学生号 01 Xi 31 Yi 30
rXX = K rij
1+ K -1 rij
r ij 为项目间相关系数的平均数。 Κ为测验项目数,
同质性信度的计算及使用条件
B. 库德-理查逊公式(K-R20):
n pi q i K 1- i 1 2 rXX = K -1 SX
Κ为测验题目数,pi为通过第i题的人数比例,qi为未通过 第i题的人数比例,SX2为测验总分的变异数。
平行测验A
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章测量信度第一节信度概述一、什么是信度信度又叫可靠性,是指测量结果的稳定性程度或一致性程度。

一个好的测验必须稳定可靠,即多次测量的结果保持一致,否则便不可信。

例如:我们用一个智力量表去测量某一个儿童,第一次测得的结果是IQ=90,第二次测得的结果是IQ=120。

那么我们就会问:到底这儿童的智商是多少?这就是该智力测验的可靠性有问题。

就好象用橡皮筋去量东西的长度。

前面讲过,任何一种测量,总有或多或少的误差,信度受随机误差的影响。

随机误差越大,信度也就越低;随机误差越小,信度就越高。

因此,信度也可看作测量结果受机遇影响的程度。

信度的含义可以从两个层面加以分析:(1)当我们以同样的测量工具重复测量某项持久性的特质时,是否得到相同的结果?由此可知此一测量工具的稳定性。

(2)测量工具能否减少随机误差的影响,提供某项特质个别差异程度的真实量数?由此可知测量结果的精确性。

(如新旧枪射击结果图)在测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得分数的变异数)的比率。

即:γXX = S T2 /S X2式中γXX代表测量的信度,S T2代表真分数变异数,S X2代表总变异数,即实得分数的变异数。

由于X=T+E,所以信度还可表示为:γXX=(S X2-S E2)/ S X2=1- S E2/ S X2由于真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,由于我们无法得到测验的真正信度,我们只能用一些指标对它进行估计。

二、信度系数大部分的信度指标都以标志着系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称作信度系数。

对信度系数要注意三点:(1)在不同的情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。

(2)信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。

(3)获得较高的信度系数并不是心理测量追求的最终目标,它只是迈向目标的一步,是使测验有效的一个必要条件。

信度系数达到多高才可以接受呢?最理想的情况是γXX=1,但这是办不到的。

不过我们可用已有的同类测验作为比较的基准。

一般能力与成就测验的信度系数要求在0.90以上,有的可以达到0.95;至于性格、兴趣、价值观等人格测验的信度系数,通常在080到085或更高些。

当γXX<0.70时,不能用测验来对个人作评价,也不能在团体间作比较;当γXX大于或等于0.70时,可用于团体间比较;当γXX大于或等于0.85时,可用于鉴别个人。

任何测验只有包含特定样本的题目,由特定的施测者,对特定的被试,在特定的时间、地点施测,情况不同便会得到不同的分数。

由于信度系数总是在特定情况下获得的,因此,只有当一个测验在很多情况下被证实具有较高的信度时,才可以说它是比较可靠的测验。

三、信度的作用信度系数有两个实际用处:一是用来解释个人分数的意义,二是用来比较不同测验分数的差异。

1.信度可以用来解释个人测验分数的意义由于存在测量误差,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。

理论上我们可对一个人施测无限多次,然后求所得分数的平均数与标准差,这样平均数就是这个人的真分数,标准差就是测量误差大小的指标。

但这在实际上是行不通的。

然而,我们可以用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测,以估计测量误差的变异数。

此时,每个人在两次测验中的分数之差可以构成一个新的分布,这个分布的标准差就是测量的标准误,是表示测量误差大小的指标。

测量的标准误可用下式计算:SE=S X 1 - γXX这里SE为测量的标准误,S X为所得分数的标准差,γXX为测量的信度。

从式中可以看出,测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误越大。

根据上公式,知道了一组测量的标准差和信度系数,就可以求出测量的标准误。

进一步我们就可以从每个人的实得分数估计出真分数的可能范围,即确定出在不同或然率水准上真分数的置信区间。

人们一般采用95%的或然率水准,其置信区间为:(X-1.96SE)≤ T ≤ (X+1.96SE)这就是说,大约有95%的可能性真正分数落在所得分数±1.96SE的范围内,或者5%的可能性落在这范围之外。

这实际上也表明了再测时分数改变的可能范围。

例如:在一次测验中有一学生得80分,这是否反映了他们的真实水平?如果再测一次他的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84。

首先计算SE:SE= 5⨯1-0.84 =2T=80 ± 1.96 ⨯ 2 = 76.08—83.92我们可以说该学生的真正分数有95%的可能性落在76与84分之间。

2.信度可以帮助进行不同测验分数的比较来自不同测验的原始分数是无法直接比较的,而必须将它们转换成相同尺度的标准分数才能进行比较。

如某班期末考试,张生语文、数学的成绩转换成T分数(平均数为50、标准差为10)分别为65和70,由此我们可以知道张生的数学比语文考得稍好些,但二者差异是否有意义,仍不清楚。

为了说明个人在两种测验上表现的优劣,我们可以用“差异的标准误”来检验其差异的显著性,常用的公式为:SE d=S 2 - γXX -γYY公式中SE d为差异的标准误,S为标准分数的标准差(如T分数的S=10),γXX和γYY 分别是两个测验的信度系数。

如上例中,假定此次语文、数学考试的信度分别为0.84和0.91,张生的两个分数差异的标准误为:SE d=10 ⨯2-0.84-0.91 = 5若采用95%的置信区间(即.05显著水平),则张生在这两门课上T分数的差异必须达到或超过1.96Sed = 1.96 ⨯ 5 = 9.8 ,才能认为二者真有差异。

因为数学的T分数只比语文高5分,所以差异并不显著。

用SE估计个人分数的误差要注意三点:(1)一个测验有很多可能的信度估计,因而也有同样多的标准误估计,在实际工作中要注意选择最适合某一特殊情况的信度估计来解决问题。

(2)本理论假定SE在所有分数水平都一样,但有时高分段与低分段其标准误并不相同。

水平高的人与水平低的人在做测量时会有不同的随机误差,受随机误差的影响也不一样。

(3)测验分数是一个人真正分数的最佳估计,但由于存在测量误差,所以必须将测验分数看成以该点为中心上下波动的范围,而不要看成确切的点。

这一范围有多宽将取决于测量标准误的大小,最终取决于信度系数。

(4)测量标准误是对测量误差的描绘,用它能对个人真正分数的置信区间作出估计,但用它来估计个人真正水平则可能导致严重错误,因为它没有考虑到系统误差的影响。

第二节信度的估计方法信度是反映测量中随机误差大小的指标。

由于赞成测量的随机误差的方式或来源多种多样,所以信度的估计方法也多种多样。

下面所介绍的信度估计方法是分别考察信度的某一方面的,使用时要特别注意它的含义及适用范围。

一、重测信度1.含义和计算重测信度(test-retest reliability)指的是用同一个量表对同一组被试施测两次所得结果的一致性程度。

重测信度能表示两次测验结果有无变动,反映测验分数的稳定程度,所以又叫稳定性系数。

其计算公式即皮尔逊积差相关公式:γXX = [∑ (X -⎺X ) (Y-⎺Y )] / ∑ (X -⎺X )2. ∑ (Y-⎺Y )2公式中,γXX是重测信度,X及⎺X是第一次测量的实得分数及实得分数的平均值,Y 及⎺Y是第二次测量的实得分数及实得分数的平均值。

人的多数心理特质如智力、性格等,具有相对的稳定性,因此对这些心理特质的测量,应该前后一致。

因此,我们希望得到测验稳定性的证据。

另外,我们还经常要用测验分数对人做预测,此时测验分数的跨时间的稳定性更加重要。

重测信度的优点在于提供有关测验结果是否随时间而变异的资料,作为预测受试者将来行为表现的依据。

其缺点是易受学习和记忆的影响。

如果相隔时间太短,则记忆犹在,练习的影响很大,往往造成假性的高相关;如果相隔时间太长,那么身心特质的发展与学习经验的累积等均足以改变测验分数的意义,使相关降低。

一般来说,最适宜的相隔时间随测验的目的和性质而异,少者两周,多者半年。

2.使用的前提条件重测信度的特点是用同一工具对同一批人测两次,因此,它只能在允许重测的情况下才使用。

具体地说,它必须满足3个条件:(1)该测验测量的心理特性必须相当稳定。

(2)遗忘和练习的效果基本上相互抵消。

(3)两次测验期间的学习效果没有差异。

但是,我们可以看到,对于学校的各种测验或标准化考试,上面三个假设几乎是无法满足的。

因此,一般标准化考试很少用重测法来估计测验的信度。

相反,成人的人格特质一般是稳定的,并且不容易受遗忘、练习、学习的影响,较多用重测法估计信度。

二、复本信度1.含义与计算任何测验都只是所有可能题目中的一份取样,所以可能编制许多平行的等值测验,叫做复本。

复本信度(alternate-form reliability)就是指用两个复本测验测量同一批被试所得结果的一致性程度。

其大小等于同一批被试在两个复本测验上所得分数的积差相关系数。

两个等值测验可同时连续施测或相距一段时间分两次施测。

前者的复本信度又称等值性系数,其分数的不一致主要来自题目取样的差别,因为两次测验的间隔极短,所以没有时间造成的误差。

后一种复本信度又称稳定性与等值性系数。

因为它把复本法与重测法结合起来,所有影响施测和再施测不一致的因素以及影响平行型不一致的因素都将对它发生影响,因此分数的不一致性最高。

可见与稳定性系数和等值性系数相比,稳定性与等值性系数是对信度的最严格的检验,其值最低。

2.使用前提条件以复本法估计测验的信度可以避免重测法的缺点,但用复本法估计测验的信度的条件之一首先要有两份或两份以上真正平行的测验。

即两测验在题目内容、数量、形式、难度、区分度、指导语、时限、以及所用的例题、公式和测验的其它所有方面都应该相同或相似。

若不一致,所得的信度就成了歪曲的估计。

事实上,要编制两份完全等值的测验是不大可能的,即使是很有经验的测验编制者,也只能编制出基本等值的测验。

用复本法估计测验的信度的条件之二便是被试要有条件接受两个测验。

这种条件主要取决于时间和经费等几个方面。

三、分半信度在一种测验没有复本且只能实施一次的情况下,通常采用分半法估计信度。

分半信度(split-half reliability)指的是将一个测验分成对等的两半,根据所有被试在这两半测验上所得分数的一致性程度。

分半信度系数可以和等值性系数一样解释。

因为这两半测验基本上相当于最短时距施测验的两个平行的复本,由于只需要对一个测验进行一次施测,考察的是两半题目之间的一致性,所以这种信度系数有时也被称为内部一致系数。

相关文档
最新文档