测量的信度

合集下载

第六章-信度

第六章-信度

rKK
(三)测验难度
难度对信度的影响,只存在于某些测验中。
如智力测验、成就测验、能力倾向测验等;
对于人格测验、兴趣测验、态度量表等不存在难
度问题,因为这些测验的题目没有正确或错误答
案之分。
就难度与信度的关系而言,并没有简单的对应关
系。
从理论上说,只有平均难度水平为50%时,才能使
4
5 6
6
3 1
6
3 1
6
2 1
18
8 3
R
i
=14+7+13+18+8+3=63
2 R i =142+72+132+182+82+32=811
由题意知 K=3, N=6, 将上述值代入公式有:
2 12 811 63 / 6 =0.95 W= 32 63 6

如在评定中有相同的等级时,用下式校正。其中n
K-R20公式(仅适用于以1、0记分)
rKK K ( K 1
2 SX pi qi 2 X
S
)
公式K-R20中:K为构成测验的题目数;Pi为通过
第i题的人数比例;qi为未通过第i题的人数比
例;SX为测验总分的标准差。
K-R21公式(适用于以1、0记分,各题难度近似)
rKK
KS X ( K X ) 2 ( K 1) S X
1.两次测验的时间间隔要适当
时间太短,第一次的测验记忆犹新,夸大了稳定性;时间 太长,受学习、成熟等影响,从而降低了稳定性。 2.再测法适用于速度测验或人格测验,而不适用于难度测 验。 因为速度测验和人格测验项目多,被试无法记住测验内 容,所以受第一次测验影响小。

第四章__测量信度

第四章__测量信度

五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
如有A、B、C三位专家给6位应聘者的面试评分,结 果如下,试求评分者信度。
A 1 75 B 66 C 45
5、测量时间把握不恰当
6、评分不客观
(三)被试方面的可能影响
1、动机作用 2、测验经验 3、测验焦虑
4、生理变因(身心健康、疲劳等)
5、被试团体的异质性程度
同质性信度——内部一致性系数;
评分者信度——评分者之间的一致性。
第三节 影响信度的因素与提高方法 一、影响测量信度的主要因素
(一)测量工具的可能影响
1、题目样本的选择不当
题目样本不具代表性(偏题怪题),题目涵盖面过于
狭窄等。
2、题目含义及表达的模棱两可
题目含义不明确,语言表达模棱两可,会造成被试的
弗朗那根公式:rxx = 2 [ 1-( S2a + S2b )/ S2x ]
卢仑公式: rxx = 1- S2d / S2x
其中rxx是测验的分半信度, S2a 、 S2b表示被试
在两半测验上得分的方差,S2x表示被试在整个测验
上得分的方差, S2d表示被试在两半测验上得分之差 的方差。
四、同质性信度
5、测验长度偏短
测验长度偏短,难以全面考察被试的心理特质, 增加回答问题的随机性,从而降低信度。
6、特殊题型中靠猜测答题的可能性较大
猜测性将增加测验得分的随机性,从而降低测 验信度。
(二)施测过程的可能影响

心理测量 第四章 测量的信度

心理测量 第四章 测量的信度

什么样的测量要考虑重测信度?
• 人的多数心理特质如智力、性格等,具有 相对的稳定性,因此对这些心理特质的测 量,应该前后一致。因此,我们希望得到 测验稳定性的证据。 • 另外,我们还经常要用测验分数对人做预 测,此时测验分数的跨时间的稳定性更加 重要。
• 重测信度的优点在于提供有关测验结果是否随时 间而变异的资料,作为预测受试者将来行为表现 的依据。其缺点是易受学习和记忆的影响。 • 如果相隔时间太短,则记忆犹在,练习的影响很 大,往往造成假性的高相关;如果相隔时间太长, 那么身心特质的发展与学习经验的累积等均足以 改变测验分数的意义,使相关降低。 • 一般来说,最适宜的相隔时间随测验的目的和性 质而异,少者两周,多者半年。
2.信度可以帮助进行不同测验分数 的比较
• 来自不同测验的原始分数是无法直接比较 的,而必须将它们转换成相同尺度的标准 分数才能进行比较。 • 例:某班期末考试,张生语文、数学的成 绩转换成T分数(平均数为50、标准差为10) 分别为65和70,由此我们可以知道张生的 数学比语文考得稍好些,但二者差异是否 有意义,仍不清楚。
再测信度(稳定性) 复本信度,分半信度(等值性) , Alpha系数(同质性) 先后施测两个复本
评分者信度
一、重测信度
• 1.含义和计算 • 重测信度(test-retest reliability)指的是用同一个量表对 同一组被试施测两次所得结果的一致性程度。 • 重测信度能表示两次测验结果有无变动,反映测验分数的 稳定程度,所以又叫稳定性系数。 • 其计算公式即皮尔逊积差相关公式: • XX = [ (X X ) (YY )] / √ (X X )2. (YY )2 • 公式中,XX是重测信度,X及X是第一次测量的实得分数 及实得分数的平均值,Y及Y是第二次测量的实得分数及 实得分数的平均值。

信度是反映测量中随机误差大小的指标

信度是反映测量中随机误差大小的指标

请给下面的作文评分:
热 夏天来临,总会伴随着一些炎热,我生在北方,却住在南方。 对这南方北方的热,我可是深有体会。 南方的热是闷热,而北方的热多少有一些凉爽。处在南方,这 热除了呆在家中,否则你是无法躲藏的。热不仅隐藏在太阳光中, 而仿佛是一种弥漫在空气中的颗粒,古人说心静自然凉,我看恐怕 无法适用于此,即使你在树荫中盘坐,豆大的汗珠还是会源源不断 的流下来,就连风也是热的,在这种环境中学习和工作,心也难免 有些浮躁了。在北方,天更蓝,太阳光感觉也更烈,但这并没有什 么可担心的,走路走累了,就可以在树荫下歇一会,很快汗就消了, 偶尔还会有几丝凉风吹来,使人难免有些惬意,也就可以忘记之前 的辛苦,继续向下一个目的地进发。 南方的热就像是一场旷日持久的战争,而北方的热却并不赶尽 杀绝,仍给人留有余地。在南方,白天和晚上几乎没有什么差别, 昼夜温差很小,人们也自然严阵以待,丝毫不敢松懈,在三十几度 的高温中坚持整个夏天。在北方,可就不一样,清晨和晚上是一天 中最凉快的时候,几乎是只要没有阳光时就一点也不热。正常情况 下,最高温度也就在30度左右,超过30度是很少的事,所以,人们 也就不用紧张,可以放心的,踏踏实实的度过整个夏天。 。。。。
不足
触类旁通 编制复本难
重测信度与复本信度有何异同?
小结与问题
跨时间 一致性 试题之间 有何关系?
跨形式 一致性
(三)内部一致性信度
含义 测验 各题间 一致性
题目 一致 性
同质性 信度
类型
分半 信度
1、分半信度(Split-half raliablity)
奇偶题 分半
难易:低高 两半相似: M、S 项目组间相关 分布常态
含义 程序 两等值测验 最短时间内 对同组对象 施测结果r

第四章 测量信度

第四章 测量信度

方差相等时
rxxLeabharlann 2rhh 1 rhh弗拉南根公式 卢尤公式
方差不等时
(二)同质信度
同质性 题目间的内部一致性
克龙巴赫 系数
各类 题型
类型 库-理信度
0、1 题型
K-R20 难度不同
k-R21 难度相近
四、评分者信度
含义 评分者评分的一致性
2评分者
rXY

方法
2个以上者 肯德尔和谐系数
真分数与实得分数相关的解释 信度系数和指数
②复本信度:两个平行测验测量同一批被试 所得结果的一致性程度。
③分半信度:将一个测验分成对等两半后, 所有被试在这两半上所得分数的一致性程度。
④同质性信度:指测验内部所有题目间的一
致性程度,也叫内部一致性系数。
KR20
⑤评分者信度
KR21
系数
一、重测信度
含义
程序
误差
同一测验
同组对象
前后测2次 相关系数
二、信度的作用
信度是测量过程中所存在的随机误 差大小的反映(评价测验好坏)
标准化学绩或能力测验 0.9以上 人格测验 0.8以上 教师自编学绩测验 0.6以上
信度可以用来解释个人测验分数的意义——测 量标准误(用区间估计来表示真分数的范围)
理论上:用一个测验对一个人测无数次,实测值的标 准差即为标准误
试问: 1)真分数的方差是多少? 2)各种信度的误差是多少?
分析结果
信度类型 重测复本
rXX 0.70
分半信度 0.80
两者之差
误差源 时间、内容
内容取样
时间取样
误差的方差
1-0.70=0.3 1-0.80=0.2 0.3-0.2=0.1

测量的信度与效度

测量的信度与效度

信度的评估方法
1 2
重测信度法
通过在不同时间对同一对象进行重复测量,计算 两次测量结果的相关系数,以评估信度。
复本信度法
使用多个测量工具对同一对象进行测量,计算各 测量工具之间的相关系数,以评估信度。
3
内部一致性信度法
通过分析测量工具内部各部分之间的相关性,计 算内部一致性系数(如Cronbach's Alpha系 数),以评估信度。
04 测量误差
随机误差
定义
随机误差是由于一些随机因素引起的测量结果的 不确定性。
特点
随机误差的大小和符号都是随机的,无法预测和 控制。
示例
测量时环境的微小变化、测量仪器的微小波动等 都可能产生随机误差。
系统误差
定义
系统误差是由于测量系统本身存在的误差或测量条件不满足要求 而引起的测量结果偏差。
数据分析方法
数据分析方法的选择和运用,也会对效度产 生影响。
03 信度与效度的关系
信度是效度的必要条件
信度是指测量的一致性,即多次测量结果之间的相符程度。 如果一个测量工具缺乏信度,那么它的测量结果会不稳定, 无法为决策提供可靠依据。因此,信度是效度的必要条件, 没有信度就无法保证效度。
信度的评估方法包括重测信度法、复本信度法、Cronbach's Alpha系数法等,通过这些方法可以评估测量工具的一致性 和稳定性。
效度是信度的充分条件
效度是指测量的准确性和有效性,即测量结果是否真实反映所需测量的内容。如果一个测量工具具有 效度,那么它的测量结果是准确的、有意义的,能够为决策提供可靠依据。因此,效度是信度的充分 条件,有了效度可以进一步确认信度。
效度的评估方法包括内容效度法、结构效度法、验证效度法等,通过这些方法可以评估测量工具的准 确性和有效性。

第二章 信度

第二章 信度
被 试 1 2
18
3
23
4
21
5
17
6
18
7
20
8
17
9
16
10
13
11
14
12
13
13
12
14
8
15
8
奇数 20 题 (X)
偶数 20 题 (Y)
22
19
22
18
15
14
17
15
16
14
12
10
7
8
(2)库得-理查逊(Kuder&Richardson)系数(采 用0,1记分时 )
KR20
n ( n-1
第二讲 信度
内容: 1.信度的含义 2.信度的计算方法 3.影响测验信度的因素 4.提高测验信度的方法
(一)什么是信度 信度是指测量结果的稳定性或可靠性程度。 一个好的测量必须具有较高的信度,其结果就不应 随工具的使用者或使用时间等方面的变化而发生较 大的变化。 信度可以理解为:信度指实测值(观察分数)和真 值(真分数)相差的程度;信度指两次重复测量或 等值测量之间的关联程度。
3.内部一致性系数 (1)分半信度 在测验无复本且只能施测一次的情况下,通 常用分半法估计信度,即将测题分成对等的两 半,根据各人在这两半测验的分数,用皮尔逊 积差相关公式计算其相关系数,作为信度指标。 分半信度考察的是两半题目之间的一致性, 故这种信度系数也称内部一致性系数。计算分 半信度仍然可用积差相关方法。
也可用下列公式:其中X、Y为同一 被试的两个分数,Sx、Sy为两组分 数的标准差。X、Y为两组分数的平均 数,N为被试人数。
∑ XY/N-XY rxy = SxSy

名词解释测量的信度

名词解释测量的信度

名词解释测量的信度
测量的信度是指在心理学、社会科学和其他研究领域中,用来衡量测量工具或方法的稳定性和一致性的度量。

它反映了测量工具在不同时间、不同评估者或不同题项中得到相似结果的程度。

测量的信度是评估测量工具的可靠性和稳定性的重要指标。

它关注的是测量工具本身的特性,而不是测量结果的准确性。

一个信度较高的测量工具意味着在重复测量或不同评估者的情况下,测量结果应该是相似的或高度一致的。

常用的测量信度指标包括重测信度、内部一致性信度和等价形式信度。

重测信度通过在不同时间点对同一样本进行重复测量来评估测量工具的稳定性。

内部一致性信度则通过测量工具内部各项指标之间的相关性来评估测量工具的一致性。

等价形式信度则是通过比较不同版本或形式的测量工具在同一样本中的得分来评估测量工具的等效性。

测量的信度对于研究的可靠性和有效性至关重要。

如果测量工具的信度较低,那么使用该工具得到的结果可能不可靠,无法准确
反映所要研究的变量。

因此,在研究设计和数据分析中,确保测量工具具有高信度是十分重要的。

第四章测量的信度与效度

第四章测量的信度与效度
(3)结构效度通过测量什么、不测量什么的证据积累起 来给以确定的,因而不可能有单一的数量指标来描述结 构效度。
结构效度主要应用于智力测验、人格测验等一些心理测 验方面。
2.结构效度的确定 确定结构效度的基本程序 第一,对所研究的心理特质的结构进行界定 第二,依据理论框架,提出可能的假设 第三,收集数据,验证假设
③考察测验的同质性。
④因素分析的方法 ⑤结构方程的方法
(2)测验间法 通过对几个测验的比较研究,找出它们所测的共同特质,
这样便可以确定这些测验是否具有结构效度。 ①相容效度:计算被试在新旧两个同类测验上的分数的
相关。如果相关高,则说明两个测验测的是相同的特质。 ②区分效度:一个有效的测验不仅与其它测量同一构想
(二)结构效度(construct validity) 1.结构效度的含义、特点与应用范围 结构效度是指一个测验实际测到所要测量的理论结构和
特质的程度,或者说测验分数能够说明测量的理论结构 和特质的程度。
结构效度有如下特点:
(1)结构效度首先取决于事先假定的心理特质的结构理 论
(2)当实际测量的资料无法证实事先的理论假设时,并 不一定就表明该测验结构效度不高。
测量随机误差大,测量结果就会与真分数发生较大偏离。 ➢ 信度是衡量一个测验好坏的重要指标之一,测验的信度达
到多少才可以接受呢?一般来讲,能力与成就测验的信度 应该在0.90以上,人格测量信度系数应该在0.80 以上。 ➢ 测量中的系统误差与信度无关。
➢ (二)解释分数
➢ 1. 解释个人测验分数的意义 ➢ 从理论上讲,一个人的真分数本来是用同一测验对他反复
向细目表对照 ③制订评定量表,考察题目对所定义的内容范围的覆盖
率、判断题目难度与能力要求之间的差异等。

测验的信度

测验的信度

5.评分者信度
标准化测验一般都有较为严格的评分程序。 对于客观性试题来说,评分所引起的误差使 可 以忽略不计的,但对于一些主观题目来说,评 分者之间的变异是产生误差的重要原因之一。 考察评分者信度的方法是,随机抽取部分答 卷,由两个或多个评分者独立按照评分标准打 分,然后求其间的相关。在计算相关时,如果 是两个评分者,则采用积差相关或等级相关的 方法,一般认为经过训练的成对评分者之间的 一致性达到0.90以上,评分才是客观的。
同质性也称内部一致性,是指测验内部所有 题目间的一致性。这里讲的是分数的一致,而 不是题目内容或形式的一致。因此,若测验的 各个题目得分有较高的正相关时,不论题目内 容和形式如何,测验为同质的。相反,即使所 有题目看来都好象测同一特质,但相关为零或 负值时,这测验还是异质的。也有些心理测量 学家认为,同质性的定义还应加上测单一因素 的限定。
2.解释分数
信度系数仅表明一组测量的实际值与真 值的符合程度,并没有给个人测验分数 的变异情况。由于误差的存在,一个人 所得的分数一般很难等于真分数。
(四)影响信度系数的因素
影响信度的因素很多,被试、主试、 测验内容、施测环境等各方面均能引起 随机误差,导致分数不一致,从而降低 测验的信度。
四、测量的信度(重点)
(一)什么是信度 作为一个好的测验,它的结果必须可靠。所 谓可靠,是指多次测量的结果保持一致。 人们通常把测量结果的可靠性称之为信度, 即测量结果的一致性或可信性程度。一个好的 测量工具,对同一事物反复多次测量,其结果 应该始终保持不变。 信度是测验结果的一致性或可靠性程度。
(二)估计信度的方法
(三)信度系数的用
信度系数有两个主要用途,一是用来评 价测验,二是用来对分数做解释。

心理测量学第三节 测量的信度

心理测量学第三节  测量的信度
❖ 将差异标准误(7.5)乘以1.96,结果为14.7,这 表明个体在韦氏测验两半得分的差异大约15分, 才能达到0.05水平显著,上述被试的差异分数8 分,是不显著的。
2010年5月(二级)
❖ 10、某受测者在韦氏成人智力测验中言语智 商为102,操作智商为110。已知两个分数都 是以100为平均数、15为标准差的标准分数。 假设百语测验和操作测验的分半信度分别为 0.87和0.88,则该受测者的操作智商( )于言 语智商。
2009年5月(三级)
❖ 35、以再测法或复本法求信度,两次测验相 隔时间越短,其信度系数越( )
❖ (A)大 -
(B)低

(D)不确定
(C)
数分布范围最大,求得的信度也最高。 ❖ 对于选择题目由于存在着猜测因素,难度值应提高。 ❖ 洛德(lord)提出学绩测验中,各类选择题的理想
平均难度为:五择一测题0.70,四择一测题0.74, 三择一测题0.77,是非题0.85。
时间间隔与信度
❖ 只对重测信度和间隔施测的复本信度有影 响
❖ 两次测验相隔时间越短,其信度系数越大; 间隔时间越久,其他变因介入的可能性越 大,受外界影响也越大,信度系数便越低
❖ 即:X=T+E
一.信度的定义
❖ 信度是指测量结果的可靠性和一致性. ❖ 理论定义:一组测量分数的真实方差与实得方差的
比,即真空方差占总方差的百分比.
SX 2 ST 2 SE2
❖ 操作性定义:信度有是一个测验X与它的任意一个 平行测验X’的相关系数.
信度的定义
rxx
ST2
S
2 X
rxx
❖ 另一原则是:新编的测验信度应高于原有的同类测 验或相似测验。

第四章 心理与教育测量的信度

第四章 心理与教育测量的信度

仅适用于(0,1)记分测验。
同质性信度 pq rXX = 1- 2 K -1 SX
p 和 q 分别为题目的平均通过率和平均失败率。
仅适用于(0,1)记分,且所有题目的难度接近的测验。
同质性信度的计算及使用条件
D. 克龙巴赫α系数:适用于任何计分方式的测验。
概化理论的发展 测验情景关系说 测验设计任务
5
6
G研究 D研究
D研究的指标
7 8
对概化理论的评价
一、测验分数方差的测量学意义
1、测验分数方差有目标测量分数方差和误差分数方差。
2、误差来源的多样性与总分方差结构的复杂性。
3、经典测量理论处理分数方差的办法: 假定X=T+E,有σ
X 2=σ T 2+σ E 2,
重测信度的使用条件
1、所测量的心理特质必须是稳定的
2、遗忘和练习的效果基本上相互抵消
3、两次测验间隔,被试要测的特质没有学习和训练
重测信度练习
例3:10名学生接受了某测验,分数记为X,为考察该测
验的信度,一星期后,对这10个学生重新测了一次,分数
记为Y,根据两次测验结果,求该测验信度。
学生号 01 Xi 31 Yi 30
rXX = K rij
1+ K -1 rij
r ij 为项目间相关系数的平均数。 Κ为测验项目数,
同质性信度的计算及使用条件
B. 库德-理查逊公式(K-R20):
n pi q i K 1- i 1 2 rXX = K -1 SX
Κ为测验题目数,pi为通过第i题的人数比例,qi为未通过 第i题的人数比例,SX2为测验总分的变异数。
平行测验A

测量的概念层次与信度

测量的概念层次与信度
◦ 文盲、半文盲、小学、初中、高中、大专、大学 、大学以上
定序测量(ordinal measurement )
特征:
◦ 不仅能将事物区分为不同的类别,而且还能反映事物或现象在高低 、大小、先后、强弱等序列上的差异。
◦ 数学特征是大于或小于 ◦ 所得到的信息比定类测量多一个或几个特征变量的信息 ◦ 对称性特征:区分同类与不同类 ◦ 不对称性特征:甲对乙有某种关系时,乙对甲并不一定具有同样的
语义差异量表
语义差异量表(semantic differential),也叫语义分化量表, 主要用来研究概念对于不同的人所具有的不同含义。
在社会学、社会心理学和心理学研究中,语义差异量表主要用 于文化的比较研究、个人及群体间差异的比较研究,以及人们 对周围环境或事物的态度、看法的研究等等。
语义差异量表
研究者通过对这些记号所代表的分数的统计和计算,来研究人 们对某一概念或事物的看法或态度,或者进行个人或团体间的 比较分析。
女同学
1
2
3
4
5
6
7
热情的
冷漠的
主动的
被动的
大方的
拘谨的
强的
弱的
快的
慢的
善的
恶的
概念的操作化
概念、变量和指标
概念(concept):
◦ 概念是对现象的抽象,是事物属性在人们主观上的反映。概念抽象 程度有高低之分,描述特征的明确程度也有差别。
指标选择的多样性
有些概念往往很难甚至不可能在具体现象中 找到其所对应的指标。
一个操作性定义往往也不能够完全代表一个 概念。
对抽象概念进行操作化时,往往在具体方法 和测量指标方面,存在多种不同的选择。
关于“夫妻权力”的案例

测量的信度和效度名词解释

测量的信度和效度名词解释

测量的信度和效度名词解释嘿,朋友们!今天咱来聊聊测量的信度和效度。

这俩玩意儿啊,就像是一对好兄弟,在研究和评估的世界里可重要啦!你想想看,信度就好比是一个人说话的靠谱程度。

如果一个人老是变来变去,一会儿这么说,一会儿又那么说,你还能信他的话不?测量也是一样呀,如果同一个东西,今天测出来是这样,明天测出来是那样,那这测量还有啥意义呢?这信度可不就低了嘛!所以说啊,信度高就是测量要稳定,不能像那六月的天,说变就变!那效度呢,就像是射箭要射中靶心。

如果箭射出去都不知道偏到哪里去了,那能说这箭射得好吗?测量也是这个道理呀,如果测出来的东西根本就不是我们想要的,或者跟实际情况相差十万八千里,那这测量不就白瞎啦!效度就是要保证测量的东西是真正有用的,能反映出实际情况的。

咱再打个比方,就说你要称体重。

如果这个秤今天称你是 100 斤,明天又称是 120 斤,后天又变成 80 斤了,你还会觉得这个秤靠谱吗?这就是信度不行啊!要是这个秤称出来的体重根本和你的实际体重对不上号,那就是效度有问题啦!信度和效度可不是孤立存在的呀,它们是相互关联的呢。

一个好的测量,那必须得既有高信度,又有高效度。

就像一辆好车,不仅要跑得稳,还得跑得快,能准确到达目的地才行。

你说要是信度高,效度低会咋样?那不就成了瞎折腾嘛!虽然测量结果很稳定,可稳定得没啥用啊,那不是白费力气嘛。

反过来,要是效度高,信度低呢?那也不行呀,偶尔一次测对了有啥用,不能保证每次都对啊,那也不靠谱呀!在实际应用中,我们可得重视这信度和效度。

做研究的时候,要是不考虑这俩,那得出的结论能靠谱吗?能让人信服吗?那肯定不行啊!我们得想方设法提高测量的信度和效度,就像给我们的工具打磨得更锋利一样。

所以啊,大家可千万别小瞧了这信度和效度,它们可是测量领域的两大宝贝呢!只有把它们都照顾好了,我们的测量工作才能做得顺顺利利,我们得出的结论才能站得住脚呀!你们说是不是这个理儿?。

心理测量的信度

心理测量的信度

例1,已知WISC-R的标准差为15,信度系数为0.95,对一名12岁的儿童实施该测验后,IQ为110,那么他的真分数在95%的可靠度要求下,变动范围应是多大?
注意几点:
置信水平确定后,估计的精度主要取决于SE,SE越小,范围越小,估计就越精确,反之也然。
SE对真分数做的是区间估计,不可能由此得到一个确切的点。这就是说,测验分数不是一个定点,而是具有一定的分布范围。因此,两次测验分数之间存在差异是很正常的。
例2,某校五年级进行了两次数学测验,小张第一次考了85分,此次数学测验年级平均分是77分,标准差是8分,此次测验的信度系数是0.84;第二次考了95分,此次数学测验年级平均分是81分,标准差是10分,此次测验的信度系数是0.91;问小张这两次数学测验的成绩是否有显著差异?
01
back
02
再测信度
复本信度
等值稳定性系数
内部一致性系数
评分者信度
总结
练习
back
1
2
3
4
例2:假设有一份主观幸福感调查表,先后两次施测于10名学生,时间间隔为半年,结果如表所示,求该测验的重测信度。(为了便于理解和计算,本章估计信度的例子都是小样组,实际应用时应采用大样组。) 表5-1 某幸福感调查表的两次测试结果
6
8
3
5
7
11
8
11
11
6
7
11
8
11
11
01
评分者信度(Scorer Reliability)
02
评分者信度:随机抽取部分试卷,由两个或多个评分者独立按评分标准打分,然后求其间的相关,所得的相关系数即为评分者信度。
评分者信度的计算: 评分者为两个人时 若是连续变量的评分,且分布是正态则计算皮尔逊积差相关系数(可用计算机直接计算)。 若是等级评定或虽是等距或等比的数据但分布非正态,则计算斯皮尔曼等级相关。 斯皮尔曼等级相关公式: (公式5-12) 式中D为各对偶等级之差, 是各D平方之和,N为等级数目。

测量的信度

测量的信度

信度的估计方法
• 重测信度 • 计算重测信度应当符合以下条件: 计算重测信度应当符合以下条件:
– 所测量的心理特性必须是稳定的。例如,成人的性格特点一般是稳定的, 所测量的心理特性必须是稳定的。例如,成人的性格特点一般是稳定的, 所以许多人格测验常使用重测信度。但是, 所以许多人格测验常使用重测信度。但是,刚入学儿童的识字量是极不 稳定的,只要两次施测的间隔时间稍长,儿童的识字量就会有很大变化。 稳定的,只要两次施测的间隔时间稍长,儿童的识字量就会有很大变化。 因此,重测信度不能用于这种情况, 因此,重测信度不能用于这种情况,因为测量结果的不一致很可能是被 试水平的变化所致,而不能说明测量工具是否稳定。 试水平的变化所致,而不能说明测量工具是否稳定。 – 遗忘和练习的效果基本上相互抵消。在做第一次测验时,被试可能会获 遗忘和练习的效果基本上相互抵消。在做第一次测验时, 得某种技巧,但只要间隔的时间适度, 得某种技巧,但只要间隔的时间适度,这种练习效果会基本上被遗忘掉 至于两次测验的间隔时间,这要根据问题的性质和测量目的而定。 的。至于两次测验的间隔时间,这要根据问题的性质和测量目的而定。 通常,智力测验的间隔时间一般在6个月左右。 通常,智力测验的间隔时间一般在6个月左右。 – 在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更 在两次施测的间隔时期内, 多的学习和训练。这一点,也实际上是要保证被试具有稳定的心理特质。 多的学习和训练。这一点,也实际上是要保证被试具有稳定的心理特质。
信度的估计方法
• 同质性信度
– 同质性信度也叫内部一致性系数,它是指测验内部所有题目间的一致 同质性信度也叫内部一致性系数, 性程度。题目间的一致性含有两层意思: 性程度。题目间的一致性含有两层意思:一是指所有题目测的都是同 一种心理特质;二是指所有题目得分之间都具有较高的正相关。 一种心理特质;二是指所有题目得分之间都具有较高的正相关。值得 注意的是,这里讲的题目间的一致性是分数的一致, 注意的是,这里讲的题目间的一致性是分数的一致,而不是题目内容 或形式的一致。因此,若测验的各个题目得分有较高的正相关时, 或形式的一致。因此,若测验的各个题目得分有较高的正相关时,不 论题目内容和形式如何,测验为同质的。相反,既使所有题目看来都 论题目内容和形式如何,测验为同质的。相反, 好像测同一特质,但相关为零或负值时,这测验还是异质的。 好像测同一特质,但相关为零或负值时,这测验还是异质的。 – 题目内部的一致性主要受两方面变异的影响:一是内容的同质性。二 题目内部的一致性主要受两方面变异的影响:一是内容的同质性。 是所研究的行为的同质性。所要测量的内容或行为同质性程度越高, 是所研究的行为的同质性。所要测量的内容或行为同质性程度越高, 题目的内部一致性越高。 题目的内部一致性越高。 – 当一个测验具有较高的同质性信度时,说明测验主要测的是某一单个 当一个测验具有较高的同质性信度时, 心理特质,实测结果就是该特质水平的反映。 心理特质,实测结果就是该特质水平的反映。如果一个测验同质性信 度不高,则说明测验结果可能是几种心理特质的综合反映,这时, 度不高,则说明测验结果可能是几种心理特质的综合反映,这时,测 验结果不好解释。 验结果不好解释。一种好的办法是把一个异质的测验分解成多个具有 同质性的分测验,再根据被试在分测验上的得分分别作出解释。值得 同质性的分测验,再根据被试在分测验上的得分分别作出解释。 注意的是,一些表面上看起来是测量同一种心理特质的题目, 注意的是,一些表面上看起来是测量同一种心理特质的题目,如果其 题目间不具有较高的正相关,则不能认为它们具有同质性。 题目间不具有较高的正相关,则不能认为它们具有同质性。

测量的信度

测量的信度

2 KS X X (K X ) 2 ( K 1) S X
GO
BACK1
31
BACK2
32
心理测量
心理测量
3.内在一致性信度的适用范围
1 )内在一致性信度适用于同质性测验,而 不适用于异质性测验。 2)不适用于速度测验。
被试 M N O P Q
表2 100题纯速度测验的结果
做题总数 50 84 54 36 28 奇数题正确数 25 42 27 18 14 偶数题正确数 25 42 27 18 14
8
心理测量
心理测量 重测信度的计算举例
施测 时间间隔 相关系数 再施测
10名学生幸福感调查的两次施测分数
A X1 16 15 B 15 16 C 13 14 D 13 12 E 11 10 F 10 9 G 10 11 H 9 8 I 8 6 J 7 7
图1 重测信度图式
X2
9
10
心理测量
心理测量
2.使用前提条件
信度只是一个理论构念,由于真分数无法 直接获得,只能估计。估计信度的方法取 决于你认为误差是什么。 重测信度 复本信度 同质性信度 评分者信度 误差来源 时间 内容 内容 评价者/观察者
7
(一)重测(test-retest)信度
1.定义及计算:
用同一个测验对同一组被试在不同时间施测两次所得 结果的一致性程度,其大小等于同一组被试在两次测 验上所得分数的皮尔逊积差相关系数。又称稳定性信 度、再测信度、施测—再施测信度、跨时间一致性。
适当增加测验的长度使所有题目的难度接近正态分布控制在中等水平努力提高测题的区分度选取恰当的被试团体主试严格执行施测规程59心理测量四信度的作用评价测验解释分数用于计算测验分数的误差比较不同测验分数差异分数的信度相关的校正60心理测量几种心理测验的信度系数aiken1985测验类型信度成套成就测验066092098能力测验056090097成套倾向性测验026088096客观人格测验046085097兴趣测验042084093态度量表04707909820141111161心理测量信度的可接受水平不同功能测验信度接受水平不同能力测验和成就测验090以上095人格测验080085或更高自编学绩测验060以上个人评价与团队比较信度水平不同低于070070085之间高于085新编的测验信度应高于原有同类测验62心理测量测量的标准误standarderrormeasurement信度系数表明一个测验有多可信测量的标准误告诉我们一个人的分数究竟有多可信信度的另一种表达方式如果一个人在一个测验上做了无数次他的得分会形成一个分布他所得分数分布的平均值应是他的真分数观测分数分布的标准差应是测量的标准误差63心理测量测量的标准误与真分数估计围绕平均值真分数的分数的标准差称为平均值的标准误差或简称标准误sems1rtt12sem标准误tt测验的信度如果一个测验的平均值50tt

测量的信度与效度

测量的信度与效度
折半信度的优点在于只需要施测一次,因而可以 节省人 力、物力和时间。
但由于折半信度需将一份量表分成两半,分法不同 ,所
〔4〕克朗巴哈α系数〔Cronbach α) Cronbach L.J.于1951年提出了一种计算问卷或测验的
测量工具的信度,称为Cronbach α系数。 当一个研究任务项由很多题目组成,每个问项都与研究
nn11
Si2 SH2
当题目间的相关系数越大时,α系数也会越大。
当题目数目n越多时,
S
2 H
值越大,
S
2 i
S
2 H
n 越接近于0, n 1
越接近于1,故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的,即 都是正面问法,反向问题需要做处理后才可以参加分析。
在计算α系数时,应该注意有些调查量表测量的内容包 含几个领域,这时宜分别计算各个领域的α系数。
任务项相关,假设以总分的方差与问项的方差作为测量信度 的
指标,即为α系数。
如果每个题目都是测量一样的理论维度,那么总和的方 差 会大于每个题目的方差之和。
每个理论维度下,必须至少有两题以上才能计算信度, 假设只有一个题目,那么信度值为1。
RH
n
Var(H) n Var(xi)
i1
n1 Var(H)
复本得分的差异是由量表的内容造成的,而非时间 造成 的。
复本信度有两个优点: 一是它不会受记忆效用的影响;
〔3〕折半信度〔Split-Half Reliability) 将同一量表施测后的题目分成两半,分别计算这两
半的 总分及其相关系数,此一相关系数即为折半信度。
由于实际上折半信度系数会比全部题目放在一起计 算获 得的信度低,所以求得的折半信度需要进一步修正。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

13
14
心理测量
心理测量 复本信度的计算举例
施测A型 最短时距 相关系数 施测B型
10名学生创造力的复本测验结果
A X1 B C D E F G H I J
20 20
19 20
18 19
18 16
17 16
16 17
14 12
12 11
12 13
10 9
图2 复本信度图式
X2
15
16
心理测量
心理测量
.03 .84 .13 .16 .16 .94 .81
2. 计算
如是两个评分者,则采用积差相关或等级相 关的方法。
.84
者1 不通过
.03
如果是多个评分者,则采用肯德尔和谐系数 来估计。
W 12
R R
2 i
2
K2 N3 N

i

/N
Kap(.84*.84+.16*.16))/(1-(.84*.84+.16*.16)) =(.94-.7312)/(1-.7312)=.2088/.2688=.78
39 40
心理测量
心理测量
例1:扔硬币
扔两个完全一样的硬币。根据常识我们知道,每个字 或头朝上的概率为50%。
例子1:掷硬币
硬币 1 头 头
.25

.25 .5
也 就 是 说 , 两 个 硬 币 字 或 头 都 朝 上 的 概 率 各 为 50%*50%=25%。 两个硬币出现完全一样的概率(字都朝上和头都朝上 )为25%+25%=50%
测验所测的特质必须是稳定的。 遗忘与练习的效果基本上相互抵消。
11
12
2
2014/11/1
心理测量
心理测量
(二)复本(alternate-form, Equivalent)信度
两次施测期间被试的学习效果没有差别。
1.定义及计算:
用两个平行测验(同一测验的两个复份) 在相距最短时间内测量同一组被试所得结 果的一致性程度,其大小等于同一组被试 在两个复本测验上所得分数的皮尔逊积差 相关系数。又叫等值性信度,跨形式的一 致性。
抑郁
10 .05 28 .14 12 .06 50 .25
焦虑
4 .02 10 .05 6 .03 20 .10 120 .60 60 .10 20 .10 200 1.00
Kappa= (P观测值-P几率)/(1- P几率)
观察到的超出偶然的部分
最大可能超出偶然的部分
总一样性=(106+28+6)/200=140/200=.70
8
心理测量
心理测量 重测信度的计算举例
施测 时间间隔 相关系数 再施测
10名学生幸福感调查的两次施测分数
A X1 16 15 B 15 16 C 13 14 D 13 12 E 11 10 F 10 9 G 10 11 H 9 8 I 8 6 J 7 7
图1 重测信度图式
X2
9
10
心理测量
心理测量
2.使用前提条件
2.使用的前提条件
1)施测所用的两个复份必须是真正平行的测 验(即A、B卷) 2)被试要有条件接受两个测验
注意排除施测顺序的影响 在报告结果时,应报告两次施测的间隔、及 在此间隔内被试的有关经历。
17 18
3
2014/11/1
心理测量
心理测量
稳定性与等值性(Stability and Equivalent)信度
BACK
33 34
心理测量
心理测量
内部一致性问题
速度测验与最高水平测验
所有内部一致性指标都高估速度测验的信度 只能用再测信度和复本信度
(四)评分者信度的估计
1.定义:
多个评分者给一组测验结果评分, 所得分数之间的一致性程度。
测验组的异质性(heterogeneity)
计算各组的信度 全距限制效应(restriction of range effect)
35
36
6
2014/11/1
心理测量
心理测量
评分者信度(rater agreement)
奥运会比赛:跳水,体操等项目的评分 比如,对于心理测量这门课教学的评价 你的评定:5,4,5,3,4 我的评定:3,2,3,1,2
R=1
诊断一样性
张三和李四分别对200名有情绪问题的人进行临床诊 断。他们按照三个类别对每个做出诊断。即躁郁症, 抑郁症和焦虑症
= 11.20
将有关数据代入α 系数公式,则
a(
6 11.20 )(1 ) 6 1 19.44
= 0.51
27
28
心理测量
心理测量
某态度量表共7题,100个被试在各题上得分的方差分 别是 0.81, 0.82, 0.79, 0.83, 0.85, 0.76, 0.77, 测验总分的方差为14.00,试求该量表的α 系数。
5 6
rxx
数的平方。
2 ST 2 SX
rxx 1
2 SE 2 SX
信度是一个被测团体的真分数与实得分数的相关系
2 rXX rTX
信度是一个测验X(A卷)与它的任意一个平行测验 X(B卷)的相关系数。
rXX p xx '
1
2014/11/1
心理测量
心理测量
二、信度种类及估计方法
心理测量
2. 估计同质性信度的方法 分半法 α系数 库德-理查逊方法
分半法
含义:分半信度 (Split-half 一致性程度。 计算: 确定分半方法 计算两半相关系数 利用公式校正
reliability )
:将一个测验
分成对等的两半后,所有被试在这两半上所得分数的
21
22
心理测量
心理测量
R
i
2 i
=14+7+13+18+8+3=63 =142+72+132+182+82+32=811
R
W=
由题意知 K=3, N=6, 将上述值代入公式有:
12 811 63 2 / 6 32 6 3 6



=0.95
• 如在评定中有相同的等级时,用下式校正。其中n为相同等级的个 数
2 KS X X (K X ) 2 ( K 1) S X
GO
BACK1
31
BACK2
32
心理测量
心理测量
3.内在一致性信度的适用范围
1 )内在一致性信度适用于同质性测验,而 不适用于异质性测验。 2)不适用于速度测验。
被试 M N O P Q
表2 100题纯速度测验的结果
做题总数 50 84 54 36 28 奇数题正确数 25 42 27 18 14 偶数题正确数 25 42 27 18 14
W 12
K
2
R R / N N N K n n / 12
2 i 2 i 2 3
45
46
心理测量
心理测量
小结:
重测信度:估计测验中跨时间的一致性 复本信度:估计测验中跨形式的一致性 内在一致性信度:估计测验中跨项目或两个分 半测验的一致性 评分者信度:估计测验中跨评分者的一致性
43 44
心理测量
心理测量
如有A、B、C三位专家给6位应聘者的面试评分,结 果如下,试求评分者信度。
A 1 2 3 4 5 6 75 90 81 60 84 96 B 66 72 63 60 75 90 C 45 60 54 42 63 66 1 2 3 4 5 6 A 5 2 4 6 3 1 B 4 2 5 6 3 1 C 5 3 4 6 2 1 Ri 14 7 13 18 8 3
例 奇偶分半法
如一个学生对10道题回答为(正确答案标记为+,错 误答案标记为-):
表4.3 5名被试测验结果
被试 A 3.- 8.- 4.+ 9.+ 5.+ 10.- B C D 奇数题得分 3 5 5 3 4 偶数题得分 2 5 4 4 5
BACK
23 24
1.+ 6.-
2.+ 7.-
这个学生的总分为5分,3个奇数题正确,2个 偶数题正确。
信度(Reliability):测量结果的一致性、可 靠性程度。
信度系数(Reliability Coefficient):描述 测量信度的数量指标,以相关系数来表示。
3 4
心理测量
心理测量
信度是一个被测团体的真分数的变异数与实得分数 的变异数之比。
对信度定义需注意
信度指数与信度系数的关系。信度的取值范围在 0(不可信)到1(完全可信)之间。 信度是指测量工具所获得结果的可靠性,而非工 具本身。 每一个信度的估计值,仅指某一特定方面的一致 性,而非泛指一般的一致性。 信度的估计是完全采用统计方法的。
库德(Kuder) -理查逊(Richardson)方法
K-R20公式(仅适用于以1、0记分) 2 K S X pi qi rKK ( ) 2 K 1 SX
GO
K-R21公式(适用于以1、0记分,各题难度近似)
rKK
K pi qi K (1 ) 2 K 1 SX
rKK
(三)内部一致性信度(internal consistency) 1. 定义 : 指的是测验内容的一致性或测验内
部所有题目的一致性(项目同质性)程度。 又称同质性(homogeneity ) 信度。
如果两个复本测验是相距较长一段时
间分两次施测的,同一组被试施测结 果的一致性程度 。
19
20
心理测量
相关文档
最新文档