第四章 信度与随机误差

合集下载

第四章 信度和效度1

第四章   信度和效度1
• (一)构想效度的概念 • 构想效度是指测验能够测量到理论上的构想或特 质的程度。 • (二)确定构想效度的步骤 • 1.建立理论框架,以解释被试在测验中的表现; • 2.依据理论框架推演出各种有关测验成绩的假设; • 3.以逻辑和实证的方法验证假设。 • (三)常见的确定构想效度的指标 • 发展变化、与其他测验的相关、因素分析、内部 一致性。
(三)重测信度的评估
• • • • • • • • • • • 1.在进行重测信度评估时要注意: (1)重测信度一般只反映由随机因素导致的 变化,而不反映被试行为的长久变化; (2)不同行为受随机误差的影响不同。 2.重测信度的假设前提 (1)每一被试对前一次测验的遗忘程度相同; (2)每一被试在重测的间隔期内没有学习与 测验有关的其他材料。 3.注意:解决问题型的测验不适合采 用重测的方式来考察其信度;而感觉-运动 型测验或人格测验较适合采用重测的方式 来考察其信度。
第二节 信度的评估方法
一、重测信度 二、复本信度
一、重测信度的概念及间隔时间
• (一)重测信度的概念及理解 • 又称稳定性信度,指同一测验在不同的时间上对 同一群体先后施测两次的测验结果的一致性。这 两次测验结果的相关系数即为重测信度系数。 • (二)重测的间隔时间 • 重测信度所考察的误差来源主要是时间的变化所 带来的随机影响,因此,必须注意间隔时间的长 短。间隔时间的长短要根据测验的性质和目的来 确定。如果希望测验成绩能够预测较长时间的变 化,则间隔时间应该较长。 • (三)重测信度的评估(见下页)
• 一、效度的概念及其理解 • 是指测验的结果所反映的内容与想要考察的内容的关系, 二者越是吻合,效度就越高。 • 效度不仅要排除随机误差,而且还要排除系统误差。 • 二、效度的性质 • 效度指的是测量结果的效度;效度是连续性的; 效度同时也是针对目标而言的;效度是用已有的证据推理 而得到的。 • 三、效度与信度的关系 • 信度高,效度不一定高;效度高信度必定高。信度是效度 的必要条件,但不是充分条件。

信度是反映测量中随机误差大小的指标

信度是反映测量中随机误差大小的指标

请给下面的作文评分:
热 夏天来临,总会伴随着一些炎热,我生在北方,却住在南方。 对这南方北方的热,我可是深有体会。 南方的热是闷热,而北方的热多少有一些凉爽。处在南方,这 热除了呆在家中,否则你是无法躲藏的。热不仅隐藏在太阳光中, 而仿佛是一种弥漫在空气中的颗粒,古人说心静自然凉,我看恐怕 无法适用于此,即使你在树荫中盘坐,豆大的汗珠还是会源源不断 的流下来,就连风也是热的,在这种环境中学习和工作,心也难免 有些浮躁了。在北方,天更蓝,太阳光感觉也更烈,但这并没有什 么可担心的,走路走累了,就可以在树荫下歇一会,很快汗就消了, 偶尔还会有几丝凉风吹来,使人难免有些惬意,也就可以忘记之前 的辛苦,继续向下一个目的地进发。 南方的热就像是一场旷日持久的战争,而北方的热却并不赶尽 杀绝,仍给人留有余地。在南方,白天和晚上几乎没有什么差别, 昼夜温差很小,人们也自然严阵以待,丝毫不敢松懈,在三十几度 的高温中坚持整个夏天。在北方,可就不一样,清晨和晚上是一天 中最凉快的时候,几乎是只要没有阳光时就一点也不热。正常情况 下,最高温度也就在30度左右,超过30度是很少的事,所以,人们 也就不用紧张,可以放心的,踏踏实实的度过整个夏天。 。。。。
不足
触类旁通 编制复本难
重测信度与复本信度有何异同?
小结与问题
跨时间 一致性 试题之间 有何关系?
跨形式 一致性
(三)内部一致性信度
含义 测验 各题间 一致性
题目 一致 性
同质性 信度
类型
分半 信度
1、分半信度(Split-half raliablity)
奇偶题 分半
难易:低高 两半相似: M、S 项目组间相关 分布常态
含义 程序 两等值测验 最短时间内 对同组对象 施测结果r

第四章信度

第四章信度

第四章信度一、什么是信度含义:指的是测量结果的稳定性程度(或叫可靠性)。

也指同一被试在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。

1、理论定义:测验实测值和真值的相差程度。

2、操作定义:定义1:一组测量分数的真分数变异数(方差)与总变异数(总方差、实得分数的方差)的比率,或者是真实分数方差占总方差的的百分比。

计算公式:rxx=ST2/SX2定义2:信度乃是一个被试团体的真分数与实得分数的相关系数的平方。

即rxx=ρTx2定义3:信度乃是一个测验X(A卷)与它的任意一个“平行测验”X’(B卷)的相关系数。

即rxx=ρxx’二、信度的类型及估计方法(一)重测信度1、含义与计算又称稳定性系数。

他的计算方法是采用重测法,即使用同一测验,在同样条件下对同一组被试前后施测两次测验,求两次得分间的相关系数。

三、信度的类型及估计方法(一)重测信度(再测信度)例:15名同学在1个月间隔内,先后2次重复施测某测验,测验结果如表中所列,请根据这些数据对该测验的重测信度进行计算。

三、信度的类型及估计方法(一)重测信度三、信度的类型及估计方法(一)重测信度可见,这两次测验分数之间有较高的正相关,该测验有较高的重测信度。

2、使用的前提条件(1)所测量的心理特性必须是稳定的。

(2)遗忘和练习的效果基本上相互抵消。

(3)在时间间隔中没有学习另外的与测验有关的东西,或者说每人学习其他东西的程度都一样。

3、优缺点:优点:(1)它最符合重复测验的涵义,是重复测验最简单最明确的方式。

(2)首测和再测只需要一套测验题目,省时、省力。

(3)同一套题目无论施测几次,所测的属性是完全相同的。

缺点:(1)同一组被试对同一个测验先后两次作答相互之间是不独立的。

(2)如果两次施测时间间隔较长,在此期间被试的身心发展,新知识的获得,都会使两次测验结果不相同。

(3)同一个被试对现一个测验先后两次作答,对测验的兴趣不同,影响测验结果。

第四章 信度与随机误差

第四章 信度与随机误差
ST2 = SV2 + SI2
最后二式合并可得 SX2 = SV2 + SI2 + SE2
二. 测量信度
? 稳定性 \ 可靠性 \ 一致性
你的观测分数在多大程度上反映了你的“真实”分数? 在不同时间测验同一个人获得的结果是一致吗?
? 人们通常把测量结果的可靠性称为信度,即测 量结果的一致性或可信性程度。
如果进行无数次测量,X的平均值等于T
? 对于一个团体来说,实得分数、真分数 和测量误差之间有如下关系: SX2 = ST2 + SE2
即实得分数的变异数 SX2等于真分数的变异数 ST2加上误差变异数 SE2
而真分数变异数可分成与测量目的有关 (有效)的变异数 SV2和与 测量目的无关但却稳定的变异数 SI2
专业资料这个假想测验的误差变异来源分析信度类型误差变异量误差变异来源复本信度间隔施测1070030时间与内容取样分半信度1080020内容取样上述二者差异030020010时间取样评分者信度1092008评分者差异误差变异总和020010008038真实变异1038062专业资料这个假想测验的误差变异来源分析真实变异误差变异时间上的稳定性复本之间的一致性评分者之间的一致性内容取样误差时间取样误差评分者间差异6220108专业资料?信度的作用反映了测量过程中所存在的随机误差大小可以用来解释个人测验分数的意义可以帮助进行不同测验分数的比较?影响信度的因素
各种信度系数相应误差变异的来源
信度系数的类型
误差变异的来源
再测信度 复本信度(连续施测) 复本信度(间隔施测) 分半信度 同质性信度 评分者信度
时间取样 内容取样 时间与内容取样 内容取样 内容的异质性 评分者间的差异
假设对100个六年级学生以两个月的时间间隔 先后施测一个创造力测验的A\B两个复本, 所得的

测量信度与随机误差控制

测量信度与随机误差控制

4.使用重測信度時需要注意的問題
➢ 兩次施測時間間隔的長短會影響重測信度係數估計 值的大小,因此,在報告重測信度係數時應該報告 間隔的時間長度。
➢ 應該根據已有的相關研究結論考慮所測心理特質本 身的穩定性程度,以確定前後兩次施測時間的間隔 究竟應該多長比較合適時,不應該隨便選擇間隔時 間的長短。
第二節 測驗信度的種類與評估方法
第二節 測驗信度的種類與評估方法
3.應用條件
➢ 測量工具所測量的個體心理特質在時間上應該是相 對穩定的。
➢ 測量工具所測量的個體心理特質應該不存在明顯的 練習效應和遺忘效應。
➢ 在兩次施測間隔期間不應該進行專門的訓練和培訓 ,以保證重測信度反映的是隨機因素的影響效應。
第二節 測驗信度的種類與評估方法
第一節 信度的概述
2.信度的報告
(1)任何一個信度係數是針對引起測驗誤差的特定因 素而言的。有多少種影響測驗分數的條件,就有多少 種測驗信度,因此,報告信度時應該詳細說明測試樣 本的特性和所報告的信度類型。
在信度報告時只是報告信度係數,而缺乏說明估 算係數的方法細節,推導係數時所用的被試群體的特 徵,以及獲取數據當時的施測條件,等等,這種信度 報告是不合格的。
0.98
注:表中數據來源,Lewis R. Aiken: Psychological testing and assessment
(eighth edition), Allyn and Bacon, Inc, 1994.
第一節 信度的概述
2.信度是測量過程中所存在的隨機誤差大小的反映。
3.信度可以用來解釋個人測驗分數的意義——測量 標準誤。
二、複本信度
1.含義
➢ 兩個平行的測驗(複本測驗)測量同一批被試所得結果 的一致性程度。

第四章--测量信度

第四章--测量信度
得分的方差, s2x是被试测验总分的方差。
第二十三页,编辑于星期日:八点 十三分。
五、评分者信度
评分者信度(Scorer Reliability)指的是 多个评分者给同一批被试作答情况进行评分 的一致性程度。它主要用于主观性作品的评 价过程中,如论述题评分、作文题评分、歌 唱比赛的评分、设计作品的评分等。
piqi 1010100.90.10.80.2 0.70.30.50.50.50.50.40.60.20.8
1.36
r
k
[1
pq
i
i
]
xx
k 1
s2
x
10 9 (1 1.36 3)
0.61
第二十二页,编辑于星期日:八点 十三分。
2、克龙巴赫α系数(可用于多重记分的测验) α= [ k / ( k-1) ] [ 1- ∑s2i / s2x ] 其中k是题目数, s2i表示所有被试在第i题上
同质性信度的计算方法
1、库德-理查德逊信度系数(仅用于0、1记分 的测验)
rKKKK1(1 SpX 2iqi)
(KR20公式)
rKKKK1(1KSpX2q)
(KR21公式,各项目难度相当)
其中pi表示答对第i题的人数比例,qi为答错第i题的人数比例;
p 为题目的平均通过率, 为q 题目的平均失败率。
观测 分数
真分数方差 方差
第五页,编辑于星期日:八点 十三分。
3、信度系数等于一个测验X与它的任意一个平
行测验X´的相关系数(操作定义)
rxx = rxx´
(rxx为信度系数)
采用不同的方式计算相关系数,就得到不同类 型的信度系数。
信度值在0~1.00之间,当信度系数等于1.00 时,表示测验完全可靠;当信度系数等于0时, 则表示测验根本不可靠。

心理测量第4章心理与教育测量的信度

心理测量第4章心理与教育测量的信度
库德-理查逊公式
K-R20公式
K-R21公式
克伦巴赫系数
库德-理查逊公式只适用于答对一题得一分,答错无分的测验,不适用于项目多重记分的测验,针对这一需要,克伦巴赫提出了系数的方法。其公式为:
K为测验题目数, 为某一题目分数的变异数, 为测验总分的变异数
采用SPSS计算信度
数 据 库
两次施测期间被试的学习效果没有差别
计算再测信度应满足以下几个假设;
两次测验的时间间隔要适当
应注意提高被试的积极性
再测法适用于速度测验和人格测验,而不适用于难度测验
采取此法时应注意以下几个问题:
用再测法估计信度的优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。其缺点是易受练习和记忆的影响。
S为相同尺度的标准分数的标准差,rxx、ryy分别为两个测验的信度系数。然后再将标准分数的差异与1.96SE(0.05水平)进行比较,即可得出两个测验的差异是否显著。
例:韦克斯勒对104名14岁半至15岁半的儿童,间隔一个月时间前后测了两次,求得全量表的稳定性系数为0.95,实测分数的标准差为15,则测量的标准误为:
同 质 性 信 度 计 算 方 式
结果
输入40题
评分者信度
标准化测验一般都有较为严格的评分程序。对于客观性试题来讲,评分所引起的误差是可以忽略不计的,但是对于一些主观题来讲,评分者之间的变异是产生误差的重要原因之一。
考察评分者信度的方法是随机抽取部分试卷,由两个或多个评分者独立按评分标准打分,然后求其间的相关。在计算相关时,如果是两个评分者,则采用积差相关或等级相关的方法,一般认为经过训练的成对评分者之间的一致性达0.90以上,评分才是客观的。如果是多个评分者则采用和谐系数来估计信度。其公式为:

第四章测量的信度与效度ppt课件

第四章测量的信度与效度ppt课件
力等难度测验
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ (二)复本信度(Alternate-form reliability) ➢ 1.含义与计算 ➢ 是指两个平行测验测量同一批被试所得结果的一
致程度,其大小等于同一组被试在两个复本测验 上所得分数的积差相关系数。计算公式同重测信 度。
2. 信度的测量学定义(操作性定义)
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
3. 误差方差与信度的关系
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ 二、信度的估计方法 ➢ (一)重测信度(test-retest reliability) ➢ 1.含义与计算 ➢ 重测信度是指用同一量表对同一组被试测试两次
所得结果的一致程度,其大小等于同一组被试在 两次测验上所得分数的积差相关系数。即:
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。
➢ 当评分者人数为2时,评分者信度等于两个评 分者给同一批被试答卷所给分数的相关系数。 如果是多个评分者,评分者信度采用肯德尔和 谐系数进行估计。
严格执行突发事件上报制度、校外活 动报批 制度等 相关规 章制度 。做到 及时发 现、制 止、汇 报并处 理各类 违纪行 为或突 发事件 。

第四章 信度理论

第四章  信度理论
信度的理论定义 影响信度的几个因素

信度与误差的关系 三种误差


抽样误差:抽样产生的误差
测量误差:偶然因素引起的不易控制的误差

系统误差:由与测量无关的因素引起的具有一定系
统性和规律性的误差

误差对信度的影响 抽样误差:不影响信度


测量误差:是影响信度的主要因素
系统误差:不影响信度
信度的理论定义


误差是随机的,即误差的平均数等于0,且呈正态分布
误差分数与真分数之间无相关
则获得分数、真分数和误差分数之间具有如下关系

2 t 2
2 e

2 t

2 t 2 t 2 2 t
2 e 2 t
测验的长度:测验所包含的测题的数量。
测验的长度越大,信度越高。
nrll rnn 1 n 1rll
对于预期信度的测验长度调整
rnn 1 rll n rll 1 rnn
被试的能力全距
1 r rnn 1 2 n
2 0
真分数模型 提出者:Charles Spearman(相关研究) 历史: 1904 逻辑性 测量分数易犯错误 1913 数学性
1904 Spearman:测验分数之间的相关低 于“真正客观值”之间的相关 1907 Spearman:易犯错误的度量 1913 Spearman:真正客观值
经典真分数 模型
信度的理论定义


从逻辑上讲,信度是一组测验分数中真分数方差 与获得分数方差的比率。 测验分数的含义
Xt X Xe
真分数的意义
无限次重复同一测验所得分数的平均数 真分数的获得完全依赖于所采用的测量过程

信度与随机误差

信度与随机误差
1.信度指实测值和真值相差的程度 2.信度指统计量与参数之间的接近程度 3.信度是指一种测验对相同的应试者再次测验时引起 同样反应的程度

信度定义一:
信度乃是一组测验分数中真分数的变 异数与实得分数的变异数之比。 即 rXX=ST2/SX2

信度定义二:
信度乃是一个测验X与它的任意一个 平行测验X'的相关系数。
一. 测量的误差

误差与测量的准确性和稳定性
误差就是在测量中与目的无关的因素所产生的 不准确或不一致的效应。 准确性与一致性的关系:


误差的种类:
随机误差 系统误差 抽样与测量误差
误差的来源:(编制过程中,测题本身存在的误差)
测量自身引起的误差
题目取样时,题量少,或无代表性 其他编制过程 Eg:句子意义不明确,题目太难,测验时间设定不对
ST2 = SV2 + SI2
最后二式合并可得
SX2 = SV2 + SI2 + SE2
二. 测量信度

稳定性 \ 可靠性 \ 一致性
你的观测分数在多大程度上反映了你的“真实”分数? 在不同时间测验同一个人获得的结果是一致吗?


人们通常把测量结果的可靠性称为信度,即测 量结果的一致性或可信性程度。 信度的意义
正态的偏离 关系,即rTE=0 3 不同测量上的误差
指的是在测量没有误差时所得到的真值。 在测量学中,真分数是一个很重要的概念。
没有关系,即rE1E2=0 如果进行无数次测量,X的平均值等于T

对于一个团体来说,实得分数、真分数 和测量误差之间有如下关系:
SX2 = ST2 + SE2
即实得分数的变异数SX2等于真分数的变异数ST2加上误差变异数 SE2 而真分数变异数可分成与测量目的有关(有效)的变异数SV2和与 测量目的无关但却稳定的变异数SI2

第四章测量的信度

第四章测量的信度
3.重测信度实质: 主要考察了一个测量工具是否能 够保证在不同时间测量结果的一致性,表示测 验结果的稳定性。故称之为稳定性系数( Coefficient of Stability)
一般来说, 重测的时间间隔越短, 那么各种施测情境 的变化就越小, 重测信度系数就会越大。
重测信度系数较大时, 说明该测量工具前、后两次 的测量结果比较一致。结果具有较好的跨时间上的 稳定性。
定义2: 信度是被试团体真分数与实得分数相关系数的平 方
定义3: 信度是一个测验X(A卷)与它的任意一个平行测验 (B卷)的相关系数
由于真分数的方差无法统计,可转化为: rxx=(S2x-S2E)/S2x =1- S2E/S2x 该定义有两点需要注意: 第一、信度指的是一组测验分数或一列测量的特性,
X―1.96SE<T≤X+1.96SE
• 例:在一个智力测验中,某个被试的IQ为100,这是否反 映了他的真实水平? 如果再测一次,他的分数将改变多 少?
• 已知该智力测验的标准差为15,信度系数为.84,则其IQ
的测量标准误和可能范围为: 勇于开始,才能找到成

功的路
注意几点: (1)SE对真分数做的是区间估计,不可能由此得到一
课后作业
1.某智力测验的信度r=0.75,某次施测得到标准差为 3.00,则该测验的测量标准误是多少,若某被试得分 为100,试估计其真分数1- =.95的置信区间
2. 某测验的信度为0.75。要使该测验的信度达到 0.90,须增加多少题目(原测验长度的多少倍) ?
3.一个包含10个题目的测验,信度为0.50,若增至 50个题目,其信度将是多少?

真分数的估计区间为:
X-1.个人测验的真分数的大小 。

心理测量学重点

心理测量学重点

⼼理测量学重点⼼理测量学第⼀章概论⼀、测量:根据⼀定的法则使⽤量尺对事物的属性进⾏定量描述的过程。

⼆、测量的精确度决定于测量对象本⾝的性质(确定型、随机型、模糊型)和测量⼯具的精密性。

三、测量的基本要素:1.参照点(1)绝对参照点(有绝对的零点,可进⾏乘除运算)(2)相对参照点(以⼈确定的零点,只可加减)2.单位:条件:要有确切的意义和相等的价值四、测量的量表:称名量表、顺序量表、等距量表(可进⾏加减运算)、⽐率量表(可进⾏加减乘除)五、⼼理与教育测量的定义:根据⼼理学和教育学法则给⼈的⼼理特质和教育成就指派数字,或者根据⼀定的⼼理学和教育学理论在测验上对⼈的⼼理特质和教育成就进⾏定量描述的过程。

六、编制⼀个测验应当具备下列四个基本条件:(1)⾏为样本。

(2)标准化:指测验的编制、实施、记分以及测量分数解释的程序的⼀致性。

标准化条件:测验内容、施测条件、评分规则和测验常模的标准化。

(3)难度或应答率。

(4)信度和效度。

七、1918年,桑代克提出“凡客观存在的事物都有其数量”。

1939年,麦柯尔进⼀步提出“凡有其数量的事物都可以测量”作业补充题:1、为什么说⼼理与教育测验的分数本质上是顺序量表上的分数?答:从本质上讲,⼼理与教育测量的量表属于顺序量表。

(1)从使⽤的参照点来说,教育测量和⼼理测量领域的参照点均为相对零点;(2)从使⽤的单位来说,教育与⼼理测量的单位远没有其他测量的单位成熟完善。

第⼆章简史⼀、现代⼼理与教育测量的起源:(1)1879年德国⼼理学家冯特在莱⽐锡⼤学建⽴了世界上第⼀个⼼理实验室。

(2)⾼尔顿把统计⽅法应⽤到对个别差异资料的分析之中。

学⽣⽪尔逊创⽴了积差相关公式。

(3)卡特尔 1890年卡特尔在《⼼理》杂志上发表《⼼理测验与测量》⼀⽂。

⾸提“⼼理测验”。

(3)⽐内和西蒙在1905年合作完成世界上第⼀个智⼒测验量表——⽐内-西蒙量表。

第三章经典测验理论的基本假设⼀、⼼理特质:表现在⼀个⼈⾝上所特有的相对稳定的⾏为⽅式。

第四章 测量信度

第四章  测量信度

五、评分者信度
评分者信度(Scorer
Reliability)指的是
多个评分者给同一批被试作答情况进行评分
的一致性程度。它主要用于主观性作品的评
价过程中,如论述题评分、作文题评分、歌
唱比赛的评分、设计作品的评分等。
评分者信度的计算方法
1、当评分者人数为2时,评分者信度等于两者 评分的相关系数(积差相关或等级相关)。 2、当评分者人数大于2时,评分者信度采用肯 德尔和谐系数计算。 W = 12 [∑R2i –(∑Ri)2 / N] / [ K2 ( N3–N )] 其中K是评分者人数,N是被评的对象数,Ri 是第i个被评对象的被评等级之和。
采用复本信度的条件

要构造出2份或2份以上真正平行的测验。 被试有条件接受两次以上的测验。
复本信度的优缺点
优点:
1、减少了记忆效应和练习效应。 2、适用于追踪研究的多次测量。 3、减少了辅导的可能性。
缺点:
1、编制复本测验的难度较大。 2、被试要有接受两次以上测验的条件和意愿。
三、分半信度
第一节 信度的定义
一、什么是信度

信度指测量结果的稳定性、一致性程度。一个好的 测量工具必须具备好的信度,也就是说它多次测量 的结果应该相对的稳定、一致。

信度反映的是测量中随机误差的大小,随机误差小, 则信度高;反之,则信度低。
测验题目本身并不能提供信度的估计值,信度统计 来自于测验分数。也就是说,在检验信度之前必须 要实施心理测验,以获得测验分数。
遗忘和练习的效果基本相互抵消;(3)在两次施测 的间隔期内,被试所要测查的心理特质没有获得更多 的学习和训练;(4)被试有条件接受两次相同的测 验,取决于时间、经费等因素。

第四章 心理与教育测量的信度

第四章 心理与教育测量的信度

仅适用于(0,1)记分测验。
同质性信度 pq rXX = 1- 2 K -1 SX
p 和 q 分别为题目的平均通过率和平均失败率。
仅适用于(0,1)记分,且所有题目的难度接近的测验。
同质性信度的计算及使用条件
D. 克龙巴赫α系数:适用于任何计分方式的测验。
概化理论的发展 测验情景关系说 测验设计任务
5
6
G研究 D研究
D研究的指标
7 8
对概化理论的评价
一、测验分数方差的测量学意义
1、测验分数方差有目标测量分数方差和误差分数方差。
2、误差来源的多样性与总分方差结构的复杂性。
3、经典测量理论处理分数方差的办法: 假定X=T+E,有σ
X 2=σ T 2+σ E 2,
重测信度的使用条件
1、所测量的心理特质必须是稳定的
2、遗忘和练习的效果基本上相互抵消
3、两次测验间隔,被试要测的特质没有学习和训练
重测信度练习
例3:10名学生接受了某测验,分数记为X,为考察该测
验的信度,一星期后,对这10个学生重新测了一次,分数
记为Y,根据两次测验结果,求该测验信度。
学生号 01 Xi 31 Yi 30
rXX = K rij
1+ K -1 rij
r ij 为项目间相关系数的平均数。 Κ为测验项目数,
同质性信度的计算及使用条件
B. 库德-理查逊公式(K-R20):
n pi q i K 1- i 1 2 rXX = K -1 SX
Κ为测验题目数,pi为通过第i题的人数比例,qi为未通过 第i题的人数比例,SX2为测验总分的变异数。
平行测验A

概率与统计中的误差与信度

概率与统计中的误差与信度

概率与统计中的误差与信度在概率与统计的领域中,误差与信度是两个非常重要的概念。

误差是指测量或估计结果与真实值之间的差异,而信度则是指测量或估计结果的可靠程度。

在实际应用中,我们经常需要通过概率与统计的方法来分析数据,从而得出一些有关真实情况的结论。

然而,由于各种原因,我们的测量和估计结果往往存在误差,因此需要对结果的信度进行评估。

首先,误差在概率与统计中是无法避免的。

无论是实验测量还是数据采集,都会受到各种因素的影响而产生误差。

例如,在物理实验中,仪器的精度和人为操作的不确定性都会导致测量结果的误差。

在调查研究中,样本的选择和调查方法的设计也会对数据的准确性产生影响。

因此,我们需要通过统计方法来估计和控制这些误差。

其次,误差可以分为随机误差和系统误差。

随机误差是由于种种偶然因素导致的,它的出现是不可预测的。

例如,在进行一系列测量时,由于环境条件的变化或人为因素的干扰,每次测量结果可能会有所不同。

而系统误差则是由于测量或估计方法本身的缺陷或偏差导致的。

例如,在使用一种不准确的测量仪器时,每次测量结果都可能存在一个固定的偏差。

对于随机误差,我们可以通过重复测量和取平均值的方法来减小其影响。

而对于系统误差,则需要通过改进测量方法或校正仪器来消除或减小其影响。

然后,信度是评估测量或估计结果的可靠程度的指标。

在概率与统计中,我们经常使用置信区间和假设检验来评估结果的信度。

置信区间是指根据样本数据得出的一个区间,这个区间包含了真实值的估计范围。

例如,在调查中,我们可以通过对样本进行统计分析,得出一个置信区间,表明有多大的概率真实值在这个区间内。

假设检验则是通过对样本数据进行统计推断,判断某个假设是否成立。

例如,在医学研究中,我们可以通过假设检验来判断某种治疗方法是否有效。

最后,误差和信度在概率与统计中的应用非常广泛。

无论是科学研究、工程设计还是市场调查,都需要通过概率与统计的方法来分析数据和得出结论。

例如,在医学研究中,我们需要通过对大量病例的观察和分析,来评估某种治疗方法的疗效和安全性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


计算题:
1.已知16人参加一次测验后在奇数题和偶数题上的得分 情况如下表,试用两种以上方法计算测量信度。
被试
奇数题 偶数题
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
32 40 42 28 35 30 41 28 32 34 26 34 36 25 40 31 39 45 30 40 29 39 30 32 30 30 40 36 26 40 41 42


因为任何测验只是所有可能题目中的一份取样 (行为样本),所以可编制许多平行的等值测验,叫 做复本。 复本等值要符合下列条件:
1.各份测验测量的是同一种心理特性。
2.各份测验具有相同的内容和形式。 3.各份测验的题目不应重复。 4.各份测验题目数量相等,难度和区分度大体相同。 5.各份测验的分数分布(平均数和标准差)大致相等。 6.复本编好后,应再测一次,以确保各份测验的等值。

这个假想测验的误差变异来源分析
信度类型 复本信度(间隔施测) 误差变异量 1-0.70=0.30 误差变异来源 时间与内容取样
分半信度
上述二者差异 评分者信度 误差变异总和 真实变异
1-0.80=0.20
0.300.20=0.10 1-0.92=0.08
内容取样
时间取样 评分者差异
0.20+0.10+0.08=0.38 1-0.38=0.62
1.信度指实测值和真值相差的程度 2.信度指统计量与参数之间的接近程度 3.信度是指一种测验对相同的应试者再次测验时引起 同样反应的程度

信度定义一:
信度乃是一组测验分数中真分数的变 异数与实得分数的变异数之比。 即 rXX=ST2/SX2

信度定义二:
信度乃是一个测验X与它的任意一个 平行测验X'的相关系数。
ST2 = SV2 + SI2
最后二式合并可得
SX2 = SV2 + SI2 + SE2
二. 测量信度

稳定性 \ 可靠性 \ 一致性
你的观测分数在多大程度上反映了你的“真实”分数? 在不同时间测验同一个人获得的结果是一致吗?


人们通常把测量结果的可靠性称为信度,即测 量结果的一致性或可信性程度。 信度的意义
下 ,可将测验项目分成对等的两半 ,根据被试在
这两半测验中所得的分数计算相关系数 , 即得
分半信度。

计算分半信度先要对测验分半。不同的分半法 可能会得到不同的信度值。

为了使两半基本等值,可将项目按由易到难的顺序排 列编号,然后按奇数和偶数序号将项目分半。要注意 使那些性质相同、联系紧密的项目分在相同的一半, 否则会使信度值偏高。
即 rXX=ρXX'

信度定义三:
信度乃是一组测验分数中真分数与 实得分数的相关系数的平方。 即 rXX=ρ2TX
实测分数对真分数的回归图
估计信度的方法



1.稳定性系数(重测信度) 2.等值性系数(复本、分半信度) 3.等值稳定性系数(复本、分半信度) 4.内部一致性系数(同质性信度) 5.评分者的信度系数
由于分半信度实际上只是半个测验的信度,测验越长、 项目越多 , 两半分数的相关就越高。因此 , 对长度不

同的测验,要用校正公式。

计算公式参见教材P35~36
斯皮尔曼—布朗校正公式 弗朗那根公式 卢伦公式
同质性信度(Homogeneity Reliability)

同质性指测验的所有题目测量的是同一种心 理特质 , 表现为各个题目得分之间有较高的 相关,相关越高则同质性越强。 因素分析的思路
正态的偏离 关系,即rTE=0 3 不同测量上的误差
指的是在测量没有误差时所得到的真值。 在测量学中,真分数是一个很重要的概念。
没有关系,即rE1E2=0 如果进行无数次测量,X的平均值等于T

对于一个团体来说,实得分数、真分数 和测量误差之间有如下关系:
SX2 = ST2 + SE2
即实得分数的变异数SX2等于真分数的变异数ST2加上误差变异数 SE2 而真分数变异数可分成与测量目的有关(有效)的变异数SV2和与 测量目的无关但却稳定的变异数SI2
计算方法: 两个复本施测同一被试群体,求其相关。

等值性系数:同时连续施测,反映内容变异。
形式:复本A—最短时间—复本B 稳定性与等值性系数: 时间间隔施测,内容变异+重测信度误差 形式:复本A—适当时间—复本B
分半信度(Split-Half Reliability)

定义: 在测验没有复本且只能实施一次的情况
这个假想测验的误差变异来源分析
真实变异 误差变异
时间上的稳定性,复本 内容取 时间取 评分者 之间的一致性,评分者 样误差 样误差 间差异 之间的一致性
62%
20%
10%
8%

信度的作用
反映了测量过程中所存在的随机误差大小 可以用来解释个人测验分数的意义 可以帮助进行不同测验分数的比较

影响信度的因素:
2.已知某态度量表有6道题,被试在各题上得分的方差分别 是0.80, 0.81, 0.79, 0.78, 0.80, 0.82,测验总分的方 差为16.00,求α值。

控制随机误差提高测量信度的常用方法
适当增加测验长度 尽量保证测验题目内容的同质性 控制试题的难度分布
努力提高试题的区分度 测验使用者严格按规范的测验程序施测 严格控制评分误差 尽量控制测试场所因素导致的误差
本章思考题




何谓误差? 何谓真分数? 误差的种类和来 源有哪些? 用公式说明实测分数与真分数 及误差的关系。 简述信度的意义及其三定义和公式。 指出各种信度系数所对应的误差来源。 信度的作用与影响信度的因素有哪些? 如何理解测量的标准误及其与信度的关 系? 不同能力水平的人接受同一测验,为什么 :
物理环境 测试时间 主试因素 意外干扰 评分记分
被试引起的误差:
应试动机 练习效应 测验焦虑 反应倾向 测验经验 生理因素
真分数

•定义化 • 假设 •X=T+E • (Gullikson,1950): X=观测分数(你的实得分数) 1 对一个人测量无数 T=真分数(构想分数) 次,其平均误差为0, E=误差分数(猜测,疲劳); 即E=0 误差是一种随机的、 2 真分数与误差没有
第四章 信度与 随机误差
一. 测量的误差

误差与测量的准确性和稳定性
误差就是在测量中与目的无关的因素所产生的 不准确或不一致的效应。 准确性与一致性的关系:


误差的种类:
随机误差 系统误差 抽样与测量误差
误差的来源:(编制过程中,测题本身存在的误差)
测量自身引起的误差
题目取样时,题量少,或无代表性 其他编制过程 Eg:句子意义不明确,题目太难,测验时间设定不对
重测信度(Test-Retest Reliability)

定义: 同一量表,同一被试群体,在不同
时间,两次施测,求其相关。

实质: 表示测验结果的稳定性。故称之
为稳定性系数(Coefficient of
Stability)

形式: 施测—适当时间—再施测
计算公式参见教材P43
时间间隔的把握

间隔时间越长,稳定性系数越低。适宜时间间隔依照
计算公式: 参见教材P36~37
基本公式 库德—理查逊公式 克伦巴赫系数


评分者信度(Scorer Reliability)

评分者信度是指不同评分者之间在测验结果计
分上的一致性。

在心理测验中,评分者信度的计算 ,通常是随机
抽取若干份试卷 , 由至少两位受过训练的评分 者按计分规则分别判分 , 然后计算它们的相关。 几个评分者的评分越一致,评分者信度越高。


各种信度系数相应误差变异的来源
信度系数的类型
再测信度 复本信度(连续施测) 复本信度(间隔施测) 分半信度 同质性信度 评分者信度
误差变异的来源
时间取样 内容取样 时间与内容取样 内容取样 内容的异质性 评分者间的差异
假设对100个六年级学生以两个月的时间间隔 先后施测一个创造力测验的A\B两个复本, 所得的
被试的样本—样本团体的异质程度与平均水平 测验的长度—一般说来,测验越长,信度值超高 测验的难度—测验难度水平使测验分数的分布 范围最大时,信度才最高(此难度水平为0.5)
测量的随机误差控制


测量标准误与信度
具体计算方法及例证:P40
影响测验信度的随机误差来源
被试因素 主试因素 测试情境 测量工具本身 测试时间间隔

评分者信度最简单的估计方法就是随机抽 取若干份答卷,由两个独立的评分者打分, 再求每份答卷两个评判分数的相关系数。 这种相关系数的计算可以用积差相关方法, 也可以采用斯皮尔曼等级相关方法。 如果评分者在三人以上,而且又采用等级记 分时,就需要用肯德尔和谐系数来求评分者 信度。
计算公式: 肯德尔和谐系数W
测验目的、性质及被试特点而定。几分钟至几年。

年幼儿童 , 间隔要小;年长群体 , 间隔可大。智力测 验的间隔不能太短,成就测验的间隔不能太长。 一般间隔时间不超过六个月。(既不能让被试记住上 一次测验的内容 , 又不能让其特质发生变化 , 或对所

学知识产生遗忘)
复本信度(Alternate-form raliability)

等值性与稳定性系数为0.70。 根据被试对每个复本的反应计算出分半信度为 0.80(先计算每个复本的分半相关系数。将二者平 均后再用斯皮尔曼-布朗公式校正)。 同时,我们让另一个评分者随机抽取50份卷子另外 评分,得到评分者信度为0.92。 然后,我们对这三种方法所产生的误差变异进行分 析。
相关文档
最新文档