第八讲 经典测量的效度原理
第八讲 测量的信度与效度(1)PPT教学课件
![第八讲 测量的信度与效度(1)PPT教学课件](https://img.taocdn.com/s3/m/453710cd52ea551810a687e8.png)
17
• 主试者
• 施测者 • 问卷评分者
• 施测情境 • 测量工具
• 测量工具是否性能稳定
• 两次施测的间隔时间
2020/12/10
18
四、提高测量信度的常用方法
• 适当增加测验的长度
• 项目数太少会降低测量的信度 • 增加与原测验中项目具有较好的同质性的项
目,可以增大测验长度 • 注意点
• 新增项目必须与原有项目同质 • 新增项目的数量必须适度
14
• 评分者信度
• 多个评分者给同一批被试的答卷进行评分的 一致性程度
• 当评分者为2人,评分者信度可用两个评分者所 给分数的相关系数表示
• 当评分者多于2人时,可用肯德尔和谐系数进行 估计
2020/12/10
15
三、影响测量信度的方法
• 信度系数依赖于场合、测验形式和评分 员三者的共同作用。
估计的办法指出测量的精度
真实分数=观察分数×信度系数
2020/12/10
ห้องสมุดไป่ตู้
6
二、信度的计算
• 同质性信度
• 测验内部所有题目间的一致性程度,也称为 内部一致性系数
• 所有题目测的同一内容 • 所有题目得分之间都具有较高的正相关
2020/12/10
7
• 内部一致性的计算方法
分半信度 递增信度
2020/12/10
• 通常信度在0.9以上才能算是好的测验。 • 测验信度达到0.6以上才能被接受。
2020/12/10
16
• 被试特征
• 单个被试:身心健康状况;应试动机;作答 态度;耐心
• 团体被试:内部水平的离散程度以及团体的 平均水平
• 当团体异质,信度值会偏大 • 当团体内部水平相差不大,则信度值会偏小
测验的效度
![测验的效度](https://img.taocdn.com/s3/m/2bcc254efe4733687e21aad0.png)
林陳涌 國立台灣師範大學 生物學系
信度…...
信度所關心的是測驗分數的一致性或穩 定性。 一個具有良好信度的測驗,使用在不同 的主試者 評分者 時間 情境或使用 類似的問題,其所得的分數應該接近相 同或一致。 一般而言分數愈一致,受誤差的影響愈 小。所以信度主要在說明測驗分數中測 量誤差所佔的成分。
• 新編職業測驗 目前工作成績 • 新編生物成就測驗 在校生物月考成績
易於取得,故較易於考驗。此種效度可 用來取代收集資料的複雜方法。
預測效度
指測驗分數與實施測驗後一段時間所取 得的效標之間的相關,旨在使用測驗分 數預測個人在效標方面的未來表現。
• 新編職業測驗 • 錄取後一段時間後的工作成績
效標關聯效度
以經驗性的方法,研究測驗分數與一些 外在效標間的關係,故又可稱為經驗效 度或統計效度。 如果測驗分數和外在效標的相關愈高, 表示測驗愈能有效預測外在效標。 外在效標指測驗所要預測的某些行為或 量數。學業性向測驗以學校的學業成績 作為效標。 同時效度與預測效度
同時效度
指測驗分數與實施測驗同一個時間所取 得的效標之間的相關,旨在使用測驗分 數估計個人在效標方面的目前實際表現。
多項特質--多項方法分析--獲得構
念效度證據的方法六
採用多項特質--多項方法分析的基本條件
• 必須有兩種以上的測量方法測量兩種以上的 特質,其所測量的特質均一樣。
方法:M1. 人格量表 M2. 教師評定 特質:A. 成就性 B. 社會性 C. 獨立性
多項特質—多項方法分析矩陣 特質 方法 1 方法 2 A1 B1 C1 A2 B2 C2 A1 (.77) M1 B1 .40 (.81) C1 .31 .29 (.92) A2 .59* .27 .11 (.71) M2 B2 .29 .63* .12 .37 (.78) C2 .18 .09 .68* .25 .18 (.83) ()中的數字為信度係素 * 為輻合性效度 其餘為區別性效度 相同方法相同特質: 信度 相同方法不同特質: 區別性效度 不同方法相同特質: 輻合性效度 不同方法不同特質: 區別性效度
心理学考研专业课心理测量知识点:效度
![心理学考研专业课心理测量知识点:效度](https://img.taocdn.com/s3/m/dbc700280912a216147929bc.png)
心理学考研专业课心理测量知识点:效度1、效度是指:测验能测量到所要测量的对象的程度。
这一定义包含着两层含义:测验测量什么?测验对测量目标的测量精确度和真实性是多少?2、效度的公式为:rxy = SV2/SX2它是与测量目标有关的真实分数方差与总方差的比率。
其中rxy是常用的效度表示法;SV2是“有关的真实方差”,也就是由测验所要测量的心理变量引起的方差,也叫有效方差;SX2是总方差。
3、信度和效度的差别是:两者所涉及的误差不同:信度仅考虑偶然的随机误差占测验总变异的比例,效度则还包括与测验无关的但稳定的测量误差。
(1)信度是效度的必要而非充分条件。
(2)效度是受信度制约的。
4、效度的性质:效度的真实含义是指测验结果的效度,也就是测验结果的准确程度。
(1)效度具有相对性。
(2)效度具有连续性。
测验的有效性只有程度上的差别。
(3)效度也不是直接就可以测量到的,它是从已有的证据推理而来的。
5、效度的种类:内容效度、构思效度和效标关联效度。
6、效标关联效度是指:测验总分数与外在标20、准(效标)之间的相关程度,反映的是用测验预测个体在某种情境下行为的表现如何的有效性程度。
由于外在标准成了考察测验有效性的参照标准,因此简称为效标。
7、阿斯丁把效标分为两个层次:一是理论描述水平的“观念效标”,二是操作定义水平的“效标测量”。
(1)观念效标是效标的理论定义,效标测量是效标的操作定义,效标测量必须能真正反映观念效标。
(2)效标测量的一个重要特征是客观性。
为此因做到:1避免偏见影响效标测量,特别是以等级评定为效标4测量时,评分者的主观偏见会有很大影响。
2防止效标污染,即指个人的效标因评定者知道个体的测验分数(也叫预测源分数)而受到影响。
8、常用的效标:学业成就、临床诊断、实际工作表现、特殊训练成绩、效标团体比较、先前有效的测验、等级评定。
9、同时效度:它的效标资料是和测验分数差不多同时搜集的。
一般情况下,它可以代替预测效度。
测量的信度与效度
![测量的信度与效度](https://img.taocdn.com/s3/m/dc2a0b4ccd1755270722192e453610661fd95a4e.png)
信度的评估方法
1 2
重测信度法
通过在不同时间对同一对象进行重复测量,计算 两次测量结果的相关系数,以评估信度。
复本信度法
使用多个测量工具对同一对象进行测量,计算各 测量工具之间的相关系数,以评估信度。
3
内部一致性信度法
通过分析测量工具内部各部分之间的相关性,计 算内部一致性系数(如Cronbach's Alpha系 数),以评估信度。
04 测量误差
随机误差
定义
随机误差是由于一些随机因素引起的测量结果的 不确定性。
特点
随机误差的大小和符号都是随机的,无法预测和 控制。
示例
测量时环境的微小变化、测量仪器的微小波动等 都可能产生随机误差。
系统误差
定义
系统误差是由于测量系统本身存在的误差或测量条件不满足要求 而引起的测量结果偏差。
数据分析方法
数据分析方法的选择和运用,也会对效度产 生影响。
03 信度与效度的关系
信度是效度的必要条件
信度是指测量的一致性,即多次测量结果之间的相符程度。 如果一个测量工具缺乏信度,那么它的测量结果会不稳定, 无法为决策提供可靠依据。因此,信度是效度的必要条件, 没有信度就无法保证效度。
信度的评估方法包括重测信度法、复本信度法、Cronbach's Alpha系数法等,通过这些方法可以评估测量工具的一致性 和稳定性。
效度是信度的充分条件
效度是指测量的准确性和有效性,即测量结果是否真实反映所需测量的内容。如果一个测量工具具有 效度,那么它的测量结果是准确的、有意义的,能够为决策提供可靠依据。因此,效度是信度的充分 条件,有了效度可以进一步确认信度。
效度的评估方法包括内容效度法、结构效度法、验证效度法等,通过这些方法可以评估测量工具的准 确性和有效性。
第8章-测量效度PPT课件
![第8章-测量效度PPT课件](https://img.taocdn.com/s3/m/5b32ac369b89680202d82578.png)
-
9
-
10
3.应该注意的几点
(1)内容效度不适合用于能力倾向测验和人格测验。 (2)在使用内容效度时要避免与表面效度相混淆。 表面效度是外行人对某个测验从表面上看好象是测某种心理特
质的一种现象。当外行人认为某个测验能有效地测得某种心理 特质时,该测验就被认为有较高的表面效度。 一般来说,最佳行为测验往往表面效度高,其他测验则希望表 面效度低。 表面效度与内容效度的区别: 表面效度不是真正的效度。
-
2
二、效度与信度的关系
(一)信度高是效度高的必要而非充分条件。
测量值(X)的变异
真变异
系统变异
随机变异
(二)测验的效度受它的信度制约:r2xy≤rxx
(三)一般来说,效度的作用比信度更重要。一个 测验如果效度很低,则信度无论多高,也是无用的。
-
4
这是一个狙击手的三 种射击结果!-5- Nhomakorabea6
这些效标可以是连续变量,也可以是离散变量;可以是自然的现成指标,
也可以是人为设计的指标;可以是主观判断,也可以是客观测量;可以
是自我评定,也可以是他人评定等- 等。
14
(三)实证效度的确定方法
1.确定实证效度的步骤
(1)明确观念效标 (2)确定效标测量 (3)考察测量分数与效标测量的关系
2.估计实证效度的方法
(1)相关法:计算测量分数与效标测量的相关。
(2)区分法:被试接受测验后,让他们工作一段时间,再根
据工作成绩(效标测量)的好坏分成两组。这时再回过头来分析 这两组被试原先接受测验的分数差异,若这两种人的测验分数差 异显著,则说明该测验有较高的效度。
的有用性程度。(吉尔伯特·萨克斯:教育和心理的测量与评价原理—— 第四版) (二)对效度概念的理解 1.效度是一个相对概念 (1)效度是相对于一定的测量目的而言的 (2)心理特质是较隐蔽的特性,只能通过他的行为表现来进行推测,因 此,心理测量不可能达到百分之百准确,而只能达到某种程度上的准确。 (3)判断一个测量是否有效要从多方面收集证据。例如:一个人的健康程 度:可从这几方面自我主诉、就诊次数、体检收集证据。 2. 效度和信度一样,也是指一列测量的特性,也是一个构想概念
测量的效度
![测量的效度](https://img.taocdn.com/s3/m/b7acdf4bc850ad02de80410a.png)
• 确定结构效度的方法有: • 1、测验内部寻找证据法(简称测验内法)。测验内方法 主要是通过研究测验内部构造来界定所测量的构想的范围。 其具体操作方法有:(1)考察该测验的内容效度,因为 有些测验对所测内容或行为范围的定义或解释类似于理论 构想的解释,所以,内容效度高实质上也说明结构效度高。 (2)分析被试的答题过程。若有证据表明某一题目的作 答除了反映着所要测的特质以外,还反映着其他因素的影 响,则说明该题没有较好地体现理论构想,该题的存在会 降低结构效度。(3)通过计算测验的同质性信度的方法 来检测结构效度。若有证据表明该测验不同质,则可以断 定该测验结构效度不高。当然,测验同质只是结构效度高 的必要条件。
• 统计分析法:克伦巴赫认为,内容效度可由一组被试在取 自同样内容范围的两个测验复本上得分的相关来作数量上 的估计,所以这种方法又叫复本法。其具体作法是:从同 一个教学内容总体中抽取两套独立的平行测验,用这两个 测验来测同一批被试,求其相关。若相关低,则两个测验 中至少有一个缺乏内容效度;若相关高,则测验可能有较 高的内容效度(除非两个测验取样偏向同一个方面)。 • 再测法:这种方法的操作过程是:在学习某种知识之前作 一次测验,在被试学过该知识后再作同样的测验。这时, 若后测成绩显著地优于前测成绩,则说明所测内容正是被 试新近所学内容,进而证明该测验对这部分内容而言具有 较高的内容效度。 • 经验法:检查不同年级的学生在测验上的得分和在每个题 目上的反应情况。由于高年级学生比低年级学生水平高, 所以一般来说,若测验总分和题目通过率随年级而提高, 便说明测验具有内容效度。
• 3、考察测验的实证效度法。如果一个测验有实证效度, 则可以拿该测验所预测的效标的性质与种类作为该测验的 结构效度指标,至少可以从效标的性质与种类来推论测量 的结构效度。这里有两种做法: • 第一,根据效标把人分成两类,考察其得分的差异。例如, 一组被公认为是性格外向的人在测验中得分较高,另一组 被公认为是性格内向的人在测验中得分较低,则说明该测 验能区分人的内向与外向特征,进而说明该测验在测量人 的性格内外向方面有较高的结构效度。 • 第二,根据测验得分把人分成高分组和低分组,考察这两 组人在所测特质方面是否确有差异。若两组人在所测特质 方面差异显著,则说明该测验有效,具有较高的结构效度。 此外,对于一些被认为是较稳定的特质,若在短期内两次 施测的结果差异不太大,则说明该测验符合理论构想。 • 除了以上常用的三类方法外,确定结构效度的方法还有考 察实验变量对测验分数的影响以及搜集某些变异上的证据 等方法。
测量效度
![测量效度](https://img.taocdn.com/s3/m/97e8b4615a8102d276a22fe5.png)
答案
➢ 用点二列相关公式
rpbi =
X p -Xq St
pq
rpbi=0.60
,St=3.324,
效标关联效度的估计方法
命中率(正命中率、负命中率和总命中率) ➢ 正命中率指测验选出来的人中真正被选对的人数
比率。
➢ 负命中率指测验淘汰的人中真正该被淘汰的人数
比率。
➢ 总命中率指测验选对的人数和淘汰对的人数之和
内容效度的确定方法——再测法
➢ 在被试接受某种知识的学习之前进行一次测验,
在学习该知识之后再做同样的测验。
➢ 如果后测成绩显著优于前测成绩,说明该测验对
这部分内容而言具有较高的内容效度。
效度的评估
重点 难点
内容效度
含义、应用范围、与表面效度相 区分、确定方法
效标关联效度
含义、观念效标、效标测量、种 类、作用、确定步骤、估计方法
内容提要
1 效度的含义 2 效度与信度的关系 3 效度的评估 4 影响效度的因素 5 提高效度的方法
效度的含义
➢ 效度是指一个测验或量表实际能测出其所要测的
心理特质的程度。
➢ 在测量理论中,效度被定义为:在一列测量中,
与测量目的有关的真实变异数与总变异数的比率。 即rxy2=SV2/SX2,rxy2为效度,rxy为效度系数。
掌握某种技能或学习某门课程所达到的程度。
➢ 也适用于某些用于选拔和分类的职业测验,测验
内容是实际工作需要的知识和技能。
➢ 不适合用于能力倾向测验和人格测验。
内容效度与表面效度相区分
➢ 表面效度是外行人对某个测验从表面上看好像是
测某种心理特质的一种现象。
➢ 当外行人认为某个测验能有效地测得某种心理特
效度
![效度](https://img.taocdn.com/s3/m/341f62e581eb6294dd88d0d233d4b14e85243e12.png)
4)经验效度(empirical validity)。经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或 多个标准尺度相对照而得出。经验效度可分为两种:一是共时效度(concurrent validity),即将一次测试的 结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度 (predictive validity),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比 较而得出的系数。
影响统计效度的因素
影响统计效度的因素主要有方面:统计功效低、违反统计方法的使用条件、测量信度低。
统计结论效度的条件
研究的统计结论效度主要取决于两个方面的条件:一是数据的质量,数据分析程序的效度是以数据的质量作 为基础的,数据质量差的研究是谈不上统计结论效度的;二是统计检验方法,数据分析中所采用的各种统计方法, 都有其明确的统计检验条件的要求,一项研究中统计检验条件不明确或者被违反,就会显著降低统计结论效度。
测试维度
测试维度
1)表面效度(face validity)。指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。例 如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。表面效度 是测试出受试者正常水平的一种保证因素。
2)内容效度(content validity)。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反 映了测试的要求,即测试的代表性和覆盖面的程度。例如,如果某一套发音技能测试题仅仅考查发音所必须具备 的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就 很低。
效度检验原理
![效度检验原理](https://img.taocdn.com/s3/m/0eb66a7d492fb4daa58da0116c175f0e7dd1191a.png)
效度检验原理嘿,朋友们!今天咱来聊聊效度检验原理。
这玩意儿啊,就好比是给一个工具或者方法做个全面的“体检”。
你想想看,咱平时买东西都得挑挑拣拣,看看质量咋样,这效度检验不也是这么个道理嘛!比如说,你有一把尺子,你得知道它量出来的长度准不准呀,这就是在检验它的效度。
要是它量啥都乱七八糟的,那可不行,就像你想量个桌子长度,结果一会儿长一会儿短,那还咋用呀!在很多方面,我们都需要进行效度检验呢。
比如教育领域,那些考试题目得能真正检验出学生的水平吧。
要是题目出得太简单或者太难,或者根本和要考的知识点不搭边,那不就成了瞎折腾嘛。
就好像让学生去比赛跑步,结果跑道一会儿变成沼泽地,一会儿又全是坑坑洼洼的,学生能好好发挥吗?再说说心理测试。
哎呀呀,这可不能随便搞搞。
要是一个测试说能测你是不是开心,结果你明明心情超好,它却说你抑郁了,那不是闹笑话嘛!这就像医生给人看病,诊断错了病,那开的药能对吗?那怎么进行效度检验呢?这可就得仔细琢磨琢磨了。
就跟给一件宝贝鉴定真假一样,得从各个方面来看。
可以看看这个工具或者方法和其他已经被认可的东西是不是相符。
比如说一个新的测量身高的仪器,和原来大家都用得好好的尺子比一比,如果结果差不多,那说明效度可能还不错。
还可以看看它在不同情况下的表现。
就像一个运动员,得在各种场地、各种天气下都能有好成绩,那才是真厉害。
如果一个测试在这个地方测出来是这样,换个地方就完全不一样了,那肯定有问题呀!咱生活中很多事情都需要这种效度检验的思维呢。
找工作的时候,公司看你的简历,不就是在检验你的能力效度嘛。
谈恋爱的时候,你也得看看对方说的话做的事是不是靠谱,这也是一种效度检验呀!总之,效度检验原理可重要了,它能让我们知道我们用的东西、做的事情到底靠不靠谱。
可别小瞧了它,不然就像没头苍蝇一样乱撞,到最后啥也没干成。
咱得重视起来,让一切都井井有条,明明白白的!这就是我对效度检验原理的理解啦,你们觉得呢?原创不易,请尊重原创,谢谢!。
测量效度
![测量效度](https://img.taocdn.com/s3/m/ce041f37cc7931b765ce15a6.png)
效标测量,指将观念效标进行量化操作。一 种观念效标可以有多种不同的效标测量。 如实际工作表现的效标测量可以采用的数量 指标有:产品数量和质量、销售额、收入、 职位、薪水提高的幅度、领导评定、同事评 定等等。 又如,学业成就的效标测量可以采用的数量 指标:单元考试成绩、期中期末的考试成绩、 老师评价、同伴评定、获奖情况、发表作品 情况等等。
实证效度或效标关联效度,是以测验分数与 效标测量分数之间的关系表示的效度。
测验分数 (高考分数) 效标测量分数 (大学GPA)
两者关系
2、观念效标与效标测量
阿斯丁把效标分为两个层次:一是理论描述水 平的“观念效标”,二是操作定义水平的“效 标测量”。理论定义与操作定义。 所谓观念效标指衡量一个测验是否有效的外在 标准,它独立于测验并可以从实践中直接获得 我们所感兴趣的行为变量。 常用的观念效标有:实际工作表现、学业成就、 临床诊断、行为的等级评定、专门的训练成绩、 对团体的区分能力以及其他现成的有效测验, 等等。
三、用统计学术语谈效度
根据CTT假设,有以下公式存在:
S S +S =S S S
2 X
2 T
2 E
2 V
2 I
2 E
效度系数等于有效分数的方差与观测分数的方差之 比,即:
r
2
xy
S S
2 V 2 X
四、效度和信度的关系
1、信度高是效度高的必要而非充分的条件。 下面那种情况不可能存在? 高信度,高效度 高信度,低效度 低信度,高效度 低信度,低效度
1、所要测量的内容范围必须定义清楚,界 限分明,重点突出。 2、测验题目应是所界定的内容范围的代表 性取样。
经典测验理论和测量的信度、效度20101123
![经典测验理论和测量的信度、效度20101123](https://img.taocdn.com/s3/m/b57f861514791711cc791775.png)
测验的难度
非二分法计分项目的难度
P=Mean/Max
式中,Mean为被试在某一项目上的平均得分,Max为该项 目的满分。
27
测验的区分度
• 区分度:是指测验项目对被试水平差异的区分能 力。 • 具有良好区分度的项目,能将不同水平的被试区 分开来,也就是说,在该项目上水平高的被试得 分高,水平低的被试得分低。 • 区分度的效标分数:评价测验项目区分度高低依 赖于对被试水平的准确测量,通常称作效标分 数。测验项目区分度的效标分数更多的是用测验 总分,称作内部效标。
ε(X) = T 或 ε(E) = 0
– 真分数和误差分数之间的相关为零。即
ρ(T,E) = 0
– 各平行测验上的误差分数之间相关为零。即
ρ( E1,E2) = 0
14
真分数假设
• 平行测验:
– CTT认为:如果两个题目不同的测验测得同一 特质,并且题目形式、数量、难度、区分度以 及测查等值团体后所得分数的分布(均值和标 准差)都是一致的,则这两个测验被称作是彼 此平行的测验。
33
测验的区分度
• 区分度的计算——相关法
– 相关法计算项目区分度的基本思路:以项目分 数与效标分数或测验总分的相关作为项目区分 度指标。相关越高,项目区分度越高。 – 复习:点二列相关、二列相关、积差相关 (Pearson相关)
34
区分度与难度的关系
项目通过率(P) 1.00 0.90 0.70 0.60 0.50 0.40 0.30 0.10 0.00 D的最大值 0.00 0.20 0.60 0.80 1.00 0.80 0.60 0.20 0.00
16
结构方程模型中的测量模型
• 结构方程模型分析包括测量模型和结构模型。 • 若只考虑各因子与其观测指标之间的关系,以及 因子与因子之间的关系,则就是结构方程模型中 的测量模型。 • 对结构方程模型中的测量模型进行检验,又称验 证性因素分析(Confirmatory Factor Analysis, CFA)。这是对测验进行结构效度检验的重要统 计分析技术之一。
测量的信效度
![测量的信效度](https://img.taocdn.com/s3/m/c4788e81d4d8d15abe234e7e.png)
评分者信度(Scorer Reliability)
最简单的估计方法就是随机抽取若干份答卷,由两 个独立的评分者打分,再求每份答卷两个评判分数 的相关系数。这种相关系数的计算可以用积差相关 方法,也可以采用斯皮尔曼等级相关方法。 如果评分者在三人以上,而且又采用等级记分时, 就需要用肯德尔和谐系数来求评分者信度。
评分者信度scorerreliability信度系数的类型误差变异的来源计算公式次数所需复本数目重测信度时间取样积差相关系数复本信度连续施测内容取样积差相关系数复本信度间隔施测时间取样内容取样积差相关系数分半信度内容取样积差相关系数需校正常用斯布公式同质性信度内容的异质性系数非二分法评分者信度评分者间的差积差相关系数斯皮尔曼等级相关系数肯德尔和谐系数在一般情况下间隔施测的复本信度最低因为很多因素有机会影响到分数
分半信度的估计
斯皮尔曼-布朗校正公式
rXX 2rx1x 2 1 rx1x 2
rx1x2 表示两半测验分数的相关系数
如果两半测验不等值,亦即两半测验分数没 有相同的平均数和标准差
弗朗那根公式:
r 2(1
S a Sb
2
2
Sx
2
)
Sa2 和Sb2 :两个半测验分数的变异数;Sx2 :测验总分 的变异数。
SX2 = SV2 + SI2 + SE2
SX2 SV2 SI2 SE2
ST2
系统误差的影响
系统误差可能是由以下几方面原因造成的:
1)所要测量的特质有多方面的含义,而量表本身未能
第八讲 测量的信度与效度(2)
![第八讲 测量的信度与效度(2)](https://img.taocdn.com/s3/m/37cb2c390912a216147929b3.png)
• 后测效度
• 效标分数比测验分数先获得 • 同时效度和后测效度常常用来判断两种测验 能不能相互取代
• 对于效标效度的计算来说,最为关键的 是确保“准则”或指标的有效性。
• 内容效度(content validity)
• 是指测量项目在多大程度上表示了所要测 定的特征范畴 • 在缺少效标的情况下,用测验的内容来判 断其有效性程度。 • 内容效度是推论式的,是研究者从主观上 判断问题的领域和性质,是对测验内容的 逻辑分析和比较 • 关键在于试题的选样能否代表全体
• 确定方法——经验判断法
• 选择熟悉该测量内容的专业人员 • 对测量项目与所需要测量的内容范畴之间的关系 作出判断 • 确定评判的一致程度和可靠性,常用的指标为 “内容效度比”
• 逻辑效度和表面效度
• 表面效度指的是判断调查手段在形式上的 有效程度。 • 判断需要考虑的问题:
• 所用的手段是否真正测定所要研究的命题和 命题本身的类型 • 调查样本是否足以说明命题 • 样本数量 • 样本与命题内容之间的关系
三 效度的估计
• 三种不同的估计方法
• 内容效度
• 用测量内容来说明目的
• 结构效度
• 用某种理论结构来说明目的
测验的效度
![测验的效度](https://img.taocdn.com/s3/m/a367eabdfc0a79563c1ec5da50e2524de518d0fb.png)
测验实施中的因素
• 主试的因素
是否遵从测验使用手册的各项规定;
指导语是否统一正确;
测验的时限是否一致; 评分是否合理。
• 测验情境和时间间隔因素
测验与效标时间间隔是否过长;
场地的布置、材料的准备、测验场所有无噪音和其它 干扰因素的影响;
• 被试影响因素 兴趣、动机、情绪、态度和身心状况、健康状态以及 是否充分合作与尽力而为、反应定势等。
• 假设X与Y呈直线相关,建立回归方程:
yˆabyxx
• 通过求解可知:
byxrx ysy/sx
aybyxx
• 把所求的a和b值代入回归方程,如果已 知某人的测验分数(X),便能对他的效标 分数进行预测。
现在学习的是第24页,共35页
二、预测误差
• 如果我们知道测验的效度系数,我们就 能预测真正的效标分数的范围。
(B)区分法 (D)失误法
现在学习的是第34页,共35页
• 要保证测验具有较高效度,测验本身的 因素要做到( )。 (A)测验材料必须对整个内容具有代表性 (B)测题设计时应尽量避免容易引起误差 的题型(如是非题) (C)测题难度要适中,具有较高的区分度 (D)测验长度要恰当,测题的排列应先易 后
是通过实践来检验效度。如发展量表。
现在学习的是第7页,共35页
内容效度的特性
• 内容效度不具有普遍适用性,它具有内容范围的 特定性和时间的特定性。
• 内容效度与表面效度既区别又联系。
评定主体不同:表面效度是靠外行的表面检查而确立的 ,它不反映测验实际测量的东西,内容效度是专家系统 分析确立的。
• 区分效度法
两个构思不同的测验,其相关为区分效度,如果区分效度低, 则构想效度高;如果区分效度高,则不一定证明构想效度高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、效度的基本原理 二、效度的定义
<一>效度的文本定义:一个量具测出它所要测量的特质的程度。 效度的文本定义:一个量具测出它所要测量的特质的程度。 <二>效度的操作性定义: 效度的操作性定义: 从一个人一次测量的角度来看,效度可以定义为: 1、从一个人一次测量的角度来看,效度可以定义为: V = X -E - I 从某团体一次测量的角度来看,效度可以定义为: 2、从某团体一次测量的角度来看,效度可以定义为: V = S2V/S2X 以上两种效度的操作性定义,实际上也是无法操作的;同时, 以上两种效度的操作性定义,实际上也是无法操作的;同时,对 于量表的编制来说,需要提供的是第二种操作性定义的效度, 于量表的编制来说,需要提供的是第二种操作性定义的效度,根据这 个效度数据,在对理论上属于该团体的某个体进行测试时, 个效度数据,在对理论上属于该团体的某个体进行测试时,可以根据 这个效度数据描述该个体实得分数的有效程度。 这个效度数据描述该个体实得分数的有效程度。
Xv 2
= S S = r
V x
2 2 2
XV
2
XY
= S S
V X
2 2
即效度V
= S S
V X
2 2
பைடு நூலகம்
= r
Xy
2
注意!!!
(信度)R=ST2/SX2 =rX1X2 (效度)V=SV2/SX2 = rXY2
四、效度的类型
<一>效标效度(准则关联效度)对个体特定特质的测定或预测的有效程度。 效标效度(准则关联效度)对个体特定特质的测定或预测的有效程度。 类别: 1、类别: 同时效度; 同时效度;预测效度
思考的问题: 1、有了等值性信度反映试题取样的代表性,为什么还要有内容效度? 2、内容效度与效标效度有何关系?既然有了效标效度为什么还要有内 容效度?
四、效度的类型
<一>效标效度(准则关联效度)对个体特定特质的测定或预测的有效程度。 效标效度(准则关联效度) <二>内容效度:指测验内容对行为范围取样的恰当程度。 内容效度:指测验内容对行为范围取样的恰当程度。 <三>构想效度:指运用量具对特质进行测量所得结果,与人们对该特质的见 构想效度:指运用量具对特质进行测量所得结果, 解的符合程度。 解的符合程度。
1、构成构想 检验编制的量表是否符合人们对所测特质的构成的设想 计算方法: 内部一致性系数, 测验之间的相关, 计算方法: 内部一致性系数, 测验之间的相关,因素分析 容易被误解为:同质信度、分半信度等) (容易被误解为:同质信度、分半信度等) 2、关系构想 检验所编制的量表是否符合人们对所测特质与其他特质 关系的设想 计算方法:相关系数(包括相容设想与区分设想), ),显著性检 计算方法:相关系数(包括相容设想与区分设想),显著性检 多特质- 验,多特质-多方法矩阵 容易被误解为:效标效度、分半信度等) (容易被误解为:效标效度、分半信度等) 3、性质构想 检验所编制的量表是否符合人们对所测特质性质的设想 计算方法:相关法, 计算方法:相关法,显著性检验 容易被误解为:效标效度、分半信度等) (容易被误解为:效标效度、分半信度等)
难度恰当 项目区分度好 设想 测 量 工 具 受随机误差影响小(信度) 受随机误差影响小(信度) 能测出它要测量的特质 效度) (效度) 内容上能覆盖 测试结果与构想相符 测量所测特质的程度
各种构想与相应构想效度的计算方法
注意:构想效度反映的是人们对所测特质的构想而不是对量表的质量的构想。 注意:构想效度反映的是人们对所测特质的构想而不是对量表的质量的构想。
效标的种类:专家评价、已有量表、 2、效标的种类:专家评价、已有量表、实际工作表现或成就等 实际计算: 3、实际计算: <1>相关法: 皮尔逊积差相关),二列相关、 ),二列相关 <1>相关法:rXY(皮尔逊积差相关),二列相关、点二列相关等 相关法 <2>显著性检验 对团体的区分) 显著性检验( <2>显著性检验(对团体的区分) <3>信号检测法 命中率) 信号检测法( <3>信号检测法(命中率) 由于缺乏最有力的效标,因此往往要用多个效标来证明。 由于缺乏最有力的效标,因此往往要用多个效标来证明。
第八讲
经典测量的效度原理
主讲人 莫雷
一、效度的基本原理
基本公设: (X是实得分数 是实得分数, 为随机误差) 基本公设:X=T + E (X是实得分数,E为随机误差) 其中 T=V+I(
V是特质的得分, 是系统误差, V是特质的得分,I是系统误差,V与I相互独立) 是特质的得分 相互独立)
推论:对于一个群体来说, 推论:对于一个群体来说,ST2= SV2+ SI2 即: SX 2 = ST 2 +SV 2 + SI 2
思考问题:用专家评定为效标是否自相矛盾?
四、效度的类型
<一>效标效度(准则关联效度)对个体特定特质的测定或预测的有效程度。 效标效度(准则关联效度)对个体特定特质的测定或预测的有效程度。 <二>内容效度:指测验内容对行为范围取样的恰当程度。 内容效度:指测验内容对行为范围取样的恰当程度。 计算方法: 计算方法:1、专家评定(最常用) 专家评定(最常用) 统计分析: 2、统计分析:一般用复本相关系数为指标
三、效度的实际计算
是无法直接计算, 效度操作定义 V=SV2/SX2 是无法直接计算,但是我们可以推论当 对某团体施行某个测验时, 对某团体施行某个测验时,该测验实得分数与外在效标的相关系数 rXY 的关系。 与SV2/SX2 的关系。 证明: rXY2=SV2/SX2 记XI、YI为第i名被试测验的实得分数与效标得分, 为第i名被试测验的实得分数与效标得分, 为该被试在测验中的特质得分,根据基本假设得: VI为该被试在测验中的特质得分,根据基本假设得:ZXI=ZYI
r
Xv
= = =
∑ (x
(x
1
i
− x )( v N S X S V
1
i
− x)
2
− x )( v
− v )+ (x
− x )( v 2 − v ) + L + ( x N S X S V
i
− x )( v
i
− v )
1 (x1 − x) (v1 − v ) 1 (x 2 − x) (v 2 − v ) 1 (xi − x) (vi − v ) × + × + L + × N N N SX SV SX SV SX SV 1 = Z xi Z vi N 1 由假设知 则原式 Z Yi = Z Vi r Xv = Z xi Z yi = r XY N Q r ∴ r