测验的信度与效度

合集下载

信效度判断标准

信效度判断标准包括以下几个方面：
信度：信度是指测验的一致性程度，即测验结果的一致性、稳定性和可靠性。

一般来说，信度系数在0.8以上被认为是可靠的。

效度：效度是指测验的有效性，即测验结果是否真实、准确地反映了所要测量的内容。

效度可以分为内容效度、结构效度和验证效度。

内容效度一般由专家评审，结构效度可以通过与其他已知效度高的测验进行对比来评估，验证效度则需要与其他已知效度高的测验进行对比来评估。

在具体实践中，可以采用重测信度法、复本信度法、折半信度法等方法来评估信度，采用专家评审、与其他测验对比等方法来评估效度。

同时，还需要注意以下几点：
测验的设计和编制要科学、合理，避免出现误差和偏见。

测验的实施和评分要规范、准确，保证测验的公正性和客观性。

数据的处理和分析要科学、合理，避免出现误差和偏见。

结果的解释和应用要准确、谨慎，避免出现误导和偏见。

总之，信效度判断标准是评估测验质量的重要指标，只有经过科学、合理的评估和验证，才能够保证测验的有效性和可靠性。

关于调查问卷的信度和效度检验

关于调查问卷的信度和效度检验（一）信度1 、信度的含义测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。

一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。

例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。

在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数( 即实测分数 ) 之比 :22S R xxx ST = 式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。

For personal use only in study and research; not for commercial use从上式可看出 , （ 1 ）信度是指实测值和真值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数(T) 。

由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数(E) 。

从理论上看 , 实得分数由真分数和误差分数两部分组成即 :X=T+ERxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。

（ 2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。

如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。

For personal use only in study and research; not for commercial use信度是任何一种测量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。

第二章教育测验信度和效度

20
第三节效度
一、定义
（一）效度的语词定义
效度（validity），指测验的有效性，即量表
实际测量出其所要测量的特性或功能的程度。
（1）效度的相对性
效度和测验目的相关，“这个测验测量什么东
西，以及它在什么程度上测量到所要测量的东西”。测验结果总有一定的效度，只是高低不同。
（2）效度是测验系统误差和随机误差的综合反应。
11
复本信度（alternate-form reliability）
（1）定义：复本信度是指同一组被试在复本测验上所得结果的相关系数。
复本测验，又称等值测验，是指在性质、内容、题型、题数、难度等方面都一致的两份或多份测验。
（2）计算方法：积差相关系数
（3）说明：
1．两个测验必须是等值的，这点比较困难。
2．测验时间间隔的确定，应综合考虑练习效应、迁移效应来确定，应尽可能短；如果有适当时间间隔，也可称作等值稳定性系数。
3．适用于速度测验，也适用于难度测验，是考察信度最可靠、使用最广泛的方法。
4．有高估信度系数的倾向。
2021/2/22
12
内部一致性信度
一、二分记分法的测验（0，1，对错，有无等）
9
180 52
10 165 45
∑ 2021/2/22
10
身高X 1 170 2 173 3 160 4 155 5 173 6 188 7 178 8 183 9 180 10 165 ∑ 1725
2021/2/22
体重 Y X2
Y2
50 28900 2500
45 29929 2025
47 25600 2209
信度一般以两次测验的相关系数来表示。相关系数代表了两组分数之间的对应程度或关系。

信度、效度、难度、区分度

信度、效度、难度、区分度一、信度(稳定性)信度是表明评价工具质量的又一重要指标，主要指测验结果的前后一致性程度。

(多次测量的一致性)根据影响信度的不同因素，可以把信度分为以下几类，信度指标通常用相关系数表示。

1.再测信度用同一种测验在不同时间里两次测验同一组学生，然后统计两次测试成绩的相关，求得的相关系数即为再测信度系数。

信度系数的最大值为1，表示再测信度最高;最小值为0，表示再测信度最低。

2.分半信度将一个测验分为等质量的两半，求这对半分的两半测验所得分数的一致性程度，即为分半信度。

3.评分者信度把相同的测验结果提供给不同的评分者打分，若不同评分者给的分数大致相同，说明该测验有较高的信度。

二、效度(准确性)效度是指一个测验或测量工具能真实地测量出所要测量的事物的程度。

一次测验是否有效，主要看其是否能准确地测量所要测量的东西。

测验的效度有多种类型，主要有内容效度、构想效度和预测效度。

根据不同的需要，一个测验可以采用一种或几种效度。

1.内容效度所谓测验的内容效度，是指它从需要测验的教材中提取样本的适当程度。

内容效度的高低，取决于测验题目的代表性，要看选出的题目能否包含所测量内容范围的主要方面，并使各方面题目比例适当。

2.构想效度所谓测验的构想效度，是指一个测验能够测量理论上的构想或内在心理特性的程度。

3.预测效度所谓测验的预测效度，是指一个测验能够预测学生将来某种特定行为或表现的程度。

预测得越准，效度就越高。

例：在小学低年级的某次测验中，由于数学试卷中试题的文字表述过于复杂，学生不能完全理解题干的要求，也不能正确的解答题目，以至于该试卷无法正确测量学生数学学习的状况。

据此可以判断这次数学测验是( )A.高信度的B.低信度的C.低效度的D.高效度的【答案】C。

解析：信度强调某一次测验前后多次测量所得结果的一致程度。

效度强调某一测验的测量结果的有效性和准确性。

该试卷无法准确测量学生学习的状况，说明这次教学测验是低效度的。

第4章测量的信度与效度

2 2 X T2 E
实得分数的方差等于真分数的方差与误差方差之和。
调研人员应运用所掌握的统计知识，分析其是属于系统误差还是属于随机误差。系统误差会使调查结果有误，所以应尽量避免。随机误差可通过提高样本代表性、增大样本量来减少。
信度一般规定是：真分数的方差在总体方差中所占的比重，即信度系数：
当题目间的相关系数越大时，α系数也会越大。当题目数目n越多时，S
2 H
n 值越大，越接近于0， 2 SH n 1
2 S i
越接近于1，故α系数也会越接近于1。
要做信度分析须先检查每个题目是否都是同方向的，即都是正面问法，反向问题需要做处理后才可以加入分析。
在计算α系数时，应该注意有些调查量表测量的内容包含几个领域，这时宜分别计算各个领域的α系数。克朗巴哈α系数适用于项目多重计分的测验数据或问卷数据，可以用该系数测量Likert量表的信度。在基础研究中，信度至少应达到0.8才可接受；在探索性研究中，信度只要达到0.7就可以接受；在旅游调查测量实践中，信度只要达到0.6即可接受。 α系数通常与量表题目数量有关，题目数量越多，α系数就越大。
理想（甚佳，信度佳（信度高）很高）非常理想（信度非非常理想（甚佳，常好）信度很高）
二、克朗巴哈 α系数的手工计算
以一份有8个题项的量表为例，8个题项均为正向题，受试样本数有6位，采用Likert 5点量表填答，获得调查结果如下表：
题号样本
量表试题
01 5 5 5 5 5 4 02 1 1 2 1 1 1 03 2 2 2 2 2 1 04 5 4 5 5 5 5 05 2 3 3 3 3 3 06 5 5 5 5 5 4 07 4 5 5 5 5 4 08 3 2 2 3 2 2 总分 27 27 29 29 28 24

如何区分信度、效度

如何区分信度、效度、区分度一、效度效度是指一个测验或测量工具能真实地测量出所要测量的事物的准确性。

效度强调的是准确性。

例如：1、老师想要测量小学二年级学生的语文水平如何，拿来一张适合二年级水平的试卷进行测试，说明该测试效度较高。

2、老师想要测量小学二年级学生的语文水平如何，但拿了三年级的英语试卷，说明该测试的效度低。

二、信度信度主要指测验结果的前后一致性程度。

也就是说多次测量结果相似或者相近。

多次测试结果稳定性的体现。

例如：1、老师拿同一张试卷测试所教两个班级，测试结果相似，那么说明该测试信度较高。

2、小明早上起来用家里的电子秤称体重为45公斤，中午也是59公斤，说明该测试的效度低。

效度和信度主要区别：效度是否高主要测量工具能真实地测量出所要测量的事物的准确性，而判断正确的标准就是测量工具是否可靠，比如：老师想要测量小学二年级学生的语文水平如何，但拿了三年级的英语试卷，这个测量工具—试卷就是不可靠的，因为三年级的英语试卷不能准确测量出二年级的语文水平，测量工具不可靠，说明准确性不高，从而效度低。

信度主要的多次测量做对比，因此它测量的结果常常是两个以上，比如上述例题中，两个平行班级的最终测试结果、早上和中午的体重数值，这都是有两个结果，这样才能进行对比，通过对比来判断测量结果的相似性，如果相似性程度高，说明信度高，如果相似性程度低，说明信度低。

三、难度难度指测验的难易程度。

在教学测量中，通常用答对或通过测验的人数比例作为难度值。

四、区分度区分度有时也称鉴别力，主要指测验对于不同水平的被试加以区分的能力。

一般来说，要有区分度，要满足以下两个条件：1、在试卷题型分布中：包含有不同难度的试题，才能提高区分度，拉开考生得分的差距；2、从试卷整体的难易成都上来看，中等难度的试卷，比较能拉开区分度。

考题预测：。

效度和信度如何区分

信度与效度的区分1.效度：指的是一个测验能否真实准确地反应所要测量事物的程度，简单来说，可以理解为某测验测量准确与否的问题，因此也是衡量一个测验优劣的最重要的指标。

效度的内涵及其地位考试中也常以内涵型或地位型单选题、判断题形式考察，需要大家能够理解识记。

2.信度：同一测验多次测量，测量结果的一致性、稳定性与可靠性程度，这一概念内涵尤其是其中的可靠性，考试中常被归为效度以判断形式考察，需要重点掌握。

同时，考试中经常考察测验长度(即测验题量的多少)对测验信度的影响，因此二者关系也需要大家掌握。

一般来说，增加同类题目的测验长度，增加题目的代表性，是提高信度的一个有效办法，当然也要避免过犹不及的现象，测验题目过长反而会干扰测验信度。

效度vs信度关于效度和信度的关系，也是常考的一个难点：信度高的，效度不一定高;效度高，信度一定高。

下面将通过一个生活中的例子帮助考生理解。

小明用一个坏了的体重计测体重，多次测量得到的结果都是20公斤，而小明的实际体重应该是60公斤。

测量得到的结果一致性很高，说明这个测验的信度高。

但这个体重计却并没有准确地测出小明的真实体重，说明这个测验的效度低。

总结一下就是，当一个测验信度高的时候，效度不一定高。

如果小明用一个正常的体重计，多次测量得到的结果都是60公斤，也就是小明真实的体重。

这次测验准确测出了小明的体重，且结果保持一致，也就是说效度高、信度也高。

在一定时间内，真实结果一般是保持相对稳定的，因而只要能测出真实结果，多次施测结果就会保持较高的一致性，即效度高、信度一定高。

理解了信度和效度的内涵，大家就可以去推断二者的关系，主要包括以下几种：1.高效度一定高信度——测量准确即可八正测量结果的稳定和可靠2.高信度不一定高效度——测量结果稳定并不能保证结果的准确，如拿高三数学卷子测试小学三年级孩子的数学水平，测试多次结果均为0.信度高，但并不能说小学三年级孩子没有数学能力。

3.低效度不一定低信度——道理与高信度不一定高效度一致。

效度信度

效度信度信度是指使用同一试卷对考生重复测验时，或两个平行试卷对考生测验时，所得测验分数的一致性和稳定性程度。

效度是指考试有效性或正确性的质量指标，考试效度的高低反映着考试是否达到它的预定目的，是否考了要考的内容。

难度指试卷(题)的难易程度。

一般用试卷(题)的得分率或答对率表示，所以难度事实上是容易度或通过率。

其值在0,1之间，数值越大，说明试卷(题)越容易。

区分度是指试题对不同考生的知识、能力水平的鉴别程度。

如果一个题目的测试结果使水平高的考生答对(得高分)，而水平较低的考生答错(得低分)，它的区分能力就很强。

题目的区分度反映了试题这种区分能力的高低。

一般认为，区分度的数值达到了0.3，便可以接受;低于0.3的题目，区分能力差。

高考的性质决定了高考试题首先要保证信度，缺少信度或信度较低都无法向几百万考生交代，无法向考生家长交代，无法向社会交代。

从这一角度看高考试题所考查的一定是确定性和稳定性的内容，对于现在还没有被确定的内容或者说有争议内容是不能作为高考命题依据的。

你知道了吗,复习时，可不要让这样的问题浪费你的精力呀～同时要注意，有些题目看起来让你回答的是假设和猜想，你可不要忘记高考试题的确定性，不要得意忘形呀，还是老老实实从生物学的基本原理来回答，只有这样你才能得分。

OK～高考的效度要求高考试题是有效和正确的，考查的是考纲规定的内容。

你想想牵动着百万考生、千万家庭、亿万人员，如果哪位命题大人在命题中出了错误或者超出了考试要求，会怎么样呢,哪他可就大了，他将成为千夫所指，这样的事情是每一位命题人都不会干的。

鉴于此，我们的复习一定要紧紧盯住考试纲要，对考试纲要要求的内容理解、记牢，让它扎根心田;对于违背考试纲要或超出纲要要求的内容，则不要理睬;一些脑筋急转弯、文字游戏类的问题就让它见鬼去吧测试信度(test reliability)也叫测试的可靠性，指的是测试结果是否稳定可靠。

也就是说，测试的成绩是不是反映了受试者的实际语言水平。

信度与效度（ReliabilityandValidity）

信度与效度（ReliabilityandValidity）信度（Reliability）信度（Reliability）即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。

信度指标多以相关系数表示，在实际应用中，信度的估计和分析是从几个方面根据不同的情况分别处理的，大致可分为三类：即从稳定性(stability)、内在一致性(internal consistency)和等价性(equivalency)三个方面来分析测量的信度。

信度分析的方法主要有以下四种：1、重测信度法这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相关系数。

显然，重测信度属于稳定系数。

重测信度法特别适用于事实式问卷，如性别、出生年月等在两次施测中不应有任何差异，大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。

如果没有突发事件导致被调查者的态度、意见突变，这种方法也适用于态度、意见式问卷。

由于重测信度法需要对同一样本试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

2、复本信度法复本信度法是让同一组被调查者一次填答两份问卷复本，计算两个复本的相关系数。

复本信度属于等值系数。

复本信度法要求两个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到这种要求，因此采用这种方法者较少。

3、折半信度法折半信度法是将调查项目分为两半，计算两半得分的相关系数，进而估计整个量表的信度。

折半信度属于内在一致性系数，测量的是两半题项得分间的一致性。

这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。

4、α信度系数法Cronbach α信度系数是目前最常用的信度系数，评价的是量表中各题项得分间的一致性，属于内在一致性系数。

这种方法适用于态度、意见式问卷（量表）的信度分析。

信度和效度名词解释

信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。

一般多以内部一致性来加以表示该测验信度的高低。

信度系数愈高即表示该测验的结果愈一致、稳定与可靠。

例如，用同一个量表对同一组被试在不同时间进行测量，如果每次测量结果都很相近，就说明这个量表的信度较高。

2. 信度的类型- 重测信度：用同一种测验，对同一组被试者，前后施测两次，再根据被试者两次测验分数计算其相关系数，即得重测信度。

它反映了测验跨时间的稳定性。

例如，在一个月内，对同一批学生使用相同的智力测验进行两次测试，两次测试结果的相关性就是重测信度。

- 复本信度：复本是内容、形式、难度等方面与原测验相似的测验。

复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。

有A、B两套英语水平测试题，它们在题型、难度等方面相似，对同一组学生先进行A卷测试，过一段时间再进行B卷测试，然后计算两次成绩的相关系数就是复本信度。

- 内部一致性信度：主要反映的是测验内部题目之间的关系，表示测验能够测量相同内容或特质的程度。

例如，在一个包含多个项目的人格测验中，内部一致性信度高意味着各个项目之间测量的是人格的同一个方面，常用的计算方法有克伦巴赫α系数等。

- 评分者信度：用于衡量不同评分者对同一组被试评分的一致性程度。

在一些主观性较强的测验中，如作文评分、面试评分等，评分者信度就非常重要。

如果不同评分者对同一篇作文或同一个面试者的评分比较接近，那么评分者信度就较高。

3. 影响信度的因素- 被试样本：被试样本的同质性（相似性）程度会影响信度。

如果被试样本的同质性高，信度可能会较低，因为他们在测验所测特质上的差异较小；反之，异质性高的被试样本可能会使信度较高。

例如，在一个只针对高智商学生的智力测验中，由于学生的智商都比较高且接近，可能会导致信度系数较低。

- 测验长度：一般来说，测验的题目数量越多，信度越高。

因为较长的测验能够更全面地测量被试的特质，减少随机误差的影响。

测验信度效度

测验实施中的干扰，被试因素，增加测验误差，降低测验效应。
2）测验施测的样本性质，样本同质性越高，效度越低。
不同团体对同一测验反应可能不同；同一测验，效度团体性质不同；样本团体的异质性 3）效标的性质效标的性质：若其它条件一样，所测量的行为或心理特质与效标行为或特质越相似，效度系统就越高
信度和效度的关系
3）测验的难度测验的难度：测验难度对信度有间接影响。对于人格测验、兴趣、态度、价值观等测验，不存在难度问题。从理论上说，只有难度水平为50%时，才能使测验分数分布范围最大，求得的信度也最高。 4）测量的时间间隔测量的时间间隔：时间间隔只对重测信度和不同时测量的复本有影响，时间越短信度值越高。
信度的作用和信度的作用和意义作用作用：1）解释预测个人分数的意义作用 2）解释真实分数与实得分数间的关系 3）确定测验好坏的一个指标；最理想 r=1.00 意义：1）信度系统为样本测验分数的总方差中有意义 1 多少比例是真分数方差，也就是测验的总变异中真分数造成的变异占百分之几2）测量的标准误是有多大可能性真实分数在某一分数范围内。并且可以预测实得分数再测时可能的变化情况。
影响信度的因素
1）样本特征样本特征：样本团体得分分布的影响，样本越分散信度越高；样本团体异质性的影响，异质性越高信度越高；样本团体平均能力水平的影响，平均能力越低信度越高 2）测验的长度测验越长题目越多，测验的内容取样就越有代测验的长度：
表性；测验越长被试的猜测因素影响越小，信度就高。
或一段时间后被试的行为表现程度
常用效标：常用效标：学业成就，临床诊断，实际工作表现，特殊训练成绩，效标团体比较，先前有效测验，等级评定。
（4）表面效度）它是一个测验看起来好像是测量所要测的东西的程度，不是效度，不反映测验正测量的东西，只是外行人的一种评价。

测量的信度与效度

信度的评估方法
1 2
重测信度法
通过在不同时间对同一对象进行重复测量，计算两次测量结果的相关系数，以评估信度。
复本信度法
使用多个测量工具对同一对象进行测量，计算各测量工具之间的相关系数，以评估信度。
3
内部一致性信度法
通过分析测量工具内部各部分之间的相关性，计算内部一致性系数（如Cronbach's Alpha系数），以评估信度。
04 测量误差
随机误差
定义
随机误差是由于一些随机因素引起的测量结果的不确定性。
特点
随机误差的大小和符号都是随机的，无法预测和控制。
示例
测量时环境的微小变化、测量仪器的微小波动等都可能产生随机误差。
系统误差
定义
系统误差是由于测量系统本身存在的误差或测量条件不满足要求而引起的测量结果偏差。
数据分析方法
数据分析方法的选择和运用，也会对效度产生影响。
03 信度与效度的关系
信度是效度的必要条件
信度是指测量的一致性，即多次测量结果之间的相符程度。如果一个测量工具缺乏信度，那么它的测量结果会不稳定，无法为决策提供可靠依据。因此，信度是效度的必要条件，没有信度就无法保证效度。
信度的评估方法包括重测信度法、复本信度法、Cronbach's Alpha系数法等，通过这些方法可以评估测量工具的一致性和稳定性。
效度是信度的充分条件
效度是指测量的准确性和有效性，即测量结果是否真实反映所需测量的内容。如果一个测量工具具有效度，那么它的测量结果是准确的、有意义的，能够为决策提供可靠依据。因此，效度是信度的充分条件，有了效度可以进一步确认信度。
效度的评估方法包括内容效度法、结构效度法、验证效度法等，通过这些方法可以评估测量工具的准确性和有效性。

统计学中的信度与效度

统计学中的信度与效度在统计学中，信度和效度是两个重要的概念，用于评估测量工具的质量和可靠性。

信度指的是测量工具的稳定性和一致性，而效度则是测量工具是否能够准确地衡量所要测量的概念或变量。

本文将详细介绍信度和效度的概念、评估方法以及其在实际研究中的应用。

一、信度的概念和评估方法1. 信度的概念信度是指测量工具在不同时间、不同场合或不同评分者之间的一致性和稳定性。

一个信度高的测量工具应该在不同情况下得到相似的结果，即测量结果应该是可靠的。

信度是评估测量工具的内部一致性和稳定性的重要指标。

2. 信度的评估方法常用的信度评估方法包括重测信度、等价形式信度和内部一致性信度。

（1）重测信度：重测信度是通过对同一样本在不同时间或不同场合进行两次测量，然后计算两次测量结果之间的相关系数来评估测量工具的信度。

试卷的难度、区分度、信度与效度

5
试卷的效度
效度是指考试有效性或正确性的质量指标，即是否考了要考的内容，试卷难度、区分度是否适宜，考试最终是否达到了它的预定目的等。
测试效度(test validity)亦称测试的有效性，指一套测试对应该测试的内容所测的程度。也就是说，一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。
3
试卷的信度
信度是指使用同一试卷对考生重复测验时，或两个平行试卷对考生测验时，所得测验分数的一致性和稳定性程度。信度除了要说明成绩的真实性之外，还要说明题目涉及的内容与教学的相关程度。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。
常用Cronbach’s alpha系数：
Cronbach ' s
内容效度（content validity）
经验效度（empirical validity）
指测试卷是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求，即测试的代表性和覆盖面的程度。
经验效度是一种衡量测试有效性的量度，通过把一次测试与一个或多个标准尺度相对照而得出
D vH vL SDp
题型
计算公式
单个选择题区分度
D=2（高分组平均分-低分组平均）平均分）/试卷总分
注：前27%为高分组，后27%为低分组；区分度（D）的取值范围介于-1.00至+1.00之间。通常D为正值，称为积极区分；D为负值称为消极区分；
D值为0称为无区分作用。具有积极区分作用的试卷，其D值越大，区分的效果越好。
题型客观题主观题
整份试卷
计算公式
P=试卷答对人数/考生数 P=试卷平均得分/满分
P=（高分组难度值+低分组难度值）/2 注：前27%为高分组，后 27%为低分组

心理学测验的信度与效度

心理学测验的信度与效度
测验的效度指的是测验的正确性和有效性。

换言之，效度指的是测验能在多大程度上实现测验的目的。

效度是科学测验工具最重要的质量指标。

能测出来想测量东西的程度，则效度高;测不出来，则效度低。

例如：想要测量小明的身高，测量工具是秤，那么，测量不出想要测量的东西，则效度低。

测验的信度又叫做测验的可靠性，指的是测验的一致性程度，即多次测验结果要保持一致。

信度指标通常以相关系数表示，即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标，成为信度系数。

例如：想要测量小明的性格是什么样的，测验结果发现，第一次测验是内向，第二次测验是外向，第三次测验是中性的，那么它的信度比较低。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

的測量 • 折半信度（split-half reliability）：測驗題目依題目的單雙數或其他方法分成兩半，計算受測者在兩半測驗上的分數的相關係數。
– 優缺點？
信度的類型
• 評分者間信度(inter-rater reliability)：
– 不同的評量者的觀察、紀錄、評分的一致性。 – 傳統：相關係數、同意百分比法 – 近代：類推性理論

反映測量工具本身內容廣度的適切程度，強調測量內容(教材內容或預期的行為)的廣度、涵蓋性與豐富性，以做為外在推論的主要依據。針對測量工具的目標和內容，以系統的邏輯方法來詳細分析，又稱為邏輯效度（1ogical validity）表面效度（face validity），指測量工具在外顯形式上的有效程度限制：出於邏輯判斷，缺乏實證的統計數據評估指標，需以判斷法來進行效度評估

實徵法（gathering

根據具體客觀的量化指標來進行評估
效度的類型

內容效度（content validity）效標關聯效度（criterion-related validity）建構效度（construct validity）
內容效度
（content validity）

內容效度
• 信度並非「全有或全無」，而是程度的問
題。若多次重複測量的結果都非常接近，則說明該評量結果信度高;反之，若各次評量結果的變異大，則信度低。
• 與物質、生理特徵的測量相較，心理測驗
的測量精確度較低。 • 誤差來源
– 個人狀況(身體不適、大意) – 題目本身的合宜性(太難、太容易) – 測驗情境的影響(實施、計分的錯誤)
0 2 1 1 2 0 1 1 1 9 11 18.3
2 0 2 1 1 1 0 0 1 8 10 16.7
1 1 1 2 1 1 1 0 1 9 14 23.3
1 2 1 1 2 2 1 1 1 12 15 25.0
0 2 1 1 1 1 1 0 1 8 10 16.7
4 7 6 6 7 5 4數與真正分數
• 實得分數(X)=真正分數(T)+誤差分數(E) • 實得分數變異數(S2X)=真正分數變異數
( S2T)+誤差分數變異數(S2E )
• 信度變異= S2T/ S2X
信度的類型
信度的類型
• 再測信度（test-retest reliability）
– 係指以同一種測量工具，對同一群受試者，前後測驗兩次的相關係數。又稱穩定係數。通常時間越長，再測信度越低 – 常見於：智力、性向、人格等測驗 – 通常個別化診斷測驗信度係數須達.90，團體測驗為.80，篩選測驗為.60 – 優缺點？
效標關聯效度意義
（criterion-related validity）

效標關聯效度測驗分數與外在效標之間的一致程度外在效標：測驗所要測量的某些行為或特質的代表量數又稱實證效度、統計效度。以測驗分數和特定效標（criterion）之間的相關係數，表示測量工具有效性之高低。個別測驗效度係數小於.70，團體測驗效度係數小於.60，就需要謹慎地解釋
4 7 6 6 7 5 4 2 19
6.7 11.7 10.0 10.0 11.7 8.3 6.7 3.3 31.7
60 100
提高內容效度的方法

列出教材內容各項重點與所要測量的學習結果或行為各項教材重點和學習結果要以相對的重要性來加權依據雙向細目表來編製測驗，所編製的測驗越符合細目表各細格所佔的比重，則內容效度越高。
信度的類型
• 複本信度（a1ternate-form reliability）
– 同一群受試者接受兩種複本測驗的得分之相關係數。 – 複本常見於團體化測驗，可相互替代使用(例如前後測)，使用便利 – 複本測驗需要在內容、型式、題數、難度、測驗指導與時間等都需要與原測驗相等， – 主要誤差來源：內容取樣、時間間隔、練習效果、學習遷移 – 優缺點？
內容效度的判斷方式

專家效度雙向細目表

表格左方表示教學所欲達成的目標，上方表示教材內容範圍，並逐一檢視每一試題以考驗整份測驗之內容效度
雙向細目表
題數行為目標知識理解應用分析綜合評鑑情意技能簡答題總題數分數百分比
細胞能量代謝光合作用
內容範圍
呼吸作用生物分子總題數分數百分比
影響信度的因素
• 影響信度的關鍵因素是測量誤差，可以減低誤差的方法， •
即能夠提高信度。 – 基本原理：中央極限定理、測量標準誤、共變量的計算影響信度的因素 – 受試者因素（如受測者的身心健康狀況、動機、注意力、持久性、作答態度等變動） – 主試者因素（如非標準化的測驗程序、主試者的偏頗與暗示、評分的主觀性等等） – 測驗情境因素（測驗環境條件如通風、光線、聲音、桌面、空間因素等皆有影響的作用） – 測驗內容因素（試題取樣不當、內部一致性低、題數過少等） – 時間因素
效度
效度的意義

效度的意義
測量的正確性，指測驗或其他測量工具確能測得其所欲測量的特質或功能之程度測量的效度愈高，表示測量的結果愈能顯現其所欲測量對象的真正特徵

評估效度的方法

判斷法（informed

judgment）
測量特性與質的評估
of empirical evidence）
信度與效度

以打靶為例

信度(reliability)

測驗資料的可靠性測驗結果的真確性

效度(validity)

信度
信度的意義
• 測量的一致性(就內容而言)或穩定性(就時
間而言)，幾次測驗結果是否一致的程度 • 範例
– 一天之內以同一磅秤多次測量某人體重 • 結果一：大致相同→測量結果可靠 • 結果二：有顯著性的差異→測量結果不可靠
信度的類型
• 內部一致性係數（coefficient of internal consistency）
– 反映測量工具內部同質性、一致性或穩定度。同質性越高，代表量表試題是在測量相同的特質。常用方法有： – 方法 • 庫李(KR20)(1937)適用於二分變數(對錯)的測量 • Cronbach’s α(1951)適用於多元尺度變數(多元計分)