(完整word版)心理与教育测量重点

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

心理与教育测量
第一章心理与教育测量概论
(一)一般测量概论
1。

测量：依据一定的法则使用量尺对事物的属性进行定量描述的过程.
2. 测量的基本要素：
（1)参照点：
①绝对参照点：以绝对的零点作为测量的起点，如长度测量
②相对参照点：以人为确定的零点为测量的起点，如对地势高度的测量。

（2）测量的单位:
①要有确定的意义，即对同一单位，所有人的理解都是相同的。

②要有相等的价值,即第一个单位与第二个单位之间的距离等于第二个单位与第三个单位之间的距离。

3. 测量的量表：能够使事物的特征数量化的数字的连续体。

①陈名量表——用数字代表事物的成分或用数字对事物经行分类，但该类数字没有数量的意义。

可细分为两种形式，一是命名量表（用数字指代个别事物，如用数字给运动员编号）；二是类别量表（用数字指代事物的种类，如用1、2、3分别代表不同的职业类型)。

其适用的统计方法有百分比、次数、众数和卡方检验。

②顺序量表—-其中的数字不仅能够指代类别，而且能够表明不同类别的大小、等级或事物具有某种特征的程度，它既没有相等距离的单位，也没有固定的测量原点。

适用的统计方法有中位数、百分位数、等级相关系数和肯德尔和谐系数等。

③等距量表——不仅能够指代事物的类别和等级，而且具有相等距离的测量单位.没有绝对的零点，适用的统计方法有平均数、标准差、积差相关系数、等级相关系数以及t检验和F检验.
④比率量表——具有类别、等级和等距的特征外，还具有绝对的零点或固定的原点。

适用的统计方法除
了与等距量表相同外，还与几何平均数、变异系数相同。

(二) 心理与教育测量的性质
1. 心理与教育测量的定义:依据一定的心理学和教育学理论在测验上对人的心理特质和教育成就进行定量描述的过程。

2。

心理与教育测量的量表属于顺序量表的原因：
①从所使用的参照点来说,教育测量和心理测量领域的参照点均为相对零点。

②从所使用的单位来说，教育与心理测量的单位远没有其他测量的单位成熟和完善。

3.标准化需具备的条件：①测验内容的标准化②施测条件的标准化③评分规则的标准化④测验常模的标准化
4.心理与教育测验的种类：
（1)①常模参照测验-—以常模为参照编制的测验（如高考只有百分之几的人可以进入重点大学)
②标准参照测验(目标参照测验)-—以标准为参照编制的测验(如，视力测验、考驾照)
(2)①智力测验-—测量个人的智力（一般认知能力）水平的高低
②能力倾向测验—-测量个人的潜在才能,预测个人的能力发展倾向
③成就测验-—测量个人在接受教育后的学业成
(3）①个别测验——同一主试在同一时间只能测量一个被试
②团体测验——同一主试在同一时间内能够测量许多被试
(4）①难度测验--识别个人能够达到的最高水平
②速度测验-—识别个人做题的最快速度
第二章心理与教育测量简史
1.高尔顿：把统计方法应用到对个别差异资料的分析之中
2.卡特尔:
①首次提出“心理测验”这个术语
②认为心理学只有立足于实验与测量，才能达到如同自然科学一样的准确性
③认为心理测验只有建立普遍的统一标准，并与常模相比较，才能充分地实现其科学价值和实用价值
3.比内：
①1903年，《智力的实验研究》问世,提出了智力的定义,认为智力是高级心理过程，包括推理、判断以及运用已知知识解决新问题的能力
②1904年与其助手西蒙合作完成了世界上第一个智力测验量表-—--比内—-西蒙量表，因此成为了心理测验的鼻祖
4.智力测验的发展：
①最著名的的是推孟于1916年修订的斯坦福—-比内量表。

其中影响最为深远的变动是推孟采用了比率智商的概念来表示智力水平的高低
②第一个团体测验-—陆军甲种测验和陆军乙种测验
③30年代后，瑞文相继编制了瑞文标准推理测验、瑞文彩色推理测验、瑞文高级推理测验
④韦克斯勒舍弃了比率智商，而用离差智商代之，从而克服了比率智商的局限；他编制的智力量表分为言语量表和操作量表两部分
5.能力倾向测验的发展：最初被称为“学业能力倾向测验”，后来进一步扩展到职业咨询、工业部门及军事领域的人才选拔和安置工作领域。

在编制成套能力倾向测验的过程中，因素分析方法起了重要的作用。

6.成就测验的发展:
①20世纪初，桑代克编制了第一个标准化的教育成就测验。

因此而被公推为教育测量的鼻祖。

②1923年，凯利、鲁奇和推孟合作编制了第一个成套成就测验---—斯坦福成就测验
③20世纪30年代后期，在美国出现了跨州、跨区域乃至全国的测验程序
7.人格测验的发展：
①20世纪初叶，出现了自陈人格问卷。

伍德沃斯用自陈问卷法编制了适用于诊断士兵神经症的个人资料调查表；卡特尔编制了卡特尔16种人格问卷；埃森克编制成埃森克人格问卷；美国明尼苏达大学的哈撒韦和莫垦利编制成明尼苏达多项人格调查表。

②另一种技术是投射测验。

罗夏克墨迹测验；哈罗尔编制了以团体方式实施的墨迹测验。

第三章经典测验理论的基本假设
1.心理特质：表现在一个人身上所特有的相对稳定的行为方式
2.测量误差:
（1）含义：在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应（2)种类：
①随机误差--由与测量目的无关的偶然因素引起的而又不易控制的误差，其方向和大小的变
化完全是随机的.例如在进行手枪射击时，新手往往很难控制手臂的轻微摆动。

②系统误差—-由与测量目的无关的变因引起的一种恒定而有规律的效应。

例如，在设计
过程中，尽管射击手非常优秀,每次结果都很一致，但若是枪的准心有点儿毛病,则其射
击结果将会有稳定的偏差。

（3）来源：①测量工具：心理测量量表是否稳定、是否真正测到了我们所要测的东西是测量工具造成误差的两种主要原因。

②测量对象:主要原因是受测者的真正水平是否得到真正发挥。

③施测过程：主要是一些偶然因素（恒定因素较易控制）
3.真分数：
(1)概念：反映被试某种心理特质真正水平的那个数值称作该特质的真分数（简称T分数），真分数是一个在
理论上构想出来的抽象概念，在实际测量中是很难得到的。

（2）数学模型：观察分数（记为X）与真分数(T）之间是一种线性关系，并只相差一个随机误差（记之为
E）。

即X=T+E
（3）假设: ①若一个人的某种心理特质可以用平行的测验反复测量足够多次，则其观察分数的平均值会接近于真分数。

②真分数和误差分数之间的相关为零.
③各平行测验上的误差分数之间相关为零.
(4）推导: S2X =S2T +S2E即在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和。

第四章测量信度
1.概念：测量结果的稳定性程度。

也是一致性,可靠性.
2.定义：①信度（信度系数）是一个被测团体的真分数的变异数与实得分数的变异数之比，
即r XY = S2T /S2X
②信度是一个被试团体的真分数与实得分数的相关系数的平方。

即r XY =ρ2xT
③信度是一个测验x（A卷）与它的任意一个“平行测验”x’(B卷）的相关系数,
即r XY =ρxx’
3.作用:
（1)信度是测量过程中所存在的随机误差大小的反映
(2)信度可以用来解释个人测验分数的意义
①标准误：每个人两次测量的分数之差可以构成一个新的分布，这个分布的标准差就是测量的标准误，
它是此次测量中误差大小的客观指标，有了这一指标，我们就可以对团体中任何一
个人的测验成绩做出恰当的解释。

公式: S E=S X√1—r xx' (S E是标准误，S X是实得分标准差，r xx’是信度）
②置信区间：当测验满足经典测验理论的三大假设时，根据以上估计的测量标准误便可用以下方法构
建测验真分数估计的置信区间：
公式：x - Z C S E ≤T ≤x + Z C S E (x是被试的观测分数，S E为测量标准误，Z C是对应于某个统计检验显著性水平的标准正态分布下的临界值）
注：例题参考P52最上面。

4.信度的估计方法:
（1)重测信度：
①定义——用同一个量表对同一组被试施测两次所得结果的一致性程度。

其大小等于同一组被试在两
次测验上所得分数的皮尔逊积差相关系数：
∑
∑
-
-
-
-
≡
-
-
-
-
)
)(
(
)
(
)
(2
2
y
y
x
x
y
y
x
x
r
xx
（x和是-x第
一次测量的实得分数及实得分数的平均值；y和-
y是第二次测量的实得分数及实得分数的平均值，xx r
是重测信度。

公式不要求记，但要会用）
②使用的前提-—A所测量的心理特性必须是稳定的
B遗忘和练习的效果基本上相互抵消
C在两次实测的间隔期内，被试在所要测查的心理特质方面没有获得更多的学习和训
练
③误差来源-——---A测验本身
B被试方面(个体差异）
C偶发因素干扰
④优缺点—-——————-A能提供测验结果是否随时间而变化的资料，可作为预测被试特定行为的依据。

B易受练习和记忆的影响
⑤意义--———--—-—--A反应的是在测验时间上的等值性
B适用于速度测验与人格测验，不适用于难度测验
（2)复本信度：
①定义—-—A 复本信度--指两个平行的测验测量同一批被试所得结果的一致性程度。

其大小等于同一批
被试在两个副本测验上所得分数的皮尔逊积差相关系数。

（同上面）
B 等值性系数-—两个复本测验是同时连续施测的。

C 稳定性与等值性系数-—两个复本测验相距一段时间分两次施测。

D 平衡设计-—为低效施测的顺序效应,随机地选出一半被试先做A 卷后再做B 卷，另一半被试
先做B 卷再做A 卷.
②使用的前提-—A 首先要构造出两份或两份以上真正平行的测验（即A 、B 卷） B 被试要有条件接受两个测验.
③误差来源---A 测验的两种形式是否等值（是否是平行测验）
B 被试情绪波动，动机变化等测验情景变化、偶发因素干扰。

④优缺点———-——A 代表性强,信度准,避免练习、记忆效应
B 编制复本难，影响积极性，被试容易触类旁通
⑤意义---—--——-A 反应的是在测验内容上的等值性
（3）分半信度:
①定义—-将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。

由于描述的是两半题目间的一致性,所以有时也称内部一致性系数。

②计算—- A 方法与复本信度的类似，但是被试在两半测验上的得分的相关系数只是半个测验的信度，
所以还要用斯皮尔曼—布朗公式矫正:
hh
hh xx r r r +=12（xx r 是两个分数间的相关系数，hh r 是整个测验的信度值） B 上式只有在两半测验分数的变异数（即总体方差）相等时才能使用,否则，就用下面的弗朗那
根公式或卢伦公式.
)1(2222x
b a xx S S S r +-=(2a S 和2b S 分别表示所有被试在两半测验上的得分的变异数，
2x S 表示全体被试在整个测验上总得分的变异数）
22/1x d xx S S r -=（
2d S 表示同一组被试在两半测验上得分之差的变异数，其他与
上式相同) ③使用前提—--A 在只能施测一次或没有复本的情况下使用
B 当一个测验无法分成对等的两半时,不宜使用
C 常用的分半方法有奇偶分半、按题目难度分半等
注：速度测验不适合分半信度
（4）同质性信度：
①定义—A — 也叫做内部一致性系数,是指测验内部所有题目间的一致性程度.所谓一致性，是指所有题
目测的都是同一种心理特质以及所有题目得分之间都具有较高的正相关。

B- 如果一个测验的同质性信度不高，则说明结果可能是几种心理特质的综合反映，所以结果不
好解释。

一种好办的方法就是把一个异质的测验分解成多个具有同质性的测验，再根据被试
在分测验上的得分分别做出解释。

C — 同质性高才是测验测的单一特质的充分条件。

即一些表面上看起来是测量同一种心理特质
的题目，如果其题目间不具有较高的正相关，则不能认为它们具有同质性。

②计算—-克龙巴赫α系数：
A 公式：)1(122x
i S S K K ∑--=α (K 是题目数，2i S 是所有被试在第i 题上的分数变异,2x S 是测验总分的变异）
B 适用范围:不要求测验题目仅是（0、1)记分，可以处理任何测验的内部一致性系数的计算问题，
此外，α值还是所有可能的分半信度的平均值，它只是测量信度下界的一个估计值
C 计算过程和例子：参考P58
（5）评分者信度:
①定义——多个评分者给同一批人的答卷进行评分的一致性程度。

（通常要求成对的受过训练的评分者之间平均一致性达到0.9以上，才算公平。

）
②计算--当评分者人数多于两个时，评分者信度可用肯德尔和谐系数进行估计：
A 公式：()()
N N K N R R W i i -⎥⎥⎦⎤⎢⎢⎣⎡-=∑∑322212（K 是评分者人数，N 是被评的对象数，i R 是第i 个被评对象的水平等级之和）
B 若评分中有相同等级出现,则使用下列公式：()()()
121233222∑
∑∑---⎥⎥⎦⎤⎢⎢⎣⎡-=n n K N N K N R R W i i (n 为相同等级的个数） ③例题及计算方法：参考P60
5.影响测量信度的因素：
（1）被试方面：①单个被试--身心健康状况、应试动机、注意力、耐心、求胜心、态度
②被试团体——整个团体内部水平的离散程度以及团体的平均水平
(2）主试方面：①就施测者而言，不按指导手册规定施测
②就阅读评分者而言，评分标准掌握不一
（3）施测情境:考场环境、设备是否良好、空间宽窄是否恰当等等
(4）测量工具:①试题取样—-利用斯皮尔曼—布朗公式可以预测试题长度与信度的关系：
公式：()'
'11'xx xx zz K K ρρρ-+=（K 为改变后的测验长度与原来长度之比，'xx ρ为原测验的信
度，'zz ρ为测验长度增加为K 倍后的测验信度）
②试题之间的同质性程度
③试题的难度
(5)两次施测的间隔时间：间隔时间越短，信度值越大，反之亦然。

6.提高测量信度的方法：
（1）适当增加测验的长度：①新增项目必须与试卷中原有的项目同质
②新增项目的数量必须适度
(2）使测验中所有的试题的难度接近正态分布,并控制在中等水平
（3）努力提高测验试题的区分度
（4）选取恰当的被试团体
(5）主试者要严格执行实测规程，评分者要严格按标准给分。

第五章测量效度
1. 概念：指一个测验或量表实际能测出其所要测的心理特质的程度。

准确性+有效性。

2. 定义：(1）效度是一个相对的概念：①效度是相对于一定的测量目的而言的
②心理测量只能达到某种程度上的准确
(2）效度是测量的随机误差和系统误差的综合反映
(3)判断一个测量是否有效要从多方面搜集证据:在测量理论中,效度被定义为在一列测量中，与测量目
的有关的真实变异数(由所要测量的变因引起的有效变异）与总变异数(实得变异数）的比率，
通常用
2xy r 表示,其定义为：222x V xy
S S r =(xy r 是效度系数，2V S 是有效变异数，2x S 是总变异数) 3.与信度的关系：
①信度高是效度高的必要而非充分条件，即效度高一定信度高，反之不一定。

（比如,用标准米尺来量身高
是有效也是可信的，但是如果用英文来考一批母语为中文孩子的数学，虽然多次测量的结果可能很一致(即信度高），但是它的测量效度未必高，因为考生的英文水平会影响数学水平的发挥。

）
②测验的效度受它的信度制约。

信度总是大于效度的。

4.效度的评估：
(1)内容效度:
①定义——指一个测验实际测到的内容与所要测量的内容之间的吻合程度。

②测量内容包括-- A欲测的知识范围
B该范围内各知识点所要求掌握的程度
③适用与不适用：A适用于成就测验和某些用于选拔和分类的职业测验
B不适用于能力倾向测验和人格测验
④与表面效度不同：表面效度不能算是一种效度,它不反应测验实际测量的东西，它是外行人对某个测
验从表面上好像是测某种心理特质的一种现象.当外行人认为某测验能有效地测得某种
心理特质时，该测验就被认为有较高的表面效度.一般来说，最佳行为测验（答案有正误
之分、主试与被试目的一致,如高考）往往表面效度高,其他测验则希望表面效度低.
⑤确定方法:A逻辑分析法- —a明确欲测内容的范围,包括知识范围和能力要求两个方面。

b确定每个题目所要测的内容，并与双向细目表(考试蓝图）对照
c制定评定量表，对整个测验的有效性做出总的评价
B统计分析法-—从同一个教学内容总体中抽取两套独立的平行测验,用着两个测验来测
同一批被试，求其相关
C再测法--在被试学习某种知识之前做一次测验，在学过该知识后再做同样的测验（2）结构效度：
①定义：一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指测验分数能够说明心理学理
论的某种结构或特质的程度。

（也就是测验结果是否能够证实或解释某一理论、术语或构想,其解释的程度如何）
②特点：A结构效度的大小首先取决于事先假定的心理特质理论
B当实际测量的资料无法证实我们的理论假设时，并不一定就表明该测验结构效度不高
C不可能有单一的数量指标来描述结构效度。

主要应用于智力测验和人格测验
③估计方法：
A测验内部寻找证据法—-a考查该测验的内容效度
b分析被试的答题过程
c计算测验的同质性信度
B测验之间寻找证据法—-a相容效度法—考查新编测验与某个已知的能有效测量相同特质的旧
测验之间的相关,若相关高,则新测验有较高效度。

b区分效度法-考查新编测验与某个已知的能有效测量不同特质的旧测
验之间的相关，若相关高，则新测验效度不高.
c因素分析法-通过对一组测验进行因素分析，找出影响测验的共同因
素,每个测验在共同因素上的负荷量（即测验与各因素的相关）就是
测验的因素效度，测验分数总变异中来自有关因素的比例就是该测
验结构效度的指标。

C考查测验的实证效度法-a根据校标把人分成两类，考查其得分的差异。

（如，一组被公认性格
外向的人在测验中得分高，一组被公认性格内向的人在测验中得
分低，则说明测验能区分人的内外向特征，进而说明该测验在测
量人的性格内外向方面有较高的结构效度）
b根据测验得分把人分成高分组和低分组，考查这两组人在所测特质
方面是否确有差异。

若差异显著,则结构效度高。

D多种特质-—多种方法矩阵法:参考P74例子
E因素分析法--探索性因素分析和验证性因素分析
（3)实证效度：
①概念:一个测验对于特定情境中的个体的行为进行估计的有效性。

即一个测验是否有效，应该以实践的
效果作为检验的标准。

也叫，校标关联效度。

②分类：A同时效度-校标资料与测验分数同时搜集的
B预测效度-校标资料是在测验之后根据实际工作成绩来确定的
③校标：A概念—衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得我们所感
兴趣的行为。

但我们所感兴趣的行为往往是一个观念上的东西（观念校标），它必须用一个
数字或等级来表达（效标测量)
B特性--多样性、复杂性、特殊性和时间性.所以如果效标测量想要较好地体现观念校标，效标
测量本身就必须是有效的、可靠的、客观和实用。

C常用校标—-学业成就、等级评定、临床诊断、专门的训练成绩.
④确定方法：明确观念校标→确定校标测量→考查测验分数与校标测量的关系
A相关法—计算测验分数与校标测量的相关系数
B区分法—被试接受测验后，让他们工作一段时间,再根据工作成绩（校标测量）的好坏分成两
组.再回头分析这两组被试原先接受测验的分数差异，若差异显著,则说明测验的效度较高。

C命中率-—a正命中率-被测验选出来的人真正被选对的人数的比率
b负命中率-测验所淘汰的人中真正应该被淘汰的人数的比率
c总命中率-测验选对了的人数和被淘汰了的人数之和与总人数之比
D其他—-—a基础率—符合筛选要求的群体在整个人群总体中所占的比率
b 灵敏度—所有真正符合要求的人能被测验鉴别出来的人数的比率
c 确认度—所有不合要求的人能被测验真正淘汰的人数的比率
d 当基础率较低时，选用灵敏度高的测验才能比较有效。

当基础率很高时,选用确认度
高的测量工具比较有效。

e 功利率—使用测验所带来的好处应大大高于使用测验所耗费的时间、精力和经费。

⑤影响效度的因素：A 测验的构成
B 测验的实测过程
C 接受测验的被试
D 所选校标的性质
E 测量的信度
⑥提高效度的方法：A 精心编制测验量表,避免出现较大的系统误差
B 妥善组织测验，控制随机误差
C 创设标准的应试情境，让每个被试都能发挥正常水平
D 选好正确的校标，定好恰当的校标测量，正确使用有关公式。

第六章测验的项目分析
1. 测验项目的难度
（1）概念：被试完成测验项目任务时所遇到的困难程度
(2）计算：
①二分法记分项目的难度（结果只有对或错）
A 通过率：不考虑被试作答是否因为猜测成功的机遇：
N
R P （P 是项目难度，N 是全体被试数，R 为答对该项目的人数) B 极端分组法：被试人数较多时，将被试依照测验总分分为三组，总分最高的27％为高分组()，总分
最低的27％为低分组，分别计算高低分组的通过率,再求难度.
2L H P P P +=或⎪⎪⎭
⎫ ⎝⎛+=L L H H N R N R P 21(H P 、L P 分别表示高低分组的通过率；H R 、L R 分别表示高低分组通过该项目的人数；H N 、L N 分别表示高低分组的人数）
②非二分法记分项目的难度（结果从满分至零多种可能）
max X X P -
=（-X 是被试在某一项目上的平均得分，X max 是该项目的满分）（3）难度水平的确定:取决于测验的目的与测验的性质
①一般的标准化常模参照测验：难度值应尽量接近0。

50
②标准参照测验：A 如果测验目的是为了解被试对某方面知识技能的掌握情况，则可以不必过多地考
虑难度，只要教育者认为是重要的内容就可以选用.
B 如果测验目的是为了选拔和录用人员，就应该讲项目的难度控制在接近录取率左
右
③测验性质不同：速度测验难度不宜太高，难度测验则在0。

50左右.
2.测验的区分度
(1）概念：指测验项目对被试心理品质水平差异的区分能力
（2）范围：介于-1。

00至+1。

00之间.D 为正值则为积极区分，负值为小鸡区分，0为无区分
（3）计算：
① 项目鉴别指数法
A 鉴别指数的计算：当测验总分是连续变量时，从分数分布的两端选出高低分组(同上面的分法一样）,
计算高低分组的通过率,两者之差就是鉴别指数.L H P P D -=
B 极端组的划分:取27％的高分段被试组成高分组,27%的低分段被试组成低分组,其余的46％不作分
析。

若团体人数较少（少于100）则用50%的规则。