测量学重点

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

测量学重点
第一章心理与教育测量概论
一、定义：根据一定的法则使用量尺对事物的属性进行定量描述的过程。

二、基本要素：
·参照点：测量前测量对象的数量的固定原点，分为绝对参照点和相对参照点
·单位：具有确定的意义、具有相等的价值
三、量表：能够使事物的特征数量化的数字的连续体就是量表。

斯蒂文斯将量表分为四种：
·称名量表：只用数字代表事物的成分或者分类。

适合使用百分比、次数、众数和卡方检验·顺序量表：数字还可以表明同类别的大小等级或事物具有某种特征的程度。

适合使用中位数、百分位数、等级相关系数、肯德尔W系数
·等距量表：具有相等距离的测量单位，可以进行加减运算。

适合使用算术平均数、标准差、积矩相关系数、t/F检验等
·比率量表：具有绝对的零点或固定的原点。

适合使用几何平均数、变异系数等
心理与教育测量的量表属于顺序量表
四、编织一个测验需要具备四个条件，包括行为样本、标准化、难度或应答率、信效度
其中标准化包括了如下条件：
·内容的标准化
·施测条件的标准化：相同测验情境、相同指导语、相同测量时限
·评分规则的标准化
·测验常模的标准化
五、心理测验的种类：
·基于对象：智力测验、能力倾向测验、成就测验、人格测验
·基于测量方式：个别测验、团体测验
·基于测验内容表达和反应形式：纸笔测验、操作测验
·基于测验功能：成就与预测、难度与速度、描述与诊断
六、心理测验的功能：人才选拔、人员安置、心理诊断、描述评价、心理咨询
七、**心理与教育测量工作者的道德准则**
·测验的保密和控制使用：介绍应仅限于破除神秘感、介绍一些基本的技术和方法、熟悉程序和手续以破除紧张和焦虑。

测验人员的资格：心理专业本科以上学历者、在专家指导下具有两年以上使用经验者、经过专业培训并获得资格认定证书者。

·测验中个人隐私的保护：只有在必要时才询问个人隐私，保证为受测者保密并严格遵守承诺，凡测验中必须涉及的个人隐私应事前征得受测者或其他有关人员的同意。

第二章心理与教育测量简史
“19世纪80年代是高尔顿的十年，90年代是卡特尔的十年，20世纪头十年是比内的十年”——波林
一、早期探索：
·高尔顿
1869-《遗传的天才》提出能力由遗传而来，总体服从正态分布，且可测量，测量的方式是利用感觉-运动机能的量化信息
1884-在伦敦国际博览会成立“人类测量实验室”，后迁至伦敦南圣顿博物院
发明高尔顿棒、高尔顿笛，是评定量表、问卷法和自由联想法的先驱
最重要的贡献是把统计方法应用到了对个别差异资料的分析之中
·卡特尔
师从冯特，是高尔顿的基友
1890-在《心理》上发文，首次提出“心理测验”这个术语
认为心理学只有立足试验和测量才能有自然科学一样的准确性，
心理测验只有建立普遍的统一标准并与常模比较才能充分实现其科学价值和实用内涵
·比内
与其助手西蒙合作完成了世界上第一个智力量表：比内-西蒙量表，史称1905年量表，后1908和1911两次修订
二、智力测验的发展
1911-斯滕提出用心理年龄和实足年龄的比值来表示聪明程度
1916-推孟在修订的斯坦福-比内量表中提出了“比率智商”，从此“智商”风靡全球
1917-陆军甲种测验（文字）和陆军乙种测验（非文字），均为团体测验。

30年代-锐雯推理测验（标准、彩色、高级）
40年代后-韦克斯勒（儿童、成人、幼儿）：放弃比率智商而用离差智商代替、分言语和操作两部分
第三章经典测量理论
一、测量的误差及其来源
含义：由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。

种类：系统误差、随机误差
来源：测量工具、被测对象、施测过程
二、CTT数学模型
观察分数X，真分数T，随机误差E
X=T+E
·E(X)=T
·Cov(X,E)=0
·Cov(Ei,Ej)=0，其中i≠j
故D(X)=D(T)+D(E)
·平行测验：若对任意被试，其得分X1和X2同时满足CTT 的数学模型和三大假设，且真分数相等T1=T2，方差齐性D(E1)=D(E2)，称为严格平行的测验；若其真分数间仅相差一个常数T1-T2=c12，则
称为基本等价的测验。

注意：系统误差的变异包含在D(T)中，故D(T)=D(V)+D(I)，其中I 是系统误差
第四章信度
一、定义：测量结果的稳定性程度信度系数的等价定义：
·被试团体真分数与实得分数的方差的比：22x
T
xx S S r =
·被试团体真分数实得分数相关系数的平方：2
xT xx r ρ=
·测验x 与其任意平行测验x ’的相关系数：'xx xx r ρ=(这个有点问题)
二、信度的作用
·信度是测量过程中所存在的随机误差大小的反应·信度可以解释个人测验分数的意义：
标准误由信度系数的定义1和CTT 基本假设直接得到：'1xx E r S -= 故可以利用正态分布构建置信区间：E c S Z x T ±∈
·信度可以帮助进行不同测验分数的比较：
当满足CTT 假设且方差齐性（实得分数的标准差均为S ）时，差异的标准误：
yy xx yy xx Ey Ex Ed r r S S r S r S S S --=-+-=+=2)1()1(222
2
故同样转换为置信区间进行参数估计。

三、信度的估计方法：以下方法适合常模参照测验1、重测信度：
定义：使用同一量表对同一组被试施测两次结果的一致性程度，表征跨时间的稳定性。

条件：心理特性必须稳定、遗忘和练习效应基本抵消、重测的间隔内被试没有获得更多的学习训练
2、复本信度：
定义：两个平行测验测量同一批被试的结果一致性，主要反应题目的差别。

其中如果间隔较长，那么这种复本信度称作等值性与稳定
性系数，其值最低，是最严格的检验。

条件：构造出真正平行的测验（包含内容、数量、形式、难度、区分度等指标）、被试要有条件接受两个测验。

3、内部一致性信度：不适合用于速度测试
·分半信度：将一个测验分成两半后被试在这两半上所得分数的一致性程度。

信度系数的修正：
hh
hh
xx r r r +=
12 当分半方差不等时：
222
221)1(2x
d
x b a xx S S S S S r -=+-= 很容易发现这两个公式分别是4.22斯皮尔曼-布朗通式和4.13克隆巴赫α系数在K=2时的
特殊形式，说明α系数的方法本质上是将测验分到最小的元素（题目）的“分K 信度” 条件：只能施测一次或没有复本的时候使用，测验必须可对半分。

·克隆巴赫α系数：测验内部所有题目的一致性程度。

)1(1212
x
K
i i
S S
K K
∑=--=
α 分子代表了在每一题目上的方差和，当每一题都为伯努利分布时（不要求同分布），退化为K-R21和K-R20公式。

4、评分者信度
多个评分者给同一批人答卷进行评分的一致性程度。

用肯德尔和
谐系数估计：
12
)
()(123
322
2∑
∑∑---
-
=n n K N N K N R R W i i 当被评分对象大于7，用卡方检验X 2=K(N-1)W ，df=N-1
四、信度的影响因素
·被试：单个被试的身心状况、动机、注意耐心等，团体被试的平均水平和离均水平。

·主试：测验者是否按规定，评分者是否标准一致。

·施测情境：环境因素
·测量工具：试题取样、难度、试题间的同质性程度。

·间隔时间
五、提高信度的方法
·增加长度：注意新项目必须与原项目同质，数量适度。

·试题难度接近正态分布，并控制在中等水平·努力提高试题区分度·选取恰当的被试团体，提高测验在各同质性强的亚团体上的信度·主试者严格执行流程，评分者严格按标准给分，场地按要求布置第五章效度
一、定义：一个测验或量表实际能测出其所要测的心理特质的程度，注意：
·效度是相对的概念：效度相对于一定测量目的而言，心理测量只能达到某种程度的准确。

·效度是随机误差和系统误差的综合反映·判断测量是否有效要从多方面搜集证据
222x V
xy
S S r （注意平方）
二、效度和信度的关系：
·信度高是效度高的必要非充分条件·效度受信度制约：r 2xy ＜rxx
三、效度的估计方法
1、内容效度
定义：测验项目所涉及内容对欲测内容范围的代表性程度。

适用于成就测验、选拔和分类的职业测验，不适用于能力倾向和人格测验。

要想获得较高的内容效度，欲测量的内容范围必须定义清楚，界限分明。

测验项目应是所界定的内容范围的代表性取样。

注意与表面效度区别，最佳行为测验往往希望表面效度高，其他测验反之。

确定方法：·专家判断法：
依据双向细目表，明确所要测量的内容范围。

确定每题所测的内容，并与双向细目表对照。

制定评定量表以评定测验的整个效度及其他特点。

·经验法：
如果测验总分和题目的通过率随着年级的增加而增加，则说明该测验对于教学效果的测量具有较好的内容效度。

·再测法：如果后测成绩显著优于前测成绩，则说明此测验对于这部分知识学习而言具有高的内容效度。

·复本法：获得被试在两个独立取自同一内容范围的测验上的分数，计算出他们的相关。

2、效标关联效度定义：测验对个体的效标行为表现进行估计的有效性程度。

根据时间可以分为同时效度和预
测效度。

常用于成就、等级评定、临床诊断等。

效标：衡量测验有效性的参照标准，它是独立于测验之外、体现测验目的的行为变量。

但由于效标往往是观念上的东西（观念效标），因此必须进行具体化（效标测量），可以看出一个观念效标往往有多个效标测量，在选择时应秉承有效性、可靠性、客观性（防止效标污染）、实用性。

确定步骤：
明确观念效标
确定效标测量
考查测验分数与效标测量之间的关系
确定方法：
·相关法：包括了积矩相关、等级相关、二列与点二列相关、四格相关等
·区分法：按效标测量分组，考察两组间测验分数的差异是否显著·命中率法：正命中率=1-α，负命中率=1-β，α和β是一类错和二类错的概率。

·预期表法
3、结构效度
定义：指测验对理论构想的测量程度。

适用于人格测验和智力测验等。

确定步骤：
建立关于某一构想的理论框架
依据理论框架推导出各种关于构想的各种假设
用实证与逻辑分析的方法来验证假设
确定方法：
·测验内法：考察内容效度、分析答题过程、计算测验间的同质性·测验间法：同时考察几个测验间的相互关联，看这些测验是否在测量同一构想。

包括相容效度（同质高效度的旧测验间的相关）、会聚效度（同质不同法测验的相关）、区分效度（非同质测验的相关）和因素分析法。

·实证效度法
·多特质-多方法矩阵法：相容和区分效度的综合运用
·实验操作法
·因素分析法
四、效度的影响因素
·构成：包括长度、难度、指导语等等
·实施过程
·被试：代表性，同质性等
·效标的性质：注意是否符合线性相关
·信度
五、提高效度的方法
·精心编制量表，避免较大的系统误差
·妥善组织测验，避免随机误差
·创设标准应试情境，让每个被试都能发挥水平·选取正确的效标，正确运用公式
第六章项目分析
一、难度
定义：被试完成测验项目任务时遇到的困难程度。

（废话）
确定：
常模参照测验中，大多数项目难度在0.3-0.7间即可最大限度获得有关个体间差异的信息；标准参照测验不必过多考虑；选拔考试难度应在录取率左右。

速度测验难度不宜过大，且难度应该稳定；难度测验应控制在0.5左右。

两者均应防止满分出现。

难度的等距变换：样本容量大时，测验分数服从正态分布（莱维-林德伯格中心极限定理），因此可根据POZ 表将P 转换为Z 。

标准分数具有相等的单位，属于等距量表。

为了去小数和负数，常用：Z 413+=?
二、区分度
定义：测验项目对于所测量的心理属性差异的鉴别能力和区分程度。

（还是废话）项目鉴别指数法：L H P P D -= **此表重要**: 鉴别指数D >0.4 0.3-0.4
0.2-0.3
<0.2 题目评价
很好
良好，修改更好尚可，仍需修改
差，必须淘汰
注意
·当样本较少（<100）时，H 和L 可以以50%为界·当峰度<3时，
比率可在27%-33%间变动
区分度的相对性：
·不同计算方法，区分度不同·样本容量影响相关法的区分度·分组情况影响D
·被试样本同质性影响区分度数值大小
三、区分度和难度的关系
P 影响D 的最大值，根据P 和D 的定义以及PH 和PL 的限制条件，很容易得到
121max --=P D ……书上6-5表，重点
实际编制中，应让项目间存在中等程度的相关（调和有效性与可靠性的矛盾），难度分布广、梯度大些，并呈现正态分布，平均水平在0.5左右比较好
第七章常模
一、原始分和导出分
·原始分：根据测验的记分标准，对被试的测验结果所计算出的测验分数。

本身无意义，不同测验的原始分数也不能互相比较。

·导出分：将原始分数经由统计方法转换成具有一定参照点和单位的测验量表上的数值，所得到的分数叫导出分数。

二、常用的导出分数
1、百分等级：任何一个分数在该团体分数分布中所处的百分位置。

注意报告参照团体。

优点
·便于理解，容易计算，实用性强；
·不同测验的结果在某种程度上可比较。

缺点
·顺序量表，无法对其进行加减乘除，大部分统计分析无法运用；·百分等级分布不同于原始分数的分布（两端不敏感，中间过敏感）。

2、标准分数：以标准差为单位表示一个原始分数在团体中所处相对位置量数。

优点：
·等距量数；
·与原始分数分布相同。

缺点：
·有负数和小数·不易理解和应用。

·掩饰原始分数
3、标准分变式
·T 分数：T=50+10Z
·韦氏离差智商：IQ=100+15Z
三、分数合成的方法·直觉合成
优点：综合性、针对性缺点：不够客观、精确
·加权求和合成单位加权：∑==
n
i i
c X
X 1
等量加权：∑==
n
i i
c Z
Z 1
差异加权：∑==
n
i i
i c Z
W Z 1
，Wi 常用抽象推理和主成份分析确定。

·多重回归：满足线性连续条件
·多重划分（连续栅栏）：忽视个体间差异
四、常模和常模团体
常模团体：测验目的所涉及的社会群体或此群体的一个代表性样本
常模团体的条件：
·构成界限明确。

(性质)
·必须是所测总体的代表性样本。

·规模适当：注意总体规模与性质、测量结果精确度。

·取样过程必须明确描述。

·注意常模的时效性。

常模：根据标准化样本的测验分数经过统计处理而建立的具有参照点和单位的测验量表。

常模编制过程：·确定常模团体
·对常模团体施测并获得分数·将原始分数转换为量表分
五、几种主要的常模参照分数（选择）：·发展量表：年龄常模、年级常模
·商数：智商IQ 、教育商数EQ 、成就商数=EQ/IQ ·百分等级常模：简单转化表、复杂转化表·标准分数常模·剖析图
第八章心理与教育测验的编制与实施
基本程序
·确定测验目的：明确对象、明确目标、明确用途·制定编题计划·编辑测验项目：收集资料、选择项目形式、编写项目·预测和项目分析
·合成测验：项目选择、项目编排（并列直进/混合螺旋）、编制复本·测验标准化：测验内容、施测过程、测验评分、分数解释·鉴定测验：信度、效度、量表和常模
·编写测验说明书
第九章测验等值
测验等值的实质：通过对考核同一种心理品质的多个测量形式做出测量分数系统的转换，进而使这些不同测验形式的测验分数间具有可比性。

注意与导出分数区分。

测验等值的条件：
·同质性
·等信度
·公平性
·可递推性
·对称性
·样本不变性
名词解释：
等值标准误差：由抽样而引起的等值误差。

等值偏差（bias）：由等值处理方法不当引起的等值误差。

第十章目标参照测验
定义：根据某一明确界定的内容范围而缜密编制的测验，且被试的结果也是根据某一明确界定的行为标准直接进行解释的。

第十二章能力测验
一、比内-西蒙量表：
1905世界上第一个智力量表、1908和1911两次修订（当年去世），比内量表的主导思想成为后来智力测验所遵循的传统。

二、韦克斯勒量表：期望100，标准差15
1、韦氏成人量表
韦氏成人智量表均有6个言语分测验和5个操作分测验，每个分测验独立积分并以标准二十分N（10，32）表示。

·W-BI是第一个成人智力测验
·1955出版W AIS，1981出版W AIS-R
·1982出版W AIS-RC中国修订本
2、韦氏儿童量表
WISC是W-BI修订而来，降低了难度、增添一个迷津分测验。

放弃智龄，以离差智商取代比率智商。

WISC-R包含12个分测验构成言语和操作两个量表，其中背数和迷津作为备用，适用6-16岁儿童
WISC-Ⅲ增添符号搜索作为备用，因素分析得到四个组合因素
WISC-Ⅳ变为“四指数”结构，包括言语理解、知觉推理、工作记忆、加工速度
3、韦氏幼儿量表
WPPSI适合4-6岁半的儿童，其中3个分测验为幼儿新编，8个与WISC相同，两因素结构。

韦氏智力表相互衔接，适用年龄广，是智力评估中最广泛使用的工具。

三、瑞文推理测验
瑞文推理测验是一种团体测验，非文字的图形测验，分三个水平：·标准瑞文推理测验，适用5.5岁以上智力发展正常者
·瑞文彩图推理测验，适用幼儿和智力低下者
·瑞文高级推理测验，适用于智力高于平均水平者
优点：适用范围从空间到时间都极宽，5岁半至老年，不排除部分生理缺陷者，不受文化种族和语言影响，可团体施测，非常方便。

以百分等级常模解释，直观易懂。

第十四章人格测验
1、分类：投射测验和自陈测验，前者比后者更能防止不真实作答。

2、明尼苏达多项人格调查表（MMPI）
属于自陈测验，有566、399、169等多个版本。

构成：
·效度表：说谎L、诈病F、校正K、疑问Q
·临床表：Hy、D、Hs神经症，Pd、Pa、Pt、Sc、Ma精神病态，D、Si内向、抑郁。

计分：
·Hs+0.5K，Pd+0.4K，Pt+K，Sc+K，Ma+K，在原始分上加，但对中国被试差异不大。

·采用T分数计分，60以上为异常的中国标准，连线绘制人格特征曲线图。

3、卡特尔16PF
属于自陈测验
构成：16个因素共187题，有两套等值测题，每个因素13-26题。

计分：
·abc 三个选项，记012或210分
·采用标准十分制，绘制人格特征曲线。

4、艾森克人格问卷（EPQ ）属于自陈测验
构成：精神质P 、外倾性E ，神经质N ，说谎L 。

儿童表有97题适合7-15岁儿童，成人表101题。

计分：
·（0，1）计分，分正向和反向。

·常模采用T 分数，结果可以绘制人格特征曲线图，也可EN 两维
度垂直交叉分析。

5、罗夏墨迹测验
属于投射测验，是罗夏用对折挤压的纸上的墨迹图作为材料，有3张彩图、5张黑白和两张黑红墨迹图。

程序：指导语、施测（自由反应、提问、类比、极限测验）、记号化、解释结果。

6、主题统觉测验属于投射测验，莫瑞和摩根认为人在解释模糊情境时倾向于将解释与经历和期望相一致，且在面对图卡时被测利用了他们的经历，并在解答中表达了他们的感情和需要。

构成：共30张黑白卡，适用于由年龄和性别分成的四类人，每类人均有19张，外加一张空白卡。

施测：1-10和11-20两个系列，每个系列一小时左右，系列间间隔一天以上。

主试一般不说话，只偶尔进行提醒、鼓励、补充。

记录被试内容。

第十七章新发展
项目反应理论的参数及其意义
根据正态分布，正答率随潜在特质变量的变化为：
dt e C C P b a t ?
-∞
--
-+=)
(2
221)1()(θπ
θ
注意这里)(b a z -=-=
θσμθ，所以有σ
1
=a 因为误差函数不是初等函数，因此常用逻辑斯谛函数进行分布拟合：
())
(7.111b a e
C
C P --+-+
=θθ 称为项目特征函数。

其中包含三个参数：abc
C ：伪机遇水平参数，表征蒙对的概率。

C=0时变为双参数模型，b ：难度，P(θ)相对于（b ，1/2）中心对称
a ：区分度，当C=0时，容易看出π
2tan )('
a
A b P =
=（利用了上面的a=1/σ），所以a 表征曲线在b 处的斜率，a 越大，曲线越陡峭，在b 处的区分度越高。

项目反应理论的应用·对题库建设的贡献·常模参照测验的编制
·目标参照测验的编制：在θc 处取到较小的标准误·计算机自适应测验
·认知诊断测量模型的发展。