常模参照测验

合集下载

参照常模的分数解释

5 10
20 25 30
百分位 40 50 60 70 75 80
******************
90 95
99
数字能力 23 70
*********************
语文+数 50 70 字
抽象推理 40 85
****************** *********************
94
83
45
12
5
45~49
100
87
61
24
5
40~44 10096Fra bibliotek7240
20
4
35~39 100
85
46
15
30~34 100
标准九 9 8 7 6 5 4 3 2 1
人数
失败百分比
21474
8%
19444
17%
32129
25%
39398
35%
34975
48%
23699
56%
11209
67%
三、呈现常模资料的方法（一）转化表转化表的3个基本要素：原始分、导出分、常模团体的特征描述。 1．简单转化表
2．复杂转化表
（二）剖析图
（三）常态百分位图表
分数以百分等级来表示，而分数轴的距离以标准分数为单位。把百分等级与标准分结合起来使用，具有双重优点。
原始百分分数位 1 语文推理 27 70
二、测验的具体实施 ▪ 按测验手册要求实施测验。 ▪ 控制测验焦虑，不讲威吓被试的话。 ▪ 与被试建立良好的协调关系（rapport）。 ▪ 及时和清楚地记录被试的反应。 ▪ 对特殊问题有所准备（如作弊、被试不配合等）。

常模参照评价、标准参照评价、个体内差异评价

数学
3.适合于鉴定资格和水平，所有的达标测验均属于标准参照评价。
三、个体内差异评价
三、个体内差异评价
又叫成长参照评价
把评价对象个体的过去与现在进行前后纵向比较，或者是把个体的有关侧面（如学生不同学科成绩之间、同一学科内的不同方面等）进行横向比较的评价。
过去
纵向比较
评价个体
现在
不同学科间横向比较
三、个体内参照评价Βιβλιοθήκη 例一: 不同时期的写作水平
过去
例二：语文的学习情况
听
说
读
写
现在
我的写作能力好一些，但阅读能力稍差。
三、个体内参照评价（一）优点
综合
评价
提供信息
个
别
动态
指
导
对象的发展变化
三、个体内参照评价（二）缺点
1.没有客观标准
2.没有外部比较
3.很难确定评价对象的真实水平
归纳总结
归纳总结
教学评价的分类
根据评价标准的参照系不同，可以把教学评价分为常模参照评价、标准参照评价和个体内差异评价。
你学会了吗？
整体状具况体例子
决定
标准每化个测成验员的水平
例如：
标准化测验
参考系 78分是高分
还是低分呢？
确定
所有学生的考分
每个学生的标准分数即
代表他在学生团体中的
得分的相对水平班级中的排名
一、常模参照评价（一）优点
（二）缺点
1.判断在团体中的地位
2.树立竞争意识
1.过分追求分数和名次 2.忽视全面素质的发展
目录 / contents
一常模参照评价二标准参照评价三个体内差异评价

心理测量学重点

第一章心理测量概述第一节心理测验的历史量的性质２、测验标准化条件：１测验内容的标准化２施测条件的标准化包括：①相同的测验情境..②相同的指导语..③相同的测验时限.. ３评分规则的标准化４测验常模的标准化二、心理测量一心理测量的定义一级定义所谓心理测量;就是依据心理学理论;使用一定的操作程序;通过观察人的少数有代表性的行为;对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段..第三节心理测验的种类与功能及其正确使用五按评价所参照的标准来分类１、常模参照测验一级定义是根据被试对量表中所规定的题目答对多少来评分的;被试成绩的优劣;是根据所得分数在常模中所处的地位来确定的;不是以是否达到某个标准来决定..２、目标参照测验一级定义是将被试水平与一绝对标准相比较;以便评价被试有无达到该标准为目的测验;也称标准参照测验..３、潜力参照测验是将被试水平与自身潜力相比较;以评价被试有无充分发挥自身潜力为目的的测验..三、心理测验使用的注意事项1慎重选择测验量表 2与被测验者建立协调关系 3控制实施测验的误差4正确解释测验结果 5遵守测验的道德 6注意测验的保密第二章心理测验的编制与应用第一节心理测验的编制①确定测验目的与对象②拟定编制计划③设计测试项目④项目的预测和分析⑤合成测验⑥测验使用的标准化⑦搜集信度、效度资料⑧编写测验手册一、确定测验目的与对象一测量对象测验编成后要用于何种团体..如被试的年龄、智力水平、受教育程度、社会经济和文化背景以及阅读水平等..二确定并分析测量的目标一般可分三种情况：一是编制带有预测功能的心理测验..工作分析二是编制针对某种心理特质的测验 ..下操作定义三是编制标准参照测验..双向细目表三测验用途测量目的二、拟定编制计划双向细目表主要有两个方面：一是全面而具代表性的测验内容..二是对各个内容点的相对重视程度;通常用百分比来标明..三、设计测试项目一搜集有关资料１、资料要丰富..２、资料要有普通性..３、资料要有趣味性..题目的来源：1、已出版的标准测验..2、理论和专家的经验..3、临床观察和记录..二选择项目形式考虑：１、测验的目的和材料的性质..２、接受测验的团体的特点..３、各种实际因素..三命题的一般原则1、内容方面2、文字方面3、理解方面4、社会敏感性方面四编写和修订项目要注意：１、项目的范围..２、项目的数量..３、测验项目的取样..４、项目的难度..５、项目的说明必须清楚;用语要力求精练简短、浅显明了..四、项目的预测和分析一预测应注意：１、预测对象..２、预测的实施过程..３、预测时限..４、在预测过程中;应随时记录被试的反应情形..二项目分析质的分析；量的分析..五、合成测验一项目的选择指标有三：１测验的性质..即要选择那些能够测量所要测量的东西的项目..２项目的难度..３项目的区分度..二项目的编排１并列直进式..２混合螺旋式..三编造复本复本的关键是等值..六、测验使用的标准化一施测过程１、指导语包括对测验目的的说明和被试应该如何反应的指示包括如何选择反应、记录反应以及时限等..指导语会直接影响被试的反应态度与方法..２、时限二评分、记分要求：１、及时而清楚地记录反应的情况..２、要有一张标准答案或正确反应的表格;即记分键..３、将被试的反应和记分键比较;对反应进行分类..准确无误是对记分的基本要求..三分数解释１、常模团体是由具有某种共同特征的人所组成的一个群体或是该群体的一个样本..常模选择的一般步骤：确定一般总体→确定目标总体→确定样本..确定常模群体的注意事项：１群体构成的界限必须明确..２常模团体必须是所测群体的一个代表性样本..３取样的过程必须明确且有详尽的描述..几种抽样方法：①简单随机抽样②系统抽样③分组抽样④分层抽样分层比例抽样和分层非比例抽样..４样本大小要适当..应注意：①总体的数目..样本大小适当的关键是样本要有代表性..②群体的性质..③测量结果的精确度..５常模团体必须是近时的..６注意一般常模与特殊常模相结合..２、几种主要的常模参照分数１发展常模①发展顺序量表：格塞尔发展程序表、皮亚杰对守恒概念的研究②智力年龄③年级当量２百分位常模百分等级：百分点;也称百分位数四分位数、十分位数３标准分常模T分数：平均数为50;标准差为10..标准九分：以5为平均数;以2为标准差..标准十分：平均数为5;标准差为1.5..标准二十分：平均数为10;标准差为3..４智商比率智商离差智商3、常模分数表示法1转换表表示法2剖面图表示法七、搜集信度、效度资料八、编写测验手册内容有：1测验的名称、作者、发行单位..2测验的目的和功用..3测验编制的理论背景和选择题目的依据..4测验的实施方法、时限及注意事项..5测验的标准答案和计分方法..6常模资料..7测验的信度资料和效度资料..第三章测量误差及其来源第一节测量误差的含义与种类一、测量误差的含义测量误差指的是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应..二、测量误差的种类一随机误差又叫可变误差;是由那些与测量目的无关的、偶然因素引起的、而又不易控制的误差..二系统误差又叫常定误差;是那种由测量目的无关的变因引起的一种恒定而有规律的效应..系统误差只影响测量的准确性;不影响稳定性;而随机误差既影响稳定性又影响准确性..第二节测量误差的来源一、测验本身引起的误差心理测量量表是否稳定..是否真正测到了我们所要测的东西..二、施测过程引起的误差①测试环境②测试时间③试因素④意外干扰⑤评分记分三、被试引起的误差①应试动机②测验焦虑③测验经验④练习效应⑤反应倾向⑥生理变因⑦学习、发展与教育第四章测量信度第一节信度的意义一信度的含义一级定义信度指可靠性或可靠的程度..测验的信度则是指测验结果的可靠程度..第二节信度系数的计算信度指标常用相关系数表示;也称信度系数;表示实得分数的变异数中有多少比例是由真分数的变异决定的..一、稳定性系数再测信度、重测信度跨时间的一致性是用同一量表对相同被试者在不同时间测验两次的实得分数的相关系数.. 重测法二、等值性系数复本信度跨形式的一致性是以两个等值题型、题数、难度、区分度相等;但具体内容不同的量表;在最短时距内;对相同的应试者先后施测两次测验所获得的两组对应分数的相关系数..复份法三、等值稳定性系数跨时间跨形式的一致性是合估等值性与稳定性而得到的信度系数..既能反映由于试题变异复份引起的测验成绩变化的程度;又能反映由于应试者的变异在两次测验的间隔中;由学习、练习、成熟等引起的应试者的变化而产生的测验成绩的变化的程度..复份法四、内部一致性系数同质性信度跨项目的一致性主要反映的是题目之间的关系;表示测验能够测量相同内容或特质的程度..方法有以下两种：１、分半法：代表了两半测验内容取样的一致程度..２、基于项目协方差的方法：代表测验内部所有题目间的一致性..五、阅卷者评分的信度系数跨评分者的一致性各种信度系数相应误差变异的来源第三节信度与测验分数的解释及其信度提高方法二、提高测验信度的方法二影响测验信度的因素1、系统误差：不影响信度..2、抽样误差：是影响信度的一个因素..3、随机误差：是影响信度的最主要的一种误差..三提高测验信度的方法①延长测验的长度②测验的难度要适中③测验的内容应尽量同质④测验的时间要充分⑤测验的程序应统一⑥评分要客观⑦加大应试者之间的差异第五章测验的效度第一节效度的意义一、效度的含义一级定义效度是量表能实际测量出其所要测量的特性或功能的程度..理解：1是对一定的测量的目的而言的..2是对测量的结果而言的..3一种测验结果的效度只是高或低的问题..第二节效度的估计逻辑效度：如内容效度和结构效度；统计效度：如目标关联效度..一、内容效度Content Validity基于所测内容的效度验证方法..指测验项目在内容上的适合性;即是否是所欲测量的行为领域的代表性取样..是指测验目的代表所要测量的内容和引起预期反应所达到的程度..研究的目的是要评估测题是否充分代表了所要测量的内容范围;及测验题目对有关内容或行为范围取样的适当性;它所关注的是测验的内容方面..主要应用:学业成就测验、职业资格测验、人员选拔与安置中的工作样本测验..一个测验要有内容效度必须具备两个条件：1.要有定义得完好的内容范围..2.测验项目应是已界定的内容范围的代表性样本..一逻辑分析的方法专家判断它要求让一组独立的专家他们不是测验的编制者;但是非常熟悉所测量的内容领域判断测题对所研究的领域的取样是否有代表性;通过这些评定资料来确定一个测验的内容效度..二克龙巴赫方法从同一个教学内容总体中抽取两套独立的测验题目;用这两套试题分别对相同的一些应试者进行测验;两次测验得分的相关系数;可以用来估计内容效度..若相关较高;可以认为内容效度亦高；若相关较低;则两次测验中至少有一次内容效度低..三统计分析法计算两个评分者之间评定的一致性评分者信度两个测验复本上得分之相关复本信度再测法测验-学习-再测验四经验推测法通过率提高内容效度的方法之一：编制命题的双向细目表二、结构效度构想效度、构念效度construct Validity基于所测心理结构的效度验证方法..是指测验分数能够说明心理学理论的某种结构或特征的程度;或测验实际测量了所要测量的结构和特性所达到的程度..建立构想效度的逻辑顺序：基于相关专业知识和观测资料;提出某一心理特质假设或某一心理结构理论假设;然后根据理论或假设所可能对应的行为特点编制测验并进行施测;最后对测量结果进行相关或因素分析;验证其与理论假设的符合程度..主要应用：各种心理测验;如智力测验、人格测验、焦虑测验、成就动机测验等..估计方法：1对测验本身的分析测验的内容效度：测验的同质性；分析被试者对题目的反应特点.. 2测验间的相互比较相容效度；区分效度；因素分析法..3效标关联法4实验操作法如;举行两场考试;使被试相信一场考试关系重大;另一场考试无关紧要;在考试前进行焦虑测验;看被试的焦虑测验分数是否存在显着的差异;分析原因..构想：考试焦虑是当考试结果对个人有重大意义时的一种害怕失败的紧张情绪”..有一个焦虑测验;考察这测验是否有构想效度..三、效标关联效度准则关联效度一级定义基于效标关联性的效度验证方法..又称实证效度;是指测量分数与作为效标的另一独立测验结果之间的一致程度..一效标是衡量测验有效性的参照标准;指的是可以直接而且独立测量的我们所感兴趣的行为..常见的效标有：1学业成就.. 2等级评定.. 3临床诊断..二效标测量：将观念上的效标用可操作的测量确定下来..防止效标污染;即指个人的效标因评定者知道个体的测验分数也叫预测源分数而受到影响..三效标关联效度的种类：1、同时效度2、预测效度是指测验结果对未来的行为或测验成绩效标能够准确预测的程度..四效标关联效度的估计方法：1、相关法①皮尔逊积差相关公式在两组数据都是连续变量;且两者存在线性关系时使用..②斯皮尔曼等级相关公式在两组数据都是等级变量..③点二列相关系数适用于一列数据为等距正态变量;另一列为离散型二分变量..④二列相关系数在测验分数和效标这两个变量中一个是连续变量;另一个是二分变量被人为地分成两类时使用..2、区分法3、命中率4、利用回归方程估计效标分数及计算其置信区间..X-1.96SE≤T≤X+1.96SE四、表面效度是指从外表直观地看来这个量表可以测量所想测量的特性和功能的程度..最高行为测验如能力测验要求有较高的表面效度..典型行为测验如人格测验却要求较低的表面效度..第三节提高测验效度的方法二、影响效度的因素一测验本身的因素测验取材的代表性、长度、试题类型、难度、区分度以及编排方式等都会影响效度..编制要注意：1测验材料要有应测内容具有代表性；2尽量避免误差较大的题型如是非题；3难度要适中;具有较大的区分度；4测验长度要恰当;保证一定的题量；5测题的排列应先易后难..二测验实施中的干扰因素1、主试的影响因素..如是否按照标准化来实施、测验与效标测量的实施的时间间隔、测验环境的布置等；2、被试的影响因素..如被试测验时的动机、情绪、态度、身体状态、反应定势等..三样本团体的性质1、样本团体的异质性..其他条件相同;样本团体同质性越高;分数范围越小;得到的效度系数就会越低;会低估测验效度；反之 ;得到的效度系数就越大 ;可能会高估效度..比如 ;只使用经选拔后的被试组成样本团体;增加了被试同质性;测验得到的效度系数会较低；2、干涉变量..样本团体的有些变量会影响效度测验;比如被试的年龄、性别、受教育程度、智力、动机、兴趣、职业等特征 ..对于同一个测验来说;使用的样本团体不同;得到的效度系数也会不同..四所选效标的性质三、提高效度的方法①控制系统误差②精心编制量表③妥善组织测验④扩大样本的容量代表性⑤合理处理效度与信度的关系⑥适当增加测验的长度第六章测验的项目分析一难度一级定义指试题的难易程度..P=R/NP代表试题难度；R为答对该试题人数；N为参加测验总人数一区分度一级定义是指测验对考生实际水平的区分程度..也叫鉴别力..第七章试题类型及评分一评分误差评分可靠是指不同人评定同一份试卷或同一个人在不同时间评定同一份试卷所评定的分数都应是一致的..这就叫评分信度..评分者本人的某些特点也能影响评定分数的客观性..１、评分者知识水平的影响..２、评分者心理状况的影响..３、评分者个性倾向的影响..４、各种“效应”的影响：①名片效应..②光环效应..③对比效应..④先后效应..５、评分者工作态度的影响..第八章智力测量第一节智力概述三、智龄和智商二智商比率智商 IQ = 智龄/实龄×100离差智商 IQ = 测验分数/同龄人的平均数×100离差智商 X=100+15Z离差智商一级定义是一种以年龄组为样本计算而得来的标准分数..离差智商=100+15Z;其中Z=X-M/S;其中M代表团体平均分数;X代表个体测验的实得分数;S代表该团队分数的标准差;Z代表该人在团队中所处位置;即他的标准分数..二、韦克斯勒智力量表详见课本P223页包括言语量表和操作量表两部分1.常识2.数字广度3.词汇4.算术5.理解6.类同7.填图8.图片排列9.积木图案 10.拼图11.译码或数字符号 12.迷津 13.句子 14.几何图形 15.动物房第九章人格测量第二节自陈量表法二、几种常用的人格自陈量表介绍一明尼苏达多相人格测验MMPI适用于16岁以上具有小学文化水平以上的群体..该量表共有测题566道;其中有16道重复题..内容包括健康状态、情绪反映、社会态度、心身性症状、家庭婚姻问题等26类题目;可鉴别强迫症、偏执狂、精神分裂症、抑郁性精神病等..MMPI项目涉及内容及项目数MMPI 临床量表4个效度量表Q：疑问量表Question没有回答的题数和对“是”和“否”都做反应的题数..566题版本超过30分;或399题版本超过22分;则答卷无效..L：说谎量表Lie超过10分;结果不可信..F：诈病量表Frequency说明伪装疾病或精神病程度重..K：校正量表Correction根据被试对测验的态度对测验得分进行校正..该测验有两种形式：卡片式、问卷式..测验没有时间限制;一般45分钟可以做完;最多也不超过90分钟..施测的步骤与结果转换：1施测前;主试要熟悉测验和测验的指示语、了解被试情况、确定安静整洁的测试环境..然后选择合适的测试方式卡片式、手册式或录音播放式；2开始测验时把指示语读给被试听;说明测验约需1个半小时；3测验开始后;主试要注意查看被试是否在答题纸上填写姓名、性别、地址等;所答题目序号是否与试卷上的序号符合等；4答题结束后;用读卷机或套版记分..套版记分方法是：把答卷按性别分开、检查并划掉同时选“是”和“否”的答案、查看Q分并当其超过30或22分时确定答卷无效、换用不同套版得到不同分量表原始分；5对5个临床量表进行校正：Hs＋0.5K、Pd+0.4K、Pt+1.0K、Sc+1.0K、Ma+0.2K;6使用与被试年龄、性别等对应的换算表;得到各分量表T分..施测中应注意的事项：1测验前 ;要告知测验的意义 ;取得被试合作 ..如被试仍轻率从事或不愿暴露自己 ;主试可凭经验尽可能弄清情况;做好工作;争取被试的合作;并详细记录被试的表现；2向被试讲清楚;如遇不能回答的问题;可以空下来;但要尽可能回答;不要空的太多；每个问题的回答无所谓对错等；3如果因测验时间长被试情绪焦躁、不耐烦;则可以将测验分成几段进行;也可以用放录音的方法进行测验；4使用分量表时;尽量使用代码表示;而不要用中文全译名称;以免表达不准确或造成误解、误判、误读等..计分方法：原始分→T分数→剖面图计算Q量表的原始分..超过22分或30分无效..分别计算各量表的原始分..对5个量表加K分校正..Hs、Pd、Pt、Sc、Ma5个量表要分别加上一定比例的K分..查表把原始分转化为T分；或计算T分..60以上为异常中国标准：70分以上为异常美国常模T = 50 + 10X - X/ SD画出剖析图..临床量表及其诊断意义：1疑病Hs：反映对身体功能的不正常关心;高分者往往有疑病症、神经衰弱、抑郁等倾向;身体无病;也总觉得身体欠佳；2抑郁D：高分者常被诊断为抑郁症;表现忧郁、淡漠、悲观、思想与行动缓慢..分太高有自杀倾向；3癔症Hy：反映用转换反应对待压力或矛盾的倾向;高分者往往有癔症倾向;依赖、天真、外露、幼稚及自我陶醉等；4精神病态Pd：反映性格畸变..高分者蔑视社会习俗和规范;常有复仇攻击观念;多诊断为人格异常、反社会人格、被动攻击性人格；5男子气-女子气Mf：高分者有异性化倾向;极端高分则暗示有性变态倾向或性变态行为..6偏执Pa：高分者多疑、孤独、过分敏感等 ;T 分超过70则可能存在偏执妄想..尤其是F、Sc量表分数高;而Pa分又极端高;则常被诊断为精神分裂症偏执型和偏执性精神病；7精神衰弱 Pt：高分者紧张、焦虑、强迫思维、恐怖及内疚感;常自责自罪、自卑;Pt、D、Hs同时升高则多诊断为神经症；8精神分裂症Sc：高分者表现非常的或分裂的生活方式及情感反应 ..极高分数T>80者多有不恰当情感反应、怪异行为、妄想、幻觉、人格解体等精神症状及行为异常..如只有Sc高分、无F量表分升高常提示类分裂性人格；9轻躁狂Ma：高分者常为联想过多过快、活动过多、观念飘忽、夸大而情绪激昂、情感多变..极高分数多有妄想;T>90 者可能正处于躁郁症的躁狂相；10社会内向Si：高分者内向、退缩、紧张、固执、自罪；低分者外向、爱交际、冲动、做作;在社会关系中不真诚..三艾森克人格问卷EPQ该量表是由内外向性E量表、情绪性或神经质N量表、精神质或倔强性P量表和效度量表L量表等四个分量表组成..包括两式：儿童7~15岁;成人16岁以上..艾森克的人格理论E维度：内—外向高分表示人格外向;低分表示人格内向；N维度：情绪稳定性低分表示情绪稳定;高分表示神经过敏；P维度：精神质高分表示孤独;难以适应环境;感觉迟钝..L：说谎量表..E、N维度与古希腊盖伦的气质学说相吻合施测步骤和结果计算：艾森克人格问卷的施测非常简单;即将答卷和答题纸发给被试;可以个别测验;也可以团体测验..团体测验时要保证人手一套答卷和答题纸..严格按照指示语向被试说明完成测验的做法;即可由被试自行完成..施测中要求：第一;在问卷上印有指示语;施测时要让被试读懂指示语；第二;只需要就每一题回答“是”或“否”；第三;不要遗漏任何一道题目..评分界线：中间型：43.3~56.750± 6.7倾向型：38.5~43.3； 56.7~61.5典型型：< 38.5 50-11.5；> 61.5 50+11.5各维度的典型人格特征1典型外向E分特高表现为：爱社交、朋友多、喜欢冒险、追求剌激、不甘寂寞、好谈笑、冲动行事不爱做研究工作;喜欢实际的工作;反应迅速;随和;但情绪容易失去控制;做事粗心;从外表看似乎是一个不太可靠的人..审美：喜欢深颜色2典型内向E分特低表现：保守;交际不广;但有挚友;好静;做事瞻前顾后;行为不易受冲动的影响;不喜欢剌激;喜欢有秩序的生活和工作;极少发脾气;做事有计划;情绪倾向于悲观审美：喜欢浅色3典型的情绪不稳N分特高表现为：焦虑、紧张;易怒;往往又有抑郁;对各种剌激的反应都过于强烈;情绪被激发后以很难平复下来;好抱偏见;常患有多种心身障碍..4情绪极稳N分特低表现为：情绪反应缓慢;不强烈;而且容易平复;很难生气;在一般人难以忍耐的剌激下也有所反应;但不强烈..5P分高表现为：独身;不关心人;常到哪里都觉得不合适;有的可能表现为残忍;不人道;缺乏同情心;对人常抱有敌意;攻击性强;喜恶作剧..儿童：好恶作剧;很麻烦;缺乏是非感;令人讨厌的调皮..第三节投射测验一、投射测验的基本理论一基本理论向受测者提供预先编制好的一些未经组织的、意义模糊的标准化刺激情境;让受测者在不受任何限制的情况下;自由地对刺激情境作出他的反应;然后通过分析受测者的反应;推断受测者的人格特征..投射：一级定义是指个人对个体特征的想象式解释;在这种解释中;个人具有将自己身上发生的心理过程无意识地附着在客体身上的倾向..第十章心理与行为问题评估第一节 90项症状清单SCL-9090项症状清单Symptom Check List 90;简称SCL-90;又称为症状自评量表;也叫做Hopkin’s症状清单简称HSCL..适用范围：1心理卫生问题的评定工具；2了解躯体疾病求助者的精神症状；。

第七章测验分数的解释与应用

按照行为发生的一定顺序来判断发展的正常与否

皮亚杰量表
用特定的任务来揭示儿童发展处于哪个阶段

格塞尔发展顺序量表格塞尔认为，婴幼儿的行为系统的建立是一个有次序的过程，反映了神经系统的不断成长和功能的分化，因而可以把每个成熟阶段的行为模式作为智能诊断的依据。
4周不能控制头部，仰卧姿势左右不对称 16周 28周 40周可独坐，爬行，扶着物件站立 52周搀一手行走，摇摆颈可竖直，扶起独头微摇动，坐，身体前倾仰卧姿势左右对称

2、年级当量(grade equivalents)

即年级常模，用年级代替年龄，指把学生的
测验成绩与各年级学生的平均成绩比较，看他
相当于几年级的水平。

年级常模的单位通常为10个月间隔。如5年级的分布为5.0到5.9，5.0表示五年级的初始水平，5.5则表示五年级中期的平均成绩。
3、发展顺序量表(ordinal scales)
缺点：单位不等，尤其在分配的两个极端只具有顺序性，属于顺序量表，不能做加减乘除运算，无法通知来说明不同被试之间分数差异的数量两个不同样本中的百分等级不能相互比较
2、标准分数
什么是标准分数？有哪些特点？如何计算？

标准分数又称Z分数，这是等距量表中最常用
的一ent referenced score）内容参照又叫范围参照，是看被试对指定范围中的内容和技能掌握得如何。内容参照分数特别适用于计算机辅助教学以及利用程序教材自我掌握进度的学习内容参照分数主要用于成就测验以及能确定出可接受的最低标准的资格测验
在编制内容参照测验和对此各测验分数做解释时有两个主要步骤：一是确定测验所包含的知识或技能的范围二是编造一个能报道测验成绩的量表

PETS的含金量高吗

PETS的含金量高吗PETS的含金量高吗大学英语考试是一项大规模标准化考试，是一个“标准关联的常模参照测验”。

大学英语四、六级考试作为一项全国性的教学考试由“国家教育部高教司”主办，分为四级考试(CET-4) 和六级考试(CET-6)，每年各举行两次，分别在同一天的上午和下午进行。

接下来由小编为大家整理出PETS的含金量高吗，希望能够帮助到大家！PETS的含金量高吗1、CET和PETS是两种不同形式的英语测试，它们的用途不同，也是无法准确说出谁的含金量更高。

2、如果是找工作的话，用人单位更加倾向于CET英语四六级证书，认为这个证书的含金量更高，而对于PETS，用人单位就比较轻视，并且PETS证书是有有效期限的。

3、但是PETS证书对于求学时，却大有用处，有PETS三级证书可以在自学考试中免考英语二级。

而在其他多项考试中都能获得免考资格，例如：国家公务员英语考试，或成人高考英语考试等。

拓展：CET和PETS的区别1、CET就是大家所说的英语四六级考试，这是教育部管理的一项全国性的考试，现在众所周知英语四六级考试只能是大学在校生才可以考，也是重点考察大学生的英语水平和运用的能力，为大学生们提供一个测试的平台，只有四级和六级。

2、CET考试只能按部就班的从四级开始考，如果没能考过四级也是不可以考六级的。

而且，CET考试的口试并不需要所有考生都参加，只有成绩达到一个要求的参加就可以了。

3、PETS也是一个全国性的英语等级考试，也是由教育部管理并负责的，但是这个考试所面对的考生要广泛一些，不只局限于学生，对考生没有任何年龄、职业和其他的限制。

社会人员也是可以报考的，它主要是考察英语的交流和沟通能力，分五个等级。

4、PETS考试等级方面要求不那么严格，不需要必须从第一级开始考，可以根据自身的英语水平和情况决定考哪一级。

并且PETS考试必须口试和笔试两场考试都要参加并成绩及格，两个缺一个都不行。

PETS考试全攻略刚刚过去的全国公共英语等级考试（简称PETS）让考生们记忆犹新，考生感叹“憋足了劲参加考试，还是有令人意想不到的状况发生。

心理与教育测量重点

心理与教育测量第一章心理与教育测量概论（一）一般测量概论1. 测量：依据一定的法则使用量尺对事物的属性进行定量描述的过程。

2. 测量的基本要素：（1）参照点:①绝对参照点：以绝对的零点作为测量的起点，如长度测量②相对参照点：以人为确定的零点为测量的起点，如对地势高度的测量。

（2）测量的单位：①要有确定的意义，即对同一单位，所有人的理解都是相同的。

②要有相等的价值，即第一个单位与第二个单位之间的距离等于第二个单位与第三个单位之间的距离。

3. 测量的量表：能够使事物的特征数量化的数字的连续体。

①陈名量表--用数字代表事物的成分或用数字对事物经行分类，但该类数字没有数量的意义。

可细分为两种形式，一是命名量表（用数字指代个别事物，如用数字给运动员编号）；二是类别量表（用数字指代事物的种类，如用1、2、3分别代表不同的职业类型）。

其适用的统计方法有百分比、次数、众数和卡方检验。

②顺序量表--其中的数字不仅能够指代类别，而且能够表明不同类别的大小、等级或事物具有某种特征的程度，它既没有相等距离的单位，也没有固定的测量原点。

适用的统计方法有中位数、百分位数、等级相关系数和肯德尔和谐系数等。

③等距量表--不仅能够指代事物的类别和等级，而且具有相等距离的测量单位。

没有绝对的零点，适用的统计方法有平均数、标准差、积差相关系数、等级相关系数以及t检验和F检验。

④比率量表--具有类别、等级和等距的特征外，还具有绝对的零点或固定的原点。

适用的统计方法除了与等距量表相同外，还与几何平均数、变异系数相同。

（二）心理与教育测量的性质1. 心理与教育测量的定义：依据一定的心理学和教育学理论在测验上对人的心理特质和教育成就进行定量描述的过程。

2. 心理与教育测量的量表属于顺序量表的原因：①从所使用的参照点来说，教育测量和心理测量领域的参照点均为相对零点。

②从所使用的单位来说，教育与心理测量的单位远没有其他测量的单位成熟和完善。

3.标准化需具备的条件：①测验内容的标准化②施测条件的标准化③评分规则的标准化④测验常模的标准化4.心理与教育测验的种类：（1）①常模参照测验--以常模为参照编制的测验（如高考只有百分之几的人可以进入重点大学）②标准参照测验（目标参照测验）--以标准为参照编制的测验（如，视力测验、考驾照）（2）①智力测验--测量个人的智力（一般认知能力）水平的高低②能力倾向测验--测量个人的潜在才能，预测个人的能力发展倾向③成就测验--测量个人在接受教育后的学业成（3）①个别测验--同一主试在同一时间只能测量一个被试②团体测验--同一主试在同一时间内能够测量许多被试（4）①难度测验--识别个人能够达到的最高水平②速度测验--识别个人做题的最快速度第二章心理与教育测量简史1.高尔顿：把统计方法应用到对个别差异资料的分析之中2.卡特尔：①首次提出“心理测验”这个术语②认为心理学只有立足于实验与测量，才能达到如同自然科学一样的准确性③认为心理测验只有建立普遍的统一标准，并与常模相比较，才能充分地实现其科学价值和实用价值3.比内：①1903年，《智力的实验研究》问世，提出了智力的定义，认为智力是高级心理过程，包括推理、判断以及运用已知知识解决新问题的能力②1904年与其助手西蒙合作完成了世界上第一个智力测验量表----比内--西蒙量表，因此成为了心理测验的鼻祖4.智力测验的发展：①最著名的的是推孟于1916年修订的斯坦福--比内量表。

第十章目标参照测验1

二、测验项目的内容效度分析
专家评定法（教材表10-2，10-3）结合以前学过的常模参照测验的内容效度分析来进行对比学习
三、测验项目的难度和区分度分析
1。测验的预测（1）前测-后测方法（一组被试）（2）已接受教学组-未接受教学组方法（两组被试）（3）对照组方法（两组被试） 2。测验项目的难度分析目标参照测验的项目难度计算与常模参照测验相同，一般以通过率来表示。往往并不必要。
St
适用项目是0、1记分（或二分变量），而效标或测验总分是连续变量的数量资料。
（2）二列相关
Xp - Xq pq
rb=
•
St
y
Xp - Xt p
或 rb=
•
St
y
适用于连续的测量变量。但其中一个变量被人为二分。
（3）φ 相关 ad-bc
rφ= √(a+b)(c+d)(a+c)(b+d)
适用于φ相关的统计方法适用于两个变量都是点分配的资料，即两个变量都是二分名义变量。在有些情况下，一些连续变量也可以用此方法计算相关程度。φ相关不要求变量呈正态分布。
回忆常模参照测验的难度分析（注重适中值）目标参照测验项目难度的计算，大多情况下只是作为项目区分度分析的基础。
3。测验项目的区分度分析注意与常模参照测验的对比
（1A-PB D的大小，可以直接反映出该项目在多大程度上对未掌握者和掌握者作出了区分。D值从-1.00到+ 1.00之间变化，越接近于+ 1.00，题目区分度越高，说明题目越有效。
（1）积差相关系数
当预测分和效标分都是连续变量时，可采用积差相关系数的计算方法来求得测验的效度系数。
例：假设有10名男性经职业兴趣测验而被选定作为推销员，其测验分数下表第一行，而第二行是经过若干年后他们某段时间内销售金额总量(以万元为单位)。现问该测验的预测效度如何?

常模参照测验和标准参照测验名词解释

常模参照测验和标准参照测验名词解释
常模参照测验（norm-referenced test）是一种衡量个体在某个特定领域中表现的评估工具。

该测验根据一组参照群体（即常模）的表现结果来评估个体的得分。

常模通常是由大量代表性群体的分数构成的，例如年龄、性别和教育水平相似的人群。

个体的得分可以通过与这些参照群体的平均值进行比较来确定相对位置，例如使用标准分数或百分位等标准化得分。

标准参照测验（criterion-referenced test）是一种评估个体在特定领域内知识、技能或能力水平的测验。

这种测验的主要目的是判断个体是否达到了事先设定的标准或标准。

标准可以是预先确定的特定得分线或水平，也可以是根据领域内专家的共识设定的。

评估结果通常通过判断个体的得分是否达到指定的标准来衡量，根据是否达到标准，个体可以被称为通过或未通过测验。

而不同个体的得分水平在标准参照测验中没有直接比较的意义。

常模参照测试与标准参照测试

5.常模参照测试与标准参照测试1. 常模参照性测试（横向）常模参照测试是为了显示考生语言能力的差异，每个考生的成绩只需要跟其他考生比较，确定其在全体考生中的位置。

因此常模参照性测试适用于选拔性测试，在中国比较重要的考试大都是常模参照性测试，如中考、高考、研究生入学考试等。

常模参照性测试的选拔性目的决定了其独有的特点，从命题角度而言，命题内容覆盖面宽，命题难易度离散程度较高，有助于拉开分数段；分数主要采用百分或标准分数的形式，能够报道考生在常模群体中所处的百分位置。

例如：大学英语四、六级考试如某考生四级报道总分是550分，则根据大学英语四级考试（CET-4）报道分数百分位对照表，可判断其在常模群体中的百分位是76%，表示这名考生的英语成绩优于常模群体中76%的人。

再如某考生六级报道总分是600分，则根据大学英语六级考试（CET-6）报道分数百分位对照表，可判断其在常模群体中的百分位在87%～92%之间，表示这名考生的英语成绩至少优于常模群体中87%的人，但不会优于92%的人。

看图并指出这位考生在汉语水平测试中所处的百分位置：优点：常模参照性测试的优点在于对于大多数考生来说较为公平，因为通过考试与否的标准是以与其他考生公平竞争的结果来确立的，尤其是中国学生比较习惯于这种测试模式，他们较习惯于从自我位置的确定中找到前进的目标。

缺点：（1）常模参照性测试的不足在于常模的效度往往受到受试人群的影响，常模随着受试人群的变化而变化。

（2）学生在常模参照性测试中的表现不能直接说明其在语言中的实际表现。

（3）常模参照性测试的回波作用有待商榷，在实际操作中，如果大多数学生没有通过考试，那么责任往往推卸给试卷内容，而不是首先考虑教学目标和教学质量是否出现了问题。

2. 标准参照性测试（纵向）Carrol, Cronbach, Glaser在1963年发表了三篇论文，提出了标准参照性测试的概念。

与常模参照性测试不同，标准参照性测试在考试之前就已经预先定好了衡量标准，然后根据这些标准来判断学生是否通过和不通过。

发展与教育心理学考核要求：第十五章学习的测量与评价

第十五章学习的测量与评价（一）测量、测验与评价1、识记测量的概念：测量是依据某种法则给客观事物或事件的某种属性指派数字或符号的过程。

评价的概念：表示评定价值的意思。

学习的测量：是学校教学的重要环节，它是对学生学习过程中所获得的学科知识、技能和能力的测量。

学习的评价：是在学习测量的基础上，对学生学习发展状况作出价值判断的过程。

学习评价的分类：从评价标准来看，学习评价一般有相对评价、绝对评价、个人内差异评价；从评价的功能来看，学习评价一般有诊断性评价、形成性评价和终结性评价。

2、领会测验的两种涵义：（1）根据一定标准鉴别人或事物性能的过程。

使用此涵义时，测验和测量相同。

（2）实施测量的工具。

是用来鉴别测量对象优劣的工具，此时，测验和量表有些相近，但其包含的形式可能比量表更广泛。

3、简单应用：测量的三个要素：客观事物或事件、法则、数字或符号是测量必不可少的三个要素。

所谓客观事物或事件即测量的对象。

所谓数字或符号只是事物属性的代表，而不是事物或事件本身。

所谓法则，就是要根据事物的我，告诉测量者做些什么的一种指导或方法。

学习测量与评价的指导功能：桥本重治就学习测量与评价的指导功能作了如下叙述：1、了解学生的学业成绩；2、学生学习上的进步与迟缓等的判断与处置；3、教师的教学课程和教学方法恰当性的研究与改善。

4、为适应学生的个别差异进行指导而收集材料；5、其他管理性目的。

学习测量与评价的学习功能：1、指导学习方向；2、激励学习动机；3、巩固已学知识。

学习测量与评价的管理功能：学习测量与评价的管理功能是指为甄选学生编班分组、确认升学级或入学是否全棉、记载学籍、公布教学成绩等。

例如，通过学习的测量和评价，选拔不同的学生进入不同水平的学校；在同一学校内，通过学习的测量和评价，指导有某种特长或缺陷的学生进入特殊班级或是普通班级；通过学习测量与评价，认定学生是否毕业等。

学习测量与评价的研究功能：学习测量与评价的研究功能是针对研究人员、教师、学校管理人员、教育行政人员来说。

常模参照与标准参照测验分数的解释方式

常模參照與標準參照測驗分數的解釋方式國立臺南大學測驗統計研究所助理教授涂柏原關於這個題材，在這個專欄應該曾經出現過，考慮到讀者群幾乎每一年就更動了三分之一，再回到這個主題上面，應該還是合適的。

對於從各式各樣的測驗所得到的分數，要進行解釋時，隨著測驗的功能與特性，一般有兩種不同的解釋方式：常模參照（norm-referenced）以及標準參照（criterion-referenced）。

如果我們解釋個別學生的測驗分數，是拿他的分數來和全體學生的分數作比較，則這種解釋測驗分數的方式便稱為「常模參照」。

這是一種以「相對性比較」的觀點，來看待個別學生的測驗結果。

段考成績排名、心理測驗原始分數轉換成標準分數或是百分等級（percentile rank, PR）等，都是利用常模參照的方式來解釋分數。

另一方面，如果我們解釋個別學生的測驗分數是以描述他在某一個界定清楚的領域上重要工作表現有多好，或是他的表現以達到什麼樣的優良程度等術語來表示時，這種測驗分數的解釋方式便稱為「標準參照」。

這種分數解釋的方式基本上是採用「絕對比較」的觀點來看待個別學生的測驗結果。

一般來說，醫師執照、會計師、建築師、律師等證照考試，或是汽車駕駛執照考試等等，都不需要注意排名或是與別人的分數進行比較，需要的只是與某一個標準來進行比較，若考生的分數已經高過那個標準，那麼即可發給證書或是給駕照。

以基本學力測驗來說，最早在提出以基本學力測驗取代傳統的高中聯考時，大家一聽到「基本學力」四個字時，都會以為基本學力測驗的功能應該是測學生的學力是否已達到「基本」的水準，似乎這個測驗是用來作為「門檻」的。

果真如此的話，那麼學力測驗分數的解釋方式將會是屬於標準參照的，因為關心的將是某個考生的分數是否高過門檻，而不是該生的分數是排在團體當中的哪一個位置。

因為要減輕學生考試的負擔，因此教育部不准各個招生區或是學校加考其他的學科紙筆測驗﹔甚至在多元入學方案中，對於選擇以「登記分發」來入學者，只根據其基本學力測驗的分數來分發。

谈一谈教育测量的性质、功能及在实际中的应用？教学文案

谈一谈教育测量的性质、功能及在实际中的应用？谈一谈教育测量的性质、功能及在实际中的应用？简答：一、教育测量的性质教育测量具有间接性、多元性和随机性的特点。

测量应具有可靠性、客观性。

测验的结果一般都以分数或等级来表示。

因此，测验分数的评定及比较、等级的划分以至对各个测验分数的解释等等问题，也是教育测量学不可忽视的问题。

教育测量学是教育科学中的一项重要分支，尤其是教育测量的对象是人，这就使我们更为注重要科学的测量，而要进行科学的测量，就有必要掌握教育测量的科学。

二、教育测量的功能和地位当今的世界是充满决策的世界：如果学校能对学生的心理和教育进行全面系统的测量，根据测量所得的结果反馈于教学，那么，必可在实际的教学、教育决策中发挥很大的功用。

教育测量的功能，择要简述如下：(一)因材施教教育的一条基本原则就是“因材施教”。

实际的教育过程欲体现这一原则，则要求教师必须了解自己的学生。

了解的依据一般有二：一是基于经验之上的主观直觉，一是借助于测验的客观测量。

前者是前科学的方法，有时并不可靠，常常是很大程度上受到主体状态的影响。

例如对学生能力、知识水平等方面的测量，主观直感可以在一定范围内使教师了解学生的特点，但这并不完全靠得住，很容易受到教师的好恶、成见、情绪等多方面因素的影响。

因而，为了更准确、更客观地了解自己的学生，使用测验并依据测验结果来了解学生是必不可少的。

唯有如此，教师才能够针对学生的具体情况做出相应的合理安排，依据学生能力和已有知识水平的个别差异做出适当的教学决策，比如说编班、分组、开特殊课、课后个别辅导等等。

所谓有的放矢，其效必佳。

（二）选拔人才教育测量是选拔人才的手段。

为了确保教育质量，确保培养出高层次高水平的人才，并最高效益地使用好有限的教育经费和教育设施，必须甄选出最有可能成功的学生。

随着社会与科技的发展．凭借个人经验的选拔已无法满足实际的需要，高效、准确的决策辅助工具——测验——便尤其必要。

2.2效度

第二节效度在物理测量中，使用某种合适的测量工具测量物体所获得的数量资料(即数值与单位)可以对所要测量物体的属性给出明确的意义。

但在教学测量中，用分数描述行为反应的心理属性，它的意义就不那么明确了。

例如，学生的某次数学测验成绩是依赖他们掌握语文或物理的知识和能力所得到的，那么这次数学成绩在很大程度上并不能反映所要测量的逻辑思维、运算和空间想象等方面的心理属性。

因此，需要考察测验到底测量了哪些心理属性，对这些心理属性能够测量到什么程度，这就是测验的有效性。

为了估计测验的有效性，需要建立参照标准。

我们常常把反映某种属性的有效客观标准称作效标。

它可用一份测验卷来体现，用这份测验卷去测试学生称作效标测量，由此得到的分数称作效标分数。

一个测验的有效性，必须着眼于该测验本身所具有的独特的目的、功能和适用范围。

对于某种独特的目的、功能和适用范围是正确、有效的测验，对另一种目的，功能和适用范围可能就是不正确、无效的。

不存在对于任何目的、功能和适用范围都有效的测验。

此外，由于测验是通过行为样本，对特定的某种属性作间接测量，它只能达到某种程度的正确性，一般用两个测验分数之间的相关系数表示，这种相关程度越高，可称该测验的效度越好。

因此，只有程度上的不同而不存在全有或全无的差别，而且测验的有效性是相对的。

一、效度的概念1．效度的定义我们知道，个体的测验分数可以表示成真分数与误差分数之和。

根据真分数理论，可以进一步将真分数表示成与测验目的有关的有效分数V和与测验目的无关的系统误差分数SE之和：T＝V＋SE。

这样，个体的测验分数可表示成X＝V＋SE＋E。

对于团体的测验分数方差，相应地有以下关系：效度是测验有效性或准确性的指标，在理论上被定义为：有效分数方差与测验所得分数方差之比，即这里，Val表示效度系数。

由效度的理论定义可以知道，效度系数Val的范围是［0，1］。

由于效度分析可以针对各种要求和运用各种程序，而在特定的条件下，使用不同的分析方法可以得到不同的效度。

常模参照测试与标准参照测试

因此常模参照性测试适用于选拔性测试，在中国比较重要的考试大都是常模参照性测试，如中考、高考、研究生入学考试等。

缺点：（1）常模参照性测试的不足在于常模的效度往往受到受试人群的影响，常模随着受试人群的变化而变化。

（2）学生在常模参照性测试中的表现不能直接说明其在语言中的实际表现。

2. 标准参照性测试（纵向）Carrol, Cronbach, Glaser在1963年发表了三篇论文，提出了标准参照性测试的概念。

与常模参照性测试不同，标准参照性测试在考试之前就已经预先定好了衡量标准，然后根据这些标准来判断学生是否通过和不通过。

标准参照测验和常模参照测验

标准参照测验和常模参照测验一、引言。

在心理学和教育学领域，测验是一种常用的评估工具，用于评估个体的能力、特质、兴趣等。

而在进行测验时，我们常常会听到“标准参照测验”和“常模参照测验”这两个术语。

那么，它们究竟有何不同？本文将对这两种测验进行介绍和比较，帮助读者更好地理解它们的含义和应用。

二、标准参照测验。

标准参照测验是一种通过与标准群体进行比较来评估个体表现的测验。

在进行标准参照测验时，我们会将个体的得分与一个代表整个群体的标准分布进行比较，从而得出个体在某个特定领域的表现水平。

这种测验的优点在于能够提供详细的个体表现信息，并且能够将个体的表现与整个群体进行比较，从而更好地评估个体的表现。

三、常模参照测验。

常模参照测验则是一种通过与同龄人进行比较来评估个体表现的测验。

在进行常模参照测验时，我们会将个体的得分与同龄人的平均得分进行比较，从而得出个体在某个特定领域的表现水平。

这种测验的优点在于能够提供个体在同龄人群中的相对表现水平，帮助我们更好地了解个体的特点和优势所在。

四、比较与应用。

在实际应用中，标准参照测验和常模参照测验各有其适用的场景。

标准参照测验更适用于对个体表现进行详细评估和与整个群体进行比较的情境，例如在选拔人才、评估学习成绩等方面。

而常模参照测验则更适用于对个体在同龄人群中的相对表现进行评估的情境，例如在学业水平评估、发展评估等方面。

五、结论。

总的来说，标准参照测验和常模参照测验在评估个体表现时各有其独特的优势和适用场景。

在实际应用中，我们需要根据具体情境和评估目的来选择合适的测验方法，以更好地评估个体的表现并提供有针对性的帮助和支持。

六、参考文献。

1. Anastasi, A., & Urbina, S. (1997). Psychological Testing. Prentice Hall.2. Reynolds, C. R., & Livingston, R. B. (2013). Mastering Modern Psychological Testing: Theory & Methods. Pearson.3. Hambleton, R. K., Merenda, P. F., & Spielberger, C. D. (2005). Adapting Educational and Psychological Tests for Cross-Cultural Assessment. Lawrence Erlbaum Associates.。

常模标准参照测验名词解释

常模标准参照测验名词解释
常模参照测验是指在心理学和教育学中常见的一种测验方法。

它是根据某个特定的标准或参考来评价个体或团体的表现。

常模参照测验通常将个体的分数与某个特定的常模进行比较，以评估个体在特定领域中的相对位置。

常模通常是由一组具有代表性的样本人群组成，这些样本在某个特定的测验或任务中获得一系列分数。

通过统计方法，可以计算出常模中各种百分位数、均值、标准差等指标，从而为后续的个体或团体评估提供参考。

常模参照测验广泛应用于教育、心理学、社会学等领域，例如智商测试、学术能力评估、职业能力测试等。

通过常模参照测验，可以帮助教师、学生、家长等了解个体在同龄人群中的相对表现，从而制定相应的教育计划和学习目标。

除了常模参照测验，还有标准参照测验和相对参照测验等不同的评估方法。

标准参照测验是根据一定的客观标准来评价个体的表现，例如体育比赛中的评分标准。

相对参照测验则是将个体的分数与自己的过去表现或其他个体进行比较，例如个人的年度绩效考核。

需要注意的是，常模参照测验的适用性取决于常模的代表性、测验的可靠性、有效性以及评估目的等因素。

在选择和使用常模参照测验时，应考虑到这些因素，并遵循相应的伦理和法律规定，以保障被试者的权益和隐私。

总之，常模参照测验是一种常见的评估方法，它通过将个体的分数与某个特定的常模进行比较，以评估个体在特定领域中的相对位置。

常模参照测验广泛应用于教育、心理学、社会学等领域，有助于了解个体在同龄人群中的相对表现，并制定相应的教育计划和学习目标。

在使用常模参照测验时，应考虑到其适用性和限制因素，并遵循相关伦理和法律规定。

第六章-常模与测验分数的解释

评价： 1.能充分利用总体已知信息，提高样本的代表性。 2.花费小。
back

(四)整群抽样聚类抽样先将总体分为若干个群体，随机抽取一些群体，然后以这些群内所有个体构成样本优点：便于实施，节省费用缺点：样本分布面不广，样本对整体的代表性相对较差，抽样误差往往大于简单随机抽样。 back

一、心理年龄
按照儿童心理发展的程度锁定的年龄 20世纪初，比奈提出了将一个儿童的行为与各年龄的水平的一般儿童比较以测量心理成长的设想。在1908年修订的比奈－西蒙量表中开始用年龄做单位来度量智力。要将原始分数变成年龄分数必须有年龄常模。怎样制作年龄常模呢？选择一标准化样组作为常模团体，对常模团体进行测验，得到原始分数，求出每个年龄组的平均分数，这一平均分数就是原始分数，这个年龄组的年龄就是这个原始分数对应的智力年龄。
（二）系统抽样（等距抽样、机械抽样）
将已编好号码的个体排成顺序，然后每隔若干个抽取一个。例如，调查某个年级的学生的心理健康水平，总数为300名，取50 个，每隔6个取一个，则抽取1、7、13、19等。评价：抽样方法比简单随机取样简便易行，而且它能比较均匀地抽到总体中各个部分的个体，样本的代表性比简单随机取样好。样本如果存在周期性变化，样本的代表性则不如简单随机取样。如，前面的调查，如果男生的编号是奇数、女生的编号是偶数，那么抽到的都将是男生，显然这样的样本缺乏代表性。同简单随机取样一样也容易忽略已有信息。如，调查某地区中学生的智力水平，该地区有一所重点中学，人数为199人，其编号是602－800，按照总体和样本大小，决定每隔 200人取1人，则为1、201、401、601、801，以此类推，这样重点中学的同学正好没抽到，显然这样的样本也缺乏代表性。

教育测量的基本方法

教育测量的基本方法教育测量与教学评价是教学活动的重要组成部分，是在教学领域中进行科学管理的重要手段，合理地开展测量评价活动是提高教育质量的有效保证．一、基本概念1．教育测量教育测量有广义和狭义之分．从广义上说，教育测量泛指运用测量手段对教育活动所进行的量的测定。

它涉及的范围很广，凡是需要并能够测量的与教育有关的活动均在研究之列，如教育投入、教育过程各要素、教育的效果等。

从狭义上讲，教育测量专指按一定规则对学生的知识、智能、个性发展、思想品德等所进行的量的测定。

通常所提及的多是狭义上的教育测量。

2. 教学评价教育评价是按照一定标准，运用科学可行的方法，对教育活动所进行的价值判断的过程。

它包括对教学过程和教学效果的评价，诸如学校、教师的教学工作、课堂教学、教学方法、模式和内容以及学生的学业成就、一般智能发展、个性发展、思想品德状况等评价。

3．测验及其种类测验是指对通过一定的仪器和试题所引起的受测者的行为样本进行测量的系统程序。

教育测量的对象和内容是非常丰富的，测验作为教育测量的主要工具，种类也很繁多，可按不同标准加以分类。

按测验的功用分类（1）学绩测验；（2）能力测验；（3）人格测验。

按测验的目的分类（1）诊断性测验；（2）形成性测验；（3）终结性测验。

诊断、形成、终结三种测验对照表按解释分数和方法分类（1）常模参照测验指参照被测群体的实际水平解释分数的测验叫做常模参照测验。

群体的平均分数一般可以反映群体的水平，称为常模。

以常模为参照点，将被测个人的成绩与常模比较，并把比较结果所反映出来的差异数量化，作为导出分数。

参照常模解释分数，便于比较和选拔工作的进行，它属于相对评价的范畴。

例如，在升学考试中，按标准化的要求进行的分数转换就是参照常模得出的。

（2）目标参照测验参照被测达到目标的程度来解释分数的测验，叫做目标参照测验，也称作标准参照测验。

通过与特定的标准进行比较，了解被测的达标程度，这是一种绝对评价方法。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

常模参照测验：是指以学生团体测验的平均成绩作为参照标准，说明某一学生在团体中的相对位置，将学生分类排队。

重在个人与个人之间的比较，主要用于选拔或编组、编班，要求试题难度适中，尽量对所有学生都有较强的鉴别力和区分度。

常模参照测验以鉴别学生个别差异为指导思想，目的是为了测得学生在所处团体中的相对水平。

常模实际上即是该团体在测验中的平均成绩，学生成绩便是以常模为参照标准来确定的。

这一测验衡量的是学生的相对水平，故其评分属相对评价范畴。

标准参照测验又称目标参照测验，标准参照测验是用来衡量学生是否达到预期教学目标的测验。

测验将个人分数与特定的标准相比较，评价学生是否合格，而不考虑学生在团体中的相对位置，故常用绝对评分方式记分。

标准参照测验是指以体现教育教学目标的标准作业为准，看学生是否达到标准以及达到标准的程度。

它主要不是用于比较个人之间的差异。

如我国高中会考及教师自编测验。

利用它可具体了解学生对某单元的知识、技能的学习和掌握情况。

标准参照测验，它是指依据某种特定操作标准可以直接解释测量结果的测验。

操作标准一般可以通过界定个体所应该完成的任务确定。

对标准参照测验来说，他的分数解释是以界定良好的任务或行为领域为基础的，是与预先设计的特定标准相对照所确定的，有了这个条件，我们便可以从较少的有代表性的测验题目的反应情况，推断出被试的真实水平。

用目标表示领域，并且题目是该领域中行为的有代表性样本，这时目标参照测验就是标准参照测验。

标准参照测验主要用于鉴定的目的。

能力评估与传统评估的不同点之一就在于，原有学习技术系统侧重的是常模参照的评价，而能力导向的评估与认证强调的乃是基于能力标准的评估，而很多能力标准的都用一些模糊的词汇加以描述，比如“理解”“掌握”“能够”，所以在能力评估的过程中也很难把握，很难给其一个质性的评价，所以能力标准的细化描述成为能力评估有效实施的关键。

常模参照测验

参照常模的分数解释

常模参照评价、标准参照评价、个体内差异评价

心理测量学重点

第七章 测验分数的解释与应用

PETS的含金量高吗

心理与教育测量 重点

第十章 目标参照测验1

常模参照测验和标准参照测验名词解释

常模参照测试与标准参照测试

发展与教育心理学考核要求：第十五章 学习的测量与评价

常模参照与标准参照测验分数的解释方式

谈一谈教育测量的性质、功能及在实际中的应用？教学文案

2.2效度

常模参照测试与标准参照测试

标准参照测验和常模参照测验

常模标准参照测验名词解释

第六章-常模与测验分数的解释

教育测量的基本方法

第七章测验分数的解释与应用

心理与教育测量重点

第十章目标参照测验1

发展与教育心理学考核要求：第十五章学习的测量与评价