第六章测验的项目分析
第六章 测验的项目分析
• 信度和效度分析是对测验质量的整体评价。 • 项目分析是对测验中每一个测题的质量进 行的分析。 • 项目分析的目的是通过分析改进项目统计 量进而提高测验的信度和效度。 • 项目分析包括分析质的分析和量的分析。
第一节 项目的难度
一、难度的意义
• 难度一般是指测验项目的难度,当然 也可指一个测验的难度。后者是其所 包含的所有测题难度的综合指标。我 们这里所讲的是项目的难度。 • 从心理学角度看,难度是被试在作答 项目时心智操作感到的难易程度。
• 提出者 – 美国测验学家:伊贝尔(L. Ebel)
测题鉴别指数与评价标准
区分度(D) 0.40以上 0.30-0.39 评 价
非常良好 良好,如能改进则更佳
0.20-0.29
0.19以下
尚可,仍需再改进
劣,必须淘汰或加以修改
极端组的划分
• 高低组的比率介于25%---33% • 标准化测验采用27% • 样本人数过少时,可以用50%作为分界点。 • 此方法只利用了一部分信息,精确性差一 些。
(二)非0、1记分项目
X P X max
某题的 平均得分
该题的 满分值
例4-4:某试卷中一 论述题为20分,10 名参加测验者得分为 10、18、14、8、 18、3、14、10、 9、8。试问该题的 难度是多少?
112 X 11 .2 10 11 .2 P 0.56 20
• 2、极端分组法
三、区分度与难度的关系
• 难度是区分度的必要条件
– 难度愈接近.50,试题区别作用愈大。 – 较难项目,对高水平被试区分能力高 – 较易项目,对低水平被试区分能力高
– 中等项目,对中等水平被试区分能力高
心理测量学第六章-测验题目性能与题目编写(项目分析).PPT
③选择题适合考查较低层次的能力,如识记能 力、较低的理解能力等,而不宜考查较高层 次的能力,如综合能力、创造性和独立思维 能力。
一、区分度的定义
(一)定义 ❖ 测验项目对所测量的心理特性水平差异的区分能力或鉴别。 (二)作用 ❖ 测验是否有效度的“指示器”。 ❖ 若区分度高,则水平高者得分高,水平低者得分低;若区分
⑤行为情景判断题设问方式一般有四种形式: 一是要求受测者选择最优行为项,二是要求 受测者选择最差行为项,三是要求受测者同 时选择最优和最差行为项,四是要求受测者 针对每一行为项的有效性做出评价。应根据 实际选择具体方式。
第二节 测验题目的难度与难度控制
一、难度的定义 二、难度的计算 三、测验难度水平的确定 四、难度的等距变换 五、测验的难度对测验分数分布的影响
的差异等于第2题和第3题间的差异。 (二)解决方式:等距变换,即把难度P转换成标准分数Z。 ❖ Z分数(0,+1σ)约占全体人数的34%,(1σ,2σ)间占全体人数的
13.5%。 ❖ 项目A通过率为84%(难度为0.84),难度值为-1σ。 ❖ 项目B通过率为16%(难度为0.16),难度值为+1σ。 ❖ 项目C通过率为50%(难度为0.50),其难度为0。
②论述题和计算题不仅能够考查考生较低层次的能 力目标,而且能够比较好地考查较高层次的能力 目标。
③论述题和计算题能够反映考生的思维过程,因而能 比较有效地考查考生接受信息、鉴别和选择信息的 能力,分析、推理、综合应用知识的能力,能鉴别 出考生对问题解决的程度。
第六章 身体素质测评2
第四节
柔韧素质的测定
柔韧素质是指人体关节活动幅度的大小以 及跨过关节的韧带、肌腱、肌肉、皮肤及 其他组织的弹性和伸展能力。 影响柔韧素质的因素有骨关节结构、跨过 关节的肌肉、肌腱和韧带、神经过程的灵 活性、肌肉的温度,以及年龄、性别等。
一、柔韧素质的分类
根据肌肉的外部运动状态,柔韧素质可以分为两 类。 1.动力性柔韧性:肌肉、肌腱、韧带根据动力性 技术动作的需要,拉伸到解剖学允许的最大限度 能力,随即利用强有力的弹性回缩力来完成所要 完成的动作。所有爆发力前的拉伸均属于动 力性柔韧性。例如扣排球前的背弓姿势。 2.静力性柔韧性:肌肉、肌腱、韧带根据静力性 技术动作的需要,拉伸到动作所需要的位置角度, 控制其停留一定时间所表现出来的能力。例如体 操中的控腿、俯平衡动作、"桥"、劈叉,体育舞 蹈中的各种型;跳水运动员保持体前屈的姿势等 就是这种能力的体现
中国20-24岁男女生10米X 4往返跑 百分位数评价表(秒)
(2)十字跳
目的:测量受试者变换方向跳和灵活控制身体的 能力。 对象:7岁至大学男女生。 场地器材:在平坦的地面上划两条相互垂直的交 叉线,形成四等分,标明1、2、3、4四个区。备 好计时秒表。 测量方法:受试者听到口令后,由起点以双腿跳 入l区,并连续跳至2、3、4区,再跳回1区,连续 跳10秒钟。记录10秒内跳的次数,每次给1分, 每跳错1次(例如错格、踩线,双脚不同时起跳或 落地)扣0.5分,受试者因意外中断动作或特殊原 因影响成绩时,允许重测1次。
114.9-102.0
101.9-87.0
86.9-74.0
73.9以下 以下
35-39
130.0-120.0
119.9-106.0
105.9-90.0
第六章 智力测验
(1)韦克斯勒:”智力是一个假设的结构,是一个人有目的地 行动,合理地思维,并有效地处理周围事物的整体能力。“
(2)斯腾伯格:”智力是从经验中学习和获益的能力,抽象思 维和推理能力,适应不断变化、模糊多样世界的能力,以及激励 自己有效地完成应该完成的任务的能力。
4、韦氏幼儿智力量表(WPPSI)1967年。适用于4-6岁半 的儿童 。
韦克斯量表有许多优点,主要的如:
(1)便于测量各种智力因素; (2)测验的年龄覆盖范围大; (3)测量的智力范围广; (4)应用范围大。 缺点或不足之处。如
(1)三套量度表难度的衔接不好。如追踪测量, 先作儿童量表后作成人量表时,后者的智商往往 高于前者很多(排除了学习效应因素)。
(2)分测验中有些起点偏高,可能由于取样时 排除了智力低下的人,所以不便于测量低智力的 受试者。
四、非言语智力测验
(一)希-内学习能力测验(Hiskey-Nebraska Test of Learning Aptitude, H-NTLA).
➢ 1944年编制,对象:聋哑儿童,1955年发表了正常儿 童的标准化量表。
年龄换算
1、测查日期减去出生日期; 2、从3个月1天到8个月30天,为半岁; 3、前一年9个月1天到下一年2个月30天为整岁。 4、中国常模年龄组:5岁半、6岁、6岁半、7岁、7岁
半、8岁、8岁半、9岁、9岁半、10岁、10岁半、11 岁、11岁半、12岁、12岁半、13岁、13岁半、14岁、 14岁半、15岁、15岁半、16岁、16岁半、17岁、20 岁、30岁、40岁、50岁、60岁、70岁; 5、17岁组指0月1天至19岁11月31天;20岁组指20岁0 月1天至29岁11月30天;以此类推。70岁组指大于或 等于70岁1天。
汽车设计第六章 测验题
第六章测验题(一)一、名词解释(每题3分,共15分)1、悬架的动挠度2、满载弧高3、悬架的弹性特性4、侧倾中心5、车厢侧倾角二、选择题(每题5分,共40分)1、为了改善轴转向带来的不利影响,一般将前后钢板弹簧的前后吊耳布置成()。
(A)前钢板弹簧吊耳前高后低,后钢板弹簧吊耳前高后低(B)前钢板弹簧吊耳前低后高,后钢板弹簧吊耳前高后低(C)前钢板弹簧吊耳前高后低,后钢板弹簧吊耳前低后高(D)前钢板弹簧吊耳前低后高,后钢板弹簧吊耳前低后高2、汽车采用了横向稳定器,就()。
(A)在不增大悬架垂直刚度的条件下,增大了悬架的侧倾角刚度。
(B)在不增大悬架垂直刚度的条件下,减小了悬架的侧倾角刚度。
(C)在增大悬架垂直刚度的同时,也增大了悬架的侧倾角刚度。
(D)在增大悬架垂直刚度的同时,也减小了悬架的侧倾角刚度。
3、纵置钢板弹簧()。
(A)只能传递垂向力(B)只能传递纵向力(C)只能传递三个方向的力(D)能够传递各种力和力矩4、汽车驱动时,钢板弹簧悬架的最大应力出现在()。
(A)前钢板弹簧的前半段(B)前钢板弹簧的后半段(C)后钢板弹簧的前半段(D)后钢板弹簧的后半段5、麦弗逊式前悬架的主销轴线是()。
(A)上下球头销中心连线(B)螺旋弹簧中心线(C)减振器中心线(D)滑柱总成中心线6、悬架静挠度是指()。
(A)汽车空载静止时悬架上的载荷与此时悬架刚度之比(B)汽车空载静止时悬架的垂直位移(C)汽车满载静止时悬架上的载荷与此时悬架刚度之比(D)汽车满载静止时悬架的垂直位移7、在独立悬架中,汽车的侧倾轴线()。
(A)应前低后高(B)应前高后低(C)应大致与地面平行,且尽可能离地面低些(D)应大致与地面平行,且尽可能离地面高些8、具有独立悬架的转向驱动桥,()。
(A)转向轮一侧采用Birfield型万向节,差速器一侧采用伸缩型球笼式万向节(B)转向轮一侧采用伸缩型球笼式万向节,差速器一侧采用Birfield型万向节(C)转向轮和差速器一侧均采用Birfield型万向节(D)转向轮和差速器一侧均采用伸缩型球笼式万向节三、问答题(共45分)1、钢板弹簧长度L的选取与哪些因素有关?(7分)2、独立悬架性能的评价指标有哪些?(7分)3、矩形断面钢板弹簧的工作状态如何?非矩形断面结构有什么特点?(7分)4、试画图分析汽车的轴转向效应。
第六章 人员素质测评
第六章人员素质测评第一节人员素质测评概述1、简述素质的涵义?答:素质是指个体为完成某项活动与任务所具备的基本条件和基本特点,是行为的基础与根本因素。
它包括身体素质和心理素质等方面。
2、简述素质的冰山模型?答:所谓冰山模型,就是将人员个体素质的不同表现形式划分为表面的“冰山水上部分”和深藏的“冰山水下部分”。
其中,“冰山水上部分”包括基本知识、基本技能,是外在表现,是容易了解与测量的外线部分,相对而言也比较容易通过培训来改变和发展。
而“冰山说下部分”包括角色定位、价值观;自我认识、品质与动机,是内在的、难以测量内隐的部分。
它们不太容易通过外界的影响而得到改变,但却对人员的行为与表现起着关键性的作用。
如下图:素质的冰山模型3、简述素质的洋葱模型?素质的洋葱模型素质洋葱模型中的核心要素由内至外分别是动机和个性、自我认知与社会角色、价值观、态度、知识、技能等,个性是指个人典型的稳定的心理特征的总和;动机是引起、维持和指引人们从事某一活动的内在动力;自我认识是指个人对于自身能力和自我价值的认识;社会角色是指个体在社会中的地位、身份一级和这种地位身份相一致的行为规范;价值观是指一个人对周围客观事物的意义、重要性的总体评价和总看法;态度是个体对待客观事物所持有的一种持久而一致的心理和行为倾向;知识是指个体在某一领域所拥有的陈述性知识和程序性知识;技能是指个体运用知识完成具体工作的能力。
所谓洋葱模型,是把胜任素质由内到外概括为层层包裹的结构。
越向外层,越易于培养和评价;越向内层,越难以评价和习得。
4、简述人员素质测评的含义?答:人员素质测评是指,测评者采用科学的测量方法和手段对被测评者的身体素质和心理素质进行测量和评价的过程。
人员素质测评包括“测”和“评”两层含义。
“测”指测试,是以量化的方式对人的能力水平及倾向、个性特点和行为特征等进行测量。
“评”指评价,是以定性化的方式对人的能力水平及倾向、个性特点和行为特征等进行评价。
心理测量的复习大纲
心理测量的复习大纲心理测量大纲.第一章:第一节一般测量概述1、测量的概念:依据一定的法则使用量具对事物的特征进行定量描述的过程。
2、影响测量精确的因素:一、测量对象本身的性质。
①确定型(物体的长度)。
②随机型(人的短时记忆容量)③模糊型,即事物本身的量是模糊不定的(人的性格特征)二、测量的精确度取决于测量工具的精确性。
3、根据测量的性质和不同的特点,可以将不同形式的测量大致分为4种类型。
①物理测量:及对事物物理特征的测量。
长度,重量等。
②生理测量:对机体生理特征的测量。
如对动植物各种化学成分含量的测量。
③社会测量:即对社会现象的测量,如人口普查。
④心理测量:对人的心理特征的测量。
如智力、人格测量。
4、任何测量都必须具备两个基本要素:参照点和测量的单位。
其中参照点分为绝对参照点和相对参照点。
5、测量的量表:能够使事物的特征数量化的数字的连续体就是量表。
量表可以分为四种:①命名量表:用数字代表事物或用数字对事物进行分类。
命名量表又分为名称量表(用数字指代个别事物)和类别量表(用数字指代事物种类)。
②顺序量表:按照事物的大小,等级,程度而排列数字的量表。
③等距量表:不仅能够指代事物的类别,等级而且具有相等的单位。
等距量表的数字是一个真正的数量,这个数量中各个部分的单位是相等的。
因此可以对其进行加减运算。
等距量表没有绝对的零点。
它的零点是人们假定的相对零点。
对于等距量表的两个数不能进行乘除运算。
④比率量表:除了具有类别、等级、等距的特征外,还有绝对的零点。
第二节心理与教育测量的性质1.、心理与教育测量的定义:依据一定的心理学和教育学原理,使用测验对人的心理特质和教育成就进行定量描述的过程。
其独特的性质:①心理与教育测量依据的法则在很大程度上只是一种理论,很难达到如同物理测量依据的法则那样普遍被人们接受的水平。
②心理与教育测量的对象是人的心理特质和教育成就。
③心理与教育测量的量具市有关领域的专家编制,经过长期的试用,修订,完善而逐渐形成的标准化测验。
心理与教育测量第六章
特 其分数式中别。:代表PPH 和高 低PHP分L2组分PL答别对代人表=数高(R,分H/组NNH与H和+低NRLL分分/N组别L)的代/2通表过高率低。分组RH总和人RL
编辑ppt
6
举例:请分别用通过率法和高低分组 法计算下列两题难度
编辑ppt
7
计算公式
其中p、q为答对和答错的人数比率。 和答错该项目的被试的总分平均数, 准差。
与 对应于答对 为所有X 被p 试X总q 分的标
x
编辑ppt
17
举例:请计算该题区分度
编辑ppt
18
(二)二列相关
适用范围
题分和总为均为连续变量,但人为地将其中一个变量 (既可以是总分,也可以是题分)区分为二分变量(例 如,将总分为及格和不及格两类)。
心理与教育测量
编辑ppt
1
第六章 测验的项目分析
测验项目的难度 测验项目的区分度分析 猜测问题与猜测率 多重选择题的项目分析
编辑ppt
2
第一节 测验项目的难度
难度的意义 项目难度的计算 测验难度水平的确定 难度的等距变换 难度对测验的影响
编辑ppt
3
一、难度的意义
难度分类
项目难度和测验难度。本章主要讲项目难度。
2、对于正确答案
主要考察高分组和低分组被试在正确答案上的选答率是否是 正差,及这一差距是否足够大。只有当高分组和低分组被试 在正确答案上的选答率是正差,且这一差距足够大时,这时 题目质量较佳。
编辑ppt
43
3、对距是否足够大。只有当高分组和低分组被试在正确 答案上的选答率是负差,且这一距差足够大时,这时干扰项 的设置比较合理,否则干扰项设置不合理,应对干扰项进行 删除或修改。
第6章_能力测验
6.1 一般能力测验 6.1.1一般能力测验概念 一般能力是指个性方面智力系统特点而 言的,这种能力是人从事任何活动所必需 的基本能力,例如感知能力、观察力、注 力。一般能力测验,也就是智力测验。这 种智力测验不同于知识测验,而是智力测 量,是心理测量的一种。
6.2.2 招聘选拔中常见的一些能力倾向测验 6.2.2.1 一般能力倾向成套测验(GATB) 它由15种测验项目构成,其中11种是纸笔 测验,其余4种是操作测验,两种测验可以测定 9种能力倾向。这9种能力倾向对完成各种职业 的工作都是必要的。即: (1)智能(G)。指一般的学习能力。对 测验说明、指导语和诸原理和理解能力、推理 判断的能力、迅速适应新环境的能力。 (2)言语能力(V)。指理解言语的意义 及与它关联的概念,并有效地掌握它的能力。 对言语相互关系及文章和句子意义的理解能力。 也包括表达信息和自己想法的能力。
3.韦斯曼人员分类测验 这也是一种集体测验,测验大约30分 钟。测验有语言部分分数、数字部分分数 和总分,并且提供推销员、生产监工和行 政培训生的常模。测验的语言部分是一种 类推形式。
4.韦克斯勒成人智力测验 韦克斯勒成人智力测验量表包括语文和作业 两个量表。 (1)语文量表包括常识测验、理解测验、算 术测验、记忆广度测验、类比测验、词汇解释测 验六个分测验。 (2)作业量表包括符号替代、图形补充、 图形设计、连环图系、物形配置五个分测验。 共有测验题311个,适用于16岁以上的成人。 在招聘时主要用于高级人员的挑选。
2.韦克斯勒智力量表 韦氏量表包括言语和操作两个分量表, 言语分量表包括常识、理解、算术、类同、 词汇和背数(又称数字广度)6个测验项目; 操作分量表包括填图、图片排列、积木图 案、拼图、译码和迷津6个分测验。
教育科学研究方法第六章课后练习参考答案
《教育科学研究方法》第六章课后练习参考答案第六章观察法与测验法一、名词解释:1、参与性观察------是指参与到被观察者的生活和活动中去,在活动中有意识地观察。
2、非参与性观察------指不介入被观察者的生活和活动,而是冷静旁观。
3、有结构性观察------是指对于观察的内容、程序、记录方法都进行了比较细致的设计和考虑,观察时基本上按照设计的步骤进行,对观察的记录结果也适于进行定量化的处理。
4、无结构性观察------是指在事先没有严格的设计,比较灵活、机动,能够抓住观察过程中发现的现象而不必受设计的框框的限制,但是难以进行定量化处理。
5、时间取样------是指选取某一段时间作为观察记录的对象。
6、事件取样------是指选取某一类事情作为观察的对象。
7、观察策略------广义的观察策略是指在运用观察法的整个过程中所使用的方法和要求,狭义的观察策略是指在实施观察的过程中所使用的方法和要求。
8、观察法------是研究者凭借自身的感觉器官和其他辅助工具,在教育活动的自然状态下,对研究对象进行的有目的、有计划的考察与研究的方法。
9、测验------是一种系统化了的程序,在这个程序里,受测者对编制得较好的一组刺激作出反应,施测者可藉此引起对受测者所测的特质进行数量的描述。
10、难度------指测验的难易程度。
11、区分度------又称鉴别度,是指每一题目所测量的心理特性的区分程度。
12、常模------是解释分数的依据,是一个标准测验量表所必须的。
13、信度------即测验的可靠性,亦指测验结果的一致性或稳定性。
14、再测信度------同一测验前后两次施测于同一组被试,根据受测者前后两次测验分数计算所得相关系数为再测信度。
15、复本信度------如果测验有两个或两个以上的复本,先后对一组被试施测两个复本测验,这样可得到两个分数,两个分数的相关系数,称为复本信度。
16、分半信度------当题目数相当多,又奇偶题同质,在没有复本的情形下欲考察测验的信度,通常是将受测者的分数按题目的单双数分成两半计分,然后选用恰当的方法计算相关系数,称为分半信度。
第六章项目分析
3.分数正偏态分布是说明测验较难还是相 对比较容易?
分数分布形态:负偏态
『想一想』负偏与难度关系?
1.大家想一想,测验分数分布是负偏态分 布,说明了什么情况?
2.大部分被试的得分是比较高还是比较低 ?
3.分数负偏态分布是说明测验较难还是相 对比较容易?
2.负偏态分布:即大多数被试的得分集中 在高分端,说明题目偏易,应该增加一些 较高难度的项目。
分数分布形态:正态
六、难度水平的确定
项目的难度水平多高合适,取决于测验的 目的以及测验的性质。
1.当测验为教育测验和总结性测验时,可 以不过多考虑难度,只要教育者认为重要 的内容就可选用。
2.当测验目的是选拔录用人员时,难度视 录取率而定。
现已知有80人参加某一个测验,其中答对 第一题的人数是32人,答对第二题的人数 是48人。
请问: 1、这两道题的难度差距是多少?
第二节 测验的区分度 Test discrimination
一、区分度的意义:项目的效度
(一)区分度(discrimination):又称 鉴别力,是指测验项目对被试心理品质水 平差异的区分能力或鉴别能力。
题组成的,其中第一题上端27%的被试 P=0.75,下端27%的被试P=0.35,它的鉴 别力多大,该题可以接受吗 该怎样作答?
3.项目特征曲线:
1.00
A
通 0.50 过 率
0.00
低
B
C D
中
高
能力
项目特征曲线分析:
题号
1 2 3 4
质量评价
? ? ? ?
态度
? ? ? ?
项目特征曲线分析:
一、难度的意义
第六章t测验-PPT课件
3、两个样本平均数差异的假设测验
Hale Waihona Puke 测验两个样本平均数差异是否显著,就是由两个样本平均数 之差测验这两个样本所属总体平均数是否存在显著差异,实 际上是测验两个处理的效应是否一样。测验方法因试验设计 的不同,而分为以下两类:
这是测验某一样本平均数 与一已知总体平均数是否有显著差 异,实际上是测验某一处理是否有效。当总体标准差σ为已 知(如前节中小麦产量一例),或σ虽未知,但为大样本(n >30)时用μ测验,当σ为未知,且小样本( n <30 )时, 用t测验。 【例6.1 】某地杂交玉米在原种植规格下一般亩产350kg。 现在为了间套作改变成一新种植规格,在新种植规格下8个小 区的产量折合成kg /亩为:360,340,345,352,370, 361,358,354。问新种植规格和原种植规格下玉米产量 差异是否显著?
查 附 表 3 , t 2 . 3 6 5 。 t 1 . 4 9 1 t 2 . 3 6 5 , 故 P > 0 . 0 5 。 0 . 0 5 ( 7 ) 0 . 0 5 ( 7 )
(4)统计推断 不能否定H0 :μ=350 kg,认为改变种植规格后
的玉米产量与原种植规格的玉米产量与原种植规格的玉米产量
因而其右尾从t到+∞的面积(概率)为1
t
6.5
-Fdf(t)。
由于t分布左右对称,其左尾从-∞到-t的概率也为 2[1-Fdf(t)]。附表3的表头概率就是这样计算出的两 尾概率值。
附表3中,第一列为自由度df,表头为两尾概率 值,表中数字乃临界值t值。例如,df=3时,查 的两尾概率值等于0.05的临界t值为t0.05= 3.182。 这表明,右尾(t=3.182到+∞ )概率和左尾 (t= -∞到-3.182 )概率均为0.025,两尾概率 之和等于0.05.由附表3知,在df不变下,概率P 值越大,临界t值越小;P越小,t越大。因此,在 做两尾测验时,当算得的|t|≥tα (df);则表明实 际差异属于随机误差的概率P≤α ,因而应在α 水 平上否定H0。反之,若|t|< tα (df),则P>α ,应接 受H 0。
心理测验技能 第六章 测验常模
(四)应用 • 1.比较不同质数据在其各自团体中位置的高低。
位置的高低指的是: (1)数据距离平均数的远近、方向。 (2)在该数据以上或以下位置的数据的个数。 • 2.计算不同质的观测值的总和或平均值,以表示在团 体中的相对位置。(使得不同质的数据间具有可比、 可加性。) • 3.可用于标准测验分数。 • 以上所讲实质上是线性转换的标准分数。
PR
100 100R 50 N
R:排名顺序的序号, N:被试总人数 例:P137
2、分数分组时(针对分数已被处理为次数分布表)
PR
100 N
(X
L) f i
Fb
X:被试原始分数
L:原始分数所在组下限
f:原始分数所在组的次数 Fb:原始分数所在组以下各组次数之和
i:组距
四、标准分数的变式 • T分数:T=10Z+50 • 平均数是50,标准差为10。 五、标准九分数 • 其量表是9级分数量表(1-9)。 • 以1为间距,它是以5为平均数,以2为标准差的
一个分数量表。
第二节 常模编制
• 什么叫做常模? 一、常模与常模团体 • 常模的定义:(3种)
1、指根据标准化样本的测验分数经过统计处理而建立起来 的具有参照点和单位的测验量表。 2、指常模团体的测验分数分布情况。 3、把个人得分与某一群体已经达到的平均成绩作比较,这 个平均成绩就是常模。 • 常模团体:指在参照常模解释分数的时候,被作为参照的 群体。(或指由具有某种共同特征的人所组成的一个群 体。)
IQ=心理年龄(MA)/实足年龄(CA)×100
• 所以IQ=100代表智力的一般水平,高于100代表发展 迅速,低于100代表发育迟缓。
• 计算:如果一个5岁儿童的智龄为6.6,那么他的智商为 多少?
第六章 难度
这个校正公式特别适用于在各个题目的选项数目不同,而又要 比较它们的难人数很多.用原始定义法计算项 目难度比较麻烦,这时可以采用极端分组法计算难度。 极端分组法是根据测验总分按高低次序排列,用两极端组在某项 目上的平均通过率表示项目的难度。极端分组法计算项目难度的公 式为:
在确定高分组和低分组时,如果测验总分的分布符合 正态分布,则最恰当的比例是高分组与低分组各占总人数 的27%;如果分布较平坦,高、低分组可各占总人数的 33%;各类标准化测验通常取的比例为27%。一般测验 取高、低分组的比例介于25%一33%的幅度即可。 例如,有l00名学生参加某一测验;高分组与低分组各 取27人,其中第1题高分组答对的有20人,低分组答对第 1题的有10人。这道题的难度是多少?
难度为+1σ, 0, -1σ的三个项目Z值经转换后难度△分别 为: △1=13十4 x (+1)=17 △2=13十4 x (0)=13 △3=13十4 x (-1)=9 △值的上限为25,即△=13十4×3=25,这是由于在 平均数以上三个标准差的地方几乎包含了全部人数。△值 的下限为1,即△=13十4x(一3)=1。因为平均难度为13, 所以不会出现负值。△值越大,难度越高;△值越小,难 度越低,这正符合人们对难度本身理解的习惯。 上述三个项目难度P值分别为0.60,0.55,0.50,转换 为Z值分别为一0.255σ,-0.13σ,0σ,再转换为△值分别 为:△I=13十4×(一0.255)=11.98, △2=13十4×(一0.13)=12.48, △3=13十4×0=13。 转换所得纳△值,可用来计算整个测验中所有项目的平 均难度。
一平均分数法当测验项目为非二分法记分时也就是说对项目不能简单地判定对错或通过不通过时一般采用下面的公式计算项目难2412一平均分数法当测验项目为非二分法记分时也就是说对项目不能简单地判定对错或通过不通过时一般采用下面的公式计算项目难一平均分数法当测验项目为非二分法记分时也就是说对项目不能简单地判定对错或通过不通过时一般采用下面的公式计算项目难二极端分组法对主观性试题如果考生人数较多计算项目难度时显得非常麻烦于是可用下列公式来计算难度
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 项目鉴别指数的评价 标准(Ebel): 结合测验的目的、 功能、被试的总体水 平等,不能把区分度 作为筛选试题的绝对 标准。
第三节 项目分析的其他指标
一、关于猜测度的分析
• 关于猜测度的问题是“两派三家”:
– 一派:被试在考试中没有猜测
• 只要被试有正确作答的愿望,就必然会看题目,就 会进行信息加工,只要不是随机猜测,这样的话, 就应该鼓励大家去猜。
二、具体步骤
• • • • 分析试题内容 计算区分度 计算难度 选项分析
• 求高低分组在 所有项目, 所有项目,所 有选项上的选 答率 • 列表 • 分析:逐个项 分析: 目地进行分析
三、修改
• 题目太难,常常是诱答项的迷惑性太强, 因此要将诱答项的迷惑性降低一些;反 之,则应提高诱答项的迷惑必一。 • 迷惑项的选答率要较均匀,修改过程中 要将高的降低些,低的提高些。一般而 言,正答项的选答率在0.40左右,诱答 0.40 项的每一项的选答率在0.15-0.20左右。 • 特别要注意的是:正答项高低分组的选 答率为负差,一定要改正。可能的原因 是该答案出错了,还有可能是另有一个 正确选项,再一个可能是该题与整个测 验所测心理品质相去甚远。
这一难度定义好象 有点问题? 有点问题?
二、难度的计算
• 以全体被试得分率为难度,记为P(Pass)
二分法记分项目的难度 1、通过率 P=R/N 2、极端分组法 非二分法记分项目的难度
• 例:计算难度指数的例子:
学生 第一题 第二题 A B C D E F G H I J 满分 3 1 平均分 1.7 0.6 得分率 0.5667=1.7/3 0.6=0.6/1
– 另一派:被试在考试中有猜测
• 一家:某题的猜测度,如果是四选一的选择题,其 猜测的可能性就是1/4。所以为了防止猜测,主张倒 扣分。(倒扣与不倒扣有没有区别?) • 另一家:不能以随机的方式去估计,并不是所有被 试都会去猜,只有试题难度与被试水平差异大时, 才会猜。如果能力与试题难度相配或超超过该题难 度时,是不会去猜的。
• 计算题分与总分的相关系数 • 例:8名学生在某题上的得分及测验总分如下表, 求项目区分度。
学生 某题得分 测验总分 1 6 34 2 10 36 3 6 35 4 8 37 5 9 6 7 7 3 8 5 29
42 30 27
解:rxy = =
2 2 S x2 + S y − S D
2S x S y
国外进行DIF研究的内容
• 方法的开发。现在已有大量适用 方法的开发。 于不同背景的方法; 于不同背景的方法; • 方法的比较,以探讨各种方法的 方法的比较, 效率及优缺点, 效率及优缺点,帮助使用者选择 适用的方法; 适用的方法; • 用检测项目功能差异的方法对各 种测验的项目进行分析, 种测验的项目进行分析,确定有 功能差异的项目, 功能差异的项目,分析项目存在 功能差异的原因,形成最大可能 功能差异的原因, 原因的假设,并加以论证。 原因的假设,并加以论证。
五、项目难度分布的选择
• 常模参照测验
– 测验难度在0.50左右。
• 选拔测验
– 要求在录取线附近具有最强的鉴别能力。 – 对于选拔点左右的人而言,题应具有0.50左右的难度。
90% 10%
针对这部分考生而言,难度在 0.5左右时,有最大的区分度。
• 目标参照测验
– 关键看某学科应掌握的必备知识与能力要求是哪些。 – 一种特殊的选拔测验——选拔合格的人。
• 区分度的实质:题分与总分的一致性程度,或者 说就是它们的相关系数。 • 区分度的值域:D∈[-1,+1]
二、区分度的计算
• 计算题分与总分的相关系数 • 例:10名被试在某测验第一题上的作答情况与测 验总分如下表所示,计算该题的区分度。
学生 测验得分 第一题得分 1 0 0 2 1 1 3 2 1 4 3 1 5 6 3 5 0 1 7 6 1 8 9 6 6 1 1 10 8 1
二、DIF分析
• DIF是Differential Item Functioning的缩 小,常被译为项目功能差异; • DIF定义为:对于某个特定项目,如果在来 自同一目标特质的两批平行被试组中,显 现出不同的统计特性,那么该项目就存在 功能差异。
• 1、客观测验题中的猜测问题与 猜测率 • 2、项目难度受猜测影响的校正 • (1)猜测校正的性质与公式 • (2)猜测校正的优点 • (3)对猜测校正的争论
3 2.5 1 1
3 1.5 2 1 0 1
0 1.5 1 0 1 0
2 0.5 1 0
• 测验难度如何计算? 测验难度如何计算?
三、难度转换为等距变量
• 将得分率P转换为标准分数Z:P→Z
• 例如:P1=0.5,P2=0.6, P3=0.7的三道题的平均难度为多少? ↓ ↓ ↓ Z1=0, Z2=-0.25,Z3=-0.52 • ETS(Educational Testing Service)进上步将Z转换为 ∆(delta):∆=13+4Z
解:p = 0.8
1+ 2 + 3 + 5 + 6 + 6 + 6 + 8 = 4.625 8 0+3 q = 0.2 X q = = 1.5 2 X p − Xq 4.625 − 1.5 rpb = ⋅ p⋅q = ⋅ 0.8 × 0.2 = 0.5102 St 2.45 Xp =
二、区分度的计算(续)
第六章 测验的项目分析
第一节 项目的难度
一、难度的意义
• 难度一般是指测验项目的难度,当然也可指一个测验的难 度。后者是其所包含的所有测题难度的综合指标。我们这 里所讲的是项目的难度。 • 从心理学角度看,难度是被试在作答项目时心智操作感到 的难易程度。 • 一个测验项目,如果大多数人 能答对,则该项目的难度就小; 如果大部分人都不能答对,则 该项目的难度就大。 – 在这里,难度是题目的性质 和被试水平共同作用的结果。
DIF分析(续)
• “同一目标特质的两批平行被试组”是 同一目标特质的两批平行被试组” 指在测验打算测查的能力(目标特质) 指在测验打算测查的能力(目标特质) 两组被试具有相同的水平。 上,两组被试具有相同的水平。 • 在DIF的实际研究中,总是会人为地把被 DIF的实际研究中 的实际研究中, 试分为两组,分别称为参照组和目标组。 试分为两组,分别称为参照组和目标组。 • 划分被试依据一般有:性别、地域、民 划分被试依据一般有:性别、地域、 职业、年级、社会经济地位等。 族、职业、年级、社会经济地位等。 • 衡量参照组与目标组的被试是否具有相 同能力水平的变量就称为匹配变量。 同能力水平的变量就称为匹配变量。
4.4375 + 20.9375 − 10 2 × 2.1065 × 4.5758 =0.7975
二、区分度的计算(续)
• 项目鉴别指数 D = PH − PL
– 该方法是采用极端分组法求项目区分度
• 采用该方法的原因:
– 简单,易理解 – 不同相关计算方法的结果不可直接比较,本 方法在各种条件下都可用。 – 不足:丢失了一部分信息。Βιβλιοθήκη 四、测验项目难度对测验的影响
• 艾伯尔(Ebel)等测量学专家的实验: – 自编三份试卷,难度分布不一样:
• 卷一:两极端式(没有中间难度的题目) • 卷二:均匀分布(各种难度的题目个数差不多) • 卷三:在0.50左右(所有题目都是中等难度)
– 测验结果: • 结论:
– 项目难度的分布会影响 测验分数的分布形态 – 项目难度分布会影响测 验分数的离散程度 – 项目难度会影响测验的 信度 – 项目难度分布会影响测 验项目的区分度
第二节 项目的区分度
一、区分度的意义
• 定义:指测验项目对被试心理品质水平差异的区 分能力,记为“D”。 • 意义:测验目的就是将被试的水平加以区别,项 目应为这一目的作贡献。区分度就是针对这种功 能的度量指标。 • 区分度高低的标准:
– 客观的标准。(只有被试水平高低清楚了,才能判定 项目是否区分对了。) – 测验的总分。以总分作标准,有利于增强测验项目间 的同质性,从而有利于提高整个测验的信度。同时, 也说明每个项目应为测验目的作贡献,如果不一致, 就说明该题与测验目标不一致。
三、区分度对测验的影响
• 区分度对测验总分方差的影 响
– 经验公式:2
σX =
(∑ D)2 6
• 区分度对测验信度的影响
– Ebel的研究:假设一份试卷所 有项目的难度都是0.50的话, 那么所有项目的区分度的平均 数与信度有一个关系:
四、影响区分度高低的因素
• 试题的难度 • 项目间的同质性 • 项目的文字质量
第四节 多重选择题的项目分析
一、分析的作用与内容
• --对该题进行品质分析,看其是否能测到你想测的那 种心理品质。 • --计算该题的区分度,看区分度能否达到要求。 • --看该题的难度是否合适、恰当。 *--正答选项的选答率是否恰当。正答选项 在高、低分组的选答率是否是正差,差距 是否足够大。(理论上是越大越好) *--诱答选项(迷惑项或分心因子)的选答 率是否恰当,诱答选项在高低分组上的选 答率是否是负差,差距是否足够大。
五、影响区分度计算的因素
• 不同计算方法,结果不同
– 比较不同项目的区分度,要采用相同 的方法
• 样本容量不同会影响区分度的计算
– 容量太小,估计值不稳定
• 极端组的比例
– 常用的为27%,也有人用30%或25%
• 被试样本的同质性程度
六、区分度的相对性
• 1、不同的计算方法,所得区分值 不同 • 2、样本容量大小影响相关法区分 度值的大小 • 3、分组标准影响鉴别指数值 • 4、被试样本的同质性程度影响区 分度值的大小