认知诊断测验编制的原则

合集下载

可达矩阵在认知诊断测验编制中的重要作用

性都是其自身的先决属性．考生的知识结构、知加工技能等是不能直接观察的潜变量．认认知诊断评估要设计一个测验，以诱发出考生内在认知特点的外在表现，而实现对内在认知特征的判断．的认知诊断测验不仅要将考生潜在的从好不可直接观察的特征转换成可观察的反应，且要区别不同知识结构和不同加工技能的考生．设确定了而假认知诊断的领域（如学科、节、元等）由于不同领域的属性之间可能存在不同的层级关系，题专家只章单，命能命拟符合这些层级的考题（目）本文称符合属性层级关系的项目为有效项目… ；项，此外，测验中各种项目的组合要有利于区分不同认知特征的考生，一目标与传统的能力测验有很大的不同，专家可以从不同这如角度命拟一批多位数乘法项目，这不一定适合诊断性测验，但因为从这批考题的反应结果中，以区别出不难
测验可以用属性与项目的关联阵表示，这个关联阵记为，是Ｑ５的一个子矩阵．中每一列代表一类考Ｑ５
生（至少掌握了１个属性）的知识状态（ｎｗｅｇｔｅＫ）而Ｑ中每一列代表一类项目（ｅ．ｋｏｌｅｓｔ，Ｓ；ｄａｌｉｍ）由扩张算法ｔ
级已经给定，从而属性之间的邻接阵、可达阵足均可以计算出来．可达阵的列表示属性之间的直接或间接

心理测量-第八章-测验的编制与实施

一、测验编制的一般程序
测验的界定制定编题计划编制题目项目的试测和分析合成测验测验的标准化测验的修正与鉴定编写测验手册
第一页，共33页。
第一步：测验的界定
测量对象：什么人，儿童/成人，测量目标：什么内容，心理变量/行为
如：成就、智力、人格
测量用途：诊断/预测常模参照测验 /标准参照测验
第二页，共33页。
第一步：测验的界定（续）
建构测验的理论依据：
基于逻辑或内容：考虑行为的领域范围并进行相应的度量（如教育测验）
基于理论：根据一种理论编写出能够反映理论构想的题目（如Myers-Briggs Type Indicator 或MBTI基于容格的类型论）
基于外部效标：选择那些能够将个体或群体做出区分的题目（如MMPI，CPI，罗夏墨迹测验等）。。基于经验
境
第三十三页，共33页。
使用技术上的行话反应之间相互重叠
使用“以上所有”
第八页，共33页。
例2：主观题——人格
是非题
我喜欢去干有冒险性的工作
利克特评定量表：5点或7点评定
朋友们通常把我看成是一个潇洒的人
1
2
使用特殊符号
很不象我
用于态度调查
你对XXX电视节目有什么看法？
34 5
非常象我
第九页，共33页。
整。在测验建构中起着重要作用。
题目分析可以从质和量两个方面进行。
质：内容与形式量：统计学特性
题目是否对不同类型的人群有不同的难度与区分度
第十四页，共33页。
第五步：合成测验
项目的选择
根据项目分析结果筛选项目，选出的题与双向细目表对照，有效区分且难度合适，考虑题目数及所需时间

认知诊断测验编制的原则

认知诊断测验编制的原则standalone； self-contained； independent； self-governed；autocephalous； indie； absolute； unattached； substantive认知诊断测验编制的原则摘要：Tatsuoka 给出的实例表明，不同知识状态可能对应同一理想反应模式，即对知识状态产生误判。

如果不是对测验进行事后分析，找出属性及层级，而是采用Leighton 等人所倡导的方法，在认知诊断测验编制之前确定所测属性及其层次，导出可达阵，这时可以证明只要将可达阵作为认知诊断测验蓝图的一部分，则可避免这一问题。

这一原则不仅对认知诊断测验蓝图的设计有指导作用，而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。

关键词：测验蓝图；认知诊断；可达矩阵；理想反应模式；计算机化自适应测验1. 引言通常把对个体知识结构、加工技能或认知过程（均简称为属性，attribute）的诊断评估称为认知诊断评估或认知诊断(cognitive diagnosis assessment /cognitive diagnosis, CDA，Leighton and Gierl，2007.) [1]。

一般的教育考试, 特别是大规模的考试，只提供考试分数或能力分数。

然而由单一的分数，既不能得到被试具体掌握或未掌握什么知识的结论,也不能得到被试做错试题的原因，以进行补救；对于相同分数的个体，更无法得到他们之间可能存在的知识状态和认知结构的差异。

传统的考试提供的信息已不太适合个体发展的需要，认知诊断评估的主要任务是挖掘更多的认知加工信息。

Leighton和 Gierl（2007）[1]认为认知诊断是用于测量/评价个体特定的知识结构（knowledge structure）和加工技能（processing skills）。

CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态（knowledge state）。

认知诊断技术在学科学业评价中的应_省略_初中一年级_有理数及其运算_为例_宁革

作者简介宁革，中学高级教师，广东省深圳市滨河中学副校长，深圳市首批教育科研专家工作室主持中学高级教师，广东省深圳市滨河中学数学教师。吴伙兵，硕士，中学高级教师，广东省深圳市滨人; 龚天平， 518001 。河中学数学教师。广东深圳， “十二五” 本文系广东省教育科学规划 2011 年度教育信息技术研究项目( 编号: 11JXZ009 ) 成果之一。
考依据。为此，本研究借助教育统计与测量 — —认知诊断 ( cognitive 中的前沿技术— diagnosis，CD ) 技术，尝试在初中一年级对 “有理数及其运算 ” 这一内容进行认知诊断。
［1 ］认知诊断技术是在项目反应理论 ( IRT ) 基
— —以初中一年级 “有理数及其运算” 认知诊断技术在学科学业评价中的应用— 为例表2
题号 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 A1 1 0 0 0 0 0 0 0 0 0 0 0 A2 0 1 1 1 0 0 0 0 0 0 0 0 A3 0 0 0 0 1 0 0 0 0 0 0 0 A4 0 0 0 0 0 1 1 1 1 0 0 0 A5 0 0 0 0 0 0 0 0 0 1 1 0 A6 0 0 0 0 0 0 0 0 0 0 0 1 A7 0 0 0 0 0 0 0 0 0 0 0 0
个认知属性; 若 q ij = 0 ，说明第 i 题未测量第 j 个认知属性。Q 矩阵被认为是认知诊断测验编制的蓝图。试题编制过程如下: 首先，收集一批“有这一内容的测试题，题型全理数及其运算 ” 部为单项选择题。然后，将每道试题所运用到的属性直接标示在该题题首，这是属性与试题关联匹配的过程。最后，由具有丰富教学经验的教师在这一批测试题中挑选出较有典型性、代表性，且难度相对适中的试题组成认知诊断测验。我们针对第一属性群共挑选了 23 道测试题( 见附录 ) ，从而得到“有理数及其运算” 第一属性群的诊断测验 Q 矩阵，详见表 2 。表 2 中，第 1 题只测量认知属性 A1 ，第 8 题只测量了认知属性 A4 ，第 21 题测量了 A4 和 A5 两个认知属性，其余试题依此类推。

数学诊断性测验的研究综述

数学诊断性测验的研究综述作者：刘经兰黄玉华来源：《大学教育》2013年第19期[摘要]随着新一轮基础教育课程改革的发展，对考试的诊断研究已引起当前学者的广泛关注。

众多学者的研究都为诊断性测验的编制发展打下了理论基础与实践经验，也从不同层面为诊断性测验的编制提供了借鉴。

但这些研究提出的理论比较局限，不够精准，实践性欠佳，因此未能被广泛推广应用。

数学诊断性测验的研究并不多，国内的相关研究多集中在台湾；国外数学诊断性测验的年级跨度从幼儿园到初中，国内的研究大多集中在小学；总体来看，我国诊断性测验的编制研究还比较薄弱、零散，对于数学诊断性测验的研究还有待进一步充实和完善。

[关键词]诊断性测验理论研究现状[中图分类号] G642.0 [文献标识码] A [文章编号] 2095-3437（2013）19-0054-02一、诊断性测验概念的提出早在18世纪中期Bloom就指出，传统教育过于注重筛选的功能，应转向参照性测验以深入研究，测验应当更加注重学生的发展，并展示更多的相关信息。

近年来，在新一轮的基础教育课程改革启动并逐步完善的过程中，传统测验的局限性在新课程改革中尤为凸显。

单一的分数不能反映学生在解答题目时究竟使用了哪些认知成分或技能，因此很难诊断出学生答错题目的原因，也不能挖掘出考试信息的深度。

2007年，我国教育部考试中心戴家干主任提出，利用考试开展评价与诊断工作，是实现教育科学发展的重要途径，从考试到评价是时代赋予的任务。

由此可知，以考试为基础对学生进行相应的认知诊断是相当有必要的。

诊断性测验是鉴定学生在某一学科学习方面的优缺点或遇到困难而编制的一种测验方式。

时间一般在新的教学计划开始之前，如期末或期初，主要是了解与分析学生对基础知识和基本技能的掌握程度，以此鉴定学生的教学接受能力并为补救教学提供借鉴。

二、诊断性测验编制的理论（一）认知设计系统（CDS）认知设计系统（Albertson，1998）的提出，主要是由于传统项目开发存在削弱测验的结构效度方面的问题，认知设计系统更加强调以认知理论来指导编制测验项目，以此强化测验成绩的解释力度。

4～5年级阅读障碍儿童汉语词汇的认知诊断测验

4～5年级阅读障碍儿童汉语词汇的认知诊断测验范晓玲;王思缘;耿博;伍慧;王梦翔【摘要】以IRT和认知诊断理论为指导,编制阅读障碍儿童汉语词汇认知诊断测验,并探索其认知属性模型及特征.通过对1074名4～5年级学生的测试与分析,测验的项目参数适当、信度和效度优良,97.3％的阅读障碍学生能被合理归类.阅读障碍儿童对感情色彩理解、整词理解和词素理解的掌握较差,对错词辨别的掌握一般,对视觉词汇、整体词音和词素词音的掌握较好.【期刊名称】《教育测量与评价（理论版）》【年(卷),期】2018(000)003【总页数】6页(P14-19)【关键词】汉语词汇;阅读障碍儿童;认知诊断测验【作者】范晓玲;王思缘;耿博;伍慧;王梦翔【作者单位】湖南师范大学教育科学学院长沙410081;湖南师范大学教育科学学院;湖南师范大学教育科学学院;湖南师范大学教育科学学院;湖南师范大学教育科学学院【正文语种】中文【中图分类】G448一、引言阅读是人类特有的高级心理机能，其基本材料是词，而阅读理解最基本的水平就是对词汇的理解和识别。

[1]词语作为汉语中能独立使用的最小单位，对阅读起着重大的作用。

[2]阅读障碍的主要特征表现为在单词识别上缺乏准确性与流畅性，并伴有拼写和解码困难。

[3]国外对阅读障碍儿童的研究不再停留于测评和诊断阶段，干预性和治疗性的研究逐渐增多。

国内针对阅读障碍儿童的研究起步相对较晚，不仅干预前的阅读障碍的调查性和诊断性测验缺乏[4]，而且以词汇为材料的认知诊断测验更少，使得进一步的干预和治疗难以展开。

本研究以高夫（P.B.Gough）自下而上阅读认知理论和认知诊断理论为基础[5]，采用Embretson的认知设计系统（connitivedesignsystem，CDS）[6]和规则空间模型[7]（RSM），以汉语词汇为材料，编制4～5年级阅读障碍儿童汉语词汇的认知诊断测验，并总结和归纳被试的不同属性掌握模式及错误规则[8]，旨在为词语阅读障碍儿童的筛查和诊断提供可靠而有效的评估工具，为其辅导、干预和治疗提供实证依据。

教育认知诊断测验与认知模型一致性的评估_丁树良[1]

心理学报 2012, Vol. 44, No.11, 15351546 Acta Psychologica Sinica
DOI: 10.3724/SP.J.1041.2012.01535
教育认知诊断测验与认知模型一致性的评估*
丁树良 1
3
毛萌萌 2
汪文义 1
罗
芬1
CUI Ying3
(1 江西师范大学计算机信息工程学院 , 南昌 330022)
1tt10100的erp对应0t以及t00第二个问题除掉对照层级关系图写出可达矩阵直接对可达矩阵进行比对之外还可以使用缩减算法解决对lostq使用缩减算法得到0010010000??001100100000011??????????????m这表明qt的缺陷是缺少了当然由于qt本身的构造m中的前面4列才是qt本身缺少的m中的第5列是由r1和qt中的相同列第1列和r1中的第5列作布尔并得到的
补偿模型包括连接模型(conjunctive models)和非连接模型(disjunctive models)。连接的含义是掌握项目所有属性 , 可以较高的概率正确作答 , 而未掌握 ( 即使只有一个属性没有掌握)也将大大降低答对概率。本文仅讨论连接的非补偿模型。认知模型因为和具体的认知行为有关 , 故更加多姿多彩。本文仅讨论教育测量中的认知模型。给定一个感兴趣的论域 (domain), 教育测量中的认知模型是对问题解决的抽象, 选择合适的粒度 (granularity) 刻划任务 , 即用合适的粒度 ( 粒度的直观解释是考察点的细分或细化程度 ) 对问题解决的简化描述 , 以方便解释和预报被试表现 , 包括他们在这个论域中认知上的长处和不足 (Gierl, Leighton, & Hunka, 2007)。比如诊断小学生分数运算掌握情况, 就不能使用 “分数运算 ” 这么大的粒度对问题进行描述 , 而要将这个属性进行分解 , 用更小的粒度 ( 比如相同分母的加减运算、求两个整数的最小公倍数、最大公因子、通分、异分母加减运算、约分, 等等)进行描述(许志勇, 丁树良, 汪文义, 涂冬波, 2010)。认知模型提供了对测验反应进行解释的框架 ,

认知诊断学习文档

一、名词解释认知诊断：认知诊断是基于认知加工过程的诊断，是对个体认知加工过程中所涉及的认知属性的诊断。

从广义上说，认知诊断是建立观察分数和被试的内部认知特征之间的关系；从狭义上说，是指在测试中，按被试有没有掌握测试所测的技能或特质来对被试加以分类。

而所谓测试的认知诊断，不但了解学习者的能力知识结构，还能解释其通过知识掌握了哪些实际技能，在学习过程中采取了何种学习策略。

认知属性：认知属性一词用来描述被试正确完成任务所需的知识、技能、策略等，它是对被试问题解决心理内部加工过程的一种描述。

属性层级关系：认知属性不是独立操作，而是从属于一个相互关联的网络，认知属性间可能存在一定的心理顺序、逻辑顺序或者层级关系。

属性层级关系又四种基本类型：线性、收敛、分支、无结构。

这四种基本类型可组合为更复杂的网络层级关系。

Q 矩阵理论：Q 矩阵理论主要是确定测验项目所测的不可观察的认知属性，并把它转化为可观察的项目反应模式，将被试不可直接观察的认知状态在项目上可观察的作答反应相连接，从而为进一步了解并推测被试的认知状态提供基础。

即：确定属性层级关系→连接矩阵→可达矩阵→事件矩阵→缩减实践矩阵→典型属性矩阵→典型项目反应模式这一过程统称为Q 矩阵理论。

Q 矩阵：Q 矩阵指描述测验项目于属性间关系的矩阵，它一般由J （J 指测验项目数）行K （K 指测验测量的属性个数）列的0—1矩阵组成，若1=jk Q 代表项目j 测量了属性k ，若0=jk Q 代表项目j 未测量属性k 。

A 矩阵（邻接矩阵）R 矩阵（可达矩阵）直接先决属性A1→A2→A3：A1为A2的直接先决属性间接先决属性A1→A2→A3：A1为A3的间接先觉属性理想掌握模式即所有可能存在的知识状态//利用扩张算法获取理想掌握模式p9理想反应模式指被试在不存在任何失误和猜测等误差条件下对项目的作答反应情况.即若被试掌握了项目考核的所有属性则被试答对该题，若被试至少有一个项目考核属性未掌握，则被试答错该项目。

《心理测量》-课程教学大纲

《心理测量学》教学大纲一、课程基本信息课程代码：16091303课程名称：心理测量英文名称：Psychometrics课程类别：专业必修课学时：48学分： 3适用对象: 应用心理学专业大三本科生考核方式：考试先修课程：无二、课程简介《心理测量学》介绍了当今心理学研究中主要的测量方法，包括测量的信度、效度、以及测量中随机误差和系统误差的控制方法；测验的难度、区分度，以及试题难度分布的控制技术和提高试题区分度的技术；介绍了各种著名测验，除了要求了解编制原理，还要求掌握实际使用方法；本书还介绍了标准参照测验教育成就测验的技术和理论。

还引进了题库建设、测验等值、项目功能差异、评价中心技术、行为情境判断测验、内隐联想测验等较为新近或更为实用的测量理论和技术。

除了介绍经典测量理论，还介绍了发展前景更为诱人的项目反应理论和概化理论，以及认知诊断理论。

为将来准备从事心理学应用、教育考试、人员测评等工作的本科生学习使用。

Psychometrics program introduce some measure methods which are widely used in psychological research. Those methods are reliability, validity and control methods of random measurement error and systematic error; difficulty, discrimination and How to control the degree of difficulty and improve the distinction; introduced a variety of well-known tests, in addition to understand the principle, but also required to master the practical use; besides introducing classical measurement theory, also introduced a more attractive prospect item response theory and generalizability theory, and the theory of cognitive diagnosis.三、课程性质与教学目的心理测量学课程是心理学各专业共同必修的一门应用与方法课程。

新一代测量基本理论——认知诊断

新一代测量基本理论—— 认知诊断
计算R的方法
Tatsuoka介绍的方法：B=A+I 计算R的方法如果B的n次幂（逻辑乘法
）等于B的n+1次幂，则B的n次幂就是R 。数学原理是R是自反的传递闭包的关系矩阵，满足R* R=R
Warshall计算传递闭包的方法（省略）
新一代测量基本理论—— 29 认知诊断
新一代测量基本理论—— 认知诊断
传统测验及其理论的局限性
标准测验理论将所测的心理特质视为一个心理学意义并不明晰的“统计结构”，目的在于从宏观的层次给个体一个整体的评估，在单维的、线性的连续的度量系统上指定一个表示位置的值。
新一代测量基本理论—— 认知诊断
传统测验及其理论的局限性
标准测验理论包括：
新一代测量基本理论—— 认知诊断
传统测验及其理论的局限性
项目反应理论:
是在克服经典测量理论项目参数依赖于样本等局限性基础上发展的。它认为被试在项目上的反应决定于被试的潜在能力与项目难度间的距离，从而很好地将能力参数和难度参数统一到了一个量尺上来。项目反应理论的另一大优点是参数的不变性，从而推动了该理论的应用范围，为实现计算机化自适应考试（CAT）提供了可能。此外，项目反应理论还提出了测验信息函数的概念，利用测验信息函数来估算测验对不同能力水平被试所产生的误差。
j=3
1 1 1 1 1 1 1 1
0 1 0 0 1 1 0 1
00
0 0
1 1
0 1
1 0
0 1
1 1
11
j=4
不产生新列
新一代测量基本理论—— 33 认知诊断
基本概念(一系列Q矩阵）
新一代测量基本理论—— 认知诊断

3+编制教育测验的一般原理和方法

是测量学的，有利于指导学习结果的测量
与评价。
测验题目类型与测量功能
• 测验题目分类:选择型和供答型。
• 选择型一般要求被试在几个选项中选择正确的答
案，如是非题、匹配题、选择题等，后者要求被试自己提供答案，如论文题、简答题、填空题等。
• 若根据被试作答的范围和评分方法不同，
又可分为主观性试题和客观性试题。
和某一领域普遍和抽象的知识。
认知领域目标分类
2、领会
领会亦称理解或领悟，是较低层的处理各
种材料和问题的理智操作方式，是指把握知
识材料意义的能力。领会超越了单纯的记忆，代表着最低水平的理解，它又可分为转化、解释和推断三种。
认知领域目标分类
3、运用
指在具体的情境中使用抽象概念，这些抽象概
念包括一般的概念、程序的规则或概括化的方法，
(3)题目中空白地方不能太多，以免句子变得支离破碎，不利于被试理解题意。通常一个填空题不应超过两个空白。 (4)尽量将空白放在句子的后面或中间，而不要放在句子开头。 (5)所有空白处的线段长度应当一致，不能随正确答案文字的多少而长短不一，以免产生暗示作用。 (6)若答案是数字，应指明单位和数字的精确程度。
(5)不能对正确答案有任何暗示 (6)同一测验中每一个测验试题之间应相互独立避免牵连 (7)选项的文字表述，力求简短精炼。 (8)应尽量避免“以上皆是”、“以上皆非” 的选项
(二)是非题
是非题又叫做二项选择题，它通常是给被试一个句子要被试作出正误的判断。优点: (1)编制容易。 (2)记分客观，取样广泛。缺点: (1)仅能测量知识层次中最基本的结果，无法测量高层次的学习结果。 (2)受猜测因素的影响很大。
• 客观性试题主要是因为评分客观而得名，它

语文教学中诊断测试的原则与措施

语文教学中诊断测试的原则与措施作者：秦菊芬来源：《课外语文·教研版》2013年第10期【摘要】在语文教学过程中，正确进行诊断测试，有利于教师掌握学情，及时设计教学方案，进行矫正。

在诊断测试的环节中，要针对题型和学生心智发展特点，坚持预备性、相关性、基础性原则；少而精与客观性原则；纵横与宽广原则。

注意课前测试与课后测试相结合、测试时间不宜过长等一系列问题。

【关键词】诊断测试；题型；原则；注意事项；教学效果【中图分类号】G633 【文献标识码】A美国著名教育学家布卢姆的“掌握学习理论”对指导中小学提高教学质量有着重要的意义。

在布卢姆倡导的目标教学中，又十分重视诊断测试。

他认为：“诊断性评价是好的教学工作的一个基本组成部分。

”在目标教学的实验过程中，我们对诊断测试加强了理论研究与实践工作，注意探索规律，提高测试效果。

我们认为，诊断测试是为了辨认学生学习中的不足或问题，识别学生的各种优点或禀赋，从而确定发展学生某些特长或者设计某些排除学习障碍的方案，使教学适合学习者的需要和科学的教育评价。

诊断测试的方式多种多样，主要有：（1）入学准备程度的评价。

通常称“新生入学摸底测试”，其目的主要在于为制订有效的学段教育计划寻找根据；（2）认识前提评价。

其目的在于诊断学生在学习新课程前是否具备必要的知识技能，判断他们在完成新的学习任务前的准备程度，从而确定教学的具体步骤；（3）情感前提评价。

其目的在于检查学生某方面的思想认识情况，根据情感基础确定教育方案；（4）识别天才的评价。

这种评价是为了把学习上的天才学生辨认出来，以便制订具体的培养措施；（5）对造成后进生原因的评价。

其目的在于研究造成每个后进生的详细原因，好采取有效的补救转化措施。

一、在诊断测试题编制时，根据学科的特点和学生的认知特点，应重点掌握三个原则（一）预备性、相关性和基础性原则即测试内容要与新课有密切联系。

所谓预备性，是通过诊断测试给新授知识做好准备；所谓相关性，是诊断内容要与新授知识有直接的内在联系；所谓基础性，是指诊断测试的内容是学习新知识的基础，不脱离学生的学习实际。

儿童认知发展水平诊断测验(IPDT)简介

阶段4.形式运思阶段(11,12岁以上)
具有抽象逻辑的科学思维能力假设演绎推理能力：提出假设和系统地检验假设（具体运思－从现实出发；形式运思－从可能性出发）抽象思考能力：“形式”从“内容”中
解放出来。（概率问题；容积守恒；旋转问题）
2.4 皮亚杰认知发展阶段理论小结
1 中小学教育实践需要一个诊断工具
题解:关于发展的诊断(以及预测）。 1.1 对学生的个别指导(认知,个性)； 1.2 智力测验的应用和局限性；
智力测验结果（IQ)的分等
130 或以上 120-129 110- 119 90 - 109 80 – 89 70 – 79 69或以下
被试的原始总分被转换成百分等级。按照百分等级的范围，区分出认知发展水平的五个等级。计算机将告知被试儿童所属的等级。
3.5 发展水平的评定
A级 B 级 C 级 D 级 E 级
P > (=) 95 83< P <95 17< (=) P < (=) 83
5 < P < 17 P < (=) 5
2.3 皮亚杰认知发展阶段论简介
发展分4个阶段: 每一阶段结构不同,儿童思维的方式也不同（例如－－）
阶段1：感觉-运动阶段(0-2岁) 的成就: 儿童是用眼、耳、手和其它感觉运动器
官进行思考的。动作活动（循环反应的发展）
阶段2.前运思阶段(2-7,8岁)
出现了符号功能，心理表征能力迅速发展，但思维活动还缺乏逻辑性。

2.5 IPDT测验的结构
测查对象：7－15岁的小学生和初中生；测查内容：分5大问题领域，每个问题领域包
括3－5个子测验，共18个子测验。每个子测验包含4个测验题，每个测验题有4个选项，其中一个是正确答案，选对得1分，选错得0分。测验记分：每个子测验的得分是 0－4分；测验总分为 0－72 分。

选项具有诊断信息的多选题认知诊断测验编制

选项具有诊断信息的多选题认知诊断测验编制
李瑜;丁树良
【期刊名称】《心理学探新》
【年(卷),期】2014(034)003
【摘要】编制选项具有诊断信息的多选题是提高多选题认知诊断测验诊断效果的有效方法.研究从认知诊断的目标出发,根据认知诊断测验质量的评价标准,结合多选题的特点,探讨选项具有诊断信息的多选题认知诊断测验编制的原则.同时,结合多选题的特点和多选题采用称名计分方式的需要,对编制选项具有诊断信息的多选题提出两点要求.根据多选题认知诊断测验编制的原则和要求,给出具有可操作性的多选题认知诊断测验编制的步骤.模拟研究结果表明:根据所提出的原则和要求编制的多选题认知诊断测验具有较好的诊断效果,说明这些原则和要求合理、可行.由于这些原则、要求和步骤具有较强的可操作性,因此它对于编制多选题认知诊断测验具有一定的指导意义.
【总页数】8页(P276-283)
【作者】李瑜;丁树良
【作者单位】江西师范大学心理学院,江西省心理与认知科学重点实验室,南昌330022;浙江工商大学马克思主义学院,杭州310018;江西师范大学计算机信息工程学院,南昌330022
【正文语种】中文
【中图分类】B841.2
【相关文献】
1.小学数学应用题认知诊断测验编制及效度验证 [J], 康春花;辛涛;田伟;
2.认知诊断测验编制的理论及方法 [J], 蔡艳;涂冬波;丁树良
3.小学数学“图形与几何”认知诊断测验的编制 [J], 康春花;吴会云;陈婧;曾平飞
4.具有认知诊断功能的计算机化自适应测验系统的设计与实现 [J], 杨晓燕;
5.可达矩阵在认知诊断测验编制中的重要作用 [J], 丁树良;杨淑群;汪文义
因版权原因，仅展示原文概要，查看原文内容请购买。

“基本认知能力测验”的编制及标准化工作

“基本认知能力测验”的编制及标准化工作
李德明;刘昌;李贵芸
【期刊名称】《心理学报》
【年(卷),期】2001(33)5
【摘要】在多年研究工作的基础上编制了这套“基本认知能力测验”。

该测验包括数字鉴别、心算、汉字旋转、数字工作记忆、双字词再认、三位数再认、无意义图形再认 7项分测验 ,其软件程序用C语言编写。

为了使测验标准化 ,并获得有代表性的常模资料 ,在全国 6大行政区取样 2 44 3人进行了测试。

该测验适用于具有小学 4年级以上教育程度的儿童、青少年和中老年人 ,年龄范围为 10— 90岁。

为学生和成人两部分样本编制了两套各年龄组量表分换算表。

该测验的区分度、再测信度、内部一致性及效度均良好。

【总页数】8页(P453-460)
【关键词】认知能力;测验;标准化
【作者】李德明;刘昌;李贵芸
【作者单位】中国科学院心理研究所
【正文语种】中文
【中图分类】B841.7
【相关文献】
1."基本认知能力测验"对老年人术后认知功能的评估 [J], 缪慧慧;张滨;洪方晓;丁冠男;田鸣
2.基于Rasch模型的“化学实验认知能力”测验工具编制及测评研究 [J], 王祖浩;杨玉琴
3.标准化数学成就测验的编制和数学能力结构初探——以上海市六年级为例 [J], 韩哲;
4.能力测验编制需要满足的基本条件--兼谈生物科高考 [J], 杨帆
5.《上海市区6至9岁儿童五项认知能力团体测验量表》编制报告 [J], 杜晓新;王小慧
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

认知诊断测验编制的原则摘要：Tatsuoka 给出的实例表明，不同知识状态可能对应同一理想反应模式，即对知识状态产生误判。

这一原则不仅对认知诊断测验蓝图的设计有指导作用，而且对制定有认知诊断功能的计算机化自适应测验的选题策略有着重要的参考作用。

一般的教育考试, 特别是大规模的考试，只提供考试分数或能力分数。

传统的考试提供的信息已不太适合个体发展的需要，认知诊断评估的主要任务是挖掘更多的认知加工信息。

Leighton 和 Gierl（2007）[1]认为认知诊断是用于测量/评价个体特定的知识结构（knowledge structure）和加工技能（processing skills）。

CDA 通过测验获得被试在测验上(可观察)的反应而推知该被试不可观察的知识状态（knowledge state）。

Leighton 和Gierl(2007) [1]在他们所编写的书第一篇文章称CDA 仍处于萌芽状态(CDA is still in its infancy)，表明对CDA 的研究，包括认知诊断测验的构造都是新的课题。

Gierl(2007) [1]在注释中又指出，认知诊断测验设计是一个重要的研究领域，而已有的相关研究成果却很少，连Downing 和 Haladyma 编辑的由Erlbaum 在2006 年出版的测验编制手册(Handbook of test development)中也没有相应的章节涉及认知诊断测验编制，甚至找不到认知诊断评价的主题词条(subject entry)。

Gierl(2007)[2]还认为只有Gorin(2007)[1]描述了认知诊断测验编制的原理。

认知诊断测验的编制是一件具有挑战性的任务，限于篇幅和本文主旨，这里不讨论如何与命题专家沟通，打磨出好的试题的问题，而集中讨论认知诊断测验蓝图的编制问题。

在讨论认知诊断测验蓝图的编制问题之前，我们先看两个例子，一个是简化的用以解释原理性的例子；另一个是规则空间模型（rule space model,RSM）的开创者Tatsuoka（1995）给出的例子[2][3] [4][5]，用以说明实际工作中考虑不周就很有可能编制出有问题的诊断测验。

下文中理想反应是指既不猜测也不失误的作答反应，只有被试掌握了项目所测的所有属性，才能正确作答。

属性层级方法（attribute hierarchy method，AHM）[6][7][8]中称理想反应为期望反应模式；确定性输入，噪声“与”门模型（deterministic inputs，noisy ”and” gate model,DINA,如可参见Henson&Douglas,2005[9]）中的理想反应模式具体计算公式见附录1(其实，差不多所有理想反应模式都可以这样计算，当然也可以用丁树良等[10]介绍的方法计算)。

由附录1 中具体计算公式可见理想反应模式十分重要，其实理想反应模式对诸如RSM,AHM等许多认知诊断模型都十分重要。

对于诊断测验，在既不猜测也不失误的理想作答反应情况下，具有不同知识状态的被试对应不同的理想反应模式, 则称为理想的认知诊断测验;否则称为理想反应误判的认知诊断测验。

若具有不同知识状态被试对应相同的理想反应模式，则称这些不同知识状态为等价类。

实际上，这个等价类是由测验蓝图（测验Q阵）决定的，称为知识状态中由测验Q阵决定的等价类。

我们希望有测验Q阵，使得每个等价类中仅仅有一个知识状态。

例1.三个属性A1，A2，A3，它们彼此之间不存在先决关系（prerequisite relation）。

于是属性之间的可达阵R 为三阶单位阵I。

今给出三个项目作为诊断测验。

注意被试的知识状态共有8 种，即α1=（000），α2=（001），α3=（010），α4=（011），α5=（100），α6=（101），α7=（110），α8=（111）。

如果上述8 种被试分别参加测验蓝图为Qi（i=1，2，3，4）的认知诊断测验，则对于Q1，α1，α2，α3，α5 的理想反应模式均为（0，0，0），即理想反应模式为（0，0，0）的模式其潜在知识状态可能为α1，α2，α3，α5 ，此时如果根据其所有理想反应模式来判断其知识状态，误判率为3/8；上例中α1，α2，α3，α5 是Q1 决定的等价类；对于Q2，α1，α2，α3，α4 为一个等价类，理想反应模式均为（0，0，0）；而α5，α6为另一个等价类，理想反应模式均为（1，0，0），即误判率为4/8；对于Q3，α1，α2 的理想反应模式均为（0，0，0），α3，α4 理想反应模式均为（0,1，0），而α5，α6 为第三个等价类，理想反应模式均为（1，0，0），即误判率为3/8；但对于Q4 却不带来任何误判。

例(1995，[4]给出了小学分数加减的认知诊断测验，测验共含9 个项目，依Tatsuoka 的事后(post hoc)分析，即通过对测验后的得分矩阵进行分析，得出5 个属性，属性完全相同的项目仅保留一个。

如第五题：7121 + 和第六题：2131 + 都是检测通分(A3)和分数相加(A4)，即T）（00110 ，只保留第五题；而第四题44 222 1 + 与第八题42 363 1 + 均检测了所有五个属性，也应归为一类，即T）（11111 ，只保留第四题（本文中xT 表示向量x 的转置），于是仅剩下7 类项目，组成一个5×7 的Q 阵。

这里的Q 阵与Tatsuoka 给出的有不同，因为她给出的Q 阵有笔误，比如第七题只涉及分子相加(A4)，即T）（00010 ,而不像Tatsuoka所标定的为“答案化简”，我们对这些笔误进行修正。

最后修正的Q 阵，它不含相同的列。

然而这个Q 阵可能导致对知识状态的误判，比如根据所测属性及其层次关系，有两个被试的知识状态分别为α1=(0,0,1,1,1)，α2=(0,1,1,1,1)，它们导出的理想反应模式却相同，都等于(0,1,1,0,1,1,0)[8]。

这个例子说明一个很严重的问题：Tatsuoka（1995，）[4]希望规则空间模型（Rule spacemodel， RSM）中的Q-矩阵理论，能够起到桥梁作用——将可观察的反应向量对应到不可观察的知识状态。

现在至少有两个不同的知识状态（例如α1，α2），居然对应到同一个理想反应模式，即这个等价类中至少含有两个知识状态。

此时如果我们观察到这个理想反应模式，以此来诊断其隐藏的知识状态，我们难以判断隐藏的知识状态到底是α1，还是α2。

这时完全可能产生误判。

我们称不同知识状态对应同一理想反应模式的现象为对知识状态的误判。

Tatsuoka（1995，）[4]以实例说明属性掌握模式（即被试知识状态）和理想反应模式并不是一一对应的，而是多个属性掌握模式对应同一个理想项目反应模式（idealitem-response pattern）。

这种现象对于被试的归类是很不利的，同时也说明Tatsuoka 提供的方法存在一定的问题。

由于认知诊断测验蓝图直接影响CDA 的分类效果，下描述了CDA 最为核心的过程，其中， s Q 是由可达阵R 导出的Q阵,称为被试Q阵，这时s Q 的每一列都代表了“一类”知识状态（knowledge state），表示一个测验中项目与属性关联关系的的Q矩阵为测验Q矩阵，记为t Q ,显然t Q 只是s Q 的某一部分，即t Q 是s Q 的子矩阵（sub-matrix）且不含相同的列[10]；α 是知识状态, η 是理想（期望/潜在）反应模式，f--1 是f 的反函数，此时要求f 本身是一一映射[9]。

后半部分由试题性质、被试动机或一些随机因素等决定，因此要提高CDA 分类的准确性，关键取决于前半部分。

如果一映射( | ) s t f α∈Q Q 使得集合s Q 中的不同列(称为s Q 中的元素)在理想反应模式集合η 中有相同的象，则分类较为模糊——只能分到相应的等价类中。

如果能够编制一测验蓝图t Q 使得对应关系( | ) s t f α∈Q Q 对于集合s Q 中的任何一个元素，在集合η 中都存在唯一的一个元素与之对应，则可以通过求对应关系的反函数，达到对反应模式的比较准确的分类。

我们希望对任何一种属性层级，都能如例1一样，构造出相应的测验蓝图，使得属性掌握模式(知识状态)与理想反应模式一一对应。

本文探讨将可达阵作为测验蓝图的一部分对提高认知诊断准确率的关系；要对认知诊断测验编制进行讨论。

第2 节讨论认知诊断的逻辑顺序以及测验蓝图的编制，第3 节讨论上述结论中的应用，即对测验编制的指导作用和对有认知诊断功能的计算机化自适应测验选题策略的制订的指导作用；第4 节进行Monte Carlo 模拟研究，以讨论“将可达矩阵作为（或不作为）测验蓝图一部分”时的误判率大小；并验证第2 节的结论。

第5 节是认知诊断测验编制的相关问题的进一步讨论。

另外，我们给出一些附录，主要是想正文枝蔓不要太多而妨碍文章的主要结论，增加文章的可读性。

2. 认知诊断测验蓝图的编制Tatsuoka(1983，1991，1995) [2][3] [4]的规则空间模型中关联矩阵Q 是可以通过分析测试项目得到的。

事实上，目前许多CDA 是根据认知诊断模型（cognitive diagnostic model，CDM）对已有的测验进行分析，这些已有的测验并不是为认知诊断“量身定制”的。

Leighton, Gierl,和 Hunka(2000)[11]指出这样导出Q 阵的方法逻辑性不强。

Gierl 等人(2000) [11]及Leighton 等人(2004)[6]建议在测验之前就由专家给出欲测属性及这些属性间的层级关系（hierarchyrelation）。

对于如何构造一个有利于诊断的项目，Gorin（2007）[1]给出了一些例子，并给出一些原则；Gorin（2007）[1]强调诊断测验的构造的重要性不亚于构造单个项目的重要性，文章甚至造出一个不利于认知诊断的测验蓝图（其中每个项目至少包含两个属性），并讨论了诊断测验编制的问题，认为诊断测验中应尽可能多地包括对应Qr 中的列的项目。