计算机化自适应测验在线标定专题

合集下载

[答案][南开大学]2021春《人员素质测评理论与方法》在线作业-2

1.所谓问题提示式标志，是指以具体的问题来提示主试注意某个()的特征。

A.测评要素B.测评要点C.测评指标D.测评方法答案：A2.()即光环作用，是指当考生表露出某一方面特长甚至是外貌比较特别时，考官就由此联想到在其他方面也无所不能。

A.首轮效应B.顺序效应C.晕轮效应D.移情效应答案：C3.在建立绩效评估体系的过程中，每个组织应该根据自己的组织()为导向，以达成科学地、有效地管理为目的。

A.营销战略B.市场计划C.发展目标D.企业规划答案：C4.无论对于什么组织，有效的()系统都能够尽可能地对绩效标准的达成水平进行衡量。

A.绩效管理B.绩效评估C.业绩考核D.员工评议答案：B5.卡特尔16种人格测验的信度、效度都较为理想，是现代()测评中经常采用的较权威的人格测验。

B.心理C.人事D.动机答案：C6.要全面、准确地了解一个人的()，就必须以心理学的理论为依据。

A.能力B.技能C.素质D.学识答案：C7.观察者直接参与观察情景之中，他既是观察者又是被观察者，这种观察叫做()观察。

A.协助性B.加入性C.参与性D.直接性答案：C8.未来的评价与发展将更加关注()策略的运用，重视参与评价和发展对员工心理的影响，也必将在组织的层面上投人更多培训方面的配套资源，以切实提高参与者的能力和水平。

A.反馈B.沟通C.交流D.考评答案：A9.我们一般用“()”模型来说明胜任力的特点，这个模型经常被看作是胜任力的一个基本模型。

B.结构C.测试D.冰山答案：D10.()的作用还表现在对员工自我修养和发展的导向上。

A.考评B.考核C.评分D.评定答案：D11.面试是人力资源开发和管理中的一个重要环节，是人力资源获取的()和一个必不可少的环节。

A.基本手段B.基本程序C.基本方法D.基本过程答案：B12.一个成熟的人事测评方案常常需要进行多次反复的校正或修订，而收集、确定校正或修订的依据就是测评结果()要完成的任务。

A.组织阶段B.策划阶段C.实施阶段D.反馈阶段答案：D13.评价中心的报告正是实施评价中心的目的所在。

12 心理学报2016总目录 100

[1]白学军,刘丽,宋娟,郭志英.特征和位置信息在价值驱动注意捕获中的作用[J].心理学报,2016,11:1357-1369.[2]王佳莹,缴润凯,张明.任务设置影响负相容效应的机制——自上而下认知控制对阈下启动信息加工的影响[J].心理学报,2016,11:1370-1378.[3]钟毅平,李琎,占友龙,范伟,杨子鹿.自我旋转面孔识别的ERPs研究[J].心理学报,2016,11:1379-1389.[4]王娟,张积家.义符的类别一致性和家族大小影响形声字的语义加工[J].心理学报,2016,11:1390-1400.[5]李利,张扬,李璇,郭红婷,伍丽梅,王瑞明.三语者语义通达中的跨语言重复启动效应[J].心理学报,2016,11:1401-1409.[6]李婧,陈安涛,陈杰,龙长权.词语型类别属性归纳中分类与属性推理过程的时间特征[J].心理学报,2016,11:1410-1422.[7]张奇勇,卢家楣,闫志英,陈成辉.情绪感染的发生机制[J].心理学报,2016,11:1423-1433.[8]赵英,程亚华,伍新春,阮氏芳.汉语儿童语素意识与词汇知识的双向关系:一项追踪研究[J].心理学报,2016,11:1434-1444.[9]罗利,黄敏儿.情绪调节在特质与情绪间中介效应模型的年龄差异[J].心理学报,2016,11:1455-1466.[10]杨沈龙,郭永玉,胡小勇,舒首立,李静.低阶层者的系统合理化水平更高吗?——基于社会认知视角的考察[J].心理学报,2016,11:1467-1478.[11]魏华,汪涛,周宗奎,冯文婷,丁倩.叠音品牌名称对消费者知觉和偏好的影响[J].心理学报,2016,11:1479-1488.[12]王孟成,邓俏文.缺失数据的结构方程建模:全息极大似然估计时辅助变量的作用[J].心理学报,2016,11:1489-1498.[15]杜雪娇,张奇.样例设计及呈现方式对学习代数运算规则的促进[J].心理学报,2016,11:1445-1454.[16]王永胜,白学军,臧传丽,高晓雷,郭志英,闫国利.副中央凹中字N+2的预视对汉语阅读眼跳目标选择影响的眼动研究[J].心理学报,2016,01:1-11.[17]胡艳梅,张明.基于记忆的注意捕获和注意抑制效应:ERP证据[J].心理学报,2016,01:12-21.[18]曹丛,王美萍,纪林芹,魏星,曹衍淼,张文新.MAOA基因rs6323多态性与母亲支持性教养对青少年抑郁的交互作用:素质–压力假说与不同易感性假说的检验[J].心理学报,2016,01:22-35.[19]尹可丽,包广华,钱丽梅,马霓珊.景颇族初中生的民族社会化觉察及其特征[J].心理学报,2016,01:36-47.[20]马红宇,谢菊兰,唐汉瑛,申传刚,张晓翔.工作性通信工具使用与双职工夫妻的幸福感:基于溢出-交叉效应的分析[J].心理学报,2016,01:48-58.[21]江程铭,刘洪志,蔡晓红,李纾.跨期选择单维占优模型的过程检验[J].心理学报,2016,01:59-72.[22]张剑,宋亚辉,刘肖.削弱效应是否存在:工作场所中内外动机的关系[J].心理学报,2016,01:73-83.[23]陈帅.团队断裂带对团队绩效的影响:团队交互记忆系统的作用[J].心理学报,2016,01:84-94.[24]江红艳,王海忠,何云,朱力.公司形象和产品属性超越的协同效应:基于刻板印象内容模型[J].心理学报,2016,01:95-105.[25].中国心理学会第十一届三次会员代表大会和第十八届全国心理学学术会议纪要[J].心理学报,2016,01:106-108.[26]贾永萍,周楚,李林,郭秀艳.汉字的无线索回忆再认效应:重复学习和重复测验的作用[J].心理学报,2016,02:111-120.[27]孟迎芳,林无忌,林静远,蔡超群.双语即时切换下非目标语言语音和语义的激活状态[J].心理学报,2016,02:121-129.[28]王协顺,吴岩,赵思敏,倪超,张明.形旁和声旁在形声字识别中的作用[J].心理学报,2016,02:130-140.[29]雷寰宇,魏柳青,吕创,张学民,闫晓倩.多身份追踪中基于表情特征的分组效应[J].心理学报,2016,02:141-152.[30]王爱君,沈路,迟莹莹,刘晓乐,陈骐,张明.听障和听力正常人群空间主导性和空间参照框架的交互作用[J].心理学报,2016,02:153-162.[31]刘文娟,沈曼琼,李莹,王瑞明.情绪概念加工与情绪面孔知觉的相互影响[J].心理学报,2016,02:163-173.[32]贾磊,张常洁,张庆林.情绪性注意瞬脱的认知机制:来自行为与ERP的证据[J].心理学[33]何宁,朱云莉.自爱与他爱:自恋、共情与内隐利他的关系[J].心理学报,2016,02:199-210.[36]周翠敏,陶沙,刘红云,王翠翠,齐雪,董奇.学校心理环境对小学4～6年级学生学业表现的作用及条件[J].心理学报,2016,02:185-198.[37]黄敏学,雷蕾,朱华伟.谈钱还是谈情:企业如何引导消费者分享自媒体营销[J].心理学报,2016,02:211-220.[38]李秀君,石文典.选择性注意对听觉内隐学习的影响[J].心理学报,2016,03:221-229.[39]杨海波,刘电芝.片段再认任务在内隐序列学习研究中的有效性检验[J].心理学报,2016,03:230-237.[40]李广政,王丽娟.SPT效应的自动突显机制:来自输出监测的证据[J].心理学报,2016,03:238-247.[41]温红博,梁凯丽,刘先伟.家庭环境对中学生阅读能力的影响:阅读投入、阅读兴趣的中介作用[J].心理学报,2016,03:248-257.[42]应梦婷,江光荣,于丽霞,鲁婷.大学生自伤行为的强化敏感性基础[J].心理学报,2016,03:258-270.[43]胡小勇,郭永玉,李静,杨沈龙.社会公平感对不同阶层目标达成的影响及其过程[J].心理学报,2016,03:271-289.[44]叶勇豪,许燕,朱一杰,梁炯潜,兰天,于淼.网民对“人祸”事件的道德情绪特点——基于微博大数据研究[J].心理学报,2016,03:290-304.[45]詹沛达,边玉芳,王立君.重参数化的多分属性诊断分类模型及其判准率影响因素[J].心理学报,2016,03:318-330.[48]王栋,陈作松.运动员运动道德推脱与运动亲反社会行为的关系[J].心理学报,2016,03:305-317.[49]李恒,曹宇.第二语言水平对双语者语言抑制能力的影响——来自英语–汉语单通道双语者和英语–美国手语双通道双语者的证据[J].心理学报,2016,04:343-351.[50]李文福,童丹丹,邱江,张庆林.科学发明问题解决的脑机制再探[J].心理学报,2016,04:331-342.[51]廖素群,郑希付.认知重评对负性效价的抑制促进条件性恐惧消退[J].心理学[52]刘扬,孙彦.时间分解效应及其对跨期决策的影响[J].心理学报,2016,04:362-370.[53]段锦云,古晓花,孙露莹.外显自尊、内隐自尊及其分离对建议采纳的影响[J].心理学报,2016,04:371-384.[54]刘蕴,李燕萍,涂乙冬.员工为什么乐于助人?多层次的领导–部属交换对帮助行为的影响[J].心理学报,2016,04:385-397.[55]冯文婷,汪涛,魏华,周南.孤独让我爱上你:产品陈列对孤独个体产品偏好的影响[J].心理学报,2016,04:398-409.[56]柳武妹,王静一,邵建平.消费者触摸渴望的形成机制解析——基于认知体验视角[J].心理学报,2016,04:410-422.[57]崔楠,徐岚,谢雯婷.做会后悔还是不做会后悔?——自我调节模式对不作为惯性的影响[J].心理学报,2016,04:423-434.[58]温忠麟,范息涛,叶宝娟,陈宇帅.从效应量应有的性质看中介效应量的合理性[J].心理学报,2016,04:435-443.[59]叶浩生.镜像神经元的意义[J].心理学报,2016,04:444-456.[61]王福兴,侯秀娟,段朝辉,刘华山,李卉.中国象棋经验棋手与新手的知觉差异:来自眼动的证据[J].心理学报,2016,05:457-471.[62]刘聪,焦鲁,孙逊,王瑞明.语言转换对非熟练双语者不同认知控制成分的即时影响[J].心理学报,2016,05:472-481.[63]蔡阿燕,杨洁敏,许爽,袁加锦.表达抑制调节负性情绪的男性优势——来自事件相关电位的证据[J].心理学报,2016,05:482-494.[64]白学军,张琪涵,章鹏,周菘,刘颖,宋星,彭国慧.基于fNIRS的运动执行与运动想象脑激活模式比较[J].心理学报,2016,05:495-508.[65]王琼,王玮文,李曼,杜伟,邵枫.阻断内侧前额叶皮质TrkB受体对大鼠认知和海马BDNF 表达的影响[J].心理学报,2016,05:509-517.[66]邢淑芬,梁熙,岳建宏,王争艳.祖辈共同养育背景下多重依恋关系及对幼儿社会-情绪性发展的影响[J].心理学报,2016,05:518-528.[67]马惠霞,薛杨,刘静.中学生学业羞愧:测量、生理唤醒及其与学业成绩的关系[J].心理学报,2016,05:529-539.[68]谢和平,王福兴,周宗奎,吴鹏.多媒体学习中线索效应的元分析[J].心理学报,2016,05:540-555.[69]陆欣欣,孙嘉卿.领导-成员交换与情绪枯竭:互惠信念和权力距离导向的作用[J].心理学报,2016,05:566-577.[70]刘彦楼,辛涛,李令青,田伟,刘笑笑.改进的认知诊断模型项目功能差异检验方法——基于观察信息矩阵的Wald统计量[J].心理学报,2016,05:588-598.[72]倪旭东,项小霞,姚春序.团队异质性的平衡性对团队创造力的影响[J].心理学报,2016,05:556-565.[73]黄四林,韩明跃,张梅.人际关系对社会责任感的影响[J].心理学报,2016,05:578-587.[74]李恒,张积家.听觉任务下汉语母语者对不同类型时间句的加工[J].心理学报,2016,06:617-624.[75]苏衡,刘志方,曹立人.中文阅读预视加工中的词频和预测性效应及其对词切分的启示:基于眼动的证据[J].心理学报,2016,06:625-636.[76]谌小猛,刘春玲,乔福强,戚克敏.盲人建构陌生环境空间表征的策略及其作用[J].心理学报,2016,06:637-647.[77]郑晓明,刘鑫.互动公平对员工幸福感的影响:心理授权的中介作用与权力距离的调节作用[J].心理学报,2016,06:693-709.[78]陈乐妮,王桢,骆南峰,罗正学.领导-下属外向性人格匹配性与下属工作投入的关系:基于支配补偿理论[J].心理学报,2016,06:710-721.[79]李信,陈毅文.口碑追加形式对购买意向的影响:口碑方向的调节作用[J].心理学报,2016,06:722-732.[80]祝婧媛,何贵兵.风险来源与决策:背信规避现象及人际联结需求的作用[J].心理学报,2016,06:733-745.[81]黎晓丹,杜建政,叶浩生.中国礼文化的具身隐喻效应:蜷缩的身体使人更卑微[J].心理学报,2016,06:746-756.[83]吴岩,莫德圆,王海英,于溢洋,陈烜之,张明.语义分类任务中部件位置在汉字识别中的作用[J].心理学报,2016,06:599-606.[84]崔如霞,高志华,唐艺琳,何皓璠,鲁忠义.汉语确定性无界否定句模拟加工的时间进程[J].心理学报,2016,06:607-616.[85]刘传军,辛勇,张富洪,冯春,陈幼平.躯体运动促进空间更新的环境依赖效应[J].心理学报,2016,06:648-657.[86]徐菊,胡媛艳,王双,李艾苏,张明,张阳.返回抑制训练效应的认知神经机制——来自ERP 研究的证据[J].心理学报,2016,06:658-670.[87]黄碧娟,封洪敏,司继伟,张杰,王翔艳.双任务协调、任务呈现方式影响成人算术策略执行:估算证据[J].心理学报,2016,06:671-683.[88].欢迎订阅2016年心理学期刊[J].心理学报,2016,06:758.[89]黄四林,韩明跃,宁彩芳,林崇德.大学生学校认同对责任感的影响:自尊的中介作用[J].心理学报,2016,06:684-692.[90]任志洪,李献云,赵陵波,余香莲,李政汉,赖丽足,阮怡君,江光荣.抑郁症网络化自助干预的效果及作用机制——以汉化MoodGYM为例[J].心理学报,2016,07:818-832.[91]白学军,马谐,陶云.中-西方音乐对情绪的诱发效应[J].心理学报,2016,07:757-769.[92]刘思耘,周倩,贾会宾,赵庆柏.不相关言语对视觉觉察的影响[J].心理学报,2016,07:770-782.[93]王慧媛,隋洁,张明.线索靶子关联和搜索策略对注意捕获的作用——来自意义线索的证据[J].心理学报,2016,07:783-793.[94]刘芳,丁锦红,张钦.高、低趋近积极情绪对不同注意加工阶段的影响[J].心理学报,2016,07:794-803.[95]宋娟,郭丰波,张振,原胜,金花,王益文.人际距离影响疼痛共情:朋友启动效应[J].心理学报,2016,07:833-844.[96]范伟,钟毅平,李慧云,孟楚熠,游畅,傅小兰.欺骗判断与欺骗行为中自我控制的影响[J].心理学报,2016,07:845-856.[97]汪佳瑛,陈斌斌.童年压力及死亡威胁启动对择偶要求的影响[J].心理学报,2016,07:857-866.[98]陈帅,王端旭.道不同不相为谋?信息相关断裂带对团队学习的影响[J].心理学报,2016,07:867-879.[99]靳菲,朱华伟.消费者的权力感与冲动购买[J].心理学报,2016,07:880-890.[100]康春花,任平,曾平飞.多级评分聚类诊断法的影响因素[J].心理学报,2016,07:891-902.[101]郭磊,郑蝉金,边玉芳,宋乃庆,夏凌翔.认知诊断计算机化自适应测验中新的选题策略:结合项目区分度指标[J].心理学报,2016,07:903-914.[104]张丽锦,毕远,梁熠,刘敏红.小学一年级数感不良儿童的筛查与动态干预[J].心理学报,2016,07:804-817.[105]张豹,胡岑楼,黄赛.认知控制在工作记忆表征引导注意中的作用:来自眼动的证据[J].心理学报,2016,09:1105-1118.[106]尹华站,李丹,陈盈羽,黄希庭.1～6秒时距认知分段性特征[J].心理学报,2016,09:1119-1129.[107]张剑心,汤旦,李莹丽,刘电芝.反向对抗逻辑范式的创立与证实——人工语法PDP对抗逻辑的改进[J].心理学报,2016,09:1130-1142.[108]胡清芬,卢静.幼儿在地图任务中对自我位置与自我朝向的结合[J].心理学报,2016,09:1143-1150.[109]黄婷婷,刘莉倩,王大华,张文海.经济地位和计量地位:社会地位比较对主观幸福感的影响及其年龄差异[J].心理学报,2016,09:1163-1174.[110]赵荣,王小娟,杨剑峰.声调在汉语音节感知中的作用[J].心理学报,2016,08:915-923.[111]周希,宛小昂,杜頔康,熊异雷,黄蔚欣.不连续虚拟现实空间中的再定向[J].心理学报,2016,08:924-932.[112]侯金芹,陈祉妍.青少年抑郁情绪的发展轨迹:界定亚群组及其影响因素[J].心理学报,2016,08:957-968.[113]周宵,伍新春,曾旻,田雨馨.青少年的情绪调节策略对创伤后应激障碍和创伤后成长的影响:社会支持的调节作用[J].心理学报,2016,08:969-980.[114]丁如一,周晖,张豹,陈晓.自恋与青少年亲社会行为之间的关系[J].心理学报,2016,08:981-988.[115]范伟,钟毅平,杨子鹿,李琎,欧阳益,蔡荣华,李慧云,傅小兰.外倾个体的自我参照加工程度效应[J].心理学报,2016,08:1002-1012.[116]余柳涛,鲍建樟,陈清华,王大辉.个体自信度对双人决策的影响[J].心理学报,2016,08:1013-1025.[117]高椿雷,罗照盛,喻晓锋,彭亚风,郑蝉金.CD-MST初始阶段模块组建方法比较[J].心理[118]孟祥斌,陶剑,陈莎莉.四参数Logistic模型潜在特质参数的Warm加权极大似然估计[J].心理学报,2016,08:1047-1056.[121]刘文理,周详,张明亮.汉语塞-元-塞音序列语境效应机制探讨[J].心理学报,2016,09:1057-1069.[122]张积家,章玉祉.义符启动范式下义符的语义和语法激活的时间进程[J].心理学报,2016,09:1070-1081.[123]刘志方,张智君,杨桂芳.中文阅读中的字词激活模式:来自提示词边界延时效应的证据[J].心理学报,2016,09:1082-1092.[124]刘丽,白学军.注意控制定势和线索类型在注意捕获中的作用[J].心理学报,2016,09:1093-1104.[125]张静,陈巍.身体意象可塑吗?——同步性和距离参照系对身体拥有感的影响[J].心理学报,2016,08:933-945.[126]邱方晖,罗跃嘉,贾世伟.个体攻击性对愤怒表情类别知觉的影响[J].心理学报,2016,08:946-956.[127]李彩娜,孙颖,拓瑞,刘佳.安全依恋对人际信任的影响:依恋焦虑的调节效应[J].心理学报,2016,08:989-1001.[128]费定舟,钱东海,黄旭辰.利他行为的自我控制过程模型:自我损耗下的道德情绪的正向作用[J].心理学报,2016,09:1175-1183.[129]陈平.两种新的计算机化自适应测验在线标定方法[J].心理学报,2016,09:1184-1198.[132]彭坚,王霄.与上司“心有灵犀”会让你的工作更出色吗?——追随原型一致性、工作投入与工作绩效[J].心理学报,2016,09:1151-1162.[133]杨颖,朱毅.谁该成为体验型产品网络评论的主角,图片还是文字?[J].心理学报,2016,08:1026-1036.[134]牛更枫,孙晓军,周宗奎,孔繁昌,田媛.基于QQ空间的社交网站使用对青少年抑郁的影响:上行社会比较和自尊的序列中介作用[J].心理学报,2016,10:1282-1291.[135]严璘璘,王哲,张智君,宋赛尉,孙宇浩.知觉经验对面孔整体加工的影响[J].心理学报,2016,10:1199-1209.[136]李小平.Linda问题的表象-命题双表征解释视角探究[J].心理学[137]毛伟宾,赵浩远,东利云,白鹭.提取诱发遗忘中的情绪记忆权衡效应[J].心理学报,2016,10:1219-1228.[138]姜英杰,王志伟,郑明玲,金雪莲.基于价值的议程对学习时间分配影响的眼动研究[J].心理学报,2016,10:1229-1238.[139]安献丽,陈四光.认知重评阻断条件化恐惧记忆的习得与表达——对恐惧反应的长程抑制作用[J].心理学报,2016,10:1239-1247.[140]艾继如,张红段,司继伟,卢淳,张堂正.任务呈现方式、双任务反应顺序影响算术估算策略选择与执行[J].心理学报,2016,10:1248-1257.[141]李利平,伍新春,周宁宁,程亚华,阮氏芳.汉语儿童读词者的认知特征及其影响因素[J].心理学报,2016,10:1270-1281.[142]徐富明,蒋多,张慧,李欧,孔诗晓,史燕伟.心理距离对基线比例忽略的影响[J].心理学报,2016,10:1292-1301.[143]丁瑛,宫秀双.社会排斥对产品触觉信息偏好的影响及其作用机制[J].心理学报,2016,10:1302-1313.[144]刘畅唱,贾良定,李珏兴,刘德鹏,杨椅伊.经验开放性对跨文化管理有效性的作用机制[J].心理学报,2016,10:1326-1337.[145]蔡艳,苗莹,涂冬波.多级评分的认知诊断计算机化适应测验[J].心理学报,2016,10:1338-1346.[146]詹沛达,陈平,边玉芳.使用验证性补偿多维IRT模型进行认知诊断评估[J].心理学报,2016,10:1347-1356.[149]陈京军,许磊,程晓荣,刘华山.儿童汉字练习:纸笔手写与键盘拼音输入的效果比较[J].心理学报,2016,10:1258-1269.[150]谢俊,严鸣.积极应对还是逃避?主动性人格对职场排斥与组织公民行为的影响机制[J].心理学报,2016,10:1314-1325.。

人员素质测评题库及答案

人员素质测评刷题库一、单选题(题数:88)1人格类型理论的创立者是( )。

(1.0分)A、霍兰德B、――帕森斯C、卡特尔D、威廉森正确答案:A2精神分析理论的创始人是( )。

(1.0分)A、弗洛姆B、弗洛伊德C、阿德勒D、荣格正确答案:B3代表的是日常活动中最广泛的是( ).(1.0分)A、典型绩效B、任务绩效C、内容绩效D、周边绩效正确答案:A4.16PF得以建立的人格理论基础是()。

(1.0分)A、卡特尔的人格特质理论B、艾森克的人格理论C、荣格的人格类型理论D、比奈的人格测验理论正确答案:A5将全体被评估人员的绩效从高到低进行依次排列的绩效评估方法是()。

(1.0分)A、关键事件法B、强制分布法C、配对比较法D、排序法正确答案:D6评价中心的特点不包括( )。

(1.0分)A、标准化B、静态性C、全面性D、综合性正确答案:B7准确、及时、安全、有效地拟制、传递、处理和管理公文,为机关公务提供适用信息的是( )。

(1.0分)A、管理游戏B、公文处理C、小组讨论D、角色扮演正确答案:B8最能达到“人尽其才,才尽其用”目的的人力资源测评类型是()。

(1.0分)A、预测性测评B、选拔性测评C、配置性测评D、开发性测评正确答案:C9.EPQ得以建立的人格理论基础是()。

(1.0分)A、卡特尔的人格特质理B、比奈的人格测验理论C、荣格的人格类型理论D森吉的人格理论正确答案：D10.对空间知觉、机械理解、动作敏捷性等进行的测验是()。

(1.0分)A、――机械能力测评B、书写能力测评C、创造能力测评D、操作能力测评正确答案:A11任务绩效更为关注的是工作( )。

(1.0分)A、结果B、过程C、态度D、行为正确答案:A12对如同装配线或流水线上简单而又重复的工作,测验其适应能力的是( )。

(1.0分)A、书写能力测评B、机械能力测评c、操作能力测评D、创造能力测评正确答案:C13 通过学校和社会经验而获得的知识和技能的组合,是一种后天习得的能力的是( ).(1.0分)A、―环境适应能力B、流体智力C、晶体智力D、学习的能力正确答案:c14主试集中提出若干问题测试被试对拟应聘机构的了解程度,了解其求职动因、专业技术能力、知识水平等,属于面试的()。

【国家自然科学基金】_题库_基金支持热词逐年推荐_【万方软件创新助手】_20140801

2014年序号 1 2 3 4 5 6 7 8 9 10 11 12 13
2014年科研热词推荐指数黄河 1 题库安全 1 选题策略 1 评价体系 1 计算机化自适应认知诊断测验选题策略题库使用率二分法 1 计算机化自适应认知诊断测验 1 结构方程法 1 测验精度 1 水沙模型 1 数学模型 1 按模式分层 1 层次分析法 1 多目标评价 1
2011年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
2011年科研热词推荐指数选题策略 2 计算机化自适应测验 2 新题 2 在线标定 2 题库使用均匀性 1 项目增补 1 认知诊断计算机化自适应测验(co-cat) 1 认知诊断计算机化自适应测验 1 认知诊断自适应测验 1 认知诊断 1 计算机化自适应诊断测验 1 旧题 1 按模式分层 1 按a分层 1 属性自动标识 1 子题库划分 1 在线属性向量标定 1 mmle 1 dina模型 1 3参数逻辑斯蒂克模型 1
推荐指数 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2010年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
科研热词推荐指数论元结构 1 计算机辅助测试 1 角色标注 1 蒙特卡洛模拟 1 组卷模型 1 特征结构 1 智能组卷 1 夹逼平均法 1 多重迭代极大似然估计法 1 和声搜索算法 1 原始题 1 优化 1 propbank 1 cat 1
2008年序号 1 2 3 4 5 6

科研热词诊断计算机网络计算机化自适应测验网络考试数据库形式概念分析
推荐指数 1 1 1 1 1 1
2009年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

考研心理学单项选择题专项强化真题试卷32(题后含答案及解析)

考研心理学单项选择题专项强化真题试卷32(题后含答案及解析) 题型有：1.根据下表所示的实验设计方案，回答:1．采用这种设计可控制的主要额外变量是（）A．顺序误差B．期望误差C．实验者效应D．动作误差正确答案：A解析：本题旨在考查考生对实验心理学中实验设计的理解和掌握情况。

该实验设计是拉丁方设计，每个被试完成的4种实验条件顺序是不一样的，这就控制了实验的顺序效应对实验结果的影响。

故本题选A。

2．主题统觉测验属于A．成就测验B．自陈测验C．情景测验D．投射测验正确答案：D解析：本题旨在考查考生对心理测验应用中有关人格测验类型的掌握情况。

心理测验可以分为多种类型，按照测验的功能可以分为成就测验、智力测验、人格测验、特殊能力测验；按照测验方法可以分为自陈测验(问卷法)、投射测验和情景测验(作业法)。

主题统觉测验是由默瑞和摩根于1935年创制的，后经三次修订，它是人格投射测验。

它通过向受测者呈现一系列意义相对模糊的图卡，并鼓励他们按照图卡不假思索地编述故事，以此来窥探受测者的主要需要、动机、情绪、情操和人格特征。

故本题正确答案是D。

3．长时记忆最主要的编码方式是A．视觉编码B．听觉编码C．语义编码D．形象编码正确答案：C解析：本题旨在考查考生对普通心理学中不同类型记忆的编码方式的了解与掌握。

感觉记忆的编码形式主要依赖于刺激物的物理特征，具有鲜明的形象性，其中视觉编码是主要形式。

听觉通道也存在感觉记忆，被称为声像记忆。

短时记忆的编码方式包括听觉编码和视觉编码两种，其中以听觉编码为主。

在短时记忆的最初阶段存在视觉形式的编码，之后逐渐向听觉形式过渡。

长时记忆主要采用语义编码，即按刺激物的意义进行编码储存。

佩维沃等心理学家认为长时记忆除了有语义编码外还存在表象编码。

本题的答案是C。

4．心理过程是人脑能动地反映客观事物的过程，它包括( )A．认知、情感、行为B．感觉、知觉、行为C．情感、意志、行为D．认知、情感、意志正确答案：D为考察词的类型(靶子词、非靶子词)以及辨别条件(高辨别、低辨别)对双耳追随效果的影响。

自适应在线学习测评研究及其应用

摘要摘要随着互联网的快速发展，越来越多的学习者选择通过互联网进行在线学习，各种基于智能化和自动化的在线学习模式、方法方兴未艾，在线学习的自适应测评就是其中的一个重要方面。

本文针对自适应在线学习测评理论与技术展开了深入研究，将教育学、心理学等最新成果应用到在线学习测评的研究当中，提出了针对学习者个体的自适应选题策略算法，并在此基础上实现了在线学习的自适应测评系统，提高了学习者的测评效率，为学习者高效地进行个性化在线学习能力测评提供了新的途径。

论文主要进行了三个方面的工作：一、研究并设计自适应在线学习测评系统的选题策略，通过研究自适应测验的经典选题策略，分析最大信息量法、a分层法以及其改进算法的特点与局限，在经典选题策略的基础上提出了新的可靠、可行的改进选题策略，同时与传统选题策略及其改进算法从项目曝光率、题库平均曝光率、测验准确性、测验效率和测验重叠率等多个维度进行了性能比较。

二、研究基于蒙特卡洛模拟的自适应测评选题策略的检验方法，对本文提出的算法进行了模拟实现，设计检验方法实验程序结构并编写检验方法程序，应用检验方法模拟选题策略测评过程，并对传统选题策略与本文提出的改进策略进行比较。

三、设计并实现了自适应在线学习测评系统，基于可用性和可靠性的考虑，设计了测评系统架构，实现了测评系统各模块功能，建立了自适应在线学习测评系统的测评题库，为学习者进行在线测评提供了有效途径。

论文提出的新型自适应测评算法与模式，有效降低了传统方法的项目曝光率，相对于其他分层方法提高了测验精度，在测验准确性和测验效率上都有较大提升，开发的自适应在线学习测评系统为学习者个性化学习能力的区分提供了可靠的测评手段，具有良好的应用前景和价值。

关键字：计算机自适应测验，项目反应理论，蒙特卡洛模拟，选题策略ABSTRACTWith the rapid development of the Internet technology, more and more learners choose to learn through the Internet. A variety of online learning models and methods based on intelligent and automated are in the ascendant. Online learning adaptive testing is one of the important aspects. The thesis focus on the theory and technology of adaptive online learning testing, and apply the latest achievements such as pedagogy and psychology to the study of online learning testing, and propose an adaptive strategy for learners. Based on the realization of the online learning adaptive testing system it improves the efficiency of learners' testing, and provides a new way to the personalized online learning ability testing.This thesis mainly carries out three aspects of work:Firstly, studying and designing item selection strategy of the adaptive online learning testing system. Analyzing features and limitations of the Maximum Fisher Information strategy, a-strategy and the improved algorithms. Putting a new reliable and feasible improved item selection strategy through a research on the classical adaptive testing item selection strategy. Comparing the improved item selection with the traditional item selection strategy from exposure rate of the item, average exposure rate, the accuracy and efficiency of testing and Chi-square test.Secondly, researching the testing methods of adaptive item selection strategy based on Monte Carlo simulation, simulating the algorithm proposed in this thesis. Designing structure of testing-method, coding testing-method program, using testing-method to simulate item selection strategy processing. Comparing the traditional item selection strategy and the improved strategy which is proposed in this thesis.Thirdly, researching and designing the adaptive online learning testing system based on the consideration of usability and reliability. Designing and implementing the system architecture. Realizing the function of each module of the adaptive testing system. Establishing the question bank of the adaptive testing system. Providing an effective way for the online learners.The new adaptive testing algorithm and model proposed in this thesis effectively reduce the item exposure rate of traditional strategy and improve the accuracy and the efficiency of the testing. The completed of the adaptive online learning testing systemprovides a reliable means for the differentiation of learners’ individual learning ability, and it has a good application prospects and value.Keywords: Computerized Adaptive Testing, Item Response Theory, Monte Carlo Simulation, Item Selection Strategy目录第一章绪论 (1)1.1 研究背景与意义 (1)1.2 国内外研究现状 (3)1.2.1 国外研究现状 (3)1.2.2 国内研究现状 (4)1.3 论文主要内容 (6)1.4 论文结构 (6)第二章自适应在线学习测评理论基础 (7)2.1 经典测验理论 (7)2.1.1 经典测验理论的理论基础 (7)2.1.2 经典测验理论的局限性 (8)2.2 项目反应理论 (9)2.2.1 项目反应理论的分类 (10)2.2.2 项目反应理论的理论体系假设 (11)2.2.3 项目反应理论的常用参数模型 (11)2.2.4 项目特征曲线 (13)2.2.5 项目反应理论与经典测验理论的比较 (13)2.3 测验题库建立 (14)2.4 参数估计 (14)2.4.1 贝叶斯估计 (15)2.4.2 极大似然估计 (16)2.5 自适应测验常用选题策略 (18)2.5.1 最大信息量法 (19)2.5.2 a分层法 (20)2.5.3 常用选题策略局限 (21)2.6 本章总结 (21)第三章改进的自适应测评选题策略 (22)3.1 改进选题策略 (22)3.2 基于蒙特卡洛模拟的选题策略检验 (29)3.2.1 蒙特卡洛模拟法介绍 (29)3.2.2 选题策略检验方法设计 (29)3.3 选题策略比较参数介绍与结果分析 (35)3.3.1 测验能力估值误差 (36)3.3.2 选题策略项目曝光率 (39)3.3.3 测验效率 (42)3.3.4 测验重叠率 (43)3.3.5 χ2检验 (44)3.4 实验结果总结 (44)3.5 本章总结 (45)第四章自适应在线学习测评系统设计与实现 (47)4.1 需求分析 (47)4.1.1 技术可行性研究 (47)4.1.2 功能性需求分析 (48)4.1.3 非功能性需求分析 (49)4.2 系统总体设计 (50)4.2.1 系统物理架构设计 (50)4.2.2 技术架构设计 (51)4.2.3 系统模块结构 (52)4.3 系统数据库和缓存设计 (53)4.3.1 题库项目信息存储设计 (54)4.3.2 被试者测验数据存储设计 (55)4.4 系统关键模块设计和实现 (56)4.4.1 系统关键模块结构 (56)4.4.2 用户COOKIE解析模块 (57)4.4.3 选题策略模块 (60)4.4.4 极大似然参数估计模块 (62)4.4.5 DBDAO模块 (65)4.4.6 系统关键模块类实现 (65)4.5 题库建立过程 (67)4.6 自适应在线学习测评系统演示 (70)4.7 本章总结 (75)第五章总结与展望 (76)5.1 本文工作总结 (76)5.2 展望 (77)致谢 (78)参考文献 (79)攻读硕士学位期间取得的成果 (83)第一章绪论第一章绪论1.1 研究背景与意义随着互联网的普及，传统教育的检验方式——线下的纸笔测评已经不能应对不同学生的测评需求。

关于大学英语计算机化测试的应用研究章于红

23
高、低两端的受试者通过该题目的比率。项目反应理论是随着计算机技术的发展和计算
机自适应测试的发展，在经典测试理论的继承和发展上产生的，其不同于经典测试理论的测试应用方法得到众多研究测试学者们的关注。项目反应理论的产生改变了测量领域中经典测试理论一家独言的格局，产生了语言测试新领域。以强假设（ strong assumptions）为基础，项目反应理论有三条基本假设：（ 1）潜在特质空间的单维项目反应理论；（ 2）局部独立性假设；（ 3）项目特征曲线假设。由于具有参数不变性等优点，数学模型构成多样，采用的每一种非线性的概率模型都是建立在一定假设基础之上的，源于该理论下的测试不仅符合常模参照性测验需求，还适用于标准参照性测验，还可编制出“因人施测”的自适应测试。目前国际上大型考试 TOFEL 就开始进行该理论的研究应用。
试中占决定性地位，随着以非线性的概率模型为代表的项目反应理论（ item response theory）为依据的语言测试的不断应用与实践，语言测试理论格局发生根本性变化。
以线性的定性模型为基本思想的经典测试理论把测试的得分看作真分数和误差分数的线性组合，包括平均分、标准差、难度、区分度、信度和效度等参数。评价测试的两个基本要素是信度与效度，是否对学生的语言水平提供可靠的度量是测试信度，信度系数越大，测试信度越高；作为衡量测试者水平的一种尺度的效度，测试的有效性或测试结果的正确程度，依照测试目标不同，分为内容效度、效标关联效度与结构效度。反映分数集中位置特征的数值，常用它进行不同分数组之间的比较的平均分是用得最多的一种集中量数。呈现一批分数的离散程度的标准差则是最重要的差异量数。计算公式如下：
2012 年第 11 期

自学考试《人员素质测评理论与方法》历年真题【精编】

自学考试《人员素质测评理论与方法》历年真题【精编】1.人力资源测评的特点之一是在有限的时间内难以掌握所有反映被测评者素质的信息，因此采用“部分能够反映总体”的原则。

这种特点被称为抽样性，选项A是正确答案。

2.人格类型理论的创立者是XXX，选项C是正确答案。

3.具有合作、友善、助人、负责、圆滑、善社交、善言谈和洞察力强等人格特征的人格类型是社会型，选项D是正确答案。

4.将测评对象划分到事先确定的几个类别中，并赋予不同的数字，这种量化形式被称为类别量化，选项B是正确答案。

5.利用二值记分估计评测题目的难度时，P值越小表示难度越大，选项A是正确答案。

6.1904年率先提出双因素论的心理学家是XXX，选项A是正确答案。

7.心理测量的第一人是XXX，选项A是正确答案。

8.追求并致力于职位晋升，倾心于全面管理，独立负责一部分，可以跨部门整合其他人的努力成果，具有这种特性的人属于管理型职业锚，选项B是正确答案。

9.试图追求和达到目标的内在动力指的是成就动机，选项C是正确答案。

10.家庭的组成、家庭的气氛、父母的教育方式、家庭子女的数量等是影响人格的家庭环境，选项B是正确答案。

11.代表社会价值的人格部分是超我，选项B是正确答案。

12.XXX多项人格问卷(MMPI)的题目共有566道，选项A 是正确答案。

13.测评适应能力的是操作能力测评，选项B是正确答案。

14.注意力属于一般能力，选项C是正确答案。

15.评价者仅使用评价尺度中的一部分来进行评价，导致结果出现误差，这种误差被称为分布误差，选项C是正确答案。

16.评价者拿一个人的绩效与其他人进行比较，该绩效评估方法是相对评估，选项A是正确答案。

A.文字报告B.图表展示C.口头反馈D.视频展示E.邮件通知30.测评中心的主要作用是（ABD）A.提供专业的测评服务B.制定测评计划C.管理组织的人力资源D.培训测评人员E.进行市场调研17.绩效评估的信息来源不包括亲属，其他包括上级管理者、同事和内外部顾客。

考研资料心理学测评试题

考研心理学学硕统考312全真模拟卷一、单项选择题：第1~65 小题，每小题2 分，共130 分。

下列每题给出的四个选项中，只有一个选项符合试题要求1.阿德勒认为，人格发展的目标是（）A.追求卓越B．自我实现C．归属与爱D．自卑情结2.根据鲁利亚的观点，由边缘系统与脑干网状结构等组成的机能系统是（）A. 平衡系统B.调节系统C.动力系统D.信息接受、加工和存储系统3.下列选项中，与有机体的呼吸、吞咽、排泄等基本生命活动有密切联系的是（）A. 脑桥B.中脑C.延脑D.间脑4.感受性提高的感觉适应现象是（）A. 触觉适应B.嗅觉适应C.暗适应D.明适应5.在阳光照射下，红花与蓝花可能显得同样亮；而当夜幕降临时，蓝花似乎比红花更亮些。

造成这种现象的原因是（）A. 棒体细胞是夜视细胞，对波长较短的光具有较高感受性B.棒体细胞是明视细胞，对波长较长的光具有较高敏感性C.锥体细胞是夜视细胞，对波长较长的光具有较高感受性D.锥体细胞是明视细胞，对波长较短的光具有较高敏感性6.在情绪研究中，研究者长期以来争论的主要问题是（）A.情绪的产生是否与生理活动有关B.情绪是否具有动机功能C.情绪和认知是否相互独立D.基本面部表情是否具有跨文化一致性7.一个学生在解题时，被其他同学谈论的奇闻轶事所吸引，这种注意是（）A.随意注意B.不随意注意C.随意后注意D．随意前注意8.在对系列呈现的学习材料进行自由回忆时，最后呈现的材料遗忘少。

这种现象称为（）A. 首因效应B.启动效应C.词优效应D.近因效应9.贾维克（Jarvik ）和艾斯曼（Essman ）的小白鼠跳台实验所支持的记忆学说是（）A.脑机能定位说B．突触生长说C．反响回路说D．记忆分子说10.司机可以边开车边听音乐，能够解释这种现象的最恰当的理论是（）A.衰减理论B．过滤器理论C．反应选择理论D．认知资源理论11.某患者发音器官正常，但说话困难，出现“电报式”言语，其病变可能发生在（）A. 威尔尼克区B.布洛卡区C.潘菲尔德区D.角回12.普拉切克认为情绪的三个维度是（）A. 愉快一不愉快、紧张一松弛、激动一平静B.愉快一不愉快、注意一拒绝、激活水平C.强度、相似性、两极性D.愉快度、紧张度、确信度13.有两所幼儿园可供家长选择，一所幼儿园离家远，但设施条件很好，另一所幼儿园离家近，但设施条件一般。

心理学全国考研真题卷(附答案)

2008年全国硕士研究生入学统一考试心理学专业基础综合试题一、单项选择题：1～65小题，每小题2分，共130分.下列每题给出的四个选项中，只有一个选项是符合题目要求的.请在答题卡上将所选项的字母涂黑.1．强调心理学不应该以意识为主要研究对象的学派是（）A．构造主义 B．机能主义 C．人本主义 D．行为主义2．现代心理学诞生和发展的两个重要历史渊源是哲学和（）A．生理学 B．社会学 C．人类学 D．物理学3．通过裂脑人研究来揭示大脑两半球功能单侧化的科学家是（）A．布洛卡（P．Broca） B．拉什利（K．S．Lashley）C．斯佩里（R．Sperry） D．威尔尼克（C．Wernicke）4．颜色视觉的三个基本属性是（）A．色调、波长、照度 B．色调、明度、照度C．波长、明度、饱和度 D．色调、明度、饱和度5．视觉感受野位于（）A．外侧膝状体 B．额叶 C．视网膜 D．视觉皮层6．频率理论在解释听觉现象时，使用的声音频率范围是（）A．500HZ以下 B．1000～5000HZC．5000～10000Hz D．10000Hz以上7．观众把篮球比赛中穿着不同服装的运动员相应地归为不同的球队，这体现了知觉组织的（）A．对称性原则 B．邻近性原则 C．连续性原则 D．相似性原则8．小张去车站接一位陌生客人，他的预期会影响对这位客人的辨认.这种知觉的加工方式主要是（）A．“全或无”加工 B．颉颃加工C．自上而下的加工 D．自下而上的加工9．检验注意过滤器理论经常使用的实验范式是（）A．双耳分析 B．语义启动 C．双任务操作 D．视觉搜索10．随年龄增长，个体的快速眼动睡眠量（）A．越来越多 B．越来越少C．呈U型变化 D．呈倒U型变化11．长时记忆最主要的编码方式是（）A．视觉编码 B．听觉编码 C．语义编码 D．形象编码12．在对系列呈现的学习材料进行自由回忆时，最后呈现的材料遗忘少.这种现象称为（）A．首因效应 B．启动效应 C．词优效应 D．近因效应13．谢帕德（R．N．Shepard）和库柏（L．A．Cooper）的“心理旋转”实验主要说明了表象具有（）A．概括性 B．可变通性 C．可操作性 D．稳定性14．“音乐家必须去创造音乐，画家必须作画，诗人必须写诗……一个人要成为他能够成为的那个人，就必须真实地面对自己.”根据马斯洛的观点，这段话体现了人具有（）A．归属与爱的需要 B．尊重的需要C．自我实现的需要 D．安全的需要15．“鱼，我所欲也；熊掌，亦我所欲也；二者不可得兼……”所反映的动机冲突是（）A．双趋冲突 B．双避冲突 C．趋避冲突 D．多重趋避冲突16．强调丘脑在情绪中有重要作用的理论是（）A．詹姆斯--兰格情绪理论 B．坎农--巴德情绪理论C．沙赫特的情绪理论 D．阿诺德的情绪理论17．卡特尔将基于先天禀赋、主要与神经系统的生理机能有关、较少受到后天文化教育影响的智力称为（）A．情绪智力 B．晶体智力 C．空间智力 D．流体智力18．诚实或虚伪、勇敢或怯懦、谦虚或骄傲、勤劳或懒惰等描述的是个体的（）A．性格特征 B．能力特征 C．气质特征 D．认知特征19．与多血质气质类型相对应的高级神经活动过程的基本特征表现为（）A．强、不平衡 B．强、平衡、灵活 C．强、平衡、不灵活 D．弱20．霍尔（G．S．Hall）提出的解释儿童心理发展的理论是（）A．白板说 B．复演说 C．进化说 D．成熟势力说21．根据弗洛伊德的发展理论，“恋母情结”出现的阶段是（）A．口唇期 B．肛门期 C．潜伏期 D．性器期22．胎儿在发育过程中，细胞和组织分化非常迅速，并对环境极为敏感的时期是（）A．第1～2周 B．第2～8周 C．第9～15周 D．第21～30周23．安斯沃斯（M．Ainsworth）等人研究婴儿依恋所使用的主要方法是（）A．习惯化与去习惯化 B．视觉偏爱法C．陌生情境技术 D．照镜子法24．根据皮亚杰的认知发展理论，前运算阶段思维的主要特点是（）A．可逆性 B．守恒性 C．形象性 D．互反性25．艾里克森认为，青少年期人格发展的主要任务是获得（）A．自主感 B．亲密感 C．勤奋感 D．同一感26．在间歇强化条件下，行为反应的特点是（）A．建立快，消退也快 B．建立快，消退慢C．建立慢，消退快 D．建立慢，消退也慢27．根据成就目标定向理论，以掌握知识、提高能力为目标的个体，倾向于选择（）A．最低难度的任务 B．中等难度的任务C．最高难度的任务 D．最高或最低难度的任务28．下列选项中，不属于维纳提出的归因纬度的是（）A．内在性 B．普遍性 C．可控性 D．稳定性29．最早明确提出“教育的心理学化”观点的学者是（）A．裴斯泰洛齐 B．赫尔巴特 C．詹姆斯 D．桑代克30．在加涅的学习结果分类中，用于调节学习者内部注意、记忆和思维过程的能力称为（）A．言语信息 B．认知策略 C．智力技能 D．运动技能31．布鲁纳提出的学习理论是（）A．认知目的说 B．认知同化说 C．认知发现说 D．认知接受说32．在唐德斯（F．C．Donders）的减法反应时实验中，A、B、C三种反应时分别代表简单反应时、选择反应时和辨别反应时，它们的关系为（）A．RTB>RTA>RTC B．RTC>RTB>RTA C．RTC>RTA>RTB D．RTB>RTC>RTA33．认为心理量和物理量之间呈幂函数关系的心理学家是（）A．史蒂文斯 B．费希纳 C．韦伯 D．冯特34．用极限法测定差别阈限时，在每次渐增系列实验中，其阈限的下限值应取（）A．第一次非正到正的对应值 B．第一次非负到负的对应值C．最后一次正到非正的对应值 D．最后一次负到非负的对应值35．托尔曼认为，学习的实质是形成认知地图.他得出该结论的依据来自于（）A．顿悟学习实验 B．位置学习实验C．系列学习实验 D．对偶学习实验36．在信号检测实验中，如其他条件不变，只大幅提高对被试击中目标的奖励，则可推测（）A．β增大，d’增大 B．β增大，d’不变C．β增大，d’减小 D．两者均不变37．要获得任一种色调的混合色光，需要单色仪的台数至少是（）A．2台 B．3台 C．4台 D．5台38．人们注视黄色背景上的一小块灰色纸片几分钟后，会感觉到灰色的纸片呈蓝色.这种现象称为（）A．颜色适应 B．颜色恒常 C．颜色对比 D．颜色混合39．棒框仪通常用来研究的问题是（）A．注意分配 B．手眼协调C．知觉--动作学习 D．场独立性与场依存性40．在一项研究情绪的实验中，要求A组被试在前后两次情绪测试之间观看恐怖电影，要求B组被试在前后两次情绪测试之间休息，则A组被试通常被看做是（）A．后测控制组设计的控制组B．后测控制组设计的实验组C．前测--后测控制组设计的实验组D．前测--后测控制组设计的控制组41．下列智力测验中，属于非言语类测验的是（）A．比纳--西蒙智力量表 B．韦克斯勒智力量表C．斯坦福--比纳智力量表 D．瑞文推理测验42．下列量表中，具有绝对零点的是（）A．称名量表 B．顺序量表 C．等距量表 D．比率量表43．一组数据的平均数是100，标准差是25，这组数据的变异系数是（）A．4％ B．25％ C．4 D．2544．衡量测验跨时间一致性的信度称为（）A．重测难度 B．复本信度 C．同质性信度 D．评分者信度45．下列关于测量结果受测量误差影响的叙述，正确的是（）A．系统误差影响稳定性，不影响准确性 B．系统误差影响准确性，也影响稳定性C．随机误差影响稳定性，不影响准确性 D．随机误差影响稳定性，也影响准确性46．测验总分的分布呈负偏态，说明测验整体难度（）A．偏难 B．偏易 C．适中 D．无法判断47．罗夏（H．Rorschach）墨迹测验属于（）A．学业成就测验 B．能力倾向测验 C．人格测验 D．智力测验48．爱德华个人偏好量表的设计采用了（）A．顺序技术 B．多选技术 C．迫选技术 D．投射技术49．临床观察到某人有抑郁倾向，能够帮助进一步诊断的测验是（）A．MMPI B．MBTI C．EPQ D．CPI50．有一组数据：3，6，2，7，32，4，8，6，5.要描述这组数据的特征，受极端数据值影响的统计量是（）A．平均数 B．中数 C．四分位数 D．众数51．一项研究调查了不同性别的成年人对在公众场合吸烟的态度，结果如表所示.那么，性别与对待吸烟的态度之间的相关系数是（）A．0.12 B．0.32 C．0.48 D．0.5452．在某次考试中，小明的语文、数学成绩均为80，英语成绩为75.已知全班三科平均成绩都为65，语文标准差为10，数学标准差为15，英语标准差为5.小明三科的成绩按照标准分由大到小进行排序的结果是（）A．语文、数学、英语 B．英语、数学、语文C．英语、语文、数学 D．语文、英语、数学53．一组服从正态分布的数据，平均数为50，标准差为5，则Z值为－2.58的原始数据是（）A．37.10 B．42.42 C．47.42 D．62.9054．对于具有线性关系的两列正态分布的连续变量，计算它们相关系数最恰当的公式是是（）55．在回归分析中，考察回归效果使用的指标是（）A．内部一致性系数 B．决定系数C．概化系数 D．列联系数56．某公司人力资源部运用某一能力倾向测验选拔了50名新员工.半年之后，发现其中10人选拔不理想.那么，这个测验的预测效度是（）A．0.20 B．0.25 C．0.75 D．0.8057．在一个3×3的实验设计中，存在的交互作用有（）A．1个 B．3个 C．6个 D．9个58．受测者在接受自陈式量表测试时，经常会出现（）A．社会赞许效应 B．自我中心效应 C．极端分数效应 D．晕轮扩散效应59．抽样的基本原则是（）A．随机化原则 B．标准化原则 C．概括化原则 D．等距化原则60．计算机化自适应测验设计的主要理论依据是（）A．概化理论 B．经典测验理论 C．层面理论 D．项目反应理论61．在假设检验中，通常用来表示统计检验力（power of test）的是（）A．1－α B．1－β C．α+β D．α－β62．瑟斯顿提出的态度测量方法是（）A．核检表法 B．等距量表法 C．语义差异法 D．累加量表法根据下述材料，回答63～65题.国外某一实验探讨了青年与老年被试阅读自然科学类与社会科学类文章的阅读速度是否存在差异，结果表明：阅读速度受材料类型和年龄因素的影响，青年被试阅读自然科学类文章的速度较快，老年被试阅读社会科学类文章的速度较快.63．该实验设计是一个（）A．二因素设计 B．四因素设计 C．二水平设计 D．四水平设计64．如采用被试内设计，最容易产生的效应是（）A．霍桑效应 B．实验者效应 C．练习效应 D．安慰剂效应65．能够推断出“青年被试阅读自然科学类文章的速度较快，老年被试阅读社会科学类文章的速度较快”这一结论的统计依据是（）A．材料类型和年龄的主效应均显著B．材料类型和年龄的交互作用显著C．材料类型和年龄的交互作用不显著D．材料类型、年龄和阅读速度的交互作用显著二、多项选择题：66～75小题，每小题3分，共30分.下列每题给出的四个选项中，至少有两个选项是符合题目要求的.请在答题卡上将所选项的字母涂黑.多选、少选或错选均不得分.66．情绪和情感的功能有（）A．适应功能 B．动机功能 C．组织功能 D．信号功能67．鲁利亚提出，脑的机能系统包括（）A．动力系统 B．平衡系统C．调节系统 D．信息接受、加工和存储系统68．下列选项中，属于似动现象的有（）A．火车的行驶 B．时针的转动C．活动的电影画面 D．动感的霓虹灯广告69．影响汉字理解的因素有（）A．正字法规则 B．笔画数量 C．字形结构 D．语音70．下列选项中，中老年人衰退比较明显的方面有（）A．语义理解 B．空间记忆 C．推理能力 D．知觉速度71．下列选项中，属于学习现象的有（）A．见贤思齐 B．望梅止渴 C．蜘蛛结网 D．谈虎色变72．记忆实验研究中，材料呈现的方法有（）A．全部呈现法 B．信号检测法 C．提示法 D．对偶联合法73．平衡技术是控制额外变量的方法之一.常用的平衡技术有（）A．匹配法 B．拉丁方设计 C．双盲法 D．ABBA法74．方差分析需要满足的前提条件有（）A．总体正态分布 B．各处理方差齐性C．总体方差已知 D．各组样本容量相同75．根据经典测量理论，常用的测验等值方法有（）A．全距等值 B．等百分位等值 C．线性等值 D．方差等值三、简答题：76～80小题，每小题10分，共50分.请将答案写在答题纸指定位置上.76．简述短时记忆的含义与主要特点.77．简述影响人格形成与发展的主要因素.78．简述认知结构迁移理论的基本观点.79．简述正态分布与标准正态分布的区别与联系.80．简述测验标准化的含义及提高测验标准化程度的方法.四、综合题：81～83小题，每小题30分，共90分.请将答案写在答题纸指定位置上.81．试述问题解决的策略，并举例说明影响问题解决的心理因素.82．心理学家在研究儿童言语发展过程的时候发现，无论哪个种族的儿童，其言语发展的过程极为相似.具体表现为：大约1岁时，能说出被他人理解的词；2岁末能说出词组；4～5岁能说出符合语法结构的句子.这表明，儿童在出生后的4～5年内即获得了基本的听说能力.试选用两种不同的言语获得理论解释上述现象.83．表1和表2、表3和表4是针对同一问题采用两种不同的实验设计所获得的模拟实验研究结果.请据此回答下列问题：（1）分别指出这两种实验各自属于何种设计类型，每种设计各自使用了多少被试.（2）针对研究问题，根据实验设计一的统计分析结果，能得出什么结论？实验设计二与实验设计一的结论是否相同？如果不同，能得出什么结论？（3）这两种设计中哪一种更适宜考察本研究的问题？请具体说明理由.2008年全国硕士研究生入学统一考试心理学专业基础综合试题参考答案一、单项选择题：每小题2分，共130分.1.D2.A3.C4.D5.C6.A7.D8.C9.A 10.B11.C 12.D 13.C 14.C 15.A16.B 17.D 18.A 19.B 20.B21.D 22.B 23.C 24.C 25.D26.D 27.B 28.B 29.A 30.B31.C 32.D 33.A 34.D 35.B36.B 37.B 38.C 39.D 40.C41.D 42.D 43.B 44.A 45.D46.B 47.C 48.C 49.A 50.A51.B 52.C 53.A 54.D 55.B56.D 57.A 58.A 59.A 60.D61.B 62.B 63.A 64.C 65.B二、多项选择题：每小题3分，共30分.多选、少选或错选均不给分.66.ABCD 67.ACD 68.CD 69.ABCD 70.BCD71.ABD 72.ACD 73.BD 74.AB 75.BC三、简答题：每小题10分，共50分.76．答案要点：（1）短时记忆是指人对信息的短暂保持和容量有限的记忆，是感觉记忆到长时记忆的中间阶段.（3分）（2）保持时间.保持的时间大约1分钟左右.（2分）（3）编码方式.以听觉编码为主，也存在视觉和语义编码.（3分）（4）容量.信息容量为7±2组块.（2分）77．答案要点：（1）遗传是人格发展的生物前提；（2）家庭环境和教养方式；（3）童年期经验；（4）学校教育；（5）社会文化因素；（6）自然物理条件；（7）自我调控系统.【评分说明】上述要点及相应解释每点2分，只要答出其中5点，即可给10分.只答出要点未作解释说明的，酌情扣2～3分.78．答案要点：（1）认知结构迁移理论认为，有意义的学习都是在原有认知结构基础上进行的，有意义的学习中一定有迁移.认知结构是迁移得以产生的重要中介.（4分）（2）影响学习迁移产生的关键变量是原有认知结构的可利用性、稳定性和可辨别性.可利用性，即认知结构中要具有能够同化新知识的概括性、包容性更强的先前经验；稳定性，即认知结构中的先前经验必须被牢固地掌握；可辨别性，即认知结构中先前经验的各成分之间及其新旧经验之间能够清晰分辨.（6分） 79．答案要点：（1）区别：正态分布的平均数为μ，标准差为σ；不同的正态分布可能有不同的μ值和d值，正态分布曲线形态因此不同.标准正态分布平均数μ＝0，标准差σ＝1，μ和σ都是固定值；标准正态分布曲线形态固定.（6分）（2）联系：正态分布可以通过标准化处理，转化为标准正态分布.具体方法是使用将原始数据转化为标准分数.（4分）80．答案要点：（1）测验标准化是指测验的编制、实施、评分和分数解释等程序的一致性.（3分）（2）提高测验标准化程度的方法主要有：①测验编制过程要标准化.在确定测验纬度、题目编制、题目分析、测验信度和效度分析等方面严格按规定程序进行.（3分）②测验实施过程要标准化.要统一指导语、统一步骤、统一时限，防止噪音和无关人员干扰等.（2分）③测验评分和解释要标准化.评分和解释要制定详细、统一的标准，并据此进行严格的评分和解释.（2分）四、综合题：每小题30分，共90分.81．答案要点：（1）问题解决的策略分为两类：算法策略和启发式策略.（2分）算法是在解决问题时的一套规则，能够在问题空间中随机搜索所有可能的算子或途径，直到选择到有效方法解决问题.（4分）启发式是个体根据自己已有的知识经验，在问题空间内采取较少认知操作来解决问题的方法.常用的启发策略主要有：手段——目的分析策略、逆向搜索策略、爬山法.（6分）（2）影响问题解决的心理因素主要有：知识表征的方式、功能固着、定势、原型启发、动机与情绪状态、人格特征.（每小点3分，其中只答出要点给1分，举例恰当给2分，共18分）82．答案要点：言语获得理论归结起来有三种：（1）习得（或经验）论：言语是通过学习获得的.强调家庭和社会环境对言语发展的重要作用.（3分）①强化说认为，儿童语言的习得是通过操作性条件反射实现的，强化是学习语言的必要条件，强化的程序是渐进的.言语发展表现为儿童习得的口头反应的增加.（4分）②模仿说认为，儿童是在没有强化的条件下通过观察、模仿而学习语言的.（3分）结合理论恰当地解释现象.（5分）（2）先天论：语言能力是人类与生俱来的.（3分）①先天语言能力说认为，语言是普遍语法能力（知识）的表现，语言获得过程就是由普遍语法向个别语法转换的过程，这个转换是通过语言获得装置（LAD）实现的.儿童获得的是一套支配语言行为的特定的规则系统，因而能产生和理解无限多的新句子，表现出很大的创造性.（4分）②自然成熟说认为，生物遗传是人类获得语言的决定性因素.语言获得是大脑机能成熟的产物，最容易获得语言的时期是从出生到青春期之间.（3分）结合理论恰当地解释现象.（5分）（3）相互作用：言语发展是生理成熟、认知发展与不断变化的语言环境之间复杂的相互作用的结果.（3分）①认知相互作用论认为，语言是儿童许多符号功能的一种，认知结构是言语发展的基础，言语结构随着认知结构的发展而发展，个体的认知结构和认知能力源于主体和客体的相互作用.（4分）②社会相互作用论强调儿童与同伴或成人的交往在语言获得中的作用.（3分）结合理论恰当地解释现象.（5分）【评分说明】考生可任选上述三种理论中的两种理论作答.三种理论全作答的，则按作答的先后顺序，只对前两种给分.83．答案要点：（1）实验设计一为2×2被试问设计，（2分）被试为24人.（2分）实验设计二为2×2混合设计，其中，学生类型为被试问变量，教学方法为被试内变量.（2分）被试为12人.（2分）（2）根据实验设计一的结果，能得出如下结论：①教学方法的主效应显著，启发式教学方法的成绩显著高于讲授式；（2分）②学生类型的主效应不显著；（2分）③教学方法和学生类型之间的交互作用显著，即教学方法对不同类型学生的学习成绩产生了不同的影响；与讲授式教学方法相比，启发式教学方法对学困生成绩的提高作用更大.（4分）实验设计二与实验设计一的结论相同.（4分）（3）比较说明①比较而言，被试问设计的方案能更好地回答研究问题；（4分）②虽然混合设计所需的被试量较少，且混合设计将教学方法作为被试内变量，能更好地控制来自不同个体间的差异，但当实验过程中容易产生累积效应或练习效应时，则被试内实验设计无法适用.本实验如果将教学方法作为被试内变量则会产生累积效应或练习效应，因此，包含被试内设计在内的混合设计不能回答该研究所探讨的问题，选择被试问设计更佳.（6分）【评分说明】关于（3）中的第②点，只要考生说明了不同的教学方法作为被试内变量可能产生相互干扰或影响，因此混合设计不适用，即可给6分.。

新一代测量理论——认知诊断

依此来指导测验的编制。经典测量理论在测验发展中有特殊的地位，它是历史上第一个测验理论，也是测验的最一般
、最基本的理论，应用极为广泛。
传统测验及其理论的局限性
但是，经典测量理论有着理论框架的先天缺陷性，比如测验参数的估计依赖于样本；测验信度估计不精确等。概化理论和项目反应理论则从不同角度克服了经典测量理论的局限性，逐渐在心理与教育测量领域中与经典测量理论形成了三足鼎立的局势。
如上所述，我们认为不同的Q矩阵应该给予不同的记号以示区分，如R，Qp, Qs ,Qt Q矩阵理论的主要内容应该是研究如何设计好的测验蓝图(Qt)。
40
测验蓝图的设计为什么要设计测验蓝图?目的：使知识状态（KS)和期望反应模式(ERP)一一对应：表
面上认知诊断模型f:ORP-KS, 实际上是f:ORPERP，KSERP(通过Qt：测验蓝图), 如果还能够建立ERPKS，则完
传统测验及其理论的局限性
与标准测验理论是相对应的是传统测验传统的考试实质上都是根据精心筛选的测验题目, 将被试按顺序排列在某种潜在变量的连续体上。在经典测量理论中, 这种潜在变量是真分数, 而在项目反应理论中, 潜在的变量是指单维的潜在特质。
传统测验及其理论的局限性
经典测量理论（又称真分数理论）基本假设:测验观察分数等于真分数与误差分数之和即 X=T+R。在此基础上，经典测量理论提出了测验信度和效度、项目难度、区分度、猜测度等概念，并
传统测验及其理论的局限性
基于CTT的测验采用总分指标评价能力，总分只能用来对个体在总体中的相对位置进行排序，不能指出被试具体掌握了哪些内容，更无法诊断其题目作答错误的原因。基于 IRT的教育测验采用能力指标评价被试，虽考虑了被试在测验项目上的作答反应与属性间的关系，但能力指标只是属性的一个统计含义上的概念，并没有真正揭示其内部心理含义

认知诊断计算机化自适应测验的选题策略

心理科学进展 2020, Vol. 28, No. 12, 2160–2168 © 2020 中国科学院心理研究所Advances in Psychological Sciencehttps:///10.3724/SP.J.1042.2020.021602160·研究方法(Research Method)·认知诊断计算机化自适应测验的选题策略*唐倩1,2 毛秀珍1 何明霜1 何洁1(1四川师范大学教育科学学院, 成都 610066) (2德阳市东汽小学, 四川德阳 618000)摘要随着认知诊断计算机化自适应测验(cognitive diagnostic computerized adaptive testing, CD-CAT)理论与实践的发展, 兼顾知识状态与能力的双目标CD-CAT 逐渐受到重视。

选题策略是CAT 的核心, 通过梳理传统CD-CAT 和双目标CD-CAT 选题策略的研究, 并对它们的特点、关系及表现进行介绍和评析。

最后, 基于认知诊断模型与CAT 实践发展指出未来应加强一般化认知模型、复杂测验条件认知诊断模型下选题策略的研究; 应开发双目标诊断测验的项目和测验特征指标; 还应加强非参数选题方法和CD-CAT 的实践应用研究。

关键词计算机化自适应测验, 认知诊断模型, 选题策略, 测量精度, 非统计约束分类号B8411 引言项目反应理论(item response theory, IRT)通过分析项目反应数据评估被试连续潜在特质(θ)水平, 常用于比较与甄选被试。

随着国内、外教育改革的不断深入, 教育质量评估要求加强对学生学习过程的形成性评价, 并提供详细的教学指导信息以促进教育发展。

认知诊断理论(cognitive diagnostic theory, CDT)在教育质量评估实践中应运而生。

它能评估被试对特定领域知识的掌握情况、加工技能和认知过程, 还能为被试进行补救学习提供个性化的帮助。

2023年心理学统考真题及答案

2023 年心理学考研真题及答案一、单项选择题1、除嗅觉外，感觉信息传入大脑皮层最终一个中转站是( a )A 丘脑B 下丘脑C 海马D 桥脑2、初级视觉区、初级听觉区、躯体感觉区、言语运动区，在大脑皮层的部位依次是( d ) A顶叶，额叶，颞叶，枕叶，B 顶叶，枕叶，颞叶，额叶C 枕叶，额叶，顶叶，颞叶D 枕叶，颞叶，顶叶，额叶3、依据听觉位置理论，耳蜗对高频声波反响的敏感区域位于( d )A 顶部B 中部C 背部D 底部4、甜蜜的嗓音、温和的颜色这种感觉现象是( d)A 适应B 比照C 后像D 联觉5、故地重游往往令人触景生情，回忆起很多在其他状况下不太简洁想起的，能解释此现象的是( C)A 层次网络模型B 逆行性遗忘C 编码特异性原理D 激活集中模型6、依据艾宾浩斯遗忘曲线，为了取得最好的记忆效果，个体对初次识记的无意义材料进展复习的时间应在识记后( c )A 1 小时内B 2-12 小时C 13-24 小时D 24 小时后7、小明在玩耍中把凳子当马骑，这种活动反响的想象功能是( c )A 再造B 补充C 替代D 预见8、天空消灭朝霞，就会下雨；天空消灭晚霞，就会放晴。

人们由此得出“朝霞不出门，晚霞行千里”的结论。

这主要表达的思维特征是( a)A 间接性B 抽象性C 概括性D 理解性9、可以独立表达比较完整语义的语言构造单位是( d )A 音位B 语素C 词D 句子10、依据耶克斯-多德森定律，在描述唤醒水平与绩效水平之间的关系时，必需说明( a )A 任务难度B 任务参与C 被试年龄D 被试性别11.针对同一大事或现象，不同的人会产生不同的心情体验。

如在极度缺水的状况下，对于半杯水，甲觉得“还有半杯水，很快活”；乙觉得“只在半杯水了，真苦痛”。

这一现象反映的心情特征是(A)A。

主观性B。

感染性C。

情境性D。

两极性12.在心情争论中，争论者长期以来争论的主要问题是(C)A。

心情的产生是否与生理活动有关B。

考研心理学统考心理学专业基础综合(测量理论的新发展)模拟试卷

考研心理学统考心理学专业基础综合（测量理论的新发展）模拟试卷1(题后含答案及解析)题型有：1. 单选题 2. 多选题 3. 简答题7. 名词解释单项选择题1．计算机化自适应测验设计的主要理论依据是( )(2008．60)A．概化理论B．经典测验理论C．层面理论D．项目反应理论正确答案：D解析：计算机自适应测验是项目反应理论的应用。

知识模块：测量理论的新发展2．在测量研究中，强调对测验情境关系进行考察的心理测量理论是( )(2009．64)A．经典测量理论B．项目反应理论C．概化理论D．测验等值理论正确答案：C解析：概化理论提出在不同的测验情境关系下测量的误差结构和误差量都不同，一个测验情境关系由一个测量目标和若干个测量侧面构成。

知识模块：测量理论的新发展3．下列关于计算机自适应测验(CAT)的表述，正确的是( )(2011．49) A．被试可以自选测量模型B．被试需要花费大量时间C．被试可以自选试题D．被试接受的试题会有所不同正确答案：D解析：测验模型是由测验的编制者制定的，A错；被试接受的题目是计算机根据被试的水平，即每道题的作答情况进行随机选择的，不是自选，所以C错；另外由于每个被试水平不同，接受的试题自然也不同，D对；CAT的优点之一就是节约时间，B错。

知识模块：测量理论的新发展4．在概化理论中，与经典测量理论中真分数的概念最接近的是( )(2011．50)A．全域分数B．概化系数C．可靠性指数D．信噪比正确答案：A解析：概化理论把采取原始数据的原测验情境关系的测验侧面全体称为可测量全域，全域分数相当于经典测量理论中的真分数。

此题也可以用排除法作答，首先，信噪比是信号检测论里的内容，可以直接排除；概化系数是用相对误差估计出来的信度系数，是对常模参照测验的稳定性程度的度量，与信度的概念接近：可靠性指数是用绝对误差估计出来的信度系数，是对目标参照测验稳定性和一致性两种程度的度量。

知识模块：测量理论的新发展5．在项目反应理论双参数模型中，能够直观地描述被试正确作答概率与被试特质水平关系的是( )(2011．53)A．区分度与难度B．项目信息函数C．项目特征曲线D．测验信息函数正确答案：C解析：区分度和难度都是针对测验工具本身特性的描述。

计算机化自适应测验中能力估计新方法

计算机化自适应测验中能力估计新方法李佳;丁树良【摘要】能力估计的极大似然估计方法(MLE)不能处理全0或全1的被试反应模式,若事先设置好能力估计的上下界,则会导致能力估计的有效范围缩小的后果;而贝叶斯估计方法需要选择先验分布,先验分布的选择必须很慎重.在原有似然函数的基础上,构建2个新的项目,提出了改进的MLE方法(NMLE).NMLE既不需要能力先验分布,也不会缩小能力估计范围,而且可以处理各种反应模式.蒙特卡洛实验结果表明新方法表现良好.【期刊名称】《江西师范大学学报（自然科学版）》【年(卷),期】2019(043)002【总页数】5页(P142-146)【关键词】贝叶斯众数估计方法;期望后验估计方法;改进的极大似然估计方法;能力估计效率【作者】李佳;丁树良【作者单位】江西师范大学计算机信息工程学院,江西南昌 330022;江西师范大学计算机信息工程学院,江西南昌 330022【正文语种】中文【中图分类】B8410 引言计算机化自适应测验(computerized adaptive testing,CAT)具有测验精度高、长度短、成本低、实时反馈考试成绩、题型灵活多样、考试时间灵活等优点,是项目反应理论(Item response theory,IRT)最成功的应用之一,被广泛应用于美国医生护士资格考试、美国研究生入学考试和中国汉语水平考试中[1].国内外学者主要研究CAT的选题策略,具有大量的研究成果,但在CAT中对能力估计方法的研究较少.而事实上,CAT自适应选题是建立在对被试能力准确估计的基础上的,这关系到测验结果的准确性、测验的安全性和测验的可信度.因此,能力估计的准确性决定了CAT的使用效果[2].目前,国际上流行的CAT能力估计方法主要有极大似然估计法(MLE)[3]、贝叶斯众数估计法(MAP)[4]和贝叶斯期望后验估计法(EAP)[5].这些方法各有特点:MLE方法的主要缺点是参数估计中需要不断迭代估计以及无法处理被试全对或全错的反应模式,其优点是MLE估计是能力参数的充分统计量,是一种渐近无偏的能力估计方法;EAP方法不需要迭代;但是EAP和MAP等贝叶斯方法的主要缺点是需要选择能力的先验分布,且当先验分布方差比较小时,估计会收敛到先验分布期望附近,有可能会缩小能力估计的范围.0.1 极大似然能力估计方法在IRT中假定同一被试对各个项目的作答是相互独立的(局部独立性假设),各个被试的作答模式是相互独立的,则被试反应向量(即为被试作答反应的得分阵)为U=(uα1,uα2,…,uαm),对应的似然函数为表示被试α对项目j的反应,取值为0或1,分别表示答对或答错该项目,m为施测项目数.在IRT框架下,Pαj可以取不同的形式,表示能力为θα的被试正确作答项目j的概率,比较常见的是3参数Logistic模型(3PLM):Pαj=cj+(1-cj)/(1+exp(-Daj(θα-bj))),其中D=1.7.若猜测度cj=0,则化为双参数Logistic模型(2PLM);若cj=0且区分度aj=1则化为单参数Logistic模型(1PLM),bj表示项目j 的难度.因为L(U|θα)表示得分向量U与能力θα之间的关系,所以称使|θα)成立的为θα的极大似然估计值.又因为对数似然函数和似然函数L(θα)在同一个处达到最大.求θα的极大似然估计值可令∂lnL(θα)/∂θα=0,(1)因为(1)式是非线性方程,需使用牛顿-拉夫逊迭代算法对其求解,的第t+1次估计值为直到达到终止条件为止.3PLM对数似然函数1阶和2阶偏导数为因为模型参数的似然函数包含了观察数据值所能反应的所有信息,MLE估计是能力参数的充分统计量,具有渐近一致性和渐近正态性等优良特性[6].在理想条件CAT 下,当测验较长时,MLE是一种渐近无偏的能力估计方法[7];但是MLE方法有一个明显的缺点,即当被试作答全对或者全错时似然方程会出现没有有限解的情况.为了解决这个问题,通常人为设定一个最小和最大的能力估计值对MLE估计值的界限加以约束[8],这是一种强行拉回的处理方式,会破坏MLE计算过程中的不连续性,从而缩小能力估计的有效范围.虽然如此,但因为MLE对被试能力分布不作要求,带界限的MLE方法(MLET)还是被广泛地应用于CAT实测中.0.2 贝叶斯众数估计方法F. Samejima认为若在测验之前知道被试总体的能力分布信息,则应充分利用这种信息,以提高测验的估计准确度.MAP方法直接将先验概率密度(一般取标准正态概率密度函数)乘以似然函数构建后验分布并求极大值,似然函数其中f(θα)是θα的先验分布，其对数似然函数令∂lnLMAP(θα)/∂θα=0,(2)求得为θα的极大似然估计值.同理方程(2)也是非线性方程,需要进行牛顿-拉夫逊迭代.MAP会出现估计向先验均值回归的现象,即有偏估计.事实上,MAP的先验分布不一定是标准正态分布,还可以是一般正态分布、均匀分布或者是其它先验分布.0.3 期望后验估计方法被试能力的EAP估计的理论依据是贝叶斯定理h(θα|U,ξ)=P(U|θα)g(θ)/(P(U)),其中设被试后验分布为g(θα),其均值可以表示为/).由于该式含有积分,R. Bock等[5]使用高斯-厄尔米特积分公式给出了它的数值积分形式/),其中Xk=-3.5+7(k-1)/(q-1)为数值积分节点, k=1,2,…,q,q为等距点,方法不需要迭代.0.4 改进MLE的能力估计新方法在MLE方法的基础上,设计2个有固定反应的项目来限制能力估计值.具体而言,改造MLE方法中的对数似然函数,新的似然函数为ln L*(θα)=Pαj)).在题库中,记所有题目中的最大难度为bmax,最小难度为bmin,最大区分度为amax.构造2个虚拟题目,一个是具有大区分度且特别容易的题目:难度为bmin,区分度为amax,猜测度为0,在3PLM下Pmin=1/(1+exp(-Damax(θα-bmin))),并且假设被试一定能做对;另一个是大区分度且特别难的题目,难度为bmax,区分度为amax,猜测度为0,在3PLM下Pmax=1/(1+exp(-Damax(θα-bmax))),并且假设被试一定会做错.再令∂ln L*(θα)/∂θα=0,(3)求得为θα的极大似然估计值.新方法在任何被试反应模式下均存在估计值,可适用于各种反应模式;其先验信息仅由Pmin和Pmax给出,这仅涉及2个项目,不会影响能力估计的整个过程,所以不会缩小被试能力估计范围.和能力估计的MLE相比,NMLE仅仅增加了2个“新的”项目,所以NMLE具有MLE的基本性质.比如NMLE仍然是能力参数的充分统计量,也具有渐近一致性和渐近正态性等优良特性.当测验较长时,NMLE像MLE方法一样是一种渐近无偏的能力估计方法.0.5 新方法的合理性和可行性为了检验新方法的合理性和可行性,共有4种能力估计方法参与比较:(i)MLET方法,用牛顿-拉夫逊迭代方法对方程(1)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束,并且被试能力估计值限制在-3.5～3.5之间;(ii)MAP方法,设能力的先验分布为正态分布,用牛顿-拉夫逊迭代方法对方程(2)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束;(iii)EAP方法,设能力的先验分布为正态分布,从-3.5～3.5中共取35个积分点;(iv)NMLE方法,用牛顿-拉夫逊迭代方法对方程(3)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束.1 模拟实验1.1 被试及题库模拟为了考察能力的先验分布对各种能力估计方法的影响,共设计3组被试:(i)被试组1,模拟产生1 000个被试,被试能力真值均服从均值为0、方差为1的标准正态分布;(ii)被试组2,模拟产生1 000个被试,被试能力真值均服从均值为-1、方差为1的正态分布;(iii)被试组3,模拟产生1 000个被试,被试能力真值均服从均值为1、方差为1的正态分布;后续内容中被试组a简称为组a,a=1,2,3.本文在3PLM模型下设计题库,所有试验模拟条件同文献[9].题库结构如下:模拟生成520个项目且满足条件ln a～N(0,1),b～N(0,1),c～Beta(5,17),0.2<a<2.5,-3.5<b<3.5,|a-b|<4,c<0.4.题库的项目数据见表1.表1 题库的项目数据项目数据区分度a难度b 猜测度c平均值1.001 30-0.006 464 70.223 380标准差0.608 370.979 380 00.807 6101.2 模拟CAT的施测过程本文不考虑内容平衡,项目曝光控制以及机会红利对CAT的影响,简化CAT设计为:(i)取被试的能力初值为0;(ii)采用最大Fisher信息量选题策略,信息量计算公式[1]为(iii)分定长和不定长2种测验.定长测验的测验长度分别为10和40,取测验长度为10是为了考察NMLE方法是否适用于短测验和CAT测验初期的能力估计,取测验长度为40是为了考察NMLE是否和MLE一样在长测验中是一种渐近无偏的能力估计方法;不定长测验在被试累积信息量达到16时结束.1.3 评价指标评价指标有:测验偏差测验平均绝对离差测验均方根误差能力估计效率(abilityθmin),不定长测验的测验平均长度其中N为被试总人数,θi为第i个被试的能力真值,为第i个被试的能力估计值,θmax为N个被试中能力的最大值,θmin为N个被试中能力的最小值,为N个被试中能力估计的最大值,为N个被试中能力估计的最小值,test_length(i)为被试i的测验长度.测验偏差(Bias)表示能力估计的无偏性,测验平均绝对离差(ABS)和测验均方根误差(RMSE)表明了能力估计的准确性.Bias和ABS反映了能力估计的系统偏差,RMSE 反映了能力估计值和真实值的随机误差,它们都是评价测验准确性的常用指标,它们越接近0,表示能力估计越接近无偏,即能力估计越准确.能力估计效率(AEE)是本文提出的一个新的评价指标,用来评价能力估计方法对能力估计范围的影响,AEE取值越接近1表明该能力估计方法受外界影响越小,不会缩小能力估计范围.因为不定长测验中每个被试的测量精度类似,所以早达到测验精度的被试所需测验长度更短,而晚达到测验精度的被试所需测验长度就更长,这项指标体现了测验效率[10].1.4 实验结果及其分析3种测验条件下的测验偏差(Bias)值见表2,当测验长度为10时,结果见表3,当测验长度为40时,结果见表4,当测验为不定长时,结果见表5.能力估计的无偏性对项目反应模型的应用非常重要,若参数估计的偏差较大,则会给更深入的测评带来严重的误差[11-13],测验偏差(Bias)用于评价无偏性和偏差的方向性(正偏或负偏).在长测验中,较小的Bias值体现了MLET方法和NMLE方法一样,具有能力估计的渐近无偏性.表2 3种测验条件下测验偏差(Bias)值能力估计方法测验长度为10组1组2组3测验长度为40组1组2组3不定长测验组1组2组3MLET0.0240.0350.0280.0020.0010.0020.0170.0140.015MAP0.0330.036-0.0280.0010.007-0.0060.0120.020-0.019EAP0.0300.032-0.0230.0000.009-0.0080.0110.019-0.017NMLE0.0220.0310.0260.0020.0010.0010.0160.0110.012表3 当测验长度为10时4种能力估计方法的表现能力估计方法ABS组1组2组3RMSE组1组2组3AEE组1组2组3MLET0.2510.2670.2730.3110.3640.2770.9000.8820.896MAP0.2390.3060.29 80.2530.3370.3080.8830.8770.884EAP0.2480.2460.2500.2920.3460.3100.87 40.8850.878NMLE0.2520.2500.2620.3150.2960.2740.9910.9900.992在短测验中,被试能力分布对MLET方法和NMLE方法没有太大影响,但在被试服从标准正态分布时正好和假设的MAP和EAP的先验分布一致,此时MAP和EAP的能力估计精度更高;NMLE方法无论是ABS还是REMS都小于MLET方法,这表明新方法参数估计的精度优于传统的MLE方法,新方法具有更小的估计误差.又因为NMLE方法可以处理各种被试反应模式,所以NMLE方法比MLET方法更适用于短测验和CAT测验初期的能力估计.因为测验太短,4种能力估计的AEE指标差别不大,NMLE方法表现稍好一点.表4 当测验长度为40时4种能力估计方法的表现能力估计方法ABS组1组2组3RMSE组1组2组3AEE组1组2组3MLET0.1190.1140.1180.1220.1350.1370.9120.8930.897MAP0.0760.1330.13 20.1310.1440.1430.7310.7650.780EAP0.0870.1230.1310.1400.1390.1360.83 50.8660.868NMLE0.1050.1100.1190.1220.1360.1340.9950.9970.992在长测验中,较小的ABS值和RMSE值体现MLET方法和NMLE方法能力估计具有良好的返真性,这表明2种方法受测试条件的影响较小.能力的先验分布对MAP 方法和EAP方法的影响也逐渐体现出来,因为先验分布信息的作用,估计值会倾向于先验中心(在本文中先验分布标准正态分布的均值为0,先验中心为0),所以当能力估计值大于0时,就会被低估,当能力估计值小于0时,就会被高估,这样会缩小能力估计范围.又因为MLET方法中设定了能力估计的上界和下界,超出界限的不同被试,尽管有不同的反应模式但得到的却是相同的能力估计值,所以这也缩小了能力估计的范围;NMLE的AEE值均大于其它3种方法的AEE值,并且随着测验长度的增加,NMLE的AEE值接近1,这表明新方法不会缩小能力估计的有效范围.表5 不定长测验4种能力估计方法的表现能力估计方法ABS组1组2组3RMSE 组1组2组3AEE组1组2组3ATL组1组2组3MLET0.2160.2140.2050.2180.2430.2170.9180.9100.91533.1233.7133.25MA P0.1870.2230.2310.1970.2480.2700.7720.7380.75629.8531.1432.64EAP0.17 20.2180.2340.1760.2550.2720.8590.8610.88730.7631.2033.53NMLE0.2010.2 110.2040.2030.2310.2090.9930.9930.99429.3430.7030.20从表5可以看出,当测验为不定长时,实验结果和定长测验类似,先验分布对MAP和EAP的影响依然存在.各种方法测验精度比定长测验更低一些,但测验平均长度都短于定长测验的测验长度,这也说明了不定长测验更有利于提高测验效率.NMLE方法的被试平均使用项目数少于其它3种能力估计方法,这说明NMLE方法比其它方法具有更高的测验效率.通过这4组实验表明,新方法NMLE具有如下优点:(i)对MLE方法而言,似然函数没有太大的改动,但易于实现;(ii)不需要先验分布信息且还可以处理MLE处理不了的各种反应模式,适用于短测验和CAT能力估计初期;(iii)在长测验中和MLE方法一样都具有能力估计的无偏性;(iv)该方法迭代计算过程是连续的,不会缩小能力估计有效范围;(v)具有更小的估计误差,测验精度更高.2 讨论能力估计的准确性影响了选题策略的自适应性,也影响了CAT测试结果.本文是在最简单的CAT模式下讨论的,仅考虑了测验精度,一般CAT还需要考虑如何提高题库利用率、降低机会红利、满足内容平衡等要求,这些都可能影响分析结果.能力估计新方法NMLE,虽然它的似然函数有所改变,但是使被试对所有反应模式都有确定的能力估计值,且不像MLET方法对能力估计是绝对的限制,NMLE方法依据题库参数,能力估计值是弹性变化的;它只要在似然函数中增加2个“新题”所以是一种相当简单的方法,而模拟实验表明它又有效.当然增加高区分度高难度的“新题”比较合理,而增加高区分度低难度的题目有一点勉强.MAP和EAP的先验分布可以是各种可能形式,理想的先验分布是像标准正态分布那样的单峰对称钟形曲线.但是在现实中,往往是非正态或者是不知名的分布,在实测中选择先验分布是一个比较困难的问题,而NMLE中的先验信息仅来自相应的题库,不需要被试本身的先验能力分布.所以,NMLE方法在理论上是可行的,可以直接应用到多级评分模型中.当然,把NMLE方法应用于基于多维项目反应理论(multidimensional item response theory,MIRT)背景下的多维CAT(multidimensional CAT,MCAT)[14-15]中还需要进一步讨论.3 参考文献【相关文献】[1] 漆书青,戴海崎,丁树良.现代教育与心理测量学原理 [M].北京:高等教育出版社,2002.[2] 张心,涂冬波.计算机化自适应测验中几种常用能力估计方法的特性与评价 [J].中国考试,2014(5):18-25.[3] Lord F M,Novick M R.Statistical theories of mental test scores [M].New Jersey:Addison-Wesley,1968:392-449.[4] Samejima F.Estimation of latent ability using a response pattern of graded scores [J].Psychometrika,1969,34(1):1-97.[5] Bock R,Mislevy R.Adaptive EAP estimation of ability in a microcomputer environment [J].Applied Psychological Measurement,1982,6(4):431-444.[6] Hambleton R K,Swaminathan H.Item response theory:Principles and application [M].Boston:Kluwe-Nijhoff,1985.[7] Wang Tianyou,Walter P Vispoel.Properties of ability estimation methods in computerized adaptive testing [J].Journal of Educational Measurement,1998,35(3):109-135.[8] Warm T A.Weighted likelihood estimation of ability in term response theory[J].Psychmetrika,1989,54(3):427-450.[9] 李佳,丁树良.多种分层方法在CAT校准误差中的应用研究 [J]. 江西师范大学学报:自然科学版,2016,39(1):69-72.[10] 李佳,丁树良,方剑英.基于平均数形式的选题策略比较 [J].江西师范大学学报:自然科学版,2015,39(1):69-72.[11] 孟祥斌,陶剑,陈莎莉.四参数Logistic模型潜在特质参数的Warm加权极大似然估计 [J].心理学报,2016,48(8):1047-1056.[12] Baker F B,Kim S H.Item response theory:parameter estimation techniques [M].New York:Marcel Dekker,2004.[13] Magis D A.Accuracy of asymptotic standard errors of the maximum and weighted likelihood estimators of proficiency levels with short tests [J].Applied Psychology Measurement,2014,38(2):105-121.[14] 毛秀珍,辛涛.多维计算机化自适应测验:模型、技术和方法 [J].心理科学进展,2015,23(8):907-918.[15] 韩雨婷,涂冬波,王潇濛,等.多维计算机化自适应测验选题策略的开发及比较 [J].心理学报,2017,40(4):997-1004.。

在线标定技术在计算机化自适应测验中的应用

在线标定技术在计算机化自适应测验中的应用陈平;张佳慧;辛涛【期刊名称】《心理科学进展》【年(卷),期】2013(21)10【摘要】计算机化自适应测验(Computerized Adaptive Testing,CAT)近年来得到迅猛发展,题目增补对CAT的题库建设与维护至关重要。

新题标定作为题目增补过程中的技术难点,它的精度直接影响被试能力估计的准确性,目前在线标定技术经常用于标定新题。

从在线标定设计和在线标定方法两个方面,对两类CATs(以项目反应理论为基础的传统CAT以及以认知诊断理论为基础的认知诊断CAT(Cognitive Diagnostic CAT,CD-CAT))中的在线标定相关研究进行述评。

传统CAT领域有着较丰富的研究,而CD-CAT的在线标定研究则刚刚起步。

未来研究应进一步探讨在线标定设计/方法之间的比较与结合,以及CD-CAT和多维CAT的在线标定研究。

【总页数】10页(P1883-1892)【关键词】在线标定;计算机化自适应测验;题库建设;认知诊断计算机化自适应测验【作者】陈平;张佳慧;辛涛【作者单位】北京师范大学认知神经科学与学习国家重点实验室;北京师范大学发展心理研究所【正文语种】中文【中图分类】B841【相关文献】1.计算机化自适应测验技术在情绪智力智能测评中的初步应用——基于项目反应理论 [J], 张龙飞;刘凯;宋鸽;涂冬波2.认知诊断计算机化自适应测验中在线标定方法的开发 [J], 陈平;辛涛3.计算机化自适应诊断测验中原始题的属性标定 [J], 汪文义;丁树良;游晓锋4.两种新的计算机化自适应测验在线标定方法 [J], 陈平5.计算机化自适应测验在认知诊断中的应用 [J], 唐小娟;丁树良;俞宗火因版权原因，仅展示原文概要，查看原文内容请购买。

计算机自适应测验有效性检验的探索与优化

计算机自适应测验有效性检验的探索与优化
李心钰;王超;陆宏
【期刊名称】《现代教育技术》
【年(卷),期】2024(34)6
【摘要】计算机自适应测验(Computerized Adaptive Testing,CAT)的有效性检验是评定测验生成过程以及解释测验结果是否恰当、合理的必要步骤,然而系统性探讨CAT有效性检验的研究相对较少。

为弥补其不足,文章在剖析CAT有效性检验内涵的基础上,首先梳理了基于IRT的题库、模拟CAT与真实CAT有效性检验的基本内容。

然后,文章针对题库中试题逐渐向多维度和多模态转变的特点,提出利用高阶因子模型与多质多法模型对多维度与多模态试题进行有效性检验的方法;同时建议从测验公平性的角度,检验CLT与CAT中个体人格特质对被试作答表现的影响是否具有跨组不变性,最终形成了一套符合时代发展的CAT有效性检验的完整流程,以期为CAT的持续改进及其在教育实践中的普及推广提供助力。

【总页数】10页(P123-132)
【作者】李心钰;王超;陆宏
【作者单位】山东师范大学教育学部
【正文语种】中文
【中图分类】G40-057
【相关文献】
1.未来测验新趋势——计算机自适应测验
2.Pearson x2检验在计算机自适应化测验中的应用研究
3.纸笔测验和计算机自适应测验的比较研究
4.计算机自适应测验中测验安全控制方法评述
5.计算机化线性测验与自适应测验的等效性研究
因版权原因，仅展示原文概要，查看原文内容请购买。

CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发——G-DINA模型

CD-CAT中基于SCAD惩罚和EM视角的在线标定方法开发
——G-DINA模型
谭青蓉;蔡艳;汪大勋;罗芬;涂冬波
【期刊名称】《心理学报》
【年(卷),期】2024(56)5
【摘要】G-DINA(the generalizeddeterministic input,noisy and gate)模型限制条件少,应用范围广,满足大量心理与教育评估测验数据的要求。

研究提出一种适用于G-DINA等模型的同时标定新题Q矩阵与项目参数的认知诊断计算机化自适应测验(CD-CAT)在线标定新方法SCADOCM,以期促进CD-CAT在实践中的推广与应用。

本研究分别基于模拟题库以及真实题库进行研究,结果表明:相比传统的SIE方法,SCADOCM在各实验条件下均具有较为理想的标定精度与标定效率,应用前景较好;SIE方法不适用于饱和的G-DINA等模型,其各实验条件下的Q矩阵标定精度均较低。

【总页数】22页(P670-688)
【作者】谭青蓉;蔡艳;汪大勋;罗芬;涂冬波
【作者单位】江西师范大学心理学院;陆军军医大学医学心理系基础心理学教研室;江西师范大学计算机信息工程学院
【正文语种】中文
【中图分类】B841
【相关文献】
1.基于CD-CAT的多策略RRUM模型及其选题方法开发
2.基于双SCAD惩罚的随机效应分位回归模型
3.一种高效的CD-CAT在线标定新方法:基于熵的信息增益与EM视角
4.基于SCAD_L_(2)和SCAD混合惩罚的高维随机效应线性回归模型
5.基于group SCAD惩罚的非对称乘法copula模型选择及其应用
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算机化自适应测验在线标定专题
2013320018吴敏
随着时间的推移，题库中的一些项目可能会因为存在缺陷、过时或过度曝光等原因需要用新题去替换或者用新题进行增补，因此项目的增补对CAT题库的维护与开发至关重要。这就需要邀请专家不断编制新题, 并对新题进行标定, 然后才能将其添加到题库当中。其中, 对新题的标定既是重点也是难点, 标定的精度将直接影响到被试能力估计的准确性, 因为来自题目标定的误差会直接传递到对被试的评分过程中。另外, 新题的标定具体包括两方面的含义：一是估计新题的题目参数, 二是将新题参数置于旧题的参数量尺上。
(2)在线标定策略(online calibration strategy)。在线标定是在被试自适应作答旧题的过程中, 将新题呈现给被试作答以收集被试在新题上的作答反应, 并估计新题题目参数的技术(Wainer & Mislevy, 1990)。测验开始前, 主试会正式告知被试他们在某些题目(新题)上的作答反应不参与分数计算或能力估计, 而不是将新题暗中散布到测验当中以获得可靠的数据。从某种意义上讲, 既作答旧题又作答新题的被试实际上起到的是锚人(anchor person)设计中锚人的作用, 所以不需要再单独进行等值。
多阶段策略是在P2的基础上由多于2个以上的阶段组成, 当收集到越来越多的数据使得自适应算法可用时, 测验中各部分由全部是随机选择逐渐过渡到全部是自适应选择。
连续更新策略的第一个阶段与P2和M类似, 其连续更新的特点主要体现在最后一个阶段(此时所有测验部分都是自适应选择)：题目每曝光一次, 其题目参数就更新一次, 然后基于最新的题目参数值对被试能力估计一次。 Makransky (2009)的研究表明C策略在所有模拟条件下都一致优于其他两种策略。值得注意的是, Makransky (2009)提出的3 种自动在线标定设计都是以随机设计和自适应设计为基础, 但是在“事先没有CAT题库、没有任何旧题信息可以利用、所有题目都被视为新题”的前提下提出的, 所以严格意义上讲, 这3种设计并不满足在线标定的原始定义, 因为在线标定是指在“已有CAT题库”的前提下将新题植入被试CAT测验过程中然后估计新题题目参数的过程。
在线标定策略
在线标定设计(online calibration design)与在线标定方法(online calibration method)是在线标定的两个重要环节。作为在线标定的重要环节, 在线标定设计关注的是被试在自适应作答旧题的过程中, 如何将新题分配给被试作答可以获得更为精确的标定结果：是以随机的方式将新题分配给被试作答, 还是以自适应的方式分配, 还是采用其他的方式。不同于在线标定设计, 在线标定方法的主要任务是在收集完被试参加CAT测验的作答反应之后估计新题的题目参数, 并将它们置于旧题的参数量尺上。
CAT中的在线标定方法
在线标定方法的主要任务是在收集完被试参加CAT测验的作答反应之后估计新题的题目参数, 并将它们置于旧题的参数量尺上。
传统CAT中的在线标定方法
条件极大似然估计方法 Stocking (1988)提出方法A (Method A)和方法B (Method B)两种在线标定方法, 本质上, 它们在标定新题时都使用了两次条件极大似然估计(Conditional Maximum Likelihood Estimation, CMLE)。方法A首先基于被试在旧题上的作答反应使用CMLE估计被试的能力值; 其次, 将被试能力估计值固定(即看成是能力真值), 然后结合被试在新题上的作答反应再次使用CMLE估计新题的题目参数。在具体实施 CMLE时, 可使用牛顿-拉夫逊迭代方法或者二分法或者两者的结合 (先使用二分法再使用N-R, 然后再重复使用这两种方法可提高迭代速度) 求解非线性对数似然方程。
形成性评价，“对学生日常学习过程中的表现、所取得的成绩以及所反映出的情感、态度、策略等方面的发展”做出的评价，是基于对学生学习全过程的持续观察、记录、反思而做出的发展性评价。其目的是“激励学生学习，帮助学生有效调控自己的学习过程，使学生获得成就感，增强自信心，培养合作精神”。形成性评价使学生“从被动接受评价转变成为评价的主体和积极参与者”。
CD-CAT中的在线标定设计
目前CD-CAT中关于在线标定设计的研究还不多, 只涉及随机和自适应两种设计。
Chen等人(2010, 2012)受Makransky (2009)所提出的标定策略的启发, 采用自适应设计的思路标定新题, 但在具体实施时又与 Makransky (2009)的设计方案稍有不同。为了能够为每位被试自适应地选择新题, 他们采用基于数据(data-based) 的方法确定新题的初始参数估计值：首先将新题随机分配给被试的子样本(如前25%的被试) 作答, 并使用在线标定方法对新题进行预标定(称为预标定阶段, 记为PC); 然后对于剩余被试(如后75%的被试), CD-CAT测验基于新题的题目参数预估值自适应地选择新题给被试作答; 最后基于剩余被试在新题上的作答反应对新题进行重新标定(称为重新标定阶段, 记为RC)。
CAT中的在线标定设计
作为在线标定的重要环节, 在线标定设计关注的是被试在自适应作答旧题的过程中, 如何将新题分配给被试作答可以获得更为精确的标定结果：是以随机的方式将新题分配给被试作答, 还是以自适应的方式分配, 还是采用其他的方式。
传统CAT中的在线标定设计
Wainer和Mislevy (1990)认为在进行在线标定时, 可通过2 种设计方式将新题植入被试的CAT测验过程中：(1)随机设计。即对每位被试, 从新题题集中随机选择固定数量的新题, 然后将选中的新题植入被试CAT测验中的随机位置。随机设计有两个特点, 一是随机选题, 二是植入测验的随机位置。这种设计实施起来虽然比较简单和方便, 但是没有充分反映CAT测验在线标定过程中的选“人”逻辑, 也没有充分体现CAT“自适应”的特点。
新策略(Continuous Updating Strategy, C)。
两阶段策略包括随机和自适应两个阶段。在随机阶段, 题目以随机的形式分配给固定数量的被试作答, 然后在估计这批被试的能力水平时假设所有题目的难度参数值都等于预设值0。而且, 在每个阶段结束后都会对题目进行标定。在自适应阶段, 题目以自适应的方式呈现给剩余被试作答, 然后基于随机阶段得到的题目参数估计值对被试能力进行估计。当所有题目的平均被作答次数(或平均曝光次数)超过某个预设值(如50次) 时, P2由随机阶段过渡到自适应阶段。
由于参与预标定阶段和重新标定阶段的被试量都会影响最后的标定结果, 所以如何有效地从预标定阶段过渡到重新标定阶段是自适应标定设计中的一个关键问题。Chen等人(2010, 2012) 通过对参与预标定阶段和重新标定阶段的被试量设置3 种不同的比例(1:3, 1:1和3:1), 实现3种在线自适应标定设计方案。
相对于传统标定策略, 在线标定策略具有“不需要额外的标定研究即可在估计被试能力的同时也标定新题、不需要复杂的等值方法或设计即可将新题和旧题参数置于同一量尺、被试在作答新题和旧题时具有相同的考试动机”等优点，目前广泛用于传统CAT的新题标定中。
CAT分类
CAT大致分为以下几类：以IRT为基础的传统CAT；以认知诊断理论(Cognitive Diagnostic Theory, CDT)为基础的认知诊断CAT，不同于传统CAT的单维结构, CD-CAT 具有多维结构(需要估计的被试属性掌握模式或知识状态是多维离散变量), 这使得CDCAT中的题目增补较传统CAT更为复杂, 除了标定新题, 还需要标识新题对应的Q矩阵；基于多维IRT (Multidimensional IRT, MIRT)的多维CAT，MCAT将自适应测验与多维潜在特质估计相结合, 在发展形成性评价方面具有很大潜力。
Makransky (2009)考虑到在真实职业测验(occupational testing)的测验开发阶段中题目标定所需的资源(如被试样本)很难获得, 于是在事先没有CAT题库的情形下, 提出3种自动在线标定设计用于在估计被试能力的同时对题目进行标定, 它们分别是两阶段策略(TwoPhase Strategy, P2)、多阶段策略(Multi-Phase Strategy, M)以及连续更
(2)自适应设计。Lord (1980)指出在自适应测验中, 为了高效估计被试能力, 选题策略应该基于被试在已作答题目上的表现选择最适合被试作答的题目。类似地, 为了更为高效地估计新题的题目参数并充分利用在线标定技术的特点, Wainer 和Mislevy (1990)、Jones 和Jin (1994)及Chang和Lu (2010)都建议参与标定过程的被试也应该自适应地进行选择, 或者说将新题以自适应的方式呈现给被试作答。但是在具体实施自适应设计时, 有一个难点是需要知道新题的题目参数。Wainer和Mislevy (1990)给出的建议是, 可以基于出题者对题目的主观判断(subjective judgment)给出粗略的题目参数估计值。
注意方法A有一个强假设—— 将能力估计值看成是能力真值, 这样处理可以将固定的能力值作为“桥梁”将旧题和新题参数置于同一量尺。但方法A的缺点也很明显, 比如能力估计的偏差会直接传递到对新题的标定过程中, 还有可能会产生不希望出现的量尺漂移 (scale drift)。
方法B在一定程度上可以克服方法A的理论缺陷, 因为它借助参数已经标定的锚题对量尺漂移现象进行校正。方法B中, 每名被试除了作答旧题和新题外还需要作答一些锚题, 不同于方法A, 它将固定的能力值既用于标定新题又用于标定锚题。于是每个锚题都有两套参数值(一套与旧题参数在同一量尺上, 另一套与新题参数在同一量尺上), 然后基于锚题的新旧两套参数使用Stocking-Lord 方法可以将新题参数置于旧题参数量尺上。方法B由于需要使用锚题, 所以往往需要更大的样本量或更长的测验长度。