4.2.3 效标效度
大五人格量表BFI的初步修订
5.4正式施测结果………………………………………………………………………………………4 1 6常模制定………………………………………………………………………………………………4l 6.1常模……………………………………………………………………………………………………………………………4 1 6.1.1表示方法…………………………………………………………………………………………42 6.1.2常模团体…………………………………………………………………………………………42 6.2性别差异检验与性别常模…………………………………………………………………………42 6.2.1性别差异检验……………………………………………………………………………………42 6.2.2性别常模…………………………………………………………………………………………43 6.3专业差异检验和专业常模…………………………………………………………………………43 6.3.1专业差异检验……………………………………………………………………………………43 6.3.2专业常模…………………………………………………………………………………………44 6.4常模分数的解释及应用范围………………………………………………………………………44 6.4.1常模的解释………………………………………………………………………………………44 6.4.2常模的应用范围…………………………………………………………………………………44 第四章综合讨论………………………………………………………………………………………45 1研究意义………………………………………………………………………………………………45 1.1理论意义…………………....……………………………………………………………………….45 1.2实践意义……………………………………………………………………………………………45 2本研究的不足…………………………………………………………………………………………45 2.1翻译问题……………………………………………………………………………………………45 2.2题项问题……………………………………………………………………………………………46 2.3样本问题……………………………………………………………………………………………46 2.4结果问题……………………………………………………………………………………………46 3值得进一步研究的方向………………………………………………………………………………46 4结论…………………………………………………………………………………………………………………………………….46 参考文献…………………………………………………………………………………………………48 附录………………………………………………………………………………………………………………………………………..5 l 弱【谢…………………………………………………………………………………………………………………………………….55 攻读硕士期间发表的论文………………………………………………………………………………56 扬州大学学位论文原创性声明和版权使用授权书…………………………………………………………………………………………1
调查问卷的信度与效度
内容效度的评价主要通过经验判 断进行,通常考虑3方面的问题:
其一是项目所测量的是否真属于 应测量的领域;
其二是测验所包含的项目是否覆 盖了应测领域的各个方面;
其三是测验题目的构成比例是否 恰当。
常用的内容效度的评价方法有两种:
一是专家法,即请有关专家对问卷题 目与原来的内容范围是否符合进行分析,作 出判断,看问卷题目是否较好地代表了原 来的内容。
Scale if item deleted:去掉当前题目整个问卷的 描述统计量,即敏感性分析,包括以下内容: Scale Mean if Item Deleted:去掉当前题目问卷 合计分的均数;
Scale Variance if Item Deleted: 去掉当前题目 问卷合计分的方差;
可以将“Alpha if Item Deleted”值,作
为调整题目的一个重要参考依据。
如果“Alpha if Item Deleted”值越大 ,其相对应的题目越应是首先考虑调整的题 目。从本次问卷结果敏感性分析可以看出, 量表的各个题目的“Alpha if Item Deleted”值均在0.97左右变化,且变化的 幅度很小。所以,就 “Alpha if Item Deleted”值这项指标看量表各题目均可以 保留,无需调整。这个结果可能与研究者所 采用的SCL-90量标是一个经典量表有关。
(1)在相同条件下所得问卷测验结果的一 致程度;
问卷测验中测量误差通常来源于两个方 面:
一是产生于问卷测验过程中的误差,称 为测量误差(measurement Error),也称 为随机误差(random error);
二是由问卷的结构质量造成的误差,称 为系统误差(system Error)。
二、what
效度
效度是针对某个特定的测验目的的
比如,NEO是测量正常人格的,对某些特殊的人格障碍的鉴 定不一定有效。
测量的效度只有程度上的差异
有效性程度。不是“全”或“无” 的,而是“很有效的”或 “不太有效的”。
1、什么是效度:信度与效度的对比
信度的理论公式 SX=ST +SE r信= ST / SX= (SV + SI ) / SX 即信度是一组测验分数真变异与总变异(实测变异)的比值。 效度的理论公式 SX= SV + SI +SE R效= SV / SX 即效度是与测验目的有关的变异(有效变异)与总变异(实测变异)的 比值。
效标效度的类型: -同时效度:比如心理素质与心理健康同时测量。 -预测效度:人才选拔中的运用。 效标的选择: -外显、客观:智力与学习成绩 -简单、省事:案例:社会适应性量表的编制。 -科学、权威:比如用心理健康指标作为心理素质的 效标。
效标效度的估计方法
1.相关法 相关系数 回归方程 结构方程模型 2.分组法 案例:性别对性别角色认知量表的预测 3.命中率法 见下页
2.3 结构效度
术语和定义:也称构想效度、构念效度。 即测验对理论上的构想或特质的测量程度。 确定结构效度的基本步骤 首先从某一理论出发,提出某一心理特质的假 设,即构成心理特质的成分或因素,然后设计和编 制测验并进行试测,最后对测验的结果采用相关或 因素分析等方法分析,验证与理论假设的相符程度。 案例:大学生心理素质的结构效度的获得
效 度
什么是效度 效度的类型 影响效度的因素
1、什么是效度:真分数模型
个体而言 X=T+E X是观测分数,T是真分数, E是测量误差。 团体而言 SX=ST +SE 即观测分数变异数( SX)等于真分数变异数 ( ST )加上误差分数变异数( SE )。 这里误差分数变异数只是涉及到随机误差的变异
效度
结构效度建立过程
1. 对所欲测量的属性根据某种理论提出假定 结构
2. 根据假定的结构拟定题目编制测验 3. 评价结构效度 4. 根据测验结果来验证假设结构中的各种因
素是否成立。
结构效度的检定方法
• 因素分析法 • 用相容效度确定结构效度 • 多元特质与多重方法举证
1. 相容效度
相容效度就是一个新编的尚待确定其结构 的测验与另一个已知其结构的测验,他们共 同测量相同结构的程度。或者说一个未经过 结构效度检定的测验和一个已经经过结构效 度检定的测验,两者的相似程度。
• 差异分析法
同一组被试用同一个测验的两个复本在某一 学科教学或训练前后实施测验,该测验内容 的有效性可以由两次测验成绩差异的显著性 来加以判断。
表面效度
表面效度:是指测验在表面上使被试直觉感 到的有效性程度。
注意:表面效度不是测验的真正效度。
效标关联效度
• 定义: 所谓效标关联效度,是指测验分数与某一
内容效度建立过程
1. 首先,对教科书中所包括的内容和教学目 标进行系统的逻辑分析。
2. 然后,对所欲测量的属性加以定义,对所 欲测量的内容、范围加以界定。
3. 在此基础上,再将各部分的内容和教学目 标进行分类,并用双向细目表将之表达。
保证试卷内容效度的条件
• 要确定好内容范围,并使测验的全部试题 都在此范围内。
被试的抑郁得分会影响将来 的学习成绩吗?
27
这是最好的时代,也是最坏的时代 这是智慧的时代,也是愚蠢的时代 这是笃信的时代,也是疑虑的时代 这是光明的季节,也是黑暗的季节 这是希望的春天,也是绝望的冬天
我们什么都有,也什么都没有 我们全部会上天堂,也全部会下地狱
构想效度的争议
教育测量与评价复习高效笔记
(一)研究对象教育测量与评价the Educational Measurement and Evaluation一课程性质教育测量与评价主要是研究对教育现象进行测量和价值判断的理论方法和技术。
本门课程分为两大部分:第一教育测量与评价的基本原理与方法;第二教育测量与评价的具体应用。
(二)学科性质在课程设置和学科建设中,教育测量与评价可以看成是测量学和评价学内容的整合,而且侧重于教育测量,是综合性教育科学。
又可以看成兼容了教育统计教育测量心理测量教育评价教育评估教育督导甚至教育科学研究方法在内的学科群,所以这门学科是一门应用性的学科,但又是一门综合性的课程。
在教育学科分类中,教育测量与评价属于研究如何运用方法分析教育活动。
总之教育测量学是应用性学科,又是综合性学科。
二教学内容组织1教育测量与评价的基本概念2教育测量的质量指标3教育测验的编制与实施,包括各种题型的设计和使用试题编排测评实施和评估等4教育测量结果的整理和解释5教育评价方案的编制与实施6教育评价的方法:很多方法如诊断性评价形成性评价总结性测量与评价等等。
综合是用多种评价。
7教育评价的应用,包括课程评价(课程大纲教学设计等)学生评价(老师的评价学生自己的评价同学的评价等)教师评价等方面8教育质量评价9现代教育测量与评价的发展趋势三教学目标1了解教育测量与评价的形成和发展历史。
2掌握教育测量与评价的概念一般原理和方法。
3掌握编制测量量表的方法和步骤。
4掌握评价方案设计以及建立评价指标体系的方法和技巧。
5树立科学的先进的教育测量与评价理念。
6初步具备开展教育测量与评价的能力。
四课程学习的重要意义1教育测量与评价知识是构成现代教育技术教育管理小学教育专业学生必备知识的重要组成部分2掌握先进的教育测评理念,以促进学生的健康发展五教育测评的学科地位和作用(一)现代教育科学研究的三大领域之一教育基本理论研究教育测量与评价科学研究以及教育发展研究已成为教育科学研究的三大领域。
调查问卷效度分析
调查问卷效度分析调查问卷效度分析在进行问卷研究时,特别是问卷中有非常多的量表题时,量表设计是否合适,量表设置有效与否,如同信度一样,是非常重要的问题。
如果量表设计不合理,基于此量表的数据也会受到置疑。
接下来就具体阐述效度分析以及效度分析时的操作方法,如何解决出现的问题等。
效度分析,简单来说就是量表设计的有效性情况,其可分为三类,分别是:内容效度、结构效度和效标效度,建议研究人员使用内容效度和结构效度对问卷进行效度质量衡量,一般很少使用到效标效度。
(1)内容效度内容效度是指问卷题项对相关概念测量的适用性情况,简单来讲即题项设计合理性情况。
内容效度可以从两个方面进行说明,第一是专家判断,专家具有权威性,因此专家对问卷进行判断并得出肯定结论后也即说明问卷具有有效性,此处专家是指行业内专家,或者参考文献,也或者权威来源等。
第二为问卷前测结果,通过对问卷前测并结合结果进行题项的修正等工作以充分说明问卷的有效性。
在具体分析过程中,内容效度通常是指研究题项的设计是否具有参考文献出处,是否有经过老师(专家)的认可,以及是否得到同专业相关人员比如同学的认可等。
以及研究人员是否对问卷进行修正工作,比如对问卷进行前测后发现问题,并做出修正工作。
内容效度是通过文字性进行描述说明,而并非统计软件进行的统计方法,对于问卷研究来讲,基本上均需要进行内容效度说明。
(2)结构效度结构效度指测量题项与测量维度之间的对应关系,其测量方法有两种,一种是探索性因子分析,另外一种是验证性因子分析。
探索性因子分析是当前使用最为广泛的结构效度测量方法,此方法可以使用SPSS客户端或者在线网页版SPSSSPSSAU实现。
使用探索性因子分析进行效度验证时,应该以量表为准,对变量或者量表分别进行分析。
使用探索性因子分析进行效度验证时,首先需要对KMO值进行说明(最为简单的效度验证是直接对每个变量进行探索性因子分析,并且通过KMO值进行判断,勿需判断题项与因子对应关系情况等,此种判断方法过于简单,使用较少),KMO值指标的常见标准是大于0.6,接着具体说明提取的因子数量,每个因子的方差解释率,总共方差解释率值,并且详细描述各个题项与因子的对应关系,如果对应关系与预期相符(专业知识预期一致),则说明有着良好的结构效度。
自测健康评定量表(SRHMS)(Self-rated Health Measurement Scale Versionl.0)
自测健康评定量表(SRHMS)(Self-rated Health Measurement Scale Versionl.0)自测健康是指您本人对自己健康状况的主观评价和期望,自测健康评定是目前国际上比较流行的健康测量方法之一。
世界卫生组织(WHO)将健康定义为:健康不仅仅是没有疾病和虚弱,而且是生理、心理和社会上的完好状态。
个体的健康应该是生理健康、心理健康和社会健康的总和。
本量表就是让您从生理、心理和社会三个方面对自己的健康状况进行定量化测量,以便能够及时、全面、准确地了解自身的健康信息为自己的健康保护提供帮助!填表要求:本量表由48个问题组成,问的都是您过去四周内的有关情况。
每个问题下面有一个划分为10个刻度的标尺,请逐条在您认为适当的位置以“x”号在标尺上作出标记。
(请注意每个标尺上只能划上一个“x”号)例如:您的睡眠怎么样?非常差0 1 2 3 4 5 6 7 8 9 10非常好0:表示睡眠非常差;10:表示睡眠非常好;在0-10间:越靠近0表明睡眠越差,越靠近10表明睡眠越好;1.您的视力怎么样2.您的听力怎么样3.您的食欲怎么样4.您的胃肠部经常不适(如腹胀、拉肚子、便秘等)吗5.您容易感到累吗6.您的睡眠怎么样7.您的身体有不同程度的疼痛吗8.您自己穿衣服有困难吗9.您自己梳理有困难吗10.您承担日常的家务劳动有困难吗11.您能独自上街购买一般物品吗12.您自己吃饭有困难吗13.您弯腰、屈膝有困难吗14.您上下楼梯(至少一层楼梯)有困难吗15.您步行半里路有困难吗16.您步行三里路有困难吗17.您参加能量消耗较大的活动(如剧烈的体育锻炼、田间体力劳动、搬重物移动等)有困难吗18.与您的同龄人相比,从总体上说,您认为自己的身体健康状况如何19.您对未来乐观吗20.您对目前的生活状况满意吗21.您对自己有信心吗22.您对自己的日常生活环境感到安全吗23.您有幸福的感觉吗24.您感到精神紧张吗25.您感到心情不好、情绪低落吗26.您会毫无理由地感到害怕吗27.您对做过的事情经反复确认才放心吗28.与别人在一起时,您也感到孤独吗29.您感到坐立不安、心神不定吗30.您感到空虚无聊或活着没有什么意义吗31.您的记忆力怎么样32.您容易集中精力去做一件事吗33.您思考问题或处理问题的能力怎么样34.从总体上说,您认为自己的心趣健康状况如何35.对于在生活、学习和工作中发生在自己身上的不愉快事情,您能够妥善地处理好吗36.您能够较快地适应新的生活、学习和工作环境吗37.您如何评价自己在工作、学习和生活中担当的角色38.您的家庭生活和睦吗39.与您关系密切的同事、同学、邻居、亲戚或伙伴多吗40.您有可以与您分享快乐和忧伤的朋友吗41.您与您的朋友或亲戚在一起谈论问题吗42.您与亲朋好友经常保持联系(如互相探望、电话问候、通信等)吗43.您经常参加一些社会、集体活动(如党团、工会、学生会、宗教、朋友聚会、体育比赛、文娱等)吗44.在您需要帮助的时候,您在很大程度能够依靠家庭吗45.在您需要帮助的时候,您在很大程度能够依靠朋友吗46.在您遇到困难时,您主动地去寻求他人的帮助吗47.与您的同龄人相比,从总体上说,您认为您的社会功能(如人际关系、社会交往等)如何48.与您的同龄人相比,从总体上说,您认为您的健康状况如何自测健康评定级表(SRHMS)(Self-rated Health Measurement Scale Versionl.0)一、前言自测健康是个体对其健康状况的主观评价和期望,这一概念最早是由Suchman等人在1958年提出,此后,许多学者对这一概念进行了充实和完善,目前,自测健康已成为国际上比较通用的健康测量方法之一。
三类效度及关系
测验 预测个体在某种情境下行为表现 的有效性程度 。通常是 如 何 。而 内容 效 度 对 能 力 倾 向测 验 和 人格 测验 不 是 很 合 适 , 求实际测验分数与效标 间的关系, 属于实征统计关系, 因而又 主要是因为测量的往往是 范围难 以界定的缺乏理想数量指标 称为实征性效度 。如果测验 与外在效标间的相关越 高,表示 的较抽象的特质 ,无法考证测验项 目的代表性并妨碍 了信 息
细 目表 来 检 视 测 验 内容 的 效度 。 生 理 智力 发 展 、 学 习生 活 环 境等 需要 明确 界 定 范 围 , 用 文 字 和
内容效度 的确定方法主要是逻辑分析法 , 其主要步骤是: 语 言 两 种 形式 完 整 、 准 确地 表 述 研 究 变 量 。( 3 ) 对 研 究变 量 做 ( 1 ) 明确欲测内容 的范围, 包括知识范围和能力要求两个方面; 出准确、 严格 的操作定义, 并选 择对应 、 客观 的观测指标 。( 4 ) ( 2 ) 确定每个题 目所测的 内容, 并与双向细 目表对照 以比较 、 避免采用单一方法或单一指标去代表或分析多维的、多层 次 分 类 与记 录 ; ( 3 ) 制定定量表, 考 察 题 目对 所 定义 的 内容 范 围 的、 多侧 面 的 事物 和 活 动 , 尽 可 能 采 用 多种 方 法 、 多种 指 标 , 从 的覆 盖率 、 判断题 目难度与能力要求间的差异 、 题 目量与分数 不同角度分析研 究相 同的理论构思。 比例及题 目形式对 内容的适 当性 ,对整个测验的有效性做 出 4三种 效 度 之 间 的 关 系 总的评价 。此外 , 还有经验推测法及 C r o n b a c h提 出的统计分 析方法。 2效标关联效度
此测验 的效标关联效度越高。效标关联效度主要重视那些与 交流和各测验 的相 比较。有些测验对所测 内容或行为范围
(完整版)心理测量考试复习
一、最早的智力测验-—比奈-西蒙量表P111。
比奈(Alfred Binet)法国心理学家,心理测验的鼻祖。
贡献:(1)提出了测量智力的方法,并建立了最早的相对客观、量化的度量工具。
(2)将智力测验成功地运用于教育领域,使人们看到了心理测验的应用价值,推动了心理测验的迅速发展.智龄是比奈-西蒙智力量表中使用的判断智力的术语。
比奈智力量表系列主要有比奈量表、斯坦福—比奈量表和中国比奈量表。
(一)比奈量表比奈量表是比奈和西蒙编制的,有1905年、1908年和1911年三种版本。
内容:1905年版共有30道题,题目顺序由易到难排列,通过对3岁至11岁各50名正常儿童和部分智力落后儿童以及成人测试的结果,分析确定题目的难易程度,并用不同难度的题目代表不同年龄的智力水平。
特点:①个体测验;②用智力年龄来评判结果。
不足:(1)从内容上看,该量表主要是对判断、理解和推理能力的测查,并不能涵盖智力的全部内容。
(2)从形式上看,这个量表无论是测验主持人的指导,还是被测者的回答或反应,主要都是以语言形式进行的,因而对语言能力的依赖程度较大,这对某些特殊儿童如聋哑儿童是不公平的。
(3)这个量表不能准确地表示测验总分,只能以被测者完成题目的多少来大致确定其智力水平.行为样本(behavioral sample)就是“少数有代表性的行为”P31标准化(standardization)P32是指测验编制、实施、记分和测验分数解释必须遵循严格的统一的科学程序,保证对所有被测者来说施测的内容、条件、记分过程、解释系统都相同。
①测验题目的标准化;②实施过程和记分的标准化;③选用有代表性的常模。
信度(reliability),主要是指测量结果的可靠性或一致性。
P32信度(reliability)是指测验结果的可靠性、稳定性,即测验结果是否反映了被测者的稳定的、一贯性的真实特征。
简言之,信度就是对测量一致性程度的估计.#误差的含义和类型P1401.含义:误差—-测量中与目的无关的变因所产生的不准确、不一致的效应.2。
信度和效度名词解释
信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。
一般多以内部一致性来加以表示该测验信度的高低。
信度系数愈高即表示该测验的结果愈一致、稳定与可靠。
例如,用同一个量表对同一组被试在不同时间进行测量,如果每次测量结果都很相近,就说明这个量表的信度较高。
2. 信度的类型- 重测信度:用同一种测验,对同一组被试者,前后施测两次,再根据被试者两次测验分数计算其相关系数,即得重测信度。
它反映了测验跨时间的稳定性。
例如,在一个月内,对同一批学生使用相同的智力测验进行两次测试,两次测试结果的相关性就是重测信度。
- 复本信度:复本是内容、形式、难度等方面与原测验相似的测验。
复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。
有A、B两套英语水平测试题,它们在题型、难度等方面相似,对同一组学生先进行A卷测试,过一段时间再进行B卷测试,然后计算两次成绩的相关系数就是复本信度。
- 内部一致性信度:主要反映的是测验内部题目之间的关系,表示测验能够测量相同内容或特质的程度。
例如,在一个包含多个项目的人格测验中,内部一致性信度高意味着各个项目之间测量的是人格的同一个方面,常用的计算方法有克伦巴赫α系数等。
- 评分者信度:用于衡量不同评分者对同一组被试评分的一致性程度。
在一些主观性较强的测验中,如作文评分、面试评分等,评分者信度就非常重要。
如果不同评分者对同一篇作文或同一个面试者的评分比较接近,那么评分者信度就较高。
3. 影响信度的因素- 被试样本:被试样本的同质性(相似性)程度会影响信度。
如果被试样本的同质性高,信度可能会较低,因为他们在测验所测特质上的差异较小;反之,异质性高的被试样本可能会使信度较高。
例如,在一个只针对高智商学生的智力测验中,由于学生的智商都比较高且接近,可能会导致信度系数较低。
- 测验长度:一般来说,测验的题目数量越多,信度越高。
因为较长的测验能够更全面地测量被试的特质,减少随机误差的影响。
考陶尔德情绪控制量表中文版的信度、效度分析
【基 金 项 目 】 国 家 “十 一 五 ”科 技 支 撑 计 划 课 题 (2009BAI77B06)基 金资助 通讯作者:朱熊兆
本文试对 CECS 中文版进行信、 效度分析, 以探讨 CECS 在我国大陆地区的适用性。
1方 法
1.1 工具 1.1.1 CECS 中文版的建立 采用双盲翻译,邀请 2 位中英双语人员对英文原版进行翻译, 并请 2 位美 籍华人将中译版回译成英文,与原版进行比对。在翻 译过程中充分参考了 2004 年的香港中译版。 CECS 中文版保留了原英文版本的条目及因子结构,有 21 个条目,其中 5 个条目为反向评分条目。全量表分为 3 个 因 子 : 愤 怒 抑 制 (CECS_AN)、 焦 虑 抑 制 (CECS_WO)和抑郁抑制(CECS_DE),采用 4 级计分 法, 从 1(几乎不)到 4(几乎总是)。 1.1.2 C 型 行 为 量 表 C 型 行 为 量 表 由 Temoshok 设计,徐震雷等引进国内后,在国内被广泛应用。 该 量表共 97 个条目,分为 9 个分量表。 本研究采用其 中 3 个关于情绪抑制的分量表:愤怒内向(Exin)、愤 怒外向(Exout)和情绪控制(Con)作为效标使用。 本
中国临床心理学杂志 2013 年 第 21 卷 第 2 期
研究中,3 分量表的 Cronbach’s α 系数分别为 0.92、 0.94、0.94。 1.2 对象
效度的分类 全
效度的分类0.效度的涵义:就是测量结果的有效性。
或某项测量活动能够测量到测量者所希望了解的特性的程度。
效度与测量目的相关,同一种测量工具在某些测量中具有高效度,但在另一些测量中却效度不高。
例如:一把信度很高的尺子在测量身高时具有很好的效度,但在测量血压时效度显然不佳。
一、内部效度/内部一致性程度: 指在研究的自变量与因变量之间存在一定关系的明确程度。
外部效度: 指研究结果能够一般化和普遍适用到样本来自的总体和到其它的总体中的程度,即研究结果和变量条件、时间和背景的代表性和普遍适用性。
二、效标关联效度/实证效度1涵义:效标关联效度是以经验性的方法,研究测验分数与一些外在效标间的关系,故又可称为经验效度或统计效度。
实证效度测验对实际行为的预测能力。
实证效度在一定程度上与效标关联效度存在重叠,当效标是实际行为时,两种效度意义相同。
2分类:根据选择效标的时间不同,可分为:●同时效度是指测验分数与实施测验同一个时间所取得的效标之间的相关,旨在使用测验分数估计个人在效标方面的目前实际表现。
例如测量学生智力时,将学生当时的成绩作为效标。
●预测效度:(考)是指测验分数与实施测验后一段时间所取得效标之间的相关,旨在使用测验分数预测个人在效标方面的未来表现。
例如测量学生智力时,将测量之后一段时间的学生成绩作为效标。
另外也分为●区分效度:(考)与测量不同建构的其他测验(不相关效标)之间的关系不应很高,如自评抑郁问卷SDS得分与测量上网成瘾的测验之间的相关必然不会很高。
在一项测验中,如果可以在统计上证明那些理应与预设的建构不存在相关性的指标确实同此建构没有相关,那么这项测验便具有区分效度。
●聚合效度:(考)与测量相同或相似建构的其他测验(相关效标)之间的关系,如SDS与CES-D之间的高相关是支持聚合效度的证据。
MTMM法用来确定区分效度和聚合效度,如果采用纵向设计还可以将同时效度和预测效度纳入。
3测量方法:1.命中率3.相关法2.显著差异法三、结构效度/构思效度/构念效度(考)1涵义:指测验能够测量到理论上的结构或特质的程度。
SRHMS 简介+评分
自测健康评定级表(SRHMS)(Self-rated Health Measurement Scale Versionl.0)一、前言自测健康是个体对其健康状况的主观评价和期望,这一概念最早是由Suchman等人在1958年提出,此后,许多学者对这一概念进行了充实和完善,目前,自测健康已成为国际上比较通用的健康测量方法之一。
以往的许多研究仅采用一个综合的自评指标(优、好、中、差)来测量自测健康,不少学者认为这种测量太粗糙,不全面,未能反映自测健康的真正内涵。
1947年,世界卫生组织(WHO)提出健康不仅仅是没有疾病和虚弱,而且是生理、心理和社会上的完好状态,个体的健康应该是生理健康、心理健康和社会健康的总和。
许军等人基于WHO的健康定义,顺应生物医学模式向生理一心理一社会医学模式以及健康测量从一维到多维、群体到个体、负向到正向的转变,吸收人文科学的最新成果,采用Delphi法和现场调查法,从生理、心理和社会三个方面筛选自测健康评价指标,建立了适合于我国国情和文化背景下的自测健康评定量表(SRHMS) o该量表克服了以往自测健康测量的不足,比较直观、全面、准确地反映自测健康的真正内涵。
二、自测健康评定量表的特点SRHMS为自评量表,由自测生理健康、心理健康和社会健康三个评定子量表组成,用于14岁以上各类人群(尤其是普通人群)的健康测量;它从定量化的角度,较为直观、全面、准确地反映了个体的健康状况,且易于管理和操作。
因此,SRHMS可以广泛应用于很多领域,是健康测量的一个有效手段。
三、自测健康评定量表的评分及测试注意事项3. 1 SRHMS的构成S RHMS由10个维度,48个条目组成,涉及到个体健康的生理、心理和社会三个方面,其中1至18条目组成自测生理健康评定子量表,19至34条目组成自测心理健康评定子量表,35至47条目组成自测社会健康评定子量表。
SRHMS的构成见表1表1 SRHMS维度及其条目分布维度条目数条目在SRHMS中的分布身体症状与器官功能7 1,2,3,4,5,6,7日常生活功能 5 8,9,10,11,12身体活动功能 5 13,14,15,16,17正向情绪 5 19,20,21,22,23心理症状与负向情绪7 24,25,26,27,28,29,30认知功能 3 31,32,33角色活动与社会适应 4 35,36,37,38社会资源与社会接触 5 39,40,41,42,43社会支持 3 44,45,46健康总体自测 4 18,34,47,483.2 SRHMS的评分3.2.1条目分、维度分、子量表分和量表总分的计算SRHMS的48个条目评分采用模拟线性方式,各个条目原始分的回答是在一条有两个极端点的10cm线上划上标记(如划上“X”号)。
信度与效度的比较表
信度与效度的比较表
解释个人分数的意义
例:在一个智力测验中,某个被试的iQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少?95%的或然水平,其置信区间为X―1.96SE<XT≤X+1.96SE ,即真实IQ有95%的可能性落在X―1.96SE与X+1.96SE之间。
已知该智力测验的标准差为15,信度系数为0.84,测量标准误SE= 6,则其IQ的测量标准误和可能范围为:
IQ=100±1.96*6=100±11.76≈88~112
比较不同测验分数的差异
例;某被试在韦氏成人智力测验中言语智商为102,操作智商为110。
已知两个分数都是以100为平均数,15为标准差的标准分数。
假设言语测验和操作测验的分半信度分别为0.87和0.88,SEd=7.5。
问其操作智商是否显著高于言语智商呢?
SEd=7.5
(1)计出两个分数要达到0.05的显著水平的差异程度的分值:Sed*1.96(考试时为2,以方便计算)=14.7(15)
(2)计算两个比较分数之间的差异分数:110-102=8
(3)用(1)与(2)比较,如果(1)大于(2),则两分数差异不显著,存在误差的影响,是误差导致的差异;否则,差异显著,不是误差导致的差异。
效度分析含义及其分类
效度分析涵义及其分类一、效度的涵义:简言之,就是测量结果的有效性。
或某项测量活动能够测量到测量者所希望了解的特性的程度。
效度与测量目的相关,同一种测量工具在某些测量中具有高效度,但在另一些测量中却效度不高。
例如:一把信度很高的尺子在测量身高时具有很好的效度,但在测量血压时效度显然不佳。
因此有人将效度定义为:测验等够达到某种目的的程度(Mehens&Lehmann,1978,p.109)二、效度的类型:由于效度是相对于研究目的和研究侧面而言的,具有多层面的特性,因此效度具有多种类型。
主要有:1.内容效度(content validity)2.效标关联效度(criterion-related validity)3.结构效度(construct validity)(一)内容效度涵义:内容效度是指测量工具的内容是否能够代表所欲测量的行为领域,即量表内容是否具有代表性。
例如:一位教师给学生做一个数学测验,该测验的题目如果涵盖了教学所欲达成的目标,及教材的重要内容,我们说该测验有内容效度。
测量方法:尚没有一种数量的测量方法,它的确定主要是采用逻辑的分析方法,仔细判断每一项目是否符合及涵盖所要测量的研究领域。
(二)效标关联效度涵义:效标关联效度是以经验性的方法,研究测验分数与一些外在效标间的关系,故又可称为经验效度或统计效度(empirical or statistical validity),(Thorndike & Hagen,1977,p.60).根据选择效标的时间不同,可分为:同时效度和预测效度同时效度(concurrent validity):是指测验分数与实施测验同一个时间所取得的效标之间的相关,旨在使用测验分数估计个人在效标方面的目前实际表现。
例如测量学生智力时,将学生当时的成绩作为效标。
预测效度(predictive validity)是指测验分数与实施测验后一段时间所取得效标之间的相关,旨在使用测验分数预测个人在效标方面的未来表现。
第四章 效度
第四章效度信度解决的是测验分数是否可靠的问题,但即使一个测验分数有跨时间的稳定性和跨情境的一致性,却不能保证测验分数代表了被试的真实水平。
比如说,某测验的目的是测量能力,但测题却都是一些死记硬背的知识,测验分数是不能代表被试真实能力水平的。
这就涉及了测量的客观性和准确性问题,即测验的效度问题。
第一节效度概述一、效度的概念测验的效度(validity)指的是测验的有效性,即测验分数能够代表所要测量的心理特质的程度,或测验结果达到测验目的的程度。
任何测验对所要测量的心理特质的测量都不是绝对客观和准确的。
一些编制得好的智力测验一般是效度较高的,但也免不了受智力之外的因素的影响。
因为测验的题目必然要从人们的生活实践中选材,来自不同生活背景的人对同一个测验题目的熟悉程度是不同的,即使智力相同,测验分数也会不同。
因此人们的知识经验就成了影响测验分数的无关因素之一。
研究表明,文化和种族因素会造成测验的不公平,因为与测验分数有关的并不完全是智力。
人格和成就测验同样存在无关因素影响测验分数的问题。
效度总是针对一定的测验目的而言的。
例如,用编制得好的人格测验测量人的个性,诊断心理障碍是有效的,即有一定效度,但若用来测量智力,测量结果就是无效的。
因为人格与智力无关,故分数的高低不能代表智力的高低。
以上讨论的是心理测量中的效度问题,在物理测量中,效度问题也是同样存在的。
如,用不标准的尺子量物体,用不准确的称去称物体,都会使测量的结果不准确。
可见,效度是由于测量工具(量尺)本身的问题造成的,在多次测量中都会恒定地出现而无法消除,因而称系统误差。
测量的效度问题是测验结果中包含了多大比例的系统误差的问题,系统误差可能是由以下几方面原因造成的:(1)所要测量的特质有多方面的含义,而量表本身未能全部包含这些方面;(2)测验题目中包含了与所测特质无关的题目;(3)记分方面的问题,如选择题的备选答案是不全面的,即没有完全体现被试情况的差异,因此答案就不是足够准确的,而且各题目得分是简单累加而未经加权处理,不同题目的重要性程度就没有得到区分。
效度的正用与误用
在讨论效度之前,需要界定测验和实验两个重要概念。
测验是对行为样本的客观的和标准化的测量[1 - 2 ] ,目的是考察行为或事物的数量特征。
实验是在有控制的情景中,操纵自变量,然后观察因变量变化的过程,目的是考察变量间的因果关系[3 - 4 ] 。
实验过程一般会包括对因变量的测验,但测验过程一般不包括操纵自变量的过程和观察因变量的变化。
测验有其效度问题,如内容效度、实证效度和构想效度;实验也有效度问题,如内部效度和外部效度。
两类效度的性质并不相同。
由于实验过程包括对因变量进行的测量,因此,实验的效度问题更为复杂,它既涉及因变量测量的效度问题,也涉及与控制程度和外推能力有关的效度问题。
但本文将只讨论测验的效度问题。
1 如何理解效度的本质测验的效度(validity) 是指一个测验在测量某项指标时所具有的准确程度。
它所回答的基本问题是:一个测验测量对象的什么特性? 它对该特性的测量有多准确? 一个测验的效度越高,则表示它所测结果越能代表所测对象的真正特征。
例如,体育活动中的速度从理论上来说,应该是一个人“单位时间完成的距离”,它应与力量有本质不同。
如果速度测验中包含许多力量性测验,势必影响速度测验的效度。
但体育活动中,完全脱离力量的速度是不存在的。
人们无法将两者彻底分开。
从这个意义上来说,速度测验的效度不可能十全十美。
我们所能做的,就是尽可能使速度测验更多地反映人的速度特征,避免使它成为“力量测验”。
2 如何判断效度的高低效度的分类标准虽然很多,但基本上是由效标的性质或特点决定的。
测验的效度可分为三类:内容效度(content va2lidity) 、实证效度(validate validity) 和构想效度(construct validi2ty) 。
内容效度指测验内容是否覆盖了具有代表性的行为样本;实证效度表示测验对某个效标的预测性的好坏;构想效度则反映测验是否测量了某个理论构想或特质。
2. 1 内容效度内容效度指一个测验的内容代表它所要测量的主题的程度。