护理研究 第八章 研究工具性能的测定
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、信度的计算方法
(一)重测信度(稳定性) 1.定义:是用同一测量工具在不同
的时间对同一群受试者前后测量两次, 然后计算两次测量分数的相关系数,相 关系数越大说明两次测量的一致性越高。 相隔的时间不应该太长。
2.计算方法
1.重测信度(test-retest reliability)
常用来描述研究工具的稳定性大小,即用一研究 工具两次或多次测定同一群体,所得结果的一致 程度。一致性程度越高,则该工具的稳定性越好, 重测信度也就越高。 重测信度的具体做法是先进行第一次测试,隔一 段时间(间隔以可能忘却上次测验内容为宜)后 进行重测,然后计算两次测试结果的相关系数。 重测对象一般要达到总研究数目的1/10。 重测信度简单、直观,适用于评估性质相对稳定 的问题,如个性、价值观、自尊等。 不足之处在于计算结果会受多种因素影响。例如 时间、受测对象第二次反应、态度和记忆力等
Leabharlann Baidu 2.内容效度
内容效度是指项目对欲测的内容或行为 范围取样的适当程度。例如,教师在讲 授了一段时间课程之后就要进行考试, 而试卷不可能包含所有内容,只能从中 选出一个代表性样本来测试,再根据分 数来推论学生在该范围内的知识技能的 掌握情况。如果测试题目是该范围内容 的好样本,推论就有效。
2.内容效度
第三节
国外量表的翻译
一、翻译 二、回译 三、检测:检测原量表与中文版量 表之间的等同性。
(2)Cronbach’s a相关系数与KR-20值 (Kuder-Richardson formula 20):
折半信度的主要不足是不同折半方法会导 致不同的结果。例如一个10项目的问卷,共可 有126种不同的折半法。按奇偶项进行折半与 按前半、后半部分折半计算所得的信度就很可 能不同。而Cronbach’s a与KR20值所计算的是 工具中所有项目的平均相关程度,避免了折半 信度计算的缺点。与Cronbach’sα不同的是KR20值适用于二分制的研究工具(包含两种反应, 例如回答“是”或“不是”)的一种方法。
R= 2 2 √ ∑ (x-x) (y-y)
∑ (x-x)(y-y)
3.使用重测信度需考虑的问题 (1)两次测量之间的间隔时间 (2)研究工具所测量的变量的性质 (3)测量环境的一致性
(二)折半信度、cronbach‘α 系 数与KR值(内部一致性)
此三种方法可用来反映工具的内在一致 性。当研究工具包含多条项目时,需要 对各项目之间的关系进行评定。内在一 致性(internal consistency)指各项 目之间的同质性或内在相关性, 内在相 关性越好,说明组成研究工具的各项目 都在一致地测量同一个问题或指标,也 就是说明工具的内在一致性越好,信度 越高
指一套测试题是否测试了应该测试的内 容或者说所测试的内容是否反映了测试 的要求,即测试的代表性和覆盖面的程 度。例如,如果某一套发音技能测试题 仅仅考查发音所必须具备的某些技能, 如只考单一音素的发音,而不考查重读、 语调或音素在词语中的发音,那么,该 测试的内容效度就很低。
2.内容效度
一个测验要具备较好的内容效度必须满 足两个条件。 ①要确定好内容范围,并使测验的全部 项目均在此范围内。所谓内容范围可以 是具体知识或技能,也可以是复杂行为。 成就测验的主要目的在于测量学生的学 习效果,因此特别重视内容效度。
1.表面效度
指测试应达到的卷面标准,即一套测试 题从表面看来是否是合适的。例如,若 一次阅读理解力的测试包括许多受试者 没有学过的方言词汇,则可认为这次测 试缺乏表面效度。表面效度是测试出受 试者正常水平的一种保证因素。
2.内容效度
是根据理论基础及实际经验来对工具是 否包括足够的项目而且有恰当的内容比 例分配所做出的判断。内容效度需建立 在大量文献查阅、工作经验以及综合分 析判断的基础之上,多由有关专家来评 议。
第二节
效度
效度是指某一研究工具能真正反映它所期望研究的
概念的程度。反映研究概念的程度越好,效度越高 效度(Validity) 即有效性,指此测验测查到所要测 查的没有?测查到何种程度?如一个智力测验,若 测验结果所表明的确实是受试的智力,而且量准了
智力水平,那么这一智力测验的效度好;反之则不
好。效度检查,也同信度检查一样,有多种方法, 并有各种名称,如表面效度、内容效度、效标关联 效度、结构效度等。
(1)折半系数:折半系数是测定内在一致性的 古老方法,具体方法是将项目分成两部分,分 别记分(选奇偶项是最常见的划分方法),对 两个部分进行相关分析,然后采用SpearmanBrown 公式计算信度 只用一个测量工具对同一群受试者实施一次测 量,但将奇数题和偶数题分开计分,再计算奇 数试题和偶数试题分数之间的相关系数。
一、表面效度
二、内容效度
三、效标关联效度
四、结构效度
1.表面效度
表面效度是指测量内容或测量指标与测 量目标之间的适合性和逻辑相符性。表 面效度是最浅层次上的效度,它指的是 从表现上看起来,测验题目是否与测验 目的一致。 是由评估人根据自己对所要测量概念的 理解,尽其判断能力之所及来断定工具 是否适当而做出的一种直觉判断。表面 效度一般不能作为工具质量的有力证据。
复本信度
复本信度是用两个完全等值的(平行的) 复本对同一群受试者进行测试,计算两 种复本测量分数的相关系数,相关系数 越大说明两个复本构成带来的变异越小。 如考试中使用的A、B卷
信度
在进行预试验时,一般选取10-20例样 本进行信度测量。到目前为止对于信度 系数的标准尚无统一的标准,一般认为 信度数值高于0.8时工具的信度才理想, 但若使用的问卷项目数较少时,高于0.6 或0.5即可接受。评估工具的信度时,最 重要是要报告出工具的信度数值,并说 明它是怎么计算出来的
第八章 研究工具性能的测定
信度和效度是用来反映研究工 具质量高低的两个指标,高信度和 高效度的研究工具是良好科研的必 需条件。
第一节 信度
一、概念 信度(reliability)是指使用某 些研究工具所获得结果的一致程度 或准确程度。
稳定性、内在一致性、等同性是信度的 三个主要特征
信度
所谓的信度,是指使用相同指标或测量 工具重复测量相同事物时,得到相同结 果的可能性。如果说某个指标或测量工 具的信度高,那它提供的测量结果就不 会因为指标、测量工具或测量设计本身 的特性而发生变化;反之亦然。
信度与效度的关系
信度是效度的必要条件,但不是充分条件。一 个测量工具要有效度必须有信度,没有信度就 没有效度;但是有了信度不一定有效度。 信度低,效度不可能高。因为如果测量的数据 不准确,也并不能有效地说明所研究的对象 。 信度高,效度未必高。例如,如果我们准确地 测量出某人的经济收入,也未必能够说明他的 消费水平。 效度低,信度很可能高。例如,即是一项研究 未能说明社会流动的原因,但它很有可能很精 确很可靠地调查各个时期各种类型的人的流动 数量。 效度高,信度也必然高。
(三)评定者间信度和复本信度(等同性)
评定者间信度和复本信度:用来表示研究工具等 同性这一特征。或准确性是指两个相似的测量工 具反映被测量对象真实状况的能力。等同性的计 算也是进行相关分析。 (1)不同观察者使用相同工具,同时测量相同对 象,需计算评定者间一致性信度。可用一致数目 与观察总数的比简单估算,或用方差分析、等级 相关等来计算。 (2)两个大致相同的工具同时被用于研究对象, 需计算复本信度,可直接用Pearson相关系数计算。
信度与效度
信度和效度都不是“有或无”,而是表示一个 程度的问题。对一个研究工具来说,信度和效 度并非是截然孤立的。测量中的错误有系统误 差和非系统误差两种,信度针对的是随机的非 系统误差,例如调查对象、调查环境、被调查 者的动机和注意力等因素的影响,而效度针对 的是系统误差,即工具本身的正确程度。信度 低的工具肯定效度不高,但高信度也仅能说明 有效度高的可能性。测量工具的信度高可以使 我们得到一致的答案,而效度高则可使我们得 到正确的答案。
2.内容效度
②测验项目应是已界定的内容范围的代 表性样本。换句话说,就是选出的项目 能包含所测的内容范围的主要方面,并 且使各部分项目所占比例适当。具体做 法是对内容范围进行系统分析,将该范 围划分为具体纲目,并对每个纲目作适 当加权,然后根据权重,从每个纲目中 随机取样。
3.效标关联效度
反映研究工作与其他测量标准之间的关系。 包括同时效度和预测效度 同时效度是指测量分数与现有标准之间的相关 程度; 预测效度是指测量工具作为未来情况预测指标 的有效程度,以应激控制量表与将来健康状况 或焦虑、抑郁的关联情况来反映效度。 同时效度和预测效度的主要区别是时间上的差 异。
4.结构效度
结构效度——是指实验与理论之间的一致性, 即实验是否真正测量到假设(构造)的理论。 重点是了解工具的内在属性,而不是使用工具 测得的分数。它主要回答“该工具到底在测 量什么?”,“使用该工具能否测量出被研 究的抽象概念?”这类问题,反映工具所依 据理论或概念构架的程度。概念越抽象就越 难建立结构效度,同时也越不适宜使用效标 关联效度评价。结构效度的建立最为复杂, 目前有关结构效度的数字计算,应用最多的 是因子分析。