第三节实验研究的信度和效度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验的外部效度
实验的外部效度
指实验结果能够普遍推论到样本的总体和其他同类现 象中去的程度,即实验结果的普遍代表性和适用性。 任何一项实验研究都想将其结果推广,希望能用自己 的研究结果,对同类现象做出解释,预测和控制。
以人的行为为研究对象所获得的实验结果,其推论往 往有相当的局限性。如某些教学改革方法的研究仅适 用于城市条件教学而不适于农村条件教学
如果总体是无限的(例如,“七岁儿童”就是一个无限的 总体,其包括过去的、现在的、将来的所有七岁儿童), 随机取样实际上是行不通的。这样的实验结果自然会降低 其外部效度
如果选择一些具有独特心理特质的被试进行实验, 则利于对实验处理造成较佳反应。如:高智力儿童 更容易从发现式教学中获益。
影响外部效度的因素
实验研究的效度
1.内部效度
实验中自变量的效应能被准确估计的程度,或者说自 变量和因变量之间关系的明确程度。
如果对实验中的额外变量控制不充分,那么这些额外 因素的效应可能与自变量发生混淆,得出因果关系的 结论不完全有把握。此时就说该实验缺乏内在效度。
影响内部效度的一些因素?
案例讨论一
通过实验,研究体育锻炼对中学生身高增长是 否有影响:
如果在实验时采用的是某一种成就动机的量表,那 么所得出的实验结果便不能推论到采用其他成就动机的 量表的情况中去。
实验内、外效度的关系问题?
实验的内部效度越高,其结果就越能确认是由实验处理所 造成的;而实验的外部效度越高,其结果的可推论范围就 越大。
实验的内部效度和外部效度是相互联系、相互影响的。提 高实验内部效度的措施可能会降低其外部效度,而提高实 验外部效度的措施又可能会降低其内部效度。
影响实验信度的因素
1.观察量的大小
观察量越大,样本更能够代表所在总体,多次得 到的结果更可靠。
e.g.:研究大学生的语言能力,第一次用男性被试, 下一次用女性被试,两次结果不稳定。
2.研究工具的信度
研究工具首先必须准确、可靠,即具有较高的信 度。无论何种研究工具和仪器,如果其自身信度 较低,就谈不上研究的信度的高低。
影响实验信度的因素
3.影响研究信度的随机因素
被试方面的因素(身心健康状况、动机、注意力、 持久性、对待研究的态度等)
主试方面的因素(不按规定程序实施研究、制造紧 张气氛、给予特别关注、评判主观等)
内部一致性:测验的不同部分是否能检验出相同的结果 (评估多个项目来测量单个特质的测验——测量焦虑的
60项量表)
重测信度:同一个人在不同时间内测得的结果是否一致 (评估个体稳定的特质——IQ测试)
评分者信度:当不同的评分者对同一个结果进行评分和 解释时,结果是否一样?
(不同医生诊断同一疾病——精神障碍的诊断)
局限:忽略了前后两次测量之间被试者的生长和成熟因素,其 实验效果易受生长和成熟因素的混淆,从而降低了内部效度。
解决的主要办法是增设同样条件的控制组进行比较。
影响内在效度的因素
2.历史(经历)
在实验的过程中,与实验变量同时发生,并对实验结 果产生影响的特定事件。研究者往往无法判断实验结 果是由处理(自变量引起)还是特定事件引起。
多因素设计和现场实验设计 社区随机对照试验:在社区(一定区域内的人群)或现场
环境下进行的实验。
影响外部效度的因素
2.被试样本缺乏代表性
从理论上讲,被试必须具有代表性、必须从将来预 期推论、解释同类行为现象的总体中进行随机取样。 但实际上这是很难做到的。应增加取样的层次,使 代表性增加
如果总体很大,即使能够随机取样,但心理学实验的被试 者通常是自愿的,所以也很难把被随机选上的人全都请来 做实验。
第二章 心理学实验研究基础
第三节 实验研究的信度和效度
对于一篇实验报告,我们经常要思考:
研究的变量是什么? 研究的结论是什么? 这个结论是否站得住脚?
对实验研究的评价
实验是否有效、明确——准确性、有效性 (效度)
实验是否可重复验证——可信性、一致性 (信度)
实验研究效度
实验目的:验证假设,验证自变量和因变量之间的关系, 使实验结果的推论可用以解释和预测其他同类现象。
随机选取入学的中学生200名,刚入学测的平均身高 145cm,然后在学校实行全校强化体育锻炼一年,再 测这些学生平均很高为160cm,通过统计检验(配对t 检验)发现身高增高显著,所以体育锻炼对中学生身 高增加是有积极作用的。 该实验中自变量、因变量是什么? 这个因果关系是否确定?为什么?
影响内在效度的因素
统计程序的有效性,涉及研究误差的变异来源和如 何恰当运用统计显著性检验的问题
影响统计程序的有效性的因素:
影响统计结论效度的因素
1.统计检测力低
正确推断虚无假设正误的能力。 样本大小:样本小,统计检定力低。有时要考虑实际
意义,样本过大得出的显著差异可能没实际意义 显著性水平α的大小,α越小,犯β错误就越大。确定显
自变量和因变量是什么?
你相信该结论吗?为什么?
影响内在效度的因素
3.前测的影响
研究者为了取得实验前被试的初始状态,常对被试实施前测, 可能会积极或消极的影响实验处理实施后的测验结果。其中 包括练习因素、临场经验、以及对实验目的的敏感程度,从 而影响了后测的成绩。特别是前后两次测量时间较近,这一 因素的影响就更显著。
质,如果不同质,就必须以几组被试各自的相对水 平进行匹配。
实验的内部效度—统计程序的有效性
实验的内在效度的特例
1979年库克和科柏尔从内在效度中抽出一部分命名 为统计结论效度
统计结论效度:指由统计方法适切性所引起的统计 结论的有效性程度,即有关决定实验处理效应的数 据分析程序的有效性和准确性。
影响内在效度的因素
6.实验程序不一致
在实验过程中,实验仪器、控制方式的不一致,测 量程度的变化,实验处理的扩散和交流等都可能混 淆实验变量(即自变量)的效果。
实验者知道实验目的所产生的“实验者效应”以及 被试者知道实验目的或其自己正被研究所产生的 “霍桑效应”和“安慰剂效应”等,都将混淆实验 变量(即自变量)的效果,从而降低了内部效度。
影响内在效度的因素
7.统计回归
回归假象:指在取样时,选取某些特质位于两极端 的被试。第一次测量平均值偏高者,第二次测量平 均值有趋低的倾向(向常态分布的平均数回归); 第一次测量平均值偏低者,第二次测量平均值有趋 高的倾向(也向常态分布的平均数回归)。
e.g.: 高焦虑组&低焦虑组 处理:在匹配被试时必须考虑两组被试本身是否同
e.g.:传统教学法与创新教学法对学习效果的影响 特定事件:创新教学法受关注,有专家听课,混进有 意辅助活动(教材)
案例讨论二
研究放松训练对学生射击成绩是否有促进作用。
实验:随机选取30名学生,每个学生进行10次射击的初 步测试,得到每个人的初次平均成绩;初测后由教练安排 放松训练,放松后进行第二轮的10次测试,又得到每个 人的平均成绩。通过统计检验效果显著。
影响统计结论效度的因素
2.所选用的统计方法依据的各种假设条件的 满足程度
t检验、方差分析等都要求数据为随机的等距或等 比变量,总体分布为正态,抽样分布也是正态分 布或者t分布,或方差齐性才能应用,不满足这些 条件则统计结论的效度大成问题。
3.多重比较的影响
多重比较的影响:实验处理的层次增加,α错误 (弃真错误)增加。
这两种效度的相对重要性,主要取决于实验的目的和实验 的要求。一般而言,在实验中控制额外变量的程度越大, 则对因果关系的测量就越有效。因此,可以在保证实验内 部效度的前题下,采取适当措施以提高外部效度
实验研究的信度
实验信度:指实验结论的可靠性和前后一致性程度 虽然实验的研究的确研究了我们需要研究的东西,满
足了效度要求,但如果两次研究的结果不一样,那么 实验的信度很低,结论不可信。 一个不可信的研究可比作一根“可伸缩的橡皮材料的 尺子”,在重复研究时,会产生不同的研究结果。因 此,研究结果的稳定性和一致性是保证研究科学性的 重要先决条件。
哪些因素可能导致实验中测量的结果不可靠呢?
实验研究的信度
信度: 一致性程度
e.g.: 在选择控制组和实验组的时候,男生一组、女生一组;
影响内在效度的因素
5.被试的缺失
如果是一项长期的实验,要保持原实验被试者的人 数不变是相当困难的。
即使开始参加实验的被试者样本是经过随机取样和 随机分配的,但由于被试者的中途缺失,常常使缺 失后的被试者样本难以代表原来的样本(数量过少 或者保留的被试具备独特的特点)。这就降低了内 部效度。
由于不同的实验者在设计上和在对额外变量的控制程度上 极不相同,实验的效度也会有很大的不同。了解影响实验 效度的诸因素,将有助于我们评价实验设计的质量,提高 实验设计的科学性。
实验效度:指实验方法能够达到实验目的的程度,即实验 结果的准确性和有效性程度。
内部效度(Internal Validity) 外部效度(External Validity)
著性水平α的大小要合适。 因变量的误差变异(标准差)大小的影响:误差变异越大,
标准误也越大,达到显著水平时,犯β错误就越大
统计推论中的两类错误
根据样本推断总体,有可能犯两类错误:
虚无假设H0本来是正确的,但拒绝了H0,这类 错误称为弃真错误,即Ⅰ型错误。我们用α表示 犯Ⅰ型错误的概率
虚无假设H0本来不正确,但却接受了H0,这类 错误称为取伪错误,即Ⅱ型错误。我们用β表示 犯Ⅱ型错误的概率
3.测量工具的局限性
实验者对实验变量(即自变量)和反应变量(因变量) 的操作性定义往往以所使用的测量工具的测量结果来加 以考虑。
例如: 把成就动机作为一个因变量,实验者常以某种成就
动机量表所测得的分数来界定并评定其强度。但成就动 机的测量工具有各种不同的形式,所测量出的分数并不 代表同一种成就动机及其强度。
1.生长和成熟
除了实验中的自变量可能使个体行为发生变化外,个体本身的 内部历程发生改变,即个体生长和成熟也是使其行为变化的重 要因素。特别是在以幼小的儿童为被试者而又采用单组前测后 测实验的情况下,生长和成熟因素的影响就更大。
单组前测后测实验:通常是实验处理之前先对被试者的某种行为 作一次测量,实验处理后再以同样方法测量一次,两次测量之差 即表示实验变量(即自变量)产生ห้องสมุดไป่ตู้效果。
量的测量等几个方面推广。
影响外部效度的因素
1.实验室的过分人工情境化
实验是在控制条件下进行的,实验环境的人为性可 能使某些实验结果难以用来解释日常生活中的行为 现象,尽量减少人工情景化,增加实验变量
实验室中的仪器设备会影响被试者的典型行为。 被试者参与实验的动机也会影响其行为表现。
在实验室之外的日常生活中,就不会有这些因素的 影响。因此,实验结果还不能完全等同于实验室之 外的日常行为现象。
e.g.:体育老师的示范对立定跳成绩影响。
前测
示范
后测
比较前测与后测差异,结果?
教师的提示讲解对应用题解答成绩的影响,也有学生在前测 中掌握的技巧与经验起作用
影响内在效度的因素
4.被试的选择偏性
在对被试者进行分组时,如果没有用随机取样和随机 分配的方法,在实验处理之前,他们在各方面并不相 等或有偏性,从而造成实验结果的混淆,因果关系就 不那么明确,降低了内部效度。
两类错误的关系?
统计推论中的两类错误
在进行实验设计时,总希望两类错误都尽可能的小, 但在实际的实验过程中却很难实现,对一定容量的样 本而言(N已经确定),α小时β就大;β小时α就大.α与β不 可能同时非常小。
α受研究者的直接控制,而β只能通过它和α的反比关系 进行间接控制。
由于在确定显著性水平α后,Ⅱ型错误的概率β随着样 本容量的增加而减少,所以在设计实验时,可根据实 验条件适当地增加样本容量,对β进行控制,以减少犯 Ⅱ型错误的可能性.
詹金斯的四个评价维度
詹金斯(Jenkins,1979)提供四个评实验结果普遍性的 维度:
1.用其他的被试人群也能得到同样的结果吗 2.用其他的实验材料也能得到同样的结果吗 3.用其他不同类型的测验也会有同样的结果吗 4.用不同的实验处理和不同的自变量操作方式也能有
同样的结果吗 特定的结果能否从被试人群、材料、情景以及因变