外在效度
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因此,当估计前测会对后测造成影响,研究设计应尽可能避免采用有前测的设计,无论这种影响是积极的还是消极的。
•被试的误差
•由于被试不具有代表性,或者被试在研究
情景中的表现与平时不同,导致研究结果
不真实,因此形成研究误差。
如:霍桑效
应(Hawthorne effect);角色知觉;评价
的恐惧;未接受实验处理者的反应。
•4、重复测验的干扰
•重复测验的干扰是指前测对后测的影响或交互作用,前测的内容或程序可能会引起被
试的对某些论题或事物的注意和敏感,往往会影响后测的成绩。
例如,研究人员想了
解学生经过思想品德教育后思想认识和态度的变化。
学习前,先进行思想认识和态度
的测验,经过两周的集中学习后,再用相似内容测学生的思想认识和态度,结果发现
测验成绩有变化。
这种变化可能来自于两周的思想品德教育,也可能来自前测所产生
的敏感效应,还可能来自思想品德教育与前测敏感的共同作用,这些可能性给研究结
果的推论带来了麻烦。
因此,当估计前测会对后测造成影响,研究设计应尽可能避免
采用有前测的设计,无论这种影响是积极的还是消极的。
•5、实验安排的反作用
•实验安排的反作用是指由于实验情境的安排,被试知道自己正在被观察或正在接受实
验处理而产生的一种实验效应(霍桑效应)。
被试往往会投实验者之所好,改变自己
原来的常态行为,表现更积极,更努力,提供实验者所期望的行为。
这样往往会对实
验效果的推论造成影响。
例如,当学生知道自己所在班级为实验班,正在进行一种新
的教学方法的实验,因此在实验过程中全班学生表现比平时更积极、更主动,情绪高
涨,干劲倍增,结果造成实验效果无法确定是来自新的教学方法,还是来自学生的积
极投入,或者是两者的结合。
因此,在研究设计时,最好不让被试知道各自扮演的角
色,采用盲法控制。
或设对照组,并宣布两个组都为实验组,让实验效应互相抵消。
研究设计中总要安排研究情境,控制相关的因素,以减少研究的误差。
为此需要了解研究效度(research validity)及其影响因素。
研究效度常用于定量研究,了解研究效度可以使我们细致地进行研究设计,更好地控制无关变量,使研究更趋完善。
能促进学业成绩,像认知能力的发展与成熟,体能更强壮,更自信或更独立。
如,对初一新生进行逻辑思维的测验,然后进行有关的训练,三年后再进行逻辑思维的测验发现学生逻辑思维能力增强了,但是这种增强是来自于逻辑思维能力训练呢?还是来自学生三年来自身的成熟?或是逻辑思维能力训练与成熟的共同作用?
成熟有时则会对学业成绩起消极作用,如饥饿、疲劳等。
有人研究语言习得的关键期效应,分别用成人组、12-15岁组、8-10岁组、3-5岁组四个组进行实验,最后测试时间长达一个半小时。
无论结果如何,让后两组参加这样长时间的测试是不合适的,他们的成绩会受测试疲劳的影响。
总之,凡涉及时间较长的研究,都会受到被试自身成熟过程的影响。
尤其是年龄小的被试在成熟问题上,反应更明显。
控制的方法可以设置对照组,或缩短研究时间的周期。
3、前测效应(Testing)
前测效应是指有前测的经历会对后测的效果造成影响,有人称之为练习效应或热身效应。
凡是有前后测设计的研究,被试有了前测的经验,会有利于后测的作答。
因此,这种后测分数比前测分数高的现象未必就是研究的本身的效果,有可能来自被试对测验内容或形式的了解和熟悉,来自于对前测的敏感。
尤其是在能力、成就、情感、态度等方面的测试,前测效应更为明显。
一般来说,当研究者有理由怀疑前测会对研究结果造成影响,或者前测很花费时间和经费,那么最好避免采用前后测设计,仅采用后测设计。
4、测量工具 (Instrumentation)
指测量手段不统一产生的负面效果。
如果用来测量研究结果的工具,在前测与后测中所用的内容、难度都不一样,就难以确定研究结果的最终效果。
如一位老师进行教改实验,上一学期自己命题进行期终考试,班级学生平均分为75分;这一学期他又自己命题进行期终考试,班级学生平均分为80分。
表面上这学期比上学期平均分提高了5分,但很难说这增长的分数一定归功于教改的效果。
因为两次测验的内容和难度不一样,上学期考的是上学期的内容,这学期考的是这学期的内容,没有可比性;也可能由于这学期考试题比上一学期的试题更容易些。
另外,考试测验的程序、标准、时间等也不同,都会影响测验结果。
如两位主考人对同一教学实验进行后测,但所用的测量工具不统一,所用的标准和方法也不一致,最后导致测验结果的差异。
5、统计回归 (Statistical regression)
统计回归是指多次测量研究对象时出现的一种倾向,即对一个变量进行测试时,他们的分数出现两极分化,但当再次进行同样的测试时,他们的分数更接近于平均数。
如选择研究对象时,录用测量中获极端分值段的被试。
假如我们选择60分左右的被试,再次测验的分数可能会高于第一次测验的分数。
同样道理,如果我们选择90分左右的被试,再次测验的分数可能会低于第一次测验的分数,原因可能就是统计回归。
统计回归的基本原理如同政治经济学中的有关价格和价值的关系,即价格是围绕着价值这根中轴上下波动,当价格离价值中轴太远了,就有向价值中轴回归的趋向。
在研究过程中,如果以测验成绩为基础来选择被试,选择测验成绩较高或较低的为样本,在实施后测时就会受到统计回归的影响。
假设进行一项数学教学方法改革的实验研究,通过测量选择数学学习成绩很差的学生为被试,可以设想,他们可能会有怎样的结局?他们原有的数学水平如此之低,通常只是在教室陪练,他们已经不太可能变得更糟了,已经到了学习的底部,跌不动了,而向平均数回归的机会往往要大于再往下跌的可能。
同样道理,如果选择的对象都是学习成绩90分以上的学生,最后考试成绩往下降的可
能性要大于往上升。
所以统计学家经常举例告诫,身材非常高大的父母,他们子女的身高可能比他们矮;而身材非常矮小的父母,他们子女的身高可能比他们高。
统计回归的威胁主要是所选择的被试处于极端的位置,随后测量他们发生的变化会让人误判为实验处理的效果。
实验设计中要避免选择测试特别好的或特别差的被试,因此选择被试要随机化,要有代表性。
6、被试选择的偏差 (Selection biases)
当必须采用两组被试进行比较研究,如果这两组被试的能力、特质、条件、背景等因素不相同,那么就会导致测验结果的差异,从而混淆研究的效果。
如某学校在三年级两个班进行教改对比实验,实验班本来就是一个高分录取的高才生班,对照班则是普通水平的班。
加上实验班配备有经验的优秀教师,对照班则是一般的教师。
这样的比较研究没有实际意义,两组根本没有可比性。
控制样本偏差的措施是随机抽样,随机分组、随机分配实验处理,尽可能使实验组和对照组除了在实验处理上的不同外,在其他各种条件上做到均等、相似。
7、实验样本的流失 (Experimental mortality)
实验样本的流失有的翻译为实验的偶然减员,是指在研究期间有些被试缺席或中途退出,以致前测与后测人数不符,样本失去代表性,而影响统计分析的结论。
如,在一项判断运动效果的健康实验中,部分被试感到这项运动难度太大而中途退出。
由于这部分被试都属于某一特征的被试,可能是很少参加运动的学生或运动技能比较差的学生,去掉这部分学生,会对最后研究的统计结果产生影响。
一般,流失的被试是在前测中成绩较差者,则样本后测的平均成绩会提高;反之,流失的被试是在前测中成绩较好者,则样本后测的平均成绩会降低。
8、选择与成熟的交互作用 (Interactions of selection and maturation)
研究中最忌讳的是变量的混淆,各种因素互相干扰,互相作用,以至于无法确切解释自变量和因变量之间的关系。
在研究设计中,由于被选取的两组被试具有不同的能力、特质、条件,导致对以上各个因素产生不同的作用,从而影响研究结果。
如,对两所学校学生进行课程改革的研究,由于两所学校入学政策不同,因此具有较好的家庭社会经济背景的学校,可能在认知能力的发展与成熟方面要比较差社会经济背景的学校在后测中更易获得好成绩。
这就是选择与成熟的交互作用。
又如,进行教学方法的比较实验,实验组的平均年龄比对照组大6个月(选择与成熟),因此在学业成绩方面的各种差异都可能归因于学生年龄差异的影响,而不是教学方法的效果。
9、因果方向不明 (Ambiguity about the direction of causal inference)
在研究中分不清自变量和因变量的研究不多见,但有时由于研究设计的不确切,导致在两个变量之间很难确定谁是因,谁是果,这种现象在相关性研究中尤为普遍。
一旦因果关系不明,对研究结论的解释就会受到挑战。
如,探讨教师期望与学生学业成绩的关系时,如果设计不明确,可能很难由研究结果断言是教师期望影响学生学业成绩。
或许真实情景是学生学业成绩影响教师的期望水平。
又如,据调查,学生的侵犯性行为与喜欢看暴力电视有较高的相关,但究竟是看暴力电视导致侵犯性行为增加,还是具有较高侵犯性行为的学生更喜欢看暴力电视。
这些都需要做进一步的因果研究设计来探讨其中的方向关系。
有较高的相关不一定具有因果关系,但具有因果关系必定有很高的相关。
五、提高研究效度的措施
研究设计的基本目的有二:一是为研究问题提供答案;二是控制差异,主要是控制来自被试的差异和来自外部环境的差异。
控制差异说到底就是提高研究的内在效度,在研究设计过程中可以采用以下一些控制方法提高研究效度:
1、随机化控制
随机化是研究设计的基本原则。
正如买彩票,抽奖等都是通过随机化形式进行,因为这样对每一个人都是公平的,每一注彩票中奖的概率和机会是均等的。
在研究设计中采用随机化程序可以避免许多无关变量,通过随机化可以将被试间的差异减小到最低限度,可以保证逻辑上的合理均等,可以提高研究结果的内在效度和外在效度。
研究设计中的随机化指对被试差异的控制,具体指随机抽取被试;随机分组;随机分派实验处理:
(一)随机抽取被试
在总体中随机抽取被试,具体方法有(参见第七章有关抽样方法的内容):
(1)简单随机抽样
(2)系统随机抽样
(3)分层随机抽样
(4)整群随机抽样
(二)随机分组
随机分组即随机确定实验组与对照组,具体方法有:
(1)完全随机设计
完全随机设计又称随机分组法,使用随机化的方法,随机分配被试给实验组和控制组。
从理论上说,每个组被试之间无差异。
完全随机设计是一种比较方便的配组方法,无需事先测试,适用被试较多,个体差异不大的情况。
(2)随机区组设计
随机区组设计是事先对被试进行测试,根据测试成绩将被试分成若干个同质的区组,然后将每个区组内的被试随机分配给实验组和控制组。
这种设计以测验成绩为依据,再进行配组,可以保证实验组与控制组所处水平基本相同,精确程度比完全随机设计要高。
例如,要将60个被试分成各为30人的实验组和控制组,随机区组设计的具体步骤是:先进行一次测验;按测验成绩高低排列;接着按排列顺序分组;检验各组平均数、标准差;最后随机确定哪个组为实验组,哪个组为控制组。
(3)被试间设计
被试间设计又称非重复测量设计,指把不同的被试随机分配到不同的组里(实验组和控制组),各自接受各自的实验处理,即每个被试只接受一种实验处理,互不交叉。
被试间设计模式见下图
8-3。
实验处理1(X1)实验处理2(X2)
S1 S2
S3 S4
S5 S6
S7 S8
. .
. .
. .
实验组1 实验组2
图8-3 被试间设计模式图
从图中可以看出,接受实验处理1的被试就不会接受实验处理2;接受实验处理2的被试也不会接受实验处理1,两组被试互相不干扰。
被试间设计比较安全,两种或多种实验处理之间不会通过被试相互“污染”,实验条件互不干扰,但是不同组之间被试的差异控制得不够理想,因此采用这种设计时,应使两组被试尽可能相似,一般用随机化或配对分组。
(4)被试内设计
被试内设计又称重复测量设计,指把相同的被试分配到不同的实验条件中去,接受不同的实验处理,即每个被试均接受整个实验的各种处理。
被试内设计模式见图8-4。
实验处理1(X1)实验处理2(X2)
S1 S1
S2 S2
S3 S3
S4 S4
S5 S5
S6 S6
S7 S7
S8 S8
. .
. .
. .
实验组1 实验组2
图8-4 被试内设计模式图
从图中可以看到,每个被试既接受实验处理1,也接受实验处理2。
被试内设计效率比较高,每个被试在不同实验条件下与自身前后状态相比较,不需要分组,不需要很多被试,并且可控制被试个别差异对实验结果的影响。
但很可能产生实验处理的“污染”,两种或多种实验条件互相影响。
采用被试内设计是有条件的,即先实施的实验处理对后实施的实验处理不会有长期的影响。
如实验处理为学习、记忆效应等,就不能使用被试内设计。
一般在被试个体差异比较大的情况下,宜选用被试内设计,当实验处理可能造成多重处理“污染”时,应采用被试间设计。
(5)配对组设计
配对组设计是指在实验自变量介入之前,通过测量将条件一致的被试一对一配对,然后再随机地分配给实验组和控制组。
通常的做法是对全部被试进行测试,测试性质和内容与实验性质和内容相似或相关,然后按测试成绩排列,将相同分数或分数接近的被试配对,并形成等组,最后随机确定实验组和控制组。
例如,要研究两种不同的教学方法对学习效果的影响,研究者采用现场实验,随机抽取甲乙两个平行班,先对这两个班进行测验,然后将两班中成绩相同的学生配对,甲班的70分对乙班的70分,甲班的83分对乙班的83分等,最后再随机决定甲乙两班哪个班为实验组,哪个班为控制组。
没有配上对的学生与配
对的学生一样跟班接受实验处理,只是在两班实验结果统计时不把他们的成绩计算在内,仅统计配上对的学生的成绩。
配对组设计的目的是为了严格控制两组被试的个别差异可能对实验结果的影响,尽力使两组被试达到同质。
但是配对往往只是某个变量、某个方面相同,很难找到几个变量、几个方面都匹配完好的被试。
(三)随机分派实验处理
随机分派实验处理即随机决定哪个组接受什么样的实验处理。
具体可以从以下几个方面考虑:
1、随机化控制
随机化指被试的选择、分组、实验处理的分配采用纯粹的机遇选择来控制无关变量,例如,用简单随机抽样从总体中抽取100个被试,然后将这100个被试用抽签的方式随机分配到实验组和对照组,每组50人,由同一教师采用两种不同的教学方法(自变量)进行教学实验,至于哪个组为实验组,哪个组为对照组,可以通过投掷分币随机确定。
2、设对照组控制
除了随机化,设对照组(控制组)也是一种提高研究内在效度的简便方法。
实验组与对照组所有条件相同,唯一区别在于实验组接受实验处理,而对照组没有接受实验处理,或者实验组和对照组分别接受不同的实验处理。
设对照组通过组与组的对比,可以清楚说明研究结果,提高研究结果的内在效度。
设对照组在教育实验设计中被广泛采用,因为其组织形式简单,因果关系明了,易为他人理解和接受。
3、对外部情境的控制
实验研究通常要探讨的是自变量和因变量之间的关系,要解释自变量和因变量的关系必须排除无关变量对研究造成的干扰。
很多无关变量来自研究的外部因素,因此在研究设计时对外部情境的控制显得格外重要。
对外部情境的控制通常有:消除法、平衡法、恒定法等。
消除法指设法将无关变量排除在实验之外,不让它参与到实验过程中来。
如,性别可能回影响因变量的测定,那么被试的选择可以都选男性或都选女性。
又如,在暗室、隔音室内进行视听感觉的实验,这样可以消除外界光线、噪声对视听感觉的干扰。
平衡法要求将无关变量的影响平均分配到实验组和对照组中去,使各组之间的差异尽可能相等。
如,等组实验就是按平衡原理设计的,两个组除实验处理不同外,其余条件均相等,做到两组基本同质,这样情境的一致性可以控制许多来自实验外部的无关变量。
恒定法指设法将某些因素在实验中保持恒常不变,或将某个变量变为常量加以控制,使某个无关变量的影响在实验前后保持不变。
如,要对某种教学方法的效果进行比较研究,为了防止教师水平不同而给教学效果造成影响,可由同一位教师担任实验班和对照班的教学,使教师这一变量恒定不变,使教师水平这一变量成为常量。
另外所用教学时间也可以使其恒常不变,即实验班和对照班均采用相等的时间进行教学,布置相同的作业练习等。
4、对人为因素的控制
推论效度指研究结果代表样本的情况并在样本所包含的时空范围内进行合理推论的程度。
(5)评价效度
评价效度指研究者对研究结果所作的价值判断是否确切
七、控制研究误差
研究效度是研究可靠性的重要指标。
无论采用什么研究方法,在研究情景中始终存在许多影响研究效度的因素。
这些因素都可能产生研究误差,可能导致研究结果不可靠。
因此研究设计的一项重要任务,就是要控制研究误差,提高研究结果的可靠程度。
从研究误差的来源来看,误差有两种:随机误差(random error)和系统误差(systematic error)。
随机误差是不明因素造成的,没有固定的方向,研究者也很难预料。
如重复测量每次结果未必都一样,有时会高些,有时会低些。
对于这些误差可以置之不理。
系统误差则是由于可辨识的因素造成,具有错误方向的,是研究者必须加以控制和克服的误差。
系统误差的来源主要有以下一些[⑦]:
1、研究者的误差
研究者本身的条件、特质、以及在研究过程中的行为表现,常会影响研究结果,成为研究误差的来源。
如:研究者的期望(皮格马力翁效应pygmalion effect);观察的偏差;研究者个人的特征等。
2、被试的误差
由于被试不具有代表性,或者被试在研究情景中的表现与平时不同,导致研究结果不真实,因此形成研究误差。
如:霍桑效应(Hawthorne effect);角色知觉;评价的恐惧;未接受实验处理者的反应。
3、研究程序的误差
研究程序的误差指资料收集及分析阶段,由于实施程序的不当所产生的系统错误。
如:取样的误差;情境的误差;时间的误差;统计的误差。
4、研究工具的误差
研究工具的误差来自两方面,一是工具本身的性能不佳;二是使用工具的方法不当。
研究工具的使用必须符合两个原则:一是要是用“适当的”工具;二是要“适当地”使用工具。
一般而言,一个完备的测量工具必须具有适当的信度、效度、常模、以及实施说明,缺乏信度、效度的测量工具不可靠,缺乏常模的测量工具不宜解释,缺乏实施说明的测量工具难于标准化,如采用有缺失的测量工具,就会产生研究误差。
另外,每一种测量工具都有其适用的对象与范围,若在使用中超越其对象和范围,也会产生研究误差。
实验研究的局限
与自然科学研究不同,教育实验研究是在社会情境下进行的,在社会情境下的实验法,这个差异来自于“人的因素的出现”,这包含两个维度:个人与社会。
研究对象是社会情景下“人”,被研究之现象通常都异常复
杂,并且是由许多原因所导致,某一单纯的实验模型很难说明问题,需要包含许多变量的非线型模型(nonlinear model)。
但此种模型应用于实验的研究,却有种种困难。
如果说在“教室”是一种人工情境的话,那么,远程教学环境则是一种真实社会情境,问题要比“教室”情境复杂得多,这使得远程教育实验研究困难重重。
总体来说,远程教育实验研究有如下局限:
1.变量复杂,难以控制
在“教室”这种非实验室情境下,对重要变量的控制还是可能的,虽然无法像在实验室那样精确,但是,远程教学是在个别化或真实社会情境中的进行的。
在社会情境之中,各种变量变得更加复杂且难以控制。
而过度控制的实验研究,在社会情境中,其价值也相对减弱,这是因为推论性减低(低外在效度),因此,误差的控制与推论性,就成为难以控制的两难。
笔者就经历过两次不成功的实验研究,一次是不少被试中途辍学,不能满足等组设计的要求;另一次是一些学员由于要协调工作与学习的时间矛盾,经常在控制组和实验组流动,还有一些学员由于各种其他原因改变了原来所在的组别,也无法满足等组设计的要求,而最终放弃实验。
这可能是远程教育很少有实验研究论文报告发表的重要原因。
2.实验结果的代表性问题
由于实验的样本所含人数往往不多,并且,远程学习者间的差异很大,所以,实验结果的推论范围必需小心谨慎。
即使在基础教育中,许多实验都避免研究较大、较复杂的问题,因为这类问题的研究,常需包括相当数量的实验主体,才能提供有意义的数据。
然而,如果将研究问题限制得非常狭小,以便缩小研究范围时,就必然约束了其研究发现应用于现实社会的可能性。
3.研究周期长
虽然实验研究能在相对较短的时间中创造一种我们所需要的情形和事件,但是,这里的“相对较短的时间”是相对其自然产生的情形来说的。
事实上,教育实验研究是可能需要一段相当长的时间,并非半年、1年就能有成果,而且需要较多的人力、财力。
而当前对研究人员的评价机制,会令研究者对实验研究望而却步。
4.资料保密问题
在社会情境下的实验研究,牵涉到被试资料的保密问题,也就是被试的隐私权是否受到侵犯的问题。
这与研究伦理有关。
这一点,要引起研究者的重视。
5.研究伦理问题
教育实验研究的被试通常是人,因此必然会牵涉到研究伦理的问题。
因此,由许多教育研究课题基于研究伦理的考虑,是不适宜使用实验法的。