实验研究方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
目次
壹、绪论 4 贰、实验研究法的意义 4 参、实验研究法的特征 5
一、随机化 5
二、控制变项 5
三、周详的观察 7
四、精确数量的记载 7
五、反复实验 7 肆、实验研究法理论基础 7
一、实验心理学 7
二、逻辑经验论 9
三、方法统一论 10 伍、提升实验研究设计具有内外在效度 11
一、具有内在效度 11
二、精确性 15
三、具有外在效度 25 陆、实验研究法进行程序 29 柒、实验误差控制 30
一、实验控制的因素 30
二、实验控制的方法 31 捌、实验设计类型 33
一、前实验设计 33
二、真实验设计 34
三、多因子实验设计 36
四、准实验设计 37 玖、实验研究法适用的统计工具 41
一、各量尺适用之统计工具 41
二、实验研究法常用的统计 42 拾、实验研究伦理问题 45
一、研究伦理的原理原则 45
二、遇到限制时,因应之道 46 拾壹、实验研究法在教育研究应用的限制 46
一、优点与限制 46
二、使用实验研究法应注意事项 48 拾贰、论文评析 49
一、论文搜寻来源 49
二、课程与教学领域中运用实验研究法之论文 49
三、实验研究法近期在课程与教学研究的趋势 59
四、论文评析 60 拾参、参考书目 69
表目次
表1 统计检定的可能结果 24 表2 独立样本多因子设计模式范例 36 表3 非独立样本多因子设计模式范例 37 表4 各种前、真实验设计的内外在效度39 表5 各类型准实验研究设计的内外在效度40 表6 各量尺适用之统计工具41
图目次
图1 三个自由度不同的t分配 18 图2 图2:当μ=68、σX =2时之95%及99%推估信赖区间 (19)
图3 假设检定的信赖水平与拒斥区22
壹、绪论
实验研究法是唯一能真正考验有关因果关系之假设的方法,也
是解决教育上理论与实际的问题及推动教育成为一门科学的最有效途径。
在实验研究中研究者至少操纵一个自变项,控制其它有关变项,以及观察一个或多个变项的结果。
实验研究法最早运用在物理界的研究观察,十九世纪引入生物科学,十九世纪末将之应用于实验心理学,1890年代将之应用于教育情境问题的研究,尔后便大量运用于教育领域中(王文科,1999)。
贰、实验研究法的意义
实验研究法是科学研究的一种方式,是用以找出事件之间的因果关系的方法,从事实验研究时,实验者对某一个或几个变项加以操弄,以观察或测量其它变项因此而发生的影响或改变。
实验研究法中所谓变项(variable),乃是指一种可变的情况或因素,在实验中所操作的变项,称为自变项(independent variable)或实验变项,用以指任何实验处理,所观测之其它变项称为依变项(dependent variable),由此可知,实验研究法是指研究者在小心操弄可能影响实验结果的因素下,探求自变项与依变项的关系。
实验研究非常强调「操作」,即对实验情况,自变项及控制组之控制,其主要目的有三,其一为自变项以外的其它因素不致影响依变项,其二为确定自变项所产生之影响大小,其三为以数值表示变项之程度(郭生玉,1999)。
此外A. C. Porter(1997)对实验研究法有更明确定义,其为确定自变项「直接」受研究者掌控,实验结果是计划中的改变,而非自然改变,而实验对象的选择是随机的。
参、实验研究法的特征
学者大致上有以下的看法(郭生玉,1999;陈龙安、庄明贞,
2000)
一、随机化(randomization)
在心理与教育研究中,由于研究情境相当复杂,且不同组别的受试者具有许多特质的差别,故欲完全控制这些因素,事实上是无法达到的目标。
因此,研究者往往采用随机化原则排除那些无法直接适当控制的因素之影响。
所谓
「随机化」,简单的说,就是在一个界定的研究群体(population)中,每一个分子均有相等的机会被抽取做为研究的对象。
一般而言,最常用在实验研究中的随机化步骤有两个:一个是随机抽样(random sampling),另一个是随机分派(random assignment)。
理论上,抽取的样本人数愈多,在理论上实验组与控制组的各方面特征将会接近完全相等或相似。
二、控制变项(control variable)
控制变项的主要目的,是经由适当的实验设计,以控制三种变异量,即实验变异量、无关变异量和误差变异量。
以下分别说明控制这三种变异量的意义。
(一)增加实验变异量到最大
实验研究者在从事实验时,其重要任务之一是操纵实验变项,使由这个实验处理所造成的实验变异量(experimental variance)增加到最大的程度。
易言之,实验者必须尽可能使几个实验处理间彼此有很大的不同。
(二)排除无关变异量
无关变异量(extraneous variance)是由一些实验者没有控制好的变项所造成。
这些无关变异量常因此混淆实验的效果,而使实验结果的解释产生困难。
因此研究者必须设法控制实验变项以外的所有无关变项,使它们对实验效果的影响减至最低的程度,以免无法正确解释实验结果。
(三)减低误差变异量到最小
任何实验研究总难免会有误差存在,只是程度上的不同而已。
因为这些误差将会影响实验效果的显著性,因此,研究者必须设法减低到最小的限度。
在实验过程中,造成误差的来源主要有二:一是无法认定和控制的个别差异因素,另一是测量误差。
为了减低误差变异量到最小,研究者应从两方面努力:第一,妥善控制实验情境。
第二,提高测量的信度。
三、周详的观察
实验者对于环境的一切事物必须时时抱持着怀疑的态度,以犀利之眼光、客观的态度、科学之方法,观察问题之所在,然后实验工作才能着手。
四、精确数量的记载
科学研究的特征之一,是所得到的具体数据,都可以用实际的数量来比较,用统计的方法来处理。
因此,实验的结果必须用精确
的数量记载,以表示其确切性。
五、反复实验
科学的实验,贵在充分的客观性,可验证性,例如某项实验研究完成后,其它人依此实验的方法及条件,重复实验,其结果亦为一致,这种禁得起考验的特点,也是科学方法最大特征。
肆、实验研究法理论基础
一、实验心理学
(一)欧陆的实验心理学:传统欧陆在研究心理现象,多以实验方法加
以操弄以探求人类心理运作,此一研究方式影响教育领域甚深,其主张如下
1、心理实验
心理的实验其目的多在藉控制方法,测量等将人类心理现象化约为简单元素,以使其数量化,冯德(W. Wundt)首先将实验室的技术应用在心理作用的研究上(张肖松,1982:137)。
2、实验的研究方法
继之德国雷依(y)和谬曼(E. Meumann)受实验心理学的影响,主张以实验的研究方法,即实验统计以及细心的或系统的观察来解决教学或教育问题,以获致最好的结果(陈龙安、庄明贞,2000)。
3、普遍性的科学方法
前述实验教育学与心理技术的探讨均植基于自然科学研究之理论-技术-模式中,企图建立一种普遍性的科学方法,将教育学研究转移至事实的科学与技术模型中(陈龙安、庄明贞,2000),故可知教育中的实验研究受实验心理学影响之深。
(二)美国的实验主义:美国实验主义主张以实验的研究态度来研究经
验,为实验研究的渊源之一
1、实验主义方法
杜威(J. Dewey)在基本(Fundamentals)一文中,曾提到实验主义的方法:即从研究观察,实验和工作假设构成与遵从等各种方法找到安身立命的基础。
2、暂时性的假设
Childs L. John尝言实验主义认为关于我们所住的世界之意义与性质的某种信念,只是暂时的当作假设来把握,这种信念全要进一步的知识来修正(引自陈龙安、庄明贞,2000:77)。
3、实验的研究态度
实验主义认为所谓哲学的,就是用批评的、实验的研究态度
来处理经验(陈龙安,庄明贞,2000),由此可知,实验主义的实验精神为实验研究提供了理论基础。
二、逻辑经验论:逻辑经验论主张知识之可检证原则,为实验研究
提供了充分的立论基础,以下为其主张
(一)维也纳学园(Vienna Circle)
逻辑经验论此一名称来自维也纳学园所倡导的逻辑实证论(Logical Postivism),逻辑经验论者认为使用科学方法才能获致普遍性,可靠性的知识。
(二)可检证原则
逻辑经验论提出意义的判准-可检证原则,依据可检证原则,任何有意义的语句,不是分析命题,便是可为经验所检证的综合命题,卡纳普(R.Carnap)要求每一理论语词皆化约为可观察语句,才有意义(引自陈龙安、庄明贞,2000:78)。
(三)教育命题系统
对教育现象之绵密的因果解释系统,理论之于教育实际之运用,也严谨的以技术逻辑(Logik der Technologie)来控制教育过程的绩效,以此种自然科学的研究方法使教育学落入目的论-因果分析的研究典范,也使教育命题系统排除任何规范性的叙述(陈龙安、庄明贞,2000)。
三、方法统一论
(一)理论在科学地位的判准
波柏(Karl Popper)认为一个理论在科学地位的判准是理论的可否证性(falsifiability)、可反驳性(refutability)或可验证性(testability)(洪庸皖,1985)。
(二)方法统一论
波柏主张所有理论性或概括性的理论,不论是自然科学或社会科学,都应使用同样方法,以达成科学方法上的统一,他提出两种原则
1.不论对前科学的知识和科学的知识而言,唯有零碎实验是所有社会知
识的基本。
2.实验的意义不是指结果不能确定的行动,而应是借着比较所获得的结果
与预期的结果而获取知识。
(三)科学方法的说明
科学方法的说明,至少必须符合下列两项系统的要求:
1.相干性:即事物之间因果与关系,在逻辑上的关联与经验上的相关性。
2.可验证性:即解释或说明可由检验而加以实证或否证(陈龙安,庄明贞,
2000)。
伍、提升实验研究设计具有内外在效度
一、具有内在效度:实验者所操纵的实验变项对依变项所造成的
影响的真正程度,亦即实验处理是否确实造成有意义的差异。
实验内在效度的高低,是研究者对无关变项控制情形而定,控制愈好,实验的差异愈能解释为由实验处理所造成。
反之,控制愈差,实验结果愈无法解释,究竟其结果是由实验处理所产生,或由其它无关因素所导致。
在1963年时,Campbell and Stanley 认为(引自王文科,1999:564-569;郭生玉,1999:314-318;Porter,1997:533-534)影响内在效度的无关变项主要有八个,研究者必须设法控制,以使研究结果可做正确的解释。
(一)同时事件(contemporary history)
在实验期间,受试者往往会从实验情境内外,经历到一些实验处理以外的其它事件,这些事件可能会影响依变项而干扰实验结果。
一般而言,实验期间愈长,实验处理以外的其它事件的影响,可能性就愈大。
控制同时事件影响的方法,通常为设一组控制组,以资比较。
(二)成熟(maturation)
受试者在实验期间,不论生理或心理均会产生变化。
例如:变为更成熟、健壮、疲劳、饥饿、分心或没有兴趣等,这些改变会影响实验结果。
为避免成熟的影响,最好也是设一组比较的控制组,以假定两组都有相同的成熟和发展的经验。
(三)测验(testing)
在许多心理与教育实验中,往往在实验处理之前进行前测(pretest)的工作,以做为观察实验效果的依据。
前测的经验,会使受试者更熟练做测验的技巧和熟悉测验的内容,有助于后测分数的提高,尤其是前后测的题目相同时。
测验本身须具有信度,信度是指相同的个人在不同的时间,以相同的测验测量,或以复本测验(相等的试题)测量,或在不同的情境下测量,所得结果的一致性(consistency)(引自郭生玉,1988:44)。
(四)测量的工具(instrumentation)
在测量过程中,测量工具(测验或仪器)、观察者和主试者的不同,可能改变实验的结果。
例如:后测的测验,不但不同于前测的测验,且比较容易,则实验结果的改变,可能是测量工具不同的结果,而非实验处理的效果。
(五)统计回归(statistical regression)
当实验者根据某项心理特质的极端分数而选择研究对象时,统计回归的问题就易于产生,尤以在有前后测的实验设计中为然。
统计回归现象,是指受试者的测量分数在第二次测量时,有向团体平均数回归(趋近)的倾向。
易言之,高分组的受试者在第二次测量时,其分数由于向平均数回归而有降低的趋势,但低分组的受试者,其分数却有升高的趋势。
因此,避免此种因素混淆实验效果的方法,是尽可能不以极端分数的受试者做为研究对象。
(六)差异的选择(differential selection)
在采用两组或多组的实验研究中,研究者必须考虑不同组别受试者在各项特质上是否一样。
如果实验组和控制组在许多方面的特质原来就不相等,所得实验效果就不得归因于纯由实验处理所造成,因为选择的偏差可能混淆实验的处理效果。
欲使研究不同组别的各方面特质达到相等,以减少选择的偏差,最有效的方法是利用随机分派的方式,决定那些人为实验组,那些人为控制组。
(七)受试者的流失(experimental mortality)
研究样本在实验期间的流失,如迁徙、退学、死亡等,是影响两组或多组实验内在效度的重要因素。
(八)因素的交互作用(interactive combinations of factors)
上述七项因素的彼此交互作用,将是构成影响内在效度的另一个因素。
例如:样本的「选择」与「成熟」间的交互作用。
(九)强亨利效应(the John Herry effect)
是指实验组采用新法或步骤取代控制组的的方法或步骤时,控制组的受试者为了不甘示弱,力图与实验组一较长短,则控制组的表现,常在一般的平均水平之上。
因此,在实验处理上,如果发现实验组与控制组间有差异或没有差异时,须注意是否由于控制组成员的不平常动机,而非由处理导致的效应。
(十)实验的处理扩散(experimental treatment diffusion)
若实验的条件与控制的条件具有很密切的关系,则控制组的成员可能寻求接触处理条件的机会;或若实验组与控制组的受试者彼此很亲近,实验的处理扩散,尤其容易发生。
为了避免发生这个问题,研究者安排条件时,宜设法避免让实验组与控制组接触。
(十一)实验者偏见(experimenter bias)
或称为混淆(contamination),是指实验者精心设计或无意处理,而对受试者产生的影响。
当实验执行者知道实验组与控制组之分时,除实验处理外,对「实验组」有意或无意的特别待遇,受试者的行为无意中会受到实验者若干特征或行为的影响。
实验者本身的期待,也会使实验处理的实施,与对受试者的行为观察造成偏差。
为了避免发生这个问题,应由第三者予以进
行实验处理,而实验者本人也不知那一组是实验组,那一组是控制组。
(十二)统计的结论(statistical conclusion)
在多数研究中,常以统计作为对预定结果与关系作为结论的基础。
但是统计的使用若违背其原理,则据以获得的结果,欲作推论则有问题,甚至如误用统计考验,则无法获得有效的结果。
二、精确性:实验者藉由操纵实验变项,而须精确的观察出此变项的变化对依变项所产生的影响效果。
理论上随机法是控制所有无关变项的唯一理想方法。
如果实验过程中,受试者的抽取和实验处理的分派,都能完全随机化,在统计上,实验各组的受试者在各方面的特质应可视为相等。
不过这并不能保证完全相等,因为仍然有随机抽样的误差存在。
所谓的精确性,是要让实验结果的差异是确由自变项所造成,而非抽样机误的结果,其概念可由以下几点得之:(一)抽样分配(sampling distribution)与标准误(standard error)如果我们能在一个母群体中,以相同的样本人数,多次随机取样,形成多个样本时,我们会发现,这些样本的统计数自然形成一个分配,有平均数,也有标准差。
这个分配就称为「抽样分配」。
抽样分配不是原始分数的分配,而是样本统计数的分配。
样本平均数分配的平均数以μX表示,标准差以σX
表示。
但是为别于一般原始分数的标准差,故抽样分配的标准差改称为「标准误」。
平均数的标准误必须由母群体的标准差及样本人数来估算。
其式子如公式1:
(公式1)
然而,在实验研究中,大都不知道母群体的标准差,在此情形下,只好以样本的标准差作为母群体标准差的估计数,因此如公式2所示:
(公式2)
上述公式中的S X是样本的标准差,n是样本人数。
但是应用此一公式时,必须注意,由于S X是用来代替σX的,故其计算公式须以n-1为分母,即:
(公式3)
而以样本标准差计算所得的标准误,就以S X作为符号,代替原来的σX。
由上述公式可以看出,平均数的标准误之大小,决定于母群体或样本标准差之大小,以及样本人数的多寡。
因此可知,若其它条件不变,当母群体或样
本的标准差愈大时,标准误愈大;当样本人数愈多时,标准误愈小。
这就是为什么取样时要尽量加大样本人数的道理。
平均数的抽样分配具有一项基本特征,那就是:当样本人数(n)逐渐增多时,平均数的抽样分配逐渐成为「常态分配」,这个现象称为「中央极限定理」(central limit theorem)。
换言之,当样本人数够大时,我们就可以采用常态分配的Z值来解释抽样分配之标准误的位置及其对应的面积,故也称为Z分配(Z-distribution);但当样本人数少的时候,其分配情形却与常态分配不尽相同,故小样本的抽样分配称为t分配(t- distribution)。
就形状来看,t分配也是钟形、对称的分配,但峰度比常态分配低,且两端离横轴的距离较大。
但因抽样分配是随样本人数而改变,故t分配的形状亦因样本人数亦因样本人数之不同而异,当样本人数超过120时,t分配就接近常态分配,而可视同常态分配。
t分配的形状虽与样本人数有关,但实际决定t
分配形状的却是「自由度」(degree of freedom,简写为df)。
所谓自由度,系指样本的实际观察次数(即人数)中,能自由变动的次数。
图1显示三个自由度的t分配形状,其中,当自由度无限大时(df=无限大),即为常态分配(吴明清,2002):
图1:三个自由度不同的t分配
资料来源:教育研究:页452,吴明清,2002,台北:五南。
(二)区间推估与信赖水平
以样本的统计量来估计母体的母数有两大类做法:一类是点估计(point estimation),另一类是区间估计(interval estimation)。
(所谓点推估,是指估量的结果只提示一个特定的值(a single-value),这个值就称为「估值」(estimate)。
如果估值确能适当显示母群体的特征,就称为「不偏估值」(unbiased estimate);如果估值可能高估或低估母群体的母数,则称为「偏差估值」(biased estimate)。
所谓区间推估,是指估量的结果提示一定范围的值(a range of value),这个范围就称为估量区间(estimate interval)。
通常,作区间推估时,都涉及一
个可以信赖的比率,称为「信赖水平」(confidence level)。
譬如:某一国小全六年级月考成绩平均数之推估,当我们估量母群体的平均数在75-85之间时,我们认为母群体的平均数有95%的机率会落在75-85之间。
换言之,当我们作此推估时,我们有95%的信心,这个推估是正确的;反言之,估量错误的可能性只有5%。
在此种情况下,95%(或.95)就是信赖水平,而75-85分就是信赖区间(confidence interval),写成CI95。
因此CI95=(75,85)的意思就是:在95%的信赖水平时之信赖区间为75-85。
信赖水平愈大,则信赖区间也愈大,故其结果错误可能性较小,但正确结果之精确性较低;反之,信赖水平愈小,则信赖区间也愈小,故其错误可能性较大,但正确结果之精确性较高。
我们以图2来看:
图2:当μ=68、σX =2时之95%及99%推估信赖区间。
资料来源:教育研究(页457),吴明清,2002,台北:五南。
图2包含(A)(B)两图,(A)图是95%的信赖区间,曲线下空白的部分,就是信赖区间(64.08,71.92)所占的面积,斜线部分,右端占2.5%,左端占2.5%,合为5%。
这5%也就是作上述估量时可能的错误机率,也称为α值。
换言之,当μ=68、σX =2时,样本的平均数也可能大于71.92,或小于64.08,这种情形出现的机率只有5%。
采用相同的方式,可以解释(B)图的空白面积和斜线部分。
由于(B)图中样本平均数大于75.36及小于64.08的机率各为0.5%,故作上述估量(CI=62.84,73.56)的错误机率只有1%(亦即α=.01)。
由此可以看出,信赖水平愈高,信赖区间愈大,但愈粗略(吴明清,2002;李沛良,1988;Porter:1997)。
(三)统计检定的程序与方法
统计检定(statistical test)是一种统计的程序,藉以确定基于样本数据对母群体特征的估量之真实程度。
由于母群体特征之估量常以假设的形式表示,故统计检定也称为「假设检定」(hypothesis testing)。
譬如,从五年级学生(母群体)中随机抽取50人(样本),量其身高,平均数是145公分,如果我
们假设五年级学生的平均身高是150公分,那么这个假设,那么这个假设(即μ=150)是不是可以接受?可靠的程度有多大?我们必须用统计的程序来确定,才能厘清抽样机误与真正的差别。
这个统计程序就是统计检定。
统计检定有其逻辑的顺序,兹以母群体平均数之检定为例,提示统计检定的基本步骤,并说明每一步骤中相关的概念或原理(吴明清,2002)。
1.确定研究问题并据以提出统计假设
教育研究应用统计方法来处理并分析研究资料,其目的是要回答研究问题(research question)。
因此,在进行统计检定时,要明确列出研究问题,然后根据研究问题形成统计假设。
统计假设(statistical hypothesis)有两种形式,一称为「虚无假设」(null hypothesis),一称为「对立假设」(alternative hypothesis),分别反映问题的两个可能答案。
统计检定时,研究者都需要先提出虚无假设,接着提出对立假设,通常,研究者都期望拒绝虚无假设而接受对立假设。
2.决定显著水平并找到临界值
样本平均数之所以异于母群体平均数的理由有二:其一是抽样误差(sampling error),也就是机误(random error);其二是真正差异。
统计检定的主要功用,就是在区分样本平均数与母群体平均数的差异,究竟是抽样误差形成的、抑或是真正差异。
通常,统计检定都以95%或99%的信赖水平为接受抽样误差的范围,凡在95%或99%的机率范围内出现的样本平均数,即视为抽样误差的结果,故与母群体平均数没有差异,此时要接受虚无假设;若超过此机率范围的样本平均数,即视为真正差异,此时要拒绝虚无假设,接受对立假设。
图3显示此种关系:
图3:假设检定的信赖水平与拒斥区
资料来源:教育研究(页466),吴明清,2002,台北:五南。
图3包括(A)(B)两图,(A)是单尾检定,(B)是双尾检定。
设信赖水平定于95%,则(A)(B)两图空白的面积即为95%。
若样本平均数落在这个范围内,就要接受虚无假设,故空白部分称为「接受区」
(region of acceptance);若样本平均数落在这个范围外,就要拒绝虚无假设,故斜线部分称为「拒绝区」(region of rejection)。
但以图(A)及图。