02.单因素方差分析(详细版)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Equal Variances Not Assumed模块内勾选Games-Howell:
(8) 可以在Significance level框中修改显著性水平的 大小(系统默认为0.05,表示当P<0.05时差异具有 统计学意义,可以将其数值修改为0.01)。
(9)点击Continue,返回One-Way AExplore: Plots对话框:
(4)在Boxplots模块内保留系统默认选项Factor levels
together,在Descriptive模块内取消选择Stem-and-leaf, 在下方勾选Normality plots with tests(执行 ShapiroWilk's检验):
(3)点击Options...,出现 Univariate: Options对话框:
(4)在Display模块内勾选Estimates of effect size:
(5)点击Continue,返回Univariate对话框。
(6)点击OK,输出结果。
5.3 一般线性模型(GLM procedure)→自定义组间比较(custom contrasts) 如果只关心特定组别间的差异,你需要 知道如何进行自定义比较(custom contrasts),以及如何对多重比较结果 进行调整,这就要用到SPSS软件中的 Syntax Editor窗口编写相应程序语句。 当满足方差齐性条件时,推荐采用GLM 程序进行自定义组间比较。 (1)点击Analyze > General Linear Model > Univariate...
利用箱线图(Boxplots)检查是否存在异常值,以及存在异常值时的几种处理方法 (1)在主菜单点击Analyze > Descriptive Statistics > Explore...: 出现右图Explore对话框:
(2)把因变量coping_stress送入Dependent List框中, 把自变量group送入Factor List框中:
单因素方差分析
(One-Way ANOVA)
1、问题与数据
有研究者认为,体力活动较多的人能更好地应对职场 的压力。为了验证这一理论,某研究招募了31名受试 者,测量了他们每周进行体力活动的时间(分钟),以 及应对职场压力的能力。
根据体力活动的时间数,受试者被分为4组:久坐组、 低、中、高体力活动组,变量名为group。利用Likert 量表调查的总得分来评估应对职场压力的能力,分数 越高,表明应对职场压力的能力越强,变量名为 coping_stress。应对职场压力的能力,可以简写为 CWWS得分。 研究者想知道,CWWS得分的高低是否取决于体力活 动的时间,即coping_stress变量的平均得分是否随着 group变量的不同而不同(部分数据如右图)
异常值的处理方法分为2种: (1) 保留异常值: 1)采用非参数Kruskal-Wallis H检验; 2)用非最极端的值来代替极端异常值(如用第二大的值代替); 3)因变量转换成其他形式; 4)将异常值纳入分析,并坚信其对结果不会产生实质影响。 (2) 剔除异常值: 直接删除异常值很简单,但却是没有办法的办法。当我们需要删掉异常值时,应报告异常值大小及其对结果的影响,最好分别报告删除异常值前后的 结果。而且,应该考虑有异常值的个体是否符合研究的纳入标准。如果其不属于合格的研究对象,应将其剔除,否则会影响结果的推论。
假设6:进行方差齐性检验,观察每组的方差是否相等。 在第五部分SPSS操作中进行判断。
5、SPSS操作
5.1 单因素方差分析(ONEWAY procedure)→事后两两比较(post hoc test)
(1)点击Analyze > Compare Means > One-Way ANOVA:
出现One-Way ANOVA对话框:
那么,进行单因素方差分析时,如何考虑和处理这6项假设呢?
3、思维导图
4、对假设的判断
假设1:因变量为连续变量; 假设2:有一个包含2个及以上分类、且组别间相独立的自变量; 假设3:每组间及组内的观测值相互独立。 • 和研究设计有关,需根据实际情况判断。
假设4:每组内没有明显异常值。 • 如果某个组别中的某些因变量取值和其他值相比特别大或者特别小,则称之为异常值。异常值 会影响该组的均数和标准差,因此会对最终的统计检验结果产生很大的负面影响。对于小样本 研究,异常值的影响尤其显著,必须检查每组内是否存在明显异常值。 • 以下将说明如何在SPSS中利用箱线图(Boxplots)检查是否存在异常值,以及存在异常值时的 几种处理方法。
如果样本量大于50,推荐使用正态Q-Q图等图形方法进行正态判 断,因为当样本量较大时,Shapiro-Wilk检验会把稍稍偏离正态 分布的数据也标记为有统计学差异,即数据不服从正态分布。
如果数据不服从正态分布,可以有如下4种方法进行处理: (1) 数据转换:对转换后呈正态分布的数据进行单因素方差分析。当各组因变量的分布形状相同时,正态转换才有可能成 功。对于一些常见的分布,有特定的转换形式,但是对于转换后数据的结果解释可能比较复杂。 (2) 使用非参数检验:可以使用Kruskal-Wallis H检验等非参数检验方法,但是要注意Kruskal-Wallis H检验和单因素方差 分析的无效假设和备择假设不太一致。 (3) 直接进行分析:由于单因素方差分析对于偏离正态分布比较稳健,尤其是在各组样本量相等或近似相等的情况下,而 且非正态分布实质上并不影响犯I型错误的概率。因此可以直接进行检验,但是结果中仍需报告对正态分布的偏离。 (4) 检验结果的比较:将转换后和未转换的原始数据分别进行单因素方差分析,如果二者结论相同,则再对未转换的原始 数据进行分析。
假设5:每组内因变量符合正态分布
正态性检验有很多方法,这里只介绍最常用的一种:Shapiro-Wilk正态性检验(其他还有偏度和峰度值、 直方图等)。在假设4的判断中,我们在Explore: Plots对话框中勾选了Normality plots with tests,输出结果 中会给出Shapiro-Wilk检验的结果。 如果样本量较小(<50),并且对正态Q-Q图或其他图形方法的结果诠释不够有把握,推荐采用ShapiroWilk检验。每组自变量都会有一个Shapiro-Wilk正态性检验结果。本例结果见如下Tests of Normality表格。
如果数据符合正态分布,显著性水平(蓝框中 的Sig.)应该大于0.05。Shapiro-Wilk检验的无 效假设是数据服从正态分布,备择假设是数据 不服从正态分布。因此,如果拒绝无效假设 (P<0.05),表示数据不服从正态分布;如果不 能拒绝无效假设,则不能认为数据不服从正态 分布。本例中每组正态性检验P值均大于0.05, 因此不能认为每组因变量不服从正态分布。
出现Univariate对话框:
(2)把因变量coping_stress送入Dependent List框
中,自变量group送入Fixed Factor(s)框中
(3)点击Paste,出现IBM SPSS Statistics Syntax Editor窗口:
(4)在 /PRINT 和 /CRITERIA两行中间,输入 /LMATRIX = group -1 1 0 0
注:自定义比较包括了简单比较(simple contrasts)和复 合比较(complex contrasts)。简单比较为只比较自变量 某两个组别间的差异,需要建立线性比较函数(linear contrast,φ)。它包含一系列系数和每个组别对应的均 数,系数取值只能为1,-1,0。我们把要比较的两组的 系数分别赋值为1和-1,其他不比较的组别系数赋值为0。 本例中久坐组系数为-1,“低”体力活动组系数为1,其 他组别均为0,则是要比较久坐组和“低”体力活动组的 CWWS得分差异,看二者的平均CWWS得分差值是否为0 (用“低”体力活动组得分减去久坐组得分,即系数为1 的组别减去系数为-1的组别,以系数为-1的组别为参照组, 系数赋值的正负与研究设计和研究假设有关)。
箱线图是一种比较简单和流行的异常值检验方法, 当然同样存在一些更为复杂的方法,这里不过多 介绍。
如何处理数据中存在的异常值
导致数据中存在异常值的原因有3种: (1) 数据录入错误:首先应该考虑异常值是否由于数据录入错误所致。如果是,用正确值进行替换并重新进行检验; (2) 测量误差:如果不是由于数据录入错误,接下来考虑是否因为测量误差导致(如仪器故障或超过量程);
(5) 点击Continue,返回One-Way ANOVA对话框。
(6)点击Post Hoc,出现One-Way ANOVA: Post
Hoc Multiple Comparisons对话框:
对话框根据方差齐性检验的假设是否满足, 分为2个主要区域:
(7)在Equal Variances Assumed模块内勾选Tukey,在
(10)点击OK,输出结果。
注:在Equal Variances Assumed模块内SPSS提供了许多两两比较的 方法。例如,LSD法为“最小显著差数法”,是在无校正的前提下, 在不同组间进行多次两个独立样本t检验;Bonferroni法是比较流行 的方法,同LSD法类似在多组间进行两个独立样本t检验,但是采 用了Bonferroni法进行校正。
SPSS中将距离箱子边缘超过1.5倍箱身长度的数 据点定义为异常值,以圆点表示; 将距离箱子边缘超过3倍箱身长度的数据点定义 为极端值(极端异常值),以星号(*)表示。 为容易识别,在Data View窗口异常值均用其所 在行数标出。 本例数据箱线图无圆点或星号,因此无异常值。 假如数据中存在异常值和极端异常值,其箱线图 如右:
/LMATRIX= 旨在告诉SPSS我们要做一个自定义假设; group表示将要进行比较的自变量组别;-1 1 0 0表示 要进行比较的系数,系数的顺序和SPSS里输入的组别 顺序有关:这里从左到右(-1 1 0 0)分别对应着久 坐组、“低”、“中”和“高”体力活动组,表示将 “低”体力活动组与久坐组进行比较。
2、对问题的分析
研究者想分析不同group间的coping_stress得分差异,可以采用单因素方差分析。 单因素方差分析适用于2种类型的研究设计: 1)判断3个及以上独立的组间均数是否存在差异; 2)判断前后变化的差值是否存在差异。 使用单因素方差分析时,需要考虑6个假设。 假设1:因变量为连续变量; 假设2:有一个包含2个及以上分类、且组别间相互独立的自变量; 假设3:每组间和组内的观测值相互独立; 假设4:每组内没有明显异常值; 假设5:每组内因变量符合正态分布; 假设6:进行方差齐性检验,观察每组的方差是否相等。
(2)把因变量coping_stress送入Dependent List
框中,自变量group送入Factor框中:
(3)点击Options,出现One-Way ANOVA: Options对话框:
(4)在Statistics模块勾选Descriptive,Homogeneity
of variance test和Welch,同时勾选Means plot:
5.2 一般线性模型(GLM procedure)求效应量(偏η2) (1)点击Analyze > General Linear Model > Univariate... 出现Univariate对话框:
(2)把因变量coping_stress送入Dependent List框中,
自变量group送入Fixed Factor(s)框中
点击Continue,返回Explore对话框。 (5)在Display模块内点击Plots:
如果使用偏度和峰度(skewness and kurtosis)进行正态性判断, 则保留Display模块内的默认选项Both或者选择Statistics。 (6) 点击OK,输出结果。
根据如下输出的箱线图,判断每个组别内是否存在异常值。
(3) 真实的异常值:如果以上两种原因都不是,那最有可能是一种真实的异常数据。这种异常值不好处理,但也没有理由将其当作无效值看 待。目前它的处理方法比较有争议,尚没有一种特别推荐的方法。
需要注意的是,如果存在多个异常值,应先把最极端的异常值去掉后,重新检查异常值情况。这是因为有时最极端异常值去掉后,其他异 常值可能会回归正常。
(8) 可以在Significance level框中修改显著性水平的 大小(系统默认为0.05,表示当P<0.05时差异具有 统计学意义,可以将其数值修改为0.01)。
(9)点击Continue,返回One-Way AExplore: Plots对话框:
(4)在Boxplots模块内保留系统默认选项Factor levels
together,在Descriptive模块内取消选择Stem-and-leaf, 在下方勾选Normality plots with tests(执行 ShapiroWilk's检验):
(3)点击Options...,出现 Univariate: Options对话框:
(4)在Display模块内勾选Estimates of effect size:
(5)点击Continue,返回Univariate对话框。
(6)点击OK,输出结果。
5.3 一般线性模型(GLM procedure)→自定义组间比较(custom contrasts) 如果只关心特定组别间的差异,你需要 知道如何进行自定义比较(custom contrasts),以及如何对多重比较结果 进行调整,这就要用到SPSS软件中的 Syntax Editor窗口编写相应程序语句。 当满足方差齐性条件时,推荐采用GLM 程序进行自定义组间比较。 (1)点击Analyze > General Linear Model > Univariate...
利用箱线图(Boxplots)检查是否存在异常值,以及存在异常值时的几种处理方法 (1)在主菜单点击Analyze > Descriptive Statistics > Explore...: 出现右图Explore对话框:
(2)把因变量coping_stress送入Dependent List框中, 把自变量group送入Factor List框中:
单因素方差分析
(One-Way ANOVA)
1、问题与数据
有研究者认为,体力活动较多的人能更好地应对职场 的压力。为了验证这一理论,某研究招募了31名受试 者,测量了他们每周进行体力活动的时间(分钟),以 及应对职场压力的能力。
根据体力活动的时间数,受试者被分为4组:久坐组、 低、中、高体力活动组,变量名为group。利用Likert 量表调查的总得分来评估应对职场压力的能力,分数 越高,表明应对职场压力的能力越强,变量名为 coping_stress。应对职场压力的能力,可以简写为 CWWS得分。 研究者想知道,CWWS得分的高低是否取决于体力活 动的时间,即coping_stress变量的平均得分是否随着 group变量的不同而不同(部分数据如右图)
异常值的处理方法分为2种: (1) 保留异常值: 1)采用非参数Kruskal-Wallis H检验; 2)用非最极端的值来代替极端异常值(如用第二大的值代替); 3)因变量转换成其他形式; 4)将异常值纳入分析,并坚信其对结果不会产生实质影响。 (2) 剔除异常值: 直接删除异常值很简单,但却是没有办法的办法。当我们需要删掉异常值时,应报告异常值大小及其对结果的影响,最好分别报告删除异常值前后的 结果。而且,应该考虑有异常值的个体是否符合研究的纳入标准。如果其不属于合格的研究对象,应将其剔除,否则会影响结果的推论。
假设6:进行方差齐性检验,观察每组的方差是否相等。 在第五部分SPSS操作中进行判断。
5、SPSS操作
5.1 单因素方差分析(ONEWAY procedure)→事后两两比较(post hoc test)
(1)点击Analyze > Compare Means > One-Way ANOVA:
出现One-Way ANOVA对话框:
那么,进行单因素方差分析时,如何考虑和处理这6项假设呢?
3、思维导图
4、对假设的判断
假设1:因变量为连续变量; 假设2:有一个包含2个及以上分类、且组别间相独立的自变量; 假设3:每组间及组内的观测值相互独立。 • 和研究设计有关,需根据实际情况判断。
假设4:每组内没有明显异常值。 • 如果某个组别中的某些因变量取值和其他值相比特别大或者特别小,则称之为异常值。异常值 会影响该组的均数和标准差,因此会对最终的统计检验结果产生很大的负面影响。对于小样本 研究,异常值的影响尤其显著,必须检查每组内是否存在明显异常值。 • 以下将说明如何在SPSS中利用箱线图(Boxplots)检查是否存在异常值,以及存在异常值时的 几种处理方法。
如果样本量大于50,推荐使用正态Q-Q图等图形方法进行正态判 断,因为当样本量较大时,Shapiro-Wilk检验会把稍稍偏离正态 分布的数据也标记为有统计学差异,即数据不服从正态分布。
如果数据不服从正态分布,可以有如下4种方法进行处理: (1) 数据转换:对转换后呈正态分布的数据进行单因素方差分析。当各组因变量的分布形状相同时,正态转换才有可能成 功。对于一些常见的分布,有特定的转换形式,但是对于转换后数据的结果解释可能比较复杂。 (2) 使用非参数检验:可以使用Kruskal-Wallis H检验等非参数检验方法,但是要注意Kruskal-Wallis H检验和单因素方差 分析的无效假设和备择假设不太一致。 (3) 直接进行分析:由于单因素方差分析对于偏离正态分布比较稳健,尤其是在各组样本量相等或近似相等的情况下,而 且非正态分布实质上并不影响犯I型错误的概率。因此可以直接进行检验,但是结果中仍需报告对正态分布的偏离。 (4) 检验结果的比较:将转换后和未转换的原始数据分别进行单因素方差分析,如果二者结论相同,则再对未转换的原始 数据进行分析。
假设5:每组内因变量符合正态分布
正态性检验有很多方法,这里只介绍最常用的一种:Shapiro-Wilk正态性检验(其他还有偏度和峰度值、 直方图等)。在假设4的判断中,我们在Explore: Plots对话框中勾选了Normality plots with tests,输出结果 中会给出Shapiro-Wilk检验的结果。 如果样本量较小(<50),并且对正态Q-Q图或其他图形方法的结果诠释不够有把握,推荐采用ShapiroWilk检验。每组自变量都会有一个Shapiro-Wilk正态性检验结果。本例结果见如下Tests of Normality表格。
如果数据符合正态分布,显著性水平(蓝框中 的Sig.)应该大于0.05。Shapiro-Wilk检验的无 效假设是数据服从正态分布,备择假设是数据 不服从正态分布。因此,如果拒绝无效假设 (P<0.05),表示数据不服从正态分布;如果不 能拒绝无效假设,则不能认为数据不服从正态 分布。本例中每组正态性检验P值均大于0.05, 因此不能认为每组因变量不服从正态分布。
出现Univariate对话框:
(2)把因变量coping_stress送入Dependent List框
中,自变量group送入Fixed Factor(s)框中
(3)点击Paste,出现IBM SPSS Statistics Syntax Editor窗口:
(4)在 /PRINT 和 /CRITERIA两行中间,输入 /LMATRIX = group -1 1 0 0
注:自定义比较包括了简单比较(simple contrasts)和复 合比较(complex contrasts)。简单比较为只比较自变量 某两个组别间的差异,需要建立线性比较函数(linear contrast,φ)。它包含一系列系数和每个组别对应的均 数,系数取值只能为1,-1,0。我们把要比较的两组的 系数分别赋值为1和-1,其他不比较的组别系数赋值为0。 本例中久坐组系数为-1,“低”体力活动组系数为1,其 他组别均为0,则是要比较久坐组和“低”体力活动组的 CWWS得分差异,看二者的平均CWWS得分差值是否为0 (用“低”体力活动组得分减去久坐组得分,即系数为1 的组别减去系数为-1的组别,以系数为-1的组别为参照组, 系数赋值的正负与研究设计和研究假设有关)。
箱线图是一种比较简单和流行的异常值检验方法, 当然同样存在一些更为复杂的方法,这里不过多 介绍。
如何处理数据中存在的异常值
导致数据中存在异常值的原因有3种: (1) 数据录入错误:首先应该考虑异常值是否由于数据录入错误所致。如果是,用正确值进行替换并重新进行检验; (2) 测量误差:如果不是由于数据录入错误,接下来考虑是否因为测量误差导致(如仪器故障或超过量程);
(5) 点击Continue,返回One-Way ANOVA对话框。
(6)点击Post Hoc,出现One-Way ANOVA: Post
Hoc Multiple Comparisons对话框:
对话框根据方差齐性检验的假设是否满足, 分为2个主要区域:
(7)在Equal Variances Assumed模块内勾选Tukey,在
(10)点击OK,输出结果。
注:在Equal Variances Assumed模块内SPSS提供了许多两两比较的 方法。例如,LSD法为“最小显著差数法”,是在无校正的前提下, 在不同组间进行多次两个独立样本t检验;Bonferroni法是比较流行 的方法,同LSD法类似在多组间进行两个独立样本t检验,但是采 用了Bonferroni法进行校正。
SPSS中将距离箱子边缘超过1.5倍箱身长度的数 据点定义为异常值,以圆点表示; 将距离箱子边缘超过3倍箱身长度的数据点定义 为极端值(极端异常值),以星号(*)表示。 为容易识别,在Data View窗口异常值均用其所 在行数标出。 本例数据箱线图无圆点或星号,因此无异常值。 假如数据中存在异常值和极端异常值,其箱线图 如右:
/LMATRIX= 旨在告诉SPSS我们要做一个自定义假设; group表示将要进行比较的自变量组别;-1 1 0 0表示 要进行比较的系数,系数的顺序和SPSS里输入的组别 顺序有关:这里从左到右(-1 1 0 0)分别对应着久 坐组、“低”、“中”和“高”体力活动组,表示将 “低”体力活动组与久坐组进行比较。
2、对问题的分析
研究者想分析不同group间的coping_stress得分差异,可以采用单因素方差分析。 单因素方差分析适用于2种类型的研究设计: 1)判断3个及以上独立的组间均数是否存在差异; 2)判断前后变化的差值是否存在差异。 使用单因素方差分析时,需要考虑6个假设。 假设1:因变量为连续变量; 假设2:有一个包含2个及以上分类、且组别间相互独立的自变量; 假设3:每组间和组内的观测值相互独立; 假设4:每组内没有明显异常值; 假设5:每组内因变量符合正态分布; 假设6:进行方差齐性检验,观察每组的方差是否相等。
(2)把因变量coping_stress送入Dependent List
框中,自变量group送入Factor框中:
(3)点击Options,出现One-Way ANOVA: Options对话框:
(4)在Statistics模块勾选Descriptive,Homogeneity
of variance test和Welch,同时勾选Means plot:
5.2 一般线性模型(GLM procedure)求效应量(偏η2) (1)点击Analyze > General Linear Model > Univariate... 出现Univariate对话框:
(2)把因变量coping_stress送入Dependent List框中,
自变量group送入Fixed Factor(s)框中
点击Continue,返回Explore对话框。 (5)在Display模块内点击Plots:
如果使用偏度和峰度(skewness and kurtosis)进行正态性判断, 则保留Display模块内的默认选项Both或者选择Statistics。 (6) 点击OK,输出结果。
根据如下输出的箱线图,判断每个组别内是否存在异常值。
(3) 真实的异常值:如果以上两种原因都不是,那最有可能是一种真实的异常数据。这种异常值不好处理,但也没有理由将其当作无效值看 待。目前它的处理方法比较有争议,尚没有一种特别推荐的方法。
需要注意的是,如果存在多个异常值,应先把最极端的异常值去掉后,重新检查异常值情况。这是因为有时最极端异常值去掉后,其他异 常值可能会回归正常。