spss统计学正态性检验教程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布的检验
数据的正态分布是通过Analyze -> Descriptive Statistics -> Explore来实现的,同时该命令也可以检查异常值和极值,和进行方差齐性检验(方差齐性,本节不介绍)。
打开文件data0201-protein.sav,如下图,50种树叶中粗蛋白占干重的比例,
如果检验变量protein的正态性,按Analyze -> Descriptive Statistics -> Explore打开如下对话框,
把要检验的变量送入Dependent List框(可同时检验多个变量),Factor List框是分组变量(本例中无分组变量),Label Cases by框指定一个变量作为标识变量(可忽略),Display栏指定要输出的是统计量或统计图,或同时输出。
点击Statistics按钮,打开如下左对话框,选择要输出的统计量,选项Descriptives:描述统计量,选项M-estimators:集中趋势最大似然比(可忽略),选项outliers:5个最大值和最小值,选项Percentiles:第5、10、25、50、75、90、95百分位数,点击continue回到Explore对话框,
点击Plots,打开如上右对话框,Boxplots框选择箱状图的格式,选项None:不输出箱状图,选项Factor levels together:变量按分组生成箱状图,并列输出(本
例未分组),选项Dependents together:在一个图形中生成所有变量箱状图(本例只有一个变量),Descriptive框选择输出图形的类型;选项stem-and-leaf:茎叶图,选项Histogram:直方图;Normality plots with tests栏,输出正态概率和无趋势概率图,以及统计检验结果;Spread vs Level with Levene Test栏各选项与方差齐性检验有关,本节不介绍(只有选择分组变量时,才被激活)。点击Continue,回到Explore对话框,
点击Options打开如下对话框,选择缺失值(或无效值)的处理方式(本例无缺失值),选项Exclude cases listwise:剔除所有缺失值;选项Exclude cases pairwise:成对剔除缺失值;选项Report values:将缺失值单独分为一组,放在频数表中,点击Continue,
回到Explore对话框,点击OK,输出结果,类似如下几个图,
输出有效值和缺失值,
输出平均数等各统计量,也包括数据分布的偏度和峰度,
输出5个最大值和最小值,
正态检验的结果,如果样本量<2000,经验上推荐Shapiro-Wilk test,Sig即p值,如果需要在论文写作中出现正态检验的结果,一般情况类似如下:因数据呈不正态分布(Shapiro-Wilk test: statistic = 0.863, p < 0.001),我们采用非参数检验…
对数据自动分组,输出频数直方图,如果是正态分布,应该是中间集中,两边对称。
茎叶图,自左到右分别是频数、茎、叶,茎是整数部分,叶是小数部分,每行的茎叶数值相加再乘茎宽,即茎叶所表示的实际数据的近似值,以第一行举例说明,该行所表示的第一个近似值数据=(0+0.6)*10=6,第二个=(0+0.7)*10=7,以此类推。最后一行表示有6个异常值(即>=26的值)。如果是正态分布,应该是中间集中,两边对称。
箱状图,矩形框的上中下三条横线表示第75、50、25百分位数;中间纵线的上
截止横线是本体值(除异常值和极值以外的值)的最大值,下截止横线表示本体值的最小值;异常值用表示,矩形框上方的表示数值大于(第75百分位数+四分位差的1.5倍),下方的表示数值小于(第25百分位数-四分位差的1.5倍);极值用表示,矩形图上方的表示数值大于(第75百分位数+四分位差的3倍),下方的表示数值小于(第25百分位数-四分位差的3倍)。异常值和极值上的数字表示原始数据中的第几个值。正态分布一般无异常值和极值。
正态Q-Q图,如果是正态分布,所有的点应该在直线上(正态分布标准线)。
无趋势正态Q-Q图,如果是正态分布,所有的点应该随机分布在线的上下方。
以data0202-nutrition为例说明,带有分组变量的正态检验,以food分组,检验变量protein的正态性,
按Analyze -> Descriptive Statistics -> Explore,打开Explore对话框,
选择protein送入Dependent List框,选择food送入Factor List框,在Display栏选择Both,点击Statistics打开如下对话框,选择Descriptives和Outliers,点击Continue,回到Explore对话框,
点击Plots,打开如下对话框,
在Boxplots栏,选择Dependents together,在Descriptives栏,选择Stem-and-leaf 和Histogram,选择Normality Plots with tests,点击Continue,回到Explore对话框,点击OK,
输出结果如下:
food=no,n=35,protein是非正态分布,food=yes,n=15,protein是正态分布。
特别说明:
1,数据的正态分布是参数检验的前提。
2,随样本量减小,正态分布检验的效果降低,当样本量太小时,数据不能体现一定的分布趋势,正态分布检验的效果就值得怀疑,甚至可认定为无效。那么样本量多小的时候,可以认定正态分布的检验基本无效,而采用非参数检验进行统计呢?要根据不同的情况进行判定,比如对统计结果要求的严格程度等。3,在一般情况下,经验值是n=12左右(这只是一个经验值),如果3≤n≤12,用非参数检验,因此也无需检验正态性,如果n>12,分情况判定是参数检验还是非参数检验。