资料的正态性检验汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
资料的正态性检验汇总
作者:huaxie 来源:【整理】发布时间:2009-4-22 浏览: 567 访问者: 58.23.96.242
摘要提示:本文汇总了通常在对资料进行正态性检验时遇到的问题,比如Kolmogorov-Smirnov检验(简称K-S检验),还是Shapiro-Wilk检验,SPSS里面用哪个过程,SAS程
序等。
SPSS和SAS常用正态检验方法
如何在spss中进行正态分布检验
一、图示法
1、P-P图
以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。
2、Q-Q图
以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。
以上两种方法以Q-Q图为佳,效率较高。
3、直方图
判断方法:是否以钟形分布,同时可以选择输出正态性曲线。
4、箱式图
判断方法:观测离群值和中位数。
5、茎叶图
类似与直方图,但实质不同。
二、计算法
1、偏度系数(Skewness)和峰度系数(Kurtosis)
计算公式:
g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验。两种检验同时得出U
2、非参数检验方法
非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W检验)。
SAS中规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。
SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk统计量。对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统计量。由此可见,部分SPSS教材里面关于“Shapiro –Wilk适用于样本量
3-50之间的数据”的说法实在是理解片面,误人子弟。(2)单样本Kolmogorov-Smirnov检验可用于检验变量(例如income)是否为正态分布。
对于此两种检验,如果P值大于0.05,表明资料服从正态分布。
三、SPSS操作示例
SPSS中有很多操作可以进行正态检验,在此只介绍最主要和最全面最方便的操作:
1、工具栏--分析—描述性统计—探索性
2、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图和直方图,选择输出正态性检验图表,注意显示(Display)要选择双项(Both)。
3、Output结果
(1)Descriptives:描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布。
S k=0,K u=0时,分布呈正态,Sk>0时,分布呈正偏态,Sk<0时,分布呈负偏态,时,Ku>0曲线比较陡峭,Ku<0时曲线比较平坦。由此可判断本数据分布为正偏态(朝左偏),较陡峭。
(2)Tests of Normality:D检验和W检验均显示数据不服从正态分布,当然在此,数据样本量为1000,应以W检验为准。
(3)直方图
直方图验证了上述检验结果。
(4)此外还有茎叶图、P-P图、Q-Q图、箱式图等输出结果,不再赘述。结果同样验证数据不符合正态分布。
许多计量资料的分析方法要求数据分布是正态或近似正态,因此对原始独立测定数据进行正态性检验是十分必要的。
通过绘制数据的频数分布直方图来定性地判断数据分布正态性。这样的图形判断决不是严格的正态性检验,它所提供的信息只是对正态性检验的重要补充。
正态性检验主要有三类方法:
一、计算综合统计量
如动差法、夏皮罗-威尔克Shapiro-Wilk 法(W 检验) 、达戈斯提诺D′Agostino 法(D 检验)、Shapiro-Francia法(W′检验) .
二、正态分布的拟合优度检验
如皮尔逊χ2检验、对数似然比检验、柯尔莫哥洛夫Kolmogorov-Smirov 法检验 . 三、图示法(正态概率图Normal Probability plot)
如分位数图(Quantile Quantileplot ,简称QQ 图) 、百分位数(Percent Percent plot ,简称PP 图) 和稳定化概率图(Stablized Probability plot ,简称SP 图) 等.
下面介绍几种较统计软件中常用的正态性检验方法
1、用偏态系数和峰态系数检验数据正态性
偏态系数Sk,它用于检验不对称性;峰态系数Ku,它用于检验峰态。S k= 0, K u= 0 时, 分布呈正态, S k> 0 时, 分布呈正偏态,S k < 0 时, 分布呈负偏态。适用条件:样本含量应大于200
2、用夏皮罗-威尔克(Shapiro-Wilk)法检验数据正态性
即W检验,1965 年提出,适用于样本含量n ≤50 时的正态性检验;。
3、用达戈斯提诺(D′Agostino)法检验数据正态性
即D检验,1971提出,正态性D检验该方法效率高,是比较精确的正态检验法。
4、Shapiro-Francia 法
即W′检验,于1972 年提出,适用于50 < n < 100 时的正态性检验。
5、QQ图或PP图
散点聚集在固定直线的周围,可以认为数据资料近似服从正态分布
SPSS&SAS规则:
SPSS 规定:当样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为难,当样本含量n > 5000 结果以Kolmogorov - Smirnov 为准。
而SAS 规定:当样本含量n ≤2000 时,结果以Shapiro - Wilk (W 检验) 为准,当样本含量n >2000 时,结果以Kolmogorov - Smirnov (D 检验) 为准
问:对照组和病例组都是20例,拟对某指标进行正态性检验,是用Kolmogorov-Smirnov检验(简称K-S检验),还是Shapiro-Wilk检验?已用K-S检验不能认为该指标不是正态分布,但是Shapiro-Wilk检验表明其为非正态分布,我该相信哪个检验结果?答:Kolmogorov-Smirnov 检验:检验频数分布的正态性检验,适合大样本。Shapiro-Wilk检验:小样本数据的正态性检验。矩法正态性检验: 不限样本。问:用SPSS