SPSS统计分析1:正态分布检验.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布检验
一、正态检验的必要性[1]
当对样本是否服从正态分布存在疑虑时,应先进行正态检验;如果有充分的理论依据或根据以往积累的信息可以确认总体服从正态分布时,不必进行正态检验。
当然,在正态分布存疑的情况下,也就不能采用基于正态分布前提的参数检验方
法,而应采用非参数检验。
二、图示法
1、P-P图
以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。
2、Q-Q图
以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。
Q-Q图为佳,效率较高。
以上两种方法以
3、直方图
判断方法:是否以钟形分布,同时可以选择输出正态性曲线。
4、箱式图
判断方法:观测离群值和中位数。
5、茎叶图
类似与直方图,但实质不同。
三、计算法
1、峰度(Kurtosis)和偏度(Skewness)
(1)概念解释
峰度是描述总体中所有取值分布形态陡缓程度的统计量。这个统计量需要与正态分布相比较,峰度为0表示该总体数据分布与正态分布的陡缓程度相同;峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比
较为平坦,为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异
程度越大。
峰度的具体计算公式为:
注:SD就是标准差σ。峰度原始定义不减3,在SPSS中为分析方便减3后与0作比较。
偏度与峰度类似,它也是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性。这个统计量同样需要与正态分布相比较,偏度为0表示其数据分布形态与正态分布的偏斜程度相同;偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值;偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值。偏度的绝对值数值越大表示其分布形态的偏斜程度越大。
偏度的具体计算公式为:
各种正态分布,尽管μ和σ可以分别取不同的值,但偏度都等于0,峰度都等于3,它们的密度函数曲线的形状都是一样的[1]。(SPSS中峰度减3与0比较
(2)适用条件
样本含量应大于200。
(3)检验方法
计算得到的峰度、偏度根据正态分布的值3、0(SPSS中为0、0)来直观判断是
否接近。
应对二者分别进行U检验来定量描述显著性,方法如下[2]:峰度U检验:|峰度-3| / 峰度标准差 <= U0.05 = 1.96(SPSS中将3替换为0)偏度U检验:|偏度-0| / 偏度标准差 <= U0.05 = 1.96
如果上述都成立,则可认为在0.05显著水平符合正态分布(下例偏度可判断不符合。
2、KS检验和SW检验
非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk(W检验)。
(1)KS检验和SW检验的区别
二者以样本量大小来区分适用范围,样本量的判定标准有以下几种不同说法:
①SAS软件规定:当样本含量n≤2000时,结果以Shapiro – Wilk(W检验)为准,当样
本含量n >2000时,结果以Kolmogorov – Smirnov(D检验)为准。
②SPSS软件规定:
a.如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-
Wilk统计量。对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统
“Shapiro – Wilk适用于样本量3-50之间的数据”
计量。由此可见,部分SPSS教材里面关于
的说法不准确。
b.单样本KS检验可用于检验变量(是否为正态分布。(理解为样本5000以上)
③国标GB/T 4882-2001《数据的统计处理和解释正态性检验》:SW检验适用于样本数8≤n≤50,小样本(n<8)对偏离正态分布的检验不太有效。
(2)KS检验的使用方法
KS检验属于非参数检验,SPSS有两种方式:一是explore(探索)结果中的KS检验(如下表),二是单样本KS检验。
在KS检验中,由于未考虑已知总体参数的情形,而是直接从样本中提取参数作为总体参数的估计值,因此它实质上是修正的正态检验,即Lilliefors修正。因此,KS检验不适用于小样本检验,而适合大样本的连续变量。SPSS在explore(探索)结果中会注明KS检验结果是“Lilliefors Significance Correction”,而在单样本KS检验中没有注明(根据网络资料,老版本SPSS此处未修正,新版本则进行了修正)。
因此,上述两种方式在新版本SPSS中是相同结果。
(3)SW检验的使用方法
SPSS没有专门的菜单选项,同样是在explore(探索)中给出SW检验结果(如下表)。
3.卡方检验
也叫Pearson卡方检验,主要用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立,主要依据观察频数与期望频数的差异来判断。注意,使用前提是样本量足够大(不小于50)[3,4],而且每个单元格中的期望频数不能太小,如果小于5则与相邻单元格合并;如果20%的单元格理论频率都小于5,卡方检验不再适用[4]。
注:SPSS中非参数检验卡方菜单只提供了均布的选项,其他分布需要手工填写分布频率,故不便于直接使用。
四、方法的比较