spss正态性检验方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理论部分
正态分布是许多检验的基础,比如F检验,t检验,卡方检验等在总体不是正太分布是没有任何意义。因此,对一个样本是否来自正态总体的检验是至关重要的。当然,我们无法证明某个数据的确来自正态总体,但如果使用效率高的检验还无法否认总体是正太的检验,我们就没有理由否认那些和正太分布有关的检验有意义,下面我就对正态性检验方法进行简单的归纳和比较。
一、图示法
1. P-P图
以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,以样本值表现为直角坐标系的散点。如果数据服从正态分布,则样本点应围绕第一象限的对角线分布。
2. Q-Q图
以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为直角坐标系的散点。如果数据服从正太分布,则样本点应围绕第一象限的对角线分布。
以上两种方法以Q-Q图为佳,效率较高。
3. 直方图(频率直方图)
判断方法:是否以钟型分布,同时可以选择输出正态性曲线。
4. 箱线图
判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布。
5. 茎叶图
判断方法:观察图形的分布状态,是否是对称分布。
二、偏度、峰度检验法(冒牌K-S 检验法):
1. S ,K 的极限分布 样本偏度系数()
3
32
2B S B =;该系数用于检验对称性,S>0时,分布呈正偏态,S<0时,
分布呈负偏态。
样本峰度系数()
4
2
23B K B =
-;该系数用于检验峰态,K>0时为尖峰分布,S<0时为扁
平分布;当S=0,K=0时分布呈正态分布。
0H :F(x)服从正态分布 1H :F(x)不服从正态分布
当原假设为真时,检验统计量
~N(0,1)
~N(0,1)
对于给定的α,
R ||={|
>λ⋃|
>λ} 其中14
u
α
-
λ=
2. Jarque-Bera 检验(偏度和峰度的联合分布检验法)
检验统计量为 JB 22164n k S K -⎛⎫=
+ ⎪⎝⎭
()2
2χ~,JB 过大或过小时,拒绝原假设。
三、非参数检验方法
1. Kolmogorov-Smirnov 正态性检验(基于经验分布函数(ECDF )的检验)
()()0max ||n D F x F x =-
()n F x 表示一组随机样本的累计概率函数,()0F x 表示分布的分布函数。
当原假设为真时,D 的值应较小,若过大,则怀疑原假设,从而,拒绝域为
{}R D d =>。对于给定的α,{}p P D d α=>=,又ˆ{}n n
p P D D =≥ 2. Lilliefor 正态性检验 该检验是对Kolmogorov-Smirnov 检验的修正,参数
未知时,由22ˆˆ,X S μσ==可计算得检验统计量ˆn
D 的值。 3. Shapiro-Wilk(W 检验)
检验统计量:
(
)()(
)
()()()
2
12
2
1
1
n i i i n
n
i
i
i i a a X X W a
a
X X ===⎡⎤
--⎢⎥⎣⎦=--∑∑∑ 当原假设为真时,W 的值应接近于1,若值过小,则怀疑原假设,从而拒绝域为R {}W c =≤。在给定的α水平下 P {}W c ≤=α。
4. 2χ拟合优度检验(也是基于经验分布函数(ECDF )的检验)
检验统计量为
22
2
11()()k
k
i i i i i i i i f f np n p p n np χ==-=-=∑∑
1)k ~χ(-
22
2
11ˆ()ˆ()ˆˆk
k
i i i i i i i i f f np n p
p n np χ==-=-=∑∑1)k r ~χ(-- r 是被估参数的个数
若原假设为真时,2χ应较小,否则就怀疑原假设,从而拒绝域为2{}R d χ=≥,对
于给定的α,2{}P d χα≥= 又22ˆ{}p P χχ
=≥。 四、方法的比较
1. 图示法相对于其他方法而言,比较直观,方法简单,从图中可以直接判断,无需计算,但这种方法效率不是很高,它所提供的信息只是正态性检验的重要补充。
2. 经常使用的2χ拟合优度检验和Kolmogorov-Smirnov 检验的检验功效较低,在许多计算机软件的Kolmogorov-Smirnov 检验无论是大小样本都用大样本近似的公式,很不精准,一般使用Shapiro-Wilk 检验和Lilliefor 检验。
3. Kolmogorov-Smirnov 检验只能检验是否一个样本来自于一个已知样本,而Lilliefor 检验可以检验是否来自未知总体。
4. Shapiro-Wilk 检验和Lilliefor 检验都是进行大小排序后得到的,所以易受异常值的影响。
5. Shapiro-Wilk 检验只适用于小样本场合(3≤n ≤50),其他方法的检验功效一般随样本容量的增大而增大。
6. 2χ拟合优度检验和Kolmogorov-Smirnov 检验都采用实际频数和期望频数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov 检验只适用于连续和定量数据。