正态性检验方法比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态性检验方法的比较
实际获得的数据,其分布往往未知。在数据分析中,经常要判断一组数据的分布是否来自某一特定的分布,比如对于连续性分布,常判断数据是否来自正态分布,而对于离散分布来说,常判断是否来自二项分布.泊松分布,或判断实际观测与期望数是否一致,然后才运用相应的统计方法进行分析。以下是几种正态性检验方法的比较。
一、2χ拟合优度检验:
(1)当总体分布未知,由样本检验总体分布是否与某一理论分布一致。
H0: 总体X的分布列为p{X=xi}=pi,i=1,2,……
H1:总体 X的分布不为pi
构造统计量
2χ=
2
1
k
i
n fi
pi
pi n
=
⎛⎫
-
⎪
⎝⎭
∑
=
()2
1
k
i
fi npi
npi
=
-
∑
其中fi为样本中Ai发生的实际频数,npi为H0为真时Ai发生的理论频数。
(2)检验原理
若2χ=0,则fi=npi,意味着对于Ai,观测频数与期望频数完全一致,即完全拟合。
观察频数与期望频数越接近,则2χ值越小。
当原假设为真时,有大数定理,fi
n
与pi 不应有较大差异,即2χ值应较小。
若2χ值过大,则怀疑原假设。
拒绝域为R={2χ>=d} ,判断统计量是否落入拒绝域,得出结论。
二、Kolmogorov-Smirnov 正态性检验:
Kolmogorov-Smirnov 检验法是检验单一样本是否来自某一特定分布。比如检验一组数据是否为正态分布。它的检验方法是以样本数据的累积频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布族。即对于假设检验问题:
H0:样本所来自的总体分布服从某特定分布
H1:样本所来自的总体分布不服从某特定分布
统计原理:Fo (x )表示分布的分布函数,Fn (x )表示一组随机样本的累计概率函数。
设D 为Fo(x)与Fn (x )差距的最大值,定义如下式:
D=max/Fn(x)-Fo(x)/
对于给定的a ,P{Dn>d}=a,其中P{Dn>d}=a
结论:当实际观测D>Dn,则接受H1,反之则不拒绝H0假设。 #
{,1,2,,}()i n x x i n F x n
≤==
*2χ
拟合优度检验与K-S 正态检验的比较: 2χ拟合优度检验与K-S 正态检验都采用实际频数与期望频数进行检验。他们之间最大的不同在于前者主要用于类别数据,而后者主要用于有计量单位的连续和定量数据,拟合优度检验虽然也可以用于定量数据,但必须先将数据分组才能获得实际的观测数据,而K-S 正态检验法可以把原始数据的n 个观测值进行检验,所以它对数据的利用较完整。
三、Lilliefor 正态分布检验
当总体均值和方差未知时,Lilliefor 提出用样本均值和标准差代替总体的期望和标准差,然后使用Kolmogorov-Smirnov 正态性检验法,它定义了一个D 统计量;
D=max/ Fn (x )- Fo (x )/参数未知,由22ˆˆ,X S μσ==计算得到
统计量,查表得Lilliefor 检验的临界值,确定拒绝域,得出结论。
四、偏度峰度检验法:
偏度系数
峰度系数 (一)、S.K 的极限分布
类似于参数估计中的U 检验法,即借助正态分布构造小概率事件。其检验统计量为:
332
2()B S B =4
223()B K B =-
()0,16/S
N n : ()0,124/K
N n :
E(S)=0 D(S)=6/n E(K)=0 D(K)=24/n
(二)、Jarque-Bera 检验: 检验统计量()2221~264n k JB S K χ-⎛⎫=+ ⎪⎝⎭ ,其中S 是偏度,K 是峰
度,k 是序列估计式中参数的个数。
JB 检验属于偏度,峰度联合检验法,P 值越大,越认为服从正态分布。一般认为,P>0.4,则保留原假设。
五、小样本场合(3 w 检验是检验样本容量n ≤50时,样本是否符合正态分布的一种方法。其检验步骤如下: ①将数据按数值大小重新排列,使x1≤x2≤…≤xn; ②计算 ③计算 式中:当n 为偶数时,i=n/2;n 为奇数时,i=(n - 1)/2; 值可查表得出; ④计算检验统计量 [2] 2 (1)()1 21[()] ()n i n i i i n i i a X X W X X +-==-=-∑∑ ⑤若W值小于判断界限值Wα(可通过查表求得),按表上行2 1()n i i X X =-∑ 写明的显著性水平α舍弃正态性假设;若W>Wα,接受正态性假设。 六、大样本场合(50 统计量: () 1 32 ()11()2()()n i i n i i n i X D n X X ==+- =-∑∑ 七、各种正态性检验方法的比较:一般通用的方法有2χ检验以及 K 检验,但检验精度较低。 偏度检验对非对称、长尾分布较敏感;峰度检验对对称分布较敏感;W 检验对各种分布(特别对非对称分布)都很敏感。当总体均值和方差未知且无先验信息时用Lilliefor 正态检验.大样本情况下D 检验是比较好的检验方法。但我们要知道,检验方法的功效性都是随着样本量的增大而增大的。