正态性检验 方法简介

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正态性检验方法简介
一、 Anderson-Darling 检验
Anderson —Darling 检验(简称A-D 检验)是一种拟合检验,此检验是将样本数据的经验累积分布函数与假设数据呈正态分布时期望的分布进行比较,如果差异足够大,该检验将否定总体呈正态分布的原假设。

样本数据的经验累积分布函数与理论累积分布函数之间的差异可通过两种分布之间的二次AD 距离进行衡量,若二次AD 距离小于置信水平下的临界值,则可认为样本数据来源于正态分布。

Anderson-Darling 检验的计算步骤如下:
1. 提出假设:
样本数据服从正态分布:0H ;分布不服从正态样本数据:0H ; 2. 计算统计量2A ,其计算步骤为:
➢ 首先将样本数据按照从小到大的顺序进行排序并编号,排在第i 位的数据
为i x ;
➢ 其次进行样本数据的标准化,计算公式如下:
S
x
x Y i i -=
(式1-1) 其中,x 为所有样本数据的平均值,S 为所有样本数据的标准差。

➢ 接着计算)(i Y F ,计算公式为
)
()(i i Y Y F φ=
(式1-2)
其中,其中φ为标准正态分布函数,可查表获得。

➢ 最后A 2值,计算公式如下:
[]{}
)
(1ln )(ln )12(1
11
2
i N i
N
i Y
F Y F i N
N A -+=-+--
-=∑
(式1-3)
其中,N 为样本总个数,i 为样本序号
3. 计算判定统计量2
'A ,计算公式为:
)25
.275.01(222
'N
N A A ++
= (式1-4)
4. 查找临界值:根据给定的显著性水平α,查《Anderson-Darling 临界值表》,得到临界值2
'αA ;
5. 作出判定:若2'A ≥2
'αA ,则在α水平上,拒绝0H ,即认为样本数据不服从正态分布;若2
'A <2
'αA ,则不能拒绝0H ,即认为样本数据服从正态分布。

例1. 采用Anderson-Darling 判断表1中的数据是否符合正态分布。

表1 A-D 检测样本数据
检验步骤如下:
1. 提出假设:样本数据服从正态分布:0H ;分布
不服从正态样本数据:0H ; 2. 计算统计量2A ,其计算步骤为:
➢ 首先将样本数据按照从小到大的顺序进行排序并编号,排在第i 位的数据
为i x ,如表2中的第2列所示; ➢ 按照式1-1进行样本数据的标准化,如:
823.1026.101.1014.811-=-=-=
S x x Y , 667.1026
.101
.1030.822-=-=-=S x x Y 其余依次类推,计算结果如表2中的第3列所示。

➢ 按照式1-2计算)(i Y F ,如:
034.0)823.1()()(11=-==φφY Y F ,048
.0)667.1()()(22=-==φφY Y F
其余依次类推,计算结果如表2中的第4列所示。

➢ 计算)(ln i Y F 和)](1ln[i Y F -,如:
376.3)034.0ln()(ln 1-==Y F ,035.0)034.01ln()](1ln[1-=-=-Y F
其余依次类推,计算结果如表2中的第5列和第6列所示。

➢ 计算)(1ln[)(ln 1-+-+i N i Y F Y F ,如:
当i =1时,
281
.8)095.4(376.3)](1ln[)(ln )](1ln[)(ln 5011-=-+-=-+=-+-+Y F Y F Y F Y F i N i 当i =2时,
960
.6)919.3(041.3)](1ln[)(ln )](1ln[)(ln 4921-=-+-=-+=-+-+Y F Y F Y F Y F i N i 其余依次类推,计算结果如表2中的第7列所示。

➢ 计算)(1ln[)(ln )12(1-+-+-i N i Y F Y F i ,如:
当i =1时,
281.8)](1ln[)(ln )]}(1ln[)(){ln 12(5011-=-+=-+--+Y F Y F Y F Y F i i N i
当i =2时,
879
.20)960.6(3)]}(1ln[)({ln 3)]}(1ln[)(){ln 12(4921-=-⨯=-+=-+--+Y F Y F Y F Y F i i N i 其余依次类推,计算结果如表2中的第8列所示。

➢ 最后计算2A :
[]{}
392.0)
612.2519(50
1
50)]
180.4()879.20(281.8[50
1
50)
(1ln )(ln )12(50
1
50150
1
2
=-⨯--=-++-+--
-=-+--
-=-+=∑ i N i
i Y
F Y F i A
表2 A-D检测计算过程表
3. 计算判定统计量2
'A ,
398.0)50
25
.25075.01(392.0)25.275.01(2222
'=++⨯=++
=N N A A 4. 查找临界值:根据给定的显著性水平α=0.05,查附件中
《Anderson-Darling 临界值表》,得到临界值752.02
'=αA ;
5. 作出判定:因为2
'A <2
'αA ,则不能拒绝0H ,即认为样本数据服从正态分
布。

二、 Ryan-Joiner 检验
此检验通过计算数据与数据的正态分值之间的相关性来评估正态性。

如果相关系数接近 1,则总体就很有可能呈正态分布。

Ryan-Joiner 统计量可以评估这种相关性的强度;如果它未达到适当的临界值,您将否定总体呈正态分布的原假设。

此检验类似于 Shapiro-Wilk 正态性检验。

Ryan-Joiner 检验的步骤为:
1. 提出假设:样本数据服从正态分布:0H ;分布
不服从正态样本数据:0H ; 2. 计算相关系数p R ,其计算步骤为:
➢ 首先将样本数据按照从小到大的顺序进行排序,排在第i 位的数据为i x ; ➢ 其次进行样本数据的标准化,计算公式如下:
S
x
x b i i -=
(式2-1)
其中,x 为所有样本数据的平均值,S 为所有样本数据的标准差。

➢ 然后p R 值,计算公式如下:
∑∑==-=
N
i i N
i i i p b
N S b
x R 1
2
21
)
1(
(式2-2)
其中,N 为样本总个数,i 为样本序号
3. 查找临界值:根据给定的显著性水平α,查《Ryan-Joiner 检测临界值表》,
得到临界值),(αn R p ;
4. 作出判定:若p R ≥),(αn R p ,则在α水平上,不能拒绝0H ,即认为样本数
据服从正态分布;若p R <),(αn R p ,则拒绝0H ,即认为样本数据不服从正态分布。

例2. 采用Ryan-Joiner 方法判断表3中的数据是否符合正态分布。

表3 Ryan-Joiner 检测样本数据
检测过程如下:
1. 提出假设:样本数据服从正态分布:0H ;分布
不服从正态样本数据:0H ;
2. 计算统计量p R ,其计算步骤为:
➢ 首先将样本数据按照从小到大的顺序进行排序并编号,排在第i 位的数据
为i x ,如表4中的第2列所示; ➢ 按照式2-1进行样本数据的标准化,如:
823.1026.101.1014.811-=-=-=
S x x b , 667.1026
.101
.1030.822-=-=-=S x x b 其余依次类推,计算结果如表2中的第3列所示。

➢ 计算i i b x ,如:
836.14)823.1(14.811-=-⨯=b x ,833.13)667.1(30.822-=-⨯=b x
其余依次类推,计算结果如表4中的第4列所示。

➢ 计算2i b ,如:
322.3)823.1(221=-=b ,778.2)667.1(222=-=b
其余依次类推,计算结果如表4中的第5列所示。

➢ 计算p R ,如:
987
.0486
.50818
.49)
937.5778.2322.3()150(026.1)482.30)833.13()836.14()
1(21
2
21
==
+++⨯-⨯++-+-=
-=
∑∑== N
i i N
i i i p b
N S b
x R 表4 Ryan —Joiner 检测过程计算表
5.查找临界值:根据给定的显著性水平α=0.05,查《Ryan-Joiner检测临界
值表》,得到临界值9766.0)05.0,50(=p R ;
6. 作出判定:因为p R ≥),(αn R p ,则在α水平上,不能拒绝0H ,即认为样本
数据服从正态分布。

三、 K-S 检验
K-S (Kolmogorov —Smirnov )检验是以两位苏联数学家柯尔莫哥(Kolmogorov )和斯米诺夫(Smirnov )命名的。

K-S 检验是一种拟合优度检验,研究样本观察值的分布和设定的理论分布间是否吻合,通过对两个分布差异的分析确定是否有理由认为样本的观察结果来自所设定的理论分布总体。

设)(x F n 是一个n 次观察的随机样本观察值的累积概率分布函数,即经验分布函数;)(0x F 是一个特定的累积概率分布函数,即理论分布函数。

定义
)()(0x F x F D n -=,显然若对每一个x 值来说,)(x F n 与)(0x F 十分接近,也就是差
异很小,则表明经验分布函数与特定分布函数的拟合程度很高,有理由认为样本数据来自具有该理论分布的总体。

K-S 检验主要考察的是绝对差数
)()(0x F x F D n -=中那个最大的偏差,即利用下面的统计量作出判断。

)
()(max 0max x F x F D n -=
(式3-1)
K-S 检验的步骤为:
1. 提出假设:)()(:00x F x F H n =,)()(:01x F x F H n ≠
2. 计算各个D ,找出统计量
max
D
3. 查找临界值:根据给定的显著性水平α和样本数据个数n ,查《单样本
K-S 检验临界值表》可以得到临界值αD
4. 作出判定:若max D ≥),(αn D ,则在α水平上,拒绝0H ,即认为样本数据
不服从正态分布;若max D <),(αn D ,则不能拒绝0H ,即认为样本数据服从正态分布。

例2:35位健康男性在未进食前的血糖浓度如表所示,试测验这组数据是否来自正态分布:
87, 77, 92, 68, 80, 78, 84, 77, 81, 80, 80, 77, 92 ,86 ,76 ,80 ,81 ,75 ,77, 72 ,81, 72, 84 ,86, 80 ,68 ,77, 87, 76, 77, 78, 92, 75, 80, 78
解:检验过程如下:
1.首先计算样本均值和标准差,经计算样本均值μ=79.7429,标准差
σ=5.93763,故做出如下假设:
H0:健康成人男性血糖浓度服均值为79.7429,标准差为5.93763的正态分布;
H1: 健康成人男性血糖浓度不服均值为79.7429,标准差为5.93763的正态分布;
2.计算检验统计量D值
➢ 首先将样本数据按照从小到大的顺序进行排列,并计算每个样本数据出
现的次数f 和累计次数F ,如表5中的第1、2、3列所示; ➢ 其次计算样本数据的经验分布函数)(x F n ,计算公式为:n
F
x F n =
)(。

其中F 为样本数据的累计次数,n 为样本总数,如:0571.035
2
)68(==
n F ,1143.035
4
)72(==
n F ,其余依次类推,计算结果如表5中的第4列所示; ➢ 然后进行样本数据的标准化,标准化计算公式为:S x
x x Z -=
)(,其中
x 为所有样本数据的平均值,S 为所有样本数据的标准差,如:
1.985.93763
79.7429
6868)68(-=-=-=S x Z 30.15.93763
79.74297272)72(-=-=-=
S x Z , 其余依次类推,计算结果如表5中的第5列所示;
➢ 接着计算样本数据的理论分布函数)(0x F ,计算公式为:)()(0Z x F φ=,
其中)(Z φ为标准正态分布函数,可通 过查找正态分布表获得,如:
0.0228)98.1()]68([)68(0=-==φφZ F ,0.0912)30.1()]72([)72(0=-==φφZ F ,
其余依次类推,计算结果如表5中的第6列所示;
➢ 计算K-S 的D 统计量,计算公式为:)()(0i n i i x F x F D -=,例如:
0.0332,)68()68()()(01101=-=-=n n F F x F x F D , 0.0182)72()72()()(02202=-=-=n n F F x F x F D
依次类推,计算结果如表5中的第7列所示。

➢ 最后找出统计量0.1590)max(max ==i D D
3. 查找临界值:根据给定的显著性水平α和样本数据个数n ,查《单样本K-S
检验临界值表》可以得到临界值),(αn D 。

取,05.0=α当n=35时,224.0=αD ,
4. 做出判定:由于max D = 0.1590<αD ,所以,不能拒绝0H ,即测试数据服从正态分布。

四、 关于Johnson 转换中Z 值选取的说明
在Johnson 转换中,需要根据正态性检验的结果进行Z 值的选取,根据所选取的正态性检验方法的不同,Z 值的选取方法也有所不同:
(1)Anderson-Darling 检验
若选用Anderson-Darling 检验,则应计算转换后数据的A 2
值和相应的2
'A 值,
从中选取最小的A 2 值,如果该A 2
值所对应的
2
'A
小于2
'αA 值,则相应的Z 值即为最
优的Z 值,且所对应的转换形式就是最优的 Johnson 转换形式。

若无法找到这样的z 值,则说明样本数据不适合进行Johnson 变换。

(2)Ryan-Joiner 检验
若选用Ryan-Joiner 检验,则应计算转换后数据的p R 值,从中选取最大的p
R 值,如果该p R 值大于临界值),(αn R p ,则相应的Z 值即为最优的Z 值,且所对应的转换形式就是最优的 Johnson 转换形式。

若无法找到这样的z 值,则说明样本数据不适合进行Johnson 变换。

(3)K-S 检验检验
若选用K-S 检验,则应计算转换后数据的max
D 值,从中选取最小的
max D
值,
如果该
max
D 小于临界值),(αn D ,则相应的Z 值即为最优的Z 值,且所对应的转换
形式就是最优的 Johnson 转换形式。

若无法找到这样的z 值,则说明样本数据不适合进行Johnson 变换。

附表一:Anderson-Darling临界值表
附表二:Ryan-Joiner检验临界值表
附表三:单样本K-S检验临界表。

相关文档
最新文档