正态性检验的一般方法汇总
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
一、 拟合优度检验:
( 1)当总体分布未知,由样本检验总体分布是否与某一理论分 布一致。
H0: 总体 X 的分布列为 p{X= }= ,i=1,2, ……
H1:总体 X 的分布不为 .
构造统计量
其中 为样本中 发生的实际频数 , 为 H0 为真时 发生的理 论频数。
( 2)检验原理
2
若 =0,则 = , 意味着对于 ,观测频数与期望频数完全一致, 即完全拟合。
②计算
n
(X i
i1
X )2
③计算 式中:当 n 为偶数时, i=n/2 ;n 为奇数时, i= (n-
1) /2 ; 值可查表得出;
④计算检验统计量
[ n 2]
[
ai ( X ( n 1 i ) X (i ) )] 2
W
i1 n
(Xi X )2
i1
⑤若W值小于判断界限值W α(可通过查表求得) ,按表上行 写明的显著性水平 α 舍弃正态性假设; 若W >W α, 接受正态性假 设。
2
观察频数与期望频数越接近,则 值越小。
2
当原假设为真时,有大数定理, 与 不应有较大差异,即 值 应较小。
2
若 值过大,则怀疑原假设。
2
拒绝域为 R={ d} ,判断统计量是否落入拒绝域, 得出结论。
二、 Kolmogorov-Smirnov 正态性检验: Kolmogorov-Smirnov 检验法是检验单一样本是否来自某一特定 分布。比如检验一组数据是否为正态分布。 它的检验方法是以样本数
六 、大样本场合( 50<n<100)的 D 检验
检验统计量:
n
n1
D
(i
i1
2 ) X (i)
n
Βιβλιοθήκη Baidu
3
( n)
2
( X(i ) X )
i1
再令
则在显著性水平 时,拒绝域为 分别为 Y 的 和
。其中 分位数。
总结
在各种正态性检验方法中,一般通用的方法有
2
检验以及 K 检
验,但检验精度较低。 偏度检验对非对称、长尾分布较敏感;峰度
设 D为 Fo(x) 与 Fn(x)差距的最大值,定义如下式 : D=max|Fn(x)-Fo(x)|
对于给定的 a,P{Dn>d}=a. 例如: 35 位健康男性在未进食前的血糖浓度如表所示,试测验这组 数据是否来自均值 μ=80,标准差 σ=6 的正态分布 87 77 92 68 80 78 84 77 81 80 80 77 92 86 76 80 81 75 77 72 81 90 84 86 80 68 77 87 76 77 78 92 75 80 78 n=35 检验过程如下:
称的,因此采取双尾检验的做法是合理的。
定理 1 设 为(*) 式中定义的偏度检验统计量,则 值为 0 ,方差为 6 的正态分布,即
渐进服从均
样本容量有限的情形, 使用渐进情形下的结论就会导致较高的出 错率,这也是偏度检验的一个缺陷。需要指出的是,只有在确定对称 性是唯一影响分布的形态时, 偏度检验才是合适的选择, 否则应该避 免使用偏度检验。
【引言 】一般实际获得的数据,其分布往往未知。在数据分析中,经 常要判断一组数据的分布是否来自某一特定的分布, 比如对于连续性 分布,常判断数据是否来自正态分布,而对于离散分布来说,常判断 是否来自二项分布 . 泊松分布,或判断实际观测与期望数是否一致, 然后才运用相应的统计方法进行分析。
几种正态性检验方法的比较。
假设 H0: 健康成人男性血糖浓度服从正态分布 H1: 健康成人男性血糖浓度不服从正态分布
计算过程如表:
结论:上表中的理论值 (x) 是根据标准化值 z 查表得到,实际上 D=max |Fn(x)- (x)|=0.1754<
查 D值表,故不能拒绝 H0 即健康成年男人血糖浓度服从正态分布, 当样本容量 n 大时可以用 Dα,n=1.36/ 求得结果,如上述 D0.55, 35=1.36/=0.2299=0.23 结论:当实际观测 D>Dn,则接受 H1,反之则不拒绝 H0假设。
正态性检验的一般方法
姓名:蓝何忠 学号: 1101200203 班号: 1012201
正态性检验的一般方法
【摘要】:正态分布是自然界中一种最常见的也是最重要的一种分布 . 因此 , 人们在实际使用统计分析时 , 总是乐于正态假定 , 但该假定是否 成立 , 牵涉到正态性检验 . 在一般性的概率统计教科书中 , 只是把这个 问题放在一般性的分布拟合下作简短处理 , 而这种 " 万精油 " 式的检验 方法 , 对正态性检验不具有特效 . 鉴于此 , 该文从不同角度出发介绍正 态性检验的几种常见的方法 , 并且就各种方法作了优劣比较 ,
(二)峰度检验
设随机变量 X 具有数学期望
和方差
, 为 X 的峰
度,所谓峰度检验,实际上是将正态性检验转化为检验如下假设:
如同偏度检验一样, 峰度为 3 的非正态分布也是存在的。 所以, 接受原假设 并不能表明 X 一定服从正态分布,这一事实也导致对
数据的正态性检验会有一定的出错率。
定义 2 设 检验的检验统计量为
据的累积频数分布与特定理论分布比较, 若两者间的差距很小, 则推 论该样本取自某特定分布族。即对于假设检验问题:
H0: 样本所来自的总体分布服从某特定分布 H1:样本所来自的总体分布不服从某特定分布 统计原理: Fo(x)表示分布的分布函数, Fn(x)表示一组随机 样本的累计概率函数。
Fn( x) #{ xi x, i 1,2, , n} n
三、Lilliefor 正态分布检验
该检验是对 Kolmogorov-Smirnov 检验的修正,当总体均值和方 差未知时, Lilliefor 提出用样本均值和标准差代替总体的期望和标 准差,然后使用 Kolmogorov-Smirnov 正态性检验法,它定义了一个 D统计量 ;
D=max Fn (x)- Fo(x)| 参数未知,由
2
拟合优度检验与 K-S 正态检验的比较:
2
拟合优度检验与 K-S 正态检验都采用实际频数与期望频数进 行检验。它们之间最大的不同在于前者主要用于类别数据, 而后者主
要用于有计量单位的连续和定量数据, 拟合优度检验虽然也可以用于 定量数据, 但必须先将数据分组得到实际观测频数, 并要求多变量之 间独立,而 K-S 正态检验法可以不分组直接把原始数据的 n 个观测值 进行检验,所以它对数据的利用较完整。
为随机变量 X 的 n 个相互独立的样本, 峰度
(*2)
定理 2 设 为(*2) 式中定义的峰度统计量,则
同偏度统计量一样 , 的收敛速度也是比较慢的 .
五、小样本场合( 3<n<50)的 W检验
w 检验是检验样本容量 n ≤50 时,样本是否符合正态分布的 一种方法。其检验步骤如下:
①将数据按数值大小重新排列,使 x1≤x2≤…≤ xn;
由于总体分布未知, 无法直接得到总体的偏度, 故可以利用样本 偏度作为检验上述假设的检验统计量,记
定义 1 设
为随机变量 X 的 n 个相互独立的样本,偏度检
验的检验统计量为
(*)
常被用于双尾检验,因为非正态分布可能出现左偏,也可能出
现右偏。在原假设成立时,
,在显著性水平
下取定
分位点 ,若
, 则拒绝原假设。事实上 , 的分布是对
计算得
到统计量,查表得 Lilliefor 检验的临界值, 确定拒绝域, 得出结论。
四 、偏度峰度检验法:
(一)偏度检验:
设随机变量 X 具有数学期望
和方差
偏度,所谓偏度检验就是检验如下假设:
, 为 X的
: =0
注意到,拒绝原假设 ,则可以认为样本不是来自正态总体。 接受原
假设 ,并不等价于接受原假设“样本来自正态总体” 。这是因为任 一对称分布的偏度都为 0,无法排除样本来自非正态的对称分布的可 能。因此,偏度检验只能检验数据分布的对称性。
检验对对称分布较敏感; W 检验对各种分布(特别对非对称分布)都
很敏感。当总体均值和方差未知且无先验信息时用 Lilliefor 正态检
验. 大样本情况下 D 检验是比较好的检验方法。但我们要知道,检验
方法的功效性都是随着样本量的增大而增大的。
一、 拟合优度检验:
( 1)当总体分布未知,由样本检验总体分布是否与某一理论分 布一致。
H0: 总体 X 的分布列为 p{X= }= ,i=1,2, ……
H1:总体 X 的分布不为 .
构造统计量
其中 为样本中 发生的实际频数 , 为 H0 为真时 发生的理 论频数。
( 2)检验原理
2
若 =0,则 = , 意味着对于 ,观测频数与期望频数完全一致, 即完全拟合。
②计算
n
(X i
i1
X )2
③计算 式中:当 n 为偶数时, i=n/2 ;n 为奇数时, i= (n-
1) /2 ; 值可查表得出;
④计算检验统计量
[ n 2]
[
ai ( X ( n 1 i ) X (i ) )] 2
W
i1 n
(Xi X )2
i1
⑤若W值小于判断界限值W α(可通过查表求得) ,按表上行 写明的显著性水平 α 舍弃正态性假设; 若W >W α, 接受正态性假 设。
2
观察频数与期望频数越接近,则 值越小。
2
当原假设为真时,有大数定理, 与 不应有较大差异,即 值 应较小。
2
若 值过大,则怀疑原假设。
2
拒绝域为 R={ d} ,判断统计量是否落入拒绝域, 得出结论。
二、 Kolmogorov-Smirnov 正态性检验: Kolmogorov-Smirnov 检验法是检验单一样本是否来自某一特定 分布。比如检验一组数据是否为正态分布。 它的检验方法是以样本数
六 、大样本场合( 50<n<100)的 D 检验
检验统计量:
n
n1
D
(i
i1
2 ) X (i)
n
Βιβλιοθήκη Baidu
3
( n)
2
( X(i ) X )
i1
再令
则在显著性水平 时,拒绝域为 分别为 Y 的 和
。其中 分位数。
总结
在各种正态性检验方法中,一般通用的方法有
2
检验以及 K 检
验,但检验精度较低。 偏度检验对非对称、长尾分布较敏感;峰度
设 D为 Fo(x) 与 Fn(x)差距的最大值,定义如下式 : D=max|Fn(x)-Fo(x)|
对于给定的 a,P{Dn>d}=a. 例如: 35 位健康男性在未进食前的血糖浓度如表所示,试测验这组 数据是否来自均值 μ=80,标准差 σ=6 的正态分布 87 77 92 68 80 78 84 77 81 80 80 77 92 86 76 80 81 75 77 72 81 90 84 86 80 68 77 87 76 77 78 92 75 80 78 n=35 检验过程如下:
称的,因此采取双尾检验的做法是合理的。
定理 1 设 为(*) 式中定义的偏度检验统计量,则 值为 0 ,方差为 6 的正态分布,即
渐进服从均
样本容量有限的情形, 使用渐进情形下的结论就会导致较高的出 错率,这也是偏度检验的一个缺陷。需要指出的是,只有在确定对称 性是唯一影响分布的形态时, 偏度检验才是合适的选择, 否则应该避 免使用偏度检验。
【引言 】一般实际获得的数据,其分布往往未知。在数据分析中,经 常要判断一组数据的分布是否来自某一特定的分布, 比如对于连续性 分布,常判断数据是否来自正态分布,而对于离散分布来说,常判断 是否来自二项分布 . 泊松分布,或判断实际观测与期望数是否一致, 然后才运用相应的统计方法进行分析。
几种正态性检验方法的比较。
假设 H0: 健康成人男性血糖浓度服从正态分布 H1: 健康成人男性血糖浓度不服从正态分布
计算过程如表:
结论:上表中的理论值 (x) 是根据标准化值 z 查表得到,实际上 D=max |Fn(x)- (x)|=0.1754<
查 D值表,故不能拒绝 H0 即健康成年男人血糖浓度服从正态分布, 当样本容量 n 大时可以用 Dα,n=1.36/ 求得结果,如上述 D0.55, 35=1.36/=0.2299=0.23 结论:当实际观测 D>Dn,则接受 H1,反之则不拒绝 H0假设。
正态性检验的一般方法
姓名:蓝何忠 学号: 1101200203 班号: 1012201
正态性检验的一般方法
【摘要】:正态分布是自然界中一种最常见的也是最重要的一种分布 . 因此 , 人们在实际使用统计分析时 , 总是乐于正态假定 , 但该假定是否 成立 , 牵涉到正态性检验 . 在一般性的概率统计教科书中 , 只是把这个 问题放在一般性的分布拟合下作简短处理 , 而这种 " 万精油 " 式的检验 方法 , 对正态性检验不具有特效 . 鉴于此 , 该文从不同角度出发介绍正 态性检验的几种常见的方法 , 并且就各种方法作了优劣比较 ,
(二)峰度检验
设随机变量 X 具有数学期望
和方差
, 为 X 的峰
度,所谓峰度检验,实际上是将正态性检验转化为检验如下假设:
如同偏度检验一样, 峰度为 3 的非正态分布也是存在的。 所以, 接受原假设 并不能表明 X 一定服从正态分布,这一事实也导致对
数据的正态性检验会有一定的出错率。
定义 2 设 检验的检验统计量为
据的累积频数分布与特定理论分布比较, 若两者间的差距很小, 则推 论该样本取自某特定分布族。即对于假设检验问题:
H0: 样本所来自的总体分布服从某特定分布 H1:样本所来自的总体分布不服从某特定分布 统计原理: Fo(x)表示分布的分布函数, Fn(x)表示一组随机 样本的累计概率函数。
Fn( x) #{ xi x, i 1,2, , n} n
三、Lilliefor 正态分布检验
该检验是对 Kolmogorov-Smirnov 检验的修正,当总体均值和方 差未知时, Lilliefor 提出用样本均值和标准差代替总体的期望和标 准差,然后使用 Kolmogorov-Smirnov 正态性检验法,它定义了一个 D统计量 ;
D=max Fn (x)- Fo(x)| 参数未知,由
2
拟合优度检验与 K-S 正态检验的比较:
2
拟合优度检验与 K-S 正态检验都采用实际频数与期望频数进 行检验。它们之间最大的不同在于前者主要用于类别数据, 而后者主
要用于有计量单位的连续和定量数据, 拟合优度检验虽然也可以用于 定量数据, 但必须先将数据分组得到实际观测频数, 并要求多变量之 间独立,而 K-S 正态检验法可以不分组直接把原始数据的 n 个观测值 进行检验,所以它对数据的利用较完整。
为随机变量 X 的 n 个相互独立的样本, 峰度
(*2)
定理 2 设 为(*2) 式中定义的峰度统计量,则
同偏度统计量一样 , 的收敛速度也是比较慢的 .
五、小样本场合( 3<n<50)的 W检验
w 检验是检验样本容量 n ≤50 时,样本是否符合正态分布的 一种方法。其检验步骤如下:
①将数据按数值大小重新排列,使 x1≤x2≤…≤ xn;
由于总体分布未知, 无法直接得到总体的偏度, 故可以利用样本 偏度作为检验上述假设的检验统计量,记
定义 1 设
为随机变量 X 的 n 个相互独立的样本,偏度检
验的检验统计量为
(*)
常被用于双尾检验,因为非正态分布可能出现左偏,也可能出
现右偏。在原假设成立时,
,在显著性水平
下取定
分位点 ,若
, 则拒绝原假设。事实上 , 的分布是对
计算得
到统计量,查表得 Lilliefor 检验的临界值, 确定拒绝域, 得出结论。
四 、偏度峰度检验法:
(一)偏度检验:
设随机变量 X 具有数学期望
和方差
偏度,所谓偏度检验就是检验如下假设:
, 为 X的
: =0
注意到,拒绝原假设 ,则可以认为样本不是来自正态总体。 接受原
假设 ,并不等价于接受原假设“样本来自正态总体” 。这是因为任 一对称分布的偏度都为 0,无法排除样本来自非正态的对称分布的可 能。因此,偏度检验只能检验数据分布的对称性。
检验对对称分布较敏感; W 检验对各种分布(特别对非对称分布)都
很敏感。当总体均值和方差未知且无先验信息时用 Lilliefor 正态检
验. 大样本情况下 D 检验是比较好的检验方法。但我们要知道,检验
方法的功效性都是随着样本量的增大而增大的。