五、秩检验与游程检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应该拒绝 H 0 。
当 m ≤ n ≤ 10 时,也可以借用附表七得到 精确的临界值,但要把那里的 α = 0.10, 0.05 分别理解成 α = 0.05, 0.025 。
例 3.28 p164 某仪器厂更新了设备。为了考察 更新设备后生产的仪器使用寿命是否延长,收 集了两组数据(单位 100 小时) ,它们分别表示 仪器的使用寿命:
0 如果Z (i )来自总体X 记Ui = 1 如果Z (i )来自总体Y
(
)
, i = 1, 2,⋯ m + n
这样我们得到一个仅由 0 与 1 两个元素组成的序列
U1 ,U 2 ,… ,U m + n 。我们把连续出现 0(或 1)的一组数
称为一个游程,一个游程中所含 0(或 1)的个数称 为游程长度。
1 上的均匀分布,且 E ( Ri ) = ( n + 1) , 2 1 2 D ( Ri ) = ( n − 1) ; 12
对任意两个 i, j , i ≠ j , ( Ri , R j ) 服从二维
1 离散型均匀分布,且 cov ( Ri , R j ) = − ( n + 1) 12
在讨论两个方差相等的正态总体均值的比较 问题时,我们会看到它们仅有的差异体现在 均值,当均值相等时,两个总体的分布就完 全相同。在非参数型统计问题中,设两个总 体的分布函数分别为 F ( x ) 、 G ( x ) ,应如何 判断“ F ( x ) = G ( x ) ”?有一个常见的方法, 通过比较两个样本的经验分布函数来处理。
当 H 0 成立(即 F ( x ) = G ( x ) )且 m 、 n ≥ 20 时,
2mn 4m 2 n 2 , 近似的有 U N ∼ N 。因此,给定 3 m + n (m + n)
显著性水平 α ,取临界值
2mn cN = − u1−α m+n
(
2mn m+n
更新设备前 7
26
40 38 27
更新设备后 3 150 42 84 72 48 101
试问,
在显著性水平 2.5%下,能否认为设备更新后仪器 的使用寿命显著延长?
(三)游程检验 设 ( X 1 ,… , X m ) 是取自总体 X 的一个样本,
(Y1 ,… , Yn ) 是取自总体 Y 的一个样本;这两个
i =1 m
秩之和。给定显著性水平 α ,检验的拒绝域为
T < c1 或者 T > c2 。当 m ≤ n ≤ 10 时,临界值 c1 、 c2
可以查附表七得到。这个检验称为(两样本)秩和检验。
T 是一个离散型随机变量,它的取值范围为
1 1 1 m ( m + 1) , m ( m + 1) + 1,⋯ , m ( m + 2n + 1) 2 2 2
(二)秩和检验 在非参数型统计问题中,设两个总体的分布函数
F ( x ) 、 G ( x ) 满足 G ( x ) = F ( x − δ ) ,应该如何判
断“ F ( x ) = G ( x ) ”是否成立?称未知参数 δ 为位 置参数。
设 ( X 1 ,… , X m ) 是取自总体 X 的一个样本, (Y1 ,… , Yn ) 是取自总体 Y 的一个样本;这两个总体的分布函数分 别为 F ( x ) 、 G ( x ) ,未知但满足 G ( x ) = F ( x − δ ) 且连续。要检验 H 0 : δ = 0 ( H1 : δ ≠ 0 )
在比较两个正态总体的均值时,我们把“ µ1 = µ2 ” 转化成“ µ1 − µ 2 = 0 ” 。记 δ = µ 2 − µ1 ,可以验证下 列等式:记 N ( µ1 , σ 2 ) 的分布函数为 F ( x ) , N ( µ2 , σ 2 ) 的分布函数为 G ( x ) ,则有
x − (δ + µ1 ) x − µ2 G ( x) = Φ = Φ σ σ ( x − δ ) − µ1 = Φ = F (x −δ ) σ
例:110000100111。这个序列一共有 5 个游程, 长度分别为 2、4、1、2、3。
游程的总个数 U N 与最大游程长度 U L 都是统计量。
游程(总个数)检验: 给定显著性水平 α ,检验的拒绝域为 U N < cN 。 当 m ≤ n ≤ 20 时,临界值 cN 可以查附表八得到。 这个检验称为游程(总个数)检验。
把两个样本合在一起:记为
( Z1 ,⋯ Z m+ n ) = ( X 1 ,… , X m , Y1 ,… , Yn ) ,称它为合样本。
它的秩统计量记为 ( R1 ,… , Rm + n ) ,Wilcoxon 取检验 统计量 T = ∑ Ri ,即 T 是 X 1 ,… , X m 在合样本中的
设 ( X 1 ,… , X n ) 是取自正态总体的一个样本。 首先被怀疑的应该是 X (1) 与 X ( n ) 。判断它们 是否是异常值可以用假设检验问题来处理, 即在显著性水平 α 下检验:
H 0 : X (1) 来自正态总体
(或 H 0 : X ( n ) 来自正态总体)
(1) 假定 σ 2 已知 奈尔提出取检验统计量 TN =
定理:设总体 X 的分布函数连续; ( X 1 ,… , X n ) 是取自这个总体的一个样本。秩统计量 ( R1 ,… , Rn ) 服从 n 维离散型均匀分布,它取 (1, 2,⋯ , n ) 的任意
1 一个置换的值的概率都是 。 n!
定理:设总体 X 的分布函数连续; ( X 1 ,… , X n ) 是取自这个总体的一个样本。 对任意一个 i = 1, 2,⋯ n , Ri 服从集合 {1, 2,⋯ , n}
)
3
游程(最大长度)检验: 给定显著性水平 α ,检验的拒绝域为 U L > cL 。 当 m ≤ n ≤ 20 时,临界值 cL 可以查附表九得到。 这个检验称为游程(最大长度)检验。
例 3.30 p169 例 3.31 p170
六、正态数据中异常值的判断与处理
数据中存在一些过大或者过小的数值,在统计 中把这类值称为异常值。如何从数据中找出异 常值?找出之后如何处理?下面假定数据来自 某个正态总体 N ( µ , σ 2 ) 。
五、秩检验与游程检验
(一)秩统计量及其分布 定义:设 ( X 1 ,… , X n ) 是一个样本, X (1) ,… , X ( n )
(
)
是次序统计量。如果 X i = X ( k ) 那么称 k 为 X i 在样 本 ( X 1 ,… , X n ) 中的秩,记作 Ri 。对每一个
i = 1, 2,⋯ n ,称 Ri 为第 i 个秩统计量。
定理:当 H 0 成立时(即 F ( x ) = G ( x ) 时) ,秩和 检验统计量 T 的均值和方差分别为
1 1 E (T ) = m ( m + n + 1) ; D (T ) = mn ( m + n + 1) 2 12
当 H 0 成立时(即 F ( x ) = G ( x ) 时)且 m 、 n 不太小 ( ≥ 10 ) 时,
X − X (1)
σ
(或 TN =
X (n) − X
σ
)
对于给定的显著性水平 α ,检验的拒绝域为 TN > cN (或 TN > d N ) 。 可以证明,两种方式定义的 TN 的分布在 H 0 成立时相同, 因此临界值 cN = d N ,可以查附表十得到。这个检验称为 奈尔检验。
在检验异常值的时候,一般采用逐个检验的方法。 比较 x − x(1) 与 x( n ) − x 的大小,如果前者大,便先 检验 X (1) ;反之,则先检验 X ( n ) 。如果检验的结论 是不能拒绝 H 0 ,那么终止检验。否则对剩下的 n − 1 个数据重新使用奈尔检验法。由于已知大部分数据 来自某个正态总体,因此可以事先规定打算检验的 异常值的个数上限。
(2)假定 σ 2 未知 格拉布斯提出取检验统计量 TG =
X ( n) ቤተ መጻሕፍቲ ባይዱ X S
∗
X − X (1) S∗
(或 TG =
) ,
类似的可以证明,两种方式定义的 TG 的分布在 H 0 成立 时相同。于是对于给定的显著性水平 α ,检验的拒绝域 为 TG > cG 。临界值 cG 可以查附表十一得到。这个检验称 为格拉布斯检验。具体实施方法与奈尔检验相同。
1 1 近似的有 T ∼ N m ( m + n + 1) , mn ( m + n + 1) 12 2
因此,给定显著性水平 α ,取临界值
1 1 c1 = m ( m + n + 1) − u α mn ( m + n + 1) 1− 2 2 12 1 1 c2 = m ( m + n + 1) + u α mn ( m + n + 1) 1− 2 2 12
1 1 T < m ( m + n + 1) − u1−α mn ( m + n + 1) 时 2 12
应该拒绝 H 0 。
如果要检验 H 0 : δ ≥ 0
( H1 : δ < 0 )
那么,对于给定的(近似)显著性水平 α , 且 m 、 n ≥ 10 ,当
1 1 T > m ( m + n + 1) + u1−α mn ( m + n + 1) 时 2 12
例 3.27 p163
假定不知道认为断裂强力服从
正态分布是否合理,但知道两个总体分布函数 的不同仅是位置参数引起的,在显著性水平 10% 下判断两种温度下的断裂强力有无显著差异。
利用秩和检验也可以处理单侧假设检验问题。 如果要检验 H 0 : δ ≤ 0 ( H1 : δ > 0 )
那么,对于给定的(近似)显著性水平 α , 且 m 、 n ≥ 10 ,当
总体的分布函数分别为 F ( x ) 、 G ( x ) ,未知但 足 G ( x ) = F ( x − δ ) 且连续。要检验
H0 : δ = 0
( H1 : δ ≠ 0 )
把合样本 ( Z1 ,⋯ Z m + n ) = ( X 1 ,… , X m , Y1 ,… , Yn ) 按 从小到大的次序排列,得到次序统计量 Z (1) ,⋯ Z ( m + n ) ,