2.5 关于随机性的游程检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解:假设检验 H 0 : 序列是随机的 H1 : 序列具有成群的倾向 略
于是在水平 0.00012 时拒绝零假设
也可使用命令 run.test (y, median(y)) 得到精确的双边检验的p 值为 0.00012
五、 随机性的游程检验的应用
1. 检验两个总体的位置参数是否相同 例题:检验 X 和 Y 分布函数是否相同 在我国的工业和商业企业中随机抽取22家企业进行资产负 债率行业差异分析,其1999年底的资产负债率(%)如下:
工 业 商
64 77
76 55 82 59 82 70 75 61 64 73 83 80 80 65 93 91 84 91 84 86
业
问:两个行业的负债水平是否有显著性差异 ( 0.05)
解:排序寻找游程 顺序 1 2 负债率 55 组别 8 73 1 9 75 1 1 10 76 1 59 1
m n
2
(m n 1)
因此可以用正态分布表得到 p 值和检验结果, 这时,在给定水平 后,可以用近似公式得到拒绝域的临界值 c1 和 c2 ,满足 P( R c1 ) 及 P( R c2 ) .
三、确定 p值
若 p 值相对于给定的显著性水平 小,则数据不支持 H 0; 若足够大,则不拒绝 H 0。
例 2.6 如在工厂的全面质量管理中,生产出来的 20 个工件的某 一尺寸按顺序为 X 1 , X 2 , , X 20 单位cm 12.27 9.92 10.81 11.79 11.87 10.90 11.22 10.80 10.33 9.30 9.81 8.85 9.32 8.67 9.32 9.53 9.58 8.94 7.89 10.77 人们想知道生产出来的工件尺寸变化是否只是由于随机因素, 还是有其它非随机因素
2. 当样本很大时,当数据序列的量很大时,即 n , 在零假设下,根据精确分布的性质可以得到 E ( R) 2 Var ( R ) mn 1 mn 2mn(2mn m n)
m n
2
(m n 1)
于是 R E ( R) Z Var ( R) mn R2 1 mn N (0,1) 2mn(2mn m n)
函数 run.test (计算概率 P( R r ) ,P( R r ) 和 p 值的函数 ) 在输入函数 run.test (x) 之后,输出了 m, n 以及双边精确的和 渐近的 p 值,还输出涉及 p 值的 P( R r ) ,P( R r ) 的精确值 和渐近值
在输入函数 run.test (x) 之后,输出了 m, n 以及双边精确的和 渐近的 p 值,还输出涉及 p 值的 P( R r ) ,P( R r ) 的精确值 和渐近值 其中 P( R r ) =0.00072,P( R r ) =0.99980,而相应的渐近值 分别为 0.000751, 0.99925. 双边精确 p 值为0.00144 (渐近的 p 值为 0.00150) 因此,可以在水平 0.0015 时,认为该数串不是随机的 (拒绝零假设)
假定有 m 个 0 和 n 个 1,m n N,出现任何一种不同结构序列的 N N 可能性是 1 1 n m
如果游程个数为奇数R 2k+1,这意味着 如果游程数为偶数R 2k,这意味着 0 和 1 各有 k 个游程, 于是得到 R 的条件分布为
有 k 1 个 1 游程和 k 个 0 游程;或有 k 1 个 0 游程和 k 个 1 游程。
二、检验统计量
检验统计量为: R 游程个数 例如,对于序列 1100001110110000111100, R=8,游程长度分别为 2,4,3,1,2,4,4,2 极端情况: 000001111111 R=2 0101010101010 R = 2min(m,n)+1 所以,2 ≤ R ≤ 2min(m,n)+1 极端情况都说明数据不具有随机性。 那么 R 服从什么分布呢?
在数据出现顺序是否随机的检验中,一个典型的序列就是 二元0/1序列出现顺序的随机性问题 在一个二元序列中,0和1交替出现,一个由0或1连续构成 的串称为一个游程(run),一个游程中数据的个数称为游程的长 度。 一个序列里游程个数用R表示, R表示0和1交替轮换的频 繁程度。容易看出, R是序列中0和1交替轮换的总次数加1. 假如我们掷一个硬币,这是一个伯努利试验,将正面向上 记做1,将反面向上记做0,例如我们得到一列这样的结果: 00000001111110000111100 如果称连在一起的0或1为游程,则上面这组数中有3个0游 程,2个1游程,一共是5个游程 (R=5) 这里0的总个数为 m=13,1的总个数为 n=10. 记总的试验 次数为 N,有 N=m+n
3 61 1 11Байду номын сангаас77 2
4 64 1 12 80 2 13 80 2
5 64 1 14 82 1
6 65 2
7 70 1
15 82
1
16 83
1
17 84
2
18 84
2
19 86
2
20 91
2
21 91
2
22 93
2
11111,2,1111,222,111,222222 共有6各游程。 如果原假设成立,则两个行业的负债水平的分布是相同 的,将其混合后,应能较为充分、均匀地混合,游程数R应 该比较大 反之当游程数R较小,则说明两个总体的分布可能不同, 因此是一个左边检验。
建立了抽样分布,根据分布公式就可以得到在 H(即随机性) 0 成立时,P( R r ) 或 P( R r ) 的值,计算拒绝域进行检验。 —— Wald -Wolfowitz 检验
1. 在 m 和 n 不大时,可以用计算器或查表来进行计算 通常的表是给出水平 0.025, 0.05 及 m 和 n 时,拒绝域的 临界值 c1 和 c2,满足 P( R c1 ) 及 P( R c2 ) .
查表的 n1= 12,n2= 10 的下临界值为 7,因此拒绝 H0 .
2. 检验单样本的随机性 从生产线上抽取产品检验,是否应采用频繁抽取小样本的 方法。 在一个刚刚建成的制造厂内,质检员需要设计一种抽样方 法,以保证质量检验的可靠性。生产线上抽取的产品可以分成 两类,有瑕疵,无瑕疵。检验费用与受检产品数量有关。一般 情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样 本,进行检验。如果有毛病的产品是随机产生的,则每天以间 隔较长地抽取一个大样本。 例 现随机抽了30件产品,按生产线抽取的顺序排列: 0000111111111111110001111111 问:检验瑕疵的产品是随机出现的吗?
二、随机游程的检验
Mood (1940) 提出关于这一问题的检验 假设检验: 随机抽取一个样本,其观察值按某种顺序排列,如果 研究所关心的问题是:被有序排列的两种类型符号是否随 机排列,则可以建立双侧备择.
H0 : 数据出现顺序随机 H1 : 数据出现顺序不随机
如果关心的是序列是否具有某种倾向,则应建立单侧备择
m 1 n 1 2 k 1 k 1 P ( R 2k ) N n m 1 n 1 m 1 n 1 k 1 k k k 1 P ( R 2k 1) N n
R 的分布
X1, X 2 , , X n 是一列由0或1构成的序列,假设检验问题 H 0 : 数据出现顺序随机 H1 : 数据出现顺序不随机
在零假设 H 0 成立的情况下,X i ~b 1, p ,p 是 1 出现的概率。
n p 由 确定,游程个数 R 的分布与 p 有关 N 然而,在已知 m 和 n 时,游程个数 R 的条件分布就与 p 无关了
2.3
关于随机性的游程检验
在实际中,经常需要考虑一个序列中的数据出现是否与 顺序无关,这关系到数据是否独立. 几乎所有经典统计方法在理论上都要求样本是随机样本, 即要求重复观察到的一组变量值在统计上相互独立。 参数统计很难考察这一问题,但从非参数的角度考察时, 若数据出现趋势,周期性规律,就不能表示数据是独立的。 这些问题可以转化为 0-1 序列或类型出现顺序的随机性问 题。 游程检验就是检验数据出现顺序是否随机,其出发点是 检验样本的独立性。
一、游程
一个两分的总体,如按性别区分的人群,按产品是否有毛 病区分的总体等等,随机从中拍取一个样本,样本也可以分为 两类:类型1和类型2. 凡属类型1的记做0,类型2的记做1 当样本按某种顺序排列(如按抽取时间先后排列)时,一个 或者一个以上相同符号连续出现的段,就被称作游程,也就是 说,游程是在一个两种类型的符号的有序排列中,相同符号连 续出现的段。
解:Step 1. 先找出它们的中位数 X med 9.865,再把大于 X med 的 记做 1,小于的记做 0,于是产生一串 1 和 0: 11111111100000000001
Step 2. R 3, m 10, n 10, P( R 3) 0.00006, p 值 2 min P( R 3) , P( R 3) 0.00012
H0 : 序列是随机的 H1 : 序列具有混合的倾向 H0 : 序列是随机的 H1 : 序列具有成群的倾向
注:
1. 为了对假设作出判定,被收集的样本数据仅需定类尺度 测量,但要求进行有意义的排序,按一定次序排列的样本观 察值能够被变换为两种类型的符号(比如 二元0/1序列)
2. 在H0为真的情况下,两种类型符号出现的可能性相等, 其在序列中是交互的。相对于一定的 m和n,序列游程的总 数应在一个范围内。 若游程的总数过少,表明某一游程的长度过长,意味着 许多0 或许多1 连在一起,序列存在成群的倾向; 若游程总数过多,表明游程长度很短,意味着 0 和1交 替出现得太频繁,序列具有混合的倾向。 因此,无论游程的总数 R 过多或过少,都表明序列不是 随机的。
备择假设 H1
p值
序列具有混合的倾向(游程大)
Z 的右尾概率 Z 的左尾概率 Z 较小的尾巴概率的两倍
序列具有聚类的倾向(游程小)
序列是非随机的
四、总结 随机性的游程检验
检验统计量
p值
H0 : 有随机性 H1 : 无随机性
K 游程 R
P K k
m 和 n 较大时,用近似正态统计量 Z
如果 0/1 序列中0和1出现的顺序规律性不强,随机性强,则 0和1出现不会太集中,也不会太分散。换句话说,可以通过0 和1出现的集中程度度量序列随机性的大小。 若序列随机,则游程的个数不能太多,也不能太少。游程 长度也不应太长或太短。相应地,就会出现游程个数检验和 游程长度检验。 在固定序列长度 m和n时,可以通过游程的个数 R 过多或 过少来定义假设检验的拒绝域。
mn R2 1 mn 2mn(2mn m n)
m n
2
(m n 1)
对显著性水平 ,如果 p 值 ,拒绝零假设,否则不能拒绝
例2.5 假如我们掷一个硬币,将正面向上记做1,将反面向上 记做0,例如我们得到一列这样的结果: 00000001111110000111100 假定在 R软件中,x代表上面的数据,则游程个数可由语句 N=length(x); k=1; for (i in 1: (N-1)) if (x[i]!=x[i+1])k=k+1 得到。 而“0”的个数 m 和“1”的个数 n 可由下面语句得到: m=sum(1-x); n=sum(x)
于是在水平 0.00012 时拒绝零假设
也可使用命令 run.test (y, median(y)) 得到精确的双边检验的p 值为 0.00012
五、 随机性的游程检验的应用
1. 检验两个总体的位置参数是否相同 例题:检验 X 和 Y 分布函数是否相同 在我国的工业和商业企业中随机抽取22家企业进行资产负 债率行业差异分析,其1999年底的资产负债率(%)如下:
工 业 商
64 77
76 55 82 59 82 70 75 61 64 73 83 80 80 65 93 91 84 91 84 86
业
问:两个行业的负债水平是否有显著性差异 ( 0.05)
解:排序寻找游程 顺序 1 2 负债率 55 组别 8 73 1 9 75 1 1 10 76 1 59 1
m n
2
(m n 1)
因此可以用正态分布表得到 p 值和检验结果, 这时,在给定水平 后,可以用近似公式得到拒绝域的临界值 c1 和 c2 ,满足 P( R c1 ) 及 P( R c2 ) .
三、确定 p值
若 p 值相对于给定的显著性水平 小,则数据不支持 H 0; 若足够大,则不拒绝 H 0。
例 2.6 如在工厂的全面质量管理中,生产出来的 20 个工件的某 一尺寸按顺序为 X 1 , X 2 , , X 20 单位cm 12.27 9.92 10.81 11.79 11.87 10.90 11.22 10.80 10.33 9.30 9.81 8.85 9.32 8.67 9.32 9.53 9.58 8.94 7.89 10.77 人们想知道生产出来的工件尺寸变化是否只是由于随机因素, 还是有其它非随机因素
2. 当样本很大时,当数据序列的量很大时,即 n , 在零假设下,根据精确分布的性质可以得到 E ( R) 2 Var ( R ) mn 1 mn 2mn(2mn m n)
m n
2
(m n 1)
于是 R E ( R) Z Var ( R) mn R2 1 mn N (0,1) 2mn(2mn m n)
函数 run.test (计算概率 P( R r ) ,P( R r ) 和 p 值的函数 ) 在输入函数 run.test (x) 之后,输出了 m, n 以及双边精确的和 渐近的 p 值,还输出涉及 p 值的 P( R r ) ,P( R r ) 的精确值 和渐近值
在输入函数 run.test (x) 之后,输出了 m, n 以及双边精确的和 渐近的 p 值,还输出涉及 p 值的 P( R r ) ,P( R r ) 的精确值 和渐近值 其中 P( R r ) =0.00072,P( R r ) =0.99980,而相应的渐近值 分别为 0.000751, 0.99925. 双边精确 p 值为0.00144 (渐近的 p 值为 0.00150) 因此,可以在水平 0.0015 时,认为该数串不是随机的 (拒绝零假设)
假定有 m 个 0 和 n 个 1,m n N,出现任何一种不同结构序列的 N N 可能性是 1 1 n m
如果游程个数为奇数R 2k+1,这意味着 如果游程数为偶数R 2k,这意味着 0 和 1 各有 k 个游程, 于是得到 R 的条件分布为
有 k 1 个 1 游程和 k 个 0 游程;或有 k 1 个 0 游程和 k 个 1 游程。
二、检验统计量
检验统计量为: R 游程个数 例如,对于序列 1100001110110000111100, R=8,游程长度分别为 2,4,3,1,2,4,4,2 极端情况: 000001111111 R=2 0101010101010 R = 2min(m,n)+1 所以,2 ≤ R ≤ 2min(m,n)+1 极端情况都说明数据不具有随机性。 那么 R 服从什么分布呢?
在数据出现顺序是否随机的检验中,一个典型的序列就是 二元0/1序列出现顺序的随机性问题 在一个二元序列中,0和1交替出现,一个由0或1连续构成 的串称为一个游程(run),一个游程中数据的个数称为游程的长 度。 一个序列里游程个数用R表示, R表示0和1交替轮换的频 繁程度。容易看出, R是序列中0和1交替轮换的总次数加1. 假如我们掷一个硬币,这是一个伯努利试验,将正面向上 记做1,将反面向上记做0,例如我们得到一列这样的结果: 00000001111110000111100 如果称连在一起的0或1为游程,则上面这组数中有3个0游 程,2个1游程,一共是5个游程 (R=5) 这里0的总个数为 m=13,1的总个数为 n=10. 记总的试验 次数为 N,有 N=m+n
3 61 1 11Байду номын сангаас77 2
4 64 1 12 80 2 13 80 2
5 64 1 14 82 1
6 65 2
7 70 1
15 82
1
16 83
1
17 84
2
18 84
2
19 86
2
20 91
2
21 91
2
22 93
2
11111,2,1111,222,111,222222 共有6各游程。 如果原假设成立,则两个行业的负债水平的分布是相同 的,将其混合后,应能较为充分、均匀地混合,游程数R应 该比较大 反之当游程数R较小,则说明两个总体的分布可能不同, 因此是一个左边检验。
建立了抽样分布,根据分布公式就可以得到在 H(即随机性) 0 成立时,P( R r ) 或 P( R r ) 的值,计算拒绝域进行检验。 —— Wald -Wolfowitz 检验
1. 在 m 和 n 不大时,可以用计算器或查表来进行计算 通常的表是给出水平 0.025, 0.05 及 m 和 n 时,拒绝域的 临界值 c1 和 c2,满足 P( R c1 ) 及 P( R c2 ) .
查表的 n1= 12,n2= 10 的下临界值为 7,因此拒绝 H0 .
2. 检验单样本的随机性 从生产线上抽取产品检验,是否应采用频繁抽取小样本的 方法。 在一个刚刚建成的制造厂内,质检员需要设计一种抽样方 法,以保证质量检验的可靠性。生产线上抽取的产品可以分成 两类,有瑕疵,无瑕疵。检验费用与受检产品数量有关。一般 情况下,有毛病的产品如果是成群出现的,则要频繁抽取小样 本,进行检验。如果有毛病的产品是随机产生的,则每天以间 隔较长地抽取一个大样本。 例 现随机抽了30件产品,按生产线抽取的顺序排列: 0000111111111111110001111111 问:检验瑕疵的产品是随机出现的吗?
二、随机游程的检验
Mood (1940) 提出关于这一问题的检验 假设检验: 随机抽取一个样本,其观察值按某种顺序排列,如果 研究所关心的问题是:被有序排列的两种类型符号是否随 机排列,则可以建立双侧备择.
H0 : 数据出现顺序随机 H1 : 数据出现顺序不随机
如果关心的是序列是否具有某种倾向,则应建立单侧备择
m 1 n 1 2 k 1 k 1 P ( R 2k ) N n m 1 n 1 m 1 n 1 k 1 k k k 1 P ( R 2k 1) N n
R 的分布
X1, X 2 , , X n 是一列由0或1构成的序列,假设检验问题 H 0 : 数据出现顺序随机 H1 : 数据出现顺序不随机
在零假设 H 0 成立的情况下,X i ~b 1, p ,p 是 1 出现的概率。
n p 由 确定,游程个数 R 的分布与 p 有关 N 然而,在已知 m 和 n 时,游程个数 R 的条件分布就与 p 无关了
2.3
关于随机性的游程检验
在实际中,经常需要考虑一个序列中的数据出现是否与 顺序无关,这关系到数据是否独立. 几乎所有经典统计方法在理论上都要求样本是随机样本, 即要求重复观察到的一组变量值在统计上相互独立。 参数统计很难考察这一问题,但从非参数的角度考察时, 若数据出现趋势,周期性规律,就不能表示数据是独立的。 这些问题可以转化为 0-1 序列或类型出现顺序的随机性问 题。 游程检验就是检验数据出现顺序是否随机,其出发点是 检验样本的独立性。
一、游程
一个两分的总体,如按性别区分的人群,按产品是否有毛 病区分的总体等等,随机从中拍取一个样本,样本也可以分为 两类:类型1和类型2. 凡属类型1的记做0,类型2的记做1 当样本按某种顺序排列(如按抽取时间先后排列)时,一个 或者一个以上相同符号连续出现的段,就被称作游程,也就是 说,游程是在一个两种类型的符号的有序排列中,相同符号连 续出现的段。
解:Step 1. 先找出它们的中位数 X med 9.865,再把大于 X med 的 记做 1,小于的记做 0,于是产生一串 1 和 0: 11111111100000000001
Step 2. R 3, m 10, n 10, P( R 3) 0.00006, p 值 2 min P( R 3) , P( R 3) 0.00012
H0 : 序列是随机的 H1 : 序列具有混合的倾向 H0 : 序列是随机的 H1 : 序列具有成群的倾向
注:
1. 为了对假设作出判定,被收集的样本数据仅需定类尺度 测量,但要求进行有意义的排序,按一定次序排列的样本观 察值能够被变换为两种类型的符号(比如 二元0/1序列)
2. 在H0为真的情况下,两种类型符号出现的可能性相等, 其在序列中是交互的。相对于一定的 m和n,序列游程的总 数应在一个范围内。 若游程的总数过少,表明某一游程的长度过长,意味着 许多0 或许多1 连在一起,序列存在成群的倾向; 若游程总数过多,表明游程长度很短,意味着 0 和1交 替出现得太频繁,序列具有混合的倾向。 因此,无论游程的总数 R 过多或过少,都表明序列不是 随机的。
备择假设 H1
p值
序列具有混合的倾向(游程大)
Z 的右尾概率 Z 的左尾概率 Z 较小的尾巴概率的两倍
序列具有聚类的倾向(游程小)
序列是非随机的
四、总结 随机性的游程检验
检验统计量
p值
H0 : 有随机性 H1 : 无随机性
K 游程 R
P K k
m 和 n 较大时,用近似正态统计量 Z
如果 0/1 序列中0和1出现的顺序规律性不强,随机性强,则 0和1出现不会太集中,也不会太分散。换句话说,可以通过0 和1出现的集中程度度量序列随机性的大小。 若序列随机,则游程的个数不能太多,也不能太少。游程 长度也不应太长或太短。相应地,就会出现游程个数检验和 游程长度检验。 在固定序列长度 m和n时,可以通过游程的个数 R 过多或 过少来定义假设检验的拒绝域。
mn R2 1 mn 2mn(2mn m n)
m n
2
(m n 1)
对显著性水平 ,如果 p 值 ,拒绝零假设,否则不能拒绝
例2.5 假如我们掷一个硬币,将正面向上记做1,将反面向上 记做0,例如我们得到一列这样的结果: 00000001111110000111100 假定在 R软件中,x代表上面的数据,则游程个数可由语句 N=length(x); k=1; for (i in 1: (N-1)) if (x[i]!=x[i+1])k=k+1 得到。 而“0”的个数 m 和“1”的个数 n 可由下面语句得到: m=sum(1-x); n=sum(x)