2.5 关于随机性的游程检验资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
R 的分布
X1, X 2 , , X n 是一列由0或1构成的序列,假设检验问题 H 0 : 数据出现顺序随机 H1 : 数据出现顺序不随机
在零假设 H 0 成立的情况下,X i ~b 1, p ,p 是 1 出现的概率。
n p 由 确定,游程个数 R 的分布与 p 有关 N 然而,在已知 m 和 n 时,游程个数 R 的条件分布就与 Biblioteka Baidu 无关了
一、游程
一个两分的总体,如按性别区分的人群,按产品是否有毛 病区分的总体等等,随机从中拍取一个样本,样本也可以分为 两类:类型1和类型2. 凡属类型1的记做0,类型2的记做1 当样本按某种顺序排列(如按抽取时间先后排列)时,一个 或者一个以上相同符号连续出现的段,就被称作游程,也就是 说,游程是在一个两种类型的符号的有序排列中,相同符号连 续出现的段。
m 1 n 1 2 k 1 k 1 P ( R 2k ) N n m 1 n 1 m 1 n 1 k 1 k k k 1 P ( R 2k 1) N n
二、检验统计量
检验统计量为: R 游程个数 例如,对于序列 1100001110110000111100, R=8,游程长度分别为 2,4,3,1,2,4,4,2 极端情况: 000001111111 R=2 0101010101010 R = 2min(m,n)+1 所以,2 ≤ R ≤ 2min(m,n)+1 极端情况都说明数据不具有随机性。 那么 R 服从什么分布呢?
二、随机游程的检验
Mood (1940) 提出关于这一问题的检验 假设检验: 随机抽取一个样本,其观察值按某种顺序排列,如果 研究所关心的问题是:被有序排列的两种类型符号是否随 机排列,则可以建立双侧备择.
H0 : 数据出现顺序随机 H1 : 数据出现顺序不随机
如果关心的是序列是否具有某种倾向,则应建立单侧备择
2.3
关于随机性的游程检验
在实际中,经常需要考虑一个序列中的数据出现是否与 顺序无关,这关系到数据是否独立. 几乎所有经典统计方法在理论上都要求样本是随机样本, 即要求重复观察到的一组变量值在统计上相互独立。 参数统计很难考察这一问题,但从非参数的角度考察时, 若数据出现趋势,周期性规律,就不能表示数据是独立的。 这些问题可以转化为 0-1 序列或类型出现顺序的随机性问 题。 游程检验就是检验数据出现顺序是否随机,其出发点是 检验样本的独立性。
建立了抽样分布,根据分布公式就可以得到在 H(即随机性) 0 成立时,P( R r ) 或 P( R r ) 的值,计算拒绝域进行检验。 —— Wald -Wolfowitz 检验
1. 在 m 和 n 不大时,可以用计算器或查表来进行计算 通常的表是给出水平 0.025, 0.05 及 m 和 n 时,拒绝域的 临界值 c1 和 c2,满足 P( R c1 ) 及 P( R c2 ) .
在数据出现顺序是否随机的检验中,一个典型的序列就是 二元0/1序列出现顺序的随机性问题 在一个二元序列中,0和1交替出现,一个由0或1连续构成 的串称为一个游程(run),一个游程中数据的个数称为游程的长 度。 一个序列里游程个数用R表示, R表示0和1交替轮换的频 繁程度。容易看出, R是序列中0和1交替轮换的总次数加1. 假如我们掷一个硬币,这是一个伯努利试验,将正面向上 记做1,将反面向上记做0,例如我们得到一列这样的结果: 00000001111110000111100 如果称连在一起的0或1为游程,则上面这组数中有3个0游 程,2个1游程,一共是5个游程 (R=5) 这里0的总个数为 m=13,1的总个数为 n=10. 记总的试验 次数为 N,有 N=m+n
H0 : 序列是随机的 H1 : 序列具有混合的倾向 H0 : 序列是随机的 H1 : 序列具有成群的倾向
注:
1. 为了对假设作出判定,被收集的样本数据仅需定类尺度 测量,但要求进行有意义的排序,按一定次序排列的样本观 察值能够被变换为两种类型的符号(比如 二元0/1序列)
2. 在H0为真的情况下,两种类型符号出现的可能性相等, 其在序列中是交互的。相对于一定的 m和n,序列游程的总 数应在一个范围内。 若游程的总数过少,表明某一游程的长度过长,意味着 许多0 或许多1 连在一起,序列存在成群的倾向; 若游程总数过多,表明游程长度很短,意味着 0 和1交 替出现得太频繁,序列具有混合的倾向。 因此,无论游程的总数 R 过多或过少,都表明序列不是 随机的。
2. 当样本很大时,当数据序列的量很大时,即 n , 在零假设下,根据精确分布的性质可以得到 E ( R) 2 Var ( R ) mn 1 mn 2mn(2mn m n)
假定有 m 个 0 和 n 个 1,m n N,出现任何一种不同结构序列的 N N 可能性是 1 1 n m
如果游程个数为奇数R 2k+1,这意味着 如果游程数为偶数R 2k,这意味着 0 和 1 各有 k 个游程, 于是得到 R 的条件分布为
有 k 1 个 1 游程和 k 个 0 游程;或有 k 1 个 0 游程和 k 个 1 游程。
如果 0/1 序列中0和1出现的顺序规律性不强,随机性强,则 0和1出现不会太集中,也不会太分散。换句话说,可以通过0 和1出现的集中程度度量序列随机性的大小。 若序列随机,则游程的个数不能太多,也不能太少。游程 长度也不应太长或太短。相应地,就会出现游程个数检验和 游程长度检验。 在固定序列长度 m和n时,可以通过游程的个数 R 过多或 过少来定义假设检验的拒绝域。