非参数统计-趋势存在性检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在R软件中,我们可以直接调用函数进行随机游程检 验,首先需要装在软件包tseries。选择Packages-Install
pacakges(s),
在弹出的对话框中选择一个稳定的镜像地址,系统会自动连 接到主页:http://cran.r-project.org/上的统计包。选择需要的 统计包自动安装,在输入library(tseries)。
换的频繁程度。 序列长度为n,n1表示序列中1的个数,n0表示0的
个数。 如果0/1序列中0和1出现的顺序规律性不强,随机
性强,则0和1出现不会太集中,也不会太分散。 通过0和1出现的集中程度度量序列随机性大小。
游程: 01111为两个游程 游程长度: 一个游程中数据的个数 一个序列里游程个数记为R. 例3.7 序列1100001110110000111100
> rain<c(206,223,235,264,229,217,188,204,182,230,223,227,242,238,207,208,216,233,233,2 74,234,227,221,214,226,228,235,237,243,240,231,210) year<-1971:2002 anova(lm(rain~(year))) # lm(y~(x)) 用线型趋势拟合、
例3.8 某银行观察平时到银行柜台办理业务的人员的性别 (用M表示男性,用F表示女性):
FMMMMMFMMFMMMMFMFMMMFFFMMM 解:检验假设问题如下: H0: 男女出现顺序随机 H1: 男女出现顺序不随机 =0 .05 n1 = 18, n0 = 8,由附表3 (Run-test游程检验表) 查出r1=7,ru=17,R = 12 结论:由于 7 R = 12 17,不能拒绝 H0。
※ Cox与Staut在研究数列趋势问题的时候,于1955年提出了 一种不依赖于趋势结构的快速判断趋势是否存在的方法。即 Cox-Staut趋势存在性检验,它的理论基础正是符号检验。
Cox-Staut趋势存在性检验
如果数据有上升的趋势,那么排在后面的数的取 值比排在前面的数显著地大;反之,如果数据有 下降的趋势,那么排在后面的数的取值比排在前 面的数明显的小。
如果 -1.96 <Z < 1.96,不能拒绝 H0 否则 拒绝H0.
Runs Test: 大样本例子
-1.96 Z = -1.81 1.96, 不能拒绝 H0
R软件中随机游程检验的程序及输出结果
> library(tseries) > run1=c(1,1,1,0,rep(1,7),0,1,1,0,0,rep(1,6), + 0,rep(1,4),0,rep(1,5),rep(0,4),rep(1,13)) > a=as.factor(run1) #将run1转换为因子型变量 > runs.test(a)
R=8,游程长度分别为2,4,3,1,2,4,4,2 极端情况: 000001111111 R=2
0101010101010 R=2min(n0,n1)+1 所以, 2≤R≤2min(n0,n1)+1 如果游程个数过多,则说明0和1交替周期特征明显, 如果游程个数过少,则说明0和1相对比较集中, 极端情况都说明数据不具有随机性。因而可以通过游程 个数过多或过少来定义假设检验的拒绝域。
Runs Test
data: a
Standard Normal = -1.8074, p-value = 0.0707
alternative hypothesis: two.sided
R中常量基本分为四种类型,逻辑型,数值型,字符型,因子型。 因子型分为顺序数据和分类数据两种类别,表现为数字但不能 进行加减乘除。
如果数据有上升或下降的趋势,或有呈周期性变 化的规律等特征时,均可能表示数据与顺序是有 关的,或者说序列不是随机出现的。
基本概念
在一个二元序列中,0和1交替出现: 1000011101100001110
其中一个由0或1连续构成的串称为一个游程, 一个游程中数据的个数称为游程的长度。 一个序列中游程个数用R表示。 表示0和1交替轮
Exact binomial test
data: sum(x > y) out of length(x - y) number of successes = 2, n = 16, p-value = 0.004181 alternative hypothesis: p is not equal to 0.5 结论: 拒绝H0, 认为降雨量有明显变化.
换句话讲,我们可能生成一些数对,每一个数对 是从前后两个不同时期中各选出一个数构成的, 这些数对可以反映前后数据的变化。为保证数对 同分布,前后两个数的间隔应固定。
这就意味着将数据一分为二,自然形成前后数对 。Cox-Staut提出最优的拆分点是数列中位于中间 位置的数。
Cox-Staut趋势存在性检验
Cox-Staut趋势存在性检验
※在客观世界里,会遇到各种随时间变动的数据序列,人们 通常关心数据随时间变化的规律,其中趋势分析是常会分析 的内容。在趋势分析中,人们首先关心趋势是否存在,如果 趋势存在,则根据实际需要用更精细的模型刻画或度量趋势。
※随着统计软件的日益盛行,很多人习惯将存在性问题和确 定性问题一起由计算机回答,比如,回归分析就是最常用的 趋势分析工具。通常的做法是用线性回归拟合直线,然后再 通过检验验证线型假设的合理性,如果检验通过,则表示回 归模型是合适的,线型趋势是存在的。如果模型没有通过检 验,我们只能否定存在线型趋势,而不能否定其他趋势。
=5,
计算 2P{K k} 2P{K 2} 2(0.5)5(1 5 10) 1 0.05
结论: 不能拒原假设。
类似于符号检验在配对样本比较中的应用
> x<-c(206,223,235,264,229) > y<-c(217,188,204,182,230) binom.test(sum(x<y),length(x-y),0.5)
况下 Di服从二项分布。从而转化为符号检验问题。
K min(S ,S ) ~ b(n', 0.5)
当n=100时,c=50,形成的数对为(x1,x51)、(x2,x52)…(x50,x100) 当n= 99 时,c=50,形成的数对为(x1,x51)、(x2,x52)…(x49, x99)
例3.6 某地区32年来的降雨量如下表 问 (1):该地区前10年来降雨量是否有变化? (2):该地区32年来降雨量是否有变化?
年份 1971 1972 1973 1974 1975 1976 1977 1978 降雨量 206 223 235 264 229 217 188 204 年份 1979 1980 1981 1982 1983 1984 1985 1986 降雨量 182 230 223 227 242 238 207 208 年份 1987 1988 1989 1990 1991 1992 1993 1994 降雨量 216 233 233 274 234 227 221 214 年份 1995 1996 1997 1998 1999 2000 2001 2002 降雨量 226 228 235 237 243 240 231 210
检验原理:
设数据序列: X1,X2,…,X,n 双边假设检验问题:
H0 : 数据序列无趋势 H1 : 有增长或减少趋势
令:
c

n / 2, n为偶数 (n+1)/2, n为奇数
取数对 (xi , xic,) Di xi xic ,S 为正的数目,S 为负的数目,
当正号或者负号太多的时候,认为数据存在趋势。在零假设情
12 3
45 6 7
8 9 10
NNN F NNNNNNN F NN FF NNNNNN F NNNN F
11
12
13
NNNNN FFFF NNNNNNNNNNNN R = 13
解 假设检验问题: 05 H0: 学生迟到是随机的。 H1: 学生迟到不随机。
本例中n1 = 40,n0= 1=0, =0.05
Residuals 30 10170.11 339.0035 接受H0,认为降雨量线性趋势并不显著.
plot(x,y) lines(x,y,lwd=2)
rain 180 200 220 240 260
1970
1975
1980
1985 year
1990
1995
2000
随机游程检验
在实际中,经常需要考虑一个序列中的数据出现 是否与顺序无关,这关系到数据是否独立。
Exact binomial test
data: sum(x < y) out of length(x-y) number of successes = 2, n = 5, p-value = 1 alternative hypothesis: p is not equal to 0.5
> x<-c(206,223,235,264,229,217,188,204,182,230,223,227,242,238,207,208) > y<-c(216,233,233,274,234,227,221,214,226,228,235,237,243,240,231,210) > binom.test(sum(x>y),length(x-y),0.5)

1n )(
0
1 )
P(R 2k 1) k 1 k
k k 1
n
()
n1
2(n1

1n )(
0
1 )
P(R 2k) k 1 k 1
n
()
n1
建立了抽样分布之后,在零假设成立时,可以计算P(R r)或者P(R r) 的值,进行检验。
小样本的例子(p69 例3.8)
Runs Test: 大样本的例子
经验表明: 如果 n1或 n2 > 20, R 的 抽样分布近似为正态
R
2n1n
2(2n1n
2

wk.baidu.comn1

n
)
2
(n1n2)2 (n1 n2 1)
根据求得的Z值, 看是否在拒绝域内, 做出决策。
Runs Test:大样本例子(p70 例3.10)
3.10 实习学生在实习期迟到的情况被门镜系统记录下来,N表示 正常,F表示迟到,根据以下记录判断这名学生迟到是否随机。
anova(lm(y~(x)))方差分析,对模型显著性进行检验。 Analysis of Variance Table Response: rain Terms added sequentially (first to last)
Df Sum of Sq Mean Sq F Value Pr(F)
year 1 535.36 535.3637 1.579228 0.2185691
检验原理和计算方法
设是由0或者1组成的序列 X1,X2,…,Xn ,假设检验问题:
H0 : 数据出现顺序随机 H1 : 数据出现不随机
R的为概游率程都个是数1/(,nn1) 假,设R的有条n0件个分0,n布1 个1,n0 n1 n ,这时R取任何一个值
(n1

1n )(
0
1 )

(n1
相关文档
最新文档