第二章 单样本位置检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

就前例,天文学家肖维勒于1863年处理的关于金星 垂直半径的15个观察数据的残差数据: -1.40,-0.44,-0.30,-0.24,-0.22,-0.13, -0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01。
第二章 单样本检验
X t s/ n
假设某地的10栋房屋出售价格(由低到高排列)为56,69,85, 87,90,94,96,113,118,179(单位:万元),问该地区 的平均房屋价格是否和人们相信的84万元的水平大体一致。 我们用M表示价格分布的中心(这里考虑中位数),如假设该 分布对称,则M也是均值。我们要检验 H0:M=84,H1:M≠84
这些数据能否认为受到非随机因素干扰,例如测量仪器 工作条件的改变等的影响。
分析: 这些观察值的中位数是204.6,如果原假设成立,则数 据应在中位数附近随机出现。若把小于中位数的观察 值换为0,大于或等于中位数的换为1,即可应用游程 检验其随机性
Ex.一洗发剂厂家的质检科要求每瓶洗发剂的平均重量为 12盎司,现从一台机器中随机抽取20瓶,测其重量如 下:
检验原理和计算方法
设是由0或者1组成的序列 X1,X2,…,Xn ,假设检验问题:
H0 : 数据出现顺序随机 H1 : 数据出现不随机
n m R为游程个数,假设有 m 个0, 个1, n N ,这时R取任何一个值 N 的概率都是1/ ( n ) ,R的条件分布
n 1 m 1 n 1 m 1 ( )( )( )( ) k 1 k k k 1 P(R 2k 1) N ( ) n
K s
在零假设情况下 K ~ B(n,p) ,在显著性水平为 的拒绝域为
Pbinom (K k | n, p)
其中k是满足上式最大的k值。
例. 5年前成年人在每日24小时中的睡眠量中位数是7.5小时, 每日睡眠量为6小时或少于6小时的占调查总数的5%,9小时和9 小时以上的也占5%。现对8个普通成年人的抽样调查结果为: 7.2,8.3,5.6,7.4,7.8,5.2,9.1,5.8.问现在成年人的 睡眠量是否少于5年前
其中k是满足上式最大的k值。
结果讨论
结果讨论
大样本结论
当n较大时
n n K ~ N( , ) 2 4
Z
Kn 2 N(0,1), n n4
双边: H0 : Me M0 H1 : Me M0 ,p-值 2PN(0,1) (Z z)
左侧: H0 : Me M0 H1 : Me M0 ,p-值 PN(0,1) (Z z) 右侧: H0 : Me M0 H1 : Me M0 ,p-值 PN(0,1) (Z z)
年份
1979 1980 1981 1982 1983 1984 1985 1986
降雨量 182 230 223 227 242 238 207 208 年份 1987 1988 1989 1990 1991 1992 1993 1994
降雨量 216 233 233 274 234 227 221 214 年份 1995 1996 1997 1998 1999 2000 2001 2002
在0.05的水平下,拒绝前面的两个假设.
中位数的置信区间
根据顺序统计量构造置信区间:
P(X(i) M X( j) ) 1 P(M X(i) ) P(M X( j) ) n n n n k1 k1 Cn Cn 1 i j n 2 k j 2 k i
降雨量 226 228 235 237 243 240 231 210
ab 180
1970
200
220
240
260
1975
1980
1985 1971:2002
1990
1995
2000
Ex 美国国家宇航局(NASA)自1966至1984年的科研和发展经费按 时间顺序为
5.9 3.7 5.4 3.9 4.7 4.0 4.3 4.2 3.8 4.9 3.4 5.2 3.4 6.0 3.3 3.3 3.3 6.7 7.0
广义符号检验
假设总体 F(x) ,Mp是总体的p分位数,对于假设检验问题:
H0 : Mp M0 H1 : Mp M0
M 0 是待检验的分位数取值
定义, s I(x i M0 ) , s I(x i M0 ) ,则 s s n ,


n
n
i 1
i 1
游程检验的应用
1.用于检验两个总体的分布的位臵参数是否相同
分析: 如果原假设成立,则两个行业的负债水平的分布 是相同的,将其混合后,应能较为充分、均匀地混合, 游程数R应该比较大,反之当游程数R较小,则说明两 个总体的分布可能不同。
2.检验单样本的随机性
对某型号20根电缆依次进行耐压试验,测得数据如下:
按照传统的参数方法,假设房屋价格服从正态分布N(84, σ2), X t 则检验统计量为 ,其值为1.384,结论呢? s / n
第一节 符号检验和置信区间
假设总体 F(x) ,Me是总体的中位数,对于假设检验问题:
H0 : Me M0 H1 : Me M0
M 0 是待检验的中位数取值
我们主要介绍小样本时正态总 体下单个异常值的发现准则。
设X1,X2,…,Xn是来自正态总体N(μ,σ2)的样本,记X(1) ≤… ≤X(n) 为其顺序统计量。检验X(1) 或X(n)是否为异 常值主要采用“半极差型检验法”。 若X(n) 是异常值,则以σ作为刻度,应远离μ,即 (X(n)-μ)/σ的值过大。因μ,σ未知,采用其矩估计代 替,故检验统计量为: (X(n)- X )/S(或 ( X -X(1))/S ), 当其值大于某临界值时,拒绝原假设。


K min(S ,S ) ~ b(n' ,0.5)

某地区32年来的降雨量如下表 问 (1):该地区前10年来降雨量是否有变化? (2):该地区32年来降雨量是否有变化?
年份 1971 1972 1973 1974 1975 1976 1977 1978
降雨量 206 223 235 264 229 217 188 204
问:经费有无上升趋势?
首先用全部19个数据检验: n=19,c=10,S_=5,S+=4
再用1970年至1984年的15个数据检验: n=15,c=8,S_=7,S+=0
第五节 游程检验
游程的概念:
随机游程问题: 一个二元0/1序列当中,一段全由0或者全由1 构成的串成为一个游程,游程中数据的个数称 为游程长度,序列中游程的个数记为R,反映0 和1轮换交替的频繁程度。在序列长度N固定的 时候,如果游程过少过者过多,都说明序列的 随机性不好。当游程过多或者过少时,就会怀 疑序列的随机性。 序列110000111011000011110 共有8个游程
试验证这条机器多灌少灌是不是随机的.
补充:异常值的发现与剔除
在处理统计问题时,往往首先假设样本来自某个总 体,然后在此基础上进行统计推断。可能发生以下这 样的情况:在得到了一组观察值后,发现其中的一个 或几个观察值和其他观察值之间在数量上有较大的差 异,不像是从同一个总体得到的。例如:天文学家肖 维勒于1863年处理的关于金星垂直半径的15个观察数 据的残差数据: -1.40,-0.44,-0.30,-0.24,-0.22,-0.13, -0.05,0.06,0.10,0.18,0.20,0.39,0.48,0.63,1.01, 其中-1.40和1.01与其他观察值之间的差异较大。 我们不禁要问这15个观察值是不是在同一条件下得到的? -1.40和1.01是不是金星垂直半径的观察数据?
第四节 Cox-Stuart趋势检验
检验原理:
数据序列: X1,X2,…,Xn,双边假设检验问题:
H0 : 数据序列无趋势 H1 : 有增长或减少趋势
令:
n / 2, n为偶数 c (n+1)/2, n为奇数
S 取数对(x i , xic ),Di xi xic , 为正的数目, S 为负的数 目, 当正号或者负号太多的时候,认为数据存在趋势。在 零假设情况下 Di服从二项分布。从而转化为符号检验问题
根据5年前的数据,对0.05,0.5和0.95分位数,至少检验一个 假定。 H0:M0.5=7.5,H1:M0.5<7.5 H0:M0.05=6,H1:M0.05<6 H0:M0.95=9,H1:M0.95<9
字符型数据的符号检验
例. 为了解顾客对咖啡、茶的喜好情况,在某商店随机抽取15 名顾客进行调查,结果有12名顾客更喜欢茶,2名顾客更喜欢 咖啡,1名对两者同样喜好。问顾客对咖啡和茶的喜好是否有 差异?若有,是否更喜欢茶?
此处的目的只是为了比较两者中哪个更受欢迎,并无定量的数 值,因而可采用符号检验,只要把更喜欢茶视为“成功+”,反 之视为“失败-”。故可建立如下假设: H0:P+=P-,H1:P+≠P_ H0:P+=P-,H1:P+>P_
在第一个检验中,仅判定对二者喜好程度有无差异。由调查结 果,n=14,s+=12,s-=2. P(S_≤2|n=14,p=0.5)=0.0065,双侧检 验概率为0.013.
构造置信度为90%的置信区间: [9.8,10.0]
第二节 Wilcoxon符号秩检验
基本概念及性质 对称分布的中心一定是中位数,在非对称分布情况下, 中位数不唯一,研究对称中心比中位数更有意义。 例:下面的数据中,O是对称中心吗?
0
检验步骤
Ex.某公司为减少加工费用,决定若铸件重量的中位数超过 25公斤,就转包加工;若不超过25公斤则不转包。现从这批 铸件中随机抽取8件,每件的重量分别为:24.3,25.8, 25.4,24.8,25.2,25.1,25.0,25.5。使用这些数据,能 否作出这批铸件是否转包的决定。
样本中的个别观察值,其数值明显地偏离子样中 其余的观察值,这些个别观察值可能来自不同的总体, 我们称之为异常值(或离群值)。 用百度文库计方法去发现异常值,实际上是某种显著性检 验。在给定显著水平α下,给出一个判断准则,使得 当实际数据都是来自同一总体(无异常值)的时候, 判断有异常值的概率(即犯错误的概率)不超过α
检验步骤
Ex. 某国12位总统的寿命(岁)分别为46,57,58,60,60, 63,64,67,72,78,88,90.问该国总统寿命的中位数是否 不小于71.5岁?
根据题目,要检验的是 H0:M0.5≥71.5,H1:M0.5<71.5 显然,当S_太多时拒绝原假设。经计算,K=min(S_,S+)=4 P(K≤4)=? 0.1938
n 1 m 1 2( )( ) k 1 k 1 P(R 2k) N ( ) n
建立了抽样分布之后,在零假设成立时,可以计算P(R c1 ) 或者P(R c2 ) 的值,进行检验。
随机游程问题: 序列110000111011000011110 共有8个游程
R=8,m=10, n=11 查表可知,α=0.05下临界值为c1=6,c2=17 因为6<R=8<17,故认为这些数据符合随机性假设
由于得到的区域是以中位数对称的,
P X ( k 1)
k 1 M X ( nk ) 1 2P( K k ) Cn 2 i 0 k 1 n 1
采用Neyman原则选择最优置信区间,首先找出置信度大于 1 的所有区间 [X(i) , X( j) ],i j ,然后再从中选择区间 长度最小的一个。对于大样本,可以用近似正态分布求 置信区间。
n
n
定义, s I(x i M0 ) , s I(x i M0 ) ,则 s s n , K min{s ,s }
i 1
i 1
在零假设情况下 K ~ B(n,0.5) ,在显著性水平为 的拒绝域为
Pbinom (K k | n, p 0.5)
相关文档
最新文档